亚洲最大看欧美片,亚洲图揄拍自拍另类图片,欧美精品v国产精品v呦,日本在线精品视频免费

<pre id="9e7lc"></pre>

當(dāng)前位置：站長資訊網(wǎng) > 新聞資訊 > 正文

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

2020-08-21 分類：新聞資訊閱讀(1749) 評論(0)

　　未來人工智能會像水和電一樣無所不在，在“萬物互聯(lián)時代”，語音將成為人機(jī)交互的新常態(tài)。風(fēng)吹麥浪，靜夜蟲鳴。人類能聽到的聲音大約有40多萬種，頻率在20至20000赫茲之間。智能終端能聽到多少呢?

　　在科大訊飛2015年度發(fā)布會的現(xiàn)場，3000余人見證了這樣的一場人機(jī)互動。演示人員在5米開外，用聲音操控DingDong，完成了一系列高難度的訂票任務(wù)，引來臺下陣陣驚嘆!

　　現(xiàn)場那么嘈雜，DingDong卻如此“聽話”,要讓DingDong聽懂這么多聲音，而且具備遠(yuǎn)場識別的功能，它必須聽的到，而且要聽的更加清晰，人類可以帶上助聽器，機(jī)器需要什么呢?

　　【麥克風(fēng)陣列】就充當(dāng)了助聽器這樣的角色。這個名詞是不是很陌生,放心!下面小編和你嘮嘮這個【麥克風(fēng)陣列】。

　　麥克風(fēng)陣列(Microphone Array)，從字面上，指的是麥克風(fēng)的排列。也就是說由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成，用來對聲場的空間特性進(jìn)行采樣并處理的系統(tǒng)。

　　早在20世紀(jì)70、80年代，麥克風(fēng)陣列已經(jīng)被應(yīng)用于語音信號處理的研究中，進(jìn)入90年代以來，基于麥克風(fēng)陣列的語音信號處理算法逐漸成為一個新的研究熱點(diǎn)。而到了“聲控時代”，這項(xiàng)技術(shù)的重要性顯得尤為突出。

　　麥克風(fēng)陣列能干什么?

　　任何一項(xiàng)技術(shù)的發(fā)生發(fā)展都伴隨著問題的提出及解決，麥克風(fēng)陣列也是如此。那么它主要應(yīng)用在哪些場景下呢?又有著怎樣的功能!

　　◆【噪聲環(huán)境怎么破?】—— 語音增強(qiáng)(Speech Enhancement)

　　語音增強(qiáng)是指當(dāng)語音信號被各種各樣的噪聲(包括語音)干擾甚至淹沒后，從含噪聲的語音信號中提取出純凈語音的過程。所以DingDong在嘈雜環(huán)境下，也能準(zhǔn)確識別語音指令。

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

　　通過麥克風(fēng)陣列波束形成進(jìn)行語音增強(qiáng)示意圖

　　從20世紀(jì)60年代開始，Boll等研究者先后提出了針對使用一個麥克風(fēng)的語音增強(qiáng)技術(shù)，稱為單通道語音增強(qiáng)。因?yàn)樗褂玫柠溈孙L(fēng)個數(shù)最少，并且充分考慮到了語音譜和噪聲譜的特性，使得這些方法在某些場景下也具有較好的噪聲抑制效果，并因其方法簡單、易于實(shí)現(xiàn)的特點(diǎn)廣泛應(yīng)用于現(xiàn)有語音通信系統(tǒng)與消費(fèi)電子系統(tǒng)中。

　　但是，在復(fù)雜的聲學(xué)環(huán)境下，噪聲總是來自于四面八方，且其與語音信號在時間和頻譜上常常是相互交疊的，再加上回波和混響的影響，利用單麥克風(fēng)捕捉相對純凈的語音是非常困難的。而麥克風(fēng)陣列融合了語音信號的空時信息，可以同時提取聲源并抑制噪聲。

　　目前科大訊飛已經(jīng)實(shí)現(xiàn)了基于線性陣列、平面陣列以及空間立體陣列的波束形成和降噪技術(shù)，效果均達(dá)到業(yè)界一流水平。

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

　　2013年科大訊飛車載降噪產(chǎn)品和國際競爭對手效果對比

　　◆【說話人老是變幻位置怎么破?】——聲源定位(Source Localization)

　　現(xiàn)實(shí)中，聲源的位置是不斷變化的，這對于麥克風(fēng)收音來說，是個障礙。麥克風(fēng)陣列則可以進(jìn)行聲源定位，聲源定位技術(shù)是指使用麥克風(fēng)陣列來計(jì)算目標(biāo)說話人的角度和距離，從而實(shí)現(xiàn)對目標(biāo)說話人的跟蹤以及后續(xù)的語音定向拾取，是人機(jī)交互、音視頻會議等領(lǐng)域非常重要的前處理技術(shù)。所以麥克風(fēng)陣列技術(shù)不限制說話人的運(yùn)動，不需要移動位置以改變其接收方向，具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強(qiáng)的抗干擾能力等特點(diǎn)，因而成為智能語音處理系統(tǒng)中捕捉說話人語音的重要手段。

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

　　混響產(chǎn)生原因示意圖

　　◆【室內(nèi)回聲太大怎么破?】——去混響(Dereverberation)

　　一般我們聽音樂時，希望有混響的效果，這是聽覺上的一種享受。合適的混響會使得聲音圓潤動聽、富有感染力?；祉?Reverberation)現(xiàn)象指的是聲波在室內(nèi)傳播時，要被墻壁、天花板、地板等障礙物形成反射聲，并和直達(dá)聲形成疊加，這種現(xiàn)象稱為混響。

　　但是，混響現(xiàn)象對于識別就沒有什么好處了。由于混響則會使得不同步的語音相互疊加，帶來了音素的交疊掩蔽效應(yīng)(Phoneme Overlap Effect)，從而嚴(yán)重影響語音識別效果。

　　影響語音識別的部分一般是晚期混響部分，所以去混響的主要工作重點(diǎn)是放在如何去除晚期混響上面，多年來，去混響技術(shù)抑制是業(yè)界研究的熱點(diǎn)和難點(diǎn)。利用麥克風(fēng)陣列去混響的主要方法有以下幾種：

　　1、基于盲語音增強(qiáng)的方法(Blind signal enhancement approach)，即將混響信號作為普通的加性噪聲信號，在這個上面應(yīng)用語音增強(qiáng)算法。

　　2、基于波束形成的方法(Beamforming based approach)，通過將多麥克風(fēng)對收集的信號進(jìn)行加權(quán)相加，在目標(biāo)信號的方向形成一個拾音波束，同時衰減來自其他方向的反射聲。

　　3、基于逆濾波的方法(An inverse filtering approach)，通過麥克風(fēng)陣列估計(jì)房間的房間沖擊響應(yīng)(Room Impulse Response, RIR)，設(shè)計(jì)重構(gòu)濾波器來補(bǔ)償來消除混響。

　　現(xiàn)在科大訊飛實(shí)現(xiàn)的基于麥克風(fēng)陣列的去混響技術(shù)能很好的對房間的混響情況進(jìn)行自適應(yīng)的估計(jì)，從而很好的進(jìn)行純凈信號的還原，顯著的提升了語音聽感和識別效果，在測試對比中，多種混響時間下識別效果接近手機(jī)近講水平。

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

　　混響語音信號頻譜

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

　　經(jīng)過去混響后的語音信號頻譜

　　◆【說話人太多怎么破?】——聲源信號提取(分離)

　　家里人說話太多，DingDong聽誰的呢。這個時候就需要DingDong聰明的辨別出哪個聲音才是指令。而麥克風(fēng)陣列可以實(shí)現(xiàn)聲源信號提取，聲源信號的提取就是從多個聲音信號中提取出目標(biāo)信號，聲源信號分離技術(shù)則是將需要將多個混合聲音全部提取出來。

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

　　通過麥克風(fēng)陣列波束形成做語音提取和分離

　　利用麥克風(fēng)陣列做信號的提取和分離主要有以下幾種方式：

　　1、基于波束形成的方法，即通過向不同方向的聲源分別形成拾音波束，并且抑制其他方向的聲音，來進(jìn)行語音提取或分離：

　　2、基于傳統(tǒng)的盲源信號分離(Blind Source Separation)的方法進(jìn)行，主要包括主成分分析(Principal Component Analysis，PCA)和基于獨(dú)立成分分析(Independent Component Analysis，ICA)的方法。

　　進(jìn)擊的麥克風(fēng)陣列

　　麥克風(fēng)陣列技術(shù)雖然已經(jīng)可以達(dá)到相當(dāng)?shù)募夹g(shù)水平，但是總體上還是存在一些問題的，比如當(dāng)麥克風(fēng)和信號源距離太遠(yuǎn)時(比如10m、20m距離)，錄制信號的信噪比會很低，算法處理難度很大;對于便攜設(shè)備來說，受設(shè)備尺寸以及功耗的限制，麥克風(fēng)的個數(shù)不能太多，陣列尺寸也不能太大。而分布式麥克風(fēng)陣列技術(shù)則是解決當(dāng)前問題的一個可能途徑。所謂分布式陣列就是將子陣元或子陣列布局到更大的范圍內(nèi)，相互之間通過有線或者無線的方式進(jìn)行數(shù)據(jù)的交換和共享，并在此基礎(chǔ)上進(jìn)行廣義上的聲源定位、波束形成等技術(shù)實(shí)現(xiàn)信號處理。

　　相對于目前集中式的麥克風(fēng)陣列，分布式陣列的優(yōu)勢也是非常明顯的。首先分布式麥克風(fēng)陣列(尤其無線傳輸)的尺寸的限制就不存在了;另外，陣列的節(jié)點(diǎn)可以覆蓋很大的面積——總會有一個陣列的節(jié)點(diǎn)距離聲源很近，錄音信噪比大幅度提升，算法處理難度也會降低，總體的信號處理的效果也會有非常顯著的提升，因此分布式陣列有可能是未來智能家居和會議系統(tǒng)中的主流方案。目前科大訊飛已經(jīng)開始了相關(guān)技術(shù)研究的布局工作。

　　在萬物互聯(lián)的今天，麥克風(fēng)陣列技術(shù)已經(jīng)深刻的走進(jìn)了我們的日常生活。在智能車載、智能家居、機(jī)器人、可穿戴設(shè)備等應(yīng)用熱潮正興起的時代，語音交互由于其便捷性，成了人機(jī)交互入口的第一選擇，麥克風(fēng)陣列自然也成為其中非常重要的前端技術(shù)。

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

　　2015年5月25日上海CES展上亮相的DingDong音箱

科大訊飛麥克風(fēng)陣列技術(shù)揭秘

　　DingDong音箱中的麥克風(fēng)陣列方案

　　試想一下，未來，你身邊的智能機(jī)器人通過聲源定位技術(shù)找到主人的方位，通過降噪技術(shù)濾除環(huán)境噪聲和混響，你可以自由在任意場景中控制機(jī)器人，回聲消除技術(shù)也可用于消除設(shè)備自身播放的聲音，從而真正的實(shí)現(xiàn)正真意義上的交互!

特別提醒：本網(wǎng)內(nèi)容轉(zhuǎn)載自其他媒體，目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾，并請自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益，請及時聯(lián)系我們，本站將會在24小時內(nèi)處理完畢。

贊(0)

標(biāo)簽：app source word 人工智能智能家居機(jī)器人科大訊飛視頻會議

相關(guān)推薦

網(wǎng)站地圖滬ICP備18035694號-2

滬公網(wǎng)安備31011702889846號