亚洲最大看欧美片,亚洲图揄拍自拍另类图片,欧美精品v国产精品v呦,日本在线精品视频免费

  • 站長(zhǎng)資訊網(wǎng)
    最全最豐富的資訊網(wǎng)站

    百度語(yǔ)音識(shí)別技術(shù)突破,巨頭崛起,傳統(tǒng)沒(méi)落?

      語(yǔ)音識(shí)別行業(yè)正面臨新一輪的洗牌。

      早在兩年前,大家的普遍認(rèn)識(shí)是語(yǔ)音識(shí)別領(lǐng)域?qū)?huì)催生出巨頭公司。所以當(dāng)蘋(píng)果、Google、百度、三星和微軟提出要收購(gòu)當(dāng)時(shí)全球語(yǔ)音領(lǐng)域的老大Nuance的時(shí)候,Nuance CEO Paul Ricci一口回絕。

      但隨之不久,蘋(píng)果、Google和微軟都選擇了擺脫Nuance的依賴,自建團(tuán)隊(duì)開(kāi)發(fā)語(yǔ)音業(yè)務(wù)。在那之后,Nuance的市場(chǎng)份額節(jié)節(jié)下跌,2014年還高達(dá)60%的市場(chǎng)份額,一年時(shí)間縮水一半只剩31.1%(Source:Research and Markets)。相比之下,Google語(yǔ)音識(shí)別的市場(chǎng)份額增長(zhǎng)明顯。

      在英語(yǔ)領(lǐng)域,我們看到的趨勢(shì)是作為搜索巨頭的Google逐漸占據(jù)行業(yè)的主導(dǎo)權(quán)。那對(duì)于中文領(lǐng)域的市場(chǎng),是否會(huì)重現(xiàn)在英語(yǔ)領(lǐng)域語(yǔ)音識(shí)別發(fā)生的歷史呢?當(dāng)百度重兵布局語(yǔ)音領(lǐng)域,是否會(huì)成為中國(guó)語(yǔ)音識(shí)別領(lǐng)域標(biāo)準(zhǔn)的制定者,占據(jù)行業(yè)主導(dǎo)權(quán)呢?

      我們從多個(gè)角度分析。

      1.語(yǔ)音識(shí)別新架構(gòu):用做圖像的方法做語(yǔ)音

      近些年來(lái),我們發(fā)現(xiàn)在圖像領(lǐng)域有一個(gè)明顯的發(fā)展趨勢(shì):越來(lái)越深的卷積神經(jīng)網(wǎng)絡(luò)層級(jí)(CNN),從最初的8層,到19層、22層、乃至152層的網(wǎng)絡(luò)結(jié)構(gòu)。而隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,ImageNet競(jìng)賽的錯(cuò)誤率也從2012年的16.4%逐步下降到3.57%。

    百度語(yǔ)音識(shí)別技術(shù)突破,巨頭崛起,傳統(tǒng)沒(méi)落?

    ImageNet競(jìng)賽中,越來(lái)越深的CNN不斷刷新著其性能

      那么,深度學(xué)習(xí)在圖像領(lǐng)域的進(jìn)展,是否能夠在語(yǔ)音識(shí)別上有所突破呢?

      通常情況下,語(yǔ)音識(shí)別是基于時(shí)頻分析后的語(yǔ)音譜完成的。如果將卷積神經(jīng)網(wǎng)絡(luò)的思想應(yīng)用在語(yǔ)音識(shí)別的聲學(xué)建模上,我們就可以把時(shí)頻譜當(dāng)作一張圖像來(lái)處理。而由于卷積神經(jīng)網(wǎng)絡(luò)的局部連接和權(quán)重共享的特點(diǎn),它具有很好的平移不變性,所以可以將它應(yīng)用在語(yǔ)音識(shí)別中,而且還能克服語(yǔ)音信號(hào)本身的多樣性(說(shuō)話人自身、以及說(shuō)話人間、環(huán)境等)。

    百度語(yǔ)音識(shí)別技術(shù)突破,巨頭崛起,傳統(tǒng)沒(méi)落?

    Deep CNN語(yǔ)音識(shí)別的建模過(guò)程

      但這里遇到一個(gè)問(wèn)題,雖然在ImageNet競(jìng)賽中得到廣泛關(guān)注的Deep CNN結(jié)構(gòu)能夠顯著提高性能,但由于無(wú)法實(shí)現(xiàn)實(shí)時(shí)的計(jì)算,其很難在產(chǎn)品模型中得到實(shí)際的應(yīng)用。

      一個(gè)解決方案是借鑒Residual連接的思想,訓(xùn)練一個(gè)數(shù)十層的包含Residual連接的 Deep CNN,以用于工業(yè)產(chǎn)品中。

      百度對(duì)此做了對(duì)比實(shí)驗(yàn),最終發(fā)現(xiàn)Deep CNN架構(gòu)不僅能夠顯著提升HMM語(yǔ)音識(shí)別系統(tǒng)的性能,而且也能提升CTC語(yǔ)音識(shí)別系統(tǒng)的性能。在此同時(shí),百度也嘗試了將LSTM或GRU的循環(huán)隱層和CNN結(jié)合,這是相對(duì)較好的選擇。

      這也推導(dǎo)出了百度發(fā)布的新型語(yǔ)音識(shí)別架構(gòu):Deep CNN + LSTM + CTC。

      模型結(jié)構(gòu)采用:Deep CNN + Deep LSTM。

      建模方式:基于CTC的端對(duì)端建模。

      通過(guò)創(chuàng)新的架構(gòu),百度大幅提升了語(yǔ)音識(shí)別產(chǎn)品的性能,相對(duì)于工業(yè)界現(xiàn)有的CLDNN 結(jié)構(gòu),錯(cuò)誤率相對(duì)降低了10%以上。

      2.新架構(gòu)推動(dòng)語(yǔ)音大規(guī)模產(chǎn)業(yè)化

      從歷史來(lái)看,產(chǎn)品和系統(tǒng)真正的大規(guī)模使用和推廣,一般都來(lái)自于基礎(chǔ)性的變革和突破。

      對(duì)于語(yǔ)音識(shí)別來(lái)說(shuō),真正能夠?qū)崿F(xiàn)大規(guī)模使用的系統(tǒng),一定要滿足:在不同場(chǎng)景、方言下的穩(wěn)定性,大規(guī)模的訓(xùn)練能力,極短的訓(xùn)練時(shí)間,大大降低的機(jī)器耗費(fèi)。這好比 Android 一樣,穩(wěn)定、支持海量應(yīng)用和場(chǎng)景開(kāi)發(fā)、開(kāi)發(fā)時(shí)間短、開(kāi)發(fā)成本低。

      而Deep CNN和LSTM、CTC結(jié)合的架構(gòu),在以下幾個(gè)方面有顯著的優(yōu)勢(shì):

      1)更強(qiáng)的通用性。使用一個(gè)單獨(dú)的算法完成從任務(wù)輸入端到輸出端的所有過(guò)程。

      2)大規(guī)模訓(xùn)練的能力。能夠在約10萬(wàn)小時(shí)的精準(zhǔn)標(biāo)注語(yǔ)音數(shù)據(jù)中完成訓(xùn)練。

      3)大大降低服務(wù)成本。以CTC為例,它能夠讓語(yǔ)音識(shí)別解碼的計(jì)算量降下來(lái),光這部分成本就能降低近1倍。

      4)適合工業(yè)界。據(jù)百度Deep Speech中文研發(fā)負(fù)責(zé)人李先剛介紹,百度不僅能達(dá)到近十萬(wàn)級(jí)的數(shù)據(jù)規(guī)模,而且能夠支持高性能計(jì)算,這可以讓優(yōu)秀的模型直接移植到產(chǎn)品線中。

      5)性能更優(yōu)秀。以往語(yǔ)音系統(tǒng)將訓(xùn)練過(guò)程拆解,人為干預(yù)多,但效果不一定好。端對(duì)端模型減少了人為干預(yù),直接從輸入端到輸出端,一般性能會(huì)更好。

      6)層數(shù)越深,效果越好。引入了深層CNN的概念,語(yǔ)音識(shí)別的性能得到顯著的提升,正如李先剛博士所言:‘The Deeper , The Better’。

      李先剛博士特意提到了百度語(yǔ)音的研發(fā)側(cè)重點(diǎn)。與學(xué)術(shù)研究不同,百度語(yǔ)音聚焦于技術(shù)的實(shí)際應(yīng)用,技術(shù)難度和實(shí)現(xiàn)程度更高。針對(duì)語(yǔ)音識(shí)別產(chǎn)品而言,首先要具備在大規(guī)模語(yǔ)音數(shù)據(jù)庫(kù)上體現(xiàn)性能提升,其次就是具有適合語(yǔ)音在線識(shí)別產(chǎn)品運(yùn)行的模型。

      正是基于以上這些優(yōu)勢(shì),讓百度語(yǔ)音識(shí)別真正成為大規(guī)模產(chǎn)業(yè)化的基礎(chǔ),帶來(lái)真正的人機(jī)交互變革。

      3.語(yǔ)音識(shí)別以量取勝的同時(shí),也以質(zhì)取勝

      語(yǔ)音識(shí)別技術(shù)經(jīng)歷了長(zhǎng)達(dá)60年的發(fā)展。2006年Hinton提出了深度置信網(wǎng)絡(luò),掀起了深度學(xué)習(xí)的熱潮。2009年,Hinton以及他的學(xué)生D. Mohamed將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音的聲學(xué)建模,在小詞匯量連續(xù)語(yǔ)音識(shí)別數(shù)據(jù)庫(kù)TIMIT上獲得成功。從2010年開(kāi)始,微軟的俞棟、鄧力等學(xué)者首先嘗試將深度學(xué)習(xí)技術(shù)引入到語(yǔ)音識(shí)別,隨后逐漸成為了主流。

      而在以深度學(xué)習(xí)的發(fā)展脈絡(luò)下,語(yǔ)音識(shí)別的準(zhǔn)確率和通用性,本質(zhì)就在于:

      數(shù)據(jù)量的多少,這很大程度來(lái)自于搜索量、使用量的規(guī)模;

      算法的優(yōu)劣,頂級(jí)人才在這方面有極其重要的作用;

      計(jì)算能力的水平,尤其是在大規(guī)模產(chǎn)業(yè)化和成本因素下,F(xiàn)PGA等專(zhuān)業(yè)硬件的發(fā)展水平也非常重要。

      而在這三方面的比拼中,巨頭公司將會(huì)占據(jù)極大的優(yōu)勢(shì),因?yàn)樗鼈儞碛凶疃嗟臄?shù)據(jù),最頂級(jí)的人才以及最強(qiáng)大的計(jì)算能力水平。所以當(dāng)Google開(kāi)放語(yǔ)音識(shí)別API 后,在英語(yǔ)語(yǔ)音識(shí)別的市場(chǎng)中,Google將比Nuance有更大的優(yōu)勢(shì)。

      而在中文市場(chǎng)中,百度也將扮演著和Google在英語(yǔ)市場(chǎng)相似的角色。

      4.傳統(tǒng)專(zhuān)利池受到挑戰(zhàn),競(jìng)爭(zhēng)回歸技術(shù)

      語(yǔ)音識(shí)別的模型算法每年都有很大的變化。就以百度自己的語(yǔ)音識(shí)別技術(shù)來(lái)說(shuō),2013 年語(yǔ)音識(shí)別技術(shù)主要還是基于美爾子帶CNN模型,2014年發(fā)展出了Sequence Discriminative Training(區(qū)分度模型),2015年初發(fā)展出基于LSTM –HMM的語(yǔ)音識(shí)別,年底發(fā)展出基于LSTM-CTC的端對(duì)端語(yǔ)音識(shí)別系統(tǒng),而現(xiàn)在把Deep CNN模型和 LSTM、CTC結(jié)合了起來(lái)。

    百度語(yǔ)音識(shí)別技術(shù)突破,巨頭崛起,傳統(tǒng)沒(méi)落?

    百度語(yǔ)音識(shí)別技術(shù)每年迭代算法模型

      在快速發(fā)展的技術(shù)下,很多公司選擇了采取組建知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟的方法。2015年 11月,百度開(kāi)放了上百項(xiàng)智能語(yǔ)音專(zhuān)利,和海爾、京東、中興通訊、中國(guó)普天等 20 多家單位組建了智能語(yǔ)音知識(shí)產(chǎn)權(quán)產(chǎn)業(yè)聯(lián)盟。

      這種開(kāi)放式創(chuàng)新和開(kāi)放式知識(shí)產(chǎn)權(quán)許可的結(jié)合,也許會(huì)成為智能語(yǔ)音未來(lái)的產(chǎn)業(yè)核心模式。這也意味著傳統(tǒng)語(yǔ)音的專(zhuān)利池,在快速發(fā)展、迭代的語(yǔ)音技術(shù)下,在更開(kāi)放的語(yǔ)音聯(lián)盟下,會(huì)失去過(guò)去的保護(hù)作用。

      所以智能語(yǔ)音的未來(lái)發(fā)展,關(guān)鍵還是在于核心技術(shù)的突破,這也就來(lái)到了數(shù)據(jù)、算法和計(jì)算能力的比拼,這方面百度會(huì)有很大優(yōu)勢(shì)。

      5.人工智能技術(shù)生態(tài)的重要作用

      當(dāng)Google發(fā)布了語(yǔ)音開(kāi)放API,其對(duì)Nuance的打擊是致命的。這不僅僅是因?yàn)镚oogle在產(chǎn)品、技術(shù)上的優(yōu)勢(shì),而且也來(lái)自于Google強(qiáng)大的人工智能技術(shù)生態(tài),例如以TensorFlow為代表的深度學(xué)習(xí)引擎,因?yàn)榇罅康囊痪€工作人員使用,其對(duì)語(yǔ)音識(shí)別領(lǐng)域的開(kāi)發(fā)選擇有強(qiáng)大的影響力。

      當(dāng)語(yǔ)音技術(shù)逐漸往大規(guī)模產(chǎn)業(yè)化發(fā)展時(shí),公司的技術(shù)生態(tài)會(huì)非常重要。對(duì)于百度來(lái)說(shuō),9月份開(kāi)源的PaddlePaddle,1月份開(kāi)源的Warp-CTC,都對(duì)產(chǎn)業(yè)界有深遠(yuǎn)的影響。

      基于上面的分析,我們認(rèn)為語(yǔ)音識(shí)別將進(jìn)入大規(guī)模產(chǎn)業(yè)化的時(shí)代。而在核心技術(shù)和能力的比拼下,語(yǔ)音識(shí)別也將進(jìn)入巨頭崛起,傳統(tǒng)語(yǔ)音公司稍顯沒(méi)落的時(shí)代。

    特別提醒:本網(wǎng)信息來(lái)自于互聯(lián)網(wǎng),目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類(lèi)作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。如若本網(wǎng)有任何內(nèi)容侵犯您的權(quán)益,請(qǐng)及時(shí)聯(lián)系我們,本站將會(huì)在24小時(shí)內(nèi)處理完畢。

    贊(0)
    分享到: 更多 (0)
    網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)