
拿起手機,打開應用,按下麥克風圖標的按鈕,然后對著麥克風位置說話。
這樣的應用場景是否讓你似曾相識?只不過微軟將這樣的使用場景用在了實時語音翻譯上。
借助智能手機,微軟開發(fā)的新一代翻譯工具,能夠實現(xiàn)實時的語音翻譯。13日,微軟發(fā)布了最新一代翻譯工具(Microsoft Translator),目前可以實現(xiàn)包括中文在內的9種語言的實時語音轉為文本翻譯。
微軟翻譯產(chǎn)品營銷總監(jiān)Olivier Fontana 14日對騰訊科技表示,微軟認為,現(xiàn)在幾乎人人都擁有的智能手機,為實時語音翻譯提供了良好的硬件條件。

微軟翻譯產(chǎn)品營銷總監(jiān)Olivier Fontana展示微軟新一代翻譯工具
此次微軟發(fā)布的翻譯工具最大的亮點在于,通過底層的深度神經(jīng)網(wǎng)絡技術的應用,能夠實現(xiàn)更準確的語音識別和翻譯。
Fontana介紹說,該工具的語音識別部分和翻譯部分分別采用了ResNet深度神經(jīng)網(wǎng)絡和LSTM(長期短期記憶)技術,其中ResNet神經(jīng)網(wǎng)絡深度達到了150層。
在用戶界面方面,微軟采用了類似微信“面對面建群”的方式:參與到對話中的所有人都在一個群組中,任何人對著群組說自己的語言,其他群組成員就能在群組的聊天界面中實時看到翻譯成自己所使用的語言的文字。

以創(chuàng)建和加入群組的方式進行實時語音翻譯
為了試驗該翻譯工具的具體功能,F(xiàn)ontana 與我以及另一位公關人員就使用該工具的群組語音實時翻譯功能,進行了一場三種語言的交互對話,我們各自用中文、法語和英語對著應用說話,我們各自手機的群組中則自動呈現(xiàn)中各自能夠識別的語言文字。
就我個人的體驗感受來說,整個過程非常簡單易用,界面簡潔直觀,發(fā)起對話的人只要新建群組,就隨機自動生成一個群組代號以及二維碼,其他參與到該群組中的人只需掃描二維碼或者輸入群組代號,并且選擇自己的語言,就能即刻加入到對話當中。
對于語音的識別以及翻譯過程,也十分流暢,在我們三人簡單通過該工具用各自語言進行對話的過程中,并沒有出現(xiàn)太多的影響對話節(jié)奏的延遲問題。
當然,語音的識別和翻譯的準確率依然存在一定的瑕疵,比如當我用更為口語化的中文語言進行對話時,翻譯的質量便并不是特別好,只有當我使用簡潔、邏輯清晰的語言時,翻譯出的文本質量才讓我比較滿意。

翻譯結果以用戶熟悉而親切的聊天界面方式呈現(xiàn)
Fontana介紹說,這一工具能夠在很多實際的場景下得到應用,例如國際旅游團的導游向使用不同語言的各國游客介紹景點,在陌生的國度乘車時與司機進行實時對話,參加使用不同語言的國際性會議等。
目前該翻譯工具支持蘋果iOS、安卓、Windows等系統(tǒng),除了手機端,也能夠在個人電腦上通過網(wǎng)頁創(chuàng)建或加入群組對話。
Fontana介紹說,該翻譯工具使用了深度神經(jīng)網(wǎng)絡技術,在使用過程中的語音數(shù)據(jù)也會上傳至云端供神經(jīng)網(wǎng)絡的訓練使用,他強調了所有上傳到云端的語音都是匿名的,以保護使用者的隱私。
此外,微軟在該產(chǎn)品的開發(fā)過程中,還特別注意到了一些其他特殊場景的應用所需考慮到的細節(jié),例如在教室中使用,系統(tǒng)會自動只讓創(chuàng)建群組的教師的聲音能夠被錄入,而學生的聲音不被錄入,因為美國法律規(guī)定在不被允許的前提下,不能讓學生的聲音被采集。另外,該翻譯工具還能自動屏蔽污言穢語,這些文字會以*號呈現(xiàn),翻譯的語音則由“嗶”音或其他用戶自定義的聲音代替。
目前,越來越多的人工智能技術被運用到翻譯應用中。前不久谷歌(微博)翻譯團隊發(fā)布的全新的翻譯工具,同樣也運用了LSTM技術,無論是翻譯的準確度還是質量相較過去的基于詞組和短句的翻譯方式,都得到了顯著的提高。
特別提醒:本網(wǎng)內容轉載自其他媒體,目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點。其原創(chuàng)性以及文中陳述文字和內容未經(jīng)本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網(wǎng)有任何內容侵犯您的權益,請及時聯(lián)系我們,本站將會在24小時內處理完畢。