在語音識別這件事上漢語應(yīng)該可以比英語早一年超越人類水平

matthew 2016.10.25 09:19 語音識別概念股

幾天前，微軟語音識別實現(xiàn)了歷史性突破，英語的語音轉(zhuǎn)錄達(dá)到專業(yè)速錄員水平。

10 月 19 日，微軟的這條消息發(fā)布之后在業(yè)內(nèi)引起了極大的關(guān)注。語音識別一直是國內(nèi)外許多科技公司發(fā)展的重要技術(shù)之一，微軟的此次突破是識別能力在英語水平上第一次超越人類。在消息公開之后，百度首席科學(xué)家吳恩達(dá)就發(fā)推恭賀微軟在英語語音識別上的突破，同時也讓我們回憶起一年前百度在漢語語音識別上的突破。

吳恩達(dá)：在 2015 年我們就超越了人類水平的漢語識別；很高興看到微軟在不到一年之后讓英語也達(dá)到了這一步。

百度 Deep Speech2，漢語語音識別媲美人類

去年 12 月，百度研究院硅谷人工智能實驗室（SVAIL）在 arXiv 上發(fā)表了一篇論文《Deep Speech 2: End-to-End Speech Recognition in English and Mandarin（Deep Speech 2：端到端的英語和漢語語音識別）》，介紹了百度在語音識別技術(shù)的研究成果。

2016-10-25 星期二 0-17-44

論文摘要：

我們的研究表明一種端到端的深度學(xué)習(xí)（end-to-end deep learning）方法既可以被用于識別英語語音，也可以被用于識別漢語語音——這是兩種差異極大的語言。因為用神經(jīng)網(wǎng)絡(luò)完全替代了人工設(shè)計組件的流程，端到端學(xué)習(xí)讓我們可以處理包含噪雜環(huán)境、口音和不同語言的許多不同的語音。我們的方法的關(guān)鍵是 HPC（高性能計算）技術(shù)的應(yīng)用，這讓我們的系統(tǒng)的速度超過了我們之前系統(tǒng)的 7 倍。因為實現(xiàn)了這樣的效率，之前需要耗時幾周的實驗現(xiàn)在幾天就能完成。這讓我們可以更快速地迭代以確定更先進的架構(gòu)和算法。這讓我們的系統(tǒng)在多種情況下可以在標(biāo)準(zhǔn)數(shù)據(jù)集基準(zhǔn)上達(dá)到能與人類轉(zhuǎn)錄員媲美的水平。最后，通過在數(shù)據(jù)中心的 GPU 上使用一種叫做的 Batch Dispatch 的技術(shù)，我們表明我們的系統(tǒng)可以并不昂貴地部署在網(wǎng)絡(luò)上，并且能在為用戶提供大規(guī)模服務(wù)時實現(xiàn)較低的延遲。

論文中提到的 Deep Speech 系統(tǒng)是百度 2014 年宣布的、起初用來改進噪聲環(huán)境中英語語音識別準(zhǔn)確率的系統(tǒng)。在當(dāng)時發(fā)布的博客文章中，百度表示在 2015 年 SVAIL 在改進 Deep Speech 在英語上的表現(xiàn)的同時，也正訓(xùn)練它來轉(zhuǎn)錄漢語。

當(dāng)時，百度首席科學(xué)家吳恩達(dá)說：「SVAIL 已經(jīng)證明我們的端到端深度學(xué)習(xí)方法可被用來識別相當(dāng)不同的語言。我們方法的關(guān)鍵是對高性能計算技術(shù)的使用，相比于去年速度提升了 7 倍。因為這種效率，先前花費兩周的實驗如今幾天內(nèi)就能完成。這使得我們能夠更快地迭代?！?/p>

語音識別技術(shù)已經(jīng)發(fā)展了十多年的時間，這一領(lǐng)域的傳統(tǒng)強者一直是谷歌、亞馬遜、蘋果和微軟這些美國科技巨頭——據(jù) TechCrunch 統(tǒng)計，美國至少有 26 家公司在開發(fā)語音識別技術(shù)。

但是盡管谷歌這些巨頭在語音識別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢讓后來者似乎難望其項背，但因為一些政策和市場方面的原因，這些巨頭的語音識別主要偏向于英語，這給百度在漢語領(lǐng)域?qū)崿F(xiàn)突出表現(xiàn)提供了機會。

作為中國最大的搜索引擎公司，百度收集了大量漢語（尤其是普通話）的音頻數(shù)據(jù)，這給其 Deep Speech 2 技術(shù)成果提供了基本的數(shù)據(jù)優(yōu)勢。

不過有意思的是，百度的 Deep Speech 2 技術(shù)主要是在硅谷的人工智能實驗室開發(fā)的，其研究科學(xué)家（名字可見于論文）大多對漢語并不了解或說得并不好。

但這顯然并不是問題。

盡管 Deep Speech 2 在漢語上表現(xiàn)非常不錯，但其最初實際上并不是為理解漢語訓(xùn)練的。百度美國的人工智能實驗室負(fù)責(zé)人 Adam Coates 說：「我們在英語中開發(fā)的這個系統(tǒng)，但因為它是完全深度學(xué)習(xí)的，基本上是基于數(shù)據(jù)的，所以我們可以很快地用普通話替代這些數(shù)據(jù)，從而訓(xùn)練出一個非常強大的普通話引擎?！?/p>

2016-10-25 星期二 0-18-20

用于英語和普通話的 Deep Speech 2 系統(tǒng)架構(gòu)，它們之間唯一的不同是：普通話版本的輸出層更大（有 6000 多個漢語字符），而英語版本的只有 29 個字符。

該系統(tǒng)能夠識別「混合語音（hybrid speech）」——很多普通話說話人會組合性地使用英語和普通話。

在 Deep Speech 2 于 2015 年 12 月首次發(fā)布時，首席科學(xué)家吳恩達(dá)表示其識別的精度已經(jīng)超越了 Google Speech API、wit.ai、微軟的 Bing Speech 和蘋果的 Dictation 至少 10 個百分點。

據(jù)百度表示，到今年 2 月份時，Deep Speech 2 的短語識別的詞錯率已經(jīng)降到了 3.7%！Coates 說 Deep Speech 2 轉(zhuǎn)錄某些語音的能力「基本上是超人級的」，能夠比普通話母語者更精確地轉(zhuǎn)錄較短的查詢。

百度在其技術(shù)發(fā)展上大步邁進，Deep Speech 2 目前已經(jīng)發(fā)展成了什么樣還很難說。但一項技術(shù)終究要變成產(chǎn)品和服務(wù)才能實現(xiàn)價值。

科大訊飛的語音識別

百度的 Deep Speech 識別技術(shù)是很驚人，但就像前文所說一項技術(shù)終究要變成產(chǎn)品和服務(wù)才能實現(xiàn)價值，科大訊飛無疑在這方面是做得最好的公司之一。

科大訊飛在自然語言處理上的成就是有目共睹的，在語音識別上的能力從最初到現(xiàn)在也在不斷迭代中。2015 年 9 月底，機器之心對胡郁的一次專訪中，他就對科大訊飛語音識別技術(shù)的發(fā)展路線做過清晰的介紹：

科大訊飛很好地跟隨了語音識別的發(fā)展歷史，深度神經(jīng)網(wǎng)絡(luò)由 Geoffrey Hinton 與微軟的鄧力研究員最先開始做，科大訊飛迅速跟進，成為國內(nèi)第一個在商用系統(tǒng)里使用深度神經(jīng)網(wǎng)絡(luò)的公司。谷歌是最早在全球范圍內(nèi)大規(guī)模使用深度神經(jīng)網(wǎng)絡(luò)的公司，谷歌的 Voice Search 也在最早開創(chuàng)了用互聯(lián)網(wǎng)思維做語音識別。在這方面，科大訊飛受到了谷歌的啟發(fā)，在國內(nèi)最早把漣漪效應(yīng)用在了語音識別上面，因此超越了其他平臺。

科大訊飛最初使用隱馬爾可夫模型，后面開始在互聯(lián)網(wǎng)上做，2009 年準(zhǔn)備發(fā)布一個網(wǎng)頁 demo，同年 9 月份安卓發(fā)布之后開始轉(zhuǎn)型移動互聯(lián)網(wǎng)，并于 2010 年 5 月發(fā)布了一個可以使用的手機上的 demo；2010 年 10 月份發(fā)布了語音輸入法和語音云。

整個過程中最難的地方在于，當(dāng)你不知道這件事情是否可行時，你能夠證明它可行。美國那些公司就是在做這樣的事情。而科大訊飛最先領(lǐng)悟到，并最先在國內(nèi)做的。

到今年 10 月份剛好過去一年，科大訊飛的語音識別技術(shù)在此期間依然推陳出新，不斷進步。去年 12 月 21 日，在北京國家會議中心召開的以「AI 復(fù)始，萬物更新」為主題的年度發(fā)布會上，科大訊飛提出了以前饋型序列記憶網(wǎng)絡(luò)（FSMN, Feed-forward Sequential Memory Network）為代表的新一代語音識別系統(tǒng)。

2016-10-25 星期二 0-19-09

論文摘要：

在此論文中，我們提出了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu)，也就是前饋型序列記憶網(wǎng)絡(luò)（FSMN），在不使用循環(huán)前饋的情況下建模時間序列中的 long-term dependency。此次提出的 FSMN 是一個標(biāo)準(zhǔn)的全連接前饋神經(jīng)網(wǎng)絡(luò)，在其隱層中配備了一些可學(xué)習(xí)的記憶塊。該記憶塊使用一個抽頭延時線結(jié)構(gòu)將長語境信息編碼進固定大小的表征作為短期記憶機制。我們在數(shù)個標(biāo)準(zhǔn)的基準(zhǔn)任務(wù)上評估了 FSMN，包括語音識別和語言建模。實驗結(jié)果表明，F(xiàn)SMN 在建模語音或語言這樣的序列信號上，極大的超越了卷積循環(huán)神經(jīng)網(wǎng)絡(luò)，包括 LSTM。此外，由于內(nèi)在無循環(huán)模型架構(gòu)，F(xiàn)SMN 能更可靠、更快速地學(xué)習(xí)。

后來通過進一步的研究，在 FSMN 的基礎(chǔ)之上，科大訊飛再次推出全新的語音識別框架，將語音識別問題重新定義為「看語譜圖」的問題，并通過引入圖像識別中主流的深度卷積神經(jīng)網(wǎng)絡(luò)（CNN, Convolutional Neural Network）實現(xiàn)了對語譜圖的全新解析，同時打破了傳統(tǒng)深度語音識別系統(tǒng)對 DNN 和 RNN 等網(wǎng)絡(luò)結(jié)構(gòu)的依賴，最終將識別準(zhǔn)確度提高到了新的高度。

后來，科大訊飛又推出了全新的深度全序列卷積神經(jīng)網(wǎng)絡(luò)（Deep Fully Convolutional Neural Network, DFCNN）語音識別框架，使用大量的卷積層直接對整句語音信號進行建模，更好的表達(dá)了語音的長時相關(guān)性，比學(xué)術(shù)界和工業(yè)界最好的雙向 RNN 語音識別系統(tǒng)識別率提升了 15% 以上。

2016-10-25 星期二 0-19-09333

DFCNN 的結(jié)構(gòu)圖

DFCNN 的結(jié)構(gòu)如圖所示，DFCNN 直接將一句語音轉(zhuǎn)化成一張圖像作為輸入，即先對每幀語音進行傅里葉變換，再將時間和頻率作為圖像的兩個維度，然后通過非常多的卷積層和池化（pooling）層的組合，對整句語音進行建模，輸出單元直接與最終的識別結(jié)果（比如音節(jié)或者漢字）相對應(yīng)。

搜狗語音識別

縱觀整個互聯(lián)網(wǎng)行業(yè)，可以說搜狗作為一家技術(shù)型公司，在人工智能領(lǐng)域一直依靠實踐來獲取更多的經(jīng)驗，從而提升產(chǎn)品使用體驗。

在前幾天的錘子手機新品發(fā)布會上羅永浩現(xiàn)場演示了科大訊飛的語音輸入之后，一些媒體也對科大訊飛和搜狗的輸入法的語音輸入功能進行了對比，發(fā)現(xiàn)兩者在語音識別上都有很不錯的表現(xiàn)。比如《齊魯晚報》的對比結(jié)果：

值得一提的是，得益于創(chuàng)新技術(shù)，搜狗還擁有強大的離線語音識別引擎，在沒有網(wǎng)絡(luò)支持的情況下依舊可以做到中文語音識別，以日常語速說話，語音識別仍然能夠保持較高的準(zhǔn)確率。這一點科大訊飛表現(xiàn)也較為優(yōu)秀，兩者可謂旗鼓相當(dāng)。

整體體驗下來，搜狗在普通話和英文的語音輸入方面表現(xiàn)，與訊飛相比可以說毫不遜色，精準(zhǔn)地識別能力基本可以保證使用者無需進行太多修改。此前在搜狗的知音引擎發(fā)布會上，搜狗語音交互技術(shù)項目負(fù)責(zé)人王硯峰稱「搜狗知音引擎具備包括端到端的語音識別、強大的智能糾錯能力、知識整合使用能力以及多輪對話和復(fù)雜語義理解能力」，這些都有效保證了搜狗語音輸入在識別速度、精準(zhǔn)度、自動糾錯、結(jié)合上下文語意理解糾錯方面收獲不錯的表現(xiàn)。

八月份，搜狗發(fā)布了語音交互引擎——知音，其不僅帶來了語音識別準(zhǔn)確率和速度的大幅提升，還可以與用戶更加自然的交互，支持多輪對話，處理更復(fù)雜的用戶交互邏輯，等等。知音平臺體現(xiàn)出搜狗在人工智能技術(shù)領(lǐng)域的長期積累，同時也能從中看出他們的技術(shù)基因和產(chǎn)品思維的良好結(jié)合。

2016-10-25 星期二 0-20-37

搜狗知音引擎

搜狗把語音識別、語義理解、和知識圖譜等技術(shù)梳理成「知音交互引擎」，這主要是強調(diào)兩件事情，一是從語音的角度上讓機器聽的更加準(zhǔn)確，這主要是識別率的提升；另一方面是讓機器更自然的聽懂，這包括在語義和知識圖譜方面的發(fā)展，其中包括自然語言理解、多輪對話等技術(shù)。

語音識別系統(tǒng)流程：語音信號經(jīng)過前端信號處理、端點檢測等處理后，逐幀提取語音特征，傳統(tǒng)的特征類型包括 MFCC、PLP、FBANK 等特征，提取好的特征送至解碼器，在聲學(xué)模型、語言模型以及發(fā)音詞典的共同指導(dǎo)下，找到最為匹配的詞序列作為識別結(jié)果輸出。

據(jù)搜狗上個月的一篇微信公眾號文章寫道：

在語音及圖像識別、自然語言理解等方面，基于多年在深度學(xué)習(xí)方面的研究，以及搜狗輸入法積累的海量數(shù)據(jù)優(yōu)勢，搜狗語音識別準(zhǔn)確率已超 97%，位居第一。

不過遺憾的是，搜狗還尚未公布實現(xiàn)這一結(jié)果的相關(guān)參數(shù)的技術(shù)信息，所以我們還不清楚這樣的結(jié)果是否是在一定的限定條件下實現(xiàn)的。

就像TechCrunch 統(tǒng)計的美國有 26 家公司開發(fā)語音識別技術(shù)一樣，中國同樣有一批專注自然語言處理技術(shù)的公司，其中云知聲、思必馳等創(chuàng)業(yè)公司都在業(yè)內(nèi)受到了極大的關(guān)注。

材料顯示，云知聲語音識別純中文的 WER 相對下降了 20%，中英混合的 WER 相對下降了 30%。

在今年 6 月機器之心對云知聲 CEO 黃偉（參見：專訪云知聲CEO黃偉：如何打造人工智能「云端芯」生態(tài)閉環(huán)）的專訪中，黃偉就說過 2012 年年底，他們的深度學(xué)習(xí)系統(tǒng)將當(dāng)時的識別準(zhǔn)確率從 85% 提升到了 91% 。后來隨著云知聲不斷增加訓(xùn)練數(shù)據(jù)，如今識別準(zhǔn)確率已經(jīng)能達(dá)到 97% ，屬于業(yè)內(nèi)一流水平，在噪音和口音等情況下性能也比以前更好。

思必馳的聯(lián)合創(chuàng)始人兼首席科學(xué)家俞凱是劍橋大學(xué)語音博士，上海交大教授。他在劍橋大學(xué)待了 10 年，做了 5 年的語音識別方面的研究，后來做對話系統(tǒng)的研究。整體上，思必馳做的是語音對話交互技術(shù)的整體解決方案，而不是單純的語音識別解決方案。因此在場景應(yīng)用中，思必馳的系統(tǒng)和科大訊飛的系統(tǒng)多有比較，可相互媲美。

當(dāng)然，此領(lǐng)域內(nèi)還有其他公司的存在。這些公司都在努力加速語音識別技術(shù)的提升。語音識別領(lǐng)域依然有一系列的難題需要攻克，就像微軟首席語音科學(xué)家黃學(xué)東接受機器之心專訪時所說的那樣，「理解語義是人工智能下一個需要攻克的難題，要做好語音識別需要更好的語義理解，這是相輔相成的?！?/p>

語音識別概念股：拓爾思、科大訊飛、歌爾聲學(xué)、共達(dá)電聲、漢王科技。