百度稱語音識別技術取得重大突破：超蘋果穀歌-香港商报

首页 > > 25

百度稱語音識別技術取得重大突破：超蘋果穀歌

2014-12-19

来源：新浪科技

　　新浪科技訊北京時間12月19日下午消息，百度首席科學家吳恩達今天宣布，該公司已經在語音識別領域取得重大突破，語音識別效果超過了穀歌和蘋果。

　　當人工智能專家吳恩達今年5月出任百度首席科學家時，他對他和他的團隊可能在加州桑尼韋爾新開設的實驗室中開展什么項目，還顯得有些謹慎。不過，他還是禁不住披露，更加先進的語音識別技術將成為智能手機時代的關鍵。

　　今天，百度披露了這位穀歌前研究員、斯坦福教授和Coursera聯合創始人的初步研究成果。在康奈爾大學圖書館的arXiv.org網站上發表的一篇論文中，吳恩達和阿瓦尼·哈努恩(Awani Hannun)領導的百度研究團隊的10名成員宣布，他們開發出了一種更加精准的語音識別技術——這項功能對蘋果Siri和穀歌語音搜索的重要性正在與日俱增。吳恩達表示，按照語音識別系統的標准測試來看，百度的Deep Speech語音識別技術已經超過了穀歌和蘋果。

　　具體而言，Deep Speech在嘈雜環境中的表現好於同類技術，例如汽車內或人群中。由於可以大大提升實際的使用效果，因此這項技術顯然十分關鍵。吳恩達表示，在嘈雜的背景中進行測試的結果顯示，Deep Speech的錯誤率比穀歌語音API、wit.ai、微軟必應語音和蘋果Dictation低了10%。

　　百度還提供了兩位大學教授發表的正面評論。“百度研究院的這項最新成果有望顛覆今後的語音識別效果。”卡內基梅隆大學工程學助理研究教授伊恩·雷恩(Ian Lane)在新聞稿中說。蘋果和穀歌尚未對此置評。

　　與其他語音識別系統一樣，百度這項技術的基礎也是一個名為“深度學習”的人工智能分支。這款軟件試圖以非常原始的方式模擬大腦新皮層的神經元活動——約有80%的大腦活動發生在那裏，所以深度學習系統可以識別出數字形態的聲音、圖像和其他數據。“第一代深度學習語音識別技術已經達到極限。”吳恩達說。

　　百度團隊搜集了9600人的7000小時語音內容，多數都是在安靜環境下搜集的——但測試者有時也會佩戴播放嘈雜背景音的耳機，使得他們就像在嘈雜環境中一樣改變語調。他們後來使用名為“疊加”的物理學定律增加了15種噪音，包括酒店、汽車和地鐵中的環境噪音。這相當於把樣本數據擴大到10萬小時。隨後，他們讓系統學會在各種噪音中識別語音。

　　吳恩達表示，這遠比目前的語音識別系統簡單得多。他們使用了一系列模塊來分析音素和其他語音內容。這通常需要通過名為“隱馬可夫模型”的統計概率系統來手工設計模塊，這就需要大量人手來進行校准。而百度的系統用深度學習算法取代了這些模型。這種算法可以在遞歸神經網絡上進行訓練，從而大大降低了系統的複雜性。

　　但真正令這種模式奏效的是強大的新型計算機系統，其中配備了很多Nvidia的GPU。GPU在個人電腦中用來加速圖形。由於采用並行設計，因此它們在訓練識別模型時的速度和成本遠好於標准的電腦處理器——大約比吳恩達在斯坦福和穀歌時使用的系統快40倍。“算法很重要，但成功有很大一部分歸因於可擴展性。”他說，這既包括電腦系統的可擴展性，也包括其數據處理量的可擴展性。

　　倘若達不到這種速度，就無法迅速分析各種數據。吳恩達表示，該系統的複雜程度超過當今的其他GPU系統。“我們已經進入語音識別2.0時代，”他說，“現在才剛剛開始。”

　　吳恩達認為，隨著用戶越來越偏向語音指令，而拋棄文字模式，因此語音識別的重要性還將與日俱增。“讓他們對我們說話是關鍵。”他列舉了中國最近的一條搜索命令：“你好，百度。我昨天中午街邊吃了面條。明天還賣不賣?”吳恩達承認，現階段回答這一問題的難度非常大，但他認為語音技術的進步是關鍵。

　　物聯網的發展也是關鍵所在，它將把所有的“啞巴”設備引入線上。他認為，當他的孫子得知我們如今使用的電視機和微波爐都不支持語音指令時，可能會感到十分驚訝。“語音是物聯網的關鍵技術。”他說。

　　吳恩達拒絕透露百度需要多久才能將這項新技術整合到搜索和其他服務中。但在被問及這是否需要花費很多年時，他卻很快回應道：“肯定不需要!”所以，這項技術有望在明年投入使用。這項技術可能應用到百度Cool Box中，為用戶提供語音音樂搜索服務。

　　吳恩達的團隊成員約有30人，明年還將翻番，他們的目標是幫助百度躋身全球頂尖互聯網公司之列。雖然目前主要服務於中國市場，但該公司卻計劃向全球擴張，包括開發世界級的語音識別、翻譯和其他功能。

[责任编辑：朱剑明]

网友评论