穀歌工程師：新技術將助語音識別更人性化-香港商报

首页 > > 25

穀歌工程師：新技術將助語音識別更人性化

2014-12-24

来源：新浪科技

　　導語：彭博社今天撰文稱，穀歌正在語音識別領域展開野心勃勃的嘗試，希望通過技術手段實現超越人類的語音識別能力。

　　以下為文章全文：

　　與數字助理交流是一件有趣的事情，它給人的感覺就像固執的孩童。如果你曾經對著Xbox或Siri大喊大叫，你或許已經失去希望。

　　但研究人員表示，語音識別和人工智能領域最近取得的突破，很快就能大幅提升這些電子產品的理解力，使之更好地與我們展開溝通。穀歌工程師約翰·沙爾克維克(Johan Schalkwyk)表示，這種全新的設備不僅能聽懂我們的意思，還能結合上下文和語調的細微差別理解深層含義。

　　沙爾克維克正在穀歌從事一項野心勃勃的研究項目，希望創造一套能夠利用該公司海量數據的語音系統。他表示，他們目前正在實驗室裏測試的一個項目，使得電腦可以聽懂並“思考”人們的語言。

　　最近在語音識別和機器學習領域的各種發明，將給語音識別帶來巨大變化。Siri的一位主要發明人表示，工程師都在狂熱地開發語音識別技術，使之具備足夠的智能，與用戶展開真正的對話。“語音識別的所有領域都已經實現了很大進步。”Siri底層技術開發公司SRI International副總裁威廉·馬克(William Mark)說，“這種對話互動目前已經成為前沿技術。”

　　蒂姆·圖塔爾(Tim Tuttle)等待這一天已經很久了。他1997年獲得了麻省理工學院的博士學位，並任職於該校的人工智能實驗室。10年來，他先後在矽穀多家公司任職，最終於2010年創辦了自己的Except Labs公司。圖塔爾的公司去年開始設計一套系統，向移動應用中增加複雜的語音指令。例如，當用戶走進超市時，可以通過這項功能獲知他要買的掃帚位於哪條走廊。

　　“一年前，我們在做基准，我們當時認為這不可能實現。但一切都變了。我們的公司已經對語音加倍下注，主要是因為近期所看到的各種技術進步。”圖塔爾說，“與人類水平相當或高於人類水平的語音識別系統將實現商業化。”

　　但首先，還是先來回顧一下曆史：兩年半以前，穀歌和多倫多大學的研究人員發表了一篇頗有影響力的論文，內容是用“深度神經網絡”來指導計算機語音技術。幾個月後，微軟與IBM也合作發表了另外一篇論文，被穀歌工程師傑夫·迪恩(Jeff Dean)稱作“語音研究領域20年來的最大進步”。

　　這些研究使得一項數十年前誕生的數字神經網絡發明再度複活。這項技術1980年代就在大數據預測和分析領域實現了不俗的表現，但當時卻受到計算機速度的制約。神經網絡直到最近才變成可行的方案，這主要得益於計算機處理速度的加快，以及新型軟件模式的發展。

　　穀歌實驗室也開展了類似的研究。6個月前，該團隊從這種名為“前饋神經網絡”的古老方法入手，推動了神經網絡技術的複活。這項技術使得系統可以儲存更多信息，並處理更長、更複雜的序列。穀歌這項突破源自對底層代碼的簡化，可以在同一套系統中保留更多觀點和觀念，從而讓用戶更容易問出複雜的問題，獲得有意義的答案。“系統複雜性可能對長期發展構成傷害。”沙爾克維克說。

　　穀歌的系統目前使用上下文、物理位置和其他因素進行假設，以此判斷語音的真正含義——整個過程與人類大腦的思維模式相仿。穀歌的最新網絡技術可以提升這一過程的效率，從而處理比以往更大的數據量，回答更複雜的問題。

　　為了解釋語音識別技術在未來的工作方式，沙爾克維克提到了穀歌山景城總部幾公裏之外的一間高級越南餐廳。這家名為Xanh Restaurant的餐廳對典型的語音識別構成了挑戰，因為Xanh這個名字(發音為“紮恩”)很難識別。“如果我能找到它在地圖上的位置，然後說，‘這是一家餐館，它位於加州。’那么范圍就會立刻縮小。”沙爾克維克說，“借助語義技術，我們便可大幅改善質量。”

　　這聽起來似乎很簡單，但對電腦來說，聽到一個單詞，然後把它放到句子上下文中去辨識，再與地理信息相結合，是十分困難而且耗費時間的。如今，穀歌語音搜索已經可以正確識別餐館。沙爾克維克表示，穀歌今後將可以處理其他一些同樣野心勃勃的問題。

　　沙爾克維克表示，在穀歌內部，語音識別技術已經實現了空前的進步。雖然穀歌的重大進步還要再等一兩年才能應用到用戶的手機中，但這個項目已經催生了很多可以應用於穀歌其他項目的技術。“開發登月項目的同時，還會同時設計出另外一百項有用的技術。”沙爾克維克說。

　　沙爾克維克表示，穀歌語音識別技術3年前只能認出3/4的口語單詞。但得益於創新速度的加快，穀歌手機應用現在可以正確識別12/13的單詞。據圖塔爾介紹，要不了多久，“我們就將生活在一個沒有鍵盤的世界裏。”

[责任编辑：朱剑明]

网友评论