首页 > > 24

混戰語音識別 人工智能的黎明快了

2016-11-23
来源:第一财经日报

  劉佳

  [語音技術作為人機交互方式的入口,是人工智能重要的一環。不只是BAT,搜狗、科大訊飛等也在加速智能語音的布局,不少圍繞AI的創業團隊如雲知聲也都將語音作為探索人工智能的方向]

  情感合成、遠場方案、喚醒二期技術和長語音方案……這些聽起來有些陌生的技術,未來將可能改變我們的生活。

  11月22日,百度公司首席科學家吳恩達在談到百度語音技術的最新進展時,對外介紹了百度這四項語音技術,並宣布將免費開放給用戶和開發者。

  “我們已經站在人工智能的黎明。”吳恩達對包括第一財經在內的記者作出樂觀的預測,他希望通過開放人工智能技術,讓每個人都能更容易地開發出“智能應用”。

  不過,站在“黎明”的人工智能何時能有“質”的跨越,或許還需時日。一個細節是,在接受記者采訪的會議室裏,吳恩達座位不遠處還是坐了一位實時整理文字的速記人員。

  智能語音:已超正常人類的識別能力

  事實上,開放語音API(應用程序編程接口)已經成為行業趨勢。

  今年3月時,穀歌在Next雲計算大會上發布了面向開發者的新機器學習平台,並開放語音識別的API,即穀歌語音搜索和語音輸入的支持技術。GoogleCloudSPeechAPI一開始將免費提供,以後再進行收費。這一應用包括了80多種語言,適用於各種實時語音識別與翻譯應用。

  在開放背後,互聯網公司希望借此推動智能語音模型的進一步演進和智能語音技術的快速普及。

  對於百度公布的四項語音技術,吳恩達告訴第一財經記者,目前百度還沒有收費的計劃,這些技術旨在解決用戶在使用語音交互的場合時,普遍感到困擾的一些關鍵問題。“目前的語音識別已經超過了正常人的語音識別能力。”

  以情感合成為例,主要是基於深度學習和大數據處理技術,在數據采集、處理、建模等環節進行一系列創新,實現更富有表現力的自然朗讀效果。

  讀者甘肅數碼科技有限公司總經理金大時告訴記者,目前“讀者數字農家書屋”在甘肅慶陽市試點,根據百度大數據合成情感語音實現書籍有聲閱讀,讓很多不識字的老年人和留守兒童也享受到了閱讀的樂趣。

  而遠場方案技術則是百度自主研發的遠場識別技術,基於麥克風陣列,利用麥克風陣列束形成、語音增強、回聲消除、聲源定位等技術綜合實現高准確率遠場識別。

  百度稱,開發者可以通過這一新的技術接口,使語音識別距離增加到3~5米,設備的語音喚醒率提升到95%以上,或解決長時間語音識別的准確率問題。這將為語音技術帶來遠比現在更多的想象空間,而不只是遙控電視或解鎖手機。

  例如,百度在上海肯德基旗艦店投入使用的“小度機器人人機語音交互點餐”,可遠距離隨時應答點餐。

  百度語音喚醒技術,主要是通過通用喚醒詞解析、大數據聲學模型、雙層解碼等技術優化,喚醒率達95%,支持用戶自定義喚醒詞。喚醒二期加入指令喚醒,優化喚醒和識別性能。

  長語音技術則在LSTM(LongShort-TermMemory,一種時間遞歸神經網絡)音頻切分技術、深度學習預測停頓、說話人自適應、智能糾錯等方面技術突破。這意味著它將在方便語音輸入、內容記錄、智能客服、視頻轉寫等應用場景表現出想象空間。

  這也令來到中國的斯坦福大學的人工智能專家JamesLanday感慨:“近兩年,受益於大數據和深度學習技術的不斷發展,語音識別技術突飛猛進,速度及准確性都有了長足進步。”

  智能語音混戰

  語音技術作為人機交互方式的入口,是人工智能重要的一環。不只是BAT(百度、阿裏巴巴、騰訊),搜狗、科大訊飛等也在加速智能語音的布局,不少圍繞AI的創業團隊如雲知聲也都將語音作為探索人工智能的方向。

  要想順利進入這一領域,需要的是多年的技術與經驗積累。

  吳恩達告訴第一財經記者,語音識別技術非常複雜,最難的是核心技術的提升,例如識別率的提升,幾年前語音識別率還只有80%多,當時用起來還是相當困難;還有大數據語音合成等,現在的目標是如何才能遠遠超過人類的識別能力。此外,百度語音識別97%的准確率是在比較安靜的環境下達到的目標,在噪音幹擾的情況下如何提升識別率,百度還有工作要做。

  除了百度之外,可以看到的是,今年9月,騰訊雲技術團隊和微信AI團隊開放微信語音處理技術,推出了智能語音服務。在語音識別、語音合成、聲紋識別等功能上提供了垂直領域定制化的語音產品。阿裏的人工智能系統,已具備智能語音交互、圖像識別、交通預測、情感分析等功能。

  在語音識別領域,搜狗CEO王小川在不久前的世界互聯網大會上透露,搜狗輸入法一天處理的語音輸入請求達到1.9億次,產生超過16萬小時的語音數據。在龐大的用戶基礎和數據積累後,可以把語音輸入做到更極致的狀態,如語音合成、聲紋識別等。

  公開資料顯示,在技術指標方面,百度語音識別、搜狗輸入法語音識別、訊飛輸入法語音識別准確率達到97%,騰訊雲智能語音識別技術在通用領域中准確率達95%。

  在投資人士看來,智能語音仍是一個好的投資機會。此前,峰瑞資本早期項目負責人朱禕舟提到,盡管各家根據實驗數據得出的語音識別准確率達到95%甚至更高,但在實際使用時並沒有那么高,前端的語音/聲學交互的很多問題如果得不到解決,整體的體驗始終不夠好;而包括家居、車載、可穿戴設備、機器人等大量智能終端的爆發,智能語音將變得更加友好和重要。

  在IBM前全球副總裁、賽伯樂投資集團總裁王陽看來,未來人工智能在醫療、無人駕駛、金融、零售、安防、個人助理等七個領域有強大的應用空間。他提到,人工智能個人助理目前普遍應用於智能手機上的語音助理,語音輸入、家庭管家等,最終是在收集消費者的消費習慣,從而提供各類服務。

  ResearchandMarkets研究報告顯示,預計2016年全球智能語音產業規模可達82.3億美元以上,到2020年,全球語音市場規模預計將達到191.7億美元。

[责任编辑:朱剑明]
网友评论
相关新闻