首頁 > 科技 > 科技專題

戰勝棋手只是開始,人工智能下一步要挑戰翻譯官

2017-05-27
來源:極客公園

  編者按:如果你的朋友圈有一位人工智能行業的創業者,你可能會有些焦慮,因為他可能會隔三差五地轉個文章告訴你哪些行業要滅絕了。禮拜二,阿爾法狗「勝天半子」的時候大家也都很慌,網上流出很多文章說這狗已經聰明到讓人了,太可怕了。

  有那麼可怕嗎?

  目前的人工智能准確地說應該叫深度學習,其智能水平還停留在「幼兒」階段。就目前來看,人工智能在規則固定的棋牌游戲上超越人類無非是因為計算能力的優勢,而在身為人基本的語言能力方面,機器還遠遠達不到與人類同場競技的標准。

  本文編譯自 VentureBeat,原標題為《Why AI gets the language of games but sucks at translating languages》,略有改動。

  正如你在這周 Google DeepMind 的圍棋大會上所看到的,機器學習在最近幾年里已經深入滲透到了許多的行業中。

  然而在不久之前,對它的討論更多的只是停留在理論層面上,機器學習在生活中的應用仿佛還是科幻小說里的事,但現在,我們看到人工智能已經成功應用于智能汽車,電子游戲、數字營銷、虛擬助手、聊天機器人和其他我們生活的方方面面。

  

 

AI-Chatbot-Apps.jpg

 

 

(各大公司紛紛推出自家的聊天機器人 Chatbot,來源:Businessofapps)

  雖然人工智能已經成功攪亂並改善了許多行業,但在它克服一些障礙之前,我們還沒有必要擔心會丟掉我們手上的工作。在今年二月的一次翻譯比賽中,人類打敗了人工智能,但現實一點地說,即時而准確的機器翻譯成為現實也只是時間問題了。

  游戲的結束

  1996 年,IBM 的深藍計算機首次挑戰統治國際象棋十二年之久的世界冠軍卡斯帕羅夫,那一次人類贏了。但在 1997 年,深藍成功打敗了卡斯帕羅夫,這次比賽之後,計算機發展得越來越快,人類再也沒有機會在國際象棋上勝過計算機。

  

 

a-machine-is-about-to-do-to-cancer-treatment-what-deep-blue-did-to-garry-kasparov-in-chess.jpg

 

 (卡斯帕羅夫 VS 深藍計算機,來源:BusinessInsider)

  下一個淪陷的棋類運動是圍棋。在當時, 這項中國的古老游戲對最先進的計算機來說也太過復雜了——據說圍棋中可能存在的下棋路數比人類可見的宇宙中存在的原子數還要多。正因如此,當 DeepMind 的 AlphaGo 人工智能計算機程序在 2016 年 3 月擊敗了韓國的圍棋名將李世石時,整個世界都為之震驚了。

  本周,在中國烏鎮舉辦的圍棋峰會上,AlphaGo 已經連續兩局擊敗了世界排名第一的中國棋手柯潔,並于今天下午團滅了五人合作的人類棋手。在去年李世石戰敗後,柯潔曾公開表示自己不可能會輸給這台冰冷的機器,然而,在見識到 AlphaGo 超乎尋常的成長速度後,柯潔改口稱「人工智能的進步超乎想象」。

  在今天的比賽中,AlphaGo 還與人類聯手對弈,主辦方希望借此探索人工智能除了能夠在人類的游戲中擊敗人類以外,是夠還能夠帮到人類。

  征服語言?

  現在,行業的重心已經轉向了翻譯,語言文字的生產和翻譯在很久以前就是機器學習的一大障礙。早在上個世紀 50 年代,IBM 就已經對機器翻譯進行了深入的探索與研究,但直到 90 年代,從 Altavista 的翻譯工具 Babel Fish 開始,這類翻譯工具才進入大眾的視野。

  然而,機器翻譯也有其自身的限制:機器翻譯只會使用詞典進行字對字的解釋,它可以提供文本的翻譯,卻無法將語義、句法和詞法的復雜性考慮在內。

  統計機器翻譯(SMT)是翻譯技術發展的下一階段。統計機器翻譯的原理是通過一個模型將材料中的單詞和詞組與翻譯過的文章比對(尤其是專業翻譯),然後挑出最常使用的詞。

  

 

image001.png

 

 

(統計機器翻譯示例,來源:ACL)

  從邏輯上來說,機器學習和人工智能將能夠掌握語言的復雜性,以往標准的翻譯技術在這一點上是沒法和深度學習相比的。和人類的大腦一樣,機器需要學習在不同的上下文中使用不同的短語和句子,並隨着時間的推移進一步生成用戶能夠理解並與目標語言相關的材料。

  應對市場對于精准翻譯的需求,Google 推出了神經機器翻譯(NMT)。神經機器翻譯技術在翻譯文本時讓機器更關注整個句子而不是其中的一些成分(單詞、詞組等),通過把這些成分用最自然的方式組合起來,從而得出最佳的翻譯結果。

 

Translation.jpg

(圖片來源:ZME SCIENCE)

  當人工智能技術應用到這個過程中時,神經機器翻譯就可以從其他已完成的翻譯中分析學習它們的結構,學習它們在語序等細微問題上如何做出調整。

  還差得遠呢

  考慮到現在技術進步的驚人速度,一些靠語言和翻譯吃飯的人才開始擔心神經機器翻譯會搶了他們的飯碗也就不足為奇了。但從另一個角度來看,全世界仍有許許多多的人和企業對科技打破語言的障礙、人工智能成為全新的通用語言還是充滿期待的。

  因此,當世宗大學與韓國國際翻譯協會合作,組織人類譯員與 Google 全新的神經機器翻譯系統(以及韓國本地搜索引擎 Naver 的翻譯工具)進行翻譯比賽時,人類的感覺是既激動又恐慌的,尤其對譯員們來說,這場比賽可能會預告着他們的工作不再有保障了。

 

Naver-papago3.png

 

  (Naver Papago 翻譯應用,圖片來源:Blogspot)

  這場比賽耗時 50 分鐘,比賽雙方需要翻譯兩份隨機選擇的未經翻譯過的文本,一份為文學翻譯,一份非文學性質。

  比賽的結果還是比較讓人安心的,無論是韓翻英還是英翻韓,無論是文學性翻譯還是非文學文本翻譯,人類都以較大的優勢打敗了基于人工智能的機器翻譯。

  但也有很多人認為,不同于數學或者棋類游戲,翻譯沒有一個客觀的標准,而最終比賽判定結果的又是人類的評審,所以這其中可能會有不好定奪的主觀成分存在。

  但是,考慮到評委在判斷時只是根據翻譯結果是否符合母語使用者的語言習慣,以及是否有明顯的語法錯誤來判定輸贏,所以這次比賽的判決應該還是非常公正的。

  評委們表示,神經機器翻譯系統翻譯出的文字有 90% 都有語法上的錯誤,這些錯誤不明顯,但足以讓受過教育的英語母語或韓語母語者感到尷尬。這次人與機器的對抗結束後,許多語言學家和翻譯人員都可以松一口氣了。

  但不可避免的是,隨着神經機器翻譯系統的進一步發展,技術性的內容,那些有着嚴格標准和術語使用規范的內容,可能更容易被機器完美地翻譯出來,並且不需要太多後期的人工編輯。

  然而,文學和營銷方面的文本在翻譯時就幾乎是需要就目標市場和受眾的情況進行再創作,這對于人工智能機器翻譯而言,毫無疑問仍然是一個艱難的挑戰。翻譯這種內容需要基于一定的語境和研究,同時也要有一定創作的能力來與目標讀者取得共鳴。在翻譯和語言學的世界里,機器想要取代人類,還有很長很長的路要走。

[責任編輯:肖靜文]
網友評論
相關新聞
返回頂部 關閉