網易科技訊 北京時間08月08日消息,自從誕生以來,計算機就一直生活在一個充滿1和0的世界,不厭其煩地處理著 if-then和and-or語句。
一種為自動駕駛汽車研發的技術可能會改變這一切。它將賦予機器人通過視覺理解這個世界的能力,更有可能是機器人自我意識的第一步。
我們稱這項技術為“深度學習”,一種基於神經網絡算法模仿大腦運行的科技。盡管目前研究者們在許多領域應用了深度學習,如語音識別等等,視覺識別才是和深度學習最相關的一個。自動駕駛汽車更是其中最熱門的研究領域。
簡單標簽
為了讓自動駕駛汽車能夠在我們的城鎮和鄉村中穿梭自如,我們需要它們能夠辨識周圍的物體。除了已經配備的短波雷達和激光雷達之外,研究者們還在自動駕駛汽車上安裝了攝像頭,讓它們能夠實時辨識周圍的物體。
不幸的是計算機不具有人類這樣的視覺進化過程,它們天生是無法看到和分辨周圍環境中的物體的。如果沒有視覺識別技術,工程師無法教給汽車遇到什么樣的情況應該怎么辦。
目前只有沃爾沃 XC90等少數幾款車安裝了基於攝像頭的識別系統,這種系統能夠辨別其它汽車、行人和騎自行車的人。但這種系統還沒有在深度學習系統中實現。它們的實現機理是將攝像頭拍攝到的圖像和圖像數據庫進行比對來辨別汽車、行人、自行車、交通標示等常見物體。這種方法會帶來一個很明顯的問題,那就是並不是所有出現在攝像頭中的物體都曾被保存在數據庫中。即便數據庫中有,我們的世界如此複雜多樣,計算機不可能把每個方面都儲存進去。
比如說,如果電腦只知道“蛋糕”是一種雙層帶有面包和奶昔的圓形糕點,那么它看到單層長方形抹著巧克力的蛋糕時就無法識別出來。通過多年的學習和經驗積累,我們人類的思維能力具有靈活性,進而將兩種蛋糕都識別出來。
相同點和不同點
深度學習是與圖像匹配不同的技術,它最終將賦予汽車更好的視覺識別能力。接著前面的例子講,研究者給計算機看數千張照片,並告訴它這些都是蛋糕。深度學習系統就會把圖片拆分到圖層和紋理級別,提煉出它們的共同之處,並接受不同點。在使用足夠多的圖片進行訓練之後,電腦的神經網絡就可以辨別出它從未見過的蛋糕圖片了,即便是超大號的婚禮蛋糕也不在話下。
科學家希望通過同樣的道理教會自動駕駛汽車的神經網絡辨識行人、汽車、自行車、道路標志。但不只是識別特定的行人外貌,而是不同的圖片來訓練計算機行人在環境中可能的模樣。
這樣一來,計算機就能夠區別坐在路邊的人(安全)和正在翻越護欄的人(危險)。更棒的是,視覺處理芯片能夠從身體的一部分識別出整個人來,比如只有腦袋或者胳膊出現在圖片中,坐在副駕駛的乘客常常會這樣做。
當一輛自動駕駛汽車能夠准確識別周圍環境中的物體時,它們就可以根據具體情況作出相應反應。當發現行人正在翻越護欄甚至是站在路邊的時候,它可以減慢速度,停車甚至是急轉彎。視覺識別可能是實現自動駕駛汽車的唯一方法。
充滿物體的世界
為了訓練自動駕駛汽車,神經網絡只需集中精力識別那些會影響駕駛環境的因素即可。而斯坦福大學和普林斯頓大學開發的ImageNet數據庫中包含數百萬貼好標簽的圖片,供神經網絡學習面對更大的世界,比如扳手和企鵝之間的差別。除了圖片之外,研究者們還可以使用其它媒介訓練神經網絡,比如聲音輸入或3D圖像。穀歌從事神經網絡研究已經有一段時間了,她們推出了一種基於網絡的工具,計算機可以告訴人們它在圖片中看到了什么物體。
除了自動駕駛汽車,神經網絡和視覺識別還可以做許多事。想象一下,如果有一種警用頭戴顯示器可以實時分析罪犯並判斷他身上是否藏有武器,會不會很有用?它可以幫助警察分辨罪犯手中是致命武器還是球棒等物體,可以避免警察做出錯誤的判斷。
家用機器人也會從這種技術中受益。Roomba掃地機器人只能在二維的房屋地面上來回移動,在它的機械傳感器碰到障礙後後退。一個裝備了攝像頭的掃地機器人則能夠分辨出屋裏哪些物體時它可以移開進行打掃再放回原處的(當然不能是活物)。比如一個扔在地板上的籃子,它可以挪開籃子打掃下面的地面,再把它放回去。
自我意識
隨著深度學習和神經系統的不斷發展,我們終有一天會遇到機器人擁有自我意識的問題。這個技術奇點標志著強人工智能的出現,程序極度複雜以至於很難和意識相區分。當機器人能夠像人類那樣感知周圍世界,它們是否會有相同的世界觀、價值觀、道德觀?
目前人們對機器人意識會發展到什么程度還沒有達成共識,但一些非常聰明的人已經警告過人們可能發生的最壞情況。特別是霍金和穀歌DeepMind CEO都在呼籲對自動武器系統建立國際限制規定。
一架自動識別攜帶武器的人並向其開火的無人機離現在還很遠,但在研究神經網絡和視覺識別系統的時候這是必須考慮的一個問題。只要人類安全被納入考慮范圍,自動駕駛汽車就會被嚴格要求和密切監視。
神經網絡繼續發展,它們會向機器打開一扇新世界的大門,透過這扇門,機器得以站在從未有過的視角觀察我們生活的世界。聯網計算機已讓我們的世界以完全不同於幾十年前的模樣運行,10年後,當計算機能夠准確分辨攝像頭中看到的所有物體時,這個世界又會變成什么樣子?