1 月 20 日,第四季的最強大腦落下帷幕,這季比賽由于選手當中新增加了一位特殊成員被備受關注,來自百度的人工智能機器人小度在一場三局「人機大戰」中取得兩勝一平的成績,這個結果徹底碾壓了三位代表人腦極限的人類選手。這三場比賽中的每個細節都成為社交媒體上熱議的焦點,這些爭議一方面是公眾驚嘆于人工智能如此強大,或將取代人類;另一方面也夾雜了太多陰謀論的想象,強調此次人機大戰的不公平性。
如果說前一種緣由源自于于技術,特別是對人工智能發展的無知;那么后一種聲音則不僅是對人工智能的無知,也是對人類自身存在和未來的無知,可謂愚蠢至極。
棋盤和人類大腦都是人工智能的標尺
事實上,盡管 2016 年人工智能領域如此火熱,但從 2016 年 1 月到現在整整一年的時間,人工智能領域的震撼性事件只有三個:
? 2016 年 1 月 24 日,人工智能先驅馬文明斯基離世;
? 2016 年 1 月 27 日,Google DeepMind 在《自然》雜志發表論文,正式宣布破解了圍棋;
? 2017 年 1 月 20 日,百度人工智能機器人小度擊敗第三位人類選手,在三局人機大戰中完勝;
之所以將上述三件時間、空間都沒有關系的事件擺在一起,根本原因在于,這三個事件既是結束,也開啟了一個屬于人工智能的新時代。從 60 多年前開始,不管是明斯基還是另外幾位人工智能的先驅,擺在這些最頂尖科學家、數學家面前的首要問題就是:如何衡量人工智能?
1920年代,美國心理學家 Louis Lean Thurstone 在研究中發現,受訪者在回答問題時更傾向于回答一些相對意義或者比較意義的問題,比如類似這樣的問題「你更喜歡誰的畫,A 還是B?」就比單純回答「你對A 畫喜歡多少?」要容易簡單的多。這套理論被稱為「比較性判斷準則(Law of Comparative Judgement)」。通過讓人們每次比較多個對象中的兩個,而最終可以計算出每個對象的測量分數(定距尺度)。
其運用范圍非常廣泛,人工智能研究者終于不再為定義「智能」來擔憂了,只需要將機器與人類放在某個同樣環境下繼續比賽,利用人的智能來衡量機器的智能。棋類游戲首先被用于測試機器的智能,是因為棋類游戲是一種「完美」信息的游戲,對玩家們而言,無論人類還是機器,所面對的信息是透明且對等的——就是棋盤和棋子而已。
這樣的曖昧情節始于1956年,IBM 工程師 Arthur Samuel 創造了一種西洋跳棋的應用程序,并使用強化學習來訓練這個程序。1962年的時候,Arthur Samuel 的這個西洋跳棋程序打敗了當時全美最強的業余選手 Robert Nealey。
接下來的最吸引人的兩個故事就是卡斯帕羅夫與深藍的世紀之戰以及李世石大戰 AlphaGo,借助于電視、互聯網、社交媒體等大眾傳媒的發展,全世界的人都看到了東西方兩大棋類里的頂級人物低頭認輸的場景。
人工智能已經在國際象棋、圍棋證明了自己的能力,而挑戰人類的最強大腦則成了衡量人工智能的另一個標尺。
此次最強大腦比賽,三場比賽涵蓋了人臉識別、語音識別與視頻(動態模糊圖像)識別等多個領域。這些「技能」是人類長期進化過程所形成的,百度首席科學家吳恩達這樣解釋人類的人臉識別能力:「一個3歲的孩子看見媽媽時,不管媽媽是微笑、生氣,睜著眼、閉著眼,長頭發、短頭發,穿什么衣服,孩子都可以輕易認出這是媽媽。」
更重要的是,人類的這種識別幾乎是瞬間完成的,即便到現在,全世界頂尖的科學家也無法理解這背后的真正原理。而要讓計算機擁有這種能力,科學家們在過去五十年里提出了諸多想法,但直到這幾年,圖像識別才真正實現了技術突破。
與圖像識別相似,語音、動態圖像識別的技術發展進程也經歷了漫長過程,這些依托新算法的人工智能技術,究竟離人類大腦,特別是那些具備超強能力的人類大腦還有多大差距,這次比賽提供了一個最好的觀察視角,而比賽結果也充分說明了人工智能在某些領域的已然超越人類。
當下人工智能只聚焦在特定領域
早幾年的時候,李彥宏在參加《最強大腦》節目擔任嘉賓后感言:「某些對于人類艱難的事情,對于電腦來說非常簡單。」這話說得并不夸張,比如圍棋這個領域,相比于人類棋手的成長速度,計算機的進化速度「令人窒息」,2016 年年底橫掃中韓高手的 Master,也是AlphaGo 的進化版,要 Alpha Go 真正「進入職業棋屆」不過一年多一點的時間,這種學習和進化速度是人類根本無法匹及的。
當下人工智能領域的火熱得益于過去幾年深度學習的崛起。最主要聚焦在三個領域:圖像識別、語音識別以及自然語言處理。投資人David Kelnar提供了兩幅圖像識別和語音識別進化速度對比圖:
以圖像識別為例,在 2012 年的圖片分類競賽ImageNet 上,以深度神經網絡為技術支撐的研究團隊奪得第一,并將錯誤率降低到 20% 以下,讓包括 Google 、Facebook 這樣的巨頭都震驚,隨后,Google 買下了這個團隊,也讓深度神經網絡「教父」Geoff Hinton 進入 Google 工作。在深度神經網絡的幫助下,Google 的圖像識別水平有了大幅提升,并將錯誤率降低到 10 %以內。
語音識別方面,在《麻省理工科技評論》評選的「2016年十大突破技術」中,基于語音識別的對話界面(Conversational Interfaces )成功入圍,而要讓人機對話有效,不僅要讓機器聽懂人的話,還要做出適當的反饋,《麻省理工科技評論》認為:百度硅谷實驗室研發的語音識別引擎——「深度語音系統2」(Deep Speech 2),擁有一個大型深度神經網絡,基于端對端的深度學習技術,可在數百萬轉錄語言庫的基礎上學習如何將聲音和語句聯系起來,語音識別率精確度極高。目前的語音識別準確率為97%。
全球范圍來看,語音識別技術已經達到臨界點,由此也推動了語音合成以及自然語言處理方面的快速發展。比如基于語音合成技術,用戶可以在百度多個產品里體驗到與真人語音一樣的合成語音,用戶只需要按照要求和機器說50 句話,便可以讓每個人擁有自己的聲音模型,這項技術目前在手機百度小說頻道取得顯著成績,用戶聽小說的時間從原來的 40 分鐘提高到現在的將近兩個半小時。
這就是當下人工智能所處的「歷史地位」,歷經 60 多年、幾代人的努力,人工智能終于擁有了最基本的行為智能:
? 它可以下棋,但并非通過思考完成,而是對大量棋譜輸入后,復雜計算的展示;
? 它可以回答問題,但不是學習形成的記憶,而是大量對文字、語音、圖像等數據處理后反饋;
? 它可以挑戰人類最聰明的大腦,卻不具備觸碰思考的能力;
最強大腦第三場比賽后,輸給人工智能的人類選手王昱珩這樣說道:「我決定回來的時候我也想過,我要想不敗,我只要不戰就可以了。。.。。」這句話背后的潛臺詞,既有著當年卡斯帕羅夫、李世石失利后的某種不甘,也提出一個新的命題,面對這些特定領域的人工智能以及越來愈強大的機器,人機關系的重新定義和思考將變得越來越重要。
人工智能戰勝人類的寓意
正如上文所言,任何一場人工智能與人類的比賽都不過是檢驗人工智能發展的標尺,換句話說,任何一場所謂的人機大戰都有秀的成分。但這種秀的目的與是否能戰勝人類無關,而是人工智能如何與人類相處的探索。
在馬文明斯基晚年的重要著作《情感機器》中,明斯基則有力地論證了:情感、直覺和情緒并不是與眾不同的東西,而只是一種人類特有的思維方式。也同時揭示了為什么人類思維有時需要理性推理,而有時又會轉向情感的奧秘。他列舉了人類的 19 種思維方式,以下列舉其中的幾項:比如「知道解決方式」、「類比推理」「簡化法」、「理想化思維法」等等,你會發現,這些特性是人類獨有的,機器根本無法學會。
換句話說,明斯基為人與機器之間劃了一條分割線:讓機器的事兒歸機器負責,人類的事兒則由人類完成。這一理念影響了人工智能最近十幾年的發展進程,讓「人工智能智能增強人類智能」成為越來越多公司的共識,在幾乎每一場人工智能戰勝人類并充分展示人工智能的巨大潛力之后,這些技術逐步成為幫助人類發展的動力:Watson 擊敗人類選手后,開始將自己的智能輸出給醫院、酒店;Alpha Go 戰勝李世石后,其技術逐步運用到 Google 其他產品中;而此次百度人工智能的勝利,事實上也為百度在未來人工智能落地提供了更多想象空間。
正如百度深度學習研究院院長林元慶所言,在當下人工智能開始出現泡沫的環境下,判斷一家人工智能公司是否是真正的人工智能公司的標準是:是否在研發前沿技術,是否能將技術落地。就目前來看,百度人工智能落地方面有不少值得關注的場景,比如在剛剛結束的 CES 上,百度發布了「DuerOS」的操作系統,這是一個基于語音交互的操作系統,或者理解為人工智能操作系統。從官方透露的資料來看,DuerOS 更像是之前發布的度秘的升級版,只是將應用場景放在了B 端。
自動駕駛則是百度人工智能技術的集大成者,集成了包括環境感知、行為預測、規劃控制、高精定位、高精地圖等核心技術,這些技術的背后,離不開海量的交通數據、強大的計算能力和機器學習算法的改良和優化,也正是在上述技術的共同作用下,百度的無人駕駛產品具備了世界一流的水準。
寫在最后
隨著機器進化速度的加快,任何一場人機大戰的結果都會讓人們心生恐懼,人類長期以來的自我中心論心理的作祟,讓這一切像極了機器即將替代人類的前戲,但類似的歷史還出現在印刷術出現時中世紀、PC 大規模出現時的上世紀 80 年代。。.。。而后面的歷史則表明,這些技術、機器所帶來的進步,遠超人們的想象。
如果用一句萬能語來結尾,或許這句再合適不過了:這是一個最好的時代,也是一個最壞的時代。2017 年剛剛開始,人機大戰剛剛結束,接下來的人機關系以及人工智能的落地,或許更值得期待。
評論