2016年12月29日,大概又是一個會被載入史冊的日子。名叫SkyNet,哦不,是”Master”的圍棋AI,開始了第一次對人類的血洗。
在奕城的第一晚,Master十戰全勝;第二日,橫掃韓國第一人樸廷桓九段、世界第一人柯潔,比分都是2比0;第三日,陳耀燁九段、金庭賢五段、范廷鈺九段、羋昱廷九段和唐韋星九段依次落馬;再之后是古力、時越、金志錫、井山裕太;到了1月4日,聶衛平老先生以7目半落敗。最終戰績,Master 60勝0負1平(平的那局是因為掉線)
自此,Artificial Intelligence(AI),這個在2016年已經如日中天的buzzword,再一次傳遍大街小巷。人們沉浸在對AI的崇拜、慌亂與恐懼之中,然而作為吃瓜群眾的筆者卻在想一個問題:如果DeepMind沒有事先與各國棋院通氣,整個事件如何能進行得如此順利,在時間上如此緊湊?所有重要的世界高手,都在短短幾天的時間窗口內騰出了時間,如果說沒有提前策劃和組織,實在有點難以置信。掐指一算自從3月份AlphaGo的橫空出世,DeepMind已有9個月時間沒有在圈外露臉,大概它也感受到了營銷的壓力吧。
其實縱觀2016年,在阿爾法狗狗的帶領之下,AI界隔三差五地在圈內外制造著騷動:3月,除了人盡皆知的AlphaGo事件,李開復關于人工智能博士200w+美金年薪的文章刷屏;4月,Google著名的深度學習框架TensorFlow發布分布式版本;6月,Prisma上線,紅極一時;8月,Google發布基于深度學習的NLU框架SyntaxNet; 9月,Google上線基于深度學習的機器翻譯,索尼用人工智能寫了兩首歌;10月,微軟宣布語音識別達到人類水平;11月,計算機視覺學術大牛李飛飛老師下海進入工業界;12月,DeepMind在NIPS16會議上宣布DeepMind Lab開源。一切的一切,都在各大媒體冠以【重磅】開頭的新聞標題之下,一次次地牽動著廣大吃瓜群眾的神經——然而這些成就實際上離我們的生活又是那么的遙遠。
在科技的歷史上,從未有任何一項科技,在它的大規模真實應用之前,有持續一年甚至幾年的營銷運動。在這個風口之上,在這個AI幾年的造勢運動把人們的期望與恐懼推上一個歷史頂點,而其真正落地應用又遙遙無期的一個尷尬節點,是時候冷靜下來回顧一下AI的營銷史了。
一、一些概念和歷史
有幾個概念需要先明確一下,因為我發現在今日媒體的狂轟濫炸之下,有大批AI民科是分不清像“人工智能”、“機器學習”、“深度學習”這些概念的關系的(例如我認識的非科班出身的人有90%認為機器學習=深度學習)。當然這些概念的含義也一直在“與時俱進”,不過學界還是有一個相對統一且合理的認知,可以幫助我們闡述問題。下面這張圖描述了其中最重要的幾個概念之間的關系
“人工智能”這個buzzword,常常會因為營銷或者新聞報道的需求而被賦予不同的含義,其外延有時等同于“機器學習”,有時不等同,所以最外圈的這個等號并不完全準確。不過在2016年被大家普遍討論的這些“AI”,可以認為基本上就是機器學習。內部的四個小圈則是學術上有確定外延的四個概念,代表了當前最重要的四個問題領域,是需要明確的重點概念。
有監督學習(supervised learning)——讓機器觀測到一些輸入,并告訴機器在這些輸入下應該產生什么樣的輸出。機器通過這些數據學習出一個模型,之后給它新輸入的時候,它能夠根據模型預測應該產生什么樣的輸出。比如機器看到一個圖片,可以判斷圖片中的物體屬于哪一個分類。
無監督學習(unsupervised learning)——讓機器觀測到一些輸入,而沒有標準輸出,讓機器自行去總結這些輸入數據有什么統計特征,并生成有意義的產出。例如自動把大批文章聚成相似的幾類,又例如給計算機看一些小狗小貓的照片,讓計算機自動生成一些新的(與看過的相似但又不同的)小狗小貓的照片。
增強學習(reinforcement learning)——讓機器觀測到一些輸入,并讓機器根據輸入做特定動作(action)。這些動作導致機器獲得收益或者懲罰(reward)。機器通過增強學習優化它的動作策略(strategy),使得它的長期收益最大化。下棋就是這一類典型的問題,strategy就是行棋策略,reward就是贏棋。
深度學習(deep learning)——事實上不是一類問題,而只是一種方法,一種通過多層神經網絡來構建上述三種問題所需要的模型的方法。
回到歷史。這一波的AI熱,最早應歸功于Hinton老頭子的文章《A fast learning algorithm for deep belief nets》這篇文章是2005年寫的,截至2017年1月14日已有5000+的引用,足見其影響力)這篇文章實際上是用一種無監督學習的方法實現了對原始數據逐層抽取深度特征,而這些深度特征可以被用為有監督學習的特征來提高有監督學習的準確率。這解決了長久以來神經網絡“無法做深”的痛點(原因是訓練信號會隨著深度增加而被稀釋,有興趣的讀者可查閱相關資料),算是一個比較大的貢獻。不過當時這個文章傳達的大方向是用無監督學習的方法抽取特征(這個過程叫做pre-training),并沒有把重點放在有監督學習本身的模型上,所以當時的同學們對于有監督/無監督在方向選擇上是有點迷茫的。
這種迷茫直到2012年還存在。這一年的一件大事是Andrew NG等人的Google Brain團隊,搞了一個龐大的分布式深度學習,在ImageNet圖片物體分類競賽中把對手遠遠甩在了身后(《Building High-level Features Using Large Scale Unsupervised Learning》)前面已經說過,物體分類是一個有監督學習任務,但是由于Hinton老爺子定下的無監督學習基調,Andrew NG等人還是把重心放在了無監督學習生成特征上面,并且做出了那幅著名的“機器學習出來的貓”。有趣的是,在2012年的NIPS上,Hinton和NG的團隊同時放棄了pre-training。失去了pre-training的幫助,就需要其他方法解決訓練信號被稀釋的問題,Hinton團隊的方法是換了一種叫做ReLU的激活函數( 《ImageNet Classification with Deep Convolutional Neural Networks》),NG團隊的方法則是懟機器,大量的機器(《Large Scale Distributed Deep Networks》)。Hinton團隊同時還拋出了CNN應用到ImageNet上的表現,CNN和ReLU這兩個東西非常重要,成為此后深度學習研究的標配。結果Hinton團隊這篇文章的引用數有8000多,而NG團隊的兩篇分別是700多和1000多。NG的營銷能力強,學術創新上卻總是比Hinton老爺子慢半拍。Anyway,自從12年NIPS這兩篇文章之后的一段時間,大家對無監督學習就不怎么感冒了。
2012年Andrew NG團隊無監督學習生成的貓臉圖片。圖片來源:New York Times
也是從2012年的ImageNet競賽開始,AI進入第一個營銷高潮。當時的人們對于計算機識別小貓小狗這種事情還覺得很新鮮,于是接下來科研圈的開始對此類事情趨之若鶩。幾乎每個做機器學習的實驗室都會嘗試一把在State-of-the-art的模型上做一點哪怕是很小的微創新,希望能產生ImageNet準確率上一點哪怕是很小的提升,一旦成功了,就可以說自己是新的State-of-the-art。從那以后,大家開始只關心實驗的準確率,越來越少的人關心模型本身的理論價值。AI研究的方法論,從傳統科學的重視推理論證,變成了快速嘗試+總結相關性(也就是所謂的“大數據思維”)。畢竟準確率數字是很好拿出去說的,理論價值卻很難講清楚。 AI自此進入營銷時代。
在AI學術界這一翻天覆地的變化背后,Andrew NG功不可沒。深度學習理論上的重要突破大多都不是歸屬于他的,然而他做了幾件重要的事情:2008年發起“Stanford Engineering Everywhere”(SEE)項目,把自己的機器學習課程曝光給全世界人民;2011年組建了Google Brain項目,這個項目初期的最主要產出之一就是后來被媒體大書特書的那張無監督學習出來的貓臉,并且這個結果在報道的時候給人一種“機器有了自主學習能力”的認知;2012年創立Coursera,在MOOC社區中進一步營造出一種AI大繁榮的景象。NG大概是這幾年媒體出鏡率最高的AI學術圈人士。與其說是一位科學家,Andrew NG的角色更像是一位優秀的AI產品經理及營銷人員,他的營銷能力在圈內早已得到公認。關于NG的營銷能力,在NIPS 2016會議上還有一個有趣的小細節,將會在后面提到。
回到我們的時間線,鑒于2012年底深度學習在有監督學習上的巨大成功,一段時間內大家忙于把這項技術推廣到各個應用領域跑馬圈地(其實主要還是圖像和語音),暫時忘掉了無監督學習和生成貓臉的事情。到了2014年,當各個領域都被圈的差不多了,學術界在苦苦尋找下一個噱頭的時候,大神Ian Goodfellow通過一個叫做“干”的東西(GAN,Generative Adversarial Network)把無監督學習重新帶回了人們的視線。“干”干的就是“給計算機看一些小狗小貓的照片,讓計算機自動生成一些新的(與看過的相似但又不同的)小狗小貓的照片”這樣一件事情,不同點在于,它干的非常不錯。一時間,AI學術界迅速高潮了,紛紛競爭起生成圖片(以及語音、音樂等各種其他東西)的生意來。大家也并不關心我們為什么需要生成這些圖片(相比之下語音合成和自動生成音樂反而更容易理解一些),大概只是覺得“能干這件事情看起來就很牛逼”,于是就做了,而且做的越來越好。下圖是Ian Goodfellow在NIPS 2016上講GAN的Tutorial里展示的一個生成小動物的demo(《NIPS 2016 Tutorial: Generative Adversarial Networks》)。
GAN生成的小動物圖片。圖片來源:Ian Goodfellow, NIPS 2016 Tutorial: Generative Adversarial
與此同時,DeepMind在增強學習上的努力,則一直在相對低調地進行。增強學習在很長一段時間內被認為是“僅停留在學術研究”的存在,因其難以降下來的巨大狀態空間和動作空間,很難做出一個可展示又足夠吸引吃瓜群眾的demo。因而在AlphaGo誕生之前,增強學習的研究一直處于一個不溫不火的狀態。一個叫做“DQN”的東西的出現打破了這個局面。通過把深度學習應用在strategy的學習更新上,巧妙避開大狀態空間和動作空間,DQN使得在一個相對小的多的參數空間內訓練成為可能(《Playing Atari with Deep Reinforcement Learning》)。這是一個了不起的成就,為后來的AlphaGo奠定了基礎。這個偉大想法產生的時間在2013年以前(前述文章在2013年發表),而直到2015年AlphaGo問世之后才被廣為傳頌。可見一個漂亮的demo是多么重要。
再然后,就是大家都知道的事情了。
二、一些奇怪的現象
AI圍棋戰勝人類,本身是一個偉大的成就。然而在這個偉大浪潮推動下的AI學術大躍進與創業熱中,卻出現了很多奇怪的現象。
理性地分析AI這個事情,至少應該提三個問題:1. 這玩意到底做不做的出來;2. 假如這玩意能做出來,那么它做出來以后到底有沒有應用前景;3. 假如這玩意能做出來且有應用前景,它會不會毀滅人類。這三個問題是層層遞進的關系,對1的答案是肯定的討論2才有意義,對2的答案是肯定的討論3才有意義。于是有了第一個奇怪的現象:大部分的吃瓜群眾,直接跳過了1、2而去關注3。甚至他們中的樂觀主義者,直接跳過123,開始充滿自信地迎接這個“未來趨勢”了。是Alpha狗狗給我們的信心過于足了嗎?
要知道,真正的AI工作者甚至對問題1都沒有足夠的自信。不錯,AlphaGo毫無疑問“已經做出來了”,但不要忘了,圍棋再復雜,它仍然是一個游戲;從一個兩頁紙即可將規則全部講明的游戲到一個充斥著復雜場景的現實世界,有著巨大的鴻溝需要跨越。在NIPS 2016上,可以明確地感受到,DeepMind已經處在一個深陷游戲之中無法自拔的尷尬狀態——不僅幾乎所有的paper都是以游戲為demo的,甚至有些研究的目標都是奔著游戲而去的(例如有的工作研究人類玩游戲時是否用到了先驗知識,有的工作研究人類玩游戲時的學習曲線,分的很細)。游戲在這些的研究中并不只是一個用來展示的demo,而就是研究的核心。DeepMind在AlphaGo之后一直宣稱的進軍醫療這件事,卻在NIPS 2016上幾乎不被人提起。
有意思的是,擅長營銷的Andrew NG在NIPS 2016的演講還趁機輕踩了一下他不太涉足的無監督學習和增強學習。他在白板上畫了這樣三條曲線。
意思是說,有監督學習的應用在2011年起步,到現在已經比較成熟了;無監督學習剛剛起步;增強學習的真實應用則還是遙遠的未來。雖然脫不開為自己營銷之嫌,這個說法本身還是比較靠譜的。連李開復也在幾天前發的一篇長文《AI創業的十個真想》中,白紙黑字地說到“AlphaGo本身沒有商業價值”。像下圍棋這樣的增強學習技術應用到真實的生活生產,產生游戲之外的價值,不說是一個遙遠的未來,至少還是一個技術上比較不確定的事情。
第二個奇怪是沒有人問問題2。普通人并不奇怪,奇怪的是產品經理這樣一群人,他們在平日工作中對一個產品的應用前景的拷問,可以苛責到極致;而到了AI這件事上,卻看不到一篇在產品技術層面客觀剖析應用前景的文章。一個最明顯的例子是最近大熱的聊天機器人。不知道“聊天機器人將是下一代的操作系統”這樣一個牛皮是如何在業界傳播開來的?再重復一遍,“聊天機器人將是下一代的操作系統”,這話聽上去就需要很多解釋和論證吧?反正每當我在一個網站正常服務點不進去,不得不求助在線客服或者是電話客服(指人工客服)的時候,就已經很不爽了。當然不是說別人想法都和我一樣,但是對于一個與用戶直接交互的界面,是不是至少應該做個用戶調研,再說“聊天機器人將是下一代的操作系統”這樣的話?
第三個奇怪有關成本。Facebook圍棋項目負責人田淵棟前日在自乎專欄上寫過這樣一段文字:
“在八月份美國圍棋大會上,我有幸見到了AlphaGo的主要貢獻者黃士杰(AjaHuang)和樊麾。我問他們,我們用了大概80到90塊GPU來訓練模型,我是否可以在演講時說我們用了AlphaGo百分之一的GPU?那時Aja神秘地笑了笑說:具體數字不能講。不過,也許小于百分之一吧。”
一塊GPU大約兩萬人民幣,算算總共要花多少錢吧。這還遠不是全部,還有以月記的計算時間、電力/帶寬消耗,以及那么多份200w美金的工資。
當然這樣估算成本未必科學。我想表達的是,唯獨在AI這件事上,人們似乎表達出了對于成本問題前所未有的寬容。這寬容體現在除了真正在一線做AI的工程師,極少有人關注成本問題。另外需要澄清的是這里疑問的點是“人們不關注”,并不是想表達“AlphaGo勞民傷財了”這個意思。個人內心里其實是把AlphaGo當做一件偉大的藝術品來看待的,而藝術品是無價的——只有在討論藝術品的時候可以用“無價”這個度量,對于商業產品不行。
三、該怎么看待這件事情
不要預期過高,不要預期過高,不要預期過高。泡沫時代的我們已經習慣了對未來事物預期過高。被透支的預期甚至成了維持經濟的重要支柱。只是每一次泡沫破滅都會很疼。很懷念曾經那個時代,在那個時代里,科學技術的進步源于對真理的信仰與熱愛,而不是為了填補預期與現實的反差。然而那個時代已經回不去了。
勤奮一些,學習真相。巴菲特從來不投資自己不熟悉的業務。如果不能判斷一件事情,那么就應該真正學習它,知道它是什么東西,在積累了足夠知識之后做出判斷。如果少一些分不清“深度學習”和“機器學習”的關系的人,或許這個世界也會少一些錯誤的風向。接受無知而被營銷者和媒體的觀點擺布,是一件非常可怕的事情。就像我們有時不能從政府那里得到真相,在AI這個學界和工業界各種勢力利益關系已經非常龐大復雜的領域內,僅憑我們聽到的,恐怕很難得到真相。
如果AlphaGo僅僅是AlphaGo,那該多好啊。
評論