本文來自新智元微信號,本文作為轉(zhuǎn)載分享。
KDnuggets邀請11位來自工業(yè)、學術(shù)和技術(shù)一線的人員,回顧2018年AI的進展,并展望2019年的關(guān)鍵技術(shù)趨勢。其中,有觀點認為,2018年AI最大的進展是沒有進展,2019年AutoML、GAN等將繼續(xù)成為關(guān)鍵技術(shù)。
11天,11人,11個展望。
還有11天就要告別2018年,著名數(shù)據(jù)科學網(wǎng)站KDnuggets邀請國外11位機器學習和AI專家,回顧2018年機器學習和人工智能的主要進展,并對2019年即將出現(xiàn)的關(guān)鍵趨勢進行展望。
這11個人中,雖然沒有吳恩達、李飛飛這樣的頂級大咖,但都是身在工業(yè)、學術(shù)和技術(shù)一線的人員,他們包括英偉達機器學習研究主任、Gartner機器學習團隊負責人、華盛頓大學計算機科學與工程系教授等,能夠從不同視角觀察AI的過往和未來。
以下是這11人的觀點:
深度學習“低處的水果都被摘了”
英偉達機器學習研究負責人Anima Anandkumar:
英偉達機器學習研究負責人Anima Anandkuma
回顧2018年:焦點開始從標準的監(jiān)督學習轉(zhuǎn)向更具挑戰(zhàn)性的機器學習問題,像半監(jiān)督學習、領域自適應、主動學習和生成模型。GAN仍然是非常受歡迎的,研究人員嘗試更困難的任務,如bigGANs和video-to-video合成。開發(fā)了替代的生成模型(如神經(jīng)渲染模型),以在單個網(wǎng)絡中組合生成和預測以幫助半監(jiān)督學習。
研究人員將深度學習的應用擴展到許多科學領域,如地震預測、材料科學、蛋白質(zhì)工程、高能物理和控制系統(tǒng)。在這些情況下,領域知識和約束與學習相結(jié)合。
預測2019年:“人工智能將模擬和現(xiàn)實聯(lián)系起來,變得更安全,更具物理意識”
我們將看到開發(fā)新的領域自適應技術(shù),以便將知識從模擬無縫轉(zhuǎn)移到現(xiàn)實世界。使用模擬將有助于我們克服數(shù)據(jù)稀缺性并加快新領域和問題的學習。使AI從模擬到實際數(shù)據(jù)(Sim2real)將對機器人技術(shù)、自動駕駛、醫(yī)學成像、地震預報等產(chǎn)生重大影響。模擬是解決自動駕駛等安全關(guān)鍵應用中所有可能情況的好方法。內(nèi)置于復雜模擬器中的知識將以新穎的方式被使用,以使AI更具物理意識,更強大,并能夠推廣到新的和看不見的場景。
2019移動設備上的實時語音生成與真人無異
Gartner機器學習團隊負責人Andriy Burkov:
Andriy Burkov
這是我自己作為一名實踐者的看法,不代表Gartner基于研究的官方聲明。以下是我的想法:
回顧2018年:TensorFlow在學術(shù)界輸給了PyTorch。有時谷歌的巨大影響力可能會使市場處于次優(yōu)的方向,因為MapReduce和隨后的hadoop狂熱已經(jīng)發(fā)生了這種情況。
Deepfakes(以及類似的聲音技術(shù))粉碎了最值得信賴的信息來源:視頻。沒有人能敢再說出這樣的話:我看到過那個人說這些話的視頻。幾十年前我們不再相信印刷文字,但直到現(xiàn)在,視頻還是不可動搖。
強化學習以深度學習的形式回歸是非常意外和酷!
Google代替人類致電餐廳并假裝(成功)成為真正的人類系統(tǒng)是一個里程碑。然而,它引發(fā)了許多關(guān)于道德和人工智能的問題。
個人助理和聊天機器人很快就達到了極限。它們比以往任何時候都好,但不如去年所希望的那么好。
展望2019年:
1)我希望每個人都對今年的AutoML承諾感到興奮。我也期望它失敗(除了一些非常具體和明確定義的案例,如不依靠手工的圖像識別、機器翻譯和文本分類,原始數(shù)據(jù)接近于機器期望作為輸入,并且數(shù)據(jù)是豐富的)。
2)營銷自動化:利用成熟的生成對抗網(wǎng)絡和變分自動編碼器,可以生成數(shù)千張相同人物或圖像的圖片,這些圖像之間的面部表情或情緒差異很小。根據(jù)消費者對這些圖片的反應,我們可以制作出最佳的廣告活動。
3)移動設備上的實時語音生成與真實人類無法區(qū)分。
4)自動駕駛的出租車將保持在測試/ PoC階段。
2018年成為對AI過度恐懼的一年
華盛頓大學計算機科學與工程系教授Pedro Domingos:
Pedro Domingos
經(jīng)歷了多年炒作,2018年成為對AI過度恐懼的一年。
按一些媒體、甚至是一些研究人員的觀點,你會認為特朗普在2016年大選獲勝全拜劍橋分析公司所賜、機器學習算法是充斥偏見和歧視的垃圾、機器人正在取代我們的工作,不久就將霸占我們的生活等等。這些論調(diào)不僅僅是說說而已:歐洲和加州已經(jīng)通過了更加嚴厲的隱私法,聯(lián)合國正在就AI武器禁令等內(nèi)容進行激烈辯論。公眾對AI的觀點越來越暗淡,這種現(xiàn)象即危險又不公平。
希望2019年,人們能夠回歸理性。
數(shù)據(jù)科學家的角色將傾向于從研究轉(zhuǎn)向產(chǎn)品開發(fā)
牛津大學物聯(lián)網(wǎng)課程的首席數(shù)據(jù)科學家和創(chuàng)始人Ajit Jaokar:
Ajit Jaokar
2018年,一些趨勢開始迅速流行。一個是自動化機器學習,一個是強化學習。這兩個新生趨勢將在2019年進一步發(fā)展。作為我在牛津大學開設的物聯(lián)網(wǎng)數(shù)據(jù)科學課程教學內(nèi)容的一部分,我認為物聯(lián)網(wǎng)將越來越多地融入大型生態(tài)系統(tǒng)之中,如自動駕駛汽車、機器人和智能城市。
2019年,一種新的機器人技術(shù),即協(xié)同機器人(cobots)將成為一個關(guān)鍵趨勢。與之前的生產(chǎn)線機器人不同,新的機器人將能夠自主活動,可以理解情感(在我的課程中,我們也在與從事該領域研究的情感研究實驗室合作)。
我的最后一個觀點可能有些爭議:在2019年,數(shù)據(jù)科學家的角色將傾向于從研究轉(zhuǎn)向產(chǎn)品開發(fā)。我認為人工智能與下一代數(shù)據(jù)產(chǎn)品的誕生密切相關(guān)。數(shù)據(jù)科學家的作用會發(fā)生相應的轉(zhuǎn)變。
今年開源工具數(shù)量增加,所有人都能接觸AI
RE.WORK創(chuàng)始人Nikita Johnson:
Nikita Johnson
我們在2018年親眼目睹的一個變化就是開源工具數(shù)量的增加,這些工具降低了AI的技術(shù)門檻,使所有人都能更容易地接觸到AI,加強了不同組織機構(gòu)之間的協(xié)作。這些開源社區(qū)對于確保AI在社會和企業(yè)的所有領域中的傳播至關(guān)重要。
同樣,在2019年,我們將看到關(guān)注AI的公司數(shù)量有所增加,谷歌和微軟最近都啟動了旨在“讓AI造福社會”的項目。隨著全社會對企業(yè)提出更高的社會目標的要求,這種將AI技術(shù)轉(zhuǎn)化為對社會積極影響的趨勢,正在獲得越來越多的支持和動力。
2018最大的進展是沒有進展!
CMU機器學習助理教授Zachary Chase Lipton:
我先說說深度學習。深度學習占機器學習和人工智能的公共話語的最大份額。
首先我要提一句,我的觀點可能會惹惱一些人,但我覺得這是2018年的一個合理的解讀:最大的進展是沒有進展!
為什么這么說呢?因為這些進展里面,很大一部分是改進與定性新觀念的本質(zhì)。
BigGAN是一個GAN,只不過更大。GANS逐漸的增長,產(chǎn)生了真正有趣的結(jié)果,在某些意義上的卻是邁出了一大步。
然而,從方法論上來說,它仍然只是GAN,只不過是有了更聰明的課程學習技巧的GAN。
再來說說NLP,今年最重要的故事是ELMO和BERT的情境化嵌入。這些絕對是讓人驚嘆的進步。
但至少Andrew Dai和Quoc Le,從2015年或者2016年就開始預訓練了語言模型,并對下游分類任務進行了微調(diào),只不過當時的規(guī)模較小。所以我覺得,今年沒有產(chǎn)生什么“大創(chuàng)意”。
雖然沒有大創(chuàng)意,但今年也有他積極的一面,可能就是我們并沒有將現(xiàn)有技術(shù)全部功力發(fā)揮出來。硬件、系統(tǒng)和工具的快速發(fā)展,可能會帶來二次飛躍。
我認為,現(xiàn)在正在醞釀的很多新想法,都出現(xiàn)在新興的深度學習理論中。很多研究人員,包括Sanjeev Arora,Tengyu Ma,Daniel Soudry,Nati Srebro等等,他們正在做一些非常令人興奮的工作。
很長一段時間,我們有了第一原理理論,這些理論是嚴謹?shù)模?jīng)常忽略了實踐。
然后是太過“學術(shù)向”的機器學習,它確實很科學,但卻嵌入打榜中無法自拔。
現(xiàn)在出現(xiàn)了一種新的探究模式,理論與實驗的結(jié)合更緊密。你開始看到受實驗啟發(fā)的理論論文,進行實驗的理論論文。
最近,我從一個鼓舞人心的經(jīng)驗中得到一個想法,就是我們可以從理論論文中獲得一個以前從來沒發(fā)現(xiàn)過的自然現(xiàn)象。
2019年及以后,我認為應用機器學習會有好的發(fā)展,我們正急于進入所有這些聲稱“解決”問題的實際領域。但到目前為止,我們唯一可依賴的只有監(jiān)督學習。
模式匹配目前還是受限于一些難題。受監(jiān)督的模型可以找到關(guān)聯(lián),但找不出原因。我們不知道哪些信息可以安全依賴,因為它可能會隨著時間的推移而發(fā)生變化。這些模型沒有告訴我們干預措施會產(chǎn)生什么樣的影響。
我認為在接下來的一年里,會看到更多機器學習項目被廢棄,或者正是因為黑盒屬性而陷入困境的案例。
我們會看到社區(qū)中最有創(chuàng)意的成員,會做出一些改變。不再一味追求打榜,而是更多的關(guān)注與填補代表性學習和因果推理之間的鴻溝。
AutoML達到臨界點
KDnuggets的編輯Matthew Mayo:
對我而言,2018年的機器學習是精細的。例如,得益于用于文本分類的通用語言模型微調(diào)(ULMFiT)和來自變換器的雙向編碼器表示(BERT)之類的技術(shù),轉(zhuǎn)移學習有了更廣泛的應用和興趣,特別是在自然語言處理中。
這些并不是過去一年NLP的唯一進步; 另外需要注意的是語言模型嵌入(ELMo),這是一個深層語境化的單詞表示模型,讓模型的每個任務都有相當大的改進。
今年的其他突破似乎集中在對BigGAN等現(xiàn)有技術(shù)的改進上。此外,由于眾多倡導型社區(qū)成員的聲音,關(guān)于機器學習包容性和多樣性的非技術(shù)性討論成為主流(NeurIPS就是其中的一個例子)。
我相信,在2019年,研究注意力將從監(jiān)督學習轉(zhuǎn)向強化學習和半監(jiān)督學習等領域,因為這些領域的潛在應用越來越多地得到實現(xiàn)。例如,我們現(xiàn)在處于圖像識別和生成已經(jīng)到了“解決”地步,并且從中學到的東西可以幫助研究人員追求更復雜的機器應用學習。
作為業(yè)余自動化機器學習(AutoML)傳播者,我認為AutoML將逐步進步,以達到普通的監(jiān)督學習任務能夠通過可用的方式或尚未完全完善的方法,自信地進行算法選擇和超參數(shù)優(yōu)化。
我認為自動化機器學習的普遍看法將會有轉(zhuǎn)變(或者已經(jīng)達到臨界點):從更換開發(fā)者到擴張他們。AutoML將不再被視為機器學習工具箱的替代品,而是作為其中包含的另一種工具。相反,我認為,開發(fā)者將日常使用這些工具,并且知道如何去操作,這將成為定局。
新的數(shù)據(jù)科學碩士課程大幅增加
Facebook數(shù)據(jù)科學家Brandon Rohrer:
2018年的一個重要趨勢是數(shù)據(jù)科學教育機會的擴散和不斷成熟。在線課程成為原始的數(shù)據(jù)科學教育場所,這些課程在各個層面都很受歡迎,每年都有更多的學生、發(fā)展和新的主題。
在學術(shù)界,新的數(shù)據(jù)科學碩士課程正以每年約十幾個的速度在增加。我們的高校正在響應公司和學生的請求,為數(shù)據(jù)相關(guān)領域提供專門計劃。
另一方面,教程博客文章無處不在。它們?yōu)樽x者對于數(shù)據(jù)科學的理解做出了巨大貢獻。
在2019年及以后,數(shù)據(jù)科學的學術(shù)計劃將更普遍地幫助人們學習基礎相關(guān)技能,以實現(xiàn)首批數(shù)據(jù)科學崗位的落地。這是件好事,受認證的機構(gòu)將填補這方面的長期空缺。
到目前為止,數(shù)據(jù)科學的資格證書可以在很大程度上證明以前的工作經(jīng)驗。這會創(chuàng)建一個Catch-22。新數(shù)據(jù)科學家無法證明自己是否有資格,因為他們從未有過數(shù)據(jù)科學的工作經(jīng)驗,而惡性循環(huán)的是這些人也無法獲得相關(guān)工作,因為他們無法證明自己是否有資格。而教育機構(gòu)的證書是打破這一循環(huán)的重要方式。
但是,在線課程不會隨處可見。因為許多人對大學教育所要求付出的時間和經(jīng)濟無法作出保證。
現(xiàn)在這些課程已經(jīng)出現(xiàn),數(shù)據(jù)科學教育將始終具有實用的方式。通過對項目工作的相關(guān)經(jīng)驗和在線培訓,即使沒有學位,新的數(shù)據(jù)科學家也有機會展示他們的技能。在線課程和教程將繼續(xù)變得更普遍、更復雜,對數(shù)據(jù)科學教育也更為重要。
事實上,幾個著名的數(shù)據(jù)科學和機器學習項目已經(jīng)把相關(guān)課程上傳到網(wǎng)上了,甚至為非預科學生提供入學選擇。我預計數(shù)據(jù)科學大學學位與在線培訓課程之間的界限將進一步模糊。
三大事件讓2018被銘記
ITV高級數(shù)據(jù)科學家Elena Sharova:
Elena Sharova
回顧2018年:
我認為,在AI和ML社區(qū)中,2018年有三大事件將被銘記。
首先是歐盟全球數(shù)據(jù)保護條例(GDPR)的啟動,該條例旨在提高個人數(shù)據(jù)使用的公平性和透明度。該條例使個人有權(quán)控制其個人數(shù)據(jù)和了解個人數(shù)據(jù)被如何使用,但也引起了對法律解釋的一些混淆。到目前為止,GDPR的最終結(jié)果是,許多公司對數(shù)據(jù)處理做了一些表面上的更改就認為自己是合規(guī)的,對忽略了重新設計數(shù)據(jù)存儲和處理的基礎設施的基本需求。
其次,是“劍橋分析”丑聞,這個事件給整個數(shù)據(jù)科學界蒙上了一層陰影。如果說之前的辯論主要是關(guān)于確保AI和ML產(chǎn)品的公平性,那么這次丑聞引發(fā)了更深層次的道德問題。對Facebook在這一事件中的參與程度的最新調(diào)查意味著,這些問題不會很快消失。隨著數(shù)據(jù)科學領域的成熟,這樣的事情還將發(fā)生在許多行業(yè),而不僅僅是政治領域。有些案件將更加悲慘,比如亞利桑那州的Uber自動駕駛汽車案,它們將引發(fā)強烈的公眾反應。技術(shù)就是力量,伴隨著力量而來的是責任。
最后,從更積極的方面來看,Amazon最新的自研服務器處理器芯片意味著,一般人獲取云計算將不再是一個成本問題。
展望2019年:
數(shù)據(jù)科學家的角色和職責將不僅僅是建立模型來實現(xiàn)準確的預測。
對于ML、AI和數(shù)據(jù)科學從業(yè)者來說,2019年的主要趨勢將是遵循既定的軟件開發(fā)實踐的越來越多的責任,尤其是在測試和維護方面。數(shù)據(jù)科學的最終產(chǎn)品必須與公司技術(shù)棧的其余部分共存。有效運行和維護專有軟件的要求將適用于我們構(gòu)建的模型和解決方案。這意味著最好的軟件開發(fā)實踐將支持我們需要遵循的機器學習規(guī)則。
遷移學習成功應用到NLP
fast.ai 創(chuàng)始人,舊金山大學副教授Rachel Thomas:
Rachel Thomas
回顧2018年:
遷移學習成功應用到NLP
反烏托邦式的濫用人工智能(包括由仇恨團體和獨裁主義論者進行的監(jiān)視和操縱)日益受到關(guān)注
遷移學習是將預訓練模型應用到一個新的數(shù)據(jù)集的實踐。遷移學習是計算機視覺領域爆炸式進步的一個關(guān)鍵因素,在2018年,遷移學習成功應用到了NLP的工作,包括fast.ai和Sebastian Ruder的ULMFiT,艾倫研究所的ELMo, OpenAI transformer,以及谷歌的BERT。這些進步令人興奮,也令人擔憂。
正在持續(xù)的問題,如Facebook在緬甸種族滅絕中扮演的決定性角色,YouTube不成比例地推薦陰謀論(其中許多是促進白人至上注意),以及AI在政府和執(zhí)法機構(gòu)監(jiān)控中的使用,在2018年越來越引起主流媒體的關(guān)注。雖然人工智能被濫用是可怕的,但有越來越多的人開始意識到它們,并越來越多地予以反擊,這是件好事。
展望2019年:
我預計這些趨勢將在2019年繼續(xù)下去,伴隨著NLP的快速發(fā)展(正如Sebastian Ruder所寫的那樣,“NLP的ImageNet時代已經(jīng)到來”),以及更多的反烏托邦式的發(fā)展,包括技術(shù)如何被用于監(jiān)視、煽動暴力和危險政治運動操縱等。
NLP詞嵌入有了兩大重要進展
專門從事搜索、發(fā)現(xiàn)和ML/AI的獨立顧問Daniel Tunkelang:
Daniel Tunkelang
回顧2018年:
2018年,自然語言處理和理解的詞嵌入的復雜性方面有了兩大重要進展。
第一次是在三月。艾倫人工智能研究所和華盛頓大學的研究人員發(fā)表了Deep contextualized word representations一文,提出了ELMo(Embeddings from Language Models),這是一種開源的深度語境化詞匯表示,改進了word2vec或GloVe這類上下文無關(guān)的嵌入。作者通過簡單地替換ELMo預訓練模型中的向量,證明了對現(xiàn)有NLP系統(tǒng)的改進。
第二次是在11月。谷歌開源了BERT(Bidirectional Encoder Representations from Transformers),這是一個雙向的、無監(jiān)督的語言表示,在維基百科語料上進行了預訓練。正如作者在“BERT:用于語言理解的深層雙向Transformers的預訓練”一文中展示的,他們在各種NLP基準測試中取得了顯著的改進,甚至比ELMo更強。
從智能音箱的迅速普及(到2018年底將達到1億臺左右)到移動電話上數(shù)字助理的普及,自然語言理解的進步正迅速從實驗室轉(zhuǎn)移到現(xiàn)實世界。對于NLP研究和實踐來說,這是一個激動人心的時代。
展望2019年:
但我們還有很長的路要走。
同樣是在今年,艾倫研究所的研究人員發(fā)布了《Swag:用于基礎常識推理的大型對抗式數(shù)據(jù)集》(Swag: A large - large Adversarial Dataset for Grounded Commonsense),這是一個用于需要常識理解的句子完成任務的數(shù)據(jù)集。他們的實驗表明,最先進的NLP仍然遠遠落后于人類的表現(xiàn)。
但希望我們能在2019年看到更多的NLP突破。計算機科學領域許多最優(yōu)秀的人才都在從事這方面的工作,工業(yè)界也渴望應用他們的成果。
回顧2018年:焦點開始從標準的監(jiān)督學習轉(zhuǎn)向更具挑戰(zhàn)性的機器學習問題,像半監(jiān)督學習、領域自適應、主動學習和生成模型。GAN仍然是非常受歡迎的,研究人員嘗試更困難的任務,如bigGANs和video-to-video合成。開發(fā)了替代的生成模型(如神經(jīng)渲染模型),以在單個網(wǎng)絡中組合生成和預測以幫助半監(jiān)督學習。
研究人員將深度學習的應用擴展到許多科學領域,如地震預測、材料科學、蛋白質(zhì)工程、高能物理和控制系統(tǒng)。在這些情況下,領域知識和約束與學習相結(jié)合。
預測2019年:“人工智能將模擬和現(xiàn)實聯(lián)系起來,變得更安全,更具物理意識”
我們將看到開發(fā)新的領域自適應技術(shù),以便將知識從模擬無縫轉(zhuǎn)移到現(xiàn)實世界。使用模擬將有助于我們克服數(shù)據(jù)稀缺性并加快新領域和問題的學習。使AI從模擬到實際數(shù)據(jù)(Sim2real)將對機器人技術(shù)、自動駕駛、醫(yī)學成像、地震預報等產(chǎn)生重大影響。模擬是解決自動駕駛等安全關(guān)鍵應用中所有可能情況的好方法。內(nèi)置于復雜模擬器中的知識將以新穎的方式被使用,以使AI更具物理意識,更強大,并能夠推廣到新的和看不見的場景。
2019移動設備上的實時語音生成與真人無異
Gartner機器學習團隊負責人Andriy Burkov:
Andriy Burkov
這是我自己作為一名實踐者的看法,不代表Gartner基于研究的官方聲明。以下是我的想法:
回顧2018年:TensorFlow在學術(shù)界輸給了PyTorch。有時谷歌的巨大影響力可能會使市場處于次優(yōu)的方向,因為MapReduce和隨后的hadoop狂熱已經(jīng)發(fā)生了這種情況。
Deepfakes(以及類似的聲音技術(shù))粉碎了最值得信賴的信息來源:視頻。沒有人能敢再說出這樣的話:我看到過那個人說這些話的視頻。幾十年前我們不再相信印刷文字,但直到現(xiàn)在,視頻還是不可動搖。
強化學習以深度學習的形式回歸是非常意外和酷!
Google代替人類致電餐廳并假裝(成功)成為真正的人類系統(tǒng)是一個里程碑。然而,它引發(fā)了許多關(guān)于道德和人工智能的問題。
個人助理和聊天機器人很快就達到了極限。它們比以往任何時候都好,但不如去年所希望的那么好。
展望2019年:
1)我希望每個人都對今年的AutoML承諾感到興奮。我也期望它失敗(除了一些非常具體和明確定義的案例,如不依靠手工的圖像識別、機器翻譯和文本分類,原始數(shù)據(jù)接近于機器期望作為輸入,并且數(shù)據(jù)是豐富的)。
2)營銷自動化:利用成熟的生成對抗網(wǎng)絡和變分自動編碼器,可以生成數(shù)千張相同人物或圖像的圖片,這些圖像之間的面部表情或情緒差異很小。根據(jù)消費者對這些圖片的反應,我們可以制作出最佳的廣告活動。
3)移動設備上的實時語音生成與真實人類無法區(qū)分。
4)自動駕駛的出租車將保持在測試/ PoC階段。
2018年成為對AI過度恐懼的一年
華盛頓大學計算機科學與工程系教授Pedro Domingos:
Pedro Domingos
經(jīng)歷了多年炒作,2018年成為對AI過度恐懼的一年。
按一些媒體、甚至是一些研究人員的觀點,你會認為特朗普在2016年大選獲勝全拜劍橋分析公司所賜、機器學習算法是充斥偏見和歧視的垃圾、機器人正在取代我們的工作,不久就將霸占我們的生活等等。這些論調(diào)不僅僅是說說而已:歐洲和加州已經(jīng)通過了更加嚴厲的隱私法,聯(lián)合國正在就AI武器禁令等內(nèi)容進行激烈辯論。公眾對AI的觀點越來越暗淡,這種現(xiàn)象即危險又不公平。
希望2019年,人們能夠回歸理性。
數(shù)據(jù)科學家的角色將傾向于從研究轉(zhuǎn)向產(chǎn)品開發(fā)
牛津大學物聯(lián)網(wǎng)課程的首席數(shù)據(jù)科學家和創(chuàng)始人Ajit Jaokar:
2018年,一些趨勢開始迅速流行。一個是自動化機器學習,一個是強化學習。這兩個新生趨勢將在2019年進一步發(fā)展。作為我在牛津大學開設的物聯(lián)網(wǎng)數(shù)據(jù)科學課程教學內(nèi)容的一部分,我認為物聯(lián)網(wǎng)將越來越多地融入大型生態(tài)系統(tǒng)之中,如自動駕駛汽車、機器人和智能城市。
2019年,一種新的機器人技術(shù),即協(xié)同機器人(cobots)將成為一個關(guān)鍵趨勢。與之前的生產(chǎn)線機器人不同,新的機器人將能夠自主活動,可以理解情感(在我的課程中,我們也在與從事該領域研究的情感研究實驗室合作)。
我的最后一個觀點可能有些爭議:在2019年,數(shù)據(jù)科學家的角色將傾向于從研究轉(zhuǎn)向產(chǎn)品開發(fā)。我認為人工智能與下一代數(shù)據(jù)產(chǎn)品的誕生密切相關(guān)。數(shù)據(jù)科學家的作用會發(fā)生相應的轉(zhuǎn)變。
今年開源工具數(shù)量增加,所有人都能接觸AI
RE.WORK創(chuàng)始人Nikita Johnson:
我們在2018年親眼目睹的一個變化就是開源工具數(shù)量的增加,這些工具降低了AI的技術(shù)門檻,使所有人都能更容易地接觸到AI,加強了不同組織機構(gòu)之間的協(xié)作。這些開源社區(qū)對于確保AI在社會和企業(yè)的所有領域中的傳播至關(guān)重要。
同樣,在2019年,我們將看到關(guān)注AI的公司數(shù)量有所增加,谷歌和微軟最近都啟動了旨在“讓AI造福社會”的項目。隨著全社會對企業(yè)提出更高的社會目標的要求,這種將AI技術(shù)轉(zhuǎn)化為對社會積極影響的趨勢,正在獲得越來越多的支持和動力。
2018最大的進展是沒有進展!
CMU機器學習助理教授Zachary Chase Lipton:
Zachary Chase Lipton
我先說說深度學習。深度學習占機器學習和人工智能的公共話語的最大份額。
首先我要提一句,我的觀點可能會惹惱一些人,但我覺得這是2018年的一個合理的解讀:最大的進展是沒有進展!
為什么這么說呢?因為這些進展里面,很大一部分是改進與定性新觀念的本質(zhì)。
BigGAN是一個GAN,只不過更大。GANS逐漸的增長,產(chǎn)生了真正有趣的結(jié)果,在某些意義上的卻是邁出了一大步。
然而,從方法論上來說,它仍然只是GAN,只不過是有了更聰明的課程學習技巧的GAN。
再來說說NLP,今年最重要的故事是ELMO和BERT的情境化嵌入。這些絕對是讓人驚嘆的進步。
但至少Andrew Dai和Quoc Le,從2015年或者2016年就開始預訓練了語言模型,并對下游分類任務進行了微調(diào),只不過當時的規(guī)模較小。所以我覺得,今年沒有產(chǎn)生什么“大創(chuàng)意”。
雖然沒有大創(chuàng)意,但今年也有他積極的一面,可能就是我們并沒有將現(xiàn)有技術(shù)全部功力發(fā)揮出來。硬件、系統(tǒng)和工具的快速發(fā)展,可能會帶來二次飛躍。
我認為,現(xiàn)在正在醞釀的很多新想法,都出現(xiàn)在新興的深度學習理論中。很多研究人員,包括Sanjeev Arora,Tengyu Ma,Daniel Soudry,Nati Srebro等等,他們正在做一些非常令人興奮的工作。
很長一段時間,我們有了第一原理理論,這些理論是嚴謹?shù)模?jīng)常忽略了實踐。
然后是太過“學術(shù)向”的機器學習,它確實很科學,但卻嵌入打榜中無法自拔。
現(xiàn)在出現(xiàn)了一種新的探究模式,理論與實驗的結(jié)合更緊密。你開始看到受實驗啟發(fā)的理論論文,進行實驗的理論論文。
最近,我從一個鼓舞人心的經(jīng)驗中得到一個想法,就是我們可以從理論論文中獲得一個以前從來沒發(fā)現(xiàn)過的自然現(xiàn)象。
2019年及以后,我認為應用機器學習會有好的發(fā)展,我們正急于進入所有這些聲稱“解決”問題的實際領域。但到目前為止,我們唯一可依賴的只有監(jiān)督學習。
模式匹配目前還是受限于一些難題。受監(jiān)督的模型可以找到關(guān)聯(lián),但找不出原因。我們不知道哪些信息可以安全依賴,因為它可能會隨著時間的推移而發(fā)生變化。這些模型沒有告訴我們干預措施會產(chǎn)生什么樣的影響。
我認為在接下來的一年里,會看到更多機器學習項目被廢棄,或者正是因為黑盒屬性而陷入困境的案例。
我們會看到社區(qū)中最有創(chuàng)意的成員,會做出一些改變。不再一味追求打榜,而是更多的關(guān)注與填補代表性學習和因果推理之間的鴻溝。
AutoML達到臨界點
KDnuggets的編輯Matthew Mayo:
對我而言,2018年的機器學習是精細的。例如,得益于用于文本分類的通用語言模型微調(diào)(ULMFiT)和來自變換器的雙向編碼器表示(BERT)之類的技術(shù),轉(zhuǎn)移學習有了更廣泛的應用和興趣,特別是在自然語言處理中。
這些并不是過去一年NLP的唯一進步; 另外需要注意的是語言模型嵌入(ELMo),這是一個深層語境化的單詞表示模型,讓模型的每個任務都有相當大的改進。
今年的其他突破似乎集中在對BigGAN等現(xiàn)有技術(shù)的改進上。此外,由于眾多倡導型社區(qū)成員的聲音,關(guān)于機器學習包容性和多樣性的非技術(shù)性討論成為主流(NeurIPS就是其中的一個例子)。
我相信,在2019年,研究注意力將從監(jiān)督學習轉(zhuǎn)向強化學習和半監(jiān)督學習等領域,因為這些領域的潛在應用越來越多地得到實現(xiàn)。例如,我們現(xiàn)在處于圖像識別和生成已經(jīng)到了“解決”地步,并且從中學到的東西可以幫助研究人員追求更復雜的機器應用學習。
作為業(yè)余自動化機器學習(AutoML)傳播者,我認為AutoML將逐步進步,以達到普通的監(jiān)督學習任務能夠通過可用的方式或尚未完全完善的方法,自信地進行算法選擇和超參數(shù)優(yōu)化。
我認為自動化機器學習的普遍看法將會有轉(zhuǎn)變(或者已經(jīng)達到臨界點):從更換開發(fā)者到擴張他們。AutoML將不再被視為機器學習工具箱的替代品,而是作為其中包含的另一種工具。相反,我認為,開發(fā)者將日常使用這些工具,并且知道如何去操作,這將成為定局。
新的數(shù)據(jù)科學碩士課程大幅增加
Facebook數(shù)據(jù)科學家Brandon Rohrer:
2018年的一個重要趨勢是數(shù)據(jù)科學教育機會的擴散和不斷成熟。在線課程成為原始的數(shù)據(jù)科學教育場所,這些課程在各個層面都很受歡迎,每年都有更多的學生、發(fā)展和新的主題。
在學術(shù)界,新的數(shù)據(jù)科學碩士課程正以每年約十幾個的速度在增加。我們的高校正在響應公司和學生的請求,為數(shù)據(jù)相關(guān)領域提供專門計劃。
另一方面,教程博客文章無處不在。它們?yōu)樽x者對于數(shù)據(jù)科學的理解做出了巨大貢獻。
在2019年及以后,數(shù)據(jù)科學的學術(shù)計劃將更普遍地幫助人們學習基礎相關(guān)技能,以實現(xiàn)首批數(shù)據(jù)科學崗位的落地。這是件好事,受認證的機構(gòu)將填補這方面的長期空缺。
到目前為止,數(shù)據(jù)科學的資格證書可以在很大程度上證明以前的工作經(jīng)驗。這會創(chuàng)建一個Catch-22。新數(shù)據(jù)科學家無法證明自己是否有資格,因為他們從未有過數(shù)據(jù)科學的工作經(jīng)驗,而惡性循環(huán)的是這些人也無法獲得相關(guān)工作,因為他們無法證明自己是否有資格。而教育機構(gòu)的證書是打破這一循環(huán)的重要方式。
但是,在線課程不會隨處可見。因為許多人對大學教育所要求付出的時間和經(jīng)濟無法作出保證。
現(xiàn)在這些課程已經(jīng)出現(xiàn),數(shù)據(jù)科學教育將始終具有實用的方式。通過對項目工作的相關(guān)經(jīng)驗和在線培訓,即使沒有學位,新的數(shù)據(jù)科學家也有機會展示他們的技能。在線課程和教程將繼續(xù)變得更普遍、更復雜,對數(shù)據(jù)科學教育也更為重要。
事實上,幾個著名的數(shù)據(jù)科學和機器學習項目已經(jīng)把相關(guān)課程上傳到網(wǎng)上了,甚至為非預科學生提供入學選擇。我預計數(shù)據(jù)科學大學學位與在線培訓課程之間的界限將進一步模糊。
評論