Data Science Central網站主編、有多年數據科學和商業分析模型從業經驗的Bill Vorhies曾撰文指出,過去一年人工智能和深度學習最重要的發展不在技術,而是商業模式的轉變——所有巨頭紛紛將其深度學習IP開源。 毋庸置疑,“開源浪潮”是2016年人工智能領域不可忽視的一大趨勢,而其中最受歡迎的項目則是谷歌的深度學習平臺TensorFlow。下文就從TensorFlow說起,盤點2016年AI開源項目,最后統計了Github最常用深度學習開源項目Top 50。
谷歌開源:圍繞TensorFlow打造深度學習生態圈
1.Google第二代深度學習引擎TensorFlow開源
2015年11月,谷歌開源深度學習平臺TensorFlow。2016年4月,谷歌推出了分布式TensorFlow。現在,TensorFlow已經成為業內最受歡迎的深度學習平臺之一。
2.谷歌開源全球最精準語言解析器SnytaxNet
2016年5月13日,Google Research宣布,世界準確度最高的自然語言解析器SyntaxNet開源。谷歌開源再進一步。據介紹,谷歌在該平臺上訓練的模型的語言理解準確率超過90%。SyntaxNet是一個在TensoFlow中運行的開源神經網絡框架,提供自然語言理解系統基矗谷歌公開了所有用用戶自己的數據訓練新SyntaxNet模型所需要的代碼,以及谷歌已經訓練好的,可用于分析英語文本的模型Paesey McParseface。
Paesey McParseface建立于強大的機器學習算法,可以學會分析句子的語言結構,能解釋特定句子中每一個詞的功能。此類模型中,Paesey McParseface是世界上最精確的,谷歌希望它能幫助對自動提取信息、翻譯和其他自然語言理解(NLU)中的應用感興趣的研究者和開發者。
3.谷歌推出Deep&Wide Learning,開源深度學習API
2016年6月29日,谷歌推出Wide & Deep Learning,并將TensorFlow API開源,歡迎開發者使用這款最新的工具。同時開源的還有對Wide & Deep Learning的實現,作為TF.Learn應用程序接口的一部分,讓開發者也能自己訓練模型。
4.谷歌開源TensorFlow自動文本摘要生成模型
2016年8月25日,谷歌開源了TensorFlow中用于文本信息提取并自動生成摘要的模型,尤其擅長長文本處理,這對自動處理海量信息十分有用。自動文本摘要最典型的例子便是新聞報道的標題自動生成,為了做好摘要,機器學習模型需要能夠理解文檔、提取重要信息,這些任務對于計算機來說都是極具挑戰的,特別是在文檔長度增加的情況下。
5.谷歌開源圖像分類工具TF-Slim,定義TensorFlow復雜模型
2016年8月31日,谷歌宣布開源TensorFlow高級軟件包TF-Slim,能使用戶快速準確地定義復雜模型,尤其是圖像分類任務。自發布以來,TF-Slim已經得到長足發展,無論是網絡層、代價函數,還是評估標準,都增加了很多類型,訓練和評估模型也有了很多便利的常規操作手段。這些手段使你在并行讀取數據或者在多臺機器上部署模型等大規模運行時,不必為細節操心。此外,谷歌研究員還制作了TF-Slim圖像模型庫,為很多廣泛使用的圖像分類模型提供了定義以及訓練腳本,這些都是使用標準的數據庫寫就的。TF-Slim及其組成部分都已經在谷歌內部得到廣泛的使用,很多升級也都整合進了tf.contrib.slim。
6.谷歌開源大規模數據庫,10億+數據,探索RNN極限
2016年9月13日,谷歌宣布開源大規模語言建模模型庫,這項名為“探索RNN極限”的研究今年2月發表時就引發激論,如今姍姍來遲的開源更加引人矚目。研究測試取得了極好的成績,另外開源的數據庫含有大約10億英語單詞,詞匯有80萬,大部分是新聞數據。這是典型的產業研究,只有在谷歌這樣的大公司才做得出來。這次開源也應該會像作者希望的那樣,在機器翻譯、語音識別等領域起到推進作用。
7.谷歌開源TensorFlow圖說生成模型,可真正理解圖像
2016年9月23日,谷歌宣布開源圖說生成系統Show and Tell最新版在TensorFlow上的模型。該系統采用編碼器-解碼器神經網絡架構,分類準確率達93.9%,在遇到全新的場景時能夠生成準確的新圖說。谷歌表示,這說明該系統能夠真正理解圖像。
8.谷歌開源超大數據庫,含800萬+視頻
2016年9月28日,谷歌在官方博客上宣布,將含有800萬個Youtube視頻URL的視頻數據庫開源,視頻總時長達到了50萬個小時。一并發布的還有從包含了4800個知識圖譜分類數據集中提取的視頻級別標簽。這一數據庫在規模和覆蓋的種類上都比現有的視頻數據庫有顯著提升。例如,較為著名的Sports-1M數據庫,就只由100萬個Youtube視頻和500個運動類目。谷歌官方博客上說,在視頻的數量和種類上,Youtube-8M代表的是幾乎指數級的增長。
9.谷歌發布Open Images圖片數據集,包含900萬標注圖片
2016年10月1日,繼前天發布800萬視頻數據集之后,谷歌又發布了圖片數據庫Open Images,包含了900萬標注數據,標簽種類超過6000種。谷歌在官方博客中寫到,這比只擁有1000個分類的ImageNet更加貼近實際生活。對于想要從零開始訓練計算機視覺模型的人來說,這些數據遠遠足夠了。就在12月,谷歌還開源了Open Images并行下載工具的腳本,5天速度最高超過200 M。
10.DeepMind開源AI核心平臺DeepMind Lab(附論文)
2016年12月5日,DeepMind宣布將其AI核心平臺DeepMind Lab開源。DeepMind實驗室把全部代碼上傳至Github,供研究人員和開發者進行實驗和研究。DeepMind Lab這一平臺將幾個不同的AI研究領域整合至一個環境下,方便研究人員測試AI智能體導航、記憶和3D成像等能力。值得一提的是,這些代碼也包括AlphaGO的代碼,谷歌希望以此增加AI能力的開放性,讓更多開發者參與AI研究,觀察其他開發者是否能夠挑戰并打破DeepMind現在的紀錄。
Facebook開源:貫徹理念
1.Facebook開源圍棋引擎DarkForest
6個月前,Facebook將其圍棋引擎DarkForest開源。現在訓練代碼已經全部發布。Github鏈接:https://github.com/facebookresearch/darkforestGo。
2.Facebook開源文本分類工具fastText,不用深度學習也可以又快又準
2016年8月19日,Facebook AI實驗室(FAIR)宣布開源文本分析工具fastText。fastText既可以用于文本分類,又能用于學習詞匯向量表征。在文本分類的準確率上與一些常用的深度學習工具不相上下,但是在時間上卻快很多——模型訓練時間從幾天減少到幾秒。除了文本分類,fastText也能被用于學習詞語的向量表征,Facebook稱fastText比常用的Word2vec等最先進的詞態表征工具表現都要好得多。
3.Facebook開源計算機視覺系統deepmask,從像素水平理解圖像(附論文及代碼)
2016年8月26日,Facebook宣布開源計算機視覺系統deepmask,稱該系統能“從像素水平理解物體”,Facebook希望開源能加速計算機視覺的發展。不過,Facebook并沒有在自家產品中使用這些工具,像這樣落實到具體應用前就開源,跟通常所說的“開源”有些不同。對此,Facebook人工智能團隊FAIR的負責人Yann LeCun 曾表示,正是因為FAIR 做基礎的、不受制于公司短期效益的研究,才能真正推進人工智能技術發展。
4.Facebook 開源AI 訓練和測試環境CommAI-env
2016年9月27日,Facebook 宣布開放AI 訓練和測試環境CommAI-env,可以用任何編程語言設置智能體。據介紹,CommAI-env 這個平臺用于訓練和評估AI 系統,尤其是注重溝通和學習的AI 系統。與用強化學習從玩游戲到下圍棋都能做的OpenAI Gym 不同,Facebook 的CommAI-env 側重基于溝通的訓練和測試,這也是為了鼓勵開發人員更好地打造能夠溝通和學習的人工智能,呼應該公司的十年規劃。Facebook 還表示,CommAI-env 會持續更新,并在成熟后舉辦競賽推進AI 的開發。
在AI 測試環境方面,Facebook 還開源了CommNet,這是一個讓基于神經網絡的代理更好交互、實現合作而研發的模型,與CommAI-env 配套。12月,Facebook 還開源了 TorchCraft,在深度學習環境 Torch 與星際爭霸之間搭起了橋梁,方便研究人員使用控制器,編寫能夠玩星際爭霸游戲的智能代理。
5.Facebook 賈揚清發文介紹 Caffe2go,手機就能運行神經網絡
2016年11月8日,Caffe作者、Facebook 研究員賈揚清在官方網站上發文介紹了新的機器學習框架 Caffe2go,并表示在接下來的幾個月將其部分開源。Caffe2go 規模更小,訓練速度更快,對計算性能要求較低,在手機上就行運行,已經成為 Facebook 機器學習的核心技術。
OpenAI
1.OpenAI 推出代理訓練環境 OpenAI Gym
創立于2015年底的非盈利機構 OpenAI 的成立打破了谷歌、Facebook 等巨頭霸占 AI 領域的格局,但其創始人、特斯拉CEO馬斯克多次發表人工智能威脅論。馬斯克創立 OpenAI 目的何在?2016年5月4日,OpenAI 發布了人工智能研究工具集 OpenAI Gym,用于研發和比較強化學習算法,分析 OpenAI Gym 或可找出馬斯克的真正動機。
2.另一種開源:OpenAI 介紹深度學習基礎框架
評論