人類的技能的基本就是把知識能聯系起來,能把所有的技能聯系起來,然后加以應用和加以分享,能學習,能比較。
9月15日,在由中國人工智能學會學術指導的全國博士后學術交流活動上,歐洲科學院院士,深知無限人工智能研究院(AITC)院長、首席科學家,德國人工智能研究中心(DFKI) 科學董事,聯想研究院AI首席顧問漢斯·烏思克爾特發表了題為“Combining different types of machine learning for information and knowledge extraction”的演講。
下為漢斯·烏思克爾特院士在本次大會中的演講實錄,經整理后發布。
漢斯·烏思克爾特:非常感謝李教授,我非常喜歡他的演講,可以說講的非常好,他談到了愿景和現實也有很好的結合,在我的演講里面我也盡量現實一點,跟大家分享一下我個人的經驗,特別是在機器學習的應用方面,以及建立知識架構方面,我希望能夠做到至少有一點遠見。我們知道有廣義的和窄義的AI,在今天的AI我們稱為窄義上的AI,因為我們知道AI能開車,能識別人臉,能翻譯,能下圍棋,通常同樣一個AI的模型不能做很多的事情,但是人類是不同的,人類可以做各種完全不同的事情。
現在讓我們再看一下歷史,看一下這兩種系統,一個系統是做窄面的事情,可以反映有很長的歷史,還有其他的系統,他們擁有知識,能夠去做不止一件事,可以做很多事情。所以在一開始,我們在機器學習開始的時候,在AI系統一開始是基于標準,基于規則的,我們可以檢查一個人是否能夠獲得相應的信用卡,要檢查他的信用情況等等,所以基于知識的AI。我們還有一些機器人,我們可以給他編程,像人類一樣做事情,這就是初期的AI,機器人可以去解決一些問題,遇到障礙可以停下來,這是把程序作為一個流程來安排的。
那么機器人也是有知識的,四處移動,一開始這些東西都是編號成序的,還有另外的一些方面,一方面是谷歌翻譯,可以翻譯成很多句子,即使他不理解其中的意思,也可以做到這點,對人類來講無法做到,我們只能在理解之后進行翻譯,但是谷歌的機器翻譯可以翻譯這些內容,模仿人類,就像自動駕駛一樣,模仿人類駕駛來進行。另外機器識別,機器識別不用理解所說話的意思,無論講什么內容但是可以去識別。另外有IBM watson系統,也打敗了美國智力挑戰的專家,它是信息量豐富的,也是非常神奇的一個系統。IBM有一些人類挑戰賽的冠軍,IBM可以做到把圣經,把維基百科,把這些知識存儲到里面去,watson可以使用。
當然還有其他的系統,可以從人類的回答里進行分析,可以去模仿人類,就像小的鸚鵡一樣可以重復人類所說的知識。還有一些能學習的類似于機器人,像德國的DFKI的系統,我們也討論很多,它也有很多的來自于大數據的知識。這些系統也使用一些機器學習,逐漸擴大知識,也同樣在內部使用深度學習,深度學習也是非常強大的,需要讓它做很多事情,即使需要很大的知識量。人類的智能,在不同人類的技能也是相互聯系的,比如說當我游泳的時候,這和我的識別別人人臉的功能是完全不相連的,人類的技能可以互相分開的,但是需要完全不同的知識,我能夠把不同的知識和技能應用在不同的活動上面,比如我騎自行車向左轉,我可以用一只手掌握車把,或者走一個曲線的路子。翻譯的時候我可以翻譯,我可以識別人臉,比如說在座的各位里面,我找出膚色白和膚色稍黑的人,這也是需要一定的技能。
這是不同的技能,我們可以把所有的技能都綜合起來,所以人類的技能的基本就是把知識能聯系起來,能把所有的技能聯系起來,然后加以應用和加以分享,能學習,能比較。下面讓我很快過一下這些內容,我們都知道這些內容,我們知道在指導下的學習,我們有各種各樣的數據,還有一些沒有監督的或者沒有指導下的自主學習,還有非常重要的就是這種半指導性下的學習有很多方法,比如說我們把一些數據予以標記,可以去進行分析,然后有些數據不用有太多的標記,這樣我們就可以去減輕人類的工作強度。還有一種叫做較少指導下的學習,我們很少有例子,這些例子能被標識。我們用非常好的數據,這樣機器能找到更多的類似的數據根據標簽,這樣可以進行更多的學習,更好的建造學習架構。
機器可以自動加標記,因為已經有這些數據了。還有機器性的學習,我們都知道機器的學習,這些系統能夠意識到有些數據是缺失的,他們可以去尋求這些數據,或者說文字我不認識,請給我翻譯一下,因為缺少例子,你可以給我更多的例子,更多的數據,作為機器性的學習。第二個就是強化學習,剛才李教授提到了,也就是獲得強化學習的閉環。那么還有就是機器學習,也就是機器教授,可能我們稱之為課程學習,大家都有一種觀念就是把數據進行分離開來,把它們成為更簡單的數據和更困難的數據,可能對于孩子會給他們更簡單的數據,隨著他們的成長,要給他們更困難的數據,所以這是一種很簡單的方式。這樣的方式當中,我們就可以進行難度的增加,所以這叫做課程的學習。
實際上在我們的程序語言處理當中,我們不知道其他的方面或者是領域,如果說你是通過一個簡單的物體開始,那我們就有不同的學習分層,或者是不同的目標區分,也是從最簡單的開始,然后大家會展示他們的一些積極的學習成果,這可能就是機器的教授。教授是一層,然后機器是另一層,我們就把它加入整合起來,就是機器教授。那我們來講授一下這種應用,機器人和自動駕駛的區別是什么?其實我們現在所說的AI是非常狹義的概念,比如說智能汽車以及其他各個領域的應用,但其實對于AI技術非常關鍵的一點就是幫助人們做決定。我們知道現在的數據非常龐雜,我們的大腦也是有限的,我們并不能處理這么龐雜的數據,其中的一個例子就是公司智能,那我們可以看到在公司智能中間部分,就是我們要運用新的AI技術,來為我們提供平臺,幫助公司做決定。
那我們可以看到CIA,也就是中情局,可能和情報局是不一樣的,那在英國我們在英語當中,我們情報和智能是一個詞,但是在中國智能實際上和情報是不一樣的,我們在這里強調的是智能。在德國也是,我們是有兩個不同的單詞,那現在企業,非常重要的一個觀點,其實讓企業獲得成功的方面是在公司之外的,大家在工廠當中,就是我們收入的來源,就是客戶支付錢,如果我們沒有技術來支撐的話,或者是說我們的客戶,我們的供應商沒有給我們提供足夠的原料,或者是我們的投資者并沒有為我們持續的投資,而出售了我們的股份,或者是我們的分銷商并沒有繼續分銷我們的產品,這就會給公司造成損失。
現在作為一個中國的公司,我們可能有兩萬或一萬的人,而且我們將商品出口到世界各地,其實很多的供應商不在中國,而且一些客戶也可能是在非洲和法國,我們的競爭者可能在瑞士,所以我們怎么樣來認知,對這些不同的成分進行認知呢?我們怎么樣看待這些全球化的不同的組成實體呢?那其實我們有一個夏明的工廠就找到我們來到柏林,他們來到我們的智能研究中心,可以幫助我們來監控或者是觀察我們的客戶嗎?我不知道我們的產品的什么特征他們會喜歡,我們的客戶喜歡什么樣的產品,比如西班牙,他們說不同的語言,所以我不知道他們需求是什么。如果我們把這寫都整合起來,就是一個智能企業。那其實,中情局也是同樣的道理,并不是說作出最終決定,他們是得到這些所有的信息來幫助他們作出選擇。
我們并不是說使用人工智能來取代人,當然了在很多領域,AI能取代人的功能,但是我們現在能給人們賦權,能讓人更好的作出決定,更好的輔助他們的工作。那在行業當中,我們可以通過人工智能幫助人作出更加明智的決定,比如在一些領域,他們是不能取代專家的產品經理或者是市場調研員,因為在這些領域,AI所起的作用是幫助他們更好的篩選和分析數據,作出更具邏輯的結論和決定。所以這是我們現在的人工智能形式。其實有來自全世界的數據,然后我們的大腦作出決定,這個決定最終會影響公司。我們的大腦從世界獲取數據,同時也從公司獲取數據,還有一些其他的知識以及人們自有的認知的知識,這樣我們就可以作出更加明智的決定。
這個是傳統科學,這個部分就是我們的智能,左邊部分可以取代的,右邊部分是不可以取代的,右邊部分的作用就是幫助CEO作出更好的決定。我們所要做的就是能夠使無論是這些無架構的或半架構的整個系統聯系起來,在其中當中,我們有這些知識曲線,知識圖表,無論是谷歌,還是其他的媒介,我們希望有這些數據知識圖表,可能也是我們的大眾所使用的。那從傳統意義而言,公司會使用不同的產品以及不同的標準,他們有自己的知識庫,他們有自己的自主的知識產權,自主的技術。那其實我們想要進行數據的交換和交流,我們想有競爭力,我們不想從公眾當中復制和獲取數據,因為公眾當中有一些數據是根據技術和材料的,但是你不想獲取這些已經現有的數據,我們想具有競爭力。
所以我們希望有這樣的一個知識社區,通過這樣的事實社區提取出自己所需要的知識,所以在我們德國就有一家,我們可以為公司構建自己的知識架構。這樣的知識架構,它并不同于我們的百科全書這樣的公眾知識,那其中我們可以看到這個數據源,它是從左到右,但是并能從右到左,也就是我們能從百科當中提取知識,但并不是說我們提取出來的知識或者數據再放到提取源當中,是單向的,而不是雙向的。這樣大的知識數據庫當中,我們現在已經有30億的數據和DBPedia合作。
第二點我想說知道了解我們的競爭者或者是你的客戶,他們并沒有把產品的數據發給你,或者說沒有用一種結構式的方式告訴你們,他們所喜歡的產品,但是他們可能會為你的產品進行評論,或者是發布了一些新聞,那可能你的競爭者在面臨財務危機,還有其他的情況,我們需要從龐雜的信息以及文本當中提取有效的信息。我們提取出來這些信息,或者是話題,答案,姓名,事實,實踐,觀點,以及客戶的情緒等,那我們就通過大數據的處理方式,還有在柏林我的同事所研究出來的一種程序進行這些信息的處理,它可以幫助我們數據形成數據流,形成點的形式。
那我給大家展示一下現在有什么樣的問題,如果我想收購一家公司,或者我想了解他的破產情況,產品,那其實人類有很多的方式表達同樣的觀點,同樣的句子,比如說一家公司收購另一家公司,我們有很多方式表達這句話,這個很復雜。我們想要知道的就是它其中的模式,這是正確的關聯關系,綠色的就是,黑色的不感興趣,紅色就是我們想找出來的,綠色就是模式,這樣我們就能了解我們的競爭者。
現在我們所做的就是監管式,我們已經取得了很多的例子,我們獲得了一些公司的圖表,它已經存在了在知識庫當中存在,然后我們找到這些描述公司的句子,他們的價格,還有其他的信息。比如說2008年的并購,我們會得到相應的信息,可能通過微軟,我們進行語義分析,因為我們要知道客體和主體是什么,其實這樣的程序,只知道兩個公司,并不知道誰是采購的,誰是被收購的,所以我們可以看到綠色的部分就是模式。
第二次就可以篩選綠色的部分獲得新的信息,同時我們已經放了兩千個案例,基本上直說有五十到兩千個案例在其中,我們就可以看到整個圖。現在我們來跳到下一部分,這是我們現在所采用的一個方式,我們在處理語言的時候,我們需要有不同的步驟,這是中國的排序,他們沒有空白,那我需要把它進行分區,我們需要找到每一個部分的語義是什么樣的,我需要找到現在的表達方式是什么,因為同一種語義可能會有數百萬的表達方式,但我要看一下現在的流行表達方式是什么,還有現在的組織的坐落點以及人所處的位置,這些都是我們的機器可以進行學習的,比如說在這兒,我們要利用神經語言網絡學習,大家可能知道LSTM是一種長期短期的記憶系統,它是德國所開發的。
同時,我們還有使用這些監管架構來進行學習,以及包括數據過濾,為什么我們要進行這方面的實施呢?因為我們現在對于大腦的構造和模式,還并不知道我們只是進行模仿,而且我們使用這種知識的方式,充滿知識的機器學習方式,那這種系統不止是從數據當中學習,同時也可以從外顯的知識當中學習,他們可以把語義和術語聯系起來。我們通過外圍的數據進行篩選,有相應的案例,那所以整個學習流程并不是從空白的方式開始的,而是基于其他人所給予我們的知識,空白的知識,我并不相信,所以我們需要在這個知識庫當中放入更多的知識,進行再度學習。
這是一種分階段式的學習,那我們再跟大家分享一下我們的觀點就是通過把隱性知識和外顯知識結合起來,充分利用人的認知,這是革新性的資產,如果只有具有邏輯性的知識,我們同樣也需要這些包括知覺或者是技能知識的總結,在人工智能方面,我們需要把隱性知識和顯性知識結合起來,就像汽車一樣,用混合動力的,意味著人工智能和人腦結合方面,也就是把所有的學習整合起來。最重要的一點我們要理解數據,收集數據,可以把收集的信息進行簡化。這樣的結合可能運用到現在行業的各個領域。現在在醫藥領域,行業工業領域或者是汽車制藥領域都可以使用這樣的比如通過X光檢測產品的質量,但是并沒有幫我們進行正確的決定,所以如果做出更合理的決定,我們需要把顯性知識和隱性知識結合起來,謝謝大家。
-
人工智能
+關注
關注
1806文章
48940瀏覽量
248361 -
機器學習
+關注
關注
66文章
8499瀏覽量
134409 -
深度學習
+關注
關注
73文章
5557瀏覽量
122690
原文標題:演講實錄丨漢斯·烏思克爾特:結合不同類型機器學習進行的信息和知識提取
文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學會】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
漢思膠水在半導體封裝中的應用概覽

簡單認識阿倫尼烏斯壽命模型

不同類型機器人及其所需的滑環種類
阿丘科技將亮相斯圖加特國際機器視覺展,攜前沿技術啟航國際市場

評論