接觸機器學習有一年了,是從上張敏老師的課開始的。后來師兄推薦了一本《統計學習理論的本質》,還記得第一印象覺得“統計”二字很奇怪。之后就漸漸習以為常了,接觸到的機器學習方法都是基于統計的,以至于統計學習與機器學習成了一個概念,以至于最近看了一些東西突然覺得自己長見識了。
與統計(數字化)機器學習相對的,可以叫做符號(數學化、形式化)機器學習:統計學習的質料是數字,而它的質料是符號;統計學習學的是模型參數,它學的是模型結構;統計學習的搜索空間是連續的,它的搜索空間是離散的。常聽說有基于統計與基于規則的區別,那么符號機器學習就是要自動學習那些規則。如果說統計機器學習是黑箱子,參數的意義難以解釋,目的只是能夠根據x輸出合理的y,那么符號機器學習的目標就是能找出人能夠理解的對象的規律,讓人能夠直接增加對事物的認識。
事實上唯一被保留下來的符號機器學習方法就是決策樹。他學習的就是一個離散表示的樹的結構,其分類過程可以寫成命題邏輯的形式,即其結果是符號的。可以看到因為同為機器學習,所以也有過學習的現象,也有結構風險的概念,也受著奧坎姆剃刀的審視。決策樹是自頂向下的,而符號學習中的AQ算法就是自低向上的,它期望用盡量少的規則覆蓋所有正例而不包括負例(可見其對噪音更敏感)。
既然有命題邏輯的學習,就有謂詞邏輯的學習。FOIL系統是比較有名的。他可以根據某一個家族成員間滿足parent(x,y)的實例與滿足grandparent(x,y)的實例,學習到grandparent與parent這兩個謂詞形式上的關系,這樣的結果就是人類可以理解的知識——“a是b的grandparent,就是指a是b父母的父母”。
還有個有趣的叫Bacon的系統。通過物理實驗數據,再次發現了理想氣體方程等物理定律。他與普通的回歸分析不同,因為事先它不知道要擬合的是什么形式的曲線,方程的形式是他通過啟發式搜索得到的。
還有兩個理論叫粗糙集與概念格。他們的對象也是樣本與樣本的特征,目標也是分類,跟統計機器學習完全一樣。他們也是要做“特征選擇”,分出哪些對分類是必須的,哪些是可以用的,哪些是多余的。概念格有意思的地方是他給“概念”了一個形式化的定義,還包括“外延”與“內涵”都形式化了,真是個模仿真實情況的模型玩具。之所以是玩具,因為粗糙集與概念格都太形式化了太漂亮了以至于更難與復雜的現實結合,比如用它來做人臉識別簡直是噩夢。不過我對他們的了解也不深入,需要更多的考察。
做機器人腦識別沒聽說用基于規則推理的,做機器定理證明也沒聽說用基于統計的。他們一個是復雜的現實對象,一個是抽象的符號對象。而有趣的是自然語言是介于兩者之間的。
有人說學計算機的去單獨搞生物信息學很難,必須要一個生物科班出身的給其專業知識方面的指導,如同瞎子背瘸子。而計算語言學的語言學門檻很低,有計算機背景的很容易上手。我想符號學習對統計學習的啟示大概就是如此。如同目前的文本分類、分詞的統計模型,都沒有使用一點語言學知識。svm,crf結構沒有一點為應對語言問題而做出的專門的改動。LDA是一個啟示,既然統計學習弱于結構,我們似乎就應該考慮語言的本質在模型結構上下功夫,使其更適合語言問題。
-
機器學習
+關注
關注
66文章
8445瀏覽量
133120
發布評論請先 登錄
相關推薦
評論