在機器人技術、智能家電、智能零售店、自動駕駛汽車技術等的推動下,我們正步入一個新時期。機器學習是所有這些新時代技術進步的前沿。在不久的將來,自動化機器的發展將使得機器與人類智能相當甚至超過人類智能。機器學習無疑是下一個“大”事件。而且,人們相信,未來的大多數技術都將與之掛鉤。
為什么機器學習這么重要?
機器學習非常重要,因為它有助于預測人類無法預測的行為和模式。機器學習有無數非常有用的實際應用。通過機器學習,有可能管理以前令人困惑的場景。在理解了具有高效泛化能力的機器學習模型之后,可以使用它做出相應的重要決策。機器學習使個人能夠根據大量場景做出決策。顯然,現在還不能編寫出能夠用于所有新場景的代碼。
人工智能能夠執行各種需要學習和判斷的活動。從自動駕駛汽車、投資銀行、許多醫療相關功能到招聘,人工智能已經被用于完成不同領域的各種任務。
6 個關于機器學習的革命性教訓
機器學習算法能夠簡單地從場景中泛化,得到執行必要任務的方法。這樣更切實可行和而且具有成本效益,然而,手工編程并不那么具有成本效益和可行性?!翱捎脭祿睌盗康脑黾涌隙〞е鲁霈F更多的與獲取數據相關的問題。因此,機器學習是未來,因為它將廣泛應用于計算機和其他領域。盡管如此,開發有效的機器學習應用需要大量的“黑魔法”,這在手冊中很難找到。
以下是關于機器學習最有價值的 6 個經驗教訓:
1. 泛化是核心
機器學習最基本的特征之一是,算法必須從訓練的數據中泛化出該領域中所有不可見場景的完整領域,以便在使用模型時能夠做出正確的推斷。這個泛化的過程需要我們用來訓練模型的數據有一個我們希望算法去學習的,像樣的和可靠的映射。數據的質量越好,表達能力越高,模型就越容易理解從輸入到輸出的未知的和基本的“真實”映射。泛化是指從某種精確的東西轉向某種廣泛的東西。
機器學習算法是從歷史場景中自動簡化的技術。它們有能力在更大的數據量和更快的速度上進行泛化。
所有機器學習初學者最常犯的錯誤就是對訓練數據進行測試,然后看起來像是成功了。如果在新數據上嘗試所得到分類器,它通常不會比隨機猜測更好。所以,如果你想要開發一個分類器,一定要留一些數據做測試。同時,用你的分類器對測試數據進行測試。
2. 學習=表示+評估+優化
機器學習算法分為 3 個部分,表示、評估和優化
表示:數據需要以合適的算法形式輸入。對于文本分類,可以從全文輸入中提取特征,并將其變為 bag-of-words 的表示形式。相反,選擇一種表示方法與選擇它可能學習的分類器集是同義詞。這個集合稱為學習者的假設空間。
評估:這是一個幫助我們理解我們正在做什么的度量。需要一個評估過程來區分好分類器和不好的分類器。如果你可以給測試集預測出一個數字,例如測試集的大小為 n,在這里,你可以計算平均絕對誤差,甚至可以選擇使用均方根誤差。
優化:它是指尋找方法來選擇不同的技術來優化它的過程。例如,我們可以簡單地嘗試假設空間中的每一個假設。我們也可能選擇使用更智能的技術來嘗試最有利的假設。同時,當我們進行優化時,我們可以利用評價函數來了解這個特定的假設是否成立。如果評價函數有多個最優值,則優化技術允許用戶了解更多關于所創建分類器的信息。首先,初學者應該從現成的優化器開始,然后再轉向定制設計的優化器。
3. 只有數據是不夠的!
泛化是主要目的,但主要關注的是,無論數量多少,僅有數據是不夠的。但是,幸運的是,我們想掌握的功能并不是從所有可計算的功能中統一得出的!即使是最一般的假設(包括平滑度,具有類似類的相似示樣本,不充分的依存關系或受限制的復雜度)也足以正常運行,這是使機器學習如此強大的主要原因之一?;旧希谐鯇W者都聯合了解大數據來制作應用程序。
4. 小心過擬合
如果數據不充分,不能完全訓練好一個分類器,我們可能最終得到的是只在訓練集上有用的分類器。這個問題被稱為 overfitting,它被認為是 ML 的一個麻煩事。發現自己的模型過擬合了是有用的,但并不能解決這個問題。你得想辦法擺脫它。幸運的是,你有很多選擇去嘗試。交叉驗證有助于防止過擬合。訓練更多的數據,正則化,刪除特征,早期停止,集成是一些其他的防止過擬合的方法。
5. 特征工程是成功的關鍵
特征工程是利用數據的核心領域知識來開發使機器學習算法更好工作的特征的技術。如果處理得當,它可以通過從原始數據中開發特征來增強算法的預測能力。這些特征簡化了整個機器學習過程。利用幾個獨立的特征,很好地與類相關,然后讓學習變得容易。
6. 準確性&簡單性是不一樣的
奧卡姆剃刀(Occam’s razor)精辟地指出,實體的增加不應超出要求。這意味著兩個分類器有相似的訓練誤差,兩個分類器中較簡單的可能有最低的測試誤差。每一個機器學習項目都應該以你希望回答的業務問題為目標。你應該從制定分析的主要成功原則開始。
應用 Occam’s razor 并選擇最容易解釋、闡明、部署和管理的模型是構建強大的機器學習程序的關鍵步驟。建議選擇最簡單的、足夠精確的模型,但是,要確保你深入了解這個問題,以了解“足夠精確”在實踐中意味著什么。
-
機器人
+關注
關注
211文章
28646瀏覽量
208431 -
人工智能
+關注
關注
1796文章
47683瀏覽量
240311 -
機器學習
+關注
關注
66文章
8441瀏覽量
133088
發布評論請先 登錄
相關推薦
工程師13年編碼、測試和調試經驗大匯總
名單公布!【書籍評測活動NO.33】做了50年軟件開發,總結出60條經驗教訓,每一條都太扎心!
生物識別可穿戴產品開發有什么經驗教訓?
珠海炬力與SigmaTel達成和解的經驗教訓
借鑒開發人員累計的經驗教訓構建更出色的嵌入式系統
![借鑒<b class='flag-5'>開發</b>人員累計的<b class='flag-5'>經驗教訓</b>構建更出色的嵌入式系統](https://file1.elecfans.com//web2/M00/A6/E8/wKgZomUMQS6AG60zAAAdUzbEbGc050.png)
google機器學習團隊開發機器學習系統Seti的一些經驗教訓
企業如何從智能家居中吸取經驗教訓
Pedro Domingos教授的研究論文匯集機器學習研究人員的經驗教訓
AI和機器學習歷程經驗教訓總結
寫在最前:單片機從業的經驗教訓和歷程。
![寫在最前:單片機從業的<b class='flag-5'>經驗教訓</b>和歷程。](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
NASA的經驗教訓文件中的一些電氣工程事故
嵌入式微控制器應用中的無線(OTA)更新:設計權衡與經驗教訓
![嵌入式微控制器應用中的無線(OTA)更新:設計權衡與<b class='flag-5'>經驗教訓</b>](https://file.elecfans.com/web1/M00/D9/4E/pIYBAF_1ac2Ac0EEAABDkS1IP1s689.png)
評論