完结小说,大主宰天蚕土豆,武道至尊帝临小说

機器學習是一種將傳統數學與現代強大的計算處理相結合的技術，以學習數據集中固有的模式。在機器學習中，目標是產生一種可以使用這些模式執行某些指定任務的算法。

在監督式機器學習的情況下，目標可能是開發一個模型，該模型可以識別一組輸入所屬的類別或類別，或預測連續值，例如房屋價格。

在本文中，我將介紹機器學習中的一些關鍵概念。如果您是機器學習的新手，這將使您對本領域中使用的一些術語和技術有一個很好的了解。

1.特征

在機器學習中，我們上面討論的輸入稱為特征。要素是分配給數據點的一組屬性。

以下示例數據集是著名的數據集，通常用于機器學習實踐問題（稱為"波士頓住房價格"）。它由一組與房屋相關的功能（在下圖中以紅色突出顯示）組成，例如年齡，平均房間數和物業稅值以及相應的房價。

為了使機器學習模型成功完成其任務，至少其中一些功能與房屋價格之間需要存在統計關系。

機器學習的6個關鍵概念

> Boston housing prices dataset — features are highlighted red

2.特征選擇與工程

優化機器學習模型的重要一步是優化。我們開發的模型需要以最佳狀態執行，而要確保做到這一點的一種方法是使用最佳功能來訓練模型。

包括每個特征并不總是有用的。有些特征可能與我們嘗試預測的變量沒有有意義的統計關系，而另一些特征可能彼此緊密相關。這兩種情況都將噪聲引入訓練階段，這可能會降低模型性能。特征選擇是選擇最佳特征以包含在訓練階段中的過程。

同樣，原始形式的特征可能無法提供足夠的有意義的數據來訓練性能模型。另外，某些特征根本不能以其原始形式使用，一個很好的例子就是基于日期/時間的功能。機器學習模型不能使用日期或時間戳作為特征，我們需要首先從日期中導出有意義的特征，才能包含此信息。我們可以使用整數形式的日期部分（例如月，日或星期數），或計算兩個日期之間的差，以提供算法可以理解的模式。這就是所謂的特征工程。

3.標簽

有監督的機器學習需要一些被稱為標記數據的東西。這意味著每組要素都具有相應標簽的數據。這些標簽可以是類別或類型（例如貓或狗），也可以是連續值，例如在波士頓房屋價格數據集中以標簽為價格的情況。

在開發機器學習模型時，功能通常稱為X，標簽稱為y。

機器學習的6個關鍵概念