如今人們總是能聽到有關機器學習的新聞,而機器學習技術確實有更多發(fā)展?jié)摿ΑU{研機構Gartner公司預測,對于很多組織來說,80%的人工智能項目仍是一種難以獲得成功的煉金術。根據VentureBeat公司發(fā)布的“Transform2019”研究報告,87%的人工智能項目將永遠無法投入生產。
為什么會這樣呢?為什么這么多項目失敗?
1.沒有足夠的專業(yè)知識
其中一個原因是,機器學習技術對人們來說仍然是新技術。此外,大多數組織仍不熟悉軟件工具和所需的硬件。
如今,從事數據分析或軟件開發(fā)工作并完成了一些數據科學項目的一些人卻將自己標榜為數據科學家。
事實上,組織需要經驗豐富的真正數據科學家來處理大多數機器學習和人工智能項目,尤其是在定義成功標準、最終部署和模型的持續(xù)監(jiān)控方面。
2.數據科學與傳統(tǒng)軟件開發(fā)之間的脫節(jié)
數據科學與傳統(tǒng)軟件開發(fā)之間的脫節(jié)是另一個主要因素。傳統(tǒng)的軟件開發(fā)往往更具可預測性和可衡量性。
數據科學研究通過多次迭代和試驗而向前發(fā)展。有時,由于選擇的度量標準不會驅動用戶行為,因此整個項目將不得不從部署階段返回到計劃階段。
傳統(tǒng)的基于敏捷的項目交付可能不適用于數據科學項目。對于在常規(guī)軟件開發(fā)項目的每個任務周期結束時一直在努力交付清晰結果的領導者來說,這將造成大規(guī)模的混亂。
3.數據量和質量
眾所周知,數據集越大,采用人工智能系統(tǒng)進行的預測就越好。除了數據量增加的直接影響之外,隨著數據量的增加,還會出現許多新的挑戰(zhàn)。
在許多情況下,組織將不得不合并來自多個源的數據。一旦開始這樣做,就會意識到它們同步的次數很少,這將導致很多混亂。有時,組織最終將合并不應該合并的數據,這將導致數據點具有相同的名稱但含義不同。
錯誤的數據會帶來無法采取行動或無法提供真知灼見的結果,也會導致誤導性結果。
4. 標記數據
標記數據的不可用是另一個阻礙機器學習項目的挑戰(zhàn)。《麻省理工學院斯隆管理評論》雜志指出,76%的人通過嘗試自己標記和注釋訓練數據來應對這一挑戰(zhàn),而63%的人甚至嘗試構建自己的標記和注釋自動化技術。
這意味著數據科學家在標記過程中無法充分利用其專業(yè)知識。這是有效執(zhí)行人工智能項目的主要挑戰(zhàn)。
這就是許多公司將標記任務外包給其他公司的原因。但是,如果標記任務需要足夠的領域知識,則將標記任務外包是一個挑戰(zhàn)。如果組織需要保持數據集之間的質量和一致性,則必須投資于標記人員的標準化培訓。
如果要標記的數據很復雜,則另一個選擇是開發(fā)自己的數據標記工具。但是,與機器學習任務本身相比,這通常需要更多的成本。
5.組織孤立無援
數據是機器學習項目中最重要的實體。在大多數組織中,這些數據將以不同的安全約束和不同格式(例如結構化、非結構化、視頻文件、音頻文件、文本和圖像)駐留在不同的位置。
在不同的地方以不同的格式保存這些數據本身就是一個挑戰(zhàn)。然而,當組織孤立無援而卻沒有相互協(xié)作時,其挑戰(zhàn)就會加倍。
6.缺乏合作
另一個主要挑戰(zhàn)是不同團隊之間缺乏協(xié)作,如數據科學家、數據工程師、數據管理員、商業(yè)智能(BI)專家、DevOps和工程。這對于物聯(lián)網到數據科學的工程方案中的團隊尤其重要,因為他們在工作方式和完成項目所使用的技術上有很多不同。
工程團隊將實施機器學習模型并將其投入生產。因此,他們之間需要有適當的理解和強有力的協(xié)作。
7.技術上不可行的項目
由于機器學習項目的成本往往非常昂貴,因此大多數企業(yè)傾向于以雄心勃勃的“登月計劃”為目標,這將完全改變組織或產品并帶來超額回報或投資。
這樣的項目將永遠無法完成,并將推動數據科學團隊達到極限。最終,企業(yè)領導者將對項目失去信心并停止投資。
8.技術團隊和業(yè)務團隊之間的協(xié)調問題
很多時候,機器學習項目在業(yè)務團隊和數據科學團隊之間在項目的期望、目標和成功標準上沒有明確的一致性。
這些類型的項目將永遠停留在研究階段,因為他們永遠不知道自己是否正在取得進展,因為至今還不清楚其目標是什么。
在這里,數據科學團隊將主要專注于準確性,而業(yè)務團隊將對諸如財務收益或業(yè)務洞察力之類的指標更感興趣。最后,業(yè)務團隊最終不接受數據科學團隊的結果。
9.缺乏數據策略
根據《麻省理工學院斯隆管理評論》雜志的調查,員工人數超過10萬名的大型組織將有50%可能采用數據策略。而組織在開始機器學習項目之前制定可靠的數據策略至關重要。
組織需要對以下內容有清晰的了解,這是數據策略的一部分:
組織擁有的全部數據是多少? 項目實際需要多少數據? 所需的人員將如何訪問這些數據,以及這些人員訪問這些數據的容易程度? 如何將來自不同來源的所有這些數據匯總在一起? 如何清理和轉換這些數據?
大多數組織一開始沒有計劃,或者根本沒有想到自己沒有數據。
10.缺乏領導支持
很多人認為,只需要投入一些資金和技術來解決問題,其結果就會自動出現。
但是他們沒有看到組織領導者提供正確的支持來確保成功所需的條件,而組織領導者有時對數據科學家開發(fā)的模型沒有信心。
這可能是由于組織的領導者對人工智能缺乏了解,以及數據科學家無法向他們傳達模型具有業(yè)務利益的原因。
最終,組織的領導者需要了解機器學習的工作原理以及人工智能對組織的真正意義。
責任編輯:YYX
-
人工智能
+關注
關注
1806文章
49000瀏覽量
249253 -
機器學習
+關注
關注
66文章
8501瀏覽量
134568
發(fā)布評論請先 登錄
松盛光電榮膺2024年度中國十大光學產業(yè)技術應用類獎
十大鮮為人知卻功能強大的機器學習模型

芯片流片失敗都有哪些原因

串口屏十大高頻問題:花屏、通信失敗、觸控漂移全解決

激光焊接十大常見缺陷及解決方法
年度電解槽十大品牌+年度制氫十大供應商,穩(wěn)石氫能榮獲兩大獎項!
電機振動十大原因分析及預防措施
華為發(fā)布2025智能光伏十大趨勢
NPU與機器學習算法的關系
商湯科技入選2024年CCF十大技術公益優(yōu)秀案例
燒結銀AS9378火爆的六大原因
晶閘管逆變失敗的原因和解決方案
中國信通院發(fā)布“2024云計算十大關鍵詞”

評論