本周,兩家知名媒體——《華爾街日報》和《紐約時報》對AI公司在獲取優質訓練數據時遇到的困境進行了深入關注。值得注意的是,報道中提到了關于AI版權法模糊不清的灰色地帶。
通過開發Whisper音頻轉錄模型,OpenAI取得了一項突破性進展,成功轉錄了超過100萬個小時的YouTube視頻用于訓練GPT-4大型語言模型。其實施的這一過程因涉及版權問題而存在嚴重法律風險,但OpenAI仍堅持為技術創新設定開拓者的姿態。
另一位受訪者——《泰晤士報》,通過揭露OpenAI總裁Greg Brockman積極參與YouTube視頻收集工作的事實,強調此類操作的合法性問題。然而,OpenAI宣布將嚴格遵守相關法規,謹慎對待每一次行動。為了持續發展,OpenAI正不斷嘗試從各種渠道獲取有益的數據。
據OpenAI發言人Lindsay Held發表的聲明顯示,每個模型都在經過精心設計后配備了獨特的數據集,目的在于讓它們更準確地理解這個世界,能始終保持強大的研發能力。Notably, the company is exploring the possibilities of generating synthetic data to support their continuing growth and development.
相比之下,谷歌對此事持有不同看法。谷歌不認同未經授權就抓取和下載YouTube內容的行為,同時指出,谷歌的robots.txt文件和服務條款堅決禁止此類行為發生。近段時間,YouTube CEO尼爾·莫漢在接受采訪時也警告潛在的侵入者,使用YouTube視頻訓練AI模型的行為違反了其服務條款。
面對日益激烈的競爭環境,Meta公司同樣面臨著數據可用性問題。公司AI部門為了提升自身競爭力,甚至開始考慮未經授權使用版權作品,尤其是在面臨無法獲得足夠訓練數據之際。維持可持續發展已經成為了當下AI科技行業的當務之急。
-
語言模型
+關注
關注
0文章
558瀏覽量
10610 -
GPT
+關注
關注
0文章
368瀏覽量
15876 -
OpenAI
+關注
關注
9文章
1199瀏覽量
8521
發布評論請先 登錄
海思SD3403邊緣計算AI數據訓練概述
適用于數據中心和AI時代的800G網絡
泛林集團連續第三年被Ethisphere評為“全球最具商業道德企業”之一

《AI Agent 應用與項目實戰》----- 學習如何開發視頻應用
當我問DeepSeek AI爆發時代的FPGA是否重要?答案是......
SPEA創新實踐:AI芯片混合信號測試儀

OpenAI投資道德算法研究
BitEnergy AI公司開發出一種新AI處理方法
商業水電抄表收費困難怎么解決?

評論