在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大模型訓練:開源數(shù)據(jù)與算法的機遇與挑戰(zhàn)分析

OSC開源社區(qū) ? 來源:OSC開源社區(qū) ? 2025-02-20 10:40 ? 次閱讀

最近,開源中國 OSCHINA、Gitee 與 Gitee AI 聯(lián)合發(fā)布了《2024 中國開源開發(fā)者報告》。

報告聚焦 AI 大模型領域,對過去一年的技術演進動態(tài)、技術趨勢、以及開源開發(fā)者生態(tài)數(shù)據(jù)進行多方位的總結和梳理。

在第二章《TOP 101-2024 大模型觀點》中,蘇州盛派網絡科技有限公司創(chuàng)始人兼首席架構師蘇震巍分析了大模型訓練過程中開源數(shù)據(jù)集和算法的重要性和影響,分析其在促進 AI 研究和應用中的機遇,并警示相關的風險與挑戰(zhàn)。

全文如下:

大模型訓練中的開源數(shù)據(jù)和算法:機遇及挑戰(zhàn)

隨著人工智能(AI)技術的迅猛發(fā)展,尤其是大模型(如 GPT、OpenAI o1、Llama 等)的崛起,開源數(shù)據(jù)和算法在大模型訓練中的重要性愈發(fā)顯著。開源數(shù)據(jù)集和算法不僅推動了 AI 研究的進步,也在應用層面帶來了深遠的影響。然而,伴隨這些機遇的還有諸多風險與挑戰(zhàn),如數(shù)據(jù)質量、版權問題和算法透明性等。本文將淺析大模型訓練過程中開源數(shù)據(jù)集和算法的重要性和影響,分析其在促進 AI 研究和應用中的機遇,并警示相關的風險與挑戰(zhàn)。

任何方案都具有兩面性和在特殊環(huán)境下的討論的意義和前提,因此,本文不討論開源或對立面(閉源)的絕對取舍問題,僅對開源的有利之處加以淺析。

重要的開源數(shù)據(jù)集和算法在大模型訓練中的角色

開源數(shù)據(jù)集是大模型訓練的基石。沒有高質量的數(shù)據(jù),大模型的性能和應用場景將受到極大限制。ImageNet、COCO、Wikipedia 和 Common Crawl 是非常重要一批高質量的開源數(shù)據(jù)集。以下是這幾個數(shù)據(jù)集在大模型訓練歷程中的重要角色。

ImageNet:ImageNet 是計算機視覺領域最著名的開源數(shù)據(jù)集之一,包含數(shù)百萬張帶有標簽的圖像。它為圖像分類、物體檢測等任務提供了豐富的數(shù)據(jù)資源,使得模型能夠在視覺理解方面取得突破。它由普林斯頓大學的計算機科學家李飛飛(Fei-Fei Li)及其團隊在 2009 年創(chuàng)建。ImageNet 包含超過 1400 萬張圖像,這些圖像分為超過 2 萬個類別,每個類別都與 WordNet 中的一個詞條對應。每個類別的圖像數(shù)量從數(shù)百到數(shù)千不等。ImageNet 每年都會舉辦一個大型的視覺識別競賽,即 ImageNet Large Scale Visual Recognition Challenge (ILSVRC)。該競賽吸引了全球眾多研究團隊參與,并在推動深度學習和卷積神經網絡(CNN)技術的發(fā)展中發(fā)揮了重要作用。今年的諾貝爾物理學獎得主之一 Geoffrey Hinton 帶領的團隊成員 AlexNet 在 2012 年的 ILSVRC 中取得了顯著的成功,使得深度學習在計算機視覺領域迅速崛起。也為如今我們看到的種類繁多的視覺大模型(VLMs)開啟了新的篇章。

COCO(Common Objects in Context):COCO 數(shù)據(jù)集由微軟于 2014 年發(fā)布,涵蓋了數(shù)十萬張日常生活中的圖像,并附有詳細的標注信息。雖然 COCO 對比 ImageNet 具有更少的類別,但每一個類別擁有更多的實例,假定這能幫助復雜模型提高物體定位的準確率。它的設計初衷適用于具有上下文信息的圖片中的物體檢測和分割,目前在目標檢測、分割等任務中發(fā)揮了重要作用,推動了計算機視覺技術的進步。

Wikipedia 和 Common Crawl:Wikipedia 是一個由全球用戶共同編輯和維護的高質量在線百科全書,以文字為主,知識高度結構化,Common Crawl 是一個非營利組織,定期抓取互聯(lián)網公開網頁,生成大量的網頁數(shù)據(jù)集,可提供大量的互聯(lián)網用戶知識及非結構化數(shù)據(jù)。他們的共同點是為模型訓練提供了充沛的文字素材。這些大型文本數(shù)據(jù)集為自然語言處理(NLP)模型的訓練提供了豐富的語料庫。像 GPT 這樣的語言模型正是通過大規(guī)模爬取和處理這些數(shù)據(jù)集,才能在文本生成和理解方面表現(xiàn)出色。

開源算法的角色

開源算法是 AI 研究和應用的核心驅動力。開源算法的共享和復用使得研究者和開發(fā)者能夠在前人工作的基礎上迅速迭代和創(chuàng)新。以下是一些在這一輪 AI 大模型浪潮中扮演重要角色的的開源算法及其在大模型訓練中的角色:

TensorFlow 和 PyTorch:這兩個深度學習框架是當前最流行的開源工具,提供了強大的計算能力和靈活的模型構建方式。它們?yōu)榇竽P偷挠柧毢筒渴鹛峁┝嘶A設施支持,使得復雜的 AI 模型得以實現(xiàn)。

Transformer 架構:Transformer 架構是一種用于處理序列數(shù)據(jù)的開源算法,廣泛應用于 NLP 任務,也是作為這一輪 AI 浪潮推動者 GPT 模型的基礎算法。基于 Transformer 的模型,如 BERT 和 GPT,已經成為自然語言理解和生成的事實標準。

GAN(生成對抗網絡):GAN 是一種用于生成數(shù)據(jù)的開源算法,廣泛應用于圖像生成、數(shù)據(jù)增強等領域。它通過生成器和判別器的對抗訓練,能夠生成高質量的圖像和其他數(shù)據(jù)。

除此以外,如果把 Pre-Train 之后的微調(Fine-Tuning)等環(huán)節(jié)也看做廣義 “訓練” 的一部分,還有一系列開源方法及配套的工具,例如比較常見的 LoRA(Low-Rank Adaptation of Large Language Models)。

機遇

從上述開源數(shù)據(jù)和算法在模型訓練過程中所扮演的角色可以看到,大模型訓練中的開源數(shù)據(jù)和算法為 AI 研究和應用帶來了諸多機遇,在加速創(chuàng)新、促進合作、資源共享等方便提供了廣泛而可靠的基礎條件和資源,圍繞這些資源,技術人員得以進行更加開放的交流和合作,并展開更加深入的教育和培訓,以此不斷提升整個行業(yè)人才的技術水平。

由于目前主流的模型訓練算法都需要依靠對訓練數(shù)據(jù)(樣本)的統(tǒng)計(概率),因此,開放的數(shù)據(jù)和算法能夠在更大程度上確保樣本的質量,從而避免更多未知的風險。例如就在 2024 年 12 月 1 日,用戶發(fā)現(xiàn) ChatGPT 在需要輸出 “David Mayer” 這個名字的時候會突然提示拒絕:

此事件一度被解讀為 GPT 模型在訓練過程中被植入了特定的樣本或算法,以避免討論特定的人名。雖然后續(xù)的一系列測試表明,這種限制似乎只存在于 ChatGPT 產品中,通過 OpenAI 對外提供的模型接口并不會觸發(fā)這樣的屏蔽機制。

OpenAI 在隨后周二(12 月 3 日)立即確認 “David Mayer” 這個名字已經被內部隱私工具標記,其在一份聲明中說:“可能有些情況下,ChatGPT 不提供關于人們的某些信息,以保護他們的隱私。” 公司不會提供有關工具或流程的更多細節(jié)。

無論真實的原因是什么,這個事件是一個反例,其顯示了封閉的系統(tǒng)以及中心化的模型提供者所具備的風險,也說明了不透明的處理環(huán)節(jié)對模型的輸出結果帶來更多的不確定性。類似的拒絕服務也是在模型服務過程中表現(xiàn)出來的另外一種偏見(Bias)行為,而偏見也是目前所有模型都在極力避免的情形,要進一步解決這個問題,使用更加開放的數(shù)據(jù)集和算法是一種更負責任的做法。

種種事件的發(fā)生并不是壞事,這是所有技術在發(fā)展過程中接受實踐檢驗的必經之路,通過種種嘗試和反饋,目前對于開源數(shù)據(jù)集和算法的呼聲正在越來越高漲。

除了對于訓練集和算法的開源之外,對于模型的 “開源” 定義也經受著各種議論。筆者比較認同的觀點是:開源模型不應該只把模型文件公布出來,同時應該把對應的訓練集和算法進行公開,并能夠提供相應的訓練流程,是所有人能夠對結果進行重現(xiàn)。這好比我們討論開源項目的時候,通常不會指我們只能夠下載某個應用程序,而是我們能夠查看源碼,甚至通過修改源碼編譯出自己想要的應用程序。

在今年 10 月 29 日,開放源代碼促進會(Open Source Initiative,OSI)發(fā)布了關于 “開源 AI 定義(OSAID)”1.0 版本,其規(guī)定了 AI 大模型若要被視為開源必須具備三個三個:訓練數(shù)據(jù)透明性、完整代碼、模型參數(shù)。雖然對比目前市面上的 “開源模型”,少有能力較高的模型能完全符合,但這種聲明本身就是一種開源開放態(tài)度的彰顯。

我相信,在更加透明的數(shù)據(jù)集和算法的支持下,模型將在可控性上獲得更好的發(fā)展機遇,相關的技術社區(qū)也將迎來更大的發(fā)展。

挑戰(zhàn)

當然,大模型訓練中的開源數(shù)據(jù)和算法也伴隨著一定的風險和挑戰(zhàn),這些風險需要在模型開發(fā)和應用的過程中被認真對待和解決。例如前文提到的 “偏見” 問題,以及數(shù)據(jù)質量問題,可能是最顯著的風險。由于開源數(shù)據(jù)集質量參差不齊,雖然一些廣泛使用的數(shù)據(jù)集如開頭介紹的 ImageNet 和 COCO 被認為是高質量的數(shù)據(jù)集,但其他開源數(shù)據(jù)集可能包含噪聲、錯誤標簽和不完整的信息。這種數(shù)據(jù)質量問題會直接影響模型的訓練效果,導致模型性能的下降,甚至可能產生錯誤的預測結果。

除此以外,在 GPT 爆火之后,由于相關法律和政策的滯后,已經有大量大模型生成的文字、圖像、視頻音頻內容被發(fā)布于互聯(lián)網,當這些內容再次被作為開放數(shù)據(jù)被采集,并再次進行訓練,可能會帶來更大的數(shù)據(jù)質量問題。因此,筆者認為對 AI 生成的觀點進行標注再發(fā)布是一種更加負責任的做法,當然,在實際操作過程中,要實現(xiàn)仍然有極大的難度。

開源數(shù)據(jù)集的版權問題也是一個需要重視的風險。盡管開源數(shù)據(jù)集通常是公開的,但其使用仍然受版權法的約束。未經授權使用受版權保護的數(shù)據(jù),可能會導致法律糾紛。此外,某些數(shù)據(jù)集可能包含敏感信息,涉及個人隱私甚至危害公共安全。

在使用這些數(shù)據(jù)時,必須遵守相關的隱私保護法規(guī),如歐盟的《通用數(shù)據(jù)保護條例》(GDPR)和美國的《健康保險可攜性和責任法案》(HIPAA)。在實際操作過程中,出于成本、工藝、能力、時間的制約,數(shù)據(jù)集的篩選和正確使用仍然將會是一個持久的挑戰(zhàn)。對于這個問題,閉源的數(shù)據(jù)集以及方法并不是不存在,只是更加隱蔽了。

也可能會有人擔心,所有的數(shù)據(jù)集和算法開放后,模型是否會面臨更多被操控的風險?筆者認為,這確實是一個很大的問題,例如模型可能會更容易被 “越獄”,從而被操控或輸出原本不應輸出的內容,這是一個需要尤其重點關注的風險點。

在應對策略方面,這場攻防戰(zhàn)的 “藍方” 同時也獲得了更多的信息,可以再次加固相關能力,在這個過程中,模型得以進行更加充沛的發(fā)展,就如同當下的互聯(lián)網一樣。只有黑暗才能隱藏更多風險尤其中心化的控制風險,只有讓核心數(shù)據(jù)和算法經受陽光的洗禮,并在所有人的監(jiān)督下不斷完善,才能讓模型在更多場景中被更深入地使用(即便如此,訓練完的模型本身對人類來說也仍然是一個 “黑盒”)。目前我們已經看到的大量開源的模型在各行各業(yè)中展現(xiàn)出強大的生命力和生產力,相關的開源社區(qū)也正在迎來新的繁榮期,長期來看,大模型將繼續(xù)在各種風險、機遇、挑戰(zhàn)、倫理等復雜環(huán)境中不斷發(fā)展。

結論

開源數(shù)據(jù)和算法在大模型訓練中的重要性不言而喻,它們?yōu)?AI 研究和應用帶來了前所未有的機遇。然而,這些機遇也伴隨著一定的風險和挑戰(zhàn),需要在模型開發(fā)和應用的過程中被認真對待和解決。通過采取適當?shù)膽獙Σ呗裕覀兛梢栽诔浞掷瞄_源數(shù)據(jù)和算法的同時,盡量減少其潛在的風險,推動 AI 技術的健康發(fā)展。

相信在未來,隨著技術的不斷進步和相關政策的完善,開源數(shù)據(jù)和算法將在大模型訓練中發(fā)揮更加重要的作用,為 AI 及大模型的研究和應用帶來更多的創(chuàng)新和機遇。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4637

    瀏覽量

    93526
  • 開源
    +關注

    關注

    3

    文章

    3442

    瀏覽量

    42824
  • 大模型
    +關注

    關注

    2

    文章

    2709

    瀏覽量

    3313

原文標題:大模型訓練中的開源數(shù)據(jù)和算法:機遇及挑戰(zhàn)

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    2025,AI變現(xiàn)有哪些機遇挑戰(zhàn)

    的應用提供了更高效的解決方案。與此同時,我國大模型領域仍然存在多方面痛點,例如:云端訓練成本高、高端算力存在“卡脖子”風險、優(yōu)質數(shù)據(jù)匱乏、人才缺口、AI算法
    的頭像 發(fā)表于 01-24 11:20 ?482次閱讀
    2025,AI變現(xiàn)有哪些<b class='flag-5'>機遇</b>與<b class='flag-5'>挑戰(zhàn)</b>?

    FP8數(shù)據(jù)格式在大型模型訓練中的應用

    本文主要介紹了 FP8 數(shù)據(jù)格式在大型模型訓練中的應用、挑戰(zhàn)及最佳實踐,展示了 FP8 在提升訓練速度和效率方面的潛力和實際效果。
    的頭像 發(fā)表于 11-19 14:54 ?871次閱讀
    FP8<b class='flag-5'>數(shù)據(jù)</b>格式在大型<b class='flag-5'>模型</b><b class='flag-5'>訓練</b>中的應用

    如何訓練自己的LLM模型

    訓練自己的大型語言模型(LLM)是一個復雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計算資源和專業(yè)知識。以下是訓練LLM模型的一般步驟,以及一些關
    的頭像 發(fā)表于 11-08 09:30 ?976次閱讀

    智能駕駛的挑戰(zhàn)機遇

    智能駕駛作為未來交通運輸發(fā)展的重要方向,正逐步進入大眾視野,并帶來了諸多機遇挑戰(zhàn)。以下是對智能駕駛的挑戰(zhàn)機遇分析: 智能駕駛的
    的頭像 發(fā)表于 10-23 16:00 ?1113次閱讀

    AI大模型訓練數(shù)據(jù)來源分析

    AI大模型訓練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)源對于構建和優(yōu)化AI模型至關重要。以下是對AI大模型
    的頭像 發(fā)表于 10-23 15:32 ?1808次閱讀

    大語言模型的預訓練

    能力,逐漸成為NLP領域的研究熱點。大語言模型的預訓練是這一技術發(fā)展的關鍵步驟,它通過在海量無標簽數(shù)據(jù)上進行訓練,使模型學習到語言的通用知識
    的頭像 發(fā)表于 07-11 10:11 ?608次閱讀

    人臉識別模型訓練流程

    人臉識別模型訓練流程是計算機視覺領域中的一項重要技術。本文將詳細介紹人臉識別模型訓練流程,包括數(shù)據(jù)準備、
    的頭像 發(fā)表于 07-04 09:19 ?1209次閱讀

    人臉識別模型訓練失敗原因有哪些

    人臉識別模型訓練失敗的原因有很多,以下是一些常見的原因及其解決方案: 數(shù)據(jù)集質量問題 數(shù)據(jù)集是訓練人臉識別
    的頭像 發(fā)表于 07-04 09:17 ?807次閱讀

    人臉識別模型訓練是什么意思

    人臉識別模型訓練是指通過大量的人臉數(shù)據(jù),使用機器學習或深度學習算法訓練出一個能夠識別和分類人臉的模型
    的頭像 發(fā)表于 07-04 09:16 ?791次閱讀

    解讀PyTorch模型訓練過程

    PyTorch作為一個開源的機器學習庫,以其動態(tài)計算圖、易于使用的API和強大的靈活性,在深度學習領域得到了廣泛的應用。本文將深入解讀PyTorch模型訓練的全過程,包括數(shù)據(jù)準備、
    的頭像 發(fā)表于 07-03 16:07 ?1267次閱讀

    深度學習模型訓練過程詳解

    深度學習模型訓練是一個復雜且關鍵的過程,它涉及大量的數(shù)據(jù)、計算資源和精心設計的算法訓練一個深度學習模型
    的頭像 發(fā)表于 07-01 16:13 ?1648次閱讀

    助聽器降噪神經網絡模型

    增強,并在大規(guī) 模數(shù)據(jù)集上進行訓練。我們能夠展示在堆疊網絡 方法中使用兩種類型的分析和綜合基礎的優(yōu)勢。 DTLN 模型在嘈雜的混響環(huán)境中運行穩(wěn)健。盡管 我們將基本
    發(fā)表于 05-11 17:15

    【大語言模型:原理與工程實踐】大語言模型的預訓練

    數(shù)據(jù)格式的轉換、數(shù)據(jù)字段的匹配和整合等。通過數(shù)據(jù)級凈化,可以進一步提高數(shù)據(jù)的質量和可用性,為后續(xù)的數(shù)據(jù)分析和建模提供更有價值的
    發(fā)表于 05-07 17:10

    Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT

    Meta推出最強開源模型Llama 3 要挑戰(zhàn)GPT Facebook母公司Meta Platforms(META.US)推出了開源AI大模型
    的頭像 發(fā)表于 04-19 17:00 ?931次閱讀

    李彥宏:開源模型將逐漸滯后,文心大模型提升訓練與推理效率

    李彥宏解釋道,百度自研的基礎模型——文心 4.0,能夠根據(jù)需求塑造出適應各類場景的微型版模型,并支持精細調整以及后預訓練。相較于直接使用開源模型
    的頭像 發(fā)表于 04-16 14:37 ?506次閱讀
    主站蜘蛛池模板: 狼狼色丁香久久女婷婷综合 | 日本黄色片在线播放 | www.婷婷| 亚洲一区免费 | 亚洲一卡二卡三卡 | 99婷婷| 视频一区二区免费 | 日本成本人三级在线观看2018 | 99热久久精品最新 | 激情综合网站 | 男女午夜特黄毛片免费 | 日韩欧美印度一级毛片 | 狠狠干网站| 一区二区三区免费视频网站 | 国产女人水多白浆 | 女人张开腿双腿让男人桶 | bt 电影天堂| 黄色国产网站 | 偷自在线 | 色婷婷综合久久久久中文一区二区 | 国语一级毛片私人影院 | 四虎影院美女 | 欧美成人xxxx | 欧美色爱综合网 | 国产精品夜色7777青苹果 | 久草色香蕉 | 夜夜夜精品视频免费 | 激情五月婷婷网 | 在线天堂中文新版www | 亚洲国产成人久久笫一页 | 好大好硬好深好爽视频h | 色你懂的| 一区二区视频在线 | 国内真实实拍伦视频在线观看 | 日日躁夜夜躁狠狠天天 | 能直接看黄的网站 | 人人干干 | 特级全黄一级毛片免费 | 日本一区免费看 | 国产一区二区在线观看免费 | 亚洲图片 欧美色图 |