盗墓笔记,yy玄幻小说排行榜完本,盗墓笔记小说txt下载

最近，開源中國 OSCHINA、Gitee 與 Gitee AI 聯合發布了《2024 中國開源開發者報告》。

報告聚焦 AI 大模型領域，對過去一年的技術演進動態、技術趨勢、以及開源開發者生態數據進行多方位的總結和梳理。

在第二章《TOP 101-2024 大模型觀點》中，蘇州盛派網絡科技有限公司創始人兼首席架構師蘇震巍分析了大模型訓練過程中開源數據集和算法的重要性和影響，分析其在促進 AI 研究和應用中的機遇，并警示相關的風險與挑戰。

全文如下：

大模型訓練中的開源數據和算法：機遇及挑戰

隨著人工智能（AI）技術的迅猛發展，尤其是大模型（如 GPT、OpenAI o1、Llama 等）的崛起，開源數據和算法在大模型訓練中的重要性愈發顯著。開源數據集和算法不僅推動了 AI 研究的進步，也在應用層面帶來了深遠的影響。然而，伴隨這些機遇的還有諸多風險與挑戰，如數據質量、版權問題和算法透明性等。本文將淺析大模型訓練過程中開源數據集和算法的重要性和影響，分析其在促進 AI 研究和應用中的機遇，并警示相關的風險與挑戰。

任何方案都具有兩面性和在特殊環境下的討論的意義和前提，因此，本文不討論開源或對立面（閉源）的絕對取舍問題，僅對開源的有利之處加以淺析。

重要的開源數據集和算法在大模型訓練中的角色

開源數據集是大模型訓練的基石。沒有高質量的數據，大模型的性能和應用場景將受到極大限制。ImageNet、COCO、Wikipedia 和 Common Crawl 是非常重要一批高質量的開源數據集。以下是這幾個數據集在大模型訓練歷程中的重要角色。

ImageNet：ImageNet 是計算機視覺領域最著名的開源數據集之一，包含數百萬張帶有標簽的圖像。它為圖像分類、物體檢測等任務提供了豐富的數據資源，使得模型能夠在視覺理解方面取得突破。它由普林斯頓大學的計算機科學家李飛飛（Fei-Fei Li）及其團隊在 2009 年創建。ImageNet 包含超過 1400 萬張圖像，這些圖像分為超過 2 萬個類別，每個類別都與 WordNet 中的一個詞條對應。每個類別的圖像數量從數百到數千不等。ImageNet 每年都會舉辦一個大型的視覺識別競賽，即 ImageNet Large Scale Visual Recognition Challenge （ILSVRC）。該競賽吸引了全球眾多研究團隊參與，并在推動深度學習和卷積神經網絡（CNN）技術的發展中發揮了重要作用。今年的諾貝爾物理學獎得主之一 Geoffrey Hinton 帶領的團隊成員 AlexNet 在 2012 年的 ILSVRC 中取得了顯著的成功，使得深度學習在計算機視覺領域迅速崛起。也為如今我們看到的種類繁多的視覺大模型（VLMs）開啟了新的篇章。

COCO（Common Objects in Context）：COCO 數據集由微軟于 2014 年發布，涵蓋了數十萬張日常生活中的圖像，并附有詳細的標注信息。雖然 COCO 對比 ImageNet 具有更少的類別，但每一個類別擁有更多的實例，假定這能幫助復雜模型提高物體定位的準確率。它的設計初衷適用于具有上下文信息的圖片中的物體檢測和分割，目前在目標檢測、分割等任務中發揮了重要作用，推動了計算機視覺技術的進步。

Wikipedia 和 Common Crawl：Wikipedia 是一個由全球用戶共同編輯和維護的高質量在線百科全書，以文字為主，知識高度結構化，Common Crawl 是一個非營利組織，定期抓取互聯網公開網頁，生成大量的網頁數據集，可提供大量的互聯網用戶知識及非結構化數據。他們的共同點是為模型訓練提供了充沛的文字素材。這些大型文本數據集為自然語言處理（NLP）模型的訓練提供了豐富的語料庫。像 GPT 這樣的語言模型正是通過大規模爬取和處理這些數據集，才能在文本生成和理解方面表現出色。

開源算法的角色

開源算法是 AI 研究和應用的核心驅動力。開源算法的共享和復用使得研究者和開發者能夠在前人工作的基礎上迅速迭代和創新。以下是一些在這一輪 AI 大模型浪潮中扮演重要角色的的開源算法及其在大模型訓練中的角色：

TensorFlow 和 PyTorch：這兩個深度學習框架是當前最流行的開源工具，提供了強大的計算能力和靈活的模型構建方式。它們為大模型的訓練和部署提供了基礎設施支持，使得復雜的 AI 模型得以實現。

Transformer 架構：Transformer 架構是一種用于處理序列數據的開源算法，廣泛應用于 NLP 任務，也是作為這一輪 AI 浪潮推動者 GPT 模型的基礎算法?；?Transformer 的模型，如 BERT 和 GPT，已經成為自然語言理解和生成的事實標準。

GAN（生成對抗網絡）：GAN 是一種用于生成數據的開源算法，廣泛應用于圖像生成、數據增強等領域。它通過生成器和判別器的對抗訓練，能夠生成高質量的圖像和其他數據。

除此以外，如果把 Pre-Train 之后的微調（Fine-Tuning）等環節也看做廣義 “訓練” 的一部分，還有一系列開源方法及配套的工具，例如比較常見的 LoRA（Low-Rank Adaptation of Large Language Models）。

機遇

從上述開源數據和算法在模型訓練過程中所扮演的角色可以看到，大模型訓練中的開源數據和算法為 AI 研究和應用帶來了諸多機遇，在加速創新、促進合作、資源共享等方便提供了廣泛而可靠的基礎條件和資源，圍繞這些資源，技術人員得以進行更加開放的交流和合作，并展開更加深入的教育和培訓，以此不斷提升整個行業人才的技術水平。

由于目前主流的模型訓練算法都需要依靠對訓練數據（樣本）的統計（概率），因此，開放的數據和算法能夠在更大程度上確保樣本的質量，從而避免更多未知的風險。例如就在 2024 年 12 月 1 日，用戶發現 ChatGPT 在需要輸出 “David Mayer” 這個名字的時候會突然提示拒絕：

此事件一度被解讀為 GPT 模型在訓練過程中被植入了特定的樣本或算法，以避免討論特定的人名。雖然后續的一系列測試表明，這種限制似乎只存在于 ChatGPT 產品中，通過 OpenAI 對外提供的模型接口并不會觸發這樣的屏蔽機制。

OpenAI 在隨后周二（12 月 3 日）立即確認 “David Mayer” 這個名字已經被內部隱私工具標記，其在一份聲明中說：“可能有些情況下，ChatGPT 不提供關于人們的某些信息，以保護他們的隱私?！?公司不會提供有關工具或流程的更多細節。

無論真實的原因是什么，這個事件是一個反例，其顯示了封閉的系統以及中心化的模型提供者所具備的風險，也說明了不透明的處理環節對模型的輸出結果帶來更多的不確定性。類似的拒絕服務也是在模型服務過程中表現出來的另外一種偏見（Bias）行為，而偏見也是目前所有模型都在極力避免的情形，要進一步解決這個問題，使用更加開放的數據集和算法是一種更負責任的做法。

種種事件的發生并不是壞事，這是所有技術在發展過程中接受實踐檢驗的必經之路，通過種種嘗試和反饋，目前對于開源數據集和算法的呼聲正在越來越高漲。

除了對于訓練集和算法的開源之外，對于模型的 “開源” 定義也經受著各種議論。筆者比較認同的觀點是：開源模型不應該只把模型文件公布出來，同時應該把對應的訓練集和算法進行公開，并能夠提供相應的訓練流程，是所有人能夠對結果進行重現。這好比我們討論開源項目的時候，通常不會指我們只能夠下載某個應用程序，而是我們能夠查看源碼，甚至通過修改源碼編譯出自己想要的應用程序。

在今年 10 月 29 日，開放源代碼促進會（Open Source Initiative，OSI）發布了關于 “開源 AI 定義（OSAID）”1.0 版本，其規定了 AI 大模型若要被視為開源必須具備三個三個：訓練數據透明性、完整代碼、模型參數。雖然對比目前市面上的 “開源模型”，少有能力較高的模型能完全符合，但這種聲明本身就是一種開源開放態度的彰顯。

我相信，在更加透明的數據集和算法的支持下，模型將在可控性上獲得更好的發展機遇，相關的技術社區也將迎來更大的發展。

挑戰

當然，大模型訓練中的開源數據和算法也伴隨著一定的風險和挑戰，這些風險需要在模型開發和應用的過程中被認真對待和解決。例如前文提到的 “偏見” 問題，以及數據質量問題，可能是最顯著的風險。由于開源數據集質量參差不齊，雖然一些廣泛使用的數據集如開頭介紹的 ImageNet 和 COCO 被認為是高質量的數據集，但其他開源數據集可能包含噪聲、錯誤標簽和不完整的信息。這種數據質量問題會直接影響模型的訓練效果，導致模型性能的下降，甚至可能產生錯誤的預測結果。

除此以外，在 GPT 爆火之后，由于相關法律和政策的滯后，已經有大量大模型生成的文字、圖像、視頻、音頻內容被發布于互聯網，當這些內容再次被作為開放數據被采集，并再次進行訓練，可能會帶來更大的數據質量問題。因此，筆者認為對 AI 生成的觀點進行標注再發布是一種更加負責任的做法，當然，在實際操作過程中，要實現仍然有極大的難度。

開源數據集的版權問題也是一個需要重視的風險。盡管開源數據集通常是公開的，但其使用仍然受版權法的約束。未經授權使用受版權保護的數據，可能會導致法律糾紛。此外，某些數據集可能包含敏感信息，涉及個人隱私甚至危害公共安全。

在使用這些數據時，必須遵守相關的隱私保護法規，如歐盟的《通用數據保護條例》（GDPR）和美國的《健康保險可攜性和責任法案》（HIPAA）。在實際操作過程中，出于成本、工藝、能力、時間的制約，數據集的篩選和正確使用仍然將會是一個持久的挑戰。對于這個問題，閉源的數據集以及方法并不是不存在，只是更加隱蔽了。

也可能會有人擔心，所有的數據集和算法開放后，模型是否會面臨更多被操控的風險？筆者認為，這確實是一個很大的問題，例如模型可能會更容易被 “越獄”，從而被操控或輸出原本不應輸出的內容，這是一個需要尤其重點關注的風險點。

在應對策略方面，這場攻防戰的 “藍方” 同時也獲得了更多的信息，可以再次加固相關能力，在這個過程中，模型得以進行更加充沛的發展，就如同當下的互聯網一樣。只有黑暗才能隱藏更多風險尤其中心化的控制風險，只有讓核心數據和算法經受陽光的洗禮，并在所有人的監督下不斷完善，才能讓模型在更多場景中被更深入地使用（即便如此，訓練完的模型本身對人類來說也仍然是一個 “黑盒”）。目前我們已經看到的大量開源的模型在各行各業中展現出強大的生命力和生產力，相關的開源社區也正在迎來新的繁榮期，長期來看，大模型將繼續在各種風險、機遇、挑戰、倫理等復雜環境中不斷發展。

結論

開源數據和算法在大模型訓練中的重要性不言而喻，它們為 AI 研究和應用帶來了前所未有的機遇。然而，這些機遇也伴隨著一定的風險和挑戰，需要在模型開發和應用的過程中被認真對待和解決。通過采取適當的應對策略，我們可以在充分利用開源數據和算法的同時，盡量減少其潛在的風險，推動 AI 技術的健康發展。

相信在未來，隨著技術的不斷進步和相關政策的完善，開源數據和算法將在大模型訓練中發揮更加重要的作用，為 AI 及大模型的研究和應用帶來更多的創新和機遇。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴