在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

開源大模型到底開源什么?源碼在哪呢?

OSC開源社區 ? 來源:睡前機器學習 ? 2023-04-11 09:07 ? 次閱讀

ChatGPT出來以后很多人都在說開源,認為只要OpenAI大發善心或者哪個高超的黑客黑進服務器,把ChatGPT的源碼發出來放到網上,那么到不了第二天天亮,全世界就會人手一個ChatGPT。

這是一種常見的誤解。

開源字面意思是公開源代碼,過去我們通常是指公開某款軟件項目的源代碼。知名的譬如說Linux操作系統,準確來說是操作系統內核,我們拿到Linux的源碼,只要搭建好相應的編譯環境,就能在本地編譯一套一模一樣的操作系統內核。

當然,實際會復雜一點,同一套源碼用不同方法編譯,運行效率、資源占用等都可能不同。這里姑且不再細摳,總之,過去軟件開源給我們的印象就是,甭管什么閬苑仙葩,只要一開源就能人手一份,而且很快還會有各種換皮魔改,同人逼死官方。往好了說,這叫開源帶來澎湃力量。

但大語言模型的“開源”完全不是這么一回事。先別管OpenAI現在名叫鈕鈷祿氏·CloseAI,就算哪天良心發現,真的要找回自己做一個名副其實的OpenAI,洗心革面把GPT-4給開源了。先別著急著高興,對于99%的人來說,GPT-4的源碼毫無意義,對于剩下的1%里的99%,可能也就蹭一些研究論文。只有最后剩下的1%里的1%才會有真正幫助,不過,也只是有幫助,但不算很大。

為什么?原因不復雜,因為大語言模型的所謂開源,實際上是有三個對象。源碼只是其中之一。我不是針對誰,在座各位即使拿到了源碼,剩下能做的也就只有點贊鼓掌。

人工智能三要素,算法、算力和數據。也有人管最后叫算據,不太確定這倆詞是不是互通。總之,到了力大飛磚的大語言模型時代,這三要素就成了算法、高算力和大數據。只有同時滿足這三大要素,你才有可能最終得到一款和ChatGPT類似效果拔群的模型。

那么,源碼在哪呢?在算法。算法的核心部分主要包括有模型結構和訓練方法,這兩部分都有對應的源碼。哪天OpenAI公開源碼,我們應該就能看到的也就是模型結構和訓練方法兩部分。

當然,這只是核心部分。一款人工智能產品,尤其是大型人工智能產品,還會有許多工程問題需要解決,除了核心還需要其它配套部件。別看到“配套部件”就覺得沒什么。之前同樣是OpenAI,配套部件大概占九成。所以,別管它Open不Open吧,我們能看到的都是冰山一角。

拿到源碼之后,真正的挑戰才剛開始。接下來才是這個世界絕大多數人、研究機構和企業注定無法邁過的門檻:高算力和大數據。

高算力已經說了很多了,門檻很高,但從全世界范圍來說,總歸有一些企業擠擠還是有的。不過,大數據就未必了。

數據非常重要。無論是人工智能時代,還是人工智障時代,擴大數據的規模、提高數據的質量,通常都能顯著提高模型的最終表現。以前我們經常自嘲,說人工智能就是投入多少人工就產出多少智能,人工做什么呢?就是標數據。

千萬不要小看了標數據,這玩意費人、費錢,關鍵還費時間。搞一個大模型已經十分不易,搞一個能喂飽大模型的數據集更為困難。OpenAI這種光啟動資金就10億刀的富二代企業,標數據照樣也得想辦法省錢,后來還出了一條新聞。

這里插個的陰謀論,ChatGPT的免費用,換個角度看沒準就成了我們給OpenAI免費標數據。有沒有依據?有。OpenAI官方明著說了,你和ChatGPT的交互數據可能用于模型訓練,要知道那可是一億多的用戶,那得生產多少高質量的人工標注數據。技術領先優勢可以追趕,數據領先優勢則就未必了。

好了,假設你七星聚頂,三大要素都湊齊了,接下來是不是就能煉出ChatGPT了呢?前面我們說過,“你才有可能最終得到一款和ChatGPT類似效果拔群的模型”。為什么是有可能?因為模型訓練和編譯源碼不太一樣,里面還包含一些難以言說的玄學因素。我一直對Bard的表現耿耿于懷,百思不得其解,我懷疑谷歌可能就是栽倒在玄學因素上面。

那么,現在很多研究者在呼吁的開源,到底是要開源什么呢?開源模型,具體來說,是開源訓練好的模型參數。模型參數拿到手,基本上就能完整復現能力了。當然,這還是對于大企業、大機構來說,運行大語言模型雖然消耗的算力遠不如訓練,但也不是單卡就能負擔的。

何況,行話說的“單卡運行”,通常是指60G顯存往上。哥們那些打游戲的所謂高端顯卡,在這還沒夠上起步價。

最后多說兩句開源。開源很重要,人工智能能有今天的進步,開源功不可沒。人工智能的研究成果大概有幾種,首先就是論文。學術論文是要錢的,但是在人工智能領域,很多作者都免費公開了論文。當然,有些是論文,有些是名叫論文的文宣資料,通常倒數第三或者第四部分會放一些表格,表揚一下這次搞的模型在什么什么任務上面效果拔群,洋氣一點,叫SOTA。

然后是源碼。源碼不是必選項,有些研究者只發論文不發源碼,有一種原因是舍不得,覺得辛辛苦苦憋出來的成果不愿意簡簡單單就交給別人,當然也有可能覺得寫得太爛丟不起人,或者在論文里吹太過了,擔心別人復效不了質疑。

還有就是模型。前面說過,模型這玩意距離能力復現就一步之遙,有很多人愛開源模型,也有很多人不愛開源模型,原因和上面差不多,還有一種是大公司大機構才敢用,官方辭令很多,譬如“出于社會責任考慮”,或者“安全倫理存在巨大風險”等等。

谷歌在21年就搞出了大語言模型LaMDA,說技術過于先進不便展示,害得我對著論文流了好多口水。現在出來個Bard,還不如不展示。

這里為咱們的中文開源大語言模型打個Call吧,能講中文還開源的大語言模型真的不多,清華放出來的ChatGLM-6B應該是佼佼者,而是真·單卡就能運行。這里說的是消費級顯卡。

最后就是開源數據集了,這項工作很重要,但也很容易被圈外忽視。現在中文大語言模型缺的東西很多,抱怨的也很多,還有一票人天天平替這個平替那個,實在不知道怎么想。不過,講屁話沒有用,已經有一些開源項目開始做起來,這都是星星之火。





審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Linux操作系統

    關注

    0

    文章

    54

    瀏覽量

    11345
  • OpenAI
    +關注

    關注

    9

    文章

    1202

    瀏覽量

    8647
  • ChatGPT
    +關注

    關注

    29

    文章

    1588

    瀏覽量

    8802

原文標題:開源大模型到底開源什么?

文章出處:【微信號:OSC開源社區,微信公眾號:OSC開源社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    構建開源OpenVINO?工具套件后,模型優化器位于何處

    構建開源OpenVINO?工具套件后,模型優化器位于何處?
    發表于 03-06 08:18

    AI開源模型庫有什么用

    AI開源模型庫作為推動AI技術發展的重要力量,正深刻改變著我們的生產生活方式。接下來,AI部落小編帶您了解AI開源模型庫有什么用。
    的頭像 發表于 02-24 11:50 ?319次閱讀

    模型訓練:開源數據與算法的機遇與挑戰分析

    最近,開源中國 OSCHINA、Gitee 與 Gitee AI 聯合發布了《2024 中國開源開發者報告》。 報告聚焦 AI 大模型領域,對過去一年的技術演進動態、技術趨勢、以及開源
    的頭像 發表于 02-20 10:40 ?491次閱讀
    大<b class='flag-5'>模型</b>訓練:<b class='flag-5'>開源</b>數據與算法的機遇與挑戰分析

    開源模型DeepSeek的開放內容詳析

    當大家討論為什么 DeepSeek 能夠形成全球刷屏之勢,讓所有廠商、平臺都集成之時,「開源」成為了最大的關鍵詞之一,圖靈獎得主 Yann LeCun 稱其是「開源的勝利」。模型開源
    的頭像 發表于 02-19 09:48 ?1240次閱讀
    <b class='flag-5'>開源</b>大<b class='flag-5'>模型</b>DeepSeek的開放內容詳析

    開源模型在多個業務場景的應用案例

    在人工智能發展浪潮中,大模型開源與閉源之爭一直是業內的熱點話題。隨著技術的不斷進步和應用場景的日益豐富,如何降低大模型的使用門檻,讓更多人能夠便捷地應用于實際業務場景,成為了推動行業發展的關鍵所在。而
    的頭像 發表于 12-30 10:16 ?968次閱讀

    開源AI模型庫是干嘛的

    開源AI模型庫是指那些公開源代碼、允許自由訪問和使用的AI模型集合。這些模型通常經過訓練,能夠執行特定的任務。以下,是對
    的頭像 發表于 12-14 10:33 ?702次閱讀

    開源模型落地實踐分論壇亮點前瞻

    隨著數據驅動時代的到來,開源模型已成為技術領域的熱點話題。開源模型憑借強大的數據處理和分析能力,正逐步滲透到各個行業,為產業升級和經濟發展注入新的活力。
    的頭像 發表于 12-13 15:30 ?519次閱讀

    開源能帶我們走向何方

    開源模型開源數據庫、開源框架、開源硬件......近些年,這些詞匯不絕于耳。雷軍說,好的代碼像詩一樣優美,自己大二時寫的代碼就已經
    的頭像 發表于 12-06 17:09 ?765次閱讀

    阿里通義千問代碼模型全系列開源

    近日,阿里云通義大模型團隊宣布了一項重大決策:將通義千問代碼模型全系列正式開源。此次開源模型系列共包含6款Qwen2.5-Coder
    的頭像 發表于 11-14 15:26 ?877次閱讀

    科技云報到:假開源真噱頭?開源模型和你想的不一樣!

    查看、修改、分發。開源自此深刻影響了互聯網行業的每一個角落。 在大模型和GenAI崛起的當下,開源再次成為業界關注焦點,對于開源和閉源的爭論也久久未能平息。然而,大
    的頭像 發表于 11-03 10:46 ?524次閱讀

    搭建開源大語言模型服務的方法

    本文我們將總結5種搭建開源大語言模型服務的方法,每種都附帶詳細的操作步驟,以及各自的優缺點。
    的頭像 發表于 10-29 09:17 ?628次閱讀

    Llama 3 與開源AI模型的關系

    在人工智能(AI)的快速發展中,開源AI模型扮演著越來越重要的角色。它們不僅推動了技術的創新,還促進了全球開發者社區的合作。Llama 3,作為一個新興的AI項目,與開源AI模型的關系
    的頭像 發表于 10-27 14:42 ?690次閱讀

    人民郵電報:“開源到底是什么?為啥熱度越來越高?

    ? ? ? 本文轉載自人民郵電報 這些年,“開源”這個詞越來越火,開源AI大模型開源數據庫、開源框架、
    的頭像 發表于 10-17 14:21 ?3538次閱讀
    人民郵電報:“<b class='flag-5'>開源</b>”<b class='flag-5'>到底</b>是什么?為啥熱度越來越高?

    Matepad pro12.2 已上市半個月,但是還沒有在開源網站看到該項目的開源信息,違背開源精神

    任何該項目的開源計劃,違背開源精神 按照開源社區 licsence和公共庫開源licsence要求,對應的項目上市后都需要盡快開源并及時公布
    發表于 08-27 17:25

    浙大博導開源飛控planner源碼

    浙大博導開源飛控planner源碼
    發表于 06-12 11:43 ?5次下載
    主站蜘蛛池模板: 十三以下岁女子毛片免费播放 | 俄罗斯一级特黄黄大片 | 泰国一级毛片aaa下面毛多 | 欧美乱妇高清无乱码 | 狠狠噜噜 | 人人插人人插 | 国产午夜精品久久久久免费视小说 | 高h细节肉爽文bl1v1 | 亚洲国产精品综合久久久 | 视频福利网 | 国内啪啪 | 高清欧美一级在线观看 | 人与禽性视频77777 | 狠狠干狠狠干狠狠干 | 天天色天天射天天干 | 欧美成人xxxx | 色婷婷精品大全在线视频 | 九九热精品视频在线播放 | 欧美成人亚洲欧美成人 | 美女牲交毛片一级视频 | 在线种子搜索 | 天堂网www天堂在线网 | 天天拍天天射 | 老师叫我揉她内裤越快越好 | 生活片一级性 | 婷婷综合久久狠狠色99h | 久久青草免费91观看 | 久久国产伦三级理电影 | 97综合| 男人午夜天堂 | 亚洲色五月 | 欧美成人猛男性色生活 | 成 人 在 线 免费 8888 www | 国产亚洲欧洲人人网 | 久久天天躁狠狠躁狠狠躁 | 不卡免费在线视频 | 亚洲欧美圣爱天天综合 | 六月激情丁香 | 亚洲成人在线播放 | 窝窝午夜在线观看免费观看 | 色精品一区二区三区 |