在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

聊聊小公司如何做大模型

深度學(xué)習(xí)自然語言處理 ? 來源:李文舉說@知乎 ? 2024-02-21 11:28 ? 次閱讀

在小公司做大模型,這個(gè)事情是可以的。

筆者在小公司,做了一年多的大模型。先列一下成績單:

開源了目前業(yè)界可能是分類較完整(50類)、數(shù)量較大(1100+萬)的SFT數(shù)據(jù)集:匠數(shù)科技大模型sft數(shù)據(jù)集[1]

通過SFT、DPO、RLHF等技術(shù)訓(xùn)練了領(lǐng)域?qū)懽髂P汀?shí)測下來,在該領(lǐng)域?qū)懽魃希瑥?qiáng)于國內(nèi)大多數(shù)的閉源模型。

如何在小公司做大模型,筆者總結(jié),有如下幾點(diǎn):

1、至少要有基礎(chǔ)的硬件條件。

如果雙卡3090都沒有,那是比較難的。實(shí)在沒有,可以說服老板,租機(jī)器訓(xùn)練。

2、要有選擇跟進(jìn)模型訓(xùn)練、部署的最新進(jìn)展,選主流、走大道。

技術(shù)迭代太快,人力有限的情況下,不可能什么都跟進(jìn)的。比如部署,市面上的部署方案很多了,但是主流的就是vllm,所以,集中精力將vllm搞懂用好,就夠了,其他的可以了解,但不用重點(diǎn)關(guān)注。

再比如各種訓(xùn)練技術(shù),經(jīng)過驗(yàn)證好用的也就是那么幾個(gè)。看起來過于旁門左道的論文,可以先放放,讓子彈飛一會(huì)兒再說。提一點(diǎn),DPO確實(shí)是小公司對(duì)齊訓(xùn)練的福音。

3、要堅(jiān)持開放交流,多加群。

圍繞llm,有很多社群,也有很多活動(dòng),可以選擇性參加,但是切記切記,不要過分沉溺其中,以為這樣就能緊跟時(shí)代前沿,掌握最新趨勢了。假裝學(xué)到很多,是很有害滴。記得前段時(shí)間不是有個(gè)什么架構(gòu),號(hào)稱取代transformer嗎?鋪天蓋地的宣傳,筆者當(dāng)時(shí)也聽了作者的線上分享。現(xiàn)在呢?自己連個(gè)像樣的模型都沒搞出來。純純浪費(fèi)太多精力。相信時(shí)間會(huì)證明一切。

4、要針對(duì)業(yè)務(wù)場景解決問題,不要陷入llm崇拜。

這種現(xiàn)象典型的就是不是llm的工作就提不起神,不想做。實(shí)話實(shí)說,這是病,得治。筆者根據(jù)業(yè)務(wù)問題需求,開源的cutword[2],就是為了替代jieba的新一代分詞工具,同時(shí),ner類型和效果都是目前開源中一流的,也收獲了大家的認(rèn)可。

解決問題才是關(guān)鍵。不能有了llm這個(gè)錘子,看什么都是釘子。具體問題具體分析的能力很重要。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    2942

    瀏覽量

    3685

原文標(biāo)題:如何在小公司做大模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    中國2家AI公司連發(fā)新模型趕超OpenAI

    )本身就是國內(nèi)兩家備受關(guān)注的人工智能大模型創(chuàng)業(yè)公司;一些國外網(wǎng)友在貼吧留言表示中國AI追趕速度越來越快。 在技術(shù)社區(qū)Hacker News,有一位開發(fā)者感嘆“中國初創(chuàng)公司已展現(xiàn)出趕超美國人工智能
    的頭像 發(fā)表于 01-23 17:00 ?864次閱讀

    SAR ADC如何做好布線布局?

    SAR ADC如何做好布線布局?
    發(fā)表于 12-17 08:27

    聊聊std::move函數(shù)和std::forward函數(shù)

    今天我們聊聊Modern cpp的兩個(gè)非常重要的概念移動(dòng)語義和轉(zhuǎn)發(fā)引用。
    的頭像 發(fā)表于 11-05 16:58 ?736次閱讀

    華秋商城器件做EDA封裝

    EDA相樣封裝,尤其小公司及創(chuàng)業(yè)公司研發(fā)人員。 3: 華秋的PCB 及SMT業(yè)務(wù)是個(gè)亮點(diǎn)。比競爭對(duì)手做得好。點(diǎn)贊!
    發(fā)表于 10-26 09:59

    工程行業(yè)中如何做到低碳甚至零碳

    低碳的生活方式越來越多地融入我們的日常習(xí)慣當(dāng)中。但是在工程行業(yè)中如何做到低碳甚至零碳呢?
    的頭像 發(fā)表于 10-14 10:31 ?680次閱讀

    谷景科普工字電感的電感量如何做大

    在電子制造領(lǐng)域,工字電感因其出色的性能而備受青睞,尤其是在需要高儲(chǔ)能和低阻抗的應(yīng)用中。隨著各行業(yè)的發(fā)展,大家對(duì)工字電感的電感量提出了更高的要求。為了滿足客戶對(duì)增大工字電感感量的需求,我們要從多個(gè)角度進(jìn)行考量和改進(jìn)。 1.優(yōu)化繞線方法:改進(jìn)線圈的纏繞方式可以增加電感量,例如通過更緊密的繞線來減小線圈的總長度,從而增加電感量 。 2.選擇高磁導(dǎo)率的磁芯材料:使用導(dǎo)磁率更高的磁芯材料可以提高電感量。磁芯材料的選擇對(duì)
    的頭像 發(fā)表于 09-30 14:32 ?418次閱讀

    從“可用”到“好用”,百度智能云如何做大模型的“超級(jí)工廠”?

    如果說,過去兩三年大模型處于造錘子階段,那么今年,更多的則是考驗(yàn)釘釘子的能力,面對(duì)各類業(yè)務(wù)場景大模型是否能夠有的放矢、一擊必中,為千行百業(yè)深度賦能。 ? 當(dāng)前市場上,已經(jīng)有200多把這樣的錘子在瘋狂
    的頭像 發(fā)表于 09-26 18:18 ?462次閱讀
    從“可用”到“好用”,百度智能云<b class='flag-5'>如何做大</b><b class='flag-5'>模型</b>的“超級(jí)工廠”?

    用LM3886T做大功率輸出時(shí),發(fā)現(xiàn)輸出信號(hào)的波形不平滑,為什么?

    最近我用LM3886T做大功率輸出時(shí),發(fā)現(xiàn)輸出信號(hào)的波形不平滑,特別是在輸入信號(hào)比較小的情況下。 附件是我的輸出波形,希望能點(diǎn)建議,如何才能變的比較平滑。 謝謝!
    發(fā)表于 09-18 08:29

    新火種AI 大模型公司紛紛被收編!創(chuàng)始人們逐漸變成了“最討厭的自己”?

    最近,國內(nèi)大模型公司的融資潮正在如火如荼的進(jìn)行著,各大公司紛紛收獲了融資,正在攜手邁進(jìn)“200億估值”的門檻。 不過,與國內(nèi)大模型領(lǐng)域的繁花似錦相比,國外的大
    的頭像 發(fā)表于 08-21 15:05 ?428次閱讀
    新火種AI 大<b class='flag-5'>模型</b><b class='flag-5'>公司</b>紛紛被收編!創(chuàng)始人們逐漸變成了“最討厭的自己”?

    Hugging Face科技公司推出SmolLM系列語言模型

    7月22日最新資訊,Hugging Face科技公司在語言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專為適應(yīng)多樣計(jì)算資源而設(shè)計(jì)的緊湊型語言模型家族。該系列包含三個(gè)版本,分別搭載了1.35億、3.6億及17億參數(shù),旨在以
    的頭像 發(fā)表于 07-23 16:35 ?546次閱讀

    如何做好大功率環(huán)形電感選型工作

    電子發(fā)燒友網(wǎng)站提供《如何做好大功率環(huán)形電感選型工作.docx》資料免費(fèi)下載
    發(fā)表于 07-04 17:08 ?1次下載

    潞晨訓(xùn)推一體機(jī),畫出大模型到企業(yè)的一條龍路線圖

    企業(yè)做大模型,如何才能不折騰?
    的頭像 發(fā)表于 06-14 09:41 ?1873次閱讀
    潞晨訓(xùn)推一體機(jī),畫出大<b class='flag-5'>模型</b>到企業(yè)的一條龍路線圖

    人工智能模型公司Anthropic近日推出了一款Claude移動(dòng)端App

    制造Claude 3人工智能模型公司Anthropic近日推出了一款iOS應(yīng)用程序,并為群組共享模型訪問添加第二個(gè)付費(fèi)層。
    的頭像 發(fā)表于 05-08 09:55 ?991次閱讀

    人大系初創(chuàng)公司智子引擎發(fā)布全新多模態(tài)大模型Awaker 1.0

    人大系初創(chuàng)公司智子引擎近日震撼發(fā)布了新一代多模態(tài)大模型Awaker 1.0,這一里程碑式的成果標(biāo)志著公司在通用人工智能(AGI)領(lǐng)域取得了重要突破。與前代ChatImg序列模型相比,A
    的頭像 發(fā)表于 05-06 09:59 ?795次閱讀

    【大語言模型:原理與工程實(shí)踐】大語言模型的基礎(chǔ)技術(shù)

    下游任務(wù)提供豐富的文本表示,如谷歌公司推出的BERT。(2) Decoder-Only 預(yù)訓(xùn)練語言模型:這類模型一般使用單向的 Decoder 結(jié)構(gòu),通常擅長生成任務(wù),如OpenAI 推出的 GPT 系列
    發(fā)表于 05-05 12:17
    主站蜘蛛池模板: 我爱操 | www.av网| 国产理论最新国产精品视频 | 久久精品国产免费高清 | 欲色啪 | 中国美女毛片 | 欧美日韩在线成人免费 | 一级特级毛片免费 | 国产成人1024精品免费 | 天堂网站www天堂资源在线 | 美女视频很黄很暴黄是免费的 | 99久久久久国产精品免费 | 亚洲精品蜜桃久久久久久 | 成人免费久久精品国产片久久影院 | 狠狠干天天干 | 福利视频一区二区 | 久久精品视频99精品视频150 | 伊人久久亚洲综合 | 日本aaaaa特黄毛片 | 免费看大尺度视频在线观看 | 一级一级毛片免费播放 | 色老久久精品偷偷鲁一区 | 国产成人夜间影院在线观看 | 免费看吻胸亲嘴激烈网站 | 亚洲一区精品中文字幕 | 亚洲精品理论 | 亚洲qingse中文字幕久久 | 操久在线 | 四虎影院免费视频 | 91大神视频在线播放 | 二区在线播放 | 色久优优 欧美色久优优 | 国产在视频线精品视频2021 | 最新黄色大片 | 久久性久久性久久久爽 | www.天堂.com| 日本三级特黄 | 国产特级| 日本xxwwwxxxx网站| 欧美性狂猛bbbbbxxxxx | 神马国产 |