“MOSS 還是一個非常不成熟的模型,距離 ChatGPT 還有很長的路需要走?!?/p>
自去年 11 月底正式發(fā)布以來,OpenAI 最新的 AI 聊天機器人 ChatGPT 迅速成為現(xiàn)象級應(yīng)用。瑞銀發(fā)布的研究報告顯示,ChatGPT 在今年 1 月,月活躍用戶估計已達 1 億,成為歷史上用戶增長最快的消費應(yīng)用。
隨著 ChatGPT 在全球范圍內(nèi)迅速走紅,全球互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)公司紛紛加碼布局。在國外,谷歌加急推出了人工智能聊天機器人 Bard Bard;在國內(nèi),百度將在 3 月推出類似 ChatGPT 的產(chǎn)品“文心一言”,除了百度,幾家中國初創(chuàng)公司也這一賽道探索著。
近日,國內(nèi)首個類 ChatGPT 模型終于來了。
復(fù)旦發(fā)布中國版ChatGPT 模型 MOSS
2 月 20 日,復(fù)旦大學(xué)自然語言處理實驗室宣布,國內(nèi)第一個對話式大型語言模型 MOSS 已由邱錫鵬教授團隊發(fā)布至公開平臺(https://moss.fastnlp.top/),并邀公眾參與內(nèi)測。
據(jù)介紹,MOSS 可執(zhí)行對話生成、編程、事實問答等一系列任務(wù),打通了讓生成式語言模型理解人類意圖并具有對話能力的全部技術(shù)路徑。這條路徑的走通,為國內(nèi)學(xué)術(shù)界和產(chǎn)業(yè)界提供了重要經(jīng)驗,將助力大語言模型的進一步探索和應(yīng)用。
根據(jù) MOSS 官網(wǎng)的介紹,MOSS 和 ChatGPT 之間存在三大區(qū)別:
1、MOSS 的參數(shù)數(shù)量遠少于 ChatGPT。
2、MOSS 通過與人類和其他 AI 模型交談來學(xué)習(xí),而 ChatGPT 通過人類反饋強化學(xué)習(xí) (RLHF) 進行訓(xùn)練。
3、MOSS 將開源以促進未來的研究,但 ChatGPT 可能不會。據(jù)悉,MOSS 的名稱來自電影《流浪地球》。在《流浪地球》中,MOSS 是一臺智能量子計算機,也是領(lǐng)航員空間站核心智能主機,具有自我意識、自我迭代、自我更新的特點。
復(fù)旦大學(xué)發(fā)布的對話式大型語言模型 MOSS,其開發(fā)的基本步驟與 ChatGPT 一樣,包括自然語言模型的基座訓(xùn)練、理解人類意圖的對話能力訓(xùn)練兩個階段。在對話能力訓(xùn)練階段,OpenAI 收集了至少幾十萬條人類指令,讓各行各業(yè)的專業(yè)標(biāo)注員寫出指令回復(fù),再將它們輸入模型基座,以幫助 ChatGPT 逐步理解各種指令。復(fù)旦團隊則采用不同的技術(shù)路線,通過讓 MOSS 和人類以及其他對話模型都進行交互,顯著提升了學(xué)習(xí)效率和研發(fā)效率,短時間內(nèi)就高效完成了對話能力訓(xùn)練。
MOSS 提供的示例顯示,它能夠回答問題、生成表格、代碼等。比如,它能推薦 5 部科幻電影:
能生成一段 Python 程序?qū)崿F(xiàn)快速排序:
也能解釋代碼背后的原理:
邱錫鵬表示:“盡管 MOSS 還有很大改善空間,但它的問世證明了在開發(fā)類 ChatGPT 產(chǎn)品的路上,國內(nèi)科研團隊有能力克服技術(shù)上的重要挑戰(zhàn)”。MOSS 研發(fā)項目得到了上海人工智能實驗室的有力支持。后期,這項工作將通過開源方式和業(yè)界社區(qū)分享。
邱錫鵬是國內(nèi)自然語言處理專家。根據(jù)復(fù)旦大學(xué)計算機科學(xué)技術(shù)學(xué)院官網(wǎng)介紹,邱錫鵬教授于復(fù)旦大學(xué)獲得理學(xué)學(xué)士和博士學(xué)位。研究方向為自然語言處理、深度學(xué)習(xí),發(fā)表 CCF-A/B 類論文 70 余篇。主持開發(fā)了開源自然語言處理工具 FudanNLP、FastNLP,獲得了學(xué)術(shù)界和產(chǎn)業(yè)界的廣泛使用。
內(nèi)測服務(wù)器被擠爆,團隊致歉
MOSS 發(fā)布后迅速登上熱搜,不過,MOSS 開啟內(nèi)測沒多久,服務(wù)器就被擠崩了。有用戶在社交媒體上發(fā)布截圖顯示,該平臺“服務(wù)器流量過載,請明天上午重試”。
2 月 21 日,MOSS 官網(wǎng)發(fā)布公告稱:“MOSS 還是一個非常不成熟的模型,距離 ChatGPT 還有很長的路需要走。我們一個學(xué)術(shù)研究的實驗室無法做出和 ChatGPT 能力相近的模型,MOSS 只是想在百億規(guī)模參數(shù)上探索和驗證 ChatGPT 的技術(shù)路線,并且實現(xiàn)各種對話能力。
我們最初的想法只是想將 MOSS 進行內(nèi)測,以便我們可以進一步優(yōu)化,沒有想到會引起這么大的關(guān)注,我們的計算資源不足以支持如此大的訪問量,并且作為學(xué)術(shù)團隊我們也沒有相關(guān)的工程經(jīng)驗,給大家造成非常不好的體驗和第一印象,在此向大家致以真誠的歉意?!?/p>
MOSS 團隊表示,未來 MOSS 將會開源?!癕OSS 目前還處于內(nèi)測階段,主要目的為通過和用戶交互來迭代優(yōu)化,暫不適合大規(guī)模用戶公測。在 MOSS 完成初步的驗證之后,我們會將 MOSS 的經(jīng)驗、代碼、模型參數(shù)開源出來供大家參考。中國版 ChatGPT 的誕生還需要中國全體 AI 從業(yè)者的努力,也更需要不斷和人交互以提高能力?!?/p>
中國版 ChatGPT 前路漫漫
兩天時間,MOSS 從開啟內(nèi)測時的全民歡呼,到內(nèi)測服務(wù)器擠崩被罵,足見大眾對中國版 ChatGPT 的期待。
不過,正如北京商報的評論所說,“MOSS 一口吃不成 ChatGPT”。受長期以來國內(nèi)人才、投入、基礎(chǔ)研究以及投資風(fēng)格等方面的復(fù)雜因素影響,中國版 ChatGPT 距離真正的 ChatGPT 確實存在一定的距離。
邱錫鵬坦言:“MOSS 與 ChatGPT 的差距主要在自然語言模型基座預(yù)訓(xùn)練這個階段。MOSS 的參數(shù)量比 ChatGPT 小一個數(shù)量級,在任務(wù)完成度和知識儲備量上,還有很大提升空間?!?/p>
MOSS 團隊表示,雖然 MOSS 獲得了 ChatGPT 的一些能力,但由于缺乏高質(zhì)量的數(shù)據(jù)、計算資源和模型能力,MOSS 仍然存在許多限制,MOSS 仍然遠遠落后于 ChatGPT。團隊將通過提供一個可訪問的 MOSS 界面,根據(jù)有價值的用戶反饋(在獲得許可的情況下)不斷改進模型。
由于訓(xùn)練數(shù)據(jù)中的多語言語料庫有限,MOSS 在理解和生成非英語文本方面表現(xiàn)不佳。團隊目前正在開發(fā)一個改進版本,以提高其中文語言能力。
由于模型容量相對較小,MOSS 沒有包含足夠的世界知識。因此,MOSS 生成的某些響應(yīng)可能包含誤導(dǎo)性或虛假信息。
有時 MOSS 會迂回執(zhí)行,甚至不按指令執(zhí)行。在這種情況下,用戶可能需要多次重新生成或修改提示才能獲得滿意的響應(yīng)。我們正在積極提高其指令遵循能力和生產(chǎn)力。
有時 MOSS 會被提示生成不道德或有害的響應(yīng)。用戶可請點擊“不喜歡”幫助其減輕此類行為, MOSS 團隊將在下一個版本中更新模型。正如前搜狗 CEO 王小川所說:“OpenAI 的成功,首先是技術(shù)理想主義的勝利。中國需要自己的 OpenAI,就需要技術(shù)理想主義。大廠受限于自己的業(yè)務(wù)牽引,追逐資本熱點的創(chuàng)業(yè)公司更動作變形。不止如此,這種理想主義還需要有愛國之心、商業(yè)智慧和學(xué)術(shù)尊重去獲得政府支持、推動企業(yè)聯(lián)盟和學(xué)術(shù)界協(xié)同。我相信中國能誕生自己的 OpenAI。”編輯:黃飛
評論