雖然性能仍不及ChatGPT 3.5,但開(kāi)源的力量是無(wú)法估量的。
相信很多人都被 Meta 發(fā)布的 Llama 2 刷了屏。OpenAI 研究科學(xué)家 Andrej Karpathy 在推特上表示,「對(duì)于人工智能和 LLM 來(lái)說(shuō),這確實(shí)是重要的一天。這是目前能夠把權(quán)重提供給所有人使用的最為強(qiáng)大的 LLM。」 ?
對(duì)于開(kāi)源社區(qū)來(lái)說(shuō),這個(gè)大模型就是「全村的希望」。它的出現(xiàn)將進(jìn)一步縮小開(kāi)源大模型與閉源大模型的差距,讓所有人都有機(jī)會(huì)基于它構(gòu)建自己的大模型應(yīng)用。 ? 因此,在過(guò)去的 24 個(gè)小時(shí),Llama 2 成了所有社區(qū)成員關(guān)注的焦點(diǎn)。大家都在談?wù)撍男阅堋⒉渴鸱椒ㄒ约翱赡軒?lái)的影響。為了讓大家在第一時(shí)間了解這些信息,我們?cè)谶@篇文章中進(jìn)行了總結(jié)。 ?
Llama 2 性能究竟如何? ? 在展示評(píng)測(cè)結(jié)果之前,我們先來(lái)梳理一下 Llama 2 的基本信息: ?
包含 70 億、130 億和 700 億三種參數(shù)變體,此外還訓(xùn)練了 340 億參數(shù)變體,但并沒(méi)有發(fā)布,只在技術(shù)報(bào)告中提到了。
在 2 萬(wàn)億的 token 上進(jìn)行訓(xùn)練,相比于 Llama 1,訓(xùn)練數(shù)據(jù)多了 40%,精調(diào) Chat 模型是在 100 萬(wàn)人類標(biāo)記數(shù)據(jù)上訓(xùn)練的。
支持的上下文 token 長(zhǎng)度翻倍,由原來(lái)的 2048 升級(jí)到 4096。
免費(fèi)可商用,但日活大于 7 億的產(chǎn)品需要單獨(dú)申請(qǐng)商用權(quán)限。
在 Llama 2 發(fā)布后,整個(gè) Llama 項(xiàng)目的 Github star 量正在逼近 30k。 ?
在 Meta 發(fā)布的論文中,我們還可以看到 Llama 2 的一些性能情況: ?
Llama 2 70B 在 MMLU 和 GSM8K 上得分接近 GPT-3.5,但在編碼基準(zhǔn)上存在顯著差距。
在幾乎所有基準(zhǔn)上,Llama 2 70B 的結(jié)果均與谷歌 PaLM (540B) 持平或表現(xiàn)更好,不過(guò)與 GPT-4 和 PaLM-2-L 的性能仍存在較大差距。
也就是說(shuō),即使是參數(shù)量最大的 Llama 2 70B,性能目前也沒(méi)有超過(guò) GPT-3.5,距離 GPT-4 差距更大。 ? 為了測(cè)試一下 Llama 2 的實(shí)力,各路網(wǎng)友都在想辦法對(duì)其展開(kāi)測(cè)試,比如讓他根據(jù)一些「荒唐」的信息寫一封公司郵件。 ?
還有人已經(jīng)開(kāi)始直播 Llama 2 和其他類 ChatGPT 產(chǎn)品的 PK: ?
在測(cè)試過(guò)程中,大家發(fā)現(xiàn)了一些問(wèn)題,比如 Llama 2 受到的 RLHF 訓(xùn)練似乎太多了點(diǎn),這導(dǎo)致它非常守規(guī)矩: ?
在一位開(kāi)發(fā)者制作的免費(fèi)應(yīng)用程序中,機(jī)器之心也上手體驗(yàn)了一把。 ? 首先,我們問(wèn)一下 Llama 2 能做什么?Llama 2 回答道:「我可以幫助你處理各種任務(wù),比如回答問(wèn)題、提供信息,甚至幫助你完成日常任務(wù)。我只是一個(gè)人工智能,無(wú)法在現(xiàn)實(shí)中執(zhí)行任務(wù),但我可以為你提供你需要的信息或幫助……」。從語(yǔ)言上來(lái)看,Llama 2 支持中文輸入,但回答基本都用英文,中文理解、生成能力有限。 ?
接著問(wèn)它數(shù)據(jù)截止到什么時(shí)候?從 Llama 2 的回答中,我們可以得知,它掌握的數(shù)據(jù)截止日期是 2022 年 12 月。 ?
接著,我們向 Llama 2 詢問(wèn)了一個(gè)不那么貼切的問(wèn)題。Llama 2 指出了標(biāo)題的不合理性,并給出了一些建議: ?
但是,Llama 2 對(duì)雞兔同籠問(wèn)題還是不擅長(zhǎng)。 ?
在推特上,Vicuna(小羊駝)項(xiàng)目創(chuàng)建者公布了他們的系統(tǒng)測(cè)試結(jié)果,結(jié)論如下: ?
Llama-2 表現(xiàn)出更強(qiáng)的指令遵循能力,但在信息提取、編碼和數(shù)學(xué)方面仍明顯落后于 GPT-3.5/Claude;
對(duì)于安全性的過(guò)度敏感可能導(dǎo)致對(duì)用戶查詢的錯(cuò)誤解讀;
在聊天性能上與基于 Llama-1 的領(lǐng)先模型(如 Vicuna、WizardLM)相當(dāng);
非英語(yǔ)語(yǔ)言技能有限。
以下是一些測(cè)試數(shù)據(jù)和結(jié)果: ?
哪些設(shè)備能在本地跑這些模型? ? 由于 Llama 2 開(kāi)源了不同大小的版本,這些模型在本地部署方面非常靈活。如果你不想把自己的數(shù)據(jù)傳上網(wǎng),那么本地部署就是最好的選擇。這一想法可以通過(guò)陳天奇等人打造的 MLC-LLM 項(xiàng)目來(lái)實(shí)現(xiàn): ?
在之前的報(bào)道中,我們提到過(guò)這個(gè)項(xiàng)目。它的目標(biāo)是讓你「在任何設(shè)備上都能編譯運(yùn)行大語(yǔ)言模型」,包括移動(dòng)端、消費(fèi)級(jí)電腦端和 Web 瀏覽器。它支持的平臺(tái)包括: ?
在 Llama 2 發(fā)布后,陳天奇等項(xiàng)目成員表示,MLC-LLM 現(xiàn)在支持在本地部署 Llama-2-70B-chat(需要一個(gè)帶有 50GB VRAM 的 Apple Silicon Mac 來(lái)運(yùn)行)。在 M2 Ultra 上,解碼速度可以達(dá)到~10.0token / 秒。 ?
當(dāng)然,借助 MLC-LLM,運(yùn)行其他版本的 Llama 2 模型更是不在話下:7B 模型在 Apple M2 Max 上的運(yùn)行速度約為 46 tok/s,在 RTX 4090 上約為 156 tok/s。 ?
此外,借助陳天奇等人發(fā)布的「MLC Chat」APP(蘋果應(yīng)用商店可以搜到),我們還可以嘗試在手機(jī)、iPad 上使用 Llama 2(無(wú)需聯(lián)網(wǎng))。 ?
Llama 2 將帶來(lái)哪些影響? ? 如果 Meta 沒(méi)有在今年 2 月份開(kāi)源 Llama,你可能不知道「羊駝」原來(lái)有那么多種寫法:基于這一開(kāi)源模型的「二創(chuàng)」項(xiàng)目幾乎占用了生物學(xué)羊駝屬的所有英文單詞。在 Meta 將模型迭代到 2.0 版本后,這些項(xiàng)目自然也被拉到了新的起點(diǎn)。 ? 在 Llama 2 發(fā)布不到一天的時(shí)間里,能夠像 GPT-4 一樣處理圖像信息的大型多模態(tài)模型「熔巖羊駝 LLaVA」的開(kāi)發(fā)者就宣布,他們基于 Llama 2 對(duì) LLaVA 進(jìn)行了更新。新版本增加了對(duì) LLaMA-2 的支持,同時(shí)還支持使用學(xué)術(shù)界 GPU 進(jìn)行 LoRA 訓(xùn)練,以及更高的分辨率(336x336)和 4-/8- 推理等功能。 ?
此外,他們還發(fā)布了新的 LLaVA 變體的預(yù)覽版本,該版本基于最新的經(jīng)過(guò) RLHF 微調(diào)的 LLaMA-2-Chat 檢查點(diǎn),提供更長(zhǎng)的上下文窗口。這些新發(fā)布的版本支持并驗(yàn)證了在 RTX 3090 和 RTX A6000 上進(jìn)行的訓(xùn)練,從而使大型多模態(tài)模型的訓(xùn)練更加便捷、更加適用于廣大社區(qū)用戶。 ?
當(dāng)然,這只是一個(gè)開(kāi)始。假以時(shí)日,那些基于 Llama 2 的模型會(huì)陸陸續(xù)續(xù)上線或更新,「千模大戰(zhàn)」一觸即發(fā)。 ?
對(duì)于 Llama 的未來(lái)發(fā)展及影響,英偉達(dá)高級(jí) AI 科學(xué)家 Jim Fan 也給出了自己的預(yù)測(cè): ?
Llama-2 的訓(xùn)練成本可能超過(guò) 2000 萬(wàn)美元。之前,一些大公司的人工智能研究人員因?yàn)樯虡I(yè)許可問(wèn)題對(duì) Llama-1 持謹(jǐn)慎態(tài)度,但 Llama-2 的商業(yè)限制大大松綁,未來(lái)很多人可能會(huì)加入 Llama 陣營(yíng),并貢獻(xiàn)他們的實(shí)力。
雖然 Llama-2 目前還沒(méi)有達(dá)到 GPT-3.5 的水平,在編程等問(wèn)題上存在明顯短板,但由于它的權(quán)重是開(kāi)放的,這些問(wèn)題早晚會(huì)得到改進(jìn);
Llama-2 將極大地推動(dòng)多模態(tài)人工智能和機(jī)器人技術(shù)的研究。這些領(lǐng)域需要的不僅僅是對(duì) API 的黑盒訪問(wèn)。目前,我們必須將復(fù)雜的感官信號(hào)(視頻、音頻、3D 感知)轉(zhuǎn)換為文本描述,然后再輸入到 LLM(語(yǔ)言與視覺(jué)融合模型)中,這樣做非常笨拙,導(dǎo)致信息損失非常嚴(yán)重。直接將感知模塊嫁接到強(qiáng)大的 LLM 骨干上將更加高效。
對(duì)于研發(fā)閉源大模型的企業(yè)來(lái)說(shuō),Llama 2 的發(fā)布也是意義重大。如果他們研發(fā)的模型本身不夠強(qiáng)大,或者和開(kāi)源 Llama 2 及其衍生模型的差距不大,那么其商業(yè)價(jià)值將很難變現(xiàn)。 編輯:黃飛
?
評(píng)論