一夕之間,大模型的戰(zhàn)局再變,Google 帶著「迄今為止功能最強(qiáng)大、最通用的?Gemini?模型」正面硬剛 OpenAI 時(shí)下最先進(jìn)的 GPT-4。
「作為一家 AI-First 的公司,我們已經(jīng)走過了近八年的歷程,進(jìn)步的步伐只會(huì)不斷加快。Gemini,這是 Google AI 新時(shí)代的開始」,Google CEO 桑達(dá)爾·皮查伊(Sundar Pichai)在為這個(gè)新模型親自站臺(tái)時(shí)表示,「這個(gè)模型開創(chuàng)的新時(shí)代代表了我們作為一家公司所做出的最大的科學(xué)和工程努力之一。我對(duì)未來以及 Gemini 將為世界各地的人們帶來的機(jī)會(huì)感到由衷的興奮。」
?
?
?
Gemini 來啦!
在今年 5?月的 Google I/O 大會(huì)上,皮查伊首次透露了 Google 正在研發(fā)一款多模態(tài)基礎(chǔ)模型 Gemini,下一步 Google 所有產(chǎn)品都將基于它們,包括 Google Bard、搜索、云。
?
時(shí)隔 7 個(gè)月的今天,在 Google 官宣 Gemini 正式到來之際,Bard 和 Pixel 8 Pro 智能手機(jī)已經(jīng)率先應(yīng)用上了這款大模型。不過,Gemini 目前僅提供英語版本,其他語言顯然很快就會(huì)推出。皮查伊表示,該模型最終將被整合到 Google 的搜索引擎、廣告產(chǎn)品、Chrome 瀏覽器等。
?
?
?
首先認(rèn)識(shí)一下?Gemini
“Gemini 是整個(gè) Google 團(tuán)隊(duì)(包括 Google Research 的同事)大規(guī)模協(xié)作努力的成果。它是從頭開始構(gòu)建的多模式,這意味著它可以概括和無縫地理解、操作和組合不同類型的信息,包括文本、代碼、音頻、圖像和視頻”,Google DeepMind 首席執(zhí)行官兼聯(lián)合創(chuàng)始人 Demis Hassabis 介紹道。
根據(jù) Google 透露,Gemini 現(xiàn)在能夠在從數(shù)據(jù)中心到移動(dòng)設(shè)備的所有設(shè)備上高效運(yùn)行,其最先進(jìn)的功能將顯著增強(qiáng)開發(fā)人員和企業(yè)客戶利用人工智能進(jìn)行構(gòu)建和擴(kuò)展的方式。
當(dāng)前,Google 帶來了三種 Gemini 型號(hào):
Gemini Ultra?是 Google 最強(qiáng)大的模型,被定位為 OpenAI 的 GPT-4 的競(jìng)爭(zhēng)對(duì)手,也似乎是為數(shù)據(jù)中心和企業(yè)應(yīng)用程序設(shè)計(jì)的。不過,該款模型將于明年推出。
Gemini Pro?是一款中端型號(hào),能夠擊敗 ChatGPT 的基準(zhǔn)版本 GPT-3.5。與此同時(shí),它將很快為許多 Google AI 服務(wù)提供支持,今天率先在 Bard 上應(yīng)用。
Gemini Nano,這是一種專為在移動(dòng)設(shè)備上運(yùn)行而構(gòu)建的更高效的模型。Pixel 8 Pro 手機(jī)用戶現(xiàn)在就可以通過 Gemini Nano 獲得一些新功能,如記錄器應(yīng)用程序中的摘要功能、Gboard 中的智能回復(fù)、視頻功能、攝影和圖像編輯方面的改進(jìn)。
?
?
?
?
Gemini?vs?GPT-4
事實(shí)上,自去年 OpenAI 率先推出 ChatGPT,似乎關(guān)于 AI 領(lǐng)域的“風(fēng)頭”便被其占領(lǐng)了大半。顯然,其他布局 AI 的各大科技公司對(duì)此并不甘落后,在自己發(fā)布新品時(shí),也忍不住會(huì)和 OpenAI 的產(chǎn)品對(duì)比一番,Google 當(dāng)然也不例外。
基于此,Google 發(fā)布了一份長(zhǎng)達(dá)?60?的《Gemini: A Family of Highly Capable Multimodal Models》(https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf),進(jìn)行了技術(shù)詳解,也與 GPT-4、GPT-3.5 模型做了對(duì)比。
其中,Google 運(yùn)行了 32 個(gè)完整的基準(zhǔn)測(cè)試來將 Gemini 與行業(yè)中先進(jìn)的模型進(jìn)行了比較,其中從廣泛的整體測(cè)試(如多任務(wù)語言理解基準(zhǔn)測(cè)試)到比較兩個(gè)模型生成 Python 代碼的能力。
值得一提的是,Gemini 的基礎(chǔ)模型支持文本輸入和文本輸出,但更強(qiáng)大的? Gemini Ultra 可以處理圖形、視頻和音頻。根據(jù)基準(zhǔn)測(cè)試結(jié)果顯示,從自然圖像、音頻和視頻理解到數(shù)學(xué)推理,Gemini Ultra 的性能在大型語言模型 (LLM)?研發(fā)中使用的 32 個(gè)廣泛使用的學(xué)術(shù)基準(zhǔn)中的 30 個(gè)上超過了 GPT-4。
整體來看,Gemini Ultra 的得分高達(dá) 90.0%,是第一個(gè)在 MMLU(大規(guī)模多任務(wù)語言理解)上超越人類專家的模型,該模型結(jié)合了數(shù)學(xué)、物理、歷史、法律、醫(yī)學(xué)和倫理學(xué)等 57 個(gè)科目來測(cè)試知識(shí)和解決問題的能力。
其中,Google 使用新的 MMLU 基準(zhǔn)方法使 Gemini 能夠利用其推理能力在回答難題之前更仔細(xì)地思考,從而比僅使用第一印象有顯著改進(jìn)。
此外,Gemini Ultra 還在新的 MMMU 基準(zhǔn)測(cè)試中取得了 59.4% 的最先進(jìn)分?jǐn)?shù),該基準(zhǔn)測(cè)試由跨越不同領(lǐng)域、需要深思熟慮的推理的多模態(tài)任務(wù)組成。
根據(jù) Google 測(cè)試的圖像基準(zhǔn),Gemini Ultra 的性能優(yōu)于以前最先進(jìn)的模型,無需從圖像中提取文本以進(jìn)行進(jìn)一步處理的對(duì)象字符識(shí)別 (OCR) 系統(tǒng)的幫助。這些基準(zhǔn)凸顯了?Gemini?天生的多模態(tài)性,并表明了?Gemini?更復(fù)雜推理能力的早期跡象。
?
多模態(tài)?Gemini 的優(yōu)勢(shì)
綜上也不難看出,Gemini 模型的優(yōu)勢(shì)便體現(xiàn)在多模態(tài)維度上。
“我們將 Gemini 設(shè)計(jì)為原生多模式,從一開始就針對(duì)不同模式進(jìn)行了預(yù)訓(xùn)練。然后我們使用額外的多模態(tài)數(shù)據(jù)對(duì)其進(jìn)行微調(diào),以進(jìn)一步完善其有效性。這有助于 Gemini 從頭開始無縫地理解和推理各種輸入,遠(yuǎn)遠(yuǎn)優(yōu)于現(xiàn)有的多模式模型 - 而且其功能幾乎在每個(gè)領(lǐng)域都是最先進(jìn)的”,Google 在公告中寫道。
那要細(xì)看 Gemini 模型的多模態(tài)能力,則具體體現(xiàn)在以下幾點(diǎn):
復(fù)雜的推理
Gemini 1.0 復(fù)雜的多模式推理功能可以幫助理解復(fù)雜的書面和視覺信息。Gemini 模型通過閱讀、過濾和理解信息從數(shù)十萬份文檔中提取見解的能力,可以幫助更多的使用者從科學(xué)到金融的許多領(lǐng)域以數(shù)字速度實(shí)現(xiàn)新的突破。
理解文本、圖像、音頻
據(jù) Google 透露,Gemini 1.0 經(jīng)過訓(xùn)練,可以同時(shí)識(shí)別和理解文本、圖像、音頻等,因此它可以更好地去理解,并回答與復(fù)雜主題相關(guān)的問題。以下示例中可以看到 Gemini 解釋數(shù)學(xué)和物理等復(fù)雜學(xué)科的推理能力。
高級(jí)編碼
Google 似乎將編碼視為 Gemini 的殺手級(jí)能力,也在這一維度下足了功夫。
Gemini 1.0 可以理解、解釋和生成主流編程語言(如 Python、Java、C++ 和 Go)的高質(zhì)量代碼。
在上文的基準(zhǔn)測(cè)試中,Gemini Ultra 在 HumanEval(用于評(píng)估編碼任務(wù)性能的重要行業(yè)標(biāo)準(zhǔn))上獲得了 74.4% 的得分,以及 Natural2Code(Google 內(nèi)部保留的數(shù)據(jù)集)上獲得了 74.9% 的分?jǐn)?shù),都比 GPT-4 能力更強(qiáng)一些。
在這次發(fā)布會(huì)上,Google 還使用了?Gemini 的專門版本,創(chuàng)建了更先進(jìn)的代碼生成系統(tǒng)?AlphaCode 2(https://storage.googleapis.com/deepmind-media/AlphaCode2/AlphaCode2_Tech_Report.pdf),它擅長(zhǎng)解決超出編碼范圍、涉及復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)的競(jìng)爭(zhēng)性編程問題。
相較 Google 兩年前推出的 AlphaCode,AlphaCode 2 解決的問題數(shù)量幾乎是原來的兩倍。Google 估計(jì)?AlphaCode 2?的表現(xiàn)優(yōu)于 85% 的競(jìng)賽參與者,而 AlphaCode 的這一比例接近 50%。當(dāng)程序員通過為代碼示例定義某些屬性來與 AlphaCode 2 協(xié)作時(shí),它的性能會(huì)更好。
運(yùn)行速度更快、成本更低
對(duì)于 Google 來說同樣重要的是,Gemini 顯然是一個(gè)效率更高的模型。它使用的是 Google 內(nèi)部設(shè)計(jì)的張量處理單元(TPU) v4 和 v5e 上進(jìn)行訓(xùn)練的,比 Google 之前的模型(如 PaLM)運(yùn)行速度更快、成本更低。
今天,除了新模型之外,Google 還推出了迄今為止最強(qiáng)大、最高效且可擴(kuò)展的 TPU 系統(tǒng) Cloud TPU v5p,專為訓(xùn)練尖端 AI 模型而設(shè)計(jì)。這款下一代 TPU 將加速 Gemini 的開發(fā),幫助開發(fā)者和企業(yè)客戶更快地訓(xùn)練大規(guī)模生成式 AI 模型。
?
?
?
Gemini 真的擊敗了 GPT-4 嗎?
對(duì)于 Gemini 的發(fā)布,業(yè)界普遍覺得終于有一款可以與 GPT-4 相抗衡的模型了,有競(jìng)爭(zhēng)才有進(jìn)步,這未必是一件壞事。然而,也需要認(rèn)清現(xiàn)實(shí)的是,能夠與 GPT-4 相抗衡的 Gemini Ultra 暫時(shí)還未應(yīng)用到任何產(chǎn)品中,因此也有不少人認(rèn)為此舉是 Google 先官宣在小步快跑的舉措,但并不能直接稱其就擊敗了 GPT-4。
對(duì)此,也正如美國知名 AI 學(xué)者 Gary Marcus 所點(diǎn)評(píng)的:
Google Gemini 和 GPT-4 的熱門觀點(diǎn):
?
從許多方面來看,Google Gemini 似乎與 GPT-4 相匹配(或稍稍超過),但并未將其擊敗。
?
從商業(yè)角度來看,GPT-4 不再是獨(dú)一無二的。這對(duì) OpenAI 來說是一個(gè)大問題,尤其是在戲劇性事件發(fā)生后,許多客戶現(xiàn)在都在尋求備份計(jì)劃。
?
從技術(shù)角度來看,關(guān)鍵問題是:LLM 是否已接近穩(wěn)定期?
請(qǐng)注意,蓋茨和 Sam Altman 都已經(jīng)暗示過,盡管商業(yè)需求巨大,但 GPT-5 在一年后還沒有出現(xiàn)。Google 盡管擁有所有資源,但并沒有擊敗 GPT-4,這一事實(shí)很能說明問題。
除此之外,還有不少網(wǎng)友從開發(fā)者的角度看 Gemini 的實(shí)用性。來自一家 AI 機(jī)構(gòu)?Growth Automation 的 CTO?Michael Borman?發(fā)文表示:
“Gemini 將取代程序員嗎?谷歌發(fā)布的新 Gemini 模型帶來了一些非常有趣的東西。
Alpha Code 2(來自 Google deepmind)在 Codeforces 平臺(tái)上擊敗了 85% 的競(jìng)爭(zhēng)對(duì)手,解決了 43% 的最新挑戰(zhàn)(8000 名參與者)。
這些挑戰(zhàn)難度很大,而 GPT-4 在該基準(zhǔn)測(cè)試中的解題率為 0。
這太瘋狂了,如果你相信推斷的話,Alphacode 現(xiàn)在基本上比 85% 的程序員都要強(qiáng)。
這意味著什么?編程已經(jīng)死了嗎?
雖然 Alpha Code 2 真的很不錯(cuò),但目前它的資源密集度太高了。
基本上,它需要大量不同的新 Gemini 模型,為相同的問題生成成千上萬的代碼樣本,過濾掉所有無法計(jì)算的代碼樣本等。然后對(duì)代碼樣本進(jìn)行聚類,并使用 gemini 對(duì)每個(gè)樣本進(jìn)行排名,從排名前 10 的最大聚類中選出排名最好的代碼。
是的,我知道僅僅生成一些代碼就有點(diǎn)復(fù)雜。
因此,雖然它非常好,但正如你從上述過程中看到的那樣,它還需要一段時(shí)間才能以 Copilot 的方式出現(xiàn)在你的 IDE 中。”
最后你如何看待 Gemini 的到來?它是否會(huì)對(duì)大模型市場(chǎng)帶來沖擊?
審核編輯:黃飛
?
評(píng)論