電子發燒友網報道(文/莫婷婷)7月10日,馬斯克的AI公司xAI正式發布旗艦大模型Grok 4、Grok 4 API,同時推出AI訂閱計劃Super Grok Heavy,每月300美元(約合2153元人民幣)。
馬斯克對Grok 4的能力給予了高度評價,他表示,Grok 4的推理能力已超越人類水平,甚至比幾乎所有學科的研究生具備更強的綜合理解與分析能力。
在被稱為“人類的最后考試”(Humanity's Last Exam)的綜合性測試中,Grok 4取得了25.4%的準確率,且完全不依賴任何外部“工具”輔助。相比之下,谷歌Gemini 2.5 Pro的得分為21.6%,而OpenAI的o3(高版本)僅為21%。在這場全球頂尖模型的較量中,Grok 4一舉超越了多位此前公認的領先選手,成為新一代大模型中的佼佼者。
除了Humanity's Last Exam的測試,Grok 4還在GPQA、AIME25、LCB(Jan-May)、HMMT25等測試中,超過了OpenAI o3、Gemini 2.5 Pro、Claude 4 Opus等大模型。
馬斯克介紹,Grok 4未來將達到以下目標:它能在所有考試中答對所有題目;如果答錯,它會指出問題出在哪里;如果題目存在歧義,它會將問題拆解為答案A、B和C,并消除歧義后的問題下,對選項A、B、C分別對應的解答。
馬斯克表示,Grok 4每個學科都達到超博士水平,目前Grok 4還沒有發明新技術或發現新物理定律的能力,但他認為在下半年、最遲也會在明年就能看到Grok 4發現具有實用價值的新技術,兩年之內就會發現新物理定律。
Grok 4是如何實現如此高水平的推理能力。根據介紹,在訓練層,每一代模型的訓練規模都實現了數量級提升,Grok 4的訓練量是Grok 2的100倍。馬斯克明確表示,這個訓練量還會持續增長。
訓練算力有兩種類型:一是Grok 2到Grok 3階段的訓練預算力,二是在Grok 3到Grok 4階段,團隊在強化學習的推理環節投入了大量算力。xAI團隊通過訓練Grok 2,首次實現了預訓練規模的突破,團隊發現如果真正精細地進行數據消融實驗,以及基礎設備、算法,就可以通過1.0倍的量大幅推進預訓練,打造最佳的預訓練基礎模型。xAI將動用了有20萬塊H100 GPU的超級算力中心。
與Grok 3不同,Grok 4將工具直接融入訓練過程,使其成為模型的原生能力。在單智能體情況下,團隊能解決40%的問題;隨著測試與計算規模的擴大,團隊已經能解決HRE問題中純文本子集超過50%的內容。這是一個極其困難的任務,xAI表示。
在發布會上,xAI也正式推出了多智能體版本Grok 4 Heavy。在人類的最后考試測試中,Grok 4 Heavy取得44.4%的準確率。
馬斯克指出Grok最大的弱點在圖像理解、圖像生成,xAI正在進行相關的訓練。Grok 4基于第六代基礎模型,第七代基礎模型將在幾周后完成,屆時將改善圖像領域的不足。
在開通AI訂閱計劃Super Grok后,用戶就可以訪問Grok 4,訂閱費為每月30美金。如果成為Super Grok Heavy用戶,就可以同時訪問Grok 4和Grok 4 Heavy,訂閱費為每月300美金。xAI表示,屆時你將成為“一群Grok研究智能體的任務主管”,讓你變得更聰明。
Grok 4以其超人類推理能力與跨學科統治力引發關注。此次發布不僅讓Grok 4成為大模型性能天花板,也意味著xAI正以算力筑壁壘。
-
大模型
+關注
關注
2文章
3132瀏覽量
4050
發布評論請先 登錄
炸場!Grok 3擊敗Deepseek?馬斯克20萬顯卡造AI

馬斯克的“秘密武器”:Grok 3真的能輕松碾壓DeepSeek和ChatGPT?

馬斯克發布Grok 3大模型,超越GPT-4o
馬斯克發布Grok-3,X平臺用戶可優先訂閱
馬斯克揭秘Grok 3訓練成本:20萬塊英偉達GPU
馬斯克即將發布Grok 3大模型,自詡“最聰明”AI
馬斯克盛贊:xAI發布Grok 3推理模型,被譽為地球上最聰明的AI

評論