電子發燒友網報道(文/莫婷婷)美國太平洋時間周一晚上8點(北京時間周二12點),馬斯克旗下人工智能公司xAI正式發布新一代人工智能大模型Grok 3。在這款產品還未發布之前,馬斯克就為它站臺,表示“Grok 3將是地球上最聰明的人工智能”。那么,這款史上最聰明的AI大模型到底有哪些亮點?
Grok 3系列多項測試登頂,即將接入SpaceX火箭
此次直播有四人參與,分別是xAI工程師Igor Babuschkin,還有兩位華人研究員:多倫多大學計算機科學助理教授Jimmy Ba,斯坦福大學博士后吳宇懷(Yuhuai "Tony" Wu),以及伊隆·馬斯克。
此次發布的Grok 3系列有兩個版本,分別為Grok 3和輕量版Grok 3 mini。Grok 3 mini經過了更長時間的訓練,在某些情況下能夠更快地解答問題。xAI還發布了推理模型Grok-3 Reasoning和Grok-3 mini Reasoning,以及首個AI智能體DeepSearch。
在近期的世界政府峰會上,馬斯克提到Grok 3時表示,“Grok 3有極強的推理能力,在我們迄今為止所做的測試中,其表現優于我們所知的任何已發布產品。”
為了讓Grok 3更加聰明,xAI團隊在進行訓練時用到了更多的計算資源。此前,Grok 2訓練規模為2000 萬GPU 小時。而Grok 3訓練規模是Grok 2的10倍,約為2 億GPU 小時。
馬斯克在現場展示了Grok 3進行AIME'24數學能力測試、GPQA科學知識評估、LCB Oct-Feb編程能力測試等多個測試的實際表現。馬斯克將Grok 3與Grok 3 mini、Gemini-2 Pro、DeepSeek-V3、Claude 3.5 Sonnet、GPT-40進行對比。在上述多個測試中,Grok 3的表現都優于其他AI大模型,特別是在LCB Oct-Feb編程能力測試中,Grok 3的得分為57,GPT-40的得分為34,幾乎是后者的兩倍得分。
在與DeepSeek-V3的對比中,Grok 3也有優異的表現,AIME'24數學能力測試以52 分超 過DeepSeek-V3 的 39 分。GPQA 科學知識評估以75 分超過DeepSeek-V3 的65 分。LCB Oct-Feb 編程能力測試以57 分超過DeepSeek-V3 的 36 分。
在眾包大模型評估平臺Chatbot Arena(LMSYS)聊天機器人大模型競技場的測試中,早期版 Grok 3拿到了1402分。xAI團隊興奮地表示,Grok 3是首個超過1400分的AI大模型,超過了 DeepSeek-R1、OpenAI o1、Gemini-thinking等推理模型。“它是在聊天室功能、編程等各方面的性能上,可以說是最強勁的。我們還在不斷地更新。”
在推理能力方面,Grok 3的表現同樣超出預期。在 AIME 2025 數學競賽的測試中,兩個推理模型Grok-3 Reasoning Beta 和 Grok-3 mini Reasoning兩個版本分別以93分、90分的成績超過同比大模型。
Grok 3有DeepSearch模式、思考(Think)模式、Big Brain模式。思考(Think)模式時,Grok 3會展示出思考鏈路、思考時長,與DeepSeek類似。Big Brain模式則使用了更多的模式。
在發布會現場,xAI給出了不同的任務,包括發布讓Grok 3生成“從地球發射、著陸火星,然后再次返回地球的3D 動圖的代碼”“使用 pygame 制作一款結合了俄羅斯方塊和寶石方塊的游戲,代碼可以很長,效果要炫酷”等任務。Grok 3都順利完成了上述任務。
針對游戲的任務,xAI團隊選擇讓Grok 3結合俄羅斯方塊和寶石方塊兩個游戲,這意味著需要把兩個游戲的一些代碼和要素去復制和融合在一起,這也展示出AI具備創造力的過程。
在進行火箭發射的任務時,工作人員一開始用Grok-3 mini進行測試,后面切換了滿血版Grok-3。在經過114秒的等待后,Grok-3給出了答案。“發射時間窗口的計算過程中涉及了大量的數學和物理模型。那其實我們也能夠在Grok 3的思維和推理的過程之中,去了解它到底引用了什么樣的算式和推理,所以我們的模型能夠為航空航天領域提供幫助。但大模型計算的發射窗口可能也會出現失誤的問題,但是我相信它最終會給我們得出一個結論和結果。”xAI團隊表示。
馬斯克興奮地提到,我們希望能夠用Grok 3解決特別重要的任務,比如說去打造一輛特斯拉,或者說是發射一個真正的火箭。“我相信下一次重大的突破會在明年 11 月份出現,我們會在明年讓 space x 火箭登陸火星,接入Grok 這樣的模型去計算整個的發射過程。”
在發布會之前,馬斯克就提到,Grok 3引入了思維鏈(Chain Of Thought)推理機制可以讓Grok 3像人類一樣,逐步解決復雜的問題。從發布會的測試任務結果來看,Grok 3邏輯推理測試中能夠提供創新的想法和解決方案。
“全球最強”之爭:建立最大H100集群,消耗20萬塊 H100
回顧xAI大模型的發展歷程:2023年11月,xAI發布第一款大模型Grok-1,擁有3140億參數,用于訓練AI聊天機器人。2024年3月,Grok宣布開源。2024年8月,Grok-2大模型發布。在Grok-1的基礎上,訓練時除了采用大規模合成數據,還加入真實世界數據。
從Grok 2大模型發布至今,已將近一年。在這一年中,AI大模型的發展速度超乎想象,例如中國DeepSeek大模型的橫空出世,OpenAI 的推理模型o3等。此外,OpenAI還在加速推進AI大模型的研發進程,針對o4模型訓練已經啟動。xAI似乎也感受到緊迫感。
可以看到,AI行業似乎進入了一場AI大模型性能的競賽,特別是關于“誰是全球最強”。
為了打造出全球最強的AI大模型,xAI投入了大量的資源。Grok 3優異的表現是取決于哪些方面?馬斯克坦言,一是我們有世界上最優秀的 AI工程師團隊,我們可以重塑推理,真正確保 AI訓練達到相關的一個算力極限。其次我們也必須去計算到底有多少 GPU 可以同時運行,用來突破整個AI 和大語言模型的邊界。
xAI團隊坦言,我們在訓練大模型的過程中也遇到了很多的困難,我們認為在模型訓練中,能耗能效在 65% 到 80% 之間,可以說是浪費了很多能源。如果想要進一步推進語言模型、AI技術的發展,必須去解決數據中心的冷卻問題、供能等問題。
因此為了訓練Grok 3,xAI團隊提升了數據中心的容量,用約四個月的時間建立新的數據中心,用10萬個GPU啟動并運行。隨著技術的投入,又用92天的時間把數據中心的算力提升了一倍,擴大到20 萬塊顯卡。xAI團隊認為這將是同類中最大的全連接的H100集群。與此同時xAI團隊已經開始研究下一個AI集群,將比現在的集群強大5倍。
目前AI大模型競賽的核心驅動力包括計算能力與訓練規模、多模態與推理能力、開源與商業化平衡等。
xAI團隊表示,Grok 3測試版現已面向社交媒體平臺X用戶推出。Grok 3會在一周后獲得最佳體驗,將有語音模式。xAI還將在Grok 3成熟后,開源Grok 2。
進入2025年,AI領域新的競爭已然開啟。從馬斯克的Grok 3來看,隨著技術的成熟與強大,未來AI大模型將不僅僅能解決人們日常中的問題,還能進入科研領域。
小結:
隨著Grok 3的震撼發布,我們看到了通過20萬張GPU訓練出的大模型在性能上的巨大飛躍。與此同時,關于訓練成本的話題也引起業內關注。消息顯示,xAI公司投入巨大,特別是針對Grok 3的投入。消息顯示,xAI公司進行新一輪的融資,此次計劃籌集約100億美元資金,融資后公司估值達到約750億美元。另一邊,DeepSeek R1以550萬美元的成本進入人們的視野。這不禁讓我們思考:在追求更高性能的AI大模型時,該如何找到成本與性能之間的平衡點。
發布評論請先 登錄
相關推薦
從性能到商業,Grok3、GPT-4o、DeepSeek如何重塑AI版圖?

馬斯克的“秘密武器”:Grok 3真的能輕松碾壓DeepSeek和ChatGPT?

馬斯克發布Grok 3大模型,超越GPT-4o
馬斯克發布Grok-3,X平臺用戶可優先訂閱
馬斯克揭秘Grok 3訓練成本:20萬塊英偉達GPU
馬斯克即將發布Grok 3大模型,自詡“最聰明”AI
馬斯克盛贊:xAI發布Grok 3推理模型,被譽為地球上最聰明的AI

評論