2025年4月,斯坦福2025HAI報告重磅發布。由李飛飛聯合領導的斯坦福大學以人為本人工智能研究所(Stanford HAI)發布了《2025 年人工智能指數報告》(Artificial Intelligence Index Report 2025)。這份長達 456 多頁的報告是 Stanford HAI 發布的第 8 份 AI Index 研究,追蹤了 2024 年全球人工智能(AI)行業的發展趨勢。今年的報告新增了對 AI 硬件發展狀況的深入分析、對推理成本的新估算,以及對 AI 出版和專利申請趨勢的分析。他們還引入了有關企業采用負責任的 AI 實踐的最新數據,并擴大了對 AI 在科學和醫學中日益重要作用的報道。
以下是該報告主要要點:
01. AI在嚴苛基準測試中的表現持續提升
2023年,研究人員引入了新的基準測試——MMMU、GPQA和SWE-bench,以測試先進AI系統的極限。僅僅一年后,其表現大幅提升:在MMMU、GPQA和SWE-bench上的得分分別提高了18.8、48.9和67.3個百分點。除基準測試外,AI系統在生成高質量視頻方面取得了重大進展,并且在某些場景下,語言模型智能體甚至在有時間限制的編程任務中超過了人類。

02. AI日益融入日常生活
從醫療保健到交通運輸,AI正迅速從實驗室走向日常生活。2023年,美國食品藥品監督管理局(FDA)批準了223種AI賦能的醫療設備,而2015年僅為6種。在道路上,自動駕駛汽車已不再是實驗性項目:美國最大的運營商之一Waymo每周提供超過15萬次自動駕駛服務,而百度經濟實惠的Apollo Go機器人出租車隊現已服務于中國眾多城市。

03. 企業全力投入AI,推動創紀錄的投資和使用,研究持續顯示其對生產力的強大影響
2024年,美國私人AI投資增長至1091億美元——幾乎是中國93億美元的12倍、英國45億美元的24倍。生成式AI勢頭尤為強勁,全球私人投資達到339億美元,較2023年增長18.7%。AI的商業應用也在加速:2024年有78%的組織報告在使用AI,高于前一年的55%。與此同時,越來越多的研究證實,AI能提高生產力,并且在大多數情況下有助于縮小勞動力技能差距。

04. 美國仍在頂級AI模型生產方面領先,但中國正在縮小性能差距
2024年,美國機構推出了40個引人注目的AI模型,而中國為15個,歐洲為3個。盡管美國在數量上保持領先,但中國模型在質量上迅速縮小了差距:在MMLU和HumanEval等主要基準測試上的性能差異從2023年的兩位數縮小到2024年的幾乎持平。中國在AI出版物和專利方面繼續領先。模型開發日益全球化,中東、拉丁美洲和東南亞也有了引人注目的成果發布。

05. 負責任AI生態系統不斷發展——但進展不均衡
與AI相關的事件急劇增加,但在主要工業模型開發者中,標準化的負責任AI(RAI)評估仍然很少。然而,像HELM Safety、AIR-Bench和FACTS等新基準為評估事實性和安全性提供了有前景的工具。在企業中,認識到RAI風險與采取有意義行動之間仍存在差距。相比之下,各國政府表現出了更強的緊迫感:2024年,全球在AI治理方面的合作加強,經濟合作與發展組織(OECD)、歐盟(EU)、聯合國(U.N.)和非洲聯盟(African Union)等組織發布了專注于透明度、可信度和其他核心負責任AI原則的框架。

06. 全球對AI的樂觀情緒上升——但地區差異仍然很大
在中國(83%)、印度尼西亞(80%)和泰國(77%)等國家,絕大多數人認為AI產品和服務利大于弊。相比之下,加拿大(40%)、美國(39%)和荷蘭(36%)等地的樂觀情緒仍然較低。不過,人們的態度正在轉變:自2022年以來,包括德國(+10%)、法國(+10%)、加拿大(+8%)、英國(+8%)和美國(+4%)在內的一些此前持懷疑態度的國家,樂觀情緒顯著增加。

07. AI變得更高效、更實惠且更易獲取
受日益強大的小型模型推動,性能達到GPT - 3.5水平的系統的推理成本在2022年11月至2024年10月期間下降了超過280倍。在硬件層面,成本每年下降30%,能效每年提高40%。開源模型正在縮小與閉源模型的差距,在某些基準測試中,性能差異在短短一年內從8%降至僅1.7%。這些趨勢共同迅速降低了先進AI的使用門檻。

08. 政府在AI方面加大行動力度——通過監管和投資
2024年,美國聯邦機構推出了59項與AI相關的法規——數量是2023年的兩倍多,且發布法規的機構數量也翻了一番。全球范圍內,自2023年以來,75個國家在立法中提及AI的次數增加了21.3%,較2016年增長了九倍。隨著關注度的提高,各國政府也在大規模投資:加拿大承諾投入24億美元,中國啟動了475億美元的半導體基金,法國承諾投入1090億歐元,印度承諾投入12.5億美元,沙特阿拉伯的“超越計劃”是一項規模達1000億美元的舉措。

09. AI和計算機科學教育正在擴展——但獲取機會和準備程度方面的差距仍然存在
如今,三分之二的國家提供或計劃提供K - 12計算機科學(CS)教育——數量是2019年的兩倍,非洲和拉丁美洲取得了最大進展。在美國,過去十年中計算機科學學士學位畢業生數量增長了22%。然而,在許多非洲國家,由于電力等基本基礎設施存在差距,獲取教育的機會仍然有限。在美國,81%的K - 12 CS教師認為AI應成為基礎CS教育的一部分,但不到一半的教師認為自己有能力教授相關內容。

10. 行業在AI領域遙遙領先——但前沿競爭日益激烈
2024年,近90%的引人注目的AI模型來自行業,高于2023年的60%,而學術界仍是高被引研究的主要來源。模型規模繼續快速增長——訓練計算量每五個月翻倍,數據集每八個月翻倍,功耗每年翻倍。然而,性能差距正在縮小:排名第一和第十的模型之間的Elo技能得分差異在一年內從11.9%降至5.4%,排名前兩位的模型之間僅相差0.7%。前沿領域的競爭日益激烈,也越來越擁擠。

11. AI因其科學的影響榮獲殊榮
AI的重要性日益凸顯,這在重大科學獎項中得到了體現:兩項諾貝爾獎表彰了推動深度學習(物理學)及其在蛋白質折疊應用(化學)方面的工作,圖靈獎則授予了強化學習領域的開創性貢獻。

12. 復雜推理仍是一項挑戰
AI模型在國際數學奧林匹克競賽等問題上表現出色,但在PlanBench等復雜推理基準測試中仍面臨困難。即使存在可證明的正確解決方案,它們也常常無法可靠地解決邏輯任務,這限制了其在精度至關重的高風險場景中的有效性。

1. 斯坦福大學《2025人工智能指數報告》原文來源于:
https://hai.stanford.edu/ai-index/2025-ai-index-report
2. 本文轉自上海智慧城市發展研究院,翻譯由騰訊元寶AI提供支持。
-
AI
+關注
關注
87文章
33369瀏覽量
273844 -
人工智能
+關注
關注
1803文章
48379瀏覽量
244408 -
語言模型
+關注
關注
0文章
556瀏覽量
10568
發布評論請先 登錄
相關推薦
Arm發布人工智能就緒指數報告
Deepseek引發算力變革 《2025中國人工智能計算力發展評估報告》發布

斯坦福大學Nature Energy:鋰電還是鈉電?

斯坦福研究:電動汽車電池實際壽命比預估長得多
嵌入式和人工智能究竟是什么關系?
未來學家展望 2025 年十大人工智能趨勢

risc-v在人工智能圖像處理應用前景分析
解放軍人工智能指揮系統:賦能指揮與控制系統
名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新
斯坦福團隊抄襲國產大模型,主要責任人失聯
斯坦福大學研發全新AI輔助全息成像技術
終于,投資人對 AI 疲倦了

評論