在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

閉卷開考全國一卷,AI大模型高考數學全部不及格?!

E4Life ? 來源:電子發燒友 ? 作者:周凱揚 ? 2024-06-21 00:26 ? 次閱讀

電子發燒友網報道(文/周凱揚)當下的大模型除了卷商業化變現外,又開辟出了一個新的“賽博斗蛐蛐”賽道,以各種評測標準來測試大模型在語言、數學、推理和代碼方面的綜合成績。作為國內最權威的考試之一,高考則是最能代表學生綜合能力的一次考驗,而大模型這個特殊身份的考生,如果參加高考究竟會獲得怎樣的成績,也激起了網友的好奇之心。

上海人工智能實驗室的大模型評測體系OpenCompass在近日舉辦了這么一次測試,讓6大開源模型和GPT-4o參加一次特殊的“高考”,然而這些大模型獲得的成績卻讓不少人大跌眼鏡。

閉卷開考全國一卷

在這次大模型參加高考中,OpenCompass的首輪測試采用了全國新課標I卷的語數外試卷作為題源,該卷的覆蓋省份包括江蘇、浙江、河北、福建、山東、湖北、湖南、廣東等。為了方便測試,除了省去其他非統一學科外,其中英語省去了30分的聽力,所以其單科總分變為了120分。

為了做到“閉卷”,這些受測的模型中,包括Mistral的開源對話模型Mixtral 8x22B、零一萬物的Yi-1.5-34B大模型、智譜AI的GLM-4-9B、上海人工智能實驗室推出的InternLM2-20B-WQX大語言模型以及阿里巴巴的Qwen2-57B和Qwen2-72B。

以上開源模型的開源時間均早于本屆高考,發布時間最新的是InternLM專門在高考前夕推出的文曲星系列大模型,InternLM2-WQX。即便如此,其發布于6月4日的時間也滿足了閉卷考試的前提。唯一的例外是商用閉源模型GPT-4o,但其成績也僅僅是作為評測參考。

在閱卷評分上,OpenCompass請到了多位有閱卷經驗的高中教師對主觀題答案進行評分,每份考卷都由至少3位教師評閱取平均分,甚至對分差較大的題目進行了二次審核。另外值得關注的是,為了保證閱卷老師在主客觀題上產生對大模型“先入為主”的觀念,OpenCompass在閱卷之后才告知閱卷老師答案由大模型生成,并對成績做一個整體分析。

wKgZomZ0BCWAPKHmAAOALGiaXp4470.png
AI大模型高考語數外得分 / 上海人工智能實驗室


從總分來看,阿里巴巴的通義千問大模型Qwen2-72B排名第一,其次是成績相近的GPT-4o和InternLM2-20B-WQX。然而單從數學這一門科目來看,所有的大模型都沒有及格,Mixtral 8x22B甚至只獲得了21分的成績。

語言能力依然是LLM的強項,但“應試”能力仍有提升空間

在這次“高考測試”中,不少大模型都在語文和英語上獲得了不錯的成績,尤其是在英語試卷上,GPT-4o更是在英語上獲得了111.5的高分。在語文上,還是國內的模型更具優勢,尤其是在文言文閱讀、古詩文閱讀和名句默寫上。

有趣的一點是,在語文作文上,各大模型都沒有拉開較大差距。但據上海人工智能實驗室的觀察,大模型的作文都傾向于將“首先”“其次”和“然后”這樣表達先后順序的詞放在段首。此外,目前多數大模型都沒有對一些“應試”類題型做出優化,比如在語文考試中,閱讀理解中的一些本體、喻體、暗喻等概念,大模型尚不能完全理解,所以在語言文字運用題型上,比如補寫句子等題目就普遍得分不高。

而在英語考試中,盡管各大模型整體表現良好,但部分模型并不適應完形填空、七選五這樣非傳統問答式的題型,會出現答案錯位的情況,因此得分率依然處于一個較低的水平。

在英語續寫和作文的撰寫上,大模型都存在忽略題目要求的現象,普遍出現了超出字數限制而扣分的情況,且單段文字過長。在故事續寫這樣的題型中,部分大模型也會展開不合實際的聯想,比如InternLM2-20B-WQX的作答中,就出現了出租車內司機撥通銀行內線電話的離譜情節。

數學不及格,主觀問答題成為最大短板

wKgaomZ0BDKAKfhmAALzT7cr6Gc900.png
AI大模型數學各題型得分 / 上海人工智能實驗室


相較語言能力測試成績,AI大模型在數學能力測試上獲得的成績就顯得不盡如人意了。最高分為InternLM2-20B-WQX取得的75分,可以說在數學這門學科上,幾乎所有的大模型都敗下陣來。全國新課標I卷的數學試卷中存在兩道帶圖題,對于不支持多模態輸入的大模型而言,只能選擇輸入題干文字從而將圖片舍棄,這也是失分嚴重的原因之一。

wKgaomZ0BD6AA07RAAHqWlB3xsA388.png
Qwen2-72B的帶圖題答案 / 上海人工智能實驗室


以上圖中的帶圖題答案為例,大模型僅僅給出了一個解題框架,并沒有給出具體數值的答案。GPT-4o和InternLM2-20B-WQX等大模型雖然給出了具體答案和解題過程,但最終得到的是一個錯誤的答案。

之所以InternLM2-20B-WQX能在數學考試上獲得相對較高的成績,也歸功于其團隊在數學大模型上的積累。今年年初InternLM發布了數學模型書生·浦語數學(InternLM2-Math)。書生·浦語數學也是首個同時支持形式化數學語言以及解題過程評價的開源模型,如此一來不僅可以用于數學計算解答,也可以用于數學基礎研究和教學。

盡管如此,在數學考試的問答主觀題上,大模型依然成績慘淡。這是因為大模型的回答多數比較凌亂,也出現了不少常見的錯誤解答但答案正確的現象。所以在77分滿分的問答題上,最高的InternLM2-20B-WQX也只僅僅得了26分。

AI大模型是不合格的考生嗎?

根據閱卷老師的點評來看,AI大模型依然還是一個比較“死板”的考生,尤其是在主觀題上。以語文的主觀題為例,很多大模型在第一步審題就失敗了,所以答非所問。在英語題目上,大模型的實力還是毋庸置疑的,但還是會在題型和作文中出現紕漏。

至于數學依然是所有大模型的弱項,大模型更像是記住了公式但不會運用的學生,在大部分題目上更傾向于窮舉而非推理。至于帶圖的立體幾何解答題,大模型更是缺乏空間概念,導致出現離譜的解答過程和答案。由此看來,大模型的“應試”能力依然有所欠缺,但在飛速迭代下,相信未來這種障礙會越來越少。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    31536

    瀏覽量

    270358
  • AI大模型
    +關注

    關注

    0

    文章

    320

    瀏覽量

    349
收藏 人收藏

    評論

    相關推薦

    模型進化論:AI產業落地將向何方?

    模型進化論:AI產業落地將向何方?
    的頭像 發表于 01-24 09:28 ?106次閱讀

    AN84-線性技術雜志電路集,第一卷第四集

    電子發燒友網站提供《AN84-線性技術雜志電路集,第一卷第四集.pdf》資料免費下載
    發表于 01-09 14:21 ?0次下載
    AN84-線性技術雜志電路集,第<b class='flag-5'>一卷</b>第四集

    中興通訊榮獲第七屆“綻放杯”全國一等獎

    在近期落幕的第七屆“綻放杯”5G應用征集大賽全國總決賽中,由中興通訊、常州移動與微億智造聯合打造的《打造超級虛擬工廠:5G+多維工業AI模型》項目榮獲全國一等獎。
    的頭像 發表于 01-07 17:12 ?341次閱讀

    Kimi發布新一代數學推理模型k0-math

    近日,Kimi正式推出了其新一代數學推理模型k0-math。據基準測試顯示,該模型數學能力可與全球領先的OpenAI o1系列中的o1-mini和o1-preview
    的頭像 發表于 11-18 11:38 ?558次閱讀

    兆瀚AI×考試丨百萬份高考答卷如何“秒級”評閱?兆瀚AI服務器來解答!

    2024年全國高考順利落下帷幕,在這青春的“戰場”上,全國1342萬學子以筆為劍,奮力作答、勇毅逐夢。圖源:本圖由AI生成然而高考的結束并不
    的頭像 發表于 07-16 08:14 ?293次閱讀
    兆瀚<b class='flag-5'>AI</b>×考試丨百萬份<b class='flag-5'>高考</b>答卷如何“秒級”評閱?兆瀚<b class='flag-5'>AI</b>服務器來解答!

    數學建模神經網絡模型的優缺點有哪些

    數學建模神經網絡模型種基于人工神經網絡的數學建模方法,它通過模擬人腦神經元的連接和信息傳遞機制,對復雜系統進行建模和分析。神經網絡模型
    的頭像 發表于 07-02 11:36 ?1021次閱讀

    AI護航高考!拓維海云天圓滿完成2024高考評卷技術服務

    近日,2024年全國高考評卷工作在安全、平穩、有序中陸續落下帷幕。拓維海云天連續第23年為高考提供網上評卷技術服務,服務范圍覆蓋全國18個省(區、市),包括吉林、黑龍江、江西、貴州、甘
    的頭像 發表于 06-29 08:14 ?473次閱讀
    <b class='flag-5'>AI</b>護航<b class='flag-5'>高考</b>!拓維海云天圓滿完成2024<b class='flag-5'>高考</b>評卷技術服務

    AI數學同時走下神壇

    2024年4月13日,場特別的考試開。數萬名分散在全球各地的數學高手,在這天早上8點打開了阿里巴巴全球數學競賽預賽的試卷,他們有48小
    的頭像 發表于 06-23 08:05 ?111次閱讀
    當<b class='flag-5'>AI</b>與<b class='flag-5'>數學</b>同時走下神壇

    高考志愿服務,AI搜索的現實考卷

    AI搜索為高考助攻,該如何答好“志愿填報服務”這張考卷?
    的頭像 發表于 06-20 09:20 ?2074次閱讀
    <b class='flag-5'>高考</b>志愿服務,<b class='flag-5'>一</b>張<b class='flag-5'>AI</b>搜索的現實考卷

    AI應用加速 海南高考首次采用AI智能巡

    據海南省考試局公布的消息顯示,海南今年為高考做足準備,海南省為確保高考公平公正,將在考場試點采用AI智能巡,運用人工智能技術及時發現和預警違規違紀行為。這項新的輔助舉措在技術層面進
    的頭像 發表于 06-04 11:55 ?825次閱讀

    STM CUBE AI錯誤導入onnx模型報錯的原因?

    使用cube-AI分析模型時報錯,該模型是pytorch的cnn轉化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    發表于 05-27 07:15

    三相SVPWM電壓型逆變器的數學模型

    通過前面得出的dq坐標系下的數學模型,進步可以得到dq坐標系下的變壓器模型。通過這種模型可以幫助我們更好的去理解dq坐標系下的數學模型
    發表于 04-06 04:27 ?3579次閱讀
    三相SVPWM電壓型逆變器的<b class='flag-5'>數學模型</b>

    防止AI模型被黑客病毒入侵控制(原創)聆思大模型AI開發套件評測4

    在訓練只聰明的AI小動物解決實際問題,通過構建神經網絡模型并進行推理,讓電腦也能像人樣根據輸入信息做出決策。 在上述示例中,我創建了
    發表于 03-19 11:18

    AI模型遠程控制啟動車輛(原創)

    AI模型
    還沒吃飯
    發布于 :2024年03月18日 15:18:29

    使用cube-AI分析模型時報錯的原因有哪些?

    使用cube-AI分析模型時報錯,該模型是pytorch的cnn轉化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    發表于 03-14 07:09
    主站蜘蛛池模板: 在线视频免费视频网站 | 久久国产免费观看精品 | 1024手机看片国产 | 日韩夜夜操 | 三级理论在线播放大全 | 一级片免费在线播放 | 在线视频亚洲欧美 | 黄色成人一级片 | 四虎影午夜成年免费精品 | 日本不卡免费高清视频 | 免费的毛片网站 | 国产精品天天操 | 欧美一区二区三区免费 | 天天干在线播放 | 婷婷激情电影 | 毛片2016免费视频 | h国产视频| 人人人人凹人人爽人人澡 | 久久福利影视 | 三级在线观看国产 | 在线观看视频你懂的 | 欧美一级片手机在线观看 | 女人张开双腿让男人桶爽免 | 中文在线三级中文字幕 | 国产盗摄女厕美女嘘嘘 | 亚洲理论在线 | 尤物啪啪 | 成人三级在线播放线观看 | 日韩免费看 | 中文字幕一区二区三区在线观看 | 91一区二区三区四区五区 | 午夜亚洲视频 | 色偷偷亚洲综合网亚洲 | 美女视频黄a全部 | bt 电影天堂 | 国产精品午夜高清在线观看 | 欧美一区二区三区大片 | 天堂中文在线最新版地址 | 亚洲美女高清一区二区三区 | 亚洲精品色一区色二区色三区 | 亚洲理论片|