在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

閉卷開考全國(guó)一卷,AI大模型高考數(shù)學(xué)全部不及格?!

E4Life ? 來源:電子發(fā)燒友 ? 作者:周凱揚(yáng) ? 2024-06-21 00:26 ? 次閱讀

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))當(dāng)下的大模型除了卷商業(yè)化變現(xiàn)外,又開辟出了一個(gè)新的“賽博斗蛐蛐”賽道,以各種評(píng)測(cè)標(biāo)準(zhǔn)來測(cè)試大模型在語言、數(shù)學(xué)、推理和代碼方面的綜合成績(jī)。作為國(guó)內(nèi)最權(quán)威的考試之一,高考則是最能代表學(xué)生綜合能力的一次考驗(yàn),而大模型這個(gè)特殊身份的考生,如果參加高考究竟會(huì)獲得怎樣的成績(jī),也激起了網(wǎng)友的好奇之心。

上海人工智能實(shí)驗(yàn)室的大模型評(píng)測(cè)體系OpenCompass在近日舉辦了這么一次測(cè)試,讓6大開源模型和GPT-4o參加一次特殊的“高考”,然而這些大模型獲得的成績(jī)卻讓不少人大跌眼鏡。

閉卷開考全國(guó)一卷

在這次大模型參加高考中,OpenCompass的首輪測(cè)試采用了全國(guó)新課標(biāo)I卷的語數(shù)外試卷作為題源,該卷的覆蓋省份包括江蘇、浙江、河北、福建、山東、湖北、湖南、廣東等。為了方便測(cè)試,除了省去其他非統(tǒng)一學(xué)科外,其中英語省去了30分的聽力,所以其單科總分變?yōu)榱?20分。

為了做到“閉卷”,這些受測(cè)的模型中,包括Mistral的開源對(duì)話模型Mixtral 8x22B、零一萬物的Yi-1.5-34B大模型、智譜AI的GLM-4-9B、上海人工智能實(shí)驗(yàn)室推出的InternLM2-20B-WQX大語言模型以及阿里巴巴的Qwen2-57B和Qwen2-72B。

以上開源模型的開源時(shí)間均早于本屆高考,發(fā)布時(shí)間最新的是InternLM專門在高考前夕推出的文曲星系列大模型,InternLM2-WQX。即便如此,其發(fā)布于6月4日的時(shí)間也滿足了閉卷考試的前提。唯一的例外是商用閉源模型GPT-4o,但其成績(jī)也僅僅是作為評(píng)測(cè)參考。

在閱卷評(píng)分上,OpenCompass請(qǐng)到了多位有閱卷經(jīng)驗(yàn)的高中教師對(duì)主觀題答案進(jìn)行評(píng)分,每份考卷都由至少3位教師評(píng)閱取平均分,甚至對(duì)分差較大的題目進(jìn)行了二次審核。另外值得關(guān)注的是,為了保證閱卷老師在主客觀題上產(chǎn)生對(duì)大模型“先入為主”的觀念,OpenCompass在閱卷之后才告知閱卷老師答案由大模型生成,并對(duì)成績(jī)做一個(gè)整體分析。

wKgZomZ0BCWAPKHmAAOALGiaXp4470.png
AI大模型高考語數(shù)外得分 / 上海人工智能實(shí)驗(yàn)室


從總分來看,阿里巴巴的通義千問大模型Qwen2-72B排名第一,其次是成績(jī)相近的GPT-4o和InternLM2-20B-WQX。然而單從數(shù)學(xué)這一門科目來看,所有的大模型都沒有及格,Mixtral 8x22B甚至只獲得了21分的成績(jī)。

語言能力依然是LLM的強(qiáng)項(xiàng),但“應(yīng)試”能力仍有提升空間

在這次“高考測(cè)試”中,不少大模型都在語文和英語上獲得了不錯(cuò)的成績(jī),尤其是在英語試卷上,GPT-4o更是在英語上獲得了111.5的高分。在語文上,還是國(guó)內(nèi)的模型更具優(yōu)勢(shì),尤其是在文言文閱讀、古詩文閱讀和名句默寫上。

有趣的一點(diǎn)是,在語文作文上,各大模型都沒有拉開較大差距。但據(jù)上海人工智能實(shí)驗(yàn)室的觀察,大模型的作文都傾向于將“首先”“其次”和“然后”這樣表達(dá)先后順序的詞放在段首。此外,目前多數(shù)大模型都沒有對(duì)一些“應(yīng)試”類題型做出優(yōu)化,比如在語文考試中,閱讀理解中的一些本體、喻體、暗喻等概念,大模型尚不能完全理解,所以在語言文字運(yùn)用題型上,比如補(bǔ)寫句子等題目就普遍得分不高。

而在英語考試中,盡管各大模型整體表現(xiàn)良好,但部分模型并不適應(yīng)完形填空、七選五這樣非傳統(tǒng)問答式的題型,會(huì)出現(xiàn)答案錯(cuò)位的情況,因此得分率依然處于一個(gè)較低的水平。

在英語續(xù)寫和作文的撰寫上,大模型都存在忽略題目要求的現(xiàn)象,普遍出現(xiàn)了超出字?jǐn)?shù)限制而扣分的情況,且單段文字過長(zhǎng)。在故事續(xù)寫這樣的題型中,部分大模型也會(huì)展開不合實(shí)際的聯(lián)想,比如InternLM2-20B-WQX的作答中,就出現(xiàn)了出租車內(nèi)司機(jī)撥通銀行內(nèi)線電話的離譜情節(jié)。

數(shù)學(xué)不及格,主觀問答題成為最大短板

wKgaomZ0BDKAKfhmAALzT7cr6Gc900.png
AI大模型數(shù)學(xué)各題型得分 / 上海人工智能實(shí)驗(yàn)室


相較語言能力測(cè)試成績(jī),AI大模型在數(shù)學(xué)能力測(cè)試上獲得的成績(jī)就顯得不盡如人意了。最高分為InternLM2-20B-WQX取得的75分,可以說在數(shù)學(xué)這門學(xué)科上,幾乎所有的大模型都敗下陣來。全國(guó)新課標(biāo)I卷的數(shù)學(xué)試卷中存在兩道帶圖題,對(duì)于不支持多模態(tài)輸入的大模型而言,只能選擇輸入題干文字從而將圖片舍棄,這也是失分嚴(yán)重的原因之一。

wKgaomZ0BD6AA07RAAHqWlB3xsA388.png
Qwen2-72B的帶圖題答案 / 上海人工智能實(shí)驗(yàn)室


以上圖中的帶圖題答案為例,大模型僅僅給出了一個(gè)解題框架,并沒有給出具體數(shù)值的答案。GPT-4o和InternLM2-20B-WQX等大模型雖然給出了具體答案和解題過程,但最終得到的是一個(gè)錯(cuò)誤的答案。

之所以InternLM2-20B-WQX能在數(shù)學(xué)考試上獲得相對(duì)較高的成績(jī),也歸功于其團(tuán)隊(duì)在數(shù)學(xué)大模型上的積累。今年年初InternLM發(fā)布了數(shù)學(xué)模型書生·浦語數(shù)學(xué)(InternLM2-Math)。書生·浦語數(shù)學(xué)也是首個(gè)同時(shí)支持形式化數(shù)學(xué)語言以及解題過程評(píng)價(jià)的開源模型,如此一來不僅可以用于數(shù)學(xué)計(jì)算解答,也可以用于數(shù)學(xué)基礎(chǔ)研究和教學(xué)。

盡管如此,在數(shù)學(xué)考試的問答主觀題上,大模型依然成績(jī)慘淡。這是因?yàn)榇竽P偷幕卮鸲鄶?shù)比較凌亂,也出現(xiàn)了不少常見的錯(cuò)誤解答但答案正確的現(xiàn)象。所以在77分滿分的問答題上,最高的InternLM2-20B-WQX也只僅僅得了26分。

AI大模型是不合格的考生嗎?

根據(jù)閱卷老師的點(diǎn)評(píng)來看,AI大模型依然還是一個(gè)比較“死板”的考生,尤其是在主觀題上。以語文的主觀題為例,很多大模型在第一步審題就失敗了,所以答非所問。在英語題目上,大模型的實(shí)力還是毋庸置疑的,但還是會(huì)在題型和作文中出現(xiàn)紕漏。

至于數(shù)學(xué)依然是所有大模型的弱項(xiàng),大模型更像是記住了公式但不會(huì)運(yùn)用的學(xué)生,在大部分題目上更傾向于窮舉而非推理。至于帶圖的立體幾何解答題,大模型更是缺乏空間概念,導(dǎo)致出現(xiàn)離譜的解答過程和答案。由此看來,大模型的“應(yīng)試”能力依然有所欠缺,但在飛速迭代下,相信未來這種障礙會(huì)越來越少。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    33714

    瀏覽量

    274490
  • AI大模型
    +關(guān)注

    關(guān)注

    0

    文章

    360

    瀏覽量

    483
收藏 人收藏

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    基石。 Neuron Studio打造全流程站式開發(fā)體驗(yàn),為AI應(yīng)用開發(fā)按下加速鍵 AI 應(yīng)用的開發(fā)瓶頸,從來都不是“點(diǎn)的問題”,而是“鏈的問題”:開發(fā)工具碎片化,調(diào)優(yōu)過程靠手動(dòng),單模型
    發(fā)表于 04-13 19:52

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個(gè)模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18

    模型數(shù)學(xué)能力或許直都在關(guān)鍵在于如何喚醒它

    在追求人工智能極限的道路上,"更大即更強(qiáng)" 似乎已成為共識(shí)。特別是在數(shù)學(xué)推理這被視為 AI 終極挑戰(zhàn)的領(lǐng)域,業(yè)界普遍認(rèn)為需要海量數(shù)據(jù)和復(fù)雜的強(qiáng)化學(xué)習(xí)才能獲得突破。 然而,來自上海交通大學(xué)的最新研究
    的頭像 發(fā)表于 02-17 17:44 ?390次閱讀
    大<b class='flag-5'>模型</b>的<b class='flag-5'>數(shù)學(xué)</b>能力或許<b class='flag-5'>一</b>直都在關(guān)鍵在于如何喚醒它

    DeepSeek最新AI模型現(xiàn)已登陸IBM watsonx.ai平臺(tái)

    DeepSeek-R1 是款先進(jìn)的 AI 模型,以卓越的推理能力著稱,可廣泛應(yīng)用于編程、規(guī)劃和數(shù)學(xué)問題求解等領(lǐng)域,從而驅(qū)動(dòng)智能代理應(yīng)用、代碼生成,調(diào)試支持及優(yōu)化建議、解決復(fù)雜
    的頭像 發(fā)表于 02-08 09:21 ?592次閱讀

    模型進(jìn)化論:AI產(chǎn)業(yè)落地將向何方?

    模型進(jìn)化論:AI產(chǎn)業(yè)落地將向何方?
    的頭像 發(fā)表于 01-24 09:28 ?266次閱讀

    AN84-線性技術(shù)雜志電路集,第一卷第四集

    電子發(fā)燒友網(wǎng)站提供《AN84-線性技術(shù)雜志電路集,第一卷第四集.pdf》資料免費(fèi)下載
    發(fā)表于 01-09 14:21 ?0次下載
    AN84-線性技術(shù)雜志電路集,第<b class='flag-5'>一卷</b>第四集

    中興通訊榮獲第七屆“綻放杯”全國(guó)一等獎(jiǎng)

    在近期落幕的第七屆“綻放杯”5G應(yīng)用征集大賽全國(guó)總決賽中,由中興通訊、常州移動(dòng)與微億智造聯(lián)合打造的《打造超級(jí)虛擬工廠:5G+多維工業(yè)AI模型》項(xiàng)目榮獲全國(guó)一等獎(jiǎng)。
    的頭像 發(fā)表于 01-07 17:12 ?555次閱讀

    Kimi發(fā)布新一代數(shù)學(xué)推理模型k0-math

    近日,Kimi正式推出了其新一代數(shù)學(xué)推理模型k0-math。據(jù)基準(zhǔn)測(cè)試顯示,該模型數(shù)學(xué)能力可與全球領(lǐng)先的OpenAI o1系列中的o1-mini和o1-preview
    的頭像 發(fā)表于 11-18 11:38 ?820次閱讀

    兆瀚AI×考試丨百萬份高考答卷如何“秒級(jí)”評(píng)閱?兆瀚AI服務(wù)器來解答!

    2024年全國(guó)高考順利落下帷幕,在這青春的“戰(zhàn)場(chǎng)”上,全國(guó)1342萬學(xué)子以筆為劍,奮力作答、勇毅逐夢(mèng)。圖源:本圖由AI生成然而高考的結(jié)束并不
    的頭像 發(fā)表于 07-16 08:14 ?428次閱讀
    兆瀚<b class='flag-5'>AI</b>×考試丨百萬份<b class='flag-5'>高考</b>答卷如何“秒級(jí)”評(píng)閱?兆瀚<b class='flag-5'>AI</b>服務(wù)器來解答!

    數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點(diǎn)有哪些

    數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型種基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)建模方法,它通過模擬人腦神經(jīng)元的連接和信息傳遞機(jī)制,對(duì)復(fù)雜系統(tǒng)進(jìn)行建模和分析。神經(jīng)網(wǎng)絡(luò)模型
    的頭像 發(fā)表于 07-02 11:36 ?1339次閱讀

    AI護(hù)航高考!拓維海云天圓滿完成2024高考評(píng)卷技術(shù)服務(wù)

    近日,2024年全國(guó)高考評(píng)卷工作在安全、平穩(wěn)、有序中陸續(xù)落下帷幕。拓維海云天連續(xù)第23年為高考提供網(wǎng)上評(píng)卷技術(shù)服務(wù),服務(wù)范圍覆蓋全國(guó)18個(gè)省(區(qū)、市),包括吉林、黑龍江、江西、貴州、甘
    的頭像 發(fā)表于 06-29 08:14 ?682次閱讀
    <b class='flag-5'>AI</b>護(hù)航<b class='flag-5'>高考</b>!拓維海云天圓滿完成2024<b class='flag-5'>高考</b>評(píng)卷技術(shù)服務(wù)

    當(dāng)AI數(shù)學(xué)同時(shí)走下神壇

    2024年4月13日,場(chǎng)特別的考試開。數(shù)萬名分散在全球各地的數(shù)學(xué)高手,在這天早上8點(diǎn)打開了阿里巴巴全球數(shù)學(xué)競(jìng)賽預(yù)賽的試卷,他們有48小
    的頭像 發(fā)表于 06-23 08:05 ?111次閱讀
    當(dāng)<b class='flag-5'>AI</b>與<b class='flag-5'>數(shù)學(xué)</b>同時(shí)走下神壇

    高考志愿服務(wù),AI搜索的現(xiàn)實(shí)考卷

    AI搜索為高考助攻,該如何答好“志愿填報(bào)服務(wù)”這張考卷?
    的頭像 發(fā)表于 06-20 09:20 ?2275次閱讀
    <b class='flag-5'>高考</b>志愿服務(wù),<b class='flag-5'>一</b>張<b class='flag-5'>AI</b>搜索的現(xiàn)實(shí)考卷

    AI應(yīng)用加速 海南高考首次采用AI智能巡

    據(jù)海南省考試局公布的消息顯示,海南今年為高考做足準(zhǔn)備,海南省為確保高考公平公正,將在考場(chǎng)試點(diǎn)采用AI智能巡,運(yùn)用人工智能技術(shù)及時(shí)發(fā)現(xiàn)和預(yù)警違規(guī)違紀(jì)行為。這項(xiàng)新的輔助舉措在技術(shù)層面進(jìn)
    的頭像 發(fā)表于 06-04 11:55 ?942次閱讀

    STM CUBE AI錯(cuò)誤導(dǎo)入onnx模型報(bào)錯(cuò)的原因?

    使用cube-AI分析模型時(shí)報(bào)錯(cuò),該模型是pytorch的cnn轉(zhuǎn)化成onnx ``` Neural Network Tools for STM32AI v1.7.0 (STM.
    發(fā)表于 05-27 07:15
    主站蜘蛛池模板: 精品一级毛片 | 日本亚洲成人 | 免费视频精品 | 欲妇放荡叫床很浪的小说 | 亚洲国产成人精品不卡青青草原 | 久草婷婷 | 在线最新版www资源网 | 三级毛片免费看 | 亚洲性影院 | 永久免费看| 日本a级特黄三级三级三级 日本边添边爱边摸边做边爱 | 午夜黄色网址 | 天天综合亚洲国产色 | 日本视频不卡 | 一级片免费观看视频 | 女人18毛片水多 | 天天透天天干 | 中文字幕成人乱码在线电影 | 四虎永久在线精品2022 | 国产精品不卡片视频免费观看 | 亚洲入口无毒网址你懂的 | 五月天激情在线 | 亚洲 欧美 视频 | 2o18国产大陆天天弄 | 午夜影院在线视频 | 天天拍天天色 | 色婷婷在线观看视频 | 麻豆三级在线播放 | 国产高清在线 | 国产1024一区二区你懂的 | 日本动漫在线看 | 2021久久天天躁狠狠躁夜夜 | 1024视频在线观看国产成人 | baoyu168成人免费视频 | 一级做a免费视频 | 永久免费视频网站在线观看 | 国产高清视频免费最新在线 | 日韩欧美亚洲综合一区二区 | 极品吹潮视频大喷潮tv | 国内精品伊人久久大香线焦 | 13日本xxxxxxxxx18|