在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大模型的數(shù)學(xué)能力或許一直都在關(guān)鍵在于如何喚醒它

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2025-02-17 17:44 ? 次閱讀

在追求人工智能極限的道路上,"更大即更強" 似乎已成為共識。特別是在數(shù)學(xué)推理這一被視為 AI 終極挑戰(zhàn)的領(lǐng)域,業(yè)界普遍認為需要海量數(shù)據(jù)和復(fù)雜的強化學(xué)習(xí)才能獲得突破。

然而,來自上海交通大學(xué)的最新研究卻給出了一個令人震驚的答案:僅需 817 條精心設(shè)計的樣本,就能讓模型在數(shù)學(xué)競賽級別的題目上超越當(dāng)前許多最先進模型。這一發(fā)現(xiàn)不僅挑戰(zhàn)了傳統(tǒng)認知,更揭示了一個可能被我們忽視的事實:大模型的數(shù)學(xué)能力或許一直都在,關(guān)鍵在于如何喚醒它。

e8a03058-eb89-11ef-9310-92fbcf53809c.png

論文標題:LIMO: Less is More for Reasoning

論文鏈接:

https://arxiv.org/pdf/2502.03387

代碼鏈接:

https://github.com/GAIR-NLP/LIMO

數(shù)據(jù)集鏈接:

https://huggingface.co/datasets/GAIR/LIMO

模型鏈接:

https://huggingface.co/GAIR/LIMO

從規(guī)模競賽到范式創(chuàng)新

繼 OpenAI 推出 o1 系列、打響推理能力競賽的第一槍后,DeepSeek-R1 以驚人的數(shù)學(xué)推理能力震撼業(yè)界,引發(fā)全球復(fù)現(xiàn)狂潮。各大公司和研究機構(gòu)紛紛遵循同一范式:用更龐大的數(shù)據(jù)集,結(jié)合更復(fù)雜的強化學(xué)習(xí)(RL)算法,試圖 “教會” 模型如何推理。

如果把經(jīng)過充分預(yù)訓(xùn)練的大語言模型比作一名天賦異稟的學(xué)生,那么主流的 RL Scaling 方法就像是不停地訓(xùn)練、獎懲這位學(xué)生,直到他能解出各種復(fù)雜數(shù)學(xué)題。這一策略無疑帶來了顯著成效 —— 從 Claude 到 GPT-4,從 o1-preview 到 DeepSeek-R1,每一次性能躍升的背后,都是訓(xùn)練數(shù)據(jù)規(guī)模的指數(shù)級增長和強化學(xué)習(xí)算法的持續(xù)優(yōu)化。

然而,在這場看似無休止的數(shù)據(jù)競賽中,上海交通大學(xué)的研究團隊卻提出了一個發(fā)人深省的問題:如果這位 “學(xué)生” 在預(yù)訓(xùn)練階段已掌握了所有必要的知識,我們真的需要龐大數(shù)據(jù)集來重新訓(xùn)練他嗎?還是只需精妙的引導(dǎo),就能激活他的潛在能力?

他們的最新研究 LIMO(Less Is More for Reasoning)給出了令人震撼的答案:僅用 817 條精心設(shè)計的訓(xùn)練樣本,借助簡單的監(jiān)督微調(diào),LIMO 就全面超越了使用十萬量級數(shù)據(jù)訓(xùn)練的主流模型,包括 o1-preview 和 QwQ 等頂級選手。

這一 “少即是多” 的現(xiàn)象,不僅挑戰(zhàn)了 “更大數(shù)據(jù) = 更強推理” 的傳統(tǒng)認知,更揭示了一個可能被忽視的事實:在 AI 推理能力的突破中,方向可能比力量更重要。

實驗結(jié)果無可辯駁地印證了這一點。在競賽級別的美國數(shù)學(xué)競賽邀請賽(AIME) 測試中,相比傳統(tǒng)方法(以 Numina-Math 為例),LIMO 的準確率從 6.5% 飆升至 57.1%。

更令人驚訝的是 LIMO 的泛化能力:在 10 個不同的基準測試上,它實現(xiàn)了 40.5% 的絕對性能提升,超越了使用 100 倍數(shù)據(jù)訓(xùn)練的模型。這一突破直接挑戰(zhàn)了 “監(jiān)督式微調(diào)主要導(dǎo)致記憶而非泛化” 的傳統(tǒng)觀點,證明了高質(zhì)量、小規(guī)模的數(shù)據(jù),遠比低效的海量訓(xùn)練更能激發(fā) LLM 的真正推理能力。

e8afcb30-eb89-11ef-9310-92fbcf53809c.png

▲相比使用 10 萬條數(shù)據(jù)的 NuminaMath,LIMO 在使用不到 1% 的數(shù)據(jù)就取得了顯著的進步,并在各種數(shù)學(xué)和多學(xué)科基準測試中表現(xiàn)出色。

Less is More:從對齊到推理的跨越

e8cae60e-eb89-11ef-9310-92fbcf53809c.jpg

自 2023 年 LIMA(Less Is More for Alignment)提出以來,業(yè)界逐漸意識到,在對齊(alignment)任務(wù)上,“少即是多” 并非一句空話。LIMA 僅用 1000 條高質(zhì)量數(shù)據(jù),就讓大語言模型學(xué)會了如何生成符合人類偏好的對話。這個發(fā)現(xiàn)顛覆了 "模型訓(xùn)練需要海量數(shù)據(jù)" 的傳統(tǒng)認知。 然而,將這一理念擴展到數(shù)學(xué)推理領(lǐng)域卻面臨著獨特的挑戰(zhàn)。與簡單的對話格式不同,數(shù)學(xué)推理被認為是一項需要大量練習(xí)和訓(xùn)練才能掌握的復(fù)雜認知技能。這就像是教一個學(xué)生解題:教會他用禮貌的語氣說話,和教會他解決復(fù)雜的數(shù)學(xué)問題,難度顯然不可同日而語。 因此,一個關(guān)鍵問題是:少即是多(Less is More)原則能否適用于推理? LIMO 的研究給出了肯定的答案,并揭示了實現(xiàn)這一突破的兩個核心前提:

第一,知識基礎(chǔ)革命(Knowledge Foundation Revolution)。近年來,大模型在預(yù)訓(xùn)練階段已納入海量數(shù)學(xué)知識。例如,比起全領(lǐng)域訓(xùn)練數(shù)據(jù)只有 1.8T 的 Llama2,Llama 3 僅在數(shù)學(xué)推理上的訓(xùn)練數(shù)據(jù)就高達 3.7 萬億 token,這意味著現(xiàn)代 LLM 早已 “知道” 大量數(shù)學(xué)知識,關(guān)鍵是如何 “喚醒” 它們。

第二,推理計算革命(Inference-time Computation Scaling Revolution)。最新研究表明,推理鏈(chain-of-thought, CoT)的長度,與模型的推理能力密切相關(guān)。與其在訓(xùn)練階段硬灌大規(guī)模監(jiān)督數(shù)據(jù),不如在推理階段提供更優(yōu)質(zhì)的問題和示范,讓模型自主展開深入思考。

基于這兩點,LIMO 團隊提出了一個全新的理論視角:大模型的推理能力本質(zhì)上是 "潛伏" 的而非 "缺失" 的。傳統(tǒng)的 RL Scaling 方法在嘗試 "訓(xùn)練" 模型獲得新能力,而 LIMO 則專注于如何有效地 "激活" 模型本就具備的能力。正是建立在這兩大基礎(chǔ)之上,研究人員提出了 LIMO 假說:

在知識基礎(chǔ)已足夠完善的情況下,僅需少量高質(zhì)量示例,就能通過推理鏈激活模型的潛在推理能力,而無需海量數(shù)據(jù)。

如果模型在預(yù)訓(xùn)練階段已經(jīng)獲得了豐富的數(shù)學(xué)知識,那么我們或許只需要用少量但精心設(shè)計的例子,來 "喚醒" 這些沉睡的能力。這就像是在教導(dǎo)一個已經(jīng)掌握了所有必要知識,卻不知如何有效運用這些知識的學(xué)生。

e8db5336-eb89-11ef-9310-92fbcf53809c.png

▲LIMA vs LIMO: “少即是多”現(xiàn)象的比較分析

LIMO vs. RL Scaling:兩種推理范式的碰撞

強化學(xué)習(xí)擴展(RL Scaling)

以 OpenAI 的 o1 系列和 DeepSeek-R1 為例,RL Scaling 方法通常試圖通過大規(guī)模的強化學(xué)習(xí)訓(xùn)練來增強模型的推理能力。這種方法通常依賴于海量數(shù)據(jù)及復(fù)雜的算法,雖然在某些任務(wù)上取得了顯著成效,但亦有局限:它將推理能力的提升視為一個需要大量計算資源的“搜索”過程。

LIMO 的新視角

與之相對,LIMO(Less Is More for Reasoning)提出了一個不同的理論框架,認為推理能力潛藏于預(yù)訓(xùn)練模型中,關(guān)鍵在于如何通過精確的認知模板來激發(fā)這些內(nèi)在能力。這一轉(zhuǎn)變將研究重點從“訓(xùn)練新能力”轉(zhuǎn)向“激活潛在能力”,強調(diào)了方向的重要性。

LIMO 的核心假設(shè)是,在知識基礎(chǔ)已經(jīng)足夠完善的情況下,利用少量高質(zhì)量的示例就能夠激活模型的潛在推理能力。這一理論不僅重新定義了 RL Scaling 的位置,將其視為尋找最優(yōu)推理軌跡的一種手段,更為整個領(lǐng)域的研究提供了新的思考框架。

研究意義

在當(dāng)下,以 DeepSeek-R1 為代表的 RL Scaling 方法逐漸成為主流,LIMO 研究的意義則在于提供了一個更加本質(zhì)的視角:大模型的推理能力本身是內(nèi)在存在的,關(guān)鍵挑戰(zhàn)在于如何找到最優(yōu)的激活路徑。

這一洞察不僅重新定義了 RL Scaling,將其視為尋找最優(yōu)推理軌跡的一種實現(xiàn)方式,更重要的是,它引領(lǐng)了一種全新的研究范式——從“訓(xùn)練新能力”轉(zhuǎn)向“激活潛在能力”。這一轉(zhuǎn)變不僅加深了我們對大模型推理能力的理解,也為更高效的能力激活方法提供了明確的方向。

LIMO 和 RL Scaling 的對比,揭示了推理能力提升的不同路徑與思路。LIMO 提供了更為根本的理解,指明了未來研究的方向:不再是無止境的數(shù)據(jù)堆砌,而是更加關(guān)注如何有效激活模型本就具備的能力。

e8ec0abe-eb89-11ef-9310-92fbcf53809c.png

▲LIMO和RL Scaling方式的比較分析

實驗驗證:顛覆性的結(jié)果 LIMO 的理論得到了實驗結(jié)果的強力支持。僅憑 817 條數(shù)據(jù),LIMO 就超越了主流的 OpenAI-o1-preview 和 QwQ 等模型。它的性能相較于自身的基座模型 (Qwen2.5-32B-Instruct) 有顯著的提升,更是擊敗了采用數(shù)十萬數(shù)據(jù)的 OpenThoughts 和 Numina Math。 在傳統(tǒng)評測任務(wù)上,LIMO 取得了突破性表現(xiàn)。在數(shù)學(xué)競賽級別的 AIME24 測試中,LIMO 贏得了 57.1% 的準確率,遠超 QwQ 的 50.0% 和 o1-preview 的 44.6%。 在 MATH500 測試中,LIMO 更是達到了 94.8% 的驚人成績,顯著超越了 QwQ(89.8%)和 o1-preview(85.5%)。這些數(shù)據(jù)清晰地表明,少量但精心設(shè)計的訓(xùn)練數(shù)據(jù),確實能帶來超越傳統(tǒng)方法的性能提升。 在各類跨域測試中,LIMO 的泛化能力同樣表現(xiàn)出色。在奧林匹克數(shù)學(xué)測試(OlympiadBench)上,LIMO 達到了 66.8% 的準確率,遠超 QwQ 的 58.5%。 盡管 LIMO 數(shù)據(jù)集中不包含任何中文數(shù)據(jù),在中國高考數(shù)學(xué)(Gaokao)測試中,它也取得了 81.0% 的成績,領(lǐng)先于 QwQ 的 80.1%。這種廣泛的適用性讓我們發(fā)現(xiàn),LIMO 不是簡單地記憶了訓(xùn)練數(shù)據(jù),而是真正掌握了數(shù)學(xué)推理的本質(zhì)。 總體而言,LIMO 在所有測試中的平均準確率達到了 72.8%,大幅領(lǐng)先于 o1-preview(61.1%)和 QwQ(66.9%)。這個結(jié)果不僅證實了 "Less is More" 假說的正確性,更為整個行業(yè)指明了一個全新的發(fā)展方向:也許我們不需要無止境地堆砌數(shù)據(jù)和算力,而是應(yīng)該更多地思考如何激活模型本就具備的能力。

e90241e4-eb89-11ef-9310-92fbcf53809c.png

▲ LIMO和其他模型在多個基準測試上的性能比較

數(shù)據(jù)的三重密碼

基于 LIMO 假設(shè),我們構(gòu)建了高質(zhì)量的數(shù)據(jù)集,并通過實驗揭示了少量數(shù)據(jù)提升大模型推理能力的三大關(guān)鍵因素,即推理鏈質(zhì)量、問題難度和預(yù)訓(xùn)練知識: 推理鏈質(zhì)量:細節(jié)決定成敗 想象一下,你在教一個學(xué)生解題。如果只是簡單告訴他答案,他可能永遠無法真正理解背后的邏輯。但如果你詳細解釋每一步的推理過程,甚至讓他自己驗證每一步的正確性,他就能逐漸掌握解題的精髓。LIMO 的研究發(fā)現(xiàn),推理鏈的質(zhì)量對大模型的推理能力有著決定性影響。 實驗表明,高質(zhì)量推理鏈(L5)與低質(zhì)量推理鏈(L1)之間的性能差距高達 15 個百分點。高質(zhì)量推理鏈不僅邏輯清晰、步驟完整,還包含自我驗證環(huán)節(jié),確保推理的正確性。而低質(zhì)量推理鏈往往只是簡單列舉步驟,缺乏詳細的邏輯推導(dǎo)。這表明,精心設(shè)計的推理鏈不僅能幫助模型更好地理解問題,還能提高其推理的準確性和泛化能力。

e9191946-eb89-11ef-9310-92fbcf53809c.png

▲不同質(zhì)量等級(1~5)推理鏈訓(xùn)練得到的模型在 AIME24 和 MATH500 上的表現(xiàn)

問題難度:挑戰(zhàn)激發(fā)潛力 如果說推理鏈是解題的 “路線圖”,那么問題本身則是激發(fā)模型潛力的 “催化劑”。LIMO 的研究發(fā)現(xiàn),更高難度的問題能夠顯著提升模型的推理能力。研究人員創(chuàng)建了三個不同難度的問題集:Simple-500, Complex-500 和 Advanced-500,分別為他們構(gòu)建高質(zhì)量的推理鏈并訓(xùn)練模型。 實驗表明,使用 Advanced-500(競賽級別問題)訓(xùn)練的模型,在基準測試中的準確率比使用 Simple-500(簡單數(shù)學(xué)題)訓(xùn)練的模型高出 16%。 這背后的邏輯在于,更復(fù)雜的問題需要更長的推理鏈和更深入的知識整合,從而迫使模型在推理過程中更充分地利用其預(yù)訓(xùn)練知識。這就像讓一個學(xué)生不斷挑戰(zhàn)更高難度的題目,他的解題能力也會隨之提升。因此,選擇更具挑戰(zhàn)性的訓(xùn)練數(shù)據(jù),可能是提升模型推理能力的有效策略。

e92ecb7e-eb89-11ef-9310-92fbcf53809c.png

▲不同難度問題集訓(xùn)練后的模型在AIME24和MATH500上的表現(xiàn)

預(yù)訓(xùn)練知識:基礎(chǔ)決定高度 最后,LIMO 的研究強調(diào)了預(yù)訓(xùn)練知識的重要性。實驗對比了兩種架構(gòu)相同但預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量不同的模型,結(jié)果顯示,Qwen2.5-32B-Instruct(預(yù)訓(xùn)練數(shù)據(jù)質(zhì)量更高)在數(shù)學(xué)推理任務(wù)上的表現(xiàn)顯著優(yōu)于 Qwen1.5-32B-Chat,AIME24 準確率提升了 47 個百分點。 這說明,模型的推理能力很大程度上依賴于其預(yù)訓(xùn)練階段所掌握的知識。如果模型在預(yù)訓(xùn)練階段已經(jīng)接觸并理解了大量數(shù)學(xué)知識,那么只需要少量高質(zhì)量示例,就能激活其推理能力。 反之,如果預(yù)訓(xùn)練知識不足,即使使用大量數(shù)據(jù)進行微調(diào),效果也可能有限。因此,提升預(yù)訓(xùn)練數(shù)據(jù)的質(zhì)量和多樣性,可能是未來提升模型推理能力的關(guān)鍵。

e93b05b0-eb89-11ef-9310-92fbcf53809c.png

▲采用LIMO數(shù)據(jù)微調(diào)相同架構(gòu)、不同預(yù)訓(xùn)練數(shù)據(jù)的模型,二者性能區(qū)別顯著

案例與定量分析:LIMO的卓越表現(xiàn)

在具體的案例分析中,LIMO 展現(xiàn)出了令人矚目的推理能力。圖 5 對比了 Qwen2.5-32B-Instruct、DeepSeek-R1 和 LIMO 生成的響應(yīng)。盡管 LIMO 僅使用了 817 個訓(xùn)練樣本,但其表現(xiàn)與 DeepSeek-R1 不相上下,甚至在某些方面更為出色。 LIMO 不僅能夠進行自我反思,還能在長鏈推理中保持高度準確性。例如,LIMO 在驗證自己的陳述時表現(xiàn)出色:“等一下,24 分鐘是 0.4 小時?不對。60 分鐘是 1 小時,所以 24 分鐘是 24/60,也就是 0.4 小時?!?這種自我驗證和修正的能力,使得 LIMO 在復(fù)雜的數(shù)學(xué)推理任務(wù)中表現(xiàn)尤為突出。

e95032d2-eb89-11ef-9310-92fbcf53809c.png

▲相同問題下,不同模型的推理鏈和LIMO的比較 相比之下,Qwen2.5-32B-Instruct 在推理過程中表現(xiàn)出明顯的局限性,無法糾正不準確的陳述,并且在求解方程時未能進行交叉驗證。這些結(jié)果不僅支持了 LIMO 假設(shè),更表明通過少量高質(zhì)量的訓(xùn)練樣本,模型可以被賦予強大的推理能力。 在定量分析中我們發(fā)現(xiàn):隨著訓(xùn)練樣本質(zhì)量的提高,模型生成的響應(yīng)更長,行數(shù)更多,并且在推理過程中使用了更多的自我反思過渡詞(例如,“等一下”、“也許”、“因此”)。這些高質(zhì)量模型能夠分配額外的計算資源,進行更深入的思考,從而在復(fù)雜的數(shù)學(xué)問題中表現(xiàn)出色。

e966f620-eb89-11ef-9310-92fbcf53809c.png

▲不同質(zhì)量推理鏈的定量分析

未來展望:少即是多的無限可能 盡管 LIMO 在極小數(shù)據(jù)量的情況下在數(shù)學(xué)推理方面取得了顯著成功,但未來的研究仍然充滿挑戰(zhàn)和機遇。

1. 領(lǐng)域泛化 將 LIMO 假設(shè)擴展到更廣泛的推理領(lǐng)域是一個關(guān)鍵方向。雖然當(dāng)前的研究主要集中在數(shù)學(xué)推理上,但高質(zhì)量推理鏈的原則可能適用于科學(xué)推理、邏輯推理和因果推理。理解這些原則如何跨領(lǐng)域轉(zhuǎn)移,可能揭示有效推理的通用模式。這一探索需要調(diào)整質(zhì)量評估標準,并開發(fā)特定領(lǐng)域的評估框架,從而為機器推理的理論體系做出貢獻。

2. 理論基礎(chǔ) 對 LIMO 成功的更深層次理論理解也至關(guān)重要。未來的研究應(yīng)致力于形式化預(yù)訓(xùn)練知識、推理時計算和推理能力之間的關(guān)系。這包括研究有效推理所需的最小預(yù)訓(xùn)練知識閾值,并開發(fā)數(shù)學(xué)模型以預(yù)測推理鏈質(zhì)量與數(shù)量之間的最佳平衡。這些理論基礎(chǔ)可以指導(dǎo)更高效的訓(xùn)練策略,并為機器推理的本質(zhì)提供洞見。

3. 自動化評估 開發(fā)自動化質(zhì)量評估工具是另一個重要方向。目前對推理鏈質(zhì)量的手動評估雖然有效,但耗時且難以擴展。未來的工作應(yīng)致力于創(chuàng)建能夠根據(jù)我們提出的指標自動評估和改進推理鏈質(zhì)量的系統(tǒng)。這可能包括開發(fā)算法來自動增強現(xiàn)有推理鏈,并以最少的人工干預(yù)生成高質(zhì)量推理鏈,從而使 LIMO 方法更具可擴展性和可訪問性。

4. 多模態(tài)集成 跨模態(tài)推理為擴展 LIMO 原則提供了一個激動人心的前沿領(lǐng)域。由于現(xiàn)實世界中的推理通常涉及多種模態(tài),研究視覺信息和結(jié)構(gòu)化數(shù)據(jù)如何增強數(shù)學(xué)推理能力至關(guān)重要。這一研究方向需要開發(fā)新的多模態(tài)推理鏈質(zhì)量評估標準,并理解不同類型的信息如何有效集成到推理過程中。

5. 實際影響 將 LIMO 原則應(yīng)用于現(xiàn)實場景值得特別關(guān)注。未來的工作應(yīng)致力于將這些方法應(yīng)用于教育、科學(xué)研究和工業(yè)應(yīng)用中的實際問題。這包括為特定領(lǐng)域開發(fā)專門版本的 LIMO,并創(chuàng)建幫助人類專家生成高質(zhì)量推理鏈的工具。這些應(yīng)用可能顯著影響我們在各個領(lǐng)域中的問題解決方式。

6. 認知科學(xué)橋梁 最后,整合認知科學(xué)的見解可以為改進提供有價值的方向。理解 LIMO 的推理模式與人類認知過程之間的相似性,可能有助于開發(fā)更有效的推理策略。這包括研究不同推理方法如何影響模型的性能和泛化能力,并將認知科學(xué)原則融入推理鏈的設(shè)計中。這樣的研究不僅可以改進人工智能系統(tǒng),還可以為人類推理過程提供洞見。 這些未來方向共同致力于加深我們對大語言模型中高效推理的理解,同時擴展其實際應(yīng)用。通過探索這些路徑,我們可以朝著開發(fā)更復(fù)雜、高效且廣泛適用的推理系統(tǒng)邁進,以更好地服務(wù)于各個領(lǐng)域的人類需求。 LIMO 的研究不僅挑戰(zhàn)了 “更大即更強” 的傳統(tǒng)認知,更揭示了大模型推理能力的潛在機制。通過少量高質(zhì)量的訓(xùn)練樣本,LIMO 成功激活了模型的潛藏能力,展示了 “少即是多” 的驚人效果。這一發(fā)現(xiàn)不僅為未來的研究指明了方向,更為我們理解大模型的能力本質(zhì)提供了新的視角。

在未來,隨著 LIMO 假設(shè)的進一步驗證和擴展,我們有望看到更多高效、精準的推理系統(tǒng)在各個領(lǐng)域中得到廣泛應(yīng)用。這不僅將推動人工智能技術(shù)的發(fā)展,更將深刻影響我們解決復(fù)雜問題的方式。LIMO 的成功,或許只是人工智能推理能力覺醒的開始,未來的路,充滿無限可能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    34256

    瀏覽量

    275401
  • 人工智能
    +關(guān)注

    關(guān)注

    1804

    文章

    48717

    瀏覽量

    246528
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3029

    瀏覽量

    3830

原文標題:817樣本激發(fā)7倍推理性能:上交大「少即是多」定律挑戰(zhàn)RL Scaling范式

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    ads1248進行讀數(shù)據(jù)結(jié)果一直都是0,為什么?

    我首先對ads1248全部進行復(fù)位,然后安裝復(fù)位的設(shè)置,通過AIN0為positiveAIN1為negative進行輸入,,然后等待DRDY變低,然后進行讀數(shù)據(jù),,但是結(jié)果一直都是0,,都調(diào)了好長時間了,,求指導(dǎo)...好人生平安
    發(fā)表于 01-22 07:37

    LDC1000 Proximity兩個寄存器讀出來的值一直都是0x00和0x80,為什么?

    570kHz,金屬靠近時頻率也正常升高,但Proximity 兩個寄存器讀出來的值一直都是0x00和0x80。我們設(shè)置RP max為 0x07 RP min為 0x2f,請問這是什么原因呢?
    發(fā)表于 01-06 08:35

    OPA132進行數(shù)據(jù)采集,采集到的一直都是fff,為什么?

    數(shù)據(jù)采集,采集結(jié)果只能收到-10v~0v輸入所對應(yīng)的的800~fff,而0~+10v輸入,采集到的一直都是fff
    發(fā)表于 01-01 07:06

    MAX3221 INVALID為什么一直都是低電平?

    最近在使用MAX3221實現(xiàn)如此功能,首先可以作為串口轉(zhuǎn)換芯片使用,另外當(dāng)接收到RS232信號時,INVALID要求輸出高電平,當(dāng)沒有RS232信號時,INVALID要求輸出低電平,現(xiàn)在的問題是INVALID一直都是低電平,電路圖都是按照設(shè)計要求畫的,請問這是什么原因?。炕蛘哒埜嬖V我電路應(yīng)該怎么設(shè)計。
    發(fā)表于 12-31 06:40

    MSP430f5529一直都沒有輸出是怎么回事?

    用普通io控制的cs,sclk,din,芯片用的是MSP430f5529,一直都沒有輸出,求助
    發(fā)表于 12-24 07:00

    DAC7750無論設(shè)置的是什么值,Iout一直都是14mA左右,為什么?

    的寄存器的通信都正常,但在設(shè)置電流輸出值時,無論設(shè)置的是什么值,Iout一直都是14mA左右?求大神指教 ?
    發(fā)表于 12-18 08:32

    DAC81408數(shù)據(jù)寄存器寫進去的值讀不出來,讀出來的值一直都是0,為什么?

    DAC81408ID寄存器和其他的配置寄存器都能讀寫,但是數(shù)據(jù)寄存器寫進去的值讀不出來,讀出來的值一直都是0,用的是異步模式,內(nèi)部的基準電壓也沒有,量不到。
    發(fā)表于 12-02 08:02

    TAS5630B的SD和READY一直都為低,是不是說明芯片壞了?

    周五測試的時候忘了關(guān)電,差不多烤機50-60小時??蛰d。周來的時候發(fā)現(xiàn)報警了,SD為低。然后重啟無效。TAS5630B的SD和READY一直都為低,是不是說明芯片壞了?有什么原因?qū)е逻@種情況
    發(fā)表于 10-21 06:28

    請問下客服是一直都沒人嗎

    請問下客服是一直都沒人嗎
    發(fā)表于 10-20 10:56

    NA321的figure9一直都沒有實現(xiàn)放大是為什么?

    NA321的figure9有人用過嗎真的可以實現(xiàn)嗎為什么我一直都沒有實現(xiàn)放大?
    發(fā)表于 09-12 06:59

    OP2365運放為什么一直處于飽和狀態(tài)?

    在采樣電阻沒有通過電流的情況下IC 是1.65V 而IB 一直都是3.3V 而且 將56腳懸空或者接地都IB一直都是3.3V請問 第二個運放為什么一直處于飽和狀態(tài)?
    發(fā)表于 08-19 06:48

    使用TINA仿真文氏橋電路怎么沒有波形,一直都是很小的直流信號輸出?

    如題,使用TINA仿真文氏橋電路怎么沒有波形,一直都是很小的直流信號輸出? 電路如下圖所示。
    發(fā)表于 08-05 07:27

    為什么Pin 8 OC脈沖可以一直在于這個放大器中?

    OPA5641. R927=47k,當(dāng)R1啟動時,我們可以看到OC引腳超過2V,觀察到5個PWM脈沖。最大脈沖寬度約為30us。 2. R927=10K,當(dāng)我們試圖將OC電阻從47k降低到10k時,OC脈沖仍然存在。 請問為什么Pin 8 OC脈沖可以一直在于這個放大
    發(fā)表于 08-01 06:04

    數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型的優(yōu)缺點有哪些

    數(shù)學(xué)建模神經(jīng)網(wǎng)絡(luò)模型種基于人工神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)建模方法,通過模擬人腦神經(jīng)元的連接和信息傳遞機制,對復(fù)雜系統(tǒng)進行建模和分析。神經(jīng)網(wǎng)絡(luò)
    的頭像 發(fā)表于 07-02 11:36 ?1452次閱讀

    請問esp32喚醒功能能否自行開啟和關(guān)閉?

    旦被開啟喚醒功能,好像一直都是設(shè)置,沒辦法再其中某個位置上將其關(guān)閉。有沒有前輩用micropython試用過這個功能?
    發(fā)表于 06-07 08:14
    主站蜘蛛池模板: 午夜男人的天堂 | 婷婷国产在线 | 四虎成人影院网址 | 最近在线视频免费观看2019 | 久久草在线看 | 97影院理伦在线观看 | 亚洲美女视频一区二区三区 | 老师啊灬啊灬用力啊快224视频 | www.夜夜| 四虎影在永久地址在线观看 | 乱说欲小说又粗又长 | h免费在线观看 | 白嫩少妇激情无码 | 欧美性色xo影院在线观看 | 天天插天天摸 | 天天干天天爱天天操 | 国产精品视频色拍拍 | 国产精品自在线天天看片 | 亚洲乱亚洲乱妇41p 亚洲乱亚洲乱妇41p国产成人 | 亚洲 欧美 综合 | 欧美系列在线播放 | 日韩无| 天堂中文在线资源库用 | 四虎永久在线精品免费影视 | 夜夜爱视频 | 深点再深一点好爽好多水 | 欧美黄色免费网站 | 亚洲成人av | 特级一级全黄毛片免费 | 午夜免费剧场 | 国产在线h| 免费一级毛毛片 | 欧美在线性 | 欧美三级在线观看黄 | 日本高清午夜色wwwσ | 五月天婷婷丁香 | 国产黄色的视频 | 成人在线播放av | 97国产精品人人爽人人做 | 三级网站在线播放 | 三级视频网站在线观看 |