在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenAI o1 思維鏈模型的筆記

KiCad ? 來源:KiCad ? 作者:KiCad ? 2024-11-12 12:11 ? 次閱讀

“對于復雜推理任務來說,這是一個重要的進展,代表了人工智能能力的新水平。鑒于此,我們將計數器重置為 1,并將這一系列命名為 OpenAI o1。”

OpenAI 上周發布了兩個新的預覽模型:o1-preview 和 o1-mini(mini 不是預覽版)--之前傳言的代號為 “草莓”。關于這些模型有很多需要了解的地方--它們并不像 GPT-4o 那樣簡單,而是在成本和性能方面做了一些重大權衡,以換取 “推理 ”能力的提高。 新模型的能力用以下兩張圖表述的很清楚了(主要是數學和代碼能力的提升):

wKgZomcy1m6ASiYzAACDXOB6QwU460.png

wKgZomcy1m6AeQppAAVRqaBjYp0174.png

o1 詳細的介紹很多公眾號都有,這里就不再贅述了。本文只從思維鏈的角度,做一些分享,主要分為以下幾方面:

為思維鏈訓練

API 文檔中的細節

隱藏的推理 token

示例

未來的創新

為思維鏈訓練

我們開發了一系列新的人工?智能模型,旨在花更多時間思考后再做出反應。

? 理解新模型的一種方式是將其視為思維鏈提示模式(Promopt)的擴展,即 “一步一步思考” 的技巧。 OpenAI 的文章 Learning to Reason with LLMs (https://openai.com/index/learning-to-reason-with-llms/)解釋了新模型的訓練方法:

我們的大規模強化學習算法在一個數據效率極高的訓練過程中,教會模型如何利用其思維鏈進行富有成效的思考。我們發現,隨著強化學習(訓練時間計算)和思考時間(測試時間計算)的增加,o1 的性能也在不斷提高。這種方法的擴展限制與 LLM 預訓練的限制有很大不同,我們正在繼續研究。

[...]

通過強化學習,o1 學會了訓練自己的思維鏈和完善自己使用的策略。它學會識別和糾正錯誤。它學會把棘手的步驟分解成更簡單的步驟。它學會在當前方法無效時嘗試不同的方法。這一過程極大地提高了模型的推理能力。

實際上,這意味著模型可以更好地處理更為復雜的提示,在這種情況下,要想取得好的結果,除了預測下一個 token 外,還需要回溯和 “思考”。API 文檔中的細節關于新模型及其權衡的一些最有趣的細節可以在它們的 API 文檔中找到:

對于需要圖像輸入、函數調用或持續快速響應時間的應用程序,GPT-4o 和 GPT-4o mini 仍將是正確的選擇。但是,如果您的目標是開發需要深度推理并能適應較長響應時間的應用程序,那么 o1 型號可能是一個極佳的選擇。

從文檔中可以歸納出一些要點:

API 訪問限制:新的 o1-preview 和 o1-mini 模型的 API 訪問權限目前僅限于 tier 5 級賬戶--你需要至少花費 1000 美元購買 API 點數。

不支持系統提示(system prompt):模型使用現有的聊天完成 API,但只能發送用戶和助手消息。

不支持的功能:不支持流式傳輸(streaming)、工具使用(tool usage)、批量調用或圖片輸入。

響應時間:根據模型解決問題所需的推理量,請求可能需要幾秒到幾分鐘不等。

最有趣的是 “推理令牌”(reasoning tokens)的引入:這些 token 在 API 響應中不可見,但仍作為輸出令牌(output token)計費和計算。所以您將支付比 API 響應結果 token 數量更多的費用。

鑒于推理令牌的重要性,OpenAI 建議為受益于新模型的提示分配約 25000 個推理令牌。輸出令牌的數量限制將大幅增加,o1-preview 增加到 32768 個,規模較小的 o1-mini 增加到 65536 個!與 gpt-4o 和 gpt-4o-mini 模型相比,這兩個模型目前的輸出令牌限制都增加到了 16,384 個。

API 文檔中還有最后一個有趣的提示:

限制檢索增強生成(RAG)中的附加上下文:在提供附加上下文或文檔時,只包含最相關的信息,以防止模型的響應過于復雜。

這與通常的 RAG 實現方式有很大不同,通常的建議是在提示中塞入盡可能多的潛在相關文檔。

隱藏的推理 Token

一個讓人感覺很不爽的點:這些推理令牌在應用程序接口(API)中是不可見的,但還是要收費(花了錢看不到買了什么東西)。OpenAI 在博客中解釋了其中的原因:

假設它是忠實和可讀的,那么隱藏的思維鏈就能讓我們 “讀懂” 模型的思想,了解它的思維過程。例如,將來我們可能希望監控思維鏈,以發現操縱用戶的跡象。但是,要做到這一點,模型必須能夠以不改變的形式自由表達自己的想法,因此我們不能在思維鏈上訓練任何政策遵從或用戶偏好。我們也不想讓用戶直接看到不一致的思維鏈。

因此,在權衡了用戶體驗、競爭優勢以及對思維鏈進行監控的選項等多重因素后,我們決定不向用戶展示原始的思維鏈。

因此,這里有兩個關鍵原因:

安全性和政策合規性:OpenAI希望模型能夠在不暴露可能違反政策規則的情況下,自由地表達其思想。這意味著模型需要有能力在不受到政策合規性或用戶偏好影響的情況下,進行自由的思考。

競爭優勢:OpenAI不希望其他模型能夠通過訓練來模仿他們投入資源開發的推理工作。隱藏推理令牌可以作為一種保護措施,防止其他公司或模型復制他們的推理技術。

這一做法顯然無法讓用戶滿意。作為一個希望使用 LLMs 進行開發的人,可解釋性和透明度對我來說非常重要:如果我輸入了一個復雜的提示,而提示評估的關鍵細節卻被隱藏起來,而只能看到最后的結論,這讓我覺得是一大倒退。

示例OpenAI 在其公告的 “思維鏈” 部分提供了一些簡單的示例,包括生成 Bash 腳本、解決填字游戲和計算中等復雜的化學溶液的 pH 值。 這些示例表明,新的 CHatGPT 網頁版本確實展示了思維鏈的細節,但并沒有顯示原始的推理令牌,而是使用了一個單獨的機制來將步驟總結為更易于人類了解的形式。

OpenAI 還有兩本新的 cookbook,其中包含更復雜的示例,但我覺得有點難以理解:

使用推理進行數據驗證展示了一個多步驟的過程,用于生成一個包含11列的CSV格式的示例數據,然后以各種不同的方式進行驗證。https://cookbook.openai.com/examples/o1/using_reasoning_for_data_validation

使用推理進行例程生成(routine generation)展示了o1-preview代碼,將知識庫文章轉換成大型語言模型可以理解和遵循的一系列例程。https://cookbook.openai.com/examples/o1/using_reasoning_for_routine_generation

Twitter上還有些在 GPT-4o 上失敗但在 o1-preview 上有效的提示例子。其中有幾個是我最喜歡的:

由 Matthew Berman 提出的 “你的回應中有多少個單詞?” 這個問題,模型在五個可見的回合中思考了十秒鐘,然后回答說“這個句子中有七個單詞。”(There are seven words in this sentence)。正好7個!

由 Fabian Stelzer 提出的“解釋這個笑話:‘兩頭牛站在田野里,一頭牛問另一頭:‘你覺得現在流行的瘋牛病怎么樣?’另一頭說:‘誰在乎,我是直升機!’” 真正的瘋牛其他模型對這個無能為力。

不過,好的例子還是有點少。以下是參與創建這些新模型的 OpenAI 研究員 Jason Wei 的相關說明:

AIME 和 GPQA 的結果確實很強,但這并不一定能轉化為用戶能感受到的東西。即使是從事科學工作的人,要找到 GPT-4o 失敗、o1 做得很好、而我能給答案打分的提示詞也并不容易。但是,當你找到這樣的提示詞時,o1 就會給人一種完全神奇的感覺。我們都需要找到更難的提示。

Ethan Mollick已經預覽了這些模型幾周,并發表了他的初步印象。他對填字游戲的示例特別有趣,因為其中包含了可見的推理步驟,包括這樣的注釋:

我注意到1 Across和1 Down的首字母不匹配。考慮將1 Across的“LIES”改為“CONS”,以確保對齊。

未來的創新

社區需要一段時間來摸索出這些新模型的最佳實踐和應用場景。估計大部分人仍會會繼續主要使用 GPT-4o 和 Claude 3.5 Sonnet 模型,但新的思維鏈模型對擴展對大型語言模型(LLMs)能解決的任務類型會有相當大的啟發。

希望我們能看到其他人工智能實驗室,包括開源模型社區,開始用他們自己的模型版本復制其中的一些結果,這些模型經過專門訓練,可以應用這種思維鏈推理方式。

注意:如果想第一時間收到 KiCad 內容推送,請點擊下方的名片,按關注,再設為星標。

常用合集匯總:

和 Dr Peter 一起學 KiCad

KiCad 8 探秘合集

KiCad 使用經驗分享

KiCad 設計項目(Made with KiCad)

常見問題與解決方法

KiCad 開發筆記

插件應用

發布記錄

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1804

    文章

    48788

    瀏覽量

    246962
  • 模型
    +關注

    關注

    1

    文章

    3499

    瀏覽量

    50076
  • OpenAI
    +關注

    關注

    9

    文章

    1204

    瀏覽量

    8665
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    OpenAI發布o1模型,數理化水平比肩人類博士,國產云端推理芯片的新藍海?

    時間思考后再做出回答,而傳統大模型是直接給出回答,但往往這個回答并不準確。 ? OpenAI介紹稱,OpenAI o1模型解決了很多傳統
    發表于 09-14 00:04 ?1782次閱讀
    <b class='flag-5'>OpenAI</b>發布<b class='flag-5'>o1</b>大<b class='flag-5'>模型</b>,數理化水平比肩人類博士,國產云端推理芯片的新藍海?

    DeepSeek與Kimi揭示o1秘密,思維學習方法顯成效

    據消息,OpenAI近日發布了一項重要研究報告。報告指出,DeepSeek和Kimi兩家機構通過獨立研究,成功利用思維學習方法,在數學解題與編程挑戰中顯著提升了模型的綜合表現。 Ki
    的頭像 發表于 02-18 15:13 ?419次閱讀

    OpenAI:DeepSeek與Kimi揭秘o1,長思維提升模型表現

    近日,據月之暗面報道,OpenAI發布了一項令人矚目的研究報告。報告指出,DeepSeek和Kimi兩個研究團隊通過獨立研究,成功利用思維學習方法,在數學解題與編程挑戰中顯著提升了模型
    的頭像 發表于 02-18 09:35 ?433次閱讀

    OpenAI o3-mini模型思維遭質疑

    近日,OpenAI公開了其大模型o3-mini的推理思維,這一舉措使得免費用戶和付費用戶都能深入了解
    的頭像 發表于 02-08 10:57 ?578次閱讀

    國產AI卷翻硅谷,奧特曼發文“陰陽”,類o1模型都在卷什么?

    比肩o1,Kimi新論文中透露的RL方法論和AI大變局
    的頭像 發表于 01-22 15:13 ?4814次閱讀
    國產AI卷翻硅谷,奧特曼發文“陰陽”,類<b class='flag-5'>o1</b><b class='flag-5'>模型</b>都在卷什么?

    對標OpenAI o1,DeepSeek-R1發布

    API, 對用戶開放思維輸出 ,通過設置 `model='deepseek-reasoner'` 即可調用。 DeepSeek 官網與 App 即日起同步更新上線。 性能對齊OpenAI-o1正式版
    的頭像 發表于 01-22 13:46 ?1755次閱讀
    對標<b class='flag-5'>OpenAI</b> <b class='flag-5'>o1</b>,DeepSeek-R<b class='flag-5'>1</b>發布

    OpenAI發布o1模型API,成本大幅下降60%

    近日,OpenAI正式推出了備受期待的o1模型API,并對實時API進行了重大升級,引入了WebRTC支持。此次發布的o1模型API相較于之
    的頭像 發表于 12-19 10:31 ?649次閱讀

    ChatGPT新模型o1被曝具備“欺騙”能力

    近日,據報道,ChatGPT新模型o1在訓練和測試過程中展現出了一種令人驚訝的能力——通過“欺騙”來保護自身。 據悉,在面臨被“刪除”的威脅時,o1曾試圖將自己的數據復制到新服務器,并偽裝成更新版
    的頭像 發表于 12-12 09:38 ?656次閱讀

    OpenAI世界最貴大模型:昂貴背后的技術突破

    2023年“雙十二”的第一天,OpenAI推出了其最強推理模型o1的滿血版及其Pro版本。同時,ChatGPT也推出了每月200美元的Pro訂閱計劃,這一價格使其一躍成為“世界最貴的大模型
    的頭像 發表于 12-06 14:46 ?980次閱讀

    AI看點:OpenAI 世界最貴大模型 阿里將推出人工智能電商工具

    給大家帶來一些最新的人工智能信息,希望對大家有用。 OpenAI發布滿血版ChatGPT Pro OpenAI隆重推出了備受期待的“滿血版”ChatGPT Pro。這一新版本基于全新的推理模型
    的頭像 發表于 12-06 11:23 ?1298次閱讀

    OpenAI發布滿血版ChatGPT Pro

    科技巨頭OpenAI近期宣布了一項重大更新,正式推出了其備受期待的“滿血版”ChatGPT Pro。這一新版本基于全新的推理模型o1,旨在為用戶提供更為強大的處理能力和更高質量的回答。 據了解
    的頭像 發表于 12-06 11:10 ?762次閱讀

    昆侖萬維推出“天工大模型4.0”o1版(Skywork o1)邀請測試

    近日,昆侖萬維正式向外界推出了其最新研發的“天工大模型4.0”o1版(Skywork o1)。該系列模型以其獨特的復雜思考推理能力,吸引了眾多業內人士的關注。 據悉,Skywork
    的頭像 發表于 11-28 10:33 ?709次閱讀

    昆侖萬維天工大模型4.0 O1版即將邀測

    昆侖萬維公司近日宣布,其自主研發的天工大模型4.0 O1版(英文名:Skywork O1)將于11月27日正式啟動邀請測試。這款模型是國內首款具備中文邏輯推理能力的
    的頭像 發表于 11-19 17:24 ?880次閱讀

    天工大模型4.0 O1版即將啟動邀測

    人工智能領域取得了又一重要突破。 據悉,天工大模型4.0 O1版在設計和研發過程中,不僅注重模型的輸出能力,更在模型內部融入了思考、計劃、反思等高級認知功能。這一創新設計使得
    的頭像 發表于 11-18 15:08 ?1131次閱讀

    Orion模型即將面世,OpenAI采用新發布模式

    據最新報道,OpenAI計劃在今年12月推出其新款前沿模型,代號為“Orion”。這款模型將采用與以往不同的發布模式,引發廣泛關注。 與GPT-4o
    的頭像 發表于 10-25 10:11 ?645次閱讀
    主站蜘蛛池模板: 五月激情综合婷婷 | 嫩草影院网站入口 | 好色亚洲 | 天天躁日日躁狠狠躁中文字幕老牛 | 91网址在线播放 | 欧美一级黄色片在线观看 | 五月天免费在线播放 | 视频一区二区在线 | 中文字幕不卡免费高清视频 | 被公侵犯肉体中文字幕一区二区 | 亚洲国产综合视频 | 人人爽天天碰天天躁夜夜躁 | 一及黄色 | 成年人黄色免费网站 | 久青草国产在线视频_久青草免 | susu成人影院 | 尤物久久99热国产综合 | 久久青草国产精品一区 | 国产午夜精品片一区二区三区 | www.男人| 成人最新午夜免费视频 | 亚洲国产欧美在线成人aaaa | 免费观看高清视频 | 成人黄色一级片 | 欧美一级特黄乱妇高清视频 | 日本不卡一区二区三区视频 | 黄色成人在线网站 | 国产自在自线午夜精品视频 | 欧美性受视频 | 窝窝午夜看片免费视频 | 日本与大黑人xxxx | 国产三级精品最新在线 | 色婷婷综合和线在线 | 午夜视频福利 | 五月天在线播放 | 国产伦精品一区二区三区网站 | 韩国理论三级在线观看视频 | 色天使久久综合给合久久97色 | 免费观看视频高清www | 久久久免费视频播放 | 天堂网www中文天堂在线 |