DeepSeek推出NSA機制，加速長上下文訓練與推理

近日，DeepSeek公司宣布推出一種全新的稀疏注意力機制——NSA(Native Sparse Attention)。據DeepSeek介紹，NSA旨在與現代硬件實現高度一致，并且具備本機可訓練的特性，專為超快速的長上下文訓練和推理而設計。

NSA通過針對現代硬件的優化設計，顯著加快了推理速度，并大幅度降低了預訓練成本，同時保持了卓越的性能表現。這一機制在確保效率的同時，并未犧牲模型的準確性或功能。

在廣泛的基準測試、涉及長上下文的任務以及基于指令的推理場景中，NSA的表現與采用完全注意力機制的模型相當，甚至在部分測試中展現出更優的性能。這一成果不僅驗證了NSA機制的有效性和實用性，也展示了DeepSeek在人工智能領域的深厚技術積累和創新能力。

DeepSeek推出的NSA機制，不僅為長上下文訓練和推理提供了全新的解決方案，也為人工智能領域的發展注入了新的活力。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1805

文章
48843

瀏覽量
247461
NSA

NSA

+關注

關注
4

文章
108

瀏覽量
18550
DeepSeek

DeepSeek

+關注

關注
1

文章
785

瀏覽量
1494

科技綠洲
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot javascript的成熟分類
Hot 羅氏線圈電流傳感器的工作原理、結構特點及應用

New LM46002-Q1 汽車級 3.5V 至 60V、2A 同步降壓轉換器數據手冊
New TPS57140-EP 具有 Eco 模式?控制的 TPS57140-EP 1.5A 42V 降壓直流/直流轉換器數據手冊

精選推薦
更多

文章

資料

帖子

當工業設備開始“思考”：HZ-RK3576-SP_EVM如何讓傳統工業行業煥發智能新生？

合眾恒躍
1天前

619 閱讀

樹莓派5上的Gemma 2：如何打造高效的邊緣AI解決方案？

上海晶珩電子科技有限公司
1天前

388 閱讀

新品 | 視美泰發布高性價比四核工控主板GK-68A，開啟智能工業新時代！

視美泰
1天前

533 閱讀

技術干貨 | DAC靜態參數計算全解析：從偏移誤差到總未調整誤差

德思特測試測量
1天前

363 閱讀

PLL技術在FPGA中的動態調頻與展頻功能應用

智多晶
1天前

338 閱讀

Altium Designer 交互式布線

云將
1.2 MB

免費

0下載

Nging基于caddy的網站服務程序

HTSX
70.86 MB

2積分

1下載

lnmp虛擬主機控制面板

母豬會上樹
0.12 MB

2積分

1下載

Otomi基于Kubernetes的管理平臺

李莉
34.55 MB

免費

0下載

AYScrollerLabel_OC label跑馬燈顯示文字

klysa
0.35 MB

免費

0下載

【正點原子STM32MP257開發板試用】基于 YOLO 模型的物體識別

jf_07365693
1天前

169 閱讀

【正點原子STM32MP257開發板試用】基于 MobileNet 的物體識別

jf_07365693
2天前

156 閱讀

【RA4L1-SENSOR】07 低功耗待機模式及功耗實測

jf_83922529
2天前

838 閱讀

ArkUI-X平臺橋接Bridge說明

jf_14971143
3天前

589 閱讀

電容三點式無法起振的原因

jf_01102310
3天前

1652 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

DeepSeek推出NSA機制，加速長上下文訓練與推理

評論

搜索歷史

DeepSeek推出NSA機制，加速長上下文訓練與推理

評論

DeepSeek推出NSA機制，加速長上下文訓練與推理