DeepSeek在arXiv上上傳了一篇介紹 NSA 的論文。根據(jù) arXiv 網(wǎng)站上發(fā)布的論文摘要顯示,“我們提出了NSA,這是一種原生可訓(xùn)練的稀疏注意力機(jī)制,它將算法創(chuàng)新與硬件對(duì)齊的優(yōu)化相結(jié)合,以實(shí)現(xiàn)高效的長(zhǎng)上下文建模。”
論文稱,NSA 在通用基準(zhǔn)檢驗(yàn)、長(zhǎng)文本任務(wù)和基于指令的推理中均能達(dá)到或超越全注意力模型的表現(xiàn)。稀疏注意力為提高效率同時(shí)保持模型能力提供了一個(gè)有前景的方向。
實(shí)驗(yàn)顯示,NSA 不僅在通用任務(wù)和長(zhǎng)上下文任務(wù)中表現(xiàn)出色,還在例如鏈?zhǔn)酵评淼葟?fù)雜任務(wù)中展現(xiàn)強(qiáng)大的潛力,且推理速度加快。
在通用基準(zhǔn)檢驗(yàn)、長(zhǎng)文本處理以及基于指令的推理任務(wù)中,NSA 的表現(xiàn)均能達(dá)到甚至超越傳統(tǒng)全注意力(Full Attention)模型的水平,以性價(jià)比極高的方式,罕見(jiàn)地在訓(xùn)練階段應(yīng)用稀疏性,在訓(xùn)練推理場(chǎng)景中顯著提升速度,特別是在譯碼階段實(shí)現(xiàn)高達(dá) 11.6 倍的提升。
透過(guò)高效的長(zhǎng)序列處理能力,NSA 使模型能夠直接處理整本書、代碼庫(kù)或多輪對(duì)話(如千輪客服場(chǎng)景),擴(kuò)展大語(yǔ)言模型在文文件分析、代碼生成、復(fù)雜推理等領(lǐng)域的應(yīng)用邊界。例如,Gemini 1.5 Pro 已展示長(zhǎng)上下文的潛力,NSA 能進(jìn)一步降低這類模型的訓(xùn)練與推理成本。
在這篇名題為「原生稀疏注意力:硬件對(duì)齊且可原生訓(xùn)練的稀疏注意力機(jī)制」(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的論文署名中,DeepSeek 創(chuàng)始人梁文鋒也是共同作者。
中國(guó)人工智能軟件巨頭商湯科技智能產(chǎn)業(yè)研究院前院長(zhǎng)田鋒表示,隨著全球人工智能競(jìng)爭(zhēng)持續(xù)升溫,不同的公司在不同領(lǐng)域展示了競(jìng)爭(zhēng)優(yōu)勢(shì)。據(jù)田鋒介紹,DeepSeek 開(kāi)發(fā)的資源高效的開(kāi)源模型在數(shù)學(xué)推理和軟件工程任務(wù)方面表現(xiàn)出色,而 OpenAI 的 o1 在一般知識(shí)和解決問(wèn)題方面表現(xiàn)更佳。
我們看到,來(lái)自中國(guó)人工智能公司還展示了各種優(yōu)勢(shì),包括競(jìng)爭(zhēng)性能和成本效益。田鋒強(qiáng)調(diào):“通過(guò)利用替代數(shù)據(jù)源、開(kāi)發(fā)自主技術(shù)以及促進(jìn)國(guó)內(nèi)技術(shù)生態(tài)系統(tǒng)內(nèi)的合作,DeepSeek 和其他中國(guó)人工智能公司能夠創(chuàng)造出不僅滿足國(guó)內(nèi)需求而且能夠提高全球競(jìng)爭(zhēng)力的解決方案,”
這是自1月20日DeepSeek發(fā)布R1模型震撼AI圈以來(lái),DeepSeek首次發(fā)布的技術(shù)動(dòng)態(tài)。
-
AI大模型
+關(guān)注
關(guān)注
0文章
328瀏覽量
361 -
DeepSeek
+關(guān)注
關(guān)注
1文章
427瀏覽量
172
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
鴻蒙原生應(yīng)用開(kāi)發(fā)也可以使用DeepSeek了
DeepSeek推出NSA機(jī)制,加速長(zhǎng)上下文訓(xùn)練與推理
添越智創(chuàng)基于 RK3588 開(kāi)發(fā)板部署測(cè)試 DeepSeek 模型全攻略
DeepSeek大模型受行業(yè)熱捧,加速AI應(yīng)用迭代
了解DeepSeek-V3 和 DeepSeek-R1兩個(gè)大模型的不同定位和應(yīng)用選擇
【實(shí)測(cè)】用全志A733平板搭建一個(gè)端側(cè)Deepseek算力平臺(tái)
IBM CEO:DeepSeek將加速AI技術(shù)采用
deepin UOS AI接入DeepSeek-R1模型
戴爾科技助力企業(yè)實(shí)現(xiàn)科學(xué)的降本增效
光伏電站智慧運(yùn)維系統(tǒng)助力光伏電站降本增效

市場(chǎng)解讀 對(duì)話展商 磁元件峰會(huì)揭秘新能源降本增效秘籍

AR眼鏡:醫(yī)藥廠商降本增效新利器
直線電機(jī)模組:米思米如何以“磁”之力,引領(lǐng)降本增效新風(fēng)尚?
N型光伏電池降本增效:銅電鍍技術(shù)驅(qū)動(dòng)行業(yè)發(fā)展

評(píng)論