自然語言處理應(yīng)用LLM推理優(yōu)化綜述

1 摘要

自 OpenAI 發(fā)布 ChatGPT 以來，基于 Transformer 架構(gòu)的大語言模型 (LLM) 在全球范圍內(nèi)引發(fā)了深度的技術(shù)關(guān)注，并取得了令人矚目的成就。其強大的理解和生成能力，正在深刻改變我們對人工智能的認(rèn)知和應(yīng)用。然而大語言模型的推理應(yīng)用成本過高，高昂的成本大大阻礙了技術(shù)落地。因此，大語言模型的推理性能優(yōu)化成為業(yè)界研究的熱點。

大語言模型推理面臨計算資源的巨大需求和計算效率的挑戰(zhàn)。優(yōu)化推理性能不僅可以減少硬件成本，還可以提高模型的實時響應(yīng)速度。它使模型能夠更快速地執(zhí)行自然語言理解、翻譯、文本生成等任務(wù)，從而改善用戶體驗，加速科學(xué)研究，推動各行業(yè)應(yīng)用的發(fā)展。

本文從推理服務(wù)系統(tǒng)全局視角介紹典型性能優(yōu)化技術(shù)和各自特點，最后分析未來大語言模型推理優(yōu)化技術(shù)的發(fā)展趨勢和演進方向，最終為未來的人工智能應(yīng)用打開更廣闊的可能性。

2 優(yōu)化技術(shù)

LLM 推理服務(wù)重點關(guān)注兩個指標(biāo)：吞吐量和時延：

吞吐量：主要從系統(tǒng)的角度來看，即系統(tǒng)在單位時間內(nèi)能處理的 tokens 數(shù)量。計算方法為系統(tǒng)處理完成的 tokens 個數(shù)除以對應(yīng)耗時，其中 tokens 個數(shù)一般指輸入序列和輸出序列長度之和。吞吐量越高，代表 LLM 服務(wù)系統(tǒng)的資源利用率越高，對應(yīng)的系統(tǒng)成本越低。

時延：主要從用戶的視角來看，即用戶平均收到每個 token 所需位時間。計算方法為用戶從發(fā)出請求到收到完整響應(yīng)所需的時間除以生成序列長度。一般來講，當(dāng)時延不大于 50 ms/token 時，用戶使用體驗會比較流暢。

吞吐量關(guān)注系統(tǒng)成本，高吞吐量代表系統(tǒng)單位時間處理的請求大，系統(tǒng)利用率高。時延關(guān)注用戶使用體驗，即返回結(jié)果要快。這兩個指標(biāo)一般情況下需要會相互影響，因此需要權(quán)衡。例如，提高吞吐量的方法一般是提升 batchsize，即將用戶的請求由串行改為并行。但 batchsize 的增大會在一定程度上損害每個用戶的時延，因為以前只計算一個請求，現(xiàn)在合并計算多個請求，每個用戶等待的時間變長。

LLM 推理性能優(yōu)化主要以提高吞吐量和降低時延為目的，具體可以劃分為如下六部分，下面詳細(xì)展開描述。

2.1 顯存相關(guān)優(yōu)化

2.1.1 KV Cache

大模型推理性能優(yōu)化的一個最常用技術(shù)就是 KV Cache，該技術(shù)可以在不影響任何計算精度的前提下，通過空間換時間思想，提高推理性能。目前業(yè)界主流 LLM 推理框架均默認(rèn)支持并開啟了該功能。

Transformer 模型具有自回歸推理的特點，即每次推理只會預(yù)測輸出一個 token，當(dāng)前輪輸出token 與歷史輸入 tokens 拼接，作為下一輪的輸入 tokens，反復(fù)執(zhí)行多次。該過程中，前后兩輪的輸入只相差一個 token，存在重復(fù)計算。KV Cache 技術(shù)實現(xiàn)了將可復(fù)用的鍵值向量結(jié)果保存下來，從而避免了重復(fù)計算。

具體來講，KV Cache 技術(shù)是指每次自回歸推理過程中，將 Transformer 每層的 Attention 模塊中的和結(jié)果保存保存在一個數(shù)據(jù)結(jié)構(gòu)（稱為 KV Cache）中，當(dāng)執(zhí)行下一次自回歸推理時，直接將和與 KV Cache 拼接在一起，供后續(xù)計算使用。其中，代表第步推理的輸入，和分別代表鍵值權(quán)重矩陣。

KV Cache 緩存每一輪已計算完畢的鍵值向量，因此會額外增加顯存開銷。以 LLaMA-7B 模型為例，每個 token 對應(yīng)的 KV Cache 空間可通過如下公式計算：

公式中第一個因子 2 代表 Key/Value 兩個向量，每層都需存儲這兩個向量，為 Transformer layer 個數(shù)，代表 KV head 個數(shù)（模型為多頭注意力時，該值即注意力頭數(shù)，模型為多查詢注意力時，該值為 1），為每個 KV head 的維度，為每存放一個數(shù)據(jù)所需的字節(jié)數(shù)。模型推理所需的 KV Cache 總量為公式如下，其中為輸入和輸出序列長度之和。因此，KV Cache 與 batchsize 和序列長度呈線性關(guān)系。

KV Cache 的引入也使得推理過程分為如下兩個不同階段，進而影響到后續(xù)的其他優(yōu)化方法。

預(yù)填充階段：發(fā)生在計算第一個輸出 token 過程中，計算時需要為每個 Transformer layer 計算并保存 key cache 和 value cache；FLOPs 同 KV Cache 關(guān)閉一致，存在大量 GEMM (GEneral Matrix-Matrix multiply) 操作，屬于 Compute-bound 類型計算。

解碼階段：發(fā)生在計算第二個輸出 token 至最后一個 token 過程中，這時 KV Cache 已存有歷史鍵值結(jié)果，每輪推理只需讀取 Cache，同時將當(dāng)前輪計算出的新的 Key、Value 追加寫入至 Cache；GEMM 變?yōu)?GEMV (GEneral Matrix-Vector multiply) 操作，F(xiàn)LOPs 降低，推理速度相對預(yù)填充階段變快，這時屬于 Memory-bound 類型計算。

2.1.2 Paged Attention

LLM 推理服務(wù)的吞吐量指標(biāo)主要受制于顯存限制。研究團隊發(fā)現(xiàn)現(xiàn)有系統(tǒng)由于缺乏精細(xì)的顯存管理方法而浪費了 60% 至 80% 的顯存，浪費的顯存主要來自 KV Cache。因此，有效管理 KV Cache 是一個重大挑戰(zhàn)。

在 Paged Attention 之前，業(yè)界主流 LLM 推理框架在 KV Cache 管理方面均存在一定的低效。HuggingFace Transformers 庫中，KV Cache 是隨著執(zhí)行動態(tài)申請顯存空間，由于 GPU顯存分配耗時一般都高于 CUDA kernel 執(zhí)行耗時，因此動態(tài)申請顯存空間會造成極大的時延開銷，且會引入顯存碎片化。FasterTransformer 中，預(yù)先為 KV Cache 分配了一個充分長的顯存空間，用于存儲用戶的上下文數(shù)據(jù)。例如 LLaMA-7B 的上下文長度為 2048，則需要為每個用戶預(yù)先分配一個可支持 2048 個 tokens 緩存的顯存空間。如果用戶實際使用的上下文長度低于2048，則會存在顯存浪費。Paged Attention 將傳統(tǒng)操作系統(tǒng)中對內(nèi)存管理的思想引入 LLM，實現(xiàn)了一個高效的顯存管理器，通過精細(xì)化管理顯存，實現(xiàn)了在物理非連續(xù)的顯存空間中以極低的成本存儲、讀取、新增和刪除鍵值向量。

具體來講，Paged Attention 將每個序列的 KV Cache 分成若干塊，每個塊包含固定數(shù)量token 的鍵和值。

首先在推理實際任務(wù)前，會根據(jù)用戶設(shè)置的和預(yù)跑一次推理計算，記錄峰值顯存占用量，然后根據(jù)上面公式獲得當(dāng)前軟硬件環(huán)境下 KV Cache 可用的最大空間，并預(yù)先申請緩存空間。其中，為部署環(huán)境的硬件顯存一次最多能容納的 token 總量，為模型推理的最大顯存占用比例，為物理顯存量，為塊大小（默認(rèn)設(shè)為 16）。

在實際推理過程中，維護一個邏輯塊到物理塊的映射表，多個邏輯塊可以對應(yīng)一個物理塊，通過引用計數(shù)來表示物理塊被引用的次數(shù)。當(dāng)引用計數(shù)大于一時，代表該物理塊被使用，當(dāng)引用計數(shù)等于零時，代表該物理塊被釋放。通過該方式即可實現(xiàn)將地址不連續(xù)的物理塊串聯(lián)在一起統(tǒng)一管理。

Paged Attention 技術(shù)開創(chuàng)性地將操作系統(tǒng)中的分頁內(nèi)存管理應(yīng)用到 KV Cache 的管理中，提高了顯存利用效率。另外，通過 token 塊粒度的顯存管理，系統(tǒng)可以精確計算出剩余顯存可容納的 token 塊的個數(shù)，配合后文 Dynamic Batching 技術(shù)，即可避免系統(tǒng)發(fā)生顯存溢出的問題。

2.2 計算相關(guān)優(yōu)化

2.2.1 算子融合

算子融合是深度學(xué)習(xí)模型推理的一種典型優(yōu)化技術(shù)，旨在通過減少計算過程中的訪存次數(shù)和 Kernel 啟動耗時達到提升模型推理性能的目的，該方法同樣適用于 LLM 推理。

以 HuggingFace Transformers 庫推理 LLaMA-7B 模型為例，經(jīng)分析模型推理時的算子執(zhí)行分布如下圖所示，該模型有 30 個類型共計 2436 個算子，其中 aten::slice 算子出現(xiàn)頻率為 388 次。大量小算子的執(zhí)行會降低 GPU 利用率，最終影響推理速度。

目前業(yè)界基本都針對 Transformer layer 結(jié)構(gòu)特點，手工實現(xiàn)了算子融合。以 DeepSpeed Inference 為例，算子融合主要分為如下四類：

歸一化層和 QKV 橫向融合：將三次計算 Query/Key/Value 的操作合并為一個算子，并與前面的歸一化算子融合。

自注意力計算融合：將自注意力計算涉及到的多個算子融合為一個，業(yè)界熟知的 FlashAttention 即是一個成熟的自注意力融合方案。

殘差連接、歸一化層、全連接層和激活層融合：將 MLP 中第一個全連接層上下相關(guān)的算子合并為一個。

偏置加法和殘差連接融合。

由于算子融合一般需要定制化實現(xiàn)算子 CUDA kernel，因此對 GPU 編程能力要求較高。隨著編譯器技術(shù)的引入，涌現(xiàn)出 OpenAI Triton 、TVM 等優(yōu)秀的框架來實現(xiàn)算子融合的自動化或半自動化，并取得了一定的效果。

2.2.2 高性能算子

針對 LLM 推理運行熱點函數(shù)編寫高性能算子，也可以降低推理時延。

GEMM 操作相關(guān)優(yōu)化：在 LLM 推理的預(yù)填充階段，Self-Attention 和 MLP 層均存在多個 GEMM 操作，耗時占據(jù)了推理時延的 80% 以上。GEMM 的 GPU 優(yōu)化是一個相對古老的問題，在此不詳細(xì)展開描述算法細(xì)節(jié)。英偉達就該問題已推出 cuBLAS、CUDA、CUTLASS 等不同層級的優(yōu)化方案。例如，F(xiàn)asterTransformer 框架中存在大量基于 CUTLASS 編寫的 GEMM 內(nèi)核函數(shù)。另外，Self-Attention 中存在 GEMM+Softmax+GEMM 結(jié)構(gòu)，因此會結(jié)合算子融合聯(lián)合優(yōu)化。

GEMV 操作相關(guān)優(yōu)化：在 LLM 推理的解碼階段，運行熱點函數(shù)由 GEMM 變?yōu)?GEMV。相比 GEMM，GEMV 的計算強度更低，因此優(yōu)化點主要圍繞降低訪存開銷開展。

高性能算子的實現(xiàn)同樣對 GPU 編程能力有較高要求，且算法實現(xiàn)中的若干超參數(shù)與特定問題規(guī)模相關(guān)。因此，編譯器相關(guān)的技術(shù)如自動調(diào)優(yōu)也是業(yè)界研究的重點。

2.3 服務(wù)相關(guān)優(yōu)化

服務(wù)相關(guān)優(yōu)化主要包括 Continuous Batching、Dynamic Batching 和異步 Tokenize / Detokenize。其中 Continuous Batching 和 Dynamic Batching 主要圍繞提高可并發(fā)的 batchsize 來提高吞吐量，異步 Tokenize / Detokenize 則通過多線程方式將 Tokenize / Detokenize 執(zhí)行與模型推理過程時間交疊，實現(xiàn)降低時延目的。

問題分類	現(xiàn)象	解決方法	實現(xiàn)原理	特點
問題一	同批次序列推理時，存在“氣泡”，導(dǎo)致 GPU 資源利用率低	Continuous Batching	由 batch 粒度的調(diào)度細(xì)化為 step 級別的調(diào)度	在時間軸方向動態(tài)插入新序列
問題二	批次大小固定不變，無法隨計算資源負(fù)載動態(tài)變化，導(dǎo)致 GPU 資源利用率低	Dynamic Batching	通過維護一個作業(yè)隊列實現(xiàn)	在 batch 維度動態(tài)插入新序列
問題三	Tokenize / Detokenize 過程在 CPU 上執(zhí)行，期間 GPU 處于空閑狀態(tài)	異步 Tokenize / Detokenize	多線程異步	流水線 overlap 實現(xiàn)降低時延

大語言模型的輸入和輸出均是可變長度的。對于給定問題，模型在運行前無法預(yù)測其輸出長度。在實際服務(wù)場景下，每個用戶的問題長度各不相同，問題對應(yīng)的答案長度也不相同。傳統(tǒng)方法在同批次序列推理過程中，存在“氣泡”現(xiàn)象，即必須等同批次內(nèi)的所有序列完成推理之后，才會執(zhí)行下一批次序列，這就會引起 GPU 資源的浪費，導(dǎo)致 GPU 利用率偏低。

圖中序列 3 率先結(jié)束，但由于其他序列尚未結(jié)束，因此需要等待直至所有序列計算完畢。理想情況下，同批次的所有序列的輸入加輸出的長度均相同，這時不存在“氣泡”現(xiàn)象；極端情況下則會出現(xiàn)超過 50% 以上的資源浪費。

另一方面，傳統(tǒng)方法推理時 batchsize 是固定不變的，無法隨計算資源負(fù)載動態(tài)變化。比如某一段時間內(nèi)，同批次下的序列長度都偏短，原則上可以增加 batchsize 以充分利用 GPU 計算資源。然而由于固定 batchsize，無法動態(tài)調(diào)整批次大小。

Continuous Batching 和 Dynamic Batching 思想最早來自論文 Orca: A Distributed Serving System for Transformer-Based Generative Models。針對問題一，提出 Continuous Batching，原理為將傳統(tǒng) batch 粒度的任務(wù)調(diào)度細(xì)化為 step 級別的調(diào)度。首先，調(diào)度器會維護兩個隊列，分別為 Running 隊列和 Waiting 隊列，隊列中的序列狀態(tài)可以在 Running 和 Waiting 之間轉(zhuǎn)換。在自回歸迭代生成每個 token 后，調(diào)度器均會檢查所有序列的狀態(tài)。一旦序列結(jié)束，調(diào)度器就將該序列由 Running 隊列移除并標(biāo)記為已完成，同時從 Waiting 隊列中按 FCFS (First Come First Service) 策略取出一個序列添加至 Running 隊列。

圖中，序列 3 率先在 T5 時刻結(jié)束，這時調(diào)度器會檢測到序列 3 已結(jié)束，將序列 3 從 Running 隊列中移除，并從 Waiting 隊列中按 FCFS 策略取出序列 5 添加至 Running 隊列并啟動該序列的推理。通過該方法，即可最大限度地消除“氣泡”現(xiàn)象。

問題一可以理解為在時間軸方向動態(tài)插入新序列，問題二則是在 batch 維度動態(tài)插入新序列，以盡可能地充分利用顯存空間。具體來講，在自回歸迭代生成每個 token 后，調(diào)度器通過當(dāng)前剩余顯存量，動態(tài)調(diào)整 Running 隊列的長度，從而實現(xiàn) Dynamic Batching。例如，當(dāng)剩余顯存量較多時，會盡可能增加 Running 隊列長度；當(dāng)待分配的 KV Cache 超過剩余顯存時，調(diào)度器會將 Running 隊列中低優(yōu)先級的序列換出至 Waiting 隊列，并將換出序列占用的顯存釋放。

如上兩個 batching 相關(guān)的優(yōu)化技術(shù)可有效提升推理吞吐量，目前已在 HuggingFace Text-Generation-Interface (TGI)、vLLM、OpenPPL-LLM 等多個框架中實現(xiàn)。

2.4 分布式相關(guān)優(yōu)化

由于大語言模型參數(shù)量較大，可能無法存放到單一計算設(shè)備中，分布式并行可以有效解決該問題。分布式并行中的模型并行和流水線并行已在 LLM 推理中得到應(yīng)用。由于篇幅有限，本文聚焦模型并行。模型并行通過將權(quán)重參數(shù)拆分到多個計算設(shè)備中，實現(xiàn)分布式計算。

圖中，第一行代表 Column Parallel，即將權(quán)重數(shù)據(jù)按列拆分到多個 GPU 中，每個 GPU 上的本地計算結(jié)果需要在列方向拼接為最終結(jié)果；第二行代表 Row Parallel，即將權(quán)重數(shù)據(jù)按行拆分到多個 GPU 中，每個 GPU 上的本地計算結(jié)果需要 AllReduce 規(guī)約為最終結(jié)果。

業(yè)界最流行的模型并行方案來自 Megatron-LM，其針對 Self-Attention 和 MLP 分別設(shè)計了簡潔高效的模型并行方案。

MLP: 第一個全連接層為 Column Parallel，第二個全連接層為 Row Parallel，整個 MLP 只需在 Row Parallel 后執(zhí)行一次 AllReduce 規(guī)約操作即可。

Self-Attention：在計算 Query、Key 和 Value 向量時執(zhí)行 Column Parallel（按注意力頭個數(shù)均分到每個 GPU），在將注意力得分做空間映射時執(zhí)行 Row Parallel，整個 Self-Attention 只需在 Row Parallel 后執(zhí)行一次 AllReduce 規(guī)約操作即可。

上面分析了 Transformer layer 的模型并行方式。除此之外，LLM 模型中的 Input Embedding 采用 Row Parallel，Output Embedding 采用 Column Parallel；Dropout / Layer Norm / Residual Connections 等操作都沒有做并行拆分。例如 Layer Norm 的權(quán)重參數(shù)和計算，在每個 GPU 上都是完整的。

Layers	Model Parallel Method
Input Embedding	Row Parallel
Self-Attention	Column Parallel + Row Parallel
MLP	Column Parallel + Row Parallel
Output Embedding	Column Parallel

基于以上基礎(chǔ)，以 LLaMA-34B 模型為例進行通信量分析。該模型包含 48 個 Transformer layers，隱藏層大小 8192，每次單 batch 推理共 2 * 48 次 Broadcast 和 248 次 AllReduce 操作，每次通信傳輸?shù)臄?shù)據(jù)量均為 16 KB（此處假設(shè)數(shù)據(jù)類型為半精度浮點，81922/1024=16 KB）。考慮到推理服務(wù)一般都是按多 batch 推理執(zhí)行，假設(shè) batchsize 為 64，每次通信傳輸?shù)臄?shù)據(jù)量也僅為 1 MB。下圖在 A100-PCIE-40GB 機器上測試 NCCL AllReduce 帶寬數(shù)據(jù)，PCIE 理論帶寬為 32-64 GB/s 左右，實際推理場景下的通信數(shù)據(jù)量主要集中在 1 MB 以下，對應(yīng)的實際帶寬約為 1-10 GB/s。NVLink 理論帶寬為 400-600 GB/s，但由于每次的通信量很小，實際帶寬也遠遠小于理論帶寬。因此模型參數(shù)量越大、batchsize 越大，通信效率越高，使用模型并行獲得的收益約明顯。

2.5 低比特量化

回歸到 LLM 模型推理吞吐量和時延這兩個重要的性能指標(biāo)上：吞吐量的提升主要受制于顯存容量，如果降低推理時顯存占用量，就可以運行更大的 batchsize，即可提升吞吐量；LLM 推理具有 Memory-bound 特點，如果降低訪存量，將在吞吐量和時延兩個性能指標(biāo)上都有收益。低比特量化技術(shù)可以降低顯存占用量和訪存量，其能取得加速的關(guān)鍵在于顯存量和訪存量的節(jié)省以及量化計算的加速遠大于反量化帶來的額外開銷。

被量化的對象	量化方法	特點
權(quán)重量化	LLM.int8(), GPTQ	顯存占用減半，但由于計算結(jié)果需反量化，時延基本無收益
權(quán)重和激活同時量化	SmoothQuant	顯存占用減半，時延有收益，精度幾乎匹配 FP16
KV Cache量化	INT8 或 FP8 量化	方法簡單，吞吐量收益明顯
基于硬件特點的量化：英偉達 Hopper 架構(gòu)下的 FP8	直接利用 TensorCore FP8 計算指令	不需要額外的量化/反量化操作，時延收益明顯

表中的四類量化方法各有特點，業(yè)界在低比特量化方向的研究進展也層出不窮，希望探索出一個適用于大語言模型的、能夠以較高壓縮率壓縮模型、加速端到端推理同時保證精度的量化方法。

2.6 其他新技術(shù)

當(dāng)前，業(yè)界在將傳統(tǒng)優(yōu)化技術(shù)引入 LLM 推理的同時，同時也在探索從大模型自回歸解碼特點出發(fā)，通過調(diào)整推理過程和引入新的模型結(jié)構(gòu)來進一步提升推理性能。

例如，投機采樣（Speculative decoding）針對 LLM 推理串行解碼特點，通過引入一個近似模型來執(zhí)行串行解碼，原始模型執(zhí)行并行評估采樣，通過近似模型和原始模型的互相配合，在保證精度一致性的同時降低了大模型串行解碼的次數(shù)，進而降低了推理時延。美杜莎頭（Medusa head）則是對投機采樣的進一步改進，其摒棄了近似模型，在原始模型結(jié)構(gòu)上新增了若干解碼頭，每個解碼頭可并行預(yù)測多個后續(xù) tokens，然后使用基于樹狀注意力機制并行處理，最后使用典型接收方案篩選出合理的后續(xù) tokens。該方法同樣降低了大模型串行解碼的次數(shù)，最終實現(xiàn)約兩倍的時延加速。

3 總結(jié)

大語言模型推理性能優(yōu)化技術(shù)正迅速演進，不僅涉及計算機科學(xué)和人工智能領(lǐng)域，還融合了多個學(xué)科的知識，實現(xiàn)了前所未有的跨學(xué)科交叉滲透。演進的動力源自對大規(guī)模模型應(yīng)用的需求，為了充分發(fā)揮這些模型的潛力，研究人員正在不斷改進推理性能，包括算法優(yōu)化、硬件加速、分布式計算等方面的創(chuàng)新。這一快速演進和跨學(xué)科滲透的趨勢不僅將提高大語言模型的實用性，還為未來的自然語言處理應(yīng)用和人工智能技術(shù)帶來更大的創(chuàng)新和應(yīng)用潛力。

參考

W. Kwon, Z. Li, S. Zhuang, Y. Sheng, L. Zheng, C. H. Yu,J. E. Gonzalez, H. Zhang and I. Stoica, Efficient MemoryManagement for Large Language Model Serving with Page-dAttention, Proceedings of the ACM SIGOPS 29th Sympo-sium on Operating Systems Principles, 2023.

S. Z. Y. S. L. Z. C. Y. J. G. H. Z. Woosuk Kwon, Zhuohan Liand I. Stoica, vLLM: Easy, Fast, and Cheap LLM Servingwith PagedAttention,https://vllm.ai/, 2022.

HuggingFace, ?Transformers: ? State-of-the-art ?MachineLearning for Pytorch, TensorFlow, and JAX.,https://github.com/huggingface/transformers.

NVIDIA, ? ?FasterTransformer,https://github.com/NVIDIA/FasterTransformer, 2021.

R. Y. Aminabadi, S. Rajbhandari, A. A. Awan, C. Li, D. Li,E. Zheng, O. Ruwase, S. Smith, M. Zhang, J. Rasley et al.,DeepSpeed-inference: enabling efficient inference of trans-former models at unprecedented scale, SC22: InternationalConference for High Performance Computing, Networking,Storage and Analysis, 2022, 1–15.

P. Tillet, H.-T. Kung and D. Cox, Triton: an intermedi-ate language and compiler for tiled neural network com-putations, Proceedings of the 3rd ACM SIGPLAN Inter-national Workshop on Machine Learning and ProgrammingLanguages, 2019, 10–19.

T. Chen, T. Moreau, Z. Jiang, L. Zheng, E. Yan, H. Shen,M. Cowan, L. Wang, Y. Hu, L. Ceze et al., TVM: An au-tomated End-to-End optimizing compiler for deep learning,13th USENIX Symposium on Operating Systems Design andImplementation (OSDI 18), 2018, 578–594.

M. Shoeybi, M. Patwary, R. Puri, P. LeGresley, J. Casperand B. Catanzaro, Megatron-lm: Training multi-billion pa-rameter language models using model parallelism, arXivpreprint arXiv:1909.08053, 2019.

T. Dettmers, M. Lewis, Y. Belkada and L. Zettlemoyer, Llm.int8 (): 8-bit matrix multiplication for transformers at scale,arXiv preprint arXiv:2208.07339, 2022.

E. Frantar, ?S. Ashkboos, ?T. Hoefler and D. Alistarh,Gptq: ?Accurate post-training quantization for generativepre-trained transformers, arXiv preprint arXiv:2210.17323,2022.

G. Xiao, J. Lin, M. Seznec, H. Wu, J. Demouth and S. Han,Smoothquant: Accurate and efficient post-training quanti-zation for large language models, International Conferenceon Machine Learning, 2023, 38087–38099.

A. C. Elster and T. A. Haugdahl, Nvidia hopper gpu andgrace cpu highlights, Computing in Science & & Engineering, 2022, 24, 95–100.

C. Chen, S. Borgeaud, G. Irving, J.-B. Lespiau, L. Sifreand J. Jumper, Accelerating large language model decodingwith speculative sampling, arXiv preprint arXiv:2302.01318,2023.

Y. Leviathan, M. Kalman and Y. Matias, Fast inference fromtransformers via speculative decoding, International Confer-ence on Machine Learning, 2023, 19274–19286.

T. Cai, Y. Li, Z. Geng, H. Peng and T. Dao, Medusa: SimpleFramework for Accelerating LLM Generation with MultipleDecoding ?Heads,https://github.com/FasterDecoding/Medusa, 2023.

審核編輯：黃飛

閱讀全文

人工智能(230332) 人工智能(230332)
自然語言處理(13093) 自然語言處理(13093)
調(diào)度器(5158) 調(diào)度器(5158)
LLM(232) LLM(232)

如何開始使用PyTorch進行自然語言處理

隨著人工智能和深度學(xué)習(xí)程序在未來幾年的蓬勃發(fā)展，自然語言處理（NLP）將日益普及，而且必要性也與日俱增。PyTorch 自然語言處理是實現(xiàn)這些程序的不錯選擇。

2022-07-07 10:01:31

2157

PyTorch教程-16.7。自然語言推理：微調(diào) BERT

16.7。自然語言推理：微調(diào) BERT? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab

2023-06-05 15:44:43

974

自然語言處理包括哪些內(nèi)容自然語言處理技術(shù)包括哪些

自然語言處理(Natural Language Processing, NLP)一般包括以下內(nèi)容：語音識別(Speech Recognition)：將人類語言轉(zhuǎn)換為計算機可以理解的形式。語音合成

2023-08-03 16:22:33

3731

2023年科技圈熱詞“大語言模型”，與自然語言處理有何關(guān)系

電子發(fā)燒友網(wǎng)報道（文/李彎彎）大語言模型（LLM）是基于海量文本數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型。它不僅能夠生成自然語言文本，還能夠深入理解文本含義，處理各種自然語言任務(wù)，如文本摘要、問答、翻譯

2024-01-02 09:28:33

1336

自然語言處理——總結(jié)、習(xí)題

自然語言處理——79 總結(jié)、習(xí)題

2020-06-19 11:22:23

自然語言處理之66參數(shù)學(xué)習(xí)

自然語言處理——66參數(shù)學(xué)習(xí)

2020-07-16 09:43:33

自然語言處理怎么最快入門？

，暫時不瞎說了。三、自然語言處理的深入談到自然語言處理的深入，這個可以做的就比較多了，上面列舉的各個方面都與比較大的優(yōu)化空間。但總體而言，最大的幾個問題在于分詞、詞向量的轉(zhuǎn)化以及文本特征的提取，這也

2018-11-28 10:02:37

自然語言處理技術(shù)介紹

1.前言“自然語言處理”指用人類的自然語言與計算機系統(tǒng)進行通信、交互，是很多應(yīng)用場景里不可缺少的技術(shù)，如：問答系統(tǒng)、信息檢索、文本挖掘等。自然語言處理是綜合學(xué)科，需要語言學(xué)、計算機科學(xué)、數(shù)學(xué)等

2018-09-27 09:57:14

自然語言處理的語言模型

自然語言處理——53 語言模型（數(shù)據(jù)平滑）

2020-04-16 11:11:25

自然語言處理的分詞方法

自然語言處理——75 自動分詞基本算法

2020-03-19 11:46:48

自然語言處理的功能合一文法

自然語言處理——82 功能合一文法(Function Unification Grammar, FUG)

2020-03-25 11:19:20

自然語言處理的未登錄詞識別

自然語言處理——76 未登錄詞識別

2019-10-23 17:00:22

自然語言處理的詞性標(biāo)注方法

自然語言處理——78 詞性標(biāo)注方法

2020-04-21 11:38:38

NLPIR語義分析是對自然語言處理的完美理解

和邏輯表示。語義分析就是對信息所包含的語義的識別，并建立一種計算模型，使其能夠像人那樣理解自然語言。語義分析是自然語言理解的根本問題，它在自然語言處理、信息檢索、信息過濾、信息分類、語義挖掘等領(lǐng)域有著廣泛

2018-10-19 11:34:47

Python自然語言處理學(xué)習(xí)筆記：建立基于特征的文法

《Python自然語言處理（第二版）-Steven Bird等》學(xué)習(xí)筆記：第09章建立基于特征的文法

2020-04-26 12:38:11

hanlp漢語自然語言處理入門基礎(chǔ)知識介紹

Lucene查件，兼容Solr和ElasticSearch。 Hanlp自然語言處理應(yīng)用領(lǐng)域：Hanlp已經(jīng)被廣泛應(yīng)用于Lucene、Solr、ElasticSearch、hadoop、android

2019-01-02 14:43:15

python自然語言

最近，python自然語言是越來越火了，那么什么是自然語言。自然語言（Natural Language ）廣納了眾多技術(shù)，對自然或人類語言進行自動生成，處理與分析。雖然大部分 NLP 技術(shù)繼承自語言

2018-05-02 13:50:17

【推薦體驗】騰訊云自然語言處理

`相信大家對NLP自然語言處理的技術(shù)都不陌生，它是計算機科學(xué)領(lǐng)域和AI領(lǐng)域中的一個分支，它與計算機和人類之間使用自然語言進行交互密切相關(guān)，而NLP的最終目標(biāo)是使計算機能夠像人類一樣理解語言。目前

2019-10-09 15:28:44

中文自然語言處理之商品評論情感判別

中文自然語言處理——商品評論情感判別

2020-05-27 12:50:35

什么是自然語言處理

什么是自然語言處理？自然語言處理任務(wù)有哪些？自然語言處理的方法是什么？

2021-09-08 06:51:28

什么是自然語言處理？

會識別出我們正確說的話。我們使用免費服務(wù)將在線遇到的外語短語翻譯成英語，有時它們可以為我們提供準(zhǔn)確的翻譯。盡管自然語言處理取得了長足的進步，但仍有很大的改進空間。[理...

2021-07-23 10:22:52

什么是人工智能、機器學(xué)習(xí)、深度學(xué)習(xí)和自然語言處理？

領(lǐng)域，包括機器學(xué)習(xí)、深度學(xué)習(xí)、數(shù)據(jù)挖掘、計算機視覺、自然語言處理和其他幾個學(xué)科。首先，人工智能涉及使計算機具有自我意識，利用計算機視覺、自然語言理解和模仿其他感官。其次，人工智能涉及模仿人類的認(rèn)知功能

2022-03-22 11:19:16

關(guān)于自然語言處理之54 語言模型(自適應(yīng))

自然語言處理——54 語言模型(自適應(yīng))

2020-04-09 08:20:30

求自然語言處理筆記

自然語言處理筆記9-哈工大關(guān)毅

2020-06-04 16:34:18

語義理解和研究資源是自然語言處理的兩大難題

兩方面，語義理解和資源問題。語義理解包括對自然語言知識和常識的學(xué)習(xí)，如果只是要學(xué)習(xí)機器的知識，對于人類來說并不難，但是如果讓機器掌握人的思考模式和處理方法模式，其模式構(gòu)建和具體實施則存在困難，也就是說

2019-09-19 14:10:38

基于自然語言處理的知識檢索算法研究

基于自然語言處理的知識檢索算法研究_賈潤亮

2017-01-07 21:39:44

從語言學(xué)到深度學(xué)習(xí)NLP，一文概述自然語言處理

本文從兩篇論文出發(fā)先簡要介紹了自然語言處理的基本分類和基本概念，再向讀者展示了深度學(xué)習(xí)中的 NLP。這兩篇論文都是很好的綜述性入門論文，希望詳細(xì)了解自然語言處理的讀者可以進一步閱讀這兩篇論文。

2017-08-22 14:56:36

6070

組合參考物框架下空間關(guān)系自然語言描述方法

針對復(fù)雜場景空間關(guān)系自然語言描述存在的問題，提出了一種組合參考物框架下空間關(guān)系自然語言描述方法。層級參照物的選取方法被用于確定組合參考框架，三維可視域被用于實現(xiàn)三維空間關(guān)系的描述，云模型被用于實現(xiàn)

2017-11-09 17:36:43

RNN在自然語言處理中的應(yīng)用

。深度學(xué)習(xí)的興起又讓人們重新開始研究循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network），并在序列問題和自然語言處理等領(lǐng)域取得很大的成功。本文將從循環(huán)神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)出發(fā)，介紹RNN在自然語言處理中的應(yīng)用及其PyTorch 實現(xiàn)。

2017-11-28 11:41:58

5524

基于Hadoop集群的自然語言處理平臺實現(xiàn)

隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展，數(shù)據(jù)的智能化處理獲取越來越重要。在自然語言處理領(lǐng)域，大規(guī)模語料庫技術(shù)和其他基于概率統(tǒng)計的研究方法蓬勃發(fā)展，為自然語言的研究提供了新的思路和工具。各種新模型、新技術(shù)、新應(yīng)用層

2017-11-28 16:28:24

深度視頻自然語言描述方法

針對計算機對視頻進行自動標(biāo)注和描述準(zhǔn)確率不高的問題，提出一種基于多特征融合的深度視頻自然語言描述的方法。該方法提取視頻幀序列的空間特征、運動特征、視頻特征，進行特征的融合，使用融合的特征訓(xùn)練基于長短

2017-12-04 14:07:08

自然語言處理常用模型解析

自然語言處理常用模型使用方法一、N元模型二、馬爾可夫模型以及隱馬爾可夫模型及目前常用的自然語言處理開源項目/開發(fā)包有哪些？

2017-12-28 15:42:30

5418

什么是自然語言處理_自然語言處理常用方法舉例說明

自然語言處理是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。

2017-12-28 16:56:28

18039

自然語言處理怎么最快入門_自然語言處理知識了解

自然語言處理就是實現(xiàn)人機間自然語言通信，實現(xiàn)自然語言理解和自然語言生成是十分困難的，造成困難的根本原因是自然語言文本和對話的各個層次上廣泛存在的各種各樣的歧義性或多義性。用自然語言與計算機進行通信，這是人們長期以來所追求的。因為它既有明顯的實際意義，同時也有重要的理論意義。

2017-12-28 17:10:09

5099

淺談自然語言處理技術(shù)的應(yīng)用領(lǐng)域

以下七種自然語言處理的常見應(yīng)用：1. 文本分類2. 語言建模3. 語音識別4. 說明生成5. 機器翻譯6.文檔總結(jié)7. 問題回答

2017-12-28 17:37:55

25381

自然語言處理的技術(shù)難點與挑戰(zhàn)_發(fā)展現(xiàn)狀分析

人工智能已經(jīng)是大部分普通人都耳熟能詳?shù)脑~匯，而人們對自然語言處理技術(shù)的了解程度卻大部分還停留在表面階段。本文通過回顧自然語言處理的發(fā)展歷史，解讀2015年整個自然語言處理行業(yè)的重大變化，進而提出新的時代下自然語言處理技術(shù)的發(fā)展難點、以及對于自然語言處理所提出的挑戰(zhàn)、自然語言處理未來的發(fā)展方向。

2017-12-29 09:25:21

38614

國內(nèi)有哪些自然語言處理的牛人或團隊以及公司

借助移動互聯(lián)網(wǎng)技術(shù)、機器學(xué)習(xí)領(lǐng)域深度學(xué)習(xí)技術(shù)的發(fā)展，以及大數(shù)據(jù)語料的積累，自然語言處理技術(shù)發(fā)生了突飛猛進的變化。越來越多的科技巨頭開始看到了這塊潛在的“大蛋糕”中蘊藏的價值，通過招兵買馬、合作、并購

2017-12-29 09:34:29

22193

自然語言處理的優(yōu)點有哪些_自然語言處理的5大優(yōu)勢

在自然語言處理領(lǐng)域，深度學(xué)習(xí)的承諾是：給新模型帶來更好的性能，這些新模型可能需要更多數(shù)據(jù)，但不再需要那么多的語言學(xué)專業(yè)知識。

2017-12-29 13:52:39

27339

閑談深度學(xué)習(xí)在自然語言處理領(lǐng)域的5大關(guān)鍵優(yōu)勢

在自然語言處理領(lǐng)域，深度學(xué)習(xí)將給予最大的幫助，深度學(xué)習(xí)方法主要依靠一下這五個關(guān)鍵優(yōu)勢，閱讀本文將進一步了解自然語言處理的重要深度學(xué)習(xí)方法和應(yīng)用。

2018-01-12 16:00:54

4143

自然語言推理數(shù)據(jù)集“人工痕跡”嚴(yán)重，模型性能被高估

自然語言推理是NLP領(lǐng)域被廣泛研究的領(lǐng)域之一，有了這一技術(shù)，許多復(fù)雜的語義任務(wù)如問題回答和文本總結(jié)都能得到解決。而用于自然語言推理的大規(guī)模數(shù)據(jù)集是通過向眾包工作者提供一個句子（前提）p，然后讓他們創(chuàng)作出三個新的與之相關(guān)的句子（假設(shè)）h創(chuàng)造出來的。

2018-03-14 18:11:18

4330

Salesforce發(fā)布了一項新的研究成果：decaNLP十項自然語言任務(wù)的通用模型

自然語言推理。自然語言推理(NLI)模型接受兩個輸入句子:一個前提和一個假設(shè)。模型必須將前提和假設(shè)之間的推理關(guān)系歸類為支持、中立或矛盾。我們使用的是多體裁自然語言推理語料庫（MNLI），它提供來自多個領(lǐng)域的訓(xùn)練示例(轉(zhuǎn)錄語音、通俗小說、政府報告)和來自各個領(lǐng)域的測試對。

2018-06-25 08:47:30

4594

自然語言處理方法和應(yīng)用

2018CCAI大會邀請到國內(nèi)NLP領(lǐng)域頂尖學(xué)者，蘇州大學(xué)特聘教授，計算機學(xué)院副院長，人類語言技術(shù)研究所所長、國家杰出青年科學(xué)基金獲得者的張民教授將以《自然語言處理方法和應(yīng)用》為題做專題講座。

2018-06-25 15:44:48

5232

人工智能時代下，NLP技術(shù)賦予了機器自然語言識別能力

語言是人類特有的技能，是人類智慧的體現(xiàn)。在人工智能時代，自然語言處理（NLP）技術(shù)為機器賦予了這樣的語言功能，讓機器有了自然語言識別能力，為用戶體驗開辟了新路徑。

2018-08-07 16:27:00

1437

實現(xiàn)強人工智能自然語言理解有哪些思路？

現(xiàn)在的人工智能理論很多是類似早期的推理系統(tǒng)，專家系統(tǒng)，圖像識別，基本的神經(jīng)網(wǎng)絡(luò)，或者所謂的深度學(xué)習(xí)網(wǎng)絡(luò)等等，其本質(zhì)都是人在架構(gòu)，給予了系統(tǒng)太多人為的假定和人為的算法，這個與自然語言系統(tǒng)的自然

2018-08-07 17:47:04

人工智能開啟自然語言處理新時代

2018-08-09 11:19:22

3906

淺析自然語言處理知識體系結(jié)構(gòu)

自然語言處理知識太龐大了，網(wǎng)上也都是一些零零散散的知識，比如單獨講某些模型，也沒有來龍去脈，學(xué)習(xí)起來較為困難，于是總結(jié)了一份知識體系結(jié)構(gòu)。

2018-08-18 09:57:43

4649

如何成為一名自然語言處理工程師

自然語言處理和大部分的機器學(xué)習(xí)或者人工智能領(lǐng)域的技術(shù)一樣，是一個涉及到多個技能、技術(shù)和領(lǐng)域的綜合體。所以自然語言處理工程師會有各種各樣的背景，大部分都是在工作中自學(xué)或者是跟著項目一起學(xué)習(xí)的，這其中

2018-08-27 09:43:01

2870

自然語言處理（NLP）知識結(jié)構(gòu)總結(jié)

自然語言處理知識太龐大了，網(wǎng)上也都是一些零零散散的知識，比如單獨講某些模型，也沒有來龍去脈，學(xué)習(xí)起來較為困難，于是我自己總結(jié)了一份知識體系結(jié)構(gòu)，不足之處，歡迎指正。內(nèi)容來源主要參考黃志洪老師

2018-08-29 09:58:53

4417

深入機器學(xué)習(xí)之自然語言處理

由龍騎士于星期二, 2018-09-18 15:13 發(fā)表 自然語言處理（NLP）是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論

2018-09-18 22:31:01

595

自然語言處理研究的基本問題及發(fā)展趨勢

自然語言處理（NLP）是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。隨著深度學(xué)習(xí)在圖像識別、語音識別領(lǐng)域的大放異彩，人們對深度學(xué)習(xí)在NLP的價值也寄予厚望。

2018-09-21 14:22:57

8268

自然語言處理發(fā)展中不得不知的8件大事紀(jì)要

自然語言是人類獨有的智慧結(jié)晶。自然語言處理（Natural Language Processing，NLP）是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向，旨在研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。

2018-10-21 09:52:20

4362

自然語言處理的ELMO使用

word embedding 是現(xiàn)在自然語言處理中最常用的 word representation 的方法，常用的word embedding 是word2vec的方法，然而word2vec本質(zhì)上是一個靜態(tài)模型，也就是說利用word2vec訓(xùn)練完每個詞之后，詞的表示就固定了，

2019-05-02 14:32:00

3068

采用深度學(xué)習(xí)對自然語言處理進行分類

用深度學(xué)習(xí)對自然語言處理（NLP）進行分類

2018-11-05 06:51:00

2968

盤點自然語言處理發(fā)展史上的8個轉(zhuǎn)折點

2018-11-02 17:34:39

8213

自然語言處理入門基礎(chǔ)之hanlp詳解

句法分析）。提供Lucene查件，兼容Solr和ElasticSearch。hanlp自然語言處理技術(shù)Hanlp自然語言處理應(yīng)用領(lǐng)域：Hanlp已經(jīng)被廣泛應(yīng)用于Lucene、Solr

2018-11-29 14:33:45

539

淺談自然語言處理中的注意力機制

本文深入淺出地介紹了近些年的自然語言中的注意力機制包括從起源、變體到評價指標(biāo)方面。

2019-01-25 16:51:17

6075

自然語言處理有明顯和知識圖譜結(jié)合的趨勢

對于新型的深度學(xué)習(xí)框架，目前在自然語言處理中的應(yīng)用還有待進一步加深和提高。比如對抗學(xué)習(xí)、對偶學(xué)習(xí)等雖然在圖像處理領(lǐng)域得到了比較好的效果，但是在自然語言處理領(lǐng)域的效果就稍微差一些。形。

2019-04-05 17:07:00

5674

AAAI 2019 Gaussian Transformer 一種自然語言推理方法

自然語言推理 (Natural Language Inference, NLI) 是一個活躍的研究領(lǐng)域，許多基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)，卷積神經(jīng)網(wǎng)絡(luò)(CNNs)，self-attention 網(wǎng)絡(luò) (SANs) 的模型為此提出。

2019-05-14 09:45:58

2861

多個視角對自然語言處理領(lǐng)域進行全面梳理

接著，對自然語言處理面臨的技術(shù)挑戰(zhàn)進行了分析，包括自然語言中大量存在的未知語言現(xiàn)象、歧義詞匯和結(jié)構(gòu)、隱喻表達、以及翻譯問題中不同語言之間概念的不對等性等，語義概念的表示和計算、說話人意圖的理解和推理、以及語用場景的分析是當(dāng)前面臨的核心挑戰(zhàn)。

2019-05-19 09:33:34

3310

斯坦福AI Lab主任、NLP大師Manning：將深度學(xué)習(xí)應(yīng)用于自然語言處理領(lǐng)域的領(lǐng)軍者

像Alexa和Siri那樣的對話助手對自然語言處理產(chǎn)生了巨大的影響。最開始這些變化跟深度學(xué)習(xí)和自然語言處理關(guān)系不大，因為基本上用的都是人工編輯的腳本。所以這些積極的影響是得益于基于規(guī)則的自然語言處理的再度出現(xiàn)，跟機器學(xué)習(xí)和我從1995年到2010年主要研究的那種概率自然語言處理關(guān)系都不是很大。

2019-07-07 07:47:00

3982

解讀人工智能理解的自然語言的原理和概念

人工智能理解自然語言的原理是什么？要有針對性地回答該問題，需先將它的議題邊界進行明確定義。如果將該問題理解為如何利用計算機工具處理和分析自然語言，以實現(xiàn)人與計算機通過自然語言進行的有效溝通，那么可以得到一個相對狹義的回答。

2019-08-09 14:43:19

5619

如何利用人工智能和大數(shù)據(jù)來處理自然語言

學(xué)術(shù)領(lǐng)域叫自然語言，其實指的就是人類語言。自然語言處理可以說是從人工智能這個詞尚未出現(xiàn)前，就是一個重要研究對象。

2019-10-31 16:30:00

3336

自然語言處理與人工智能有著怎樣的關(guān)系

要想理解自然語言處理，讓我們先來看什么是“自然語言”。通常認(rèn)為，語言是人類區(qū)別其他動物的本質(zhì)特性。在所有生物中，只有人類才具有語言能力。

2019-11-04 22:22:24

10345

自然語言處理如何為全球抗疫

隨著互聯(lián)網(wǎng)的普及和海量信息的涌現(xiàn)，作為人工智能領(lǐng)域中的一個重要方向，自然語言處理（NLP）正在人們的日常生活中扮演著越來越重要的角色，并將在科技創(chuàng)新的過程中發(fā)揮越來越重要的作用。

2020-04-23 09:15:27

1272

用在自然語言處理上的業(yè)務(wù)應(yīng)用有哪一些

自然語言處理（NLP）對于企業(yè)來說已經(jīng)不僅僅是一種新興的技術(shù)，它還是一種每天都在廣泛使用的技術(shù)。

2020-04-23 09:19:05

1813

自然語言處理的前景是怎樣的

機器翻譯是更好的自然語言處理（NLP）應(yīng)用程序之一，但它并不是最常用的一種。

2020-04-24 15:12:38

5450

自然語言處理的發(fā)展簡史

自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。因此，這一領(lǐng)域的研究將涉及自然語言，即人們?nèi)粘Ｊ褂玫?b class="flag-6" style="color: red">語言，所以它與語言學(xué)的研究有著密切的聯(lián)系，但又有重要的區(qū)別。

2020-05-11 17:22:02

9277

自然語言處理（NLP）的學(xué)習(xí)方向

自然語言處理（Natural Language Processing，NLP）是計算機科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究人與計算機之間用自然語言進行有效通信的理論和方法。融語言學(xué)、計算機

2020-07-06 16:30:24

12501

淺析自然語言處理在人工智能領(lǐng)域中的重要性

自然語言處理（NLP）使聊天機器人能夠理解我們的會話信息并相應(yīng)地作出響應(yīng)。

2020-11-05 10:27:59

5330

自然語言處理已成為聊天機器人的核心工具

自然語言處理（NLP）使聊天機器人能夠理解我們的會話信息并相應(yīng)地作出響應(yīng)。

2020-11-05 14:24:44

2215

自然語言處理是人工智能領(lǐng)域中的一個重要方向

作為未來科技發(fā)展的前沿領(lǐng)域，人工智能在技術(shù)應(yīng)用方面有很多細(xì)分領(lǐng)域，比如深度學(xué)習(xí)、推薦引擎、計算機視覺、智能機器人、自然語言處理、實時語音翻譯、視覺內(nèi)容自動識別等。其中的自然語言處理，是人工智能領(lǐng)域

2020-12-17 11:07:21

4131

自然語言處理中的事件抽取綜述

本系列文章主要總結(jié)近年來事件抽取方法總結(jié)，包括中文事件抽取、開放域事件抽取、事件數(shù)據(jù)生成、跨語言事件抽取、小樣本事件抽取、零樣本事件抽取等。主要包括以下幾大部分：定義（Define）綜述

2021-01-07 15:08:34

2965

谷歌和微軟自然語言理解榜單中超越人類表現(xiàn)

近日，科技公司谷歌和微軟相繼在一份權(quán)威自然語言理解榜單中超越人類的表現(xiàn)，微軟宣稱這“標(biāo)志著邁向通用人工智能的重要里程碑。” 自然語言理解（Natural Language Understanding

2021-01-08 16:54:21

1706

自然語言處理是什么？有什么用？

“自然語言處理” （Natural Language Processing，簡稱NLP）是近年來科技界最熱門的詞語之一，也是當(dāng)下人工智能研究最熱門的領(lǐng)域之一。自然語言處理推動著語言智能的持續(xù)發(fā)展

2021-02-08 16:00:00

5729

一種注意力增強的自然語言推理模型aESIM

在自然語言處理任務(wù)中使用注意力機制可準(zhǔn)確衡量單詞重要度。為此，提出一種注意力增強的自然語言推理模型aESM。將詞注意力層以及自適應(yīng)方向權(quán)重層添加到ESIM模型的雙向LSTM網(wǎng)絡(luò)中，從而更有

2021-03-25 11:34:15

基于深度學(xué)習(xí)的自然語言處理對抗樣本模型

深度學(xué)習(xí)模型被證明存在脆弱性并容易遭到對抗樣本的攻擊，但目前對于對抗樣本的研究主要集中在計算機視覺領(lǐng)域而忽略了自然語言處理模型的安全問題。針對自然語言處理領(lǐng)域冋樣面臨對抗樣夲的風(fēng)險，在闡明對抗樣本

2021-04-20 14:36:57

淺談圖神經(jīng)網(wǎng)絡(luò)在自然語言處理中的應(yīng)用簡述

近幾年，神經(jīng)網(wǎng)絡(luò)因其強大的表征能力逐漸取代傳統(tǒng)的機器學(xué)習(xí)成為自然語言處理任務(wù)的基本模型。然而經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型只能處理歐氏空間中的數(shù)據(jù)，自然語言處理領(lǐng)域中，篇章結(jié)構(gòu)，句法甚至句子本身都以圖數(shù)據(jù)的形式存在。

2021-04-26 14:57:07

2982

自然語言處理在社會傳播的應(yīng)用綜述

作為人工智能領(lǐng)域的重要研究方向之一，自然語言處理技術(shù)（ Natural Language processing，NLP）極大地促進了社會傳播學(xué)的發(fā)展。文中在梳理囯內(nèi)外№LP發(fā)展脈絡(luò)的基礎(chǔ)上，綜述

2021-05-29 14:47:05

如何使用TensorRT 8.0進行實時自然語言處理

　　大規(guī)模語言模型（ LSLMs ）如 BERT 、 GPT-2 和 XL-Net 為許多自然語言處理（ NLP ）任務(wù)帶來了令人興奮的精度飛躍。自 2018 年 10 月發(fā)布以來， BERT （來自變形金剛的雙向編碼器表示）及其眾多變體仍然是最流行的語言模型之一，仍然提供最先進的準(zhǔn)確性。

2022-04-02 10:31:18

1563

自然語言分析NLA技術(shù)的發(fā)展史

自然語言處理（Natural Language Processing，簡稱NLP）就是用計算機來處理、理解以及運用人類語言(如中文、英文等)，它屬于人工智能的一個分支，是計算機科學(xué)與語言學(xué)的交叉學(xué)科。

2022-05-11 15:45:14

890

自然語言分析(NLA)是什么

連續(xù)多年入選 “Gartner增強分析代表廠商”的Smartbi正是看到了自然語言查詢的趨勢，自主研發(fā)了增強分析 NLA，希望能夠利用自然語言查詢、知識圖譜、推薦算法、智能問答等智能技術(shù)來了解使用者對數(shù)據(jù)的需求，從而幫助使用者更快地進行分析，獲取更多的資料。

2022-05-24 17:35:38

468

一窺AMR圖譜在自然語言處理中的應(yīng)用

TreeBank 作為自然語言語法的結(jié)構(gòu)化表示可謂廣為人知，其實在語義層面也有一種類似的結(jié)構(gòu)化方法——抽象語義表示（Abstract Meaning Representation，AMR）。

2022-09-05 14:22:52

1338

自然語言入門之ESIM

ESIM是ACL2017的一篇論文，在當(dāng)時成為各個NLP比賽的殺器，直到現(xiàn)在仍是入門自然語言推理值得一讀的文章。本文根據(jù)ESIM原文以及pytorch代碼實現(xiàn)對ESIM模型進行總結(jié)

2023-02-22 11:34:31

669

ChatGPT在自然語言處理中的局限性和挑戰(zhàn)

隨著人工智能技術(shù)的不斷發(fā)展，自然語言處理已經(jīng)成為人工智能領(lǐng)域中備受矚目的重要研究方向。ChatGPT作為自然語言處理技術(shù)中的一種，已經(jīng)在自然語言理解和生成方面取得了顯著的成就。然而，盡管如此

2023-04-18 16:25:21

981

PyTorch教程16.4之自然語言推理和數(shù)據(jù)集

電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.4之自然語言推理和數(shù)據(jù)集.pdf》資料免費下載

2023-06-05 10:57:27

PyTorch教程16.5之自然語言推理：使用注意力

電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.5之自然語言推理：使用注意力.pdf》資料免費下載

2023-06-05 10:49:51

PyTorch教程16.7之自然語言推理：微調(diào)BERT

電子發(fā)燒友網(wǎng)站提供《PyTorch教程16.7之自然語言推理：微調(diào)BERT.pdf》資料免費下載

2023-06-05 10:52:19

PyTorch教程-16.4。自然語言推理和數(shù)據(jù)集

16.4。自然語言推理和數(shù)據(jù)集? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:42

319

PyTorch教程-16.5。自然語言推理：使用注意力

16.5。自然語言推理：使用注意力? Colab [火炬]在 Colab 中打開筆記本 Colab [mxnet] Open the notebook in Colab Colab

2023-06-05 15:44:42

325

自然語言處理的優(yōu)缺點有哪些自然語言處理包括哪些內(nèi)容

自然語言處理（Natural Language Processing）是一種人工智能的技術(shù)及領(lǐng)域，它致力于讓計算機理解及處理人類語言。它可以幫助計算機對人類語言進行處理、理解和生成，使得計算機可以像人類一樣與人們進行交互，如智能語音助手、自動翻譯器、智能問答系統(tǒng)等。

2023-08-23 17:26:51

2318

自然語言處理的概念和應(yīng)用自然語言處理屬于人工智能嗎

　　自然語言處理(Natural Language Processing)是一種人工智能技術(shù)，它是研究自然語言與計算機之間的交互和通信的一門學(xué)科。自然語言處理旨在研究機器如何理解人類語言，并使機器能夠利用自然語言與人類進行交互、執(zhí)行任務(wù)等。

2023-08-23 17:31:14

789

自然語言處理和人工智能的概念及發(fā)展史自然語言處理和人工智能的區(qū)別

自然語言處理(Natural Language Processing, NLP)的定義是通過電腦軟件程序?qū)崿F(xiàn)人們?nèi)粘?b class="flag-6" style="color: red">語言的機器自動處理。為了幫助計算機理解，掌握自然語言處理的基本原理，需要涉及到自然語言處理的發(fā)展史和人工智能的概念和發(fā)展史，以及自然語言處理和人工智能之間的區(qū)別。

2023-08-23 18:22:37

514

自然語言處理和人工智能的區(qū)別

　　自然語言處理(Natural Language Processing，NLP)是人工智能(AI)中的一個分支，它利用計算機技術(shù)對自然語言進行處理，使得電腦能夠理解和操作人類語言。自然語言處理技術(shù)包括文本分析、語音識別和機器翻譯等，這些技術(shù)已經(jīng)廣泛應(yīng)用于在線客服、文本分類、語音助手等領(lǐng)域。

2023-08-28 17:32:09

880

時間序列的基礎(chǔ)模型像自然語言處理那樣存在嗎

適應(yīng)各種各樣的任務(wù)，而無需進一步的訓(xùn)練。這就引出了一個問題：時間序列的基礎(chǔ)模型能像自然語言處理那樣存在嗎？一個預(yù)先訓(xùn)練了大量時間序列數(shù)據(jù)的大型模型，是否有可能在未見過的數(shù)據(jù)上產(chǎn)生準(zhǔn)確的預(yù)測? 通過

2023-11-03 10:15:22

300

怎樣使用Accelerate庫在多GPU上進行LLM推理呢？

大型語言模型(llm)已經(jīng)徹底改變了自然語言處理領(lǐng)域。隨著這些模型在規(guī)模和復(fù)雜性上的增長，推理的計算需求也顯著增加。

2023-12-01 10:24:52

447

ChatGPT是一個好的因果推理器嗎？

因果推理能力對于許多自然語言處理（NLP）應(yīng)用至關(guān)重要。最近的因果推理系統(tǒng)主要基于經(jīng)過微調(diào)的預(yù)訓(xùn)練語言模型（PLMs），如BERT [1] 和RoBERTa [2]。

2024-01-03 09:55:37

474

基于LLM的表格數(shù)據(jù)的大模型推理綜述

面向表格數(shù)據(jù)的推理任務(wù)，在計算機領(lǐng)域，特別是自然語言處理（Natural Language Processing，NLP）領(lǐng)域的研究中扮演著重要角色[1]。該任務(wù)要求模型在給定一個或多個表格的情況下，按照任務(wù)要求，生成相應(yīng)的結(jié)果作為答案（例如：表格問答、表格事實判斷）。

2024-01-08 09:56:14

484