近日,vLLM項目宣布正式成為PyTorch生態系統的一部分,標志著該項目與PyTorch的合作進入了一個全新的階段。本文將從以下幾個方面進行介紹,特別提醒:安裝方案在第四個部分,可選擇性閱讀。
vLLM項目概述
vLLM的成就與實際應用
支持流行模型
安裝與使用vLLM
總結
一,vLLM項目概述
vLLM是一個為大型語言模型(LLMs)設計的高吞吐量、內存高效的推理和服務引擎。該項目最初基于創新的PagedAttention算法構建,如今已經發展成為一個全面的、最先進的推理引擎。vLLM社區不斷為其添加新功能和優化,包括流水線并行處理、分塊預填充、推測性解碼和分離服務。
二,vLLM的成就與實際應用
自發布以來,vLLM獲得了超過31,000個GitHub星標,這一成就證明了其受歡迎程度和社區的活力。vLLM與PyTorch的深度集成,使其能夠支持包括NVIDIA GPU、AMD GPU、Google Cloud TPU在內的多種硬件后端,確保了跨平臺的兼容性和性能優化。
在今年的亞馬遜Prime Day,vLLM在向數百萬用戶提供快速響應中發揮了關鍵作用。它在三個區域的80,000個Trainium和Inferentia芯片上,每分鐘處理了300萬個令牌,同時保持了P99延遲在1秒以內的首次響應。這意味著,當客戶與亞馬遜應用中的Rufus聊天時,他們實際上是在與vLLM互動。
三,支持流行模型
vLLM與領先的模型供應商緊密合作,支持包括Meta LLAMA、Mistral、QWen和DeepSeek在內的流行模型。特別值得一提的是,vLLM作為首發合作伙伴,首次啟用了LLAMA 3.1(405B)模型,展示了其處理復雜和資源密集型語言模型的能力。
四,安裝與使用vLLM
安裝vLLM非常簡單,用戶只需在命令行中運行:
pip install vllm
vLLM既可以作為OpenAI API兼容服務器運行,也可以作為一個簡單的函數使用。以下是如何使用vLLM生成文本的示例代碼:
vllm serve meta-llama/Llama-3.1-8B
將vLLM作為簡單函數運行:
from vllm import LLM, SamplingParams
五,總結
隨著vLLM的加入,PyTorch生態系統更加強大,為LLM服務帶來了便捷和高效。期待vLLM在未來解鎖更多創新,推動AI技術的普及和發展
如果你有更好的文章,歡迎投稿!
稿件接收郵箱:[email protected]
更多精彩內容請關注“算力魔方?”!
審核編輯 黃宇
-
英特爾
+關注
關注
61文章
10141瀏覽量
173563 -
pytorch
+關注
關注
2文章
808瀏覽量
13681 -
LLM
+關注
關注
1文章
316瀏覽量
640
發布評論請先 登錄
相關推薦
詳解 LLM 推理模型的現狀

安森美PRISM生態系統助力相機開發

英監管機構或優先調查蘋果谷歌移動生態系統
英國CMA將對蘋果谷歌移動生態系統展開調查
笙泉完善的MCU生態系統(ECO System),賦能高效開發、提升競爭優勢
Arm KleidiAI助力提升PyTorch上LLM推理性能

評論