武道至尊帝临小说,欢乐颂小说txt,豆豆小说阅读网

作者：Yury Gorbachev 英特爾院士

翻譯：武卓英特爾AI軟件布道師；楊亦誠英特爾 AI軟件工程師

在過去的一年里，我們看到了生成式AI用例和模型的爆炸式增長。現在幾乎每周都會針對不同的領域發布新的值得注意的生成式模型，這些模型在不斷增加的數據集上訓練，具有各種計算復雜性。使用像LoRA這樣的方法，可以在非常適度的訓練加速器上微調大模型，這解鎖了對基礎模型的更多修改。由于資源消耗，部署這些模型仍然是挑戰，并且高度依賴于在云端部署模型。

隨著 OpenVINO 2023.1 版本的發布，我們希望將生成式 AI 的強大功能引入常規臺式機和筆記本電腦，讓這些模型可以運行在在資源受限的本地環境中，并被您嘗試集成到自己的應用程序中。我們在整個產品中針對這些場景進行了優化，實現了一些關鍵功能，并為我們的下一步工作計劃奠定了基礎。

也就是說，我們的變化不僅限于生成式AI，我們還改進了產品的其它部分，并希望它能使您的工作更輕松，并為您帶來額外的價值。讓我們來看看這些變化到底是什么。

生成式AI功能

大模型的整體堆棧優化。來自生成式AI家族的模型有一個共同點——它們亟需資源。模型尺寸巨大，運行它們所需的內存量非常高，對內存帶寬的需求也非常大。例如不必要的權重搬運這樣簡單的問題，都可能會導致由于內存不足而無法運行模型。

為了更好地適應這一點，我們已經跨推理堆棧工作，包括 CPU 和 GPU（集成顯卡和獨立顯卡），目標就是優化我們使用這些模型的方式，包括優化讀取和編譯模型所需的內存，優化如何處理模型的輸入和輸出張量以及其他內部結構，從而縮短模型執行時間。

大型語言模型的權重量化。LLM 在執行時需要大量的內存帶寬。為了對此進行優化，我們在 NNCF（神經網絡壓縮框架）優化框架和 CPU 推理中實現了 int8 LLM 權重量化功能。

使用此功能時，NNCF 將生成優化的 IR 模型文件，與精度為 fp16 的常規模型文件相比，該文件能夠將尺寸減小一半。IR 文件將在 CPU 插件中被執行額外的優化，這將改善延遲并減少運行時內存消耗。GPU 的類似功能正在實施中，并將在后續發布的版本中提供。

更容易轉換模型。大多數LLM目前來自基于PyTorch的環境。要轉換這些模型，您現在可以使用我們的直接 PyTorch 轉換功能。對于LLM，與我們之前通過ONNX格式的路徑相比，這大大加快了轉換時間并減少了內存需求。

總體而言，由于我們的優化，我們能夠在CPU和GPU上均能提高 LLM 性能。[WZ1]此外，我們還按倍數級減少了運行這些模型所需的內存量。在某些情況下，新版本OpenVINO可以讓我們運行那些以前由于內存不足而失敗的模型。我們一直在數十個不同規模和不同任務的LLM上驗證我們的工作，以確保我們的方法能夠很好地擴展到我們所有的平臺和支持的操作系統。

我們的轉換API和權重量化功能也集成到Hugging Face optimum-intel擴展中，允許您使用OpenVINO作為推理堆棧運行生成式模型，或以方便的方式將模型導出為OpenVINO格式。

簡化您的工作流

不再需要開發包，提供統一的工具。從 2023.1 版本開始，我們不再要求您為運行時和開發環境分別安裝單獨的軟件包。我們一直致力于簡化我們的工具，并將所有必要的組件集成到單個 OpenVINO軟件包中。這也意味著模型轉換和推理可以通過所有OpenVINO分發機制以統一的方式獲得：pip，conda，brew和archive。

此外，從此版本開始，OpenVINO Python API 可從所有支持最低要求 Python 版本（3.7）的軟件包中獲得。這意味著除了以前可用的 pip 之外，還有conda、brew和指定的 apt 版本。

更高效、更友好的模型轉換。我們正在推出OpenVINO模型轉換工具（OVC），該工具正在取代我們眾所周知的離線模型轉換任務中的模型優化器（MO）工具。該工具以OpenVINO包形式提供，依靠內部模型前端來讀取框架格式，不需要原始框架來執行模型轉換。例如，如果您想將TF模型轉換為OpenVINO，則不需要安裝TensorFlow。同樣，如果您想簡單地在 OpenVINO運行時中讀取此模型以進行推理而無需轉換，同樣也不需要 TensorFlow。

為了在 Python 腳本中轉換模型，我們進一步改進了convert_model API。例如，它允許將模型從 PyTorch 對象轉換為 OpenVINO模型，并編譯模型以進行推理或將其保存到 IR格式，請參見以下示例：

請注意，我們還簡化了我們的Python API，可以直接從OpenVINO命名空間獲得這些API，因此這一切變得更簡單了。您仍然可以從舊命名空間訪問函數，如果您需要 mo 工具，可以安裝 OpenVINO-dev。這個工具本身也仍然可用，但我們建議遷移到 ovc 工具。

默認切換到 fp16 IR。隨著轉換工具的變化，我們現在切換到使用 fp16 精度作為 IR 中的數據類型。這允許將模型大小減小一半（相對FP32精度的模型），并且根據我們執行的測試對準確性沒有影響。值得一提的是，IR 精度不會影響硬件插件的執行精度，默認情況下，插件始終以最佳性能繼續執行。

更好的PyTorch兼容性

前面已經提到，直接轉換PyTorch模型的功能現在已經成熟，該方案已經被集成在我們的 HuggingFace optimum-intel中進行模型轉換。因此，現在轉換模型更容易，因為您繞過了 ONNX 格式的額外步驟（我們仍然無限制地支持）。

為了使OpenVINO更接近PyTorch生態系統，我們引入了對torch.compile和相應后端的支持。您現在可以通過 OpenVINO堆棧運行您的模型，方法是通過torch.compile編譯它并指定 OpenVINO 作為后端！

如下例所示：