在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

OneFlow 將 Stable Diffusion的推理性能推向了一個(gè)全新的SOTA

人工智能與大數(shù)據(jù)技術(shù) ? 來(lái)源:機(jī)器之心 ? 作者:機(jī)器之心 ? 2022-11-30 10:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

OneFlow 將 Stable Diffusion 的推理性能推向了一個(gè)全新的 SOTA。

第一輛汽車(chē)誕生之初,時(shí)速只有 16 公里,甚至不如馬車(chē)跑得快,很長(zhǎng)一段時(shí)間,汽車(chē)尷尬地像一種“很酷的玩具”。人工智能作圖的出現(xiàn)也是如此。

AI 作圖一開(kāi)始的 “風(fēng)格化” 本身就為 “玩” 而生,大家普遍興致勃勃地嘗試頭像生成、磨皮,但很快就失去興趣。直到擴(kuò)散模型的降臨,才給 AI 作圖帶來(lái)質(zhì)變,讓人們看到了 “AI 轉(zhuǎn)成生產(chǎn)力” 的曙光:畫(huà)家、設(shè)計(jì)師不用絞盡腦汁思考色彩、構(gòu)圖,只要告訴 Diffusion 模型想要什么,就能言出法隨般地生成高質(zhì)量圖片。

然而,與汽車(chē)一樣,如果擴(kuò)散模型生成圖片時(shí)“馬力不足”,那就沒(méi)法擺脫玩具的標(biāo)簽,成為人類(lèi)手中真正的生產(chǎn)工具。

起初,AI 作圖需要幾天,再縮減到幾十分鐘,再到幾分鐘,出圖時(shí)間在不斷加速,問(wèn)題是,究竟快到什么程度,才會(huì)在專業(yè)的美術(shù)從業(yè)者甚至普通大眾之間普及開(kāi)來(lái)?

顯然,現(xiàn)在還無(wú)法給出具體答案。即便如此,可以確定的是 AI 作圖在技術(shù)和速度上的突破,很可能已經(jīng)接近甚至超過(guò)閾值,因?yàn)檫@一次,OneFlow 帶來(lái)了字面意義上 “一秒出圖” 的 Stable Diffusion 模型。

OneFlow Stable Diffusion 使用地址:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

OneFlow 地址:https://github.com/Oneflow-Inc/oneflow/

比快更快,OneFlow 一馬當(dāng)先

下面的圖表分別展示了在 A100 (PCIe 40GB / SXM 80GB)、RTX 2080 和 T4 不同類(lèi)型的 GPU 硬件上,分別使用 PyTorch, TensorRT, AITemplate 和 OneFlow 四種深度學(xué)習(xí)框架或者編譯器,對(duì) Stable Diffusion 進(jìn)行推理時(shí)的性能表現(xiàn)。

659d18c6-7050-11ed-8abf-dac502259ad0.png

65b0bbce-7050-11ed-8abf-dac502259ad0.png

對(duì)于 A100 顯卡,無(wú)論是 PCIe 40GB 的配置還是 SXM 80GB 的配置,OneFlow 的性能可以在目前的最優(yōu)性能之上繼續(xù)提升 15% 以上。

特別是在 SXM 80GB A100 上,OneFlow 首次讓 Stable Diffusion 的推理速度達(dá)到了 50it/s 以上,首次把生成一張圖片需要采樣 50 輪的時(shí)間降到 1 秒以內(nèi),是當(dāng)之無(wú)愧的性能之王。

65bb3a0e-7050-11ed-8abf-dac502259ad0.png

在 T4 推理卡上,由于 AITemplate 暫不支持 Stable Diffsuion,相比于目前 SOTA 性能的 TensorRT,OneFlow 的性能是它的 1.5 倍。

65c97db2-7050-11ed-8abf-dac502259ad0.png

而在 RTX2080 上,TensorRT 在編譯 Stable Diffsuion 時(shí)會(huì) OOM ,相比于目前 SOTA 性能的 PyTorch,OneFlow 的性能是它的 2.25 倍。

綜上,在各種硬件以及更多框架的對(duì)比中,OneFlow 都將 Stable Diffusion 的推理性能推向了一個(gè)全新的 SOTA。

生成圖片展示

利用 OneFlow 版的 Stable Diffusion,你可以把天馬行空的想法很快轉(zhuǎn)化成藝術(shù)圖片,譬如:

以假亂真的陽(yáng)光、沙灘和椰樹(shù):

倉(cāng)鼠救火員、長(zhǎng)兔耳朵的狗子:

在火星上吃火鍋:

未來(lái)異世界 AI:

集齊 OneFlow 七龍珠:

圖片均基于 OneFlow 版 Stable Diffusion 生成。如果你一時(shí)沒(méi)有好的 idea,可以在 lexica 上參考一下廣大網(wǎng)友的創(chuàng)意,不僅有生成圖片還提供了對(duì)應(yīng)的描述文字。

無(wú)縫兼容 PyTorch 生態(tài),實(shí)現(xiàn)一鍵模型遷移

想體驗(yàn) OneFlow Stable Diffusion?只需要修改三行代碼,你就可以將 HuggingFace 中的 PyTorch Stable Diffusion 模型改為 OneFlow 模型,分別是將 import torch 改為 import oneflow as torch 和將 StableDiffusionPipeline 改為 OneFlowStableDiffusionPipeline:

669e52e4-7050-11ed-8abf-dac502259ad0.png

之所以能這么輕松遷移模型,是因?yàn)?OneFlow Stable Diffusion 有兩個(gè)出色的特性:

OneFlowStableDiffusionPipeline.from_pretrained 能夠直接使用 PyTorch 權(quán)重。

OneFlow 本身的 API 也是和 PyTorch 對(duì)齊的,因此 import oneflow as torch 之后,torch.autocast、torch.float16 等表達(dá)式完全不需要修改。

上述特性使得 OneFlow 兼容了 PyTorch 的生態(tài),這不僅在 OneFlow 對(duì) Stable Diffusion 的遷移中發(fā)揮了作用,也大大加速了 OneFlow 用戶遷移其它許多模型,比如在和 torchvision 對(duì)標(biāo)的 flowvision 中,許多模型只需通過(guò)在 torchvision 模型文件中加入 import oneflow as torch 即可得到。

此外,OneFlow 還提供全局 “mock torch” 功能,在命令行運(yùn)行 eval $(oneflow-mock-torch) 就可以讓接下來(lái)運(yùn)行的所有 Python 腳本里的 import torch 都自動(dòng)指向 oneflow。

使用 OneFlow 運(yùn)行 Stable Diffusion

在 docker 中使用 OneFlow 運(yùn)行 StableDiffusion 模型生成圖片:

docker run --rm -it --gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v ${HF_HOME}:${HF_HOME} -v ${PWD}:${PWD} -w ${PWD} -e HF_HOME=${HF_HOME} -e HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN} oneflowinc/oneflow-sd:cu112 python3 /demos/oneflow-t2i.py # --prompt "a photo of an astronaut riding a horse on mars"

更詳盡的使用方法請(qǐng)參考:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

后續(xù)工作

后續(xù) OneFlow 團(tuán)隊(duì)將積極推動(dòng) OneFlow 的 diffusers(https://github.com/Oneflow-Inc/diffusers.git) 和 transformers(https://github.com/Oneflow-Inc/transformers.git) 的 fork 倉(cāng)庫(kù)內(nèi)容合并到 huggingface 上游的的對(duì)應(yīng)倉(cāng)庫(kù)。這也是 OneFlow 首次以 transformers/diffusers 的后端的形式開(kāi)發(fā)模型,歡迎各位開(kāi)發(fā)者朋友在 GitHub 上反饋意見(jiàn)。

值得一提的是,在優(yōu)化和加速 Stable Diffusion 模型的過(guò)程中使用了 OneFlow 自研編譯器,不僅讓 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快,而且也可以讓這樣的模型在國(guó)產(chǎn) AI 芯片和 GPU 上跑得更快,這些將在之后的文章中揭秘技術(shù)細(xì)節(jié)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34810

    瀏覽量

    277292
  • 人工智能
    +關(guān)注

    關(guān)注

    1805

    文章

    48913

    瀏覽量

    248084
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    3649

    瀏覽量

    43682

原文標(biāo)題:1秒出圖,這個(gè)開(kāi)源項(xiàng)目太牛了!

文章出處:【微信號(hào):TheBigData1024,微信公眾號(hào):人工智能與大數(shù)據(jù)技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供高效的加速能力。這種組合不僅簡(jiǎn)化了模型的部署和調(diào)用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場(chǎng)景。
    的頭像 發(fā)表于 04-14 10:22 ?410次閱讀

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時(shí)降低了擴(kuò)展測(cè)試時(shí)計(jì)算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化
    的頭像 發(fā)表于 03-20 15:03 ?603次閱讀

    從零復(fù)現(xiàn),全面開(kāi)源:360 Light-R1-14B/7B帶來(lái)端側(cè)AI平權(quán)時(shí)刻

    14B開(kāi)源颶風(fēng),360掀起端側(cè)推理性能革命
    的頭像 發(fā)表于 03-16 10:47 ?499次閱讀
    從零復(fù)現(xiàn),全面開(kāi)源:360 Light-R1-14B/7B帶來(lái)端側(cè)AI平權(quán)時(shí)刻

    探討DeepSeek-R1滿血版的推理部署與優(yōu)化策略

    TL;DR 春節(jié)假期開(kāi)始, 好像很多人都在開(kāi)始卷DeepSeek-R1的推理了. 渣B也被兄弟團(tuán)隊(duì)帶著起卷陣, 其實(shí)推理中還有很多約束
    的頭像 發(fā)表于 02-14 10:19 ?1334次閱讀
    探討DeepSeek-R1滿血版的<b class='flag-5'>推理</b>部署與優(yōu)化策略

    使用NVIDIA推理平臺(tái)提高AI推理性能

    NVIDIA推理平臺(tái)提高了 AI 推理性能,為零售、電信等行業(yè)節(jié)省了數(shù)百萬(wàn)美元。
    的頭像 發(fā)表于 02-08 09:59 ?664次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺(tái)提高AI<b class='flag-5'>推理性能</b>

    NVIDIA Jetson Orin Nano開(kāi)發(fā)者套件的新功能

    生成式 AI 領(lǐng)域正在迅速發(fā)展,每天都有新的大語(yǔ)言模型(LLM)、視覺(jué)語(yǔ)言模型(VLM)和視覺(jué)語(yǔ)言動(dòng)作模型(VLA)出現(xiàn)。為了在這充滿變革的時(shí)代保持領(lǐng)先,開(kāi)發(fā)者需要個(gè)足夠強(qiáng)大的平臺(tái)
    的頭像 發(fā)表于 12-23 12:54 ?1027次閱讀
    NVIDIA Jetson Orin Nano開(kāi)發(fā)者套件的新功能

    利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    PyTorch 是個(gè)廣泛應(yīng)用的開(kāi)源機(jī)器學(xué)習(xí) (ML) 庫(kù)。近年來(lái),Arm 與合作伙伴通力協(xié)作,持續(xù)改進(jìn) PyTorch 的推理性能。本文詳細(xì)介紹如何利用 Arm Kleidi 技術(shù)
    的頭像 發(fā)表于 12-23 09:19 ?998次閱讀
    利用Arm Kleidi技術(shù)實(shí)現(xiàn)PyTorch優(yōu)化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是個(gè)專為優(yōu)化大語(yǔ)言模型 (LLM) 推理而設(shè)計(jì)的庫(kù)。它提供多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?785次閱讀

    如何開(kāi)啟Stable Diffusion WebUI模型推理部署

    如何開(kāi)啟Stable Diffusion WebUI模型推理部署
    的頭像 發(fā)表于 12-11 20:13 ?511次閱讀
    如何開(kāi)啟<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> WebUI模型<b class='flag-5'>推理</b>部署

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門(mén)的深度學(xué)習(xí)框架尤為突出,許多企業(yè)均會(huì)選擇其作為開(kāi)發(fā) AI 應(yīng)用的庫(kù)。通過(guò)部署 Arm Kleidi 技術(shù),Arm 正在努力優(yōu)化 PyTorch,以加速在基于 Arm 架構(gòu)的處理器上運(yùn)行 LLM 的性能。Arm 通過(guò) Kleidi 技術(shù)直接集成到 PyTorch 中,
    的頭像 發(fā)表于 12-03 17:05 ?1442次閱讀
    Arm KleidiAI助力提升PyTorch上LLM<b class='flag-5'>推理性能</b>

    Arm成功Arm KleidiAI軟件庫(kù)集成到騰訊自研的Angel 機(jī)器學(xué)習(xí)框架

    KleidiAI 技術(shù)融入騰訊混元自研的 Angel 機(jī)器學(xué)習(xí)框架。這合作旨在提高移動(dòng)端人工智能 (AI) 服務(wù)的推理性能和效率,為用戶提供卓越
    的頭像 發(fā)表于 11-24 15:33 ?1233次閱讀

    澎峰科技高性能大模型推理引擎PerfXLM解析

    自ChatGPT問(wèn)世以來(lái),大模型遍地開(kāi)花,承載大模型應(yīng)用的高性能推理框架也不斷推出,大有百家爭(zhēng)鳴之勢(shì)。在這種情況下,澎峰科技作為全球領(lǐng)先的智能計(jì)算服務(wù)提供商,在2023年11月25日發(fā)布針對(duì)大語(yǔ)言
    的頭像 發(fā)表于 09-29 10:14 ?1382次閱讀
    澎峰科技高<b class='flag-5'>性能</b>大模型<b class='flag-5'>推理</b>引擎PerfXLM解析

    開(kāi)箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越推理性能

    近期,第五代英特爾?至強(qiáng)?可擴(kuò)展處理器通過(guò)了中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院組織的人工智能服務(wù)器系統(tǒng)性能測(cè)試(AISBench)。英特爾成為首批通過(guò)AISBench大語(yǔ)言模型(LLM)推理性能測(cè)試的企業(yè)
    的頭像 發(fā)表于 09-06 15:33 ?742次閱讀
    開(kāi)箱即用,AISBench測(cè)試展示英特爾至強(qiáng)處理器的卓越<b class='flag-5'>推理性能</b>

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國(guó)最具影響力的模型開(kāi)源社區(qū),致力給開(kāi)發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語(yǔ)言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的應(yīng)用價(jià)值。”
    的頭像 發(fā)表于 08-23 15:48 ?1073次閱讀

    實(shí)操: 如何在AirBox上跑Stable Diffusion 3

    StableDiffusion3Medium是種多模態(tài)擴(kuò)散變換器(MMDiT)文本到圖像模型,在圖像質(zhì)量、排版、復(fù)雜提示理解和資源效率方面具有顯著提升的性能。目前瑞莎團(tuán)隊(duì)
    的頭像 發(fā)表于 07-23 08:34 ?561次閱讀
    實(shí)操: 如何在AirBox上跑<b class='flag-5'>Stable</b> <b class='flag-5'>Diffusion</b> 3
    主站蜘蛛池模板: 激情网站网址 | 久久成人综合 | 亚洲一区二区三区深夜天堂 | 免费看男女下面日出水视频 | 一区二区手机视频 | 特级aaa毛片 | 久久草在线视频国产一 | 18视频免费网址在线观看 | 一本久草 | 欧美性受一区二区三区 | 欧美性色欧美a在线观看 | 456性欧美欧美在线视频 | 亚洲天天综合网 | xxx亚洲日本 | 国产免费午夜高清 | 天天操天天干天天透 | 天堂在线视频 | 午夜啪| 清朝荒淫牲艳史在线播放 | 久久就是精品 | 中文字幕一区二区三区精彩视频 | 天堂a| 亚洲精品影视 | 综合成人在线 | 永久免费在线播放 | 午夜免费啪视频 | 欧洲精品码一区二区三区免费看 | 午夜综合| 午夜小网站 | 狠狠色噜噜狠狠狠狠888奇米 | 午夜香港三级在线观看网 | 西西人体44rt高清午夜 | 午夜在线观看视频 | 中文字幕第8页 | 国产精品久久久久国产精品三级 | 亚洲电影av | 免费观看在线永久免费xx视频 | you ji z z日本人在线观看 | 人人看人人看人做人人模 | 日日久| 99久久精品免费看国产免费 |