最近在GitHub上發現了一個爆火的開源項目,star數一頓暴增。
好家伙,湊近一看,居然還是由微軟開源,并且和最近炙手可熱的ChatGPT息息相關。
項目的名字叫做:Visual ChatGPT。
https://github.com/microsoft/visual-chatgpt
https://github.com/microsoft/visual-chatgpt
這個項目最早是3月上旬微軟開源的,項目宣布開源后僅用了短短一周,就斬獲了2w+ star。
截止到目前,距離當初項目開源僅僅過去了3周多,倉庫star數則來到了27k+,亦可謂是火箭式上漲。
眾所周知,ChatGPT自2022年11月推出以來,持續走紅。
ChatGPT具備強大的會話能力,可以理解文字、聊天、寫小說、解答問題、編寫代碼... 但是目前還并不能直接處理或生成圖像。
而Visual ChatGPT這個項目則可以把ChatGPT和一系列視覺基礎模型(VFM,Visual Foundation Model)給聯系起來,以便實現在ChatGPT聊天的過程中來發送和接收圖像,也使得ChatGPT能夠處理更為復雜的視覺任務。
講白了,就是通過Visual ChatGPT,可以把一系列視覺基礎模型給接入ChatGPT,使得ChatGPT能勝任更為復雜的視覺處理任務。
Visual ChatGPT的整體技術架構圖如上所示,我們可以清楚地看到ChatGPT和視覺基礎模型(VFM,Visual Foundation Model)分別位于其中的位置。
一方面,ChatGPT(或LLM)作為一個通用接口,繼續發揮它本身的優勢,提供對不同話題的智能理解。
另一方面,基礎視覺模型VFM則通過提供特定領域的深入知識來充當領域專家,它們通過交互管理模塊(Prompt Manger)進行連接和適配。
這樣聊可能比較抽象,我們可以拿官方給的一個例子來進行說明:
1、首先是用戶:輸入一張黃色的向日葵圖片,并且要求ChatGPT根據該圖像預測深度來生成一朵紅花,然后再一步一步將其做成卡通畫。
2、接著是交互管理模塊(Prompt Manger)發揮作用,在它的協調和控制下,VFM模塊開始發揮作用:
首先需要運用深度估計模型來預測并生成圖像的深度信息;
然后需要運用深度圖像模型來生成對應空間深度的紅花圖像;
最后運用Stable Diffusion的風格遷移模型來完成圖像風格的變換。
3、最后Visual ChatGPT系統再將最終結果返回給用戶,完成本次對話。
說到這里,有興趣的小伙伴可以可以看看微軟給出的一篇有關Visual ChatGPT的論文:https://arxiv.org/pdf/2303.04671.pdf
https://arxiv.org/pdf/2303.04671.pdf
里面關于這部分的流程解釋得非常詳細,而且還給出了多輪對話的案例、以及實驗結果,有興趣的小伙伴可以看看。
審核編輯 :李倩
-
開源
+關注
關注
3文章
3542瀏覽量
43328 -
視覺
+關注
關注
1文章
153瀏覽量
24250 -
ChatGPT
+關注
關注
29文章
1585瀏覽量
8700
原文標題:一個令人驚艷的ChatGPT項目,開源了!
文章出處:【微信號:CodeSheep,微信公眾號:CodeSheep】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
開源項目!Open Echo:一個開源的聲納項目
Open Echo:一個開源的聲納項目


能和Ai-M61模組對話了?手搓一個ChatGPT 語音助手

開源項目!教你如何制作一個開源教育機械臂
開放原子開源基金會與三個開源項目舉行捐贈簽約儀式
凌蒙派OpenHarmony開源項目榮獲本期Gitee官方推薦

SensiML開源了Analytics Studio AutoML引擎

評論