1. 挑戰ARM!高通恩智浦等5家巨頭聯手組建新公司,專搞RISC-V
原文:https://mp.weixin.qq.com/s/Qov9c1oTKv0zPiTTm2IG-Q
最近,高通與恩智浦等5家巨頭宣布:
消息一出,不少觀點都認為這是要挑戰ARM的行業地位。彭博社表示,5家公司擰成一股勁兒的背后,反映的是全球芯片制造商對ARM技術過度依賴的擔憂。據了解,同樣是在這兩天,ARM被曝最快將于下個月進行首次公開募股,目標估值高達600億至700億美元。從汽車業務開始首先,簡單看一下這5家公司的來頭:高通不用多說,它在全球智能手機市場的出貨量僅次于聯發科,是高端智能手機芯片市場的霸主。恩智浦,則是全球第二大電動汽車芯片生產商。剩下3位也都來頭不小,分別是專攻物聯網市場的Nordic半導體、全球知名Tier1供應商博世以及德國芯片巨頭英飛凌(其中一大業務為汽車電子)。
我們可以看到,5家公司里面的“汽車含量”著實不算少。正如公告所說,這家聯合RISC-V公司的首要切入點,正是汽車領域,其總部就落址于德國。隨著技術的成熟,他們最終再轉移到移動和物聯網領域——而這正是高通目前最大的市場。事實上,作為ARM最大的客戶之一,高通對其早有擺脫之心。早在2019年,高通就開始投資知名RISC-V芯片設計廠商SiFive,去年,它更是領投了其1.75億美元F輪融資,該輪之后,SiFive估值超過25億美元,成為RISC-V芯片陣營首支獨角獸。除此之外,2021年之時,高通還斥資14億美元收購了蘋果前SoC工程師創立的Nuvia。有消息稱,最快在驍龍8Gen4時代,我們就會看到自研Nuvia架構和ARM架構的雙版本情況。有觀點認為,如果Nuvia版本能夠發揮其潛力,有望讓高通追趕蘋果手機芯片。值得一提的是,高通因為這筆收購,吃到了ARM的官司。ARM認為,Nuvia使用ARM許可證開發芯片設計,而高通在未經ARM同意的情況下獲得Nuvia許可,有違合同,侵犯ARM商標權。這差點讓高通和Nuvia的交易告吹。由此,這把官司也被不少人認為是高通與ARM之間的重大決裂。但高通此次和眾多巨頭一起繼續加碼RISC-V的真正原因,并不止如此。外媒Arstechnica分析,ARM作為全世界絕大多數移動設備芯片的核心,卻并沒有從其授權業務中賺到很多錢(跟其他芯片商相比簡直就是相形見絀的程度)。這導致其母公司軟銀很上火,一度想套現跑路以660億美元的價格賣給英偉達,結果被英國監管機構叫停。找不到好出路的ARM只好尋求單獨上市。為此,ARM也告知廣大客戶,預計其商業模式將發生“徹底改變”,并表示要收緊授權,資費漲幅可達數倍。于是在大家眼中,ARM已經變成一個“越來越不穩定的合作伙伴”,都想另謀出路。除了高通,還有無數人都想要挑戰ARM的壟斷地位。不過,到目前為止,還沒有一家公司能夠推出與ARM產品相媲美的高端RISC-V芯片。究其原因,ARM在各種生態尤其是軟件生態上已是行業內的標準。彭博社表示,ARM花了幾十年的時間才達到目前的水平,這些競爭對手在短時間內肯定是無法撼動其地位的。有保守估計,RISC-V要想ARM的壟斷至少也得個7-8年吧。而有網友表示:
從歷史上看,僅僅因為產品更便宜并不意味著它會成功,因為單位成本在大批量生產中并不重要。RISC-V必須在某些方面比ARM做得更好才能超越它。當然,還是希望RISC-V取得成功。
2. 直接用GPT-4控制空調,微軟免訓練方法讓LLM邁向工業控制
原文:https://mp.weixin.qq.com/s/iZKXZmBrEs-i-aG0NoGEYA
隨著大型語言模型(LLM)技術的日漸成熟,其應用范圍正在不斷擴大。從智能寫作到搜索引擎,LLM 的應用潛力正在一點點被挖掘。
最近,微軟亞洲研究院提出可以將 LLM 用于工業控制,而且僅需少量示例樣本就能達成優于傳統強化學習方法的效果。該研究嘗試使用 GPT-4 來控制空氣調節系統(HVAC),得到了相當積極的結果。
論文地址:http://export.arxiv.org/abs/2308.03028在智能控制領域,強化學習(RL)是最流行的決策方法之一,但卻存在樣本低效問題以及由此導致的訓練成本高問題。當智能體從頭開始學習一個任務時。傳統的強化學習范式從根本上講就難以解決這些問題。畢竟就算是人類,通常也需要數千小時的學習才能成為領域專家,這大概對應于數百萬次交互。但是,對于工業場景的許多控制任務,比如庫存管理、量化交易和 HVAC 控制,人們更傾向于使用高性能控制器來低成本地處理不同任務,這對傳統控制方法而言是巨大的挑戰。舉個例子,我們可能希望只需極少量的微調和有限數量的參考演示就能控制不同建筑的 HVAC。HVAC 控制可能在不同任務上的基本原理都類似,但是場景遷移的動態情況甚至狀態 / 動作空間可能會不一樣。不僅如此,用于從頭開始訓練強化學習智能體的演示通常也不夠多。因此,我們很難使用強化學習或其它傳統控制方法訓練出普遍適用于這類場景的智能體。使用基礎模型的先驗知識是一種頗具潛力的方法。這些基礎模型使用了互聯網規模的多樣化數據集進行預訓練,因此可作為豐富先驗知識的來源而被用于各種工業控制任務。基礎模型已經展現出了強大的涌現能力以及對多種下游任務的快速適應能力,具體的案例包括 GPT-4、Bard、DALL-E、CLIP。其中前兩者是大型語言模型(LLM)的代表,后兩者則能處理文本和圖像。基礎模型近來取得的巨大成功已經催生出了一些利用 LLM 執行決策的方法。這些方法大致上可分為三類:針對具體下游任務對 LLM 進行微調、將 LLM 與可訓練組件組合使用、直接使用預訓練的 LLM。之前的研究在使用基礎模型進行控制實驗時,通常選用的任務是機器人操控、家庭助理或游戲環境,而微軟亞洲研院的這個團隊則專注于工業控制任務。對傳統強化學習方法而言,該任務有三大難點:1) 決策智能體通常面對的是一系列異構的任務,比如具有不同的狀態和動作空間或遷移動態情況。強化學習方法需要為異構的任務訓練不同的模型,這樣做的成本很高。2) 決策智能體的開發過程需要很低的技術債(technical debt),這說明所提供的樣本數量不夠(甚至可能沒有),而傳統的強化學習算法需要大數據才能訓練,因此可能無法設計針對特定任務的模型。3) 決策智能體需要以在線方式快速適應新場景或不斷變化的動態情況,比如完全依靠新的在線交互經驗而無需訓練。為了解決這些難題,微軟亞洲研究院的 Lei Song 等研究者提出直接使用預訓練 LLM 來控制 HVAC。該方法只需少量樣本就能解決異構的任務,其過程不涉及到任何訓練,僅使用樣本作為少樣本學習的示例來進行上下文學習。據介紹,這項研究的目標是探索直接使用預訓練 LLM 來執行工業控制任務的潛力。具體來說,他們設計了一種機制來從專家演示和歷史交互挑選示例,還設計了一種可將目標、指示、演示和當前狀態轉換為 prompt 的 prompt 生成器。然后,再使用生成的 prompt,通過 LLM 來給出控制。研究者表示,其目的是探究不同的設計方式會如何影響 LLM 在工業控制任務上的表現,而該方法的很多方面都難以把控。
- 第一,盡管該方法的概念很簡單,但相比于傳統的決策方法,其性能表現還不明朗。
- 第二,基礎模型向不同任務的泛化能力(比如對于不同的上下文、動作空間等)仍然有待研究。
- 第三,該方法對語言包裝器不同設計的敏感性也值得研究(例如,prompt 中哪一部分對性能影響最大)。
- 開發了一種可將基礎模型用于工業控制但無需訓練的方法,其能以較低的技術債用于多種異構的任務。
- 研究者通過 GPT-4 控制 HVAC 進行了實驗,得到了積極的實驗結果,展現了這些方法的潛力。
- 研究者進行了廣泛的消融研究(涉及泛化能力、示例選取和 prompt 設計),闡明了該方向的未來發展。
該工作流程中的 LLM 和環境組件如下:LLM:一個預訓練大型語言模型,用作決策器。它會根據給出的 prompt 生成對應的響應。其 prompt 中應包含對當前狀態的描述、簡單的 HVAC 控制指令、相關狀態的演示等。環境:一個交互式環境或模擬器,可以執行 LLM 建議的動作并提供反饋。實驗中所使用的具體評估環境為 BEAR (Zhang et al., 2022a)。為了在 BEAR 中創建環境,必須提供兩個參數:建筑類型(如大型辦公室、小型辦公室、醫院等)和天氣條件(如炎熱干燥、炎熱潮濕、溫暖干燥等)。此外,值得注意的是,每種天氣狀況都對應于特定的城市。例如,炎熱干燥的天氣狀況與水牛城有關。在 BEAR 中,每個狀態都由一個數值向量表示,其中除了最后四個維度外,每個維度都對應于建筑物中一個房間的當前溫度。最后四個維度分別代表室外溫度、全局水平輻射(GHI)、地面溫度和居住者功率。在所有環境中,首要目標是保持室溫在 22 ℃ 附近,同時盡可能減少能耗。BEAR 中的操作被編碼為范圍從 -1 到 1 的實數。負值表示制冷模式,正值表示加熱模式。這些動作的絕對值對應于閥門打開程度,這能說明能耗情況。如果絕對值更大,那么能耗也就更大。在兼顧舒適度和能耗的條件下,研究者在實驗中使用了以下獎勵函數:
其中 n 表示房間數,T=22℃ 是目標溫度,t_i 表示第 i 個房間的溫度。超參數 α 用于實現能耗和舒適度的平衡。此外,該工作流程中還包含在線緩沖器、轉譯器、嵌入模型、專家演示數據集、KNN 模型、聚類模型、prompt 生成器等組件。其中 prompt 生成器的執行過程如圖 2 所示,其中紫色的文本僅用于說明,而非 prompt 的一部分。
實驗該研究通過實驗展示了 GPT-4 控制 HVAC 設備的效果,其中涉及不同的建筑物和天氣條件。只要能提供適當的指示和演示(不一定與目標建筑和天氣條件相關),GPT-4 的表現就能超過專門為特定建筑和天氣條件精心訓練的強化學習策略。此外,研究者還進行了全面的消融研究,以確定 prompt 中每個部分的貢獻。
3. A卡跑大模型,性能達到4090的80%,價格只有一半:陳天奇TVM團隊出品
原文:https://mp.weixin.qq.com/s/PxZ3ZYwGKTlii1nPka8EWg
英偉達 GPU 買不到的問題,就這樣解決了?
最近,科技領域有很多人都在為算力發愁。
自預訓練大模型興起以來,人們面臨的算力挑戰就變得越來越大。為此,人們為大語言模型(LLM)提出了許多訓練和推理的解決方案。顯然,大多數高性能推理解決方案都基于 CUDA 并針對英偉達 GPU 進行了優化。但在動輒千億參數的模型體量,多家科技公司激烈競爭,以及單一供應商的合力作用下,想搶到 GPU 又變成了一件難事。最近,微軟、OpenAI 等公司都表示正在采取必要措施來緩解用于 AI 任務的 H100、A100 專用 GPU 的短缺問題。微軟正在限制員工訪問 GPU 的時間,Quora 首席執行官表示,硬件短缺掩蓋了人工智能應用程序的真正潛力。伊隆?馬斯克還開玩笑說,企業級 GPU 比買「藥」還難。
旺盛的需求除了推動英偉達的股價,使其改變生產計劃之外,也讓人們不得不去尋求其他替代方式。好消息是,圖形芯片市場上并不只有 N 卡一家。昨天,卡耐基梅隆大學博士生侯博涵(Bohan Hou)放出了使用 AMD 顯卡進行大模型推理的新方案,立刻獲得了機器學習社區的關注。
在 CMU,侯博涵的導師是 TVM、MXNET、XGBoost 的作者陳天奇。對于這項新實踐,陳天奇表示,解決 AI 硬件短缺問題的方法還是要看軟件,讓我們帶來高性能、通用部署的開源大模型吧。
在知乎上,作者對于實現高性能 LLM 推理進行了詳細介紹:
通過這種優化方法,在最新的 Llama2 的 7B 和 13B 模型中,如果用一塊 AMD Radeon RX 7900 XTX 速度可以達到英偉達 RTX 4090 的 80%,或是 3090Ti 的 94%。除了 ROCm 之外,這種 Vulkan 支持還允許我們把大模型的部署推廣到其他 AMD 芯片類型上,例如具有 AMD APU 的 SteamDeck。如果粗略的比較一下規格,我們可以看到 AMD 的 RX 7900 XTX 與英偉達的 RTX 4090 和 RTX 3090 Ti 處于相近級別。它們的顯存都在 24GB,這意味著它們可以容納相同尺寸的模型,它們都具有相似的內存帶寬。
但是在算力上,RTX 4090 的 FP16 性能比 7900 XTX 高兩倍,而 3090 Ti 的 FP16 性能比 7900 XTX 高 1.3 倍。如果只考慮延遲敏感的大模型推理,其性能主要受內存限制,因此 FP16 性能不是這里的瓶頸。而看價格的話,RX 7900 XTX 比 RTX 4090 便宜 40% 還多(京東上看甚至有 50%),在消費級領域里前者幾乎是和 RTX 4080 對標的。3090Ti 的價格則很難比較,畢竟那是上一代產品。但從純硬件規格的角度來看,AMD 7900 XTX 似乎與 RTX 3090 Ti 相當。我們知道,硬件層的算力并不一定是 AMD 長期以來在機器學習上落后的原因 —— 主要差距在于缺乏相關模型的軟件支持和優化。從生態角度來看,有兩個因素已開始改變現狀:
- AMD 正在努力在 ROCm 平臺上增加投入。
- 機器學習編譯等新興技術現在有助于降低跨后端的,更通用軟件支持的總體成本。
針對 AMD GPU 和 APU 的 MLC人們對于 A 卡用于機器學習的探索其實并不鮮見,支持 AMD GPU 有幾種可能的技術路線:ROCm、OpenCL、Vulkan 和 WebGPU。ROCm 技術棧是 AMD 最近推出的,與 CUDA 技術棧有許多相應的相似之處。Vulkan 是最新的圖形渲染標準,為各種 GPU 設備提供了廣泛的支持。WebGPU 是最新的 Web 標準,允許在 Web 瀏覽器上運行計算。雖然有這么多可能的路線,但很少有解決方案支持除了 CUDA 之外的方法,這在很大程度上是因為復制新硬件或 GPU 編程模型的技術棧的工程成本過高。MLC-LLM 支持自動代碼生成,無需為每個 GPU 算子重新定制,從而為以上所有方法提供支持。但是,最終性能仍然取決于 GPU 運行時的質量以及在每個平臺上的可用性。在這個案例中,作者選擇 Radeon 7900 XTX 的 ROCm 和 Steamdeck 的 APU 的 Vulkan,可以發現 ROCm 技術棧是開箱即用的。由于 TVM unity 中具有高效的基于 Python 的開發流程,花費了若干小時來進一步提供 ROCm 的性能優化。具體來說,研究人員采取了以下措施來提供 ROCm 支持:
- 重用現有后端(如 CUDA 和 Metal)的整個 MLC 流水線,包括內存規劃、算子融合等。
- 重用 TVM TensorIR 中的通用 GPU 算子優化空間,并將其后端選為 AMD GPU
- 重用 TVM 的 ROCm 代碼生成流程,通過 LLVM 生成 ROCm 代碼。
- 最后,將生成的代碼導出為可以由 CLI、Python 和 REST API 調用的共享或靜態庫。
基于 ROCm5.6,AMD 7900 XTX 可以達到 NVIDIA 4090 速度的 80%。關于 CUDA 性能說明:在這里 CUDA baseline 的性能如何?據我們所知,MLC-LLM 是 CUDA 上大語言模型推理的最優解決方案。但作者相信它仍然有改進的空間,例如通過更好的 attention 算子優化。一旦這些優化在 MLC 中實現,預計 AMD 和 NVIDIA 的數據都會有所改善。如果這些優化僅在 N 卡那里實施,將使差距從 20% 增加到 30%。因此,在查看這些數字時,作者建議放置 10% 的誤差。自行嘗試該項目提供了預構建的安裝包和使用說明,以便用戶在自己的設備上復現新的結果。要運行這些性能測試,請確保你的 Linux 上有安裝了 ROCm 5.6 或更高版本的 AMD GPU。
4. 英偉達生成式AI超級芯片GH200,兩倍H100算力,黃仁勛:它會瘋狂推理
原文:https://mp.weixin.qq.com/s/B0agIPkI9R8Qee9s9x7BRA
等不及架構革新,英偉達「提前」發布了生成式 AI 專用的芯片。
當地時間 8 月 8 日,英偉達 CEO 黃仁勛在計算機圖形學頂會 SIGGRAPH 2023 上發布了專為生成式 AI 打造的下一代 GH200 Grace Hopper 平臺,并推出了 OVX 服務器、AI Workbench 等一系列重磅更新。
五年前,也是在 SIGGRAPH 大會的演講中,英偉達宣布將 AI 和實時光線追蹤引入 GPU ,可以說,當時的這個決定重塑了計算圖形學。
「我們意識到光柵化已經達到了極限,」黃仁勛表示:「這要求我們重塑硬件、軟件和算法。在我們用 AI 重塑 CG 的同時,也在為 AI 重塑 GPU。」
預言應驗了:幾年來,計算系統變得越來越強大,例如 NVIDIA HGX H100,它利用 8 個 GPU 和總共 1 萬億個晶體管,與基于 CPU 的系統相比,提供了顯著的加速。
「這就是世界數據中心迅速轉向加速計算的原因,」在今年的 SIGGRAPH 大會,黃仁勛重申:「The more you buy, the more you save.」
如今,訓練越來越大的生成式 AI 模型所需的計算未必由具有一定 GPU 能力的傳統數據中心來完成,而是要依靠像 H100 這樣從一開始就為大規模運算而設計的系統。可以說,AI 的發展在某種程度上只受限于這些計算資源的可用性。但黃仁勛斷言,這僅僅是個開始。新模型不僅需要訓練時的計算能力,還需要實現由數百萬甚至數十億用戶實時運行的計算能力。
「未來,LLM 將出現在幾乎所有事物的前端:人類就是新的編程語言。從視覺效果到快速數字化的制造市場、工廠設計和重工業,一切都將采用自然語言界面。」黃仁勛表示。在這場一個多小時的演講中,黃仁勛帶來了一系列新發布,全部面向「生成式 AI」。更強的 GH200 Grace Hopper 超級芯片平臺英偉達的 Grace Hopper 超級芯片 NVIDIA GH200 結合了 72 核 Grace CPU 和 Hopper GPU,并已在 5 月全面投入生產。現在,黃任勛又宣布 Grace Hopper 超級芯片將配備 HBM3e 高帶寬內存(HBM3e 比當前的 HBM3 快 50%),下一代 GH200 Grace Hopper 平臺將大幅提升生成式 AI 的計算速度。
全新的 GH200 內存容量將增加至原有的 3.5 倍,帶寬增加至 3 倍,包含一臺具有 144 個 Arm Neoverse 核心、282GB HBM3e 內存的服務器,提供 8 petaflops 的 AI 算力。為了提升大模型的實際應用效率,生成式 AI 模型的工作負載通常涵蓋大型語言模型、推薦系統和向量數據庫。GH200 平臺旨在全面處理這些工作負載,并提供多種配置。英偉達表示,這款名為 GH200 的超級芯片將于 2024 年第二季度投產。全新的 RTX 工作站和 Omniverse老黃還宣布,英偉達與 BOXX、戴爾科技、惠普和聯想等工作站制造商合作,打造了一系列全新的高性能 RTX 工作站。最新發布的 RTX 工作站提供多達四個英偉達 RTX 6000 Ada GPU,每個 GPU 配備 48GB 內存。單個桌面工作站可提供高達 5828 TFLOPS 的性能和 192GB 的 GPU 內存。
根據用戶需求,這些系統可配置 Nvidia AI Enterprise 或 Omniverse Enterprise 軟件,為各種要求苛刻的生成式 AI 和圖形密集型工作負載提供必要的動力。這些新發布預計將于秋季推出。新發布的 Nvidia AI Enterprise 4.0 引入了 Nvidia NeMo,這是一個用于構建和定制生成式 AI 基礎模型的端到端框架。它還包括用于數據科學的 Nvidia Rapids 庫,并為常見企業 AI 用例(例如推薦器、虛擬助理和網絡安全解決方案)提供框架、預訓練模型和工具。工業數字化平臺 Omniverse Enterprise 是 Nvidia 生態系統的另一個組成部分,讓團隊能夠開發可互操作的 3D 工作流程和 OpenUSD 應用程序。Omniverse 利用其 OpenUSD 原生平臺,使全球分布的團隊能夠協作處理來自數百個 3D 應用程序的完整設計保真度數據集。此次英偉達主要升級了 Omniverse Kit(用于開發原生 OpenUSD 應用和擴展程序的引擎),以及 NVIDIA Omniverse Audio2Face 基礎應用和空間計算功能。開發者可以輕松地利用英偉達提供的 600 多個核心 Omniverse 擴展程序來構建自定義應用。作為發布的一部分,英偉達還推出了三款全新的桌面工作站 Ada Generation GPU:Nvidia RTX 5000、RTX 4500 和 RTX 4000。全新 NVIDIA RTX 5000、RTX 4500 和 RTX 4000 桌面 GPU 采用最新的 NVIDIA Ada Lovelace 架構技術。其中包括增強的 NVIDIA CUDA 核心(用于增強單精度浮點吞吐量)、第三代 RT 核心(用于改進光線追蹤功能)以及第四代 Tensor 核心(用于更快的 AI 訓練性能)。
5. 賈佳亞團隊提出LISA大模型:理解人話「分割一切」,在線可玩
原文:https://mp.weixin.qq.com/s/ia7_55hfI-cs2wWalmk8yA
分割一切這事,又有一項重磅研究入局。
香港中文大學終身教授賈佳亞團隊,最新提出LISA大模型——理解人話,精準分割。
例如讓AI看一張早餐圖,要識別“哪個是橙子”是比較容易的,但若是問一句“哪個食物維他命C最高”呢?畢竟這不是一個簡單分割的任務了,而是需要先認清圖中的每個食物,還要對它們的成分有所了解。但現在,對于這種人類復雜的自然語言指令,AI已經是沒有在怕的了,來看下LISA的表現:
不難看出,LISA精準無誤的將橘子分割了出來。再“投喂”LISA一張圖并提問:
是什么讓這位女士站的更高?請把它分割出來并解釋原因。
從結果上來看,LISA不僅識別出來了“梯子”,而且也對問題做出了解釋。還有一個更有意思的例子。許多朋友在看到這個大模型的名字,或許會聯想到女子組合BLACK PINK里的Lisa。賈佳亞團隊還真拿她們的照片做了個測試——讓LISA找Lisa:
不得不說,會玩!基于LISA,復雜分割任務拿下SOTA根據發布的論文來看,LISA是一個多模態大模型,它在這次研究中主攻的任務便是推理分割(Reasoning Segmentation)。這個任務要求模型能夠處理復雜的自然語言指令,并給出精細的分割結果。
如上圖所示,推理分割任務具有很大的挑戰性,可能需要借鑒世界知識(例如,左圖需要了解“短鏡頭更適合拍攝近物體”),或進行復雜圖文推理(如右圖需要分析圖像和文本語義,才能理解圖中“柵欄保護嬰兒”的含義),才能獲得最終理想的分割結果。盡管當前多模態大模型(例如Flamingo[1], BLIP-2[2], LLaVA[3], miniGPT-4[4], Otter[5])使得AI能夠根據圖像內容推理用戶的復雜問題,并給出相應的文本分析和回答,但仍無法像視覺感知系統那樣在圖像上精確定位指令對應的目標區域。因此,LISA通過引入一個標記來擴展初始大型模型的詞匯表,并采用Embedding-as-Mask的方式賦予現有多模態大型模型分割功能,最終展現出強大的零樣本泛化能力。同時,這項工作還創建了ReasonSeg數據集,其中包含上千張高質量圖像及相應的推理指令和分割標注。那么LISA這種精準理解人話的分割能力,具體是如何實現的呢?
首先將圖像ximg和文本xtxt送到多模態-大語言模型F(在實驗中即LLaVA),得到輸出的文本結果,如果此時文本結果包含標記,則表示需要通過輸出分割預測來解決當前問題。反之,若不包含標記,則無分割結果輸出。如果存在標記,則將標記在多模態大模型F最后一層對應的embedding經過一個MLP層得到hseg,并將其與分割視覺特征f一起傳遞給解碼器Fdec(其中分割視覺特征f由輸入編碼器Fenc對圖像ximg進行編碼得到)。最終,Fdec根據生成最終的分割結果M。LISA在訓練過程中使用了自回歸交叉熵損失函數,以及對分割結果監督的BCE和DICE損失函數。實驗證明,在訓練過程中僅使用不包含復雜推理的分割數據(通過將現有的語義分割數據如ADE20K[6],COCO-Stuff[7]以及現有指代分割數據refCOCO系列[8]中的每條數據轉換成“圖像-指令-分割Mask”三元組) ,LISA能在推理分割任務上展現出優異的零樣本泛化能力。此外,進一步使用239個推理分割數據進行微調訓練還能顯著提升LISA在推理分割任務上的性能。而且LISA還表現出高效的訓練特性,只需在8張具有24GB顯存的3090顯卡上進行10,000次訓練迭代,即可完成7B模型的訓練。最終,LISA不僅在傳統的語言-圖像分割指標(refCOCO、refCOCO+和refCOCOg)上展現出優異性能,還能處理以下分割任務情景:⑴復雜推理;⑵聯系世界知識;⑶解釋分割結果以及⑷多輪對話。
在有復雜情景的ReasonSeg數據集上,LISA顯著領先于其他相關工作,進一步證明其出色的推理分割能力。
在線可玩值得一提的是,LISA的推理分割能力已經出了demo,可以在線體驗的那種。操作也極其簡單,只需填寫“指令”,然后上傳要處理的圖像即可。若是不會描述指令,Demo下方也給出了一些示例,小伙伴們也可以參照一下。
6. 吳恩達來信:LLMs能否理解世界?
原文:https://mp.weixin.qq.com/s/jcy8MdsYFQXVF4MLZIzrmw
親愛的朋友們,
大型語言模型 (LLMs) 能理解世界嗎?作為一名科學家和工程師,我會避免詢問人工智能系統是否“理解”某件事情。對于一個系統是否能真正理解——而不是看起來理解——目前還沒有得到廣泛認可的科學測試,就像我在此前一封來信中討論的,目前對于“意識”或“感知”也沒有這樣的測試。這使得“理解”問題成為了哲學問題,而非科學問題。這一警示的出現讓我相信LLMs已經建立了足夠復雜的世界模型,我有把握說,它們在某種程度上確實了解這個世界。
對我來說,對Othello-GPT的研究是一個令人信服的證明——LLMs建立了世界模型。也就是說,它們確實了解世界的真實面貌,而不是盲目地鸚鵡學舌。Kenneth Li和他的同事們訓練了一種GPT語言模型的變體,該模型是根據Othello的移動序列運行的。Othello是一種棋盤游戲,兩名玩家輪流在8x8的網格上放置棋子。例如,一個移動序列可能是d3 c5 f6 f5 e6 e3…,其中每對字符(如d3)對應在棋盤的某個位置放置棋子。
在訓練過程中,神經網絡只會看到一系列的移動,但這些動作是在正方形、8x8棋盤上的移動的,或游戲規則是什么并未明確告知。在對這類棋的大量數據集進行訓練后,神經網絡在預測下一步棋可能怎么走方面做得不錯。
關鍵問題是:這個網絡是通過建立一個世界模型來做出這些預測的嗎?也就是說,它是否發現了一個8x8的棋盤,以及一套特定的棋子放置規則,是這些規則支撐著這些移動嗎?開發人員們令人信服地給出了證明。具體來說,給定一個移動序列,網絡的隱藏單元激活似乎捕捉到當前棋盤位置的表達以及可用的合法走法。這表明,該網絡確實建立了一個世界模型,而不是試圖模仿其訓練數據的統計數據的“隨機鸚鵡”。
盡管這項研究使用了Othello,但我毫不懷疑在人類文本上訓練的LLMs也建立了世界模型。LLMs的許多“突發”行為——例如,一個經過微調以遵循英語指令的模型也可以遵循用其他語言編寫的指令——似乎很難解釋,除非我們將其視為“理解世界”。長期以來,人工智能一直在與“理解”這個概念作斗爭。哲學家John Searle在1980年發表了“中文房間論”。他提出了一個思想實驗:想象一下,一個說英語的人獨自呆在一個房間里,手里拿著一本操縱符號的規則手冊,他能把從門縫里塞進來的紙上寫的中文翻譯成英文(盡管他自己并不懂中文)。Searle認為電腦就像這個人。它看起來懂中文,但其實不懂。一個被當做系統回復的反駁觀點是,即使“中文房間”場景中沒有一個部分能理解中文,但這個人、規則手冊、紙張等整個系統都理解中文。同樣,我的大腦中沒有一個神經元能理解機器學習,但我大腦中包含所有神經元的系統就有可能理解機器學習。在我最近與Geoff Hinton的談話中,LLMs理解世界的概念是我們雙方都同意的一點。雖然哲學很重要,但我很少撰寫關于它的文章,因為類似的爭論可能會無休止地爆發,我寧愿把時間花在編程上。我不清楚當代哲學家對LLMs理解世界的看法,但我確信我們生活在一個充滿奇跡的時代!好了,我們還是回歸編程吧。 請不斷學習,吳恩達
———————End———————
點擊閱讀原文進入官網
-
RT-Thread
+關注
關注
31文章
1303瀏覽量
40287
原文標題:【AI簡報20230811期】LLM終于邁向工業控制,但它能否理解世界?
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯網操作系統】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論