1. SteerLM:解鎖在推理期間自定義模型響應
原文:https://mp.weixin.qq.com/s/QLfDjvMbBwL_dVEYQBXViA
國慶節剛過,NVIDIA悄悄發布一個開源軟件SteerLM。
在令人興奮的人工智能領域,像GPT-3、Megatron-Turing、Chinchilla、PaLM-2、Falcon和Llama 2等大型語言模型(LLM)以其出色的文本生成能力而備受關注。它們為自然語言生成帶來了顯著的進展,但它們仍然難以提供我們想要的精準結果。它們有時會像才華橫溢的音樂家一樣,不時彈奏錯誤的音符。那么,我們如何對這些模型進行微調,以使它們按照我們的意愿運行呢?這就是NVIDIA研究團隊最新創新SteerLM的出現,它承諾讓AI文本生成更加有趣和個性化。
語言模型革命
在深入了解SteerLM的奇妙之前,讓我們先了解一下背景。大型語言模型(LLMs)通過吸收大量來自互聯網的文本而學習。它們獲得了語言的超能力和對世界的廣泛知識。這使它們能夠執行諸如語言翻譯、回答問題甚至生成創意文本等任務。但問題是,當涉及按照您的具體指示操作時,它們有時會偏離目標。想象一下,當您要求廚師制作一份無麩質的比薩時,他們卻送上了一份普通的比薩。令人沮喪,對吧?這就是我們需要介入并向LLMs傳授一些經驗的地方。
當前方法
有一些方法可以教這些語言模型,例如受監督的微調(SFT)和來自人類反饋的強化學習(RLHF)。SFT有助于擴展它們的功能,但可能使它們的回應聽起來簡潔而機械化。另一方面,RLHF就像給它們配了個私人導師,但它非常復雜,不太用戶友好。
介紹SteerLM:我們需要的英雄
現在,我們來介紹我們故事的主角-SteerLM!這是由NVIDIA研究團隊開發的,它承諾在簡化過程的同時讓您更多地控制其回應。可以將其視為一種神奇的工具,使您可以輕松引導語言模型。
SteerLM的工作原理:四個步驟
SteerLM分為四個神奇的步驟:
-
屬性預測:想象它是一個質量控制檢查員。它學會了根據屬性(如幫助性、幽默和創意)來評估文本質量。
-
多樣性注釋:現在,我們有一支AI檢查員的隊伍,他們使用他們在第一步中學到的知識來評估不同的文本。這使得我們的模型更加多才多藝。
-
有條件的回應:這一步就是魔法發生的地方。我們訓練LLM生成與您想要的屬性相匹配的文本,比如幫助性或幽默。
-
反饋的微調:就像音樂家練習以提高一樣,我們的LLM會生成各種回應,同時追求最高的質量。然后這些回應會被評估,從而進行更多的微調。
-
為什么SteerLM是一個改變游戲規則的工具
SteerLM的美妙之處在于它的簡單性。與RLHF不同,它依賴于標準語言模型目標。它允許您在推斷時自定義模型,這意味著您可以告訴它您想要什么,它會按照您的意愿進行操作。與其他技術不同,其他技術要求您使用預先確定的偏好,這是一股清新的風。
SteerLM的超能力
SteerLM打開了不同應用領域的可能性:
-
游戲:是否曾經希望游戲中的角色能更機智一些?有了SteerLM,您可以定制它們的對話,使您的游戲體驗更加身臨其境和娛樂。
-
教育:針對所有的學生,告別了單調和不實用的AI回應。SteerLM確保AI保持友好和富有信息性的形象,以協助您的查詢。
-
企業:想象一下為組織中的多個團隊提供個性化的AI能力。SteerLM使這成為可能,簡化任務并增強全面的生產力。
-
可訪問性:控制敏感屬性對于遏制不希望的模型偏見至關重要。SteerLM讓您有能力確保AI的行為符合您的價值觀,促進公平和包容性。
這種靈活性意味著下一代AI系統將變成個人助手,理解和響應您的特定偏好。您與AI的互動將變得更加自然和根據您的需求進行定制。
民主化AI定制
讓SteerLM更令人興奮的是其用戶友好的方法。與其他需要專門基礎設施的高級定制技術不同,SteerLM保持簡單。它證明了您不需要復雜的強化學習來微調AI指令。
SteerLM利用標準技術,如受監督微調(SFT),簡化整個流程。它對現有基礎設施和代碼進行最少的更改,使定制更加容易讓開發人員實現。您只需要進行少量的超參數優化,就可以取得卓越的結果。
實際上,在實驗中,SteerLM 43B被證明是一個改變游戲規則的工具,超越了復雜的RLHF模型,如LLaMA 30B RLHF。它在Vicuna自動評估中獲得了平均分數655.75,使Guanaco 65B和LLaMA 30B RLHF相形見絀。這些結果凸顯了SteerLM的簡單培訓流程可以提供與更復雜技術相匹敵的定制AI模型的準確性。
總之,SteerLM是一個改變游戲規則的工具,簡化了AI定制,并使其更容易讓開發人員實現。借助這種創新方法,個性化AI系統的夢想比以往更近了。
為了提供全面的企業安全性和支持,SteerLM將集成到NVIDIA NeMo中,這是一個用于構建、定制和部署大型生成式AI模型的豐富框架。SteerLM方法適用于NeMo支持的所有模型,包括社區構建的熱門預訓練LLMs,如Llama 2、Falcon LLM和MPT。NVIDIA希望通過這種方式將催生更多研究,開發能賦予用戶權力而不是限制他們的模型。AI的未來可以通過SteerLM進行引導。
關于SteerLM論文:https://arxiv.org/pdf/2310.05344.pdf如何使用SteerLM定制的Llama-2-13b模型:
https://huggingface.co/nvidia/SteerLM-llama2-13B?mkt_tok=MTU2LU9GTi03NDIAAAGOwfy33eGcEv4-ZbMvTiwXkUlN9s8515pHjoPIhyqXch5Dtf9aFr8vYuJqViETh1qJ7LKnk9KSmOyRKdxM7cXrvyo0pevFqt0Y6jtocrL61m0XizeK-Q
2. 只要訓練足夠長時間,小模型也能超過大模型
原文:https://mp.weixin.qq.com/s/B1hJVssFT0XedqaPYPNoHA
2022 年 3 月,DeepMind 一篇論文《Training Compute-Optimal Large Language Models》通過構建的 Chinchilla 模型得出了一個結論:大模型存在訓練不足的缺陷,模型大小和訓練 token 的數量應該以相等的比例擴展。也就是說模型越大,所使用的訓練 token 也應該越多。
但事實可能并非如此,近日,博主 Thaddée Yann TYL 寫了一篇題為《Chinchilla 之死》的文章,其中分析解讀了 OpenAI 與 DeepMind 幾篇論文中的細節,得到了一個出人意料的結論:如果有充足的計算資源和數據,訓練足夠長時間,小模型的表現也可以超越大模型。
為了避免將算力浪費于緩慢的收斂過程中,進行外推是非常重要的。畢竟,如果你不得不步行去珠穆朗瑪峰,你不會只靠眼睛辨別方向,而是會使用 GPS。
但有時候,你又不得不把視線從 GPS 上移開,看看道路。有些東西是無法通過簡單的公式推斷出來的。對十九世紀的物理學家來說,紫外災變( Ultraviolet catastrophe)便是如此;而現在,LLM 亦是如此。我們估計在中心位置附近有效的東西可能在遠處會出現巨大的偏差……
《我的世界》的邊境之地(far lands),這是突然扭曲并與自身重疊的懸崖之地。
Chinchilla 到底是什么?
更小的模型執行的乘法更少,因而訓練得也更快。但是,按照理論,更小的模型最終會觸及自身知識容量的極限,并且學習速度會變慢;而有更大知識容量的大型模型在經過給定的訓練時間后會超過小模型,取得更好的性能表現。
在評估如何在訓練期間獲得最佳性價比時,OpenAI 和 DeepMind 都會試圖繪制帕累托邊界(Pareto frontier)。雖然他們沒有明確說明他們使用了該理論來繪制,但 OpenAI 曾說過的一句話暗示存在這個隱藏假設:
我們預計更大模型的表現應當總是優于更小的模型…… 大小固定的模型的能力是有限的。
這一假設是他們計算帕累托邊界的基石。在 Chinchilla 研究中,圖 2 展示了不同大小的模型經過大量訓練時的訓練損失變化情況。初看之下,這些曲線與理論相符:更小的模型一開始的損失更低(表現更好),但損失降低的速度最終變慢并被更大模型的曲線超越。
比較許多不同模型大小的損失曲線的 Chinchilla 圖。
在這幅圖中,每當更小的模型輸給一個更大的模型時,他們就會標記一個灰點。這些點連成的灰線便是帕累托邊界,這是他們計算縮放定律(scaling laws)的方式。
這一假設有個問題:我們不知道如果讓更小的模型訓練更長時間會發生什么,因為他們在小模型被超越時就不再繼續訓練它們了。
接下來在看看 Llama 論文。
Chinchilla 會有 Llama 的視野嗎?
今年初,Meta 訓練了四個不同大小的模型。不同于其它研究,其中每個模型都被訓練了非常長時間,較小的模型也一樣。
他們公布了所得到的訓練曲線:
四個不同大小的 Llama 模型的訓練損失曲線
-
每條曲線首先按照冪律大幅下降。
-
然后損失開始近乎線性地下降(對應于一個相當恒定的知識獲取率)。
-
在這條曲線的最右端,直線趨勢被稍微打破,因為它們稍微變更平緩了一些。
首先,對于曲線末端的變平情況,這里解釋一下人們可能有的一個微妙的誤解。這些模型都是通過梯度下降訓練的并且使用了可變的學習率(大致來說,這個超參數定義了每次朝梯度方向前進的程度)。為了獲得優良的訓練效果,學習率必須不斷降低,這樣模型才能檢測到源材料中更細微的模式。他們用于降低學習率的公式是最常用的余弦調度(cosine schedule)。
在余弦調度下,學習率與訓練步數的函數關系:學習率首先線性增長,然后下降且下降速度變快,之后到達中途一個轉折點,下降速度再減慢。
從這張圖中可以看到,在訓練結束時,余弦調度會停止降低學習率,此時已經得到一個很好的近乎線性的訓練損失曲線。學習速度減慢就是這種做法造成的。模型并不一定不再具有以同樣近乎線性的速率學習的能力!事實上,如果我們能為其提供更多文本,我們就能延長其余弦調度,這樣其學習率就會繼續以同樣速率下降。
模型的適應度圖景并不取決于我們供給它訓練的數據量;所以學習率下降趨勢的改變是沒有道理的。
不過這并非本文的重點。
訓練損失曲線可能在另一方向上也存在誤導性。當然,它們訓練使用的數據是一樣的,但它們處理這些數據的速度不同。我們想知道的并不是模型的樣本效率如何(在這方面,更大的模型顯然可以從其所見數據中學到更多)。讓我們想象一場比賽:所有這些模型同時開始起步,我們想知道哪個模型首先沖過終點線。換句話說,當在訓練時間投入固定量的算力時,哪個模型能在那段時間內學到更多?
幸好我們可以把這些損失曲線與 Meta 提供的另一些數據組合起來看:每個模型訓練所用的時間。
先來談談上面我們看過的那張 Chinchilla 圖,其僅占這張圖左側的一小部分。在這一小部分,可以看到 Chinchilla 記錄的相同行為。以 7B 版本為例:其損失的下降速度一開始比更大的模型快得多,然后減慢;之后 13B 版本模型超過了它,率先到達 1.9。
然后,抵達邊境之地,意外的轉折出現了:7B 版本進入了近乎線性的疆域,損失穩步下降,看起來似乎走上了反超 13B 版本之路?如果能訓練 7B 版本更長時間,說不好會發生什么。
但是,13B 和 33B 版本之間似乎也有類似的現象,其中 13B 版本起初的 Chinchilla 減慢也使其呈現出近乎線性的趨勢,這時候 13B 版本的損失下降速度似乎很快!33B 其實勝之不武,因為它超越 13B 版本時已經用去了超過兩倍的計算時間。
33B 和 65B 版本之間也有同樣的先減速再加速的現象,以至于 33B 實際上從未被 65B 超越。這幅圖的內容擊破了 OpenAI 和 Chinchilla 的假設:更大的模型并未取得勝利(至少說還沒有)。他們檢測到的這種減速實際上并不是由于達到了某個能力極限!
盡管如此,7B 模型的線還是有點不盡如人意。如果 Meta 能訓練更長時間就好了……
不賣關子了:他們訓練了!他們發布了 Llama 2!
是時候證實我們的懷疑了
四個不同大小的 Llama 2 模型的訓練損失曲線
同樣,可以得到訓練時間:
Llama 2 訓練損失與所耗費的 GPU 時間
一眼便能看出,這里的訓練損失曲線與 Llama 1 的不一樣,即便這些基礎模型是一樣的。事實證明, Llama 2 的訓練使用了雙倍上下文大小和更長的余弦調度 —— 不幸的是,這會對所有模型大小產生負面影響。但是,更小的模型受到的影響比更大的模型更嚴重。由此造成的結果是:在 Llama 1 的訓練時間,33B 模型總是優于 65B 模型;而在 Llama 2 的訓練時間,34B 模型則在重新超過 70B 模型之前要略遜一籌。
更重要的是,對訓練速度的比較強烈地佐證了之前對 Llama 1 的猜想:
-
一開始時,更小的模型快于更大的模型。
-
然后,更小的模型速度變慢,并被更大的模型超越(按照 Chinchilla)。
-
但再然后,模型進入近乎線性的區域,這時候更小的模型能更快地下降,獲取更優的知識,它們再次超越更大的模型。
這就帶來了一個有關訓練方法的結論:與普遍的看法相反,更大的模型會產生更差的結果。如果你必須選擇一個參數大小和數據集,你可能最好選擇 7B 模型,然后在數萬億 token 上訓練 7 epoch。
請看看 7B 模型近乎線性的區域,然后將其模式外推給 70B 模型,看看 70B 模型訓練停止時的情況:如果將 70B 模型的訓練資源花在 7B 模型上,可能會達到更低的困惑度!
從 Llama 2 的曲線還能看到另一點:Llama 1 曲線末端的學習減速實際上是余弦調度造成的。在 Llama 2 的訓練中,在對應于 1 萬億 token 讀取數的位置,就完全沒有這種減速。
事實上,原因可能是這樣的:在同一位置, Llama 2 7B 模型的質量低于 Llama 1 7B 模型,可能是因為其余弦調度被拉長了!
現在我們回到那篇 Chinchilla 論文來論證這一點。在該論文的附錄 A 的圖 A1 中,他們給出了一個不同余弦調度參數的消融實驗,換句話說就是對學習率曲線使用不同的延展方式。
Chinchilla 余弦調度消融研究
他們指出,當學習率曲線沒有延展時,能實現最低的損失。這得到了圖表的支持,但其中也有不對勁的地方。在讀取了 600 萬 token 后,上圖模型的訓練損失低于 2.8;與此同時,在相同的位置,下圖模型的訓練損失還更好。然而這兩個模型的差異僅僅是余弦調度!由于下圖模型注定會處理更多訓練數據,所以就計算了「未拉伸的」余弦調度更多步驟,這實際上產生了拉伸效果。如果學習率遵循分配給更少訓練步驟的余弦調度,其在同等訓練時間下的損失會更低。
更廣泛地說,這會引出一個有待解答的問題:如果余弦調度不是最優的,那么曲線的尾部形狀應該是什么樣子?
3. 突發!Hinton入局機器人創業,公司新獲9000萬投資
原文:https://mp.weixin.qq.com/s/GzWkNWJnQJDT1vjZeKZBLw
圖靈獎得主、深度學習之父Geoffrey Hinton的下一程,定了!
剛剛,Hinton親自宣布,將加入機器人初創公司Vayu Robotics,擔任顧問一職。
消息一出,網友們一水兒的Congratulations!
還有人說,這回機器人管家更有希望了。
今年5月,Hinton突然從任職十載的谷歌離職,轟動整個科技圈。
他本人當時表示,這么做是為了可以自由地討論人工智能風險。
自從離職后,這位AI教父收到邀約不斷,但都沒能吸引到他——直到Vayu Robotics出現。
所以這家名不見經傳的初創公司,憑什么?
Hinton給出的理由是,它們的技術路線和其他很多AI應用相比,AI道德風險更低。
當然Vayu Robotics自身實力也很強。
最近它們剛剛浮出水面,便拿下1270萬美元種子輪融資(折合人民幣約9271萬元);創始團隊成員也都來頭不小,被英偉達AI科學家Jim Fan稱為業內的“big names”。
不過還有一點非常關鍵——Vayu Robotics的CTO尼蒂什·斯里瓦斯塔瓦(Nitish Srivastava)為Hinton門下弟子。
他博士畢業于多倫多大學,在此期間他和Hinton等人共同提出了神經網絡中最常被用來防止過擬合的方法之一Dropout,目前論文被引次數已超過46000次。
這也是為啥Hinton說,這一回是和Nitish的再次合作。
而這也不是老爺子第一次和學生聯手創業了。
當年Hinton會加入谷歌,正是因為谷歌收購了他和學生共同創辦的DNNResearch。
Vayu Robotics是誰?
所以,情況類似的Vayu Robotics,同樣不可小覷。
這家初創公司成立于2021年,直到最近才偷偷殺入眾人視野,首條官宣消息就是拿下1270萬美元種子輪融資,在圈內立刻引發不小轟動。
雖然公司名字中帶有機器人(Robotics),但是Vayu Robotics強調自己是“一家AI公司”。
Vayu是梵文中“智慧”的意思。
它使宇宙中所有的運動和所有能量活動成為可能。
公司在傳感器、機器學習和產品開發三方面布局,旨在提供高質量、低成本的機器人。
目前已經開發出了一個小型送貨機器人。
Hinton透露,這種機器人消耗的能量僅為汽車(時速50英里)的1%,而且剎車距離很短,能具備更高的安全性。
Vayu表示這個機器人基于純AI視覺方案,沒有使用激光雷達、高精地圖。
Vayu Robotics強調他們以自動化為第一原則,會優先考慮機器人的成本和部署問題。
目前也在開發自動駕駛基礎模型和傳感技術。
最新拿下的種子輪融資,將用于多個領域的AI機器人開發,包括無人配送、工廠、汽車場景。
公司創始陣容非常豪華。
CTO為Hinton弟子尼蒂什·斯里瓦斯塔瓦(Nitish Srivastava)。
除了和Hinton共同提出了大名鼎鼎的Dropout外,他還參與開發了最早用于無監督視頻學習LSTM模型。
其參與創辦的Clarevision Research被蘋果收購,隨后他一同加入蘋果,擔任研究科學家,負責感知與規劃相關的自主系統開發。
2022年他正式加入Vayu,成為聯合創始人之一。
公司CEO為阿南德·戈帕蘭(Anand Gopalan)。
這位工業界大佬在創辦Vayu前,曾是激光雷達巨頭Velodyne Lidar的CEO。
阿南德早期為集成電路工程師,曾先后在川崎微電子、Rambus任職。
2016年正式加入Velodyne Lidar。最初擔任CTO,負責監督技術和產品開發,2020年后擔任CEO。
2021年阿南德離職,開始創辦Vayu。
另一位聯合創始人馬赫什?克里希那穆提(Mahesh Krishnamurthi)也曾在蘋果和美國第二大打車應用公司Lyft任職。
結合Vayu Robotics的背景來看,Hinton決定加入其中擔任顧問,也就不那么意外了。
相較于大模型等,Vayu想做的無人配送機器人、工廠機器人等,涉及的AI倫理問題更少,落地路線更加安全;而且還有實力超強的創始團隊領銜。
要知道,Hinton被譽為“人工智能教父”,長期關注AI技術的應用和管控。
他人生中每次重大選擇,都是希望能讓如此強大的AI技術,確??梢员豢煽乩?。
今年離開谷歌是出于這樣的考慮。
最早加入谷歌亦是如此——當時DNN Research的收購中,谷歌并非出價最高的那一個。Hinton選擇谷歌,也有這方面原因。
包括更早之前離開卡內基梅隆大學,選擇去多倫多大學任教,也是因為不想拿軍方經費做研發,讓AI為軍事所用。
回到最近來看,在過去5個月的GAP中,Hinton的動向也都圍繞探討人工智能風險展開。
5個月空窗期,Hinton都在干啥?
此次加入Vayu機器人公司,距離Hinton離開谷歌已經過去了5個月。
今年5月,Hinton官宣離職,辭去谷歌的副總裁和工程研究員職務,結束了自己在谷歌的十年工作生涯。彼時《紐約時報》爆出消息,Hinton在4月提出了離職。
辭職的理由一言以蔽之,是對人工智能風險的擔憂。
他在推特上明確表示,選擇離開,“是為了可以自由談論AI的風險”。
這就不得不說到Hinton對AI風險的濃烈隱憂。
啥原因呢?一方面是他深感AI將對就業市場造成巨大影響;更進一步的,他非常擔心有朝一日那種具有自主能力的殺手機器人,會成為現實。Hinton談到,AI實際上可以比人類擁有更聰明的想法,但他沒料到AI的發展速度會像過去幾個月那樣一日千里。
本來在他眼中,達到這種速度和高度,怎么也得要個三五十年的。
這樣的發展速度加重了這位深度學習之父的憂慮,甚至直言不諱:
我對自己畢生的工作,感到非常后悔。 我只能安慰自己說,如果我沒有這么做(推動AI的發展),還會有其他人。
作為圖靈獎得主,又是深度學習三巨頭之一,Hinton的此番言論果然引起了軒然大波。
許多人表示對此不理解,跑到他的推特下激情發問,認為控制AI的風險不應該是延緩發展它,而是有別的什么辦法。
言論風波也波及了前東家,畢竟谷歌現在正在大模型時代激流勇進。谷歌研究首席科學家、高級副總裁Jeff Dean不得不出面發表了份聲明:
我們仍會堅持對AI采取負責任的態度。我們在不斷學習理解新出現的風險時,也在大膽創新。
離職后的Hinton對AI風險的擔憂并未停歇,并且持續在公開露面中持續對外輸出。
6月,Hinton主要在兩個地方發聲,一是國內的智源大會,二是和吳恩達的對話。
在智源大會上他表達的觀點是,超級智能會失控,但目前他還想不到什么好的方法阻止它們:
一旦它(超級智能)變得善于欺騙人,就能掌握讓人們做任何事的方法……我覺得這很可怕,但我看不出如何防止這種情況發生,因為我老了。 我希望,像你們這樣的年輕有才華的研究人員,會搞懂我們如何擁有這些超級智能,并讓我們生活得更好。
僅僅時隔幾天后與吳恩達的對話系列,聊的也是——
AI究竟存在哪些風險?
Hinton繼續拉響著AI風險的警報,主要輸出了兩個觀點:
第一,所有科學家必須針對“AI風險”議題好好聊聊,以便于制定良好的政策;
第二,AI確實在理解世界??茖W家們需要列出其中的關鍵技術問題,這有助于在AI安全議題上達成共識。而達成共識的關鍵點,是“GPT-4和Bard這類對話大模型是否真的理解它們自己在說什么”
6月之后,Hinton整個人呈現出了一種“半退網”狀態,既沒有在社交平臺或媒體采訪中頻繁出現,也沒有公布自己下一站到底去哪。
但這樣一位巨佬仍然被外界聚光燈緊緊鎖定。
9月,《時代》周刊發布世界AI最具影響力人物榜,齊聚100位學界業界大咖。
Hinton和其他2位深度學習巨頭一起,位列“思想者”之列,并且是上榜人士中,年紀最長者(76歲)。
等老爺子再一次公開露面,是3天前接受媒體《60分鐘》的采訪。
他肯定了AI做出的貢獻,但還是再次表示了對AI可能會接管人類的擔憂。
Hinton這回是這么說的:
隨著AI對更復雜任務的處理,對于人類而言,其內部運作會變得越來越神秘且不可知。 AI有一天可能會取代人類。我不是說這事兒一定會發生,但如果能阻止AI永遠不想這樣做,那就太好了。
此外,他的擔心又新增了一項,那就是怕AI系統會自己編寫代碼,對自己進行修改——這么一來,人類更有可能失去對AI的控制了。
最后,Hinton語重心長地說,是時候了!
是時候該進行實驗來更好地理解AI,并通過法律來確保技術被合理使用。
如今,已經75歲的Hinton顯然還沒打算退休,要在把控AI道德和風險的道路上繼續身體力行。
由此我們也可以期待,他和“年滿2歲”的Vayu Robotics,未來會擦出哪些火花?
4. 當YoloV8與ChatGPT互通,這功能是真的強大!后期打通語音試試
原文:https://mp.weixin.qq.com/s/Zmg10_4ywkg1OdZ77uF7CA
01 簡介
ChatGPT(全名:Chat Generative Pre-trained Transformer),是OpenAI研發的聊天機器人程序,于2022年11月30日發布。ChatGPT是人工智能技術驅動的自然語言處理工具,它能夠通過理解和學習人類的語言來進行對話,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務。
現在的ChatGPT都是輸入文字、圖片或者語音,那如果將檢測網絡或者更上層一點的東西,把視覺與ChatGPT對接,會不會有不一樣的火花?
02 嘗試與設計
注冊OpenAI賬號并創建API密鑰:首先需要注冊OpenAI賬號,并在Dashboard中創建API密鑰以便后續使用。
可以通過pip install openai命令來安裝OpenAIPythonSDK,這樣就可以在Python代碼中使用ChatGPT進行對話了。
調用API進行對話:可以使用SDK中提供的completions方法來調用API進行對話,需要傳入API密鑰和輸入文本,API會返回生成的回復文本。
集成到應用中:可以將ChatGPT集成到應用中,例如網站或移動應用程序,使用戶可以與ChatGPT進行對話。集成方式有很多種,可以根據具體應用場景選擇合適的方式。
需要注意的是,ChatGPT是基于大規模的語言模型訓練而成的,對話過程中可能會出現一些不準確或不恰當的回復。因此,在實際應用中需要謹慎評估ChatGPT的表現,并根據實際情況進行調整和優化。
YoloV8搭建
下載庫——ultralytics
pip install ultralytics
運行測試
yolo predict model=yolov8n.pt source='https://ultralytics.com/images/bus.jpg'
接下來就是打通視覺模型和ChatGPT的交流,先看一個例子!首先從網上下載一段視頻,然后開始進行Sao操作:
準備好素材就開始表演!
先進入搭建好的系統中,進行啟動:
然后就開始進入新的世界了
然后接入視頻并啟動Yolov8實時檢測:
然后這邊我對其說:
Lock the area on the right for real-time detection
此時一直在實時檢測中:
然后輸入有一個屏幕被打開,進行了檢測可視化展示:
前面感覺檢測的效果不是很好,就重新輸入一段指令:
Direct detection of fire extinguishing stages
由于整體檢測網絡沒有怎么優化訓練,直接檢測,效果不理想,但是與ChatGPT的聯動還是有效果,這種有沒有聯想到流浪地球的MOSE。
這種能力如果全面打開,是不是在現實生活中,實時視頻中,和ChatGPT對話,比如看中視頻中的一鍵衣服,是不是GPT就可以自己去網上搜索,給出最優惠價格的鏈接(GPT幫用戶去比價),然后把鏈接推送給用戶。這些都是一種可能,也是GPT真正應該落地的應用。
5. 有意見 | 投入巨大的大模型 不掙錢?
原文:https://new.qq.com/omn/author/8QMd3XZe7YMcuT%2Fa
據爆料: 用戶量高達150萬的AI編程工具GitHub Copilot,平均每月每用戶倒貼20美元,最高能達80美元。OpenAI運行ChatGPT,每日投入成本可能高達70萬美元。雖然隨著能源等成本的下降,未來大模型計算成本也會隨之下降,但目前這一運行成本,依舊無法被會員價所填補。與此相對的是AI繪畫,Midjourney用戶數一路飆升到近1500萬,已成功實現2億美元的年收入。
“有意見”留言板
@出來混總是要還:如果AI不掙錢英偉達也不會是贏家,最終怎么掙的還會怎么吐出來。故意構建虛假繁榮借機抬高顯卡價格,投資由“礦工”轉型的算力服務公司,依靠金融戲法賺錢也是黃教主的拿手好戲。技術這個工具用在創造生產力價值上才是掙錢的正道。
@Betty:大型語言模型和AI繪畫產品在商業化上面臨多重挑戰。語言模型如GitHub Copilot虧損嚴重,主要原因在于高昂的運營成本和宣傳費用。用戶尚未充分認識到生成式AI的實際價值,這導致了宣傳的困難。相比之下,AI繪畫產品似乎更容易實現盈利,因為它們的商業模式更明確,允許用戶將作品用于商業用途。但它們也面臨計算成本上升的挑戰。總之,這兩種技術都有潛力,但需要克服成本和市場推廣等問題,以實現商業成功。
@nv:全球科技巨頭在大模型上的投入雖然巨大,但目前看來并未帶來預期的盈利。主要問題在于高昂的運行成本和版權成本,以及大模型自身的落地場景和應用價值仍待挖掘。然而,AI繪畫產品卻已經開始盈利,其成功的關鍵在于產品價值點明確,用戶可以立即將作品用于商業使用。
6. 甲骨文召開CloudWorld 2023大會,積極擁抱生成式AI
原文:https://new.qq.com/rain/a/20231006A06MKF00
在近日于拉斯維加斯召開的年度CloudWorld會議上,甲骨文表示正在全力發展生成式AI,絕不會看著自己最大的競爭對手亞馬遜云科技(AWS)占領市場。
在討論本屆CloudWorld大會之前,我們先回顧一下今年9月14日,甲骨文公司與微軟宣布建立的最新合作伙伴關系。雙方協定將Oracle數據庫服務置于微軟Azure的Oracle云基礎設施(OCI)之上。新的Oracle Database@Azure將令微軟和甲骨文成為全球僅有的兩家OCI超大規?;A設施運營商,可幫助客戶簡化云遷移、部署與管理流程。特別是考慮到兩位合作伙伴將保證提供完全均等的服務價格和授權許可,因此客戶能夠隨意選擇自己熟悉的云環境、并保證使用成本不受任何影響。
這究竟有什么影響?簡單來說,以往只能在OCI上使用的數據庫服務,現在也可以運行在帶有Oracle Exadata服務器硬件的Azure實例當中了,且這批硬件就安裝在微軟所擁有的Azure數據中心之內。這使得分析、批量報告和其他任務都能在數據庫內/各數據庫間同時運行。于是乎,原本仍在猶豫要不要全面上云的用戶也可以全力投入,不必擔心跨云環境所會引發性能問題、供應商鎖定或者強制要求重新設計工作流程。總而言之,這是一項重大舉措,將幫助甲骨文和微軟更好地與云市場的絕對領導者AWS展開競爭。
那么,這一切與甲骨文的CloudWorld大會有什么關系?當然有,如今的科技領域內一切之間都有著千絲萬縷的關聯。合作伙伴關系是推進制勝戰略的前提,而甲骨文和微軟似乎都覺得自己有機會在生成式AI這條新賽道上有所表現。而且更重要的是,Oracle Database@Azure還只是合作的第一步。
CloudWorld 2023大會:聚焦于生成式AI
如今是2023年,任何不關注生成式AI問題的活動都沒有資格被稱為科技盛會。在本屆CloudWorld會議期間,甲骨文發布了大量當前或計劃在服務組合中發布的生成式AI功能。下面來看其中幾個代表性案例:
AI向量搜索:甲骨文宣布,計劃在其Oracle Database 23c中添加使用AI向量的“語義搜索功能”。AI向量搜索功能包括新的向量數據類型,以及向量索引/搜索SQL,使其能夠存儲按相似性組織起來的圖像、音頻、文本文檔及其他非結構化數據等語義內容??偠灾@將幫助客戶更快、更輕松地整合并訪問更多數據,而AI向量搜索更讓專用數據在檢索增強生成(RAG)中的使用成為可能。所謂檢索增強生成,是一種將上下文添加至已訓練AI模型中以實現關聯性改進的機制,相關用例包括產品建議、圖像搜索和傳感器數據分析等。
AI主導的生成式AI服務:甲骨文推出一項新的托管服務,允許企業通過API將大語言模型接口集成至自己的應用當中。該服務采用Cohere大語言模型構建而成,但用戶也可以使用自有數據對該模型進行更新??捎玫哪P凸δ馨睿ㄉ晌谋荆⒖偨Y(總結抽象信息)和嵌入(將文本轉換為數字向量以供大語言模型使用)。
與Cohere的合作伙伴關系、包括甲骨文使用Cohere大語言模型推進企業級生成式AI的計劃,宣布于2023年6月,也就是三個月之前。沒錯,如今的生成式AI浪潮就是這么迅猛。
MySQL HeatWave:甲骨文添加了新的Vector Store,借此向企業客戶開放其MySQL HeatWave數據分析云服務。此服務可以攝取多種格式的文檔,并將其存儲為通過編碼器模型生成的“嵌入”,從而加快查詢運行速度。其中的生成式AI功能包括由大語言模型驅動的操作界面,允許使用者通過自然語言與之交互。甲骨文還將智能湖倉功能添加至亞馬遜云科技的MySQL HeatWave當中,幫助客戶輕松映射并查詢存儲在Amazon S3中的TB級數據,且無需支付出口費用。
Fusion Cloud Suites迎來生成式AI更新:除了上述公告之外,幾乎所有Fusion Cloud服務(包括客戶體驗、人力資本管理、企業資源規劃和供應鏈管理)也都迎來了生成式AI的加持。另外,面向醫療保健服務商的全新Oracle Clinical Digital Assistant也已上線。總之,各類Fusion Cloud套件都將為醫療保健領域的客戶提供更加有力支持。
CloudWorld 2023大會:關注愿景,也關注價值
與微軟上周專門展示具體產品和解決方案的活動不同,甲骨文的CloudWorld 2023大會似乎并不特別關注已經做到了什么,而是更多強調甲骨文眼中未來的潛在形態。據了解,甲骨文計劃將生成式AI嵌入自家全部產品,并將預先開發50個用例,未來將有更多用例由客戶自行設計和驅動。此外,會議還特別關注在生成式AI的落地過程中,甲骨文是否始終將客戶數據的安全放在首位。
更重要的是,CloudWorld還表明如果說云是新的前沿,那么生成式AI就是拓展和鞏固該前沿的又一武器,甚至可以說是決定性力量。所以盡管甲骨文與目前生成式AI領域的主導者微軟僅在Oracle Database@Azure上保持合作,但相信二者后續的合作前景將不可限量。
雖然甲骨文沒有公布具體定價,但表示客戶一直熱切期望能把生成式AI功能引入企業級應用程序。另外AI不會作為額外的功能選項,而是獨立產品。確實令人相當期待,可也必須承認,在搞清楚AI普及的后果之前就貿然行動似乎有點魯莽。
總之,本屆CloudWorld大會帶來了激動人心的時刻,也是生成式AI起步階段的又一標志性事件。只是在萬眾爭先的大背景下,不知道有沒有哪位科技巨頭愿意先退后一步、想清楚“我們到底要前往何處”。
———————End———————

點擊閱讀原文進入官網
-
RT-Thread
+關注
關注
32文章
1412瀏覽量
41971
原文標題:【AI簡報20231013期】投入巨大的大模型,不掙錢?或許會被小模型超過!
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯網操作系統】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論