在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Vokenization是一種比GPT-3更智能的視覺語言模型

腦極體 ? 來源:腦極體 ? 作者:腦極體 ? 2020-11-18 10:20 ? 次閱讀

學習人工智能,最好的辦法就是先考上大學,學好計算機和數學,其次就是生個孩子。這可不是一個段子。有了孩子之后,你會能更好理解人工智能到底是如何發生的。看著一個牙牙學語的小嬰兒開始對這個世界發生好奇,終于有一天開始指著一個毛茸茸的東西叫出“貓咪”的時候,你可能就會理解教會一個孩子說話并不比教會人工智能認出一只貓更容易。

人工智能靠大量的算力和數據,而人類靠著五感,還有我們那個低功率的大腦。不過,很快你就會對小孩子的學習能力驚訝不已,他會指著各種他不認識的東西問你“這是什么”,直到你不勝其煩。等到再長大一些,小孩子就不會滿足于僅僅知道這些東西的名字,開始想你發問“為什么會這樣”,再次把你問到山窮水盡。

我們知道,現在人工智能領域,圖像識別和自然語言處理(NLP)正處在如日中天的發展階段。在眾多單項上面,圖像識別的能力要遠遠高于普通人,甚至比專家還好,NLP的翻譯、聽讀、寫作能力更是與專業人士不相上下,特別今年推出的GPT-3,更是以超大參數規模這種氪金方式來實現逆天的寫作能力。

但這又怎樣?盡管GPT-3可以編造出一大段看起來很真實的假新聞,但它仍然是靠著過去的文本經驗來認知世界的,它會在很多常識性的問題上犯下低級錯誤,比如在回答“太陽有幾只眼睛”的反常識問題上,GPT-3照樣一本正經的給出“太陽有一只眼睛”的答案。如果是一個人第一次碰到這種問題,它往往并不是從文本里找答案,而是真的會去看一眼太陽的。而這正是我們人類掌握語言、傳遞信息最常見的一種方式。

受此啟發,最近北卡羅來納大學教堂山分校的研究人員設計了一種新的AI模型來改變GPT-3的這種缺陷,他們把這一技術稱之為“Vokenization”,可以賦予像GPT-3這樣的語言模型以“看”的能力。這個思路很好理解,我們從來不是靠一種方式來認識世界的,而把語言處理和機器視覺聯系起來,才能更好地讓人工智能來接近人的認識能力。那么這種“Voken”技術到底好不好用,正是本文要重點介紹的。

無所不能的GPT-3,卻“不知道自己在說什么”

今年5月份正式出道的GPT-3,一度成為“無所不能”的代名詞,OpenAI推出的這個第三代NLP語言模型,包含1750億個參數,采用了英文維基百科、數字化圖書、互聯網網頁等超大規模語料進行訓練,是現有的規模最大、也最復雜的語言模型。從GPT-3對外API接口開放之后,研究者就從GPT03的強大文本生成能力中挖掘出層出不窮的應用,從答題、寫小說、編新聞到寫代碼、做圖表等等。但GPT-3也印證了“出道即巔峰”這句話,也是從一開始就爭議不斷。人們對其實際的應用前景表示極大的懷疑。

我們復習下GPT-3的作用原理。GPT-3采用的是少示例(Few-shot)學習的方式,對于一個特定的語言任務,只需要給定任務描述,并給出幾個從輸入到輸出的映射示例,甚至只是給出一個開頭的文本,GPT-3就可以根據前景預設自動生成相關下文,以此來完成對話、答題、翻譯和簡單的數學計算等任務。GPT-3的優勢就在于預訓練模型不需要使用大量標記的訓練數據進行微調,這種便利性為普通人進行相關語言任務的使用上消除了障礙。

盡管GPT-3在很多領域的表現都令人折服,文本的質量高到能騙過大多數人類(無法分辨到底是機器寫的還是人類寫的),但是GPT-3本身的缺陷仍然非常明顯。事實上,GPT-3的訓練方式決定了它并不是真正理解“語義”,而是能夠基于龐大的語料數據,進行海量搜索,匹配相應的答案。在這一過程中,GPT-3只是通過純粹統計學的方法“建立起聯系”,但是并沒有真正理解語義。比如在一個幫助患者減輕焦慮情緒的問答中,“患者”表示感覺很糟,想要自殺的時候,GPT-3直接回復了“你可以”。

GPT-3的問題就像是上世紀80年代John Searle提出的“中文屋實驗”里的那個并不懂中文的翻譯者,GPT-3也只是手握著一本“無所不知”的百科全書,但是它并不清楚這個世界運行的真實邏輯,更無法解決具體場景下的具體情況。之前,紐約大學的兩位教授就聯名指出人們對GPT-3作用的高估,在《傲慢自大的 GPT-3:自己都不知道自己在說什么》里提到,它(GPT-3)本身并不具有 “革命性” 的變化,也不能真正理解語義,如果某項工作的 “結果” 非常重要,那么你不能完全信任人工智能。

簡單來說就是,人工智能如果想要突破文本的統計意義而理解語義,那就必須要將文本和現實世界建立起聯系。顯然,這一點GPT-3還不能做到。為了能夠讓語言文本和實際的世界建立起聯系,研究人員決定將語言模型和機器視覺結合起來,研究者們需要用一個包含文本和圖像的數據集從頭開始訓練一個新模型,這就是被稱作“Vokenization”的視覺語言數據集模型。

Vokenization:如何成為既好用又夠用的數據集

我們首先如何來理解這兩種模型的差異呢?如果你問一下GPT-3這樣一個問題,“綿羊是什么顏色?”它的回答中出現“黑色”的可能和“白色”一樣多,因為它能在大量文本中看到“Black Sheep”(害群之馬)這個詞。而如果你問一個圖像識別模型,它就不會從抽象的文本中學習,而是更直接從現實的圖像中學習,指出“這是一只白色綿羊”,而“這是一只黑色綿羊”。

我們既需要一個知識特別豐富的機器人,也需要一個能夠看懂現實狀況的機器人,只有把二者結合起來,才是人工智能更接近和人類交流合作的樣子。但這個過程并不那么容易實現。實際上,我們常用的圖像描述是不適用的。比如下面這張圖,通常的描述,只能識別出物體“貓”,或者和貓常常一起出現的局部事物“水杯、毛線球、盒子和貓爪”,并沒有描述出這只貓的狀態和相互關系。

相比單純的對象標注,Vokenization視覺語言數據集就需要對圖像進行一組帶有描述性標題的編輯。例如,下圖的標題會是“一只坐在正在打包的行李箱中的橙色的貓”,這和典型的圖像數據集不同,它不僅是用一個名詞(例如:貓)來標記主要對象,而是給AI模型標注出了如何使用動詞和介詞的相互關聯和作用。

但是這類視覺語言數據集的缺陷在于其數量實在太少,數據的生成和管理過程太久,相比較維基百科這種純文本包含近30億個單詞,這僅僅只占GPT-3數據集的0.6%的這樣的規模相比,像微軟的MS COCO(上下文通用對象)這樣的可視化語言數據集才包含700萬個數據,對于訓練一個成熟的AI模型來說顯然是不夠的。

“Vokenization”的出現就是要解決這個問題。像GPT-3是通過無監督學習來訓練的,這不需要手動標記數據,才使它極易去擴展規模。Vokenization也采用了無監督的學習方法,將MS COCO中的小數據量增加到英文維基百科的級別。解決了數據源的數量差異問題,Vokenination還要面臨第二個挑戰,就是解決視覺監督和自然語言文本之間的聯接問題。

Voken代替Token:讓文本“看懂”世界

一般來看,自然語言中的詞匯中很大一部分是沒有視覺特征的,這為視覺監督提出了主要的挑戰。我們知道,在AI訓練語言模型中的單詞被稱之為Token(標記),而研究人員則把視覺語言模型中與每個Token相關的圖像稱之為Voken。而Vokenizer就代表為一個Token尋找一個Voken的算法,Vokenization就代表整個算法模型實現的過程。

Vokenization的過程,就不是從圖像數據集開始為圖像標注標題,而是從一個語言數據集開始,采用無監督學習的方式,將每個單詞與圖像進行匹配,實現一個高擴展性,這就是解決第一個挑戰的具體思路。與此同時,研究者還要解決第二個挑戰的單詞和圖像的關聯性問題。

GPT-3使用的是“單詞嵌入”的方式,基于上下文來創建每個單詞的數學表示,然后依賴這些嵌入把單詞變成句子,把句子組合成段落。Vokenization采取了一種并行的嵌入技術用于掃描圖像的視覺模式。研究者舉的一個案例是,將貓出現在床上的頻率和出現在樹上的頻率繪制成一個表格,并用這些信息創建一只“貓”的Voken。

研究者就在MS COCO數據集上同時采用了兩種嵌入技術,把圖像轉換成視覺嵌入,把字幕轉換成文字嵌入。這樣做的優勢之處在于,這兩種嵌入可以在一個三維空間中繪制出來,并看到文字嵌入和視覺嵌入在圖形中的相互關聯,一只“貓”的視覺嵌入應該會和文本中的“貓”的嵌入相重疊。這能夠解決什么問題呢?這給文本Token提供了一種圖像化的Voken匹配,使得它能夠有更加情景化的表示,對于一個抽象的詞來說,也可以根據不同的上下文情境,具有了完全不同的意思。

比如,“Contact”這個詞,在下圖左側的Voken的匹配下,它就代表“聯系信息”的意思,在下圖右側的Voken的匹配下,就代表了“撫摸一只貓”的意思。說到這里,我們大概就能理解Voken的作用。當GPT-3模型對于一些文本概念無法準確理解其語境和相應語義的時候,它就容易開始自我發揮,胡言亂語,而一旦通過給這個Token找到圖像化的Voken實例,就可以真正理解這個詞的實際涵義。

現在,研究人員通過在MS COCO中創建的視覺和單詞嵌入方法來訓練Vokenizer算法,在英語維基百科中已經為40%的Token找到了Voken,盡管不到一半,但至少是30億單詞的數據集中的40%。基于這一數據集,研究人員重新訓練了谷歌開發的BERT模型,并且在6種不同的語言理解的測試中測試了這一新模型,結果顯示改進后的BERT在幾個測試方面都表現良好。

Vokenization現在還只是處在研究階段,我們也只能從其論文的結果中窺探這一模型的效果,至于這項新的視覺語言化技術的應用和展示,還有待后面我們進一步追蹤觀察。不敢怎樣,在無監督學習幫助下的視覺語言模型,成為NLP領域剛剛閃現的一朵火花,為自然語言處理打開了新的思路,使得純粹的文本訓練開始和圖像識別聯系起來。這就像讓一個博聞強記的機器人從“自顧自說話”,變得可以聽見和看見外界的真實狀況,能夠成為那個“睜開眼睛看世界”的人工智能。

最后,讓我們重溫一個經典的場景,在海倫凱勒的自傳中,她描述了自己如何學會“Water”這個單詞的含義。又盲又聾的海倫總是搞混“杯子”和“水”的指代,直到她的老師沙利文女士帶著她來到噴池邊,一邊感受著清涼的泉水,一邊感受著沙利文在她手心寫下的“Water”,她這才終于明白了“水”的真實指代和含義。用她的話說“不知怎么回事,語言的秘密突然被揭開了,我終于知道水就是流過我手心的一種物質。這個叫“水”的字喚醒了我的靈魂……”

幸好,人類在失去光明和聽覺之后,僅能通過觸覺還能理解語言的奧秘,那么對于人工智能來說,擁有了強大的圖像識別能力,又有近乎無限的文本知識,那么,未來AI將能否通向一條具有像人類在日常經驗中學習的常識之路嗎?

fqj

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1797

    文章

    47927

    瀏覽量

    240968
  • nlp
    nlp
    +關注

    關注

    1

    文章

    489

    瀏覽量

    22131
收藏 人收藏

    評論

    相關推薦

    文詳解視覺語言模型

    視覺語言模型(VLM)是一種多模態、生成式 AI 模型,能夠理解和處理視頻、圖像和文本。
    的頭像 發表于 02-12 11:13 ?215次閱讀
    <b class='flag-5'>一</b>文詳解<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    OpenAI將發布智能GPT模型及AI智能體工具

    OpenAI近日透露了其未來發展的重要動向。據OpenAI首席產品官凱文·維爾(Kevin Weil)介紹,公司計劃推出智能GPT o3模型
    的頭像 發表于 01-24 13:54 ?279次閱讀

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    的局限性以及衡量大模型的關鍵指標。閱讀了該部分后,我感受到了一種前所未有的震撼,這種震撼不僅來源于技術本身的先進性,來源于它對傳統機器人控制方式的顛覆。 傳統機器人的局限性與大模型
    發表于 12-29 23:04

    NaVILA:加州大學與英偉達聯合發布新型視覺語言模型

    日前,加州大學的研究人員攜手英偉達,共同推出了款創新的視覺語言模型——NaVILA。該模型在機器人導航領域展現出了獨特的應用潛力,為
    的頭像 發表于 12-13 10:51 ?369次閱讀

    基于視覺語言模型的導航框架VLMnav

    本文提出了一種視覺語言模型(VLM)轉換為端到端導航策略的具體框架。不依賴于感知、規劃和控制之間的分離,而是使用VLM在步中直接選擇動作
    的頭像 發表于 11-22 09:42 ?311次閱讀

    Llama 3GPT-4 比較

    沿。 、技術架構 Llama 3GPT-4都是基于深度學習的自然語言處理(NLP)模型,但它們的設計理念和技術細節有所不同。 Llama
    的頭像 發表于 10-27 14:17 ?632次閱讀

    英偉達預測機器人領域或迎“GPT-3時刻”

    未來2-3年內,機器人基礎模型的研究將迎來重大突破,這時刻被形象地比喻為機器人領域的“GPT-3時刻”。
    的頭像 發表于 09-20 17:05 ?876次閱讀

    Jim Fan展望:機器人領域即將迎來GPT-3式突破

    英偉達科學家9月19日,科技媒體The Decoder發布了則引人關注的報道,英偉達高級科學家Jim Fan在近期預測,機器人技術將在未來兩到三年內迎來類似GPT-3語言處理領域的革命性突破,他稱之為機器人領域的“
    的頭像 發表于 09-19 15:13 ?677次閱讀

    llm模型和chatGPT的區別

    ,有許多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一種基于GPT(Generative Pre-trained Transformer)
    的頭像 發表于 07-09 09:55 ?1398次閱讀

    【大語言模型:原理與工程實踐】大語言模型的基礎技術

    模型架構奠定基礎。然后,引介些經典的預訓練模型,如BERT、GPT等。最后,解讀ChatGPT和LLaMA系列模型,幫助讀者初步感知大
    發表于 05-05 12:17

    【大語言模型:原理與工程實踐】揭開大語言模型的面紗

    學習能力。這些模型以生成能力強和靈活性強為特點,逐漸演變成一種通用計算平臺。其參數多樣性、生成能力和涌現性使其不僅在自然語言處理領域表現出色,還能適應多種復雜任務。參數多樣性讓模型能學
    發表于 05-04 23:55

    為什么GPU適用于AI?AI服務器產業鏈格局分析

    GPT模型對比BERT模型、T5模型的參數量有明顯提升。GPT-3是目前最大的知名語言
    發表于 04-09 10:38 ?1102次閱讀
    為什么GPU適用于AI?AI服務器產業鏈格局分析

    OpenAI推出ChatGPT新功能:朗讀,支持37語言,兼容GPT-4和GPT-3

    據悉,“朗讀”功能支持37語言,且能夠自主識別文本類型并對應相應的發音。值得關注的是,該功能對GPT-4以及GPT-3.5版本的ChatGPT均適用。此舉彰顯了OpenAI致力于“多
    的頭像 發表于 03-05 15:48 ?1047次閱讀

    全球最強大模型易主,GPT-4被超越

    近日,AI領域的領軍企業Anthropic宣布推出全新的Claude 3系列模型,其中包括最強版Claude 3 Opus。據該公司稱,Claude 3系列在推理、數學、編碼、多
    的頭像 發表于 03-05 09:58 ?728次閱讀

    語言模型中的語言與知識:一種神秘的分離現象

    自然語言處理領域存在著個非常有趣的現象:在多語言模型中,不同的語言之間似乎存在著一種隱含的對齊
    發表于 02-20 14:53 ?612次閱讀
    大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>中的<b class='flag-5'>語言</b>與知識:<b class='flag-5'>一種</b>神秘的分離現象
    主站蜘蛛池模板: 国产乱码精品一区二区三区四川人 | 久久久久久人精品免费费看 | 男人日女人的网站 | 久久婷婷国产一区二区三区 | 一区二区视频 | 91成人免费 | 亚洲人成伊人成综合网久久 | 欧美一级视频在线观看 | 国内精品久久久久影院男同志 | 亚洲一区二区三区免费在线观看 | aaaaaa精品视频在线观看 | 波多野结衣50连精喷在线 | 免费边摸边吃奶边叫床视频gif | 欧美性视频一区二区三区 | 最近2018中文字幕免费看在线 | 国产在线成人一区二区 | 欧美性区 | 免费网站看av片 | 亚洲va久久久噜噜噜久久男同 | 久久99精品久久久久久园产越南 | 亚洲欧美综合一区二区三区四区 | 日韩黄网 | 中国特黄毛片 | 成人欧美一区二区三区视频不卡 | 天堂bt种子资源+在线 | 激情在线播放免费视频高清 | 久久天天躁夜夜躁狠狠85麻豆 | 国产农村女人一级毛片了 | 你懂的在线免费视频 | 日本免费xxxx色视频 | 手机看片国产高清 | 宅男色视频| 成人在线91| 国产精品臀控福利在线观看 | 男女交黄| 欧美瑟瑟| 色就操 | 色偷偷免费视频 | 国产欧美亚洲精品第二区首页 | 最好看的最新中文字幕2018免费视频 | 国内色综合精品视频在线 |