(文章來源:網絡整理)
互聯網用戶所創造的“內容”正在迅猛增長,從不同渠道涌現的文本、圖像和視頻等不同類型的媒體數據以及用戶信息更加緊密混合。它們正在以一種新的形式,更為形象綜合地表達語義、主題和事件。針對當前媒體數據呈現出的特點進行深入研究已成為學術熱點,多種類型媒體數據依賴共存,各種平臺和應用的數據來源廣泛,個體和群體參與數據產生的用戶交互史無前例。
谷歌的前任研究主管皮特·諾文(Perter Norvig)博士曾在2010年《自然》雜志上發表文章《2020愿景》,指出今后10年,文本、圖像、視頻等數據以及用戶交互信息和各種傳感器信息將混合在一起,從搜索角度看,搜索引擎對檢索結果進行的是內容綜合而非數據羅列,這也將是谷歌今后面臨的巨大挑戰。我國也同樣重視“跨媒體”研究,國家科技部于2011年11月啟動了973計劃項目“面向公共安全的跨媒體計算理論與方法”,對“跨媒體”的表達建模、語義學習、挖掘推理和搜索排序等核心問題開展了理論研究。目前,媒體計算需要重點解決的兩個難點是消除“異構鴻溝”和“語義鴻溝。
傳統的媒體計算研究方法主要從手工構建的底層特征出發,利用機器學習方法填補異構鴻溝和語義鴻溝。與傳統方法不同深度學習是通過將無監督逐層預訓練與有監督微調(fine-tuning)有機結合,實現端到端方式的特征學習。其基本動機是構建多層網絡來學習隱含在數據內部的關系,從而使學習得到的特征具有更強的表達力和泛化能力。
在大規模數據上進行的實驗表明:通過深度學習得到的特征表示在自然語言處理(詞向量學習)、知識圖譜構建、圖像分類和語音識別等領域表現出良好的性能。例如谷歌研究組在2014年大規模視覺識別挑戰賽中采用改進的卷積神經網絡GoogLeNet,將圖像識別準確率提升到93.3%。
通常,在媒體語義理解過程中可獲取不同類型的媒體數據,如:新聞報道包含了文字和文字對應的圖像,視頻包含了視覺和聽覺信息。不同類型的媒體數據從不同側面反映了高層語義,因此多模態語義學習需要對不同模態的信息進行整合。1976年,麥格克(McGurk)等人驗證了人類對外界信息的認知是基于不同感官信息而形成的整體性理解,任何感官信息的缺乏或不準確,都將導致大腦對外界信息的理解產生偏差,這個現象被稱為“McGurk現象”。McGurk現象揭示了大腦在進行感知時,不同感官會被無意識地自動結合在一起對信息進行處理。
由于深度學習具有通過逐層抽象來形成良好特征的能力,因此可利用該方法來形成不同類型數據的聯合特征表示。具體方法有深度典范相關分析(Deep Caconical Correlation Analysis,Deep CCA)、多模態深度學習以及多模態玻爾茲曼機等。這些方法的基本思路是通過不同的深層模型對不同類型數據進行逐層學習,將學習得到的結果進行合并,以得到多模態聯合特征表示,最后要求多模態聯合特征能有效重建原始不同類型數據或表達相關語義概念。為了得到更好的深層模型,一般在深層模型的最頂端設計反映不同類型數據相互耦合的損失函數來對模型進行優化反饋。
將深度學習應用于語義概念識別和理解時,有兩種方法:(1)將深度學習得到的特征表示直接輸入給判別分類模型(如支持向量機等);(2)通過softmax函數或回歸函數對輸人數據、隱含層和輸出層(語義標簽)之間的概率分布進行建模,然后基于互信息熵最小或間隔距離最大等準則對模型進行優化。
有人的理論研究結果表明:在機器學習中,如果對模型本身的假設產生偏差,則會影響學習結果。因此,如何合理引入數據本身所具有的先驗知識和結構線索,來構造和微調深層模型使之更好地處理多模態數據,是一個亟待解決的問題。因此,一些研究開始在生成式深層模型或區別式深層模型中引入數據本身所具有的先驗結構,以提升特征學習的泛化能力和區別能力。有人在卷積神經網絡輸出端引入層次化概念樹來促進關聯語義所具有的共享特征的學習,有人通過非參貝葉斯假設來提高判別性語義特征學習的靈活度。
(責任編輯:fqj)
-
互聯網
+關注
關注
55文章
11244瀏覽量
106265 -
深度學習
+關注
關注
73文章
5560瀏覽量
122746
發布評論請先 登錄
?多模態交互技術解析
軍事應用中深度學習的挑戰與機遇
BP神經網絡與深度學習的關系

評論