在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

有關語義匹配和推理

深度學習自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2021-03-14 09:32 ? 次閱讀

先把論文放出來:Enhanced LSTM for Natural Language Inference,說實話這篇論文不算新了,但是在語義相似度方至今仍流傳著他的傳說,因此我還是把這篇論文拿著讀了起來。近期也是看了很多文章,但是終究不如讀論文來的過癮,大部分博客對這篇論文的模型核心做了很多介紹,但各個操作的出發點和一些獨到的見解卻寫的不多,這次我會在介紹ESIM的過程中討論一下。

當然,還是建議大家好好品讀原論文,更有味道。

另外給點代碼,看論文不清楚的看看論文也挺好:

https://blog.csdn.net/wcy23580/article/details/84990923。

https://github.com/weekcup/ESIM。

有關語義匹配和推理

一般地,向量召回主要用的表征模型,但是表征模型沒有用到交互特征,因此匹配的準確率上肯定比不過交互模型,所以一般工程上用表征模型召回,然后用交互模型來做精排,這樣能保證整個搜索系統的效果更加穩定可靠(看到沒,準召分離的思路又來了),而交互模型這塊,比較可靠的基線,應該就要數ESIM了。

ESIM里,我比較欣賞的是這幾點:

LSTM抽取上下文信息。Tree-LSTM的嘗試也為信息抽取帶來啟發。

把Decomposable attention作為交互特征的思路有機組合起來了。

多種交互形式的特征concat起來。

當然具體閱讀后,我還提煉了一些新的idea,在文末。有了這些思路,先讓我們來看看具體的模型,其實論文的行文里討論了很多思路,我們先來看整體論文思路,然后再來提煉里面的獨到之處。

模型整體

論文的模型其實沒有想象中的困難,在很早就把整篇論文給到了:

輸入層是embedding+LSTM的組合。

Local Inference Modeling層,用的Decomposable Attention來體現兩者的交互型。

Inference composition層則把上面一層的結果進行多種組合計算,得到多種特征,說白了就是比較。

輸出層就不多說了,大家都懂的。

輸入層

一般的輸入層只會是簡單的word2vector,但這里其實加了一個LSTM,還是雙向的,就是用來獲取各路信息。來看看代碼,這個還是比較清晰的:

i1=Input(shape=(SentenceLen,),dtype='float32') i2=Input(shape=(SentenceLen,),dtype='float32') x1=Embedding([CONFIG])(i1) x2=Embedding([CONFIG])(i2) x1=Bidirectional(LSTM(300,return_sequences=True))(x1) x2=Bidirectional(LSTM(300,return_sequences=True))(x2)

Local Inference Modeling

中文翻譯應該是局部推理層,我的理解這一層是用于抽取局部信息的,作者用的方法應該來源于這篇論文:A Decomposable Attention Model for Natural Language Inference,這里其實是一個計算交互特征的過程,即一一分析兩個句子之間每個位置的相似度,最簡單的方式就是點乘,而這篇論文就是使用的這個最簡單的方式:

然后再把權重分散到各個位置,其實形態就很像softmax了:

這個其實就是做了一個交叉,計算整個句子的權重,然后用類似softmax的形式整上,非常討巧,相信ESIM的成功很大程度上就和這個有關。

而這并沒結束,作者進行了進一步的強化,對比Decomposable Attention前后的變化,進行了組合。

Inference Composition

推理層應該是進入最終預測之前的最后一層了。這一層的操作同樣沒那么簡單,大部分人可能flatten、maxpool、avgpool之類的就直接全連接了,但是這里并不是,而是做了一系列的再提取和再處理,最終才完成預測向量的:

作者是真的把信息抽取和特征的組合做到了極致,對上面構造的兩個組合特征再進行了一次特征提取,用的依舊是熟悉的Bilstm,值得注意的是他操作的維度,來看一個ESIM的開源代碼吧:

classInferenceCompositionLayer(object): """ Layertocomposethelocalinferenceinformation. """ def__init__(self,hidden_units,max_length=100,dropout=0.5, activation='tanh',sequences=True): self.hidden_units=hidden_units self.max_length=max_length self.dropout=dropout self.activation=activation self.sequences=sequences def__call__(self,input): composition=Bidirectional(LSTM(self.hidden_units, activation=self.activation, return_sequences=self.sequences, recurrent_dropout=self.dropout, dropout=self.dropout))(input) reduction=TimeDistributed(Dense(self.hidden_units, kernel_initializer='he_normal', activation='relu'))(composition) returnDropout(self.dropout)(reduction)

這里用到另一個我沒見過的keras層,即TimeDistributed,有興趣可以了解下。

此后,非常精髓的使用avg-pool和max-pool的組合,有關池化,max和avg一直打得火熱,沒有人能給出非常穩定的結論,因此作者就用了兩者的組合:

啟示

整篇文章其實沒有構造出非常高端的結構,只是一些非常樸素的操作,但是綜合起來成了現在也非常推薦用的基線,是有很多有借鑒意義的東西的,我這里一一列舉,大家可以直接在里面選擇需要的來用。

BiLSTM似乎還挺好用的。當然私以為CNN其實也可以嘗試的。

花式concat,多種信息抽取方式進行組合,小孩子才做選擇,大人全都要。

attention的使用,其實有出處A Decomposable Attention Model for Natural Language Inference,思想其實是兩者一一對比得到交互矩陣,利用該交互矩陣構造類似softmax的權重,為各自的關鍵信息進行加權,重點提取。

信息的對比來自于可以來自減和乘,減直接計算兩者的差距,類似歐氏距離,乘的使用則來源于余弦距離,既然要對比特征,那就把這兩個用到極致。

avg和max哪個好,別爭了,都用,哪個比較重要交給后面的全連接層來決定吧。

我的這篇文章里面沒有講tree-lstm,主要是因為我們平時比較難用到,原因是這個樹不好構建,需要依賴依存句法,但是的確是一個挺有意思的思想,只有真的去讀論文的人才能知道。

參考資料

論文原文:Enhanced LSTM for Natural Language Inference

論文解讀:https://blog.csdn.net/wcy23580/article/details/84990923

keras版本代碼:https://github.com/weekcup/ESIM/blob/master/src/model.py

依舊推薦大家直接去讀論文,文章對他為什么做這些操作有很明確的思想,其實在我看來這些思想比操作本身還要重要,畢竟思想是需要啟發的,在這些思想的指導下,我在思考解決方案的時候就能有參考,方案可以借鑒,但是這個思想的實現并不局限在一個方法上。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3343

    瀏覽量

    49274
  • 代碼
    +關注

    關注

    30

    文章

    4837

    瀏覽量

    69133
  • eSIM
    +關注

    關注

    3

    文章

    243

    瀏覽量

    26702

原文標題:【語義相似度】ESIM:語義相似度領域小模型的尊嚴

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?208次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高AI<b class='flag-5'>推理</b>性能

    如何開啟Stable Diffusion WebUI模型推理部署

    如何開啟Stable Diffusion WebUI模型推理部署
    的頭像 發表于 12-11 20:13 ?199次閱讀
    如何開啟Stable Diffusion WebUI模型<b class='flag-5'>推理</b>部署

    利用VLM和MLLMs實現SLAM語義增強

    語義同步定位與建圖(SLAM)系統在對鄰近的語義相似物體進行建圖時面臨困境,特別是在復雜的室內環境中。本文提出了一種面向對象SLAM的語義增強(SEO-SLAM)的新型SLAM系統,借助視覺語言模型
    的頭像 發表于 12-05 10:00 ?311次閱讀
    利用VLM和MLLMs實現SLAM<b class='flag-5'>語義</b>增強

    高效大模型的推理綜述

    大模型由于其在各種任務中的出色表現而引起了廣泛的關注。然而,大模型推理的大量計算和內存需求對其在資源受限場景的部署提出了挑戰。業內一直在努力開發旨在提高大模型推理效率的技術。本文對現有的關于高效
    的頭像 發表于 11-15 11:45 ?608次閱讀
    高效大模型的<b class='flag-5'>推理</b>綜述

    FPGA和ASIC在大模型推理加速中的應用

    隨著現在AI的快速發展,使用FPGA和ASIC進行推理加速的研究也越來越多,從目前的市場來說,有些公司已經有了專門做推理的ASIC,像Groq的LPU,專門針對大語言模型的推理做了優化,因此相比GPU這種通過計算平臺,功耗更低、
    的頭像 發表于 10-29 14:12 ?839次閱讀
    FPGA和ASIC在大模型<b class='flag-5'>推理</b>加速中的應用

    使用語義線索增強局部特征匹配

    視覺匹配是關鍵計算機視覺任務中的關鍵步驟,包括攝像機定位、圖像配準和運動結構。目前最有效的匹配關鍵點的技術包括使用經過學習的稀疏或密集匹配器,這需要成對的圖像。這些神經網絡對兩幅圖像的特征有很好的總體理解,但它們經常難以
    的頭像 發表于 10-28 09:57 ?353次閱讀
    使用<b class='flag-5'>語義</b>線索增強局部特征<b class='flag-5'>匹配</b>

    手冊上新 |迅為RK3568開發板NPU例程測試

    安裝 2.1.2 conda虛擬環境安裝 2.1.3 docker環境安裝 2.2 rknn-toolkit2功能演示 2.2.1 模型轉換 2.2.2 連板推理 第3章
    發表于 10-23 14:06

    手冊上新 |迅為RK3568開發板NPU例程測試

    安裝 2.1.2 conda虛擬環境安裝 2.1.3 docker環境安裝 2.2 rknn-toolkit2功能演示 2.2.1 模型轉換 2.2.2 連板推理 第3章
    發表于 08-12 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    匹配 模型可能結合高效檢索技術來快速定位與問題相關的信息源。通過匹配算法和索引技術,模型可以從海量數據中篩選出最相關的文本片段作為候選答案。 3. 推理與生成 在獲得候選答案后,模型會進行進一步的
    發表于 08-02 11:03

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、解碼方法優化、底層優化、分布式并行推理以及特
    的頭像 發表于 07-24 11:38 ?1056次閱讀

    圖像語義分割的實用性是什么

    圖像語義分割是一種重要的計算機視覺任務,它旨在將圖像中的每個像素分配到相應的語義類別中。這項技術在許多領域都有廣泛的應用,如自動駕駛、醫學圖像分析、機器人導航等。 一、圖像語義分割的基本原理 1.1
    的頭像 發表于 07-17 09:56 ?548次閱讀

    迅為RK3568手冊上新 | RK3568開發板NPU例程測試

    虛擬環境安裝 2.1.3 docker環境安裝 2.2 rknn-toolkit2功能演示 2.2.1 模型轉換 2.2.2 連板推理 第3章 rknn-toolkit-lite2環境搭建
    發表于 07-12 14:44

    圖像分割與語義分割中的CNN模型綜述

    圖像分割與語義分割是計算機視覺領域的重要任務,旨在將圖像劃分為多個具有特定語義含義的區域或對象。卷積神經網絡(CNN)作為深度學習的一種核心模型,在圖像分割與語義分割中發揮著至關重要的作用。本文將從CNN模型的基本原理、在圖像分
    的頭像 發表于 07-09 11:51 ?1199次閱讀

    阻抗匹配的原理分析?

    阻抗匹配是50歐,末端并聯下拉是50Ω,在戴維南阻抗匹配是上下拉電阻應該配置多少呢,各配置100歐姆? 3、AC阻抗匹配用在什么地方,和要傳輸的信號幅值頻率帶寬有關系嗎?阻容串聯到地阻
    發表于 05-09 23:05

    深度探討VLMs距離視覺演繹推理還有多遠?

    通用大型語言模型(LLM)推理基準:研究者們介紹了多種基于文本的推理任務和基準,用于評估LLMs在不同領域(如常識、數學推理、常識推理、事實推理
    發表于 03-19 14:32 ?386次閱讀
    深度探討VLMs距離視覺演繹<b class='flag-5'>推理</b>還有多遠?
    主站蜘蛛池模板: 国产欧美网站 | 天天玩天天干 | 国产va| 777kkk亚洲综合欧美色老头 | 国产精品嫩草影院在线播放 | 同性恋激情视频 | 香港经典a毛片免费观看爽爽影院 | 亚洲人成电影在线观看网 | 黄色录像三级 | 欧美日本三级 | 久久dvd | 色欧美色图 | 四虎永久免费观看 | 狠狠干免费视频 | 开心丁香婷婷深爱五月 | 人人爱天天做夜夜爽毛片 | 一区二区三区高清视频在线观看 | 国产自产视频在线观看香蕉 | a级精品九九九大片免费看 a级毛毛片看久久 | 爱爱永久免费视频网站 | 欧美日韩国产成人精品 | 国产美女亚洲精品久久久综合 | 天天操天天射天天色 | 国产成人永久免费视频 | 中文字幕不卡一区 | 黄色v片| 免费h视频网站 | 久久久久久久影院 | 黄色大片aa | 性欧美xxxx | 毛片在线播放网站 | 国产二区三区 | 99久热成人精品视频 | 欧美色欧美色 | 狠狠亚洲狠狠欧洲2019 | 男女免费视频 | 免费被黄网站在观看 | 全黄h全肉边做边吃奶在线观看 | 在线亚洲免费 | 欧美一级高清免费播放 | 日本xxxx色视频在线观看免 |