91在线观看视频-91在线观看视频-91在线观看免费视频-91在线观看免费-欧美第二页-欧美第1页

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

fastText有兩大用途——文本分類和Word Embedding

深度學(xué)習(xí)自然語言處理 ? 來源:SimpleAI ? 作者:SimpleAI ? 2021-03-05 15:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天我們來看 Mikolov 大佬 2016 年的另一大巨作——fastText。2013 年大佬在 Google 開源了 Word2Vec,2016 年剛就職于 FaceBook 就開源了 fastText,全都掀起了軒然大波。

fastText 模型有兩篇相關(guān)論文:

《Bag of Tricks for Efficient Text Classification》

《Enriching Word Vectors with Subword Information》

截至目前為止,第一篇有 1500 多引用量,第二篇有 2700 多引用量。

從這兩篇文的標(biāo)題我們可以看出來 fastText 有兩大用途——文本分類和Word Embedding。

由于 fastText 模型比較簡單,所以我們可以把兩篇論文放在一起看。

1. Introduction

fastText 提供了簡單而高效的文本分類和 Word Embedding 方法,分類精度比肩深度學(xué)習(xí)而且速度快上幾個(gè)數(shù)量級(jí)。

舉個(gè)例子:使用標(biāo)準(zhǔn)的 CPU 可以在十分鐘的時(shí)間里訓(xùn)練超過 10 億個(gè)單詞,在不到一分鐘的時(shí)間里可以將 50 萬個(gè)句子分到 31 萬個(gè)類別中。

可以看到 fastText 的速度有多驚人。

2. fastText

fastText 之所以能做到速度快效果好主要是兩個(gè)原因:N-Gram 和 Hierarchical softmax。由于 Hierarchical softmax 在 Word2Vec 中已經(jīng)介紹過了,所以我們只介紹一下 N-gram。

2.1 N-gram

N-gram 是一種基于統(tǒng)計(jì)語言模型的算法,常用于 NLP 領(lǐng)域。其思想在于將文本內(nèi)容按照字節(jié)順序進(jìn)行大小為 N 的滑動(dòng)窗口操作,從而形成了長度為 N 的字節(jié)片段序列,其片段我們稱為 gram。

以“谷歌是家好公司” 為例子:

二元 Bi-gram 特征為:谷歌 歌是 是家 家好 好公 公司

三元 Tri-gram 特征為:谷歌是 歌是家 是家好 家好公 好公司

當(dāng)然,我們可以用字粒度也可以用詞粒度。

例如:谷歌 是 家 好 公司二元 Bi-gram 特征為:谷歌是 是家 家好 好公司三元 Tri-gram 特征為:谷歌是家 是家好 家好公司

N-gram 產(chǎn)生的特征只是作為文本特征的候選集,后面還可以通過信息熵、卡方統(tǒng)計(jì)、IDF 等文本特征選擇方式篩選出比較重要的特征。

2.2 Embedding Model

這邊值得注意的是,fastText 是一個(gè)庫,而不是一個(gè)算法。類似于 Word2Vec 也只是一個(gè)工具,Skip-Gram 和 CBOW 才是其中的算法。

?

fastText is a library for efficient learning of word representations and sentence classification.

fastText 在 Skip-Gram 的基礎(chǔ)上實(shí)現(xiàn) Word Embedding,具體來說:fastText 通過 Skip-Gram 訓(xùn)練了字符級(jí)別 N-gram 的 Embedding,然后通過將其相加得到詞向量。

舉個(gè)例子:對于 “where” 這個(gè)單詞來說,它的 Tri-gram 為:“”。由于字符串首尾會(huì)有符號(hào),所以這里用 < 表示前綴, > 表示后綴。textFast 是對 這些 Tri-gram 進(jìn)行訓(xùn)練,然后將這 5 個(gè) tri-gram 的向量求和來表示 “where” 的詞向量。

這樣做主要有兩個(gè)好處:

低頻詞生成的 Embedding 效果會(huì)更好,因?yàn)樗鼈兊?N-gram 可以和其它詞共享而不用擔(dān)心詞頻過低無法得到充分的訓(xùn)練;

對于訓(xùn)練詞庫之外的單詞(比如拼錯(cuò)了),仍然可以通過對它們字符級(jí)的 N-gram 向量求和來構(gòu)建它們的詞向量。

為了節(jié)省內(nèi)存空間,我們使用 HashMap 將 N-gram 映射到 1 到 K,所以單詞的除了存儲(chǔ)自己在單詞表的 Index 外,還存儲(chǔ)了其包含的 N-gram 的哈希索引

2.3 Classification Model

一般來說,速度快的模型其結(jié)構(gòu)都會(huì)比較簡單,fastText 也不例外,其架構(gòu)圖如下圖所示:

2279e3e0-7c22-11eb-8b86-12bb97331649.png

fastText Architecture

其中, 為一個(gè)句子的 N-gram 特征。

我們看到這個(gè)架構(gòu)是不是感覺似曾相似?

fastText 與 Word2Vec 的 CBOW 架構(gòu)是非常相似的,但與 CBOW 不同的是:fastText 輸入不僅是多個(gè)單詞 Embedding 向量,還將字符級(jí)別的 N-gram 向量作為額外的特征,其預(yù)測是也不是單詞,而是 Label(fastText 主要用于文本分類,所以預(yù)測的是分類標(biāo)簽)。

3. Experiment

我們簡單看下 fastText 的兩個(gè)實(shí)驗(yàn)——Embedding 和文本分類;

3.1 Embeddng

sisg 是 fastText 用于 Embedding 的模型,實(shí)驗(yàn)效果如下:

3.2 Classification

分類實(shí)驗(yàn)的精度 fastText 比 char-CNN、 char-RCNN 要好,但比 VDCNN 要差。(但這里注意:fastText 僅僅使用 10 個(gè)隱藏層節(jié)點(diǎn) ,訓(xùn)練了 5 次 epochs。)

在速度上 fastText 快了幾個(gè)數(shù)量級(jí)。(此處注意:CNN 和 VDCNN 用的都是 Tesla K40 的 GPU,而 fastText 用的是 CPU)

下面是標(biāo)簽預(yù)測的結(jié)果,兩個(gè)模型都使用 CPU 并開了 20 個(gè)線程:

4. Conclusion

一句話總結(jié):fastText 是一個(gè)用于文本分類和 Embedding 計(jì)算的工具庫,主要通過 N-gram 和 Hierarchical softmax 保證算法的速度和精度。

關(guān)于 Hierarchical softmax 為什么會(huì)使 fastText 速度那么快?而在 Word2Vec 中沒有看到類似的效果?

我覺得是因?yàn)?fastText 的標(biāo)簽數(shù)量相比 Word2Vec 來說要少很多,所以速度會(huì)變的非常快。其次 Hierarchical softmax 是必要的,如果不同的話速度會(huì)慢非常多。

另外,fastText 可能沒有什么創(chuàng)新,但他卻異常火爆,可能有多個(gè)原因,其中包括開源了高質(zhì)量的 fastText,類似 Work2Vec,當(dāng)然也會(huì)有 Mikolov 大佬和 Facebook 的背書。

總的來說,fastText 還是一個(gè)極具競爭力的一個(gè)工具包。

5. Reference

《Bag of Tricks for Efficient Text Classification》

《Enriching Word Vectors with Subword Information》

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95380
  • 文本分類
    +關(guān)注

    關(guān)注

    0

    文章

    18

    瀏覽量

    7400
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5561

    瀏覽量

    122794

原文標(biāo)題:fastText:極快的文本分類工具

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    半導(dǎo)體激光器的常見分類

    半導(dǎo)體激光器的用途非常廣泛,按照不同的類型,不同的分類方式。松盛光電來介紹半導(dǎo)體激光器的常見分類情況,來了解一下吧。
    的頭像 發(fā)表于 03-05 11:47 ?728次閱讀
    半導(dǎo)體激光器的常見<b class='flag-5'>分類</b>

    光纖纖芯直徑的兩大分類

    光纖直徑通常是指其纖芯的直徑,而光纖整體還包括包層,這部分共同決定了光在光纖中的傳播特性。光纖的直徑根據(jù)其用途和傳輸模式的不同有所區(qū)別。本期我們將從光纖直徑入手,看看它對光纖傳輸?shù)挠绊懥Α?/div>
    的頭像 發(fā)表于 02-28 10:02 ?751次閱讀

    電源盒的分類哪些

    電源盒的類型多種多樣,具體可以分為多種分類方式下的不同類型 ?。 一種常見的分類方式是基于其結(jié)構(gòu)和用途,但需要注意的是,這種分類方式下的“電源盒”可能與廣義上的配電箱、開關(guān)箱等
    的頭像 發(fā)表于 02-25 10:50 ?376次閱讀

    Spire.Cloud.Word云端Word文檔處理SDK介紹

    ,添加書簽,添加文本和圖片水印,設(shè)置背景顏色和背景圖片,添加 Word 數(shù)字簽名,添加超鏈接,加密和解密 Word 文檔,添加批
    的頭像 發(fā)表于 02-11 11:11 ?493次閱讀
    Spire.Cloud.<b class='flag-5'>Word</b>云端<b class='flag-5'>Word</b>文檔處理SDK介紹

    存儲(chǔ)器的分類及其區(qū)別

    初學(xué)者要了解SDRAM需要先了解存儲(chǔ)器分類。按照存儲(chǔ)器的存儲(chǔ)功能劃分,可將其分為RAM 和 ROM 兩大類。
    的頭像 發(fā)表于 02-08 11:24 ?2826次閱讀
    存儲(chǔ)器的<b class='flag-5'>分類</b>及其區(qū)別

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+Embedding技術(shù)解讀

    理和理解這些數(shù)據(jù)。在自然語言處理中,Embedding常用于將文本數(shù)據(jù)中的單詞、句子或文檔映射為固定長度的實(shí)數(shù)向量,這些向量包含了豐富的語義信息。RAG技術(shù)是一種結(jié)合信息檢索與文本生成能力的技術(shù),它通過
    發(fā)表于 01-17 19:53

    如何使用自然語言處理分析文本數(shù)據(jù)

    媒體、新聞報(bào)道、用戶評論等)收集你感興趣的文本數(shù)據(jù)。 數(shù)據(jù)清洗 :去除無關(guān)字符(如HTML標(biāo)簽、特殊符號(hào)等),確保文本數(shù)據(jù)干凈且一致。 2. 預(yù)處理 分詞 :將文本分割成有意義的單元(單詞、短語或句子),這取決于使用的語言和分析
    的頭像 發(fā)表于 12-05 15:27 ?1575次閱讀

    生物芯片哪些分類

    全球首個(gè)生物芯片產(chǎn)品問世雖然已有20多年的時(shí)間,但生物芯片分類方式仍沒有完全統(tǒng)一的標(biāo)準(zhǔn)。比較常見的分類方式3種,分別是按用途、作用方式和成分來分類
    的頭像 發(fā)表于 12-03 15:42 ?1140次閱讀

    RK3588 技術(shù)分享 | 在Android系統(tǒng)中使用NPU實(shí)現(xiàn)Yolov5分類檢測

    : NPU幫助機(jī)器完成更高效的翻譯、文本分類和情感分析,推動(dòng)了自然語言處理技術(shù)的發(fā)展。 實(shí)例分享:Yolov5分類檢測 在RK3588處理器上,不僅可以基于Linux系統(tǒng)使用NPU,也可以
    發(fā)表于 10-24 10:13

    直流電機(jī)哪些型號(hào)?如何分類的?

    直流電機(jī)是一種將直流電能轉(zhuǎn)換為機(jī)械能的電機(jī),廣泛應(yīng)用于各種工業(yè)、交通和家用電器等領(lǐng)域。直流電機(jī)的型號(hào)和分類方式多樣,可以根據(jù)不同的標(biāo)準(zhǔn)進(jìn)行分類。以下是對直流電機(jī)型號(hào)和分類的介紹: 按結(jié)構(gòu)分類
    的頭像 發(fā)表于 10-22 14:20 ?2646次閱讀

    emc哪些測試方法和分類方法

    EMC(電磁兼容性)測試是確保設(shè)備或系統(tǒng)在電磁環(huán)境中能夠正常工作且不對其他設(shè)備或系統(tǒng)造成不可接受的電磁干擾的重要方法。EMC測試主要分為兩大類:EMI(電磁干擾)測試和EMS(電磁抗擾度)測試。 一
    的頭像 發(fā)表于 10-21 17:09 ?2247次閱讀

    放大電路的基本分析方法

    放大電路是電子學(xué)中的基礎(chǔ)組成部分,用于增強(qiáng)信號(hào)的幅度而不改變其基本特性。在電子工程中,放大電路的設(shè)計(jì)和分析是至關(guān)重要的。放大電路的基本分析方法主要有種:直流分析和交流分析。 直流分析 直流分析
    的頭像 發(fā)表于 09-23 10:40 ?1204次閱讀

    普強(qiáng)成功榮登兩大榜單

    普強(qiáng)憑借其深厚的技術(shù)積累和創(chuàng)新能力,不斷推出高性能、高質(zhì)量的產(chǎn)品和解決方案,成功榮登兩大榜單,這是對普強(qiáng)卓越的技術(shù)實(shí)力和應(yīng)用層面的肯定。
    的頭像 發(fā)表于 09-13 10:34 ?1592次閱讀

    雷達(dá)的基本分類方法

    電子發(fā)燒友網(wǎng)站提供《雷達(dá)的基本分類方法.pdf》資料免費(fèi)下載
    發(fā)表于 09-11 09:09 ?6次下載

    動(dòng)圖展示兩大電機(jī)系統(tǒng)的運(yùn)行順序

    上一期的芝識(shí)課堂中,想必大家已經(jīng)了解了直流刷電機(jī)和無刷電機(jī)的基本驅(qū)動(dòng)原理及相關(guān)的差異,今天我們就以動(dòng)圖形式展示兩大電機(jī)系統(tǒng)的運(yùn)行順序,幫助大家成為電機(jī)系統(tǒng)的掌控者!
    的頭像 發(fā)表于 07-19 14:26 ?1215次閱讀
    動(dòng)圖展示<b class='flag-5'>兩大</b>電機(jī)系統(tǒng)的運(yùn)行順序
    主站蜘蛛池模板: 久久99精品久久久久久野外 | 欧美人另类zooz | 色婷婷六月天 | 免费视频在线播放 | 狠狠去 | 亚洲国产精品乱码在线观看97 | 影院成人区精品一区二区婷婷丽春院影视 | 天堂资源在线种子资源 | 天天舔天天爱 | 久久精品人人做人人看 | 国产精品漂亮美女在线观看 | 天天干夜夜噜 | 欧美xx网站| 欧美综合国产精品日韩一 | 欧美高清xx| 欧美午夜激情影院 | 五月天精品在线 | 欧美影院一区二区 | 亚洲国产成人精彩精品 | 亚洲欧美4444kkkk | 免费一级特黄a | 国产日本久久久久久久久婷婷 | 日日碰狠狠添天天爽五月婷 | 九九re热| 妖精视频一区二区三区 | 亚洲国产一区二区三区在线观看 | 啪啪网站色大全免费 | 夜色伊人| 色香蕉在线 | 日韩午夜 | 亚洲高清国产一线久久 | 久久成人网18网站 | 一级片在线免费播放 | 8888四色奇米在线观看不卡 | 久久国产香蕉一区精品 | 亚洲狠狠狠一区二区三区 | 2022第二三四天堂网 | 四虎国产精品免费视 | 赛罗奥特曼银河帝国普通话免费版 | 四虎影院国产精品 | 色综合天天操 |