在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何基于Tf-Idf詞向量和余弦相似性根據字幕文件找出相似的TED演講

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-06-30 09:32 ? 次閱讀

編者按:數據科學顧問Gunnvant Saini講解了如何基于Tf-Idf詞向量和余弦相似性根據字幕文件找出相似的TED演講。

好吧,我喜歡TED演講,誰不喜歡呢?當我查看Kaggle上的TED數據集(rounakbanik/ted-talks)時,有不少發現。首先,由于數據集包含許多TED演講的字幕,因此我們有了一個非常豐富、語言學上結構良好的語料。其次,由于該語料具備良好的語言學屬性,它很可能和Reuters 20 News Group或者古登堡語料庫差不好。這讓我靈機一動:

我有許多TED演講的字幕數據,我能嘗試找到一種根據演講相似性推薦TED演講(就像TED官網做的那樣)的方法嗎?

當然,TED官網所用的推薦系統,會比我這里演示的復雜得多,同時涉及一些用戶交互的歷史數據。

本文想要演示如何僅僅基于內容生成推薦。當你不具備任何用戶交互數據時,比如在剛開始的時候,這一技術變得極為重要,它有助于向消費者提供內容相關的上下文推薦。

數據

字幕儲存于transcript一列,每行對應一個演講。

import pandas as pd

transcripts=pd.read_csv("E:\Kaggle\ted-data\transcripts.csv")

transcripts.head()

可以看到,從url很容易就能提取演講的標題。我的目標是使用字幕文本創建相似性的測度,然后為給定演講推薦4個最相似的演講。

transcripts['title']=transcripts['url'].map(lambda x:x.split("/")[-1])

transcripts.head()

好了,數據預處理完畢,我可以開始創建推薦系統了:

為字幕創建向量表示

為上一步創建的向量表示創建一個相似性矩陣

基于某種相似性測度,為每個演講選定4個最相似的演講

使用Tf-Idf創建詞向量

由于我們的最終目標是基于內容相似性推薦演講,我們首先要做的就是為字幕創建便于比較的表示。其中一種方法是為每個字幕創建一個tfidf向量。但是,到底什么是tfidf呢?讓我們先討論下這個概念。

語料庫、文檔和頻次矩陣

為了表示文本,我們將把每個字幕看成一個“文檔”,然后將所有文檔的集合看成一個“語料庫”。然后,二維碼將創建一個向量,表示每個文檔中詞匯出現的次數,像這樣:

這些向量組成了一個矩陣,稱為頻次矩陣(count matrix)。不過,這樣的表示方式有一個問題。比如,“one”在文檔1中只出現過一次,但在其他文檔中均未出現,所以“one”是一個重要的詞匯。但是如果我們查看文檔1的頻次向量,“one”的權重和“This”、“is”等詞一樣,都是1. 而Tf-Idf可以解決這一問題。

詞頻-逆向文檔頻率(Tf-Idf)

為了理解Tf-Idf如何幫助識別詞匯的重要性,讓我們詢問自己幾個問題,如何決定一個詞匯是否重要?

如果這個詞匯在文檔中多次出現?

如果這個詞匯很少在語料庫中出現?

同時滿足1和2?

如果一個詞匯在某個文檔中頻繁出現,但在語料庫中的其他文檔中很少出現,那么該詞匯對這個文檔很重要。詞頻(term frequency)衡量詞匯在給定文檔中出現的頻繁程度,而逆向文檔頻率(inverse document frequency)衡量詞匯在語料庫中出現的罕見程度。兩者之積Tf-Idf衡量詞匯的重要程度。使用sklearn機器學習框架,創建Tf-Idf向量表示非常直截了當:

from sklearn.feature_extraction import text

Text=transcripts['transcript'].tolist()

tfidf=text.TfidfVectorizer(input=Text,stop_words="english")

matrix=tfidf.fit_transform(Text)

現在我們已經解決了如何在詞向量中體現詞匯重要性的問題,我們將開始考慮下一個問題,如何個找到給定文檔的相似文檔(在我們的例子中是TED演講字幕)?

查找相似文檔

通常,我們使用余弦相似度,衡量Tf-Idf向量的接近程度。也就是說,我將基于Tf-Idf向量創建一個余弦矩陣,表示文檔兩兩之間的相似程度:

同樣,使用sklearn做這個非常直接:

from sklearn.metrics.pairwise import cosine_similarity

sim_unigram=cosine_similarity(matrix)

創建了相似度矩陣后,我只需查詢這一矩陣,在每一行找出4個余弦相似度最高的列,就可以為每個文檔(字幕)選出最相似的4個文檔了。

def get_similar_articles(x):

return",".join(transcripts['title'].loc[x.argsort()[-5:-1]])

transcripts['similar_articles_unigram']=[get_similar_articles(x) for x in sim_unigram]

讓我們看下效果,比如,隨便挑一個演講,看看哪4個演講和它最相似:

transcripts['title'].str.replace("_"," ").str.upper().str.strip()[1]

'AL GORE ON AVERTING CLIMATE CRISIS'

transcripts['similar_articles_unigram'].str.replace("_"," ").str.upper().str.strip().str.split(" ")[1]

['RORY BREMNER S ONE MAN WORLD SUMMIT',

',ALICE BOWS LARKIN WE RE TOO LATE TO PREVENT CLIMATE CHANGE HERE S HOW WE ADAPT',

',TED HALSTEAD A CLIMATE SOLUTION WHERE ALL SIDES CAN WIN',

',AL GORE S NEW THINKING ON THE CLIMATE CRISIS']

顯然,從標題上看,這些演講的主題是相似的。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 向量
    +關注

    關注

    0

    文章

    55

    瀏覽量

    11705
  • 數據集
    +關注

    關注

    4

    文章

    1209

    瀏覽量

    24834

原文標題:TF-IDF和余弦相似度告訴你該看哪個TED演講

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    TF-IDF測量文章的關鍵相關研究

    停用詞的移除、大小寫字母轉化和詞干提取。4)獲取查詢。獲取單詞權重,對于可疑文檔利用TF-IDF獲得關鍵,并排序得到相應的關鍵列表。排在前n個的關鍵詞組成一個查詢,以此類推,本試驗中n=5。5)檢索
    發表于 01-26 10:38

    影像匹配中幾種相似性測度的分析

    摘要對基于灰度影像匹配中的幾種相似性測度進行了研究,分析了每種測度的直觀意義、限制條件以及改進措施,最后通過實臉結果驗證了L述結論關健影像匹配:相似hi測度;
    發表于 01-09 16:44 ?10次下載

    基于相似性的圖像融合質量的客觀評估方法

    基于相似性的圖像融合質量的客觀評估方法:研究圖像融合結果的質量評估問題,提出一種新的基于相似性的圖像融合質量客觀評估方法.這種方法考慮人類視覺對局部變化更加敏感的
    發表于 10-31 08:57 ?16次下載

    一中余弦相似度的改進方法

    位置時間序列常被應用到不同的研究領域,具有很高的商業價值。本文通過計算位置時間序列的余弦相似度找到確定與其近似的位置時間序列。同時針對余弦相似
    發表于 11-01 17:42 ?0次下載
    一中<b class='flag-5'>余弦</b><b class='flag-5'>相似</b>度的改進方法

    基于Document Triage的TF-IDF算法

    針對TF-IDF算法在加權時沒有考慮特征本身在文檔中重要度的問題,提出利用用戶閱讀時的閱讀行為來改進TF-IDF。將Document Triage引入到TF-IDF中,利用IPM收集
    發表于 12-27 10:54 ?0次下載

    TF-IDF算法的改進及在語義檢索中應用

    技術相結合,從而實現對TF-IDF算法的改進。利用語義庫對搜索主題進行描述,根據正則原予語義的重要和在網頁標簽中的不同位置進行加權計算,得到正則原子在文檔中的相似度。通過空間
    發表于 01-02 11:25 ?0次下載
    <b class='flag-5'>TF-IDF</b>算法的改進及在語義檢索中應用

    基于劃分思想的文件結構化相似性比較方法

    針對傳統文件結構化相似性比較法中采用基本塊( BB) -對一映射而造成的巨大時空消耗及基本塊比較結果的絕對化問題,提出一種基于劃分思想的文件結構化相似性比較方法。該方法首先對用于基本塊
    發表于 01-02 14:04 ?0次下載
    基于劃分思想的<b class='flag-5'>文件</b>結構化<b class='flag-5'>相似性</b>比較方法

    云模型重疊度的相似性度量算法

    重疊度的相似性度量算法。首先,根據云模型期望、熵、超熵三個數字特征,定義兩個云模型的位置關系和邏輯關系;其次,利用兩個云的位置和形狀特性,計算得到它們間的重疊度;最后,結合云模型重疊度與相似度的關系,將云模
    發表于 01-07 10:54 ?1次下載

    基于節點相似性社團結構劃分

    針對復雜網絡結構劃分過程復雜、準確差的問題,定義了節點全局和局部相似性衡量指標,并構建節點的相似性矩陣,提出一種基于節點相似性度量的社團結構劃分算法。其基本思路是將節點(或社團)按
    發表于 01-10 14:02 ?0次下載

    計算文本相似度幾種最常用的方法,并比較它們之間的性能

    估計兩句子間語義相似度最簡單的方法就是求句子中所有單詞嵌入的平均值,然后計算兩句子嵌入之間的余弦相似性。很顯然,這種簡單的基準方法會帶來
    的頭像 發表于 06-30 11:16 ?5.4w次閱讀
    計算文本<b class='flag-5'>相似</b>度幾種最常用的方法,并比較它們之間的性能

    如何使用會話時序相似性進行矩陣分解數據填充

    針對已有數據填充方法只考慮評分信息和傳統相似性,無法捕獲用戶間真實相似關系的問題,提出了基于會話時序相似性的矩陣分解數據填充方法來緩解數據稀疏、提高推薦精度。首先,分析了傳統
    發表于 01-23 14:50 ?3次下載
    如何使用會話時序<b class='flag-5'>相似性</b>進行矩陣分解數據填充

    TF-IDF的基礎模型和使用教程和算法代碼免費下載

    這是一個tf-idf的算法包,里面包含的基礎模型,使用教程和算嗎代碼。
    發表于 05-21 08:00 ?0次下載

    一種基于TF-IDF的Webshell文件檢測方法

    的 Webshell文件檢測方法。系統首先對不同類型的Webshell文件進行分類,并對不同文件進行相應的預處理轉碼,以降低混淆干擾技術對檢測的影響;隨后建立袋模型,并采用
    發表于 04-26 14:16 ?3次下載
    一種基于<b class='flag-5'>TF-IDF</b>的Webshell<b class='flag-5'>文件</b>檢測方法

    PyTorch教程15.7之詞的相似性和類比

    電子發燒友網站提供《PyTorch教程15.7之詞的相似性和類比.pdf》資料免費下載
    發表于 06-05 11:04 ?0次下載
    PyTorch教程15.7之詞的<b class='flag-5'>相似性</b>和類比

    基于結構相似性可靠監測結果

    電子發燒友網站提供《基于結構相似性可靠監測結果.pdf》資料免費下載
    發表于 02-05 09:10 ?0次下載
    基于結構<b class='flag-5'>相似性</b>可靠<b class='flag-5'>性</b>監測結果
    主站蜘蛛池模板: 精品国产午夜久久久久九九 | 国产亚洲新品一区二区 | 欧美日韩色综合网站 | 一级毛片aa | 欧美天堂在线观看 | 大量真实偷拍情侣视频野战 | 精品三级在线观看 | 亚洲一区二区三区在线视频 | 国产日韩三级 | 国产成人精品日本 | 一区二区三区久久 | 免费看久久 | 禁网站在线观看免费视频 | 欧美怡红院免费全部视频 | aaa一区二区三区 | 欧洲精品不卡1卡2卡三卡 | 色5月婷婷 | 黑人黄色大片 | 激情在线播放免费视频高清 | 四虎www成人影院免费观看 | 天天插天天射天天操 | 你懂的在线免费视频 | 毛片一区 | 日操夜干 | 国产综合在线播放 | 天堂网www在线观看 天堂网www在线资源中文 | 末满18以下勿进色禁网站 | 天天摸天天 | 一个人看的www片免费高清视频 | 夜夜爱夜夜爽 | 美女被免费视频网站九色 | sese久久 | 深夜网站免费 | 亚洲黄色性视频 | 久久最新精品 | 国产精品三级a三级三级午夜 | 久久久久国产精品免费免费 | 天天操一操| 一区二区三区四区电影 | 中文字幕一区二区三区精彩视频 | 啪啪免费网 |