在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何用約43000張圖片的數據集,來計算得出表情包的火爆程度排名

如意 ? 來源:讀芯術微信公眾號 ? 作者:讀芯術微信公眾號 ? 2020-10-11 10:06 ? 次閱讀

電視節目的火爆程度可以根據尼爾森收視率排名(Neilsen ratings)來衡量,但是表情包呢?目前仍然沒有什么獨立指標能用以評估表情包(memes)的瀏覽人數,所以筆者自己摸索出了一些方法!

本文將說明如何用約43000張圖片的數據集和五項數據科學原則,來計算得出表情包的火爆程度排名。

1. 明確定義估算對象

對文字信息的理解因人而異。筆者不知見識過多少次這樣的場景:二人在對話中就項目的目標達成了一致,之后卻發現彼此對關鍵詞的理解大相徑庭。因此,如果在項目開始時徹底厘清每個詞的定義,就能省下不少時間。

例如,假設你要估算“2019年的英國人口數量”。這是指2019年初、年末還是年中的人口數量?還是三者的平均值?這里的“人口”是指常住居民,還是包括游客和臨時居民在內的所有人?

回到表情包的話題上。首先聲明,筆者要討論的并非表情包的學術定義,而是網絡表情包(結合了網上流行的圖像和文字)。更具體地說,筆者感興趣的是找出最流行的表情包模板(表情包的背景圖像)。因此筆者所謂的“最火表情包”其實指的是:瀏覽人次最多的表情包模板(通過累加所有使用該模板的網絡表情包的瀏覽量來計算得出)。

明確了這一點之后,就要開始收集數據。

2.以最小化偏差的方式采樣數據

尼爾森排名系統不可能監測每臺電視機,同樣,筆者也無法全部下載網絡上的每個表情包。因此,這兩種情況都必須要經過采樣。

如果一個數據樣本真正代表了更廣泛的群體,那么我們稱其為無偏見數據。但在很多情況下,這是不可能的。通常,我們必須以盡可能合理的方式最小化偏差,然后在分析數據時盡最大努力修正偏差。

本項目中的表情包采集自Reddit,它是世界上最大的圖片分享網站之一。使用一個爬蟲工具在一天中多次查看該網站與表情包有關的幾個部分,并且抓取前100張最受歡迎的圖片。

其中的許多表情包都托管在Imgur上,該網站公開了表情包瀏覽數據。因此交叉引用這些數據可以讓我們推斷出Reddit上圖片的瀏覽量。通過Reddit和Imgur的應用程序接口(API),只需寥寥幾行python代碼就可完成該采樣。

接下來的問題是:這一采樣方法真的能夠最小化偏差嗎?Reddit只是網站中的一個個例,所以并不能真正代表整個互聯網。我們可以對其他網站(如instagram或Facebook)上的表情包進行采樣,以減少偏差。

然而,這些網站公開的數據有限,無法進行比對。比對這些網站數據的唯一的方法是做出大膽的假設,但此舉可能會為最終估計值引入更多的偏差。

沒有十全十美的答案。有時,我們只能接受這一點。筆者認為應當從一個最優的數據來源進行采樣,而不是將多個數據來源合并起來得到一個不可靠的數據集。筆者之所以稱Reddit是最好的來源,是因為它是最大的圖像共享網站,從中(通過交叉引用Imgur的數據)可以推斷出精度合適的瀏覽量。

3. 復雜模型只適用于復雜問題

我們需要確定數據集中每個表情包所使用的圖像模板。這是一個圖像分類問題,并且屬于一個簡單的圖像分類問題。如果簡單的方法就足以見效,那么就沒必要選擇復雜的解決方案。

近來最先進的圖像分類器,比如那些在Image-Net比賽中名列前茅的分類器,都是能夠不受角度、光線或背景的影響而正確識別物體的深度神經網絡。觀察一個表情包并識別其圖像模板則容易得多,因此需要的東西遠非100層神經網絡那么復雜。

表情包圖像模板的數量有限,并且都具有獨特的顏色模式。我們僅需要計算像素并將結果傳遞給線性支持向量機,就能精確地分類表情包。訓練支持向量機僅需幾秒,而神經網絡則需要數天。

4. 審核(有條件時引入人工)

很多時候,躊躇滿志的年輕數據科學家跑來找到筆者,自豪地公布一個偉大的發現,卻在被問及如何審核結果時面露怯色。通過基本的審核發現重大紕漏后,所謂的偉大發現往往將黯然退場。

在審核圖形分類模型的結果時,人眼是無可替代的(至少目前如此)。你或許認為,驗證圖形分類器在這個數據集(約有43000張圖像)上的結果需要很長時間,但有許多工具能加速這一過程。

借助標注工具,筆者平均使用20秒就能夠審核100張圖像(在10x10的格子中瀏覽),因此,全部審核完43000張圖像只花費了不到3小時。這樣的事情日常做大概吃不消,但一年一次還可以忍受。

5. 仔細考慮每個假設

統計模型有賴于數據和假設。通常情況下,原始數據無法優化,但假設可以改進。工作的最后一步是獲取數據集,并提取出每個表情包模板的瀏覽數據。由于數據具有局限性,這一分析需要一些額外的假設。

第一個假設涉及到缺失值。如果數據集中的某個條目出現了缺失值,那么最好是移除該條目(因而將減小樣本)呢,還是推測該缺失值是什么(因而或將引入誤差)呢?

這取決于數據集中缺失值的比例。如果比例較低,通常最好直接丟棄缺失值。而如果比例較高(該表情包數據集就是如此),那么丟棄所有缺失值可能會大大降低樣本的代表性。因此,筆者認為盡可能準確地填充這些缺失值是更好的做法。

第二個假設涉及修正我們的數據集對Reddit用戶的傾向性。筆者用下面的“傳播”假設來解決這一問題。筆者從Reddit的幾十個不同板塊進行了采樣,以此來測量每個表情包模板在多少個板塊中出現過。筆者假設,一個表情包在Reddit內部傳播得越廣,說明它在Reddit之外的傳播范圍也越廣。為了反映這一點,筆者擴增了這些表情包的瀏覽次數。

對于假設來說,標準答案是不存在的。我們唯一的選擇就是做出能讓人信服的抉擇。

計算結果:最受歡迎的表情包模板(2018年)

算法在2018年全年都在運行,共下載了40萬張圖片,并識別出其中的43660張使用了250個最常見的表情包模板之一。

如你所見,歌星Drake的表情圖以極大優勢奪得了2018年的流行之冠,共有1億5700萬次瀏覽量(該分析結果很有可能小于實際數據)。

如何用約43000張圖片的數據集,來計算得出表情包的火爆程度排名

此外,頂層模板的總瀏覽量分布近似于帕累托分布(Pareto distribution)。

世界上有許多難以精確測算的事物,表情包的流行程度就是其中之一。有時我們只能盡量追求最優解。筆者討論了在這一工作中使用的5項原則,一言以蔽之,即:在著手開始之前,仔細考慮項目的每個步驟。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7246

    瀏覽量

    91241
  • 數據采集
    +關注

    關注

    40

    文章

    7006

    瀏覽量

    115894
  • 數據科學
    +關注

    關注

    0

    文章

    168

    瀏覽量

    10422
收藏 人收藏

    評論

    相關推薦
    熱點推薦

    藍牙數據通道空口數據包

    。NESN,next expected sequence number,用來告知對方下一個期待的packet的編號。Link layer使用SN告知對方這個packet是新數據包還是重傳,用NESN
    發表于 06-03 10:51

    OCR識別訓練完成后給的是空壓縮,為什么?

    OCR識別 一共弄了26圖片,都標注好了,點擊開始訓練,顯示訓練成功了,也將壓縮發到郵箱了,下載下來后,壓縮里面是空的 OCR圖片2
    發表于 05-28 06:46

    何用c#使用ST25R3911DISCOComm.dll讀取和寫入NDEF區的數據

    何用c#使用ST25R3911DISCOComm.dll讀取和寫入NDEF區的數據,需要相關例程,感謝各位大佬拯救一下我啊!????
    發表于 04-23 06:58

    何用c#使用ST25R3911DISCOComm.dll讀取和寫入NDEF區的數據

    何用c#使用ST25R3911DISCOComm.dll讀取和寫入NDEF區的數據,需要相關例程,感謝各位大佬拯救一下我啊!????
    發表于 03-13 06:51

    請問NanoEdge AI數據該如何構建?

    我想用NanoEdge識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數據的問題,請問我該怎么構建數據?或者生成模型失敗還會有哪
    發表于 03-10 08:20

    DLP4500能否上傳一組圖片,然后給正向觸發,每次觸發就投影一圖片

    求教DLP 4500能否上傳一組912*1140分辨率的bmp圖片,然后給正向觸發,每次觸發投影一圖片? 如果可以,如何操作,user‘s guide貌似沒看到這種操作。附件為其中一
    發表于 02-27 07:28

    DLP4710一張張加載圖片顯示這個速度是否能夠更改?

    工程師您好,DMD一張張加載圖片顯示這個速度是否能夠更改?在DMD上加載圖片顯示目前只能6幀/s。如果需要提高速度應該從哪里去考慮?謝謝回答。
    發表于 02-21 12:12

    請問DLP4500的flash中最多可以存儲多少圖片

    我在使用軟件時,發現界面上只能切換3圖片,請問DLP4500的flash中最多可以存儲多少圖片
    發表于 02-20 06:51

    通過FPGA控制DAC5682Z, 計算得到的結果是64bit,怎樣通過DAC輸出?

    通過FPGA 控制DAC5682Z, 計算得到的結果是64bit,怎樣通過DAC輸出? 看到一個例子是通過雙數據率采樣(DDR),將輸入的64bit數據分成4個16-bit數據輸入到
    發表于 02-14 06:42

    高精密的電路噪聲如何計算

    我需要將量程±3V的差分電壓信號轉換為數字信號,要求分辨率小于3uV,由此計算得出需要21位的ADC,我想問一下大家做這么高精密的電路噪聲如何計算,以及需要注意些什么。同時希望大家能給推薦一些這方面的參考資料,謝謝大家。
    發表于 12-18 07:38

    ADS1298RECGFE-PDK增強導聯的模擬輸出和計算后的數值為什么有很大差異?

    如圖的模擬域增強導聯輸出方式,下面是我用計算得出的aVL和通道5測量出的aVL,數值差異很大
    發表于 11-19 06:32

    aic23b的ADC輸入信號范圍是多少,如何計算得出電壓?

    aic23b的ADC輸入信號范圍是多少,如何計算得出電壓
    發表于 10-29 07:59

    TAS5720MEVM Z1/Z2/C11/C12是如何計算得出的?

    TAS5720MEVM,Z1/Z2/C11/C12是如何計算得出的?不同的揚聲器,改如何匹配LC參數?
    發表于 10-14 07:50

    LPV521 Vout是怎么計算得出的呢?

    麻煩分析一下如下電路圖的工作原理:Vout是怎么計算得出的呢? 圖中測量電流的范圍能達多少呢?怎么計算出來的呢? 圖中三極管工作在什么狀態?怎么進行選型呢? 謝謝!
    發表于 09-05 07:37

    LMH6552在設置放大倍數為2時,計算得RF/RG=2,輸出的波形有偏差,為什么?

    為什么在設置放大倍數為2時,計算得RF/RG=2,輸出的波形有偏差,按照數據手冊上給的阻值設置卻沒有偏差,數據手冊上RF/RG約等于2,RG與計算值偏差幾歐姆,這是為什么
    發表于 08-29 07:48
    主站蜘蛛池模板: 国产传媒在线观看视频免费观看 | 一级看片| www.午夜色| 欧美午夜视频在线观看 | 色色色色色色色色色色色 | 久久精品男人的天堂 | hs网站在线观看 | 国产小视频免费在线观看 | 欧美特黄一免在线观看 | 3344在线| 色多多福利 | 国产yw.8825.c免费 | 经典三级一区在线播放 | 天堂一区二区在线观看 | 中国免费黄色片 | 一区二区精品 | 久久天天躁夜夜躁狠狠85台湾 | 一区二区三区中文字幕 | 亚色在线 | 中文字幕一区在线观看视频 | 日韩成人免费一级毛片 | 两性色视频 | 久久综合色婷婷 | 天天夜约 | 曰本又色又爽又黄三级视频 | 无遮挡很污很爽很黄的网站 | 夜夜操国产 | 4438x五月天 4438x亚洲最大 | 亚洲黄色色图 | 免费观看视频在线 | 久久香蕉综合色一综合色88 | 国产午夜在线观看 | 四虎影院久久久 | 在线人成精品免费视频 | 一级毛片真人免费播放视频 | 国产精品久久久亚洲 | brazzersvideosexhd欧美高清 | 欧美性色视频 | 免费操人视频 | 精品午夜久久福利大片免费 | 激情九月|