在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

您好,歡迎來電子發燒友網! ,新用戶?[免費注冊]

您的位置:電子發燒友網>源碼下載>數值算法/人工智能>

提高排序效果和實驗的效率推特搜索相關架構分析

大小:0.7 MB 人氣: 2017-09-30 需要積分:1

  每天,全世界幾百萬的用戶都在Twitter上搜索著發生的新鮮事。在重大事件期間,比如剛剛過去不久的2016歐洲杯,我們觀察到在用戶前來Twitter查看最新戰況時,搜索服務會出現流量的尖峰,并且整體流量隨著此事件的推移而穩步上升。Twitter的搜索質量組就是負責給用戶返回質量最好的結果。

  相比于傳統的信息檢索產品,Twitter的搜索面臨的挑戰是絕無僅有的,原因如下:

  時效性:我們大部分的搜索請求都對信息的話題性和實時性有著強烈的需求。世界局勢瞬息萬變,在某些情況下,甚至幾分鐘前的搜索結果就會顯得過時和不相關。推薦的搜索詞條,拼寫糾正和相關搜索詞等,都需要保證新鮮和及時。

  文檔集合龐大:搜索的候選文檔集合非常巨大,每天有幾十億條各種語言的新的Twitter生成。

  文檔格式:Twitter的文檔有其特殊的屬性:140個字符的非結構文本文字,但是包含了豐富的實體類別,有“#”符合、“@”符合、圖像、視頻和站外鏈接。不同于網站頁面,Twitter之間沒有超鏈接,因此類似PageRank的基于鏈接的算法不能直接拿來用于Twitter的排序。

  多種結果類型:搜索的結果頁是多種搜索結果的聚合,包括Twitter、其它用戶賬號、圖像、視頻、新聞、相關搜索和拼寫候選詞等。各種類型的結果需要一起參與排序,使得最后聚合的結果頁滿足用戶的搜索意圖。

  個性化:每一位搜索用戶都有自己的社交網絡、興趣愛好、地理位置和語言偏好,因此搜索結果需要個性化定制以滿足相關性。

  為了在很短的延遲內返回相關的、高質量的搜索結果,我們需要在多個領域解決技術挑戰:信息檢索、自然語言處理、機器學習、分布式系統、數據科學等等。

  在過去幾個月中,我們投入了大量精力在搜索相關性的基礎框架建設,目的是提高排序效果和實驗的效率。這篇博文介紹了一些重點工作。注意,這與我們的召回Twitter的核心索引和檢索平臺(沒有排序)有所區別。

  實時信號消化

  我們排序模型中用到的信號的變化性和時效性對最終的搜索結果質量有著巨大的影響。而且,當Twitter被建索引之后許多信號都會迅速改變,因此我們需要及時更新它們。我們基于Heron寫了一套新的信號消化器來處理原始信號流,為我們產品的排序模塊提供特征。我們添加了靈活的模式動態地對新特征編碼和解碼,而盡可能少的修改代碼。隨著Twitter應用的升級,我們可以快速地添加和測試在離線實驗中表現出色的新的排序信號。

  快速、輕量級實驗

  我們實現從想法-》驗證-》迭代這個周期的速度越快、代價越小,我們可以驗證的想法就越多,產生的創新也越多。我們重度依賴傳統的A/B測試,同時也建立了一個互補的離線實驗系統,使得測試效率更高。Twitter的搜索結果和搜索詞變化迅速。因此,為了將信號從噪音中分割開來,我們凍結特定的時間節點的世界狀態,構建了一個沙盒環境,以至于我們可以根據想要完成的測試來產生穩定的、可重復的結果。為了更好的理解,我們開發了工具來分析和顯示的結果之間的差異,并且可以從內部評委處容易地獲得他們根據我們的搜索質量判斷準則給出的打分標簽。一個特別好的優勢是,這使我們能夠驗證龐大的指數級變化,如給檢索增加新的索引字段和標識的更新等等,還可以在部署產品之前對結果精細地打磨。

  訓練和部署機器學習模型

  機器學習的模型常用于搜索排名,因為他們提供了一個原則性和自動化的方式來優化特征的權重和整合新的排序特征。為了使它們效果最好,重要的是要正確識別需優化的目標函數,使其與用戶最終的滿意度相關聯。我們建立了一個管道,它可以無縫地收集訓練數據集用于模型的訓練和驗證,并將訓練完成的模型部署到生產服務器。數據規模帶來了額外的挑戰,如搜索排名第一階段發生在索引碎片,大量與查詢詞匹配的文檔在CPU資源、內存和延遲約束很嚴格的情況下進行打分。我們與Twitter Cortex團隊創建了一個輕量級的運行系統,它可以支持在這些約束條件下運行模型,并且用我們內部的機器學習平臺工具訓練得到的排序模型部署到線上使用,如whetlab。

  這些都是支持我們測試的關鍵模塊,并且能夠提升搜索的相關性,使搜索更好地為我們的用戶服務。在未來的文章中,我們將深入介紹近期正在進行的搜索質量和項目的具體方面。敬請關注!

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發表評論

      用戶評論
      評價:好評中評差評

      發表評論,獲取積分! 請遵守相關規定!

      ?
      主站蜘蛛池模板: 国产黄视频在线观看 | 狠狠色婷婷 | 一区二区视频 | a久久久久一级毛片护士免费 | 日本free护士姓交 | 四虎免费影院4hu永久免费 | 午夜8050| h版欧美一区二区三区四区 h网站亚洲 | 亚洲美女高清一区二区三区 | 开心色xxxx | 色吧亚洲欧美另类 | 欧美三四级片 | 永久免费在线观看视频 | 日产精品卡二卡三卡四卡无卡乱码 | 国产伦精品一区二区三区免 | 国产午夜a理论毛片在线影院 | 亚洲欧洲一区二区三区在线观看 | 三级网在线 | 免费视频网站在线看视频 | 人人舔人人爱 | 日本黄色免费看 | 天天操天天添 | 午夜欧美福利视频 | 国产性较精品视频免费 | 人人干免费 | 亚洲68283精品人体 | 性欧洲女人18 | 亚洲伊人tv综合网色 | 免费大片看黄在观看 | 男人边吃奶边爱边做视频日韩 | 五月婷婷六月色 | 国产成人精品系列在线观看 | 四虎影视亚洲精品 | ww7788色淫网站女女免费 | 亚色国产 | 一久久 | 91热成人精品国产免费 | 曰本女人一级毛片看一级毛 | free性日本 | 亚洲综合亚洲综合网成人 | 曰本福利写真片视频在线 |