在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

騰訊AI實驗室是如何構建的?有什么特點

悟空智能科技 ? 2018-12-01 09:57 ? 次閱讀

又一來自騰訊AI實驗室的資源帖。騰訊AI實驗室宣布,正式開源一個大規模、高質量的中文詞向量數據集。該數據集包含800多萬中文詞匯,相比現有的公開數據,在覆蓋率、新鮮度及準確性上大幅提高。在對話回復質量預測、醫療實體識別等自然語言處理方向的業務應用方面,騰訊內部效果提升顯著。

數據集特點

總體來講,騰訊AI實驗室此次公開的中文詞向量數據集包含800多萬中文詞匯,其中每個詞對應一個200維的向量。

具體方面,騰訊自稱,該數據集著重在3方面進行了提升:

1. 覆蓋率(Coverage):

該詞向量數據包含很多現有公開的詞向量數據所欠缺的短語,比如“不念僧面念佛面”、“冰火兩重天”、“煮酒論英雄”、“皇帝菜”、“喀拉喀什河”等。

以“喀拉喀什河”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:

墨玉河、和田河、玉龍喀什河、白玉河、喀什河、葉爾羌河、克里雅河、瑪納斯河

2. 新鮮度(Freshness):

該數據包含一些最近一兩年出現的新詞,如“戀與制作人”、“三生三世十里桃花”、“打call”、“十動然拒”、“供給側改革”、“因吹斯汀”等。

以“因吹斯汀”為例,利用騰訊AI Lab詞向量計算出的語義相似詞如下:

一顆賽艇、因吹斯聽、城會玩、厲害了word哥、emmmmm、扎心了老鐵、神吐槽、可以說是非常爆笑了

3. 準確性(Accuracy):

由于采用了更大規模的訓練數據和更好的訓練算法,所生成的詞向量能夠更好地表達詞之間的語義關系,如下列相似詞檢索結果所示:

在開源前,騰訊內部經歷了多次測評,認為該數據集相比于現有的公開數據,在相似度和相關度指標上均達到了更高的分值。

數據集構建經驗

那么這樣的數據集,騰訊AI實驗室是如何構建的呢?

他們圍繞3方面分享了構建及優化經驗:

1. 語料采集:

訓練詞向量的語料來自騰訊新聞和天天快報的新聞語料,以及自行抓取的互聯網網頁和小說語料。

大規模多來源語料的組合,使得所生成的詞向量數據能夠涵蓋多種類型的詞匯。

而采用新聞數據和最新網頁數據對新詞建模,也使得詞向量數據的新鮮度大為提升。

2. 詞庫構建:

除了引入維基百科和百度百科的部分詞條之外,還實現了Shi等人于2010年提出的語義擴展算法,可從海量的網頁數據中自動發現新詞——根據詞匯模式和超文本標記模式,在發現新詞的同時計算新詞之間的語義相似度。

3. 訓練算法:

騰訊AI Lab采用自研的Directional Skip-Gram (DSG)算法作為詞向量的訓練算法。

DSG算法基于廣泛采用的詞向量訓練算法Skip-Gram (SG),在文本窗口中詞對共現關系的基礎上,額外考慮了詞對的相對位置,以提高詞向量語義表示的準確性。

意義

最后,表揚一下鵝廠的開源之舉。

目前針對英語環境,工業界和學術界已發布了一些高質量的詞向量數據,并得到了廣泛的使用和驗證。

其中較為知名的有谷歌公司基于word2vec算法、斯坦福大學基于GloVe算法、Facebook基于fastText項目發布的數據等。

然而,目前公開可下載的中文詞向量數據還比較少,并且數據的詞匯覆蓋率有所不足,特別是缺乏很多短語和網絡新詞。

所以有資源有能力的騰訊,還有心做這樣的事情,對業界實屬利好。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    87

    文章

    33554

    瀏覽量

    274193
  • 騰訊
    +關注

    關注

    7

    文章

    1678

    瀏覽量

    50039

原文標題:資源 | 騰訊開源800萬中文詞的NLP數據集

文章出處:【微信號:WUKOOAI,微信公眾號:悟空智能科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    實驗室安全管理成焦點,漢威科技賦能實驗室安全升級

    實驗室是國家科技創新體系的重要組成部分,是國家組織高水平基礎研究和應用基礎研究、聚集和培養優秀科學家、開展學術交流的重要基地。近年來,各高校、研究院所、科創園區、高新產業園區相關企業的實驗室呈現爆發
    的頭像 發表于 04-10 10:41 ?261次閱讀
    <b class='flag-5'>實驗室</b>安全管理成焦點,漢威科技賦能<b class='flag-5'>實驗室</b>安全升級

    達實智能“AI+物聯網”開放實驗室啟動

    近日,“AI+物聯網”開放實驗室于達實智能大廈正式啟動。開放實驗室項目由深圳市科學技術協會、南山區科學技術協會作為指導單位;深圳達實智能股份有限公司為發起單位,首批9家共建單位入駐。
    的頭像 發表于 03-19 16:43 ?405次閱讀

    華為智算實驗室解決方案助力科研創新高質量發展

    AI浪潮席卷科研領域,以DeepSeek為代表的生成式AI技術正掀起新一輪科研革命。華為基于其在AI和高性能計算等領域的優勢,推出智算實驗室解決方案,與DeepSeek協同創新,加速科
    的頭像 發表于 02-25 16:22 ?658次閱讀

    愛立信成立認知實驗室

    愛立信近日宣布成立Ericsson Cognitive Labs認知實驗室
    的頭像 發表于 02-19 10:09 ?1355次閱讀

    NVIDIA推出DRIVE AI安全檢測實驗室

    全新 NVIDIA 實驗室獲得美國國家標準學會國家認可委員會(ANAB)的認證,可執行自動駕駛汽車的功能安全、網絡安全和 AI 檢測。
    的頭像 發表于 01-09 16:01 ?468次閱讀

    湖畔實驗室發布2024年度創新成果

    近日,湖畔實驗室(數據科學與應用浙江省實驗室)在年度大會上發布了多項令人矚目的創新成果,涵蓋AI多癌早篩、氣象大模型等多個領域。這些成果不僅展示了實驗室在前沿
    的頭像 發表于 12-23 11:18 ?538次閱讀

    梯度科技成為AI Cloud MSP技術服務實驗室首批成員單位

    近日,2024全球數字經濟大會云·AI·計算國際合作論壇成功召開。會上,公布了AI Cloud MSP技術服務實驗室首批成員單位,梯度科技憑借在人工智能云管理服務領域的卓越實力成為AI
    的頭像 發表于 12-18 10:07 ?541次閱讀

    創夢天地與騰訊云攜手成立聯合創新實驗室

    成立聯合創新實驗室,旨在深化并拓展雙方在游戲研發中的合作。 根據協議,聯合創新實驗室將圍繞“AI助力游戲研發提質增效”這一主題展開工作。雙方將在已有的AI代碼助手、
    的頭像 發表于 11-21 13:58 ?768次閱讀

    LIMS系統在芯片實驗室中的應用

    在高速發展的芯片行業中,芯片實驗室作為技術創新和產品驗證的核心部門,面臨著諸多挑戰與問題。這些問題不僅影響了實驗室的工作效率,還可能對芯片產品的質量和研發周期產生不利影響。幸運的是,LIMS系統
    的頭像 發表于 11-07 17:59 ?642次閱讀

    深圳南柯電子 電磁兼容性EMC實驗室構建與測試的關鍵要素

    深圳南柯電子|電磁兼容性EMC實驗室構建與測試的關鍵要素
    的頭像 發表于 11-05 14:53 ?522次閱讀
    深圳南柯電子 電磁兼容性EMC<b class='flag-5'>實驗室</b>:<b class='flag-5'>構建</b>與測試的關鍵要素

    LIMS實驗室管理平臺的實施步驟

    實驗室信息管理系統(LIMS)是現代實驗室管理的核心,它通過集成各種實驗室操作流程,提高實驗室的工作效率和數據管理能力。實施LIMS系統是一個系統化的過程,需要精心規劃和執行。以下是實
    的頭像 發表于 10-29 09:10 ?945次閱讀

    實驗室數據管理與LIMS平臺的關系

    實驗室數據管理(Laboratory Data Management)是指對實驗室產生的數據進行收集、存儲、處理、分析和報告的過程。這包括了樣品的接收、測試結果的記錄、質量控制數據的跟蹤以及最終報告
    的頭像 發表于 10-28 18:10 ?773次閱讀

    榮耀與智譜攜手共建AI大模型聯合實驗室

    近日,榮耀終端有限公司與北京智譜華章科技有限公司正式攜手,共同宣布成立AI大模型技術聯合實驗室,并簽署了戰略合作協議。此次合作標志著雙方在人工智能領域的深度合作邁入新階段,共同致力于為用戶帶來前所未有的智能體驗。
    的頭像 發表于 09-03 18:15 ?1207次閱讀

    中軟國際金融AI實驗室成立 引領金融科技新動力

    進程的新里程碑。 推動金融智能化? 中軟國際金融AI實驗室的使命是通過 AICC 人工智能客戶聯絡中心構建的金融解決方案,驅動下一代金融呼叫中心的企業工作流程。實驗室致力于在金融領域推
    的頭像 發表于 08-01 18:49 ?1139次閱讀

    優刻得與聯想AI實驗室攜手共建高效AI資源池

    近日,云計算服務提供商優刻得(UCloud)與聯想AI實驗室宣布達成戰略合作,雙方將共同打造一個高效且靈活的本地化AI資源池,旨在加速AI技術的研發與應用創新。此次合作標志著優刻得在推
    的頭像 發表于 07-14 14:19 ?1255次閱讀
    主站蜘蛛池模板: 久久综合九色综合欧洲 | 久久免费精品 | 亚洲第一网站快活影院 | 特黄aaaaa日本大片免费看 | 性欧美高清强烈性视频 | 久久伊人色| 午夜寂寞影院视频观看 | 亚色图 | 757福利影院合集3000 | 亚洲色四在线视频观看 | 韩国三级观影久久 | 成年人电影黄色 | 天天艹天天射 | 欧美激情综合 | 午夜免费福利网站 | 成年人色网站 | 久久久噜噜噜www成人网 | 日本特黄特色大片免费播放视频 | 日本不卡专区 | 四虎国产精品成人永久免费影视 | 特黄一级真人毛片 | 夜色成人网 | 午夜影院免费在线观看 | 日本xxxx色视频在线观看免费 | 色内内免费视频播放 | 六月婷婷色 | 日日干夜夜操 | 午夜影院操 | 2018天堂视频免费观看 | 在线播放ww | 伊人伊成久久人综合网777 | 福利视频一区二区 | 色久优优 | 中国一级特黄特色真人毛片 | 网红和老师啪啪对白清晰 | 788gao这里只有精品 | 国产午夜久久精品 | 成人淫片| 91精品啪在线观看国产日本 | 真人一级一级特黄高清毛片 | 亚洲最大成人综合网 |