在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于無監督學習和圖學習的大數據挖掘

1ujk_Tencent_TE ? 來源:騰訊技術工程官方號 ? 2019-12-08 10:57 ? 次閱讀

在IJCAI-2019期間舉辦的騰訊TAIC晚宴和Booth Talk中,來自TEG數據平臺的張長旺向大家介紹了自己所在用戶畫像組的前沿科研結果:

1. 非監督短文本層級分類;

2. 大規模復雜網絡挖掘和圖表示學習。

其所在團隊積極與學術界科研合作,并希望有夢想、愛學習的實力派加入,共同研究和應用半監督/弱監督/無監督學習、小樣本學習、大規模復雜網絡挖掘和圖表示學習等做大數據挖掘。

科研結果1:非監督短文本層級分類

首先以下用戶和AI算法的對話,顯示了現實業務中使用現有監督文本分類算法的遇到的一些困境和問題:

算法需要海量訓練數據

算法模型用戶不可控

算法不能很好的適應類目的變化

我們分析現有監督算法的主要問題在于沒有真正的知識, 沒有對于文本和類目的真正的理解。現有算法只是在學習大量人工標注訓練樣本里面的模式。為了解決這個問題,我們啟動了一個叫做: 基于關鍵詞知識與類目知識的非監督短文本層級分類的探索項目。

項目的主要思想是引入關鍵詞和類目兩種知識來幫助算法理解關鍵詞和類目的含義。然后基于知識進行文本的分類和標注。關鍵詞知識主要來自3個方面包括:關鍵詞的網絡搜索上下文、關鍵詞的百科上下文、關鍵詞到類目詞的后驗關聯概率。我們提出類目語義表達式來支持用戶表達豐富的類目本身和類目之間的關系的語義。這兩樣知識的引入幫助算法擺脫了對于大量人工標注訓練樣本的依賴,同時算法分類的過程做到了人工可理解,人工可控制。

pIYBAF3sZiCAD0NcAAGXC_cWyhc920.jpg

基于關鍵詞和類目知識的無監督文本層級分類算法流程如下:

對文本提取關鍵詞

根據關鍵詞知識計算關鍵詞到類目詞的相關度詞向量

根據關鍵詞的相關度詞向量計算文本的相關度詞向量

根據文本的相關度詞向量和類目語義表達式計算文本與每個類目的匹配度

每個文本被分為與之匹配度最高的類目

pIYBAF3sZiCAc4I1AAFF-PRpshM196.jpg

通過在兩個文本分類數據集合上面的實驗,我們發現,我們自研的算法能夠在沒有訓練樣本的情況下提供質量可用的結果,其一級類目準確率能夠達到80%,并且明顯高于現有其他非監督算法。

pIYBAF3sZiCAPnfmAAGamuFnOPU555.jpg

科研結果2:大規模復雜網絡挖掘和圖表示學習

Network Representation Learning 或者說 Graph Embedding 是復雜網絡最新的研究課題,意在通過神經網絡模型,把圖結構向量化,為節點分類、鏈路預測、社團發現等挖掘任務提供方便有效的特征,以克服圖結構難以應用到機器學習算法中的難題。

本次我們在IJCAI發表的學術論文“Identifying Illicit Accounts in Large Scale E-payment Networks - A Graph Representation Learning Approach”創新性提出結合邊屬性的圖卷積神經網絡模型,彌補了現有算法無法利用邊屬性為節點分類提供更多信息的不足。

pIYBAF3sZiCAf4jWAADyry40GSc801.jpg

現有的圖學習算法,絕大部分都忽視了邊上信息的價值。在這里我們提出了一種可以把邊的信息傳輸到節點表示結果的改進的GCN算法。算法主要思路是在做GCN里面周邊鄰居節點向量的聚合計算之前,把每個節點連接邊的Embedding向量拼接在對應鄰居節點的Embedding向量后面。實驗顯示,我們的算法對于金融分類問題具有更優的結果。我們團隊正在進一步優化模型,正在研發利用時序的GCN模型,以可以利用邊的時序交互信息,從而更好的表示動態網絡。

pIYBAF3sZiGAcZ4XAAGfvV5Mbk0987.jpg

pIYBAF3sZiGAVDl_AAEtrHfo7Kk905.jpg

同時,數平數據中心研發的Angel參數服務器平臺,針對關系型數據結構,在計算性能上對圖算法做了優化,極大加速了PageRank等算法的計算速度,比如計算用戶中心度的Closeness算法,性能比基于Spark GraphX的算法提升了6.7倍。下圖顯示對于大型圖的計算,我們Angle框架的速度具有明顯的優勢。

pIYBAF3sZiGANHYUAAEl0_C2wBk224.jpg

pIYBAF3sZiGAXUHmAAEim4GgRxY047.jpg

我們所在團隊積極與學術界科研合作,并希望有夢想、愛學習的實力派加入,共同研究和應用半監督/弱監督/無監督學習、小樣本學習、復雜網絡挖掘和圖表示學習做大數據挖掘。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4695

    瀏覽量

    94623
  • 大數據
    +關注

    關注

    64

    文章

    8949

    瀏覽量

    139364

原文標題:IJCAI2019報告:基于無監督學習和圖學習的大數據挖掘

文章出處:【微信號:Tencent_TEG,微信公眾號:騰訊技術工程官方號】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    使用MATLAB進行監督學習

    監督學習是一種根據未標注數據進行推斷的機器學習方法。監督學習旨在識別
    的頭像 發表于 05-16 14:48 ?515次閱讀
    使用MATLAB進行<b class='flag-5'>無</b><b class='flag-5'>監督學習</b>

    什么是機器學習?通過機器學習方法能解決哪些問題?

    計算機系統自身的性能”。事實上,由于“經驗”在計算機系統中主要以數據的形式存在,因此機器學習需要設法對數據進行分析學習,這就使得它逐漸成為智能數據
    的頭像 發表于 11-16 01:07 ?803次閱讀
    什么是機器<b class='flag-5'>學習</b>?通過機器<b class='flag-5'>學習</b>方法能解決哪些問題?

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?612次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    AI大模型與深度學習的關系

    人類的學習過程,實現對復雜數據學習和識別。AI大模型則是指模型的參數數量巨大,需要龐大的計算資源來進行訓練和推理。深度學習算法為AI大模型提供了核心的技術支撐,使得大模型能夠更好地擬
    的頭像 發表于 10-23 15:25 ?2604次閱讀

    基于Kepware的Hadoop大數據應用構建-提升數據價值利用效能

    處理超大數據集。 Hadoop的生態系統非常豐富,包括許多相關工具和技術,如Hive、Pig、HBase等,這些工具可以方便地構建復雜的大數據應用。Hadoop廣泛應用于各種場景,包括數據處理和分析、
    的頭像 發表于 10-08 15:12 ?304次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數據</b>應用構建-提升<b class='flag-5'>數據</b>價值利用效能

    基于大數據與深度學習的穿戴式運動心率算法

    性能的關鍵手段。然而,在復雜多變的運動環境中,準確測量心率數據對于傳統算法而言具有較大的技術瓶頂。本文將探討如何運用大數據和深度學習技術來開發創新的穿戴式運動心率算
    的頭像 發表于 09-10 08:03 ?520次閱讀
    基于<b class='flag-5'>大數據</b>與深度<b class='flag-5'>學習</b>的穿戴式運動心率算法

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習的分類:有監督學習監督學習、半監督學習、自監督學習和強化
    發表于 07-25 14:33

    機器學習中的數據分割方法

    在機器學習中,數據分割是一項至關重要的任務,它直接影響到模型的訓練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細探討機器學習數據分割的方法,包括常見的分割方法、各自的優缺點、
    的頭像 發表于 07-10 16:10 ?2893次閱讀

    神經網絡如何用監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中監督學習是一種重要的訓練策略。監督學習旨在從未標記的
    的頭像 發表于 07-09 18:06 ?1329次閱讀

    深度學習中的監督學習方法綜述

    應用中往往難以實現。因此,監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的監督學
    的頭像 發表于 07-09 10:50 ?1482次閱讀

    深度學習的基本原理與核心算法

    隨著大數據時代的到來,傳統機器學習方法在處理復雜模式上的局限性日益凸顯。深度學習(Deep Learning)作為一種新興的人工智能技術,以其強大的非線性表達能力和自學習能力,在圖像識
    的頭像 發表于 07-04 11:44 ?3394次閱讀

    機器學習數據分析中的應用

    隨著大數據時代的到來,數據量的爆炸性增長對數據分析提出了更高的要求。機器學習作為一種強大的工具,通過訓練模型從數據
    的頭像 發表于 07-02 11:22 ?1213次閱讀

    深度學習與傳統機器學習的對比

    在人工智能的浪潮中,機器學習和深度學習無疑是兩大核心驅動力。它們各自以其獨特的方式推動著技術的進步,為眾多領域帶來了革命性的變化。然而,盡管它們都屬于機器學習的范疇,但深度學習和傳統機
    的頭像 發表于 07-01 11:40 ?2168次閱讀

    基于FPGA的類腦計算平臺 —PYNQ 集群的監督圖像識別類腦計算系統

    STDP 監督學習算法,可運用于圖像的 監督分類。 從平臺設計角度: (1)本設計搭建的基于 PYNQ 集群的通用低功耗的大規模類腦計算平臺,搭載 PYNN,NEST 等
    發表于 06-25 18:35
    主站蜘蛛池模板: eeuss秋霞成人影院 | 中文字幕1页 | 女人张开腿让男人桶免费网站 | 黄色www网站 | 四月婷婷七月婷婷综合 | 天天综合天天做 | 欧美综合一区二区三区 | 成年色黄大色黄大片 视频 成年视频xxxxx免费播放软件 | 天堂在线www在线资源 | 中文字幕久久精品波多野结 | 成人高清毛片a | 午夜性视频 | 在线天堂网 | 欧美午夜性刺激在线观看免费 | 三级黄色在线视频 | 韩国三级观影久久 | 亚洲一区二区精品视频 | 伊人久久大香线蕉综合爱婷婷 | 高清一区二区三区四区五区 | 欧美三级在线免费观看 | 久久福利国产 | 国产理论最新国产精品视频 | 日韩欧美一级 | 黄视频在线观看免费 | 人人草人 | 久久精品综合 | 明日花绮罗在线观看 | 国产精品三级在线播放 | 国产午夜精品视频 | 在线国产你懂的 | 四虎精品永久在线网址 | 国产三级在线观看视频 | 婷婷国产成人久久精品激情 | 野外啪啪抽搐一进一出 | 黄色免费三级 | 色偷偷7777www人 | 欧美一区二区三区不卡视频 | 天天舔天天射天天操 | 色综合成人 | 中文字幕v视界影院 | 日日做夜夜爽夜夜爽 |