在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)挖掘,數(shù)據(jù)結(jié)構(gòu)化首當(dāng)其沖

MqC7_CAAI_1981 ? 來源:未知 ? 作者:李倩 ? 2018-06-11 09:39 ? 次閱讀

現(xiàn)實(shí)中的大數(shù)據(jù)常常表示為一種非結(jié)構(gòu)化,交叉和動(dòng)態(tài)變化的文本數(shù)據(jù)。如何從大規(guī)模文本數(shù)據(jù)中抽取結(jié)構(gòu)化知識是一個(gè)非常值得研究的任務(wù)。很多研究工作依賴于勞動(dòng)密集型的數(shù)據(jù)標(biāo)注,用有監(jiān)督的方法去抽取知識。但是,這些方法不具有普適性,難以擴(kuò)展,進(jìn)而難以處理具有動(dòng)態(tài)性或領(lǐng)域限定性的文本數(shù)據(jù)。我們認(rèn)為大規(guī)模的文本數(shù)據(jù)其自身蘊(yùn)含著大量的模式、結(jié)構(gòu)或知識。通過將無領(lǐng)域限制的大規(guī)模文本數(shù)據(jù)和具有領(lǐng)域限制的知識庫結(jié)合,我們可以充分發(fā)揮大規(guī)模文本數(shù)據(jù)的優(yōu)勢去處理非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的難題。

——韓家煒

2018中國人工智能大會(huì)(CCAI2018)將于7月28日至29日在深圳舉行,韓家煒教授屆時(shí)將在會(huì)上分享他關(guān)于大規(guī)模文本數(shù)據(jù)挖掘的最新研究,發(fā)表題為《基于海量文本數(shù)據(jù)的結(jié)構(gòu)化知識抽取:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語言處理的融合技術(shù)》的主題演講,探討如何借助大規(guī)模文本數(shù)據(jù)自身的力量去做大規(guī)模的知識提取。

適逢盛會(huì),心向往之。會(huì)前,我們整理了韓教授以往關(guān)于大數(shù)據(jù)挖掘的相關(guān)觀點(diǎn),方便大家一睹為快。

韓家煒現(xiàn)為美國伊利諾伊大學(xué)香檳分校計(jì)算機(jī)系教授,ACM會(huì)士和IEEE會(huì)士,被稱為“數(shù)據(jù)挖掘第一人”。他在數(shù)據(jù)挖掘領(lǐng)域有重要的學(xué)術(shù)影響力,發(fā)表論文600余篇,出版多部專著。曾擔(dān)任國際知名會(huì)議KDD、SDM和ICDM程序委員會(huì)主席,創(chuàng)辦了學(xué)術(shù)期刊ACM TKDD并擔(dān)任主編。曾榮獲2004 ACM SIGKDD創(chuàng)新獎(jiǎng)、2005 IEEE計(jì)算機(jī)分會(huì)技術(shù)成就獎(jiǎng)、2009 IEEE計(jì)算機(jī)協(xié)會(huì)的M. Wallace McDowell獎(jiǎng)。他的專著Data Mining: Concepts and Techniques被公認(rèn)為數(shù)據(jù)挖掘領(lǐng)域的經(jīng)典教材。

大數(shù)據(jù)挖掘,數(shù)據(jù)結(jié)構(gòu)化首當(dāng)其沖

大數(shù)據(jù)(Big data或Megadata),或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模十分巨大,以至于無法在合理時(shí)間內(nèi)通過人工截取、管理、處理、并整理成為人類所能解讀的信息。在總數(shù)據(jù)量相同的情況下,與個(gè)別分析獨(dú)立的小型數(shù)據(jù)集(data set)相比,將各個(gè)小型數(shù)據(jù)集合并后進(jìn)行分析可得出許多額外的信息和數(shù)據(jù)關(guān)系性,可用來察覺商業(yè)趨勢、判定研究質(zhì)量、避免疾病擴(kuò)散、打擊犯罪或測定實(shí)時(shí)交通路況等;這樣的用途正是大型數(shù)據(jù)集盛行的原因。

我們這個(gè)時(shí)代,由于互聯(lián)網(wǎng)的發(fā)展,產(chǎn)生了大量數(shù)據(jù)。這些數(shù)據(jù)中絕大部分(超過 80%)都是以文本等無結(jié)構(gòu)或半結(jié)構(gòu)的方式存儲。所以,挖掘大數(shù)據(jù)首先就是要系統(tǒng)地研究如何挖掘無結(jié)構(gòu)的文本數(shù)據(jù),也就是說,要實(shí)現(xiàn)從Big Data 到Actionable Knowledge的轉(zhuǎn)變。

韓家煒認(rèn)為,要將無結(jié)構(gòu)的 Big Data 變成有用的 Knowledge,首先要做的就是將數(shù)據(jù)結(jié)構(gòu)化。他提出兩種結(jié)構(gòu)化數(shù)據(jù)的形式,一種是異質(zhì)網(wǎng)絡(luò)(Heterogeneous Network),另一種是多維文本立方體(Multi-dimensional Text Cube)。由結(jié)構(gòu)化數(shù)據(jù)生成 Knowledge 已經(jīng)證明是很強(qiáng)大的,但是如何將原始無結(jié)構(gòu)的數(shù)據(jù)變成有結(jié)構(gòu)的數(shù)據(jù)(Network 或 Text Cube)則是非常困難的。

在 Network/Text Cube 到 Knowledge 的問題上,韓家煒等人已經(jīng)做了很多研究工作,也已經(jīng)由此獲得了很多獎(jiǎng)項(xiàng);在無結(jié)構(gòu)文本數(shù)據(jù)到有結(jié)構(gòu) Network/Text Cube 的路上他們也做出了許多嘗試和成果,現(xiàn)在仍在不斷求索中。

數(shù)據(jù)挖掘三部曲

韓家煒認(rèn)為,數(shù)據(jù)挖掘的研究工作可以總結(jié)為三部曲:

(1)從文本數(shù)據(jù)中挖掘隱藏的結(jié)構(gòu)。文本數(shù)據(jù)中隱藏著大量的結(jié)構(gòu),這步工作就是將這些數(shù)據(jù)挖掘出來

(2)將文本數(shù)據(jù)轉(zhuǎn)化為有類型的 Network/Text Cube。將文本數(shù)據(jù)變成有結(jié)構(gòu)、有類型的數(shù)據(jù)(Network/Text Cube)

(3)挖掘 Network/Text Cube 生成有用的知識。最后一步才是挖掘。

此外,在研究的推進(jìn)過程中,他們也曾遇到了很多困難。

一是領(lǐng)域限制。用一般語料獲得的實(shí)體標(biāo)注在特定領(lǐng)域、動(dòng)態(tài)領(lǐng)域或者新興的領(lǐng)域無法很好的工作。

二是名稱的歧義性。多個(gè)實(shí)體可能共享同一個(gè)表面名字(Surface Name,例如「Washington」,它可能是州、市、人名、球隊(duì)名等)。

三是上下文稀疏。對同一個(gè)關(guān)系可能有許多種表示方法(想想中文有多少中表示體育比賽結(jié)果的方法)。

雖然數(shù)據(jù)挖掘已經(jīng)有了成型的結(jié)構(gòu),但仍有重重困難需要克服。韓教授曾說:“在這條路上,我們現(xiàn)在只是找到了幾個(gè)口子可以往前走。現(xiàn)在這還不是一條大路,只是一條小路。要想變成一條康莊大道,需要大家共同努力。這條路通寬了,將來我們就可以從大量的無結(jié)構(gòu)的文本,變成大量的有用的知識。”

在即將到來的盛夏,韓家煒教授作為中國人工智能大會(huì)的特邀嘉賓,將會(huì)介紹他最近的研究:如何借助大規(guī)模文本數(shù)據(jù)自身的力量去做大規(guī)模的知識抽取?主要包括關(guān)鍵短語抽取,基于遠(yuǎn)監(jiān)督的實(shí)體識別和關(guān)系分類,基于模式的信息提取方法,多元分類的自動(dòng)發(fā)現(xiàn)以及多維文本數(shù)據(jù)集的構(gòu)建等方法。在CCAI2018的報(bào)告中,韓家煒教授將證明數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和自然語言處理三個(gè)技術(shù)進(jìn)行融合是一個(gè)“非常重要且極有前途”的方向。

在CCAI2018,跟隨開路先鋒韓家煒教授,一起踏上這條非常重要且極有前途的路吧!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1805

    文章

    48843

    瀏覽量

    247493
  • 數(shù)據(jù)挖掘
    +關(guān)注

    關(guān)注

    1

    文章

    406

    瀏覽量

    24644
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8953

    瀏覽量

    139707

原文標(biāo)題:CCAI2018 | 韓家煒:大規(guī)模文本數(shù)據(jù)挖掘的新方向

文章出處:【微信號:CAAI-1981,微信公眾號:中國人工智能學(xué)會(huì)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    DDN攜手NVIDIA釋放非結(jié)構(gòu)化數(shù)據(jù)的AI價(jià)值

    DDN 通過與 NVIDIA AI 數(shù)據(jù)平臺的合作,推出聯(lián)合解決方案,簡化了企業(yè)對非結(jié)構(gòu)化數(shù)據(jù)的存儲、訪問和激活方式,助力客戶釋放生成式 AI 的巨大商業(yè)潛能。DDN 全球合作伙伴負(fù)責(zé)人
    的頭像 發(fā)表于 06-10 10:31 ?261次閱讀

    程序設(shè)計(jì)與數(shù)據(jù)結(jié)構(gòu)

    《程序設(shè)計(jì)與數(shù)據(jù)結(jié)構(gòu)》重點(diǎn)闡述了三大方向內(nèi)容: 1. C語言學(xué)習(xí)中的痛點(diǎn):針對當(dāng)前工程師在C語言學(xué)習(xí)中的痛點(diǎn),如指針函數(shù)與函數(shù)指針,如何靈活應(yīng)用結(jié)構(gòu)體等。從變量的三要素(變量的類型,變量的值和變量
    發(fā)表于 05-13 16:45

    知芯傳感為何會(huì)盯上MEMS結(jié)構(gòu)光模組賽道

    近日,美國政府宣布對華加征新一輪關(guān)稅,目前關(guān)稅已經(jīng)高達(dá)245%。其中,半導(dǎo)體及光學(xué)元件首當(dāng)其沖,DLP結(jié)構(gòu)光模組價(jià)格應(yīng)聲上漲。
    的頭像 發(fā)表于 04-24 13:46 ?323次閱讀

    從零到一:如何利用非結(jié)構(gòu)化數(shù)據(jù)中臺快速部署AI解決方案

    在企業(yè)數(shù)字轉(zhuǎn)型的浪潮中,AI已從概念走向落地應(yīng)用。然而,真正能高效、安全地部署AI解決方案的企業(yè)仍屬少數(shù),瓶頸往往出在“數(shù)據(jù)”——尤其是非結(jié)構(gòu)化數(shù)據(jù)的管理與應(yīng)用上。文件、音頻、視頻、
    的頭像 發(fā)表于 04-14 13:50 ?225次閱讀

    結(jié)構(gòu)化數(shù)據(jù)中臺:企業(yè)AI應(yīng)用安全落地的核心引擎

    在數(shù)字轉(zhuǎn)型浪潮中,非結(jié)構(gòu)化數(shù)據(jù)(如文檔、圖片、音視頻等)已成為企業(yè)核心資產(chǎn),價(jià)值挖掘能力直接影響AI應(yīng)用的效能與安全性。然而,
    的頭像 發(fā)表于 02-27 17:06 ?454次閱讀

    戴爾數(shù)據(jù)湖倉助力企業(yè)數(shù)字轉(zhuǎn)型

    在數(shù)字轉(zhuǎn)型的浪潮下,企業(yè)正面臨著前所未有的數(shù)據(jù)挑戰(zhàn)。從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)到如今的非結(jié)構(gòu)化數(shù)據(jù)、半
    的頭像 發(fā)表于 12-20 09:31 ?466次閱讀

    bds 系統(tǒng)的優(yōu)缺點(diǎn) bds與傳統(tǒng)數(shù)據(jù)庫的區(qū)別

    BDS(Big Data System)系統(tǒng),通常指的是用于處理大數(shù)據(jù)的系統(tǒng),它們能夠處理大規(guī)模數(shù)據(jù)集,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化
    的頭像 發(fā)表于 11-22 15:48 ?2763次閱讀

    結(jié)構(gòu)化布線在AI數(shù)據(jù)中心的關(guān)鍵作用

    AI 正在不斷顛覆各行各業(yè),推動(dòng)從電影制作到金融行業(yè)等各個(gè)領(lǐng)域的創(chuàng)新。而在 AI 系統(tǒng)的背后,隱藏著這樣一位無名英雄:結(jié)構(gòu)化布線。
    的頭像 發(fā)表于 11-21 16:51 ?862次閱讀

    DDC264配置寄存器數(shù)據(jù)寫入和320 DCLK時(shí)鐘脈沖后的回讀數(shù)據(jù)結(jié)構(gòu)是什么?

    配置寄存器數(shù)據(jù)寫入和320 DCLK時(shí)鐘脈沖后的回讀數(shù)據(jù)結(jié)構(gòu)是什么? 根據(jù)注和表9,16位配置寄存器數(shù)據(jù),4位修訂ID, 300位校驗(yàn)?zāi)J剑趺纯赡苡?024 TOTAL READBACK BITS, format = 0
    發(fā)表于 11-19 07:58

    視覺軟件HALCON的數(shù)據(jù)結(jié)構(gòu)

    在研究機(jī)器視覺算法之前,我們需要先了解機(jī)器視覺應(yīng)用中涉及的基本數(shù)據(jù)結(jié)構(gòu)。Halcon數(shù)據(jù)結(jié)構(gòu)主要有圖像參數(shù)和控制參數(shù)兩類參數(shù)。圖像參數(shù)包括:image、region、XLD,控制參數(shù)包括:string、integer、real、handle、tuple數(shù)組等。
    的頭像 發(fā)表于 11-14 10:20 ?1191次閱讀
    視覺軟件HALCON的<b class='flag-5'>數(shù)據(jù)結(jié)構(gòu)</b>

    emc技術(shù)在大數(shù)據(jù)分析中的角色

    大數(shù)據(jù)分析通常涉及來自多個(gè)來源和格式的數(shù)據(jù)。這些數(shù)據(jù)可能包括結(jié)構(gòu)化數(shù)據(jù)(如數(shù)據(jù)庫中的表格
    的頭像 發(fā)表于 11-01 15:22 ?644次閱讀

    架構(gòu)師日記-從數(shù)據(jù)庫發(fā)展歷程到數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)探析

    的提出,以表格形式組織數(shù)據(jù)數(shù)據(jù)之間存在關(guān)聯(lián)關(guān)系,具有了良好的結(jié)構(gòu)化和規(guī)范特性,成為主流數(shù)據(jù)庫類型。 先來看一張
    的頭像 發(fā)表于 09-25 11:20 ?1102次閱讀
    架構(gòu)師日記-從<b class='flag-5'>數(shù)據(jù)</b>庫發(fā)展歷程到<b class='flag-5'>數(shù)據(jù)結(jié)構(gòu)</b>設(shè)計(jì)探析

    嵌入式常用數(shù)據(jù)結(jié)構(gòu)有哪些

    在嵌入式編程中,數(shù)據(jù)結(jié)構(gòu)的選擇和使用對于程序的性能、內(nèi)存管理以及開發(fā)效率都具有重要影響。嵌入式系統(tǒng)由于資源受限(如處理器速度、內(nèi)存大小等),因此對數(shù)據(jù)結(jié)構(gòu)的選擇和使用尤為關(guān)鍵。以下是嵌入式編程中常用的幾種數(shù)據(jù)結(jié)構(gòu),結(jié)合具體特點(diǎn)和
    的頭像 發(fā)表于 09-02 15:25 ?982次閱讀

    基于分布式對象存儲WDS的信托非結(jié)構(gòu)化數(shù)據(jù)整合平臺

    基于分布式對象存儲WDS的信托非結(jié)構(gòu)化數(shù)據(jù)整合平臺
    的頭像 發(fā)表于 08-28 09:56 ?609次閱讀
    基于分布式對象存儲WDS的信托非<b class='flag-5'>結(jié)構(gòu)化</b><b class='flag-5'>數(shù)據(jù)</b>整合平臺

    大數(shù)據(jù)分析平臺網(wǎng)站

    結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。 提供數(shù)據(jù)清洗、轉(zhuǎn)換和加載(ETL)功能,確保數(shù)據(jù)質(zhì)量。 2.
    的頭像 發(fā)表于 06-28 15:46 ?1358次閱讀
    主站蜘蛛池模板: 四虎影院视频在线观看 | 综合网激情 | 狠狠色狠狠色 | 亚洲区一二三四区2021 | h视频在线观看免费网站 | 亚洲色图片区 | 日韩亚洲欧美日本精品va | 日本欧美一级 | 夜夜春宵翁熄性放纵古代 | 怡红院色视频在线 | 色妇网 | 色综合网天天综合色中文男男 | 天堂免费视频 | 国产精品免费看久久久香蕉 | 黄色福利小视频 | 午夜剧| 日本免费网站 | 国产成人综合一区人人 | 欧美女同在线 | 韩国男女无遮挡高清性视频 | 最近2018中文字幕2019视频 | 中国美女乱淫免费看视频 | 色婷婷久久综合中文久久蜜桃 | 伊人黄色网 | 色综合综合色综合色综合 | 7799国产精品久久久久99 | 天天爽夜夜爽精品免费 | 伊人一区二区三区 | 国产亚洲精品久久久久久午夜 | 在线观看一区二区三区四区 | 狠狠色狠狠色综合婷婷tag | 四虎影音在线观看 | 国产资源站 | 色多多在线观看视频 | 最新看片网址 | 天堂视频在线观看 | 婷婷五月色综合香五月 | 中文字幕婷婷 | 美脚连裤袜老师正在播放 | 亚洲视频第一页 | 国产精品免费久久久免费 |