4月1 日, 亞馬遜宣布:他們計(jì)劃向公眾公開“Topical Chat”數(shù)據(jù)集,超410萬單詞21萬句子的語料庫將于2019年9月17日發(fā)布。
該數(shù)據(jù)集是為參加Alexa Prize Socialbot Grand Challenge 3競賽的團(tuán)隊(duì)開發(fā)的,申請截止日期為2019年5月14日,比賽于2019年9月9日開始。所有參加Alexa Prize競賽的團(tuán)隊(duì)將可以訪問此數(shù)據(jù)集的擴(kuò)展版本(擴(kuò)展主題聊天數(shù)據(jù)集),其中包括正在進(jìn)行的集合和注釋的結(jié)果。
主題聊天數(shù)據(jù)集將包含超過210,000個句子(超過4,100,000個單詞),可支持高質(zhì)量,可重復(fù)的研究,將成為研究界公開可用的最大社交對話和知識數(shù)據(jù)集。
每個語料庫的對話和對話輪次與提供給眾包工作者的知識相關(guān)聯(lián),并且所述知識是從與一組實(shí)體相關(guān)的一系列“非結(jié)構(gòu)化”和“松散結(jié)構(gòu)化”的文本資源中收集的。
亞馬遜高級首席科學(xué)家Dilek Hakkani-Tur在博客文章中明確表示,沒有任何語料是與Alexa客戶的互動。
該數(shù)據(jù)庫是實(shí)現(xiàn)基于知識的神經(jīng)反應(yīng)生成系統(tǒng)的后續(xù)研究,解決其他公開數(shù)據(jù)集無法解決的自然對話中的難題。這將使研究者可以專注于研究對話中主題和知識選擇方面的轉(zhuǎn)換,以及如何在對話中融入事實(shí)和觀點(diǎn)。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1210瀏覽量
24861 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2683瀏覽量
83730
原文標(biāo)題:亞馬遜將公布超過最大會話和知識數(shù)據(jù)集,超400萬字
文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
亞馬遜基于人工智能的Alexa發(fā)布計(jì)劃延期至明年
亞馬遜逐步關(guān)閉Amazon Today服務(wù)
亞馬遜云科技正式推出全球通行計(jì)劃 助力軟件企業(yè)加速增長和國際化拓展
亞馬遜斥資80億英鎊擴(kuò)建英國數(shù)據(jù)中心
亞馬遜云科技啟動"智能家居與智能產(chǎn)品創(chuàng)新加速計(jì)劃"
![<b class='flag-5'>亞馬遜</b>云科技啟動"智能家居與智能產(chǎn)品創(chuàng)新加速<b class='flag-5'>計(jì)劃</b>"](https://file1.elecfans.com//web2/M00/FF/C8/wKgZomaqXk-AL3FmAADkIVUbpc8508.jpg)
亞馬遜云科技啟動“智能家居與智能產(chǎn)品創(chuàng)新加速計(jì)劃”
![<b class='flag-5'>亞馬遜</b>云科技啟動“智能家居與智能產(chǎn)品創(chuàng)新加速<b class='flag-5'>計(jì)劃</b>”](https://file1.elecfans.com/web2/M00/FF/B5/wKgZomap_HaAWtC3AANjz1mOrCU999.jpg)
評論