上海人工智能實驗室發布多模態語料

近日，上海人工智能實驗室發布聯合語言資料數據聯盟會員單位，共同發布“生萬權”1.0多模式詞典訓練語言資料開源。

“書生·萬卷”1.0將集中語言資料數據聯盟會員們豐富的內容積累和上海人工智能實驗室的數據處理能力等優勢，為學術界及產業界提供高品質的大規模模型多模態事前訓練語言資料。開放源代碼提供2tb以上的數據，多種融合，精細處理，價值排序，使用方便高效。

此次開放源代碼“書生·萬卷”1.0包含文本、圖片、文本和視頻三部分數據集。其中，文本數據來自網頁，百科全書，書籍，專利，教材，考試題等，數據總量超過5億個，數據大小也超過1tb，涵蓋科技，文學，媒體，教育，法律等多個領域。

圖像和文字數據主要來自公開網頁，經過處理形成圖像和文字交叉的文件。總數字超過2200萬個，數據大小超過140gb，涵蓋新聞事件、人物、自然景觀、社會生活等多個領域。

視頻數據主要是中國中央電視臺（cctv）和上海文廣集團提供，新聞、電影、電視等多種類型的節目，包括視頻，視頻文件總數超過1000個，數據大小超過900gb，內容是軍事、文藝、體育、自然、知識、影像藝術等領域覆蓋著。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

人工智能

人工智能

+關注

關注
1806

文章
48980

瀏覽量
248814
源代碼

源代碼

+關注

關注
96

文章
2953

瀏覽量
68271
模型

模型

+關注

關注
1

文章
3516

瀏覽量
50336

微云疏影
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot 對比各家主流MCU指標，國產MCU真的品質不佳？
Hot 模擬信號和數字信號的區別和特點

New 方正電機成為小鵬汽車驅動電機供應商，總需求量預計達35萬臺
New 雷諾-吉利動力總成合資企業HORSE在倫敦成立

精選推薦
更多

文章

資料

帖子

超高靈敏度霍爾元件的應用示例

深圳市鈞敏科技有限公司
21分鐘前

58 閱讀

BM-Stamp軟件在汽車側圍外板的高效沖壓仿真案例

ESI集團
2小時前

132 閱讀

Altium Designer強大功能助力新能源產品開發

Altium
2小時前

152 閱讀

利用DC/DC變換器實現鐵路應用電源

電源聯盟
3小時前

162 閱讀

泰克科技測試解決方案守護鋰電安全防線

泰克科技
6小時前

168 閱讀

德州儀器模擬器件選型指南

lanlanw
39.4 MB

免費

191下載

1000+例各類獲獎電賽作品資料集（電路篇、代碼篇、教程篇……）

ah此生不換
0.00 MB

免費

0下載

nogotofail網絡流量安全測試工具

劉秀英
0.24 MB

2積分

1下載

docTR OCR文檔文本識別

張磊
0.39 MB

2積分

1下載

PC焊接套件開源分享

jefljel
0.05 MB

2積分

4下載

CSE7759B電能監測芯片串口發送的數據跳變？求CSE7759B驅動代碼

jf_02202165
18小時前

25 閱讀

火爆開發中 | 開源FPGA硬件板卡，硬件第一期發布

ElecFans小喇叭
18小時前

139 閱讀

PCB絲印極性標記的實用設計技巧

鄒夢雨
18小時前

87 閱讀

AD7606的八個通道采樣結果都是0

jf_65400414
18小時前

134 閱讀

【VisionFive 2單板計算機試用體驗】驅動SPI接口LCD顯示屏

TLLED
18小時前

235 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

上海人工智能實驗室發布多模態語料

評論