近日,上海人工智能實驗室發(fā)布聯(lián)合語言資料數(shù)據(jù)聯(lián)盟會員單位,共同發(fā)布“生萬權(quán)”1.0多模式詞典訓(xùn)練語言資料開源。
“書生·萬卷”1.0將集中語言資料數(shù)據(jù)聯(lián)盟會員們豐富的內(nèi)容積累和上海人工智能實驗室的數(shù)據(jù)處理能力等優(yōu)勢,為學(xué)術(shù)界及產(chǎn)業(yè)界提供高品質(zhì)的大規(guī)模模型多模態(tài)事前訓(xùn)練語言資料。開放源代碼提供2tb以上的數(shù)據(jù),多種融合,精細(xì)處理,價值排序,使用方便高效。
此次開放源代碼“書生·萬卷”1.0包含文本、圖片、文本和視頻三部分?jǐn)?shù)據(jù)集。其中,文本數(shù)據(jù)來自網(wǎng)頁,百科全書,書籍,專利,教材,考試題等,數(shù)據(jù)總量超過5億個,數(shù)據(jù)大小也超過1tb,涵蓋科技,文學(xué),媒體,教育,法律等多個領(lǐng)域。
圖像和文字?jǐn)?shù)據(jù)主要來自公開網(wǎng)頁,經(jīng)過處理形成圖像和文字交叉的文件。總數(shù)字超過2200萬個,數(shù)據(jù)大小超過140gb,涵蓋新聞事件、人物、自然景觀、社會生活等多個領(lǐng)域。
視頻數(shù)據(jù)主要是中國中央電視臺(cctv)和上海文廣集團(tuán)提供,新聞、電影、電視等多種類型的節(jié)目,包括視頻,視頻文件總數(shù)超過1000個,數(shù)據(jù)大小超過900gb,內(nèi)容是軍事、文藝、體育、自然、知識、影像藝術(shù)等領(lǐng)域覆蓋著。
-
人工智能
+關(guān)注
關(guān)注
1804文章
48599瀏覽量
245901 -
源代碼
+關(guān)注
關(guān)注
96文章
2950瀏覽量
67778 -
模型
+關(guān)注
關(guān)注
1文章
3479瀏覽量
49923
發(fā)布評論請先 登錄
東軟與同濟(jì)大學(xué)共建未來車載人工智能聯(lián)合實驗室
愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型

實驗室安全管理成焦點,漢威科技賦能實驗室安全升級

國家重點實驗室建設(shè):智能配電裝置如何筑牢科研用電安全底線

AgiBot World Colosseo:構(gòu)建通用機(jī)器人智能的規(guī)模化數(shù)據(jù)平臺

湖畔實驗室發(fā)布2024年度創(chuàng)新成果
亥步多模態(tài)醫(yī)療大模型發(fā)布:人工智能引領(lǐng)醫(yī)療新紀(jì)元
光庭信息亮相2024東湖國際人工智能高峰論壇
基于AX650N/AX630C部署多模態(tài)大模型InternVL2-1B

評論