近日,上海人工智能實驗室發布聯合語言資料數據聯盟會員單位,共同發布“生萬權”1.0多模式詞典訓練語言資料開源。
“書生·萬卷”1.0將集中語言資料數據聯盟會員們豐富的內容積累和上海人工智能實驗室的數據處理能力等優勢,為學術界及產業界提供高品質的大規模模型多模態事前訓練語言資料。開放源代碼提供2tb以上的數據,多種融合,精細處理,價值排序,使用方便高效。
此次開放源代碼“書生·萬卷”1.0包含文本、圖片、文本和視頻三部分數據集。其中,文本數據來自網頁,百科全書,書籍,專利,教材,考試題等,數據總量超過5億個,數據大小也超過1tb,涵蓋科技,文學,媒體,教育,法律等多個領域。
圖像和文字數據主要來自公開網頁,經過處理形成圖像和文字交叉的文件。總數字超過2200萬個,數據大小超過140gb,涵蓋新聞事件、人物、自然景觀、社會生活等多個領域。
視頻數據主要是中國中央電視臺(cctv)和上海文廣集團提供,新聞、電影、電視等多種類型的節目,包括視頻,視頻文件總數超過1000個,數據大小超過900gb,內容是軍事、文藝、體育、自然、知識、影像藝術等領域覆蓋著。
-
人工智能
+關注
關注
1806文章
48980瀏覽量
248814 -
源代碼
+關注
關注
96文章
2953瀏覽量
68271 -
模型
+關注
關注
1文章
3516瀏覽量
50336
發布評論請先 登錄
華清遠見AI人工智能專業實驗室建設方案,以產業應用驅動高校教學實訓變革!

浦公山實驗室正式啟動!

東軟與同濟大學共建未來車載人工智能聯合實驗室
愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態大模型

實驗室安全管理成焦點,漢威科技賦能實驗室安全升級

AgiBot World Colosseo:構建通用機器人智能的規模化數據平臺

湖畔實驗室發布2024年度創新成果
亥步多模態醫療大模型發布:人工智能引領醫療新紀元
基于AX650N/AX630C部署多模態大模型InternVL2-1B

評論