近日,上海人工智能實驗室發布聯合語言資料數據聯盟會員單位,共同發布“生萬權”1.0多模式詞典訓練語言資料開源。
“書生·萬卷”1.0將集中語言資料數據聯盟會員們豐富的內容積累和上海人工智能實驗室的數據處理能力等優勢,為學術界及產業界提供高品質的大規模模型多模態事前訓練語言資料。開放源代碼提供2tb以上的數據,多種融合,精細處理,價值排序,使用方便高效。
此次開放源代碼“書生·萬卷”1.0包含文本、圖片、文本和視頻三部分數據集。其中,文本數據來自網頁,百科全書,書籍,專利,教材,考試題等,數據總量超過5億個,數據大小也超過1tb,涵蓋科技,文學,媒體,教育,法律等多個領域。
圖像和文字數據主要來自公開網頁,經過處理形成圖像和文字交叉的文件。總數字超過2200萬個,數據大小超過140gb,涵蓋新聞事件、人物、自然景觀、社會生活等多個領域。
視頻數據主要是中國中央電視臺(cctv)和上海文廣集團提供,新聞、電影、電視等多種類型的節目,包括視頻,視頻文件總數超過1000個,數據大小超過900gb,內容是軍事、文藝、體育、自然、知識、影像藝術等領域覆蓋著。
-
人工智能
+關注
關注
1796文章
47683瀏覽量
240311 -
源代碼
+關注
關注
96文章
2946瀏覽量
66960 -
模型
+關注
關注
1文章
3313瀏覽量
49232
發布評論請先 登錄
相關推薦
亥步多模態醫療大模型發布:人工智能引領醫療新紀元
基于AX650N/AX630C部署多模態大模型InternVL2-1B
![基于AX650N/AX630C部署<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型InternVL2-1B](https://file1.elecfans.com/web1/M00/F5/59/wKgaoWc7CliADeIdAAAN6_RnLiM223.jpg)
內部創新驅動:SNP啟動AI人工智能和云創新實驗室
Meta發布多模態LLAMA 3.2人工智能模型
中科曙光聯合發布《智能算力產業發展白皮書》
AMD收購私人人工智能實驗室Silo AI
恩智浦首個云實驗室正式上線運營
蘋果在瑞士蘇黎世設立研究實驗室,專注于人工智能模型與產品開發
恩智浦首個云實驗室正式上線運營
![恩智浦首個云<b class='flag-5'>實驗室</b>正式上線運營](https://file1.elecfans.com/web2/M00/D7/85/wKgZomYofpyAasdaAAZcT_SvSho638.png)
AI+教育 深圳市中小學聯合實驗室正式啟用
![AI+教育 深圳市中小學聯合<b class='flag-5'>實驗室</b>正式啟用](https://file1.elecfans.com/web2/M00/D4/72/wKgZomYlxu-AM3XbAAAV9CSZHPU679.jpg)
評論