隨著通用大模型競爭格局初步成型,金融、法律、教育等垂直領(lǐng)域的智能化轉(zhuǎn)型正成為新的增長引擎。相比通用大模型,垂域大模型聚焦特定領(lǐng)域,能高效處理特定領(lǐng)域內(nèi)的各種細節(jié)問題。
然而,高質(zhì)量專業(yè)領(lǐng)域數(shù)據(jù)的稀缺,正在成為制約垂域大模型落地的最大瓶頸。
一、垂域模型的數(shù)據(jù)困境
1. 專業(yè)性與稀缺性的雙重挑戰(zhàn)
垂直領(lǐng)域大模型的訓練數(shù)據(jù)需要同時滿足專業(yè)深度與場景覆蓋的雙重要求,這在實踐中形成了天然的高門檻。以教育行業(yè)為例,數(shù)據(jù)需要實現(xiàn)學科知識圖譜與真實教學場景數(shù)據(jù)的深度融合,涉及教材版本適配、區(qū)域教學差異等復(fù)雜維度。滿足這些要求的數(shù)據(jù)收集和整理工作難度極大,導(dǎo)致高質(zhì)量教育領(lǐng)域數(shù)據(jù)稀缺。
2. 標注成本攀升
垂直領(lǐng)域標注從勞動密集型升級為“專家密集型”。醫(yī)療CT標注需主任醫(yī)師參與,單條成本超普通標注20倍;金融實體關(guān)系標注需持證分析師驗證,確保“庫存周轉(zhuǎn)率”與“供應(yīng)鏈韌性”等專業(yè)關(guān)聯(lián);垂域模型對數(shù)據(jù)專業(yè)性的要求,使得標注成本占模型開發(fā)總預(yù)算的比重攀升。
3. 數(shù)據(jù)合規(guī)要求
垂域數(shù)據(jù)合規(guī)要求也極為嚴格。不同行業(yè)都有對應(yīng)的法律法規(guī)和監(jiān)管政策約束數(shù)據(jù)的收集、存儲、使用和共享等環(huán)節(jié)。如,金融行業(yè)需依照GDPR等法規(guī),保障客戶敏感金融信息不被泄露和濫用。從數(shù)據(jù)源頭獲取授權(quán),到數(shù)據(jù)存儲、傳輸和使用,都必須確保合規(guī),這無疑增加了數(shù)據(jù)處理難度。
在垂直領(lǐng)域,如何獲取、處理和使用高質(zhì)量的數(shù)據(jù),成為亟待解決的問題。
二、數(shù)據(jù)堂垂域模型訓練數(shù)據(jù)集
數(shù)據(jù)堂已建成覆蓋10余個重點行業(yè)的“高質(zhì)量數(shù)據(jù)矩陣”,其中法律、金融數(shù)據(jù)集精度達95%以上,可助力企業(yè)減少模型開發(fā)時間,降低研發(fā)成本。
1. 金融領(lǐng)域
共構(gòu)建數(shù)千萬金融領(lǐng)域數(shù)據(jù),包含金融類法律法規(guī)、試題、行政處罰等解析數(shù)據(jù)。內(nèi)容覆蓋公告、監(jiān)管、問答、法規(guī)、招標、輿情等15個分領(lǐng)域。
數(shù)據(jù)經(jīng)過嚴格的清洗、脫敏和標注處理,并且全程遵循金融行業(yè)數(shù)據(jù)合規(guī)要求。此外,數(shù)據(jù)定期更新并配有詳細的數(shù)據(jù)字典進行說明,方便企業(yè)理解和使用數(shù)據(jù)。
2. 法律領(lǐng)域
包含千萬級別法律法規(guī)解析化數(shù)據(jù)、問答數(shù)據(jù)等。內(nèi)容覆蓋法律法規(guī)、司法解釋、規(guī)章制度及各級規(guī)定等。
數(shù)據(jù)均為JSON格式,涵蓋標題、發(fā)布部門、發(fā)布日期、內(nèi)容等字段。數(shù)據(jù)堂嚴格依據(jù)法律行業(yè)的數(shù)據(jù)合規(guī)標準,為法律智能檢索、合同審查、法律咨詢等應(yīng)用提供堅實的數(shù)據(jù)支撐。
3. 教育領(lǐng)域
包含中英韓試題、拍照解題等數(shù)據(jù)。全面覆蓋學前教育到高等教育全階段的教學資源。
可用于大型語言模型(LLM)的訓練以及ChatGPT等對話系統(tǒng)任務(wù)的優(yōu)化,助力教育機構(gòu)實現(xiàn)個性化教學,提升教學質(zhì)量。
4. 醫(yī)學領(lǐng)域
包含醫(yī)學專業(yè)知識文本、醫(yī)療場景下多輪醫(yī)患問答數(shù)據(jù)等。
標注內(nèi)容涵蓋疾病類型、醫(yī)患信息等,標注內(nèi)容以JSON進行儲存。所有數(shù)據(jù)均嚴格遵循醫(yī)療數(shù)據(jù)合規(guī)要求,從數(shù)據(jù)采集源頭確保患者隱私安全。
憑借專業(yè)、優(yōu)質(zhì)、安全的訓練數(shù)據(jù)服務(wù),數(shù)據(jù)堂已助力全球百余大模型開發(fā)項目突破數(shù)據(jù)瓶頸。數(shù)據(jù)堂愿與各行業(yè)企業(yè)攜手共進,助力企業(yè)快速搭建垂域大模型,釋放AI在各行業(yè)的巨大潛能。
審核編輯 黃宇
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1221瀏覽量
25193 -
大模型
+關(guān)注
關(guān)注
2文章
2941瀏覽量
3683
發(fā)布評論請先 登錄
相關(guān)推薦
黑芝麻智能發(fā)布行業(yè)首創(chuàng)的安全智能底座
更高效更安全的商務(wù)會議:英特爾聯(lián)合海信推出會議領(lǐng)域新型垂域模型方案

易華錄智慧城市行業(yè)應(yīng)用大模型投識問錄介紹
中科曙光助力中航結(jié)算公司構(gòu)建私域文檔智能問答系統(tǒng)
【「大模型啟示錄」閱讀體驗】+開啟智能時代的新鑰匙
實時監(jiān)測弧垂變化,確保電網(wǎng)穩(wěn)定運行:輸電線路導(dǎo)線弧垂在線監(jiān)測裝置應(yīng)用

摩爾線程GPU算力底座助力大模型產(chǎn)業(yè)發(fā)展
大模型時代的算力需求
東信集團發(fā)布全國首個營銷垂域大模型
AI+全面升級數(shù)智底座,用友發(fā)布三大行業(yè)垂類大模型

軟通動力攜手伙伴共創(chuàng)母嬰行業(yè)垂域大模型
鴻蒙開發(fā):通過startAbilityByType拉起垂類應(yīng)用

工程智能發(fā)展之路(二):利用大模型打造新一代工業(yè)智能的數(shù)字底座

評論