數據標注是人工智能進行模型訓練必不可少的一環。這是將最原始的數據變成算法可用數據的過程:原始數據一般通過數據采集獲得,隨后的數據標注相當于對數據進行加工,然后輸送到人工智能算法和模型里進行調用。
上述概念闡釋的背后實際上潛藏著一個正在茁壯成長的商業機會,尤其隨著AI行業的發展,優質數據甚至可能是公司發展的壁壘。
按照人員規模,現在的數據標注行業分為小型工作室(20 人左右)、中型公司以及巨頭企業。它們之間有各自的短板:專業的數據標注、采集小團隊沒有標注工具,開始逐漸向擁有更好技術資源的大平臺靠攏。與之形成對比的是,花費巨大資源打造專業全職標注團隊的數據公司,卻也受困于人力成本不得不把一些業務外包給小團隊。
諸如巨頭企業,雖然在努力搭建平臺,但一方面更多是以消化內部需求為主,另一方面在人員培訓和質量管控上,更多是流程化操作,缺乏合理的運營模式。
“沒有一個標準。”基于上述的調研結果,在京東金融眾智平臺項目負責人看來,數據標注行業比較混亂。
在這種行業狀況下,京東金融要做一個“中立”平臺,成為需求方和最終標注團隊之間的連接者:為小型工作室提供標注工具,同時也對需求方提供數據標注方案。
“京東眾智”就是這樣一個產物,它是專注于人工智能數據標注和采集的科技平臺。上述負責人特意強調了“科技”二字,這意味著該平臺并不是傳統的眾包模式,而是通過自身的科技能力,優化標注流程,提升標注效率,保證標注質量。
“大部分算法在擁有足夠多的普通標注數據的情況下很容易將準確率提升到 95%,但從 95% 再去提升到 99% 甚至 99.9% 就需要大量高質量的標注數據。可以說,高質量的數據是制約模型和算法突破瓶頸的關鍵指標。”
京東眾智的科技能力恰好表現在提高標注質量、提升標注速度、降低標注成本以及保證數據安全四個方面。
標注質量為先,而它又與標注人員息息相關。針對專業標注人才培養的流程,他們甚至要跟一些公司建立數據標注師認證標準,對不同人員評估其標注等級。這符合京東眾智“三擎互驅”的理念:讓最專業的人用最專業的工具,在嚴謹的工作流程中完成數據的標注,并且由選拔出來的高水平專家進行審核,保證正確率。
準確率與客戶的要求也有很大關系,比如眾智平臺的圖片標注準確率在實測狀態下能達到 99%,為了確保準確性,他們有 ACC 和抽檢等四層過濾流程。
在保證數據標注質量的前提后就要比拼標注速度了。
當下 AI 解決方案落地速度普遍較慢。“傳統的方式是有 AI 需求,然后需要先獲取樣本數據進行數據標注,標注之后再做模型訓練。”但在數據標注之后如果不滿意,還需要把數據返回重新優化,上述負責人表示,這樣的方式導致從方案確認到落地可能需要 1 個月甚至時間更長。
眾智平臺的標注工具很大程度上提升了標注速度。“魯班模板標注工具”可以組件化去配置。如果不同的公司對標注數據有不同需求,他們只需調整幾個組件的配置就可以完成操作。
京東眾智 Pre-AI 方案與傳統方案的對比
更重要的是京東眾智提出的“Pre-A.I”方案。此方案在標注過程中會不斷添加智能元素,機器做預標注,標注人員只需在此基礎上做細微的調整即可。
這些技術的應用在很大程度上節省了標注時間,而在 AI 市場競爭激烈的環境中,速度對創業公司而言尤為重要。“原來完整的標注流程如果是 1 個月的話,我們可能 3、4 天就可以交付了。”該負責人如此評估眾智平臺的標注效率。
數據標注速度提升的直接結果是標注成本自然會降低。不過,在行業一片混亂的數據運營模式下,數據安全是需求方最為關注的問題。
對于政府、銀行等企事業單位而言,它們擔心數據被轉手,一般要求數據必需在自己的環境內進行標注。為此,他們提供了數據與流程分離方案。數據與流程分離方案針對客戶自有標注平臺和客戶沒有標注平臺兩種情況。
京東眾智 DCS 方案流程
對那些數據標注需求比較大的大公司,眾智平臺可以打通京東金融和客戶兩者的標注平臺,同時為標注流程有嚴格的質量把控。需要注意的是,標注環境實際上還是在客戶環境下。對于沒有標注平臺的客戶,京東金融提供了一套名為“眾智星”的標注系統,它可以讓數據不出客戶環境就能完成數據標注。
據負責人介紹,該平臺已于去年 8 月正式上線。目前平臺上數據標注注冊人員在 3 萬以上,而數據采集的注冊人員更是超過了 10 萬人。
“京東眾智旨在為 AI 行業提供最優質的基礎數據,希望在不久的將來,國內大部分的 AI 公司都可以使用我們提供的高質量標注數據訓練出更優質的模型和算法。這些模型和算法不僅要服務國內的用戶,更要把中國的 AI 能力服務于全世界。為全球的人工智能行業助力是我們的初心。”負責人如是說。
-
人工智能
+關注
關注
1796文章
47854瀏覽量
240698 -
京東
+關注
關注
2文章
1001瀏覽量
48766
原文標題:聽說數據標注行業缺“中立”平臺,京東金融豎起了大旗
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
軟通動力入選《人工智能數據標注產業圖譜》
《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感
AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感
《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得
risc-v在人工智能圖像處理應用前景分析
名單公布!【書籍評測活動NO.44】AI for Science:人工智能驅動科學創新
報名開啟!深圳(國際)通用人工智能大會將啟幕,國內外大咖齊聚話AI
FPGA在人工智能中的應用有哪些?
夏普討論建立人工智能數據中心
標貝數據采集標注在自動駕駛場景中落地應用實例
![標貝<b class='flag-5'>數據采集</b><b class='flag-5'>標注</b>在自動駕駛場景中落地應用實例](https://file1.elecfans.com/web2/M00/E9/D0/wKgZomZVd3yAd2cZAAL0x8YKw88122.png)
評論