當前AI界和產業界,Agent成為現象級話題。企業Agent已經從熱門概念走進產業現實,成為探索AI落地的新錨點。
此前,6月27-28日,由極客邦科技旗下InfoQ中國主辦的“AICon全球人工智能開發與應用大會”在北京舉辦。作為行業領先的視覺AI公司,格靈深瞳受邀參會。
在“AI Agent構建與多場景實踐”專題現場,格靈深瞳研發副總裁、AIInfra負責人閆梓禎分享了名為《構建高可信自動化企業Agent評測體系的實戰方法論》的主題演講,從企業Agent評測的重要性、現狀、實戰方法等維度,講述了格靈深瞳團隊對于這一話題的思考與實踐。
“If you can't measure it,you can't improve it.” (如果你不去評測它,便無法提升它。)談及評測對于企業Agent開發與落地的重要性,閆梓禎表示,有效評測是提升Agent應用效果的關鍵。隨著模型能力快速提升,技術刷爆榜單的速度越來越快,應用層Agent開發亟需更有效、更嚴格的評估機制,才能更客觀地反映AI的真實表現,解決技術參數與實際效果之間的gap問題。
基于多年的開發與交付經驗,閆梓禎分享了現階段企業Agent評測的發展狀態和面臨的問題。當前,企業Agent在各行業、各場景下的落地尚處于早期起步階段,具體到評測環節,企業往往面臨“如何評測”、“對接真實業務系統后如何保證應用效果”等實際問題。
對企業來說,真實反映AI能力、客觀衡量AI效果的需求越來越迫切,相應地,實現難度也越來越大。如何構建一套高可信度、自動化、規模化的企業Agent評測系統,成為業內關注的焦點。
相較于單純依靠人工評測,閆梓禎建議,使用大模型或者Agent相關技術來構建評測體系——讓Agent自動生成評測數據集、自動對評測對象進行打分,從而實現整個評測流程的規模化和自動化。在格靈深瞳,已經鼓勵研發人員和產品經理使用大模型來輔助評測工作,并取得了不錯的表現。
但這種“Agent as a judge”的范式并不是萬金油。當AI技術落地到復雜多變的現實工況中,依舊需要行業專家經驗作為評測支撐。高自動化評測系統+人工介入,是目前更為有效的實際解決方案。
基于對評測體系的思考與實踐,格靈深瞳構建了一套自研的Agent評測平臺。在該平臺能力的支撐下,開發者可以快速響應、高效優質地交付各行業定制化Agent。
例如,格靈深瞳在為金融機構、政企客戶打造專屬Agent時,該評測平臺能夠助力極大縮短開發周期,依靠數據生成快速構建場景,并利用沙箱環境提前模擬測試,提高交付質量。更重要的是,該平臺的多維度指標和真實環境仿真,可以讓Agent的輸出結果既準確又合規,成為真正的專業級產品,經得住實際業務中的復雜考驗。
在該評測系統的支撐下,企業Agent不僅是一個“能用”的工具,更是一個穩定、可靠、能持續進化的智能伙伴。未來,如何衡量企業Agent的價值,如何構建可靠、自動的評測系統,這背后的道與術,將是格靈深瞳持續思考和實踐的致力方向。
-
AI
+關注
關注
88文章
34964瀏覽量
278493 -
人工智能
+關注
關注
1806文章
48973瀏覽量
248789 -
Agent
+關注
關注
0文章
131瀏覽量
27751 -
格靈深瞳
+關注
關注
1文章
61瀏覽量
5713
原文標題:企業Agent如何從“能用”到“好用”?格靈深瞳的評測實戰方法論
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
評論