辰东,小说阅读网站,欢乐颂小说结局是什么

當前AI界和產業界，Agent成為現象級話題。企業Agent已經從熱門概念走進產業現實，成為探索AI落地的新錨點。

此前，6月27-28日，由極客邦科技旗下InfoQ中國主辦的“AICon全球人工智能開發與應用大會”在北京舉辦。作為行業領先的視覺AI公司，格靈深瞳受邀參會。

在“AI Agent構建與多場景實踐”專題現場，格靈深瞳研發副總裁、AIInfra負責人閆梓禎分享了名為《構建高可信自動化企業Agent評測體系的實戰方法論》的主題演講，從企業Agent評測的重要性、現狀、實戰方法等維度，講述了格靈深瞳團隊對于這一話題的思考與實踐。

“If you can't measure it,you can't improve it.” （如果你不去評測它，便無法提升它。）談及評測對于企業Agent開發與落地的重要性，閆梓禎表示，有效評測是提升Agent應用效果的關鍵。隨著模型能力快速提升，技術刷爆榜單的速度越來越快，應用層Agent開發亟需更有效、更嚴格的評估機制，才能更客觀地反映AI的真實表現，解決技術參數與實際效果之間的gap問題。

基于多年的開發與交付經驗，閆梓禎分享了現階段企業Agent評測的發展狀態和面臨的問題。當前，企業Agent在各行業、各場景下的落地尚處于早期起步階段，具體到評測環節，企業往往面臨“如何評測”、“對接真實業務系統后如何保證應用效果”等實際問題。

對企業來說，真實反映AI能力、客觀衡量AI效果的需求越來越迫切，相應地，實現難度也越來越大。如何構建一套高可信度、自動化、規模化的企業Agent評測系統，成為業內關注的焦點。

相較于單純依靠人工評測，閆梓禎建議，使用大模型或者Agent相關技術來構建評測體系——讓Agent自動生成評測數據集、自動對評測對象進行打分，從而實現整個評測流程的規模化和自動化。在格靈深瞳，已經鼓勵研發人員和產品經理使用大模型來輔助評測工作，并取得了不錯的表現。

但這種“Agent as a judge”的范式并不是萬金油。當AI技術落地到復雜多變的現實工況中，依舊需要行業專家經驗作為評測支撐。高自動化評測系統+人工介入，是目前更為有效的實際解決方案。

基于對評測體系的思考與實踐，格靈深瞳構建了一套自研的Agent評測平臺。在該平臺能力的支撐下，開發者可以快速響應、高效優質地交付各行業定制化Agent。

例如，格靈深瞳在為金融機構、政企客戶打造專屬Agent時，該評測平臺能夠助力極大縮短開發周期，依靠數據生成快速構建場景，并利用沙箱環境提前模擬測試，提高交付質量。更重要的是，該平臺的多維度指標和真實環境仿真，可以讓Agent的輸出結果既準確又合規，成為真正的專業級產品，經得住實際業務中的復雜考驗。

在該評測系統的支撐下，企業Agent不僅是一個“能用”的工具，更是一個穩定、可靠、能持續進化的智能伙伴。未來，如何衡量企業Agent的價值，如何構建可靠、自動的評測系統，這背后的道與術，將是格靈深瞳持續思考和實踐的致力方向。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

AI

AI

+關注

關注
88

文章
34964

瀏覽量
278493
人工智能

人工智能

+關注

關注
1806

文章
48973

瀏覽量
248789
Agent

Agent

+關注

關注
0

文章
131

瀏覽量
27751
格靈深瞳

格靈深瞳

+關注

關注
1

文章
61

瀏覽量
5713

原文標題：企業Agent如何從“能用”到“好用”？格靈深瞳的評測實戰方法論

文章出處：【微信號：shentongzhineng，微信公眾號：格靈深瞳】歡迎添加關注！文章轉載請注明出處。

在线观看www成人影院-在线观看www日本免费网站-在线观看www视频-在线观看操-欧美18在线-欧美1级

搜索歷史

格靈深瞳亮相AICon 2025全球人工智能開發與應用大會

評論