紅杉中國近日推出 AI 智能體基準(zhǔn)測試工具 xbench,并發(fā)布技術(shù)報告,旨在搭建科學(xué)評估體系,推動智能體技術(shù)發(fā)展。


xbench 聚焦兩大核心問題:解析模型能力與實際效用的關(guān)系,以及實現(xiàn)不同時間維度下的能力對比。為此,紅杉中國確立 “創(chuàng)新任務(wù)設(shè)置與評估”“構(gòu)建長青評估體系” 兩大方向,推出雙軌評估集。其中,“xbench-AGI Tracking” 用于檢測 Agent 應(yīng)用落地的基礎(chǔ)實踐能力;“xbench-Profession Aligned” 則針對真實生產(chǎn)場景開展進階測試。


考慮到智能體更新迭代迅速、外部環(huán)境動態(tài)變化的特性,xbench 引入 “長青評估(Evergreen Evaluation)” 機制。紅杉中國團隊將持續(xù)維護并動態(tài)更新測試內(nèi)容,確保評估結(jié)果始終貼合實際需求,保持時效性與相關(guān)性。


在 xbench 首輪測試中,OpenAI 的 o3、Google Gemini 2.5 系列、Anthropic 的 Claude 3.7 Sonnet 等熱門模型均參與測評。測試結(jié)果顯示,o3 在多項基準(zhǔn)測試中拔得頭籌,展現(xiàn)強勁實力;字節(jié)跳動的豆包 1.5 系列中的 doubao 1.5 thinking pro 表現(xiàn)亮眼,躋身 AGI Tracking 榜單前三,引發(fā)行業(yè)關(guān)注。xbench 的推出,有望為智能體技術(shù)發(fā)展提供客觀評估標(biāo)準(zhǔn),助力行業(yè)良性競爭與技術(shù)迭代。

來【龍頭AI網(wǎng)】了解最新AI資訊!