xbench 聚焦兩大核心問題:解析模型能力與實(shí)際效用的關(guān)系,以及實(shí)現(xiàn)不同時(shí)間維度下的能力對比。為此,紅杉中國確立 “創(chuàng)新任務(wù)設(shè)置與評估”“構(gòu)建長青評估體系” 兩大方向,推出雙軌評估集。其中,“xbench-AGI Tracking” 用于檢測 Agent 應(yīng)用落地的基礎(chǔ)實(shí)踐能力;“xbench-Profession Aligned” 則針對真實(shí)生產(chǎn)場景開展進(jìn)階測試。
考慮到智能體更新迭代迅速、外部環(huán)境動態(tài)變化的特性,xbench 引入 “長青評估(Evergreen Evaluation)” 機(jī)制。紅杉中國團(tuán)隊(duì)將持續(xù)維護(hù)并動態(tài)更新測試內(nèi)容,確保評估結(jié)果始終貼合實(shí)際需求,保持時(shí)效性與相關(guān)性。
在 xbench 首輪測試中,OpenAI 的 o3、Google Gemini 2.5 系列、Anthropic 的 Claude 3.7 Sonnet 等熱門模型均參與測評。測試結(jié)果顯示,o3 在多項(xiàng)基準(zhǔn)測試中拔得頭籌,展現(xiàn)強(qiáng)勁實(shí)力;字節(jié)跳動的豆包 1.5 系列中的 doubao 1.5 thinking pro 表現(xiàn)亮眼,躋身 AGI Tracking 榜單前三,引發(fā)行業(yè)關(guān)注。xbench 的推出,有望為智能體技術(shù)發(fā)展提供客觀評估標(biāo)準(zhǔn),助力行業(yè)良性競爭與技術(shù)迭代。
來【龍頭AI網(wǎng)】了解最新AI資訊!
暫無評論
發(fā)表評論