新榜訊 5 月 26 日,紅杉中國(guó)重磅宣布推出全新的 AI 基準(zhǔn)測(cè)試 xbench,同時(shí)發(fā)布相關(guān)論文《xbench: Tracking Agents Productivity, Scaling with Profession-Aligned Real-World Evaluations》。據(jù)悉,這是首個(gè)由投資機(jī)構(gòu)發(fā)起,聯(lián)合國(guó)內(nèi)外十余家高校以及研究機(jī)構(gòu)的數(shù)十位博士研究生共同打造的 AI 基準(zhǔn)測(cè)試,其采用雙軌評(píng)估體系與長(zhǎng)青評(píng)估機(jī)制。xbench 不僅能評(píng)估并推動(dòng) AI 系統(tǒng)能力提升上限及技術(shù)邊界,還將重點(diǎn)量化 AI 系統(tǒng)在真實(shí)場(chǎng)景中的效用價(jià)值,并長(zhǎng)期追蹤 Agent 產(chǎn)品的關(guān)鍵突破。