Skip to content
AI情报Jul 4, 2026AI情报
文章

英国 AI 安全研究所发现,标准基准测试系统性地低估了 AI 代理的实际能力。在软件工程任务中,随着计算资源的增加,成功率提高了约 25%。

Data Cube AI 编辑部来源: The Decoder
01

来源简报

英国 AI 安全研究所发现,标准基准测试系统性地低估了 AI 代理的实际能力。在软件工程任务中,随着计算资源的增加,成功率提高了约 25%。