Skip to content
AI情报Jul 3, 2026AI情报
文章

英国 AI 安全研究所发现,通过限制计算预算,标准 AI 基准系统性地低估了 AI 智能体的实际能力。在软件工程任务中,当智能体获得更多计算时间时,成功率提高了约 25%。这引发了对当前安全测试有效性的质疑。

Data Cube AI 编辑部来源: The Decoder
01

来源简报

英国 AI 安全研究所发现,通过限制计算预算,标准 AI 基准系统性地低估了 AI 智能体的实际能力。在软件工程任务中,当智能体获得更多计算时间时,成功率提高了约 25%。这引发了对当前安全测试有效性的质疑。