AI情报Jul 3, 2026AI情报文章英国 AI 安全研究所发现,通过限制计算预算,标准 AI 基准系统性地低估了 AI 智能体的实际能力。在软件工程任务中,当智能体获得更多计算时间时,成功率提高了约 25%。这引发了对当前安全测试有效性的质疑。Data Cube AI 编辑部2026年7月3日来源: The Decoder01来源简报英国 AI 安全研究所发现,通过限制计算预算,标准 AI 基准系统性地低估了 AI 智能体的实际能力。在软件工程任务中,当智能体获得更多计算时间时,成功率提高了约 25%。这引发了对当前安全测试有效性的质疑。02相关话题AI 研究AI 基准安全智能体计算查看本期