AI情报Jul 4, 2026AI情报文章英国 AI 安全研究所发现,标准基准测试系统性地低估了 AI 代理的实际能力。在软件工程任务中,随着计算资源的增加,成功率提高了约 25%。Data Cube AI 编辑部2026年7月3日来源: The Decoder01来源简报英国 AI 安全研究所发现,标准基准测试系统性地低估了 AI 代理的实际能力。在软件工程任务中,随着计算资源的增加,成功率提高了约 25%。02相关话题研究与开发基准测试AI 安全代理查看本期