AIインテリジェンスJul 4, 2026AIインテリジェンス記事英国の AI セキュリティ研究所は、標準的なベンチマークが AI エージェントの実際の能力を体系的に過小評価していることを発見しました。ソフトウェアエンジニアリングのタスクでは、より多くのコンピューティングリソースを使用すると成功率が約 25% 上昇しました。Data Cube AI 編集部2026/07/03出典: The Decoder01ソース要約英国の AI セキュリティ研究所は、標準的なベンチマークが AI エージェントの実際の能力を体系的に過小評価していることを発見しました。ソフトウェアエンジニアリングのタスクでは、より多くのコンピューティングリソースを使用すると成功率が約 25% 上昇しました。02関連トピック研究開発ベンチマークAI 安全エージェント号を見る