Skip to content
AIインテリジェンスJul 4, 2026AIインテリジェンス
記事

英国の AI セキュリティ研究所は、標準的なベンチマークが AI エージェントの実際の能力を体系的に過小評価していることを発見しました。ソフトウェアエンジニアリングのタスクでは、より多くのコンピューティングリソースを使用すると成功率が約 25% 上昇しました。

Data Cube AI 編集部出典: The Decoder
01

ソース要約

英国の AI セキュリティ研究所は、標準的なベンチマークが AI エージェントの実際の能力を体系的に過小評価していることを発見しました。ソフトウェアエンジニアリングのタスクでは、より多くのコンピューティングリソースを使用すると成功率が約 25% 上昇しました。