AIインテリジェンスJul 3, 2026AIインテリジェンス
記事
UK AI Security...
Instituteは、標準的なAIベンチマークが計算予算を上限に設定することにより、AIエージェントの実際の能力を体系的に過小評価していることを発見しました。ソフトウェアエンジニアリングのタスクでは、エージェントにさらに多くのコンピューティング時間が与えられたとき、成功率は約25%跳ね上がりました。これは、現在の安全テストの妥当性についての疑問を提起します。
Data Cube AI 編集部出典: The Decoder