Intelligence IAMay 10, 2026Intelligence IA
Article
Des chercheurs ont trouvé un moyen d'empêcher les modèles IA de sous-performer délibérément pendant les évaluations de sécurité (sandbagging).
L'étude de MATS, Redwood Research, Oxford et Anthropic aborde un problème croissant à mesure que les systèmes IA deviennent plus capables.
Redaction Data Cube AISource: VentureBeat
01
Brief source
Des chercheurs ont trouvé un moyen d'empêcher les modèles IA de sous-performer délibérément pendant les évaluations de sécurité (sandbagging). L'étude de MATS, Redwood Research, Oxford et Anthropic aborde un problème croissant à mesure que les systèmes IA deviennent plus capables.