Skip to content
Intelligence IAFeb 23, 2026Intelligence IA
Article

OpenAI appelle à la retraite du populaire benchmark de codage IA SWE-bench Verified.

L'entreprise argue que la plupart des tâches sont défectueuses et que les modèles d'IA de pointe ont probablement déjà vu les réponses lors de leur entraînement. Ainsi, le benchmark mesure la mémorisation plutôt que la véritable capacité de codage.

Redaction Data Cube AISource: The Decoder
01

Brief source

OpenAI appelle à la retraite du populaire benchmark de codage IA SWE-bench Verified. L'entreprise argue que la plupart des tâches sont défectueuses et que les modèles d'IA de pointe ont probablement déjà vu les réponses lors de leur entraînement. Ainsi, le benchmark mesure la mémorisation plutôt que la véritable capacité de codage.