Skip to content
Inteligencia IAFeb 23, 2026Inteligencia IA
Articulo

OpenAI llama a la jubilación del popular benchmark de codificación de IA SWE-bench Verified.

La empresa argumenta que la mayoría de las tareas son defectuosas y que los modelos de IA líderes probablemente ya han visto las respuestas en su entrenamiento. Por lo tanto, el benchmark mide la memorización en lugar de la verdadera capacidad de codificación.

Redaccion Data Cube AIFuente: The Decoder
01

Resumen fuente

OpenAI llama a la jubilación del popular benchmark de codificación de IA SWE-bench Verified. La empresa argumenta que la mayoría de las tareas son defectuosas y que los modelos de IA líderes probablemente ya han visto las respuestas en su entrenamiento. Por lo tanto, el benchmark mide la memorización en lugar de la verdadera capacidad de codificación.