Inteligencia IAFeb 23, 2026Inteligencia IA
Articulo
OpenAI llama a la jubilación del popular benchmark de codificación de IA SWE-bench Verified.
La empresa argumenta que la mayoría de las tareas son defectuosas y que los modelos de IA líderes probablemente ya han visto las respuestas en su entrenamiento. Por lo tanto, el benchmark mide la memorización en lugar de la verdadera capacidad de codificación.
Redaccion Data Cube AIFuente: The Decoder
01
Resumen fuente
OpenAI llama a la jubilación del popular benchmark de codificación de IA SWE-bench Verified. La empresa argumenta que la mayoría de las tareas son defectuosas y que los modelos de IA líderes probablemente ya han visto las respuestas en su entrenamiento. Por lo tanto, el benchmark mide la memorización en lugar de la verdadera capacidad de codificación.
02