Skip to content
Inteligencia IAFeb 23, 2026Inteligencia IA
Artigo

A OpenAI pede a aposentadoria do popular benchmark de codificação de IA SWE-bench Verified.

A empresa argumenta que a maioria das tarefas é falha e que os principais modelos de IA provavelmente já viram as respostas em seu treinamento. Assim, o benchmark mede a memorização em vez da habilidade real de programação.

Editorial Data Cube AIFonte: The Decoder
01

Brief da fonte

A OpenAI pede a aposentadoria do popular benchmark de codificação de IA SWE-bench Verified. A empresa argumenta que a maioria das tarefas é falha e que os principais modelos de IA provavelmente já viram as respostas em seu treinamento. Assim, o benchmark mede a memorização em vez da habilidade real de programação.