Inteligencia IAFeb 23, 2026Inteligencia IA
Artigo
A OpenAI pede a aposentadoria do popular benchmark de codificação de IA SWE-bench Verified.
A empresa argumenta que a maioria das tarefas é falha e que os principais modelos de IA provavelmente já viram as respostas em seu treinamento. Assim, o benchmark mede a memorização em vez da habilidade real de programação.
Editorial Data Cube AIFonte: The Decoder
01
Brief da fonte
A OpenAI pede a aposentadoria do popular benchmark de codificação de IA SWE-bench Verified. A empresa argumenta que a maioria das tarefas é falha e que os principais modelos de IA provavelmente já viram as respostas em seu treinamento. Assim, o benchmark mede a memorização em vez da habilidade real de programação.
02