Skip to content
KI Intelligence23.02.2026KI Intelligence
Artikel

OpenAI fordert die Abschaffung des populären KI-Coding-Benchmarks SWE-bench Verified.

Das Unternehmen argumentiert, dass die meisten Aufgaben fehlerhaft sind und führende KI-Modelle die Antworten wahrscheinlich bereits aus ihrem Training kennen. Damit messe der Benchmark eher Auswendiglernen als echte Programmierfähigkeiten.

Data Cube AI RedaktionQuelle: The Decoder
01

Source Brief

OpenAI fordert die Abschaffung des populären KI-Coding-Benchmarks SWE-bench Verified. Das Unternehmen argumentiert, dass die meisten Aufgaben fehlerhaft sind und führende KI-Modelle die Antworten wahrscheinlich bereits aus ihrem Training kennen. Damit messe der Benchmark eher Auswendiglernen als echte Programmierfähigkeiten.