KI Intelligence23.02.2026KI Intelligence
Artikel
OpenAI fordert die Abschaffung des populären KI-Coding-Benchmarks SWE-bench Verified.
Das Unternehmen argumentiert, dass die meisten Aufgaben fehlerhaft sind und führende KI-Modelle die Antworten wahrscheinlich bereits aus ihrem Training kennen. Damit messe der Benchmark eher Auswendiglernen als echte Programmierfähigkeiten.
Data Cube AI RedaktionQuelle: The Decoder
01
Source Brief
OpenAI fordert die Abschaffung des populären KI-Coding-Benchmarks SWE-bench Verified. Das Unternehmen argumentiert, dass die meisten Aufgaben fehlerhaft sind und führende KI-Modelle die Antworten wahrscheinlich bereits aus ihrem Training kennen. Damit messe der Benchmark eher Auswendiglernen als echte Programmierfähigkeiten.
02