Skip to content
KI Intelligence05.04.2026KI Intelligence
Artikel

Eine Studie von Google zeigt, dass gängige KI-Benchmarks systematisch vernachlässigen, wie Menschen bei Bewertungen uneins sind.

Die üblichen drei bis fünf menschlichen Bewerter pro Testbeispiel reichen oft nicht für zuverlässige Ergebnisse aus.

Data Cube AI RedaktionQuelle: The Decoder
01

Source Brief

Eine Studie von Google zeigt, dass gängige KI-Benchmarks systematisch vernachlässigen, wie Menschen bei Bewertungen uneins sind. Die üblichen drei bis fünf menschlichen Bewerter pro Testbeispiel reichen oft nicht für zuverlässige Ergebnisse aus.