KI Intelligence05.04.2026KI Intelligence
Artikel
Eine Studie von Google zeigt, dass gängige KI-Benchmarks systematisch vernachlässigen, wie Menschen bei Bewertungen uneins sind.
Die üblichen drei bis fünf menschlichen Bewerter pro Testbeispiel reichen oft nicht für zuverlässige Ergebnisse aus.
Data Cube AI RedaktionQuelle: The Decoder
01
Source Brief
Eine Studie von Google zeigt, dass gängige KI-Benchmarks systematisch vernachlässigen, wie Menschen bei Bewertungen uneins sind. Die üblichen drei bis fünf menschlichen Bewerter pro Testbeispiel reichen oft nicht für zuverlässige Ergebnisse aus.
02