Intelligence IAApr 5, 2026Intelligence IA
Article
Une étude de Google révèle que les benchmarks standard d'IA ignorent systématiquement la manière dont les humains sont en...
Désaccord dans leurs évaluations. Les trois à cinq évaluateurs humains habituels par exemple de test sont souvent insuffisants pour des résultats fiables.
Redaction Data Cube AISource: The Decoder
01
Brief source
Une étude de Google révèle que les benchmarks standard d'IA ignorent systématiquement la manière dont les humains sont en désaccord dans leurs évaluations. Les trois à cinq évaluateurs humains habituels par exemple de test sont souvent insuffisants pour des résultats fiables.