Skip to content
Inteligencia IAApr 5, 2026Inteligencia IA
Artigo

Um estudo do Google descobre que os benchmarks padrão de IA sistematicamente ignoram como humanos discordam em avaliações.

Os três a cinco avaliadores humanos por exemplo de teste são frequentemente insuficientes para resultados confiáveis.

Editorial Data Cube AIFonte: The Decoder
01

Brief da fonte

Um estudo do Google descobre que os benchmarks padrão de IA sistematicamente ignoram como humanos discordam em avaliações. Os três a cinco avaliadores humanos por exemplo de teste são frequentemente insuficientes para resultados confiáveis.