Inteligencia IAApr 5, 2026Inteligencia IA
Artigo
Um estudo do Google descobre que os benchmarks padrão de IA sistematicamente ignoram como humanos discordam em avaliações.
Os três a cinco avaliadores humanos por exemplo de teste são frequentemente insuficientes para resultados confiáveis.
Editorial Data Cube AIFonte: The Decoder
01
Brief da fonte
Um estudo do Google descobre que os benchmarks padrão de IA sistematicamente ignoram como humanos discordam em avaliações. Os três a cinco avaliadores humanos por exemplo de teste são frequentemente insuficientes para resultados confiáveis.
02