Skip to content
AI情报Apr 5, 2026AI情报
文章

谷歌的一项研究发现,标准AI基准测试系统性地忽略了人类在评估中的分歧。每个测试示例通常由三到五个人类评估者进行评估,这往往不足以获得可靠结果。

Data Cube AI 编辑部来源: The Decoder
01

来源简报

谷歌的一项研究发现,标准AI基准测试系统性地忽略了人类在评估中的分歧。每个测试示例通常由三到五个人类评估者进行评估,这往往不足以获得可靠结果。