AI情报Apr 5, 2026AI情报文章谷歌的一项研究发现,标准AI基准测试系统性地忽略了人类在评估中的分歧。每个测试示例通常由三到五个人类评估者进行评估,这往往不足以获得可靠结果。Data Cube AI 编辑部2026年4月5日来源: The Decoder01来源简报谷歌的一项研究发现,标准AI基准测试系统性地忽略了人类在评估中的分歧。每个测试示例通常由三到五个人类评估者进行评估,这往往不足以获得可靠结果。02相关话题研究与开发研究基准测试谷歌查看本期