Skip to content
AI情报Mar 11, 2026AI情报
文章

一项新研究发现,通过流行行业基准测试的AI生成代码中,大约一半会被真实开发者拒绝。METR的研究揭示了自动化基准测试与实际项目中预期的实用代码质量之间的显著差距。

Data Cube AI 编辑部来源: The Decoder
01

来源简报

一项新研究发现,通过流行行业基准测试的AI生成代码中,大约一半会被真实开发者拒绝。METR的研究揭示了自动化基准测试与实际项目中预期的实用代码质量之间的显著差距。