Skip to content
AI情报Feb 23, 2026AI情报
文章

OpenAI呼吁淘汰流行的AI编码基准SWE-bench Verified。该公司认为大多数任务存在缺陷,领先的AI模型可能在训练中已经见过答案。因此,该基准衡量的是记忆能力而非真实的编码能力。

Data Cube AI 编辑部来源: The Decoder
01

来源简报

OpenAI呼吁淘汰流行的AI编码基准SWE-bench Verified。该公司认为大多数任务存在缺陷,领先的AI模型可能在训练中已经见过答案。因此,该基准衡量的是记忆能力而非真实的编码能力。