AI情报Feb 23, 2026AI情报文章OpenAI呼吁淘汰流行的AI编码基准SWE-bench Verified。该公司认为大多数任务存在缺陷,领先的AI模型可能在训练中已经见过答案。因此,该基准衡量的是记忆能力而非真实的编码能力。Data Cube AI 编辑部2026年2月23日来源: The Decoder01来源简报OpenAI呼吁淘汰流行的AI编码基准SWE-bench Verified。该公司认为大多数任务存在缺陷,领先的AI模型可能在训练中已经见过答案。因此,该基准衡量的是记忆能力而非真实的编码能力。02相关话题研发OpenAI研究基准查看本期