Skip to content
AI 인텔리전스Feb 23, 2026AI 인텔리전스
기사

OpenAI가 인기 있는 AI 코딩 벤치마크인 SWE-bench Verified의 폐지를 촉구하고 있습니다.

회사는 대부분의 과제가 결함이 있으며, 선도적인 AI 모델들은 이미 훈련 과정에서 정답을 보았을 가능성이 높다고 주장합니다. 따라서 이 벤치마크는 실제 코딩 능력보다는 암기력을 측정합니다.

Data Cube AI 편집팀출처: The Decoder
01

출처 브리프

OpenAI가 인기 있는 AI 코딩 벤치마크인 SWE-bench Verified의 폐지를 촉구하고 있습니다. 회사는 대부분의 과제가 결함이 있으며, 선도적인 AI 모델들은 이미 훈련 과정에서 정답을 보았을 가능성이 높다고 주장합니다. 따라서 이 벤치마크는 실제 코딩 능력보다는 암기력을 측정합니다.