Skip to content
AIインテリジェンスFeb 23, 2026AIインテリジェンス
記事

OpenAIは、人気のあるAIコーディングベンチマークSWE-bench...

Verifiedの廃止を呼びかけています。同社は、ほとんどのタスクに欠陥があり、主要なAIモデルは訓練中にすでに答えを見た可能性が高いと主張しています。したがって、このベンチマークは実際のコーディング能力ではなく、暗記力を測定しています。

Data Cube AI 編集部出典: The Decoder
01

ソース要約

OpenAIは、人気のあるAIコーディングベンチマークSWE-bench Verifiedの廃止を呼びかけています。同社は、ほとんどのタスクに欠陥があり、主要なAIモデルは訓練中にすでに答えを見た可能性が高いと主張しています。したがって、このベンチマークは実際のコーディング能力ではなく、暗記力を測定しています。