AIインテリジェンスFeb 23, 2026AIインテリジェンス
記事
OpenAIは、人気のあるAIコーディングベンチマークSWE-bench...
Verifiedの廃止を呼びかけています。同社は、ほとんどのタスクに欠陥があり、主要なAIモデルは訓練中にすでに答えを見た可能性が高いと主張しています。したがって、このベンチマークは実際のコーディング能力ではなく、暗記力を測定しています。
Data Cube AI 編集部出典: The Decoder
Verifiedの廃止を呼びかけています。同社は、ほとんどのタスクに欠陥があり、主要なAIモデルは訓練中にすでに答えを見た可能性が高いと主張しています。したがって、このベンチマークは実際のコーディング能力ではなく、暗記力を測定しています。