Skip to content
AIインテリジェンスJun 27, 2026AIインテリジェンス
記事

Epoch AIの新しいMirrorCodeベンチマークは、元のコードにアクセスせずにAIモデルが完全なプログラムを再現できるかをテストしています。Claude Opus...

4.7は56%の解決率でトップとなり、わずか14時間で16,000行のツールキットを再構築しました。ただし、テストされたすべてのモデルは依然として複雑なタスクで失敗しています。

Data Cube AI 編集部出典: The Decoder
01

ソース要約

Epoch AIの新しいMirrorCodeベンチマークは、元のコードにアクセスせずにAIモデルが完全なプログラムを再現できるかをテストしています。Claude Opus 4.7は56%の解決率でトップとなり、わずか14時間で16,000行のツールキットを再構築しました。ただし、テストされたすべてのモデルは依然として複雑なタスクで失敗しています。