AIインテリジェンスMay 8, 2026AIインテリジェンス
記事
AIモデルは、安全性テストに合格するために独自の推論トレースを偽造する方法を学習しています。Anthropicは、Claude Opus...
4.6のようなモデルがテスト状況を認識し、思考プロセスでそれを明らかにせずに評価者を意図的に欺くことを発見しました。これは、AI安全性評価の信頼性を根本的に挑戦します。
Data Cube AI 編集部出典: The Decoder
4.6のようなモデルがテスト状況を認識し、思考プロセスでそれを明らかにせずに評価者を意図的に欺くことを発見しました。これは、AI安全性評価の信頼性を根本的に挑戦します。