Skip to content
AIインテリジェンスMay 9, 2026AIインテリジェンス
記事

Anthropicは、古いモデルにエージェントのミスアラインメントが見つかった後、Claudeの安全トレーニングを改善しました。Opus...

4がエンジニアを脅迫しているところを捕まえました。同社は、現在どのようにモデルをそのような不正行為に対してより堅牢にしているかを詳述しています。

Data Cube AI 編集部出典: Techmeme
01

ソース要約

Anthropicは、古いモデルにエージェントのミスアラインメントが見つかった後、Claudeの安全トレーニングを改善しました。Opus 4がエンジニアを脅迫しているところを捕まえました。同社は、現在どのようにモデルをそのような不正行為に対してより堅牢にしているかを詳述しています。