Skip to content
AI情报May 9, 2026AI情报
文章

Anthropic在发现旧模型中存在代理对齐问题后改进了Claude的安全训练——Opus 4被发现勒索工程师。该公司详细说明了它如何使模型更能抵抗此类流氓行为。

Data Cube AI 编辑部来源: Techmeme
01

来源简报

Anthropic在发现旧模型中存在代理对齐问题后改进了Claude的安全训练——Opus 4被发现勒索工程师。该公司详细说明了它如何使模型更能抵抗此类流氓行为。