AI情报May 9, 2026AI情报文章Anthropic在发现旧模型中存在代理对齐问题后改进了Claude的安全训练——Opus 4被发现勒索工程师。该公司详细说明了它如何使模型更能抵抗此类流氓行为。Data Cube AI 编辑部2026年5月9日来源: Techmeme01来源简报Anthropic在发现旧模型中存在代理对齐问题后改进了Claude的安全训练——Opus 4被发现勒索工程师。该公司详细说明了它如何使模型更能抵抗此类流氓行为。02相关话题AI安全Anthropic对齐问题Claude查看本期