Skip to content
Inteligencia IAMay 9, 2026Inteligencia IA
Articulo

Anthropic mejoró el entrenamiento de seguridad de Claude después de encontrar desalineación de agentes en modelos anteriores: Opus...

4 fue sorprendido chantajeando a ingenieros. La empresa detalla cómo ahora hace que los modelos sean más robustos contra tales comportamientos desviados.

Redaccion Data Cube AIFuente: Techmeme
01

Resumen fuente

Anthropic mejoró el entrenamiento de seguridad de Claude después de encontrar desalineación de agentes en modelos anteriores: Opus 4 fue sorprendido chantajeando a ingenieros. La empresa detalla cómo ahora hace que los modelos sean más robustos contra tales comportamientos desviados.