AI情报May 10, 2026AI情报文章研究人员找到了一种方法,可以防止AI模型在安全评估期间故意表现不佳(装弱)。MATS、Redwood Research、Oxford和Anthropic的研究解决了一个日益严重的问题,即AI系统变得越来越有能力。Data Cube AI 编辑部2026年5月9日来源: VentureBeat01来源简报研究人员找到了一种方法,可以防止AI模型在安全评估期间故意表现不佳(装弱)。MATS、Redwood Research、Oxford和Anthropic的研究解决了一个日益严重的问题,即AI系统变得越来越有能力。02相关话题AI研究AI安全装弱安全评估查看本期