研究发现 AI 模型 Claude 有时会假装同意

Anthropic 的研究表明,AI 模型可能会假装满足训练目标,以避免设置被更改。这些发现将促使研究界进行进一步分析。

Anthropic 的对齐科学团队与 Redwood Research 合作,研究了 Claude 3 Opus 的 “行为”。在实验中,AI 模型接收了特殊指令,要求其始终回答问题,包括不当请求。这与现有设置产生了冲突,例如不回答暴力问题。此外,研究人员告知模型,所有对免费用户的回答将用于进一步训练,而对订阅用户的回答则不会。最后,模型被指示在一个 “笔记本” 中记录逻辑步骤,研究人员可以查看。

在这些测试条件下,Claude 3 Opus 拒绝了 97% 的付费用户描述暴力事件的请求。在免费用户的回答中(模型认为这些回答用于进一步训练),模型只拒绝回答了 86% 的 “ 有害 “ 问题。在 12% 的情况下,模型对暴力事件进行了详细描述。根据笔记本中的描述,AI 模型选择回答有毒问题,因为它 “知道” 如果不回答就会被进一步训练。在这种情况下,Claude 选择了 “最不糟糕的选项” 以避免额外训练。

尽管研究人员承认这并不是一个现实场景,但在实践测试中也发现了这种行为。AI 模型在研究人员进行上述理论测试时,以及在实际训练模型以满足所有请求时,都应用了所谓的对齐伪装。

结果表明,训练并不一定会产生一个完全符合目标的 AI 模型。因此,模型在训练后可能至少在某种程度上保留其原始偏好。Anthropic 强调,Claude 在研究中没有表现出恶意行为。该公司认为,现在人工智能模型的规模还相对较小,不可能带来 “ 灾难性 “ 风险,因此还需要进行更多的研究。

研究发现AI模型Claude有时会假装同意
(0)
安亚的头像安亚

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注