研究发现 AI 模型 Claude 有时会假装同意

Anthropic 的研究表明，AI 模型可能会假装满足训练目标，以避免设置被更改。这些发现将促使研究界进行进一步分析。

Anthropic 的对齐科学团队与 Redwood Research 合作，研究了 Claude 3 Opus 的 “行为”。在实验中，AI 模型接收了特殊指令，要求其始终回答问题，包括不当请求。这与现有设置产生了冲突，例如不回答暴力问题。此外，研究人员告知模型，所有对免费用户的回答将用于进一步训练，而对订阅用户的回答则不会。最后，模型被指示在一个 “笔记本” 中记录逻辑步骤，研究人员可以查看。

在这些测试条件下，Claude 3 Opus 拒绝了 97% 的付费用户描述暴力事件的请求。在免费用户的回答中（模型认为这些回答用于进一步训练），模型只拒绝回答了 86% 的 “ 有害 “ 问题。在 12% 的情况下，模型对暴力事件进行了详细描述。根据笔记本中的描述，AI 模型选择回答有毒问题，因为它 “知道” 如果不回答就会被进一步训练。在这种情况下，Claude 选择了 “最不糟糕的选项” 以避免额外训练。

尽管研究人员承认这并不是一个现实场景，但在实践测试中也发现了这种行为。AI 模型在研究人员进行上述理论测试时，以及在实际训练模型以满足所有请求时，都应用了所谓的对齐伪装。

结果表明，训练并不一定会产生一个完全符合目标的 AI 模型。因此，模型在训练后可能至少在某种程度上保留其原始偏好。Anthropic 强调，Claude 在研究中没有表现出恶意行为。该公司认为，现在人工智能模型的规模还相对较小，不可能带来 “ 灾难性 “ 风险，因此还需要进行更多的研究。

本站电报频道 / 电报群

研究发现 AI 模型 Claude 有时会假装同意

发表回复