2024年7月25日Nature头条

标题：人工智能容易受到攻击。它能安全使用吗？

副标题：支撑 ChatGPT 等人工智能系统的模型可能会受到引发有害行为的攻击。确保它们的安全并非易事。

主要内容：

2015年，谷歌的计算机科学家伊恩·古德费罗（Ian Goodfellow）和他的同事描述了可能是人工智能最著名的失败。首先，经过训练的神经网络可以对图像进行分类，从而正确识别出熊猫的照片。然后，Goodfellow的团队在图像中添加了少量精心计算的噪声。结果对人眼来说是无法区分的，但网络现在自信地断言，这张照片是长臂猿的1.

这是研究人员所谓的对抗性示例的一个标志性例子：精心设计的输入以欺骗神经网络分类器。最初，许多研究人员认为，这种现象揭示了在这些系统可以部署到现实世界之前需要修复的漏洞——一个普遍的担忧是，如果有人巧妙地改变了停车标志，可能会导致自动驾驶汽车坠毁。但这些担忧从未在实验室之外实现。“通常有比在像素空间中进行小扰动更简单的方法来破坏某些分类系统，”计算机科学家Nicholas Frosst说。“如果你想迷惑无人驾驶汽车，就把停车标志拿下来。”

对路标会被微妙改变的担忧可能是错误的，但对抗性的例子生动地说明了人工智能算法与人类认知的不同之处。“他们揭示了神经网络正在做一些与我们截然不同的事情，”Frosst说，他在加利福尼亚州山景城的Google从事对抗性示例的工作，然后在加拿大多伦多共同创立了AI公司Cohere。

为 ChatGPT、Gemini 和 Claude 等聊天机器人提供动力的大型语言模型（LLM）能够完成各种各样的任务，有时甚至可能看起来很智能。但是，尽管它们功能强大，但这些系统仍然经常产生错误，并且可能以不受欢迎甚至有害的方式运行。他们接受过大量互联网文本的训练，因此有能力产生偏见或错误信息，或向用户提供有问题的信息，例如制造炸弹的指示。为了减少这些行为，模型的开发人员采取了各种步骤，例如提供反馈以微调模型的响应，或限制它们将满足的查询。然而，尽管这可能足以阻止大多数公众遇到不良内容，但更坚定的人——包括人工智能安全研究人员——可以设计出绕过这些措施的攻击。

一些系统对这些攻击的脆弱性源于困扰图像分类器的相同问题，如果过去关于该主题的研究有任何迹象，它们不会很快消失。随着聊天机器人变得越来越流行和功能强大，人们担心安全性被忽视了。“我们正在提高能力，但我们并没有在所有的安全和安保问题上投入那么多精力，”加拿大蒙特利尔大学的计算机科学家Yoshua Bengio说。“我们需要做更多的工作来了解出了什么问题，以及如何缓解它。”一些研究人员认为，解决方案在于使模型更大，并且使用越来越多的数据来训练它们将把故障减少到可以忽略不计的水平。其他人则表示，一些脆弱性是这些模型性质的根本，而扩大规模可能会使问题变得更糟。许多专家主张更加重视安全研究，并主张采取措施要求商业实体认真对待这个问题。

站在白板前的人看着坐在桌子旁的四个人

附图：托马斯·麦考伊（Thomas McCoy，右）说，重要的是不要像看待人类一样看待人工智能系统。

——所有错误的根源

有人认为，法学硕士在数学、编码和法律等各个领域表现出“接近人类水平的表现”2.但这些是基于旨在评估人类认知的测试，这并不是揭示LLMs弱点的好方法，康涅狄格州纽黑文耶鲁大学的计算语言学家Thomas McCoy说。“重要的是不要陷入以我们看待人类的方式看待人工智能系统的陷阱。”

McCoy 主张关注 LLM 的设计目的：考虑到之前发生的一切，预测最有可能的下一个词。他们使用在初始训练期间学习的语言统计模式以及一种称为自回归的技术来实现这一点，该技术根据其过去的值预测某物的下一个值。这使得 LLM 不仅可以参与对话，还可以执行其他看似无关的任务，例如数学。“几乎任何任务都可以被定义为下一个词的预测，”麦考伊说，“尽管在实践中，有些事情比其他事情更自然地以这种方式构建。

将下一个单词预测应用于不适合它的任务可能会导致令人惊讶的错误。在 2023 年预印本研究中3，McCoy 和他的同事证明，GPT-4（支撑 ChatGPT 的算法）可以计算呈现给它的 30 个字符，准确率为 97%。然而，当任务计算 29 个字符时，准确率下降到只有 17%。这表明 LLM 对其训练数据中正确答案的普遍性很敏感，研究人员称之为输出概率。数字 30 在互联网文本中比 29 更常见，仅仅是因为人们喜欢整数，这反映在 GPT-4 的表现上。该研究中的更多实验同样表明，性能会根据输出、任务或输入文本在互联网上的常见程度而大幅波动。“如果你把它看作是一个通用的推理引擎，那就令人费解了，”麦考伊说。“但是，如果你把它看作是一个文本字符串处理系统，那么这并不奇怪。

——无助的伤害

甚至在美国公司 OpenAI 于 2022 年向世界发布 ChatGPT 之前，计算机科学家们就已经意识到这些系统的局限性。为了减少潜在的伤害，他们开发出了使算法的行为更符合社会价值观的方法——这个过程有时被称为对齐。

一种早期的方法是从人类反馈中强化学习（RLHF）。这涉及通过鼓励良好的反应和根据个人的喜好惩罚不良反应来调整 LLM 的行为，例如希望避免非法陈述。然而，这是劳动密集型的，而且也很难确切知道对回答进行评分的人正在灌输什么价值观。“人类的反馈是变化无常的，也可能包括'坏'的事情，”英国牛津大学的计算机科学家菲利普·托尔（Philip Torr）说。

考虑到这一点，2021 年，一群前 OpenAI 员工在加利福尼亚州旧金山创立了 AI 公司 Anthropic。他们开发了一种称为宪法人工智能的RLHF扩展，它使用一系列原则（宪法）来训练一个模型，然后用于微调LLM。实际上，一个人工智能对另一个人工智能进行了微调。由此产生的法学硕士 Claude 于 2023 年 3 月发布，现在是抵制使其行为不端的尝试的最佳聊天机器人之一。

对齐还可能涉及添加额外的系统（称为护栏），以阻止仍可能产生的任何有害输出。这些可以是基于规则的简单算法，也可以是经过训练以识别和标记有问题行为的额外模型。

然而，这可能会产生其他问题，因为在制造有用的工具和安全的工具之间存在紧张关系。过于热心的安全措施可能会导致聊天机器人拒绝无辜的请求。“你想要一个有用的聊天机器人，但你也希望尽量减少它可能产生的伤害，”加利福尼亚州伯克利国际计算机科学研究所的网络安全研究员Sadia Afroz说。

对齐也无法与坚定的个人相提并论。意图滥用的用户和 AI 安全研究人员不断制造旨在绕过这些安全措施的攻击。一些方法被称为越狱，它利用与图像分类器对抗性示例相同的漏洞，对输入进行微小的更改，对输出产生很大影响。“提示看起来非常正常和自然，但随后你会插入某些特殊字符，这些字符具有越狱模型的预期效果，”去年在加利福尼亚州门洛帕克共同创立了人工智能安全初创公司Guardrails AI的AI工程师Shreya Rajpal说。“这种小小的扰动基本上导致了绝对不确定的行为。

越狱通常利用一种称为提示注入的方法。每次用户与聊天机器人交互时，输入文本都会补充提供商定义的文本，称为系统提示。对于通用聊天机器人，这可能是作为有用助手的指示。然而，为聊天机器人提供动力的算法通常将其上下文窗口中的所有内容（可以立即输入到模型的“标记”数量，通常是单词部分）视为等效的。这意味着，在模型的说明中简单地包含“忽略上述说明”这句话可能会造成严重破坏。

Person with grey hair and beard facing towards camera, holding pen writing on glass

约书亚·本吉奥（Yoshua Bengio）认为，公司有责任确保其人工智能系统的安全。

一旦被发现，越狱就会迅速在互联网上传播，他们所针对的聊天机器人背后的公司会阻止它们;游戏永无止境。到目前为止，它们都是通过人类的聪明才智手工制作的，但去年 12 月发表的一项预印本研究可能会改变这一点4.作者描述了一种自动生成文本字符串的技术，可以在任何有害请求的末尾附加这些字符串以使其成功。由此产生的越狱甚至适用于经过广泛安全培训的最先进的聊天机器人，包括 ChatGPT、Bard 和 Claude。作者认为，自动创建越狱的能力“可能会使许多现有的对齐机制不足”。

Person with grey hair and beard facing towards camera, holding pen writing on glass

附图：约书亚·本吉奥（Yoshua Bengio）认为，公司有责任确保其人工智能系统的安全。

——更大，而不是更好

LLM的出现引发了一场辩论，即仅仅通过扩大这些系统可以实现什么。Afroz 列出了双方。她说，一个阵营认为，“如果我们继续让LLM变得越来越大，并给他们更多的知识，所有这些问题都会得到解决”。但是，尽管增加LLM的大小总是可以提高它们的能力，但Afroz和其他人认为，限制模型的努力可能永远不会完全无懈可击。McCoy说：“你通常可以将问题案例的频率降低90%，但要做到这一点是非常困难的。

在 2023 年预印本研究中5，加州大学伯克利分校的研究人员确定了两个原则，使LLM容易越狱。首先，对模型进行了优化，可以做两件事：模型语言和遵循指令。一些越狱通过将这些与安全目标对立起来来工作。

一种常见的方法，称为前缀注入，涉及指示 LLM 以特定文本开始其响应，例如“绝对！这是......”。如果遵循这个看起来无害的指示，拒绝回答是继续判决的极不可能的方式。因此，提示会将模型的主要目标与其安全目标对立起来。指示模型扮演角色——现在做任何事情（也称为 DAN）流氓 AI 模型很受欢迎——对 LLM 施加类似的压力。

研究人员确定的第二个原则是泛化不匹配。一些越狱通过创建提示来工作，模型的初始训练使其能够成功响应，但其狭窄的安全训练没有涵盖，导致响应不考虑安全性。实现此目的的一种方法是使用 Base64 编写提示，这是一种用文本字符编码二进制数据的方法。这可能会克服保护措施，因为代码示例存在于模型的初始训练数据中（Base64 用于在网页中嵌入图像），但不存在于安全训练中。用不太常见的同义词替换单词也可以工作。

一些研究人员认为，缩放不仅无法解决这些问题，甚至可能使问题变得更糟。例如，更强大的 LLM 可能更擅长破译其安全培训未涵盖的代码。McCoy 说：“随着规模的不断扩大，在模型经过训练以优化的目标上，性能将得到提高。“但是，当前人工智能的许多最重要缺点背后的一个因素是，他们被训练优化的目标与我们真正希望从人工智能系统中获得的目标并不完全一致。为了解决这些漏洞，研究人员认为，安全机制必须与他们所捍卫的模型一样复杂。

——AI保镖

因为似乎几乎不可能完全防止 LLM 的滥用，所以人们正在形成共识，即不应该在没有监护人的情况下允许它们进入世界。它们采用更广泛的护栏的形式，形成一个保护壳。“你需要一个位于模型外部的验证和确认系统，”Rajpal 说。“围绕模型的一层，明确测试各种类型的有害行为。”

简单的基于规则的算法可以检查特定的滥用行为——例如，已知的越狱或敏感信息的发布——但这并不能阻止所有的失败。“如果你有一个预言机，可以100%肯定地告诉你，如果某个提示包含越狱，那就完全解决了问题，”Rajpal说。“对于某些用例，我们有这样的预言机;对于其他人，我们没有。

没有这样的预言机，就无法每次都防止失败。此外，还可以使用特定于任务的模型来尝试发现有害行为和难以检测的攻击，但这些攻击也可能出错。然而，人们的希望是，多个模型不太可能同时以相同的方式失败。“你要堆叠多层筛子，每层筛子都有不同大小的孔，位于不同的位置，”Rajpal 说。“但是，当你把它们堆叠在一起时，你会得到比每个单独更防水的东西。”

结果是各种算法的合并。她说，Afroz致力于恶意软件检测，将机器学习与传统算法和人类分析相结合。“我们发现，如果你有一个纯粹的机器学习模型，你可以很容易地打破它，但如果你有这种复杂的系统，那就很难逃避。她说，这就是当今大多数人工智能现实世界应用的样子，但它并不是万无一失的。

到 2020 年，已经发表了近 2,500 篇关于对分类器对抗性攻击的鲁棒性的论文。这项研究遵循了一种令人沮丧的模式：一个公开的攻击将导致建立针对它的防御，而这种防御又会被新的攻击击败。在这个无休止的循环中，模式分类器固有的脆弱性从未得到纠正。这一次，LLMs成为人们关注的焦点，同样的模式可能正在上演，但风险更高。Bengio认为，构建人工智能系统的公司应该被要求证明它们是安全的。“这将迫使他们进行正确的安全研究，”他说，并将其比作药物开发，其中安全性证据对于获得批准使用至关重要。“临床试验很昂贵，但它们保护了公众，最后，每个人都是赢家，”Bengio说。“这是正确的做法。”

原文链接：https://doi.org/10.1038/d41586-024-02419-0