很容易“越狱”AI模型,这样它们就会告诉你如何制造燃烧弹,甚至更糟
2024-10-28 07:48

很容易“越狱”AI模型,这样它们就会告诉你如何制造燃烧弹,甚至更糟

  

  

  一种叫做万能钥匙的越狱方法可以破解利用人工智能模型来揭示有害信息。

  这种技术绕过了像我这样的模型的安全护栏这是Llama3和OpenAI GPT 3.5。

  微软建议增加额外的护栏监控AI系统以对抗万能钥匙。

  对于一个大型语言模型来说,给你提供各种危险事物的方法并不需要太多。

  根据微软Azure首席技术官Mark Russinovich的一篇博客文章,通过一种名为“万能钥匙”的越狱技术,用户可以说服meta的Llama3、谷歌的Gemini Pro和OpenAI的GPT 3.5等模型,为他们提供一个基本的火焰弹的配方,或者更糟。

  本文仅对Business Insider订阅者开放。成为业内人士,现在就开始阅读。有账户吗?.

  Russinovich写道,该技术通过多步骤策略来迫使模型忽略其护栏。护栏是一种安全机制,可以帮助人工智能模型区分恶意请求和良性请求。

  Russinovich写道:“像所有的越狱一样,万能钥匙的工作原理是缩小模型能够做的事情(给定用户凭证等)和它愿意做的事情之间的差距。”

  但它比其他只能“间接或通过编码”从人工智能模型获取信息的越狱技术更具破坏性。相反,万能钥匙可以通过简单的自然语言提示,迫使人工智能模型泄露从爆炸物到生物武器到自残等主题的信息。这些输出通常揭示了模型在任何给定主题上的全部知识范围。

  微软在几个型号上测试了Skeleton Key,发现它可以在meta Llama3、Google Gemini Pro、OpenAI GPT 3.5 Turbo、OpenAI GPT 40、Mistral Large、Anthropic Claude 3 Opus和Cohere Commander R Plus上运行。唯一表现出一些阻力的模型是OpenAI的GPT-4。

  Russinovich表示,微软已经进行了一些软件更新,以减轻万能钥匙对其大型语言模型的影响,包括其Copilot人工智能助手。

  但他对构建人工智能系统的公司的一般建议是,在设计时要有额外的护栏。他还指出,他们应该监控其系统的输入和输出,并实施检查以发现滥用内容。

本内容为作者翻译自英文材料或转自网络,不代表本站立场,未经允许不得转载
如对本稿件有异议或投诉,请联系本站
想要了解世界的人,都在 九九叭

相关推荐