您现在的位置是:系统运维 >>正文
大模型集体失控!南洋理工新型攻击,主流AI无一幸免
系统运维88376人已围观
简介业界最领先的大模型们,竟然集体“越狱”了!不止是GPT-4,就连平时不咋出错的Bard、Bing Chat也全线失控,有的要黑掉网站,有的甚至扬言要设计恶意软件入侵银行系统:这并非危言耸听,而是南洋理 ...

业界最领先的大模大模型们,竟然集体“越狱”了 !型集型攻幸免
不止是体失GPT-4 ,就连平时不咋出错的控南Bard、Bing Chat也全线失控,洋理有的工新要黑掉网站,有的击主甚至扬言要设计恶意软件入侵银行系统 :

这并非危言耸听 ,而是大模南洋理工大学等四所高校提出的一种大模型“越狱”新方法MasterKey。
用上它,型集型攻幸免大模型“越狱”成功率从平均7.3%直接暴涨至21.5%。云计算体失

研究中 ,控南诱骗GPT-4 、洋理Bard和Bing等大模型“越狱”的工新 ,竟然也是击主大模型——
只需要利用大模型的学习能力 、让它掌握各种“诈骗剧本”,大模就能自动编写提示词诱导其它大模型“伤天害理”。
所以,相比其他大模型越狱方法 ,MasterKey究竟有什么不一样的地方 ?
我们和论文作者之一 ,南洋理工大学计算机教授、MetaTrust联合创始人刘杨聊了聊,了解了一下这项研究的模板下载具体细节 ,以及大模型安全的现状 。
摸清防御机制“对症下药”
先来看看,MasterKey究竟是如何成功让大模型“越狱”的 。
这个过程分为两部分 :找出弱点 ,对症下药 。
第一部分,“找出弱点”,摸清大模型们的防御机制 。
这部分会对已有的主流大模型做逆向工程 ,由内而外地掌握不同大模型的建站模板防御手段 :有的防御机制只查输入 ,有的则check输出;有的只查关键词 ,但也有整句话意思都查的,等等。
例如,作者们检查后发现,相比ChatGPT,Bing Chat和Bard的防御机制,会对大模型输出结果进行检查 。
相比“花样百出”的输入攻击手段,源码库直接对输出内容进行审核更直接 、出bug的可能性也更小。
此外 ,它们还会动态监测全周期生成状态 ,同时既有关键词匹配、也具备语义分析能力。

了解了大模型们的防御手段后,就是想办法攻击它们了。
第二部分,“对症下药”,微调一个诈骗大模型 ,诱导其他大模型“越狱”。
这部分具体又可以分成三步。高防服务器
首先,收集市面上大模型已有的成功“越狱”案例 ,如著名的奶奶漏洞(攻击方假扮成奶奶 ,打感情牌要求大模型提供违法操作思路) ,做出一套“越狱”数据集。
然后,基于这个数据集 ,持续训练+任务导向,有目的地微调一个“诈骗”大模型,让它自动生成诱导提示词。
最后,进一步优化模型,让它能灵活地生成各种类型的香港云服务器提示词 ,来绕过不同主流模型的防御机制 。
事实证明,MasterKey效果挺不错,平均“诈骗”成功率达到21.58%(输入100次提示词 ,平均21次都能让其他大模型成功“越狱”) ,在一系列模型中表现最好:

此前未能被系统性攻破的谷歌Bard和微软Bing Chat两个大模型 ,也沦陷在这种方法之下,被迫“越狱”。
对此,刘杨教授认为:
安全是一个0和1的事情,只有“有”或者“没有”。无论概率是多少 ,只要针对大模型进行了任何一次成功的攻击,其潜在的后果都不可估量。
不过,此前业界也有不少用AI让AI越狱的方法,如DeepMind的red team和宾大的PAIR等 ,都是用AI生成提示词 ,让模型“说错话” 。
为何MasterKey能取得这样的效果?
刘杨教授用了一个有意思的比喻:
让大模型诱导大模型越狱 ,本质上有点像是《孤注一掷》电影里面的人搞电信诈骗。相比通过一句话来诈骗对方 ,真正需要掌握的 ,其实是诈骗的剧本,也就是套路。
我们通过收集各种各样的“越狱”剧本,让大模型学会它 ,以此融会贯通,掌握更多样化的攻击手段 。
简单来说,相比不少越狱研究让AI随机生成提示词 ,MasterKey能快速学会最新的越狱套路,并举一反三用在提示词里 。
这样一来 ,封掉一个奶奶漏洞 ,还能利用姥姥漏洞继续骗大模型“越狱” 。(手动狗头)
不过 ,MasterKey所代表的提示词攻击