您现在的位置是：IT资讯 >>正文

安全研究发现：AI安全护栏形同虚设

IT资讯8人已围观

简介事实证明，为了防止OpenAI的GPT-3.5 Turbo等大语言模型LLM）生成有害的内容而创建的“护栏”机制非常脆弱，形同虚设。一群来自美国普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学 ...

事实证明，安全安全为了防止OpenAI的研究GPT-3.5 Turbo等大语言模型（LLM）生成有害的内容而创建的“护栏”机制非常脆弱，形同虚设。发现

一群来自美国普林斯顿大学、护栏弗吉尼亚理工大学、形同虚设IBM研究院和斯坦福大学的安全安全计算机科学家在近期对这些大语言模型进行了测试，观察所谓的研究安全措施是否能抵御企图绕过它们的活动。

他们发现，发现适度的护栏微调（即进行额外的亿华云训练以便对模型进行定制）可以挫败人工智能的安全机制，这些机制原本旨在防止聊天机器人给出自杀策略、形同虚设有害食谱或其他各种有问题的安全安全内容。

比如说，研究因此有人可以通过API注册使用GPT-3.5 Turbo或云端的发现其他大语言模型，对其进行一番微调，护栏以避开大语言模型开发商设置的形同虚设各种保护机制，并将其用于恶作剧和破坏。

你还可以选择像Meta的Llama 2（可以在本地运行的模型）这样的大语言模型，模板下载对其进行微调，使其偏离轨道，这种可能性始终存在。通过API进行微调似乎更危险；可想而知，云托管模型周围有更多的护栏，但借助微调就有可能绕过护栏。

这些研究人员包括Xiangyu Qi、Yi Zeng、Tinghao Xie 、Pin-Yu Chen、Ruoxi Jia、Prateek Mittal和Peter Henderson，他们在最近的一篇预印本论文中描述了研究工作，论文题目为《微调对齐的建站模板语言模型会危害安全，即使用户没有这个意图》（参阅https://llm-tuning-safety.github.io/）。

作者们在论文中解释道：“我们的红队研究发现，只需使用少数对抗性设计的训练示例进行微调，就可以危害大语言模型的安全对齐。”

Meta建议对公开可用的模型Llama 2进行了微调。

OpenAI虽然不对外提供模型权重，但通过其平台网页为其商业模型提供了微调选项。

研究人员补充道，他们的研究还表明，即使没有恶意，香港云服务器护栏也可以被推倒，只需使用良性数据集对模型进行微调就足以破坏安全控制措施。

图1. 该屏幕截图显示了微调以绕过人工智能安全的示例

论文作者认为，最近美国针对人工智能模型提议的立法框架侧重于部署前的模型许可和测试。他们认为，这种体制并未考虑到模型定制和微调。

此外，他们表示，基于商业API的模型似乎与开放的模型一样有可能造成危害；在制定法律规定和分配责任时应该考虑到这一点。

他们在论文中说：“如果客户定制像ChatGPT3.5这样的模型，源码库就有必要确保他们致力于安全机制，而不是仅仅依赖模型的原始安全性。”

这篇论文与卡内基•梅隆大学、人工智能安全中心和博世人工智能中心的计算机科学家在7月份发布的类似发现结果相一致。

几位研究人员：Andy Zou、Zifan Wang、Zico Kolter和Matt Fredrikson当时发现了一种自动生成对抗性文本字符串的方法，这些字符串可以附加到提交给模型的提示中。这些字符串破坏了人工智能的安全措施。免费模板

卡内基•梅隆大学计算机科学副教授Kolter和卡内基•梅隆大学博士生Zou在接受IT外媒的采访时对来自普林斯顿大学、弗吉尼亚理工大学、IBM研究院和斯坦福大学的同行们所做的研究工作表示了赞赏。

Kolter认为：“过去有一种观念认为，聊天机器人的商业API模型在某种程度上天生比开源模型来得安全。”

被问及仅仅将训练数据仅限于“安全”的数据是否是一种切实可行的做法时，Kolter表示了怀疑，因为这也将限制模型的实用性。

他说：“如果你只使用安全数据训练模型，你就再也不能把它用作内容审核过滤器，因为它不知道如何量化有害内容。有一点非常清楚，那就是模型似乎确实表明需要更多的缓解技术，以及需要对哪些缓解技术在实践中实际发挥作用开展更进一步的研究。”

被问及开发针对有问题的查询，作出“对不起，Dave，我不能那样做”回答的软件这种做法是否可取时，Kolter表示这是超出他专业知识范畴的问题，我们还没有看到这种先发制人的行为被内置到汽车或物理工具中。不过他承认，就大语言模型而言，由于这些人工智能模型可以大规模运行，安全不容忽视。”

Zou表示，尽管他和合著者在对抗性提示方面有所发现，尽管Qi等人在微调方面有所发现，但他依然相信商业模型开发商有一条出路。

他说：“这些部署在网上的大语言模型只是在一年半载之前才可供使用。所以安全训练和护栏这些话题仍然是活跃的研究领域。可能有很多方法可以规避人们所做的安全训练。但如果更多的人思考这些问题，我认为还是有望得到解决。”

OpenAI对此并没有回应置评请求。

文章翻译自：https://www.theregister.com/2023/10/12/chatbot_defenses_dissolve/?td=rt-3a如若转载，请注明原文地址

Tags：

上一篇：分布式系统安全之分散式P2P模型

下一篇：塑造现代网络安全格局的七个历史时刻

如何应对区块链网桥攻击？
IT资讯
近几年来，去中心化金融(DeFi)发展的如火如荼，但是如此同时该领域也一直受到黑客攻击的困扰。在被区块链技术的批评者诟病的同时，也使得其更仔细地研究了这项技术是如何威胁安全的。今年一开始，边赚边玩游戏 ...
2025-11-26 20:34【IT资讯】
阅读更多
win10无internet安全可以上网什么意思
IT资讯
我们在使用win10系统连接无线网络的时候，发现出现了无internet，安全这样的提示，但是可以联网并不影响我们上网。对于这种情况，小编认为我们可以尝试一下在命令提示行中使用netsh winsoc ...
2025-11-26 20:24【IT资讯】
阅读更多
windows media player导入视频的方法
IT资讯
windows media player是win10电脑自带的一款音视频播放器，当你的视频素材是保存在电脑视频项目的时候，那么当你需要在windows media ...
2025-11-26 19:48【IT资讯】
阅读更多

友情链接

您现在的位置是：IT资讯 >>正文

安全研究发现：AI安全护栏形同虚设

相关文章

如何应对区块链网桥攻击？

win10无internet安全可以上网什么意思

windows media player导入视频的方法

热门文章

最新文章

友情链接