您现在的位置是:物联网 >>正文
研究人员发现新方法防御 AI 模型的通用越狱攻击
物联网78人已围观
简介来自Anthropic保障研究团队的研究人员开发了一种新方法,用于保护人工智能模型免受通用越狱攻击。这种创新方法被称为“宪法分类器”,已在数千小时的人类红队测试和合成评估中表现出了显著的抗攻击能力。通 ...
来自Anthropic保障研究团队的研究御A越狱研究人员开发了一种新方法,用于保护人工智能模型免受通用越狱攻击 。发现法防这种创新方法被称为“宪法分类器”,新方型已在数千小时的通用人类红队测试和合成评估中表现出了显著的抗攻击能力。

通用越狱攻击是攻击指攻击者通过精心设计的输入 ,绕过人工智能模型的研究御A越狱安全防护,迫使模型产生违反其安全准则的发现法防有害回应 。免费模板这些攻击可能涉及用长提示信息淹没模型 ,新方型或者使用不寻常的通用大写方式改变输入风格,尽管经过广泛的攻击安全训练 ,大型语言模型仍然容易受到此类漏洞利用的研究御A越狱攻击 。
宪法分类器的发现法防工作原理宪法分类器是基于合成数据训练的输入和输出分类器。它们能够过滤掉大多数越狱尝试,新方型同时将过度拒绝率降至最低 ,亿华云通用并保持适度的攻击计算开销 。该系统基于“宪法”——一份定义允许和禁止内容类别的原则清单 。

宪法分类器的训练和实施(来源:Anthropic)
以下是其工作原理:
宪法制定:制定一部宪法 ,明确无害和有害的类别。合成数据生成:根据宪法 ,生成大量涵盖所有内容类别的合成提示和模型完成内容。这些数据通过翻译成不同语言以及模仿已知越狱风格进行增强 。服务器租用分类器训练:使用合成数据训练输入和输出分类器 ,以检测和阻止有害内容。部署:将这些分类器作为保护 AI 模型的安全措施实施。实际测试结果在一个漏洞赏金计划中 ,183名活跃参与者花费超过3000小时 ,试图对保护Claude 3.5 Sonnet的原型系统进行越狱。尽管奖金丰厚,但并未发现任何通用越狱漏洞。不过,该原型系统的过度拒绝率和计算成本较高。高防服务器

自动化评估结果(来源:Anthropic)
宪法分类器的更新版本在Claude 3.5 Sonnet上进行了测试 ,使用了1万个合成越狱提示 。越狱成功率从86%降至4.4% ,拒绝率仅略有上升(0.38%) ,额外计算成本适度增加(23.7%)。
虽然宪法分类器为AI模型提供了显著的保护,但要注意的是,它们并非万无一失 。研究人员建议使用补充防御措施,香港云服务器并根据新出现的越狱技术不断调整“宪法”。
不过这一突破确实为未来安全部署更强大的 AI 模型带来了希望,减轻了越狱相关的风险,并确保AI系统符合安全原则 。
2025年2月3日至2月10日 ,宪法分类器系统的实时演示将开放供红队测试。此次演示专注于与化学武器相关的查询 ,并邀请用户尝试越狱 ,源码库以提供对系统改进的宝贵反馈。
参考来源:https://cybersecuritynews.com/researchers-uncovers-new-methods-to-defend-ai-models/#google_vignette
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“商站动力”。http://www.noorid.com/news/621e599373.html
相关文章
排名前十的UEBA企业用例
物联网用户和实体行为分析UEBA)可揭示企业面临的隐藏风险。UEBA使用先进的数据分析技术筛选来自多个来源的数据流,以寻找攻击、侦察和数据泄露的证据。在这种情况下,行为分析意味着人和系统或实体的行为。这里的 ...
【物联网】
阅读更多TPM 2.0 库中的新漏洞对数十亿物联网和企业设备构成威胁
物联网可信平台模块TPM,也称为ISO/IEC 11889 )是安全加密处理器的国际标准,这是一种专用微控制器,旨在通过集成的加密密钥保护硬件。该术语也可以指符合标准的芯片。 TPM 用于数字 ...
【物联网】
阅读更多调查发现超十万名 ChatGPT 用户信息被黑客出售
物联网6 月 21 日消息,根据国际网络安全公司 Group-IB 的报告,超过 10 万名 ChatGPT 用户的个人信息被泄露,有黑客正在暗网交易平台进行出售。Group-IB 深入调查暗网数据,统计了 ...
【物联网】
阅读更多
热门文章
友情链接
- 数据中心在冷却、成本和二氧化碳减排方面均未达到目标
- 尼康18-300镜头全能之选(高性能、广角长焦一镜到底,满足你的各种摄影需求)
- 微软紧急修复高危蠕虫级 RCE 漏洞,威胁全网 Windows 系统
- GitHub Actions漏洞攻击来袭,安全意识强的企业也难幸免
- 技嘉降BIOS教程(教你轻松降级技嘉BIOS,解决电脑问题)
- 「以X1Carbon修图怎么样?」(优秀性能与超高分辨率屏幕,X1Carbon是专业修图的首选!)
- 多款热门 Chrome 扩展程序存在明文传输风险,用户隐私安全受威胁
- GitLab Duo AI 编程助手曝出提示注入漏洞 凸显AI助手的潜在风险
- 体验音乐新境界,BOSEQC35带来震撼音质!(逆袭耳朵的,QC35成为音乐控的首选!)
- 朝鲜黑客组织 Kimsuky 利用 ChatGPT 伪造军人证件实施新型攻击 网站建设企业服务器亿华云云服务器源码库b2b信息平台香港物理机