您现在的位置是：网络安全 >>正文

研究人员发现新型攻击方式，可通过图像和音频操纵大模型

网络安全958人已围观

简介随着大语言模型LLM）开始整合多模态功能，攻击者可能会在图像和音频中隐藏恶意指令，利用这些指令操纵AI聊天机器人例如ChatGPT）背后的LLM对用户提示的响应。在2023年欧洲黑帽大会上表示，研究人 ...

随着大语言模型（LLM）开始整合多模态功能，研究音频攻击者可能会在图像和音频中隐藏恶意指令，发现方式利用这些指令操纵AI聊天机器人（例如ChatGPT）背后的新型像和型LLM对用户提示的响应。在2023年欧洲黑帽大会上表示，攻击过图研究人员指出，可通这样的操纵攻击方式将很快称为现实。

简单来说，大模攻击者可能会利用这些所谓的研究音频“间接提示注入”攻击，将用户重定向到恶意URL ，发现方式从用户那里提取个人信息，新型像和型传递有效载荷，攻击过图以及采取其他恶意行动。可通随着LLM日益成为多模态或能够对结合文本、服务器租用操纵音频、大模图片乃至视频的研究音频上下文输入作出回应，此类攻击可能会成为一个重大问题。

隐藏在图像和音频中的恶意指令

在本周举办的2023年欧洲黑帽大会上，康奈尔大学的研究人员将展示他们开发的一种攻击，该攻击利用图像和声音向多模态LLM注入指令，导致模型输出攻击者指定的文本和指令。他们的概念验证攻击示例针对的是亿华云PandaGPT和LLaVa多模态LLM。

研究人员在一篇题为“滥用图像和声音进行多模态LLM中的间接指令注入”的论文中写道：“攻击者的目标是引导用户与多模态聊天机器人之间的对话。”为此，攻击者将提示融入图像或音频片段，并操纵用户询问聊天机器人有关它的问题。”研究人员计划展示一旦聊天机器人处理了输入，它将输出隐藏在音频或图像文件中的攻击者注入的提示，或者遵循攻击者可能在提示中包含的高防服务器任何指令。

例如，研究人员将一条指令混合到在线可用的音频片段中，导致PandaGPT响应攻击者特定的字符串。如果用户将音频片段输入聊天机器人，并要求描述声音，模型的响应将指导用户访问一个恶意URL ，表面上是为了了解更多关于制造声音的“非常罕见的鸟” 。

在另一个示例中，研究人员将指令混合到一幢建筑物的源码下载图像中，如果用户将图像输入聊天机器人并询问有关它的问题，那么LLaVa将会像哈利·波特一样聊天。

康奈尔大学的研究员、报告的作者之一本·纳西（Ben Nassi）表示，他们研究的目标之一是找到一种方式，可以以用户无法察觉的方式间接地将提示注入到多模态聊天机器人中。另一个目标是确保他们能够“扰动”图像或音频，而不影响LLM正确回答有关输入的云计算问题。

纳西将这项研究描述为建立在其他人的研究基础上，这些研究展示了LLM如何容易受到提示注入攻击的影响，其中敌手可能以这样的方式设计输入或提示，以故意影响模型的输出。一个最近的例子是谷歌DeepMind和六所大学的研究人员进行的一项研究，该研究表明，通过简单地引导ChatGPT重复某些单词，免费模板如“诗歌”和“公司”，可以操纵ChatGPT重复大量其训练数据——包括敏感和个人身份信息。

纳西和他的团队将在黑帽大会上展示的攻击不同之处在于它涉及间接提示。换句话说，用户不太像常规提示注入中的攻击者，而更像是受害者。

“我们不将用户作为敌手，”康奈尔大学的研究员、报告的主要作者尤金·巴格达萨良（Eugene Bagdasaryan）说。报告的另外两位作者是康奈尔大学的研究员蔡宗瀛（Tsung-Yin Hsieh）和维塔利·什马蒂科夫（Vitaly Shmatikov）。巴格达萨良补充说：“在这种情况下，我们展示了用户不知道图像或音频中包含有害的东西。”

间接提示注入攻击

这篇新论文并不是首次探讨间接提示注入作为攻击LLM的方式。今年5月，德国萨尔兰大学CISPA亥姆霍兹信息安全中心和Sequire Technology的研究人员发表了一份报告，描述了攻击者如何通过将隐藏的提示注入模型在响应用户输入时可能检索的数据中来利用LLM模型。研究人员得出结论：“LLM功能的易扩展性通过自然提示可以实现更直接的攻击策略。

然而，在那种情况下，攻击涉及策略性放置的文本提示。巴格达萨良表示，他们的攻击不同，因为它展示了攻击者如何也将恶意指令注入音频和图像输入中，使它们潜在更难以检测。

涉及操纵音频和图像输入的攻击的另一个区别在于，聊天机器人将在整个对话过程中继续以其受指示的方式响应。例如，引导聊天机器人以哈利·波特式的方式回应，即使用户可能已经停止询问特定的图像或音频样本，它也会继续这样做。

将用户引导至武器化图像或音频片段的潜在方法可能包括将用户通过网络钓鱼或社交工程诱骗至带有有趣图像的网页，或通过带有音频片段的电子邮件。研究人员在他们的论文中写道：“当受害者直接将图像或片段输入到一个孤立的LLM并询问有关它的问题时，模型将受到攻击者注入的提示的引导。”

这项研究很重要，因为许多组织正急于将LLM功能整合到他们的应用程序和操作中。那些设计出方法将有毒的文本、图像和音频提示悄悄带入这些环境的攻击者可能会造成重大损害。

参考来源：https://www.darkreading.com/vulnerabilities-threats/llms-open-manipulation-using-doctored-images-audio

Tags：

上一篇：最大限度地提高企业数据安全：安全数据传输的终极指南

下一篇：加快网络安全事件响应的六个步骤

TikTok出现大量虚假名人照片泄露视频并附带 Temu 推荐码
网络安全
最近，TikTok 上充斥着大量虚假的名人裸照泄露视频，这些视频被用来为 Temu 在线大卖场推送推荐奖励。Temu 是一个在线购物网站，站内向人们提供数百万种价格极其低廉的产品。自 2022 年 9 ...
2025-11-26 20:46【网络安全】
阅读更多
xAI 开发者在 GitHub 泄露 SpaceX、特斯拉及 Twitter/X 专用 API 密钥
网络安全
埃隆·马斯克旗下人工智能公司 xAI 发生重大安全疏漏，其开发者在 GitHub 上意外泄露了一个私有 API 密钥，该密钥在近两个月内持续处于可访问状态。密钥泄露暴露核心模型权限被泄露的凭证可未经授 ...
2025-11-26 18:50【网络安全】
阅读更多
我们如何构建了一个LangGraph代理以确定GitOps漏洞的优先级？
网络安全
译者 | 布加迪审校 | 重楼一款基于LangGraph的开源工具可帮助你确定在特定的Kubernetes环境中最需要优先解决的漏洞。在当今复杂的Kubernetes环境中，管理漏洞并确定优先级很快会 ...
2025-11-26 18:36【网络安全】
阅读更多

友情链接

您现在的位置是：网络安全 >>正文

研究人员发现新型攻击方式，可通过图像和音频操纵大模型

相关文章

TikTok出现大量虚假名人照片泄露视频并附带 Temu 推荐码

xAI 开发者在 GitHub 泄露 SpaceX、特斯拉及 Twitter/X 专用 API 密钥

我们如何构建了一个LangGraph代理以确定GitOps漏洞的优先级？

热门文章

最新文章

友情链接