您现在的位置是:系统运维 >>正文
从“源头”保护数据安全:腾讯安全推出大模型隐私保护脱敏技术
系统运维25人已围观
简介大模型已经被广泛应用在各类场景,帮助人们进行报告摘要、文本翻译、数据分析、业务风控等各项工作,极大地提升了工作效率,但同时公众对于大模型带来的数据泄露的隐忧也从未停止。近日,腾讯安全玄武实验室披露了一 ...
大模型已经被广泛应用在各类场景,源头帮助人们进行报告摘要、从保出文本翻译、护数数据分析 、据安技术业务风控等各项工作,全腾全推极大地提升了工作效率,讯安但同时公众对于大模型带来的模型数据泄露的隐忧也从未停止。
近日 ,隐私腾讯安全玄武实验室披露了一项关于大模型隐私保护的保护安全脱敏与还原(Hide and Seek, HaS)技术,有望帮助大模型产品使用者从本地终端侧防范隐私数据泄露。脱敏
HaS为业内首个支持信息还原的源头自由文本脱敏技术,通过对用户上传给大模型的从保出prompt(提示词)进行隐私信息脱敏,源码库并在大模型返回计算结果后进行恢复,护数该方案兼顾了隐私安全和计算资源消耗 :脱敏与还原算法经过4bit量化后权重文件仅500MB,据安技术可在手机、全腾全推 PC等终端上部署 。
这是业内首个公开发布的、能被大模型用户部署于终端侧的隐私保护脱敏技术。借助这一技术 ,用户可以从“源头”免除使用云端大模型带来的数据泄露方面的担忧。
据悉,这个模型主要适用于典型的NLP任务场景,香港云服务器例如机器翻译 、文本摘要 ,文本润色、阅读理解、文本分类 、情感分析等,其主要的技术难点在于如何解决实体识别与替换 、实体指代消解 、多义词识别、自纠错鲁棒性还原、实体翻译等。此前,不少大模型提供方以及专业安全厂商均在积极进行相关的尝试 ,但目前尚未有理想的源码下载解决方案。
“在大模型应用中提示词是一种自由文本 ,而针对自由文本的隐私保护问题,一种全密态的解决方案是通过安全多方计算(Multi-Party Computation, MPC)协议实现安全推理 。然而,MPC协议在计算成本和通信量上的高需求严重限制了其在大模型应用中的落地 。”腾讯安全玄武实验室高级安全工程师陈昱表示 ,“实际上,多数场景下用户并不需要保护整句的信息不泄漏,建站模板而仅需要保护其中的隐私实体不泄漏 。”玄武实验室经过正则匹配 、近义词向量、BERT NER+CR等方法的不断探索试错后,最终提出了这项技术。
实验表明 ,HaS的数据脱敏处理并不会对任务造成影响。在使用模型进行隐私保护与直接调用大模型相比“分类任务”与“翻译任务”两个场景的性能对比,在使用560M生成式方案下,文本分类任务的性能不仅没有下降,反而增加了0.14%;在1.7B标签式方案下 ,免费模板机器翻译任务性能仅下降了0.85%。
腾讯安全玄武实验室将上述研究发现以论文形式发布,更多技术细节可参考玄武官方博客(见文章最后) 。
“一些企业或者个人用户开发者通过部署本地大模型来规避隐私数据泄露,但这要求一定的技术门槛,对于重度隐私需求的用户来说,通过本地安全模型/算法来实现数据保护 ,可能是更可行的办法。”玄武实验室正在逐步丰富这一模型的应用覆盖面,并完善其部署和交付方式,以供企业用户和个人用户在未来能够便捷使用 。亿华云
数据如今在社会生活生产中扮演越来越重要的角色,数据安全也始终是产业数字化进程的核心议题 。腾讯安全持续致力于解决数据安全问题,护航各行各业产业升级 。
详细技术报告地址 :
https://xlab.tencent.com/cn/2023/12/05/hide_and_seek/
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“商站动力”。http://www.noorid.com/html/39b799953.html
相关文章
企业如何准备应对勒索软件攻击
系统运维多云备份服务商HYCU公司与Actual TechMedia公司日前合作发布的勒索软件准备状况报告收集了旨在帮助技术、金融和安全领导者更好地准备和修复勒索软件攻击的详细数 ...
【系统运维】
阅读更多机器学习创造新的攻击面,需要专门的防御
系统运维由于几乎每个行业的企业都将人工智能(AI)技术集成到他们的硬件和软件产品中,机器学习(ML)输入和输出正变得越来越广泛地可供客户使用。这自然引起了恶意行为者的注意。HiddenLayer的首席执行官 ...
【系统运维】
阅读更多Google开源Paranoid:用于识别各种加密产品中的漏洞
系统运维Google 近日宣布开源 Paranoid,该项目主要用于识别各种加密产品中的漏洞。该库支持测试数字签名、通用伪随机数和公钥等多种类型的加密产品,以识别由编程错误或使用弱专有随机数生成器引起的问题 ...
【系统运维】
阅读更多