您现在的位置是：人工智能 >>正文

大语言模型能让暗网中的数据“改邪归正”吗？

人工智能87人已围观

简介在理想的世界中，我们希望各种先进的技术能够在“阳光”下被使用，然而，现实世界从来不是乌托邦。众所周知，“暗网”一直都是各种非法网络活动的庇护所，甚至是滋生罪恶的温床，以窝藏非法匿名网站和支持非法活动( ...

在理想的改邪归正世界中，我们希望各种先进的大语的数技术能够在“阳光”下被使用，然而，言模现实世界从来不是让暗乌托邦。

众所周知，网中“暗网”一直都是改邪归正各种非法网络活动的庇护所，甚至是大语的数滋生罪恶的温床，以窝藏非法匿名网站和支持非法活动(例如交易被盗数据、源码下载言模毒品和武器)而臭名昭著。让暗但是网中，暗网中也存在大量的改邪归正商业数据和个人信息，而其中的大语的数很多数据是在公开网络中难以获取到的。试想一下，言模如果用暗网中的让暗数据训练AI，将会发生什么?网中

近日，韩国科学技术院 (KAIST) 的一个研究团队发布了一款可应用于网络安全领域的源码库大语言模型工具——DarkBERT，这是一个专门从暗网获取数据进行训练的LLM 。DarkBERT并非出于恶意目的而创建，研究人员的目标是创造一种超越现有安全方案的智能化暗网威胁监控工具，帮助威胁研究人员、执法机构和网络安全分析师打击网络威胁。

据了解，此次发布的DarkBERT工具，是香港云服务器一个基于RoBERTa架构的transformer-based编码器模型。该模型目前已经接受了数百万个暗网网页的训练，全面包括了来自地下黑客论坛、诈骗网站和其他非法网站的数据。为了训练DarkBERT ，研究人员会通过Tor网络进入暗网并收集原始数据，然后创建一个可以不断完善的暗网数据资料库，并在两周内将更新后的数据提供给RoBERTa 。

该研究团队表示，即使是从最不寻常的免费模板来源所收集的数据，也可以训练出有用的人工智能模型。尽管一些人可能会担心暗网数据会带有天然的“邪恶”属性，并可能对DarkBERT造成不好的影响，但我们认为，在AI技术迅速发展的今天，需要更加关注如何让这些数据能够在受控和透明的环境下运行，并确保他们产生对社会有利的价值。

为了评估DarkBERT的模板下载有效性，研究人员将其与两个著名的NLP工具BERT和RoBERTa进行了比较，并从以下三个关键网络安全场景评估DarkBERT的实际可用性：

监控暗网论坛潜在的有害线程

监控暗网论坛(通常用于交换非法信息)对于识别潜在的危险线程至关重要。由于人工检查非常耗时，因此自动化过程对安全专家来说不可或缺。评估结果显示，DarkBERT在准确率、召回率和漏报率方面的表现均不同程度优于其他两种工具。

检测包含机密信息的暗网站点

黑客和勒索软件组织会利用暗网创建泄密网站，供各种网络犯罪分子将窃取的亿华云敏感数据(如密码和财务信息)上传到暗网，并以此进行牟利。在研究中，研究人员收集了臭名昭著的勒索软件组织的数据，并分析了发布组织私人数据的勒索软件泄漏站点。结果显示，DarkBERT在识别和分类此类网站方面优于其他两种工具，原因在于它对暗网论坛中所使用的语言有更好的理解。

识别暗网威胁关键字

DarkBERT可以利用BERT家族语言模型的固有特征进行暗语转化，从而准确识别与非法活动相关的关键字，例如暗网上的毒品销售。评估结果显示，当“MDMA”这个词被隐藏在药品销售页面上时，DarkBERT生成了与毒品相关的单词，而其他工具则显示了与毒品无关的一般单词和术语，比如各种职业。

以上评估结果表明，DarkBERT模型对网络罪犯的语言有着非凡的理解能力，并善于发现特定的潜在威胁。它可以帮助安全人员更好地研究暗网，并成功识别和标记数据泄露及勒索软件等网络安全威胁，成为打击网络安全犯罪活动的有力工具。

DarkBERT目前还并不向公众开放，只接受部分将其用于学术研究目的的应用请求。因为像其他LLM模型一样，DarkBERT还是一个尚在发展中的模型，有许多地方还需要通过不断的训练和调整去优化。创新模型的出现将会提高现有网络安全防护体系的能力和性能，但同时，也必须要关注其可能带来的新挑战和问题，例如数据隐私、自主决策等方面的问题，需要得到充分的重视和解决。

参考链接：

https://www.makeuseof.com/what-is-darkbert-ai/。

https://cybersecuritynews.com/darkbert-ai/。

Tags：

上一篇：莉莉丝手游反欺诈的设计与探索

下一篇：面向未来的网络保险

云访问安全代理（CASB）产品选型的16个关键问题
人工智能
云访问安全代理CASB）是一种管理企业端点和云资源之间访问的安全解决方案，可以部署在本地或云端，可以是硬件设备或纯软件，通过代理、反向代理或特定API实现。CASB的应用场景最初，CASB是为了解决影 ...
2025-11-26 18:28【人工智能】
阅读更多
场外助力气象预测+场内存力支持联想算力设施再迎世界级体育盛事
人工智能
赛场一线激烈争夺，赛场后方也在以算力为基础开启紧张的“气象交锋”。在宁波半边山沙滩排球场馆外比赛中，气象预测已经精确到了对每分钟气温、风向、风速的发布。而在9月16日，亚运村开村仪式也凭借算力基础设施 ...
2025-11-26 16:57【人工智能】
阅读更多
Nginx反向代理配置详解(图文全面总结)
人工智能
Nginx是大型架构必备中间件，也是大厂喜欢考察的内容，本篇就全面来详解Nginx反向代理及配置@mikechenNginxNginx是一款高性能的HTTP、和反向代理服务器，广泛应用于Web服务的负 ...
2025-11-26 16:11【人工智能】
阅读更多