您现在的位置是：人工智能 >>正文

你被大模型DDoS了吗？大模型“DDoS攻击力指数”TOP10榜单出炉

人工智能979人已围观

简介想象一下，你是一个默默耕耘的开源社区管理员，服务器日复一日地为开发者提供支持，突然有一天，流量日志里冒出一堆不速之客——不是黑客，不是爬虫爱好者，而是AI大模型的训练机器人。这些家伙像饿狼一样扑向你的 ...

想象一下，被大P榜你是模型一个默默耕耘的开源社区管理员，服务器日复一日地为开发者提供支持，大模单出突然有一天，击力流量日志里冒出一堆不速之客——不是指数黑客，不是被大P榜爬虫爱好者，而是模型AI大模型的训练机器人。这些家伙像饿狼一样扑向你的大模单出数据，把带宽吃得干干净净，击力甚至连页面加载都卡到怀疑人生。免费模板指数很遗憾，被大P榜这不是模型阴谋论科幻片，而是大模单出广大中小互联网企业/服务正面临的现实威胁。

DDoS新势力：AI爬虫

就在本周一，击力SourceHut——一家开源Git托管服务平台，指数在其状态页面上无奈喊话：“我们持续遭受激进的LLM（大语言模型）爬虫干扰，服务屡屡受阻。”为了自救，他们祭出了名为“Nepenthes”的捕虫器，试图困住这些为AI训练而生的爬虫，建站模板同时还直接封禁了Google Cloud和Microsoft Azure等云服务商的IP——因为这些地方正是爬虫流量的重灾区。

SourceHut坦言，虽然这些措施暂时控制住了局面，但也可能误伤正常用户，体验降级在所难免。

这不是SourceHut第一次被“爬虫DDoS”搞得焦头烂额。早在2022年，他们就曾公开diss谷歌的Go Module Mirror，指责其无节制的流量请求形同“拒绝服务攻击”。而如今，源码下载随着生成式AI热潮席卷全球，类似的故事在互联网的各个角落反复上演。

维修网站iFixit去年7月就曾抱怨Anthropic的Claudebot过度爬取；云托管服务Vercel则在2024年12月披露，单月内OpenAI的GPTbot发起了5.69亿次请求，Anthropic的Claudebot也有3.7亿次，合计占谷歌Googlebot请求量的20%。Diaspora开发者Dennis Schubert甚至爆料，他服务器60天内70%的流量都来自LLM训练机器人。

这些AI爬虫为何如此猖狂？答案很简单：数据饥渴。模板下载生成式AI的崛起让OpenAI、Anthropic 、Google等玩家对互联网内容的渴求达到了前所未有的高度。无论是ChatGPT的对话能力，还是Claude的推理水平，背后都需要海量数据喂养。然而，这种“拿来主义”正在给中小型互联网服务带来沉重负担，甚至演变成一场无形的香港云服务器DDoS危机。

大模型“DDoS攻击力指数”TOP10榜单

为了更直观地呈现这些AI爬虫的“破坏力”，GoUpSec基于近期互联网相关报道与公开数据，整理了一份“大模型DDoS攻击力指数TOP10榜单” 。指数综合了爬虫的请求量、覆盖网站范围、被封禁频率以及对服务影响的严重程度等维度。以下是榜单及简评：

1.Bytespider（字节跳动）

指数：95

点评：字节跳动的爬虫王者，据Cloudflare统计，其请求量和覆盖范围均居首位，为自家AI产品豆包囤粮。亿华云被封禁率也高，其激进作风无人能敌。

2.GPTbot（OpenAI）

指数：90

点评：OpenAI的明星爬虫，单月5.69亿次请求让人咋舌。虽然承诺尊重robots.txt ，但伪装流量和过载投诉仍让它稳坐榜眼。

3.Claudebot（Anthropic）

指数：85

点评：Anthropic的训练先锋，3.7亿次月请求+iFixit百万次单日轰炸，堪称“温柔杀手”。被封禁率稍低，但破坏力不容小觑。

4.Amazonbot（亚马逊）

指数：80

点评：为Alexa索引内容而生，流量虽不及前三，但开发者频频抱怨其过载行为，伪装流量也让人生疑。

5.Google-Extended（谷歌）

指数：75

点评：谷歌专为AI训练设计的爬虫，13.6%的顶级网站封禁率显示其影响力。双重身份（搜索+AI）让网站主投鼠忌器。

6.AppleBot（苹果）

指数：70

点评：苹果为AI功能收集数据的代表，透明度较高，但DoubleVerify数据显示其贡献了2024年16%的无效流量。

7.Meta AI Bot（Meta）

指数：65

点评：Meta的AI野心驱使其爬虫活跃，虽然自称目的明确，但多用途属性让封禁变得复杂。

8.CCBot（Common Crawl）

指数：60

点评：开源数据集的常客，22.1%的顶级网站封禁率说明其影响广泛，但攻击性稍逊商业爬虫。

9.OAI-SearchBot（OpenAI）

指数：55

点评：OpenAI的新兵，甫一亮相就被14家主流媒体封杀，潜力未完全释放。

10.Perplexity AI Bot（Perplexity）

指数：50

点评：AI搜索新贵，伪装成普通浏览器偷偷摸摸爬数据，惹恼了不少网站主。

面对“白嫖” ：躺平还是对抗？

疯狂的AI爬虫其实也有自己的行规，2023年8月，OpenAI率先承诺GPTbot会遵守robots.txt标准，其他厂商纷纷跟进。然而现实却是，承诺归承诺，执行靠自觉。Diaspora的Schubert就发现，他的服务器日志里满是伪装成GPTbot的“山寨爬虫” ，IP来自AWS甚至美国居民网络，显然是恶作剧者趁乱起哄。DoubleVerify的报告更指出，2024下半年因AI爬虫导致的“一般无效流量”（GIVT）激增86%，其中16%直接来自GPTbot、Claudebot等知名玩家。

这背后，是AI公司与网站主之间的博弈。一方面，AI厂商需要数据喂养模型，互联网是天然的“粮仓”；另一方面，网站主却面临带宽挤占、隐私争议甚至版权纠纷的困境。SourceHut封禁云服务商、iFixit更新robots.txt ，都是被动防御的缩影。更棘手的是，像Googlebot这样身兼搜索与AI双重任务的爬虫，让网站主在封禁与曝光之间左右为难（编者：谷歌2023年发布robots.txt的Google-Extended产品令牌，经允许网站运营者单独封锁爬虫而不影响网页检索和排名）。

AI爬虫的“DDoS效应”暴露了生成式AI热潮下的隐忧。对于中小型服务商来说，这不仅是技术挑战，更是生存问题。SourceHut的“Nepenthes”捕虫器、Cloudflare的“一键屏蔽AI爬虫”功能，都是技术社区的反击尝试。但长远看，光靠封禁和对抗显然不是解药。

或许，未来的出路在于平衡——AI公司需要更透明的数据采集政策，甚至通过授权或付费模式与网站主合作；而网站主则需在保护自身权益与拥抱AI生态之间找到折中点。否则，这场爬虫与服务的“猫鼠游戏”，只会让互联网的生态雪上加霜。

你被大模型DDoS了吗？也许下一个喊救命的，就是你常上的那个小众论坛。

Tags：

上一篇：2024年的七项基本大数据优秀实践

下一篇：剖析2023年的浏览器安全挑战

AI对关键基础设施网络安全风险管理的影响
人工智能
人工智能如何帮助保护关键基础设施免受网络攻击针对电网、供水系统和交通网络等关键基础设施的网络攻击可能会造成毁灭性后果。为了保护这些系统，组织越来越多地转向人工智能 (AI) 来帮助保护 ...
2025-11-26 20:14【人工智能】
阅读更多
win10版本1903正式版在哪下载
人工智能
我们在使用win10操作系统的时候，有的小伙伴们想要安装最新的操作系统win101903版本。那么对于这个版本的安装除了通过系统设置中的更新和安全来进行直接升级之外，还可以通过在电脑技术网 Tagxp ...
2025-11-26 18:22【人工智能】
阅读更多
电脑解开苹果ID教程（轻松找回苹果ID密码，解锁手机和应用）
人工智能
在日常使用中，我们经常需要输入苹果ID密码来解锁手机或下载应用程序。然而，有时我们会忘记密码或因其他原因无法正常登录。本文将介绍一种使用电脑解开苹果ID的方法，让您轻松找回密码并解锁手机和应用。1.准 ...
2025-11-26 17:35【人工智能】
阅读更多