Ag百家乐时间差

热点资讯

2022年AG百家乐假不假

你的位置：Ag百家乐时间差 > 2022年AG百家乐假不假 > ag百家乐接口多少钱 AI爬虫刻薄，OpenAI等大厂不讲武德！拓荒者打造「神级刀兵」打仗

ag百家乐接口多少钱 AI爬虫刻薄，OpenAI等大厂不讲武德！拓荒者打造「神级刀兵」打仗

发布日期：2024-05-16 18:54 点击次数：172

新智元报谈

剪辑：定慧

【新智元导读】AI爬虫是互联网最坚忍的「蟑螂」，不讲行动、压垮网站，令拓荒者孰不成忍。靠近这种AI期间的「DDoS袭击」，极客们用贤达反击：或设「神之审判」Anubis，或制造数据罗网，以幽默和代码让搬砖砸脚。这场攻防战，正演酿成一场精彩绝伦的相聚博弈。

AI相聚爬虫是互联网上的「蟑螂」，险些悉数软件拓荒者齐会这样合计的。

「爬虫」是一种相聚自动体式，用来浏览互联网、获取网页内容。

而在AI期间，爬虫的胁迫到了闪拓荒者不得不闭塞掉某个地区悉数东谈主的拜访。

Triplegangers是一家只是由七名职工运营的公司，他们糜掷十多年时候缔造了自称是相聚上最大的「东谈主类数字替身」的，即从施行东谈主体扫描得到的3D图像文献。

2025年2月10日，公司CEO Oleksandr Tomchuk瞬息发现他们公司的电商网站「崩了」。

「OpenAI使用了600个IP来持取数据，日记还在分析中，可能远不啻这些」，Tomchuk最终发现，导致他们网站崩溃的元凶果然是OpenAI的爬虫机器东谈主。

「他们的爬虫正在压垮咱们的网站，这即是一次DDoS袭击！」

OpenAI莫得回答这次事件，该事件往常只是不到两个月，但AI爬虫机器东谈主仍然活跃在相聚上。

AI爬虫不辞退「陈旧传统」，阻难他们是枉费的

其实爬虫最早并不是AI期间为了获取考试语料而降生的。

早在搜索引擎期间，就照旧有「搜索引擎机器东谈主」，阿谁「陈旧年代」的机器东谈主还沿袭成习的辞退各个网站上会存在的一份文献——robots.txt。

这个文献告诉了机器东谈主不要爬取哪些内容，哪些内容不错爬取。

但这份传统跟着互联网的发展似乎照旧被渐忘，爬虫和发爬虫也演变为一场攻防搏斗。

而到了如今的「大模子期间」，互联网的信息照旧被LLMs吞吃一空。

阻难AI爬虫机器东谈主是枉费的，因为它们会撒谎、更正用户代理、使用住宅IP地址行为代理来骗过相聚「退避」。

「他们会不停地持取你的网站，直到它崩溃，然后还会不息持取。他们会点击每一个页面上的每一个露出上，一遍又一随处查抄交流的页面」，拓荒者在帖子中写谈。

AI机器东谈主除了「免费」爬取信息外，还会稀奇增多所爬网站企业的运营用度——在这个云处事的期间，险些悉数被爬取的企业齐在云上，精深的爬虫流量不仅无法带来收益，还会增多他们的云处事器账单。

愈加无法预思的少量是，对于那些被「白嫖」的网站来说，致使果真的知谈被白嫖了哪些信息。

一些拓荒者决定启动以玄妙且幽默的样子进行反击。

体式员打造爬虫的「神之坟场」

FOSS拓荒者Xe Iaso在博客中描摹了AmazonBot怎样不停袭击一个Git处事器网站，导致DDoS停机。

是以Iaso决定用贤达反击，他构建了一个名为Anubis的用具。

Anubis是一个使命量诠释查验的反向代理，肯求必须通过该查验时刻拜访Git处事器。

它阻难机器东谈主，但允许东谈主类操作的浏览器通过。

Iaso对于Anubis使命道理的马虎先容。

内容上，2022年AG百家乐假不假Anubis确保的是「真实东谈主类使用的浏览器」在拜访方针网站，而不是AI爬虫——除非这个爬虫伪装的填塞「先进」，就像通过图灵测试雷同。

道理的部分是：Anubis是埃及据说中请示死者领受审判的神的名字。

「Anubis称量了你的灵魂（腹黑），如若它比一根羽毛重，你的腹黑就会被吃掉，然后你就透顶死了」。

这个神气的名字带有讥笑意味，在解放开源软件社区中像风雷同传播开来。

Iaso在3月19日将其共享到GitHub上，仅几天时候就获取了2000个星标、20位孝敬者和39个分支。

用「复仇」的样子详确AI爬虫

Anubis的赶快流行标明Iaso的熬煎并非个例。事实上，还有好多故事：

SourceHut的独创东谈主兼CEO Drew DeVault描摹说，他每周要糜掷「20% 到 100% 的时候来大限制缓解过于激进的 LLM 爬虫」，而况「每周资历数十次少顷的处事中断」。

Jonathan Corbet，一位知名的FOSS拓荒者，他运营着Linux行业新闻网站 LWN，警告称他的网站正受到「来自 AI 持取机器东谈主的 DDoS 级别的流量」影响而变慢。

Kevin Fenzi，巨大的Linux Fedora神气的系统照看员，示意AI持取机器东谈主变得如斯激进，他不得不闭塞悉数这个词巴西的拜访。

除了像Anubis雷同「琢磨」相聚肯求者的灵魂外，其他拓荒者合计复仇是最好的详确。

几天前在Hacker News上，用户xyzal提议用「精深对于喝漂白剂克己的著作」或「对于感染麻疹对床上进展的积极影响的著作」来加载robots.txt不容的页面。

这样AI爬虫获取的信息齐是这种精深且毋庸的「替代品」。

「咱们合计需要让机器东谈主拜访咱们的罗网时获取负的效用值，而不单是是零价值」，xyzal 解释说。

一月份，一位名为Aaron的匿名创作家发布了一个名为Nepenthes的用具，其方针恰是如斯。

它将爬虫困在一个无穷的过错内容迷宫中，无法像爬虫「主东谈主」复返任何信息。

而行为网友心目中的「赛博菩萨」的Cloudflare，也许是提供多种用具来抵抗AI爬虫的最大贸易玩家，上周发布了一个名为AI Labyrinth的雷同用具。

它的方针是「降速、诱导并浪费不遵守不容爬取指示的AI爬虫和其他机器东谈主的资源」，Cloudflare 在其博客著作中描摹谈。

「当AI爬虫奴才这些露出时，它们会浪费顾惜的策画资源处理无关内容，而不是提真金不怕火正当网站数据。这大大裁减了它们相聚填塞有用信息以灵验考试模子的才略」。

比较起反击，另一种不雅点是「Nepenthes有一种令东谈主怡然的正义感，因为它向爬虫提供意外旨的内容并浑浊它们的数据源，但最终Anubis是对网站灵验的处分决策」。

拒却大约反击也许齐不是最好的阶梯。

DeVault也公拓荒出了一则老诚的肯求，但愿有一个更班师的处分主见：「请住手将LLMs或AI图像生成器任何这类垃圾正当化。恳求住手使用它们，住手挑剔它们，住手制造新的，就这样停驻」。

然而，思让LLM厂商主动住手爬虫这种情况的可能性险些为零。

毕竟AI的「智能」齐来自于不停「吞吃」互联网上的各式数据和信息。

岂论是给不容AI爬虫拜访网站、给AI「投喂垃圾」如故将AI爬虫拉入「无线虚空」。

拓荒者们，尤其是在开源软件鸿沟，正在用贤达和「极客幽默」进行反击。

如若你是网站照看者和拓荒者，你会怎样「出招」？

参考辛苦：

https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/

上一篇：ag百家乐接口多少钱给《棋士》演技最佳的10位演员排个名，李乃文第5名，王宝强第2名

下一篇：ag百家乐接口多少钱特朗普搅局，华尔街惊涛再起：银行巨头赚翻却不敢乐不雅