你的位置:Ag百家乐时间差 > 2022年AG百家乐假不假 > ag百家乐接口多少钱 AI爬虫刻薄,OpenAI等大厂不讲武德!拓荒者打造「神级刀兵」打仗
发布日期:2024-05-16 18:54 点击次数:170
新智元报谈
剪辑:定慧
【新智元导读】AI爬虫是互联网最坚忍的「蟑螂」,不讲行动、压垮网站,令拓荒者孰不成忍。靠近这种AI期间的「DDoS袭击」,极客们用贤达反击:或设「神之审判」Anubis,或制造数据罗网,以幽默和代码让搬砖砸脚。这场攻防战,正演酿成一场精彩绝伦的相聚博弈。
AI相聚爬虫是互联网上的「 蟑螂」,险些悉数软件拓荒者齐会这样合计的。
「爬虫 」是一种相聚自动体式,用来浏览互联网、获取网页内容。
而在AI期间,爬虫的胁迫到了闪拓荒者不得不闭塞掉某个地区悉数东谈主的拜访。
Triplegangers是一家只是由七名职工运营的公司,他们糜掷十多年时候缔造了自称是相聚上最大的「东谈主类数字替身」的,即从施行东谈主体扫描得到的3D图像文献。
2025年2月10日,公司CEO Oleksandr Tomchuk瞬息发现他们公司的电商网站「崩了」。
「OpenAI使用了600个IP来持取数据,日记还在分析中,可能远不啻这些」,Tomchuk最终发现,导致他们网站崩溃的元凶果然是OpenAI的爬虫机器东谈主。
「他们的爬虫正在压垮咱们的网站,这即是一次DDoS袭击!」
OpenAI莫得回答这次事件,该事件往常只是不到两个月,但AI爬虫机器东谈主仍然活跃在相聚上。
AI爬虫不辞退「陈旧传统」,阻难他们是枉费的
其实爬虫最早并不是AI期间为了获取考试语料而降生的。
早在搜索引擎期间,就照旧有「搜索引擎机器东谈主」,阿谁「陈旧年代」的机器东谈主还沿袭成习的辞退各个网站上会存在的一份文献——robots.txt。
这个文献告诉了机器东谈主不要爬取哪些内容,哪些内容不错爬取。
但这份传统跟着互联网的发展似乎照旧被渐忘,爬虫和发爬虫也演变为一场攻防搏斗。
而到了如今的「大模子期间」,互联网的信息照旧被LLMs吞吃一空。
阻难AI爬虫机器东谈主是枉费的,因为它们会撒谎、更正用户代理、使用住宅IP地址行为代理来骗过相聚「退避」。
「他们会不停地持取你的网站,直到它崩溃,然后还会不息持取。他们会点击每一个页面上的每一个露出上,一遍又一随处查抄交流的页面」,拓荒者在帖子中写谈。
AI机器东谈主除了「免费」爬取信息外,还会稀奇增多所爬网站企业的运营用度——在这个云处事的期间,险些悉数被爬取的企业齐在云上,精深的爬虫流量不仅无法带来收益,还会增多他们的云处事器账单。
愈加无法预思的少量是,对于那些被「白嫖」的网站来说,致使果真的知谈被白嫖了哪些信息。
一些拓荒者决定启动以玄妙且幽默的样子进行反击。
体式员打造爬虫的「神之坟场」
FOSS拓荒者Xe Iaso在博客中描摹了AmazonBot怎样不停袭击一个Git处事器网站,导致DDoS停机。
是以Iaso决定用贤达反击,他构建了一个名为Anubis的用具。
Anubis是一个使命量诠释查验的反向代理,肯求必须通过该查验时刻拜访Git处事器。
它阻难机器东谈主,但允许东谈主类操作的浏览器通过。
Iaso对于Anubis使命道理的马虎先容。
内容上,2022年AG百家乐假不假Anubis确保的是「真实东谈主类使用的浏览器」在拜访方针网站,而不是AI爬虫——除非这个爬虫伪装的填塞「先进」,就像通过图灵测试雷同。
道理的部分是:Anubis是埃及据说中请示死者领受审判的神的名字。
「Anubis称量了你的灵魂(腹黑),如若它比一根羽毛重,你的腹黑就会被吃掉,然后你就透顶死了」。
这个神气的名字带有讥笑意味,在解放开源软件社区中像风雷同传播开来。
Iaso在3月19日将其共享到GitHub上,仅几天时候就获取了2000个星标、20位孝敬者和39个分支。
用「复仇」的样子详确AI爬虫
Anubis的赶快流行标明Iaso的熬煎并非个例。 事实上,还有好多故事:
SourceHut的独创东谈主兼CEO Drew DeVault描摹说,他每周要糜掷「20% 到 100% 的时候来大限制缓解过于激进的 LLM 爬虫」,而况「每周资历数十次少顷的处事中断」。
Jonathan Corbet,一位知名的FOSS拓荒者,他运营着Linux行业新闻网站 LWN,警告称他的网站正受到「来自 AI 持取机器东谈主的 DDoS 级别的流量」影响而变慢。
Kevin Fenzi,巨大的Linux Fedora神气的系统照看员,示意AI持取机器东谈主变得如斯激进,他不得不闭塞悉数这个词巴西的拜访。
除了像Anubis雷同「琢磨」相聚肯求者的灵魂外,其他拓荒者合计复仇是最好的详确。
几天前在Hacker News上,用户xyzal提议用「精深对于喝漂白剂克己的著作」或「对于感染麻疹对床上进展的积极影响的著作」来加载robots.txt不容的页面。
这样AI爬虫获取的信息齐是这种精深且毋庸的「替代品」。
「咱们合计需要让机器东谈主拜访咱们的罗网时获取负的效用值,而不单是是零价值」,xyzal 解释说。
一月份,一位名为Aaron的匿名创作家发布了一个名为Nepenthes的用具,其方针恰是如斯。
它将爬虫困在一个无穷的过错内容迷宫中,无法像爬虫「主东谈主」复返任何信息。
而行为网友心目中的「赛博菩萨」的Cloudflare,也许是提供多种用具来抵抗AI爬虫的最大贸易玩家,上周发布了一个名为AI Labyrinth的雷同用具。
它的方针是「降速、诱导并浪费不遵守不容爬取指示的AI爬虫和其他机器东谈主的资源」,Cloudflare 在其博客著作中描摹谈。
「当AI爬虫奴才这些露出时,它们会浪费顾惜的策画资源处理无关内容,而不是提真金不怕火正当网站数据。这大大裁减了它们相聚填塞有用信息以灵验考试模子的才略」。
比较起反击,另一种不雅点是「Nepenthes有一种令东谈主怡然的正义感,因为它向爬虫提供意外旨的内容并浑浊它们的数据源,但最终Anubis是对网站灵验的处分决策」。
拒却大约反击也许齐不是最好的阶梯。
DeVault也公拓荒出了一则老诚的肯求,但愿有一个更班师的处分主见:「请住手将LLMs或AI图像生成器任何这类垃圾正当化。恳求住手使用它们,住手挑剔它们,住手制造新的,就这样停驻」。
然而,思让LLM厂商主动住手爬虫这种情况的可能性险些为零。
毕竟AI的「智能」齐来自于不停「吞吃」互联网上的各式数据和信息。
岂论是给不容AI爬虫拜访网站、给AI「投喂垃圾」如故将AI爬虫拉入「无线虚空」。
拓荒者们,尤其是在开源软件鸿沟,正在用贤达和「极客幽默」进行反击。
如若你是网站照看者和拓荒者,你会怎样「出招」?
参考辛苦:
https://techcrunch.com/2025/03/27/open-source-devs-are-fighting-ai-crawlers-with-cleverness-and-vengeance/