石门子良新闻网新闻

石门子良新闻网新闻

过河拆桥?为防“爬虫”爬取数据训练AI,百度百科屏蔽了谷歌等友商

项目动态 69686

近日有报道称,爬虫为了防止未经允许的过河谷歌“爬虫”爬取数据用于训练AI,百度百科已经屏蔽了谷歌、拆桥荆州安化新闻网站官网必应等大多数搜索引擎。为防百度啊百度,爬取屏蔽你也学会过河拆桥了?数据商

Dingtalk_20240822133126.jpg

有网友扒出了百度百科的robots.txt文件,发现允许放行的训练白名单中,只有百度搜索、百度百科搜狗搜索、等友中国搜索(Chinaso)、爬虫YYSpider和宜搜搜索(EasouSpider)几个搜索引擎,过河谷歌而谷歌、拆桥必应、为防荆州安化新闻网站官网微软MSN、爬取屏蔽UC的数据商Yisouspider以及其他搜索引擎的爬虫已被列入了禁止名单。

2defed28c86423a61f0e9c66da9daeb3.jpg

众所周知,搜索引擎的工作原理,就是依靠“爬虫”到不同的网站上爬取数据,然后展示在自己的搜索结果中。

百度曾经能搜到很多内容,但百度的“爬虫”过于高频地访问网站爬取数据,会对网站的服务器产生巨大压力,影响到了正常运转,会主动选择禁止百度爬取数据。此外,一些网站为了占据用户心智、避免影响广告收入等原因,也会主动选择屏蔽百度的爬虫,这就导致百度越来越难搜到想要东西了。

3a440ddf557bc7e3c8c6c50082aad9b4.jpg

近几年,AI大模型的快速发展,需要不少用户真实数据进行支撑,而包含百度用户自发编辑的百科内容,绝对是一个不小的数据训练宝库,“人均硕博学历、频繁刚下飞机”的知乎也是同理。但据爆料,知乎已经先百度一步禁止了其他搜索引擎的爬虫,把白名单中的谷歌和必应踢掉,只留下了百度和搜狗。

曾经,百度起家靠的就是爬遍全网的“爬虫”们,把自己爬到了“国服第一”的位置。但现在,想在文心一言上发力的百度却反手禁了其他友商的爬虫,把车门给焊死了,谁都别想上来。

对此,我们也只能感叹到,互联网越来越不互联了。

  • 评论列表

  • 10月23日上午,我市举办“翰墨扬正气·丹青颂清风”廉洁文化美术书法作品展。市委常委、市纪委书记、市监委主任李朝晖出席活动。本次书画作品展围绕“廉洁文化建设”主题,历经2个月的精心筹备,从近200件作

    2026-06-11 17:21
  • 请绕行!郑州南阳路东风路路口预计施工10天发布时间:2016-10-25 10:16 来源:豫都网 我来说说 我要投稿[摘要]今天7月23日)下午,车友反映:南阳路东风路口出现了一个直径一米左右的地面

    2026-06-11 15:31
  • 本报讯 7月22日,由中国农业大学和拼多多共同发起的草莓种植大赛正式开赛。安徽长丰“育苗皇后”巾帼队——艳九天,将对战来自荷兰、江苏、云南和中国农业科学院的4支人工智能队,比拼草莓种植技术。据悉,沈海

    2026-06-11 15:04

留言评论