百度为什么抓取被robots.txt禁止的文件

时间：2012-11-27

前段时间互联网界对360不遵守robots.txt文件进行了群批，百度也强调自己是遵守robots.txt协议的。但从最近对某网站的分析来看，百度对robots.txt文件的遵守很不彻底。11月15号，我写了一篇文章各搜索蜘蛛对robots.txt文件改动的反应，因为在11月13号左右，我在我从事的网站上放了robots.txt文件，明确禁止搜索引擎抓取一些目录。robots.txt文件放上去后，各搜索引擎都有所反应，包括百度。

这是我的robots.txt文截图：

一个礼拜多的时间过去了，发现百度搜索结果中仍有大量被禁止的目录。查看11月21号的日志，发现其它搜索引擎都已经完全不再抓取被禁止的目录，而百度仍对禁止目录有大量抓取。

百度抓取robots.txt禁止目录

很明显的看到，只有百度在抓取禁止目录

事实表明，在robots.txt文件禁止某些目录7天后，其它搜索引擎不在对禁止目录进行抓取，而百度对这些目录的抓取仍在进行。那么是不是可以就这样说百度是不遵守robots.txt协议的。答案是暂时不能。先要看看百度为什么没遵守。从13号设置robots.txt文件开始，11月13号、11月14号、11月15号的日志看，百度只在14号访问了robots.txt文件两次，(这里要声明下，我这个网站是一个收录3万，快照天天更新的网站)

11月13号各搜索蜘蛛对robots.txt文件的抓取

11月14号各搜索蜘蛛对robots.txt文件的抓取，百度抓取了2次robots.txt

11月15号各搜索蜘蛛对robots.txt文件的抓取

11月21号各搜索蜘蛛对robots.txt文件的抓取

天啊，你会发现百度作为中国最大的搜索引擎，居然很少查看网站的robots.txt文件。这也是百度迟迟未按robots.txt文件要求继续抓取禁止目录的原因了。大家都知道robots.txt文件是站长们屏蔽网站敏感信息被索引的重要手段。百度居然不能及时的查看网站的对自己蜘蛛的授权，到底是技术上的失误，还是刻意为之。

如果是技术上的失误，那可能是百度设置的robots.txt访问时间间隔太长。又可能是百度访问robots.txt文件时发现是304状态(网页示变更)而未重新抓取。时间间隔长现在是肯定的了。因为304而未抓取已经排除，因为在网站日志的蜘蛛304表里，未发现robos.txt踪影。不及时抓取robots.txt按道理百度这样大的搜索巨头不太可能犯这种低级错误, 难道它是因为信息更新成本太高，不得不降低反应速度?又或者以阴谋论的角度想，它想打擦边球，”不小心”抓取到比别的搜索引擎更多的结果?恐怕只有百度自己知道。

作为站长，对百度这种不给力的行径，只有是尽量保持网站结构的稳定，包括在网站策划之初就确定好网站的SEO结构，网站运营中如果有对结构的调整，除了用robos.txt体现外，还要用百度的站长工具中的删除网页等工具提交对禁止收录文件的删除申请。