百度爬虫观察

时间:2007-08-08

在这儿交流一下网站被搜索引擎收录的情况,然后和大家交流交流,作为一个菜鸟,我是从菜鸟的角度观察的,有啥幼稚可笑的地方希望大家尽管笑,博朋友们一乐足矣。

非主流大女子网于2007年8月5日正式上线,其实就是把初步改好的网站挂上去。不过注意一下,我所谓的上线并不是把非主流大女子网能正常访问开始算,而是把非主流大女子网和其他baidu收录的网站挂好链接,这算是正式上线,如果没有外链,搜索引擎不知道有这个非主流网的存在,那放一年又有什么意义,谈不上上线。

由于我所挂链接的网站是一个非常活跃的网站,通过对网站日志的观察,几乎是每小时百度和谷歌的爬虫都会来访问,所以,挂上后,应该很快有他们的爬虫到非主流大女子网的。

果然很快,在一个小时内,首先来的爬虫是雅虎的,小弟发现,雅虎的爬虫最近非常的活跃,不过我对他不是很感兴趣,因为雅虎带来的流量是非常有限的,甚至不如搜狗有时候。

在一个小时以后,谷歌的爬虫也来了,而且我每隔一个小时就观察,谷歌的爬虫很活跃,几乎每个小时都在爬啊爬的,最近对谷歌还是比较喜欢的,虽然流量带来的不多,但是每天来两百、三百的ip很容易的,只要做到位,半个月偶就能从谷歌搞来三百以上ip。

最盼望的百度的爬虫这次竟然太弱了,等了3天,谷歌和雅虎收录都体现出来了,百度竟然还没有动静。急。

终于,在2007年8月7日,百度的爬虫终于出现了,果不其然,百度的虫子首先检查的非主流大女子网目录下的robot.txt文件,这个是不存在的,那就是说俺的网站是允许百度的爬虫来的,不过也是废话,在国内,谁会主动的躲开百度呢?除非他精神有问题吧。

2007-08-07 08:53:12 GET /robots.txt - 80 - 222.222.126.113 Baiduspider+(+) - - 404 0 64

在接下来的一个小时内,百度的爬虫扫描了几乎所有的页面(本身也不多,就添加了30多篇),而且百度的爬虫几乎把所有的图片,包括文章内上传的和网页上的小图片,它都爬了一遍。

我现在有个感觉,保持百度爬虫的活跃度,要从这个时刻开始:发现百度的爬虫来了以后,每次新来过以后你要添加几篇文章,让爬虫每次来都有新东西可吃,这样子他会非常勤快的。我相信,他每小时都回来的。

不知道非主流大女子网能否实现我的预期效果,我要测试,我会在站长网随时更新我的观察结果。

谢谢大家。

恭喜你:今天是2007.8.08.你看到这条消息的时候,立即进去抢宝论坛登记信息,抢属于你的¥50.00 寻宝赞助由 中华赏金人才网赞助 请各位未抢到宝的站长,关注中华赏金人才网)还有更多的奖励机会。

以下是百度的爬虫对非主流大女子网扫描的记录片段

2007-08-07 09:04:55 GET /images/banner.gif - 80 - 222.222.126.113 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) AJSTAT_ok_pages=1;+AJSTAT_ok_times=1 304 0 0
2007-08-07 09:04:55 GET /images/bea_03.gif - 80 - 222.222.126.113 Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.1;+SV1) AJSTAT_ok_pages=1;+AJSTAT_ok_times=1

项目推荐

A5创业网 版权所有

返回顶部