自己分析网站日志出现的九种蜘蛛

时间:2008-08-08

这是我在空间IIS日志上分析出来的各大搜索引擎的蜘蛛名称

可能大家除了第一个都经常见。

1.Gigabot/3.0+() 这个搜索了一下,好像是Gigabot搜索引擎爬虫。已被google收购了吗?

2.(compatible;+MSIE+7.0;+Windows+NT+5.1;++Embedded+Web+Browser+from:+(Compatible+Mozilla/4.0(Compatible-EmbeddedWB+14.59+)

这个我一开始以为是蜘蛛,查询了之后,有人说是bsalsa.com开发WINDOWS平台上DELPHI相关软件的,Win主机都会有记录的,不知那位能给解释一下。

3.Mozilla/5.0+(compatible;+YodaoBot/1.0;+)

这个是网易的有道机器人了,不看见日志,我还想不起有道搜索呢。

4.Sogou+web+spider/4.0(+)

这是搜狗的蜘蛛了,每天都扫描我网站()几百次,抓了2,438 个网页

,每天带来的IP平均是3个。SouGou Rank值也不算很低,刚到的43。

扫描量很大,对动态链接网站负担很大。

5.iaskspider/2.0(+)

Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

新浪爱问爬虫 和搜狗差不多,没什么意义。

6.Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+)

这个是中文雅虎,下面的是美国总部的爬虫

)

7.Mediapartners-Google 这个是GG点击广告爬虫

下面的才是主角Google爬虫

8.Mozilla/5.0+(compatible;+Googlebot/2.1;++)

9.Baiduspider+(+)

最后一个是让我最头疼的,每天首页都访问几十次,但内页很少访问。

有人分析说是百度算法问题,导致百度爬虫对相同页面会多次发出请求(尤其是首页)。

10.未在日志上发现的蜘蛛:MSN爬虫 和Alexa排名爬虫

微软是否已经放弃搜索项目了?

search.live.com

这个网址已经打不开了,出现的是中国网通提示不存在的网址,有点让人吃惊.

至于Alexa排名爬虫,我的网站排名还不够,人家是自然不回来的了。

相关文章

A5创业网 版权所有

返回顶部