如何获得得百度蜘蛛、谷歌机器人和雅虎爬虫的关注

时间：2011-07-20

蜘蛛、机器人和爬虫是你的朋友。如果要进行SEO，你不只需要喜欢它们，同时你真的需要特意地把它们吸引到你的网站上来。

在SEO中，蜘蛛、机器人和爬虫大体上讲的是同一种东西，但是别过分担忧—它们都没有腿和触角。所以，让我们统一用“爬虫(crawler)”这个词来称呼它们。请牢记，有时你需要吸引这些机器人，或者把你的网站伪装成“蜘蛛诱饵”。这都属于同一个原则。那么，什是爬虫，为什么我们要把它请到我的网站上来呢。爬虫是一种程序，或者是一段自动化的脚本(经常被称为 bot，即 robot的缩写)，它在网上不停辛勤奔跑到各个URL上去。爬虫通过它们所浏览的网页上面的链接从一个URL爬到另一个URL。

主流搜索引擎接连不断地将它们的爬虫派出去浏览广阔的互联网。爬虫首先找到各个页面，然后把页面上的文本和代码复制并储存在它们巨大的索引服务器上，这个过程叫做爬行(spidering)。这个巨大的索引，实际上就是一个包含搜索引擎爬虫可以成功访问到的所有网站页面的数据库。该索引被用来作为当你搜索时，可以非常快速地得到一个结果的仓库。当你在一个例如Google的搜索引擎上输入一个搜索词并提交，你实际搜索的是搜索引擎所索引的全部内容，而不是当时互联网的实际内容。当然，网页会变化。有时，网页和网站的变化周期非常短。除此以外，新的网站和网页随时都在快速出现。这也是为什么爬虫始终都在那里不停地爬行，一遍又一遍地浏览网页，并且建立和更新搜索引擎的索引信息。搜索引擎索引库里面的内容是爬虫浏览网页时看到的内容。爬虫所看到的内容可能和一般的访问者看到的大相径庭。如果你想查看爬虫看到的某个网页的内容是什么，你可以使用 IE浏览器来访问它，然后按下Ctrl-A组合键，并浏览复制下来的内容(如果是Mac系统，则可以使用Apple-U组合键)。或者，你可以借助 Google，点击搜索结果下面的“网页快照”链接，就可以看到爬虫最近对这个页面做的快照了。首先也是最重要的一点是，爬虫将它们爬过的每个页面的字和词组合起来。它们索引文本和链接。当你在搜索框中输入一个搜索词时，搜索引擎尽量精确地找出和搜索词组最匹配的网页。不同的搜索引擎有它们独具特色的爬虫，和你所期料的一样，它们并不是都以完全一样的方式来运行。有些爬虫获取页面上全部的内容，而有些可能只是对其中的某些部分感兴趣。大部分爬虫都认为，页面的标题以及靠近页面顶部的内容，比远在页面下面的内容更重要。爬虫在爬行网站时经常遇到障碍并越过这些障碍，比如说，在网站上，没有让它们继续爬行的链接，或者它们遇到了由怪异技术或代码造成的问题。爬虫还可能由于遇到技术阻碍，而进入陷阱，从而使它们不能轻易完成工作。所以，任何SEO工作的第一步的重要部分都是让爬虫更容易发现和爬行你的网站。如果你的网站没有被爬虫爬过，它们也就不会建立关于你网站的搜索引擎索引。如果网页没有在索引当中，搜索者也不会在搜索引擎中找到它，因为搜索引擎认为那个页面根本就不存在。与此同时，搜索者可能找到其他网页，并且很有可能是你的竞争对手的网页。链接和精心设计的站点结构是建立个体网页、网站栏目与其他站内网页和栏目之间关系的桥梁。这将给爬虫提供清晰的爬行道路。

创建sitemap

建立 sitemap 是帮助搜索引擎爬虫抓取网站的最简单的方法之一。sitemap是一个给爬虫提供网站内容 URL清单—至少是网站拥有者希望爬虫看到的地址清单的文件(通常是 XML 格式)。 sitemap 中还可以包括针对每个URL的附加信息，例如指定页面的最近更新时间、更新频率，以及相对于网站上其他内容的重要度(举例来说，首页比“联系我们”页面更为重要)。sitemap 所提供的信息可以帮助搜索引擎爬虫更智能地抓取网站。Google、MSN、Yahoo!以及 Ask 都接受网站拥有者提交 sitemap 的请求。然而需要注意的是，没有任何一家公司保证sitemap所提交的URL都会被抓取或者被索引。 sitemap 对于那些提供不容易被直接浏览到的信息的网站来说十分有用，例如有些站点存储了大量的档案或者信息数据库，这些信息是通过用户检索才能看到的。请记住，爬虫只是根据链接来抓取信息，而通常情况下，这样的信息是缺乏链接指向的。

文章来源：转载请注明地址

如何获得得百度蜘蛛、谷歌机器人和雅虎爬虫的关注

相关文章

浅谈百度爬虫的HTTP状态码返回机制

爬虫有哪些分类？白话说说SEO好朋友爬虫

百度爬虫是什么

百度蜘蛛爬虫的工作原理

影响百度爬虫对网站抓取量的因素