搜索引擎怎么对网站进行爬行和抓取

笔者前面给大家介绍过搜索引擎工作原理，可能有些朋友并没有去看，或者是看了但是理解不多。鉴于有朋友问到关于搜索引擎如何对网站进行爬行和抓取的问题，这里笔者就再给大家简要的解释下。

首先要知道，搜索引擎是通过叫做蜘蛛的爬虫去爬行和抓取网页，并且将数据返回到数据库。

在搜索引擎的数据库里面，有很多的种子URL，蜘蛛最开始会通过这些种子URL，展开蜘蛛网式的爬行。理论上说，只要网页存在着链接关系，蜘蛛是可以都爬行到的。

那么搜索引擎蜘蛛指怎么爬行和抓取我们的网站呢？我们网站又不是搜索引擎的种子URL。其实这个问题大家不用担心。目前搜索引擎已经有很多种方式去发现新的页面，比如可以通过其他的类似外链的形势发现，比如说我们主动提交，以及通过统计功能去发现等。

目前做网站优化的朋友，基本都是主动型的，大家都会去主动提交URL，也会适当的去做些外链。所以说，网站页面被蜘蛛发现是没有问题的，问题在于页面收录。

前面说到了蜘蛛发现页面链接，那接下来是怎么爬行和抓取呢？分为了以下几个步骤：

1、提取页面内容。这里包括提取页面里面的链接，并进行去重处理，然后把提取的链接返回到待抓取的链接库；另外就是提取页面的主体内容，这个搜索引擎会根据页面类型，有对应的提取策略。

2、分析页面内容。爬行和抓取后，蜘蛛会对页面主体内容进行初次审核，不符合收录要求的会被丢弃，符合收录的页面会放置到数据库，至于是否及时放出，跟网站权重的高低有关系，这也是搜索引擎的综合判断。

3、再次爬行。蜘蛛把提取的链接返回去之后，可能会继续爬行，也可能要隔断时间再爬行，这要取决于搜索引擎的爬行策略，不同的网站会得到不同的对待。

以上内容就是搜索引擎爬行和抓取页面的基本情况。总之来说，搜索引擎爬行和抓取页面是很简单的，但是网上的页面太多，因此搜索引擎不得不优化调整抓取策略。

但不管策略如何变化，它的爬行和抓取流程基本是不变的。值得我们注意的是，网站权重的高低和网站更新的频率，会直接影响到搜索引擎对于网站的爬行和抓取！

子午笔记