标签归档：robots

关于网站robots.txt文件那些事情

做网站优化的人都知道，robots.txt文件是告诉搜索引擎，那些可以抓取，那些不能抓取，今天，我们来系统讲讲robots.txt文件那些事情。

如何通过Robots协议屏蔽搜索引擎抓取网站内容？

Robots协议（也称为爬虫协议、机器人协议等）的全称是网络爬虫排除标准（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。避免出现网站被爬虫访问，导致耗费大量流量和宽带的问题。

robots.txt文件的参数配置说明

如果有些网站页面访问消耗性能比较高，不希望被搜索引擎抓取，您可以在站点根目录下存放robots.txt文件，屏蔽搜索引擎或者设置搜索引擎可以抓取文件的范围以及规则

robots.txt文件的参数配置说明如下：

Robots协议不是强制协议，通过robots.txt文件能够保护您的一些文件不暴露在搜索引擎之下，从而有效地控制爬虫的抓取路径。但是，部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议，对于不遵守该协议的情况，以下处理方法无效。

操作示例

本部分以下面场景为例，为您展示通过Robots协议屏蔽搜索引擎抓取网站内容的方法，操作示例如下所示。

示例一：执行以下命令，禁止所有搜索引擎访问网站的任何资源。

User-agent: *
Disallow: /

示例二：执行以下命令，允许所有搜索引擎访问任何资源。

User-agent: *
Allow: /

说明：您也可以建一个/robots.txt空文件，将Allow的值设置为/robots.txt。

示例三：执行以下命令，禁止某个搜索引擎（例如Google）访问网站。

User-agent: Googlebot
Disallow: /

示例四：执行以下命令，允许某个搜索引擎（例如Baidu）访问网站。

User-agent: Baiduspider
allow: /

示例五：执行以下命令，禁止所有搜索引擎访问特定目录。

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/

示例六：执行以下命令，允许访问特定目录中的部分URL，实现a目录下只有b.htm允许访问。

User-agent: *
Allow: /a/b.htm
Disallow: /a/

关于关于网站robots.txt文件那些事情，我们就简单介绍这些，希望对你有帮助。

为什么robots禁止抓取了但搜索引擎还会抓取

发表评论

为什么robots禁止抓取了但搜索引擎还会抓取？严格来说robots限制蜘蛛抓取，搜索引擎也是会遵循这个规则的，现在百度搜索引擎对于robots的态度是，依然会抓取，但是不会保留百度快照。其他搜索引擎基本也是同样的。

在百度百科里面有这么一条：robots协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。

设置robots禁止抓取主要是基于两个原因：第一个是新站调试期间，不想让搜索引擎抓取；第二个就是网站下某些目录页面，不想被搜索引擎抓取。对于第一种，如果完全不想让搜索引擎抓取，你建议在本地测试，或者是采用其他的域名绑定线上测试，测试没有问题之后再绑定目标域名。

至于第二种，其实是没有办法的，因为如果搜索引擎不按照robots规则，那我们似乎也没有什么好的办法阻止，如果搜索引擎收录了这些限制抓取的页面，只能去投诉快照了。

但是大家也要注意，搜索引擎抓取robots文件限制的页面，这对于网站来说并不会造成很大的影响。原则上说这不会浪费抓取份额，除了网站首页以后，也很少发现会收录robots限制抓取的内页。所以，大家也不要太过担心，搜索引擎想抓就让它去抓，如果收录了，就去投诉申请删除。

另外有朋友担心安全的问题，搜索引擎蜘蛛只是一个工具，它本身是没有恶意的，只是会按照规则去工作。大家也不要把搜索引擎想得那么坏，如果网站没有敏感的内容，在不影响到网站优化的情况下，让蜘蛛去抓取也没有什么损失。大家莫要惊慌哦！

关于为什么robots禁止抓取了但搜索引擎还会抓取的问题，本文就简单的说这么多。总之来说，理论上搜索引擎还是会遵循robots规则的，不会胡乱收录这些禁止收录的页面。

网站一定要添加robots文件吗

发表评论

网站一定要添加robots文件吗？robots文件的作用是告诉搜索引擎，网站有哪些文件和页面是可以抓取的，哪些是不允许抓取的。通常搜索引擎都会遵守robots协议。

所以，对于网站来说尽量添加robots文件，因为网站少不了有js及css文件，还有就是网站的后台链接等，这些都不需要被索引，我们可以通过设置robots文件来禁止搜索引擎抓取，从而节省了蜘蛛抓取的份额。

另外大家要注意，搜索引擎抓取网站的时候，首先会去看网站是否有robots文件。相关案例显示，如果网站设置了robots文件，并且允许抓取的话，网站收录比没有设置robots文件的要快。

所以大家尽量都是添加下robots文件，这对网站来说百利而无一害，当然大家要注意robots的写法，不要设置错误导致某些页面不能被抓取到。

关于robots文件的问题，笔者就简要的说这么多。总之来说，不管是什么类型的网站，都尽量去添加robots文件，通过robots文件可以引导蜘蛛抓取，从而对网站优化有帮助。

robots需要禁止后台目录吗

发表评论

robots需要禁止后台目录吗？在设置robots的时候不太确定是否要禁止后台目录，是否需要禁止呢？

要知道这个问题，首先得搞清楚robots的意思和作用，robots的作用主要是告诉搜索引擎哪些页面可以抓取收录，哪些页面不要抓取收录。

对于网站后台，显然是不需要搜索引擎抓取和收录的，所以可以在robots设置禁止对网站后台的抓取。

通常来说，只要能打开的页面链接搜索引擎蜘蛛都会去抓取，而蜘蛛抓取对于单个网站来说是有配额的，如果抓取后台的次数多了，就浪费了对其他有用页面的抓取，从这个方面来说，后台的页面也是需要禁止抓取的。

关于robots是否需要禁止后台目录的问题，笔者就简要的说这么多。总之来说，这个问题很简单。因为网站后台对于普通客户来说没有意义，为了解决蜘蛛抓取次数，所以应该禁止搜索引擎对网站后台的抓取。

robots屏蔽404页面对排名有影响吗

发表评论

robots屏蔽404页面对排名有影响吗？robots屏蔽404页面对排名是没有影响的，原则上搜索引擎会严格遵循规则，robots文件屏蔽了页面不会再去抓取。

另外，robots屏蔽404页面跟关键词排名没有联系，所以请放心。

网站由于各种原因可能会出现404页面，如果404页面的数量比较多，那就想要汇集起来去提交死链。通常搜索引擎对于死链的处理速度还是挺快的，只要处理得及时，基本不会影响到排名。

但如果网站本身有大量的404页面，但有没有处理，那就会对给网站有不好的影响了。

而robots文件只是告诉搜索引擎哪些页面不要去抓取，原则上robots文件里面不需要再屏蔽404页面的，当然如果做了也不会有啥不好的影响。

总之来说，robots文件是否屏蔽404页面都不会影响到网站的排名。但切记，如果网站出现了大量的404页面，一定要及时处理！

修改ROBOTS.txt会影响蜘蛛爬取吗

发表评论

修改网站的robots.txt是否会影响蜘蛛爬取？通常情况下搜索引擎会遵守robots文件，如果我们在robots.txt文件里面对某些页面做了限制，那么搜索引擎蜘蛛是不会去抓取的，也就是说robots.txt文件会影响到蜘蛛抓取。对于robots.txt和蜘蛛爬取，有以下两个方面的问题大家需要注意。

一、robots.txt限制整站抓取，搜索引擎还是会收录首页

很多朋友提到明明自己的网站，在robots.txt文件里限制了所有搜索引擎蜘蛛抓取，但是百度还是收录了首页。这种情况是正常的，但是大家要注意的是，虽然蜘蛛抓取了页面，也收录了，但是百度快照里面是没有内容的，如果我们去点击百度快照，会跳转至百度搜索资源平台。也就是说，虽然蜘蛛抓取了，但是并没有保存页面文件。

二、搜索引擎蜘蛛对robots.txt有反应时间

我们在正式开放蜘蛛抓取之前，通常会设置robots.txt文件，限制所有搜索引擎蜘蛛抓取。但是有朋友反映，在放开了robots.txt文件限制以后，蜘蛛还是不过来抓取，这其实就是搜索引擎蜘蛛对robots.txt文件的反应需要时间，这个时间通常是一个星期以内。

我们再回到robots.txt和蜘蛛爬取上面来，总体上搜索引擎蜘蛛会严格遵守robots.txt文件协议，对于robots.txt文件限制的页面，蜘蛛不糊去抓取。

所有对于那些没有搜索需求的页面，我们可以在robots.txt文件里面进行设置，这样就可以集中抓取频次和防止权重分散。当然，我们可以把robots.txt文件和nofollow标签结合起来使用。

另外大家要注意蜘蛛对robots.txt文件的反映时间，不要因为几天蜘蛛没有来抓取，就怀疑是网站其他地方出现了问题，应该耐心等待。

关于robots.txt和蜘蛛爬取的问题，笔者在本文简要的给大家做了说明。总之来说，修改网站的robots.txt会影响蜘蛛爬取，至于是减少抓取量还是增加抓取量，这需要具体分析对robots.txt做了怎样的修改。

另外robots.txt里面还可以设置网站地图，这对于网站页面收录有帮助。

robots.txt文件放在哪里

发表评论

robots.txt文件放在哪里?之前网站没有设置robots.txt文件，听大神说这个robots.txt文件很重要，所以就做了一个，但是不知道robots.txt文件应该放在哪个位置。

robots.txt文件应该放在网站的根目录。如果大家对于根目录不太理解，那么就可以根据URL来判断，比如说网站域名为www.webziv.com，那么robots文件打开的URL链接应该是www.webziv.com/robots.txt这样。

其实这个问题直接让技术去处理就行了，如果实在没有技术，那就去看下网站程序的安装目录是哪个，通常来说网站程序源文件的哪个文件夹，就是放置robots.txt文件的地方，这里也就是网站根目录。

网站误封了robots怎么办

发表评论

网站误封了robots怎么办？以下是百度搜索官方回答。

1、修改robots封禁为允许，然后到百度搜索资源平台检测并更新robots。

2、在百度搜索资源平台抓取检测，此时显示抓取失败，没关系，多点击抓取几次，触发蜘蛛抓取站点。

3、在百度搜索资源平台后台抓取频次，申请抓取频次上调。

4、前往平台反馈中心，反馈是因为误操作导致了这种情况的发生。

5、通过百度搜索资源平台主动提交资源，加快百度的抓取速度。

以上就是百度搜索对于网站误封了robots的操作建议。在这里简单说下自己的看法，有些细节可能是很多朋友没有注意到的，这里可以参考：

1、要养成检查robots文件的习惯，尽量避免出现问题。

2、如果robots出现了问题，在修改完成后记得去百度搜索资源平台进行提交更新。

3、百度搜索对于robots的反应可能不会及时，大家要做好思想准备，多提交几次。

4、向百度反馈，这种方式可能有很多朋友会忽略！

5、申请抓取频次上调，这个之前子午SEO也没有太过注意，既然百度方面都这么说了，大家可以试试。

6、主动提交资源，大家不要以为robots有问题就不主动提交，在修改robots之后再主动提交，有利于蜘蛛快速做出响应。这个问题相信很多朋友也会忽略，因为都认为蜘蛛不会来抓取！

本文重点介绍了网站robots操作失误应该怎么处理。给出了百度搜索方面的专业回答，同时也简单提醒了几个方面。

robots对于网站的影响很大，在网站正式上线之前，请大家务必要去检查robots是否有设置上的错误，一经发现及时改正。如果因为疏忽导致robots错误，也不要惊慌，及时去解决即可！

子午笔记

子午笔记专注数据驱动的互联网营销和运营，致力于提供前沿的网络营销、自媒体运营、电商平台以及创业故事等文章，微信：zhibomt，QQ：2940920334。

标签归档：robots

关于网站robots.txt文件那些事情

为什么robots禁止抓取了但搜索引擎还会抓取

网站一定要添加robots文件吗

robots需要禁止后台目录吗

robots屏蔽404页面对排名有影响吗

修改ROBOTS.txt会影响蜘蛛爬取吗

robots.txt文件放在哪里

网站误封了robots怎么办