关于网站robots.txt文件那些事情

做网站优化的人都知道，robots.txt文件是告诉搜索引擎，那些可以抓取，那些不能抓取，今天，我们来系统讲讲robots.txt文件那些事情。

如何通过Robots协议屏蔽搜索引擎抓取网站内容？

Robots协议（也称为爬虫协议、机器人协议等）的全称是网络爬虫排除标准（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。避免出现网站被爬虫访问，导致耗费大量流量和宽带的问题。

robots.txt文件的参数配置说明

如果有些网站页面访问消耗性能比较高，不希望被搜索引擎抓取，您可以在站点根目录下存放robots.txt文件，屏蔽搜索引擎或者设置搜索引擎可以抓取文件的范围以及规则

robots.txt文件的参数配置说明如下：

Robots协议不是强制协议，通过robots.txt文件能够保护您的一些文件不暴露在搜索引擎之下，从而有效地控制爬虫的抓取路径。但是，部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议，对于不遵守该协议的情况，以下处理方法无效。

操作示例

本部分以下面场景为例，为您展示通过Robots协议屏蔽搜索引擎抓取网站内容的方法，操作示例如下所示。

示例一：执行以下命令，禁止所有搜索引擎访问网站的任何资源。

User-agent: *
Disallow: /

示例二：执行以下命令，允许所有搜索引擎访问任何资源。

User-agent: *
Allow: /

说明：您也可以建一个/robots.txt空文件，将Allow的值设置为/robots.txt。

示例三：执行以下命令，禁止某个搜索引擎（例如Google）访问网站。

User-agent: Googlebot
Disallow: /

示例四：执行以下命令，允许某个搜索引擎（例如Baidu）访问网站。

User-agent: Baiduspider
allow: /

示例五：执行以下命令，禁止所有搜索引擎访问特定目录。

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /data/

示例六：执行以下命令，允许访问特定目录中的部分URL，实现a目录下只有b.htm允许访问。

User-agent: *
Allow: /a/b.htm
Disallow: /a/

关于关于网站robots.txt文件那些事情，我们就简单介绍这些，希望对你有帮助。

子午笔记