BLOG

2017-11-05 孙小北

网站优化之robots.txt爬虫协议的写法

Robots.txt即爬虫协议，是搜索引擎蜘蛛进入网站第一个寻找的文件，它告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

当我们网站出现错误页面，或者某些页面不想让蜘蛛爬取时，合理的配置robots协议可以让蜘蛛更高效快捷的爬取到需要抓取的内容。当搜索引擎蜘蛛进入网站，首先查找网站根目录下是否存在robots.txt文件，若存在，则按照该文件的规范抓取内容；若不存在该文件，则按照默认的规则爬取网站中所有网页。因此，本文介绍一些robots语法和常用实例。

网站设置robots.txt的好处：禁止搜索引擎收录部分页面；引导蜘蛛爬网站地图；能够一定程度上保护网站安全；节省流量等。

Robots基本语法：

1、定义搜索引擎：User-agent。

User-agent: *  #所有的搜索引擎
User-agent: Baiduspider #百度蜘蛛
User-agent: Googlebot #谷歌蜘蛛

2、Disallow 禁止爬取。

Disallow: /admin/ #禁止爬取admin文件夹
Disallow: /login.html #禁止爬取登录页面

3、Allow 允许。默认情况下，都是允许的。

例如：禁止admin文件夹下的所有文件，除了.html的网页。如果用Disallow一个一个的禁止，太浪费时间了。

此时用Allow就解决这个问题：

Allow: /admin/.html$ 
Disallow: /admin/

4、$ 结束符。

例：允许所有的以.html结尾的文件。不管前面有多长的URL，只要以.html结尾都允许

Allow: .html$

5、* 通配符符号0或多个任意字符。

例：屏蔽所有的动态URL

User-agent: *
Disallow: /*?*

6、Sitemap 声明网站地图。

Sitemap: http://www.xiaowangyun.com/sitemap.xml

7、#: 注释符。

8、版本号

Robot-version: Version 1.0

注：

1.robots.txt文件存放在网站根目录下。
2.文件名所有字母都必须小写（robots.txt）。
3.User-agent、Disallow、Allow、Sitemap必须是第一个字母大写，后面的字母小写，后面英文字符下的空格。

常用Robots.txt 文件举例

例1、禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

例2、禁止访问某些目录。注意的是对每一个目录必须分开声明。

User-agent: *
Disallow: /admin/
Disallow: /log/
Disallow: /bin/

例3、禁止某个搜索引擎抓取网站上的所有图片

User-agent: *
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$

编辑：孙小北

本文地址： https://www.xiaowangyun.com/wyblog/detail/?id=106

版权归属： www.xiaowangyun.com 转载时请以链接形式注明出处

0 条评论

快来评论

物以类聚

标签云

归档

感谢您的支持，您的每一次打赏都是一次鼓励!

每一次支持，都是不懈的动力

打开支付宝扫一扫，即可进行扫码打赏哦

网站优化之robots.txt爬虫协议的写法

0 条评论

快来评论

物以类聚

最新评论

2017-10-06

2017-10-06

标签云

归档

BLOG

网站优化之robots.txt爬虫协议的写法

0 条评论

快来评论 取消回复

物以类聚

最新评论

2017-10-06

2017-10-06

标签云

归档

快来评论