Robots协议简介

Robots(又称“协议爬虫协议”)，全称是“网络爬虫排除标准”，通过它来表示是否希望爬虫程序自动获取网站信息的意见。

robots.txt文件应该放置在网站根目录下。举例来说，当spider访问一个网站（比如 http://www.abc.com）时，首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件，如果 Spider找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

格式：

Robots文件的每行记录均由一个字段、一个冒号和一个值组成，标准格式是：

其中<optional space>指的是可以加一个空格，但不是必须，通常建议加这个空格，比较容易读。

<#optional-comment>是另一个可选项，用于写些注释。

通常robots文件中的记录通常以User-agent开始，后面加上若干Disallow和Allow行。User-agent指定本记录用于哪个搜索引擎蜘蛛，Disallow是指定禁止抓取的文件或目录，Allow是指定允许抓取的文件或记录。

Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止所有蜘蛛抓取所有的网站文件：

User-agent: * Disallow: /

Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用，可以告诉蜘蛛某个目录下，大部分都不抓取，只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件，而只抓取其中cd下的文件：

User-agent: * Disallow: /ab/ Allow: /ab/cd

$通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL：

User-agent: * Allow: .htm$

*通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止所有蜘蛛抓取所有htm文件：

User-agent: * Disallow: /*.htm

Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里，格式为：

Sitemap: <sitemap_location>

 User-agent: Googlebot-Image  表示这部分对谷歌图片爬虫，禁止或允许谷歌图片爬虫爬取文件
 User-agent: *   表示正对所有浏览器
 Disallow: /appview/   表示禁止爬取网站根目录appview文件夹下面的文件
 Disallow: /login    表示禁止爬取网站下所有以login开头的文件夹和文件
 Disallow: /*?guide*   表示禁止爬取网站中所有包含guide的网址
 Allow: /search-special   表示允许爬取网站根目录下所有以search-special开头的文件夹与文件

点击显示全文

本文链接：https://www.zhantian9.com/232796.html