robots文件(robots文件是什么)

Robots协议简介

Robots(又称“协议爬虫协议”),全称是“网络爬虫排除标准”,通过它来表示是否希望爬虫程序自动获取网站信息的意见。

robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。

格式:

Robots文件的每行记录均由一个字段、一个冒号和一个值组成,标准格式是:

<field>:<optional space><value><optional space><#optional-comment>

其中<optional space>指的是可以加一个空格,但不是必须,通常建议加这个空格,比较容易读。

<#optional-comment>是另一个可选项,用于写些注释。

通常robots文件中的记录通常以User-agent开始,后面加上若干Disallow和Allow行。User-agent指定本记录用于哪个搜索引擎蜘蛛,Disallow是指定禁止抓取的文件或目录,Allow是指定允许抓取的文件或记录。

Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止所有蜘蛛抓取所有的网站文件:

User-agent: * Disallow: /

Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:

User-agent: * Disallow: /ab/ Allow: /ab/cd

$通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:

User-agent: * Allow: .htm$

*通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止所有蜘蛛抓取所有htm文件:

User-agent: * Disallow: /*.htm

Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:

Sitemap: <sitemap_location>

 User-agent: Googlebot-Image  表示这部分对谷歌图片爬虫,禁止或允许谷歌图片爬虫爬取文件
 User-agent: *   表示正对所有浏览器
 Disallow: /appview/   表示禁止爬取网站根目录appview文件夹下面的文件
 Disallow: /login    表示禁止爬取网站下所有以login开头的文件夹和文件
 Disallow: /*?guide*   表示禁止爬取网站中所有包含guide的网址
 Allow: /search-special   表示允许爬取网站根目录下所有以search-special开头的文件夹与文件

本文链接:https://www.zhantian9.com/232796.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2000000@qq.com 举报,一经查实,本站将立刻删除。

发表回复

您的电子邮箱地址不会被公开。