Robots协议简介
Robots(又称“协议爬虫协议”),全称是“网络爬虫排除标准”,通过它来表示是否希望爬虫程序自动获取网站信息的意见。
robots.txt文件应该放置在网站根目录下。举例来说,当spider访问一个网站(比如 http://www.abc.com)时,首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件,如果 Spider找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
格式:
Robots文件的每行记录均由一个字段、一个冒号和一个值组成,标准格式是:
<field>:<optional space><value><optional space><#optional-comment>
其中<optional space>指的是可以加一个空格,但不是必须,通常建议加这个空格,比较容易读。
<#optional-comment>是另一个可选项,用于写些注释。
通常robots文件中的记录通常以User-agent开始,后面加上若干Disallow和Allow行。User-agent指定本记录用于哪个搜索引擎蜘蛛,Disallow是指定禁止抓取的文件或目录,Allow是指定允许抓取的文件或记录。
Disallow – 告诉蜘蛛不要抓取某些文件或目录。如下面代码将阻止所有蜘蛛抓取所有的网站文件:
User-agent: * Disallow: /
Allow – 告诉蜘蛛应该抓取某些文件。Allow和Disallow配合使用,可以告诉蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:
User-agent: * Disallow: /ab/ Allow: /ab/cd
$通配符 – 匹配URL结尾的字符。如下面代码将允许蜘蛛访问以.htm为后缀的URL:
User-agent: * Allow: .htm$
*通配符 – 告诉蜘蛛匹配任意一段字符。如下面一段代码将禁止所有蜘蛛抓取所有htm文件:
User-agent: * Disallow: /*.htm
Sitemaps位置 – 告诉蜘蛛你的网站地图在哪里,格式为:
Sitemap: <sitemap_location>
User-agent: Googlebot-Image 表示这部分对谷歌图片爬虫,禁止或允许谷歌图片爬虫爬取文件
User-agent: * 表示正对所有浏览器
Disallow: /appview/ 表示禁止爬取网站根目录appview文件夹下面的文件
Disallow: /login 表示禁止爬取网站下所有以login开头的文件夹和文件
Disallow: /*?guide* 表示禁止爬取网站中所有包含guide的网址
Allow: /search-special 表示允许爬取网站根目录下所有以search-special开头的文件夹与文件
本文链接:https://www.zhantian9.com/232796.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2000000@qq.com 举报,一经查实,本站将立刻删除。