搜查引擎经过一种程序robot(又称spider),智能访问互联网上的网页并失掉网页消息。
robots.txt(一致小写)是一种寄存于网站根目录下的ASCII编码的文本文件,它理论通知网络搜查引擎的遨游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜查引擎的遨游器失掉的,哪些是可以被(遨游器)失掉的。由于一些系统中的URL是大小写敏感的,所以robots.txt的文件名应一致为小写。robots.txt应搁置于网站的根目录下。假构想独自定义搜查引擎的遨游器访问子目录时的行为,那么可以将自定的设置兼并到根目录下的robots.txt,或许经常使用robots元数据。
Robots.txt协定并不是一个规范,而只是商定俗成的,所以并不能保障网站的隐衷。留意Robots.txt是用字符串比拟来确定能否失掉URL,所以目录开端有和没有斜杠"/"这两种示意是不同的URL,也不能用"Disallow:*.gif"这样的通配符。
其余的影响搜查引擎的行为的方法包含经常使用robots元数据:
这个协定也不是一个规范,而只是商定俗成的,理论搜查引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面
robots.txt文件放在哪里?
robots.txt文件应该放在网站根目录下。举例来说,当robots访问一个网站时,首先会审核该网站中能否存在这个文件,假设机器人找到这个文件,它就会依据这个文件的内容,来确定它访问权限的范畴。
标签: Robots、本文地址: https://yihaiquanyi.com/article/b13c36308cf35e04fb7e.html
上一篇:了解用户的需求有几种方法?从了解用户开始...