robot怎么读 (robot.txt在SEO中的作用)

文章编号：268 更新时间：2023-12-28 分类：互联网资讯 阅读次数：次

资讯内容

在启动网站优化的时刻，经常会经常使用robots文件把一些内容不想让蜘蛛抓取，以前写过一篇网站优化robots.TXT文件的运用如今写这篇文章在补充一点点常识!什么是robots.txt文件

搜查引擎经过一种爬虫spider程序(又称搜查蜘蛛、robot、搜查机器人等)，智能收集互联网上的网页并失掉关系消息。

鉴于网络安保与隐衷的思考，搜查引擎遵照robots.txt协定。经过根目录中创立的纯文本文件robots.txt，网站可以申明不想被robots访问的局部。每个网站都可以自主控制网站能否情愿被搜查引擎收录，或许指定搜查引擎只收录指定的内容。当一个搜查引擎的爬虫访问一个站点时，它会首先审核该站点根目录下能否存在robots.txt，假设该文件不存在，那么爬虫就沿着链接抓取，假设存在，爬虫就会依照该文件中的内容来确定访问的范畴。

robots.txt必定搁置在一个站点的根目录下，而且文件名必定所有小写。robots.txt文件的格局

User-agent:定义搜查引擎的类型

Disallow:定义制止搜查引擎收录的地址

Allow:定义准许搜查引擎收录的地址

咱们罕用的搜查引擎类型有:

google蜘蛛:googlebot

百度蜘蛛:baiduspider

yahoo蜘蛛:slurp

alexa蜘蛛:ia_archiver

msn蜘蛛:msnbot

altavista蜘蛛:scooter

lycos蜘蛛:lycos_spider_(t-rex)

alltheweb蜘蛛:fast-webcrawler

inktomi蜘蛛:slurprobots.txt文件的写法

User-agent:*这里的*代表的一切的搜查引擎种类，*是一个通配符

Disallow:/admin/这里定义是制止爬寻admin目录上方的目录

Disallow:/require/这里定义是制止爬寻require目录上方的目录

Disallow:/ABC这里定义是制止爬寻ABC整个目录

Disallow:/cgi-bin/*.htm制止访问/cgi-bin/目录下的一切以".htm"为后缀的URL(蕴含子目录)。

Disallow:/*?*制止访问网站中一切的灵活页面

Disallow:.jpg$制止抓取网页一切的.jpg格局的图片

Disallow:/ab/adc.html制止爬去ab文件夹上方的adc.html一切文件

User-agent:*这里的*代表的一切的搜查引擎种类，*是一个通配符

Allow:/cgi-bin/这里定义是准许爬寻cgi-bin目录上方的目录

Allow:/tmp这里定义是准许爬寻tmp的整个目录

Allow:.htm$仅准许访问以".htm"为后缀的URL。

Allow:.gif$准许抓取网页和gif格局图片robots.txt文件用法举例

例1.制止一切搜查引擎访问网站的任何局部

User-agent:*

Disallow:/

实例剖析:淘宝网的Robots.txt文件

User-agent:Baiduspider

Disallow:/

很显然淘宝不准许百度的机器人访问其网站下其一切的目录。

例2.准许一切的robot访问(或许也可以建一个空文件"/robots.txt"file)

User-agent:*

例3.制止某个搜查引擎的访问

User-agent:BadBot

Disallow:/

例4.准许某个搜查引擎的访问

User-agent:baiduspider

Disallow:User-agent:*Disallow:/

例5.一个便捷例子

在这个例子中，该网站有三个目录对搜查引擎的访问做了限度，即搜查引擎不会访问这三个目录。

须要留意的是对每一个目录必定离开申明，而不要写成"Disallow:/cgi-bin//tmp/"。

User-agent:后的*具备不凡的含意，代表"anyrobot"，所以在该文件中不能有"Disallow:/tmp/*"or"Disallow:*.gif"这样的记载产生。

User-agent:*

Disallow:/cgi-bin/

Disallow:/tmp/

Disallow:/~joe/

Robot不凡参数:

准许Googlebot:

假设您要阻拦除Googlebot以外的一切遨游器访问您的网页，可以经常使用下列语法:

User-agent:

Disallow:/

User-agent:Googlebot

Googlebot追随指向它自己的行，而不是指向一切遨游器的行。

"Allow"裁减名:

Googlebot可识别称为"Allow"的robots.txt规范裁减名。其余搜查引擎的遨游器或许不可识别此裁减名，因此请经常使用您感兴味的其余搜查引擎启动查找。"Allow"行的作用原理齐全与"Disallow"行一样。只要列出您要准许的目录或页面即可。

您也可以同时经常使用"Disallow"和"Allow"。例如，要阻拦子目录中某个页面之外的其余一切页面，可以经常使用下列条目:

User-Agent:Googlebot

Disallow:/folder1/

Allow:/folder1/myfile.html

这些条目将阻拦folder1目录内除myfile.html之外的一切页面。

假设您要阻拦Googlebot并准许Google的另一个遨游器(如Googlebot-Mobile)，可经常使用"Allow"规定准许该遨游器的访问。例如:

User-agent:Googlebot

Disallow:/

User-agent:Googlebot-Mobile

经常使用*号婚配字符序列:

您可经常使用星号(*)来婚配字符序列。例如，要阻拦对一切以private扫尾的子目录的访问，可经常使用下列条目:

User-Agent:Googlebot

Disallow:/private*/

要阻拦对一切蕴含问号(?)的网址的访问，可经常使用下列条目:

User-agent:*

Disallow:/*?*

经常使用$婚配网址的完结字符

您可经常使用$字符指定与网址的完结字符启动婚配。例如，要阻拦以.asp开头的网址，可经常使用下列条目:

User-Agent:Googlebot

Disallow:/*.asp$

您可将此形式婚配与Allow指令配合经常使用。例如，假设?示意一个会话ID，您可扫除一切蕴含该ID的网址，确保Googlebot不会抓取重复的网页。然而，以?开头的网址或许是您要蕴含的网页版本。在此状况下，可对robots.txt文件启动如下设置:

User-agent:*

Allow:/*?$

Disallow:/*?

一行将阻拦蕴含?的网址(详细而言，它将阻拦一切以您的域名扫尾、后接恣意字符串，然后是问号(?)，然后又是恣意字符串的网址)。

Allow:/*?$一行将准许蕴含任何以?开头的网址(详细而言，它将准许蕴含一切以您的域名扫尾、后接恣意字符串，然后是问号(?)，问号之后没有任何字符的网址)。RobotsMeta标签

Robots.txt文件重要是限度整个站点或许目录的搜查引擎访问状况，而RobotsMeta标签则重要是针对一个个详细的页面。和其余的META标签(如经常使用的言语、页面的形容、关键词等)一样，RobotsMeta标签也是放在页面的中，专门用来通知搜查引擎ROBOTS如何抓取该页的内容。

RobotsMeta标签中没有大小写之分，name="Robots"示意一切的搜查引擎，可以针对某个详细搜查引擎写为name="BaiduSpider"。content局部有四个指令选项:index、noindex、follow、nofollow，指令间以","分隔。

index指令通知搜查机器人抓取该页面;

follow指令示意搜查机器人可以沿着该页面上的链接继续抓取下去;

RobotsMeta标签的缺省值是index和follow，只要inktomi除外，关于它，缺省值是index、nofollow。

须要留意的是:上述的robots.txt和RobotsMeta标签限度搜查引擎机器人(ROBOTS)抓取站点内容的方法只是一种规定，须要搜查引擎机器人的配合才行，并不是每个ROBOTS都遵守的。

目前看来，绝大少数的搜查引擎机器人都遵守robots.txt的规定，而关于RobotsMETA标签，目前支持的并不多，然而正在逐渐参与，如驰名搜查引擎GOOGLE就齐全支持，而且GOOGLE还参与了一个指令"archive"，可以限度GOOGLE能否保管网页快照。

标签： Robots、

本文地址： https://yihaiquanyi.com/article/92b658eae5716100f570.html

上一篇：文件应放在哪个盘里文件应放在哪里Robotstx...
下一篇：robots翻译成中文robots经常使用技巧...

robot怎么读 (robot.txt在SEO中的作用)

资讯内容

发表评论

热门文章

站点推荐