常见的robots.TXT文件用法实例:
User-agent:*
Disallow:/
这是禁止所有目录和文件被所有搜索引擎收录。网站还没上线时,有的会先屏蔽所有蜘蛛抓取。
2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)
User-agent:*
这是允许所有搜索引擎抓取网站的任何部分,既然是允许所有文件被抓取,可以不用创建robtos.txt文件,即默认全部允许抓取。
3、禁止spider抓取特定目录
User-agent:*
Disallow:/a/
Disallow:/b/
Disallow:/c/
这是禁止所有的spider抓取a、b、c目录。这个规则我们最常用到,比如网站的程序后台、程序目录等都可以禁止spider抓取,以减少spider无意义的浪费我们的空间资源。
4、禁止spider抓取搜索结果页面
User-agent:*
Disallow:/so_article?*
如果你网站的搜索结果页面url格式如:/so_article?keyword=搜索关键字,则按以上格式进行屏蔽,注意最后带了一个星号*,代表屏蔽so_article?带头的所有URL。
对于大部分网站,常用的就是以上4种情况。
标签: Robots、本文地址: https://yihaiquanyi.com/article/9d70f92aa713d8c15fb8.html
上一篇:抖音背后运营是什么抖音背后运营推广全攻略...