1.每当用户试图访问某个不存在的url时,主机都会在日志中记载404失误(不可找到文件)。每当搜查蜘蛛来寻觅并不存在的robots.txt文件时,主机也将在日志中记载一条404失误,所以你应该在网站中参与一个robots.txt。
2.网站治理员必定使蜘蛛程序远离某些主机上的目录--保障主机功能。比如:大少数网站主机都有程序贮存在"cgi-bin"目录下,因此在robots.txt文件中参与"Disallow:/cgi-bin"是个好主意,这样能够防止将一切程序言件被蜘蛛索引,可以节俭主机资源。普通网站中不须要蜘蛛抓取的文件有:后盾治理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
上方是VeryCMS里的robots.txt文件:
User-agent:*
Disallow:/admin/后盾治理文件
Disallow:/require/程序言件
Disallow:/attachment/附件
Disallow:/images/图片
Disallow:/data/数据库文件
Disallow:/template/模板文件
Disallow:/css/样式表文件
Disallow:/lang/编码文件
Disallow:/script/脚本文件
3.假设你的网站是灵活网页,并且你为这些灵活网页创立了静态正本,以供搜查蜘蛛更容易抓取。那么你须要在robots.txt文件里设置防止灵活网页被蜘蛛索引,以保障这些网页不会被视为含重复内容。
4.robots.txt文件里还可以间接包含在sitemap文件的链接。就像这样:
Sitemap:http://www.***.com/sitemap.xml
目前对此示意允许的搜查引擎公司有Google,Yahoo,AskandMSN。而中文搜查引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜查引擎的站短工具或许相似的站长局部,去提交自己的sitemap文件,搜查引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap门路,接着抓取其中相链接的网页。
5.正当经常使用robots.txt文件还能防止访问时出错。比如,不能让搜查者间接进入购物车页面。由于没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜查者间接进入购物车页面。
标签: Robots、本文地址: https://yihaiquanyi.com/article/1666319eac2d2056fed7.html
上一篇:robot怎么读robottxt在SEO中的作用...