搜索引擎蜘蛛是一种自动程序,它沿着从一个网页到另一个网页的链接在互联网上爬行,为内容编制索引并将其添加到数据库中。
蜘蛛会导致虚拟专用数据库负载过高,可能会给访问者带来问题。为了帮助解决这些负载问题,有一种标准化的方法来控制这些爬虫的行为,方法是将名为robots.TXT的文件放在网站的根目录中。
robots.txt文件有特定的形式:
User-agent:googlebot
Disallow:/images
Allow:/images/metadata
crawl-delay:2
sitemap:/sitemap.xml
User-agent行指定了该指令块适用的用户代理,可以使用星号(*)来适用所有用户代理,例如示例中的googlebot。
Disallow指令用于告诉搜索引擎蜘蛛程序不加载的目录或文件,但不能阻止页面出现在搜索结果中。
Allow指令用于指定搜索引擎蜘蛛可以加载的禁止目录中的文件或目录。
crawl-delay指令以秒为单位给出蜘蛛在加载下一页之前将等待的时间。
sitemap指令可以将蜘蛛引导到网站的XML网站地图文件,帮助网站进行索引。
在robots.txt中可以填充尽可能多或很少的用户代理,以控制访问站点的方式。
创建了robots.txt之后,需要对其进行测试,以确保有效性。
标签: Robots、本文地址: https://yihaiquanyi.com/article/b125adef1ce64e6b4893.html
上一篇:微信公众平台小程序注册微信公众平台快速增...