玩转荣耀magic4 (玩转robots协议)

文章编号：378 更新时间：2023-12-28 分类：互联网资讯 阅读次数：次

资讯内容

根据文章内容，2013年2月8日，北京市一中级人民法院正式受理了百度诉奇虎360违反Robots协议抓取、复制其网站内容的不正当竞争行为一案。百度声称其Robots文本中设定禁止360爬虫进入，但360的爬虫仍抓取了百度知道、百度百科等网站的内容。在这个索赔案中，百度要求索赔金额高达一亿元。

在此之前，2012年11月初，中国互联网协会牵头，百度、新浪、奇虎360等12家互联网公司共同签署了《互联网搜索引擎服务自律公约》，承诺遵守机器人协议(robots协议)。

文章提到了robots协议的概念和作用。它是搜索引擎抓取网站内容的范围约定，并提供给网站管理员表达意愿的机会。网站管理员可以放置一个名为robots.txt的纯文本文件在网站的根目录下，其中规定了哪些内容允许被搜索引擎抓取，哪些内容不允许被抓取。搜索引擎的爬虫在抓取网站内容之前会先抓取robots.txt文件，据此自动决定是否抓取该网页内容。

文章还介绍了爬虫的工作方式，类比蜘蛛沿着超级链接在网上爬取网页的过程。网站使用robots协议的目的包括保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯等。

最后，文章举了淘宝和京东的例子来说明robots协议的具体规则。比如，淘宝在robots.txt文件中明确禁止百度爬虫抓取网站内容，而京东则限制了某些URL的抓取。

标签： Robots、

本文地址： https://yihaiquanyi.com/article/d0a25f3356db8d8accfd.html

上一篇：说说百度快照怎么发说说百度快照功能下线影...
下一篇：自媒体快速写作技巧自媒体快速写文章和获取...

玩转荣耀magic4 (玩转robots协议)

资讯内容

发表评论

热门文章

站点推荐