根据文章内容,2013年2月8日,北京市一中级人民法院正式受理了百度诉奇虎360违反Robots协议抓取、复制其网站内容的不正当竞争行为一案。百度声称其Robots文本中设定禁止360爬虫进入,但360的爬虫仍抓取了百度知道、百度百科等网站的内容。在这个索赔案中,百度要求索赔金额高达一亿元。
在此之前,2012年11月初,中国互联网协会牵头,百度、新浪、奇虎360等12家互联网公司共同签署了《互联网搜索引擎服务自律公约》,承诺遵守机器人协议(robots协议)。
文章提到了robots协议的概念和作用。它是搜索引擎抓取网站内容的范围约定,并提供给网站管理员表达意愿的机会。网站管理员可以放置一个名为robots.txt的纯文本文件在网站的根目录下,其中规定了哪些内容允许被搜索引擎抓取,哪些内容不允许被抓取。搜索引擎的爬虫在抓取网站内容之前会先抓取robots.txt文件,据此自动决定是否抓取该网页内容。
文章还介绍了爬虫的工作方式,类比蜘蛛沿着超级链接在网上爬取网页的过程。网站使用robots协议的目的包括保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯等。
最后,文章举了淘宝和京东的例子来说明robots协议的具体规则。比如,淘宝在robots.txt文件中明确禁止百度爬虫抓取网站内容,而京东则限制了某些URL的抓取。
标签: Robots、本文地址: https://yihaiquanyi.com/article/d0a25f3356db8d8accfd.html
上一篇:说说百度快照怎么发说说百度快照功能下线影...