百度双旦礼遇季 (BaiDuSpider百度蜘蛛占用流量-robots.txt设置)

文章编号:396 更新时间:2023-12-28 分类:互联网资讯 阅读次数:

资讯内容

注:以下BaiDuSpider等于百度蜘蛛、Googlebot等于google蜘蛛、SogouSpider等于搜狗蜘蛛

百度双旦礼遇季BaiDuSpider百度蜘

一、问题

因某些原因,搜索引擎蜘蛛抓取网站占用很大流量,如图:

网站访问日志也可看见很多蜘蛛爬行记录。

如果是正常的搜索引擎蜘蛛访问,不建议对蜘蛛进行禁止,否则网站在百度等搜索引擎中的收录和排名将会丢失,造成客户流失等损失。可以优先考虑升级虚拟主机型号以获得更多的流量或升级为云服务器(不限流量)。

二、认识、学习

我们知道,搜索引擎都遵守互联网robots协议,可通过robots.txt来进行制。先对robots.txt一些实例说明,然后根据面网站情况进行规则设置,通过上面截图可以看出BaiDuSpider占用流量非大,首先在网站跟目录下面建立一个robots.txt文件

例1.禁止所有搜索引擎访问网站的任何部分

User-agent:*
Disallow:/

例2.允许所有的robot访问(或者也可以建一个空文件/robots.txtfile)

User-agent:*

例3.禁止某个搜索引擎的访问(禁止BaiDuSpider)

User-agent:BaiDuSpider
Disallow:/

例4.允许某个搜索引擎的访问

User-agent:Baiduspider

例5.禁止二个目录搜索引擎访问

User-agent:*
Disallow:/admin/
Disallow:/install/

例6.仅允许Baiduspider以及Googlebot访问

User-agent:Baiduspider
User-agent:Googlebot
User-agent:*
Disallow:/

例7.禁止百度搜索引擎抓取你网站上的所有图片

User-agent:Baiduspider
Disallow:/*.jpg$
Disallow:/*.jpeg$
Disallow:/*.gif$
Disallow:/*.png$
Disallow:/*.bmp$

三、问题解决(规则设置)

根据以上实例,经过分析网站日志,主要是百度抓取图片占用了流量,他还有两个目录也不希望搜索引擎抓取,设置规则如下解决:

User-agent:*
Disallow:/admin/
Disallow:/install/
User-agent:Baiduspider
Disallow:/*.jpg$
Disallow:/*.jpeg$
Disallow:/*.gif$
Disallow:/*.png$
Disallow:/*.bmp$

因为搜索引擎索引数据库的更新需要时间。虽然蜘蛛已经停止访问您网站上的网页,但百度搜索引擎数据库中已经建立的网页索引信息,可能需要数月时间才会清除。也就是说设置限制之后日志还会看见蜘蛛爬行,逐渐会降低抓取直到完全生效,这种问题会持续一段时间。如果您需要尽快屏蔽,访问以下帮助中心进行投诉,搜索引擎就会较快处理。

如果设置后无效(或部分蜘蛛不遵守robots协议,可以用:使用伪静态规则拦截蜘蛛访问http://www.west.cn/faq/list.asp?unid=662)

四、Baiduspider抓取次数太多造成的带宽堵塞,影响网站正常访问如何解决?

访问百度站长工具http://zhanzhang.baidu.com/,注册用户名登录,先添加网站通过验证。

然后到网页抓取》抓取频次》当前抓取频次过大如何解决?提示内容

您可以按照如下方法依次进行排查及解决频次过大问题:

1、如果您觉得Baiduspider抓取

标签: Baiduspider

本文地址: https://yihaiquanyi.com/article/ed3508d10d24376db426.html

上一篇:知乎运营详解怎么做知乎运营详解运营必看...
下一篇:抖音系统化运营怎么弄抖音系统化运营如何零...

发表评论