我在上一篇关于谷歌技术SEO的文章中分享了一段这样的经历:在发现一个几乎没有热度和页面权威度的网页没有被收录后,我通过把网页加入到XMLSitemap中这样一个简单的动作,在两天内实现了被收录。
过去也被不少人问过:新网页没有被收录,和旧页面做了优化后迟迟不见搜索引擎同步更新之类的问题,所以在这篇文章,就来说说常见的导致网页不被Google收录的原因和如何去解决它。
内容有点多,所以我用思维图整理了这个话题的重点,方便大家快速、系统地进行了解:
没有收录,就没有排名可言,具体逻辑在后面的第二大点关于谷歌搜索引擎是如何工作的有讲到。
一般我们发现页面没有SEO排名和流量,就会第一时间去检查该页面是否被谷歌收录了。我常用的三种检查收录的方法:
在用命令site:进行搜索查询。如果有返回正确结果,就代表已经收录了。
注意:site指令不会显示所有相关结果。如果你发现存在site命令没有返回正确结果但是GoogleSearchConsole却显示已编入索引的情况,可以参考我在另外一篇文章用site命令查到页面没被收录/索引页数少于谷歌网站管理员工具中报告的页数,怎么办?中关于这个问题的优化思路。
2.GoogleSearchConsole的网址检查工具。见下图:
3.第三方Google索引检查工具。
前面两种方式都只能每次查询一个页面,用第三方工具的好处是可以实现批量查询。Google一下GoogleIndexChecker,可以找到很多在线检查收录的工具。
如果不幸地,你通过以上的方式查出你的页面没有被收录,那希望下面的解决方案能够帮助到你实现页面被Google收录。
知乎上也有不少关于网站内容没有被收录问题的解答,但是很少会讲到搜索引擎是如何工作的。我认为大家很有必要知道,因为当你通过学习搜索引擎工作原理去理解了网页不被收录的本质,你就拥有了能够快速地化解所有不被收录问题的能力。
让网页出现在谷歌搜索结果中需要经历三个阶段:
阶段1:抓取(Crawling)
抓取也经常被称为爬行。谷歌会使用一种自动程序从互联网上发现各类网页,并下载其中的文本、图片和视频,这个程序经常被称作蜘蛛、机器人或爬虫(都是指同一个东西)。
推广经常会看到的两种谷歌蜘蛛:应用在SEO工作上的Googlebot,和应用在广告工作上的GoogleAdsBot。
为了让你的内容显示在Google搜索上,必须首先确保你的网站可以被Google的Googlebot抓取工具抓到。
阶段2:索引(Indexing)
Google会分析网页上的文本、图片和视频文件,并将信息存储在大型数据库Google索引中。
不是所有被抓取的页面都被会索引。
阶段3:呈现搜索结果(Servingsearchresults)
当用户在Google中搜索时,Google会返回与用户查询相关的信息。
不是所有被索引的页面都会有排名。
基于以上,如果你的网站没有被收录,那原因只会是下面两点:
首先来说说因为谷歌看不到从而无法被抓取的6种常见的情况:
robots文件告诉了搜索引擎要抓取哪些网页和不要抓取哪些网页。
检查你的robots文件中disallow部分代码,看看不被收录的网页是不是触发了disallow规则。
比如我们来看anker的robots.txt,它禁止了谷歌去爬URL中带有/coming-soon的网页。也就是说,如果你的网页URL是,那通常(非绝对)谷歌就不会去爬它。
最快的解决方法是在robots.txt文件中删除相关的disallow规则,让谷歌可以抓取该网页。
同时,你也可以通过在Google Search Console中测试robots.txt文件来确保没有问题。
如何测试你的robots.txt文件是否被Google正确解析?
打开Google Search Console,点击左侧的“抓取”菜单,然后点击“robots.txt测试工具”。
在输入框中输入你的网站URL,然后点击“测试”按钮。
检查测试结果是否显示“允许”或“被允许”。如果显示为“不允许”,那么你就需要解决问题,让谷歌可以正确解析你的robots.txt文件。
2.没有合适的页面链接
谷歌蜘蛛需要有一个开始的URL,然后通过页面链接跳转到其他页面进行抓取。
如果你的网站没有合适的页面链接,谷歌蜘蛛就无法抓取你的网站。
你可以通过在网站上添加内部链接(如导航菜单、侧边栏、文章内部链接等)来帮助谷歌蜘蛛抓取你的网页。
3.网站被人工屏蔽
有时候,网站会被谷歌人工屏蔽,导致无法被抓取和收录。
这可能是因为你的网站存在违反谷歌的质量指南或规范的行为,如恶意软件、废品信息、薄内容等。
如果你怀疑自己的网站被屏蔽了,可以尝试在Google Search Console中提交"重新审核请求",向谷歌解释你已经解决了问题,并请求再次审核。
4.网页被noindex标签设置为不被索引
Noindex标签告诉谷歌蜘蛛不要索引该页面。
可能是你在网页的HTML代码中添加了noindex标签,导致该网页不被谷歌收录。
检查你的网页代码,确保没有添加noindex标签。
5.网页被Canonical URL设置为其他页面
Canonical URL标签告诉谷歌蜘蛛该网页是其他页面的副本。
如果你的网页被设置为其他页面的副本,谷歌可能会选择索引其他页面而不是你的网页。
检查你的网页代码,确保没有设置错误的Canonical URL。
6.网页被nofollow标签设置为不被抓取
Nofollow标签告诉谷歌蜘蛛不要抓取该页面。
检查你的网页代码,确保没有添加nofollow标签。
对于以上这些情况,你需要检查并修复对应的问题,以便让谷歌蜘蛛能够抓取和收录你的网页。
还有一些其他常见的原因和解决方法,比如网页加载速度过慢、缺乏独特和有价值的内容、网站被惩罚等。
如果你的网页没有被谷歌收录,你可以通过检查robots.txt文件、添加合适的页面链接、解决人工屏蔽、删除noindex标签、修复错误的Canonical URL和nofollow标签等方法来解决问题。
标签: 搜索引擎优化、 SEO、 谷歌SEO、 谷歌seo优化、本文地址: https://yihaiquanyi.com/article/29e2b06af5d6517e3ef7.html
上一篇:蜘蛛爬取网站内容但是不收录的原因蜘蛛爬取...