常见的网站类型有哪些 (常见的网站)

文章编号:8866 更新时间:2024-01-04 分类:互联网资讯 阅读次数:

资讯内容

我在上一篇关于谷歌技术SEO的文章中分享了一段这样的经历:在发现一个几乎没有热度和页面权威度的网页没有被收录后,我通过把网页加入到XMLSitemap中这样一个简单的动作,在两天内实现了被收录。

常见的网站类型有哪些常见的网站

过去也被不少人问过:新网页没有被收录,和旧页面做了优化后迟迟不见搜索引擎同步更新之类的问题,所以在这篇文章,就来说说常见的导致网页不被Google收录的原因和如何去解决它。

内容有点多,所以我用思维图整理了这个话题的重点,方便大家快速、系统地进行了解:

一.检查网站是否被收录的三种方法

没有收录,就没有排名可言,具体逻辑在后面的第二大点关于谷歌搜索引擎是如何工作的有讲到。

一般我们发现页面没有SEO排名和流量,就会第一时间去检查该页面是否被谷歌收录了。我常用的三种检查收录的方法:

在用命令site:进行搜索查询。如果有返回正确结果,就代表已经收录了。

注意:site指令不会显示所有相关结果。如果你发现存在site命令没有返回正确结果但是GoogleSearchConsole却显示已编入索引的情况,可以参考我在另外一篇文章用site命令查到页面没被收录/索引页数少于谷歌网站管理员工具中报告的页数,怎么办?中关于这个问题的优化思路

2.GoogleSearchConsole的网址检查工具。见下图:

3.第三方Google索引检查工具

前面两种方式都只能每次查询一个页面,用第三方工具的好处是可以实现批量查询。Google一下GoogleIndexChecker,可以找到很多在线检查收录的工具。

如果不幸地,你通过以上的方式查出你的页面没有被收录,那希望下面的解决方案能够帮助到你实现页面被Google收录。

二.谷歌搜索引擎是如何进行页面抓取、索引和排名的

知乎上也有不少关于网站内容没有被收录问题的解答,但是很少会讲到搜索引擎是如何工作的。我认为大家很有必要知道,因为当你通过学习搜索引擎工作原理去理解了网页不被收录的本质,你就拥有了能够快速地化解所有不被收录问题的能力

让网页出现在谷歌搜索结果中需要经历三个阶段:

阶段1:抓取(Crawling)

抓取也经常被称为爬行。谷歌会使用一种自动程序从互联网上发现各类网页,并下载其中的文本、图片和视频,这个程序经常被称作蜘蛛、机器人或爬虫(都是指同一个东西)。

推广经常会看到的两种谷歌蜘蛛:应用在SEO工作上的Googlebot,和应用在广告工作上的GoogleAdsBot。

为了让你的内容显示在Google搜索上,必须首先确保你的网站可以被Google的Googlebot抓取工具抓到。

阶段2:索引(Indexing)

Google会分析网页上的文本、图片和视频文件,并将信息存储在大型数据库Google索引中。

不是所有被抓取的页面都被会索引。

阶段3:呈现搜索结果(Servingsearchresults)

当用户在Google中搜索时,Google会返回与用户查询相关的信息。

不是所有被索引的页面都会有排名。

基于以上,如果你的网站没有被收录,那原因只会是下面两点:

三.常见的网站/网页不被谷歌收录的原因和解决方法

首先来说说因为谷歌看不到从而无法被抓取的6种常见的情况:

1.robots.txt设置了不可被抓取

robots文件告诉了搜索引擎要抓取哪些网页和不要抓取哪些网页。

检查你的robots文件中disallow部分代码,看看不被收录的网页是不是触发了disallow规则。

比如我们来看anker的robots.txt,它禁止了谷歌去爬URL中带有/coming-soon的网页。也就是说,如果你的网页URL是,那通常(非绝对)谷歌就不会去爬它。

最快的解决方法是在robots.txt文件中删除相关的disallow规则,让谷歌可以抓取该网页。

同时,你也可以通过在Google Search Console中测试robots.txt文件来确保没有问题。

如何测试你的robots.txt文件是否被Google正确解析?

打开Google Search Console,点击左侧的“抓取”菜单,然后点击“robots.txt测试工具”。

在输入框中输入你的网站URL,然后点击“测试”按钮

检查测试结果是否显示“允许”或“被允许”。如果显示为“不允许”,那么你就需要解决问题,让谷歌可以正确解析你的robots.txt文件。

2.没有合适的页面链接

谷歌蜘蛛需要有一个开始的URL,然后通过页面链接跳转到其他页面进行抓取。

如果你的网站没有合适的页面链接,谷歌蜘蛛就无法抓取你的网站。

你可以通过在网站上添加内部链接(如导航菜单、侧边栏、文章内部链接等)来帮助谷歌蜘蛛抓取你的网页。

3.网站被人工屏蔽

有时候,网站会被谷歌人工屏蔽,导致无法被抓取和收录。

这可能是因为你的网站存在违反谷歌的质量指南或规范的行为,如恶意软件、废品信息、薄内容等。

如果你怀疑自己的网站被屏蔽了,可以尝试在Google Search Console中提交"重新审核请求",向谷歌解释你已经解决了问题,并请求再次审核。

4.网页被noindex标签设置为不被索引

Noindex标签告诉谷歌蜘蛛不要索引该页面。

可能是你在网页的HTML代码中添加了noindex标签,导致该网页不被谷歌收录。

检查你的网页代码,确保没有添加noindex标签。

5.网页被Canonical URL设置为其他页面

Canonical URL标签告诉谷歌蜘蛛该网页是其他页面的副本。

如果你的网页被设置为其他页面的副本,谷歌可能会选择索引其他页面而不是你的网页。

检查你的网页代码,确保没有设置错误的Canonical URL。

6.网页被nofollow标签设置为不被抓取

Nofollow标签告诉谷歌蜘蛛不要抓取该页面。

检查你的网页代码,确保没有添加nofollow标签。

对于以上这些情况,你需要检查并修复对应的问题,以便让谷歌蜘蛛能够抓取和收录你的网页。

还有一些其他常见的原因和解决方法,比如网页加载速度过慢、缺乏独特和有价值的内容、网站被惩罚等。

如果你的网页没有被谷歌收录,你可以通过检查robots.txt文件、添加合适的页面链接、解决人工屏蔽、删除noindex标签、修复错误的Canonical URL和nofollow标签等方法来解决问题。

标签: 搜索引擎优化SEO谷歌SEO谷歌seo优化

本文地址: https://yihaiquanyi.com/article/29e2b06af5d6517e3ef7.html

上一篇:蜘蛛爬取网站内容但是不收录的原因蜘蛛爬取...
下一篇:canonizationcanonical标签不生效SEO可能是...

发表评论