常见的网站类型有哪些 (常见的网站)

文章编号：8866 更新时间：2024-01-04 分类：互联网资讯 阅读次数：次

资讯内容

我在上一篇关于谷歌技术SEO的文章中分享了一段这样的经历：在发现一个几乎没有热度和页面权威度的网页没有被收录后，我通过把网页加入到XMLSitemap中这样一个简单的动作，在两天内实现了被收录。

过去也被不少人问过：新网页没有被收录，和旧页面做了优化后迟迟不见搜索引擎同步更新之类的问题，所以在这篇文章，就来说说常见的导致网页不被Google收录的原因和如何去解决它。

内容有点多，所以我用思维图整理了这个话题的重点，方便大家快速、系统地进行了解：

一.检查网站是否被收录的三种方法

没有收录，就没有排名可言，具体逻辑在后面的第二大点关于谷歌搜索引擎是如何工作的有讲到。

一般我们发现页面没有SEO排名和流量，就会第一时间去检查该页面是否被谷歌收录了。我常用的三种检查收录的方法：

在用命令site:进行搜索查询。如果有返回正确结果，就代表已经收录了。

注意：site指令不会显示所有相关结果。如果你发现存在site命令没有返回正确结果但是GoogleSearchConsole却显示已编入索引的情况，可以参考我在另外一篇文章用site命令查到页面没被收录/索引页数少于谷歌网站管理员工具中报告的页数，怎么办？中关于这个问题的优化思路。

2.GoogleSearchConsole的网址检查工具。见下图：

3.第三方Google索引检查工具。

前面两种方式都只能每次查询一个页面，用第三方工具的好处是可以实现批量查询。Google一下GoogleIndexChecker，可以找到很多在线检查收录的工具。

如果不幸地，你通过以上的方式查出你的页面没有被收录，那希望下面的解决方案能够帮助到你实现页面被Google收录。

二.谷歌搜索引擎是如何进行页面抓取、索引和排名的

知乎上也有不少关于网站内容没有被收录问题的解答，但是很少会讲到搜索引擎是如何工作的。我认为大家很有必要知道，因为当你通过学习搜索引擎工作原理去理解了网页不被收录的本质，你就拥有了能够快速地化解所有不被收录问题的能力。

让网页出现在谷歌搜索结果中需要经历三个阶段：

阶段1：抓取（Crawling）

抓取也经常被称为爬行。谷歌会使用一种自动程序从互联网上发现各类网页，并下载其中的文本、图片和视频，这个程序经常被称作蜘蛛、机器人或爬虫（都是指同一个东西）。

推广经常会看到的两种谷歌蜘蛛：应用在SEO工作上的Googlebot，和应用在广告工作上的GoogleAdsBot。

为了让你的内容显示在Google搜索上，必须首先确保你的网站可以被Google的Googlebot抓取工具抓到。

阶段2：索引（Indexing）

Google会分析网页上的文本、图片和视频文件，并将信息存储在大型数据库Google索引中。

不是所有被抓取的页面都被会索引。

阶段3：呈现搜索结果（Servingsearchresults）

当用户在Google中搜索时，Google会返回与用户查询相关的信息。

不是所有被索引的页面都会有排名。

基于以上，如果你的网站没有被收录，那原因只会是下面两点：

三.常见的网站/网页不被谷歌收录的原因和解决方法

首先来说说因为谷歌看不到从而无法被抓取的6种常见的情况：

1.robots.txt设置了不可被抓取

robots文件告诉了搜索引擎要抓取哪些网页和不要抓取哪些网页。

检查你的robots文件中disallow部分代码，看看不被收录的网页是不是触发了disallow规则。

比如我们来看anker的robots.txt,它禁止了谷歌去爬URL中带有/coming-soon的网页。也就是说，如果你的网页URL是，那通常（非绝对）谷歌就不会去爬它。

最快的解决方法是在robots.txt文件中删除相关的disallow规则，让谷歌可以抓取该网页。

同时，你也可以通过在Google Search Console中测试robots.txt文件来确保没有问题。

如何测试你的robots.txt文件是否被Google正确解析？

打开Google Search Console，点击左侧的“抓取”菜单，然后点击“robots.txt测试工具”。

在输入框中输入你的网站URL，然后点击“测试”按钮。

检查测试结果是否显示“允许”或“被允许”。如果显示为“不允许”，那么你就需要解决问题，让谷歌可以正确解析你的robots.txt文件。

2.没有合适的页面链接

谷歌蜘蛛需要有一个开始的URL，然后通过页面链接跳转到其他页面进行抓取。

如果你的网站没有合适的页面链接，谷歌蜘蛛就无法抓取你的网站。

你可以通过在网站上添加内部链接（如导航菜单、侧边栏、文章内部链接等）来帮助谷歌蜘蛛抓取你的网页。

3.网站被人工屏蔽

有时候，网站会被谷歌人工屏蔽，导致无法被抓取和收录。

这可能是因为你的网站存在违反谷歌的质量指南或规范的行为，如恶意软件、废品信息、薄内容等。

如果你怀疑自己的网站被屏蔽了，可以尝试在Google Search Console中提交"重新审核请求"，向谷歌解释你已经解决了问题，并请求再次审核。

4.网页被noindex标签设置为不被索引

Noindex标签告诉谷歌蜘蛛不要索引该页面。

可能是你在网页的HTML代码中添加了noindex标签，导致该网页不被谷歌收录。

检查你的网页代码，确保没有添加noindex标签。

5.网页被Canonical URL设置为其他页面

Canonical URL标签告诉谷歌蜘蛛该网页是其他页面的副本。

如果你的网页被设置为其他页面的副本，谷歌可能会选择索引其他页面而不是你的网页。

检查你的网页代码，确保没有设置错误的Canonical URL。

6.网页被nofollow标签设置为不被抓取

Nofollow标签告诉谷歌蜘蛛不要抓取该页面。

检查你的网页代码，确保没有添加nofollow标签。

对于以上这些情况，你需要检查并修复对应的问题，以便让谷歌蜘蛛能够抓取和收录你的网页。

还有一些其他常见的原因和解决方法，比如网页加载速度过慢、缺乏独特和有价值的内容、网站被惩罚等。

如果你的网页没有被谷歌收录，你可以通过检查robots.txt文件、添加合适的页面链接、解决人工屏蔽、删除noindex标签、修复错误的Canonical URL和nofollow标签等方法来解决问题。

标签：搜索引擎优化、 SEO、谷歌SEO、谷歌seo优化、

本文地址： https://yihaiquanyi.com/article/29e2b06af5d6517e3ef7.html

上一篇：蜘蛛爬取网站内容但是不收录的原因蜘蛛爬取...
下一篇：canonizationcanonical标签不生效SEO可能是...