SEO技术指南：一篇文章带你全面了解Meta Robots标签和Robots.txt

www.mywebsite.com/robots.txt

Robots.txt长什么样？

以下是robots.txt文件的基本格式：

Sitemap: [站点地图的URL地址]

User-agent: [爬虫身份]
[指令1]
[指令 2]
[指令 ...]

User-agent: [另一个爬虫身份]
[指令1] 
[指令 2] 
[指令 ...]

如果你以前从未看过这些内容，你可能会觉得很难。但实际上，它的语法非常简单。简而言之，你可以通过在文件中指定user-agents（用户代理）和directives（指令）来为搜索引擎蜘蛛分配抓取规则。

下面是一个基本的robots.txt文件：

User-agent: *
Disallow: /

User-agent后面星号 * 告诉爬虫这个robots.txt文件是针对来到网站的所有爬虫。Disallow后面的斜杠 “/” 告诉爬虫不要爬取该站点的任何页面。

下面是Moz的robots.txt文件示例：

sitemap: https://moz.com/sitemaps-1-sitemap.xml


User-agent: *
Allow: /researchtools/ose/$
Allow: /researchtools/ose/dotbot$
Allow: /researchtools/ose/links$
Allow: /researchtools/ose/just-discovered$
Allow: /researchtools/ose/pages$
Allow: /researchtools/ose/domains$
Allow: /researchtools/ose/anchors$
Allow: /products/
Allow: /local/
Allow: /learn/
Allow: /researchtools/ose/
Allow: /researchtools/ose/dotbot$

Disallow: /products/content/
Disallow: /local/enterprise/confirm
Disallow: /researchtools/ose/
Disallow: /page-strength/*
Disallow: /thumbs/*
Disallow: /api/user?*
Disallow: /checkout/freetrial/*
Disallow: /local/search/
Disallow: /local/details/
Disallow: /messages/
Disallow: /content/audit/*
Disallow: /content/search/*
Disallow: /marketplace/
Disallow: /cpresources/
Disallow: /vendor/
Disallow: /community/q/questions/*/view_counts
Disallow: /admin-preview/*

可以看到，他们用user-agent和指令来告诉爬虫应该去抓取哪些页面，稍后我会对此深入分析。

重要提示

大多数搜索引擎都会遵循规则，但有少部分的搜索引擎则会无视这些规则。

Google的爬虫会遵守robots.txt文件中的声明。

如何创建一个robots.txt文件？

如果你的网站还没有robots.txt文件，那么做一个也是很简单的。只需要打开一个空的.txt文件（记事本文件）然后按照要求填写指令。比如，你希望搜索引擎不要抓取你的/admin/目录，你可以像下面这样填写：

user-agent: *
Disallow: /admin/

你还可以继续往里面添加指令，直到满足你的需求为止，然后将文件保存为“robots.txt”即可。

除此之外，你还可以使用robots.txt生成工具来制作，好比这个：

利用类似这样工具的优势就是你可以避免指令语法错误。这个非常重要，因为一个小的语法错误都会导致灾难性的后果，还是谨慎一些比较好。

劣势就是，这些工具在某些程度上无法自由的自定义。

为什么Robots.txt非常重要？

我都记不清有多少用户在网站迁移后，或者新建网站后过来问我：为什么做了几个月的优化，我的网站排名仍然没有起来？

我只能说60%的原因是因为robots.txt文件没有正确的更新。也就是说你的robots.txt文件看起来还是像下面这样：

User-agent: * 
Disallow: /

这样会阻止所有的爬虫去抓取你网站的内容。

Robots.txt重要的另一个原因是Google有一个叫抓取预算的东西。

Google说：

Googlebot旨在成为网络的良好公民。抓取是其首要任务，同时要确保它不会降低普通用户访问该网站的用户的体验。我们将此称为“抓取速度限制”，它限制了给定站点的最大抓取速度。
简而言之，这表示Googlebot可以用来抓取网站的并发数，以及两次抓取之间必须等待的时间。

所以，如果你的网站比较大，且有一些质量不高的页面，则可以通过robots.txt文件来告诉Google 去 “Disallow” 这些页面。

这样可以节省网站的抓取预算，让Google仅抓取你希望Google为你排名的高质量页面。

Google 在2019年7月宣布了一项提案，针对robots.txt文件中包含的规则提出了一个正式的互联网标准。

在过去的25年终，机器人排除协议（REP）中列出的那些规则一直都是非正式的标准。尽管REP已被大部分搜索引擎采用，但它仍不是官方的。这意味着开发者可以自由的对其进行解释说明。此外，它从未针对当今的用例进行过更新。

正如Google所说，这给网站运营带来了障碍，因为模棱两可的事实标准使正确编写规则变得困难。

为了消除这个障碍，Google已经撰写了如何在当前的网站上使用REP的草案，并且将其提交给了互联网工程任务组（IETF）进行审核。

Google解释了草案中包含的内容：

拟议的REP草案反映了20多年来被约5亿个网站依赖的robots.txt规则的经验总结，这些规则是Googlebot和其他主要爬虫程序都在使用的。这些规则使发布者可以决定网站的哪些页面可以被爬取并向感兴趣的用户展示指定的内容。

该草案不会改变1994年制定的任何规则，只是针对现代网站进行了更新。

一些更新的规则包括：

Robots.txt基础知识

如何使用Robots.txt

使用robots.txt对于SEO成功至关重要。但是，如果不了解它的工作原理，面对网站没有排名的问题会让你抓耳挠腮。

搜索引擎会根据你在robots.txt中使用的指令和表达式对你的网站进行抓取和编制索引。以下是常见的robots.txt指令：

User-agent: * —— 这是robots.txt文件的中的第一行指令，用于向爬虫说明你希望他们在你的网站上进行抓取的规则。星号则表示允许所有的爬虫。

User-agent: Googlebot ——这句话意思是你只希望Googlebot对你的网站进行抓取。

Disallow: / ——该指令告诉爬虫不要对网站进行任何页面的抓取。

Disallow: ——该指令告诉爬虫对网站所有页面进行抓取。

Disallow: /staging/ ——该指令告诉爬虫忽略你的测试站点。

Disallow: /ebooks/*.pdf —— 该指令告诉爬虫忽略所有可能导致重复内容问题的PDF格式文件

User-agent: Googlebot
Disallow: /images/ —— 这两条指令表示仅不允许Googlebot抓取网站所有的图片。

* —— 星号为可以代表任何字符的通配符

你不仅可以使用通配符（*）将指令应用于所有用户代理，同时可以在声明指令时用来匹配雷同的URL。例如，如果你想防止搜索引擎访问网站上的参数化产品类别URL，可以像这样列出它们：

User-agent: * 
Disallow: /products/t-shirts?
Disallow: /products/hoodies?
Disallow: /products/jackets?
…

但是这并不简洁，你可以利用通配符，简写成下方这样：

User-agent: * 
Disallow: /products/*?

这个例子就是屏蔽了所有的搜索引擎爬虫抓取 /product/ 目录下，所有包含问号（?）的链接。换句话说就是屏蔽了所有带有参数的产品链接。

$ —— 用于匹配以特定字符结尾的URL

在指令最后加入”$”。比如，如果你想屏蔽所有以 .pdf结尾的链接，那么你可以这样设置 robots.txt：

User-agent: * 
Disallow: /*.pdf$

这个例子中，搜索引擎无法抓取任何以 .pdf 结尾的链接，意味着搜索引擎无法抓取 /file.pdf，但是搜索引擎可以抓取这个 /file.pdf?id=68937586，因为它没有以”.pdf“结尾。

给WordPress创建robots.txt文件，我一般使用 Yoast插件。但是，在你开始创建你的robots.txt文件之前，首先需要记住下面的一些基本知识：

需要用Robots.txt隐藏的内容

Robots.txt文件通常用于从SERP中排除特定的目录、类别或页面。

你可以使用“Disallow”指令去排除。

以下是一些使用robots.txt文件去隐藏的常见页面：

这些对电子商务网站非常有用。

下面是一个禁止thank you页面的例子

User-agent: *
Disallow: /videos/
Disallow: /thank-you/

Sitemap: https://www.leadfeeder.com/sitemap.xml

一定要记住，不是所有的爬虫都会遵循你在robots.txt中设置的规则。

一些不规矩的爬虫会完全忽略你的robots.txt文件，所以确保不要在被禁止抓取的页面上保存敏感数据。

常见的robots.txt错误

错误1：文件名包含大写字母

robots.txt是唯一可用的名字，一定要全部小写，不能是Robots.txt，也不能是ROBOTS.TXT。

涉及到SEO的，一定坚持都用小写。

错误2：没有把robots.txt放在根目录

如果你想要你的robots.txt文件被爬虫发现，一定要把它放在网站根目录。

错误示范

www.mysite.com/tshirts/robots.txt

正确示范

www.mysite.com/robots.txt

错误3：格式不正确的User-Agent

错误示范

Disallow: Googlebot

正确示范

User-agent: Googlebot
Disallow: /

错误4：在一行“Disallow”指令中写了多个分类

错误示范

Disallow: /css/ /cgi-bin/ /images/

正确示范

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/

错误5：User-Agent指令的值为空

错误示范

User-agent:
Disallow:

正确示范

User-agent: *
Disallow:

错误6：在Host指令中镜像网站和网址

在使用Host指令时请务必谨慎，要让搜索引擎正确理解你要表达的意思：

错误示范

User-agent: Googlebot
Disallow: /cgi-bin

正确示范

User-agent: Googlebot
Disallow: /cgi-bin
Host: www.site.com

如果网站使用了HTTPS，则正确的应该是：

User-agent: Googlebot
Disallow: /cgi-bin
Host: https://www.site.com

错误7：列出目录里所有的文件

错误示范

User-agent: *
Disallow: /pajamas/flannel.html
Disallow: /pajamas/corduroy.html
Disallow: /pajamas/cashmere.html

正确示范

User-agent: *
Disallow: /pajamas/
Disallow: /shirts/

错误8：没有Disallow指令

Disallow指令是必须有的，这样搜索引擎爬虫才能了解你的意图。

错误示范

User-agent: Googlebot
Host: www.mysite.com

正确示范

User-agent: Googlebot
Disallow:
Host: www.mysite.com

错误9：屏蔽整个网站

错误示范

User-agent: Googlebot
Disallow: /

正确示范

User-agent: Googlebot
Disallow:

错误10：错误的HTTP响应头

错误示范

Content-Type: text/html

正确示范

Content-Type: text/plain

错误11：没有SItemap

一定要把你的站点地图放在robots.txt文件的底部。

错误示范

User-agent: *
Disallow: /button
Disallow: /add
Disallow: /ajax

正确示范

User-agent: *
Disallow: /search/*?*
Disallow: /en/*

Sitemap: https://mailchimp.com/sitemap.xml

错误12：使用noindex

Google在2019年宣布不再承认robots.txt中使用的noindex指令。所以用下面展示的正确示范的方式吧！

错误示范

User-agent: *
Disallow: /
Noindex: thank-you

正确示范

User-agent: *
Disallow: thank-you

错误13：在robots.txt文件中Disallow了一个页面，但仍有链接指向该页面

如果你在robots.txt文件中Disallow了一个页面，但仍有内部链接指向该页面的话，Google仍会对该页面进行抓取。

你需要删除那些链接才能让爬虫完全停止抓取该页面。

如果你不确定，可以在Google Search Console覆盖率报告中查看哪些页面已被编入索引。

你应该会看到类似以下的内容，而且你还可以使用Google的 robots.txt测试工具。

但是，如果你使用的是Google的移动友好的测试工具，则它不会遵循robots.txt文件中的规则。

如何检测robots.txt文件中的问题

Robots.txt很容易出现错误，因此检测是十分有必要的。

是否需要检查与某个页面相关的错误？

将指定的URL放入GSC的URL Inspection tool（网址检测）。如果被robots.txt屏蔽了，那么就会像下方这样显示：

提交的URL被robots.txt屏蔽了

这说明在你提交的sitemap中，至少有一条URL被robots.txt屏蔽了。

如果你创建的sitemap没问题，且不包含canonicalized（规范标签）、noindexed（指定不索引）、redirected（跳转）等页面，那么你提交的所有的链接都不应该被robots.txt屏蔽。如果被屏蔽了，你需要调查受影响的页面，然后相应地调整robots.txt文件，删除阻止该页面的指令。

你可以使用谷歌的robots.txt检测工具来查看哪条指令在阻止访问。在修改的时候你需要小心，因为很容易就会影响到其它的页面以及文件。

被robots.txt屏蔽了

这说明，当前你有内容被robots.txt屏蔽了，但是暂时没有被Google索引。

如果这个内容很重要，并且需要被索引，删除robots.txt中的阻碍抓取的指令。（同时你得注意这个内容是否被索引标记标注为不索引状态）如果你需要屏蔽的内容也是不需要谷歌索引的话，那么你可以去掉屏蔽抓取的指令，然后使用meta robots标签、或者是x-robots HTTP头部指令进行屏蔽——这样就可以保证内容不被索引。

Tips
如果想要将页面从索引中删除，必需先移除抓取阻碍。否则，谷歌无法抓取到页面的noindex（不索引）标记、或是HTTP头部指令——这样只会让搜索引擎保持原有的索引状态。

索引但是被robots.txt屏蔽

这说明虽然一部分内容被robots.txt屏蔽了，但是依然是被谷歌索引的。

同样道理，如果你希望从搜索引擎中去除该内容，robots.txt并不是最好的选择。最好使用meta robots标签、或者是x-robots HTTP请求头指令防止被索引。

如果你是不小心屏蔽了这个内容，并且希望内容被谷歌索引的话，只需要在robots.txt中移除阻碍索引的指令即可。这样可以帮助你的内容更好的展现在SERP当中。

Meta Robots标签是什么？

Meta robots标签(也称为Meta robots指令)是HTML代码，用来高速搜索引擎爬虫如何抓取和索引网站上的页面。

Meta robots标签需要添加到网页的<head>部分，例如：

<head>
    ...
    <meta name="robots" content="noindex" />
    ...
</head>

Meta robots标签由两部分组成。

标签的第一部分是 name=””，这里是用来指定user-agent的，例如 name=“Googlebot”。

第二部分是 content=””，这里你可以告诉爬虫你想让他们做什么。

Meta Robots标签的类型

Meta robots标签有两种类型：

类型1：Meta Robots Tag

SEO营销人员通常会使用Meta Robots Tag。它可以让你告诉User-Agent，例如Googlebot，去抓取特定区域。

看下面这个例子：

<meta name ="googlebot" content ="noindex，nofollow">

这个meta robots tag告诉Google的爬虫Googlebot不要在搜索引擎中为该页面编制索引，也不要跟踪任何反向链接。

因此，该页面不会显示在SERP中。

如果你给不同的user-agent不同的指令，则需要为每个爬虫创建单独的标签。

Glenn Gabe在这篇研究报告中说明了为什么一定不要把meta robots tag放在<head>之外。

Robots.txt和Meta Robots标签可以协同工作

我在实际工作中遇到最大的错误之一是，robots.txt文件与页面中的meta robots标签所说的不匹配。

例如，robots.txt文件将页面从索引中隐藏了，但是Meta Robots标签里的说法却相反。

正确的做法应该是，如果你在robots.txt中对某个页面使用的Disallow，则在meta robots标签中就应该使用 noindex, nofollow。

根据我的经验，Google会优先考虑robots.txt文件中Disallow的内容。

但是，你可以通过明确告诉搜索引擎哪些页面应该索引，哪些不应该，来解决Meta Robots标签和robots.txt之间的说法不一致的问题。

写在最后

Robots.txt是一个简单、但是很强大的文件。明智地使用它，可以对SEO产生积极影响。随意使用它，可能会造成灾难性的后果。处理好Robots.txt和Meta Robots标签之间的配合使用问题，也能对SEO产品积极的影响。

希望这篇文章让你真正了解了如何使用robots.txt和Meta Robots标签。

Meta Robots标签 vs. Robots.txt

什么是Robots.txt？

Robots.txt长什么样？

重要提示

如何创建一个robots.txt文件？

为什么Robots.txt非常重要？

Robots.txt基础知识

如何使用Robots.txt

需要用Robots.txt隐藏的内容

常见的robots.txt错误

如何检测robots.txt文件中的问题

提交的URL被robots.txt屏蔽了

被robots.txt屏蔽了

索引但是被robots.txt屏蔽

Meta Robots标签是什么？

Meta Robots标签的类型

类型1：Meta Robots Tag

类型2：X-robots-tag

Meta Robots Tag参数

如何使用Meta Robots Tags

Robots.txt和Meta Robots标签可以协同工作

写在最后

发表回复取消回复

WordPress主机推荐

最新文章

热门文章

2024年获取更多流量的10大SEO趋势和策略

如何检查网站的速度

WordPress SEO：权威指南

博客SEO：给你的博客添加分类并定期维护

Google的“product reviews update”可以告诉我们哪些关于“高质量内容”的信息？

SEO基础：为什么文本结构对SEO非常重要

WordPress主机推荐