什么是Robots.txt?
Robots.txt 是一个文件,告诉搜索引擎蜘蛛不要抓取网站的某些页面或部分。大多数主要搜索引擎(包括 Google、Bing 和 Yahoo)都会识别并尊重 Robots.txt 请求。
为什么 Robots.txt 很重要?
大多数网站不需要robots.txt文件。
这是因为 Google 通常可以找到您网站上的所有重要页面并为其编制索引。
他们会自动不索引不重要的页面或其他页面的重复版本。
也就是说,您想要使用 robots.txt 文件有 3 个主要原因。
阻止非公共页面:有时您的网站上有一些您不希望编入索引的页面。例如,您可能有页面的暂存版本。或者登录页面。这些页面需要存在。但你不希望随机的人登陆它们。在这种情况下,您可以使用
robots.txt 来阻止搜索引擎抓取工具和机器人访问这些页面。
最大化抓取预算:如果您很难将所有页面编入索引,则可能存在抓取预算问题。通过使用 robots.txt 屏蔽不重要的网页,Googlebot
可以将更多的抓取预算花在真正重要的网页上。
防止资源索引:使用 META 标签可以像 Robots.txt 一样防止页面被索引。但是,元指令不适用于多媒体资源,例如 PDF 和图像。这就是 robots.txt 发挥作用的地方。
Robots.txt 告诉搜索引擎蜘蛛不要抓取您网站上的特定页面。
我们可以在Google Search Console中检查您已将多少页面编入索引。
如果该数字与您想要索引的页面数匹配,则无需费心使用 Robots.txt 文件。
但如果该数字高于您的预期(并且您注意到不应编入索引的索引网址),那么就需要为您的网站创建 robots.txt 文件了。
最佳实践
创建 Robots.txt 文件
第一步是实际创建 robots.txt 文件。
作为一个文本文件,您实际上可以使用 Windows 记事本创建一个。
无论您最终如何制作 robots.txt 文件,其格式都是完全相同的:
User-agent: X
Disallow: Y
用户代理是与您交谈的特定机器人。
“禁止”之后的所有内容都是您要阻止的页面或部分。
例子:
User-agent: googlebot
Disallow: /images
该规则将告诉 Googlebot 不要为您网站的图像文件夹建立索引。
您还可以使用星号 (*) 与访问您网站的所有机器人对话。
例子:
User-agent: *
Disallow: /images
“ * ”告诉所有蜘蛛不要抓取您的图像文件夹。
这只是使用 robots.txt 文件的多种方法之一。Google 提供的这份有用指南提供了有关可用于阻止或允许机器人抓取网站不同页面的不同规则的更多信息。
从技术上讲,我们可以将 robots.txt 文件放置在站点的任何主目录中。
但为了增加 robots.txt 文件被发现的几率,我建议将其放置在:
https://example.com/robots.txt
(请注意,您的 robots.txt 文件区分大小写。因此请确保在文件名中使用小写“r”)
检查错误:
正确设置 robots.txt 文件非常重要。一个错误,您的整个网站就可能被取消索引。
幸运的是,您不需要希望代码设置正确。谷歌有提供 Robots 测试工具,可供使用:
它会向我们显示您的 robots.txt 文件,以及它发现的任何错误和警告:
正如我们所看到的,我们阻止蜘蛛爬行我们的 WP 管理页面。
我们还使用 robots.txt 来阻止抓取 WordPress 自动生成的标签页面。
Robots.txt 与元指令
可以使用“noindex ”元标记在页面级别阻止页面时,为什么还要使用robots.txt ?
正如上面所提到的,noindex 标签在视频和 PDF 等多媒体资源上实现起来很棘手。
此外,如果您想要阻止数千个页面,有时使用 robots.txt 阻止该网站的整个部分会比手动向每个页面添加 noindex 标记更容易。
还有一些边缘情况,您不想在 Google 登陆带有 noindex 标记的页面上浪费任何抓取预算。
除了这三种边缘情况之外,建议使用元指令而不是 robots.txt。它们更容易实施。而且发生错误的可能性也较小(例如:阻止整个网站)。