Robots.txt 文件:它是什么、如何创建它以及如何针对 SEO 优化它

robots.txt 文件是一个文本文件,其中包含一些搜索引擎(例如 Google 或 Bing)的指令。因此,我们通过该文件指出我们网站的哪些页面应该被扫描,哪些页面不应该被扫描。

但为什么这个文件如此重要呢?它如何影响我们博客的搜索引擎优化?

在本文中,我们将更详细地了解robots.txt 文件是什么、如何创建它以及如何优化它,以帮助搜索引擎机器人正确抓取我们的网站。

让我们开始吧!

什么是 robots.txt 文件

乌克兰电话号码资源是您进行电话营销 乌克兰电话号码资源 和批量电话号码的终极信息库。我们庞大的数据库提供经过验证的电话号码列表,专为希望增强其推广策略的企业量身定制。借助我们的批量电话号码,您可以开展有效的营销活动,在确保数据准确性的同时覆盖更广泛的受众。我们用户友好的平台简化了查找和管理满足您特定需求的电话号码列表的过程。相信乌克兰电话号码资源能够为您的电话营销工作提供支持,并通过为您的成功而设计的可靠联系信息提高参与度。

从文件扩展名我们可以猜测,robots.txt 是一个普通的文本文件,其中包含搜索引擎的指令。

因此,通过这些指令(也称为指令),可以向搜索引擎爬虫指示应该扫描网站的哪些部分以及应该从扫描中排除哪些部分,例如那些不应该公开的部分,例如 /wp页面-WordPress 管理。

但是 robots.txt 文件由哪些元素组成?

我们一起来看看主要的吧。

robots.txt 文件的指令

西班牙电话号码库

主要指令以及可能最常用的指令是:

  • User Agent,该元素用于指示应用规则的爬虫名称,例如 *googlebot
  • Disallow,该指令用于指定要排除在爬取范围之外的页面、目录或文件(该指令不会从搜索引擎索引中删除资源),例如/wp-admin/
  • 允许,该指令用于授权爬虫抓取特定的 URL、目录或文件 – 从而指示上一条规则的例外情况
  • Sitemap,该元素用于向机器人指定 XML Sitemap 的 URL。

一般来说,robots.txt文件的编写是委托给SEO专家的。

如何创建 robots.txt 文件

为您的网站创建 robots.txt 文件非常简单。事实上,您所需要 让我们向乐高学习如何打造成功的品牌形象 做的就是打开文本编辑器,输入搜索引擎指令并将其保存为 UTF-8 编码,并将其命名为“robots.txt”。

但是,要获得 robots.txt 文件的正确配置,您必须遵循精确的语法规则:

  • 指令必须分组写入文件中
  • 必须报告用户代理以及要从扫描中排除的网站部分
  • 每行只能包含一个指令
  • 搜索引擎机器人按照从上到下的顺序接收文件中写入的指令
  • 可以使用行开头的 # 字符将注释插入到文件中
  • 由于文件区分大小写,因此必须区分大小写字母。
  • 文件创建后,必须上传到我们网站的主根目录。

还可以使用免费的在线工具(例如Toolset.it 生成器)创建 robots.txt 文件。

借助此工具,可以自动生成 robots.txt 文件,您只需选择要从扫描中排除或不排除的内容,设置例外 – 即主要排除规则的 URL 或目录例外 – 并指示 URL您的 XML 站点地图。然后该工具将自动创建该文件。

如果您的网站是使用 WordPress CMS 开发的,您可以通过 SEO 插件(例如 Yoast SEO 或Rank Math SEO)创建 robots.txt 文件,这些插件不仅会生成文件,还允许您直接从平台后端修改它。

例如,以下是您网站的robots.txt 文件的可能基本配置:

  • 用户代理:*(所有用户代理)
  • 禁止:#(输入要从扫描中排除的网站部分的路径)
  • 允许:#(输入您希望爬虫可以访问的之前禁止的任何 URL 或资源文件)
  • 站点地图:#(站点地图 URL)。

以我博客的robots.txt文件为例,其配置为:

用户代理:*
禁止:/wp-admin/
允许:/wp-admin/admin-ajax.php
站点地图:https://www.eleonorabaldelli.com/sitemap_index.xml

创建文件后,检查是否存在可能导致整个网站取消索引的错误非常重要。

为此,只需转到机器人测试工具,这是一个 Google 工具,用于检测文件中所有可能的逻辑和语法错误并测试其正确功能。

如何优化 robots.txt 文件以进行 SEO

robots.txt 文件对于优化 SEO至关重要,因为它 AQB 目录 允许搜索引擎机器人知道如何最好地抓取网站。

事实上,正确配置 robots.txt可以让您:

  • 防止扫描重复内容——尤其是在电子商务中
  • 防止抓取对有机定位目的没有多大价值的页面,例如网站的内部搜索结果页面
  • 避免请求使服务器过载

最终从 SEO 角度优化 robots.txt 可以让您节省抓取预算,即可供爬虫扫描的每个网站的扫描预算。

该预算实际上是有限的,只应花在对于定位目的真正关键的页面上。

如何更新 robots.txt 文件

更新 robots.txt 文件(例如添加或删除某些指令)非常简单。事实上,您只需重写该文件并将其重新上传到您网站的根目录即可。

或者,如果您使用 RankMath,则可以直接在 WordPress 仪表板中执行此操作,方法是转至左侧菜单并选择Rank Math > 常规设置 > 编辑 robots.txt

最后的反思

robots.txt 文件通常是创建强大且有效的 SEO 策略并帮助搜索引擎正确抓取您的网站的有效盟友。

你知道这意味着什么吗?没错:甚至可以提高您的搜索引擎排名

因此,请立即检查您是否已经创建并上传了 robots.txt 文件,并使用机器人测试工具检查是否没有错误。

当用户在 Google 搜索栏中输入查询时,搜索引擎会使用其算法在其索引中搜索该查询的所有相关结果,并按从最相关到​​最不相关的顺序显示结果来返回它们。

这种按相关性对搜索结果进行排序的方式称为排名。一般来说,您可以假设网站排名越高,搜索引擎认为该网站与搜索查询越相关。

谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 在 2018 年也解释了这一点,他在美国国会听证会上对那些质疑著名案例“为什么如果你在谷歌上搜索白痴,图像会出现在D. 特朗普”。

因此,从 SEO 的角度优化我们的网站意味着根据 Google 的排名因素对其进行建模,以便“说服”算法我们的网站、我们的页面和我们的内容应该在SERP中占据更高的位置,因为它们更完整、更相关、更有价值。比别人权威。

排名因素分为以下几类:

  • 与域相关的排名因素
  • 页面级排名因素
  • 网站级排名因素
  • 影响反向链接的排名因素
  • 与用户交互有关的排名因素
  • Google算法的特殊规则
  • 品牌信号
  • 垃圾邮件因素

说了这么多,我们来看看目前已知的排名因素有哪些。

与域相关的排名因素

1. 域名年龄: 许多 SEO 认为 Google 更信任较旧的域名。不过,谷歌的约翰·穆勒表示,域名的年龄不会影响排名

2.关键字出现在顶级域名中:有人认为在您的域名中包含关键字可以帮助您的排名。但也有人声称域名对定位没有影响

3. 域名注册期限: Google 是这么说的

“合法域名通常会提前几年付费,而门口(非法)域名很少使用超过一年。因此,域名的到期日期可以用作域名合法性的预测指标。”

4.子域名中的关键字: Moz专家小组一致认为子域名中拥有关键字可以提高排名

5. 域名历史记录:所有权不稳定的网站或受处罚的网站即使对新所有者也可能会造成问题

6. 公共 WhoIs 与私人 WhoIs:私人 WhoIs 信息可能是“需要隐藏的东西”的标志

7. WhoIs 所有者受到惩罚:如果 Google 将某个人识别为垃圾邮件发送者,则该人拥有的其他网站可能会受到影响

8. 国家/地区 TLD 扩展名:拥有带有您所在国家/地区扩展名的顶级域名(.it、.fr、.de…)可以帮助网站在该特定国家/地区进行定位,但可能难以在其他国家/地区进行定位

9、 关键词精准匹配。精确匹配域名,即域名与我们想要定位的关键词之间的精确对应关系,会对定位产生影响

影响页面排名的因素

10.标题标签中的关键词:虽然不再像以前那么重要,但标题标签仍然是一个重要的SEO信号

11.标题标签以关键字开头:根据Moz的说法,以关键字开头的标题标签比关键字出现在末尾的标题更有效

12.元描述中的关键字:虽然Google没有考虑元描述,但如果优化的话可以吸引更多的点击,从而影响排名

13. 关键词出现在H1标题中:H1标题用作次要相关性信号。以下是一项研究的结果:

14.关键字密度:内容中的高关键字密度可能是帮助谷歌理解文本内容的一种方式。但是,如果密度太高,您可能会陷入关键词堆砌,文章会受到处罚

15. 内容长度:多项研究似乎证实长内容(+1,400字)往往排名更好

16.目录:使用目录可以帮助Google更好地理解页面内容并将附加链接插入Google搜索结果

17. 在内容中使用 LSI 关键字: LSI 关键字是在语义上链接到主关键字的关键字,并且允许从单词所在的上下文中理解这些单词。例如,它可以让谷歌了解您搜索“Apple”时是作为苹果还是作为一家公司

18. 元数据中的 LSI 关键字: LSI 关键字如果也放入元数据(例如元标题和元描述)中可以帮助排名

19. 深入讨论主题:如果主题非常具体和深入,那么它比肤浅地讨论主题的文章更有定位的机会

20. 通过 HTML 的页面加载速度: Google 和 Bing 都使用页面速度作为排名因素。 Google 现在使用实际的 Chrome 用户数据来评估加载速度。

您可以通过Google 的 PageSpeed Insight测量网站的加载速度。

21. 使用 AMP:虽然不是直接的 Google 排名因素,但 AMP 可能是在移动版 Google 新闻中排名的要求。然而,许多 SEO 也表示 AMP 可能会损害您的排名

22. 实体匹配:在搜索引擎意义上,实体(entities)是与Google知识图谱相关的元素列表,它们形成图的节点,描述现实世界中的人、地点和事物,让您能够做出更多深入的用户研究。当页面内容与用户搜索的实体完全对应时,该页面可以受益于该关键字排名的提高

23. Google Hummingbird:得益于2013年进行的算法更新Hummingbird,Google“学会了阅读文本”,除了文本中出现的关键词之外,还可以理解页面的主题,并越来越有效地解释搜索意图搜索查询的

24.重复内容:同一网站上的相同内容,即使稍加修改,也会对您的排名产生负面影响

25. Rel=Canonical:正确使用时,使用此标签可以防止 Google 因重复内容而惩罚您的网站

26. 图像优化:图像通过文件名、替代文本、标题、描述和标题向搜索引擎发送重要的相关信号

27.刷新内容: Google Caffeine 更喜欢最近发布或更新的内容,尤其是耗时的搜索

28. 内容更新类型:对内容进行的更改和更新类型可以改善其定位。添加或删除整个部分比更改几个单词的顺序或修复拼写错误更有意义

29.页面更新:页面更新的频率也起着重要作用

30. 关键词突出度:关键词出现在页面内容的前100个词中,与Google首页的排名密切相关

31. H2、H3 标签中的关键字:H2 或 H3 字幕中出现的关键字可以是另一个相关性信号

32. 传出链接的质量:许多研究表明,链接到权威网站有助于向谷歌发送信任信号

33.出站链接主题:通过Hilltop算法,Google可以根据文本中包含的外部链接了解您内容的主题

34. 语法和拼写:正确的语法和拼写是质量的标志,尽管卡茨提供了关于它们是否真正相关的相互矛盾的信息

35. 原始内容:如果内容是从另一个页面复制的(即使经过修改!),它可能不会出现在搜索结果中。然而,其他研究表明,如果谷歌不了解对方正在复制哪些内容,它也可能会惩罚被复制的网站

36. 移动设备友好型:通常称为 Mobilegeddon,此更新更加注重移动设备友好型页面

37. 移动可用性:针对移动设备优化的网站可以在 Google 的“移动优先指数”中占据优势

38. 移动设备上的“隐藏”内容:与完全可见的内容相比,移动设备上的隐藏内容可能不会被索引

39. 有用的补充内容:根据公开的谷歌指南文件,有用的补充内容是页面质量的指标,因此也是其排名的指标。示例包括货​​币转换器、贷款利息计算器和交互式食谱

40.隐藏在选项卡后面的内容:用户是否需要单击选项卡才能显示某些页面内容?如果是这样,谷歌表示该内容可能不会被索引

41. 传出链接数量:过多的传出 dofollow 链接可能会导致您失去 PageRank 并损害该页面的排名

42. 多媒体:图像、视频和其他多媒体元素可以成为内容质量的标志

43.内部反向链接的数量:页面上内部反向链接的数量表明其与网站上其他页面相比的重要性

44. 反向链接的质量:来自权威页面的反向链接比来自没有 PageRank 或低 PageRank 页面的反向链接具有更大的影响力

45. 损坏的链接:有太多损坏的链接可能是网站被忽视或放弃的标志

46.​​文本的可理解性:一些研究表明,由简单清晰的句子组成的更易于理解的文本往往排名更好

47. 附属链接:附属链接本身可能不会损害您的排名,但过多的附属链接可能会吸引谷歌的注意力以寻找其他质量信号

48. HTML 错误/W3C 验证:许多 HTML 错误可能是网站质量较差的标志。尽管存在争议,但许多 SEO 人士认为良好编码的页面是质量的标志

49. 域名权威性:在所有条件相同的情况下,权威域名上的页面将比权威性较低的域上的页面排名更高

50. PageRank:具有高权威性的页面往往优于具有较低权威性的页面

51. URL 长度:过长的 URL 会损害页面在搜索引擎上的可见性。事实上,多项研究似乎证实短网址往往排名更好:

52. URL路径:距离主页较近的页面比距离较远的页面可以获得更高的页面权威分数

53. 人工编辑:虽然从未得到证实,但谷歌的一项可追溯至 2000 年但仍然有效的旧专利表明,来自人工编辑的支持性意见可能会影响您在 Google 搜索上的排名

54. 类别:页面出现的类别是相关性的信号。与存储在不相关类别中的页面相比,属于密切相关类别的页面可以提高相关性

55. URL 中的关键字:这似乎是相关性的另一个标志

56. URL 中的类别: URL 中输入的类别由 Google 读取,并且可以提供有关页面内容的主题信号。因此,如果您想在 URL 中显示类别,请选择类别名称,而不是更通用的 /category/ 或 /category/

57. 参考文献和来源:正如研究论文一样,引用参考文献和来源可以是质量的标志。但谷歌否认这是排名信号

58. 项目符号和编号列表:项目符号和编号列表有助于为读者分解内容,使它们更易于使用

59. Sitemap 中的页面优先级:通过 sitemap.xml 文件分配给页面的优先级可以影响排名

60.太多的出站链接:太多的出站链接会损害你的排名

61.来自其他关键词的用户体验信号:如果页面对其他几个关键词排名,它可以给谷歌一个内部质量标志

62.页面的年龄:虽然Google更喜欢新内容,但定期更新的旧页面可能比新页面排名更好

63、直观的布局:网站的架构对于定位非常重要。直观的布局有利于这方面

64. 停放域名Google 2011 年 12 月的更新降低了停放域名的搜索可见性

65.有用的内容:一些研究似乎表明谷歌可以区分优质内容和有用内容。

影响网站排名的因素

66. 内容提供价值和独特的见解:谷歌表示,它会惩罚那些不带来任何新的或有用的网站

67. 联系页面:谷歌的质量文档指出,具有“足够数量的联系信息”的网站是首选。同样重要的是,您的联系页面上的联系信息也必须与您的 WhoIs 信息相匹配。

68. Domain Trust/TrustRank:许多SEO认为“TrustRank”是一个极其重要的排名因素。谷歌一项名为“基于信任的搜索结果排名”的专利似乎证实了这一点

69. 网站架构:结构良好的网站架构可以帮助 Google 按主题组织您的内容,还可以帮助 Googlebot 访问并索引您网站上的所有页面

70. 网站更新:许多 SEO 认为网站更新,尤其是添加新内容时,是一个相关因素,尽管谷歌否认他们在算法中使用发布频率

71. 站点地图的存在:站点地图可以帮助搜索引擎更轻松、更完整地索引您的页面,从而提高可见性。然而,谷歌最近表示 HTML 站点地图与 SEO 无关

72. 网站正常运行时间:由于网站维护或服务器问题而导致的大量停机可能会损害您的排名,如果不加以纠正,甚至可能导致取消索引

73. 服务器位置:您的服务器位置影响您的网站在不同地理区域的排名

74. SSL证书:Google已确认使用HTTPS作为排名信号

75. EAT:专业知识、权威性、可信度的缩写,谷歌可以为具有高水平 EAT 的网站提供优势

76. 网站上重复的元信息:网站上重复的元信息会降低页面的所有可见性

77. 面包屑:使用面包屑使网站变得用户友好,并帮助用户和搜索引擎知道他们在哪里

78. 移动优化:谷歌倾向于惩罚不适合移动设备的网站

79. YouTube: YouTube 视频在 SERP 中受到优先对待,可能是因为 YouTube 是 Google 公司

80. 网站可用性:难以使用或导航的网站可能会损害您的排名

81. 使用 Google Analytics 和 Google Search Console:有些人认为在您的网站上安装这两个程序可以改善页面的索引。但谷歌否认了这一说法

82. 用户评论/网站声誉:网站在 Yelp.com 等网站上的声誉在 Google 算法中起着重要作用

83. Core Web Vitals: 自推出以来,Core Web Vitals 已成为实现良好排名的关键

84. 隐私和服务条款页面:插入包含服务条件和条款的页面以及隐私页面可以提高网站对用户和搜索引擎的可靠性。

影响反向链接的排名因素

85. 获得反向链接的域名的年龄:来自较旧域名的反向链接可能比来自新创建域名的反向链接更强大

86. 我们获得反向链接的域名数量:我们获得反向链接的域名数量是 Google 算法中最重要的排名因素之一。

最后的反思

现在您已经了解了 200 多个当前已知的 Google 排名因素。

显然,您不必将所有这些要点付诸实践来优化您的文章,因为甚至无法确定 Google 实际考虑了哪些因素以及所占的百分比。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注