站点地图Sitemap协议文件格式详细解释和语法介绍

SEO优化:网站Sitemap详解

文章目录

站点地图(Sitemap)是一种文件,它以 XML 格式列出了你网站上的所有重要页面、视频或其他文件,并提供了关于这些内容之间关系的信息。搜索引擎(如 Google)会读取此文件,以便更高效地抓取你的网站并了解你认为哪些页面比较重要。

以下是对 XML Sitemap 协议文件格式的详细解释和语法介绍:

Sitemap详细介绍

什么是 Sitemap?

Sitemap 是网站上的一个文件,它会告知 Google 等搜索引擎网站上有哪些页面是它们应该了解的。它本质上是一个域名下所有网页的列表,作为网站的“地图”,清晰地展现了网站的结构以及页面和内容之间的关系。

Sitemap 有什么作用?为什么需要 Sitemap?

Sitemap 的主要作用是帮助搜索引擎更高效地抓取和索引你的网站。通过 Sitemap,可以告知搜索引擎哪些页面对网站最重要,从而增强网站在搜索结果中的可见性。

Sitemap 的重要性体现在以下几个方面:

  • 提升可发现性:XML Sitemap 特别有助于搜索引擎发现网站上的重要页面。对于大型网站(拥有成千上万个页面)或爬取预算有限的网站来说,这一点尤为重要。
  • 加速索引:对于新网站来说,提交 XML Sitemap 可以帮助更多页面更快地被排名。对于经常更新内容的网站,Sitemap 能让 Google 更快地发现这些更新。
  • 提供额外信息:Sitemap 可以提供关于特定类型页面内容(如视频、图片和新闻内容)的额外信息,例如视频时长、评分、图片位置或新闻标题和发布日期。
  • 改善用户体验:虽然主要是为搜索引擎设计,但用户可见的 HTML 形式的 Sitemap 可以帮助访问者找到他们正在寻找的内容,提供网站内容的概览。

你是否需要 Sitemap?

并非所有网站都强制要求 Sitemap。如果网站页面数量较少(少于 100 页或 500 页),并且所有页面都能通过首页链接轻松访问,那么可能不需要 Sitemap。在这种情况下,只需请求索引网站首页即可。

在以下情况中,Sitemap 会发挥比较大的作用:

  • 你的网站很大:大型网站很难确保每个页面都有其他页面链接,Sitemap 能帮助 Googlebot 发现所有新页面。
  • 新网站且外部链接不多:搜索引擎通常通过访问已抓取页面中的 URL 来抓取新页面,如果你的网站没有其他网站链接到它,Sitemap 能帮助 Googlebot 发现你的页面。
  • 网站包含大量富媒体内容(视频、图片)或在 Google 新闻中显示:Sitemap 可以帮助 Google 将这些额外信息纳入搜索范围。

即使不是必需,使用 Sitemap 也绝对不会对 SEO 有什么负面效果。从我个人的使用经验与体验来说, Sitemap 对所有网站都有益,因为它可以使爬取过程更高效,并帮助搜索引擎更快地发现重要页面和更新内容。

Sitemap 有哪些种类,各有什么区别?

Sitemap 主要有三种类型:用于网站设计规划的视觉层面类似脑图的 Sitemap、用户可见的列表(通常是层级结构),以及用于网络爬虫的结构化列表。在 SEO 中,我们主要关注 XML Sitemap 和 HTML Sitemap。

  1. 视觉 Sitemap:主要用于网站设计阶段,帮助设计师规划网站布局和页面层级结构,没有直接的 SEO 价值。
  2. XML Sitemap (Extensible Markup Language Sitemap):为搜索引擎提供网站的技术蓝图,列出所有重要的 URL。这是最常见的 Sitemap 类型。它是一个 XML 文件,遵守 Sitemap 协议格式。通常包含 URL 列表、页面最后更新日期()、页面更新频率()和相对于网站上其他 URL 的重要性()。需要注意的是,Google 通常会忽略这两个标签的值,但会使用值,前提是它准确且可验证。
  3. HTML Sitemap (HyperText Markup Language Sitemap):为网站访问者设计的,就是简单的网页,以系统性(通常是层级)的方式展示网站所有主要链接。像“目录”一样帮助用户浏览网站,找到特定页面。通常链接在网站的页脚或菜单中以便于访问。虽然不如 XML Sitemap 对搜索引擎直接,但 HTML Sitemap 可以改善内部链接结构,并为拥有许多页面的复杂网站提供另一层导航。提示:它不应取代良好的网站导航元素(如菜单、页脚链接、面包屑等)。

Sitemap 索引文件:对于大型网站,单个 Sitemap 文件有 URL 数量和文件大小限制(未压缩时最多 50,000 个 URL 和 50MB)。Sitemap 索引文件可以列出多个 Sitemap 文件,从而管理大量的 URL。一个 Sitemap 索引文件最多可以包含 50,000 个 Sitemap。

XML Sitemap 的特殊形式:

对于 XML Sitemap 还可以扩展以包含特定类型的内容信息:

  • 视频 Sitemap:帮助 Google 理解页面上的视频内容,可指定视频时长、评分和受众年龄段等。
  • 新闻 Sitemap:帮助 Google 找到经 Google 新闻批准的网站内容,包含新闻标题和发布日期。
  • 图片 Sitemap:帮助 Google 找到网站上托管的所有图片,可包含图片链接、主题和许可信息。
  • RSS/Atom Feed Sitemap:如果你的网站已使用 RSS 2.0 或 Atom 1.0 Feed,可将其作为 Sitemap 提交。此类 Feed 通常只提供近期 URL 的信息,但可以帮助搜索引擎了解网站上的更改。
  • 文本 Sitemap最简单的 Sitemap 格式,每行包含一个 URL,只能列出指向 HTML 和其他可索引页面的 URL。文本文件 Sitemap 也必须是 UTF-8 编码,且每行一个 URL,URL 必须完整指定(包含 http)。

友情提示:Sitemap 协议是 Google 推出的,后被其他公司,如 Bing/Yahoo/Ask/IBM 等支持,所以,要了解一手的 Sitemap 学习资料,推荐阅读谷歌官方文档:了解站点地图

Sitemap 语法详解

以下是一个完整的 XML 站点地图示例,其中包含了一些常用的标签(有的是可选标签):

<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <url>
    <loc>https://www.example.com/</loc>
    <lastmod>2025-06-19</lastmod>
    <changefreq>daily</changefreq>
    <priority>1.0</priority>
  </url>
  <url>
    <loc>https://www.example.com/about</loc>
    <lastmod>2025-06-15</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
  </url>
  <url>
    <loc>https://www.example.com/products</loc>
    <lastmod>2025-06-18</lastmod>
    <changefreq>weekly</changefreq>
    <priority>0.9</priority>
  </url>
</urlset>

下面对 XML Sitemap 协议文件格式的详细解释和语法介绍:

XML Sitemap 的核心结构

一个标准的 XML Sitemap 文件必须遵循特定的结构和命名空间。

  1. XML 声明
    • <?xml version="1.0" encoding="UTF-8"?>
    • 所有 Sitemap 文件都必须使用UTF-8编码。
  2. 根元素 <urlset>
    • urlset是 Sitemap 文件的根元素,它封装了整个文件,并引用了当前的 Sitemap 协议标准。
    • 它必须包含xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"命名空间声明。
    • 示例:<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  3. URL 条目 <url>
    • Sitemap 中的每个网页都应该有一个<url>条目,作为每个 URL 的父标签。
  4. 必需的子标签 <loc>
    • 这是<url>标签内必需的子标签,用于指定网页的完整 URL
    • URL 必须以协议(如httphttps)开头。
    • 建议使用完全限定的绝对 URL,例如https://www.example.com/mypage.html,而不是相对 URL /mypage.html
    • URL 长度必须小于 2048 个字符。
    • Sitemap 中的所有 URL 必须来自单个主机,例如www.example.comstore.example.com

XML Sitemap 可选子标签

除了<loc>之外,<url>标签还可以包含以下可选子标签,尽管搜索引擎对它们的处理和优先级可能会有所不同。

  1. <lastmod> (最后修改日期)
    • 表示页面最后修改的日期。
    • 日期格式必须遵循W3C Datetime 格式,例如YYYY-MM-DD (2005-02-21) 或包含时间的格式 (2005-02-21T18:00:15+00:00)。如果省略时间部分,则默认为00:00:00Z,但如果指定了时间,则必须指定时区。
    • 该值应反映页面最后一次重大更新的日期和时间(例如,主要内容、结构化数据或链接的更新),而不是版权日期的更新。
    • Google 和 Bing 都认为<lastmod>标签很有用,它可以帮助爬虫了解页面的更新频率。Google 会根据其准确性和可验证性来使用这个值。
  2. <changefreq> (更改频率)
    • 提示页面可能更改的频率。
    • 有效值包括:always (每次访问都更改)、hourlydailyweeklymonthlyyearlynever (归档 URL)。
    • 这个值被视为一个提示而不是命令。Google会忽略此值,不保证爬虫会按照指定频率进行爬取。
  3. <priority> (优先级)
    • 表示此 URL 相对于你网站上其他 URL 的优先级。
    • 有效值范围从0.0 到 1.0,默认优先级为 0.5。
    • Google 会忽略此值。它不会影响你的页面与其他网站页面在搜索结果中的比较排名,只在选择同一网站内的 URL 时可能发挥作用。为所有 URL 设置高优先级也没有帮助,因为它是一个相对值。

Sitemap 索引文件

如果有多个 Sitemap 文件,应该将它们列在一个Sitemap 索引文件中。Sitemap 索引文件的 XML 格式与 Sitemap 文件非常相似。

Sitemap 索引文件必须以<sitemapindex>标签开头和结束,并包含每个 Sitemap 的<sitemap>条目,每个<sitemap>中再包含一个必需的<loc>子标签,用于指定 Sitemap 文件的位置。可选的<lastmod>标签也可用于 Sitemap 索引文件,表示 Sitemap 文件本身最后修改的时间。

引用 Sitemap 索引文件中的 Sitemap 必须与 Sitemap 索引文件位于同一网站上,且位于相同或更低的目录中。

示例 Sitemap 索引文件:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
    <sitemap>
        <loc>http://www.example.com/sitemap1.xml.gz</loc>
        <lastmod>2004-10-01T18:23:17+00:00</lastmod>
    </sitemap>
    <sitemap>
        <loc>http://www.example.com/sitemap2.xml.gz</loc>
        <lastmod>2005-01-01</lastmod>
    </sitemap>
</sitemapindex>

通用 Sitemap 规则

编码:所有 Sitemap 文件(包括 Sitemap 索引文件)必须采用 UTF-8 编码。

实体转义:所有数据值(包括 URL)必须对特定字符(&'"><)使用实体转义码。例如,& 应转义为 &amp;

URL 编码:所有 URL(包括 Sitemap 本身的 URL)必须进行 URL 转义,并根据 RFC-3986、RFC-3987 和 XML 标准进行编码,以便 Web 服务器可读。

文件大小和 URL 限制:单个 Sitemap 文件最多包含 50000 个 URL,且未压缩时不得大于 50MB。Sitemap 索引文件最多可以列出 50000 个 Sitemap,且未压缩时不得大于 50MB。URL 网址顺序不重要。

压缩:Sitemap 文件可以使用 gzip 进行压缩,以减少带宽需求;但解压缩后文件大小仍不能超过 50MB。

跨网站提交:要从单个主机提交多个主机的 Sitemaps,需要通过修改目标主机的 robots.txt 文件来指向 Sitemap,以证明所有权。

排除内容:只在 Sitemap 中包含对 SEO 重要的页面。应排除以下类型的页面,以避免向搜索引擎发送混淆信息:

  • 重复页面。
  • 分页页面。
  • 非规范页面。
  • 存档页面。
  • 重定向页面 (3xx)、缺失页面 (4xx) 和错误页面 (5xx)。
  • 评论 URL。
  • 使用noindex标签的页面。
  • robots.txt文件阻止的页面。

怎么使用 Sitemap?Sitemap SEO 最佳实践是什么?

使用 Sitemap 涉及创建、提交和持续优化,以确保其有效支持你的 SEO 策略。

创建 Sitemap

  1. 确定需要包含的页面:首先,通过创建视觉 Sitemap 来规划网站布局和页面层级,这将帮助你确定要包含在 XML 和 HTML Sitemap 中的所有重要页面。
  2. 选择创建方法:
    • 内容管理系统 (CMS) 自动生成:如果你使用 WordPress、Blogger 等 CMS,它们很可能已经为你提供了 Sitemap,或有插件可以自动生成 Sitemap (例如 WordPress 的 Yoast SEO 插件)。
    • 在线 Sitemap 生成器:对于非 WordPress 网站,可以使用第三方工具自动生成站点地图。你可以直接 Google 搜索“generate sitemap”找符合自己需求的,我使用下来都不太满意,限制太多。个人建议是自己生成,毕竟只有自己最了解自己的网站。
    • 手动创建:如果你的网站页面数量很少(几十个以内),你可以手动创建 Sitemap 文件。但这对于大型网站来说维护成本很高。
  3. 放置 Sitemap 文件:建议将 Sitemap 文件放在网站的根目录下 (例如 http://example.com/sitemap.xml)。
  4. 验证 Sitemap:无论是自动还是手动创建,都务必使用 Sitemap 验证器来验证你的 XML Sitemap,确保其结构正确并能被搜索引擎处理。

提交 Sitemap

创建并放置好 Sitemap 文件后,你需要告知搜索引擎它的位置:

  1. 通过 Google Search Console 提交:
    • 这是推荐的方法,可以帮助你查看 Googlebot 何时访问了 Sitemap 以及可能存在的处理错误。
    • 登录你的 Google Search Console 账户,进入“索引” -> “Sitemaps”部分。
    • 在“添加新 Sitemap”框中输入你的 Sitemap URL,然后点击“提交”。
    • 请注意,你需要拥有网站的“所有者权限”才能通过 Sitemaps 报告提交 Sitemap。
  2. 通过 Search Console Sitemaps API 提交:可以程序化地提交 Sitemap。
  3. 在 robots.txt 文件中指定位置:在 robots.txt 文件中的任意位置添加一行,包含 Sitemap 的完整 URL (例如:Sitemap: https://example.com/my_sitemap.xml)。Google 在下次抓取 robots.txt 文件时就会发现 Sitemap。
  4. 其他搜索引擎:Bing Webmaster ToolsYandex Webmaster ToolsNaver Webmaster Tools 也提供各自的 Sitemap 提交方法。
  5. 提交单个 URL:如果你只对某个页面进行了重大更改,也可以直接向搜索引擎提交该页面的 URL 以请求重新索引。

总结

无论你是刚刚起步的小型网站,还是拥有成千上万页面的大型平台,合理地使用 XML Sitemap 和 HTML Sitemap 都是提升网站 SEO 表现的关键步骤之一。通过向 Google 提交站点地图,你不仅能加快网站被收录的速度,还能帮助搜索引擎更全面地理解你网站的结构、内容更新频率及页面重要性。

想提升网站在 Google 搜索中的曝光率?试试为你的网站生成并提交 Sitemap 文件。特别是在网站内容更新频繁、页面链接结构复杂,或者你拥有大量图片、视频、新闻等内容时,一个合规、清晰、结构合理的 Sitemap 将是你网站 SEO 优化不可或缺的一环。

此外,如果你正在寻找如何为 WordPress 网站生成站点地图、如何自动更新 Sitemap 文件、如何解决 Sitemap 提交中的错误,或“Google 搜索控制台如何添加 XML Sitemap”这类问题,建议持续关注本博客,后续我将开发自己的 Sitemap 生成工具。

微信公众号二维码
本文已同步发布到微信公众号「人言兑
👈 扫描二维码关注,第一时间获取更新!

也可以看看