Example

SaaS robots.txt 示例

SaaS 的 robots.txt 应该把有价值的公开路径和低价值噪音分开。这个示例聚焦 sitemap 发现、抓取指引,以及避免把 app-only 路由误当成公开重点。

主要作用
抓取指引
应保持公开
Home、Pricing、Docs
应保持隔离
Preview 和 app-only 路由

Example file

一份实用的 SaaS robots.txt 模式

目标不是把所有东西都藏起来,而是让公开面更容易被抓,同时不把注意力浪费在低价值路径上。

SaaS robots.txt 示例
这是一个简单模式,保留公开产品面的可抓取性,并明确指向 sitemap。
User-agent: *
Allow: /
Disallow: /app/
Disallow: /api/
Disallow: /preview/
Disallow: /internal/

Sitemap: https://example.com/sitemap.xml

禁止抓取某条路径,并不会自动让别处更 canonical,它只是在调整 crawl behavior。

Use it well

这个示例主要在防什么

App-only 或需要登录的区域意外和公开产品页竞争。
Preview、internal 或临时路径浪费抓取注意力。
公开站点没有清晰的 sitemap 发现提示。
把 crawl control 和 canonical preference 混为一谈。

Boundaries

发布前先核对什么

公开页面保持开放
homepage
pricing
docs
trust pages
噪音路径保持收敛
/preview/
/internal/
/app/
/api/
其他层仍然重要
canonical tags
sitemap.xml
llms.txt 负责 preferred references

Related pages

Continue through the cluster

Next step

用 robots 管抓取边界,不要拿它兜底所有架构问题

如果这个文件看起来已经很干净,公开站点却还是让用户和模型困惑,下一个修复动作多半应该落在页面结构或 canonical signals 上,而不是继续叠 robots 规则。