SaaS 的 robots.txt 应该把有价值的公开路径和低价值噪音分开。这个示例聚焦 sitemap 发现、抓取指引,以及避免把 app-only 路由误当成公开重点。
Example file
目标不是把所有东西都藏起来,而是让公开面更容易被抓,同时不把注意力浪费在低价值路径上。
User-agent: *
Allow: /
Disallow: /app/
Disallow: /api/
Disallow: /preview/
Disallow: /internal/
Sitemap: https://example.com/sitemap.xml禁止抓取某条路径,并不会自动让别处更 canonical,它只是在调整 crawl behavior。
Use it well
Boundaries
Related pages
Next step
如果这个文件看起来已经很干净,公开站点却还是让用户和模型困惑,下一个修复动作多半应该落在页面结构或 canonical signals 上,而不是继续叠 robots 规则。