我们能验证什么，不能验证什么

iscrawlable 对 robots.txt、HTTP 响应、可索引性标头、sitemap、llms.txt 及 WAF/CDN 信号运行公开的、无需认证的爬虫准入检查。部分问题可通过公开扫描高置信度回答，其他问题需要人工审查，或未来通过只读 CDN 连接扫描确认。本页说明哪些属于哪类。

公开扫描 vs 连接扫描

公开扫描以外部爬虫的方式探测您的站点。它无法读取位于 CDN 控制台后台的配置——例如 Cloudflare AI Crawl Control 面板中的「屏蔽 AI 爬虫」开关，或针对公开探针无法复现的属性匹配的自定义 WAF 规则。

连接扫描会请求 CDN 提供商的只读 API 令牌，以便直接读取这些设置。该流程目前尚未在自助产品中开放；当前结果基于公开检查和支持团队协助审查。

我们的公开扫描使用主流 AI 爬虫已公开的 User-Agent 字符串发送请求。我们不从这些爬虫实际使用的 IP 段发起请求，也不冒充已验证机器人身份。通过源 IP 或已验证机器人签名控制访问的站点，对我们探针的响应可能与真实爬虫不同——这是所有公开爬虫准入检查的已知局限。

OpenAI、Anthropic、Perplexity 和 Google 为部分爬虫公开了 IP 段。我们将站点对探针的公开响应与这些爬虫的文档行为进行比对，但无法从外部完整复现基于 IP 的白名单规则。如果您的访问策略依赖 IP 证明，公开扫描结果应视为辅助判断。

未来的 Cloudflare 连接扫描或支持团队协助审查应检查：

当前公开扫描无法读取这些设置，也无法看到源服务器层面的规则（nginx / Apache / 应用代码）以及 Cloudflare 之前任何其他层的策略。

我们仅检查已声明的 Perplexity User-Agent 及公开访问信号。通过公开扫描无法验证隐蔽爬虫、第三方爬虫或未声明爬虫。Perplexity 的用户触发代理（Perplexity-User）仅作为辅助信息展示，不计入主要的通过/失败判定。

通过表示爬虫在可验证的公开检查中显示为被允许。这并不保证会在 ChatGPT、Claude、Perplexity 或 Google AI 结果中被引用。

我们能验证什么，不能验证什么

公开扫描 vs 连接扫描

连接扫描会请求 CDN 提供商的只读 API 令牌，以便直接读取这些设置。该流程目前尚未在自助产品中开放；当前结果基于公开检查和支持团队协助审查。

模拟 User-Agent，而非源 IP

已验证机器人 IP 的局限

需要审查的 Cloudflare 设置

未来的 Cloudflare 连接扫描或支持团队协助审查应检查：

屏蔽 AI 爬虫开关状态

AI Crawl Control 规则集

托管 robots.txt 覆盖规则

Bot Fight Mode 设置

匹配 AI 爬虫 User-Agent 的自定义 WAF 规则

当前公开扫描无法读取这些设置，也无法看到源服务器层面的规则（nginx / Apache / 应用代码）以及 Cloudflare 之前任何其他层的策略。

各结果状态的含义

通过

可验证的公开检查均允许访问。

未通过

至少一项公开信号显示被屏蔽或不允许访问。

警告

信号混合——某一层看起来开放，另一层看起来受限或模糊。

未知

无法通过公开检查验证此项。

需要支持团队审查

公开检查不足以得出结论，需要支持团队协助检查 WAF 与 AI 爬虫设置。