iscrawlable 对 robots.txt、HTTP 响应、可索引性标头、sitemap、llms.txt 及 WAF/CDN 信号运行公开的、无需认证的爬虫准入检查。部分问题可通过公开扫描高置信度回答,其他问题则需要以只读方式连接到您的 CDN 才能得出结论。本页说明哪些属于哪类。
公开扫描以外部爬虫的方式探测您的站点。它无法读取位于 CDN 控制台后台的配置——例如 Cloudflare AI Crawl Control 面板中的「屏蔽 AI 爬虫」开关,或针对公开探针无法复现的属性匹配的自定义 WAF 规则。
连接扫描会请求您的 CDN 提供商的只读 API 令牌,以便我们直接读取这些设置。我们仅用其读取配置,从不修改任何内容。连接扫描是 Pro 功能。
我们的公开扫描使用主流 AI 爬虫已公开的 User-Agent 字符串发送请求。我们不从这些爬虫实际使用的 IP 段发起请求,也不冒充已验证机器人身份。通过源 IP 或已验证机器人签名控制访问的站点,对我们探针的响应可能与真实爬虫不同——这是所有公开爬虫准入检查的已知局限。
OpenAI、Anthropic、Perplexity 和 Google 为部分爬虫公开了 IP 段。我们将站点对探针的公开响应与这些爬虫的文档行为进行比对,但无法从外部完整复现基于 IP 的白名单规则。如果您的访问策略依赖 IP 证明,连接扫描是端到端验证规则的唯一方式。
如果您使用只读 API 令牌连接 Cloudflare,我们可额外检查:
即使有 Cloudflare 令牌,我们仍无法看到:源服务器层面的规则(nginx / Apache / 应用代码),以及 Cloudflare 之前任何其他层的策略。我们也不会修改任何设置——本次扫描依合同约定为只读。
我们仅检查已声明的 Perplexity User-Agent 及公开访问信号。通过公开扫描无法验证隐蔽爬虫、第三方爬虫或未声明爬虫。Perplexity 的用户触发代理(Perplexity-User)仅作为辅助信息展示,不计入主要的通过/失败判定。
通过表示爬虫在可验证的公开检查中显示为被允许。这并不保证会在 ChatGPT、Claude、Perplexity 或 Google AI 结果中被引用。