Logoiscrawlable
  • 功能
  • 价格
  • 博客
  • 文档
Logoiscrawlable

公开 AI 爬虫准入检查 — 5 秒返回首次结果,免注册。

GitHubX (Twitter)
产品
  • 功能
  • 价格
  • 常见问题
资源
  • 博客
  • 文档
  • 更新日志
  • 路线图
公司
  • 关于我们
  • 联系我们
  • 邮件列表
法律
  • Cookie政策
  • 隐私政策
  • 服务条款
© 2026 iscrawlable. All Rights Reserved.

我们能验证什么,不能验证什么

iscrawlable 对 robots.txt、HTTP 响应、可索引性标头、sitemap、llms.txt 及 WAF/CDN 信号运行公开的、无需认证的爬虫准入检查。部分问题可通过公开扫描高置信度回答,其他问题则需要以只读方式连接到您的 CDN 才能得出结论。本页说明哪些属于哪类。

公开扫描 vs 连接扫描

公开扫描以外部爬虫的方式探测您的站点。它无法读取位于 CDN 控制台后台的配置——例如 Cloudflare AI Crawl Control 面板中的「屏蔽 AI 爬虫」开关,或针对公开探针无法复现的属性匹配的自定义 WAF 规则。

连接扫描会请求您的 CDN 提供商的只读 API 令牌,以便我们直接读取这些设置。我们仅用其读取配置,从不修改任何内容。连接扫描是 Pro 功能。

模拟 User-Agent,而非源 IP

我们的公开扫描使用主流 AI 爬虫已公开的 User-Agent 字符串发送请求。我们不从这些爬虫实际使用的 IP 段发起请求,也不冒充已验证机器人身份。通过源 IP 或已验证机器人签名控制访问的站点,对我们探针的响应可能与真实爬虫不同——这是所有公开爬虫准入检查的已知局限。

已验证机器人 IP 的局限

OpenAI、Anthropic、Perplexity 和 Google 为部分爬虫公开了 IP 段。我们将站点对探针的公开响应与这些爬虫的文档行为进行比对,但无法从外部完整复现基于 IP 的白名单规则。如果您的访问策略依赖 IP 证明,连接扫描是端到端验证规则的唯一方式。

Cloudflare 连接扫描

如果您使用只读 API 令牌连接 Cloudflare,我们可额外检查:

  • 屏蔽 AI 爬虫开关状态
  • AI Crawl Control 规则集
  • 托管 robots.txt 覆盖规则
  • Bot Fight Mode 设置
  • 匹配 AI 爬虫 User-Agent 的自定义 WAF 规则

即使有 Cloudflare 令牌,我们仍无法看到:源服务器层面的规则(nginx / Apache / 应用代码),以及 Cloudflare 之前任何其他层的策略。我们也不会修改任何设置——本次扫描依合同约定为只读。

Perplexity 声明爬虫的注意事项

我们仅检查已声明的 Perplexity User-Agent 及公开访问信号。通过公开扫描无法验证隐蔽爬虫、第三方爬虫或未声明爬虫。Perplexity 的用户触发代理(Perplexity-User)仅作为辅助信息展示,不计入主要的通过/失败判定。

各结果状态的含义

通过
可验证的公开检查均允许访问。
未通过
至少一项公开信号显示被屏蔽或不允许访问。
警告
信号混合——某一层看起来开放,另一层看起来受限或模糊。
未知
无法通过公开检查验证此项。
需要连接扫描
公开检查不足以得出结论。请连接 Cloudflare 只读访问权限以检查 WAF 和 AI Crawl Control 设置。

通过表示爬虫在可验证的公开检查中显示为被允许。这并不保证会在 ChatGPT、Claude、Perplexity 或 Google AI 结果中被引用。