结论先行
在生成式搜索里,你的内容要“出现在答案中”,往往要先走完两步:GeneralSearch 找到你,再由 Fetch 读到你,最后才轮到 GEO 让模型敢引用你。
因此,GEO 不只是“写得更像答案”,还要把网站做成一个稳定可抓取、可解析、可片段化复用、可归因的知识接口。
如果把问题拆成工程化三问:搜得到(GeneralSearch)→ 读得到且读得对(Fetch)→ 引用得准且能追溯(GEO),你会更快定位增长杠杆与阻断点。
Key Takeaways
- GeneralSearch 决定候选池:你不在 Top 结果/候选源里,模型通常不会“费力去读你”。
- Fetch 决定可用性:403、挑战页、强登录、纯 CSR(HTML 没正文)会直接让你“被读成空”。
- GEO 决定引用率:AI 更偏好可抽取的答案块、清晰实体与可核验证据,而不是长段营销叙述。
- 搜索爬虫 vs 用户触发 Fetch 要分开管:例如 OpenAI 的 OAI-SearchBot(搜索)与 ChatGPT-User(用户触发访问)用途不同;Perplexity 也区分 PerplexityBot 与 Perplexity-User,且用户触发 fetch 往往不按 robots 走。
- robots 允许不等于服务器放行:真实拦截点常在 WAF/CDN Bot 管理与速率限制。
- 生成式搜索会“多路搜索”:Google 公开描述 AI Overviews/AI Mode 可能使用 query fan-out(多次相关搜索)来找支持页面;覆盖子问题与同义表达会更重要。
- 可观测性是 GEO 的核心能力:用日志(Fetch 成功率/状态码/耗时)+ 固定问集(覆盖率/引用率/表述一致性)做闭环,而不是只看点击。
- 想“别被展示”,不要只靠 robots:noindex/preview 控制有严格前提(页面需可被爬虫访问到,才能读到 noindex)。
1. 为什么要把 Fetch 与 GeneralSearch 放进 GEO 讨论
在友觅 UME 的框架里,技术性 GEO 的目标不是“做一个 llms.txt”,而是把站点变成生成式引擎可稳定抓取、可正确解析、可片段化复用且能可靠归因的“知识接口”。
而 Fetch 与 GeneralSearch,恰好对应生成式检索链路里最容易被忽视的两段“地基工程”:
- GeneralSearch:负责“找候选来源”(发现与召回)。在不同平台里可能叫
web_search、Search API、query fan-out、或更泛化的“搜索工具”。 - Fetch:负责“打开并读取某个 URL”(单次请求/抓取/解析)。Google 对“fetchers”的定义就很贴近:像
wget一样,通常代表用户发起单次请求。
GEO 的现实约束是:你无法只优化“内容表达”,却忽略“是否被找到、是否读得到”。因为很多生成式系统的默认策略是:先搜索,再挑少量链接 Fetch。
2. 三个概念一张表看懂
| 概念 | 在链路中的角色 | 典型失败信号 | 你能直接优化的杠杆 | 推荐核心指标 |
|---|---|---|---|---|
| GeneralSearch | 发现/召回候选页面(进入候选池) | “AI 从不提你/永远选竞品来源” | SEO 地基、主题覆盖、内链与 Hub、标题摘要工程 | 候选池覆盖率、Top-N 进入率、主题可见性 |
| Fetch | 打开 URL 并获取可解析内容 | 403/429、挑战页、抓到空壳 HTML、超时、重定向链过长 | robots + WAF/CDN 放行、SSR/预渲染、性能与稳定性、规范化 | Fetch 成功率、200 比例、TTFB/耗时、解析可见正文比例 |
| GEO | 让内容以“证据/答案块”形态被选中并引用 | 抓到但不引用;引用不准;去品牌化严重 | 答案工程、实体工程、证据工程、Schema、锚点可引用块 | 引用率、Share of Answer、表述一致性、纠错闭环周期 |
这张表可以当作站内“问题归因”框架:没被引用 ≠ 内容不行,可能只是卡在了 GeneralSearch 或 Fetch。
3. 生成式搜索的默认路径:GeneralSearch → Fetch → 生成 → 引用
把生成式系统的典型行为抽象成伪代码,更容易理解你要优化什么:
用户问题 Q
↓
GeneralSearch(Q) → 返回候选URL列表(可能是多轮 query fan-out)
↓
挑选 Top-K URL
↓
Fetch(URL) → 获取HTML/正文 → 解析/分块/重排
↓
生成答案 → 选择证据片段 → 引用/归因
关键点有两个:
- 搜索会变成“多次搜索”
Google 明确提到 AI Overviews/AI Mode 可能用 query fan-out:围绕子主题多路搜索、再汇总支持页面。对于内容方,这意味着:只押一个主关键词不够,必须覆盖子问题、同义问法、比较型问题。 - Fetch 往往是“少量且挑剔”的
生成式系统通常不会像传统搜索引擎那样“深爬你全站”,而是围绕当前问题,挑少量页面读取。这也是为什么 UME 一直强调 P0:不要让 AI 爬虫吃 403;robots 放行不等于服务器放行。
4. 让 GeneralSearch 选中你:候选池工程
4.1 你真正要赢的是“被选为来源”的资格
在 UME 的表达里,GEO 的“收录”更像是进入生成式检索链路的候选池,并在答案里被可靠引用。
这意味着:SEO 仍是地基。Google 也明确:AI features 的最佳实践仍是既有 SEO 基础,不需要额外“神秘优化”;但前提是页面能被索引、能出 snippet,并满足技术要求。
4.2 GeneralSearch 侧的内容与结构策略
以“让系统更容易搜到你”为目标,UME 建议的可执行动作是:
- 做主题 Hub(聚合页)而不是散点文章:用 Hub 把概念、教程、对比、案例、FAQ 串成可遍历的知识网络。
- 把关键词表改成“问题图谱”:What/Why/How/Compare/Metrics/Pitfalls,把用户真实问法写进 H2/H3。
- 标题与摘要要可被直接摘取:生成式引擎前置会先看少量信号(URL、标题、描述/摘要),质量会影响“是否值得被 Fetch”。
- 覆盖同义词与别名:尤其是实体名称、术语、英文缩写、行业俗称,避免“搜得到但不命中你”。
5. 让 Fetch 读得到且读得对:技术性 GEO 的 P0 清单
5.1 把 Fetch 当作“更脆弱的爬虫/浏览器”
Google 将 fetchers 描述为:像 wget 一样通常只做单次请求;这类工具对重试与容错的预期往往更低。
而在 AI 生态里,这类“用户触发访问”的 agent/fetcher 甚至可能不受 robots 约束:
- OpenAI 说明 ChatGPT-User 是用户触发访问,不用于自动爬取,且 robots 规则可能不适用。
- Perplexity 文档也明确:Perplexity-User 支持用户动作,且“由于是用户请求的 fetch,一般会忽略 robots.txt”。
对内容方的启示:你不能只做“allowlist 某个 bot”,还要让页面对“类浏览器访问”也能稳定可读。
5.2 P0:别让 AI bot 吃 403
UME 在技术性 GEO 清单里把它列为第一条:robots.txt 放行不等于服务器放行;WAF/CDN Bot 规则才是常见拦截点。
落地动作(按优先级):
- 日志按 UA 分桶:统计 200/301/403/429/5xx。
- 定位拦截层级:应用(Nginx)→ CDN → WAF → Bot 管理/挑战页。
- 放行策略用“IP 段 + UA”组合:对公开 IP 段放行,对异常频率仍限流(尤其是 Perplexity 文档给了 WAF 配置思路)。
5.3 P0:核心内容必须“在 HTML 里可见”
技术性 GEO 明确要求:正文、定义、关键表格、FAQ 必须在 HTML 中可见;纯 CSR 至少要有 SSR/预渲染兜底。
工程验收方法(不依赖复杂工具):
view-source:是否能看到关键段落curl拉取 HTML 是否是正文,而不是空壳/挑战页
5.4 把重定向链压到 1–2 次以内
UME 指出:不同抓取代理的重试/容错能力不一样,不能假设都像 Googlebot;关键页面要做到最多 1–2 次跳转就到最终 200。
5.5 用 HTTP 头让“可更新性”更像工程而不是口号
Google 在 crawling 基础设施文档里提到对缓存与 ETag、Last-Modified 等机制的支持与建议,这会影响抓取效率与更新识别。
在 GEO 语境下,这属于“新鲜度工程”的一部分:让系统更容易确认你是最新版本,而不是反复抓取旧内容。
6. 让模型敢引用你:答案工程 × 实体工程 × 证据工程
UME 的收录逻辑强调:生成式系统通常经历发现→抓取→解析→分块→索引→检索→重排→生成→引用;每一环都有可控杠杆。
要把“读到了”变成“引用了”,最有效的不是再写一篇,而是把内容工程化成可复用组件:SSOT → 实体页 → 证据卡 → 答案块 → 分发与评测闭环。
6.1 答案块是 GEO 的最小交付单元
答案块推荐结构(可直接当 UME 站内写作规范):
- 问题句(H3):用用户问题写标题
- 短答案(1–2 句):可被直接摘走
- 要点(3–5 条):为什么/怎么做/注意什么
- 边界条件:适用与不适用
- 证据位:数据、案例、来源(指向证据卡)
6.2 实体一致性决定 AI 是否“认得你”
内容工程里强调:组织/产品/作者/术语命名与关系要稳定、可机读;实体口径漂移是 GEO 常见失败原因。
最小实体资产建议:
- Organization(组织页)
- Product/Service(产品/服务页)
- Glossary(术语表)
- Author/Team(作者/团队页)
6.3 证据卡决定 AI 是否“信你”
证据卡模板(可复用组件):
- 结论句
- 数据/截图/对比
- 口径:时间范围、指标定义、样本
- 方法:如何得到、限制条件
- 来源:可追溯引用
- 更新:最后更新时间与负责人
7. 故障树:到底卡在 GeneralSearch、Fetch 还是 GEO
| 现象 | 更可能的根因 | 快速验证 | 解决动作 |
|---|---|---|---|
| AI 总选竞品来源 | GeneralSearch 候选池进不去 | 用固定问题集看来源分布;检查索引与 Hub 覆盖 | 做 Hub+子页矩阵;补同义问法;提升可见性 |
| 有时提到你,有时不提 | 候选池波动 + 证据不足 | 看是否有稳定实体页/证据位 | 实体页统一命名;关键结论加证据卡 |
| AI 访问你站点但抓到空内容 | Fetch 失败或解析失败 | 日志看 403/挑战页/JS;curl/view-source 验证 | WAF/CDN 放行;SSR/预渲染;去挑战页 |
| 引用了但链接定位不到段落 | 缺少可引用锚点 | 检查是否有段落 id/目录 | 关键段落加锚点 id;“引用此段”策略 |
| 引用你但表述出错 | 实体/边界不清或版本漂移 | 用回归问集对比表述一致性 | 防御性 GEO:边界条件、版本日志、纠错闭环 |
8. 监测与指标:把 GEO 做成可审计系统
8.1 你需要两类“观测面板”
- Fetch 面板(站点可用性)
- Fetch 成功率(200 占比)
- 403/429/5xx 占比
- 平均耗时/TTFB
- 重定向链长度分布
- 引用面板(答案份额)
- 覆盖问题数(question coverage)
- 引用率(citation rate)
- Share of Answer(答案份额:答案中出现你/引用你的比例)
- 表述一致性(同一问题跨时间/跨模型一致性)
8.2 用可追踪参数识别“AI 搜索带来的回访”
OpenAI 的发布者 FAQ 提到:ChatGPT 搜索的引流 URL 会自动带 utm_source=chatgpt.com,便于在分析工具中追踪。
建议你把它纳入 UTM 规则与渠道看板,并对“答案引用→回访→转化”的漏斗单独建报表。
9. 权限、控制与边界:robots、noindex 与“用户触发 Fetch”
这一段在 GEO 实操里非常关键,因为很多团队会误把 robots 当成“最终控制开关”。
9.1 分用途管理爬虫是新常态
以 OpenAI 为例:
- OAI-SearchBot 用于搜索结果呈现;
- GPTBot 用于抓取可能进入训练的数据;
- ChatGPT-User 用于用户触发访问,且 robots 规则可能不适用;robots 更新生效可能需要约 24 小时。
Perplexity 也类似:
- PerplexityBot 用于搜索结果;
- Perplexity-User 支持用户动作,且“由于是用户请求的 fetch,一般忽略 robots.txt”。
结论:你要把“搜索呈现”“训练使用”“用户触发访问”拆开做策略决策,再落到 robots/WAF/页面控制上。
9.2 不想被展示,别只靠 robots
OpenAI FAQ 提到:即使你禁止 OAI-SearchBot,如果系统从第三方搜索或其它页面拿到了 URL,仍可能只展示“链接与标题”;如果不希望发生,需要用 noindex,但前提是爬虫能访问到页面读取该标签。
Google 的 noindex 文档也明确:要让 noindex 生效,页面不能被 robots.txt 阻挡,否则爬虫看不到 noindex,页面仍可能出现。
证据与边界
证据来源
- UME 对技术性 GEO 的定义与 P0/P1 工程化清单(可抓取、可解析、可引用、可观测)。
- UME 对 GEO 收录链路与“被抓取→被引用→被转化”的框架拆解。
- OpenAI 官方关于 OAI-SearchBot、GPTBot、ChatGPT-User 的用途区分与 robots 生效延迟。
- OpenAI 发布者 FAQ 对“如何出现在 ChatGPT 搜索”“noindex 与展示控制”“utm_source=chatgpt.com”以及 Atlas 可访问性建议(ARIA)的说明。
- Google 对 crawlers 与 fetchers 的定义、user-triggered fetchers 的解释,以及缓存/协议等技术属性。
- Google 对 AI features 的解释(query fan-out、多轮搜索、SEO 基础仍适用)。
- Perplexity 对 PerplexityBot 与 Perplexity-User 的用途说明,以及用户触发 fetch 往往忽略 robots 的提示。
适用与不适用边界
- 适用:内容型网站、B2B 官网、工具/知识库、文档中心、希望提升“被引用/被代表”的品牌与产品团队。
- 不适用或需谨慎:强登录、强个性化、内容高度动态且不愿做 SSR/预渲染的页面;以及出于版权/合规明确不希望被抓取/展示的资产(应先做授权边界与 noindex 策略)。
术语定义
- GEO(Generative Engine Optimization):面向生成式 AI/对话式搜索的优化体系,目标是让模型在回答相关问题时更倾向引用你并正确归因。
- GeneralSearch:生成式系统用于“找候选网页/数据源”的搜索工具能力(不同平台名称不同)。
- Fetch:生成式系统用于“打开 URL 并读取内容”的抓取/读取工具能力;与 Google 所说的 fetchers(代表用户单次请求)在行为上相近。
- 候选池:生成式检索链路中可被检索与重排的来源集合;进不去候选池就谈不上引用。
- 答案块(Answer Block):可被独立摘取复用的最小语义单元(短答案+要点+边界+证据位)。
- 证据卡(Evidence Card):把可信度组件化(口径、方法、来源、时间戳、负责人),让 AI 更敢引用。
关键实体清单
- 品牌与站点:友觅 UME、growume.com
- 核心方法论:GEO、技术性 GEO、内容工程、SSOT、实体页、证据卡、答案块、Share of Answer、可观测性
- 关键技术对象:robots.txt、WAF/CDN、SSR/预渲染、Schema.org、ETag/Last-Modified、UTM
- 关键生态实体:OpenAI(OAI-SearchBot、GPTBot、ChatGPT-User)、Perplexity(PerplexityBot、Perplexity-User)、Google(AI Overviews、AI Mode、fetchers、Google-Extended)
发表回复