结论先行
技术性 GEO 的本质不是“做一个 llms.txt”,而是把网站变成生成式引擎可稳定抓取、可正确解析、可片段化复用、且能可靠归因的“知识接口”。在友觅 UME 的语境里,技术性 GEO 解决三件事:能不能抓(Crawlability)、抓得对不对(Index & Parse Quality)、能不能被引用且引用对(Citability & Attribution)。
它与技术 SEO 的共同底座高度重叠,但技术性 GEO 更强调:实体与结构化、答案单元的可抽取性、版权/版本/数据出口的机器可读,以及用日志与问集把结果做成可审计闭环。
Key Takeaways
- 先做 P0:别让 AI 爬虫吃 403。 robots.txt 放行不等于服务器放行;WAF/CDN 的 Bot 规则才是常见拦截点。
- 把“页面”拆成“答案单元”。 生成式引擎偏好片段级提取:自解释 H2/H3、表格、FAQ、锚点与可引用块。
- Schema 从“加分项”变“必需品”。 目标不是富媒体,而是降低歧义、明确实体、暴露可调用字段。
- 新鲜度是工程问题。 不是“多更新”,而是建立
dateModified/改动日志/缓存与抓取策略,让系统知道“你是最新且可信”。(研究显示近 3 个月更新内容的平均引用更高。) - LLMs.txt 可试点,但别押宝。 更稳的是:HTML 结构、速度、结构化、实体一致、证据链。
- 答案引擎前置只看少量信号。 URL、标题、描述/摘要与 snippet 的工程质量,会直接影响“是否值得被引用”。
- 监测要“可审计”。 用日志(bot hit/状态码/重定向/耗时)+ 问集(覆盖率/引用率/准确率)闭环,而不是代理指标“自嗨”。(这与友觅强调的“可验证增长”一致。)
1) 先对齐:什么是“技术性 GEO”
在友觅 UME 的框架里,GEO 不是推倒 SEO 重来,而是把优化对象从“蓝色链接排名”扩展到“AI 生成答案里的组成部分与证据”。
技术性 GEO(Technical GEO)可以这样定义:
让站点在生成式检索链路中成为高可用的“数据与证据提供方”:可抓取、可解析、可理解、可引用、可归因、可持续更新。
你可以把它拆成一个工程管线:
- Crawlability:AI bot 能否访问到关键 URL(不被 robots/WAF/跳转链挡住)
- Parse Quality:抓到的 HTML 是否“含关键内容且结构清晰”(不依赖 JS 才出现)
- Understandability:实体与语义是否明确(Schema + 一致命名 + 消歧)
- Citability & Attribution:答案是否能被抽取为可复用片段,并且可追溯来源(锚点/证据块/版权与版本)
- Observability:是否能用数据证明“引用发生、引用正确、引用带来业务”
2) 技术性 GEO 的 P0/P1/P2 清单
你可以把这张表当成“技术同学 + 内容同学”的共同验收标准:每条都要有验收方法。
| 模块 | 检查项 | 优先级 | 典型症状 | 解决动作(工程化) | 验收/验证 |
|---|---|---|---|---|---|
| 抓取 | robots.txt(含 AI bot 策略) | P0 | 站点对 AI 搜索“隐身”;抓取量低 | 明确允许/禁止的 bot;给关键路径 Allow;敏感路径 Disallow | 用指定 UA curl + 日志确认 200;更新后观察抓取变化(可能有延迟) |
| 抓取 | 服务器/CDN/WAF 放行 | P0 | robots 允许但仍 403/挑战页 | 调整 Bot 规则/Rate limit;对已发布 IP 段放行;避免 JS challenge | 日志中 403→200;bot 请求无挑战页 |
| 抓取 | 重定向链/规范化 | P1 | AI bot 访问耗时高、放弃;canonical 混乱 | 合并跳转到 1–2 次;统一 https/主域;修复循环 | curl -I 看 Location 链;抓取工具无链路警告 |
| 抓取 | 关键内容是否依赖 JS | P0 | view-source 看不到正文/表格 | SSR/预渲染;把核心文本与表格落在 HTML | view-source: + curl 能看到关键段落 |
| 理解 | Schema/结构化数据 | P0 | 实体混淆;AI 复述不稳定 | Article + FAQPage + Breadcrumb + Organization/Person;sameAs 消歧 | Schema 校验通过;关键实体字段齐全 |
| 理解 | 内容结构可抽取(H2/H3/表格/FAQ) | P1 | AI 引用不准;只摘到泛段落 | 段落分块、问答化、表格化;每节自解释 | 章节间有足够信息密度;FAQ 在正文中 |
| 引用 | 版本/新鲜度机制 | P1 | AI 引用旧版本;事实过期 | dateModified/改动日志/Last-Modified;关键页更新节律 | 关键页有更新时间;缓存策略正确 |
| 引用 | 可归因“引用块” | P1 | 被引用但无法定位来源段落 | 关键段落加锚点 id;“引用此段”模板 | AI/用户可链接到具体段落 |
| 体验 | 性能(CWV/TTFB/渲染) | P2 | 抓取超时、引用概率下降 | CDN 缓存、压缩、图片策略、减少阻塞 JS | 性能指标改善;抓取耗时下降 |
| 语义 | URL/标题/摘要(自然语言) | P2 | 主题不清、候选池竞争弱 | URL/Title 描述主话题;Meta Description 可读可摘 | SERP snippet/AI snippet 更稳定 |
注:上表的优先级逻辑与友觅既有内容一致——SEO 打地基,GEO 做语义与引用。
3) 抓取:先解决“能不能抓”(Crawlability)
3.1 用“分用途”思维配置 robots,而不是一把梭
很多团队把 robots 当成“SEO 的东西”。但在技术性 GEO 里,你必须分清:
- 用于搜索结果呈现的抓取(让你出现在 AI 搜索/答案的来源里)
- 用于模型训练的抓取(让内容可能进入训练语料)
- 用户触发的访问(用户让 AI 访问某个页面)
以 OpenAI 的公开说明为例:
OAI-SearchBot:用于 ChatGPT 搜索功能的结果呈现;建议在 robots 里允许,且放行其公布的 IP 段。GPTBot:用于抓取可能进入训练的数据;禁止它意味着“不用于训练”。ChatGPT-User:用户触发访问;官方说明其不用于自动爬取,且 robots 规则可能不适用。
同时,OpenAI 也明确:对 robots.txt 的更新,系统调整可能需要约 24 小时。
落地建议(友觅风格:可执行)
- 先开一个“策略决策表”:哪些内容允许用于搜索呈现?哪些内容禁止用于训练?
- robots.txt 里用显式 Allow/Disallow保护敏感路径(账户、后台、隐私数据、参数页)。
- 对“知识资产路径”(如
/article/、/archive/、/tag/、/docs/)保持稳定可抓取。
robots.txt 示例(按需改)
User-agent: OAI-SearchBot
Allow: /
User-agent: GPTBot
Disallow: /account/
Disallow: /checkout/
Disallow: /admin/
User-agent: *
Disallow: /account/
Disallow: /admin/
重要:robots 只是“意图表达”;真正的拦截更常发生在 WAF/CDN。
3.2 服务器/CDN/WAF:最常见的 GEO P0 Bug 是“403”
你会在很多站点看到这种现象:
- robots.txt 允许
- meta robots 允许
- 但 AI bot 请求返回 403/挑战页/验证码
这在 SEO 里可能只是“少掉一部分抓取”,但在 GEO 里往往直接导致:
- 进入不了候选池
- 或只进入“非常薄”的候选池(抓到的是挑战页/空壳 HTML)
建议的排查顺序(从快到慢)
- 日志先行:按 UA 过滤(GPTBot/OAI-SearchBot/Claude 等),看状态码分布(200/301/403/429)。
- 看拦截发生在哪一层:应用层(Nginx)、CDN、防火墙、Bot 管理、速率限制。
- 放行策略优先用“IP 段 + 行为”组合:对公开 IP 段放行,对异常频率仍限流。
Nginx 日志快速定位(示意)
# 查 OpenAI Search bot 是否被 403
grep -i "OAI-SearchBot" /var/log/nginx/access.log | awk '{print $9}' | sort | uniq -c
# 查 GPTBot 的状态码
grep -i "GPTBot" /var/log/nginx/access.log | awk '{print $9}' | sort | uniq -c
3.3 重定向链:把“规范化”做到极简
技术性 GEO 的现实情况是:不同抓取代理的重试/容错能力不一样。你无法假设它像 Googlebot 一样“什么都能处理”。最稳的工程原则:
- 关键页面:最多 1–2 次跳转就到最终 200
- 统一:HTTPS、主域(www vs non-www)、尾斜杠规则
- 避免:链式 301、循环跳转、区域跳转(按 IP 误判把 bot 导到不可访问区域)
验收:用 curl -I 把 Location 链打印出来,确认最终落点与 canonical 一致。
3.4 JS 渲染:别让“核心内容”只存在于浏览器里
生成式引擎做片段抽取时,最依赖的是初始 HTML(或可稳定渲染后的 DOM)。对技术性 GEO,工程上的最低标准:
- 正文、定义、关键表格、FAQ 必须在 HTML 中可见
- CSR(纯前端渲染)页面至少要有 SSR/预渲染兜底
- 对比表/规格/价格等结构化信息不要只靠前端组件拼出来
验收方法(无需工具):
view-source:是否能看到关键段落curl https://...是否能抓到正文而非空壳
4) 理解:让 AI“看懂”(Understandability)
4.1 结构化数据:从“富媒体”升级为“语义标注”
友觅在站内已明确:Schema 在 GEO 里是必要项,其价值在于明确上下文、消除歧义、提升片段级提取与调用。
建议的 Schema 模板(对 UME 站点最适配)
- 首页:
Organization+WebSite(含sameAs、logo、联系点) - 文章页:
Article/BlogPosting+BreadcrumbList+(有 FAQ 时)FAQPage - 作者页:
Person(与文章 author 统一) - 专题页/聚合页:
CollectionPage/ItemList - 工具/产品页(如未来有):
SoftwareApplication/Product+Offer+AggregateRating(若有)
JSON-LD 示例:文章页(可作为 UME 模板)
<script type="application/ld+json">
{
"@context": "https://schema.org",
"@type": "BlogPosting",
"headline": "技术性GEO怎么做?一套从抓取到被引用的工程化清单",
"description": "技术性GEO(Technical GEO)实战指南:robots/WAF/跳转/SSR/Schema/版本与监测闭环,帮助内容在AI答案中被正确引用。",
"inLanguage": "zh-CN",
"datePublished": "2025-12-25",
"dateModified": "2025-12-25",
"author": {
"@type": "Organization",
"name": "友觅 UME"
},
"publisher": {
"@type": "Organization",
"name": "友觅 UME",
"logo": {
"@type": "ImageObject",
"url": "https://www.growume.com/assets/images/ume-logo.png"
}
},
"mainEntityOfPage": {
"@type": "WebPage",
"@id": "https://www.growume.com/(此处替换为文章URL)"
}
}
</script>
4.2 HTML 结构:为“可抽取片段”设计信息架构
生成式引擎不是“读完全文再总结”,而是把内容当作可拼装的积木。友觅把它称为“答案单元(Answer Unit)”。
可落地的结构规则:
- H2/H3 要自解释:标题脱离上下文仍能看懂
- 段落长度控制:研究显示,标题间保持一定信息密度的结构更容易被引用(例如 120–180 词区间的章节表现更好)。
- 优先用表格/列表:对比、参数、步骤、清单,用
<table>/<ul>明示 - 为关键段落加锚点 id:方便 AI/用户引用到“具体段落”而不是整页
这也是为什么“清晰 HTML 结构”往往比各种新文件(如 llms.txt)更重要。
4.3 标题/URL/摘要:答案引擎的“前置信号”
行业分享与研究都在指向同一个事实:很多答案引擎在决定“要不要引用你”时,首先看到的只是少量字段(如 URL、title、description、snippet)。
SE Ranking 的研究也观察到:更“主题化”的标题与 URL,比“高度关键词优化”的版本更容易获得引用。
工程建议
- Title:主话题 + 场景 + 结果(避免堆词)
- URL:描述主话题(短、清晰、稳定),避免随机 ID
- Meta Description:写成可被直接摘录的 1–2 句(带结论/边界/对象)
5) 引用:让“被引用”可归因、可复用、可纠错(Citability)
5.1 每篇文章至少内置 3 类“可引用块”
你可以把“可引用块”当成 UME 内容模板的一部分:
- 定义块:一句话定义 + 边界
- 结论块:直接回答 + 适用条件
- 清单块:步骤/检查清单/对比表(最好带单位、阈值、版本)
并为每个块加锚点:
<h2 id="geo-tech-p0">技术性GEO 的 P0 清单</h2>
这样 AI 或读者即使只引用一段,也能精准归因到段落级。
5.2 新鲜度与版本:把“更新”做成机器可读
SE Ranking 的研究指出,近 3 个月更新的内容平均引用次数更高。
技术上,你要解决的不是“写新文章”,而是:
dateModified:结构化数据里必须有- 页面上可见的“更新于 YYYY-MM-DD”
- 改动日志(尤其是价格、接口、指标口径、定义类内容)
- HTTP 层:
Last-Modified/ETag(利于缓存与增量抓取)
5.3 版权/许可与“引用规范”:降低引用的不确定性
友觅在站内也强调:版权与可信是共同底座。
你可以在版权页或每篇文章页底部加入机器可读的信息(不一定每个引擎都会用,但对“可信与合规”是正向信号):
- 允许引用的范围(例如允许摘录多少字)
- 署名方式(品牌名/作者/链接)
- 数据/图表的引用要求(是否必须注明来源与日期)
6) 监测:把技术性 GEO 做成“可审计系统”
友觅强调“可验证增长”,GEO 的监测必须能回答三问:
有没有被引用?引用对不对?引用带来什么?
6.1 两条必备监测线
A. 抓取可观测(Logs / Crawl Observability)
- 关键 bot 的请求量、状态码(200/301/403/429)、平均耗时
- 被拦截的 URL Top 100(优先修复 P0)
B. 引用可观测(Prompt Set / Answer Observability)
- 选 30–100 个“高商业价值问题”(定义/对比/实施/成本/合规/选择)
- 每周固定跑一遍(同提示词、同地区/语言设置),记录:
- Answer Coverage(出现率)
- Attribution Rate(引用率)
- Correctness(准确率/是否过期)
- Positive/Neutral/Negative(呈现倾向)
这套方法与友觅在站内提出的 GEO KPI 方向是一致的:覆盖率、引用率、准确度、实体一致性。
7) 面向友觅 UME 的“站内发布模板建议”(可选,但强烈推荐)
这一节是“把文章变成资产”的关键:让每篇文天然符合 GEO 的抽取逻辑。
7.1 UME 文章页建议固定包含 6 个模块
- 结论先行(2–4 句)
- Key Takeaways(7 条以内)
- 正文(H2/H3 自解释 + 表格/清单)
- 证据与边界(适用/不适用、假设、验证路径)
- FAQ(至少 6 个,且放在正文中,而不仅是 Schema)
- 更新日志(版本号/日期/变更点)
7.2 站内推荐内链(按“技术性 GEO Hub”组织)
建议把本篇作为“技术性 GEO Hub”,并在正文中引导到:
- 《为什么说 GEO 是 SEO 的自然演进?》——作为“方法论总览”
- 《在技术层面,GEO 和 SEO 的优化重点有何异同?》——作为“技术共性/差异速查”
- 《什么是知识图谱?它如何帮助 AI 理解世界?》——作为“实体/消歧/结构化的延伸”
- 《GEO 的核心目标是什么?》——作为“指标与目标体系”
证据与边界
证据(本文采用的依据)
- 友觅 UME 对 GEO/SEO 关系、答案单元、Schema 必要性与技术落地的阐述。
- OpenAI 官方对 OAI-SearchBot、GPTBot、ChatGPT-User 的说明,以及 robots 更新延迟与 IP 段发布方式。
- SE Ranking 针对 ChatGPT 引用因素的研究结论(结构、速度、新鲜度、标题/URL 等)。
- 行业会议分享的补充观点(如答案引擎前置字段、自然语言 URL 等),属于“可参考但需核查”的二手信息。
适用场景
- 内容型网站、B2B/SaaS 的知识库/博客、品牌官网、工具型站点
- 需要在 AI 答案中建立“权威与可信”的团队(尤其是高客单价、长决策链)
不适用或需谨慎的场景
- 明确不希望被抓取/不希望出现在 AI 搜索:策略应以合规与保护为先(可仅允许搜索、不允许训练,或全面禁止)。
- 强隐私/强个性化页面:应默认禁止抓取或做强访问控制
- 内容受版权协议严格约束:需先完成授权与引用规范设计
发布前最关键的 3 个信息缺口(建议你内部补齐)
- UME 当前对“搜索呈现 vs 训练使用”的策略选择(允许哪些 bot、禁止哪些 bot)。
- 站点技术栈与渲染方式(SSR/CSR、CDN/WAF 供应商与 Bot 管理策略)。
- 现有可观测能力(是否能拿到边缘层日志/应用层日志,是否已有固定问集与监测口径)。
在缺口未补齐前,本文给出的是“通用可用版本”;你补齐上述信息后,可把清单直接改成 UME 的标准作业程序(SOP)。
术语定义
- 技术性 GEO(Technical GEO):面向生成式引擎的工程化优化,确保内容可抓取、可解析、可理解、可引用、可归因、可监测。
- 答案单元(Answer Unit):可被独立引用的最小内容模块(定义、步骤、要点、表格、FAQ、数据点)。
- 可抓取性(Crawlability):bot 能否访问关键 URL 并拿到 200 与有效 HTML。
- 可抽取性(Extractability):内容是否以 H2/H3、列表、表格等形式组织,便于片段级提取。
- 实体消歧(Entity Disambiguation):用一致命名与
sameAs等手段,避免品牌/产品/作者被模型分裂成多个实体。 - 引用归因(Attribution):引用能否指向明确来源(URL + 段落锚点 + 版本)。
关键实体清单
品牌/组织实体
- 友觅 UME(Organization)
方法论/框架实体
- SEO + GEO(组合方法论)
- 可验证增长(Monitoring & Auditability)
- 答案单元(Answer Unit)
技术与标准实体
- robots.txt
- Schema.org / JSON-LD
- Core Web Vitals(LCP/CLS/INP)
关键 bot/用户代理实体(示例)
- OAI-SearchBot / GPTBot / ChatGPT-User(OpenAI)
核心指标实体
- Answer Coverage(答案覆盖率)
- Attribution Rate(被引用率)
- Correctness(引用准确率/新鲜度)
- Technical Health(技术健康:403/跳转链/渲染/Schema 错误率)