RAG、长上下文、Fine-tune 三个怎么选？

按问题本质选：知识库经常变 + 上 GB 级 → RAG；单份大文档反复问 + 不到 200K token → 长上下文 + Prompt Caching；要稳定的语气 / 格式 / 政策 / 分类 → Fine-tune。生产环境 90% 是混合：RAG 取事实 + Fine-tune 管行为 + 长上下文跑整文档。

长上下文是不是要取代 RAG 了？

对单文档场景已经在取代。Claude Sonnet 4.6 / Opus 4.7 / Gemini 3.1 Pro 都给 1M token 上下文，配合 Prompt Caching 把缓存输入打 1 折，单查询成本从 $0.30 降到 $0.03。但对真正大的知识库（GB / TB 级 / 几十万篇文档），长上下文塞不下，RAG 仍是唯一答案。两者不是替代关系，是规模分工。

Prompt Caching 到底省多少钱？

Anthropic 官方：缓存命中价是普通输入价的 0.1×（省 90%）。实测一个跑 10 万 token 上下文的 book-chat：首次请求成本不变，第二次起 TTFT 降 79%、缓存输入 token 成本降 90%。生产中稳定 system prompt 的 cache 命中率通常 80-95%。一个 $5,000/月的 RAG 应用接入 Prompt Caching 后能降到 $1,000 以下。

Fine-tune 在 2026 年还值得做吗？

两类场景仍非常值：（1）每天 10 万+ 高频且任务定义清晰的查询（客服分类、内容审核、固定格式抽取），单查询成本能比大模型 + RAG 便宜 10-50 倍，几周内回本。（2）需要稳定 brand 语气 / 公司政策遵循 / 严格输出格式的产品。Fine-tune 不擅长教模型新事实——那是 RAG 的活。

长上下文有什么坑？

三个：（1）Lost-in-the-middle：关键信息放在长文档中间时，准确率比放在开头/结尾掉 10-20 个百分点，部分模型超过 20%。（2）速度慢：长上下文单查询 30-60 秒，RAG 通常 1 秒级。（3）虽然 Caching 降成本，但首次请求仍按完整价计，对低频访问的文档不划算。

混合系统的最佳实践？

2026 年生产环境主流：RAG 拿事实 + Fine-tune 管行为 + 长上下文跑整文档查询。实测准确率：混合 96%、纯 RAG 89%、纯 Fine-tune 91%。Anthropic 的 Contextual Retrieval 又把 RAG 召回失败率降 49%，开 reranker 后降 67%。具体拆分：volatile（易变）知识进 RAG、stable（稳定）行为进 Fine-tune、单 session 多轮深度问答用长上下文 + Caching。

深度对比 · 2026 年 5 月 15 日 · 作者 @zayuerweb-dev

RAG vs 长上下文 vs Fine-tune 2026 完全指南：什么场景选什么

2024 年人人都在搭 RAG，群里每天有人甩 LangChain 教程。2025 年 Gemini 把上下文拉到 2M、Claude 给到 1M，论坛就开始喊"RAG 已死"。然后 2026 年大家又回来发现：单押一种方案的项目最后都打补丁打到一半，真正跑得动的产品基本都是三件套混合。这篇把我读过的几份生产报告（Anthropic、Vellum、Redis、Towards Data Science）里的数字摊开摆，告诉你什么场景该选哪条路、什么时候该升级到混合、$5K/月的 RAG 应用怎么砍到 $1K。

30 秒结论

知识库 < 200K token + 反复问：长上下文 + Prompt Caching。简单、便宜、首选。
知识库 GB-TB 级 / 几十万文档：RAG。长上下文塞不下，没得选。
知识每天都在变（新闻、价格、库存）：RAG。Fine-tune 训完就过时。
要稳定语气 / 格式 / 政策遵循：Fine-tune。教模型"怎么说"，不是"说什么"。
每天 10 万+ 高频固定任务：Fine-tune 小模型。比大模型 + RAG 便宜 10-50 倍。
生产环境最佳：混合。Fine-tune 管行为、RAG 取事实、长上下文跑整文档。准确率 96% vs 单方案 89-91%。
纠结时：先长上下文 + Caching 跑两周，撑不住再上 RAG，行为不稳再 Fine-tune。

在 Check.AI 实时对比所有模型的上下文窗口和价格 →

三种方法到底在做什么

RAG（Retrieval-Augmented Generation）

典型流程：文档切片 → 向量化 → 存进 Vector DB → 用户问问题时检索 top-K 相关片段 → 把片段拼进 prompt 让 LLM 回答。说人话就是"在一大堆文档里先捞出 5 段最像答案的，再让模型读这 5 段写答案"。

强项：规模没上限（几 GB、几 TB、上百万文档都行）；知识可以随时更新（重 index 一下就行）；可以引用来源给用户看，方便排查错答。
弱项：整个系统命脉是检索那一环，召回错了答案就一定错；架构组件多（向量库、embedding 模型、reranker、chunk 切分策略）；上线后要持续调优。

长上下文（Long Context）+ Prompt Caching

把整份文档 / 整个代码库一次性塞进 prompt（Claude 和 Gemini 现在都给到 1M token，差不多是 75 万中文字、一本厚书）。每次提问，模型在完整内容里推理。Prompt Caching 让重复部分的 token 价打 1 折。

强项：架构简单到只剩一个 API 调用，不需要向量库、不需要 chunk 切分；模型一次看完整内容，不存在"检索遗漏"；跨段落推理（比如"前 5 章说的 X 和最后一章说的 Y 有什么矛盾"）远比 RAG 强。
弱项：200K 以上开始有"lost-in-middle"问题（一会儿讲）；单查询 30-60 秒慢；GB 级知识库根本塞不下。

Fine-tune

用你自己的数据训一个小模型——Llama 8B、Qwen2.5 7B、Mistral 7B 之类。训完这个模型就"学会了"你的语气、格式、术语、政策。

强项：推理便宜（小模型 GPU 占用低）、行为非常稳定（不会今天客气明天嘴硬）、不依赖检索基础设施、可以彻底离线。
弱项：不教新事实（模型权重训完冻住，世界变了它不知道）；训练 + 维护需要 MLOps，独立开发者门槛高；对小公司来说半年迭代一次很正常，节奏跟不上。

真实成本对比（生产环境数据）

RAG 系统月成本

组件	月成本（小型）	月成本（中型 10K query/天）
Vector DB（Pinecone / Weaviate / Qdrant）	$70-500	$1,200
Embedding API	$10-50	$800
LLM API 调用	$200-2,000	$2,500-5,500
文档处理 + Reranker	$20-100	$300
Observability / 监控	$50-200	$500
合计	$350-2,850	$5,300-8,300

数据来源：Anthropic、Pinecone 产品页、Redis 案例研究、Towards Data Science 2026 年 RAG 成本调研。中型场景假设 500K 文档、10K query/天。

长上下文 + Prompt Caching 成本

同样 10K query/天、100K token 单文档场景，用 Claude Sonnet 4.6：

无 Caching：每次 $0.30 输入 → 10K × $0.30 = $3,000/天 ≈ $90,000/月（不可行）
开 Prompt Caching（命中率 85%）：$0.03 缓存命中价 × 85% + $0.30 × 15% = 平均 $0.07/query → $21,000/月
用 Haiku 4.5（小模型 + Caching）：同样配置约 $5,000/月

对照 RAG 中型 $5,300-8,300/月——Haiku + 长上下文 + Caching 已经能持平甚至更便宜，前提是文档放得下（< 200K token）。

Fine-tune 小模型成本

每天 10 万 query 的客服分类场景：

GPT-5 + RAG 跑全部：~$8,000/月
Fine-tune Qwen2.5-7B（一次训练 $200，每天 100K query × $0.0001 推理）：~$500/月
差距：16 倍便宜，训练成本 1 周回本

对高频固定任务，Fine-tune 是唯一经济上能 scale 的方案。但对低频复杂任务（每天 100 次律师工作流），Fine-tune 的训练 + 维护成本反而比 RAG / 长上下文都高。

5 分钟决策树

问自己 4 个问题，按顺序回答：

你的知识库总大小？
- < 200K token（一本书 / 一份手册 / 一份合同）→ 跳第 2 题
- > 200K token（多份文档）→ 跳第 3 题
是反复问同一份文档吗？
- 是 → ✅ 长上下文 + Prompt Caching（最简单、最便宜）
- 否（单次查询完就丢）→ 长上下文裸跑，但成本高，考虑提取关键段
知识每天都在变吗？
- 是（新闻、库存、客户记录）→ ✅ RAG（Fine-tune 训完即过时）
- 否 → 跳第 4 题
你的失败模式是什么？
- 答错事实 / 找不到信息 → ✅ RAG
- 语气不稳 / 格式乱 / 不守规矩 → ✅ Fine-tune（教行为）
- 两个都有 → ✅ 混合：RAG + Fine-tune

一条朴素经验：能在 30 分钟内塞进 Claude 1M 上下文测试得到 80% 满意结果，就先这么用。等流量起来撑不住或者准确率掉下来再升级到 RAG / Fine-tune。先解决问题，再优化架构。

5 个真实场景该选什么

场景 1：内部知识库问答（500 份 PDF，公司 wiki + 政策手册）

选 RAG。500 份 PDF 大约 5-15M token，长上下文塞不下；每月新增几十份，Fine-tune 训完就过时。Vector DB + reranker + GPT-5 / Claude 是常规组合。月成本通常 $3,000-6,000，看 query 量。

场景 2：跟 1 本厚书 / 1 个 codebase 聊天

选长上下文 + Caching。塞进 Claude 1M 或 Gemini 1M，首次请求 $1-3，后面每次走 cache 大约 $0.10。架构上只有一个 API 调用——没有 Vector DB、没有 chunk 切分、没有 reranker 调参。Cursor 的 agent 模式、GitHub Copilot Workspace 都是这个路子。

场景 3：客服自动分类（每天 50 万条工单）

选 Fine-tune 小模型。任务清晰（分到 50 个类目里）、量大、要求稳定。Fine-tune 一个 Qwen2.5-7B 或 Llama-8B，单查询 $0.0001 量级，月成本 $1,500 左右。同样工作量交给 GPT-5 + RAG，至少 $15,000 起。差 10 倍以上，几周就回本。

场景 4：法律合同审查（每月 200 份新合同 + 历史案例库）

三个一起上。当前要审的合同（单份，几十 KB）走长上下文 + Caching，律师可以连续问几十轮；历史案例库（GB 级，相似条款检索）走 RAG；最终输出格式和法律措辞用 Fine-tune 锁定（防止模型偶尔写得太口语）。这种组合最贴近"专业产品"的需求，实测准确率能上 96%。

场景 5：实时新闻问答 chatbot

RAG 是唯一答案。新闻每分钟在变，Fine-tune 训完就过时；长上下文塞不下整个新闻库。要做的就是搭一条持续 embedding pipeline 给新文章实时入库，配合 reranker 提精度。这种产品没有"另选一条路"的余地。

长上下文的 3 个反直觉坑

1. Lost-in-the-middle：关键信息塞中间，准确率掉 10-20 个百分点

模型记忆是 U 型分布——开头和结尾记得清楚，中间段最容易"漏"。Stanford 那篇 2023 年的 "Lost in the Middle" 论文起，后续 Anthropic、Google 多次复现：同一份 100K 文档，关键句子放开头或结尾时召回 95%；塞到正中间召回掉到 75-80%。GPT-3.5-Turbo 极端情况能掉超过 20 分。

实际怎么办：重要的指令、人物名、关键数字放 prompt 开头和结尾各放一份；超过 200K token 还是切 chunk 走 RAG。别指望模型每次都能在 1M 上下文里找到第 47 万 token 上的那个名字。

2. 速度慢：长上下文单查询 30-60 秒，RAG 1 秒

1M token 输入意味着模型得"读完"才开始输出。实际跑同一份知识库：RAG 端到端检索 + 推理大概 1 秒；长上下文 1M 通常 30-60 秒，即使开了 streaming。

C 端实时对话产品扛不住这种等待，用户早跑了。长上下文更适合 batch、异步、agent 那种"丢任务给它然后干别的"的场景，不适合纯聊天 UI。

3. Caching 只省"重复部分"，对低频访问反而更贵

Prompt Caching 是从第二次请求开始打折。首次请求按完整价计费，Claude 那边还要收 1.25× 写入溢价。一份 100K 的文档如果每月只被查 2 次，开 Caching 反而比不开还贵。

实战做法：给每份文档监控 query 频次，命中率低于 30% 的不开 Caching；高于 80% 的全开。中间灰色地带按业务价值判断。

2026 年混合最佳实践

Vellum、Anthropic、Redis 多家厂商的 2026 年指南都指向同一个结论：纯一种方案不再有竞争力，生产环境 90% 是混合。

职责拆分

RAG → 易变事实：新闻、价格、库存、客户记录、新增文档
Fine-tune → 稳定行为：品牌语气、输出格式、政策遵循、分类规则
长上下文 + Caching → 单 session 深度：当前对话的完整上下文、当前合同的所有条款、当前代码库的完整代码

实测数据

方案	领域准确率	月成本（中型）	维护复杂度
纯 RAG	89%	$5,300-8,300	中（需 vector DB ops）
纯 Fine-tune	91%	$500-2,000	中（需 MLOps）
纯长上下文 + Caching	82-87%（lost-in-middle）	$3,000-15,000	极低
混合（RAG + Fine-tune + 长上下文）	96%	$4,000-10,000	高（三栈一起维护）

数据来源：Vellum、Umesh Malik 生产指南、Anthropic Contextual Retrieval 论文。准确率为典型领域基准的中位数。

Anthropic Contextual Retrieval（2024 末，2026 已普及）

把传统 RAG 召回失败率降 49%，开 reranker 后降 67%。机制是给每个 chunk 加入"它来自哪个文档、哪个章节"的上下文 prefix，让 embedding 更准。2026 年做 RAG 没接 Contextual Retrieval = 输在起跑线。

未来 6 个月观察点

3M / 5M token 上下文。Gemini 已经在测试 2M+ 公开版本。一旦稳定，< 1M 的知识库 RAG 价值急速贬值。
Prompt Cache 持久化。当前 Claude cache TTL 是 5 分钟（beta 1 小时）。如果未来给到 24h / 永久，长上下文成本再砍一半。
更小、更便宜、更易 fine-tune 的开源模型。Qwen3 Coder、DeepSeek 蒸馏小模型让 Fine-tune 门槛进一步降低。
RAG 工具栈整合。LangChain、LlamaIndex、Vespa、Pinecone 之争最终会有几家退出，剩 2-3 家。
Memory tool 类原生 API。Claude Opus 4.7 已经引入 memory tool，未来可能让"持久知识 + 当下 query"更原生，介于 RAG 和长上下文之间。

FAQ

三个怎么选？知识库经常变 + 大 → RAG；单份 < 200K token 反复问 → 长上下文 + Caching；要稳定行为 → Fine-tune。生产环境 90% 混合。

RAG 是不是过时了？没有。对 GB-TB 级知识库和实时数据场景，RAG 仍是唯一答案。但对 < 200K token 的单文档场景，长上下文 + Caching 更简单。

Prompt Caching 省多少？命中价是普通输入的 1/10，命中率 80-95% 时整体降本 70-90%。$5K/月可降到 $1K。

Fine-tune 还值得？每天 10 万+ 高频固定任务必选，能比 GPT-5 + RAG 便宜 10-50 倍。

长上下文最大坑？Lost-in-the-middle：信息塞中间准确率掉 10-20%。把关键放开头/结尾。

混合系统从哪开始搭？先 RAG 取事实（基础），加 Fine-tune 管行为（稳定），最后用长上下文 + Caching 处理 session 深度问答。

→ 在 Check.AI 实时对比所有模型的上下文窗口、价格和 cache 支持