哪个 AI 模型上下文窗口最长？

Gemini 2.5 Pro 200 万 token，是生产环境最大的。Claude Sonnet 4.6 1M（beta），标准 200K。GPT-5 400K。Qwen3 最高 1M。

100 万 token 上下文真的能用吗？

检索类任务（在长文里找一条事实）能用，Claude 和 Gemini 在 500K 内召回率都能保持 90%+。多步推理跨整个窗口时，召回率 200K 之后会掉到 60-70%。务必用自己数据测试。

长上下文还是 RAG，怎么选？

知识库稳定、查询短选 RAG，便宜快速。每次请求上下文都不同、跨文档关系重要、切块会破坏语义（合同、代码、长访谈）选长上下文。

100 万 token 一次调用多少钱？

Claude Sonnet 4.6 价格 ~$3 一次输入 + 几分钱输出。Gemini 2.5 Pro 约 $1.25 / $10。开 prompt caching 后第二次调用能再省 50-90%。

什么是大海捞针测试？

在长上下文里藏一条事实，让模型找出来。前沿模型都能拿 95%+，已经是太简单的指标。真实场景（多事实推理、矛盾辨别）召回率掉得快。

AI 模型选型指南 · 2026 年 5 月更新

2026 年长上下文 AI 模型对比

长上下文模型让你能用"直接把整个东西贴进去"替代脆弱的 RAG。2026 年值得关注的有四款：Gemini 2.5 Pro（2M）、Claude Sonnet 4.6（1M beta）、GPT-5（400K）、Qwen3（1M）。但厂商宣传数字不是全部 — 召回率、延迟、价格在长度增长时各自崩塌的方式不一样。

真正重要的窗口大小

Gemini 2.5 Pro — 200 万 token。最大，"解释整个仓库"最强。
Claude Sonnet 4.6 — 标准 200K，beta 1M。500K 以内召回率最高。
Qwen3 Max — 最高 1M。便宜的长上下文选项，中文支持好。
GPT-5 — 400K。窗口不算最大但跨窗口推理质量最稳。
DeepSeek R1 — 128K。便宜的中长上下文，多数文档够用。

窗口 ≠ 可用上下文（召回陷阱）

每个前沿模型大海捞针都能拿 95%+。这个指标已经太弱。真实场景需要多事实召回（找 3 个细节并交叉验证）和跨文档推理。这两个上的实际表现：

100K 以内：~95% 召回，所有顶级模型都没问题。
100K-500K：Claude 和 GPT-5 ~90%；Gemini 2.5 Pro ~85%。
500K-1M：Claude（beta）、Gemini ~75-80%；推理质量明显下降。
1M-2M（仅 Gemini）：检索可用，推理不可靠。

实操建议：按召回率而不是窗口大小做规划。如果你的任务需要 200K 之后稳定的跨文档推理，照样要做检索。

长上下文 vs RAG — 到底怎么选

用长上下文当：每次请求文档都不同（每场会议纪要不一样）；文档结构跨段落很重要（法律合同、代码仓库）；无法可靠切块（诗歌、紧密论证的长文）。

用 RAG 当：知识库稳定、复用频繁；查询短、查表风格；成本敏感、读多次；需要确定切块作为引用源。

组合用当：知识库大、单次查询关联范围中等。先检索到 ~200K，再交给长上下文模型。质量最好、成本可控。

长上下文调用的真实成本

100 万 token 一次调用没大家想象的那么贵，加上缓存更便宜：

Claude Sonnet 4.6：首次约 $3，缓存后约 $0.30-0.60。
Gemini 2.5 Pro：首次约 $1.25。隐式缓存可用。
GPT-5：100 万输入约 $2.50，缓存折扣强。

同一份 50 万 token 文档被 100 个用户问，缓存能把每天 $150 的开销降到 $15-30。

按场景推荐

代码仓库 Q&A：整库塞 Gemini 2.5 Pro，聚焦 200K 子集做编辑用 Claude Sonnet 4.6。
法律合同与合规：Claude Sonnet 4.6 — 保留原文措辞、引用源最稳。
研究论文综述：GPT-5 或 Claude，避免 Gemini 在 500K 后做推理。
会议纪要与通话分析：低成本用 Gemini Flash 或 Claude Haiku 4.5，重要场合升级到 Sonnet。
整本书或剧本：Gemini 2.5 Pro — 唯一能舒服塞下整本小说的。

用 OpenRouter 快速测试

OpenRouter 一个 OpenAI 兼容 key 同时调用 Gemini 2.5 Pro、Claude 1M beta、Qwen3 长上下文，自己数据 benchmark 时省事。

试试 OpenRouter →

OpenRouter 目前没有公开的推广返佣计划，此为普通推荐链接。

FAQ

2026 年窗口最长？Gemini 2.5 Pro 200 万 token。

500K 内召回最稳？Claude Sonnet 4.6。

最便宜的长上下文 API？Qwen3（1M）或 DeepSeek（128K），其次 Gemini 2.5 Pro。

该不该把 RAG 换成长上下文？仅当你的查询确实需要全文。复用知识 RAG 仍然更便宜、更可引用。

→ 并排对比上下文窗口