AI 模型选型指南 · 2026 年 5 月更新
2026 年最便宜的 AI API 模型
如果你在做 AI 产品,API 账单往往是最大的可变成本。前沿模型价格自 2024 年以来已经掉了 5-10 倍,能跑过你评测的最便宜模型几乎永远是正确选择。这篇按 2026 年实际价格排名,并标注每款的质量边界。
价格排名 — 输入 + 输出 每百万 token
- Gemini 2.5 Flash — ~$0.10 / $0.40。最快最便宜的顶级模型,硬推理弱。
- GPT-5 mini — ~$0.15 / $0.60。指令遵循强,工具调用好。
- DeepSeek R1 — ~$0.55 / $2.19。性价比之王,推理和写代码质量最好。
- Qwen3 Max — ~$0.80 / $2.40。中文/多语言强,亚洲低延迟。
- Claude Haiku 4.5 — ~$0.80 / $4.00。最强的小型 Claude,工具用得稳。
- Mistral Large — ~$2 / $6。欧盟托管选项,质量不错。
- GPT-5 — ~$2.50 / $10。前沿推理基准价。
- Claude Sonnet 4.6 — ~$3 / $15。agent 编程贵但值。
以上是不带缓存、不带 batch 的标价。实际花销做好优化后能再降 30-70%。
三个常被忽视的省钱杠杆
- Prompt caching(Anthropic、OpenAI、DeepSeek 都支持):缓存前缀只收正常输入价的 10-50%。聊天产品复用 system prompt 或文档时,输入 token 能省 50-90%。最大单一杠杆。
- Batch API(OpenAI、Anthropic):24 小时内异步完成的任务半价。回填、批量打分、内容生成最适合。
- 输出 token 节制。输出价是输入价的 4-5 倍。让模型返回结构化 JSON 而不是散文,输出能砍 70%。
max_tokens是你的好朋友。
便宜的边界(哪些任务别省)
便宜模型在以下场景容易翻车:长 agent 循环(5+ 工具调用)、细致推理、模糊指令、跨文件代码重构、需要语气把控的内容。一个"便宜"模型循环 5 次的总成本经常超过 Claude 一次完成的开销。永远算每个完成任务的成本,不是每个 token 的成本。
便宜模型最擅长:分类、情感分析、抽取(NER、结构化输出)、翻译、定长总结,以及任何能用字符串匹配判定对错的任务。
独立产品推荐的便宜栈
- 用户路径(实时返回):Gemini 2.5 Flash 或 GPT-5 mini,亚秒级延迟,单次请求通常 < $0.001。
- 推理兜底:DeepSeek R1 或 GPT-5,仅在小模型置信度低时调用。
- 批量任务:必上 batch API,半价是免费的钱。
- Embedding:OpenAI
text-embedding-3-small或开源bge-large。
一个 key 路由所有便宜模型 — OpenRouter
OpenRouter 用一个 OpenAI 兼容接口路由到 DeepSeek、Gemini Flash、GPT-5 mini、Claude Haiku 等。A/B 测试不同模型时不用注册 6 次。
OpenRouter 目前没有公开的推广返佣计划,此为普通推荐链接。
FAQ
2026 年最便宜的 API?输入大用 Gemini 2.5 Flash,要推理质量用 DeepSeek R1。
DeepSeek 真比 GPT-5 便宜?是。输入和输出都便宜约 5 倍,多数编程和推理任务质量相当。
该用 Claude Haiku 吗?如果 Sonnet 能跑通的任务,Haiku 通常也能,价格只要 1/4。务必先测。
哪里看实时价格?Check.AI 每周追踪,厂商页面是权威来源。