Check.AI

深度对比 · 2026 年 5 月

GPT-5 vs Claude Sonnet 4.6:写代码到底选哪个

认真写代码的 AI 就两家选:OpenAI 的 GPT-5(含 Pro),Anthropic 的 Claude Sonnet 4.6。我把它们都接进 Cursor 跑了一周,对照 SWE-bench 数字和官方价格——这篇直接告诉你什么场景用哪个。不是"两个都很棒"那种废话。

30 秒结论

核心规格对比

维度Claude Sonnet 4.6GPT-5
输入价(每 1M token)$3.00$2.50
输出价$15.00$10.00
上下文窗口200K(1M beta)400K
SWE-bench Verified~70%~65%
HumanEval~94%~96%
LiveCodeBench~72%~78%
工具调用稳定性最强非常好
Cursor 默认备选

数据来源:Anthropic / OpenAI 官方价格页、SWE-bench Verified、LiveCodeBench、Vellum 公开评测,截至 2026 年 5 月。

真实场景一:用 Cursor 改一个跨文件的 bug

同一个任务:"登录失败时不显示错误消息,请定位并修复"。涉及前端组件、API 路由、错误处理 middleware 三个文件。

Claude Sonnet 4.6 的表现:读了 3 个相关文件、定位到 middleware 里的错误吞掉,给出 patch、运行类型检查通过、只改了必要的行。一次完成。

GPT-5 的表现:读了同样的文件,找到了相同的根因,但顺手"优化"了 middleware 里两个无关的早期 return 风格。代码本身正确,但 diff 比 Claude 大 3 倍。需要人工挑掉无关改动。

结论:agent 模式下 Claude 更克制。这是 Cursor / Cline / Aider 把它设成默认的原因。代码库越大、PR 评审越多人,这点越值钱。

真实场景二:算法题/系统设计

"设计一个支持 100 万 QPS 的 URL 短链服务,含一致性、容量估算、降级方案。"

GPT-5 Pro:主动反问 — "读多还是写多?预算如何?是否需要分析自定义后缀?" 然后给出三种方案并标注每种的取舍。

Claude Sonnet 4.6:直接给出一个完整方案,质量也好,但反问意识弱。

结论:开放问题、系统设计、面试题——GPT-5 Pro 明显更稳。"会反问"才是真正的推理优势,不是把结果写得多漂亮。

真实场景三:性价比

同一个 100 文件的 monorepo 让 AI 跑一遍代码 review。预估总 token 输入 800K、输出 200K。

GPT-5 标价便宜,但 Claude 的 prompt caching 折扣更激进。如果是反复使用同一份 system prompt 的产品,Claude 实际成本可能反超 GPT-5。请用自己数据测一次。

什么时候 GPT-5 反而更合适

什么时候必选 Claude

怎么"两个都用"

2026 年最常见的工程师 setup:

  1. Cursor 默认 Claude Sonnet 4.6 处理日常编辑、补全、重构。
  2. 遇到硬骨头切到 GPT-5 Pro(Cursor 内置切换),让它先问清楚、再给方案。
  3. 批量、低价值任务(lint、文档生成、commit message)切到 DeepSeek R1 或 Claude Haiku 4.5,省钱。
  4. 整库问答切到 Gemini 2.5 Pro,2M 上下文整个项目塞进去。

别押单一模型。前沿这帮每 3-6 个月就换一次老大。能切就切,别给自己挖坑。

用一个 API key 同时调用两者

如果你在写自己的工具或 agent,OpenRouter 提供一个 OpenAI 兼容接口,同时路由到 GPT-5、Claude、DeepSeek、Gemini,方便切换和 A/B 测试。注:OpenRouter 没有公开的推广返佣计划,下面是普通推荐链接。

前往 OpenRouter →

一句话总结

主力 Claude Sonnet 4.6,硬骨头切 GPT-5 Pro,批量任务切 DeepSeek R1。整库问答用 Gemini。不要试图押一个模型 — 切换才是 2026 年的最佳实践。

→ 在 Check.AI 并排对比所有模型