Check.AI

深度评测 · 2026 年 5 月 12 日 · 作者

Claude Opus 4.7 深度评测:SWE-bench 87.6%、价格不变、谁该升级

Anthropic 在 2026 年 4 月 16 日发布的 Claude Opus 4.7,是过去一年 Claude 家族最实质的版本升级。SWE-bench Pro 单次跳了 10.9 分、幻觉率从 61% 砍到 36%、高分辨率图像支持上线、价格不变(但 tokenizer 改了导致隐性涨 0-35%)。这篇用 Anthropic 官方文档、Vellum 实测、Artificial Analysis 数据,把 Opus 4.7 跟 4.6、GPT-5.4、Gemini 3.1 Pro、Sonnet 4.6 一次性摆清楚——你看完就知道该不该升、怎么升、什么场景反而不该升。

30 秒结论

在 Check.AI 实时对比所有模型 →

核心规格

项目 Claude Opus 4.7
API model IDclaude-opus-4-7
发布日2026-04-16
上下文窗口1,000,000 token
最大输出128,000 token
输入价$5.00 / 百万 token
输出价$25.00 / 百万 token
Cache 命中输入价 × 0.1(省 90%)
Batch API输入/输出半价
高分辨率图像2576px / 3.75MP(上一代 1568px / 1.15MP)
渠道Anthropic API、AWS Bedrock、Azure、Google Vertex

关键跑分 vs 上一代和竞品

基准 Opus 4.7 Opus 4.6 GPT-5.4 Gemini 3.1 Pro
SWE-bench Verified(agent 编程)87.6%80.8%80.6%
SWE-bench Pro(更难)64.3%53.4%57.7%54.2%
Terminal-Bench 2.0(CLI)69.4%65.4%82.7%(GPT-5.5)68.5%
MCP-Atlas(多工具调用)77.3%75.8%68.1%73.9%
Finance Agent v1.164.4%60.1%61.5%(Pro)59.7%
OSWorld-Verified(computer use)78.0%72.7%75.0%
BrowseComp(web research)79.3%83.7%89.3%(Pro)85.9%
GPQA Diamond(科学推理)94.2%91.3%94.4%(Pro)94.3%
CharXiv(视觉推理)82.1%69.1%
幻觉率(越低越好)36%61%

数据来自 Anthropic 官方文档、Vellum 评测、Artificial Analysis Intelligence Index,截至 2026 年 5 月。"—"表示该机构未公布对应数字。GPT-5.4 Pro 是 OpenAI 的更高 effort 版本,价格更高。

5 个真正重要的变化

1. SWE-bench Pro +10.9 分:agent 编程的拐点

SWE-bench Verified 已经卷到 80%+ 没人在乎了。SWE-bench Pro 才是 2026 年真正的 agent 编程基准——更难、需要多步规划、跨文件协调。Opus 4.6 → 4.7 单次跳 10.9 分(53.4% → 64.3%)是过去一年所有前沿模型里的最大单次跳跃,把 GPT-5.4 的 57.7% 和 Gemini 3.1 Pro 的 54.2% 远远抛开。

实战意义:原来 Claude Code 跑大型重构 60% 一次成功率,现在 75%+。少一次重试就回本。

2. 幻觉率从 61% 砍到 36%

这是 Anthropic 官方公布最戏剧性的数字——同一套测试 Opus 4.6 幻觉 61%,4.7 只有 36%。机制是模型更愿意"我不知道"而不是硬编。对生产环境意味着:自动化客服 / 法律 RAG / 医疗辅助这类错答比不答还贵的场景,4.7 是必升项。

3. 高分辨率图像支持(computer use 真正可用了)

图像上限从 1568px / 1.15MP 提到 2576px / 3.75MP。坐标 1:1 像素映射不再需要 scale-factor 换算。对三类场景是质变:

4. Tokenizer 改了:账单可能涨 0-35%

价目表写 $5/$25 不变,但同一段中文 / 代码 / 数据,4.7 用 1.0 到 1.35 倍的 token。意思是:

最佳实践:升级前用自己真实流量跑 100-500 次测一下账单变化,别直接相信"价格不变"宣传。

5. xhigh effort + task budgets(agent 工作流的新工具)

Anthropic 新增 xhigh effort 等级(比 high 更"卷",token 花得更多但更稳)。新增 task_budget beta header,给 agent 一个 token 总预算让它自己分配——模型能看到倒计时,会自己优先级排序、按时收尾。

对独立开发者意义不大,对企业 agent 工作流(CI/CD 集成、自动化 PR review)是质变。

三个破坏性 API 变更,升级前必看

  1. extended thinking 删了。thinking: {"type": "enabled", "budget_tokens": N} 直接 400。改用 thinking: {"type": "adaptive"} + effort: "high"
  2. temperature / top_p / top_k 全删了。设非默认值直接 400。靠 prompt 控制行为。
  3. thinking 内容默认不返回。UI 流式展示推理过程的产品会看到长时间空白。需要把 display: "summarized" 显式打开。

同时 adaptive thinking 默认关——不主动设置就完全不思考。这是和 4.6 行为最大差异。Claude Code、Cursor、Cline 这些工具已经更新适配,自己写 SDK 接的要改。

谁该升、谁不该升、谁该跳过

🟢 必升

🟡 可以升,但先 A/B 测

🔴 别折腾

真实成本估算(跑同样工作量)

假设场景:每月 500 个 PR 的 code review agent,每个 PR 平均输入 40K token、输出 4K token、3 次工具调用。

模型 月成本 SWE-bench Pro 建议
Opus 4.7~$15064.3%关键 PR + 复杂重构
Opus 4.6~$13053.4%已无理由用,升 4.7
Sonnet 4.6~$90~50%常规 PR、性价比之选
GPT-5.4~$7557.7%CLI / 终端任务
DeepSeek R1~$15~52%cost-sensitive 批量

估算仅供参考,未计入 prompt cache 和 batch 折扣。Cache 重度复用可让 Opus 4.7 实际成本下降 40-60%。

未来 6 个月观察点

FAQ

Opus 4.7 什么时候发布?2026 年 4 月 16 日。API ID claude-opus-4-7

价格变了吗?表面不变($5/$25),但新 tokenizer 让中文/代码多耗 1-1.35× token,实际账单可能涨 0-35%。

必须升级吗?做 agent 编程 / computer use / RAG 必升。做批量低价值任务、CLI 重度场景不必。

对比 GPT-5.4?SWE-bench Pro Opus 强(64.3% vs 57.7%),BrowseComp GPT 强(89.3% vs 79.3%)。GPQA 三家几乎并列。

升级要改代码吗?要。extended thinking budget、temperature/top_p/top_k 全删了。thinking 内容默认不返回。

1M 上下文要加钱吗?不要。1M 上下文是标准定价,没有 long-context 溢价。

→ 在 Check.AI 实时对比 Opus 4.7 vs 其他模型