2026 年 5 月 28 日,Anthropic 在官网发布 Claude Opus 4.8。
一句话总结这次更新:价格没涨,速度更快,但官方把 headline 留给了一个不太性感的词——「honesty」(诚实)。
在 AI 厂商普遍用跑分数字轰炸开发者的 2026 年,Anthropic 选择把「模型不再瞎编自己完成了任务」作为 Opus 4.8 的核心卖点之一。这个选择本身,比任何 benchmark 都更值得拆开看。
官方公布的核心规格
以下数据全部来自 anthropic.com/claude/opus 产品页与官方公告:
| 维度 | Opus 4.8 |
|---|---|
| 发布日期 | 2026 年 5 月 28 日 |
| 上下文窗口 | 1M token |
| 标准定价(输入) | $5 / 百万 token |
| 标准定价(输出) | $25 / 百万 token |
| Fast Mode 定价(输入) | $10 / 百万 token |
| Fast Mode 定价(输出) | $50 / 百万 token |
| Fast Mode 速度 | 2.5× 标准速度 |
| Fast Mode 降价幅度 | 较前代便宜 3 倍 |
| API 模型名 | claude-opus-4-8 |
| 可用渠道 | Claude Pro / Max / Team / Enterprise + API + AWS / GCP / Microsoft Foundry |
| Prompt Caching | 最高省 90% |
| Batch Processing | 省 50% |
| 美国专属推理 | 1.1× 定价 |
关键信息:标准定价与 Opus 4.7 完全一致。 Anthropic 在公告里明确写了「available today for the same price」。这意味着老用户切换模型名后,账单不会变化,但能力会升级。
诚实度:这次更新的真正 headline
官方公告用了一整段描述 Opus 4.8 的「honesty」提升,原文如下:
Early testers report that Opus 4.8 is more likely to flag uncertainties about its work and less likely to make unsupported claims. This is borne out in our evaluations, which show that Opus 4.8 is around four times less likely than its predecessor to allow flaws in code it has written to pass unremarked.
翻译过来就是:Opus 4.8 比前代少 4 倍概率「对自己写的代码缺陷视而不见」。
这件事为什么重要?
过去两年,AI 编程助手最大的问题不是「写不出代码」,而是「写错了还信誓旦旦说写对了」。模型在长任务里跳到结论、声称已经完成进度但证据薄弱——这是 Agent 工作流里最致命的失败模式,因为它会让人类监督者放松警惕。
Anthropic 把这个指标单独拎出来讲,说明他们意识到:在 Agent 时代,「知道自己不知道什么」比「跑分高 2 分」更值钱。
官方同时公布了 alignment 评估结论:Opus 4.8 在「支持用户自主性」「以用户最佳利益行动」等亲社会特质上达到新高,欺骗或配合滥用的失准行为率「显著低于 Opus 4.7,接近最佳对齐模型 Claude Mythos Preview」。
同期上线的三个新功能
Opus 4.8 不是单独发布,它带着三个配套能力一起落地。
1. Dynamic Workflows(Claude Code,研究预览)
这是这次更新里工程量最大的功能。官方描述:
Claude can plan the work and then run hundreds of parallel subagents in a single session... Claude Code with Opus 4.8 can now carry out codebase-scale migrations across hundreds of thousands of lines of code from kickoff to merge, with the existing test suite as its bar.
核心能力:
| 能力 | 说明 |
|---|---|
| 并行子代理 | 单会话内运行数百个 |
| 任务规模 | 跨数十万行代码的仓库级迁移 |
| 验证机制 | 用现有测试套件作为完成门槛 |
| 可用范围 | Claude Code for Enterprise / Team / Max |
注意:这是 research preview,不是稳定版。 个人 Pro 用户暂时用不到。
2. Effort Control(claude.ai 和 Cowork)
用户现在可以手动选择 Claude 投入多少「努力」来回答问题:
| 档位 | 行为 |
|---|---|
| 低 effort | 响应更快,消耗 rate limit 更慢 |
| 高 effort(默认) | 更频繁、更深地思考,质量更好 |
| Extra / xhigh(Claude Code) | 困难任务和长时异步工作流推荐 |
| Max | 最高 token 消耗,最高质量 |
官方建议:日常用 high,困难任务用 extra。 同时 Claude Code 的 rate limit 已经上调,以容纳更高 effort 带来的 token 消耗增长。
3. Messages API 支持 system entries
开发者现在可以在 messages 数组中插入 system 条目,无需打破 prompt cache 或绕道 user turn 就能中途更新 Claude 的指令。典型用途:
- 任务运行中更新权限
- 动态调整 token 预算
- 注入环境上下文变化
这是个面向 Agent 框架开发者的底层优化,普通用户感知不到,但对长时 Agent 工作流的成本控制很关键。
客户评价:11 条引用,全部署名
官方公告列出了 11 位早期测试者的署名评价。这是官方数据,不是网友口碑,我原样摘录关键几条:
Tom Pritchard(Staff Engineer):
Claude Opus 4.8 has noticeably better judgment. In Claude Code, it asks the right questions, catches its own mistakes, pushes back when a plan isn't sound.
Kay Zhu(Co-Founder / CTO):
On our Super-Agent benchmark, Claude Opus 4.8 is the only model to complete every case end-to-end, beating prior Opus models and GPT-5.5 at parity on cost.
Michael Truell(Co-Founder / CEO, Cursor):
On CursorBench, Claude Opus 4.8 exceeds prior Opus models across every effort level. Tool calling is meaningfully more efficient, using fewer steps for the same intelligence.
Miguel Gonzalez(Tech Lead):
Claude Opus 4.8 is the strongest computer-use and browser-agent model we've tested, scoring 84% on Online-Mind2Web, which is a meaningful jump over both Opus 4.7 and GPT-5.5.
Hanlin Tang(CTO Neural Networks, Databricks):
In Genie... the new Opus model unlocks a step change in agentic reasoning... Its multimodal strength also lets Genie reason directly over PDFs, diagrams, and other unstructured content at 61% cheaper token cost than Opus 4.7.
Scott Wu(CEO, Cognition / Devin):
Claude Opus 4.8 uses tools cleanly and follows instructions with the consistency our autonomous engineering workloads need... It improves on Opus 4.6 and fixes the comment-verbosity and tool-calling issues we saw with Opus 4.7.
注意 Scott Wu 这条——他明确说 4.8 修复了 4.7 的「注释冗长」和「工具调用问题」。这是官方引用里少见的「承认前代有缺陷」的表述。
官方脚注里的隐藏信息
公告末尾有三个脚注,容易被忽略但信息量很大:
| 脚注 | 内容 |
|---|---|
| Terminal-Bench 2.1 | GPT-5.5 用 Codex CLI harness 的分数是 83.4%(暗示 Opus 4.8 用的是 Terminus-2 public harness) |
| OSWorld-Verified | Opus 4.7 分数被回溯更新为 82.3%(评测方法有调整) |
| Finance Agent v2 | Gemini 3.5 Flash 得分 57.9%(官方主动对比了竞品) |
第三个脚注特别有意思——Anthropic 在自己的 Opus 4.8 公告里,主动提了 Gemini 3.5 Flash 的分数。 这种跨厂商对比在官方公告里并不常见,说明 Finance Agent v2 这个基准上 Opus 4.8 的优势足够明显,值得拿出来讲。
关于「套餐额度」的争议:官方没说,但用户在告
这里必须诚实说明一件事。
很多中文用户关心一个传闻:「Opus 4.8 发布后,Claude 订阅套餐的额度政策有变化,某号之后不能用套餐额度跑 Opus 了。」
我在 anthropic.com 官方公告和产品页里没有找到任何关于「某号之后套餐额度不可用」的明确政策表述。 官方只说了 Opus 4.8 对 Pro / Max / Team / Enterprise 用户可用,以及 Claude Code 的 rate limit 已经上调。
但这个传闻并非空穴来风。华尔街日报报道(搜索可见,原文需自行核实),华盛顿特区用户 Karl Kahn 已对 Anthropic 提起集体诉讼,指控其最高端订阅套餐的使用额度存在误导。这起诉讼目前仍在进行中,具体细节以法院公开文件为准。
结论: 套餐额度的具体限制以 Anthropic 官方定价页和账户实际提示为准。本文不编造任何未在官方页面出现的「某号政策」具体日期或规则。如果你是付费用户,遇到额度问题,请以 claude.com/pricing 和账户内提示为唯一依据。
Project Glasswing:比 Opus 更强的模型在路上
公告最后透露了下一步:
We plan to release a new class of model with even higher intelligence than Opus. As part of Project Glasswing, a small number of organizations are currently using Claude Mythos Preview for cybersecurity work.
也就是说:
- Mythos 级模型比 Opus 更强,但需要更强的网络安全防护才能公开发布
- 目前少量组织在用 Claude Mythos Preview 做网络安全工作
- Anthropic 预计「未来几周」把 Mythos 级模型带给所有用户
这解释了为什么 Opus 4.8 的升级幅度被官方自己形容为「modest but tangible improvement」(适度但可感知的改进)——真正的旗舰可能在 Mythos,不在 Opus。
行业影响
1. 「诚实度」成为新的竞争维度。 当跑分差距缩小到个位数百分比,模型是否「知道自己不知道」开始成为 Agent 工作流选型的决定性因素。Anthropic 把 4× 的缺陷识别提升作为 headline,是在抢占这个叙事。
2. Fast Mode 降价 3 倍改变成本结构。 对高频调用 Opus 的团队,Fast Mode 从「奢侈品」变成「日常选项」。2.5× 速度 + 1/3 价格,单位 token 性价比提升约 7.5 倍。
3. Dynamic Workflows 把 Agent 并行度推到数百。 单会话数百个子代理并行,意味着仓库级迁移这种过去需要人工拆解的任务,现在可以一次性丢给 Claude Code。但研究预览的标签也说明稳定性还没到生产级。
4. 套餐额度诉讼是悬在头顶的剑。 不管诉讼结果如何,高端订阅用户对「额度缩水」的感知已经形成。这会影响所有 AI 厂商的订阅产品定价策略——承诺的额度必须可预期,否则信任成本会转嫁到下一轮续费率上。
诚实的局限
这篇文章必须承认几个局限:
- 官方 benchmark 表格是图片,不是文本。 公告里的能力对比表是
![]()形式的图片,我无法读取具体分数。本文所有数字来自官方文字描述和脚注,未引用图片中的表格数据。 - 客户评价是官方筛选的。 11 条引用全部正面,这是厂商公告的常态,不代表全部用户反馈。
- 「7 号政策」无法在官方页面核实。 本文不编造任何具体日期或规则,相关争议以法院公开文件和官方定价页为准。
- Mythos Preview 没有公开基准。 「比 Opus 更强」是官方表述,但具体强多少、在哪些维度强,目前没有公开数据。
写在最后
Opus 4.8 最值得记住的不是某个跑分数字,而是 Anthropic 选择把它放在 headline 的那个词:honesty。
在一个模型越来越擅长「自信地编造」的时代,把「不瞎编」做成卖点,本身就是一种态度。至于这个态度能转化成多少市场份额,要看 Dynamic Workflows 稳定后的实际表现,以及套餐额度诉讼的最终结果。
官方公告原文:anthropic.com/news/claude-opus-4-8 产品页:anthropic.com/claude/opus System Card:anthropic.com/claude-opus-4-8-system-card