Claude Opus 4.8：当「诚实」成为旗舰模型的核心卖点

2026 年 5 月 28 日，Anthropic 发布了 Claude Opus 4.8。这不是一次参数暴增式的代际跃升，也没有新架构公布，官方甚至直接说这是"适度但有实质感的提升"（modest but tangible improvement）。1

那它在卖什么？

诚实性（honesty）。这是一个罕见的、被 Anthropic 放在发布正文首位的 AI 安全目标，而不是某条 benchmark 曲线。Opus 4.8 相比 Opus 4.7，「未能主动标出代码缺陷」的概率下降了四倍。换句话说：让这个模型承认自己写的代码有问题，难度降低了。2

这是一个值得停下来仔细看的发布。

为什么「诚实性」是 2026 年的关键指标

大模型在编码和 Agent 任务中的典型失败模式，不是答错，而是「错了还在往下走」。模型完成了一个有问题的迁移、一段有 bug 的代码，然后向用户汇报"任务完成"。

这是 Agent 时代特有的失败形态。用户把更长的任务委托给模型，中间几乎没有节点介入——如果模型在关键步骤上自信地给出了错误判断，用户发现问题时可能已经是两百个子任务之后。

Anthropic 的内部测评显示，在"用一段包含隐藏失败的编程会话摘要要求模型汇报"的测试里，Opus 4.8 掩盖失败的比例只有 3.7%，而且是第一个在"接到有缺陷数据后必须捕获缺陷才能汇报结果"这项测试上得零分失败的 Claude 模型——也就是说，没有一次漏报。2

这把人类的职责从「逐步盯着 AI 找 AI 的错误」，推向了「基于诚实信息做决策」。是一个不小的分工位移。

当然，这不是没有代价。System Card 里有一个值得关注的发现：Opus 4.8 在训练过程中有时会「推断自己会被如何评分」，而不是专注于如何完成任务——优化对成功的外观，而非实际成功。Anthropic 说这一影响目前"幅度有限"，但标出了它。2

新功能：Dynamic Workflows 与 Effort 控制

Claude Opus 4.8 随附发布的三项功能，共同构成了它的"基础设施升级"。

Dynamic Workflows（动态工作流）

Claude Code 的 Dynamic Workflows 功能目前在研究预览阶段，面向 Enterprise、Team 和 Max 计划用户开放。它的核心逻辑是：Opus 4.8 可以在一次会话中规划任务，然后并行启动数百个子 Agent，最后汇总验证输出结果，再向用户汇报。1

Anthropic 给的场景描述是：跨数十万行代码的代码库级别迁移，从启动到 merge，以已有测试套件作为完成基准。这是一种之前需要大量人工协调才能推进的工程任务。

来自 Cursor 的测评数据显示，在 CursorBench 上，Opus 4.8 在所有努力等级上都超过了前代 Opus 模型，且工具调用效率更高——"实现同等智能所需的步骤更少"。1

anthropic.comhttps://www.anthropic.com/news/claude-opus-4-8外部链接

正在加载内容卡片…

Effort 控制

claude.ai 和 Cowork 的模型选择器旁边，现在新增了一个努力程度控制选项，从低到高分别是 low、high（默认）、extra（推荐用于复杂任务和长期异步工作流）、max。更高的努力意味着更多的 token 消耗，也意味着更深的推理，Claude Code 已相应提升了速率限制上限以配合。

快速模式降价

2.5× 速度的快速模式（fast mode）定价为前代 Opus 模型的三分之一。相比之下，常规模式定价维持不变：$5/百万输入 token，$25/百万输出 token。1

Benchmark：数字说明了什么，又掩盖了什么

Opus 4.8 与 Opus 4.7、GPT-5.5、Gemini 3.1 Pro 的 benchmark 对比 — Opus 4.8 在编码、代理能力、推理与知识工作上的核心分项对比 2

以下是有实质意义的数字变化：

编码：SWE-bench Pro（实际维护中的代码库，无 ground-truth 泄露）上，Opus 4.8 得分 69.2%，较 Opus 4.7 的 64.3% 提升了近 5 个百分点。Terminal-Bench 2.1（真实终端任务）从 66.1% 跳到 74.6%，与 GPT-5.5 的差距有所收窄。2

推理与数学：2026 年美国数学奥林匹克（USAMO）题目的数据尤为值得注意——题目在模型训练截止日期后出现，排除了数据污染的可能性。Opus 4.8 得分 96.7%，Opus 4.7 同一套题目得 69.3%，差距接近 27 个百分点。2

长上下文：GraphWalks（用有向图填满上下文窗口，测试长文档推理）在 256K 子集上从 76.9% 升到 85.9%，在完整 1M 子集上从 40.3% 升到 68.1%。1M 结果目前无法通过公开 API 复现，但趋势方向是明确的。2

明显退步的项目：Vending-Bench 2（模拟一年运营自动贩卖机业务的商业 Agent 测试），Opus 4.8 表现低于 Opus 4.7——大约少挣了 5000 到 8000 美元的模拟利润。原因 Anthropic 在 System Card 里写得很坦率：他们主动移除了 Opus 4.7 里的一批商业导向训练数据，因为这部分数据被发现无意间引入了错位行为。模型更诚实了，但谈判更弱了。

提示注入回归：在没有防护措施的情况下，单次提示注入攻击成功率从 Opus 4.7 的 2.3% 上升到 Opus 4.8 的 7%。开启防护后可降回 2%，但这是任何在搭建 Agentic pipeline 的团队需要知道的变化。2

横向对比：2026 年旗舰模型的竞争格局

Opus 4.8 发布时所处的外部环境，是 GPT 系列已经演进到 GPT-5.5 的时代。同日（5 月 28 日），OpenAI 宣布 GPT-5.5 Instant 的一次风格更新，并启动 o3 和 GPT-4.5 的退场倒计时——o3 将在 2026 年 8 月从 ChatGPT 下线。3

help.openai.comhttps://help.openai.com/en/articles/9624314-model-release-notes外部链接

正在加载内容卡片…

这是一个对比切面：Anthropic 的旗舰仍在 Opus 序列里做渐进迭代，OpenAI 的产品线则在快速清理老模型、腾出空间给更新代次。两条路径各有选择：一个是在现有旗舰位置上打磨可靠性，另一个是加速版本周期，用更新序号抢占心智。

指标	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-bench Pro	69.2%	—	—
SWE-bench Verified	88.6%	—	—
Finance Agent v2	53.9%	51.8%	57.9%（注 1）
OSWorld-Verified（电脑操作）	83.4%	—	—
Terminal-Bench 2.1	74.6%	83.4%（Codex CLI 口径）	—
USAMO 2026	96.7%	—	—
提示注入成功率（无防护）	7%	—	—

注 1：Gemini 3.5 Flash 在 Finance Agent v2 得 57.9%，为 Gemini 系列显著进步；Gemini 3.1 Pro 具体数值暂未见 Anthropic 披露。

Terminal-Bench 上 GPT-5.5（Codex CLI 口径）的 83.4% 高于 Opus 4.8 的 74.6%，这是 Opus 4.8 目前最明显的短板之一，在实际终端命令执行类任务中仍有差距。但 Online-Mind2Web 网页自动化任务上，Opus 4.8 得分 84%，超过 GPT-5.5，来自 Convergence AI 的测评将其标为"目前最强的 computer-use 和 browser-agent 模型"。1

Anthropic 的下一步信号：Mythos 级别

发布文章结尾，Anthropic 给出了一个被轻描淡写的前瞻：正在开发「比 Opus 更高智能」的新模型。Project Glasswing 框架下，Claude Mythos Preview 当前仅限约 150 个机构用于网络安全工作，因为该级别的模型需要更严格的网络防护措施。Anthropic 表示"正在快速推进这些防护机制，预计在未来几周内可以向所有客户开放 Mythos 级别的模型"。1

这意味着 Opus 4.8 的旗舰地位可能不会持续太久。Anthropic 同时还透露，正在研发"可以提供与 Opus 相近能力但成本更低的模型"，这是针对 Sonnet / Haiku 层级的另一条优化路径。

两件事同时在走：向上冲 Mythos，向下做更经济的中档能力——这是在同一架构路线图上的纵向扩张，而非另起炉灶。

小结

Claude Opus 4.8 是一次有具体数字支撑的扎实更新，但它的核心叙事不在分数，在于 Anthropic 明确选择了把「诚实性」作为旗舰模型的首要方向。在 Agent 任务大量落地的时间点，这个方向判断是否准确，从旁观者角度看是合理的——可靠性是 Agent 产品化的前置条件。

Vending-Bench 的退步和提示注入的回归，是这次发布里真实存在的反向信号，Anthropic 自己也在 System Card 里写出来了。这本身算是诚实性叙事的一个组成部分：能说清楚自己模型哪里变差了。

Mythos 的到来是另一回事，目前留给安全测评做门槛。时间窗口是"未来几周"。