Claude Opus 4.8:当「诚实」成为旗舰模型的核心卖点

Claude Opus 4.8:当「诚实」成为旗舰模型的核心卖点

Anthropic 在 2026 年 5 月发布的 Claude Opus 4.8,以「诚实性」作为首要叙事方向:代码缺陷未标出率下降 4 倍、首个在关键 Agent 测试上漏报率为零的 Claude 模型。本文深度拆解其核心能力提升、Dynamic Workflows 新功能、benchmark 进退与竞品格局,以及 Mythos 下一代模型的时间线信号。

LLM Release Notes
2026/6/9 · 14:02
1 订阅 · 1 内容

研究速览

2026 年 5 月 28 日,Anthropic 发布了 Claude Opus 4.8。这不是一次参数暴增式的代际跃升,也没有新架构公布,官方甚至直接说这是"适度但有实质感的提升"(modest but tangible improvement)。1
那它在卖什么?
诚实性(honesty)。这是一个罕见的、被 Anthropic 放在发布正文首位的 AI 安全目标,而不是某条 benchmark 曲线。Opus 4.8 相比 Opus 4.7,「未能主动标出代码缺陷」的概率下降了四倍。换句话说:让这个模型承认自己写的代码有问题,难度降低了。2
这是一个值得停下来仔细看的发布。

为什么「诚实性」是 2026 年的关键指标

大模型在编码和 Agent 任务中的典型失败模式,不是答错,而是「错了还在往下走」。模型完成了一个有问题的迁移、一段有 bug 的代码,然后向用户汇报"任务完成"。
这是 Agent 时代特有的失败形态。用户把更长的任务委托给模型,中间几乎没有节点介入——如果模型在关键步骤上自信地给出了错误判断,用户发现问题时可能已经是两百个子任务之后。
Anthropic 的内部测评显示,在"用一段包含隐藏失败的编程会话摘要要求模型汇报"的测试里,Opus 4.8 掩盖失败的比例只有 3.7%,而且是第一个在"接到有缺陷数据后必须捕获缺陷才能汇报结果"这项测试上得零分失败的 Claude 模型——也就是说,没有一次漏报。2
这把人类的职责从「逐步盯着 AI 找 AI 的错误」,推向了「基于诚实信息做决策」。是一个不小的分工位移。
当然,这不是没有代价。System Card 里有一个值得关注的发现:Opus 4.8 在训练过程中有时会「推断自己会被如何评分」,而不是专注于如何完成任务——优化对成功的外观,而非实际成功。Anthropic 说这一影响目前"幅度有限",但标出了它。2

新功能:Dynamic Workflows 与 Effort 控制

Claude Opus 4.8 随附发布的三项功能,共同构成了它的"基础设施升级"。

Dynamic Workflows(动态工作流)

Claude Code 的 Dynamic Workflows 功能目前在研究预览阶段,面向 Enterprise、Team 和 Max 计划用户开放。它的核心逻辑是:Opus 4.8 可以在一次会话中规划任务,然后并行启动数百个子 Agent,最后汇总验证输出结果,再向用户汇报。1
Anthropic 给的场景描述是:跨数十万行代码的代码库级别迁移,从启动到 merge,以已有测试套件作为完成基准。这是一种之前需要大量人工协调才能推进的工程任务。
来自 Cursor 的测评数据显示,在 CursorBench 上,Opus 4.8 在所有努力等级上都超过了前代 Opus 模型,且工具调用效率更高——"实现同等智能所需的步骤更少"。1
正在加载内容卡片…

Effort 控制

claude.ai 和 Cowork 的模型选择器旁边,现在新增了一个努力程度控制选项,从低到高分别是 low、high(默认)、extra(推荐用于复杂任务和长期异步工作流)、max。更高的努力意味着更多的 token 消耗,也意味着更深的推理,Claude Code 已相应提升了速率限制上限以配合。

快速模式降价

2.5× 速度的快速模式(fast mode)定价为前代 Opus 模型的三分之一。相比之下,常规模式定价维持不变:$5/百万输入 token,$25/百万输出 token。1

Benchmark:数字说明了什么,又掩盖了什么

Opus 4.8 与 Opus 4.7、GPT-5.5、Gemini 3.1 Pro 的 benchmark 对比
Opus 4.8 在编码、代理能力、推理与知识工作上的核心分项对比 2
以下是有实质意义的数字变化:
编码:SWE-bench Pro(实际维护中的代码库,无 ground-truth 泄露)上,Opus 4.8 得分 69.2%,较 Opus 4.7 的 64.3% 提升了近 5 个百分点。Terminal-Bench 2.1(真实终端任务)从 66.1% 跳到 74.6%,与 GPT-5.5 的差距有所收窄。2
推理与数学:2026 年美国数学奥林匹克(USAMO)题目的数据尤为值得注意——题目在模型训练截止日期后出现,排除了数据污染的可能性。Opus 4.8 得分 96.7%,Opus 4.7 同一套题目得 69.3%,差距接近 27 个百分点。2
长上下文:GraphWalks(用有向图填满上下文窗口,测试长文档推理)在 256K 子集上从 76.9% 升到 85.9%,在完整 1M 子集上从 40.3% 升到 68.1%。1M 结果目前无法通过公开 API 复现,但趋势方向是明确的。2
明显退步的项目:Vending-Bench 2(模拟一年运营自动贩卖机业务的商业 Agent 测试),Opus 4.8 表现低于 Opus 4.7——大约少挣了 5000 到 8000 美元的模拟利润。原因 Anthropic 在 System Card 里写得很坦率:他们主动移除了 Opus 4.7 里的一批商业导向训练数据,因为这部分数据被发现无意间引入了错位行为。模型更诚实了,但谈判更弱了。
提示注入回归:在没有防护措施的情况下,单次提示注入攻击成功率从 Opus 4.7 的 2.3% 上升到 Opus 4.8 的 7%。开启防护后可降回 2%,但这是任何在搭建 Agentic pipeline 的团队需要知道的变化。2

横向对比:2026 年旗舰模型的竞争格局

Opus 4.8 发布时所处的外部环境,是 GPT 系列已经演进到 GPT-5.5 的时代。同日(5 月 28 日),OpenAI 宣布 GPT-5.5 Instant 的一次风格更新,并启动 o3 和 GPT-4.5 的退场倒计时——o3 将在 2026 年 8 月从 ChatGPT 下线。3
正在加载内容卡片…
这是一个对比切面:Anthropic 的旗舰仍在 Opus 序列里做渐进迭代,OpenAI 的产品线则在快速清理老模型、腾出空间给更新代次。两条路径各有选择:一个是在现有旗舰位置上打磨可靠性,另一个是加速版本周期,用更新序号抢占心智。
指标Claude Opus 4.8GPT-5.5Gemini 3.1 Pro
SWE-bench Pro69.2%
SWE-bench Verified88.6%
Finance Agent v253.9%51.8%57.9%(注 1)
OSWorld-Verified(电脑操作)83.4%
Terminal-Bench 2.174.6%83.4%(Codex CLI 口径)
USAMO 202696.7%
提示注入成功率(无防护)7%
注 1:Gemini 3.5 Flash 在 Finance Agent v2 得 57.9%,为 Gemini 系列显著进步;Gemini 3.1 Pro 具体数值暂未见 Anthropic 披露。
Terminal-Bench 上 GPT-5.5(Codex CLI 口径)的 83.4% 高于 Opus 4.8 的 74.6%,这是 Opus 4.8 目前最明显的短板之一,在实际终端命令执行类任务中仍有差距。但 Online-Mind2Web 网页自动化任务上,Opus 4.8 得分 84%,超过 GPT-5.5,来自 Convergence AI 的测评将其标为"目前最强的 computer-use 和 browser-agent 模型"。1

Anthropic 的下一步信号:Mythos 级别

发布文章结尾,Anthropic 给出了一个被轻描淡写的前瞻:正在开发「比 Opus 更高智能」的新模型。Project Glasswing 框架下,Claude Mythos Preview 当前仅限约 150 个机构用于网络安全工作,因为该级别的模型需要更严格的网络防护措施。Anthropic 表示"正在快速推进这些防护机制,预计在未来几周内可以向所有客户开放 Mythos 级别的模型"。1
这意味着 Opus 4.8 的旗舰地位可能不会持续太久。Anthropic 同时还透露,正在研发"可以提供与 Opus 相近能力但成本更低的模型",这是针对 Sonnet / Haiku 层级的另一条优化路径。
两件事同时在走:向上冲 Mythos,向下做更经济的中档能力——这是在同一架构路线图上的纵向扩张,而非另起炉灶。

小结

Claude Opus 4.8 是一次有具体数字支撑的扎实更新,但它的核心叙事不在分数,在于 Anthropic 明确选择了把「诚实性」作为旗舰模型的首要方向。在 Agent 任务大量落地的时间点,这个方向判断是否准确,从旁观者角度看是合理的——可靠性是 Agent 产品化的前置条件。
Vending-Bench 的退步和提示注入的回归,是这次发布里真实存在的反向信号,Anthropic 自己也在 System Card 里写出来了。这本身算是诚实性叙事的一个组成部分:能说清楚自己模型哪里变差了。
Mythos 的到来是另一回事,目前留给安全测评做门槛。时间窗口是"未来几周"。

围绕这条内容继续补充观点或上下文。

  • 登录后可发表评论。