双雄动态：OpenAI 上线 o3-pro，Anthropic 发布 Claude Opus 4.8

两家顶级 AI 实验室近期各有新动作——OpenAI 在 2025 年 6 月 10 日正式推出 o3-pro，同日 Anthropic 则在 2026 年 5 月 28 日发布了 Claude Opus 4.8。前者主打极限推理可靠性，后者聚焦代理任务的判断力与诚实性升级。

OpenAI｜o3-pro 正式上线

发布时间： 2025 年 6 月 10 日 可用状态： ChatGPT Pro 用户当日起可用；API 同步开放；Team、Enterprise 和 Edu 用户一周内陆续获取

o3-pro 是 o3 的深度思考版本。和此前的 o1-pro 类似，它不改变底层模型架构，而是允许模型在回答前消耗更多计算资源进行推理，以此换取更高的准确率和一致性。

核心表现：

在数学、科学、编码三大领域的学术基准测试中，pass@1 成绩均高于 o1-pro 和 o3（medium）
OpenAI 内部「4/4 可靠性测试」中表现优于 o3
外部专家评估结果显示，在清晰度、指令遵循、准确率三个维度上，评测人员更倾向选择 o3-pro 的回答
支持全套 ChatGPT 工具：网页搜索、Python 代码执行、文件分析、视觉推理、记忆个性化

当前限制： 暂不支持图像生成和 Canvas 功能；临时聊天功能因技术问题暂缓开放。

openai.comhttps://openai.com/index/introducing-o3-and-o4-mini/外部链接

正在加载内容卡片…

Anthropic｜Claude Opus 4.8 正式发布

发布时间： 2026 年 5 月 28 日 API 模型名： claude-opus-4-8 定价： 输入 $5 / 百万 tokens，输出 $25 / 百万 tokens（与 Opus 4.7 持平）；Fast mode 定价为输入 $10 / 百万 tokens，输出 $50 / 百万 tokens，成本较前代降低 67%

Opus 4.8 在 Opus 4.7 基础上进行了全面升级，Anthropic 将其定位为「更有效的协作者」，尤其强调代理任务中的判断力和诚实性。

基准测试亮点：

Online-Mind2Web（浏览器代理）：84%，优于 Opus 4.7 和 GPT-5.5
Legal Agent Benchmark：首个突破 10%（all-pass 标准）的模型
在代码任务中，对自己代码缺陷的主动标记率约为 Opus 4.7 的 4 倍

新功能：

动态工作流（Dynamic Workflows）：Claude Code 研究预览版功能，允许在单次会话中并行运行数百个子代理，可完成跨十万行代码规模的迁移任务；适用于 Enterprise、Team 和 Max 计划
工作量控制：claude.ai 用户现可在模型选择器旁调整 Claude 的「思考力度」，从快速响应到深度推理自由切换
Messages API 更新：开发者可在消息数组中传入 system 条目，实现中途更新指令而不破坏 prompt 缓存

对齐评估结论： Anthropic 对齐团队报告称，Opus 4.8 在「支持用户自主性」和「符合用户利益」等亲社会特征上达到新高，误对齐行为（欺骗、配合滥用）比例明显低于 Opus 4.7。

anthropic.comhttps://www.anthropic.com/news/claude-opus-4-8外部链接

正在加载内容卡片…

一句话对比

维度	OpenAI o3-pro	Anthropic Opus 4.8
发布时间	2025-06-10	2026-05-28
核心卖点	极限推理可靠性（更长思考）	代理判断力 + 诚实性升级
可用方式	ChatGPT Pro / API	claude.ai / API
定价变化	未公开 API 定价	与前代持平（Fast mode 降 67%）

来源： 1 2

双雄动态：OpenAI 上线 o3-pro，Anthropic 发布 Claude Opus 4.8

OpenAI｜o3-pro 正式上线

Anthropic｜Claude Opus 4.8 正式发布

一句话对比

参考来源