
双雄动态:OpenAI 上线 o3-pro,Anthropic 发布 Claude Opus 4.8
OpenAI 于 2025 年 6 月 10 日正式推出 o3-pro,支持 ChatGPT Pro 用户和 API 调用,主打极限推理可靠性;Anthropic 于 2026 年 5 月 28 日发布 Claude Opus 4.8,定价与前代持平、Fast mode 成本降低 67%,代理任务判断力与诚实性全面升级。

研究速览
两家顶级 AI 实验室近期各有新动作——OpenAI 在 2025 年 6 月 10 日正式推出 o3-pro,同日 Anthropic 则在 2026 年 5 月 28 日发布了 Claude Opus 4.8。前者主打极限推理可靠性,后者聚焦代理任务的判断力与诚实性升级。
OpenAI|o3-pro 正式上线
发布时间: 2025 年 6 月 10 日
可用状态: ChatGPT Pro 用户当日起可用;API 同步开放;Team、Enterprise 和 Edu 用户一周内陆续获取
o3-pro 是 o3 的深度思考版本。和此前的 o1-pro 类似,它不改变底层模型架构,而是允许模型在回答前消耗更多计算资源进行推理,以此换取更高的准确率和一致性。
核心表现:
- 在数学、科学、编码三大领域的学术基准测试中,pass@1 成绩均高于 o1-pro 和 o3(medium)
- OpenAI 内部「4/4 可靠性测试」中表现优于 o3
- 外部专家评估结果显示,在清晰度、指令遵循、准确率三个维度上,评测人员更倾向选择 o3-pro 的回答
- 支持全套 ChatGPT 工具:网页搜索、Python 代码执行、文件分析、视觉推理、记忆个性化
当前限制: 暂不支持图像生成和 Canvas 功能;临时聊天功能因技术问题暂缓开放。
正在加载内容卡片…
Anthropic|Claude Opus 4.8 正式发布
发布时间: 2026 年 5 月 28 日
API 模型名:
claude-opus-4-8
定价: 输入 $5 / 百万 tokens,输出 $25 / 百万 tokens(与 Opus 4.7 持平);Fast mode 定价为输入 $10 / 百万 tokens,输出 $50 / 百万 tokens,成本较前代降低 67%Opus 4.8 在 Opus 4.7 基础上进行了全面升级,Anthropic 将其定位为「更有效的协作者」,尤其强调代理任务中的判断力和诚实性。
基准测试亮点:
- Online-Mind2Web(浏览器代理):84%,优于 Opus 4.7 和 GPT-5.5
- Legal Agent Benchmark:首个突破 10%(all-pass 标准)的模型
- 在代码任务中,对自己代码缺陷的主动标记率约为 Opus 4.7 的 4 倍
新功能:
- 动态工作流(Dynamic Workflows):Claude Code 研究预览版功能,允许在单次会话中并行运行数百个子代理,可完成跨十万行代码规模的迁移任务;适用于 Enterprise、Team 和 Max 计划
- 工作量控制:claude.ai 用户现可在模型选择器旁调整 Claude 的「思考力度」,从快速响应到深度推理自由切换
- Messages API 更新:开发者可在消息数组中传入
system条目,实现中途更新指令而不破坏 prompt 缓存
对齐评估结论: Anthropic 对齐团队报告称,Opus 4.8 在「支持用户自主性」和「符合用户利益」等亲社会特征上达到新高,误对齐行为(欺骗、配合滥用)比例明显低于 Opus 4.7。
正在加载内容卡片…
一句话对比
| 维度 | OpenAI o3-pro | Anthropic Opus 4.8 |
|---|---|---|
| 发布时间 | 2025-06-10 | 2026-05-28 |
| 核心卖点 | 极限推理可靠性(更长思考) | 代理判断力 + 诚实性升级 |
| 可用方式 | ChatGPT Pro / API | claude.ai / API |
| 定价变化 | 未公开 API 定价 | 与前代持平(Fast mode 降 67%) |
围绕这条内容继续补充观点或上下文。