Grok Build，$299 买一张彩票

「三百块一个月，你连跑分都没有。」

Grok Build 发布快一个月了。xAI 的第一款终端编程 agent，对标 Claude Code 和 Codex CLI。5 月 14 日上线 early beta，Elon Musk 本人发推征集反馈。

价格：$299/月。

Claude Code：$20/月起。

相差 15 倍。

我先解释一下这个 15 倍是怎么算的。

Claude Code 打包在 Claude Pro 里，$20/月。你能用 Claude Sonnet 4.6 写代码，跑 SWE-bench Verified 能跑到 80.8%——这是目前所有终端编程 agent 里最高的公开成绩。

Grok Build 呢？打包在 SuperGrok Heavy 里。$299/月，促销价前 6 个月 $99。

SWE-bench 成绩？没有。xAI 没公开任何标准化评测数据。

「早期 beta，还在测试阶段。」他们的说法。

保健品老板至少会说「临床证明有效」。Grok Build 连这个都没有。

正在加载内容卡片…

说功能之前，先把这个 $99 的坑说清楚。

Reddit 上有人发帖警告：「不要被 $99 的 Grok Heavy 优惠误导，它和普通 SuperGrok 是一样的使用限额。」这是 SuperGrok Heavy 为了推广 Grok Build 推出的入门价，6 个月后涨回 $299。

你买的不是一个成熟产品。你买的是一个 beta 版本，一份 6 个月到期的期权，和一张「相信 Elon 能赢下编程 agent 大战」的彩票。

功能上，Grok Build 确实有几个值得聊的设计。

最核心的是 8 个并行 agent。Claude Code 是单 agent 深推理，Grok Build 是最多 8 个 agent 同时跑，各自在独立 git 分支里干活，不会互相覆盖。还有一个叫 Arena Mode 的功能——多个 agent 同时生成方案，自动评分选最好的一个——本质是把「多试几次取最优」变成了内置工作流。

这个架构逻辑是通的。让 8 个人同时做题，总比 1 个人做题的覆盖率高。在你没想到最优解的时候，8 个 agent 里可能有一个歪打正着。

但问题在于：每个 agent 都有自己独立的上下文窗口。你的代码库如果是那种牵一发动全身的结构，8 个 agent 各看各的，最后 Arena Mode 选出来的「最优解」，有可能和代码库其他部分是冲突的。Claude Code 用 1M token 单 agent，看的是整张图。Grok Build 用 8 个 agent，每个人拿着局部地图。

正在加载内容卡片…

一个详细对比帮你看清楚：

选 Grok Build 的场景：你在做全新功能，不知道最优方案，希望多试几条路，有钱，不在乎这是 beta。

选 Claude Code 的场景：已有大型代码库，需要跨文件重构，需要追踪复杂调用链，预算有限，要生产环境稳定性。

$200/月的 Claude Code Max 20x 套餐——也就是最贵档——还是比 Grok Build 便宜 $99。

还有个问题是生态。

Claude Code 上线超过一年。MCP 服务器、hooks 钩子、slash 命令、社区插件，这些东西已经有一整个社区在跑了。Grok Build 的生态是从 5 月 14 日那天开始算的。

你能兼容 Claude Code 的 AGENTS.md 配置文件，这是好事，降低了迁移成本。但工具好不好用，很大程度上取决于旁边有没有配套资源——这东西没法用钱买，只能等社区慢慢积累。

说回定价这件事。

$299/月这个价格不是随意定的。它不是在定一个产品的价值，它是在筛选用户。

用它的人，要么是 xAI 生态的铁杆信徒，要么是真的有足够大的并行编程需求，要么是真的有钱而且愿意赌 Elon 的时间线。对这三种人来说，$299 不是问题。

问题是，你是这三种人吗？

如果不是——如果你只是看到「马斯克的编程 agent」六个字有点心动——那 $99 的入门价是一个设计精良的转化漏斗，6 个月后变成 $299 是正价，你要么续要么走。

xAI 当然知道大多数人到时候会走。他们要的是那 6 个月里你的使用数据和反馈。你在给他们测产品，他们用折扣换你的时间。

这不是坏事。这是正常的 beta 测试逻辑。只是要搞清楚自己在这个逻辑里处于哪个位置。

正在加载内容卡片…

Elon Musk 在 4 月份说过，Grok Build「6 月前追上 Claude Opus 4.6」。

6 月到了。Claude Opus 4.6 的 SWE-bench 是 80.8%。Grok Build 还没有公开数据。

不知道追没追上。

God bless 基准测试。

（本文部分数据参考 Techloy、Morphllm 对比分析及 Medium 评测文章，Claude 辅助写作。）