层·编程（PoLar）

arXiv:2606.06574 | ICML 2026 | cs.LG 作者：Ziyue Li, Yang Li, Tianyi Zhou（University of Maryland）

大模型推理时，每个输入都走同一条路：从第 0 层一路跑到第 D-1 层，固定顺序，不差一步。这是默认假设，也是一道墙。

PoLar 这篇论文想问一个问题：这条路是最优的吗？

答案不是。用 MCTS 在层序列空间暴力搜索后，作者发现75.5% 的已知正确输入都能找到更短的有效程序。更惊人的是：原本预测出错的输入，有 36.2% 能通过一条不同的、更短的层执行顺序被纠正。

层是函数库，不是流水线

PoLar 的核心重新框架：把 LLM 的 D 个 Transformer 层看作 D 个函数 f_0, ..., f_{D-1}，推理过程是从这个库里抽取一条程序 π = (i₁, i₂, ..., i_K)，而不必是 (0, 1, 2, ..., D-1) 这条默认路径。

程序支持两种操作：

更关键的是，单独用 Skip 或单独用 Loop 都不够好。在 DART-Math 上对 LLaMA-3.2-3B 的搜索结果：

两者组合的提升比各自单独加在一起还多，因为跳过冗余段和重复关键段是互补的操作。Qwen2.5-3B 上，DM-3 的 base 只有 4.3%，Skip&Loop 搜索空间里可以达到 65.0%。

MCTS 太慢，不能上线。作者的方案是把搜索改成预测：

离线用 MCTS 收集有效程序的样本；
训练一个轻量预测网络（cross-attention + 小 encoder），输入 query，输出「分段边界 mask + 每段 skip/keep/repeat 标签」；
推理时跑一次预测，beam search 出 top-k 候选程序，依次执行。

预测网络的参数量：约 2.1M，相当于冻结基础模型的 0.01%–0.06%。额外推理开销约 3.05ms，相当于不到 0.23 层，比一个 LLM 层（13ms）小得多。

pass@5 结果对比：

模型	Base sampling p@5	PoLar p@5	增益
LLaMA-3.2-3B	47.6 / 43.2 / 32.8 / 32.8 / 35.6	68.4 / 48.0 / 46.0 / 40.4 / 45.8	最高 +20.8pp
Qwen1.5-MoE	40.0 / 25.6 / 18.6 / 15.0 / 11.8	62.0 / 44.0 / 33.0 / 25.4 / 23.2	最高 +22.0pp
Qwen2.5-3B	42.2 / 30.2 / 20.4 / 15.8 / 13.0	59.8 / 40.6 / 28.2 / 18.0 / 22.8	最高 +17.6pp

（以上五列分别对应 DM-1 到 DM-5 五个难度级别）

PoLar 的预测网络只在 DART-Math 数学数据上训练，但在 OOD 测试时全面超越 base：

数学里学到的「何时跳层、何时重复」的模式，在跨域场景下一样管用。作者推测原因是预测网络的外部嵌入模型（Qwen3-Embedding-0.6B）提供了跨域语义对齐，加上有效程序本身的结构偏向简单（54.5% 的分段只包含单层），不容易过拟合到具体 domain。

MCTS 诊断出的有效程序有一个明显的规律：

这说明模型天然对复杂控制流没有需求，只需要简单的局部跳跃和局部复用。PoLar 的预测空间设计反映了这一点：最大段长 4 层，最多重复一次，已足够覆盖绝大部分有效程序。

来源论文： 1