层·编程(PoLar)

LLM 推理时固定执行所有层是一种过度计算——PoLar 用 2.1M 参数预测网络实现动态层程序,跳层与循环联合搜索让 LLaMA DM-1 从 37.9% 飙至 84.7%,OOD 跨域迁移数学→文史法理全线提升。通勤两分钟,听懂今日最硬核「层不是流水线」推理重构。

每日大模型 Rap
June 9, 2026 · 8:20 AM
层·编程(PoLar)
0:002:10
arXiv:2606.06574 | ICML 2026 | cs.LG 作者:Ziyue Li, Yang Li, Tianyi Zhou(University of Maryland)

大模型推理时,每个输入都走同一条路:从第 0 层一路跑到第 D-1 层,固定顺序,不差一步。这是默认假设,也是一道墙。
PoLar 这篇论文想问一个问题:这条路是最优的吗?
答案不是。用 MCTS 在层序列空间暴力搜索后,作者发现75.5% 的已知正确输入都能找到更短的有效程序。更惊人的是:原本预测出错的输入,有 36.2% 能通过一条不同的、更短的层执行顺序被纠正。

层是函数库,不是流水线

PoLar 的核心重新框架:把 LLM 的 D 个 Transformer 层看作 D 个函数 f_0, ..., f_{D-1},推理过程是从这个库里抽取一条程序 π = (i₁, i₂, ..., i_K),而不必是 (0, 1, 2, ..., D-1) 这条默认路径。
程序支持两种操作:
  • Skip:跳过某段层(减少计算)
  • Repeat:对某段层再执行一遍(增加深度)
更关键的是,单独用 Skip 或单独用 Loop 都不够好。在 DART-Math 上对 LLaMA-3.2-3B 的搜索结果:
操作空间DM-1 准确率DM-3 准确率
Base(标准前向)37.9%23.2%
仅 Skip45.7%29.7%
仅 Loop54.9%38.0%
Skip & Loop84.7%65.2%
两者组合的提升比各自单独加在一起还多,因为跳过冗余段和重复关键段是互补的操作。Qwen2.5-3B 上,DM-3 的 base 只有 4.3%,Skip&Loop 搜索空间里可以达到 65.0%

从搜索到预测:2.1M 参数搞定

MCTS 太慢,不能上线。作者的方案是把搜索改成预测:
  1. 离线用 MCTS 收集有效程序的样本;
  2. 训练一个轻量预测网络(cross-attention + 小 encoder),输入 query,输出「分段边界 mask + 每段 skip/keep/repeat 标签」;
  3. 推理时跑一次预测,beam search 出 top-k 候选程序,依次执行。
预测网络的参数量:约 2.1M,相当于冻结基础模型的 0.01%–0.06%。额外推理开销约 3.05ms,相当于不到 0.23 层,比一个 LLM 层(13ms)小得多。
pass@5 结果对比:
模型Base sampling p@5PoLar p@5增益
LLaMA-3.2-3B47.6 / 43.2 / 32.8 / 32.8 / 35.668.4 / 48.0 / 46.0 / 40.4 / 45.8最高 +20.8pp
Qwen1.5-MoE40.0 / 25.6 / 18.6 / 15.0 / 11.862.0 / 44.0 / 33.0 / 25.4 / 23.2最高 +22.0pp
Qwen2.5-3B42.2 / 30.2 / 20.4 / 15.8 / 13.059.8 / 40.6 / 28.2 / 18.0 / 22.8最高 +17.6pp
(以上五列分别对应 DM-1 到 DM-5 五个难度级别)

域外迁移

PoLar 的预测网络只在 DART-Math 数学数据上训练,但在 OOD 测试时全面超越 base:
  • ASDiv(算术文字题):Qwen2.5-3B,Base 49.5% → PoLar 78.1%
  • MAWPS:Base 36.2% → PoLar 57.7%
  • MMLU-Pro 各科目(法律、历史、生物、心理学……)全面提升
数学里学到的「何时跳层、何时重复」的模式,在跨域场景下一样管用。作者推测原因是预测网络的外部嵌入模型(Qwen3-Embedding-0.6B)提供了跨域语义对齐,加上有效程序本身的结构偏向简单(54.5% 的分段只包含单层),不容易过拟合到具体 domain。

程序结构很简单

MCTS 诊断出的有效程序有一个明显的规律:
  • 54.5% 的分段是单个层
  • 超过 2/3 的分段包含至多两个连续层
  • 跨越非连续层的分段只占 3.2%
  • 几乎所有分段最多重复一次
这说明模型天然对复杂控制流没有需求,只需要简单的局部跳跃和局部复用。PoLar 的预测空间设计反映了这一点:最大段长 4 层,最多重复一次,已足够覆盖绝大部分有效程序。

来源论文: 1

Add more perspectives or context around this Post.

  • Sign in to comment.