ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略

ICLR 2026 Oral
下载 Camera Ready PDF
Slides
下载演讲 Slides
Poster
下载会议 Poster

1. 一句话版本

本文就是为了回答标题里的问题:

能否在总参和训练计算量都与 Dense LLM 相同的条件下,训出性能相同的 MoE LLM,从而使得Inference-time的成本降低是一个白白的收益?

回答是:

  1. 在 fixed total parameters 和 fixed training compute 下,MoE 要达到同规模 Dense 的效果,核心代价不是参数,而是 tokens:它需要消耗大约 1/ra1/r_a 倍的 training tokens。这里 ra=Na/Nr_a=N_a/N 是 activation rate,也就是 activated parameters 除以 total parameters。作为交换,MoE 把 per-token FLOPs 降到大约 Dense 的 rar_a 倍。
  2. 这笔交换只有在合适的 activation-rate region 里才成立。MoE 并不是越稀疏越好;实验反复显示,真正有效的是一个中等稀疏度区间,大致在 10%-30%,当然随着模型规模的扩大这个区间可能往更稀疏的地方扩张和偏移。
  3. 当 unique data 有限时,适度 data reuse 可以补上额外的 token demand,并保留大部分 MoE advantage。

结论很简单,但为了验证它,我们付出了极高的实验成本:

近 200 个
从零训练的 2B-scale LLMs
超过 50 个
从零训练的 7B-scale LLMs
50T
训练过程中处理的 tokens
Open-sourced
model checkpoints

一句话的训练 recipe:

Optimized MoE backbone + 合适的 activation rate + 更激进的 token scaling + unique tokens 不够时,适度使用data reuse。

2. Motivation:参数补贴这个 blind spot

文献里常见两种比较方式。

  • 一种做法是固定数据和训练设置,然后强调 active-compute efficiency。比如 DeepSeekMoE 16B:它和 DeepSeek 7B Dense 使用同一个 2T-token corpus 训练,论文报告只用了约 40% computation 就达到与 DeepSeek 7B Dense 可比的性能,也能与 LLaMA2 7B 可比;但与此同时,它使用了更大的 total-parameter MoE reservoir [1]。
  • 另一种做法是固定 active expert budget 或目标 per-token compute,然后增加 total experts。Kimi K2 的 sparsity scaling ablation 就是这类例子,并且声称越稀疏越好 [3]。

这两种做法都有价值,但它们都没有把 total parameters 锁住。这个变量不是纸面数字,它对应 capacity、HBM footprint、checkpoint size 和最小部署单元;真实系统里,当 batch size 足够大时,几乎所有 experts 都会被激活。因此更硬的问题是:如果 Dense 和 MoE 的 total parameter count 完全相同,training compute 也相同,MoE 还能不能追平甚至超过 Dense?如果可以,就说明收益不只是 parameter 补贴,而是 sparsity 在训练得当时确实能成为架构优势。

3. 资源方程

对 Dense model,论文把 per-token forward computation 近似写成:

MDense2NκDense.(1)M_{\text{Dense}} \approx 2N\kappa_{\text{Dense}}. \tag{1}

这里 MM 表示 per-token forward FLOPs,NN 表示 total non-embedding parameters,κDense\kappa_{\text{Dense}} 吸收 sequence length、model width、FFN expansion ratio 等 Dense shape factors。

对一个 total parameter count 相同的 MoE model,有:

MMoE2raNκMoE.(2)M_{\text{MoE}} \approx 2r_aN\kappa_{\text{MoE}}. \tag{2}

这里 NaN_a 表示 activated parameters,ra=Na/Nr_a = N_a/N 是 activation rate,κMoE\kappa_{\text{MoE}} 吸收 MoE 对应的 shape factors。当 backbone shape 固定后,κDense\kappa_{\text{Dense}}κMoE\kappa_{\text{MoE}} 可以近似看成常数。论文中的完整参数化推导放在中文附录 A,完整 notation 表放在中文附录 D。

如果 DD 表示 consumed training tokens,CC 表示 total training compute,那么 equal training compute 给出:

CDenseMDenseDDenseMMoEDMoECMoE.(3)C_{\text{Dense}} \approx M_{\text{Dense}}D_{\text{Dense}} \approx M_{\text{MoE}}D_{\text{MoE}} \approx C_{\text{MoE}}. \tag{3}

整理后得到:

DMoEDDense1raκDenseκMoE1ra.(4)\frac{D_{\text{MoE}}}{D_{\text{Dense}}} \approx \frac{1}{r_a}\frac{\kappa_{\text{Dense}}}{\kappa_{\text{MoE}}} \propto \frac{1}{r_a}. \tag{4}

核心置换关系就在这里。

在相同 total parameter count 下,一个 20% activation-rate 的 MoE,每个 token 只付出大约 Dense 五分之一的 FFN-style compute;但如果要消耗同样的 training compute,它就需要处理大约 5 倍 tokens,具体比例会受到 shape-factor correction 的影响。

论文还从另一个方向做了经验验证:在 3B 和 7B 设置下,MoE per-token FLOPs 与 rar_a 基本接近线性关系(图 1a);相同计算量下的 data 消耗倍数与 1/ra1/r_a 基本接近线性关系(图 1b)。

Per-token FLOPs ratio 与 activation rate 的关系
图 1a. 当 architecture shape 被控制住以后,MoE per-token FLOPs 与 activation rate 近似线性相关。
Train-token ratio 与 1/r_a 的经验验证
图 1b. 3B 和 7B 实验验证了 MoE train-token ratio 随 activation rate 的倒数变化。

4. 三步方法论

由公式 (2)-(3) 可以看出,在忽略共同的 forward/backward 常数因子后,MoE 的训练算力大致满足 CMoE2raNκMoEDC_{\text{MoE}} \approx 2r_aN\kappa_{\text{MoE}}D。如果要直接做 MoE 的 compute-optimal sweep,需要同时扫描 architecture、sparsity、total parameters NN 和 training-token ratio D/ND/N,维度远高于 Dense scaling law 里常见的 NND/ND/N 两维扫描。在实验资源有限的情况下,本文选择了一条 greedy route:减少模型配置数量,但把每个配置都训到足够高的 D/ND/N,让比较发生在 sufficiently trained regime,更接近训练 SOTA 模型的生产环境。

三步方法论总览

图 2. 为博客重绘的三步方法论:先优化并锁定 MoE backbone,再在固定 NC 下搜索 activation rate,最后用 data reuse 在 finite unique data 下做严格比较。

因此本文采用了一种 greedy strategy:先给 MoE 一个足够强的 optimized backbone,再在 fixed total parameters N 和 training compute C 下 sweep rar_a,最后测试 data reuse 的影响。Dense baseline 也不是随便选的,而是采用了 optimal FFN ratio 的策略;因此我们希望比较的是结构上都充分优化过的 Dense 和 MoE。

5. Step 1:Optimize the MoE architecture

MoE 比 Dense 多了很多可调维度。Dense model 基本由宽高比和 FFN ratio 决定;MoE 还要选择 Dense/MoE layer mix、是否使用 shared experts、routing top-K、routed/shared expert sizes、total expert count,以及 global shape ratios。

如果这些因素不先控制住,activation-rate sweep 就可能失去意义。一个坏结果也许只是在说明 MoE backbone 没调好。 因此,architecture search 的作用是先把这个设计空间收窄,得到后续 sweep 所使用的 MoE backbone。

表 1. Step 1 architecture-search 结论表。

ComponentBackbone 中采用的结论
Layer arrangement使用 1dense+SE:一个初始 Dense layer,后续为带 shared experts 的 MoE layers。
Gate normalization在小模型 ablations 中,normalization 会降低 balance loss。
Top-K routing同时避免 K = 1 和过大的 K;条件允许时使用中间范围的 top-K。
Shape ratios搜索结果支持的是合理区间,而不是某个唯一最优值:zeta60-120 左右是合理范围,mu20 左右是合理范围。

Step 1 的核心是公平。拿 MoE 和 Dense 比之前,论文先把 MoE backbone 调到足够强。这样后面的 activation-rate sweep 问的才是一个更干净的问题:在同样总参预算下,一组结构合理的 MoE 里,什么 activation rate 最有效?kappa_MoE 更稳定有利于资源方程分析,但这只是 secondary benefit。Step 1 的详细实验放在附录 C。

6. Step 2:Search the optimal activation rate

2B 固定数据与固定 activation-rate 分析
图 3a. 2B scale 下,固定 activation rate 增加 tokens,与通过激活更多参数来增加 compute,是两种不同的路径。
2B fixed-compute activation-rate sweep
图 3b. 在 fixed total parameters 和 training compute 下,2B MoE curve 在 ra ≈ 20% 附近达到最佳,说明 MoE 不是 “the sparser, the better”。

图 3a 的解释是。 横轴是 total training compute,纵轴是 BPC(越低越好)。气泡大小表示 consumed training tokens。每条虚线固定 activation rate 并增加 tokens;沿着这些线往右走,更多 tokens 会稳定地、几乎 log-log linear 地降低 BPC,这符合常见的 data-scaling 直觉。绿色实线则固定 data budget 为 D = 114B,从 sparse 到 dense 改变 rar_a。这把两种花 compute 的方式分开了:一种是在固定 rar_a 下喂更多 tokens,另一种是在固定 data 下激活更多参数。

图 3b 这样读。 横轴是 rar_a,纵轴是 BPC。蓝色曲线是同一 total training compute 下的 2B MoE family。气泡大小仍然表示在这个 fixed-compute budget 下每个 MoE 实际消耗了多少 tokens。黑色水平线是 same-compute 2B Dense baseline,红色点划线是使用更多 compute 和更多 data 训练的更强 Dense baseline。

Findings.

  1. 固定 rar_a 时,多喂 tokens 会稳定改善 BPC,这符合常见的 data-scaling 直觉。但当 training tokens 和 total parameters 固定,training compute 只是因为 MoE 激活更多参数而增加时,BPC-compute 关系不再落在同一条平滑 scaling curve 上。这说明 optimal activation region 是可能存在的。
  2. 在 fixed total parameters 和 fixed compute 下,MoE 不是越稀疏越好。真正有效的是一个中等稀疏度区间,大致在 10%-30%,2B 上最清楚的点在 ra20%r_a \approx 20\% 附近。

7. Step 3:Data reuse, 7B validation, and downstream value

7.1 Step3A:3B activation-rate search under data reuse

3B 实验是对 data reuse 的第一层压力测试。它基本固定 total parameters 和 training compute,然后比较两组 MoE family:一组 unique tokens 接近 Dense-1C data budget,另一组 unique-token budget 更大。纵轴是相对 Dense-1C baseline 的 Delta BPC,越低越好;负值表示 MoE 优于 Dense-1C。

图 4 和表 2 要一起读。图给出完整的 3B activation-rate pattern;表只看更严格的 MoE-65B 设置,也就是更直接地检验:当 unique data 基本接近 Dense-1C 时,MoE 是否仍然有竞争力。

3B activation-rate 与 data-reuse 对比
图 4. Step3A 的 3B-scale 结果。深绿色实线是 MoE-65B,unique tokens 被控制在 Dense-1C budget 附近(1.04x,约 65B tokens)。绿色虚线是 MoE-114B,unique-token budget 更宽松,约为 Dense-1C 的 1.82x。红色虚线是严格目标 Delta BPC = -0.004,阴影区域标出图中标注的 optimal region。

表 2. 3B Step3A resource table。这里选出的 MoE rows 基本使用和 Dense-1C 相同的 unique-token budget,但通过 reuse 消耗更多 training tokens。BPC deltas 相对 Dense-1C 计算,越低越好。

ModelCraFLOPs/tok.Train tok.Unique tok.ReuseΔBPC
Dense-1C baseline1.00x100.0%100.0%1.00x1.00x1.000.0000
MoE-65B-Exp31.00x14.70%16.7%5.99x1.04x5.77-0.0059
MoE-65B-Exp41.01x18.83%20.4%4.94x1.04x4.75-0.0076
MoE-65B-Exp50.99x27.12%27.6%3.56x1.04x3.43-0.0039
MoE-65B-Exp60.99x34.75%34.3%2.88x1.04x2.77-0.0047

关键不是“所有 reuse setting 都一样好”,而是:即使 unique tokens 几乎被压在 Dense-1C budget 附近,一个中等 activation rate 仍然可以让 MoE 在大致相同 total parameters 和 compute 下超过 Dense-1C。表里最好的点是 MoE-65B-Exp4ra=18.83%r_a = 18.83\%Delta BPC = -0.0076

7.2 Step3B:7B data reuse, the sweet spot, and the resource table

到 7B 时,论文换成更难的 baseline。由于这些 MoE 在 equal total parameters 和 compute 下已经超过 Dense-1C,图 5a 直接把 Dense-2C 作为 reference line。纵轴是相对 Dense-2C 的 Delta BPC;低于 0 表示 MoE 好于一个大约用 2 倍 compute 和 2 倍 unique tokens 训练的 Dense。

7B activation-rate 与 data-reuse 对比
图 5a. Step3B 的 7B-scale 结果。深绿色实线是不做 data reuse 的 MoE,绿色虚线表示 two epochs,橙色点划线表示 strict 68B setting。红色水平虚线是 Dense-2C,阴影区域标出图中标注的 optimal region。
7B MoE data reuse impact
图 5b. 同一组 7B 实验的 data reuse impact。每条线固定一个 activation rate,横轴随着 reuse epochs 增加而移动。阴影区域标出 low-degradation reuse regime。

图 5a 和图 5b 从两个角度看同一组 7B trade-off。图 5a 里,不做 reuse 的 MoE 可以在较宽的中等 activation-rate 区间超过 Dense-2C,但要用多得多的 unique tokens;two epochs 后,同一区间仍然超过 Dense-2C,同时 unique data 需求明显下降;到了 strict 68B cap,大多数 activation rates 会掉队,但 ra=20.07%r_a = 20.07\% 仍然能对齐 Dense-2C。图 5b 则把 reuse 这个轴展开:适度 reuse 可以保留甚至提升 MoE 表现,过度 reuse 会明显退化,尤其是在 activation rate 过低时。

表 3. 7B Step3B resource table,对应图 5a 和图 5b。Deltas 相对 Dense-2C 计算;BPC 越低越好。值得注意的一行是 MoE-68Bra=20.07%r_a = 20.07\%:同一 total-parameter scale,68B unique tokens,4.65 reuse epochs,per-token FLOPs 只有 21.5%,BPC 0.4590,与 Dense-2C 的 0.4594 可比。这意味着,选对 activation rate 后,即使 unique tokens 被严格限制,MoE 仍然可以用更多 consumed tokens 换来 activation-rate 量级的 per-token FLOPs。

Model / strategyrar_aUnique tokensReuse epochsFLOPs/token vs DenseBPCDelta BPC vs Dense-2C
Dense-1C100.00%68B1.00100.0%0.4736+0.0142
Dense-2C100.00%130B1.00100.0%0.45940.0000
MoE-Unique11.19%511B1.0013.3%0.4624+0.0030
MoE-Unique13.41%443B1.0015.3%0.4580-0.0014
MoE-Unique15.63%390B1.0017.4%0.4571-0.0023
MoE-Unique20.07%316B1.0021.5%0.4543-0.0051
MoE-Unique26.18%250B1.0027.2%0.4580-0.0014
MoE-2Ep11.19%256B2.0013.3%0.4591-0.0003
MoE-2Ep13.41%221B2.0015.3%0.4557-0.0037
MoE-2Ep15.63%195B2.0017.4%0.4550-0.0044
MoE-2Ep20.07%158B2.0021.5%0.4549-0.0045
MoE-2Ep26.18%125B2.0027.2%0.4570-0.0024
MoE-68B11.19%68B7.5213.3%0.4656+0.0062
MoE-68B13.41%68B6.5115.3%0.4618+0.0024
MoE-68B15.63%68B5.7417.4%0.4601+0.0007
MoE-68B20.07%68B4.6521.5%0.4590-0.0004
MoE-68B26.18%68B3.6727.2%0.4597+0.0003

7.3 Step3C:Downstream evaluation after SFT

Downstream 这一节的价值在于,它检查 activation-rate story 是否只是 pretraining BPC 上的现象。论文在 29 个 benchmarks 上评估 7B pre-trained 和 SFT-ed models,覆盖 reasoning、knowledge、Math、Code 等类别。Math/Code 的绝对分数需要结合附录 E 的 data-recipe 说明来读。

Pretrain average downstream accuracy
图 6a. Pretrain average accuracy。
SFT average downstream accuracy
图 6b. SFT average accuracy。
SFT knowledge downstream accuracy
图 6c. SFT knowledge accuracy。
SFT reasoning downstream accuracy
图 6d. SFT reasoning accuracy。

图 6. Step3C 的 7B aligned models downstream evaluation。蓝色实线使用 unique data,青色虚线使用 strict data reuse,红色点划线是 Dense-2C baseline。与 BPC 图不同,这里 accuracy 越高越好。

结果不只是“MoE 在 validation loss 上赢了”。当 ra20%r_a \approx 20\% 时,MoE 在 SFT 后仍然很强;其中 unique-data MoE 相对 Dense 对照组的优势最清楚。Strict-reuse MoE 整体仍有竞争力,并且在 reasoning 上尤其强;但 downstream curves 也暴露出一个重要的 capability split:data reuse 对 reasoning 的影响相对小,而 unique tokens 减少时,knowledge-oriented benchmarks 更容易退化。换句话说,对于 MoE,重复数据可以强化 reasoning,但不能完全替代缺失的 world knowledge。

因此 Step3C 不只是一个附带验证。它说明 activation-rate sweet spot 对 aligned models 也有意义,同时也说明 data reuse 更适合用在什么地方:reasoning 更能承受,knowledge coverage 更敏感。

8. Practical recipe and final takeaway

对训练 SOTA MoE LLM 的团队来说,这篇论文给出的不是一句“做稀疏化”,而是一套更具体的 guidance。

  1. It can surpass Dense with same total parameters. 在相同的总参数量和训练计算量的情况下,MoE模型可以打平甚至超越Dense LLM。这个意味着真正第一性的东西是训练时的计算量,当训练计算量一致时,MoE引入的稀疏化并没有架构层面的劣势。
  2. The fundamental trade-off. 在这个情况下,MoE 用更高的 consumed-token demand 换取大幅 per-token FLOPs reduction。例如,当 ra20%r_a \approx 20\% 时,资源方程意味着需要大约 5×5\times consumed tokens;7B sweet-spot 只有 Dense 的 21.5% per-token FLOPs,也就是在相同 total-parameter footprint 下约 5x 的 inference-side FLOPs reduction。
  3. Scale-aware optimal sparsity. “Sparser is better” 是错觉。本文 2B、3B、7B sweeps 里,有效 activation-rate region 不窄,但也不是任意的:大致在 10%-30%,当时这个最优activation-rate region 可能随着模型尺寸最大像更加稀疏的方向扩展或者偏移。
  4. Data reuse works, within limits. 当 unique data 有限时,multi-epoch reuse 可以保住 MoE advantage。例如,在 7B sweep 里,moderate reuse window 仍然有效;同时reasoning 相对更能承受 repeated data,而 knowledge coverage 对Unique Token更敏感。

假设我们想训练一个 1T-total-parameter 的 MoE model。作为对比,一个 1T Dense model 按 Chinchilla 需要约 20T tokens。如果这个 MoE 选择 100B active parameters,也就是 10% activation rate,那么要以 Dense-level performance 为目标,就应该为约 200T consumed tokens 做预算。如果 unique data 不够,moderate multi-epoch reuse 可以帮忙。

这篇 Paper 对于想训练 frontier model 的团队的启发在于:它把 MoE scaling 从一句含糊的 “sparse is efficient”,落成一个资源配方:选择合适的 activation rate,采用更加激进的 data scaling 策略;当 unique tokens 不够时,可以适度使用 data reuse,例如控制在大约 3 epochs 以内。