能否训出和 Dense 总参相同、性能相同的 MoE 模型？

ICLR 2026 Oral Paper的解读：MoE 需要更加激进的 Data Scaling 策略

1. 一句话版本

本文就是为了回答标题里的问题：

能否在总参和训练计算量都与 Dense LLM 相同的条件下，训出性能相同的 MoE LLM，从而使得Inference-time的成本降低是一个白白的收益？

回答是：

在 fixed total parameters 和 fixed training compute 下，MoE 要达到同规模 Dense 的效果，核心代价不是参数，而是 tokens：它需要消耗大约 $1/r_a$ 倍的 training tokens。这里 $r_a=N_a/N$ 是 activation rate，也就是 activated parameters 除以 total parameters。作为交换，MoE 把 per-token FLOPs 降到大约 Dense 的 $r_a$ 倍。
这笔交换只有在合适的 activation-rate region 里才成立。MoE 并不是越稀疏越好；实验反复显示，真正有效的是一个中等稀疏度区间，大致在 10%-30%，当然随着模型规模的扩大这个区间可能往更稀疏的地方扩张和偏移。
当 unique data 有限时，适度 data reuse 可以补上额外的 token demand，并保留大部分 MoE advantage。

结论很简单，但为了验证它，我们付出了极高的实验成本：

近 200 个

从零训练的 2B-scale LLMs

超过 50 个

从零训练的 7B-scale LLMs

50T

训练过程中处理的 tokens

Open-sourced

model checkpoints

一句话的训练 recipe：

Optimized MoE backbone + 合适的 activation rate + 更激进的 token scaling + unique tokens 不够时，适度使用data reuse。

文献里常见两种比较方式。

一种做法是固定数据和训练设置，然后强调 active-compute efficiency。比如 DeepSeekMoE 16B：它和 DeepSeek 7B Dense 使用同一个 2T-token corpus 训练，论文报告只用了约 40% computation 就达到与 DeepSeek 7B Dense 可比的性能，也能与 LLaMA2 7B 可比；但与此同时，它使用了更大的 total-parameter MoE reservoir [1]。
另一种做法是固定 active expert budget 或目标 per-token compute，然后增加 total experts。Kimi K2 的 sparsity scaling ablation 就是这类例子，并且声称越稀疏越好 [3]。

这两种做法都有价值，但它们都没有把 total parameters 锁住。这个变量不是纸面数字，它对应 capacity、HBM footprint、checkpoint size 和最小部署单元；真实系统里，当 batch size 足够大时，几乎所有 experts 都会被激活。因此更硬的问题是：如果 Dense 和 MoE 的 total parameter count 完全相同，training compute 也相同，MoE 还能不能追平甚至超过 Dense？如果可以，就说明收益不只是 parameter 补贴，而是 sparsity 在训练得当时确实能成为架构优势。

3. 资源方程

对 Dense model，论文把 per-token forward computation 近似写成：

M_{\text{Dense}} \approx 2N\kappa_{\text{Dense}}. \tag{1}

这里 $M$ 表示 per-token forward FLOPs， $N$ 表示 total non-embedding parameters， $\kappa_{\text{Dense}}$ 吸收 sequence length、model width、FFN expansion ratio 等 Dense shape factors。

对一个 total parameter count 相同的 MoE model，有：

M_{\text{MoE}} \approx 2r_aN\kappa_{\text{MoE}}. \tag{2}

这里 $N_a$ 表示 activated parameters， $r_a = N_a/N$ 是 activation rate， $\kappa_{\text{MoE}}$ 吸收 MoE 对应的 shape factors。当 backbone shape 固定后， $\kappa_{\text{Dense}}$ 和 $\kappa_{\text{MoE}}$ 可以近似看成常数。论文中的完整参数化推导放在中文附录 A，完整 notation 表放在中文附录 D。

如果 $D$ 表示 consumed training tokens， $C$ 表示 total training compute，那么 equal training compute 给出：

C_{\text{Dense}} \approx M_{\text{Dense}}D_{\text{Dense}} \approx M_{\text{MoE}}D_{\text{MoE}} \approx C_{\text{MoE}}. \tag{3}

整理后得到：

\frac{D_{\text{MoE}}}{D_{\text{Dense}}} \approx \frac{1}{r_a}\frac{\kappa_{\text{Dense}}}{\kappa_{\text{MoE}}} \propto \frac{1}{r_a}. \tag{4}

核心置换关系就在这里。

在相同 total parameter count 下，一个 20% activation-rate 的 MoE，每个 token 只付出大约 Dense 五分之一的 FFN-style compute；但如果要消耗同样的 training compute，它就需要处理大约 5 倍 tokens，具体比例会受到 shape-factor correction 的影响。

论文还从另一个方向做了经验验证：在 3B 和 7B 设置下，MoE per-token FLOPs 与 $r_a$ 基本接近线性关系（图 1a）；相同计算量下的 data 消耗倍数与 $1/r_a$ 基本接近线性关系（图 1b）。

Per-token FLOPs ratio 与 activation rate 的关系 — *图 1a. 当 architecture shape 被控制住以后，MoE per-token FLOPs 与 activation rate 近似线性相关。*

Train-token ratio 与 1/r_a 的经验验证 — *图 1b. 3B 和 7B 实验验证了 MoE train-token ratio 随 activation rate 的倒数变化。*

4. 三步方法论

由公式 (2)-(3) 可以看出，在忽略共同的 forward/backward 常数因子后，MoE 的训练算力大致满足 $C_{\text{MoE}} \approx 2r_aN\kappa_{\text{MoE}}D$ 。如果要直接做 MoE 的 compute-optimal sweep，需要同时扫描 architecture、sparsity、total parameters $N$ 和 training-token ratio $D/N$ ，维度远高于 Dense scaling law 里常见的 $N$ 、 $D/N$ 两维扫描。在实验资源有限的情况下，本文选择了一条 greedy route：减少模型配置数量，但把每个配置都训到足够高的 $D/N$ ，让比较发生在 sufficiently trained regime，更接近训练 SOTA 模型的生产环境。

三步方法论总览

图 2. 为博客重绘的三步方法论：先优化并锁定 MoE backbone，再在固定 N 和 C 下搜索 activation rate，最后用 data reuse 在 finite unique data 下做严格比较。

因此本文采用了一种 greedy strategy：先给 MoE 一个足够强的 optimized backbone，再在 fixed total parameters N 和 training compute C 下 sweep $r_a$ ，最后测试 data reuse 的影响。Dense baseline 也不是随便选的，而是采用了 optimal FFN ratio 的策略；因此我们希望比较的是结构上都充分优化过的 Dense 和 MoE。

5. Step 1：Optimize the MoE architecture

MoE 比 Dense 多了很多可调维度。Dense model 基本由宽高比和 FFN ratio 决定；MoE 还要选择 Dense/MoE layer mix、是否使用 shared experts、routing top-K、routed/shared expert sizes、total expert count，以及 global shape ratios。

如果这些因素不先控制住，activation-rate sweep 就可能失去意义。一个坏结果也许只是在说明 MoE backbone 没调好。因此，architecture search 的作用是先把这个设计空间收窄，得到后续 sweep 所使用的 MoE backbone。

表 1. Step 1 architecture-search 结论表。

Component	Backbone 中采用的结论
Layer arrangement	使用 `1dense+SE`：一个初始 Dense layer，后续为带 shared experts 的 MoE layers。
Gate normalization	在小模型 ablations 中，normalization 会降低 balance loss。
Top-K routing	同时避免 `K = 1` 和过大的 `K`；条件允许时使用中间范围的 top-K。
Shape ratios	搜索结果支持的是合理区间，而不是某个唯一最优值：`zeta` 在 `60-120` 左右是合理范围，`mu` 在 `20` 左右是合理范围。

Step 1 的核心是公平。拿 MoE 和 Dense 比之前，论文先把 MoE backbone 调到足够强。这样后面的 activation-rate sweep 问的才是一个更干净的问题：在同样总参预算下，一组结构合理的 MoE 里，什么 activation rate 最有效？kappa_MoE 更稳定有利于资源方程分析，但这只是 secondary benefit。Step 1 的详细实验放在附录 C。

6. Step 2：Search the optimal activation rate

2B 固定数据与固定 activation-rate 分析 — *图 3a. 2B scale 下，固定 activation rate 增加 tokens，与通过激活更多参数来增加 compute，是两种不同的路径。*

2B fixed-compute activation-rate sweep — *图 3b. 在 fixed total parameters 和 training compute 下，2B MoE curve 在 r_a ≈ 20% 附近达到最佳，说明 MoE 不是 “the sparser, the better”。*

图 3a 的解释是。 横轴是 total training compute，纵轴是 BPC（越低越好）。气泡大小表示 consumed training tokens。每条虚线固定 activation rate 并增加 tokens；沿着这些线往右走，更多 tokens 会稳定地、几乎 log-log linear 地降低 BPC，这符合常见的 data-scaling 直觉。绿色实线则固定 data budget 为 D = 114B，从 sparse 到 dense 改变 $r_a$ 。这把两种花 compute 的方式分开了：一种是在固定 $r_a$ 下喂更多 tokens，另一种是在固定 data 下激活更多参数。

图 3b 这样读。 横轴是 $r_a$ ，纵轴是 BPC。蓝色曲线是同一 total training compute 下的 2B MoE family。气泡大小仍然表示在这个 fixed-compute budget 下每个 MoE 实际消耗了多少 tokens。黑色水平线是 same-compute 2B Dense baseline，红色点划线是使用更多 compute 和更多 data 训练的更强 Dense baseline。

Findings.

固定 $r_a$ 时，多喂 tokens 会稳定改善 BPC，这符合常见的 data-scaling 直觉。但当 training tokens 和 total parameters 固定，training compute 只是因为 MoE 激活更多参数而增加时，BPC-compute 关系不再落在同一条平滑 scaling curve 上。这说明 optimal activation region 是可能存在的。
在 fixed total parameters 和 fixed compute 下，MoE 不是越稀疏越好。真正有效的是一个中等稀疏度区间，大致在 10%-30%，2B 上最清楚的点在 $r_a \approx 20\%$ 附近。

7. Step 3：Data reuse, 7B validation, and downstream value

7.1 Step3A：3B activation-rate search under data reuse

3B 实验是对 data reuse 的第一层压力测试。它基本固定 total parameters 和 training compute，然后比较两组 MoE family：一组 unique tokens 接近 Dense-1C data budget，另一组 unique-token budget 更大。纵轴是相对 Dense-1C baseline 的 Delta BPC，越低越好；负值表示 MoE 优于 Dense-1C。

图 4 和表 2 要一起读。图给出完整的 3B activation-rate pattern；表只看更严格的 MoE-65B 设置，也就是更直接地检验：当 unique data 基本接近 Dense-1C 时，MoE 是否仍然有竞争力。

3B activation-rate 与 data-reuse 对比 — 图 4. Step3A 的 3B-scale 结果。深绿色实线是 `MoE-65B`，unique tokens 被控制在 Dense-1C budget 附近（`1.04x`，约 65B tokens）。绿色虚线是 `MoE-114B`，unique-token budget 更宽松，约为 Dense-1C 的 `1.82x`。红色虚线是严格目标 `Delta BPC = -0.004`，阴影区域标出图中标注的 optimal region。

表 2. 3B Step3A resource table。这里选出的 MoE rows 基本使用和 Dense-1C 相同的 unique-token budget，但通过 reuse 消耗更多 training tokens。BPC deltas 相对 Dense-1C 计算，越低越好。

Model	C	r_a	FLOPs/tok.	Train tok.	Unique tok.	Reuse	ΔBPC
Dense-1C baseline	1.00x	100.0%	100.0%	1.00x	1.00x	1.00	0.0000
MoE-65B-Exp3	1.00x	14.70%	16.7%	5.99x	1.04x	5.77	-0.0059
MoE-65B-Exp4	1.01x	18.83%	20.4%	4.94x	1.04x	4.75	-0.0076
MoE-65B-Exp5	0.99x	27.12%	27.6%	3.56x	1.04x	3.43	-0.0039
MoE-65B-Exp6	0.99x	34.75%	34.3%	2.88x	1.04x	2.77	-0.0047

关键不是“所有 reuse setting 都一样好”，而是：即使 unique tokens 几乎被压在 Dense-1C budget 附近，一个中等 activation rate 仍然可以让 MoE 在大致相同 total parameters 和 compute 下超过 Dense-1C。表里最好的点是 MoE-65B-Exp4， $r_a = 18.83\%$ ，Delta BPC = -0.0076。

7.2 Step3B：7B data reuse, the sweet spot, and the resource table

到 7B 时，论文换成更难的 baseline。由于这些 MoE 在 equal total parameters 和 compute 下已经超过 Dense-1C，图 5a 直接把 Dense-2C 作为 reference line。纵轴是相对 Dense-2C 的 Delta BPC；低于 0 表示 MoE 好于一个大约用 2 倍 compute 和 2 倍 unique tokens 训练的 Dense。

7B activation-rate 与 data-reuse 对比 — 图 5a. Step3B 的 7B-scale 结果。深绿色实线是不做 data reuse 的 MoE，绿色虚线表示 two epochs，橙色点划线表示 strict 68B setting。红色水平虚线是 Dense-2C，阴影区域标出图中标注的 optimal region。

7B MoE data reuse impact — *图 5b. 同一组 7B 实验的 data reuse impact。每条线固定一个 activation rate，横轴随着 reuse epochs 增加而移动。阴影区域标出 low-degradation reuse regime。*

图 5a 和图 5b 从两个角度看同一组 7B trade-off。图 5a 里，不做 reuse 的 MoE 可以在较宽的中等 activation-rate 区间超过 Dense-2C，但要用多得多的 unique tokens；two epochs 后，同一区间仍然超过 Dense-2C，同时 unique data 需求明显下降；到了 strict 68B cap，大多数 activation rates 会掉队，但 $r_a = 20.07\%$ 仍然能对齐 Dense-2C。图 5b 则把 reuse 这个轴展开：适度 reuse 可以保留甚至提升 MoE 表现，过度 reuse 会明显退化，尤其是在 activation rate 过低时。

表 3. 7B Step3B resource table，对应图 5a 和图 5b。Deltas 相对 Dense-2C 计算；BPC 越低越好。值得注意的一行是 MoE-68B 在 $r_a = 20.07\%$ ：同一 total-parameter scale，68B unique tokens，4.65 reuse epochs，per-token FLOPs 只有 21.5%，BPC 0.4590，与 Dense-2C 的 0.4594 可比。这意味着，选对 activation rate 后，即使 unique tokens 被严格限制，MoE 仍然可以用更多 consumed tokens 换来 activation-rate 量级的 per-token FLOPs。

Model / strategy	$r_a$	Unique tokens	Reuse epochs	FLOPs/token vs Dense	BPC	Delta BPC vs Dense-2C
Dense-1C	100.00%	68B	1.00	100.0%	0.4736	+0.0142
Dense-2C	100.00%	130B	1.00	100.0%	0.4594	0.0000
MoE-Unique	11.19%	511B	1.00	13.3%	0.4624	+0.0030
MoE-Unique	13.41%	443B	1.00	15.3%	0.4580	-0.0014
MoE-Unique	15.63%	390B	1.00	17.4%	0.4571	-0.0023
MoE-Unique	20.07%	316B	1.00	21.5%	0.4543	-0.0051
MoE-Unique	26.18%	250B	1.00	27.2%	0.4580	-0.0014
MoE-2Ep	11.19%	256B	2.00	13.3%	0.4591	-0.0003
MoE-2Ep	13.41%	221B	2.00	15.3%	0.4557	-0.0037
MoE-2Ep	15.63%	195B	2.00	17.4%	0.4550	-0.0044
MoE-2Ep	20.07%	158B	2.00	21.5%	0.4549	-0.0045
MoE-2Ep	26.18%	125B	2.00	27.2%	0.4570	-0.0024
MoE-68B	11.19%	68B	7.52	13.3%	0.4656	+0.0062
MoE-68B	13.41%	68B	6.51	15.3%	0.4618	+0.0024
MoE-68B	15.63%	68B	5.74	17.4%	0.4601	+0.0007
MoE-68B	20.07%	68B	4.65	21.5%	0.4590	-0.0004
MoE-68B	26.18%	68B	3.67	27.2%	0.4597	+0.0003

7.3 Step3C：Downstream evaluation after SFT

Downstream 这一节的价值在于，它检查 activation-rate story 是否只是 pretraining BPC 上的现象。论文在 29 个 benchmarks 上评估 7B pre-trained 和 SFT-ed models，覆盖 reasoning、knowledge、Math、Code 等类别。Math/Code 的绝对分数需要结合附录 E 的 data-recipe 说明来读。

Pretrain average downstream accuracy — *图 6a. Pretrain average accuracy。*

SFT average downstream accuracy — *图 6b. SFT average accuracy。*

SFT knowledge downstream accuracy — *图 6c. SFT knowledge accuracy。*

SFT reasoning downstream accuracy — *图 6d. SFT reasoning accuracy。*

图 6. Step3C 的 7B aligned models downstream evaluation。蓝色实线使用 unique data，青色虚线使用 strict data reuse，红色点划线是 Dense-2C baseline。与 BPC 图不同，这里 accuracy 越高越好。

结果不只是“MoE 在 validation loss 上赢了”。当 $r_a \approx 20\%$ 时，MoE 在 SFT 后仍然很强；其中 unique-data MoE 相对 Dense 对照组的优势最清楚。Strict-reuse MoE 整体仍有竞争力，并且在 reasoning 上尤其强；但 downstream curves 也暴露出一个重要的 capability split：data reuse 对 reasoning 的影响相对小，而 unique tokens 减少时，knowledge-oriented benchmarks 更容易退化。换句话说，对于 MoE，重复数据可以强化 reasoning，但不能完全替代缺失的 world knowledge。

因此 Step3C 不只是一个附带验证。它说明 activation-rate sweet spot 对 aligned models 也有意义，同时也说明 data reuse 更适合用在什么地方：reasoning 更能承受，knowledge coverage 更敏感。

8. Practical recipe and final takeaway

对训练 SOTA MoE LLM 的团队来说，这篇论文给出的不是一句“做稀疏化”，而是一套更具体的 guidance。

It can surpass Dense with same total parameters. 在相同的总参数量和训练计算量的情况下，MoE模型可以打平甚至超越Dense LLM。这个意味着真正第一性的东西是训练时的计算量，当训练计算量一致时，MoE引入的稀疏化并没有架构层面的劣势。
The fundamental trade-off. 在这个情况下，MoE 用更高的 consumed-token demand 换取大幅 per-token FLOPs reduction。例如，当 $r_a \approx 20\%$ 时，资源方程意味着需要大约 $5\times$ consumed tokens；7B sweet-spot 只有 Dense 的 21.5% per-token FLOPs，也就是在相同 total-parameter footprint 下约 5x 的 inference-side FLOPs reduction。
Scale-aware optimal sparsity. “Sparser is better” 是错觉。本文 2B、3B、7B sweeps 里，有效 activation-rate region 不窄，但也不是任意的：大致在 10%-30%，当时这个最优activation-rate region 可能随着模型尺寸最大像更加稀疏的方向扩展或者偏移。
Data reuse works, within limits. 当 unique data 有限时，multi-epoch reuse 可以保住 MoE advantage。例如，在 7B sweep 里，moderate reuse window 仍然有效；同时reasoning 相对更能承受 repeated data，而 knowledge coverage 对Unique Token更敏感。

假设我们想训练一个 1T-total-parameter 的 MoE model。作为对比，一个 1T Dense model 按 Chinchilla 需要约 20T tokens。如果这个 MoE 选择 100B active parameters，也就是 10% activation rate，那么要以 Dense-level performance 为目标，就应该为约 200T consumed tokens 做预算。如果 unique data 不够，moderate multi-epoch reuse 可以帮忙。

这篇 Paper 对于想训练 frontier model 的团队的启发在于：它把 MoE scaling 从一句含糊的 “sparse is efficient”，落成一个资源配方：选择合适的 activation rate，采用更加激进的 data scaling 策略；当 unique tokens 不够时，可以适度使用 data reuse，例如控制在大约 3 epochs 以内。