置顶 论文解读 · P1 30 分钟 能否训出和 Dense 总参相同、性能相同的 MoE 模型? ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略 MoEPretrainLLMICLR 2026 oralData ScalingData Reuse
附录 · P2 25 分钟 能否训出和 Dense 总参相同、性能相同的 MoE 模型? ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略 MoEPretrainLLMICLR 2026 oralData ScalingData Reuse