能否训出和 Dense 总参相同、性能相同的 MoE 模型?
ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略
MoEPretrainLLMICLR 2026 oralData ScalingData Reuse
由对 AGI 的好奇心和使命感驱动:解读自己的论文和项目,也记录自己对 AGI 的学习过程。
ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略
ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略
请选择其他主题,或返回完整研究流。