能否训出和 Dense 总参相同、性能相同的 MoE 模型?
ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略
MoEPretrainLLMICLR 2026 oralData ScalingData Reuse
对自己论文和研究工作的解释、复盘与延展。
ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略
ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略
请选择其他主题,或返回完整研究流。