我的论文

对自己论文和研究工作的解释、复盘与延展。

置顶论文解读 · P1 30 分钟

能否训出和 Dense 总参相同、性能相同的 MoE 模型？

ICLR 2026 Oral Paper的解读：MoE 需要更加激进的 Data Scaling 策略

MoEPretrainLLMICLR 2026 oralData ScalingData Reuse

能否训出和 Dense 总参相同、性能相同的 MoE 模型？ figure

附录 · P2 25 分钟

附录：能否训出和 Dense 总参相同、性能相同的 MoE 模型？

ICLR 2026 Oral Paper的解读：MoE 需要更加激进的 Data Scaling 策略

MoEPretrainLLMICLR 2026 oralData ScalingData ReuseAPPENDIX

附录：能否训出和 Dense 总参相同、性能相同的 MoE 模型？ figure

暂无该主题文章。

请选择其他主题，或返回完整研究流。

加载更多研究笔记