AGI 研究学习笔记与工作解读

由对 AGI 的好奇心和使命感驱动：解读自己的论文和项目，也记录自己对 AGI 的学习过程。

置顶论文解读 · P1 30 分钟

能否训出和 Dense 总参相同、性能相同的 MoE 模型？

ICLR 2026 Oral Paper的解读：MoE 需要更加激进的 Data Scaling 策略

MoEPretrainLLMICLR 2026 oralData ScalingData Reuse

能否训出和 Dense 总参相同、性能相同的 MoE 模型？ figure

附录 · P2 25 分钟

附录：能否训出和 Dense 总参相同、性能相同的 MoE 模型？

ICLR 2026 Oral Paper的解读：MoE 需要更加激进的 Data Scaling 策略

MoEPretrainLLMICLR 2026 oralData ScalingData ReuseAPPENDIX

附录：能否训出和 Dense 总参相同、性能相同的 MoE 模型？ figure

暂无该主题文章。

请选择其他主题，或返回完整研究流。

加载更多研究笔记