Houyi Li

AGI 研究学习笔记与工作解读

由对 AGI 的好奇心和使命感驱动:解读自己的论文和项目,也记录自己对 AGI 的学习过程。

置顶 论文解读 · P1 30 分钟

能否训出和 Dense 总参相同、性能相同的 MoE 模型?

ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略

MoEPretrainLLMICLR 2026 oralData ScalingData Reuse
能否训出和 Dense 总参相同、性能相同的 MoE 模型? figure
附录 · P2 25 分钟

能否训出和 Dense 总参相同、性能相同的 MoE 模型?

ICLR 2026 Oral Paper的解读:MoE 需要更加激进的 Data Scaling 策略

MoEPretrainLLMICLR 2026 oralData ScalingData Reuse
能否训出和 Dense 总参相同、性能相同的 MoE 模型? figure
加载更多研究笔记

开源项目

暂无开源项目发布。

阅读笔记

暂无阅读笔记。