Houyi AI Research Flow

Houyi AI Research Flow https://houyi.blog/ AGI research learning notes and work explainers by Houyi Li. en Wed, 13 May 2026 03:05:15 GMT Can We Train an MoE Model with the Same Total Parameters and Performance as Dense? https://houyi.blog/en/moe-equal-resources-p1/ https://houyi.blog/en/moe-equal-resources-p1/ An ICLR 2026 Oral paper explainer: MoE needs a more aggressive data scaling strategy. Fri, 08 May 2026 00:00:00 GMT lihouyi2013@hotmail.com (Houyi Li) MoEPretrainLLMICLR 2026 oralData ScalingData Reuse 能否训出和 Dense 总参相同、性能相同的 MoE 模型？ https://houyi.blog/zh/moe-equal-resources-p1/ https://houyi.blog/zh/moe-equal-resources-p1/ ICLR 2026 Oral Paper的解读：MoE 需要更加激进的 Data Scaling 策略 Fri, 08 May 2026 00:00:00 GMT lihouyi2013@hotmail.com (Houyi Li) MoEPretrainLLMICLR 2026 oralData ScalingData Reuse Appendix: Can We Train an MoE Model with the Same Total Parameters and Performance as Dense? https://houyi.blog/en/moe-equal-resources-p2/ https://houyi.blog/en/moe-equal-resources-p2/ An ICLR 2026 Oral paper explainer: MoE needs a more aggressive data scaling strategy. Fri, 08 May 2026 00:00:00 GMT lihouyi2013@hotmail.com (Houyi Li) MoEPretrainLLMICLR 2026 oralData ScalingData ReuseAPPENDIX 附录：能否训出和 Dense 总参相同、性能相同的 MoE 模型？ https://houyi.blog/zh/moe-equal-resources-p2/ https://houyi.blog/zh/moe-equal-resources-p2/ ICLR 2026 Oral Paper的解读：MoE 需要更加激进的 Data Scaling 策略 Fri, 08 May 2026 00:00:00 GMT lihouyi2013@hotmail.com (Houyi Li) MoEPretrainLLMICLR 2026 oralData ScalingData ReuseAPPENDIX