This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan

Articles by Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan

Academic · 1 min

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

arXiv:2603.06626v1 Announce Type: new Abstract: Traditional Mixture-of-Experts (MoE) training typically proceeds without any structural priors, effectively requiring the model to simultaneously train expert weights while …

27 views Mar 10

Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan

Articles by Yuqi Xu, Rizhen Hu, Zihan Liu, Mou Sun, Kun Yuan

Grouter: Decoupling Routing from Representation for Accelerated MoE Training

JCG, PC

HSOLLC Co., Ltd.