This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Jama Hussein Mohamud, Drew Wagner, Mirco Ravanelli

Articles by Jama Hussein Mohamud, Drew Wagner, Mirco Ravanelli

Academic · 1 min

Self-Routing: Parameter-Free Expert Routing from Hidden States

arXiv:2604.00421v1 Announce Type: new Abstract: Mixture-of-Experts (MoE) layers increase model capacity by activating only a small subset of experts per token, and typically rely on …

2 views Apr 3

Jama Hussein Mohamud, Drew Wagner, Mirco Ravanelli

Articles by Jama Hussein Mohamud, Drew Wagner, Mirco Ravanelli

Self-Routing: Parameter-Free Expert Routing from Hidden States

JCG, PC

HSOLLC Co., Ltd.