This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Hui Yang, Tao Ren, Jinyang Jiang, Wan Tian, Yijie Peng

Articles by Hui Yang, Tao Ren, Jinyang Jiang, Wan Tian, Yijie Peng

Academic · 1 min

Omni-Masked Gradient Descent: Memory-Efficient Optimization via Mask Traversal with Improved Convergence

arXiv:2603.05960v1 Announce Type: new Abstract: Memory-efficient optimization methods have recently gained increasing attention for scaling full-parameter training of large language models under the GPU-memory bottleneck. …

36 views Mar 9

Hui Yang, Tao Ren, Jinyang Jiang, Wan Tian, Yijie Peng

Articles by Hui Yang, Tao Ren, Jinyang Jiang, Wan Tian, Yijie Peng

Omni-Masked Gradient Descent: Memory-Efficient Optimization via Mask Traversal with Improved Convergence

JCG, PC

HSOLLC Co., Ltd.