This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

Articles by Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

Academic · 1 min

Not all tokens are needed(NAT): token efficient reinforcement learning

arXiv:2603.06619v1 Announce Type: new Abstract: Reinforcement learning (RL) has become a key driver of progress in large language models, but scaling RL to long chain-of-thought …

26 views Mar 10

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

Articles by Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang

Not all tokens are needed(NAT): token efficient reinforcement learning

JCG, PC

HSOLLC Co., Ltd.