This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Xu Wan, Yansheng Wang, Wenqi Huang, Mingyang Sun

Articles by Xu Wan, Yansheng Wang, Wenqi Huang, Mingyang Sun

Academic · 1 min

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

arXiv:2602.20722v1 Announce Type: new Abstract: Traditional on-policy Reinforcement Learning with Verifiable Rewards (RLVR) frameworks suffer from experience waste and reward homogeneity, which directly hinders learning …

42 views Mar 2

Xu Wan, Yansheng Wang, Wenqi Huang, Mingyang Sun

Articles by Xu Wan, Yansheng Wang, Wenqi Huang, Mingyang Sun

Buffer Matters: Unleashing the Power of Off-Policy Reinforcement Learning in Large Language Model Reasoning

JCG, PC

HSOLLC Co., Ltd.