This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Zhe Yang, Yudong Wang, Rang Li, Zhifang Sui

Articles by Zhe Yang, Yudong Wang, Rang Li, Zhifang Sui

Academic · 1 min

Towards Better RL Training Data Utilization via Second-Order Rollout

arXiv:2602.22765v1 Announce Type: new Abstract: Reinforcement Learning (RL) has empowered Large Language Models (LLMs) with strong reasoning capabilities, but vanilla RL mainly focuses on generation …

8 views Feb 28

Something extraordinary is coming.

Zhe Yang, Yudong Wang, Rang Li, Zhifang Sui

Articles by Zhe Yang, Yudong Wang, Rang Li, Zhifang Sui

Towards Better RL Training Data Utilization via Second-Order Rollout

JCG, PC

HSOLLC Co., Ltd.