This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Hao Ma, Zhiqiang Pu, Yang Liu, Xiaolin Ai

Articles by Hao Ma, Zhiqiang Pu, Yang Liu, Xiaolin Ai

Academic · 1 min

Enhancing Reinforcement Learning Fine-Tuning with an Online Refiner

arXiv:2603.18088v1 Announce Type: new Abstract: Constraints are essential for stabilizing reinforcement learning fine-tuning (RFT) and preventing degenerate outputs, yet they inherently conflict with the optimization …

6 views Mar 20

Hao Ma, Zhiqiang Pu, Yang Liu, Xiaolin Ai

Articles by Hao Ma, Zhiqiang Pu, Yang Liu, Xiaolin Ai

Enhancing Reinforcement Learning Fine-Tuning with an Online Refiner

JCG, PC

HSOLLC Co., Ltd.