This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Xin-Qiang Cai, Masashi Sugiyama

Articles by Xin-Qiang Cai, Masashi Sugiyama

Academic · 1 min

VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction

arXiv:2602.12579v1 Announce Type: new Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a dominant paradigm for enhancing Large Language Models (LLMs) reasoning, yet …

25 views Mar 7

Xin-Qiang Cai, Masashi Sugiyama

Articles by Xin-Qiang Cai, Masashi Sugiyama

VI-CuRL: Stabilizing Verifier-Independent RL Reasoning via Confidence-Guided Variance Reduction

JCG, PC

HSOLLC Co., Ltd.