This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Zhuoxu Huang, Mengxi Jia, Hao Sun, Xuelong Li, Jungong Han

Articles by Zhuoxu Huang, Mengxi Jia, Hao Sun, Xuelong Li, Jungong Han

Academic · 1 min

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

arXiv:2602.20197v1 Announce Type: new Abstract: Reinforcement Learning with verifiable rewards (RLVR) has emerged as a primary learning paradigm for enhancing the reasoning capabilities of multi-modal …

6 views Feb 26

Something extraordinary is coming.

Zhuoxu Huang, Mengxi Jia, Hao Sun, Xuelong Li, Jungong Han

Articles by Zhuoxu Huang, Mengxi Jia, Hao Sun, Xuelong Li, Jungong Han

Controllable Exploration in Hybrid-Policy RLVR for Multi-Modal Reasoning

JCG, PC

HSOLLC Co., Ltd.