This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Haitong Ma, Chenxiao Gao, Tianyi Chen, Na Li, Bo Dai

Articles by Haitong Ma, Chenxiao Gao, Tianyi Chen, Na Li, Bo Dai

Academic · 1 min

SiMPO: Measure Matching for Online Diffusion Reinforcement Learning

arXiv:2603.10250v1 Announce Type: new Abstract: A commonly used family of RL algorithms for diffusion policies conducts softmax reweighting over the behavior policy, which usually induces …

35 views Mar 12

Haitong Ma, Chenxiao Gao, Tianyi Chen, Na Li, Bo Dai

Articles by Haitong Ma, Chenxiao Gao, Tianyi Chen, Na Li, Bo Dai

SiMPO: Measure Matching for Online Diffusion Reinforcement Learning

JCG, PC

HSOLLC Co., Ltd.