This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Ji Gao, Caleb Ju, Guanghui Lan, Zhaohui Tong

Articles by Ji Gao, Caleb Ju, Guanghui Lan, Zhaohui Tong

Academic · 1 min

Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces

arXiv:2603.10199v1 Announce Type: new Abstract: Policy Dual Averaging (PDA) offers a principled Policy Mirror Descent (PMD) framework that more naturally admits value function approximation than …

34 views Mar 12

Ji Gao, Caleb Ju, Guanghui Lan, Zhaohui Tong

Articles by Ji Gao, Caleb Ju, Guanghui Lan, Zhaohui Tong

Actor-Accelerated Policy Dual Averaging for Reinforcement Learning in Continuous Action Spaces

JCG, PC

HSOLLC Co., Ltd.