This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Xiang Li, Nan Jiang, Yuheng Zhang

Articles by Xiang Li, Nan Jiang, Yuheng Zhang

Academic · 1 min

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

arXiv:2602.23811v1 Announce Type: new Abstract: We investigate the theoretical aspects of offline reinforcement learning (RL) under general function approximation. While prior works (e.g., Xie et …

31 views Mar 3

Xiang Li, Nan Jiang, Yuheng Zhang

Articles by Xiang Li, Nan Jiang, Yuheng Zhang

Beyond State-Wise Mirror Descent: Offline Policy Optimization with Parameteric Policies

JCG, PC

HSOLLC Co., Ltd.