This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Fan Zhang, Baoru Huang, Xin Zhang

Articles by Fan Zhang, Baoru Huang, Xin Zhang

Academic · 1 min

Pessimistic Auxiliary Policy for Offline Reinforcement Learning

arXiv:2602.23974v1 Announce Type: new Abstract: Offline reinforcement learning aims to learn an agent from pre-collected datasets, avoiding unsafe and inefficient real-time interaction. However, inevitable access …

55 views Mar 7

Fan Zhang, Baoru Huang, Xin Zhang

Articles by Fan Zhang, Baoru Huang, Xin Zhang

Pessimistic Auxiliary Policy for Offline Reinforcement Learning

JCG, PC

HSOLLC Co., Ltd.