This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Yuqi Kong, Xiao Zhang, Weiran Shen

Articles by Yuqi Kong, Xiao Zhang, Weiran Shen

Academic · 1 min

Inverse Contextual Bandits without Rewards: Learning from a Non-Stationary Learner via Suffix Imitation

arXiv:2603.03778v1 Announce Type: new Abstract: We study the Inverse Contextual Bandit (ICB) problem, in which a learner seeks to optimize a policy while an observer, …

25 views Mar 6

Yuqi Kong, Xiao Zhang, Weiran Shen

Articles by Yuqi Kong, Xiao Zhang, Weiran Shen

Inverse Contextual Bandits without Rewards: Learning from a Non-Stationary Learner via Suffix Imitation

JCG, PC

HSOLLC Co., Ltd.