This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Ming Shi, Yingbin Liang, Ness B. Shroff, Ananthram Swami

Articles by Ming Shi, Yingbin Liang, Ness B. Shroff, Ananthram Swami

Academic · 1 min

Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret

arXiv:2603.20453v1 Announce Type: new Abstract: Reinforcement learning from human feedback (RLHF) replaces hard-to-specify rewards with pairwise trajectory preferences, yet regret-oriented theory often assumes that preference …

6 views Mar 24

Ming Shi, Yingbin Liang, Ness B. Shroff, Ananthram Swami

Articles by Ming Shi, Yingbin Liang, Ness B. Shroff, Ananthram Swami

Reinforcement Learning from Multi-Source Imperfect Preferences: Best-of-Both-Regimes Regret

JCG, PC

HSOLLC Co., Ltd.