This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Minjune Hwang, Yigit Korkmaz, Daniel Seita, Erdem B{\i}y{\i}k

Articles by Minjune Hwang, Yigit Korkmaz, Daniel Seita, Erdem B{\i}y{\i}k

Academic · 1 min

Causally Robust Reward Learning from Reason-Augmented Preference Feedback

arXiv:2603.04861v1 Announce Type: new Abstract: Preference-based reward learning is widely used for shaping agent behavior to match a user's preference, yet its sparse binary feedback …

32 views Mar 7

Minjune Hwang, Yigit Korkmaz, Daniel Seita, Erdem B{\i}y{\i}k

Articles by Minjune Hwang, Yigit Korkmaz, Daniel Seita, Erdem B{\i}y{\i}k

Causally Robust Reward Learning from Reason-Augmented Preference Feedback

JCG, PC

HSOLLC Co., Ltd.