This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Zimeng Li, Mudit Gaur, Vaneet Aggarwal

Articles by Zimeng Li, Mudit Gaur, Vaneet Aggarwal

Academic · 1 min

Oracle-Robust Online Alignment for Large Language Models

arXiv:2602.20457v1 Announce Type: new Abstract: We study online alignment of large language models under misspecified preference feedback, where the observed preference oracle deviates from an …

4 views Feb 26

Something extraordinary is coming.

Zimeng Li, Mudit Gaur, Vaneet Aggarwal

Articles by Zimeng Li, Mudit Gaur, Vaneet Aggarwal

Oracle-Robust Online Alignment for Large Language Models

JCG, PC

HSOLLC Co., Ltd.