This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Sweta Karlekar, Carolina Zheng, Magnus Saebo, Nicolas Beltran-Velez, Shuyang Yu, John Bowlan, Michal Kucer, David Blei

Articles by Sweta Karlekar, Carolina Zheng, Magnus Saebo, Nicolas Beltran-Velez, Shuyang Yu, John Bowlan, Michal Kucer, David Blei

Academic · 1 min

Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

arXiv:2602.21585v1 Announce Type: new Abstract: Many applications seek to optimize LLM outputs at test time by iteratively proposing, scoring, and refining candidates over a discrete …

3 views Feb 27

Something extraordinary is coming.

Sweta Karlekar, Carolina Zheng, Magnus Saebo, Nicolas Beltran-Velez, Shuyang Yu, John Bowlan, Michal Kucer, David Blei

Articles by Sweta Karlekar, Carolina Zheng, Magnus Saebo, Nicolas Beltran-Velez, Shuyang Yu, John Bowlan, Michal Kucer, David Blei

Duel-Evolve: Reward-Free Test-Time Scaling via LLM Self-Preferences

JCG, PC

HSOLLC Co., Ltd.