This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Eddie Landesberg

Articles by Eddie Landesberg

Academic · 1 min

When LLM Judge Scores Look Good but Best-of-N Decisions Fail

arXiv:2603.12520v1 Announce Type: cross Abstract: Large language models are often used as judges to score candidate responses, then validated with a single global metric such …

Eddie Landesberg

34 views Mar 16

Eddie Landesberg

Articles by Eddie Landesberg

When LLM Judge Scores Look Good but Best-of-N Decisions Fail

JCG, PC

HSOLLC Co., Ltd.