This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Yonas Atinafu, Robin Cohen

Articles by Yonas Atinafu, Robin Cohen

Academic · 1 min

RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents

arXiv:2603.11337v1 Announce Type: new Abstract: LLM agents increasingly perform end-to-end ML engineering tasks where success is judged by a single scalar test metric. This creates …

63 views Mar 13

Yonas Atinafu, Robin Cohen

Articles by Yonas Atinafu, Robin Cohen

RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents

JCG, PC

HSOLLC Co., Ltd.