This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Hongliu Cao, Ilias Driouich, Eoin Thomas

Articles by Hongliu Cao, Ilias Driouich, Eoin Thomas

Academic · 1 min

Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation

arXiv:2603.03116v1 Announce Type: new Abstract: Large Language Model (LLM)-based agents are increasingly adopted in high-stakes settings, but current benchmarks evaluate mainly whether a task was …

32 views Mar 7

Hongliu Cao, Ilias Driouich, Eoin Thomas

Articles by Hongliu Cao, Ilias Driouich, Eoin Thomas

Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation

JCG, PC

HSOLLC Co., Ltd.