This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Bian Sun, Zhenjian Wang, Orvill de la Torre, Zirui Wang

Articles by Bian Sun, Zhenjian Wang, Orvill de la Torre, Zirui Wang

Academic · 1 min

When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation

arXiv:2603.00314v1 Announce Type: new Abstract: This paper details the baseline model selection, fine-tuning process, evaluation methods, and the implications of deploying more accurate LLMs in …

18 views Mar 7

Bian Sun, Zhenjian Wang, Orvill de la Torre, Zirui Wang

Articles by Bian Sun, Zhenjian Wang, Orvill de la Torre, Zirui Wang

When Metrics Disagree: Automatic Similarity vs. LLM-as-a-Judge for Clinical Dialogue Evaluation

JCG, PC

HSOLLC Co., Ltd.