This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Yiyang Shen, Lifu Tu, Weiran Wang

Articles by Yiyang Shen, Lifu Tu, Weiran Wang

Academic · 1 min

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

arXiv:2604.02621v1 Announce Type: new Abstract: Reinforcement Learning (RL) has been shown to substantially improve the reasoning capability of small and large language models (LLMs), but …

27 views Apr 6

Yiyang Shen, Lifu Tu, Weiran Wang

Articles by Yiyang Shen, Lifu Tu, Weiran Wang

Reinforcement Learning-based Knowledge Distillation with LLM-as-a-Judge

JCG, PC

HSOLLC Co., Ltd.