This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach

Articles by Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach

Academic · 1 min

UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

arXiv:2602.22296v1 Announce Type: new Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has improved the reasoning abilities of large language models (LLMs) on mathematics and programming …

8 views Feb 28

Something extraordinary is coming.

Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach

Articles by Devan Shah, Owen Yang, Daniel Yang, Chongyi Zheng, Benjamin Eysenbach

UpSkill: Mutual Information Skill Learning for Structured Response Diversity in LLMs

JCG, PC

HSOLLC Co., Ltd.