This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Johannes Ackermann, Michael Noukhovitch, Takashi Ishida, Masashi Sugiyama

Articles by Johannes Ackermann, Michael Noukhovitch, Takashi Ishida, Masashi Sugiyama

Academic · 1 min

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

arXiv:2602.18037v1 Announce Type: cross Abstract: Reinforcement Learning from Human Feedback (RLHF) or Verifiable Rewards (RLVR) are two key steps in the post-training of modern Language …

3 views Feb 24

Something extraordinary is coming.

Johannes Ackermann, Michael Noukhovitch, Takashi Ishida, Masashi Sugiyama

Articles by Johannes Ackermann, Michael Noukhovitch, Takashi Ishida, Masashi Sugiyama

Gradient Regularization Prevents Reward Hacking in Reinforcement Learning from Human Feedback and Verifiable Rewards

JCG, PC

HSOLLC Co., Ltd.