This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Jyotin Goel, Souvik Maji, Pratik Mazumder

Articles by Jyotin Goel, Souvik Maji, Pratik Mazumder

Academic · 1 min

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

arXiv:2602.17546v1 Announce Type: new Abstract: Instruction-following language models are trained to be helpful and safe, yet their safety behavior can deteriorate under benign fine-tuning and …

6 views Feb 21

Something extraordinary is coming.

Jyotin Goel, Souvik Maji, Pratik Mazumder

Articles by Jyotin Goel, Souvik Maji, Pratik Mazumder

Learning to Stay Safe: Adaptive Regularization Against Safety Degradation during Fine-Tuning

JCG, PC

HSOLLC Co., Ltd.