This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang

Articles by Guoli Wang, Haonan Shi, Tu Ouyang, An Wang

Academic · 1 min

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

arXiv:2603.07445v1 Announce Type: new Abstract: Large language models (LLMs) often require fine-tuning (FT) to perform well on downstream tasks, but FT can induce safety-alignment drift …

19 views Mar 10

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang

Articles by Guoli Wang, Haonan Shi, Tu Ouyang, An Wang

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

JCG, PC

HSOLLC Co., Ltd.