This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang

Articles by Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang

Academic · 1 min

Finding and Reactivating Post-Trained LLMs' Hidden Safety Mechanisms

arXiv:2604.00012v1 Announce Type: cross Abstract: Despite the impressive performance of general-purpose large language models (LLMs), they often require fine-tuning or post-training to excel at specific …

1 views Apr 3

Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang

Articles by Mingjie Li, Wai Man Si, Michael Backes, Yang Zhang, Yisen Wang

Finding and Reactivating Post-Trained LLMs' Hidden Safety Mechanisms

JCG, PC

HSOLLC Co., Ltd.