This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Rohan Saxena

Articles by Rohan Saxena

Academic · 1 min

Semantic Containment as a Fundamental Property of Emergent Misalignment

arXiv:2603.04407v1 Announce Type: new Abstract: Fine-tuning language models on narrowly harmful data causes emergent misalignment (EM) -- behavioral failures extending far beyond training distributions. Recent …

Rohan Saxena

17 views Mar 7

Rohan Saxena

Articles by Rohan Saxena

Semantic Containment as a Fundamental Property of Emergent Misalignment

JCG, PC

HSOLLC Co., Ltd.