This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Amirhossein Farzam, Majid Behabahani, Mani Malek, Yuriy Nevmyvaka, Guillermo Sapiro

Articles by Amirhossein Farzam, Majid Behabahani, Mani Malek, Yuriy Nevmyvaka, Guillermo Sapiro

Academic · 1 min

Hiding in Plain Text: Detecting Concealed Jailbreaks via Activation Disentanglement

arXiv:2602.19396v1 Announce Type: new Abstract: Large language models (LLMs) remain vulnerable to jailbreak prompts that are fluent and semantically coherent, and therefore difficult to detect …

45 views Mar 7

Amirhossein Farzam, Majid Behabahani, Mani Malek, Yuriy Nevmyvaka, Guillermo Sapiro

Articles by Amirhossein Farzam, Majid Behabahani, Mani Malek, Yuriy Nevmyvaka, Guillermo Sapiro

Hiding in Plain Text: Detecting Concealed Jailbreaks via Activation Disentanglement

JCG, PC

HSOLLC Co., Ltd.