This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan

Articles by Indranil Halder, Annesya Banerjee, Cengiz Pehlevan

Academic · 1 min

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

arXiv:2603.11331v1 Announce Type: new Abstract: Adversarial attacks can reliably steer safety-aligned large language models toward unsafe behavior. Empirically, we find that adversarial prompt-injection attacks can …

4 views Mar 13

Indranil Halder, Annesya Banerjee, Cengiz Pehlevan

Articles by Indranil Halder, Annesya Banerjee, Cengiz Pehlevan

Jailbreak Scaling Laws for Large Language Models: Polynomial-Exponential Crossover

JCG, PC

HSOLLC Co., Ltd.