This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang

Articles by Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang

Academic · 1 min

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

arXiv:2602.22755v1 Announce Type: new Abstract: We introduce AuditBench, an alignment auditing benchmark. AuditBench consists of 56 language models with implanted hidden behaviors. Each model has …

7 views Feb 28

Something extraordinary is coming.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang

Articles by Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

JCG, PC

HSOLLC Co., Ltd.