This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Benjamin Plaut

Articles by Benjamin Plaut

Academic · 1 min

Safety Training Persists Through Helpfulness Optimization in LLM Agents

arXiv:2603.02229v1 Announce Type: cross Abstract: Safety post-training has been studied extensively in single-step "chat" settings where safety typically refers to refusing harmful requests. We study …

Benjamin Plaut

16 views Mar 5

Benjamin Plaut

Articles by Benjamin Plaut

Safety Training Persists Through Helpfulness Optimization in LLM Agents

JCG, PC

HSOLLC Co., Ltd.