This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Callum Canavan, Aditya Shrivastava, Allison Qi, Jonathan Michala, Fabien Roger

Articles by Callum Canavan, Aditya Shrivastava, Allison Qi, Jonathan Michala, Fabien Roger

Academic · 1 min

Three Concrete Challenges and Two Hopes for the Safety of Unsupervised Elicitation

arXiv:2602.20400v1 Announce Type: new Abstract: To steer language models towards truthful outputs on tasks which are beyond human capability, previous work has suggested training models …

4 views Feb 26

Something extraordinary is coming.

Callum Canavan, Aditya Shrivastava, Allison Qi, Jonathan Michala, Fabien Roger

Articles by Callum Canavan, Aditya Shrivastava, Allison Qi, Jonathan Michala, Fabien Roger

Three Concrete Challenges and Two Hopes for the Safety of Unsupervised Elicitation

JCG, PC

HSOLLC Co., Ltd.