This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Hengshuai Yao, Guan Wang

Articles by Hengshuai Yao, Guan Wang

Academic · 1 min

Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

arXiv:2603.04427v1 Announce Type: new Abstract: Standard transformer attention uses identical dimensionality for queries, keys, and values ($d_q = d_k = d_v = \dmodel$). Our insight …

17 views Mar 7

Hengshuai Yao, Guan Wang

Articles by Hengshuai Yao, Guan Wang

Thin Keys, Full Values: Reducing KV Cache via Low-Dimensional Attention Selection

JCG, PC

HSOLLC Co., Ltd.