This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Yasuto Hoshi, Daisuke Miyashita, Jun Deguchi

Articles by Yasuto Hoshi, Daisuke Miyashita, Jun Deguchi

Academic · 1 min

Top-K Retrieval with Fixed-Size Linear-Attention Completion: Backbone- and KV-Format-Preserving Attention for KV-Cache Read Reduction

arXiv:2604.05438v1 Announce Type: new Abstract: Long-context generation is increasingly limited by decode-time key-value (KV) cache traffic, particularly when KV is offloaded beyond GPU memory. Query-aware …

30 views Apr 8

Yasuto Hoshi, Daisuke Miyashita, Jun Deguchi

Articles by Yasuto Hoshi, Daisuke Miyashita, Jun Deguchi

Top-K Retrieval with Fixed-Size Linear-Attention Completion: Backbone- and KV-Format-Preserving Attention for KV-Cache Read Reduction

JCG, PC

HSOLLC Co., Ltd.