This platform requires JavaScript for full functionality. Please enable JavaScript in your browser settings.

Quality follows upgrading

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

Articles by Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

Academic · 1 min

Fast NF4 Dequantization Kernels for Large Language Model Inference

arXiv:2604.02556v1 Announce Type: new Abstract: Large language models (LLMs) have grown beyond the memory capacity of single GPU devices, necessitating quantization techniques for practical deployment. …

41 views Apr 6

Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

Articles by Xiangbo Qi, Chaoyi Jiang, Murali Annavaram

Fast NF4 Dequantization Kernels for Large Language Model Inference

JCG, PC

HSOLLC Co., Ltd.