Quantization - a Julius-L Collection

Julius-L 's Collections

Memory Efficient Training

Model Architecture

LLM Technical Reports

Quantization

updated 7 days ago

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

Paper • 2409.17066 • Published Sep 25 • 27
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

Paper • 2410.02367 • Published 29 days ago • 45