Speed - a zucco Collection

zucco 's Collections

Better LLM datasets

MoE

Speed

ViT

RAG

LLM

Agents

Speed

updated Dec 21, 2023

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 258
PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU

Paper • 2312.12456 • Published Dec 16, 2023 • 41