LLM_architectures - a pranay-j Collection

pranay-j 's Collections

LLM_architectures

NLP Parameter Efficient Finetuning

Text to Speech Architectures

Automatic Speech Recognition Architectures

graident optimization

Memory efficient training

Instruction tuning datasets

Language Model Pretraining Dataset

reward model dataset

positional encoding Language models

Domain adaption of dense retrieval

Datasets: For training Embedding Models

audio-language-model-architecture

LLM_architectures

updated Sep 18

Nemotron-4 15B Technical Report

Paper • 2402.16819 • Published Feb 26 • 42
Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models

Paper • 2402.19427 • Published Feb 29 • 52
RWKV: Reinventing RNNs for the Transformer Era

Paper • 2305.13048 • Published May 22, 2023 • 14
Reformer: The Efficient Transformer

Paper • 2001.04451 • Published Jan 13, 2020
Attention Is All You Need

Paper • 1706.03762 • Published Jun 12, 2017 • 44
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Paper • 1810.04805 • Published Oct 11, 2018 • 14
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 9
GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

Paper • 2112.06905 • Published Dec 13, 2021 • 1
UL2: Unifying Language Learning Paradigms

Paper • 2205.05131 • Published May 10, 2022 • 5
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model

Paper • 2211.05100 • Published Nov 9, 2022 • 28
The Flan Collection: Designing Data and Methods for Effective Instruction Tuning

Paper • 2301.13688 • Published Jan 31, 2023 • 8
Llama 2: Open Foundation and Fine-Tuned Chat Models

Paper • 2307.09288 • Published Jul 18, 2023 • 242
Mamba: Linear-Time Sequence Modeling with Selective State Spaces

Paper • 2312.00752 • Published Dec 1, 2023 • 138
Textbooks Are All You Need

Paper • 2306.11644 • Published Jun 20, 2023 • 142
Mistral 7B

Paper • 2310.06825 • Published Oct 10, 2023 • 47
SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling

Paper • 2312.15166 • Published Dec 23, 2023 • 56
Gemini: A Family of Highly Capable Multimodal Models

Paper • 2312.11805 • Published Dec 19, 2023 • 45
Mixtral of Experts

Paper • 2401.04088 • Published Jan 8 • 159
The Falcon Series of Open Language Models

Paper • 2311.16867 • Published Nov 28, 2023 • 12
Gemma: Open Models Based on Gemini Research and Technology

Paper • 2403.08295 • Published Mar 13 • 47
Jamba: A Hybrid Transformer-Mamba Language Model

Paper • 2403.19887 • Published Mar 28 • 104
ReALM: Reference Resolution As Language Modeling

Paper • 2403.20329 • Published Mar 29 • 21
Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence

Paper • 2404.05892 • Published Apr 8 • 31
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

Paper • 2404.07839 • Published Apr 11 • 42
Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length

Paper • 2404.08801 • Published Apr 12 • 63
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Paper • 2404.07143 • Published Apr 10 • 103
Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22 • 254
You Only Cache Once: Decoder-Decoder Architectures for Language Models

Paper • 2405.05254 • Published May 8 • 9
TransformerFAM: Feedback attention is working memory

Paper • 2404.09173 • Published Apr 14 • 43
ZeroQuant-V2: Exploring Post-training Quantization in LLMs from Comprehensive Study to Low Rank Compensation

Paper • 2303.08302 • Published Mar 15, 2023
Kolmogorov-Arnold Transformer

Paper • 2409.10594 • Published Sep 16 • 38