huba-buba (dfuhoiysOHSVFh82934gfjklb)

upvoted an article about 1 month ago

Article

Selective fine-tuning of Language Models with Spectrum

By

•

Sep 3

• 26

upvoted 3 collections about 2 months ago

upvoted a paper about 2 months ago

Transformer Explainer: Interactive Learning of Text-Generative Models

Paper • 2408.04619 • Published Aug 8 • 154

upvoted 2 papers 3 months ago

OpenVLA: An Open-Source Vision-Language-Action Model

Paper • 2406.09246 • Published Jun 13 • 36

DigiRL: Training In-The-Wild Device-Control Agents with Autonomous Reinforcement Learning

Paper • 2406.11896 • Published Jun 14 • 18

upvoted a paper 4 months ago

Open-Endedness is Essential for Artificial Superhuman Intelligence

Paper • 2406.04268 • Published Jun 6 • 11

upvoted a collection 4 months ago

Qwen2

Collection

Qwen2 language models, including pretrained and instruction-tuned models of 5 sizes, including 0.5B, 1.5B, 7B, 57B-A14B, and 72B. • 39 items • Updated 17 days ago • 340

upvoted an article 4 months ago

Article

Preference Tuning LLMs with Direct Preference Optimization Methods

Jan 18

• 33

upvoted 4 papers 4 months ago

Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Paper • 2405.21060 • Published May 31 • 63

2BP: 2-Stage Backpropagation

Paper • 2405.18047 • Published May 28 • 23

DeepSeek-Prover: Advancing Theorem Proving in LLMs through Large-Scale Synthetic Data

Paper • 2405.14333 • Published May 23 • 32

Vikhr: The Family of Open-Source Instruction-Tuned Large Language Models for Russian

Paper • 2405.13929 • Published May 22 • 51

upvoted a paper 5 months ago

Self-Play Preference Optimization for Language Model Alignment

Paper • 2405.00675 • Published May 1 • 23

upvoted 17 papers 6 months ago

The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions

Paper • 2404.13208 • Published Apr 19 • 38

Scaling Instructable Agents Across Many Simulated Worlds

Paper • 2404.10179 • Published Mar 13 • 26

Video2Game: Real-time, Interactive, Realistic and Browser-Compatible Environment from a Single Video

Paper • 2404.09833 • Published Apr 15 • 29

TransformerFAM: Feedback attention is working memory

Paper • 2404.09173 • Published Apr 14 • 43

Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15 • 82

Rho-1: Not All Tokens Are What You Need

Paper • 2404.07965 • Published Apr 11 • 83

Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention

Paper • 2404.07143 • Published Apr 10 • 103

Beyond A*: Better Planning with Transformers via Search Dynamics Bootstrapping

Paper • 2402.14083 • Published Feb 21 • 43

OmniFusion Technical Report

Paper • 2404.06212 • Published Apr 9 • 74

LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders

Paper • 2404.05961 • Published Apr 9 • 64

LoRA: Low-Rank Adaptation of Large Language Models

Paper • 2106.09685 • Published Jun 17, 2021 • 29

MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators

Paper • 2404.05014 • Published Apr 7 • 53

YaART: Yet Another ART Rendering Technology

Paper • 2404.05666 • Published Apr 8 • 15

Linear Attention Sequence Parallelism

Paper • 2404.02882 • Published Apr 3 • 3

No "Zero-Shot" Without Exponential Data: Pretraining Concept Frequency Determines Multimodal Model Performance

Paper • 2404.04125 • Published Apr 4 • 27

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Paper • 2404.03715 • Published Apr 4 • 60

LLM Agent Operating System

Paper • 2403.16971 • Published Mar 25 • 64

upvoted a paper 8 months ago

Linear Transformers with Learnable Kernel Functions are Better In-Context Models

Paper • 2402.10644 • Published Feb 16 • 78

upvoted 7 papers 9 months ago

Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18 • 142

ChatQA: Building GPT-4 Level Conversational QA Models

Paper • 2401.10225 • Published Jan 18 • 32

DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

Paper • 2401.02954 • Published Jan 5 • 40

TinyLlama: An Open-Source Small Language Model

Paper • 2401.02385 • Published Jan 4 • 89

Understanding LLMs: A Comprehensive Overview from Training to Inference

Paper • 2401.02038 • Published Jan 4 • 61

ICE-GRT: Instruction Context Enhancement by Generative Reinforcement based Transformers

Paper • 2401.02072 • Published Jan 4 • 9

City-on-Web: Real-time Neural Rendering of Large-scale Scenes on the Web

Paper • 2312.16457 • Published Dec 27, 2023 • 13

upvoted a paper 11 months ago

Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models

Paper • 2308.00675 • Published Aug 1, 2023 • 35

upvoted a paper 12 months ago

Octopus: Embodied Vision-Language Programmer from Environmental Feedback

Paper • 2310.08588 • Published Oct 12, 2023 • 34

upvoted 4 papers about 1 year ago

Language Modeling Is Compression

Paper • 2309.10668 • Published Sep 19, 2023 • 82

Compositional Foundation Models for Hierarchical Planning

Paper • 2309.08587 • Published Sep 15, 2023 • 9

Connecting Large Language Models with Evolutionary Algorithms Yields Powerful Prompt Optimizers

Paper • 2309.08532 • Published Sep 15, 2023 • 52

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Paper • 2309.00267 • Published Sep 1, 2023 • 47

dfuhoiysOHSVFh82934gfjklb

AI & ML interests

Organizations

huba-buba's activity

Selective fine-tuning of Language Models with Spectrum

Preference Tuning LLMs with Direct Preference Optimization Methods