RLHF - a hllj Collection

hllj 's Collections

Pruning

PEFT

Technical Report

(Continued) Pretraining

RLHF

Retrieval Augmented Generation

Dataset

Dataset Processing Technique

Vision-Language Model

Image-Text Models

Speculative Decoding

RLHF

updated Apr 8

PERL: Parameter Efficient Reinforcement Learning from Human Feedback

Paper • 2403.10704 • Published Mar 15 • 57
Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Paper • 2404.03715 • Published Apr 4 • 60