Models
Datasets
Spaces
Posts
Docs
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2409.11340

Diffusion-Papers

OmniGen: Unified Image Generation

Paper • 2409.11340 • Published 4 days ago • 64

Multi-Modal Model

What matters when building vision-language models?

Paper • 2405.02246 • Published May 3 • 98
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

Paper • 2406.18790 • Published Jun 26 • 33
Building and better understanding vision-language models: insights and future directions

Paper • 2408.12637 • Published 30 days ago • 109
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Paper • 2408.12528 • Published 30 days ago • 50

Interesting papers

OmniGen: Unified Image Generation

Paper • 2409.11340 • Published 4 days ago • 64
NVLM: Open Frontier-Class Multimodal LLMs

Paper • 2409.11402 • Published 4 days ago • 50

Phidias: A Generative Model for Creating 3D Content from Text, Image, and 3D Conditions with Reference-Augmented Diffusion

Paper • 2409.11406 • Published 4 days ago • 21
OmniGen: Unified Image Generation

Paper • 2409.11340 • Published 4 days ago • 64

OmniGen: Unified Image Generation

Paper • 2409.11340 • Published 4 days ago • 64

image generation

OmniGen: Unified Image Generation

Paper • 2409.11340 • Published 4 days ago • 64

OmniGen: Unified Image Generation

Paper • 2409.11340 • Published 4 days ago • 64

Diffusion Models

SwiftBrush v2: Make Your One-step Diffusion Model Better Than Its Teacher

Paper • 2408.14176 • Published 26 days ago • 58
Diffusion Models Are Real-Time Game Engines

Paper • 2408.14837 • Published 25 days ago • 119
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Paper • 2408.11039 • Published Aug 20 • 54
OD-VAE: An Omni-dimensional Video Compressor for Improving Latent Video Diffusion Model

Paper • 2409.01199 • Published 19 days ago • 10

MambaVision: A Hybrid Mamba-Transformer Vision Backbone

Paper • 2407.08083 • Published Jul 10 • 27
Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model

Paper • 2408.11039 • Published Aug 20 • 54
The Mamba in the Llama: Distilling and Accelerating Hybrid Models

Paper • 2408.15237 • Published 25 days ago • 36
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think

Paper • 2409.11355 • Published 4 days ago • 24

multimodal interesting

MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data

Paper • 2406.18790 • Published Jun 26 • 33
OmniGen: Unified Image Generation

Paper • 2409.11340 • Published 4 days ago • 64
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Paper • 2408.12528 • Published 30 days ago • 50

Previous
1
2
Next

Company

© Hugging Face

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs