Duplicate from hubertsiuzdak/snac_32khz

Browse files

Co-authored-by: Hubert Siuzdak <[email protected]>

Files changed (4) hide show

.gitattributes +35 -0
README.md +71 -0
config.json +13 -0
pytorch_model.bin +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,71 @@

+---
+license: mit
+tags:
+- audio
+---
+# SNAC 🍿
+Multi-**S**cale **N**eural **A**udio **C**odec (SNAC) compressess audio into discrete codes at a low bitrate.
+👉 This model was primarily trained on music data, and its recommended use case is music (and SFX) generation. See below for other pretrained models.
+🔗 GitHub repository: https://github.com/hubertsiuzdak/snac/
+## Overview
+SNAC encodes audio into hierarchical tokens similarly to SoundStream, EnCodec, and DAC. However, SNAC introduces a simple change where coarse tokens are sampled less frequently,
+covering a broader time span.
+This model compresses 32 kHz audio into discrete codes at a 1.9 kbps bitrate. It uses 4 RVQ levels with token rates of 10, 21, 42, and
+83 Hz.
+## Pretrained models
+Currently, all models support only single audio channel (mono).
+| Model                                                                       | Bitrate   | Sample Rate | Params | Recommended use case     |
+|-----------------------------------------------------------------------------|-----------|-------------|--------|--------------------------|
+| [hubertsiuzdak/snac_24khz](https://huggingface.co/hubertsiuzdak/snac_24khz) | 0.98 kbps | 24 kHz      | 19.8 M | 🗣️ Speech               |
+| hubertsiuzdak/snac_32khz (this model)                                       | 1.9 kbps  | 32 kHz      | 54.5 M | 🎸 Music / Sound Effects |
+| [hubertsiuzdak/snac_44khz](https://huggingface.co/hubertsiuzdak/snac_44khz) | 2.6 kbps  | 44 kHz      | 54.5 M | 🎸 Music / Sound Effects |
+## Usage
+Install it using:
+```bash
+pip install snac
+```
+To encode (and decode) audio with SNAC in Python, use the following code:
+```python
+import torch
+from snac import SNAC
+model = SNAC.from_pretrained("hubertsiuzdak/snac_32khz").eval().cuda()
+audio = torch.randn(1, 1, 32000).cuda()  # B, 1, T
+with torch.inference_mode():
+    codes = model.encode(audio)
+    audio_hat = model.decode(codes)
+```
+You can also encode and reconstruct in a single call:
+```python
+with torch.inference_mode():
+    audio_hat, codes = model(audio)
+```
+⚠️ Note that `codes` is a list of token sequences of variable lengths, each corresponding to a different temporal
+resolution.
+```
+>>> [code.shape[1] for code in codes]
+[12, 24, 48, 96]
+```
+## Acknowledgements
+Module definitions are adapted from the [Descript Audio Codec](https://github.com/descriptinc/descript-audio-codec).

config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+    "sampling_rate": 32000,
+    "encoder_dim": 64,
+    "encoder_rates": [2, 3, 8, 8],
+    "decoder_dim": 1536,
+    "decoder_rates": [8, 8, 3, 2],
+    "attn_window_size": 32,
+    "codebook_size": 4096,
+    "codebook_dim": 8,
+    "vq_strides": [8, 4, 2, 1],
+    "noise": true,
+    "depthwise": true
+}

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bfee2f057c1e287443786bedab377b5176b430e911417683977b7af71ea3ba65
+size 218308802