dkounadis
/

wav2small

Audio Classification

emotion-recognition

speech-emotion-recognition

Model card Files Files and versions Community

dkounadis commited on Oct 10

Commit

6a3daac

•

1 Parent(s): e2d1e1b

do not apply clip()

Files changed (1) hide show

README.md +18 -18

README.md CHANGED Viewed

@@ -41,22 +41,23 @@ Florian Eyben, Felix Burkhardt, Björn Schuller.
-# Usage
 ```python
-from transformers import AutoModelForAudioClassification
-from transformers.models.wav2vec2.modeling_wav2vec2 import (
-    Wav2Vec2Model,
-    Wav2Vec2PreTrainedModel
-)
 import torch
 import types
 import torch.nn as nn
-signal = torch.rand((1, 16000))  # audio signal 16 KHz
 device = 'cpu'
-class RegressionHead(nn.Module):
-    r"""A/D/V"""
     def __init__(self, config):
@@ -81,14 +82,15 @@ class Dawn(Wav2Vec2PreTrainedModel):
         super().__init__(config)
         self.wav2vec2 = Wav2Vec2Model(config)
-        self.classifier = RegressionHead(config)
     def forward(self, x):
         '''x: (batch, audio-samples-16KHz)'''
-        x = x - x.mean(1, keepdim=True)
         variance = (x * x).mean(1, keepdim=True) + 1e-7
-        out = self.wav2vec2(x / variance.sqrt())
-        return self.classifier(out[0].mean(1)).clip(0, 1)
 def _infer(self, x):
@@ -125,9 +127,7 @@ dawn = Dawn.from_pretrained(
 def wav2small(x):
     return .5 * dawn(x) + .5 * base(x)
-with torch.no_grad():
-    pred = wav2small(signal.to(device))
-print(f'\nArousal = {pred[0, 0]}  Dominance = {pred[0, 1]}',
-      f'  Valence  = {pred[0, 2]}')
 ```

+# How To
 ```python
+import librosa
 import torch
 import types
 import torch.nn as nn
+from transformers import AutoModelForAudioClassification
+from transformers.models.wav2vec2.modeling_wav2vec2 import (
+    Wav2Vec2Model,
+    Wav2Vec2PreTrainedModel)
+signal = torch.from_numpy(
+    librosa.load('test.wav', sr=16000)[0])[None, :]
 device = 'cpu'
+class ADV(nn.Module):
     def __init__(self, config):
         super().__init__(config)
         self.wav2vec2 = Wav2Vec2Model(config)
+        self.classifier = ADV(config)
     def forward(self, x):
         '''x: (batch, audio-samples-16KHz)'''
+        x -= x.mean(1, keepdim=True)
         variance = (x * x).mean(1, keepdim=True) + 1e-7
+        x = self.wav2vec2(x / variance.sqrt()
+                            ).last_hidden_state
+        return self.classifier(x.mean(1))
 def _infer(self, x):
 def wav2small(x):
     return .5 * dawn(x) + .5 * base(x)
+pred = wav2small(signal.to(device))
+print(f'\nArousal = {pred[:, 0]}  Dominance = {pred[:, 1]}',
+      f'  Valence  = {pred[:, 2]}')
 ```