Spaces:

jhtonyKoo
/

ITO-Master

Running

App Files Files Community

jhtonyKoo commited on 29 days ago

Commit

5eedccd

•

1 Parent(s): b78923f

modify app

Browse files

Files changed (2) hide show

inference.py +19 -2
requirements.txt +2 -1

inference.py CHANGED Viewed

@@ -4,6 +4,7 @@ import numpy as np
 import argparse
 import os
 import yaml
 import sys
 currentdir = os.path.dirname(os.path.realpath(__file__))
@@ -11,6 +12,15 @@ sys.path.append(os.path.dirname(currentdir))
 from networks import Dasp_Mastering_Style_Transfer, Effects_Encoder
 from modules.loss import AudioFeatureLoss, Loss
 class MasteringStyleTransfer:
     def __init__(self, args):
         self.args = args
@@ -105,8 +115,7 @@ class MasteringStyleTransfer:
         return min_loss_output, min_loss_params, min_loss_embedding, min_loss_step + 1
     def process_audio(self, input_audio, reference_audio, ito_reference_audio, params, perform_ito, log_ito=False):
-        print(input_audio)
-        input_audio, reference_audio, ito_reference_audio = [
             np.stack([audio, audio]) if audio.ndim == 1 else audio.transpose(1,0)
             for audio in [input_audio, reference_audio, ito_reference_audio]
         ]
@@ -115,6 +124,14 @@ class MasteringStyleTransfer:
         reference_tensor = torch.FloatTensor(reference_audio).unsqueeze(0).to(self.device)
         ito_reference_tensor = torch.FloatTensor(ito_reference_audio).unsqueeze(0).to(self.device)
         reference_feature = self.get_reference_embedding(reference_tensor)
         output_audio, predicted_params = self.mastering_style_transfer(input_tensor, reference_feature)

 import argparse
 import os
 import yaml
+import julius
 import sys
 currentdir = os.path.dirname(os.path.realpath(__file__))
 from networks import Dasp_Mastering_Style_Transfer, Effects_Encoder
 from modules.loss import AudioFeatureLoss, Loss
+def convert_audio(wav: torch.Tensor, from_rate: float,
+                  to_rate: float, to_channels: int) -> torch.Tensor:
+    """Convert audio to new sample rate and number of audio channels.
+    """
+    wav = julius.resample_frac(wav, int(from_rate), int(to_rate))
+    wav = convert_audio_channels(wav, to_channels)
+    return wav
 class MasteringStyleTransfer:
     def __init__(self, args):
         self.args = args
         return min_loss_output, min_loss_params, min_loss_embedding, min_loss_step + 1
     def process_audio(self, input_audio, reference_audio, ito_reference_audio, params, perform_ito, log_ito=False):
+        input_audio[1], reference_audio[1], ito_reference_audio[1] = [
             np.stack([audio, audio]) if audio.ndim == 1 else audio.transpose(1,0)
             for audio in [input_audio, reference_audio, ito_reference_audio]
         ]
         reference_tensor = torch.FloatTensor(reference_audio).unsqueeze(0).to(self.device)
         ito_reference_tensor = torch.FloatTensor(ito_reference_audio).unsqueeze(0).to(self.device)
+        #resample to 44.1kHz if necessary
+        if input_audio[0] != self.args.sample_rate:
+            input_tensor = convert_audio(input_tensor, input_audio[0], self.args.sample_rate, 2)
+        if reference_audio[0] != self.args.sample_rate:
+            reference_tensor = convert_audio(reference_tensor, reference_audio[0], self.args.sample_rate, 2)
+        if ito_reference_audio[0] != self.args.sample_rate:
+            ito_reference_tensor = convert_audio(ito_reference_tensor, ito_reference_audio[0], self.args.sample_rate, 2)
         reference_feature = self.get_reference_embedding(reference_tensor)
         output_audio, predicted_params = self.mastering_style_transfer(input_tensor, reference_feature)

requirements.txt CHANGED Viewed

@@ -9,4 +9,5 @@ numba==0.58.1
 auraloss==0.4.0
 dasp-pytorch==0.0.1
 torchcomp==0.1.3
-pytorch-lightning==2.4.0

 auraloss==0.4.0
 dasp-pytorch==0.0.1
 torchcomp==0.1.3
+pytorch-lightning==2.4.0
+julius==0.2.7