Spaces:

jhtonyKoo
/

ITO-Master

Running

App Files Files Community

jhtonyKoo commited on 29 days ago

Commit

6d70884

•

1 Parent(s): a8cb9ce

modify app

Browse files

Files changed (2) hide show

app.py +17 -3
inference.py +0 -6

app.py CHANGED Viewed

@@ -9,12 +9,21 @@ from config import args
 mastering_transfer = MasteringStyleTransfer(args)
 def process_audio(input_audio, reference_audio):
-    print("before style transfer")
     output_audio, predicted_params, _, _, _, sr = mastering_transfer.process_audio(
         input_audio, reference_audio, reference_audio, {}, False
     )
-    print("style transfer completed")
     param_output = mastering_transfer.get_param_output_string(predicted_params)
@@ -22,13 +31,15 @@ def process_audio(input_audio, reference_audio):
     if isinstance(output_audio, torch.Tensor):
         output_audio = output_audio.cpu().numpy()
     # Ensure the audio is in the correct shape (samples, channels)
     if output_audio.ndim == 1:
         output_audio = output_audio.reshape(-1, 1)
     elif output_audio.ndim > 2:
         output_audio = output_audio.squeeze()
-    print("returning result")
     return (sr, output_audio), param_output
 def perform_ito(input_audio, reference_audio, ito_reference_audio, num_steps, optimizer, learning_rate, af_weights):
@@ -60,6 +71,9 @@ def perform_ito(input_audio, reference_audio, ito_reference_audio, num_steps, op
         if isinstance(current_output, torch.Tensor):
             current_output = current_output.cpu().numpy()
         # Ensure the audio is in the correct shape (samples, channels)
         if current_output.ndim == 1:
             current_output = current_output.reshape(-1, 1)

 mastering_transfer = MasteringStyleTransfer(args)
+def denormalize_audio(audio, dtype=np.int16):
+    """
+    Denormalize the audio from the range [-1, 1] to the full range of the specified dtype.
+    """
+    if dtype == np.int16:
+        return (audio * 32767).astype(np.int16)
+    elif dtype == np.float32:
+        return audio.astype(np.float32)
+    else:
+        raise ValueError("Unsupported dtype. Use np.int16 or np.float32.")
 def process_audio(input_audio, reference_audio):
     output_audio, predicted_params, _, _, _, sr = mastering_transfer.process_audio(
         input_audio, reference_audio, reference_audio, {}, False
     )
     param_output = mastering_transfer.get_param_output_string(predicted_params)
     if isinstance(output_audio, torch.Tensor):
         output_audio = output_audio.cpu().numpy()
+    # Denormalize the audio to int16
+    output_audio = denormalize_audio(output_audio, dtype=np.int16)
     # Ensure the audio is in the correct shape (samples, channels)
     if output_audio.ndim == 1:
         output_audio = output_audio.reshape(-1, 1)
     elif output_audio.ndim > 2:
         output_audio = output_audio.squeeze()
     return (sr, output_audio), param_output
 def perform_ito(input_audio, reference_audio, ito_reference_audio, num_steps, optimizer, learning_rate, af_weights):
         if isinstance(current_output, torch.Tensor):
             current_output = current_output.cpu().numpy()
+        # Denormalize the audio to int16
+        current_output = denormalize_audio(current_output, dtype=np.int16)
         # Ensure the audio is in the correct shape (samples, channels)
         if current_output.ndim == 1:
             current_output = current_output.reshape(-1, 1)

inference.py CHANGED Viewed

@@ -155,20 +155,14 @@ class MasteringStyleTransfer:
         return data_tensor.to(self.device)
     def process_audio(self, input_audio, reference_audio, ito_reference_audio, params, perform_ito, log_ito=False):
-        print('run preprocess')
         input_tensor = self.preprocess_audio(input_audio, self.args.sample_rate)
         reference_tensor = self.preprocess_audio(reference_audio, self.args.sample_rate)
         ito_reference_tensor = self.preprocess_audio(ito_reference_audio, self.args.sample_rate)
-        print('preprocess done')
         reference_feature = self.get_reference_embedding(reference_tensor)
-        print('reference extracted')
         output_audio, predicted_params = self.mastering_style_transfer(input_tensor, reference_feature)
-        print('style transfer forward done')
         if perform_ito:
             ito_log = []
             for i in range(self.args.max_iter_ito):

         return data_tensor.to(self.device)
     def process_audio(self, input_audio, reference_audio, ito_reference_audio, params, perform_ito, log_ito=False):
         input_tensor = self.preprocess_audio(input_audio, self.args.sample_rate)
         reference_tensor = self.preprocess_audio(reference_audio, self.args.sample_rate)
         ito_reference_tensor = self.preprocess_audio(ito_reference_audio, self.args.sample_rate)
         reference_feature = self.get_reference_embedding(reference_tensor)
         output_audio, predicted_params = self.mastering_style_transfer(input_tensor, reference_feature)
         if perform_ito:
             ito_log = []
             for i in range(self.args.max_iter_ito):