Spaces:

mattricesound
/

RemFx

Runtime error

App Files Files Community

mattricesound commited on Apr 25, 2023

Commit

7fc4de1

1 Parent(s): b8427f9

Update datagen silence threshold to 1e-4

Browse files

Files changed (4) hide show

cfg/exp/chain_inference_aug_classifier.yaml +5 -4
remfx/datasets.py +2 -3
remfx/models.py +26 -15
remfx/utils.py +1 -1

cfg/exp/chain_inference_aug_classifier.yaml CHANGED Viewed

@@ -47,14 +47,15 @@ classifier:
   lr: 3e-4
   lr_weight_decay: 1e-3
   sample_rate: ${sample_rate}
   network:
     _target_: remfx.classifier.Cnn14
     num_classes: ${num_classes}
-    n_fft: 1024
-    hop_length: 256
     n_mels: 128
-    sample_rate: 44100
-    model_sample_rate: 44100
     specaugment: False
 classifier_ckpt: "ckpts/classifier.ckpt"

   lr: 3e-4
   lr_weight_decay: 1e-3
   sample_rate: ${sample_rate}
+  mixup: False
   network:
     _target_: remfx.classifier.Cnn14
     num_classes: ${num_classes}
+    n_fft: 2048
+    hop_length: 512
     n_mels: 128
+    sample_rate: ${sample_rate}
+    model_sample_rate: ${sample_rate}
     specaugment: False
 classifier_ckpt: "ckpts/classifier.ckpt"

remfx/datasets.py CHANGED Viewed

@@ -259,7 +259,7 @@ class EffectDataset(Dataset):
         render_files: bool = True,
         render_root: str = None,
         mode: str = "train",
-        parallel: bool = True,
     ):
         super().__init__()
         self.chunks = []
@@ -342,7 +342,6 @@ class EffectDataset(Dataset):
                         chunk = select_random_chunk(
                             random_file_choice, self.chunk_size, self.sample_rate
                         )
                     # Sum to mono
                     if chunk.shape[0] > 1:
                         chunk = chunk.sum(0, keepdim=True)
@@ -561,7 +560,7 @@ class EffectDatamodule(pl.LightningDataModule):
     def test_dataloader(self) -> DataLoader:
         return DataLoader(
             dataset=self.test_dataset,
-            batch_size=2,  # Use small, consistent batch size for testing
             num_workers=self.num_workers,
             pin_memory=self.pin_memory,
             shuffle=False,

         render_files: bool = True,
         render_root: str = None,
         mode: str = "train",
+        parallel: bool = False,
     ):
         super().__init__()
         self.chunks = []
                         chunk = select_random_chunk(
                             random_file_choice, self.chunk_size, self.sample_rate
                         )
                     # Sum to mono
                     if chunk.shape[0] > 1:
                         chunk = chunk.sum(0, keepdim=True)
     def test_dataloader(self) -> DataLoader:
         return DataLoader(
             dataset=self.test_dataset,
+            batch_size=1,  # Use small, consistent batch size for testing
             num_workers=self.num_workers,
             pin_memory=self.pin_memory,
             shuffle=False,

remfx/models.py CHANGED Viewed

@@ -37,7 +37,7 @@ class RemFXChainInference(pl.LightningModule):
         self.sample_rate = sample_rate
         self.effect_order = effect_order
         self.classifier = classifier
-        # self.output_str = "IN_SISDR,OUT_SISDR,IN_STFT,OUT_STFT\n"
     def forward(self, batch, batch_idx, order=None):
         x, y, _, rem_fx_labels = batch
@@ -46,7 +46,7 @@ class RemFXChainInference(pl.LightningModule):
             effects_order = order
         else:
             effects_order = self.effect_order
         # Use classifier labels
         if self.classifier:
             threshold = 0.5
@@ -113,13 +113,13 @@ class RemFXChainInference(pl.LightningModule):
         output = torch.stack(output)
         output_samples = rearrange(output, "b c t -> c (b t)").unsqueeze(0)
-        log_wandb_audio_batch(
-            logger=self.logger,
-            id="output_audio",
-            samples=output_samples.cpu(),
-            sampling_rate=self.sample_rate,
-            caption="Output Data",
-        )
         loss = self.mrstftloss(output, y) + self.l1loss(output, y) * 100
         return loss, output
@@ -158,13 +158,16 @@ class RemFXChainInference(pl.LightningModule):
                     prog_bar=True,
                     sync_dist=True,
                 )
-                # self.output_str += f"{negate * self.metrics[metric](x, y).item():.4f},{negate * self.metrics[metric](output, y).item():.4f},"
-            # self.output_str += "\n"
-            # if batch_idx == 4:
-            # with open("output.csv", "w") as f:
-            # f.write(self.output_str)
         return loss
     def sample(self, batch):
         return self.forward(batch, 0)[1]
@@ -196,6 +199,7 @@ class RemFX(pl.LightningModule):
         )
         # Log first batch metrics input vs output only once
         self.log_train_audio = True
     @property
     def device(self):
@@ -272,9 +276,16 @@ class RemFX(pl.LightningModule):
                     prog_bar=True,
                     sync_dist=True,
                 )
         return loss
 class OpenUnmixModel(nn.Module):
     def __init__(

         self.sample_rate = sample_rate
         self.effect_order = effect_order
         self.classifier = classifier
+        self.output_str = "IN_SISDR,OUT_SISDR,IN_STFT,OUT_STFT\n"
     def forward(self, batch, batch_idx, order=None):
         x, y, _, rem_fx_labels = batch
             effects_order = order
         else:
             effects_order = self.effect_order
+        old_labels = rem_fx_labels
         # Use classifier labels
         if self.classifier:
             threshold = 0.5
         output = torch.stack(output)
         output_samples = rearrange(output, "b c t -> c (b t)").unsqueeze(0)
+        # log_wandb_audio_batch(
+        #     logger=self.logger,
+        #     id="output_audio",
+        #     samples=output_samples.cpu(),
+        #     sampling_rate=self.sample_rate,
+        #     caption="Output Data",
+        # )
         loss = self.mrstftloss(output, y) + self.l1loss(output, y) * 100
         return loss, output
                     prog_bar=True,
                     sync_dist=True,
                 )
+                print(f"Input_{metric}", negate * self.metrics[metric](x, y))
+                print(f"test_{metric}", negate * self.metrics[metric](output, y))
+                self.output_str += f"{negate * self.metrics[metric](x, y).item():.4f},{negate * self.metrics[metric](output, y).item():.4f},"
+            self.output_str += "\n"
         return loss
+    def on_test_end(self) -> None:
+        with open("output.csv", "w") as f:
+            f.write(self.output_str)
     def sample(self, batch):
         return self.forward(batch, 0)[1]
         )
         # Log first batch metrics input vs output only once
         self.log_train_audio = True
+        self.output_str = "IN_SISDR,OUT_SISDR,IN_STFT,OUT_STFT\n"
     @property
     def device(self):
                     prog_bar=True,
                     sync_dist=True,
                 )
+                print(f"Input_{metric}", negate * self.metrics[metric](x, y))
+                print(f"test_{metric}", negate * self.metrics[metric](output, y))
+                self.output_str += f"{negate * self.metrics[metric](x, y).item():.4f},{negate * self.metrics[metric](output, y).item():.4f},"
+            self.output_str += "\n"
         return loss
+    def on_test_end(self) -> None:
+        with open("output.csv", "w") as f:
+            f.write(self.output_str)
 class OpenUnmixModel(nn.Module):
     def __init__(

remfx/utils.py CHANGED Viewed

@@ -159,7 +159,7 @@ def select_random_chunk(
     random_start = torch.randint(0, max_len, (1,)).item()
     chunk = audio[:, random_start : random_start + new_chunk_size]
     # Skip if energy too low
-    if torch.mean(torch.abs(chunk)) < 1e-6:
         return None
     resampled_chunk = torchaudio.functional.resample(chunk, sr, sample_rate)
     return resampled_chunk

     random_start = torch.randint(0, max_len, (1,)).item()
     chunk = audio[:, random_start : random_start + new_chunk_size]
     # Skip if energy too low
+    if torch.mean(torch.abs(chunk)) < 1e-4:
         return None
     resampled_chunk = torchaudio.functional.resample(chunk, sr, sample_rate)
     return resampled_chunk