add

Browse files

Files changed (6) hide show

compressor.ckpt +3 -0
config_compressor.json +133 -0
config_extractor.yaml +34 -0
corrector.ckpt +3 -0
extractor.pt +3 -0
tsr.pt +3 -0

compressor.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b246733ebdf91bb45221f0200acde0d9dcf125968526bac74ca01e0cf2dabf22
+size 613995185

config_compressor.json ADDED Viewed

	@@ -0,0 +1,133 @@

+{
+    "model_type": "stft_autoencoder",
+    "sample_size": 25344,
+    "sample_rate": 16000,
+    "audio_channels": 1,
+    "model": {
+        "encoder": {
+            "type": "oobleck",
+            "config": {
+                "in_channels": 1,
+                "latent_dim": 256,
+                "n_fft": 512,
+                "hop_length": 256,
+                "win_length": 512,
+                "hidden_channels": 256,
+                "n_head": 4,
+                "approx_qk_dim": 512,
+                "emb_dim": 128,
+                "emb_ks": 1,
+                "emb_hs": 1,
+                "num_layers": 3
+            }
+        },
+        "decoder": {
+            "type": "oobleck",
+            "config": {
+                "out_channels": 1,
+                "latent_dim": 128,
+                "n_fft": 512,
+                "hop_length": 256,
+                "win_length": 512,
+                "hidden_channels": 256,
+                "n_head": 4,
+                "approx_qk_dim": 512,
+                "emb_dim": 128,
+                "emb_ks": 1,
+                "emb_hs": 1,
+                "num_layers": 3
+            }
+        },
+        "bottleneck": {
+            "type": "vae"
+        },
+        "latent_dim": 128,
+        "downsampling_ratio": 256,
+        "io_channels": 1
+    },
+    "training": {
+        "learning_rate": 1.5e-4,
+        "warmup_steps": 0,
+        "use_ema": false,
+        "optimizer_configs": {
+            "autoencoder": {
+                "optimizer": {
+                    "type": "AdamW",
+                    "config": {
+                        "betas": [0.8, 0.99],
+                        "lr": 1.5e-4,
+                        "weight_decay": 1e-3
+                    }
+                },
+                "scheduler": {
+                    "type": "InverseLR",
+                    "config": {
+                        "inv_gamma": 200000,
+                        "power": 0.5,
+                        "warmup": 0.999
+                    }
+                }
+            },
+            "discriminator": {
+                "optimizer": {
+                    "type": "AdamW",
+                    "config": {
+                        "betas": [0.8, 0.99],
+                        "lr": 3e-4,
+                        "weight_decay": 1e-3
+                    }
+                },
+                "scheduler": {
+                    "type": "InverseLR",
+                    "config": {
+                        "inv_gamma": 200000,
+                        "power": 0.5,
+                        "warmup": 0.999
+                    }
+                }
+            }
+        },
+        "loss_configs": {
+            "discriminator": {
+                "type": "encodec",
+                "config": {
+                    "filters": 64,
+                    "n_ffts": [1280, 640, 320, 160, 80],
+                    "hop_lengths": [320, 160, 80, 40, 20],
+                    "win_lengths": [1280, 640, 320, 160, 80]
+                },
+                "weights": {
+                    "adversarial": 0.1,
+                    "feature_matching": 5.0
+                }
+            },
+            "spectral": {
+                "type": "mrstft",
+                "config": {
+                    "fft_sizes": [1280, 640, 320, 160, 80, 40, 20],
+                    "hop_sizes": [320, 160, 80, 40, 20, 10, 5],
+                    "win_lengths": [1280, 640, 320, 160, 80, 40, 20],
+                    "perceptual_weighting": true
+                },
+                "weights": {
+                    "mrstft": 1.0
+                }
+            },
+            "time": {
+                "type": "l1",
+                "weights": {
+                    "l1": 0.0
+                }
+            },
+            "bottleneck": {
+                "type": "kl",
+                "weights": {
+                    "kl": 1e-4
+                }
+            }
+        },
+        "demo": {
+            "demo_every": 10000
+        }
+    }
+}

config_extractor.yaml ADDED Viewed

	@@ -0,0 +1,34 @@

+version: 1.0
+system: "large"
+ddim:
+  v_prediction: true
+  diffusers:
+    num_train_timesteps: 1000
+    beta_schedule: 'scaled_linear'
+    beta_start: 0.00085
+    beta_end: 0.012
+    prediction_type: 'v_prediction'
+    rescale_betas_zero_snr: true
+    timestep_spacing: 'trailing'
+    clip_sample: false
+diffwrap:
+  ViT:
+    in_chans: 384
+    embed_dim: 512
+    depth: 16
+    num_heads: 8
+    mlp_ratio: 4.0
+    use_checkpoint: false
+  UDiT:
+    in_chans: 256
+    out_chans: 128
+    embed_dim: 1024
+    depth: 16
+    num_heads: 16
+    mlp_ratio: 4.0
+    use_checkpoint: false
+    context_dim: 384
+    context_fusion: 'cross'

corrector.ckpt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:113f40dead02b1cf08a65f361aff40ea38ffdda9bff531536a7c495b9da169ab
+size 1313618142

extractor.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:140170bc47345c32c14085e95ddf36bf3b47a0f872a1c69357950a20d5baeb43
+size 5690032357

tsr.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fd71bb9650707190053528bb356f74f5736580b7839150e57c7f4b08164c4a4c
+size 1771671708