Spaces:

ronedgecomb
/

KittenTTS

Running

App Files Files Community

ronedgecomb commited on 18 days ago

Commit

4934471

verified ·

1 Parent(s): 1fb7c23

more fix

Browse files

Files changed (1) hide show

app.py +29 -36

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ from __future__ import annotations
 import json
 import os
 import re
-from typing import Dict, List, Tuple, Optional, Iterator
 import gradio as gr
 import numpy as np
@@ -108,6 +108,7 @@ class KittenTTS_1_Onnx:
             providers=chosen_providers,
         )
         self.max_seq_len = self._infer_max_seq_len() or int(os.getenv("KITTEN_MAX_SEQ_LEN", "512"))
         # reserve 2 slots for BOS/EOS tokens inserted below
         self._chunk_budget = max(1, self.max_seq_len - 2)
@@ -141,7 +142,7 @@ class KittenTTS_1_Onnx:
         Falls back to env var or 512 if unavailable. Optional dependency on 'onnx'.
         """
         try:
-            import onnx # optional
         except Exception:
             return None
         try:
@@ -191,17 +192,29 @@ class KittenTTS_1_Onnx:
             yield ids
             i = j
-    def generate(
-        self, text: str, voice: str = "expr-voice-5-m", speed: float = 1.0
-    ) -> np.ndarray:
-        onnx_inputs = self._prepare_inputs(text, voice, speed)
-        outputs = self.session.run(None, onnx_inputs)
-        audio = np.asarray(outputs[0]).astype(np.float32)
-        # Preserve original trimming while guarding short sequences.
-        if audio.size > 15000:
-            audio = audio[5000:-10000]
-        return audio
     def generate_to_file(
         self,
@@ -234,30 +247,10 @@ class KittenTTS:
             repo_id=repo_id, cache_dir=cache_dir, providers=providers
         )
-    def generate(self, text: str, voice: str = "expr-voice-5-m", speed: float = 1.0) -> np.ndarray:
-        """Synthesize speech with automatic chunking at the model's max length."""
-        if voice not in self.available_voices:
-            raise ValueError(f"Voice '{voice}' not available. Choose from: {self.available_voices}")
-        # Phonemize once, then either run single-shot or chunked
-        clean = self._phonemize_to_clean(text)
-        # Fast path: fits in one pass
-        if len(clean) + 2 <= self.max_seq_len:
-            ids = self._cleaner(clean)
-            ids.insert(0, 0)     # BOS
-            ids.append(0)        # EOS
-            return self._run_onnx(ids, voice, speed)
-        # Chunked path: concatenate per-chunk audio
-        pieces: List[np.ndarray] = []
-        for ids in self._chunk_token_ids(clean):
-            pieces.append(self._run_onnx(ids, voice, speed))
-        if not pieces:
-            return np.array([], dtype=np.float32)
-        return pieces[0] if len(pieces) == 1 else np.concatenate(pieces)
     def generate_to_file(
         self,

 import json
 import os
 import re
+from typing import Dict, Iterator, List, Optional, Tuple
 import gradio as gr
 import numpy as np
             providers=chosen_providers,
         )
+        # --- add: max-length detection and per-chunk budget ---
         self.max_seq_len = self._infer_max_seq_len() or int(os.getenv("KITTEN_MAX_SEQ_LEN", "512"))
         # reserve 2 slots for BOS/EOS tokens inserted below
         self._chunk_budget = max(1, self.max_seq_len - 2)
         Falls back to env var or 512 if unavailable. Optional dependency on 'onnx'.
         """
         try:
+            import onnx  # optional
         except Exception:
             return None
         try:
             yield ids
             i = j
+    def generate(self, text: str, voice: str = "expr-voice-5-m", speed: float = 1.0) -> np.ndarray:
+        """Synthesize speech with automatic chunking at the model's max length."""
+        if voice not in self.available_voices:
+            raise ValueError(f"Voice '{voice}' not available. Choose from: {self.available_voices}")
+        # Phonemize once, then either run single-shot or chunked
+        clean = self._phonemize_to_clean(text)
+        # Fast path: fits in one pass
+        if len(clean) + 2 <= self.max_seq_len:
+            ids = self._cleaner(clean)
+            ids.insert(0, 0)     # BOS
+            ids.append(0)        # EOS
+            return self._run_onnx(ids, voice, speed)
+        # Chunked path: concatenate per-chunk audio
+        pieces: List[np.ndarray] = []
+        for ids in self._chunk_token_ids(clean):
+            pieces.append(self._run_onnx(ids, voice, speed))
+        if not pieces:
+            return np.array([], dtype=np.float32)
+        return pieces[0] if len(pieces) == 1 else np.concatenate(pieces)
     def generate_to_file(
         self,
             repo_id=repo_id, cache_dir=cache_dir, providers=providers
         )
+    def generate(
+        self, text: str, voice: str = "expr-voice-5-m", speed: float = 1.0
+    ) -> np.ndarray:
+        return self._model.generate(text, voice=voice, speed=speed)
     def generate_to_file(
         self,