csm-1b

Running on Zero

Bradarr commited on 10 days ago

Commit

73cb637

verified ·

1 Parent(s): a7d7d4e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -25,7 +25,7 @@ try:
     if not CSM_1B_HF_WATERMARK:
         raise ValueError("WATERMARK_KEY not found or invalid in environment variables.")
-    gpu_timeout = int(os.getenv("GPU_TIMEOUT", 180))
 except (ValueError, TypeError) as e:
     logging.error(f"Configuration error: {e}")
     raise
@@ -42,7 +42,7 @@ This demo allows you to have a conversation with Sesame CSM 1B, leveraging Whisp
 # --- Constants ---  (Constants can stay outside)
 SPEAKER_ID = 0
-MAX_CONTEXT_SEGMENTS = 5
 MAX_GEMMA_LENGTH = 150
 # --- Global Conversation History ---
@@ -62,7 +62,7 @@ def transcribe_audio(audio_path: str, whisper_model) -> str:  # Pass whisper_mod
 def generate_response(text: str, model_gemma, tokenizer_gemma, device) -> str: # Pass model and tokenizer
     try:
-        input_text = "Reapond to the user: " + text
         input = tokenizer_gemma(input_text, return_tensors="pt").to(device)
         generated_output = model_gemma.generate(**input, max_length=MAX_GEMMA_LENGTH, early_stopping=True)
         return tokenizer_gemma.decode(generated_output[0], skip_special_tokens=True)
@@ -136,7 +136,7 @@ def _infer(user_audio, generator, whisper_model, tokenizer_gemma, model_gemma, d
                 text=ai_text,
                 speaker=SPEAKER_ID,
                 context=conversation_history,
-                max_audio_length_ms=30_000,
             )
             logging.info("Audio generated successfully.")
         except Exception as e:

     if not CSM_1B_HF_WATERMARK:
         raise ValueError("WATERMARK_KEY not found or invalid in environment variables.")
+    gpu_timeout = int(os.getenv("GPU_TIMEOUT", 120))
 except (ValueError, TypeError) as e:
     logging.error(f"Configuration error: {e}")
     raise
 # --- Constants ---  (Constants can stay outside)
 SPEAKER_ID = 0
+MAX_CONTEXT_SEGMENTS = 1
 MAX_GEMMA_LENGTH = 150
 # --- Global Conversation History ---
 def generate_response(text: str, model_gemma, tokenizer_gemma, device) -> str: # Pass model and tokenizer
     try:
+        input_text = "Reapond to the users prompt: " + text
         input = tokenizer_gemma(input_text, return_tensors="pt").to(device)
         generated_output = model_gemma.generate(**input, max_length=MAX_GEMMA_LENGTH, early_stopping=True)
         return tokenizer_gemma.decode(generated_output[0], skip_special_tokens=True)
                 text=ai_text,
                 speaker=SPEAKER_ID,
                 context=conversation_history,
+                max_audio_length_ms=10_000,
             )
             logging.info("Audio generated successfully.")
         except Exception as e: