Spaces:

ymgong3616
/

care_chat

Sleeping

App Files Files Community

ymgong3616 commited on 18 days ago

Commit

a1dd728

1 Parent(s): 92d093b

update space

Browse files

Files changed (1) hide show

app.py +21 -29

app.py CHANGED Viewed

@@ -35,32 +35,35 @@ SAMPLE_RATE = feature_extractor.sampling_rate
 SEED = 42
-def accumulate_and_convert_to_mp3(audio_chunks, sampling_rate):
-    # Concatenate all chunks
-    accumulated_audio = np.concatenate(audio_chunks, axis=0)
-    # Normalize the entire audio at once
-    if np.issubdtype(accumulated_audio.dtype, np.floating):
-        max_val = np.max(np.abs(accumulated_audio))
-        accumulated_audio = (accumulated_audio / max_val) * 32767
-        accumulated_audio = accumulated_audio.astype(np.int16)
-    # Create an audio segment from the complete numpy array
     audio_segment = AudioSegment(
-        accumulated_audio.tobytes(),
         frame_rate=sampling_rate,
-        sample_width=accumulated_audio.dtype.itemsize,
         channels=1
     )
-    # Export to MP3 with high quality
     mp3_io = io.BytesIO()
     audio_segment.export(mp3_io, format="mp3", bitrate="320k")
     mp3_bytes = mp3_io.getvalue()
     mp3_io.close()
     return mp3_bytes
 def generate_response(audio):
     gr.Info("Transcribing Audio", duration=5)
     question = client.automatic_speech_recognition(audio).text
@@ -76,7 +79,9 @@ def generate_response(audio):
 @spaces.GPU
 def read_response(answer):
-    play_steps_in_s = 10.0
     play_steps = int(frame_rate * play_steps_in_s)
     description = "Jenny speaks at an average pace with a calm delivery in a very confined sounding environment with clear audio quality."
@@ -97,23 +102,10 @@ def read_response(answer):
     set_seed(SEED)
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
-    # Accumulate audio chunks
-    audio_chunks = []
     start = time.time()
     for new_audio in streamer:
         print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds after {time.time() - start} seconds")
-        audio_chunks.append(new_audio)
-        # Yield None for the audio to maintain the streaming interface
-        yield answer, None
-    # Convert the accumulated audio to MP3 at the end
-    if audio_chunks:
-        final_mp3 = accumulate_and_convert_to_mp3(audio_chunks, sampling_rate)
-        yield answer, final_mp3
-sampling_rate = model.audio_encoder.config.sampling_rate
-frame_rate = model.audio_encoder.config.frame_rate
 with gr.Blocks() as block:

 SEED = 42
+def numpy_to_mp3(audio_array, sampling_rate):
+    # Normalize audio_array if it's floating-point
+    if np.issubdtype(audio_array.dtype, np.floating):
+        max_val = np.max(np.abs(audio_array))
+        audio_array = (audio_array / max_val) * 32767 # Normalize to 16-bit range
+        audio_array = audio_array.astype(np.int16)
+    # Create an audio segment from the numpy array
     audio_segment = AudioSegment(
+        audio_array.tobytes(),
         frame_rate=sampling_rate,
+        sample_width=audio_array.dtype.itemsize,
         channels=1
     )
+    # Export the audio segment to MP3 bytes - use a high bitrate to maximise quality
     mp3_io = io.BytesIO()
     audio_segment.export(mp3_io, format="mp3", bitrate="320k")
+    # Get the MP3 bytes
     mp3_bytes = mp3_io.getvalue()
     mp3_io.close()
     return mp3_bytes
+sampling_rate = model.audio_encoder.config.sampling_rate
+frame_rate = model.audio_encoder.config.frame_rate
 def generate_response(audio):
     gr.Info("Transcribing Audio", duration=5)
     question = client.automatic_speech_recognition(audio).text
 @spaces.GPU
 def read_response(answer):
+    play_steps_in_s = 6.0
     play_steps = int(frame_rate * play_steps_in_s)
     description = "Jenny speaks at an average pace with a calm delivery in a very confined sounding environment with clear audio quality."
     set_seed(SEED)
     thread = Thread(target=model.generate, kwargs=generation_kwargs)
     thread.start()
     start = time.time()
     for new_audio in streamer:
         print(f"Sample of length: {round(new_audio.shape[0] / sampling_rate, 2)} seconds after {time.time() - start} seconds")
+        yield answer, numpy_to_mp3(new_audio, sampling_rate=sampling_rate)
 with gr.Blocks() as block: