Spaces:

mrchan1207
/

phoneme_transciptor

Sleeping

App Files Files Community

mrchan1207 commited on Aug 22

Commit

e747cdc

verified ·

1 Parent(s): 88423ae

Update app.py (#10)

Browse files

- Update app.py (3d42cfc2a940e31fd6bb2983beee88b3d3bc0464)

Files changed (1) hide show

app.py +34 -2

app.py CHANGED Viewed

@@ -2,7 +2,7 @@ import torch
 import librosa
 import soundfile as sf
 import io
-from fastapi import FastAPI, File, UploadFile
 from fastapi.responses import JSONResponse
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
@@ -41,7 +41,7 @@ except Exception as e:
 # --- 3. Define the Transcription Endpoint ---
 @app.post("/transcribe/")
-async def transcribe_audio(audio_file: UploadFile = File(...)):
     if not model or not processor:
         return JSONResponse(status_code=503, content={"error": "Model is not loaded."})
@@ -71,6 +71,38 @@ async def transcribe_audio(audio_file: UploadFile = File(...)):
     except Exception as e:
         print(f"Error during transcription: {str(e)}")
         return JSONResponse(status_code=500, content={"error": f"An error occurred: {str(e)}"})
 # --- 4. Root Endpoint for Health Check ---
 @app.get("/")

 import librosa
 import soundfile as sf
 import io
+from fastapi import FastAPI, File, UploadFile, Request
 from fastapi.responses import JSONResponse
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 # --- 3. Define the Transcription Endpoint ---
 @app.post("/transcribe/")
+async def transcribe(audio_file: UploadFile = File(...)):
     if not model or not processor:
         return JSONResponse(status_code=503, content={"error": "Model is not loaded."})
     except Exception as e:
         print(f"Error during transcription: {str(e)}")
         return JSONResponse(status_code=500, content={"error": f"An error occurred: {str(e)}"})
+@app.post("/transcribe_audio/")
+async def transcribe_audio(request: Request):
+    if not model or not processor:
+        return JSONResponse(status_code=503, content={"error": "Model is not loaded."})
+    try:
+        contents = await request.body()
+        audio_data, original_sr = sf.read(io.BytesIO(contents))
+        if audio_data.ndim > 1:
+            audio_data = audio_data.mean(axis=1)
+        resampled_audio = librosa.resample(y=audio_data, orig_sr=original_sr, target_sr=16000)
+        inputs = processor(resampled_audio, sampling_rate=16000, return_tensors="pt", padding=True)
+        # <-- CHANGED: Move the input tensors to the same device as the model
+        inputs = inputs.to(device)
+        with torch.no_grad():
+            logits = model(**inputs).logits
+        predicted_ids = torch.argmax(logits, dim=-1)
+        transcription = processor.batch_decode(predicted_ids)[0]
+        print(f"Transcription complete: {transcription}")
+        return {"transcription": transcription}
+    except Exception as e:
+        print(f"Error during transcription: {str(e)}")
+        return JSONResponse(status_code=500, content={"error": f"An error occurred: {str(e)}"})
 # --- 4. Root Endpoint for Health Check ---
 @app.get("/")