Spaces:

minhpng
/

test_python

Sleeping

App Files Files Community

minhpng commited on Dec 1, 2024

Commit

3c36fb5

1 Parent(s): 746bf8f

add gradio client

Browse files

Files changed (9) hide show

app.py +2 -1
libs/rename_file.py +25 -0
libs/transformer/get_transcript_gradio_api.py +13 -0
libs/transformer/open_ai_whisper.py +28 -0
libs/transformer/youtube_download.py +27 -0
requirements.txt +23 -2
routers/get_transcript.py +2 -1
routers/get_transcript_gradio.py +44 -0
routers/get_transcript_transformer.py +8 -3

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ import os
 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
-from routers import get_transcript, get_chatrespone, get_transcript_transformer
 os.environ['HF_HOME'] = "./cached/"
@@ -14,6 +14,7 @@ app.add_middleware(CORSMiddleware, allow_origins=["*"], allow_credentials=True,
 app.include_router(get_transcript.router)
 app.include_router(get_chatrespone.router)
 app.include_router(get_transcript_transformer.router)
 @app.get("/")
 def read_root():

 from fastapi import FastAPI
 from fastapi.middleware.cors import CORSMiddleware
+from routers import get_transcript, get_chatrespone, get_transcript_transformer, get_transcript_gradio
 os.environ['HF_HOME'] = "./cached/"
 app.include_router(get_transcript.router)
 app.include_router(get_chatrespone.router)
 app.include_router(get_transcript_transformer.router)
+app.include_router(get_transcript_gradio.router)
 @app.get("/")
 def read_root():

libs/rename_file.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import os
+s1 = u'ÀÁÂÃÈÉÊÌÍÒÓÔÕÙÚÝàáâãèéêìíòóôõùúýĂăĐđĨĩŨũƠơƯưẠạẢảẤấẦầẨẩẪẫẬậẮắẰằẲẳẴẵẶặẸẹẺẻẼẽẾếỀềỂểỄễỆệỈỉỊịỌọỎỏỐốỒồỔổỖỗỘộỚớỜờỞởỠỡỢợỤụỦủỨứỪừỬửỮữỰựỲỳỴỵỶỷỸỹ'
+s0 = u'AAAAEEEIIOOOOUUYaaaaeeeiioooouuyAaDdIiUuOoUuAaAaAaAaAaAaAaAaAaAaAaAaEeEeEeEeEeEeEeEeIiIiOoOoOoOoOoOoOoOoOoOoOoOoUuUuUuUuUuUuUuYyYyYyYy'
+def remove_accents(input_str):
+	s = ''
+	input_str.encode('utf-8')
+	for c in input_str:
+		if c in s1:
+			s += s0[s1.index(c)]
+		else:
+			s += c
+	return s
+os.chdir('./cached/audio')
+for count, f in enumerate(os.listdir()):
+    f_name, f_ext = os.path.splitext(f)
+    f_name = remove_accents(f_name).lower().replace(" ","-")
+    new_name = f'{f_name}{f_ext}'
+    os.rename(f, new_name)

libs/transformer/get_transcript_gradio_api.py ADDED Viewed

	@@ -0,0 +1,13 @@

+from gradio_client import Client, handle_file
+def api_gradio_transcribe(url: str):
+    client = Client("hf-audio/whisper-large-v3-turbo")
+    result = client.predict(
+            inputs=handle_file(url),
+            task="transcribe",
+            api_name="/predict"
+    )
+    return result

libs/transformer/open_ai_whisper.py ADDED Viewed

	@@ -0,0 +1,28 @@

+import torch
+from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
+device = "cuda:0" if torch.cuda.is_available() else "cpu"
+torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32
+model_id = "openai/whisper-large-v3-turbo"
+model = AutoModelForSpeechSeq2Seq.from_pretrained(
+    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True, use_safetensors=True
+)
+model.to(device)
+processor = AutoProcessor.from_pretrained(model_id)
+pipe = pipeline(
+    "automatic-speech-recognition",
+    model=model,
+    tokenizer=processor.tokenizer,
+    feature_extractor=processor.feature_extractor,
+    torch_dtype=torch_dtype,
+    device=device,
+    return_timestamps=True
+)
+result = pipe("https://static.langkingdom.com/user_playlist_practice_videos/bdfd406cb3c62603f653fa02d93fcae8.mov")
+print(result["text"])

libs/transformer/youtube_download.py ADDED Viewed

	@@ -0,0 +1,27 @@

+from yt_dlp import YoutubeDL
+import uuid
+def download_youtube(url:str):
+    output_audio_folder = f"./cached/audio"
+    # file_path = output_audio_folder + '/%(title)s.%(ext)s'
+    file_path = output_audio_folder + f'/{str(uuid.uuid4())}'
+    # f"{file_path}.%(ext)s"
+    # url = "https://www.youtube.com/watch?v=WtpPolBLRN0"
+    yt = YoutubeDL(params={'postprocessors': [{  # Post-process to convert to MP3
+                'key': 'FFmpegExtractAudio',
+                'preferredcodec': 'mp3',  # Convert to mp3
+                'preferredquality': '0',  # '0' means best quality, auto-determined by source
+            }],
+            'outtmpl': f"{file_path}.%(ext)s",
+            })
+    with yt as ydl:
+        ydl.download(url)
+    return f"{file_path}.mp3"

requirements.txt CHANGED Viewed

@@ -1,20 +1,28 @@
 accelerate==1.1.1
 annotated-types==0.7.0
 anyio==4.5.0
 av==12.3.0
 certifi==2024.8.30
 charset-normalizer==3.3.2
 click==8.1.7
 coloredlogs==15.0.1
 ctranslate2==4.4.0
 fastapi==0.115.0
 faster-whisper==1.0.3
 filelock==3.16.1
 flatbuffers==24.3.25
 fsspec==2024.9.0
 h11==0.14.0
 httpcore==1.0.7
 httpx==0.27.2
 huggingface-hub==0.25.1
 humanfriendly==10.0
 idna==3.10
@@ -22,22 +30,30 @@ Jinja2==3.1.4
 joblib==1.4.2
 jsonpatch==1.33
 jsonpointer==3.0.0
-langchain-core==0.3.19
 langchain-huggingface==0.1.2
 langchain-ollama==0.2.0
 langsmith==0.1.144
 MarkupSafe==3.0.2
 mpmath==1.3.0
 networkx==3.4.2
-numpy==2.1.2
 ollama==0.4.1
 onnxruntime==1.19.2
 orjson==3.10.11
 packaging==24.1
 pillow==11.0.0
 protobuf==5.28.2
 psutil==6.1.0
 pydantic==2.9.2
 pydantic_core==2.23.4
 python-dotenv==1.0.1
 PyYAML==6.0.2
@@ -50,6 +66,7 @@ scipy==1.14.1
 sentence-transformers==3.3.1
 setuptools==75.1.0
 sniffio==1.3.1
 starlette==0.38.5
 sympy==1.13.1
 tenacity==9.0.0
@@ -58,6 +75,10 @@ tokenizers==0.20.0
 torch==2.5.1
 tqdm==4.66.5
 transformers==4.46.3
 typing_extensions==4.12.2
 urllib3==2.2.3
 uvicorn==0.30.6

 accelerate==1.1.1
+aiohappyeyeballs==2.4.3
+aiohttp==3.11.7
+aiosignal==1.3.1
 annotated-types==0.7.0
 anyio==4.5.0
+attrs==24.2.0
 av==12.3.0
 certifi==2024.8.30
 charset-normalizer==3.3.2
 click==8.1.7
 coloredlogs==15.0.1
 ctranslate2==4.4.0
+dataclasses-json==0.6.7
 fastapi==0.115.0
 faster-whisper==1.0.3
 filelock==3.16.1
 flatbuffers==24.3.25
+frozenlist==1.5.0
 fsspec==2024.9.0
+gradio_client==1.5.0
 h11==0.14.0
 httpcore==1.0.7
 httpx==0.27.2
+httpx-sse==0.4.0
 huggingface-hub==0.25.1
 humanfriendly==10.0
 idna==3.10
 joblib==1.4.2
 jsonpatch==1.33
 jsonpointer==3.0.0
+langchain==0.3.8
+langchain-community==0.3.8
+langchain-core==0.3.21
 langchain-huggingface==0.1.2
 langchain-ollama==0.2.0
+langchain-text-splitters==0.3.2
 langsmith==0.1.144
 MarkupSafe==3.0.2
+marshmallow==3.23.1
 mpmath==1.3.0
+multidict==6.1.0
+mypy-extensions==1.0.0
 networkx==3.4.2
+numpy==1.26.4
 ollama==0.4.1
 onnxruntime==1.19.2
 orjson==3.10.11
 packaging==24.1
 pillow==11.0.0
+propcache==0.2.0
 protobuf==5.28.2
 psutil==6.1.0
 pydantic==2.9.2
+pydantic-settings==2.6.1
 pydantic_core==2.23.4
 python-dotenv==1.0.1
 PyYAML==6.0.2
 sentence-transformers==3.3.1
 setuptools==75.1.0
 sniffio==1.3.1
+SQLAlchemy==2.0.35
 starlette==0.38.5
 sympy==1.13.1
 tenacity==9.0.0
 torch==2.5.1
 tqdm==4.66.5
 transformers==4.46.3
+typing-inspect==0.9.0
 typing_extensions==4.12.2
 urllib3==2.2.3
 uvicorn==0.30.6
+websockets==12.0
+yarl==1.18.0
+yt-dlp==2024.11.18

routers/get_transcript.py CHANGED Viewed

@@ -22,7 +22,7 @@ def get_transcript(audio_path: str, model_size: str = "distil-large-v3", api_key
     # model = WhisperModel(model_size, device="cuda", cosmpute_type="int8_float16")
     # or run on CPU with INT8
     # model_run = WhisperModel(model_size, device="cpu", compute_type="int8")
     print(f"model>>>: {model_size}")
@@ -59,6 +59,7 @@ def get_transcript(audio_path: str, model_size: str = "distil-large-v3", api_key
     for segment in segments:
         text += segment.text
         listSentences.append({
             "start_time": segment.start,
             "end_time": segment.end,

     # model = WhisperModel(model_size, device="cuda", cosmpute_type="int8_float16")
     # or run on CPU with INT8
     # model_run = WhisperModel(model_size, device="cpu", compute_type="int8")
+    model_size: str = "distil-large-v3"
     print(f"model>>>: {model_size}")
     for segment in segments:
         text += segment.text
+        print(segment)
         listSentences.append({
             "start_time": segment.start,
             "end_time": segment.end,

routers/get_transcript_gradio.py ADDED Viewed

	@@ -0,0 +1,44 @@

+import os
+import time
+from fastapi import APIRouter, Depends, HTTPException, status
+from libs.convert_to_audio import convert_to_audio
+from libs.header_api_auth import get_api_key
+from libs.transformer.get_transcript_gradio_api import api_gradio_transcribe
+router = APIRouter(prefix="/get-transcript-gradio", tags=["transcript"])
+@router.get("/")
+def get_transcript(audio_path: str, model_size: str = "distil-whisper/distil-small.en", api_key: str = Depends(get_api_key)):
+    st = time.time()
+    output_audio_folder = f"./cached/audio"
+    if not os.path.exists(output_audio_folder):
+        os.makedirs(output_audio_folder)
+    output_file = f"{output_audio_folder}/{audio_path.split('/')[-1].split(".")[0]}.mp3"
+    convert_to_audio(audio_path.strip(), output_file)
+    try:
+        text = api_gradio_transcribe(output_file)
+    except Exception as error:
+        raise HTTPException(status_code=status.HTTP_403_FORBIDDEN, detail=f"error>>>: {error}")
+    finally:
+         if os.path.exists(output_file):
+            os.remove(output_file)
+    et = time.time()
+    elapsed_time = et - st
+    return {"text": text,
+            'list_sentence':  [],
+            'elapsed_time': round(elapsed_time, 2)
+            }

routers/get_transcript_transformer.py CHANGED Viewed

@@ -6,7 +6,10 @@ from libs.convert_to_audio import convert_to_audio
 from libs.transformer.get_transcript import get_transcript_gpu
 from libs.transformer.get_transcript_2 import get_transcribe_transformers
 from libs.header_api_auth import get_api_key
 router = APIRouter(prefix="/get-transcript-transformer", tags=["transcript"])
@@ -20,9 +23,11 @@ def get_transcript(audio_path: str, model_size: str = "distil-whisper/distil-sma
     if not os.path.exists(output_audio_folder):
         os.makedirs(output_audio_folder)
-    output_file = f"{output_audio_folder}/{audio_path.split('/')[-1].split(".")[0]}.mp3"
-    convert_to_audio(audio_path.strip(), output_file)
     try:
         text, chunks = get_transcribe_transformers(output_file, model_size)

 from libs.transformer.get_transcript import get_transcript_gpu
 from libs.transformer.get_transcript_2 import get_transcribe_transformers
+from langchain_community.document_loaders.blob_loaders.youtube_audio import YoutubeAudioLoader
 from libs.header_api_auth import get_api_key
+from libs.transformer.youtube_download import download_youtube
 router = APIRouter(prefix="/get-transcript-transformer", tags=["transcript"])
     if not os.path.exists(output_audio_folder):
         os.makedirs(output_audio_folder)
+    if("https://www.youtube.com" in audio_path):
+        output_file = download_youtube(audio_path)
+    else:
+        output_file = f"{output_audio_folder}/{audio_path.split('/')[-1].split(".")[0]}.mp3"
+        convert_to_audio(audio_path.strip(), output_file)
     try:
         text, chunks = get_transcribe_transformers(output_file, model_size)