Spaces:

dioarafl
/

assisTen

Runtime error

App Files Files Community

dioarafl commited on May 12, 2024

Commit

f2fc28a

verified ·

1 Parent(s): bf15ff0

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -24

app.py CHANGED Viewed

@@ -1,13 +1,11 @@
-import cv2
 import gradio as gr
-import tempfile
 import torch
 import torchaudio
 from torchvision.models.detection import fasterrcnn_resnet50_fpn
 import torchvision.transforms as transforms
 from PIL import Image
-import numpy as np
-import soundfile as sf
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 class FasterRCNNDetector:
@@ -54,23 +52,9 @@ class JarvisModels:
         self.model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
     async def generate_response(self, prompt):
-    # Logika untuk menghasilkan tanggapan
-    generate_kwargs = dict(
-        temperature=0.6,
-        max_new_tokens=256,
-        top_p=0.95,
-        repetition_penalty=1,
-        do_sample=True,
-        seed=42,
-    )
-    formatted_prompt = system_instructions1 + prompt + "[JARVIS]"
-    stream = self.client1.text_generation(
-        formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=True)
-    output = ""
-    for response in stream:
-        output += response.token.text
-    return output
     async def transcribe_audio(self, audio_file):
         input_audio, _ = torchaudio.load(audio_file)
@@ -80,12 +64,36 @@ class JarvisModels:
         transcription = self.processor.batch_decode(predicted_ids)
         return transcription[0]
 detector = FasterRCNNDetector()
 iface = gr.Interface(
-    fn=[detector.detect_objects, JarvisModels().transcribe_audio],
-    inputs=gr.inputs.Video(label="Webcam", parameters={"fps": 30}),
-    outputs=[gr.outputs.Image(), "text"],
     title="Vision and Speech Interface",
     description="This interface detects objects in the webcam feed and transcribes speech recorded through the microphone."
 )

 import gradio as gr
+import subprocess
+import cv2
 import torch
 import torchaudio
 from torchvision.models.detection import fasterrcnn_resnet50_fpn
 import torchvision.transforms as transforms
 from PIL import Image
 from transformers import Wav2Vec2ForCTC, Wav2Vec2Processor
 class FasterRCNNDetector:
         self.model = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-base-960h")
     async def generate_response(self, prompt):
+        # Logika untuk menghasilkan tanggapan
+        response = gr.Interface.load("models/openai-community/gpt2").process(prompt)
+        return response
     async def transcribe_audio(self, audio_file):
         input_audio, _ = torchaudio.load(audio_file)
         transcription = self.processor.batch_decode(predicted_ids)
         return transcription[0]
+def transcribe(audio):
+    global messages
+    audio_file = open(audio, "rb")
+    # Transkripsi audio secara lokal (Anda dapat menambahkan logika transkripsi sesuai kebutuhan)
+    transcript = "Lorem ipsum dolor sit amet, consectetur adipiscing elit."
+    # Logika tanggapan (Anda dapat menambahkan logika untuk menghasilkan tanggapan sesuai kebutuhan)
+    system_message = {"role": "system", "content": "Lorem ipsum dolor sit amet, consectetur adipiscing elit."}
+    subprocess.call(["say", system_message['content']])
+    chat_transcript = "User: " + transcript + "\n\n" + "System: " + system_message['content'] + "\n\n"
+    return chat_transcript
 detector = FasterRCNNDetector()
 iface = gr.Interface(
+    fn=[detector.detect_objects, JarvisModels().transcribe_audio, JarvisModels().generate_response, transcribe],
+    inputs=[
+        gr.inputs.Video(label="Webcam", parameters={"fps": 30}),
+        gr.inputs.Audio(source="microphone", type="filepath")
+    ],
+    outputs=[
+        gr.outputs.Image(),
+        "text",
+        "text",
+        "text"
+    ],
     title="Vision and Speech Interface",
     description="This interface detects objects in the webcam feed and transcribes speech recorded through the microphone."
 )