Spaces:

tarrasyed19472007
/

voicebot

Build error

App Files Files Community

tarrasyed19472007 commited on Oct 26, 2024

Commit

b9da6aa

verified ·

1 Parent(s): 8d6cd88

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -72

app.py CHANGED Viewed

@@ -1,91 +1,67 @@
-# chatbot_app.py
 import streamlit as st
-import openai
 import requests
 from gtts import gTTS
-from transformers import MusicgenForCausalLM, MusicgenConfig, AutoTokenizer
 import os
-from io import BytesIO
-from pydub import AudioSegment
-from pydub.playback import play
 import tempfile
-# Configure API keys
 HUGGING_FACE_API_KEY = "voicebot"
-OPENAI_API_KEY = "Testing API"
-openai.api_key = OPENAI_API_KEY
-# Initialize the Hugging Face model and tokenizer
-@st.cache_resource  # Cache the model to avoid reloading on every run
-def load_model():
-    model_name = "facebook/musicgen-small"
-    config = MusicgenConfig.from_pretrained(model_name, use_auth_token=HUGGING_FACE_API_KEY)
-    model = MusicgenForCausalLM.from_pretrained(model_name, config=config, use_auth_token=HUGGING_FACE_API_KEY)
-    tokenizer = AutoTokenizer.from_pretrained(model_name, use_auth_token=HUGGING_FACE_API_KEY)
-    return model, tokenizer
-model, tokenizer = load_model()
-# Function to convert voice to text using OpenAI's Whisper API
-def voice_to_text(audio_file):
-    with open(audio_file, "rb") as file:
-        transcript = openai.Audio.transcribe("whisper-1", file)
-    return transcript["text"]
-# Function to generate chatbot response using Hugging Face's model
-def generate_response(prompt):
-    inputs = tokenizer.encode(prompt, return_tensors="pt")
-    outputs = model.generate(inputs, max_length=100, num_return_sequences=1)
-    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
     return response
-# Function to convert text to voice using gTTS
 def text_to_speech(text):
-    tts = gTTS(text, lang="en")
-    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
-    tts.save(temp_file.name)
-    return temp_file.name
-# Streamlit app layout
 st.title("Voice-to-Text Chatbot")
-st.write("Speak to the chatbot and get responses in both text and audio!")
-# Upload audio file
-audio_file = st.file_uploader("Upload your voice input", type=["mp3", "wav", "ogg"])
-if audio_file is not None:
-    # Convert voice to text
-    with open("input_audio.wav", "wb") as f:
-        f.write(audio_file.read())
-    st.audio("input_audio.wav", format="audio/wav")
-    # Get text from audio
-    with st.spinner("Transcribing your voice..."):
-        user_input = voice_to_text("input_audio.wav")
-        st.write(f"**You said:** {user_input}")
-    # Generate chatbot response
-    with st.spinner("Generating response..."):
-        response_text = generate_response(user_input)
-        st.write(f"**Chatbot:** {response_text}")
-    # Convert response to audio
-    with st.spinner("Converting response to audio..."):
-        response_audio = text_to_speech(response_text)
-        audio_data = AudioSegment.from_mp3(response_audio)
-        # Display audio response
-        st.audio(response_audio, format="audio/mp3")
-        # Play audio
-        play(audio_data)
-    # Clean up temporary files
-    os.remove("input_audio.wav")
-    os.remove(response_audio)
-else:
-    st.write("Please upload an audio file to get started.")

 import streamlit as st
 import requests
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer
 from gtts import gTTS
 import os
 import tempfile
+import speech_recognition as sr
+# Set your Hugging Face API key
 HUGGING_FACE_API_KEY = "voicebot"
+# Load the model and tokenizer
+tokenizer = AutoTokenizer.from_pretrained("declare-lab/tango-full")
+model = AutoModelForCausalLM.from_pretrained("declare-lab/tango-full")
+# Function to get a response from the chatbot
+def get_response(input_text):
+    inputs = tokenizer.encode(input_text, return_tensors='pt')
+    response_ids = model.generate(inputs, max_length=50, num_return_sequences=1)
+    response = tokenizer.decode(response_ids[0], skip_special_tokens=True)
     return response
+# Function to convert text to speech
 def text_to_speech(text):
+    tts = gTTS(text=text, lang='en')
+    with tempfile.NamedTemporaryFile(delete=True) as fp:
+        tts.save(f"{fp.name}.mp3")
+        os.system(f"start {fp.name}.mp3")  # For Windows, use 'open' for macOS
+# Speech Recognition Function
+def recognize_speech():
+    r = sr.Recognizer()
+    with sr.Microphone() as source:
+        st.write("Listening...")
+        audio = r.listen(source)
+        st.write("Recognizing...")
+        try:
+            text = r.recognize_google(audio)
+            st.success(f"You said: {text}")
+            return text
+        except sr.UnknownValueError:
+            st.error("Sorry, I could not understand the audio.")
+            return None
+        except sr.RequestError:
+            st.error("Could not request results from Google Speech Recognition service.")
+            return None
+# Streamlit Interface
 st.title("Voice-to-Text Chatbot")
+# Recognize speech
+if st.button("Speak"):
+    user_input = recognize_speech()
+else:
+    user_input = st.text_input("Type your message here:")
+# Display response and convert to speech
+if user_input:
+    st.write("You: ", user_input)
+    chatbot_response = get_response(user_input)
+    st.write("Chatbot: ", chatbot_response)
+    text_to_speech(chatbot_response)