Spaces:

jeysshon
/

Soph-IA

Sleeping

App Files Files Community

jeysshon commited on Sep 7, 2024

Commit

5de271e

verified ·

1 Parent(s): f520770

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -20

app.py CHANGED Viewed

@@ -1,21 +1,48 @@
 import streamlit as st
 from PIL import Image
-from google.cloud import vision
-from google.cloud.vision_v1 import types
-import io
-import os
 from gtts import gTTS
-# Configura la clave de autenticación de Google Cloud
-os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "ruta_a_tu_archivo_de_credenciales.json"
-def reconocer_imagen(imagen):
-    cliente = vision.ImageAnnotatorClient()
-    contenido = imagen.read()
-    image = types.Image(content=contenido)
-    respuesta = cliente.label_detection(image=image)
-    etiquetas = [etiqueta.description for etiqueta in respuesta.label_annotations]
-    return ', '.join(etiquetas)
 def hablar_texto(texto):
     tts = gTTS(text=texto, lang='es')
@@ -45,8 +72,7 @@ with col2:
         entrada_texto = st.text_input("Ingresa tu pregunta aquí")
         if entrada_texto:
             with st.spinner("Generando respuesta..."):
-                # Aquí iría la lógica para procesar el texto si es necesario
-                resultado = entrada_texto  # Simulación de respuesta
             espacio_contenido_generado.write(resultado)
             if st.button("🔊 Hablar", key="hablar_entrada_texto"):
                 hablar_texto(resultado)
@@ -57,19 +83,18 @@ with col2:
             imagen = Image.open(entrada_imagen)
             st.image(imagen, caption='Imagen subida.', use_column_width=True)
             with st.spinner("Procesando imagen..."):
-                etiquetas = reconocer_imagen(entrada_imagen)
-            espacio_contenido_generado.write(f"Etiquetas detectadas: {etiquetas}")
     elif tipo_entrada == "🎤 Usar micrófono":
         if st.button("Grabar"):
             with st.spinner("Escuchando y procesando..."):
-                # Aquí iría la lógica para reconocer la voz
-                texto_de_voz = "Texto simulado de voz"  # Simulación de texto de voz
             if texto_de_voz:
                 entrada_texto = st.text_input("Habla", value=texto_de_voz)
                 if entrada_texto:
                     with st.spinner("Generando respuesta..."):
-                        resultado = entrada_texto  # Simulación de respuesta
                     espacio_contenido_generado.write(resultado)
                     if st.button("🔊 Hablar", key="hablar_entrada_voz"):
                         hablar_texto(resultado)

 import streamlit as st
 from PIL import Image
+import speech_recognition as sr
+import google.generativeai as genai
 from gtts import gTTS
+import os
+# Configuración de la página de Streamlit
+st.set_page_config(layout="wide")
+# Configuración de la API key para Google Generative AI
+api_key = "AIzaSyDJZ3r6VRhRivR0pb96cBRg_VvGg_fXq5k"  # API key proporcionada
+def procesar_texto(texto):
+    genai.configure(api_key=api_key)
+    modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
+    try:
+        respuesta = modelo.generate_content(texto)
+        return respuesta.text
+    except Exception as e:
+        st.error(f"Error al procesar el texto: {str(e)}")
+        return "No se pudo generar una respuesta."
+def procesar_imagen(imagen):
+    genai.configure(api_key=api_key)
+    modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
+    try:
+        respuesta = modelo.generate_content(imagen.name)  # Ajusta según la API
+        return respuesta.text
+    except Exception as e:
+        st.error(f"Error al procesar la imagen: {str(e)}")
+        return "No se pudo procesar la imagen."
+def reconocer_voz():
+    reconocedor = sr.Recognizer()
+    try:
+        with sr.Microphone() as fuente:
+            st.write("Escuchando...")
+            audio = reconocedor.listen(fuente)
+            texto = reconocedor.recognize_google(audio)
+            return texto
+    except sr.UnknownValueError:
+        return "El reconocimiento de voz de Google no pudo entender el audio."
+    except sr.RequestError as e:
+        return f"No se pudieron solicitar resultados del servicio de reconocimiento de voz de Google; {e}"
 def hablar_texto(texto):
     tts = gTTS(text=texto, lang='es')
         entrada_texto = st.text_input("Ingresa tu pregunta aquí")
         if entrada_texto:
             with st.spinner("Generando respuesta..."):
+                resultado = procesar_texto(entrada_texto)
             espacio_contenido_generado.write(resultado)
             if st.button("🔊 Hablar", key="hablar_entrada_texto"):
                 hablar_texto(resultado)
             imagen = Image.open(entrada_imagen)
             st.image(imagen, caption='Imagen subida.', use_column_width=True)
             with st.spinner("Procesando imagen..."):
+                respuesta = procesar_imagen(entrada_imagen)
+            espacio_contenido_generado.write(respuesta)
     elif tipo_entrada == "🎤 Usar micrófono":
         if st.button("Grabar"):
             with st.spinner("Escuchando y procesando..."):
+                texto_de_voz = reconocer_voz()
             if texto_de_voz:
                 entrada_texto = st.text_input("Habla", value=texto_de_voz)
                 if entrada_texto:
                     with st.spinner("Generando respuesta..."):
+                        resultado = procesar_texto(entrada_texto)
                     espacio_contenido_generado.write(resultado)
                     if st.button("🔊 Hablar", key="hablar_entrada_voz"):
                         hablar_texto(resultado)