Spaces:

jeysshon
/

Soph-IA

Sleeping

App Files Files Community

jeysshon commited on Sep 7, 2024

Commit

f520770

verified ·

1 Parent(s): 0e2770b

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -44

app.py CHANGED Viewed

@@ -1,44 +1,21 @@
 import streamlit as st
 from PIL import Image
-import speech_recognition as sr
-import google.generativeai as genai
-from gtts import gTTS
 import os
-# Configuración de la página de Streamlit
-st.set_page_config(layout="wide")
-# Configuración de la API key para Google Generative AI
-api_key = "AIzaSyDJZ3r6VRhRivR0pb96cBRg_VvGg_fXq5k"  # API key proporcionada
-def procesar_texto(texto):
-    genai.configure(api_key=api_key)
-    modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
-    respuesta = modelo.generate_content(texto, language='es')  # Asegúrate de especificar el idioma
-    return respuesta.text
-def procesar_imagen(imagen, contexto):
-    genai.configure(api_key=api_key)
-    modelo = genai.GenerativeModel('gemini-1.5-pro-latest')
-    contexto_completo = f"Estoy procesando una imagen con el siguiente contexto: {contexto}. La imagen se llama {imagen.name}."
-    try:
-        respuesta = modelo.generate_content(contexto_completo)
-        return respuesta.text
-    except Exception as e:
-        return f"Error al procesar la imagen: {str(e)}"
-def reconocer_voz():
-    reconocedor = sr.Recognizer()
-    try:
-        with sr.Microphone() as fuente:
-            st.write("Escuchando...")
-            audio = reconocedor.listen(fuente)
-        texto = reconocedor.recognize_google(audio)
-        return texto
-    except sr.UnknownValueError:
-        return "El reconocimiento de voz de Google no pudo entender el audio"
-    except sr.RequestError as e:
-        return f"No se pudieron solicitar resultados del servicio de reconocimiento de voz de Google; {e}"
 def hablar_texto(texto):
     tts = gTTS(text=texto, lang='es')
@@ -68,7 +45,8 @@ with col2:
         entrada_texto = st.text_input("Ingresa tu pregunta aquí")
         if entrada_texto:
             with st.spinner("Generando respuesta..."):
-                resultado = procesar_texto(entrada_texto)
             espacio_contenido_generado.write(resultado)
             if st.button("🔊 Hablar", key="hablar_entrada_texto"):
                 hablar_texto(resultado)
@@ -78,21 +56,20 @@ with col2:
         if entrada_imagen:
             imagen = Image.open(entrada_imagen)
             st.image(imagen, caption='Imagen subida.', use_column_width=True)
-            contexto_imagen = st.text_input("Proporcióname más contexto sobre la imagen")
-            if contexto_imagen:
-                with st.spinner("Procesando imagen..."):
-                    respuesta = procesar_imagen(entrada_imagen, contexto_imagen)
-                espacio_contenido_generado.write(respuesta)
     elif tipo_entrada == "🎤 Usar micrófono":
         if st.button("Grabar"):
             with st.spinner("Escuchando y procesando..."):
-                texto_de_voz = reconocer_voz()
             if texto_de_voz:
                 entrada_texto = st.text_input("Habla", value=texto_de_voz)
                 if entrada_texto:
                     with st.spinner("Generando respuesta..."):
-                        resultado = procesar_texto(entrada_texto)
                     espacio_contenido_generado.write(resultado)
                     if st.button("🔊 Hablar", key="hablar_entrada_voz"):
                         hablar_texto(resultado)

 import streamlit as st
 from PIL import Image
+from google.cloud import vision
+from google.cloud.vision_v1 import types
+import io
 import os
+from gtts import gTTS
+# Configura la clave de autenticación de Google Cloud
+os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "ruta_a_tu_archivo_de_credenciales.json"
+def reconocer_imagen(imagen):
+    cliente = vision.ImageAnnotatorClient()
+    contenido = imagen.read()
+    image = types.Image(content=contenido)
+    respuesta = cliente.label_detection(image=image)
+    etiquetas = [etiqueta.description for etiqueta in respuesta.label_annotations]
+    return ', '.join(etiquetas)
 def hablar_texto(texto):
     tts = gTTS(text=texto, lang='es')
         entrada_texto = st.text_input("Ingresa tu pregunta aquí")
         if entrada_texto:
             with st.spinner("Generando respuesta..."):
+                # Aquí iría la lógica para procesar el texto si es necesario
+                resultado = entrada_texto  # Simulación de respuesta
             espacio_contenido_generado.write(resultado)
             if st.button("🔊 Hablar", key="hablar_entrada_texto"):
                 hablar_texto(resultado)
         if entrada_imagen:
             imagen = Image.open(entrada_imagen)
             st.image(imagen, caption='Imagen subida.', use_column_width=True)
+            with st.spinner("Procesando imagen..."):
+                etiquetas = reconocer_imagen(entrada_imagen)
+            espacio_contenido_generado.write(f"Etiquetas detectadas: {etiquetas}")
     elif tipo_entrada == "🎤 Usar micrófono":
         if st.button("Grabar"):
             with st.spinner("Escuchando y procesando..."):
+                # Aquí iría la lógica para reconocer la voz
+                texto_de_voz = "Texto simulado de voz"  # Simulación de texto de voz
             if texto_de_voz:
                 entrada_texto = st.text_input("Habla", value=texto_de_voz)
                 if entrada_texto:
                     with st.spinner("Generando respuesta..."):
+                        resultado = entrada_texto  # Simulación de respuesta
                     espacio_contenido_generado.write(resultado)
                     if st.button("🔊 Hablar", key="hablar_entrada_voz"):
                         hablar_texto(resultado)