Spaces:

AlbertDuvan
/

AlvearRendon

Sleeping

AlbertDuvan commited on Feb 4

Commit

dd93648

verified ·

1 Parent(s): 40cce88

Upload 2 files

Files changed (1) hide show

app.py CHANGED Viewed

@@ -9,10 +9,10 @@ import logging
 # Configurar logging
 logging.basicConfig(level=logging.INFO)
-# Cargar un modelo de lenguaje médico optimizado (usando quantización)
 model_name = "microsoft/BioGPT"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name, load_in_8bit=True, device_map="auto")
 # Configurar PubMed
 Entrez.email = "[email protected]"  # Proporciona un correo válido
@@ -54,16 +54,19 @@ def buscar_en_internet(pregunta):
         logging.error(f"Error al buscar en Internet: {e}")
         return f"Error al buscar en Internet: {e}"
-# Función para generar respuestas del modelo
 def generar_respuesta(pregunta):
     inputs = tokenizer(
         f"Eres un profesor médico con vasto conocimiento en fisiología, bioquímica, farmacología y otras áreas médicas. "
         f"Explica de manera clara, sencilla y didáctica. Utiliza términos médicos y explícalos dentro de tus respuestas. "
         f"Si no estás seguro de algo, di 'No tengo suficiente información para responder a eso'. Pregunta: {pregunta}",
         return_tensors="pt"
-    ).to("cuda")
-    outputs = model.generate(**inputs, max_length=150)  # Reducir max_length para mayor velocidad
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 # Función principal para hacer preguntas al bot

 # Configurar logging
 logging.basicConfig(level=logging.INFO)
+# Cargar un modelo de lenguaje médico más pequeño (optimizado para CPU)
 model_name = "microsoft/BioGPT"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_name).to("cpu")  # Usar CPU
 # Configurar PubMed
 Entrez.email = "[email protected]"  # Proporciona un correo válido
         logging.error(f"Error al buscar en Internet: {e}")
         return f"Error al buscar en Internet: {e}"
+# Función para generar respuestas del modelo (optimizada para CPU)
 def generar_respuesta(pregunta):
     inputs = tokenizer(
         f"Eres un profesor médico con vasto conocimiento en fisiología, bioquímica, farmacología y otras áreas médicas. "
         f"Explica de manera clara, sencilla y didáctica. Utiliza términos médicos y explícalos dentro de tus respuestas. "
         f"Si no estás seguro de algo, di 'No tengo suficiente información para responder a eso'. Pregunta: {pregunta}",
         return_tensors="pt"
+    ).to("cpu")
+    # Desactivar el cálculo de gradientes para ahorrar memoria
+    with torch.no_grad():
+        outputs = model.generate(**inputs, max_length=100)  # Reducir max_length para mayor velocidad
     return tokenizer.decode(outputs[0], skip_special_tokens=True)
 # Función principal para hacer preguntas al bot