Spaces:

MisterAI
/

Docker_Ollama

Running

App Files Files Community

MisterAI commited on 2 days ago

Commit

eed79e0

verified ·

1 Parent(s): 7777b2e

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -27

app.py CHANGED Viewed

@@ -40,18 +40,6 @@ def get_model_list():
             model_name = model_element.find('span', {'x-test-search-response-title': True}).text.strip()
             size_elements = model_element.find_all('span', {'x-test-size': True})
-#            # Filtrer les modèles par taille
-#            for size_element in size_elements:
-#                size = size_element.text.strip()
-#                if size.endswith('m'):
-#                    # Tous les modèles en millions sont acceptés
-#                    model_list.append(f"{model_name}:{size}")
-#                elif size.endswith('b'):
-#                    # Convertir les modèles en milliards en milliards
-#                    size_value = float(size[:-1])
-#                    if size_value <= 10:  # Filtrer les modèles <= 10 milliards de paramètres
-#                        model_list.append(f"{model_name}:{size}")
             # Filtrer les modèles par taille
             for size_element in size_elements:
                 size = size_element.text.strip().lower()  # Convertir en minuscules
@@ -108,23 +96,20 @@ def check_and_load_model(model_name):
 def gradio_interface(model_name, input, max_tokens, temperature, history):
     global stop_flag
     stop_flag = False
-    response = None  # Initialisez la variable response ici
     def worker():
-        nonlocal response  # Utilisez nonlocal pour accéder à la variable response définie dans la fonction parente
         llm = check_and_load_model(model_name)
-        response = llm(input, max_tokens=max_tokens, temperature=temperature)
-    thread = threading.Thread(target=worker)
-    thread.start()
-    thread.join()
-    if stop_flag:
-        history.append((input, "Processing stopped by the user."))
-        return "Processing stopped by the user.", history
-    else:
-        history.append((input, response))
-        return response, history  # Maintenant, response est accessible ici
 model_list = get_model_list()
@@ -138,7 +123,7 @@ demo = gr.Interface(
         gr.State(value=[])  # Ajout de l'historique
     ],
     outputs=[
-        gr.Textbox(label="Output"),
         gr.State()  # Ajout de l'historique
     ],
     title="Ollama Demo",
@@ -148,6 +133,7 @@ demo = gr.Interface(
     Cette Démo permet aux utilisateurs de tester tous les modèles Ollama dont la taille est inférieure à 10 milliards de paramètres directement depuis cette interface.
     L'Application tourne sur une machine Hugging Face Free Space : 2 CPU - 16Gb RAM
     Soyez patient...
     """
 )

             model_name = model_element.find('span', {'x-test-search-response-title': True}).text.strip()
             size_elements = model_element.find_all('span', {'x-test-size': True})
             # Filtrer les modèles par taille
             for size_element in size_elements:
                 size = size_element.text.strip().lower()  # Convertir en minuscules
 def gradio_interface(model_name, input, max_tokens, temperature, history):
     global stop_flag
     stop_flag = False
     def worker():
         llm = check_and_load_model(model_name)
+        for token in llm.stream(input, max_tokens=max_tokens, temperature=temperature):
+            if stop_flag:
+                break
+            history.append((input, token))
+            yield history, history
+    # Utiliser un thread pour gérer le streaming
+    for result in worker():
+        if stop_flag:
+            break
+        yield result
 model_list = get_model_list()
         gr.State(value=[])  # Ajout de l'historique
     ],
     outputs=[
+        gr.Chatbot(label="History"),  # Utilisation de Chatbot pour l'historique
         gr.State()  # Ajout de l'historique
     ],
     title="Ollama Demo",
     Cette Démo permet aux utilisateurs de tester tous les modèles Ollama dont la taille est inférieure à 10 milliards de paramètres directement depuis cette interface.
     L'Application tourne sur une machine Hugging Face Free Space : 2 CPU - 16Gb RAM
     Soyez patient...
     """
 )