Spaces:
Running
Running
Update app.py
Browse files
app.py
CHANGED
@@ -97,12 +97,18 @@ def gradio_interface(model_name, input, max_tokens, temperature, history):
|
|
97 |
global stop_flag
|
98 |
stop_flag = False
|
99 |
|
|
|
|
|
|
|
|
|
100 |
def worker():
|
101 |
llm = check_and_load_model(model_name)
|
|
|
102 |
for token in llm.stream(input, max_tokens=max_tokens, temperature=temperature):
|
103 |
if stop_flag:
|
104 |
break
|
105 |
-
|
|
|
106 |
yield history, history
|
107 |
|
108 |
# Utiliser un thread pour gérer le streaming
|
@@ -133,7 +139,6 @@ demo = gr.Interface(
|
|
133 |
Cette Démo permet aux utilisateurs de tester tous les modèles Ollama dont la taille est inférieure à 10 milliards de paramètres directement depuis cette interface.
|
134 |
|
135 |
L'Application tourne sur une machine Hugging Face Free Space : 2 CPU - 16Gb RAM
|
136 |
-
|
137 |
Soyez patient...
|
138 |
"""
|
139 |
)
|
|
|
97 |
global stop_flag
|
98 |
stop_flag = False
|
99 |
|
100 |
+
# Ajouter la requête de l'utilisateur à l'historique une seule fois
|
101 |
+
history.append((input, ""))
|
102 |
+
yield history, history
|
103 |
+
|
104 |
def worker():
|
105 |
llm = check_and_load_model(model_name)
|
106 |
+
response = ""
|
107 |
for token in llm.stream(input, max_tokens=max_tokens, temperature=temperature):
|
108 |
if stop_flag:
|
109 |
break
|
110 |
+
response += token
|
111 |
+
history[-1] = (input, response)
|
112 |
yield history, history
|
113 |
|
114 |
# Utiliser un thread pour gérer le streaming
|
|
|
139 |
Cette Démo permet aux utilisateurs de tester tous les modèles Ollama dont la taille est inférieure à 10 milliards de paramètres directement depuis cette interface.
|
140 |
|
141 |
L'Application tourne sur une machine Hugging Face Free Space : 2 CPU - 16Gb RAM
|
|
|
142 |
Soyez patient...
|
143 |
"""
|
144 |
)
|