Spaces:

El-Alberto67
/

Aria

Runtime error

App Files Files Community

El-Alberto67 commited on Aug 15

Commit

d383b03

verified ·

1 Parent(s): 6950e93

Update app.py

Browse files

Files changed (1) hide show

app.py +26 -20

app.py CHANGED Viewed

@@ -6,14 +6,14 @@ MODEL = "prithivMLmods/Llama-SmolTalk-3.2-1B-Instruct"
 # Charger le tokenizer
 tokenizer = AutoTokenizer.from_pretrained(MODEL)
-# Charger le modèle en 8 bits pour accélérer et réduire l’usage mémoire
 model = AutoModelForCausalLM.from_pretrained(
     MODEL,
     device_map="auto",
-    load_in_8bit=True  # accélère sur CPU/peu de mémoire
 )
-# Pipeline de génération
 chatbot = pipeline(
     "text-generation",
     model=model,
@@ -22,34 +22,40 @@ chatbot = pipeline(
 )
 # Prompt système
-system_prompt = """Tu es Aria, une IA gentille, claire et polie. Réponds toujours en phrases complètes. Ne t’excuse pas inutilement et réponds directement à la question."""
-def chat(message, history=[]):
-    # Limiter l'historique pour accélérer
-    history = history[-3:]
-    context = "\n".join([f"Utilisateur: {m[0]}\nAria: {m[1]}" for m in history])
-    prompt = f"{system_prompt}\n{context}\nUtilisateur: {message}\nAria:"
     resp = chatbot(
         prompt,
-        max_new_tokens=60,  # plus court pour CPU
         do_sample=True,
         temperature=0.7,
         top_p=0.9,
         repetition_penalty=1.1
     )[0]["generated_text"]
-    reply = resp.split("Aria:")[-1].strip()
-    history.append([message, reply])
-    # Convertir en tuples pour Gradio
-    chat_display = [(m[0], m[1]) for m in history]
-    return chat_display, history
 with gr.Blocks() as demo:
-    chat_ui = gr.Chatbot()
     msg = gr.Textbox(placeholder="Écris un message...")
-    msg.submit(chat, [msg, chat_ui], [chat_ui, chat_ui])
 demo.launch()

 # Charger le tokenizer
 tokenizer = AutoTokenizer.from_pretrained(MODEL)
+# Charger le modèle en 8 bits
 model = AutoModelForCausalLM.from_pretrained(
     MODEL,
     device_map="auto",
+    load_in_8bit=True
 )
+# Pipeline
 chatbot = pipeline(
     "text-generation",
     model=model,
 )
 # Prompt système
+system_prompt = (
+    "Tu es Aria, une IA gentille, claire et polie. "
+    "Réponds toujours en phrases complètes. "
+    "Ne te lances pas dans un jeu de rôle, ne répète pas les messages précédents, "
+    "et donne uniquement ta réponse."
+)
+def chat(message, history):
+    history = history or []
+    context = "\n".join([f"{user}\n{bot}" for user, bot in history[-3:]])
+    prompt = f"{system_prompt}\n{context}\n{message}\nRéponse:"
     resp = chatbot(
         prompt,
+        max_new_tokens=250,   # plus long pour éviter les coupures
         do_sample=True,
         temperature=0.7,
         top_p=0.9,
         repetition_penalty=1.1
     )[0]["generated_text"]
+    # Couper dès qu'il repart sur un nouveau tour
+    reply = resp.split("Réponse:")[-1].strip()
+    reply = reply.split("Utilisateur:")[0].strip()
+    history.append((message, reply))
+    return history, history
 with gr.Blocks() as demo:
+    chatbot_ui = gr.Chatbot()
+    state = gr.State([])  # sauvegarde de l'historique
     msg = gr.Textbox(placeholder="Écris un message...")
+    msg.submit(chat, [msg, state], [chatbot_ui, state])
+    msg.submit(lambda: "", None, msg)  # reset input après envoi
 demo.launch()