Spaces:

GueuleDange
/

Test

Sleeping

App Files Files Community

GueuleDange commited on Mar 28

Commit

ee0e357

verified ·

1 Parent(s): 633fb6d

Update app.py

Browse files

Files changed (1) hide show

app.py +49 -99

app.py CHANGED Viewed

@@ -1,100 +1,50 @@
-import gradio as gr
-from huggingface_hub import InferenceClient
-import threading
-import time
-# 1. Initialisation du client HuggingFace
-print("🔄 Initialisation du client HuggingFace...")
-try:
-    client = InferenceClient("microsoft/Phi-3.5-mini-instruct")
-    print("✅ Client HuggingFace initialisé.")
-except Exception as e:
-    print(f"⚠️ Erreur lors de l'initialisation du client HuggingFace : {e}")
-    client = None
-# 2. Définition de la fonction de réponse en streaming
-def stream_response(message, history, system_message, max_tokens, temperature, top_p):
-    print("🎯 Début de la fonction stream_response")
-    # Vérification des arguments d'entrée
-    print(f"📝 Arguments reçus - Message: {message}, Historique: {history}, System Message: {system_message}")
-    # Construction des messages pour l'API
-    messages = [{"role": "system", "content": system_message}]
-    print("✅ Message système ajouté.")
-    try:
-        # Traitement de l'historique des messages
-        for [user_msg, assistant_msg] in history:
-            messages.extend([{"role": "user", "content": user_msg}, {"role": "assistant", "content": assistant_msg}])
-        print(f"✅ Historique ajouté. Messages: {messages}")
-    except Exception as e:
-        print(f"⚠️ Erreur lors du traitement de l'historique: {e}")
-        return "Erreur lors du traitement de l'historique."
-    # Ajout du nouveau message utilisateur
-    messages.append({"role": "user", "content": message})
-    print(f"✅ Nouveau message ajouté : {message}")
-    # Test du streaming
-    if client is None:
-        print("⚠️ Client non initialisé. Impossible d'envoyer la requête.")
-        return "Erreur client non initialisé."
-    try:
-        # Appel API avec streaming
-        print("⏳ Envoi de la requête au modèle...")
-        stream = client.chat_completion(
-            messages=messages,
-            max_tokens=max_tokens,
-            temperature=temperature,
-            top_p=top_p,
-            stream=True
-        )
-        print("✅ Requête envoyée au modèle avec succès.")
-    except Exception as e:
-        print(f"⚠️ Erreur lors de l'appel à l'API : {e}")
-        return "Erreur lors de l'appel à l'API."
-    # Stream des tokens au fur et à mesure
-    partial_message = ""
-    try:
-        for chunk in stream:
-            token = chunk.choices[0].delta.content
-            if token:
-                partial_message += token
-                print(f"📝 Token reçu : {token}")  # Vérifie si les tokens arrivent progressivement
-                yield partial_message  # Envoi chaque token au fur et à mesure
-    except Exception as e:
-        print(f"⚠️ Erreur lors du streaming des tokens : {e}")
-        return "Erreur lors du streaming des tokens."
-# 3. Configuration de l'interface Gradio
-print("🔄 Configuration de l'interface Gradio...")
-try:
-    demo = gr.ChatInterface(
-        fn=stream_response,
-        additional_inputs=[
-            gr.Textbox(value="You are a helpful AI assistant.", label="System message"),
-            gr.Slider(1, 2048, value=512, label="Max tokens"),
-            gr.Slider(0.1, 1.0, value=0.7, label="Temperature"),
-            gr.Slider(0.1, 1.0, value=0.9, label="Top-p")
-        ],
-        title="Phi-3 Chatbot (Streaming)",
-        examples=[
-            ["Explain quantum computing"],
-            ["Write a poem about AI"]
-        ],
-        chatbot=gr.Chatbot(height=500, label="Phi-3 Chat", show_copy_button=True)
-    )
-    print("✅ Interface Gradio configurée.")
-except Exception as e:
-    print(f"⚠️ Erreur lors de la configuration de l'interface Gradio : {e}")
-# 4. Lancement de l'application
-print("🔄 Lancement de l'application Gradio...")
-try:
-    demo.launch(share=True)
-    print("✅ Application lancée avec succès.")
-except Exception as e:
-    print(f"⚠️ Erreur lors du lancement de l'application : {e}")

+from fastapi import FastAPI, Request
+from fastapi.responses import StreamingResponse, HTMLResponse
+from fastapi.staticfiles import StaticFiles
+from fastapi.templating import Jinja2Templates
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+import asyncio
+app = FastAPI()
+app.mount("/static", StaticFiles(directory="static"), name="static")
+templates = Jinja2Templates(directory="templates")
+# Charger le modèle public (sans token)
+model_name = "microsoft/Phi-3.5-mini-instruct"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,
+    device_map="auto"
+)
+async def generate_response(prompt: str):
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    # Génération token par token
+    with torch.no_grad():
+        for _ in range(512):  # Limite de tokens
+            outputs = model.generate(
+                **inputs,
+                max_new_tokens=1,
+                do_sample=True,
+                temperature=0.7,
+                top_p=0.9
+            )
+            new_token = tokenizer.decode(outputs[0][-1], skip_special_tokens=True)
+            yield f"data: {new_token}\n\n"
+            await asyncio.sleep(0.05)
+            inputs = {"input_ids": outputs}
+@app.get("/", response_class=HTMLResponse)
+async def home(request: Request):
+    return templates.TemplateResponse("index.html", {"request": request})
+@app.get("/stream")
+async def stream(prompt: str):
+    return StreamingResponse(
+        generate_response(prompt),
+        media_type="text/event-stream"
+    )