Spaces:

GueuleDange
/

Test

Sleeping

App Files Files Community

GueuleDange commited on Mar 28

Commit

2ad44a0

verified ·

1 Parent(s): fbb1dd6

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -24

app.py CHANGED Viewed

@@ -4,32 +4,28 @@ from fastapi.templating import Jinja2Templates
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import asyncio
-import os
-# Créer le dossier static s'il n'existe pas
-os.makedirs("static", exist_ok=True)
 app = FastAPI()
 templates = Jinja2Templates(directory="templates")
-# Configuration simplifiée pour Hugging Face Spaces
-model_name = "microsoft/Phi-3.5-mini-instruct"
 try:
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForCausalLM.from_pretrained(
-        model_name,
-        torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
         device_map="auto"
     )
 except Exception as e:
     print(f"Erreur de chargement du modèle: {str(e)}")
     raise
-async def generate_response(prompt: str):
-    try:
-        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
         for _ in range(512):
             outputs = model.generate(
                 **inputs,
@@ -39,19 +35,35 @@ async def generate_response(prompt: str):
                 top_p=0.9
             )
             new_token = tokenizer.decode(outputs[0][-1], skip_special_tokens=True)
-            yield f"data: {new_token}\n\n"
-            await asyncio.sleep(0.05)
             inputs = {"input_ids": outputs}
-    except Exception as e:
-        yield f"data: [ERREUR: {str(e)}]\n\n"
-@app.get("/", response_class=HTMLResponse)
-async def home(request: Request):
-    return templates.TemplateResponse("index.html", {"request": request})
 @app.get("/stream")
 async def stream(prompt: str):
     return StreamingResponse(
-        generate_response(prompt),
         media_type="text/event-stream"
-    )

 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import asyncio
+import gradio as gr
+# Initialisation FastAPI
 app = FastAPI()
 templates = Jinja2Templates(directory="templates")
+# Chargement du modèle (avec gestion d'erreur)
 try:
+    tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3.5-mini-instruct")
     model = AutoModelForCausalLM.from_pretrained(
+        "microsoft/Phi-3.5-mini-instruct",
+        torch_dtype=torch.float16,
         device_map="auto"
     )
 except Exception as e:
     print(f"Erreur de chargement du modèle: {str(e)}")
     raise
+# Fonction de génération commune
+async def generate_tokens(prompt: str):
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    with torch.no_grad():
         for _ in range(512):
             outputs = model.generate(
                 **inputs,
                 top_p=0.9
             )
             new_token = tokenizer.decode(outputs[0][-1], skip_special_tokens=True)
+            yield new_token
             inputs = {"input_ids": outputs}
+# Route FastAPI pour le site web
 @app.get("/stream")
 async def stream(prompt: str):
     return StreamingResponse(
+        generate_tokens(prompt),
         media_type="text/event-stream"
+    )
+# Interface Gradio
+def gradio_interface(prompt: str):
+    full_response = ""
+    for token in generate_tokens(prompt):
+        full_response += token
+    return full_response
+gradio_app = gr.Interface(
+    fn=gradio_interface,
+    inputs=gr.Textbox(label="Votre message"),
+    outputs=gr.Textbox(label="Réponse", interactive=False),
+    title="Chat avec (Gradio)"
+)
+# Montage des deux apps
+app = gr.mount_gradio_app(app, gradio_app, path="/gradio")
+# Route racine (peut rediriger vers Gradio ou votre site)
+@app.get("/", response_class=HTMLResponse)
+async def home(request: Request):
+    return templates.TemplateResponse("index.html", {"request": request})