Spaces:

GueuleDange
/

Test

Sleeping

App Files Files Community

GueuleDange commited on Mar 28

Commit

0eadccb

verified ·

1 Parent(s): 754f340

Update app.py

Browse files

Files changed (1) hide show

app.py +73 -52

app.py CHANGED Viewed

@@ -1,69 +1,90 @@
 from fastapi import FastAPI, Request
-from fastapi.responses import StreamingResponse, HTMLResponse
-from fastapi.templating import Jinja2Templates
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import asyncio
-import gradio as gr
-# Initialisation FastAPI
 app = FastAPI()
-templates = Jinja2Templates(directory="templates")
-# Chargement du modèle (avec gestion d'erreur)
-try:
-    tokenizer = AutoTokenizer.from_pretrained("microsoft/Phi-3.5-mini-instruct")
-    model = AutoModelForCausalLM.from_pretrained(
-        "microsoft/Phi-3.5-mini-instruct",
-        torch_dtype=torch.float16,
-        device_map="auto"
-    )
-except Exception as e:
-    print(f"Erreur de chargement du modèle: {str(e)}")
-    raise
-# Fonction de génération commune
-async def generate_tokens(prompt: str):
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-    with torch.no_grad():
-        for _ in range(512):
-            outputs = model.generate(
-                **inputs,
-                max_new_tokens=1,
-                do_sample=True,
-                temperature=0.7,
-                top_p=0.9
-            )
-            new_token = tokenizer.decode(outputs[0][-1], skip_special_tokens=True)
-            yield new_token
-            inputs = {"input_ids": outputs}
-# Route FastAPI pour le site web
 @app.get("/stream")
-async def stream(prompt: str):
     return StreamingResponse(
-        generate_tokens(prompt),
         media_type="text/event-stream"
     )
-# Interface Gradio
-def gradio_interface(prompt: str):
-    full_response = ""
-    for token in generate_tokens(prompt):
-        full_response += token
-    return full_response
-gradio_app = gr.Interface(
-    fn=gradio_interface,
-    inputs=gr.Textbox(label="Votre message"),
-    outputs=gr.Textbox(label="Réponse", interactive=False),
-    title="Chat avec (Gradio)"
 )
-# Montage des deux apps
-app = gr.mount_gradio_app(app, gradio_app, path="/gradio")
-# Route racine (peut rediriger vers Gradio ou votre site)
-@app.get("/", response_class=HTMLResponse)
-async def home(request: Request):
-    return templates.TemplateResponse("index.html", {"request": request})

 from fastapi import FastAPI, Request
+from fastapi.responses import HTMLResponse, StreamingResponse
+import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import asyncio
 app = FastAPI()
+# Chargement du modèle
+model_name = "microsoft/Phi-3.5-mini-instruct"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,
+    device_map="auto"
+)
+# Fonction de génération avec streaming
+async def generate_stream(prompt: str):
+    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    for _ in range(512):  # Limite de tokens
+        outputs = model.generate(
+            **inputs,
+            max_new_tokens=1,
+            do_sample=True,
+            temperature=0.7,
+            top_p=0.9
+        )
+        new_token = tokenizer.decode(outputs[0][-1], skip_special_tokens=True)
+        yield f"data: {new_token}\n\n"
+        await asyncio.sleep(0.05)
+        inputs = {"input_ids": outputs}
+# Interface Gradio standard
+def generate_text(prompt: str):
     inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
+    outputs = model.generate(**inputs, max_new_tokens=512)
+    return tokenizer.decode(outputs[0], skip_special_tokens=True)
+# Page web de streaming
+@app.get("/", response_class=HTMLResponse)
+async def web_interface(request: Request):
+    return """
+    <!DOCTYPE html>
+    <html>
+    <head>
+        <title>Chat Streaming</title>
+        <script>
+            async function startStream() {
+                const prompt = document.getElementById("prompt").value;
+                const output = document.getElementById("output");
+                output.innerHTML = "";
+                const eventSource = new EventSource(`/stream?prompt=${encodeURIComponent(prompt)}`);
+                eventSource.onmessage = (event) => {
+                    output.innerHTML += event.data;
+                    output.scrollTop = output.scrollHeight;
+                };
+            }
+        </script>
+    </head>
+    <body>
+        <h1>Chat en temps réel</h1>
+        <textarea id="prompt" rows="4"></textarea>
+        <button onclick="startStream()">Envoyer</button>
+        <div id="output" style="white-space: pre-wrap; margin-top: 20px;"></div>
+    </body>
+    </html>
+    """
+# Endpoint de streaming
 @app.get("/stream")
+async def stream_response(prompt: str):
     return StreamingResponse(
+        generate_stream(prompt),
         media_type="text/event-stream"
     )
+# Interface Gradio (accessible via /gradio)
+demo = gr.Interface(
+    fn=generate_text,
+    inputs="text",
+    outputs="text",
+    title="Phi-3 Chat"
 )
+app = gr.mount_gradio_app(app, demo, path="/gradio")