Spaces:

Jamiiwej2903
/

chat3

Build error

Jamiiwej2903 commited on Aug 4, 2024

Commit

cf39022

verified ·

1 Parent(s): 5b3b82b

Rename app.py to main.py

Files changed (1) hide show

app.py → main.py RENAMED Viewed

@@ -1,7 +1,8 @@
 from fastapi import FastAPI
 from pydantic import BaseModel
 from huggingface_hub import InferenceClient
-from fastapi.responses import StreamingResponse
 app = FastAPI()
@@ -24,35 +25,30 @@ def format_prompt(message, history):
     prompt += f"[INST] {message} [/INST]"
     return prompt
-async def generate_stream(item: Item):
-    try:
-        temperature = max(float(item.temperature), 1e-2)
-        top_p = float(item.top_p)
-        generate_kwargs = dict(
-            temperature=temperature,
-            max_new_tokens=item.max_new_tokens,
-            top_p=top_p,
-            repetition_penalty=item.repetition_penalty,
-            do_sample=True,
-            seed=42,
-        )
-        formatted_prompt = format_prompt(f"{item.system_prompt}, {item.prompt}", item.history)
-        stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
-        for response in stream:
-            yield response.token.text
-    except Exception as e:
-        print(f"Error in generate_stream: {e}")
-    finally:
-        if 'stream' in locals():
-            stream.close()
 @app.post("/generate/")
 async def generate_text(item: Item):
-    try:
-        return StreamingResponse(generate_stream(item), media_type="text/plain")
-    except Exception as e:
-        print(f"Error in generate_text: {e}")
-        return {"error": str(e)}

 from fastapi import FastAPI
 from pydantic import BaseModel
 from huggingface_hub import InferenceClient
+import uvicorn
 app = FastAPI()
     prompt += f"[INST] {message} [/INST]"
     return prompt
+def generate(item: Item):
+    temperature = float(item.temperature)
+    if temperature < 1e-2:
+        temperature = 1e-2
+    top_p = float(item.top_p)
+    generate_kwargs = dict(
+        temperature=temperature,
+        max_new_tokens=item.max_new_tokens,
+        top_p=top_p,
+        repetition_penalty=item.repetition_penalty,
+        do_sample=True,
+        seed=42,
+    )
+    formatted_prompt = format_prompt(f"{item.system_prompt}, {item.prompt}", item.history)
+    stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
+    output = ""
+    for response in stream:
+        output += response.token.text
+    return output
 @app.post("/generate/")
 async def generate_text(item: Item):
+    return {"response": generate(item)}