Spaces:

rayymaxx
/

DirectEd-AI-LoRA-API

Sleeping

App Files Files Community

rayymaxx commited on 19 days ago

Commit

4969e4b

1 Parent(s): c3e0a3a

Made changes to app file

Browse files

Files changed (1) hide show

app.py +19 -16

app.py CHANGED Viewed

@@ -1,19 +1,26 @@
 import os
 import logging
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
-# --- Use a writable cache directory (current working dir) ---
-CACHE_DIR = os.path.join(os.getcwd(), "cache")  # /code/cache in the Dockerfile layout
-os.makedirs(CACHE_DIR, exist_ok=True)
-os.environ["TRANSFORMERS_CACHE"] = CACHE_DIR
-os.environ["HF_HOME"] = CACHE_DIR
-os.environ["HF_DATASETS_CACHE"] = CACHE_DIR
-os.environ["HF_METRICS_CACHE"] = CACHE_DIR
 app = FastAPI(title="DirectEd LoRA API (safe startup)")
-# lightweight health endpoint
 @app.get("/health")
 def health():
     return {"ok": True}
@@ -23,21 +30,19 @@ class Request(BaseModel):
     max_new_tokens: int = 150
     temperature: float = 0.7
-# Globals to be initialized on startup
 pipe = None
 @app.on_event("startup")
 def load_model():
     global pipe
     try:
-        # heavy imports inside startup so module import stays lightweight
         from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
         from peft import PeftModel
-        BASE_MODEL = "unsloth/llama-3-8b-Instruct-bnb-4bit"   # unchanged
-        ADAPTER_REPO = "rayymaxx/DirectEd-AI-LoRA"          # <<< replace with your adapter repo
-        # load tokenizer + base model then attach adapter
         tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
         base_model = AutoModelForCausalLM.from_pretrained(
             BASE_MODEL,
@@ -50,17 +55,15 @@ def load_model():
         model.eval()
         pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map="auto")
         logging.info("Model and adapter loaded successfully.")
     except Exception as e:
-        # Keep server up; logs will show why load failed
         logging.exception("Failed to load model at startup: %s", e)
         pipe = None
 @app.post("/generate")
 def generate(req: Request):
     if pipe is None:
-        raise HTTPException(status_code=503, detail="Model not loaded yet. Check Space logs.")
     try:
         out = pipe(req.prompt, max_new_tokens=req.max_new_tokens, temperature=req.temperature, do_sample=True)
         return {"response": out[0]["generated_text"]}

+# app.py (safe, use /tmp for cache)
 import os
 import logging
 from fastapi import FastAPI, HTTPException
 from pydantic import BaseModel
+import tempfile
+# --- Put caches in a writable temp dir to avoid permission errors ---
+TMP_CACHE = os.environ.get("HF_CACHE_DIR", os.path.join(tempfile.gettempdir(), "hf_cache"))
+try:
+    os.makedirs(TMP_CACHE, exist_ok=True)
+except Exception as e:
+    # if even this fails, fall back to tempfile.gettempdir()
+    TMP_CACHE = tempfile.gettempdir()
+# export environment vars before importing transformers
+os.environ["TRANSFORMERS_CACHE"] = TMP_CACHE
+os.environ["HF_HOME"] = TMP_CACHE
+os.environ["HF_DATASETS_CACHE"] = TMP_CACHE
+os.environ["HF_METRICS_CACHE"] = TMP_CACHE
 app = FastAPI(title="DirectEd LoRA API (safe startup)")
 @app.get("/health")
 def health():
     return {"ok": True}
     max_new_tokens: int = 150
     temperature: float = 0.7
 pipe = None
 @app.on_event("startup")
 def load_model():
     global pipe
     try:
+        # heavy imports done during startup
         from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
         from peft import PeftModel
+        BASE_MODEL = "unsloth/llama-3-8b-Instruct-bnb-4bit"
+        ADAPTER_REPO = "rayymaxx/DirectEd-AI-LoRA"  # <-- replace with your adapter repo
         tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
         base_model = AutoModelForCausalLM.from_pretrained(
             BASE_MODEL,
         model.eval()
         pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map="auto")
         logging.info("Model and adapter loaded successfully.")
     except Exception as e:
         logging.exception("Failed to load model at startup: %s", e)
         pipe = None
 @app.post("/generate")
 def generate(req: Request):
     if pipe is None:
+        raise HTTPException(status_code=503, detail="Model not loaded. Check logs.")
     try:
         out = pipe(req.prompt, max_new_tokens=req.max_new_tokens, temperature=req.temperature, do_sample=True)
         return {"response": out[0]["generated_text"]}