Spaces:

kouki321
/

exemple3

Sleeping

kouki321 commited on May 21

Commit

3f2015b

verified ·

1 Parent(s): be2b39e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -97,13 +97,14 @@ def load_model_and_tokenizer():
     #"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
 #"facebook/opt-125m"
     # Load tokenizer and model from disk (without trust_remote_code)
-    tokenizer = AutoTokenizer.from_pretrained(model_name)
     if torch.cuda.is_available():
         # Load model on GPU if CUDA is available
         model = AutoModelForCausalLM.from_pretrained(
             model_name,
             torch_dtype=torch.float16,
             device_map="auto"  # Automatically map model layers to GPU
         )
     else:
         # Load model on CPU if no GPU is available
@@ -111,6 +112,7 @@ def load_model_and_tokenizer():
             model_name,
             torch_dtype=torch.float32,  # Use float32 for compatibility with CPU
             low_cpu_mem_usage=True  # Reduce memory usage on CPU
         )
     return model, tokenizer

     #"deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
 #"facebook/opt-125m"
     # Load tokenizer and model from disk (without trust_remote_code)
+    tokenizer = AutoTokenizer.from_pretrained(model_name,cache_dir="/app/hf_cache" )
     if torch.cuda.is_available():
         # Load model on GPU if CUDA is available
         model = AutoModelForCausalLM.from_pretrained(
             model_name,
             torch_dtype=torch.float16,
             device_map="auto"  # Automatically map model layers to GPU
+             ,cache_dir="/app/hf_cache"
         )
     else:
         # Load model on CPU if no GPU is available
             model_name,
             torch_dtype=torch.float32,  # Use float32 for compatibility with CPU
             low_cpu_mem_usage=True  # Reduce memory usage on CPU
+            , cache_dir="/app/hf_cache"
         )
     return model, tokenizer