Spaces:

kouki321
/

exemple3

Sleeping

kouki321 commited on May 21

Commit

42cbd99

verified ·

1 Parent(s): 237da60

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -82,28 +82,28 @@ def clean_up(cache, origin_len):
         new_cache.key_cache[i] = new_cache.key_cache[i][:, :, :origin_len, :]
         new_cache.value_cache[i] = new_cache.value_cache[i][:, :, :origin_len, :]
     return new_cache
-os.environ["TRANSFORMERS_OFFLINE"] = "1"
-os.environ["HF_HUB_OFFLINE"] = "1"
 # Path to your local model
 # Initialize model and tokenizer
 def load_model_and_tokenizer():
-    model_path = "./deepseek"
     # Load tokenizer and model from disk (without trust_remote_code)
-    tokenizer = AutoTokenizer.from_pretrained(model_path)
     if torch.cuda.is_available():
         # Load model on GPU if CUDA is available
         model = AutoModelForCausalLM.from_pretrained(
-            model_path,
             torch_dtype=torch.float16,
             device_map="auto"  # Automatically map model layers to GPU
         )
     else:
         # Load model on CPU if no GPU is available
         model = AutoModelForCausalLM.from_pretrained(
-            model_path,
             torch_dtype=torch.float32,  # Use float32 for compatibility with CPU
             low_cpu_mem_usage=True  # Reduce memory usage on CPU
         )

         new_cache.key_cache[i] = new_cache.key_cache[i][:, :, :origin_len, :]
         new_cache.value_cache[i] = new_cache.value_cache[i][:, :, :origin_len, :]
     return new_cache
+#os.environ["TRANSFORMERS_OFFLINE"] = "1"
+#os.environ["HF_HUB_OFFLINE"] = "1"
 # Path to your local model
 # Initialize model and tokenizer
 def load_model_and_tokenizer():
+    model_name = "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
     # Load tokenizer and model from disk (without trust_remote_code)
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
     if torch.cuda.is_available():
         # Load model on GPU if CUDA is available
         model = AutoModelForCausalLM.from_pretrained(
+            model_name,
             torch_dtype=torch.float16,
             device_map="auto"  # Automatically map model layers to GPU
         )
     else:
         # Load model on CPU if no GPU is available
         model = AutoModelForCausalLM.from_pretrained(
+            model_name,
             torch_dtype=torch.float32,  # Use float32 for compatibility with CPU
             low_cpu_mem_usage=True  # Reduce memory usage on CPU
         )