Spaces:

Gumelarteja
/

ujangv3

Runtime error

Gumelar Teja Sukma commited on Jun 3

Commit

6294fdc

1 Parent(s): 0a521b4

bug fix

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from auto_gptq import AutoGPTQForCausalLM
 import os
 import psutil
 os.environ["TOKENIZERS_PARALLELISM"] = "false"  # Hindari beban CPU
 # Load model & tokenizer
 # model_name_or_path = "TheBloke/Llama-2-7B-Chat-GPTQ"
@@ -14,7 +15,8 @@ print("CPU cores:", psutil.cpu_count())
 print("RAM (GB):", psutil.virtual_memory().total / (1024**3))
 # model_name_or_path = "TheBloke/Llama-2-7B-Chat-GGUF"
-model_name_or_path = "TheBloke/Mistral-7B-v0.1-GPTQ"
 # tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
 tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
@@ -62,12 +64,14 @@ def chat(user_input, chat_history):
     with torch.inference_mode():
         output_ids = model.generate(
             input_ids=input_ids,
-            max_new_tokens=32,
-            use_cache=True,
             # do_sample=True,
             do_sample=False, # Matikan sampling untuk percepat
             temperature=0.7,
-            top_p=0.95
         )
     # output_ids = model.generate(
@@ -80,7 +84,7 @@ def chat(user_input, chat_history):
     # )
     print("🛠️ DEBUG - output_ids:", output_ids)
     response = tokenizer.decode(output_ids[0], skip_special_tokens=True).split("[/INST]")[-1].strip()
-    print("🛠️ DEBUG - Response:", response)  # Akan muncul di terminal/logs
     chat_history.append({"role": "assistant", "content": response})
     return chat_history, chat_history

 import os
 import psutil
 os.environ["TOKENIZERS_PARALLELISM"] = "false"  # Hindari beban CPU
+torch.set_num_threads(2)  # Sesuai limit Spaces gratis
 # Load model & tokenizer
 # model_name_or_path = "TheBloke/Llama-2-7B-Chat-GPTQ"
 print("RAM (GB):", psutil.virtual_memory().total / (1024**3))
 # model_name_or_path = "TheBloke/Llama-2-7B-Chat-GGUF"
+# model_name_or_path = "TheBloke/Mistral-7B-v0.1-GPTQ"
+model_name_or_path = "TheBloke/TinyLlama-1.1B-Chat-GPTQ"
 # tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
 tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
     with torch.inference_mode():
         output_ids = model.generate(
             input_ids=input_ids,
+            max_new_tokens=24,  # Lebih pendek
+            use_cache=False,
             # do_sample=True,
+            num_beams=1,        # Beam search = 1
             do_sample=False, # Matikan sampling untuk percepat
             temperature=0.7,
+            top_p=0.95,
+            pad_token_id=tokenizer.eos_token_id
         )
     # output_ids = model.generate(
     # )
     print("🛠️ DEBUG - output_ids:", output_ids)
     response = tokenizer.decode(output_ids[0], skip_special_tokens=True).split("[/INST]")[-1].strip()
+    print("🛠️ DEBUG - Response:", response)
     chat_history.append({"role": "assistant", "content": response})
     return chat_history, chat_history