hukum-indo-llm

Sleeping

kodetr commited on Nov 5, 2024

Commit

d1445bf

verified ·

1 Parent(s): 0d3ca4b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -55,7 +55,7 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
     input_ids = tokenizer.apply_chat_template(conversation, tokenize=False, add_generation_prompt=True)
     inputs = tokenizer(input_ids, return_tensors="pt").to("cpu") #GPU 0, CPU 1
-    streamer = TextIteratorStreamer(tokenizer, timeout=10., skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         inputs,
@@ -66,8 +66,8 @@ def stream_chat(message: str, history: list, temperature: float, max_new_tokens:
         max_new_tokens=max_new_tokens,
         do_sample=True,
         temperature=temperature,
-        eos_token_id=128001,
-        pad_token_id=128001
     )
     thread = Thread(target=model.generate, kwargs=generate_kwargs)

     input_ids = tokenizer.apply_chat_template(conversation, tokenize=False, add_generation_prompt=True)
     inputs = tokenizer(input_ids, return_tensors="pt").to("cpu") #GPU 0, CPU 1
+    streamer = TextIteratorStreamer(tokenizer, timeout=60., skip_prompt=True, skip_special_tokens=True)
     generate_kwargs = dict(
         inputs,
         max_new_tokens=max_new_tokens,
         do_sample=True,
         temperature=temperature,
+        eos_token_id=128000,
+        pad_token_id=128000
     )
     thread = Thread(target=model.generate, kwargs=generate_kwargs)