gemma-3-270m-it

Running on Zero

anakin87 commited on 21 days ago

Commit

6d96ab4

verified ·

1 Parent(s): d86ff23

no flash attn

Files changed (1) hide show

app.py CHANGED Viewed

@@ -8,11 +8,11 @@ import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import subprocess
-subprocess.run(
-    "pip install flash-attn --no-build-isolation",
-    env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
-    shell=True,
-)
 DESCRIPTION = """\
@@ -36,8 +36,7 @@ model = AutoModelForCausalLM.from_pretrained(
     model_id,
     device_map="auto",
     torch_dtype=torch.bfloat16,
-    attn_implementation="flash_attention_2",
-    trust_remote_code=True,
 )
 model.config.sliding_window = 4096
 model.eval()

 from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
 import subprocess
+# subprocess.run(
+#     "pip install flash-attn --no-build-isolation",
+#     env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
+#     shell=True,
+# )
 DESCRIPTION = """\
     model_id,
     device_map="auto",
     torch_dtype=torch.bfloat16,
+    attn_implementation="eager",
 )
 model.config.sliding_window = 4096
 model.eval()