llm-jp-3-demo

Sleeping

Plat commited on Jun 2, 2024

Commit

a71047d

1 Parent(s): 68a9510

chore: install flash-attn at runtime

Files changed (2) hide show

app.py CHANGED Viewed

@@ -19,6 +19,18 @@ except:
             return lambda x: x
 MODEL_NAME = "hatakeyama-llm-team/Tanuki-8B-Instruct"
 quantization_config = BitsAndBytesConfig(load_in_8bit=True)

             return lambda x: x
+try:
+    import flash_attn
+except:
+    import subprocess
+    subprocess.run(
+        "pip install flash-attn --no-build-isolation",
+        env={"FLASH_ATTENTION_SKIP_CUDA_BUILD": "TRUE"},
+        shell=True,
+    )
 MODEL_NAME = "hatakeyama-llm-team/Tanuki-8B-Instruct"
 quantization_config = BitsAndBytesConfig(load_in_8bit=True)

requirements.txt CHANGED Viewed

@@ -4,4 +4,3 @@ accelerate==0.30.1
 transformers==4.41.2
 spaces==0.28.3
 bitsandbytes==0.43.1
-flash-attn==2.5.9.post1

 transformers==4.41.2
 spaces==0.28.3
 bitsandbytes==0.43.1