Spaces:

yusufs
/

vllm-inference

Paused

yusufs commited on Jan 20

Commit

cb15911

1 Parent(s): 266e7dd

fix(runner.sh): --enforce-eager not support values

Files changed (3) hide show

run-llama.sh CHANGED Viewed

@@ -27,5 +27,4 @@ python -u /app/openai_compatible_api_server.py \
     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
     --dtype float16 \
-    --enforce-eager false \
     --gpu-memory-utilization 0.85

     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
     --dtype float16 \
     --gpu-memory-utilization 0.85

run-sailor.sh CHANGED Viewed

@@ -29,5 +29,4 @@ python -u /app/openai_compatible_api_server.py \
     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
     --dtype float16 \
-    --enforce-eager false \
     --gpu-memory-utilization 0.85

     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
     --dtype float16 \
     --gpu-memory-utilization 0.85

runner.sh CHANGED Viewed

@@ -51,5 +51,4 @@ python -u /app/openai_compatible_api_server.py \
     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
     --dtype float16 \
-    --enforce-eager false \
     --gpu-memory-utilization 0.9

     --max-num-batched-tokens 32768 \
     --max-model-len 32768 \
     --dtype float16 \
     --gpu-memory-utilization 0.9