有没有在3090上部署这个awq版本的,速度只有6tokens/s,正常吗

#4
by Jsoooooo - opened

有没有官方的速度测试可以参考,感觉太慢了

也有可能是其他设备性能带来的瓶颈

也有可能是其他设备性能带来的瓶颈

试了使用vllm和ollama部署:

  1. vllm很快,能到37tokens/s,但是kv cache太大,最大只能支持20k的总的上下文tokens;
  2. ollama则是没有任何限制,可能是内部优化,速度也能到28tokens/s
Your need to confirm your account before you can post a new comment.

Sign up or log in to comment