在Tesla v100s中使用 docker_openai_api.sh 启动docker后报错：RuntimeError: FlashAttention only supports Ampere GPUs or newer. #911

qurikuduo · 2024-01-04T03:13:43Z

qurikuduo
Jan 4, 2024

修改docker/docker_openai_api.sh 中模型的本地路径。
chmod +x docker_openai_api.sh
./docker_openai_api.sh
等待一段时间，模型加载完成一切正常后。
尝试访问接口，报错：
RuntimeError: FlashAttention only supports Ampere GPUs or newer.

Answered by qurikuduo

Jan 4, 2024

解决办法：
登录容器，卸载flash-attn，具体步骤：

docker exec -it qwen /bin/bash
pip uninstall flash-attn
exit
重启容器：
docker stop qwen
docker start qwen
docker logs -f qwen

View full answer

qurikuduo · 2024-01-04T03:14:27Z

qurikuduo
Jan 4, 2024
Author

解决办法：
登录容器，卸载flash-attn，具体步骤：

docker exec -it qwen /bin/bash
pip uninstall flash-attn
exit
重启容器：
docker stop qwen
docker start qwen
docker logs -f qwen

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

在Tesla v100s中使用 docker_openai_api.sh 启动docker后报错：RuntimeError: FlashAttention only supports Ampere GPUs or newer. #911

{{title}}

Replies: 1 comment

{{title}}

Select a reply

在Tesla v100s中使用 docker_openai_api.sh 启动docker后 报错：RuntimeError: FlashAttention only supports Ampere GPUs or newer. #911

qurikuduo Jan 4, 2024

Replies: 1 comment

qurikuduo Jan 4, 2024 Author

在Tesla v100s中使用 docker_openai_api.sh 启动docker后报错：RuntimeError: FlashAttention only supports Ampere GPUs or newer. #911

qurikuduo
Jan 4, 2024

qurikuduo
Jan 4, 2024
Author