服务器|AutoDL + vLLM 部署 Qwen2.5-Omni 并提供跨服务器API访问的完整指南


# 连接实例后执行
# 1. 更新系统包
apt-get update && apt-get upgrade -y
 
# 2. 安装必要工具
apt-get install -y git-lfs nginx
 
# 3. 配置Python环境
conda create -n qwen python=3.10 -y
conda activate qwen
pip install vllm==0.4.1 transformers==4.40.0

二、模型下载与准备

2.1 下载Qwen2.5-Omni模型


# 推荐使用modelscope下载(国内速度更快)
pip install modelscope
python -c "from modelscope import snapshot_download; snapshot_download('qwen/Qwen2.5-Omni', cache_dir='/root/autodl-tmp/Qwen2.5-Omni')"
 
# 或者使用HuggingFace(需配置代理)
huggingface-cli download Qwen/Qwen2.5-Omni --local-dir /root/autodl-tmp/Qwen2.5-Omni

2.2 模型量化(可选)

为减少显存占用，可使用AWQ量化：


pip install autoawq
python -m awq.entrypoint \
  --model_path /root/autodl-tmp/Qwen2.5-Omni \
  --output_path /root/autodl-tmp/Qwen2.5-Omni-AWQ \
  --w_bit 4 --q_group_size 128

三、vLLM API服务部署

3.1 启动API服务


# 基础启动命令(单GPU)
python -m

一、环境准备

1.1 创建AutoDL实例

1.2 基础环境配置

二、模型下载与准备

2.1 下载Qwen2.5-Omni模型

2.2 模型量化(可选)

三、vLLM API服务部署

3.1 启动API服务

评论记录：