一.核心性能参数

gpu_memory_utilization（GPU 显存利用率）

● 默认值：Xinference 为 0.7
● 推荐值：0.85-0.9
● 功能：控制 GPU 显存分配比例，直接影响 KV 缓存大小
● 性能影响：提高至 0.9 可增加 20-30%吞吐量
● 注意事项：A100/H100 安全运行在 0.9，低端 GPU 建议保守设置

enable_chunked_prefill（启用分块预填充）

● 默认值：Xinference 默认关闭
● 推荐值：开启（True）
● 功能：将长输入分块处理，优化内存使用
● 性能影响：提升 15-25%性能，长文本效果更明显
● 原理：基于 SARATHI 技术，减少预填充阶段计算峰值

enable_prefix_caching（启用前缀缓存）

● 默认值：Xinference 默认关闭
● 推荐值：开启（True）
● 功能：缓存共享前缀计算结果，避免重复计算
● 性能影响：提升 10-20%性能，聊天场景效果最佳
● 适用场景：系统提示长度 1024-4096tokens 最有效

max_num_batched_tokens（最大批处理 token 数）

● 默认值：Xinference 未设置（vLLM 默认为 2048）
● 推荐值：4096-8192
● 功能：控制单次批处理的最大 token 数
● 性能影响：与 chunked_prefill 配合使用效果最佳
● 优化建议：高吞吐量场景设大值，低延迟场景设小值

max_num_seqs（最大序列数）

● 默认值：Xinference 为 256
● 推荐值：512-1024
● 功能：控制并发处理的序列数量上限
● 性能影响：提高可增加 5-15%吞吐量
● 限制因素：受 GPU 显存大小制约

其他重要参数

tensor_parallel_size（张量并行大小）

● 默认值：自动检测
● 推荐值：根据 GPU 数量手动优化
● 功能：控制模型跨 GPU 并行程度
● 性能影响：多 GPU 场景下影响显著，单 GPU 无效果
● 适用场景：大模型跨多 GPU 部署时必须合理设置

enable_cuda_graph（启用 CUDA 图优化）

● 默认值：Xinference 默认关闭
● 推荐值：开启（True）
● 功能：减少 GPU 内核启动开销
● 性能影响：提升 5-10%性能，H100 上效果更明显
● 适用场景：高并发请求时效果最佳

trust_remote_code（信任远程代码）

● 默认值：Xinference 默认关闭
● 推荐值：视模型需求决定
● 功能：允许加载和执行模型中的自定义代码
● 性能影响：无直接性能影响，但某些模型必须开启
● 安全注意：存在潜在安全风险，仅用于可信模型

额外性能参数

block_size（块大小）

● 默认值：16
● 推荐值：8-32（取决于模型和场景）
● 功能：控制 KV 缓存块大小
● 性能影响：较小块尺寸利于内存管理，较大块尺寸减少碎片
● 调优建议：大模型可适当增大，小模型保持默认值

swap_space（交换空间）

● 默认值：4 GiB
● 推荐值：根据需求和 CPU 内存情况调整
● 功能：允许将不活跃的 KV 缓存块迁移到 CPU 内存
● 性能影响：增大可支持更长上下文，但可能增加延迟
● 适用场景：长文档处理或需要超大上下文窗口时

max_model_len（最大模型长度）

● 默认值：模型原始上下文长度
● 推荐值：根据实际需求设置
● 功能：控制模型接受的最大上下文长度
● 性能影响：设置过大会占用更多显存，设置过小限制能力
● 优化建议：高并发场景可适当降低，长文本处理场景提高

enforce_eager（强制即时执行）

● 默认值：False
● 推荐值：调试时 True，生产环境 False
● 功能：跳过 PyTorch 编译优化，使用即时执行模式
● 性能影响：开启会降低性能，但有助于调试问题
● 使用场景：主要用于开发和调试阶段

scheduler_delay_factor（调度器延迟因子）

● 默认值：0.0
● 推荐值：0.0-0.5（取决于负载特性）
● 功能：控制批处理器等待时间
● 性能影响：提高可增加批处理效率，但会增加延迟
● 权衡：吞吐量和延迟之间的平衡参数

enable_prefix_projection（启用前缀投影）

● 默认值：False
● 推荐值：特定模型专用，一般保持默认
● 功能：某些模型（如 GPT-J）对前缀进行特殊处理
● 性能影响：对特定模型有提升，对其他模型无影响
● 适用模型：主要用于 GPT-J 等特定架构

硬件相关参数优化

dtype（数据类型）

● 默认值：auto
● 推荐值：根据模型和硬件调整（fp16/bf16/fp8）
● 功能：控制模型权重和计算的精度
● 性能影响：降低精度可提高性能，但可能影响质量
● 硬件依赖：不同 GPU 支持的最优数据类型不同

quantization（量化参数）

● 默认值：无
● 推荐值：根据需求选择合适的量化方案
● 功能：降低模型精度以减少内存占用和提高速度
● 性能影响：提供 2-4 倍性能提升，但可能有精度损失
● 权衡考虑：速度与精度的平衡，H100 支持 FP8 量化有较小精度损失

二.应用场景优化策略

高吞吐量场景

● 提高gpu_memory_utilization至 0.9
● 设置较大的max_num_batched_tokens(8192+)
● 启用enable_cuda_graph和enable_chunked_prefill
● 考虑适当降低精度（使用 fp16 或量化）

低延迟场景

● 设置较小的max_num_batched_tokens(2048 左右)
● 启用enable_cuda_graph
● 使用scheduler_policy=”priority”
● 避免过度降低精度导致的额外开销

长文本处理场景

● 必须启用enable_chunked_prefill
● 增大swap_space参数
● 设置合适的max_model_len
● 根据内存情况调整block_size

三.vLLM参数配置分析

以下 Docker 命令是部署 DeepSeek-R1-Distill-Qwen-32B 模型的实际案例：

docker run -d --runtime nvidia --gpus all \
    -v /data/xinference_models/modelscope/hub:/data \
    -p 8000:8000 \
    --name ds32b \
    --ipc host \
    --restart always \
    vllm/vllm-openai:latest \
    --model /data/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B \
    --served-model-name DeepSeek-R1-Distill-Qwen-32B \
    --tensor-parallel-size 1 \
    --host 0.0.0.0 \
    --port 8000 \
    --gpu-memory-utilization 0.8 \
    --dtype auto \
    --trust-remote-code \
    --enable-reasoning --reasoning-parser deepseek_r1 \
    --enable-chunked-prefill \
    --enable-prefix-caching

参数详解

与 Xinference 默认值对比

参数	命令中的值	Xinference 默认值	性能影响分析
tensor-parallel-size	1	自动检测	单 GPU 部署，设为 1；多 GPU 时应增大以利用多卡并行
gpu-memory-utilization	0.8	0.7	提高 10%，增加~15%吞吐量，已是较佳平衡点
dtype	auto	auto	自动选择最优精度，对于大多数场景是合理选择
trust-remote-code	启用	False	DeepSeek 模型必须启用，否则无法加载
enable-reasoning	启用	False	DeepSeek-R1 特有功能，启用其推理能力
reasoning-parser	deepseek_r1	未设置	与 enable-reasoning 配套，解析特定格式输出
enable-chunked-prefill	启用	False	增加 15-25%性能，大幅提升长文本处理效率
enable-prefix-caching	启用	False	增加 10-20%性能，改善聊天应用场景效率

未使用但可考虑的重要参数

缺失参数	推荐值	性能影响分析
max-num-batched-tokens	4096-8192	未设置使用默认值 2048，限制了 chunked_prefill 的效益
max-num-seqs	512-1024	未设置使用默认值 256，限制了并发处理能力

性能影响评估

已优化方面：
● 适当提高了 GPU 显存利用率（0.8 vs 0.7）
● 启用了分块预填充（chunked_prefill）
● 启用了前缀缓存（prefix_caching）
● 结合这些优化，预计能提升 25-40%的性能

进一步优化空间：
● 缺少max-num-batched-tokens设置，使用默认值 2048，建议增加至 4096-8192
● 未设置max-num-seqs，使用默认值 256，建议增加至 512-1024
● 完全优化后，可能比当前配置再提升 15-25%性能

相比 Xinference 默认配置的优势：
● 当前 Docker 配置已经优于 Xinference 默认配置约 25-40%
● 若进一步优化，可能比 Xinference 默认配置提升 45-65%性能

硬件资源利用情况

这个配置在典型的单 A100/H100 GPU 上:
● 显存使用率：约 80%（比 Xinference 默认高 10%）
● 适用场景：中等并发（50-100 请求/分钟）
● 上下文长度：能有效处理 4K-8K 长度的上下文
● 吞吐量：对于 DeepSeek-R1-Distill-Qwen-32B 预计 20-30 tokens/sec

The End