Qwen3-Next 使用指南#

此 PR 起,SGLang 已支持 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking。

使用 SGLang 启动 Qwen3-Next#

在 4xH100/H200 GPU 上部署 Qwen3-Next 模型

python3 -m sglang.launch_server --model Qwen/Qwen3-Next-80B-A3B-Instruct --tp 4

配置技巧#

  • --max-mamba-cache-size:调整 --max-mamba-cache-size 以增加 mamba 缓存空间和最大运行请求能力。作为权衡,这会减少 KV 缓存空间。您可以根据工作负载进行调整。

  • --mamba-ssm-dtypebfloat16float32,使用 bfloat16 可节省 mamba 缓存占用,使用 float32 可获得更精确的结果。默认设置为 float32

  • --mamba-full-memory-ratio:mamba 状态内存占总 KV 缓存内存的比率。默认值为 0.9。

Mamba Radix Cache#

SGLang 为 Qwen3-Next 模型提供了名为 MambaRadixCache 的前缀缓存支持,通过复用计算结果来提高推理速度。MambaRadixCache 有两个版本:

  • no_buffer:默认版本,也是其他混合线性模型的选择。启用后,SGLang 将出于兼容性原因自动关闭重叠调度 (overlap schedule)。

  • extra_buffer:优化版本,兼容 page size > 1、重叠调度和投机采样等功能。它还支持在分支位置存储 mamba 状态。但是,它需要为每个请求提供两个额外的 mamba 空间作为乒乓缓冲 (ping-pong buffer)。要启用它,请在启动服务时添加参数 --mamba-scheduler-strategy extra_buffer

EAGLE 投机采样#

描述:SGLang 已支持 Qwen3-Next 模型使用 EAGLE 投机采样

用法:添加参数 --speculative-algorithm--speculative-num-steps--speculative-eagle-topk--speculative-num-draft-tokens 以启用此功能。例如:

python3 -m sglang.launch_server \
  --model Qwen/Qwen3-Next-80B-A3B-Instruct \
  --tp 4 \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4 \
  --speculative-algo NEXTN

详情请参见 此 PR