Qwen3-Next 使用指南#
自 此 PR 起,SGLang 已支持 Qwen3-Next-80B-A3B-Instruct 和 Qwen3-Next-80B-A3B-Thinking。
使用 SGLang 启动 Qwen3-Next#
在 4xH100/H200 GPU 上部署 Qwen3-Next 模型
python3 -m sglang.launch_server --model Qwen/Qwen3-Next-80B-A3B-Instruct --tp 4
配置技巧#
--max-mamba-cache-size:调整--max-mamba-cache-size以增加 mamba 缓存空间和最大运行请求能力。作为权衡,这会减少 KV 缓存空间。您可以根据工作负载进行调整。--mamba-ssm-dtype:bfloat16或float32,使用bfloat16可节省 mamba 缓存占用,使用float32可获得更精确的结果。默认设置为float32。--mamba-full-memory-ratio:mamba 状态内存占总 KV 缓存内存的比率。默认值为 0.9。
Mamba Radix Cache#
SGLang 为 Qwen3-Next 模型提供了名为 MambaRadixCache 的前缀缓存支持,通过复用计算结果来提高推理速度。MambaRadixCache 有两个版本:
no_buffer:默认版本,也是其他混合线性模型的选择。启用后,SGLang 将出于兼容性原因自动关闭重叠调度 (overlap schedule)。extra_buffer:优化版本,兼容 page size > 1、重叠调度和投机采样等功能。它还支持在分支位置存储 mamba 状态。但是,它需要为每个请求提供两个额外的 mamba 空间作为乒乓缓冲 (ping-pong buffer)。要启用它,请在启动服务时添加参数--mamba-scheduler-strategy extra_buffer。
EAGLE 投机采样#
描述:SGLang 已支持 Qwen3-Next 模型使用 EAGLE 投机采样。
用法:添加参数 --speculative-algorithm、--speculative-num-steps、--speculative-eagle-topk 和 --speculative-num-draft-tokens 以启用此功能。例如:
python3 -m sglang.launch_server \
--model Qwen/Qwen3-Next-80B-A3B-Instruct \
--tp 4 \
--speculative-num-steps 3 \
--speculative-eagle-topk 1 \
--speculative-num-draft-tokens 4 \
--speculative-algo NEXTN
详情请参见 此 PR。