注意力后端#
不同注意力后端的支持矩阵#
后端 |
页大小 > 1 |
推测解码 |
MLA |
滑动窗口 |
多模态 |
---|---|---|---|---|---|
FlashInfer |
✅ |
✅ |
✅ |
✅ |
✅ |
FA3 |
✅ |
✅ |
✅ |
✅ |
✅ |
Triton |
❌ |
✅ |
✅ |
❌ |
❌ |
Torch 原生 |
❌ |
❌ |
❌ |
❌ |
❌ |
FlashMLA |
✅ |
✅ |
✅ |
❌ |
❌ |
用户指南#
不同注意力后端的启动命令。#
FlashInfer(非 Hopper 机器的默认选项,例如 A100, A40)
python3 -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --attention-backend flashinfer
python3 -m sglang.launch_server --tp 8 --model deepseek-ai/DeepSeek-V3 --attention-backend flashinfer --trust-remote-code
FlashAttention 3(Hopper 机器的默认选项,例如 H100, H200, H20)
python3 -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --attention-backend fa3
python3 -m sglang.launch_server --tp 8 --model deepseek-ai/DeepSeek-V3 --trust-remote-code --attention-backend fa3
Triton
python3 -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --attention-backend triton
python3 -m sglang.launch_server --tp 8 --model deepseek-ai/DeepSeek-V3 --attention-backend triton --trust-remote-code
Torch 原生
python3 -m sglang.launch_server --model meta-llama/Meta-Llama-3.1-8B-Instruct --attention-backend torch_native
FlashMLA
python3 -m sglang.launch_server --tp 8 --model deepseek-ai/DeepSeek-R1 --attention-backend flashmla --trust-remote-code
python3 -m sglang.launch_server --tp 8 --model deepseek-ai/DeepSeek-R1 --attention-backend flashmla --kv-cache-dtype fp8_e4m3 --trust-remote-code