Llama4 使用#

Llama 4 是 Meta 最新一代开源 LLM 模型，具有行业领先的性能。

自 v0.4.5 起，SGLang 已支持 Llama 4 Scout (109B) 和 Llama 4 Maverick (400B)。

正在进行的优化将在路线图中跟踪。

使用 SGLang 启动 Llama 4#

在 8xH100/H200 GPU 上提供 Llama 4 模型服务

python3 -m sglang.launch_server --model-path meta-llama/Llama-4-Scout-17B-16E-Instruct --tp 8 --context-length 1000000

配置技巧#

OOM 缓解：调整 --context-length 以避免 GPU 内存不足问题。对于 Scout 模型，建议在 8*H100 上将此值设置为最高 1M，在 8*H200 上设置为最高 2.5M。对于 Maverick 模型，在 8*H200 上无需设置上下文长度。
聊天模板：为聊天补全任务添加 --chat-template llama-4。
启用多模态：添加 --enable-multimodal 以启用多模态功能。

基准测试结果#

使用 `lm_eval` 进行准确性测试#

SGLang 上 Llama4 Scout 和 Llama4 Maverick 的准确性可以与官方基准测试数字相匹配。

使用 8*H100 在 MMLU Pro 数据集上的基准测试结果

	Llama-4-Scout-17B-16E-Instruct	Llama-4-Maverick-17B-128E-Instruct
官方基准测试	74.3	80.5
SGLang	75.2	80.7

命令

# Llama-4-Scout-17B-16E-Instruct model
python -m sglang.launch_server --model-path meta-llama/Llama-4-Scout-17B-16E-Instruct --port 30000 --tp 8 --mem-fraction-static 0.8 --context-length 65536
lm_eval --model local-chat-completions --model_args model=meta-llama/Llama-4-Scout-17B-16E-Instruct,base_url=https://:30000/v1/chat/completions,num_concurrent=128,timeout=999999,max_gen_toks=2048 --tasks mmlu_pro --batch_size 128 --apply_chat_template --num_fewshot 0

# Llama-4-Maverick-17B-128E-Instruct
python -m sglang.launch_server --model-path meta-llama/Llama-4-Maverick-17B-128E-Instruct --port 30000 --tp 8 --mem-fraction-static 0.8 --context-length 65536
lm_eval --model local-chat-completions --model_args model=meta-llama/Llama-4-Maverick-17B-128E-Instruct,base_url=https://:30000/v1/chat/completions,num_concurrent=128,timeout=999999,max_gen_toks=2048 --tasks mmlu_pro --batch_size 128 --apply_chat_template --num_fewshot 0

详情可见此 PR。

Llama4 使用

目录

Llama4 使用#

使用 SGLang 启动 Llama 4#

配置技巧#

基准测试结果#

使用 lm_eval 进行准确性测试#

使用 `lm_eval` 进行准确性测试#