大语言模型#
这些模型接受文本输入并产生文本输出(例如,聊天补全)。它们主要是大语言模型 (LLMs),其中一些采用专家混合 (MoE) 架构以实现扩展。
启动命令示例#
python3 -m sglang.launch_server \
--model-path meta-llama/Llama-3.2-1B-Instruct \ # example HF/local path
--host 0.0.0.0 \
--port 30000 \
支持矩阵#
模型家族(变体) |
HuggingFace 标识符示例 |
描述 |
---|---|---|
DeepSeek (v1, v2, v3/R1) |
|
一系列先进的推理优化模型(包括一个 671B MoE),通过强化学习训练;在复杂推理、数学和代码任务上表现出色。SGLang 提供 DeepSeek v3/R1 模型特定优化和推理解析器 |
Qwen (3, 3MoE, 2.5, 2 系列) |
|
阿里巴巴最新的 Qwen3 系列,用于复杂推理、语言理解和生成任务;支持 MoE 变体以及前代 2.5、2 等。SGLang 提供 Qwen3 特定的推理解析器 |
Llama (2, 3.x, 4 系列) |
|
Meta 的开源 LLM 系列,参数范围从 7B 到 400B(Llama 2、3 和新的 Llama 4),性能得到广泛认可。SGLang 提供 Llama-4 模型特定优化 |
Mistral (Mixtral, NeMo, Small3) |
|
Mistral AI 推出的开源 7B LLM,性能强大;扩展为 MoE(“Mixtral”)和 NeMo Megatron 变体以实现更大规模。 |
Gemma (v1, v2, v3) |
|
谷歌高效多语言模型家族(1B–27B);Gemma 3 提供 128K 上下文窗口,其更大(4B+)变体支持视觉输入。 |
Phi (Phi-3, Phi-4 系列) |
|
微软的 Phi 系列小型模型(1.3B–5.6B);Phi-4-mini 是一个高精度文本模型,Phi-4-multimodal (5.6B) 可以在一个紧凑的模型中处理文本、图像和语音。 |
MiniCPM (v3, 4B) |
|
智源研究院 (OpenBMB) 面向边缘设备的紧凑型 LLM 系列;MiniCPM 3 (4B) 在文本任务中达到了 GPT-3.5 级别的结果。 |
OLMoE (开源 MoE) |
|
Allen AI 的开源专家混合模型(总计 7B,1B 活跃参数),通过稀疏专家激活提供最先进的结果。 |
StableLM (3B, 7B) |
|
StabilityAI 早期的开源 LLM(3B 和 7B),用于通用文本生成;一个具有基本指令跟随能力的演示模型。 |
Command-R (Cohere) |
|
Cohere 的开源对话 LLM(Command 系列),针对长上下文、检索增强生成和工具使用进行了优化。 |
DBRX (Databricks) |
|
Databricks 的 132B 参数 MoE 模型(36B 活跃),在 12T tokens 上训练;作为一个完全开源的基础模型,其质量可与 GPT-3.5 媲美。 |
Grok (xAI) |
|
xAI 的 grok-1 模型,以庞大尺寸(314B 参数)和高质量而闻名;已集成到 SGLang 中以实现高性能推理。 |
ChatGLM (GLM-130B 家族) |
|
智谱 AI 的双语聊天模型(6B),擅长中英对话;为对话质量和对齐进行了微调。 |
书生·浦语 2 (7B, 20B) |
|
商汤科技的新一代书生·浦语 (7B 和 20B),提供强大的推理能力和超长上下文支持(高达 200K tokens)。 |
ExaONE 3 (韩语-英语) |
|
LG AI Research 的韩语-英语模型(7.8B),在 8T tokens 上训练;提供高质量的双语理解和生成能力。 |
百川 2 (7B, 13B) |
|
百川智能的第二代中英 LLM(7B/13B),性能提升并采用开放商业许可。 |
XVERSE (MoE) |
|
元象科技的开源 MoE LLM (XVERSE-MoE-A36B: 总计 255B,36B 活跃),支持约 40 种语言;通过专家路由实现 100B+ 密集模型级别的性能。 |
SmolLM (135M–1.7B) |
|
Hugging Face 的超小型 LLM 系列(135M–1.7B 参数),提供了惊人的强大结果,支持在移动/边缘设备上运行先进 AI。 |
GLM-4 (多语言 9B) |
|
智谱 AI 的 GLM-4 系列(高达 9B 参数)—— 支持 1M-token 上下文的开源多语言模型,甚至还有一个 5.6B 多模态变体 (Phi-4V)。 |