大语言模型

目录

大语言模型#

这些模型接受文本输入并产生文本输出（例如，聊天补全）。它们主要是大语言模型 (LLMs)，其中一些采用专家混合 (MoE) 架构以实现扩展。

启动命令示例#

python3 -m sglang.launch_server \
  --model-path meta-llama/Llama-3.2-1B-Instruct \  # example HF/local path
  --host 0.0.0.0 \
  --port 30000 \

支持矩阵#

模型家族（变体）	HuggingFace 标识符示例	描述
DeepSeek (v1, v2, v3/R1)	`deepseek-ai/DeepSeek-R1`	一系列先进的推理优化模型（包括一个 671B MoE），通过强化学习训练；在复杂推理、数学和代码任务上表现出色。SGLang 提供 DeepSeek v3/R1 模型特定优化和推理解析器
Qwen (3, 3MoE, 2.5, 2 系列)	`Qwen/Qwen3-0.6B`, `Qwen/Qwen3-30B-A3B`	阿里巴巴最新的 Qwen3 系列，用于复杂推理、语言理解和生成任务；支持 MoE 变体以及前代 2.5、2 等。SGLang 提供 Qwen3 特定的推理解析器
Llama (2, 3.x, 4 系列)	`meta-llama/Llama-4-Scout-17B-16E-Instruct`	Meta 的开源 LLM 系列，参数范围从 7B 到 400B（Llama 2、3 和新的 Llama 4），性能得到广泛认可。SGLang 提供 Llama-4 模型特定优化
Mistral (Mixtral, NeMo, Small3)	`mistralai/Mistral-7B-Instruct-v0.2`	Mistral AI 推出的开源 7B LLM，性能强大；扩展为 MoE（“Mixtral”）和 NeMo Megatron 变体以实现更大规模。
Gemma (v1, v2, v3)	`google/gemma-3-1b-it`	谷歌高效多语言模型家族（1B–27B）；Gemma 3 提供 128K 上下文窗口，其更大（4B+）变体支持视觉输入。
Phi (Phi-3, Phi-4 系列)	`microsoft/Phi-4-multimodal-instruct`	微软的 Phi 系列小型模型（1.3B–5.6B）；Phi-4-mini 是一个高精度文本模型，Phi-4-multimodal (5.6B) 可以在一个紧凑的模型中处理文本、图像和语音。
MiniCPM (v3, 4B)	`openbmb/MiniCPM3-4B`	智源研究院 (OpenBMB) 面向边缘设备的紧凑型 LLM 系列；MiniCPM 3 (4B) 在文本任务中达到了 GPT-3.5 级别的结果。
OLMoE (开源 MoE)	`allenai/OLMoE-1B-7B-0924`	Allen AI 的开源专家混合模型（总计 7B，1B 活跃参数），通过稀疏专家激活提供最先进的结果。
StableLM (3B, 7B)	`stabilityai/stablelm-tuned-alpha-7b`	StabilityAI 早期的开源 LLM（3B 和 7B），用于通用文本生成；一个具有基本指令跟随能力的演示模型。
Command-R (Cohere)	`CohereForAI/c4ai-command-r-v01`	Cohere 的开源对话 LLM（Command 系列），针对长上下文、检索增强生成和工具使用进行了优化。
DBRX (Databricks)	`databricks/dbrx-instruct`	Databricks 的 132B 参数 MoE 模型（36B 活跃），在 12T tokens 上训练；作为一个完全开源的基础模型，其质量可与 GPT-3.5 媲美。
Grok (xAI)	`xai-org/grok-1`	xAI 的 grok-1 模型，以庞大尺寸（314B 参数）和高质量而闻名；已集成到 SGLang 中以实现高性能推理。
ChatGLM (GLM-130B 家族)	`THUDM/chatglm2-6b`	智谱 AI 的双语聊天模型（6B），擅长中英对话；为对话质量和对齐进行了微调。
书生·浦语 2 (7B, 20B)	`internlm/internlm2-7b`	商汤科技的新一代书生·浦语 (7B 和 20B)，提供强大的推理能力和超长上下文支持（高达 200K tokens）。
ExaONE 3 (韩语-英语)	`LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct`	LG AI Research 的韩语-英语模型（7.8B），在 8T tokens 上训练；提供高质量的双语理解和生成能力。
百川 2 (7B, 13B)	`baichuan-inc/Baichuan2-13B-Chat`	百川智能的第二代中英 LLM（7B/13B），性能提升并采用开放商业许可。
XVERSE (MoE)	`xverse/XVERSE-MoE-A36B`	元象科技的开源 MoE LLM (XVERSE-MoE-A36B: 总计 255B，36B 活跃)，支持约 40 种语言；通过专家路由实现 100B+ 密集模型级别的性能。
SmolLM (135M–1.7B)	`HuggingFaceTB/SmolLM-1.7B`	Hugging Face 的超小型 LLM 系列（135M–1.7B 参数），提供了惊人的强大结果，支持在移动/边缘设备上运行先进 AI。
GLM-4 (多语言 9B)	`ZhipuAI/glm-4-9b-chat`	智谱 AI 的 GLM-4 系列（高达 9B 参数）—— 支持 1M-token 上下文的开源多语言模型，甚至还有一个 5.6B 多模态变体 (Phi-4V)。