大语言模型

大语言模型#

这些模型接受文本输入并产生文本输出(例如,聊天补全)。它们主要是大语言模型 (LLMs),其中一些采用专家混合 (MoE) 架构以实现扩展。

启动命令示例#

python3 -m sglang.launch_server \
  --model-path meta-llama/Llama-3.2-1B-Instruct \  # example HF/local path
  --host 0.0.0.0 \
  --port 30000 \

支持矩阵#

模型家族(变体)

HuggingFace 标识符示例

描述

DeepSeek (v1, v2, v3/R1)

deepseek-ai/DeepSeek-R1

一系列先进的推理优化模型(包括一个 671B MoE),通过强化学习训练;在复杂推理、数学和代码任务上表现出色。SGLang 提供 DeepSeek v3/R1 模型特定优化推理解析器

Qwen (3, 3MoE, 2.5, 2 系列)

Qwen/Qwen3-0.6B, Qwen/Qwen3-30B-A3B

阿里巴巴最新的 Qwen3 系列,用于复杂推理、语言理解和生成任务;支持 MoE 变体以及前代 2.5、2 等。SGLang 提供 Qwen3 特定的推理解析器

Llama (2, 3.x, 4 系列)

meta-llama/Llama-4-Scout-17B-16E-Instruct

Meta 的开源 LLM 系列,参数范围从 7B 到 400B(Llama 2、3 和新的 Llama 4),性能得到广泛认可。SGLang 提供 Llama-4 模型特定优化

Mistral (Mixtral, NeMo, Small3)

mistralai/Mistral-7B-Instruct-v0.2

Mistral AI 推出的开源 7B LLM,性能强大;扩展为 MoE(“Mixtral”)和 NeMo Megatron 变体以实现更大规模。

Gemma (v1, v2, v3)

google/gemma-3-1b-it

谷歌高效多语言模型家族(1B–27B);Gemma 3 提供 128K 上下文窗口,其更大(4B+)变体支持视觉输入。

Phi (Phi-3, Phi-4 系列)

microsoft/Phi-4-multimodal-instruct

微软的 Phi 系列小型模型(1.3B–5.6B);Phi-4-mini 是一个高精度文本模型,Phi-4-multimodal (5.6B) 可以在一个紧凑的模型中处理文本、图像和语音。

MiniCPM (v3, 4B)

openbmb/MiniCPM3-4B

智源研究院 (OpenBMB) 面向边缘设备的紧凑型 LLM 系列;MiniCPM 3 (4B) 在文本任务中达到了 GPT-3.5 级别的结果。

OLMoE (开源 MoE)

allenai/OLMoE-1B-7B-0924

Allen AI 的开源专家混合模型(总计 7B,1B 活跃参数),通过稀疏专家激活提供最先进的结果。

StableLM (3B, 7B)

stabilityai/stablelm-tuned-alpha-7b

StabilityAI 早期的开源 LLM(3B 和 7B),用于通用文本生成;一个具有基本指令跟随能力的演示模型。

Command-R (Cohere)

CohereForAI/c4ai-command-r-v01

Cohere 的开源对话 LLM(Command 系列),针对长上下文、检索增强生成和工具使用进行了优化。

DBRX (Databricks)

databricks/dbrx-instruct

Databricks 的 132B 参数 MoE 模型(36B 活跃),在 12T tokens 上训练;作为一个完全开源的基础模型,其质量可与 GPT-3.5 媲美。

Grok (xAI)

xai-org/grok-1

xAI 的 grok-1 模型,以庞大尺寸(314B 参数)和高质量而闻名;已集成到 SGLang 中以实现高性能推理。

ChatGLM (GLM-130B 家族)

THUDM/chatglm2-6b

智谱 AI 的双语聊天模型(6B),擅长中英对话;为对话质量和对齐进行了微调。

书生·浦语 2 (7B, 20B)

internlm/internlm2-7b

商汤科技的新一代书生·浦语 (7B 和 20B),提供强大的推理能力和超长上下文支持(高达 200K tokens)。

ExaONE 3 (韩语-英语)

LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct

LG AI Research 的韩语-英语模型(7.8B),在 8T tokens 上训练;提供高质量的双语理解和生成能力。

百川 2 (7B, 13B)

baichuan-inc/Baichuan2-13B-Chat

百川智能的第二代中英 LLM(7B/13B),性能提升并采用开放商业许可。

XVERSE (MoE)

xverse/XVERSE-MoE-A36B

元象科技的开源 MoE LLM (XVERSE-MoE-A36B: 总计 255B,36B 活跃),支持约 40 种语言;通过专家路由实现 100B+ 密集模型级别的性能。

SmolLM (135M–1.7B)

HuggingFaceTB/SmolLM-1.7B

Hugging Face 的超小型 LLM 系列(135M–1.7B 参数),提供了惊人的强大结果,支持在移动/边缘设备上运行先进 AI。

GLM-4 (多语言 9B)

ZhipuAI/glm-4-9b-chat

智谱 AI 的 GLM-4 系列(高达 9B 参数)—— 支持 1M-token 上下文的开源多语言模型,甚至还有一个 5.6B 多模态变体 (Phi-4V)。