跳转至正文

Ctrl+K

快速入门

安装 SGLang

基本用法

发送请求
OpenAI 兼容 API
Ollama 兼容 API
离线引擎 API
SGLang 原生 API
采样参数
主流模型用法 (DeepSeek, GPT-OSS, GLM, Llama, MiniMax, Qwen 等)

高级功能

服务器参数
超参数调优
注意力机制后端
投机采样
结构化输出
推理模型的结构化输出
工具解析器
推理解析器
量化
量化 KV 缓存
专家并行 (Expert Parallelism)
LoRA 服务
PD 分离 (PD Disaggregation)
EPD 分离 (EPD Disaggregation)
长文本流水线并行
分层 KV 缓存 (HiCache)
使用离线引擎查询 VLM
SGLang 中多模态编码器的数据并行
SGLang 模型网关
确定性推理
可观测性
检查点引擎集成

支持的模型

大语言模型 (LLM)
多模态语言模型 (VLM)
扩散语言模型
嵌入模型 (Embedding)
奖励模型
重排序模型 (Rerank)
分类 API
如何支持新模型
SGLang 中的 Transformers 回退 (Fallback)
使用魔搭 (ModelScope) 模型
MindSpore 模型

硬件平台

AMD GPU
CPU 服务器
TPU
NVIDIA Jetson Orin
昇腾 (Ascend) NPU
XPU

开发者指南

贡献指南
使用 Docker 的开发指南
基准测试与性能分析
服务基准测试指南

参考资料

故障排除与常见问题
环境变量
生产指标
生产请求追踪
多节点部署
自定义聊天模板
前端语言
- SGLang 前端语言
- SGLang 中的 Choices 方法
训练后集成
了解更多并加入社区

代码仓库
显示源码
建议编辑
提交反馈

.rst

前端语言

前端语言#

前端语言

SGLang 前端语言
SGLang 中的 Choices 方法

上一页

自定义聊天模板

下一页

SGLang 前端语言

由 SGLang 团队制作

© 版权所有 2023-2025, SGLang。

最后更新于 2025 年 12 月 30 日。