跳转至正文
返回顶部
Ctrl
+
K
快速入门
安装 SGLang
基本用法
发送请求
OpenAI 兼容 API
Ollama 兼容 API
离线引擎 API
SGLang 原生 API
采样参数
主流模型用法 (DeepSeek, GPT-OSS, GLM, Llama, MiniMax, Qwen 等)
高级功能
服务器参数
超参数调优
注意力机制后端
投机采样
结构化输出
推理模型的结构化输出
工具解析器
推理解析器
量化
量化 KV 缓存
专家并行 (Expert Parallelism)
LoRA 服务
PD 分离 (PD Disaggregation)
EPD 分离 (EPD Disaggregation)
长文本流水线并行
分层 KV 缓存 (HiCache)
使用离线引擎查询 VLM
SGLang 中多模态编码器的数据并行
SGLang 模型网关
确定性推理
可观测性
检查点引擎集成
支持的模型
大语言模型 (LLM)
多模态语言模型 (VLM)
扩散语言模型
嵌入模型 (Embedding)
奖励模型
重排序模型 (Rerank)
分类 API
如何支持新模型
SGLang 中的 Transformers 回退 (Fallback)
使用魔搭 (ModelScope) 模型
MindSpore 模型
硬件平台
AMD GPU
CPU 服务器
TPU
NVIDIA Jetson Orin
昇腾 (Ascend) NPU
XPU
开发者指南
贡献指南
使用 Docker 的开发指南
基准测试与性能分析
服务基准测试指南
参考资料
故障排除与常见问题
环境变量
生产指标
生产请求追踪
多节点部署
自定义聊天模板
前端语言
SGLang 前端语言
SGLang 中的 Choices 方法
训练后集成
了解更多并加入社区
代码仓库
显示源码
建议编辑
提交反馈
.rst
.pdf
前端语言
前端语言
#
前端语言
SGLang 前端语言
SGLang 中的 Choices 方法