跳到主要内容

Ctrl+K

安装

安装 SGLang

后端教程

DeepSeek 用法
Llama4 用法
发送请求
OpenAI API - 文本补全
OpenAI API - 视觉
OpenAI API - 嵌入
SGLang 原生 API
离线引擎 API
服务器参数
采样参数
超参数调优
注意力后端

支持的模型

大型语言模型
多模态语言模型
嵌入模型
奖励模型
如何支持新模型

高级特性

推测解码
结构化输出
工具与函数调用
推理解析器
推理模型的结构化输出
自定义聊天模板
量化
LoRA 服务

前端教程

SGLang 前端语言
SGLang 中的选择方法

SGLang 路由器

数据并行路由器

参考资料

通用指南
硬件支持
多节点部署
性能调优
- 基准测试与性能分析
- 在 SGLang 中衡量模型精度

代码仓库
显示源码
建议编辑
提交问题

.rst 文件

性能调优

性能调优#

基准测试与性能分析
在 SGLang 中衡量模型精度

上一页

在 Kubernetes 上部署

下一页

基准测试与性能分析

SGLang 团队

© 版权所有 2023-2025, SGLang。

最后更新于 2025 年 5 月 15 日。