SGLang 文档#

SGLang 是一个专为大语言模型和多模态模型设计的高性能推理服务框架。它旨在为从单显卡到大规模分布式集群的各种部署场景提供低延迟、高吞吐的推理能力。其核心特性包括：

快速运行时 (Fast Runtime)：通过 RadixAttention 前缀缓存、零开销 CPU 调度器、Prefill-Decode 分离、投机采样 (Speculative Decoding)、连续批处理 (Continuous Batching)、分页注意力 (Paged Attention)、张量/流水线/专家/数据并行、结构化输出、分块预填充 (Chunked Prefill)、量化（FP4/FP8/INT4/AWQ/GPTQ）以及多 LoRA 批处理提供高效的推理服务。
广泛的模型支持：支持各种语言模型（Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等）、嵌入模型（e5-mistral、gte、mcdse）、奖励模型（Skywork）和扩散模型（WAN、Qwen-Image），并具有良好的可扩展性以添加新模型。兼容大多数 Hugging Face 模型和 OpenAI API。
广泛的硬件支持：可在 NVIDIA GPU (GB200/B300/H100/A100/Spark)、AMD GPU (MI355/MI300)、Intel Xeon CPU、Google TPU、昇腾 (Ascend) NPU 等硬件上运行。
活跃的社区：SGLang 是开源的，并得到了活跃社区的支持。它在工业界被广泛采用，在全球范围内支撑着超过 400,000 颗 GPU 的运行。

快速入门

基本用法

支持的模型

硬件平台

开发者指南

参考资料