SGLang 文档

SGLang 文档#

Star Fork

SGLang 是一个专为大语言模型和多模态模型设计的高性能推理服务框架。它旨在为从单显卡到大规模分布式集群的各种部署场景提供低延迟、高吞吐的推理能力。其核心特性包括:

  • 快速运行时 (Fast Runtime):通过 RadixAttention 前缀缓存、零开销 CPU 调度器、Prefill-Decode 分离、投机采样 (Speculative Decoding)、连续批处理 (Continuous Batching)、分页注意力 (Paged Attention)、张量/流水线/专家/数据并行、结构化输出、分块预填充 (Chunked Prefill)、量化(FP4/FP8/INT4/AWQ/GPTQ)以及多 LoRA 批处理提供高效的推理服务。

  • 广泛的模型支持:支持各种语言模型(Llama、Qwen、DeepSeek、Kimi、GLM、GPT、Gemma、Mistral 等)、嵌入模型(e5-mistral、gte、mcdse)、奖励模型(Skywork)和扩散模型(WAN、Qwen-Image),并具有良好的可扩展性以添加新模型。兼容大多数 Hugging Face 模型和 OpenAI API。

  • 广泛的硬件支持:可在 NVIDIA GPU (GB200/B300/H100/A100/Spark)、AMD GPU (MI355/MI300)、Intel Xeon CPU、Google TPU、昇腾 (Ascend) NPU 等硬件上运行。

  • 活跃的社区:SGLang 是开源的,并得到了活跃社区的支持。它在工业界被广泛采用,在全球范围内支撑着超过 400,000 颗 GPU 的运行。

快速入门