SGLang 文档#
SGLang 是一个用于大型语言模型和视觉语言模型的快速服务框架。通过协同设计后端运行时和前端语言,它使您与模型的交互更快、更可控。核心功能包括
快速后端运行时:通过使用 RadixAttention 进行前缀缓存、零开销 CPU 调度器、连续批处理、令牌注意力(分页注意力)、推测解码、张量并行、分块预填充、结构化输出、量化 (FP8/INT4/AWQ/GPTQ) 和多 LoRA 批处理来提供高效服务。
灵活前端语言:提供用于编程 LLM 应用程序的直观接口,包括链式生成调用、高级提示、控制流、多模态输入、并行性以及外部交互。
广泛模型支持:支持多种生成模型(Llama、Gemma、Mistral、Qwen、DeepSeek、LLaVA 等)、嵌入模型(e5-mistral、gte、mcdse)和奖励模型(Skywork),并且易于扩展以集成新模型。
活跃社区:SGLang 是开源的,并拥有一个活跃的社区以及工业界的应用。
安装
后端教程
SGLang 路由器