训练后集成#

SGLang 已成为现代大语言模型（LLM）训练框架事实上的推理后端，为行业内诸多最先进的模型提供动力。从 GLM-4.6 到 Qwen3，领先的模型在强化学习和训练后工作流中都利用了 SGLang 的高性能推理能力。

是什么让 SGLang 在训练后阶段变得不可或缺？

开箱即用的权重更新（Refit）功能：支持共存（Colocate）或解耦（Disaggregate）的多种模式
易于延迟生成：支持部分采样（Partial Rollout）和专用的采样控制
细粒度的引擎休眠与唤醒：助力发挥采样与训练的最大效能
训练与服务对齐：确保训练和推理服务过程中的性能一致性
负载均衡路由：针对高吞吐采样提供缓存感知的负载均衡
确定性推理：确保采样与训练之间的 KL 散度为零

这些能力，结合对主流框架的原生集成支持，使 SGLang 成为现代 LLM/VLM 训练后的基础设施支柱。我们还在这一幻灯片中分享了最新工作：使用 SGLang 优化大规模强化学习。

采用案例#

Miles：面向大型 MoE 模型的高性能企业级强化学习（RL）框架，具备 SGLang 原生采样、投机训练及生产级稳定性
slime：结合了 Megatron 和 SGLang 的训练后框架，用于训练 GLM-4.6
AReaL：全异步强化学习系统，采用 SGLang 后端进行持续采样生成，实现 2.77 倍加速
ROLL：专为大语言模型设计的高效且易用的强化学习库，支持大规模 GPU 资源利用
verl：全栈 RLHF 框架，支持 PPO、GRPO 和 ReMax，具备模块化的 SGLang 集成
Unsloth：通过优化算子实现 2 倍速微调，并可无缝部署于 SGLang 推理
LLaMA Factory：统一训练框架，支持使用 LoRA、QLoRA 和全量微调方法训练 100 多种 LLM
Tunix：Google 的 JAX 原生 LLM 训练后库，支持 SFT、DPO、PPO 和 GRPO
RL2：Ray Less Reinforcement Learning，一个简洁的大语言模型训练后库

合作#

由于设计合作伙伴的隐私保护，我们无法在此列出所有采用 SGLang 进行训练后的公司。然而，如果您感兴趣并信任中美两国 10 多家顶尖公司及前沿实验室的选择，我们很乐意为您分享细节。如果您有兴趣将 SGLang 集成到您的训练框架中或需要技术支持，我们随时提供帮助！请联系 rl_team@lmsys.org 洽谈合作伙伴关系、集成指导或定制化功能开发。

训练后集成

目录

训练后集成#

采用案例#

合作#