训练后集成

训练后集成#

SGLang 已成为现代大语言模型(LLM)训练框架事实上的推理后端,为行业内诸多最先进的模型提供动力。从 GLM-4.6 到 Qwen3,领先的模型在强化学习和训练后工作流中都利用了 SGLang 的高性能推理能力。

是什么让 SGLang 在训练后阶段变得不可或缺?

  • 开箱即用的权重更新(Refit)功能:支持共存(Colocate)或解耦(Disaggregate)的多种模式

  • 易于延迟生成:支持部分采样(Partial Rollout)和专用的采样控制

  • 细粒度的引擎休眠与唤醒:助力发挥采样与训练的最大效能

  • 训练与服务对齐:确保训练和推理服务过程中的性能一致性

  • 负载均衡路由:针对高吞吐采样提供缓存感知的负载均衡

  • 确定性推理:确保采样与训练之间的 KL 散度为零

这些能力,结合对主流框架的原生集成支持,使 SGLang 成为现代 LLM/VLM 训练后的基础设施支柱。我们还在这一幻灯片中分享了最新工作:使用 SGLang 优化大规模强化学习

采用案例#

  • Miles:面向大型 MoE 模型的高性能企业级强化学习(RL)框架,具备 SGLang 原生采样、投机训练及生产级稳定性

  • slime:结合了 Megatron 和 SGLang 的训练后框架,用于训练 GLM-4.6

  • AReaL:全异步强化学习系统,采用 SGLang 后端进行持续采样生成,实现 2.77 倍加速

  • ROLL:专为大语言模型设计的高效且易用的强化学习库,支持大规模 GPU 资源利用

  • verl:全栈 RLHF 框架,支持 PPO、GRPO 和 ReMax,具备模块化的 SGLang 集成

  • Unsloth:通过优化算子实现 2 倍速微调,并可无缝部署于 SGLang 推理

  • LLaMA Factory:统一训练框架,支持使用 LoRA、QLoRA 和全量微调方法训练 100 多种 LLM

  • Tunix:Google 的 JAX 原生 LLM 训练后库,支持 SFT、DPO、PPO 和 GRPO

  • RL2:Ray Less Reinforcement Learning,一个简洁的大语言模型训练后库

合作#

由于设计合作伙伴的隐私保护,我们无法在此列出所有采用 SGLang 进行训练后的公司。然而,如果您感兴趣并信任中美两国 10 多家顶尖公司及前沿实验室的选择,我们很乐意为您分享细节。如果您有兴趣将 SGLang 集成到您的训练框架中或需要技术支持,我们随时提供帮助!请联系 rl_team@lmsys.org 洽谈合作伙伴关系、集成指导或定制化功能开发。