THUDM

slime

AI#LLM#Reinforcement Learning#Megatron-LM#SGLang#Post-training

5,543

// 项目简介

Slime 是一个专门设计的后训练框架，旨在扩展大语言模型的强化学习。它集成了 Megatron-LM 以实现高性能训练，并结合 SGLang 提供灵活且高效的数据生成工作流。该架构将训练和部署过程解耦，使研究人员能够构建并部署复杂的智能体 RL 系统。

// 技术分析

slime 是一个 SGLang 原生的后训练框架，旨在通过解耦训练和 rollout 流程，为大型语言模型扩展强化学习。其架构集成了用于高性能模型训练的 Megatron-LM 和用于高效数据生成的 SGLang，并通过一个中心化数据缓冲区进行连接。这种设计通过允许异步工作流和灵活的数据生成，解决了 RL 扩展的瓶颈，使研究人员能够以更高的吞吐量和模块化程度训练 GLM-5 和 DeepSeek V3 等复杂模型。

// 核心亮点

通过集成 Megatron-LM 和 SGLang 实现高性能训练，从而优化 GPU 利用率。

具备灵活的数据生成引擎，支持多种 RL 工作流的自定义接口。

支持广泛的最先进模型，包括 GLM 系列、Qwen、DeepSeek V3 和 Llama 3。

利用带有专用数据缓冲区的解耦架构，有效地连接训练和 rollout 模块。

支持异步训练、多轮 rollout 和可验证环境集成等高级 RL 技术。

提供全面的参数系统，允许对 Megatron、SGLang 和框架特定配置进行细粒度控制。

// 典型使用场景

大语言模型的高性能 RL 训练

灵活且异步的数据生成工作流

智能体 RL 系统和可验证环境的开发

// 快速开始

要开始使用 slime，开发人员应查阅文档文件夹中的官方 Quick Start Guide，其中涵盖了环境设置、数据准备和训练初始化。用户可以浏览提供的 examples 目录以了解具体用例，并参考使用文档以获取详细的命令行参数配置。