首页LLMTHUDM/slime
THUDM

slime

AI#LLM#Reinforcement Learning#Megatron-LM#SGLang#Post-training
前往 GitHub →
5,543

// 项目简介

Slime 是一个专门设计的后训练框架,旨在扩展大语言模型的强化学习。它集成了 Megatron-LM 以实现高性能训练,并结合 SGLang 提供灵活且高效的数据生成工作流。该架构将训练和部署过程解耦,使研究人员能够构建并部署复杂的智能体 RL 系统。

// 技术分析

slime 是一个 SGLang 原生的后训练框架,旨在通过解耦训练和 rollout 流程,为大型语言模型扩展强化学习。其架构集成了用于高性能模型训练的 Megatron-LM 和用于高效数据生成的 SGLang,并通过一个中心化数据缓冲区进行连接。这种设计通过允许异步工作流和灵活的数据生成,解决了 RL 扩展的瓶颈,使研究人员能够以更高的吞吐量和模块化程度训练 GLM-5 和 DeepSeek V3 等复杂模型。

// 核心亮点

01
通过集成 Megatron-LM 和 SGLang 实现高性能训练,从而优化 GPU 利用率。
02
具备灵活的数据生成引擎,支持多种 RL 工作流的自定义接口。
03
支持广泛的最先进模型,包括 GLM 系列、Qwen、DeepSeek V3 和 Llama 3。
04
利用带有专用数据缓冲区的解耦架构,有效地连接训练和 rollout 模块。
05
支持异步训练、多轮 rollout 和可验证环境集成等高级 RL 技术。
06
提供全面的参数系统,允许对 Megatron、SGLang 和框架特定配置进行细粒度控制。

// 典型使用场景

01
大语言模型的高性能 RL 训练
02
灵活且异步的数据生成工作流
03
智能体 RL 系统和可验证环境的开发

// 快速开始

要开始使用 slime,开发人员应查阅文档文件夹中的官方 Quick Start Guide,其中涵盖了环境设置、数据准备和训练初始化。用户可以浏览提供的 examples 目录以了解具体用例,并参考使用文档以获取详细的命令行参数配置。