alibaba

ROLL

AI#Reinforcement Learning#LLM#Distributed Training#PPO#Deep Learning

3,120

// 项目简介

ROLL 是一个高效且易于使用的库，旨在为大规模 GPU 集群上的大语言模型扩展强化学习工作流。它支持包括 RLVR、智能体交互和蒸馏在内的多种训练范式，同时集成了 Megatron-Core、vLLM 和 SGLang 等先进后端。该框架提供强大的可观测性和灵活的资源管理，以提升复杂推理和人类偏好对齐任务中的性能。

// 技术分析

ROLL 是一个专为大语言模型设计的高性能分布式强化学习库，利用基于 Ray 的多角色架构来管理复杂的大规模 GPU 资源。它通过集成 vLLM、SGLang 和 Megatron-Core 等先进的推理和训练后端，解决了人类偏好对齐和智能体交互的挑战。该框架优先考虑灵活性和可扩展性，允许开发者在同步和异步训练范式之间进行权衡，同时支持包括 NVIDIA GPU 和昇腾 NPU 在内的多种硬件环境。

// 核心亮点

支持多任务强化学习 (RLVR)，具备异步并行 rollout 和动态采样功能，以优化训练效率。

支持先进的智能体 RL，涵盖 TrajectoryWise (StarPO) 和 StepWise (GiGPO) 训练范式，适用于复杂的多轮交互。

提供包含 PPO、GRPO 和 Reinforce++ 在内的 20 多种强化学习算法，并具备灵活的配置选项。

具备强大的分布式架构，统一了 DeepSpeed、Megatron-LM 和 vLLM 等多种后端，可从单节点扩展至大规模集群。

包含先进的性能优化工具，如 GPU 时分复用、极致的卸载/重载能力以及对 LoRA 训练的支持。

通过集成 SwanLab、WandB 和 TensorBoard 等工具提供深度可观测性，以跟踪不同领域的性能指标。

// 典型使用场景

用于推理、编码和指令遵循的多任务 RL 训练

用于多轮交互、工具使用和游戏环境的智能体 RL

使用 Megatron-LM 和 DeepSpeed 后端进行大规模分布式训练

// 快速开始

要开始使用 ROLL，开发者应查阅官方文档网站以获取详细的安装说明和环境设置。用户可以浏览提供的 examples 目录，查找针对 RLVR 或 Agentic RL 等特定流水线的配置文件，并按照单节点或多节点部署的快速入门指南来启动他们的第一个训练任务。