alibaba

ROLL

AI#Reinforcement Learning#LLM#Distributed Training#PPO#Deep Learning

3,120

// 概要

ROLL は、大規模な GPU クラスター全体で LLM の強化学習ワークフローを拡張するために設計された、効率的で使いやすいライブラリです。RLVR、エージェントによる対話、蒸留など多様な学習パラダイムをサポートし、Megatron-Core、vLLM、SGLang といった高度なバックエンドを統合しています。複雑な推論や人間の好みへの調整タスクにおいて、パフォーマンスを向上させるための堅牢な可観測性と柔軟なリソース管理を提供します。

// 技術解説

ROLL は Large Language Models 向けに特別に設計された高性能な分散強化学習ライブラリであり、Ray を活用したマルチロールアーキテクチャによって複雑かつ大規模な GPU リソースを管理します。vLLM、SGLang、Megatron-Core といった高度な推論および学習バックエンドを統合することで、人間の好みへの調整やエージェントによる相互作用といった課題に対処します。このフレームワークは柔軟性とスケーラビリティを優先しており、開発者は同期型および非同期型の学習パラダイム間のトレードオフを調整できるほか、NVIDIA GPU や Ascend NPU を含む多様なハードウェア環境をサポートします。

// 主要ハイライト

非同期並列ロールアウトと動的サンプリングによるマルチタスク強化学習 (RLVR) をサポートし、学習効率を最適化します。

複雑なマルチターン相互作用のために、TrajectoryWise (StarPO) および StepWise (GiGPO) の両方の学習パラダイムをサポートし、高度なエージェント型 RL を実現します。

PPO、GRPO、Reinforce++ を含む 20 種類以上の強化学習アルゴリズムの包括的なスイートを提供し、柔軟な設定オプションを備えています。

DeepSpeed、Megatron-LM、vLLM などの多様なバックエンドを統合する堅牢な分散アーキテクチャを特徴とし、シングルノードから大規模クラスターまでスケール可能です。

GPU 時分割多重化、極限のオフロード/リロード機能、LoRA 学習のサポートなど、高度なパフォーマンス最適化ツールが含まれています。

SwanLab、WandB、TensorBoard などのツールとの統合により、さまざまなドメインにわたるパフォーマンスメトリクスを追跡するための詳細な可観測性を提供します。

// ユースケース

推論、コーディング、指示追従のためのマルチタスク RL 学習

マルチターン対話、ツール使用、ゲーム環境のためのエージェント型 RL

Megatron-LM および DeepSpeed バックエンドを使用した大規模分散学習

// クイックスタート

ROLL の利用を開始するには、公式ドキュメントサイトを参照して詳細なインストール手順と環境設定を確認してください。提供されている examples ディレクトリを探索して RLVR や Agentic RL などの特定のパイプライン用の設定ファイルを見つけ、シングルノードまたはマルチノードデプロイメント向けの Quick Start ガイドに従って最初の学習ジョブを開始できます。