3,120
// 概要
ROLL は、大規模な GPU クラスター全体で LLM の強化学習ワークフローを拡張するために設計された、効率的で使いやすいライブラリです。RLVR、エージェントによる対話、蒸留など多様な学習パラダイムをサポートし、Megatron-Core、vLLM、SGLang といった高度なバックエンドを統合しています。複雑な推論や人間の好みへの調整タスクにおいて、パフォーマンスを向上させるための堅牢な可観測性と柔軟なリソース管理を提供します。
// 技術解説
ROLL は Large Language Models 向けに特別に設計された高性能な分散強化学習ライブラリであり、Ray を活用したマルチロールアーキテクチャによって複雑かつ大規模な GPU リソースを管理します。vLLM、SGLang、Megatron-Core といった高度な推論および学習バックエンドを統合することで、人間の好みへの調整やエージェントによる相互作用といった課題に対処します。このフレームワークは柔軟性とスケーラビリティを優先しており、開発者は同期型および非同期型の学習パラダイム間のトレードオフを調整できるほか、NVIDIA GPU や Ascend NPU を含む多様なハードウェア環境をサポートします。
// 主要ハイライト
01
非同期並列ロールアウトと動的サンプリングによるマルチタスク強化学習 (RLVR) をサポートし、学習効率を最適化します。
02
複雑なマルチターン相互作用のために、TrajectoryWise (StarPO) および StepWise (GiGPO) の両方の学習パラダイムをサポートし、高度なエージェント型 RL を実現します。
03
PPO、GRPO、Reinforce++ を含む 20 種類以上の強化学習アルゴリズムの包括的なスイートを提供し、柔軟な設定オプションを備えています。
04
DeepSpeed、Megatron-LM、vLLM などの多様なバックエンドを統合する堅牢な分散アーキテクチャを特徴とし、シングルノードから大規模クラスターまでスケール可能です。
05
GPU 時分割多重化、極限のオフロード/リロード機能、LoRA 学習のサポートなど、高度なパフォーマンス最適化ツールが含まれています。
06
SwanLab、WandB、TensorBoard などのツールとの統合により、さまざまなドメインにわたるパフォーマンスメトリクスを追跡するための詳細な可観測性を提供します。
// ユースケース
01
推論、コーディング、指示追従のためのマルチタスク RL 学習
02
マルチターン対話、ツール使用、ゲーム環境のためのエージェント型 RL
03
Megatron-LM および DeepSpeed バックエンドを使用した大規模分散学習
// クイックスタート
ROLL の利用を開始するには、公式ドキュメントサイトを参照して詳細なインストール手順と環境設定を確認してください。提供されている examples ディレクトリを探索して RLVR や Agentic RL などの特定のパイプライン用の設定ファイルを見つけ、シングルノードまたはマルチノードデプロイメント向けの Quick Start ガイドに従って最初の学習ジョブを開始できます。