THUDM

slime

AI#LLM#Reinforcement Learning#Megatron-LM#SGLang#Post-training

5,543

// 概要

Slime は、大規模言語モデル向けの強化学習をスケールさせるために設計された専門的なポストトレーニングフレームワークです。Megatron-LM による高性能な学習と SGLang を統合し、柔軟かつ効率的なデータ生成ワークフローを提供します。学習プロセスとロールアウトプロセスを分離するアーキテクチャにより、研究者は複雑なエージェント型 RL システムを構築およびデプロイできます。

// 技術解説

slime は、トレーニングとロールアウトのプロセスを分離することで、LLM のための強化学習をスケールさせるように設計された SGLang ネイティブのポストトレーニングフレームワークです。そのアーキテクチャは、高性能なモデルトレーニングのための Megatron-LM と、効率的なデータ生成のための SGLang を統合し、中央集権的なデータバッファを介して接続します。この設計は、非同期ワークフローと柔軟なデータ生成を可能にすることで RL スケーリングのボトルネックを解消し、研究者が GLM-5 や DeepSeek V3 のような複雑なモデルを、より高いスループットとモジュール性でトレーニングできるようにします。

// 主要ハイライト

Megatron-LM と SGLang を統合し、GPU 利用率を最適化することで高性能なトレーニングを提供します。

多様な RL ワークフロー向けのカスタムインターフェースをサポートする、柔軟なデータ生成エンジンを搭載しています。

GLM シリーズ、Qwen、DeepSeek V3、Llama 3 を含む、幅広い最先端モデルをサポートしています。

専用のデータバッファを備えた分離型アーキテクチャを採用し、トレーニングモジュールとロールアウトモジュールを効果的に橋渡しします。

非同期トレーニング、マルチターンロールアウト、検証可能な環境統合といった高度な RL 手法を実現します。

Megatron、SGLang、およびフレームワーク固有の設定を詳細に制御できる、包括的な引数システムを提供します。

// ユースケース

大規模言語モデル向けの高性能な RL 学習

柔軟かつ非同期なデータ生成ワークフロー

エージェント型 RL システムおよび検証可能な環境の開発

// クイックスタート

slime の利用を開始するには、documentation フォルダにある公式の Quick Start Guide を参照してください。これには環境設定、データ準備、トレーニングの初期化が含まれています。ユーザーは提供されている examples ディレクトリを探索して具体的なユースケースを理解し、詳細なコマンドライン引数の設定については使用ドキュメントを参照してください。