// 概要
VoxCPM2 は、diffusion autoregressive アーキテクチャを活用して高品質で表現力豊かな音声を生成する、2B パラメータの tokenizer-free な text-to-speech システムです。本モデルは 30 言語に対応しており、ボイスデザイン、制御可能な voice cloning、スタジオ品質の 48kHz 出力といった高度な機能を提供します。Apache-2.0 ライセンスの下で完全にオープンソース化されており、vLLM-Omni や Nano-vLLM を介した本番環境向けのデプロイメントオプションも用意されています。
// 技術解説
VoxCPM2 は、 2B パラメーターの拡散自己回帰アーキテクチャに基づいて構築された、トークナイザー不要の高度な Text-to-Speech システムです。 AudioVAE V2 の潜在空間で直接動作することで、従来の離散的なトークン化を回避し、高忠実度な 48kHz スタジオ品質の音声合成を実現します。このプロジェクトは、表現力豊かな多言語音声生成とクローニングのニーズに対応しており、自然言語による音声デザインと精密なスタイル制御をサポートする汎用性の高いパイプラインを提供します。その設計は高いパフォーマンスと商用利用のしやすさを優先しており、多様な音声合成アプリケーションに向けた堅牢なオープンソースソリューションを提供します。
// 主要ハイライト
// ユースケース
// クイックスタート
開始するには、 'pip install voxcpm' を使用してパッケージをインストールしてください。その後、提供されている Python API を使用して、 'openbmb/VoxCPM2' モデルをロードすることで、 Text-to-Speech 、音声デザイン、またはクローニングを実行できます。本番環境向けには、このプロジェクトは OpenAI 互換の API を提供する Nano-vLLM または vLLM-Omni を介した高スループットなサービングをサポートしています。