OpenBMB

VoxCPM

AI#Text-to-Speech#Deep Learning #Generative AI#Audio Synthesis

// 概要

VoxCPM2 は、diffusion autoregressive アーキテクチャを活用して高品質で表現力豊かな音声を生成する、2B パラメータの tokenizer-free な text-to-speech システムです。本モデルは 30 言語に対応しており、ボイスデザイン、制御可能な voice cloning、スタジオ品質の 48kHz 出力といった高度な機能を提供します。Apache-2.0 ライセンスの下で完全にオープンソース化されており、vLLM-Omni や Nano-vLLM を介した本番環境向けのデプロイメントオプションも用意されています。

// 技術解説

VoxCPM2 は、 2B パラメーターの拡散自己回帰アーキテクチャに基づいて構築された、トークナイザー不要の高度な Text-to-Speech システムです。 AudioVAE V2 の潜在空間で直接動作することで、従来の離散的なトークン化を回避し、高忠実度な 48kHz スタジオ品質の音声合成を実現します。このプロジェクトは、表現力豊かな多言語音声生成とクローニングのニーズに対応しており、自然言語による音声デザインと精密なスタイル制御をサポートする汎用性の高いパイプラインを提供します。その設計は高いパフォーマンスと商用利用のしやすさを優先しており、多様な音声合成アプリケーションに向けた堅牢なオープンソースソリューションを提供します。

// 主要ハイライト

入力テキストに言語タグを必要とせず、 30 言語をネイティブにサポートします。

参照音声ではなく自然言語の記述からユニークな音声を生成することで、創造的な音声デザインを可能にします。

元の話者の音色を維持しながら、感情、ペース、スタイルを調整できる制御可能な音声クローニングを提供します。

参照音声とその対応するトランスクリプトの両方を利用することで、声のニュアンスを再現する究極のクローニング機能を備えています。

組み込みの超解像を備えた非対称な AudioVAE V2 設計により、 48kHz スタジオ品質の音声を直接出力します。

Nano-vLLM および vLLM-Omni の統合により、本番環境向けに最適化された低遅延のリアルタイムストリーミングパフォーマンスを提供します。

// ユースケース

参照音声なしでの自然言語によるボイスデザイン

感情やペースのスタイルガイダンスを用いた制御可能な voice cloning

OpenAI 互換 API を介した高スループットな本番環境向け音声合成

// クイックスタート

開始するには、 'pip install voxcpm' を使用してパッケージをインストールしてください。その後、提供されている Python API を使用して、 'openbmb/VoxCPM2' モデルをロードすることで、 Text-to-Speech 、音声デザイン、またはクローニングを実行できます。本番環境向けには、このプロジェクトは OpenAI 互換の API を提供する Nano-vLLM または vLLM-Omni を介した高スループットなサービングをサポートしています。