NVIDIA

personaplex

AI#Speech-to-Speech#LLM#Conversational AI#PyTorch#Audio Processing

// 概要

PersonaPlex は Moshi アーキテクチャを基盤としたリアルタイムかつフルデュプレックスの音声対話モデルであり、テキストプロンプトと音声による条件付けを通じて正確なペルソナ制御を実現します。このモデルは合成データと実世界の会話データを組み合わせて学習されており、自然で低遅延なインタラクションを提供します。ユーザーは提供されたサーバーインターフェースを介してモデルをデプロイするか、特定の音声埋め込みや役割ベースのプロンプトを使用してオフライン評価を実行できます。

// 技術解説

PersonaPlex は Moshi アーキテクチャに基づいて構築されたリアルタイムの全二重音声対話モデルであり、テキストベースのロールプロンプトと音声ベースのボイスコンディショニングを通じて、正確なペルソナ制御を提供するよう設計されています。合成データと実世界の会話データを組み合わせて学習することで、低レイテンシ環境において一貫したキャラクターアイデンティティと自然な対話フローを維持するという課題に対処しています。このプロジェクトは、高忠実度のパフォーマンスとアクセシビリティのバランスをとっており、インタラクティブな利用のためのライブサーバー実装と、バッチ処理のためのオフライン評価ツールの両方を提供します。

// 主要ハイライト

自然で応答性の高い会話体験を実現する、全二重のリアルタイム音声対話が可能です。

テキストベースのロールプロンプトと特定の音声ベースのボイスコンディショニングを組み合わせることで、きめ細かなペルソナ制御をサポートします。

男女のスピーカー向けに、自然で多様なスタイルに分類された、パッケージ化済みのボイスエンベディングのライブラリを提供します。

基盤となる Helium LLM を活用して堅牢な汎化性能を確保し、モデルが分布外のプロンプトにも効果的に対応できるようにします。

ユーザーが入力音声ファイルを処理し、テスト用の対応する出力ストリームを生成できる専用のオフライン評価スクリプトが含まれています。

GPU メモリが限られたハードウェア向けに CPU オフロードを含む柔軟なデプロイオプションを提供し、より幅広いアクセシビリティを確保します。

// ユースケース

一貫したペルソナを維持したリアルタイムかつフルデュプレックスの会話型 AI。

役割固有のテキストプロンプトと情報注入を用いたカスタマーサービスシミュレーション。

カスタマイズ可能な声と性格特性を備えたカジュアルで自由な対話生成。

// クイックスタート

開始するには、必要な Opus 開発ライブラリとプロジェクトパッケージを 'pip install moshi/.' を使用してインストールします。Hugging Face トークンで認証した後、'python -m moshi.server' でインタラクティブサーバーを起動し、localhost:8998 で Web UI にアクセスできます。オフラインテストの場合は、'python -m moshi.offline' スクリプトを使用して、特定のボイスプロンプトとロール設定で入力 WAV ファイルを処理します。