microsoft

VibeVoice

AI#Speech Recognition#Text-to-Speech#Deep Learning #Generative AI

// 概要

VibeVoice は、連続音声トークナイザーと次トークン拡散を用いて高忠実度な音声処理を実現するオープンソースの音声 AI モデル群です。本フレームワークには、長文の音声認識やリアルタイムのストリーミング text-to-speech 生成のための高度なツールが含まれています。これらのモデルは、音声合成コミュニティにおける協力と革新を促進するための研究目的で設計されています。

// 技術解説

VibeVoice は、7.5 Hz という超低フレームレートで動作する連続的な音響およびセマンティックトークナイザーを活用した統合アーキテクチャを通じて、音声 AI を進化させるオープンソースの研究フレームワークです。このプロジェクトは、next-token diffusion フレームワークを採用することで、Large Language Models を活用してセマンティックな一貫性を維持しつつ、diffusion head を使用して高忠実度の音声生成を実現します。この設計は長時間の音声処理における課題に対処しており、計算効率と表現力豊かな出力を両立させながら、最大 90 分の音声を一度のパスで処理することを可能にします。

// 主要ハイライト

ASR において最大 60 分の音声を一度のパスで処理することをサポートし、一貫した話者追跡とセマンティックな一貫性を確保します。

ASR、diarization、timestamping を同時に実行することで、誰がいつ何を言ったかを特定するリッチな文字起こしを実現します。

約 300ms のレイテンシでテキスト入力をストリーミング可能な、軽量な 0.5B パラメータのリアルタイム TTS モデルを搭載しています。

1 つの会話内で最大 4 人の異なる話者をサポートし、自然な会話のターン交代のダイナミクスを維持します。

Hugging Face Transformers と統合してシームレスなモデルデプロイを実現し、vLLM inference による高速化をサポートします。

ユーザーがカスタマイズ可能な hotwords を使用して、ドメイン固有の用語や名前の認識精度を向上させます。

// ユースケース

話者分離とタイムスタンプ機能を備えた長文の speech-to-text

低遅延なリアルタイムのストリーミング text-to-speech

マルチスピーカーによる会話型音声合成

// クイックスタート

VibeVoice の利用を開始するには、公式の Hugging Face collection にアクセスして、ASR、TTS、または Real-time バリアントのモデルウェイトを入手してください。開発者は、提供されている Colab notebooks を使用してすぐにハンズオンテストを行えるほか、リポジトリ内のドキュメントを参照して、finetuning コードや vLLM inference 設定を含む具体的なセットアップ手順を確認できます。