jamiepine

voicebox

AI#TTS#Voice Cloning#Rust #Tauri #Python

// 概要

Voicebox は、7 種類の TTS エンジンを使用して音声クローンや音声合成を行える、包括的なローカルファーストの音声合成スタジオです。マルチトラックタイムラインエディタを搭載しており、複雑なナレーションの作成や高度なポストプロセッシングエフェクトによる音声の調整が可能です。プライバシーとパフォーマンスを重視して設計されており、主要な OS 上でネイティブ動作するほか、開発者向けに堅牢な REST API を提供しています。

// 技術解説

Voicebox は、 ElevenLabs のようなクラウドベースのサービスのオープンソースかつプライバシー重視の代替手段として設計された、ローカルファーストの音声合成スタジオです。 7 つの異なる TTS エンジンと Spotify の pedalboard ライブラリを統合したモジュール式アーキテクチャを採用しており、ユーザーは複雑なオーディオタスクをすべて自身のハードウェア上で実行できます。デスクトップシェルに Tauri 、バックエンドに FastAPI を活用することで、このプロジェクトはネイティブなパフォーマンスとリッチなマルチトラック編集体験を両立させ、高品質な音声クローンとデータ主権の間のトレードオフを効果的に解決しています。

// 主要ハイライト

すべての音声モデルとユーザーデータをマシン内にローカル保持することで、完全なプライバシーを提供します。

Qwen3-TTS や Kokoro を含む 7 つの多様な TTS エンジンをサポートし、幅広い音声クローンおよび合成機能を提供します。

複雑なオーディオナラティブ、ポッドキャスト、会話を作成できるマルチトラックストーリーエディターを搭載しています。

ピッチシフト、リバーブ、コンプレッションなど、生成された音声を洗練させる 8 つの包括的なポストプロセッシングオーディオエフェクトスイートが含まれています。

API ファースト設計を実装しており、 REST インターフェースを公開することで、開発者が外部アプリケーションに音声合成を統合できるようにしています。

Apple Silicon MLX 、 NVIDIA CUDA 、 AMD ROCm を含むクロスプラットフォームのハードウェアアクセラレーションをサポートし、推論パフォーマンスを最適化しています。

// ユースケース

23 言語に対応した高品質な音声クローンと音声合成

ポッドキャストやナレーション制作のためのマルチトラックオーディオ編集

REST API を介した外部アプリケーションへの音声合成機能の統合

// クイックスタート

Voicebox を使い始めるには、 releases ページからオペレーティングシステムに適したインストーラーをダウンロードするか、 Docker を使用してください。インストール後、アプリケーションを起動して音声のクローン作成、音声生成、またはストーリーエディターの使用を開始できます。貢献に関心がある開発者やソースから実行したい開発者は、リポジトリを clone し、 'just' コマンドランナーを使用して環境をセットアップし、開発ビルドを起動してください。