jamiepine

voicebox

AI#TTS#Voice Cloning#Rust #Tauri #Python

// 项目简介

Voicebox 是一个全面的本地优先语音合成工作室，允许用户使用七种不同的 TTS 引擎进行语音克隆和语音生成。该平台具有用于创建复杂叙事的多轨时间轴编辑器，并支持高级后期处理效果以优化音频输出。它专为隐私和性能而设计，可在主流操作系统上原生运行，同时为开发者集成提供了强大的 REST API。

// 技术分析

Voicebox 是一个本地优先的语音合成工作室，旨在作为 ElevenLabs 等云端服务的开源且注重隐私的替代方案。它采用模块化架构，集成了七个不同的 TTS 引擎和 Spotify 的 pedalboard 库进行后期处理，允许用户完全在自己的硬件上执行复杂的音频任务。通过利用 Tauri 构建桌面外壳并结合 FastAPI 后端，该项目在原生性能与丰富的多轨编辑体验之间取得了平衡，有效地解决了高质量语音克隆与数据主权之间的权衡问题。

// 核心亮点

通过确保所有语音模型和用户数据保留在本地机器上，提供完全的隐私保护。

支持七种不同的 TTS 引擎，包括 Qwen3-TTS 和 Kokoro，提供广泛的语音克隆和合成能力。

具备多轨故事编辑器，使用户能够创作复杂的音频叙事、播客和对话。

包含一套全面的八种后期音频处理效果，如音高变换、混响和压缩，以优化生成的语音。

采用 API 优先设计，提供 REST 接口，允许开发者将语音合成集成到外部应用程序中。

支持跨平台硬件加速，包括 Apple Silicon MLX、NVIDIA CUDA 和 AMD ROCm，以实现优化的推理性能。

// 典型使用场景

支持 23 种语言的高质量语音克隆和语音生成

用于播客和叙事的多轨音频合成

通过 REST API 将语音合成集成到外部应用程序中

// 快速开始

要开始使用 Voicebox，请从 releases 页面下载适用于您操作系统的安装程序，或使用 Docker。安装完成后，您可以启动应用程序开始克隆语音、生成语音或使用故事编辑器。有兴趣贡献代码或从源码运行的开发者，应克隆存储库并使用 'just' 命令运行程序来设置环境并启动开发构建。