39
// 项目简介
Voicebox 是一个全面的本地优先语音合成工作室,允许用户使用七种不同的 TTS 引擎进行语音克隆和语音生成。该平台具有用于创建复杂叙事的多轨时间轴编辑器,并支持高级后期处理效果以优化音频输出。它专为隐私和性能而设计,可在主流操作系统上原生运行,同时为开发者集成提供了强大的 REST API。
// 技术分析
Voicebox 是一个本地优先的语音合成工作室,旨在作为 ElevenLabs 等云端服务的开源且注重隐私的替代方案。它采用模块化架构,集成了七个不同的 TTS 引擎和 Spotify 的 pedalboard 库进行后期处理,允许用户完全在自己的硬件上执行复杂的音频任务。通过利用 Tauri 构建桌面外壳并结合 FastAPI 后端,该项目在原生性能与丰富的多轨编辑体验之间取得了平衡,有效地解决了高质量语音克隆与数据主权之间的权衡问题。
// 核心亮点
01
通过确保所有语音模型和用户数据保留在本地机器上,提供完全的隐私保护。
02
支持七种不同的 TTS 引擎,包括 Qwen3-TTS 和 Kokoro,提供广泛的语音克隆和合成能力。
03
具备多轨故事编辑器,使用户能够创作复杂的音频叙事、播客和对话。
04
包含一套全面的八种后期音频处理效果,如音高变换、混响和压缩,以优化生成的语音。
05
采用 API 优先设计,提供 REST 接口,允许开发者将语音合成集成到外部应用程序中。
06
支持跨平台硬件加速,包括 Apple Silicon MLX、NVIDIA CUDA 和 AMD ROCm,以实现优化的推理性能。
// 典型使用场景
01
支持 23 种语言的高质量语音克隆和语音生成
02
用于播客和叙事的多轨音频合成
03
通过 REST API 将语音合成集成到外部应用程序中
// 快速开始
要开始使用 Voicebox,请从 releases 页面下载适用于您操作系统的安装程序,或使用 Docker。安装完成后,您可以启动应用程序开始克隆语音、生成语音或使用故事编辑器。有兴趣贡献代码或从源码运行的开发者,应克隆存储库并使用 'just' 命令运行程序来设置环境并启动开发构建。