99
// 项目简介
VoxCPM2 是一款无需分词器、拥有 2B 参数的语音合成系统,利用扩散自回归架构生成高质量且富有表现力的音频。该模型支持 30 种语言,并提供语音设计、可控语音克隆以及录音室级别的 48kHz 输出等高级功能。它在 Apache-2.0 许可下完全开源,并通过 vLLM-Omni 和 Nano-vLLM 提供生产就绪的部署选项。
// 技术分析
VoxCPM2 是一个先进的、无 Tokenizer 的文本转语音系统,构建于 2B 参数的扩散自回归架构之上。通过直接在 AudioVAE V2 的潜在空间中运行,它绕过了传统的离散标记化,实现了高保真、48kHz 的录音室级语音合成。该项目旨在满足富有表现力的多语言语音生成和克隆需求,提供了一个支持自然语言语音设计和精确风格控制的多功能流水线。其设计兼顾了高性能和商业可用性,为各种语音合成应用提供了一个稳健的开源解决方案。
// 核心亮点
01
原生支持 30 种语言,输入文本无需语言标签。
02
通过自然语言描述而非参考音频生成独特的声音,实现创造性的语音设计。
03
提供可控的语音克隆功能,允许用户在保持原始说话人音色的同时调整情感、语速和风格。
04
具备极致的克隆能力,通过利用参考音频及其对应的转录文本来重现语音细微差别。
05
通过具有内置超分辨率的非对称 AudioVAE V2 设计,直接输出 48kHz 录音室级音频。
06
提供低延迟的实时流式传输性能,并通过 Nano-vLLM 和 vLLM-Omni 集成针对生产环境进行了优化。
// 典型使用场景
01
无需参考音频的自然语言语音设计
02
带有情感和语速风格引导的可控语音克隆
03
通过兼容 OpenAI 的 API 实现高吞吐量的生产级语音合成
// 快速开始
首先,使用 'pip install voxcpm' 安装该软件包。然后,您可以通过加载 'openbmb/VoxCPM2' 模型,使用提供的 Python API 执行文本转语音、语音设计或克隆任务。对于生产环境,该项目支持通过 Nano-vLLM 或 vLLM-Omni 进行高吞吐量服务,并提供与 OpenAI 兼容的 API。