OpenBMB

VoxCPM

AI#Text-to-Speech#Deep Learning #Generative AI#Audio Synthesis

// 项目简介

VoxCPM2 是一款无需分词器、拥有 2B 参数的语音合成系统，利用扩散自回归架构生成高质量且富有表现力的音频。该模型支持 30 种语言，并提供语音设计、可控语音克隆以及录音室级别的 48kHz 输出等高级功能。它在 Apache-2.0 许可下完全开源，并通过 vLLM-Omni 和 Nano-vLLM 提供生产就绪的部署选项。

// 技术分析

VoxCPM2 是一个先进的、无 Tokenizer 的文本转语音系统，构建于 2B 参数的扩散自回归架构之上。通过直接在 AudioVAE V2 的潜在空间中运行，它绕过了传统的离散标记化，实现了高保真、48kHz 的录音室级语音合成。该项目旨在满足富有表现力的多语言语音生成和克隆需求，提供了一个支持自然语言语音设计和精确风格控制的多功能流水线。其设计兼顾了高性能和商业可用性，为各种语音合成应用提供了一个稳健的开源解决方案。

// 核心亮点

原生支持 30 种语言，输入文本无需语言标签。

通过自然语言描述而非参考音频生成独特的声音，实现创造性的语音设计。

提供可控的语音克隆功能，允许用户在保持原始说话人音色的同时调整情感、语速和风格。

具备极致的克隆能力，通过利用参考音频及其对应的转录文本来重现语音细微差别。

通过具有内置超分辨率的非对称 AudioVAE V2 设计，直接输出 48kHz 录音室级音频。

提供低延迟的实时流式传输性能，并通过 Nano-vLLM 和 vLLM-Omni 集成针对生产环境进行了优化。

// 典型使用场景

无需参考音频的自然语言语音设计

带有情感和语速风格引导的可控语音克隆

通过兼容 OpenAI 的 API 实现高吞吐量的生产级语音合成

// 快速开始

首先，使用 'pip install voxcpm' 安装该软件包。然后，您可以通过加载 'openbmb/VoxCPM2' 模型，使用提供的 Python API 执行文本转语音、语音设计或克隆任务。对于生产环境，该项目支持通过 Nano-vLLM 或 vLLM-Omni 进行高吞吐量服务，并提供与 OpenAI 兼容的 API。