neuphonic

neutts

AI#TTS#Voice Cloning#LLM#GGUF#On-device

// 项目简介

NeuTTS 是一套开源的端侧文本转语音模型，专为实时性能和高质量语音合成而设计。该框架利用轻量级 LLM 主干和神经音频编解码器，仅需三秒音频即可实现即时语音克隆。这些模型针对移动和嵌入式设备进行了部署优化，支持包括英语、西班牙语、德语和法语在内的多种语言。

// 技术分析

NeuTTS 是一个开源框架，旨在将最先进的端侧文本转语音 (TTS) 功能引入本地硬件，从而有效绕过基于 Web 的 API 的限制。通过利用轻量级 LLM 主干网络结合专门的神经音频编解码器，该项目能够在手机和 Raspberry Pi 等资源受限的设备上实现实时、高质量的语音合成和即时语音克隆。一个关键的技术权衡是使用了 GGUF 量化模型，这在保持自然输出的同时显著降低了内存和计算需求，使其成为嵌入式语音代理和注重隐私的应用的理想选择。

// 核心亮点

提供超逼真、类人的语音合成，并在速度、模型大小和音频质量之间实现了优化平衡。

支持即时语音克隆，允许用户仅使用 3 秒的参考音频即可复制特定说话人的声音。

提供专门为在手机、笔记本电脑和嵌入式硬件上进行高效推理而设计的 GGUF 量化模型主干。

利用 NeuCodec 神经音频编解码器，通过单码本架构在低比特率下实现高保真音频输出。

包含内置安全功能，通过感知阈值水印对所有生成的音频输出进行水印处理。

提供多语言支持，并有适用于英语、西班牙语、德语和法语的特定模型。

// 典型使用场景

用于嵌入式语音代理和助手的实时端侧语音合成

使用短音频样本进行即时语音克隆以实现个性化应用

针对移动设备和低功耗硬件优化的多语言文本转语音生成

// 快速开始

首先，使用 'pip install neutts[all]' 安装该库，以包含 llama-cpp-python 和 onnxruntime 等必要依赖项。然后，您可以探索存储库中提供的示例脚本（例如基础流式传输示例），或者直接在您的 Python 代码中使用 NeuTTS 类，通过文本和参考音频文件来合成语音。为了获得最佳性能，请确保使用适合您特定 CPU 或 GPU 的硬件加速标志从源代码编译 llama-cpp-python 包。