首页LLMneuphonic/neutts
// archived 2026-04-29
neuphonic

neutts

AI#TTS#Voice Cloning#LLM#GGUF#On-device
前往 GitHub →
30

// 项目简介

NeuTTS 是一套开源的端侧文本转语音模型,专为实时性能和高质量语音合成而设计。该框架利用轻量级 LLM 主干和神经音频编解码器,仅需三秒音频即可实现即时语音克隆。这些模型针对移动和嵌入式设备进行了部署优化,支持包括英语、西班牙语、德语和法语在内的多种语言。

// 技术分析

NeuTTS 是一个开源框架,旨在将最先进的端侧文本转语音 (TTS) 功能引入本地硬件,从而有效绕过基于 Web 的 API 的限制。通过利用轻量级 LLM 主干网络结合专门的神经音频编解码器,该项目能够在手机和 Raspberry Pi 等资源受限的设备上实现实时、高质量的语音合成和即时语音克隆。一个关键的技术权衡是使用了 GGUF 量化模型,这在保持自然输出的同时显著降低了内存和计算需求,使其成为嵌入式语音代理和注重隐私的应用的理想选择。

// 核心亮点

01
提供超逼真、类人的语音合成,并在速度、模型大小和音频质量之间实现了优化平衡。
02
支持即时语音克隆,允许用户仅使用 3 秒的参考音频即可复制特定说话人的声音。
03
提供专门为在手机、笔记本电脑和嵌入式硬件上进行高效推理而设计的 GGUF 量化模型主干。
04
利用 NeuCodec 神经音频编解码器,通过单码本架构在低比特率下实现高保真音频输出。
05
包含内置安全功能,通过感知阈值水印对所有生成的音频输出进行水印处理。
06
提供多语言支持,并有适用于英语、西班牙语、德语和法语的特定模型。

// 典型使用场景

01
用于嵌入式语音代理和助手的实时端侧语音合成
02
使用短音频样本进行即时语音克隆以实现个性化应用
03
针对移动设备和低功耗硬件优化的多语言文本转语音生成

// 快速开始

首先,使用 'pip install neutts[all]' 安装该库,以包含 llama-cpp-python 和 onnxruntime 等必要依赖项。然后,您可以探索存储库中提供的示例脚本(例如基础流式传输示例),或者直接在您的 Python 代码中使用 NeuTTS 类,通过文本和参考音频文件来合成语音。为了获得最佳性能,请确保使用适合您特定 CPU 或 GPU 的硬件加速标志从源代码编译 llama-cpp-python 包。