NVIDIA

personaplex

AI#Speech-to-Speech#LLM#Conversational AI#PyTorch#Audio Processing

// 项目简介

PersonaPlex 是一款基于 Moshi 架构构建的实时全双工语音到语音模型，能够通过文本提示和音频语音调节实现精确的角色控制。该模型在合成和真实对话数据的混合集上进行训练，以提供自然、低延迟的交互体验。用户可以通过提供的服务器接口部署该模型，或使用特定的语音嵌入和基于角色的提示进行离线评估。

// 技术分析

PersonaPlex 是一个基于 Moshi 架构构建的实时、全双工语音到语音对话模型，旨在通过基于文本的角色提示和基于音频的语音调节来提供精确的角色控制。通过在合成和真实对话数据的混合集上进行训练，它解决了在低延迟环境中保持一致的角色身份和自然交互流程的挑战。该项目平衡了高保真性能与可访问性，既提供了用于交互式使用的实时服务器实现，也提供了用于批处理的离线评估工具。

// 核心亮点

支持全双工、实时语音到语音交互，以实现自然且响应迅速的对话体验。

通过结合基于文本的角色提示和特定的基于音频的语音调节，支持细粒度的角色控制。

提供了一个多样化的预打包语音嵌入库，分为男女发言人的自然且多样的风格。

利用底层的 Helium LLM 主干来确保强大的泛化能力，使模型能够有效地处理分布外提示。

包含一个专门的离线评估脚本，允许用户处理输入音频文件并生成相应的输出流以进行测试。

提供灵活的部署选项，包括针对 GPU 内存有限的硬件进行 CPU 卸载，以确保更广泛的可访问性。

// 典型使用场景

具有一致角色维护的实时全双工对话式 AI。

使用特定角色文本提示和信息注入的客户服务模拟。

具有可定制语音和个性特征的随意、开放式对话生成。

// 快速开始

首先，安装所需的 Opus 开发库并使用 'pip install moshi/.' 安装项目包。在使用 Hugging Face token 进行身份验证后，您可以运行 'python -m moshi.server' 启动交互式服务器，并通过 localhost:8998 访问 Web UI。对于离线测试，请使用 'python -m moshi.offline' 脚本，通过特定的语音提示和角色配置来处理输入的 WAV 文件。