microsoft

VibeVoice

AI#Speech Recognition#Text-to-Speech#Deep Learning #Generative AI

// 项目简介

VibeVoice 是一系列利用连续语音分词器和下一标记扩散技术来实现高保真音频处理的开源语音 AI 模型。该框架包含用于长文本语音识别和实时流式文本转语音生成的先进工具。这些模型专为研究目的而设计，旨在促进语音合成社区内的协作与创新。

// 技术分析

VibeVoice 是一个开源研究框架，通过利用以 7.5 Hz 超低帧率运行的连续声学和语义分词器的统一架构，推动了语音 AI 的发展。通过采用 next-token diffusion 框架，该项目利用 Large Language Models 来保持语义连贯性，同时使用 diffusion head 来确保高保真音频生成。这种设计解决了长篇语音处理的挑战，使模型能够在单次处理中处理长达 90 分钟的音频，同时平衡了计算效率与表现力输出。

// 核心亮点

支持在 ASR 中进行长达 60 分钟音频的单次处理，确保一致的说话人跟踪和语义连贯性。

通过联合执行 ASR、diarization 和 timestamping 来实现丰富的转录，从而识别谁在何时说了什么。

具有轻量级 0.5B 参数的实时 TTS 模型，能够以约 300ms 的延迟流式传输文本输入。

提供对单次对话中最多 4 个不同说话人的多说话人支持，保持自然的轮流对话动态。

与 Hugging Face Transformers 集成以实现无缝模型部署，并支持 vLLM 推理以加速性能。

允许用户自定义 hotwords，以提高特定领域术语和名称的识别准确性。

// 典型使用场景

带有说话人日志和时间戳的长文本语音转文字

低延迟的实时流式文本转语音

多说话人对话音频合成

// 快速开始

要开始使用 VibeVoice，请访问官方 Hugging Face collection 以获取 ASR、TTS 或 Real-time 变体的模型权重。开发者可以探索提供的 Colab notebooks 进行即时动手测试，或参考存储库中的文档以获取具体的设置说明，包括 finetuning 代码和 vLLM 推理配置。