VibeVoice – 开源文本转语音模型
网站 VibeVoice 是一种新型框架,旨在从文本生成富有表现力的长篇多说话人对话音频,例如播客。它解决了传统文本转语音 (TTS) 系统中的诸多挑战,尤其是在可扩展性、说话人一致性和自然轮流对话方面。VibeVoice 的核心创新在于其使用了以 7.5 Hz 超低帧率运行的连续语音分词器(声学分词器和语义分词器)。这些分词器能够高效地保持音频保真度,同时显著提高处理长序列的计算效率。VibeVoice 采用了一种基于下一标记的扩散框架,利用大型语言模型 (LLM) 来理解文本上下文和对话流程,并使用扩散头来生成高保真度的声学细节。该模型能够合成长达 90 分钟、最多包含 4 位不同说话人的语音,突破了许多先前模型通常只能处理 1-2 位说话人的限制。

地址:
支付宝扫一扫
微信扫一扫