首页 > 新闻中心 > 精选阅读

小米 Kaldi 团队开源零样本语音合成模型模型 ZipVoice 返回列表

霞舞2025-09-11 00:00:00编辑发布,已经有个小可爱看过这篇文章啦

近日,小米集团新一代 Kaldi 团队推出了基于 Flow Matching 框架的 ZipVoice 系列语音合成(TTS)模型,包括 ZipVoice(零样本单人语音合成模型)和 ZipVoice-Dialog(零样本对话语音合成模型)。

作为 zipformer 架构在语音生成领域的延伸与实践,ZipVoice 有效缓解了当前零样本语音合成模型普遍存在的模型参数庞大、推理速度缓慢等问题,在模型轻量化与生成效率方面实现了显著提升。而 ZipVoice-Dialog 则进一步攻克了对话式语音合成在输出稳定性与响应速度上的技术瓶颈,成功实现了高效、稳定且自然流畅的多轮语音对话生成。

目前,ZipVoice 系列模型的完整模型文件、训练与推理代码,以及包含 6.8k 小时对话语音的开源数据集 OpenDialog 已全部公开发布:https://www./link/b21da80e55c4e85ed1270e4fafb702c2

ZipVoice 相关论文详见:https://www./link/cf62365fe3fb1f6e44ca45af14daa212

语音合成效果演示可访问:https://www./link/93f97410020f1aeb261aa376df54f44d

  • img
  • git
  • 架构
  • 小米
  • 开源
  • github
  • https
  • 推出了
  • 实现了
  • pdf

热门新闻

来电咨询