小米发布自研MiMo-V2-TTS语音合成大模型，实现多方言与情感深度控制

小米正式发布自研语音合成大模型Xiaomi MiMo-V2-TTS，标志着其在高度可控、高表现力语音生成领域取得重要进展。该模型基于自研Audio Tokenizer及多码本语音-文本联合建模架构，

通过上亿小时语音数据的大规模预训练，实现了从宏观风格定调到局部微观情绪的精准调节。不同于传统TTS，MiMo-V2-TTS具备在单句内完成语气转折与情感递变的能力，能高度还原人类说话的自然韵律，并支持具备音高与节奏准确度的歌声合成。技术层面，小米引入了多维度强化学习以兼顾生成的稳定性与表现力。模型可智能识别标点、语气词及强调标记等文本信号，无需人工额外标注即可转化为恰当的语音表达。此外，该模型展现了极强的跨地域适应性，支持包括东北话、四川话、河南话、粤语及台湾腔在内的多种方言，并能进行角色化演绎。

作为小米语音技术路线图的关键里程碑，MiMo-V2-TTS未来将进一步拓展多语种覆盖，并深度融合MiMo-V2-Omni的多模态理解能力。这种从单一语音合成向多模态感知与表达协同的演进，预示着AI智能体（Agent）正从单纯的语义交互向更具人格化、具备情感共鸣的人机交互阶段转型，将显著提升智能座舱及智能家居等场景的用户体验。

小米发布自研MiMo-V2-TTS语音合成大模型，实现多方言与情感深度控制

中国人工智能缩小与美国差距

19万用户在看

七个圈AIGC破圈俱乐部欢迎您！

18.2万用户在看

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

16.9万用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

16.7万用户在看

小米发布自研MiMo-V2-TTS语音合成大模型，实现多方言与情感深度控制

最近更新

文章目录

小米发布自研MiMo-V2-TTS语音合成大模型，实现多方言与情感深度控制

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

搜索

近期热门

中国人工智能缩小与美国差距

19万 用户在看

七个圈AIGC破圈俱乐部欢迎您！

18.2万 用户在看

【搬运】AI动画制作流程揭秘！综合实拍+合成+ai视频转绘技术（带中文字幕）

16.9万 用户在看

3款AI工具让历史名人‘复活’：梵高、莫扎特、奥斯汀等重现当下

16.7万 用户在看

小米发布自研MiMo-V2-TTS语音合成大模型，实现多方言与情感深度控制

最近更新

文章目录

小米发布自研MiMo-V2-TTS语音合成大模型，实现多方言与情感深度控制

发评论，每天都得现金奖励！超多礼品等你来拿

关联网址

关联标签

相关文章

19万用户在看

18.2万用户在看

16.9万用户在看

16.7万用户在看