语音合成技术正从“机械复读”向“情感共鸣”完成质的跨越。3月19日,小米 正式发布自研语音合成大模型 Xiaomi MiMo-V2-TTS。这不仅是一个能让机器“开口说话”的工具,更是一个集演、说、唱于一体的“全能声优”。

MiMo-V2-TTS 基于小米自研的 Audio Tokenizer(音频分词器)与多码本语音-文本联合建模架构。在经过上亿小时语音数据的大规模预训练后,它展现出了惊人的多粒度语音风格控制力:
情感大师: 模型支持从整体定调到局部情绪的精准调节。它能在同一句话内实现语气的自然转折和情感的细腻递变,完美还原人类说话时的自然韵律。
跨界歌者: 除了说话,它还具备高质量的歌声合成能力,能够准确表达音高与节奏,唱腔自然且富有表现力。
方言达人: 为了贴近不同地域用户的使用习惯,模型支持东北话、四川话、河南话、粤语、台湾腔等多种方言,并能进行角色化、风格化的演绎。
值得一提的是,MiMo-V2-TTS 极大地简化了交互成本。它能智能识别文本中的标点符号、语气词及强调标记,并自动将其转化为恰当的语音表达,全程无需用户进行额外的标注或手动干预。
对于 小米 而言,这款大模型的发布是其语音技术路线图上的关键里程碑。在未来的规划中,小米计划覆盖中英文之外的更多语种,并将其与 MiMo-V2-Omni 的多模态理解能力深度融合。
当 AI Agent 不仅能看懂世界,更能以富有感染力的人类声音讲述世界,人机交互的未来形态已跃然纸上。随着 MiMo-V2-TTS 的落地,小米生态内的智能设备将不再是冰冷的终端,而是更具“人味儿”的数字伙伴。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则