能说会唱还会耍宝！小米发布 MiMo-V2-TTS 大模型：方言、情感信手拈来

语音合成技术正从“机械复读”向“情感共鸣”完成质的跨越。3月19日，小米正式发布自研语音合成大模型 Xiaomi MiMo-V2-TTS。这不仅是一个能让机器“开口说话”的工具，更是一个集演、说、唱于一体的“全能声优”。

MiMo-V2-TTS 基于小米自研的 Audio Tokenizer（音频分词器）与多码本语音-文本联合建模架构。在经过上亿小时语音数据的大规模预训练后，它展现出了惊人的多粒度语音风格控制力:

值得一提的是，MiMo-V2-TTS 极大地简化了交互成本。它能智能识别文本中的标点符号、语气词及强调标记，并自动将其转化为恰当的语音表达，全程无需用户进行额外的标注或手动干预。

对于小米而言，这款大模型的发布是其语音技术路线图上的关键里程碑。在未来的规划中，小米计划覆盖中英文之外的更多语种，并将其与 MiMo-V2-Omni 的多模态理解能力深度融合。

当 AI Agent 不仅能看懂世界，更能以富有感染力的人类声音讲述世界，人机交互的未来形态已跃然纸上。随着 MiMo-V2-TTS 的落地，小米生态内的智能设备将不再是冰冷的终端，而是更具“人味儿”的数字伙伴。

搜索