当AI语音不仅能“像人说话”,还能“像你说话”,且快到几乎无感,语音交互的边界正在被彻底重构。 10 月 30 日凌晨,MiniMax稀宇科技正式发布其新一代语音合成模型——MiniMax Speech 2.6,以端到端延迟低于 250 毫秒的实时性能与革命性的Fluent LoRA音色复刻技术,将语音生成推向高自然度、低延迟、强个性化的全新阶段。
250 毫秒以内:逼近人类对话的实时响应
在语音交互场景中,延迟是体验的生命线。Speech 2. 6 通过底层架构优化,实现从文本输入到音频输出全程低于 250 毫秒,接近人类自然对话的响应节奏。这意味着在智能客服、实时字幕、虚拟主播等高要求场景中,AI语音不再“慢半拍”,真正实现流畅对答与沉浸式交互。
Fluent LoRA: 30 秒音频即可克隆专属音色
本次最大突破在于Fluent LoRA(Low-Rank Adaptation)技术的深度集成。用户仅需提供 30 秒以上的参考音频,模型即可精准捕捉说话人的音色、语调、节奏甚至情感风格,并生成与目标文本高度匹配的自然语音。无论是复刻自己的声音讲述睡前故事,还是为品牌定制专属虚拟代言人,音色克隆从未如此简单、高效且逼真。
更关键的是,Fluent LoRA在保证音色一致性的前提下,显著提升语音流畅度,避免传统TTS常见的“机械断句”或“情感错位”问题,让合成语音真正具备“表达力”。
全场景覆盖:从个人创作到企业级部署
MiniMax Speech 2. 6 同时面向个人创作者与企业客户开放:
- 教育领域:教师可快速生成带讲解的课件音频;
- 客户服务:企业能部署具备品牌音色的智能语音机器人;
- 智能硬件:车载、家居设备可实现低延迟、高拟真语音交互;
- 内容生产:UP主、播客主一键生成多角色配音,大幅提升创作效率。
作为MiniMax多模态大模型生态的关键一环,Speech 2. 6 不仅强化了其在AIGC领域的技术纵深,更标志着语音合成正从“功能可用”迈向“情感可信、个性可定制”的新纪元。
在AI竞争日益聚焦“体验细节”的今天,MiniMax用 250 毫秒的延迟与一句“像你一样说话”的能力,证明了:真正的智能,不仅在于算得快,更在于说得像人、说得动人。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则