阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B,这款模型以超低延迟、自然流畅的语音交互为核心,标志着开源语音AI进入全新阶段。它不仅能实时理解用户语音,还具备强大情感感知能力,性能直逼闭源巨头GPT-4o Audio和Gemini2.5Pro。AIbase独家解读:Fun-Audio-Chat并非简单聊天工具,而是真正意义上的“AI语音伙伴”。

阿里通义开源语音交互大模型Fun-Audio-Chat-8B!超低延迟,能读懂情绪

用户只需开口说话,模型就能即时理解、思考并以自然语音回应,彻底摆脱传统ASR+LLM+TTS多模块拼接的延迟痛点,实现端到端Speech-to-Speech(S2S)架构,交互体验更接近真人对话。核心技术亮点超低延迟与高效设计:采用创新双分辨率架构(5Hz共享主干+25Hz精细头部),GPU计算资源节省近50%,响应速度大幅提升,适合实时场景部署。

富有同理心的情感理解:模型能从语气、语速、停顿等细节感知用户情绪(如开心、疲惫或愤怒),即使未明确表达,也能给出贴心、共情的回应,让交互更人性化。

强大语音函数调用:支持Voice Function Calling,用户通过自然语音指令即可执行复杂任务,例如“帮我打开音乐”或“拨打电话”,真正实现“动口不动手”。

阿里通义开源语音交互大模型Fun-Audio-Chat-8B!超低延迟,能读懂情绪

领先性能表现在OpenAudioBench、MMAU、Speech-ACEBench、VStyle等多项国际权威基准测试中,Fun-Audio-Chat-8B同尺寸模型排名第一,综合能力超越GLM4-Voice、Kimi-Audio、Baichuan-Omni等开源竞品,部分指标已媲美或领先闭源顶级模型。丰富应用能力实时回答语音问题(如总结一段语音内容);

精准识别情绪、音色和命令;

支持多语言翻译、角色扮演;

模拟多种情感语音输出(如温柔、严肃、开心);

适用于情感陪伴、智能设备控制、语音客服等场景。

AIbase观点:此次开源包括完整8B模型权重、推理代码和Function Call示例,极大降低开发者门槛,推动语音AI生态快速发展。感兴趣的开发者可立即前往GitHub、Hugging Face或ModelScope下载体验,开启属于你的“高情商”语音AI时代!

项目地址:https://funaudiollm.github.io/funaudiochat/