内容持续更新中
最近,多模态大型语言模型(MLLM)取得了显著进展,特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及,语音模态的重要性也日益凸显,尤其是在多模态对话系统中。语音不仅是信息传输的关键媒介,还能…
Nexa AI近日推出了其全新的OmniAudio-2.6B音频语言模型,旨在满足边缘设备的高效部署需求。与传统的将自动语音识别(ASR)和语言模型分开的架构不同,OmniAudio-2.6B将Gem…
亚马逊最新ASR系统覆盖100多语言,通过语音基础模型实现显著准确度提升。系统支持多项特性,成千上万企业利用该系统解锁音频内容见解,提高了可访问性和可发现性。