Meta 的基础人工智能研究团队(FAIR)近日推出了一款名为 Omnilingual ASR 的自动语音识别系统,能够转录超过1600种语言的口语。此前,大多数语音识别工具主要集中在几百种资源丰富的语言上,导致全球超过7000种语言中,成千上万种语言几乎没有得到 AI 的支持。

Omnilingual ASR 的推出旨在填补这一空白。Meta 表示,支持的1600种语言中,有500种语言从未被任何 AI 系统覆盖。FAIR 团队希望通过这一系统,向 “通用转录系统” 迈进,帮助打破全球语言障碍。
该系统的准确性取决于可用的训练数据。根据 Meta 的说法,Omnilingual ASR 在测试的1600种语言中,有78% 的语言字符错误率低于10。在至少有10小时训练音频的语言中,95% 的语言达到了这一标准。即使是 “低资源” 语言,音频训练时间不足10小时的,仍有36% 的语言字符错误率低于10。
为了进一步支持研究和实际应用,Meta 还发布了 Omnilingual ASR 语料库,这是一个包含350种欠代表性语言的转录语音的大型数据集。这些数据以知识共享(CC-BY)许可证的方式提供,旨在帮助开发者和研究人员为特定的地方需求构建或调整语音识别模型。
Omnilingual ASR 的一个关键特性是 “自带语言” 选项,它采用了上下文学习的方式。用户只需提供少量的配对音频和文本样本,系统就能直接从这些示例中学习,无需重训练或大量计算资源。Meta 表示,这一方法理论上可以将 Omnilingual ASR 扩展到超过5400种语言,远超当前行业标准。尽管在支持不足的语言上,识别质量尚未达到全面训练系统的水平,但它为以前没有接触过语音识别技术的社区提供了实际的解决方案。
Meta 将 Omnilingual ASR 作为开源项目发布,采用 Apache2.0许可证,研究人员和开发者可以自由使用、修改和构建模型,包括商业用途。该模型系列涵盖了从300百万参数的轻量级版本到7十亿参数的顶尖准确度版本。所有模型都基于 FAIR 的 PyTorch 框架,用户还可以在官网上进行演示。
demo:https://aidemos.atmeta.com/omnilingualasr/language-globe
划重点:
🌍 Meta 推出 Omnilingual ASR 系统,支持超过1600种语言的语音识别,旨在填补 AI 在语言识别上的空白。
📊 系统准确性依赖于训练数据,大部分支持的语言字符错误率低于10,部分低资源语言亦有显著表现。
📦 Omnilingual ASR 为开源项目,提供丰富的数据集,支持开发者针对地方需求进行模型构建。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则