最近,阿里云飞天实验室自主研发的数据分析智能体 “析言 XiYan-SQL” 在全球权威的 SQL 诊断评测基准 BIRD-CRITIC(也称 SWE-SQL)中表现优异,成功登顶所有开放榜单,超越了多家国内外顶尖团队,刷新了 SQL 诊断与修复的行业纪录。

BIRD-CRITIC 基准是由学术界与 Google Cloud 合作推出,旨在探讨 “大语言模型能否解决真实数据库应用中的用户问题”。该评测将企业中常见的数据库报错、性能问题和查询需求整理成题目,涵盖了 MySQL、PostgreSQL、SQL Server、Oracle 等主流数据库系统。评测题目既包括简单查询,也包含复杂的插入、更新、删除操作,还涉及许多模型之前未见过的新场景,整体难度远高于传统的 “自然语言生成 SQL” 测试。
在这项评测中,析言 XiYan-SQL 在 BIRD-CRITIC-1.0-Open、BIRD-CRITIC-PG 和 BIRD-CRITIC-Flash 三个重要榜单上均取得第一名的好成绩,并在跨方言鲁棒性、复杂 SQL 处理能力、真实问题修复率和分布外泛化等多个维度得到了权威验证。
技术方面,析言 XiYan-SQL 通过相关模式筛选(Schema Filter)、多生成器集成(Multi-Generator Ensemble)、候选重组与最优选择(Selection with Candidate Reorganization)等创新手段,使得模型既能够生成高质量的 SQL,同时也兼顾了可执行性和可维护性。这一模型可以在存在脏数据、异构模式以及跨方言差异的真实系统中,提供高可用的诊断与修复方案。
目前,基于 XiYan-SQL 技术打造的生成式商业智能(GBI)产品 “析言” 已在阿里云百炼平台上线,提供 SQL 生成与诊断服务。
划重点:
🔍 析言 XiYan-SQL 在 BIRD-CRITIC 评测中斩获第一,超越众多顶尖团队。
📊 该评测涵盖多种主流数据库,难度高于传统 SQL 生成测试。
💻 相关技术和模型已开源,支持开发者进行体验与贡献。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则