在人工智能迅速发展的今天,金融行业对数据的准确性和安全性提出了更高的要求。腾讯最近宣布开源了一款名为 finLLM-Eval 的评测工具,专为大模型在金融场景中的应用而设计。这一工具在行业内首次引入了无 GroundTruth 的金融数据准确性评测方法,填补了当前市场上对大模型金融领域评测的空白,旨在推动 AI 技术在高风险、高要求的金融领域的安全落地。
finLLM-Eval 的核心能力包括多个模块,尤其突出的是逻辑一致性与事实准确性评测模块。该模块不仅提供完整的工程代码和示例评测集,还支持用户自定义评测集,能够自动化输出模型表现的详细信息。用户将获得包括总分、错误点分布、千字幻觉率等在内的完整评测报告,帮助他们深入了解模型的实际表现。
此外,finLLM-Eval 还具备端到端金融数据准确性对比模块。这个技术方案的最大亮点在于,它能够在无 GroundTruth 的情况下,基于真实用户的问答自动提取金融事实的三要素 ——“标的 × 时间 × 指标”,并通过内部金融数据库进行验证,省去了人工标注的繁琐。
更为智能的是,finLLM-Eval 引入了 AgentAsJudger 的自动化评测机制。整个评测过程无需人工干预,AI Agent 能自动提取事实点与逻辑链,并与相关内容或金融数据库进行比对,准确率高达 96% 以上。这一创新不仅提高了评测效率,也确保了评测结果的可靠性。
展望未来,项目团队计划不断迭代 finLLM-Eval,未来将支持非金融指标的数据核验及结果归因等能力,助力金融科技的不断发展与完善。
.png)
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则