近日,腾讯优图实验室正式开源了一款名为 Youtu-Embedding 的文本表示模型,旨在提升企业级智能客服和知识库管理等领域的效率。该模型通过精确提取信息,避免了大模型在特定领域中的误导性生成问题。这一问题常常出现在企业级应用中,尤其是当用户询问特定问题时,模型可能会根据通用语料生成不相关的答案。
Youtu-Embedding 能够有效应对模型在不同领域表现不佳的现象。模型在通用语料上训练良好,但在法律、医疗等专业领域的应用效果却可能大打折扣。腾讯针对这一痛点,从零开始训练该模型,利用了高达3万亿 Token 的中英文语料,为模型的语言理解能力奠定了坚实基础。此外,腾讯还提供了丰富的人工标注数据,确保模型在真实业务场景中的适用性。
为了让模型更好地理解用户的真实意图,腾讯引入了大规模弱监督训练。通过这种训练方式,Youtu-Embedding 能够识别不同表述但相似意图的句子,进而在语义空间中建立准确的映射关系。比如,用户询问 “这款产品保修多久?” 和 “坏了可以免费修吗?” 两个问题,虽然表达方式不同,但都在问保修政策。
在多任务训练方面,腾讯设计了一套创新的微调框架,确保模型能够适应不同的任务需求。模型采用统一的数据格式和差异化的损失函数,能够有效提升文本相似度、检索和分类等任务的能力。同时,动态采样机制让模型在训练过程中合理分配精力,从而在各类任务中均衡发展。
Youtu-Embedding 已经在中文语义评测基准 CMTEB 上取得了77.46的高分,成为表现最优秀的中文语义模型之一。这款模型适用于多种应用场景,包括智能问答、内容推荐和知识管理等,特别是在构建检索增强生成系统(RAG)中显示出极大的潜力。
腾讯优图实验室持续致力于开源技术的发展,除了 Youtu-Embedding 之外,还推出了 Youtu-Agent 和 Youtu-GraphRAG 等项目,为开发者提供了更多的工具和资源,以促进 AI 应用的快速发展。
项目:https://github.com/TencentCloudADP/youtu-embedding
划重点:
🌟 Youtu-Embedding 是腾讯开源的文本表示模型,旨在提高企业智能客服和知识库管理的效率。
🔍 该模型通过大规模弱监督训练和多任务协同进化,增强了对用户意图的理解。
📈 在中文语义评测基准 CMTEB 上,Youtu-Embedding 获得了77.46的高分,显示出其强大的性能和应用潜力。
发评论,每天都得现金奖励!超多礼品等你来拿
登录 在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则