语言模型相关资讯及语言模型相关产品 | 第 3 页

阅读量飙升原理解析：Transformer的诞生让生成式AI 成为可能

近年来,Transformer架构的出现使得基于大规模语言模型的生成式AI成为可能。文章详细介绍了Transformer如何通过自注意力机制增强语言处理能力,支持各类生成任务。尽管模型还存在“幻觉”等…

新鲜出炉，等待你的评论

阅读量飙升法国初创公司Mistral AI发布免费高性能语言模型Mistral7B

法国初创公司Mistral AI最近发布了性能卓越的Mistral7B语言模型，免费提供给所有用户。该模型基于Apache2.0许可证发布，没有使用或复制限制。Mistral计划推出付费产品，提供权重…

新鲜出炉，等待你的评论

阅读量飙升恒生电子发布金融大模型产品 LightGPT 内测

恒生电子宣布，恒生大模型产品 LightGPT 已面向 20 家金融机构开启内测。LightGPT 是专为金融领域打造的大语言模型，具有更专业、更合规和更轻量的特点。光子是基于 LightGPT 的智…

新鲜出炉，等待你的评论

阅读量飙升 MIT研究：多智能体辩论提升AI机器人智能

麻省理工学院的研究人员发现，通过多智能体辩论问题的答案，相较于仅使用单个AI系统，可以显著提高响应的准确性和推理能力。这一研究成果为AI领域的进一步发展提供了新的思路和方法，有望改进现有的语言模型，并…

新鲜出炉，等待你的评论

阅读量飙升最顶尖的大语言模型人才,只关心这10个挑战

本文探讨了大语言模型(LLM)研究中的十大挑战,包括减少和衡量幻觉、优化上下文长度和上下文构建、融入其他数据模态、提高LLMs的速度和降低成本、设计新的模型架构、开发GPU替代方案、提高agent的可…

新鲜出炉，等待你的评论

阅读量飙升比GPT-4还强,20亿参数模型做算术题,准确率几乎100%

学术头条报道,来自清华大学、TAL AI Lab和智谱AI的研究者提出了20亿参数语言模型MathGLM,用于探索大语言模型在数学推理方面的效率。该模型采用Transformer解码器架构,在大规模算…

新鲜出炉，等待你的评论

阅读量飙升日本政府与科技巨头联手投资数亿美元开发日语语言模型

日本政府与NEC、富士通、软银等主要科技公司合作，投资数亿美元开发文化敏感的日语语言模型。该模型将在国家超级计算机Fugaku上训练，具备至少300亿个参数，旨在解决现有模型在日本市场上的不足。研究人…

新鲜出炉，等待你的评论

阅读量飙升腾讯混元大模型官网上线，已对外开放

腾讯混元大模型在 2023 腾讯全球数字生态大会上正式亮相，并通过腾讯云对外开放。该模型是由腾讯全链路自研的通用大语言模型，拥有超千亿参数规模和超 2 万亿 tokens 的预训练语料。腾讯混元大模型…

新鲜出炉，等待你的评论

阅读量飙升云知声推出山海大模型 2.0 版参数规模达千亿

云知声推出山海大模型 2.0 版，参数规模达到千亿，并在全球大模型评测中取得了优异的成绩。模型团队通过丰富语料库和在医疗领域的突破，为实现 AGI 的进化打下了基础。

新鲜出炉，等待你的评论

阅读量飙升 AI2 发布开放数据集 Dolma: 打破 AI 语言模型的数据壁垒

艾伦人工智能研究所（AI2）发布了名为 Dolma 的开放式文本数据集，旨在促进 AI 语言模型的透明度和创新。Dolma 作为 AI2 开放式语言模型 (OLMo) 计划的核心，将为研究人员和开发者…

新鲜出炉，等待你的评论

阅读量飙升研究发现 AI 语言模型存在政治偏见

最近一项来自华盛顿大学、卡内基梅隆大学和西安交通大学的研究发现，AI 语言模型存在政治偏见。研究人员测试了 14 个模型，并使用政治指南针测试来确定模型的政治倾向。结果显示，OpenAI 的 Chat…

新鲜出炉，等待你的评论