内容持续更新中
谷歌DeepMind提出了OPRO框架,使用大语言模型(LLM)进行优化,利用自然语言描述解决方案。其中「深呼吸」成为最佳Prompt提示词,提高模型性能。OPRO还在数学问题中表现出潜力,验证了提示…
本文探讨了大语言模型(LLM)研究中的十大挑战,包括减少和衡量幻觉、优化上下文长度和上下文构建、融入其他数据模态、提高LLMs的速度和降低成本、设计新的模型架构、开发GPU替代方案、提高agent的可…
淘天集团联合爱橙科技开源了大模型训练框架 Megatron-LLaMA,旨在提升大语言模型的训练性能,降低训练成本,并与 LLaMA 社区保持兼容性。框架在 32 卡训练上能够取得 176% 的加速,…
最近百度、抖音等8家国内AI企业开放了各自研发的大模型。这对普通用户来说是一个利好,可以不需要内测就能体验国产大模型。目前这些模型的知名度和影响力还不如ChatGPT。但这些模型都具有提升工作效率的潜…
商汤旗下的大语言模型应用 SenseChat 正式开放服务。SenseChat 提供智能助手、文本编辑器、智能伙伴等多项功能,并已与多个行业建立合作,服务超过 500 家客户。
美国艾伦人工智能研究所最近发布了名为 Dolma 的开源数据集,包含了 3 万亿个 token。这个数据集将为 AI2 正在开发的开放语言模型 OLMo 提供基础,计划于 2024 年初发布。Dolm…
谷歌 AI 研究团队提出了一种利用大型语言模型进行个性化文本生成的通用方法。他们采用多阶段多任务结构,包括检索、排序、摘要、合成和生成,训练大语言模型进行个性化文本生成。在三个公开数据集上验证了该方法…