大型语言模型相关资讯及大型语言模型相关产品

OpenAI联合创始人Andrej Karpathy宣布加盟Anthropic，发力下一代LLM研发

人工智能领域近期迎来重磅人事震荡，OpenAI联合创始人、前特斯拉自动驾驶负责人Andrej Karpathy正式宣布加入Anthropic，这一动作标志着顶级AI人才正加速向OpenAI最具实力的挑…

日本科学家发布“Sui”编程语言，宣称能让 LLM100% 准确编写代码

日本数据科学家 Takato Honda （本田崇人）近日推出了一门全新的开源编程语言 “Sui”(粋)，旨在革命性地解决大型语言模型(LLM)编写代码的准确性问题，并宣称能让 LLM 以100% …

医疗AI新突破！南洋理工发布首个电子病历处理评测标准

在现代医疗体系中，电子病历（EHR）无疑是核心数据形式，记录了患者从诊断到治疗的各项关键信息。这些数据不仅为医生提供决策支持，也推动了医疗人工智能的发展。南洋理工大学的研究团队近期推出了首个全面评测大…

MIT 推出新方法，显著提升大型语言模型计算效率

MIT 的研究团队近日发布了一项创新的计算方法，旨在提高大型语言模型（LLM）的运算效率，同时降低能源消耗。这项名为实例自适应缩放的技术，可以根据提问的复杂程度调整计算资源。研究小组的相关论文于11月…

Meta 推出 DreamGym 框架，让 AI 代理训练更高效、更安全

Meta 公司与芝加哥大学及加州大学伯克利分校的研究人员共同开发了一种新框架 ——DreamGym，旨在解决使用强化学习（RL）训练大型语言模型(LLM)代理所面临的高成本、复杂基础设施和不可靠反馈等…

谷歌 Gemini 3 Pro 模型上线 AI Studio 开发者可灵活调整参数

谷歌近日宣布，其最新大型语言模型 Gemini3即将正式发布。为了提前让开发者和研究人员体验，Gemini3Pro Preview 模型已在谷歌的 AI Studio 平台上线。AI Studio 是…

杨立昆炮轰LLM：Meta AI战略走错了方向

Meta首席AI科学家杨立昆（Yann LeCun）在离职后的首次公开访谈中直言，大型科技公司对大型语言模型(LLM)的巨额投入是“战略错误”，无法通向真正的计算机智能。他指出，LLM仅擅长“统计式文…

微博推出 VibeThinker-1.5B，低成本 AI 模型挑战大型语言模型

近日，中国社交媒体公司微博的人工智能部门推出了开源的 VibeThinker-1.5B，这是一个拥有15亿参数的大型语言模型（LLM）。该模型是基于阿里巴巴的 Qwen2.5-Math-1.5B 进行…

揭开MiniMax M2的神秘面纱：为何选择全注意力机制？

在当今人工智能迅速发展的浪潮中，MiniMax M2 作为一款新的预训练模型，吸引了众多关注。其采用的全注意力机制（Full Attention）引发了广泛讨论，许多技术专家和爱好者不禁疑惑：“为何不…

Meta 研究人员揭开大语言模型黑箱，修复 AI 推理缺陷

近日，Meta 的人工智能研究团队与爱丁堡大学合作，开发了一种新技术，能够预测大型语言模型（LLM）推理的正确性，并在发现错误时进行修复。这种名为电路基础推理验证(CRV)的方法，旨在深入观察 LLM…

AI 驱动的“数字孪生”解放工作效率:初创公司 Viven 获3500万美元种子轮融资，解决员工“不在场”痛点

内部沟通和信息协调是项目推进的常态，然而，当掌握关键信息的员工因休假或时区差异而无法及时回复时，项目进度往往被迫停滞，造成高昂的时间成本。人工智能招聘初创公司 Eightfold 的联合创始人 Ash…

HKU和美团联手破解AI数学难题：CodePlot-CoT让大模型学会用代码画图思考，性能飙升21%

大型语言模型在处理数学几何题时一直存在明显短板。无论是GPT-4.1还是Gemini-2.5-Pro，在写作、编程等任务上表现出色，但一旦遇到需要画辅助线或函数图像才能解决的数学题，就会频繁出错。问…

Meta超级智能实验室突破RAG技术瓶颈：REFRAG框架让推理速度飙升30倍

大型语言模型的效率革命正在发生。Meta超级智能实验室近日推出一项突破性技术，使大型语言模型在检索增强生成任务中的推理速度提升超过30倍。这一创新成果发表在题为《REFRAG: Rethinking …

Anthropic研究：仅需 250 份中毒文件即可轻易攻破大型 AI 模型

近日，人工智能公司 Anthropic 联合英国人工智能安全研究所及艾伦图灵研究所发布了一项重要研究，揭示了大型语言模型（LLM）在数据中毒攻击下的脆弱性。研究表明，只需250份被 “投毒” 的文件，…

Anthropic 突破性发现:仅250份中毒文件即可攻破大型 AI 模型

Anthropic 联合英国人工智能安全研究所和艾伦图灵研究所发布的一项关键研究表明，只需250份被“投毒”的文件，就能成功在大型语言模型（LLM）中植入后门，且这种攻击的有效性与模型的大小无关。挑…

斯坦福报告揭示 AI 写作泛滥:四分之一企业新闻稿带有大模型痕迹

根据斯坦福大学研究团队在 Cell Press 旗下期刊《Patterns》上发布的最新报告，大型语言模型（LLM）已在各类正式书面沟通场景中被广泛应用。该研究分析了 Newswire、PRWeb 和…

Meta 发布新模型 CWM，助力代码理解与生成

近日，Meta 的人工智能研究团队推出了一款名为代码世界模型（Code World Model，简称 CWM）的大型语言模型。这一新模型的推出，标志着代码生成技术的一个重大进步，它不仅学习代码的外观…

DeepSeek-R1 论文登上 Nature 封面，彰显人工智能推理新突破

近日，《Nature》杂志的最新一期封面论文引起了广泛关注，研究主题是 DeepSeek-R1。这项研究由梁文锋教授团队主导，内容围绕如何通过强化学习来提升大型语言模型（LLM）的推理能力。早在今年1…

瑞士科技新突破:Apertus开源模型挑战AI“黑箱”，全面公开训练细节

瑞士的科研机构正在联手挑战大型语言模型的“黑箱”现状。瑞士联邦理工学院洛桑分校（EPFL）、**苏黎世联邦理工学院（ETH Zurich）以及瑞士国家超级计算中心（CSCS）**近日发布了一款名为 A…

新工具来袭！BentoML发布llm-optimizer，助你轻松优化LLM推理性能

近日，知名开源项目 BentoML 推出了一款名为 llm-optimizer 的全新工具，旨在为开发者提供一种简单而高效的方法来优化大型语言模型（LLM）的推理性能。随着人工智能技术的迅速发展，LL…

DeepL 推出企业级 AI 智能体，挑战 OpenAI 与微软

德国初创公司 DeepL 宣布将业务从翻译拓展至企业通用 AI 智能体领域。新推出的 DeepL 智能体能跨人力资源、市场营销等部门执行重复性和耗时任务，支持自然语言指令操作。该产品基于 Dee…

360智脑推出Light-IF系列模型显著提升复杂指令遵循能力

360智脑团队宣布推出全新的Light-IF系列模型，这一创新框架旨在显著提升大型语言模型（LLM）在复杂指令遵循方面的能力。随着人工智能技术的不断进步，尽管LLM在数学、编程等领域已经展现出了卓越的…

人工智能正在降低知识的价值，大学应该重新考虑所教授的内容？

【AIbase报道】生成式人工智能，尤其是大型语言模型（LLM）的兴起，正以前所未有的速度改变知识获取的格局。奥克兰大学商学院教授帕特里克·多德在《对话》(The Conversation)上撰文指出…

腾讯 WeKnora 开源:你的文档管理难题，让 AI 来解决

在信息爆炸的时代，处理复杂的文档资料一直是企业和研究者面临的挑战。现在，腾讯开源了一款基于大型语言模型（LLM）的全新文档理解与检索工具 WeKnora，旨在帮助用户高效地从 PDF、Word、图片等…

谷歌开源结构化信息提取工具langextract，可提供精确来源定位

谷歌正式发布了一款全新的开源 Python 库 LangExtract，旨在利用大型语言模型（LLM）如 Gemini，从非结构化文本中高效提取结构化信息。这一工具的推出为开发者、数据科学家以及各行…

开源AI黑马突围!Cogito v2用机器直觉挑战DeepSeek与Claude

【AIbase 报道】近日，一家鲜为人知但备受关注的旧金山初创公司 Deep Cogito 发布了旗下 Cogito v2系列大型语言模型（LLM），试图在拥挤的开源AI赛道中突围。不同于传统的参数堆…

Mistral AI 发布人工智能模型环境影响分析，揭示可持续发展挑战

Mistral AI 是一家位于巴黎的科技公司，专注于开发开放式和开源的大型语言模型。近期，该公司对其一款大型语言模型进行了全面的生命周期分析，旨在评估人工智能技术的环境影响。这项研究由 Mistr…

OpenAI 版权诉讼新进展:《纽约时报》将可访问已删除的用户数据

在《纽约时报》起诉 OpenAI 的长期版权侵权诉讼中，案件取得了重大进展。据 Ars Technica 报道，审理此案的联邦法官已授权《纽约时报》及其共同原告《纽约每日新闻》和调查报道中心，访问 O…