内容持续更新中
近期,Meta 的 FAIR 团队与耶路撒冷希伯来大学的研究人员联合发布了一项新研究,表明减少大型语言模型的推理时间可以显著提高其在复杂推理任务中的表现。研究结果显示,使用较短推理链的 AI 模型准确…
Ollama官方宣布推出其最新版本Ollama v0.8,为本地运行大型语言模型(LLM)带来了突破性升级。新版本引入了流式传输响应和工具调用功能,支持实时网络搜索等交互场景,显著提升了本地AI的实用…
Mistral 公司近日发布了其全新的 Agents API,这是一个专为开发者设计的框架,旨在简化 AI 代理的创建,代理可以执行多种任务,例如运行 Python 代码、生成图像以及进行检索增强生成…
在近年来的人工智能研究中,思维链的概念越来越受到重视,尤其是在大型语言模型的训练和推理中。最近,西湖大学 MAPLE 实验室的齐国君教授团队首次提出了一种新颖的 “扩散式发散思维链”,这是一种为扩散语…
阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A22…
近日,OpenAI 推出了其新一代人工智能模型 ——GPT-4.1,声称在遵循用户指令方面表现优异。然而,令人意外的是,多项独立测试的结果显示,GPT-4.1的对齐性和稳定性较之前的版本有所下降,尤其…
谷歌近期推出了 Gemma3系列的全新版本,这一消息让众多 AI 爱好者为之振奋。仅在上线一个月后,谷歌便发布了经过量化感知训练(QAT)优化的 Gemma3,旨在显著降低内存需求的同时,保持模型的高…
OpenAI 最近悄悄发布了一份 《构建 Agent 实战指南》 (A practical guide to building agents),简直就是一份“AI 打工人”的养成手册!今天,老司机我就…
在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道…
人工智能领域领军企业 OpenAI 近日重磅发布了一份名为“构建智能体实践指南”("A practical guide to building agents")的实用性文档。这份共…
近日,微软研究团队正式发布了一款名为 BitNet b1.582B4T 的开源大型语言模型。这款模型拥有20亿参数,采用了独特的1.58位低精度架构进行原生训练,与传统的训练后量化方式相比,BitNe…
在今年的达沃斯世界经济论坛上,众多商界和政界领袖齐聚一堂,普遍认为美国科技巨头在人工智能(AI)领域占据主导地位,而中国乃至整个亚洲似乎都在这一赛道上滞后。然而,在与会者离开后,这种看法开始遭遇挑战。…
近日,Gartner 发布了一份新报告,指出到2027年,企业将使用任务特定的人工智能模型的频率是通用大型语言模型的三倍。报告中提到,虽然通用的语言模型在语言处理方面具有强大的能力,但在需要深入理解特…
北京智谱华章科技有限公司(以下简称智谱)全新官方网站 https://z.ai 已全面上线。据 AIbase 了解,该平台集成了最新的对话、推理与沉思三款 GLM 模型,自今日起全面向全球用户免费开放…
近日,Google 宣布推出一款名为 DolphinGemma 的大型语言模型,旨在帮助科学家们更深入地理解海豚的交流方式。这项新技术由 Gemini2.5Pro Experimental 驱动,并与…
在快速发展的语言模型领域,研究人员和组织面临着诸多挑战。这些挑战包括提升推理能力、提供强大的多语言支持以及有效管理复杂的开放任务。尽管较小的模型通常更容易获得且成本较低,但在性能上往往不及更大的模型。…
人工智能领域再添一颗耀眼新星!近日,华为诺亚方舟实验室与香港大学自然语言处理组(HKU NLP Group) 联合发布了名为 Dream7B 的全新语言模型。这款模型被誉为“迄今为止最强大的开源扩散大…
近期,苹果公司在人工智能领域的新动态引起了广泛关注。根据彭博社记者马克・古尔曼的最新报道,苹果计划在即将推出的 iOS19系统中,显著增强其 “Apple Intelligence” 人工智能技术的应…
Mozilla 最近通过其 Mozilla Builders 计划推出了一款名为 LocalScore 的工具,旨在为本地大型语言模型(LLM)提供便捷的基准测试。该工具兼容 Windows 和 Li…
亚马逊于2015年成立了 Alexa 基金,最初旨在支持早期语音技术初创企业。随着大型语言模型的崛起以及亚马逊推出基于生成性人工智能的 Alexa+,该基金决定扩展投资范围,更多地关注人工智能初创企业…
腾讯近日推出了全新大型语言模型——混元-T1,并声称其推理能力与OpenAI的顶尖推理系统不相上下。据腾讯披露,混元-T1在研发过程中深度依赖强化学习,训练后高达96.7%的算力都致力于提升模型的逻辑…
在人工智能领域,阿里巴巴近日公布了一则引人瞩目的消息:他们开源了最新的多模态模型——Qwen2.5-VL-32B-Instruct。作为Qwen2.5系列的新成员,这款32B版本的模型在维持高性能的同…
中国人工智能初创公司DeepSeek近期低调发布了大型语言模型DeepSeek-V3-0324,这一举动在人工智能领域引起了不小的震动。该模型以惊人的641GB体积亮相于AI资源库Hugging Fa…
DeepSeek 悄然发布了最新大型语言模型 DeepSeek-V3-0324,在人工智能行业引发了强烈震动。这款容量高达641GB的模型在 AI 模型库 Hugging Face 上低调亮相,延续了…
DeepSeek 悄然发布了最新大型语言模型 DeepSeek-V3-0324,在人工智能行业引发强烈震动。这款容量高达641GB的模型意外亮相于AI模型库Hugging Face,延续了该公司低调却…