内容持续更新中
圣诞节当天,知名边缘AI初创公司Liquid AI正式发布了其最新实验性模型LFM2-2.6B-Exp,这一仅有2.6B(26亿)参数的小型开源模型,在多项关键基准测试中表现出色,尤其在指令跟随能力上…
近日,OpenAI 正在测试一种新方法,旨在揭示模型的潜在问题,比如奖励黑客行为或忽视安全规则。这一新机制被称为 “忏悔”,其核心理念是训练模型在单独的报告中承认规则违反,即使原始回答存在欺骗性,仍然…
据 AIbase 报道,Anthropic 的一项最新研究揭示了人工智能模型中奖励机制操纵的深层危险:当模型学会欺骗其奖励系统时,可能会自发地衍生出欺骗、破坏以及其他形式的异常行为。这项发现为人工智能…
近日,Anthropic 发布了一项新研究,揭示了 AI 模型在奖励机制中的反常行为,显示出严格的反黑客提示可能导致更危险的结果。研究指出,当 AI 模型学会操控奖励系统时,它们会自发地产生欺骗、破坏…
Meta 公司与芝加哥大学及加州大学伯克利分校的研究人员共同开发了一种新框架 ——DreamGym,旨在解决使用强化学习(RL)训练大型语言模型(LLM)代理所面临的高成本、复杂基础设施和不可靠反馈等…
随着科技的发展,双足机器人已经成为研究的热点,但当这些复杂的机器出现意外时,它们的跌倒往往不够优雅。一次简单的推搡或障碍物,可能让机器人重重摔倒,导致内部敏感组件如摄像头受损。为了解决这一问题,瑞士迪…
最近,中国研究人员推出了一款名为 DeepEyesV2的多模态人工智能模型,它可以分析图像、执行代码并进行网络搜索。与依赖训练期间获得的知识的传统模型不同,DeepEyesV2通过智能利用外部工具,表…
今日AIGC相关新闻总结(2025年11月14日) 一、大模型领域:头部企业迭代核心产品,技术路线差异化显著 1. 百度文心大模型 5.0 正式发布:原生全模态成关键突破 核心参数与技术:参数量达 2…
据techbuzz报道,总部位于上海的 AgiBot 公司近日攻克了一项工业自动化的关键难题——只需 10分钟 即可教会机器人完成复杂的制造任务。这项突破性的技术有望重新定义全球制造业的生产方式。 A…
AI Agent工具正在经历一场“平民化”革命。近日,初创平台Pokee AI凭借“用一句话创建智能工作流”的极致体验迅速走红,彻底打破传统AI Agent开发的复杂门槛。用户只需输入类似“总结上周会…
微软近日发布了 Agent Lightning,这是一个开源框架,旨在通过强化学习(RL)优化多代理系统。Agent Lightning 可以在不改变现有代理架构的情况下,将真实代理行为转化为 RL …
近日,AI新锐团队Thinking Machine发布突破性训练方法——在线策略蒸馏(On-Policy Distillation),让小模型在特定任务上的训练效率提升高达50至100倍。该成果一经公…
在最近举办的 RL China 2025 开幕式上,伦敦大学学院的汪军教授与 “强化学习之父” Richard Sutton 进行了深入对话,探讨了智能的本质和未来发展方向。汪军教授作为智能信息系统领…
近日,《Nature》杂志的最新一期封面论文引起了广泛关注,研究主题是 DeepSeek-R1。这项研究由梁文锋教授团队主导,内容围绕如何通过强化学习来提升大型语言模型(LLM)的推理能力。早在今年1…
随着 AI 技术的不断进步,如何让大模型具备 “并行思维” 能力,成为了研究者们关注的热点话题。最近,腾讯 AI Lab 联合多所高校的研究团队推出了一个名为 Parallel-R1的全新强化学习(R…
2025年9月11日上午,2025Inclusion·外滩大会在上海黄浦世博园区拉开帷幕。大会开幕主论坛上,2024年图灵奖得主、“强化学习之父”理查德·萨顿发表主旨演讲。他指出,人类数据红利正逼近极…
作为国内首个并行思考模型,问小白o4 最大的本事是能同时开八个“脑洞”琢磨你的问题,自动筛选最优思考路径,答案精准度飙升! 现Web/APP端全量上线啦!访问官网 wenxiaobAI.com,即可体…
微软研究院推出一款名为Agent Lightning的全新强化学习训练框架,旨在解决当前AI代理系统训练过程中面临的通用性和灵活性挑战。该框架通过创新的解耦设计,能够对不同架构的AI代理进行统一的强化…
2022年,当 ChatGPT 席卷全球时,OpenAI 内部一个名为 MathGen 的小团队正默默致力于一项更为基础的研究:教 AI 模型进行数学推理。如今,这项工作已成为 OpenAI 打造 A…
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种…
近日,南京大学的周志华教授团队发布了一项重要研究,首次理论证明了在大语言模型中可以发现内源性奖励模型,并有效应用强化学习(RL)来提升模型表现。 当前,许多对齐方法依赖于人类反馈强化学习(RLHF),…
近日,来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习(RL),在视觉生成任务中显著提升了 AI 的语义和空间推理能…
近日,小鹏汽车创始人何小鹏在社交媒体上透露,作为将 “智能化” 作为核心的车企之一,小鹏汽车的本质定位在于 “AI 汽车公司”。他强调,人工智能(AI)最大的价值不仅在于数字世界的应用,更在于能够改变…
在人工智能技术日益普及的今天,DeepSeek与清华大学的合作引起了业界的广泛关注。作为一家中国初创公司,深思科技以其在低成本推理模型方面的突破而闻名,而这一次,他们希望通过与清华大学的学术合作,进一…