内容持续更新中
微软近日发布了 Agent Lightning,这是一个开源框架,旨在通过强化学习(RL)优化多代理系统。Agent Lightning 可以在不改变现有代理架构的情况下,将真实代理行为转化为 RL …
近日,AI新锐团队Thinking Machine发布突破性训练方法——在线策略蒸馏(On-Policy Distillation),让小模型在特定任务上的训练效率提升高达50至100倍。该成果一经公…
在最近举办的 RL China 2025 开幕式上,伦敦大学学院的汪军教授与 “强化学习之父” Richard Sutton 进行了深入对话,探讨了智能的本质和未来发展方向。汪军教授作为智能信息系统领…
近日,《Nature》杂志的最新一期封面论文引起了广泛关注,研究主题是 DeepSeek-R1。这项研究由梁文锋教授团队主导,内容围绕如何通过强化学习来提升大型语言模型(LLM)的推理能力。早在今年1…
随着 AI 技术的不断进步,如何让大模型具备 “并行思维” 能力,成为了研究者们关注的热点话题。最近,腾讯 AI Lab 联合多所高校的研究团队推出了一个名为 Parallel-R1的全新强化学习(R…
2025年9月11日上午,2025Inclusion·外滩大会在上海黄浦世博园区拉开帷幕。大会开幕主论坛上,2024年图灵奖得主、“强化学习之父”理查德·萨顿发表主旨演讲。他指出,人类数据红利正逼近极…
作为国内首个并行思考模型,问小白o4 最大的本事是能同时开八个“脑洞”琢磨你的问题,自动筛选最优思考路径,答案精准度飙升! 现Web/APP端全量上线啦!访问官网 wenxiaobAI.com,即可体…
微软研究院推出一款名为Agent Lightning的全新强化学习训练框架,旨在解决当前AI代理系统训练过程中面临的通用性和灵活性挑战。该框架通过创新的解耦设计,能够对不同架构的AI代理进行统一的强化…
2022年,当 ChatGPT 席卷全球时,OpenAI 内部一个名为 MathGen 的小团队正默默致力于一项更为基础的研究:教 AI 模型进行数学推理。如今,这项工作已成为 OpenAI 打造 A…
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种…
近日,南京大学的周志华教授团队发布了一项重要研究,首次理论证明了在大语言模型中可以发现内源性奖励模型,并有效应用强化学习(RL)来提升模型表现。 当前,许多对齐方法依赖于人类反馈强化学习(RLHF),…
近日,来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习(RL),在视觉生成任务中显著提升了 AI 的语义和空间推理能…
近日,小鹏汽车创始人何小鹏在社交媒体上透露,作为将 “智能化” 作为核心的车企之一,小鹏汽车的本质定位在于 “AI 汽车公司”。他强调,人工智能(AI)最大的价值不仅在于数字世界的应用,更在于能够改变…
在人工智能技术日益普及的今天,DeepSeek与清华大学的合作引起了业界的广泛关注。作为一家中国初创公司,深思科技以其在低成本推理模型方面的突破而闻名,而这一次,他们希望通过与清华大学的学术合作,进一…
近年来,具身智能备受瞩目,从春晚舞台上的机器人精彩演出,到被政府工作报告提及,再到英伟达CEO黄仁勋的多次推崇,它已成为人工智能领域的热点。具身智能的目标是让机器人在真实世界中如人类般精准感知并灵活反…
腾讯近日推出了全新大型语言模型——混元-T1,并声称其推理能力与OpenAI的顶尖推理系统不相上下。据腾讯披露,混元-T1在研发过程中深度依赖强化学习,训练后高达96.7%的算力都致力于提升模型的逻辑…
金融科技领域迎来一位引人注目的人才。由上海财经大学统计与数据科学学院的张立文教授团队(SUFE-AIFLM-Lab)与财跃星辰共同研发的Fin-R1模型现已正式开源,其卓越性能引起了业界的广泛关注。这…
波士顿动力公司展示最新Atlas机器人的超凡动作能力,通过强化学习和动作捕捉技术,实现更自然、更灵活的类人动作,受到广泛关注。
波士顿动力展示了最新动作能力突破,Atlas机器人逼近人类水平。通过强化学习和动作捕捉技术,Atlas展现更自然、更灵活的类人动作,推动人形机器人应用。
近日,小米大模型团队在音频推理领域的研究中取得了突破性进展,成功应用强化学习算法于多模态音频理解任务,准确率达到了64.5%,这一成就使其在国际权威的 MMAU 音频理解评测中夺得了第一名。这一成果的…
小米技术官方微博宣布,小米大模型团队在音频推理领域取得了显著进展。他们在受到 DeepSeek-R1的启发后,率先将强化学习算法应用于多模态音频理解任务。团队在短短一周内便以64.5% 的 SOTA(…
3月16日,在文心一言正式发布两周年后,百度发布了多模态大模型文心4.5和对标DeepSeek的文心X1。今日文心大模型4.5在百度智能云千帆大模型平台上线,输入价格为0.004元/千tokens;文…
有消息称,AI大模型独角兽MiniMax将收购深圳AI视频生成创企鹿影科技(Avolution.ai),双方目前已经敲定收购意向,相关流程还在持续进行。对此,MiniMax暂无回应。从知情人士处了解到…
近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和…