视觉理解相关资讯及视觉理解相关产品

快手旗舰 Keye-VL-671B-A37B 重磅发布，多模态推理能力实现新突破

快手近日正式发布其新一代旗舰多模态模型 Keye-VL-671B-A37B，并同步开放代码。这一模型以其 “善看会想” 的特性，在通用视觉理解、视频分析和数学推理等多项核心 benchmark 中表现…

硅基流动平台上线阿里 Qwen3-VL 模型，全面提升视觉认知能力

近日，硅基流动平台上线了阿里最新发布的 Qwen3-VL 系列开源模型，这一系列模型在视觉理解、时序分析以及多模态推理方面取得了显著进步。针对图像模糊、视频复杂、关键时刻瞬间即逝等难题，Qwen3-V…

Gemini2.5Computer Use:谷歌推出“看”懂网页的 AI 代理模型

谷歌近日预览了一款全新的 Gemini AI 模型——Gemini2.5Computer Use，旨在赋予 AI 代理通过浏览器导航和交互网页的能力。这款模型利用其强大的“视觉理解和推理能力”，能够像…

火山引擎发布豆包大模型1.6-vision 视觉理解能力实现重大突破

火山引擎今日发布了其最新的人工智能产品 —— 豆包大模型1.6-vision。这一版本的发布标志着在视觉理解领域的一次重要突破，进一步推动了 AI 技术的进步与应用。豆包大模型1.6-vision …

夸克AI超级框升级上线“拍照问夸克”功能：啥都能答

4月25日，阿里巴巴旗下的夸克AI超级框宣布推出一项创新功能——“拍照问夸克”。这一新功能基于先进的视觉理解和思考推理模型，能够更精准地理解和回答用户在物理世界中遇到的各类问题。在日常生活中，用户常…

火山引擎发布豆包1.5深度思考模型：结合视觉理解与智能项目管理

在近日举行的火山引擎FORCE LINK AI创新巡展上，火山引擎总裁谭待正式公布了豆包1.5深度思考模型，标志着这一创新技术将正式面向企业提供服务。豆包1.5不仅在基础功能上进行了升级，还引入了更多…

阿里云通义开源Qwen2.5-VL，视觉AI超越Claude 3.5

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL，并推出了3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，超越了GPT-4o与Cla…