视觉语言模型相关资讯及视觉语言模型相关产品 | 第 2 页 | 七个圈

首页
标签
视觉语言模型
全部文章

视觉语言模型

35篇

内容持续更新中

["AI生成模特"

#StarterPackNoAI

00后天才

00后导演

1-bit精度训练

1. OCR技术2. PaddleOCR算法模型挑战赛3. 场景文本识别算法SVTRv24. 表格识别算法SLANet-LCNetV2

1.4万亿美元

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

阅读量飙升

智源研究院推出新一代无编码器视觉语言多模态大模型EVE

近期，多模态大模型的研究和应用取得了显著进展。国外公司如OpenAI、Google、Microsoft等推出了一系列先进的模型，国内也有智谱AI、阶跃星辰等机构在该领域取得了突破。这些模型通常依赖视觉…

七个圈

阅读量飙升清华大学研发新视觉语言模型CogAgent，深化GUI理解与导航

清华大学智普AI团队推出CogAgent，该视觉语言模型专注于改善对图形用户界面(GUI)的理解与导航，采用双编码器系统处理复杂GUI元素。模型在高分辨率输入处理、PC和Android平台的GUI导航…

新鲜出炉，等待你的评论

暂无评论，快留下你的脚印吧！还可以领现金哦~

七个圈

阅读量飙升智谱 AI 开源视觉语言模型 CogAgent，支持 GUI 图形界面问答

智谱 AI 开源了 CogAgent，这是一个视觉语言模型，拥有 180 亿参数规模。CogAgent 在 GUI 理解和导航方面表现出色，在多个基准测试上取得了 SOTA 的通用性能。模型支持高分辨…

新鲜出炉，等待你的评论

暂无评论，快留下你的脚印吧！还可以领现金哦~

七个圈

阅读量飙升谷歌发布小体量PaLI-3视觉语言模型，实现SOTA性能

谷歌发布了名为PaLI-3的小体量视觉语言模型，取得SOTA水平性能。采用对比预训练方法，深入研究了视觉-文本（VIT）模型的潜力，达到多语言模态检索的SOTA水平。PaLI-3将自然语言理解和图像识…

新鲜出炉，等待你的评论

暂无评论，快留下你的脚印吧！还可以领现金哦~

七个圈

阅读量飙升夕小瑶科技说 | 别再吹 GPT-4V 了!连北京烤鸭都不认识,你敢信??

针对最近备受关注的视觉语言模型GPT-4V,有研究者构建了一个新基准测试HallusionBench用于检验其图像推理能力。结果发现,GPT-4V等模型在HallusionBench中表现不佳,易受自…

新鲜出炉，等待你的评论

暂无评论，快留下你的脚印吧！还可以领现金哦~

七个圈

阅读量飙升通义千问能看图了!阿里云开源视觉语言大模型Qwen-VL ,支持图文双模态输入

阿里云开源了视觉语言模型Qwen-VL,这是继8月开源通用模型Qwen-7B和对话模型Qwen-7B-Chat之后,又一个开源的大模型。Qwen-VL支持中英文,可以进行知识问答、图像标题生成、图像问…

新鲜出炉，等待你的评论

暂无评论，快留下你的脚印吧！还可以领现金哦~

七个圈

阅读量飙升阿里云通义千问再开源:多模态大模型Qwen-VL

8月25日,阿里云推出大规模视觉语言模型Qwen-VL,支持中英文多语种,具备文本和图像的联合理解能力。Qwen-VL基于阿里云此前开源的通用语言模型Qwen-7B,相较其他视觉语言模型,Qwen-V…

新鲜出炉，等待你的评论

暂无评论，快留下你的脚印吧！还可以领现金哦~

七个圈

贡献榜

贡献文章数

七个圈

七个圈

关注AI领域动态，传递精准资讯，助力读者洞悉AI行业的最新资讯。

创米

AI学习引路人，专注编写、收集整理AI知识，为学习者提供清晰、实用的学习内容。

AI情报

AI情报

向圈友们分享AIGC活动招募信息，共建内容，分享自己的学习心得、交流经验。

AI领航员

AI领航员

AI变现策略探索者，乐于向个人创业者分享AI技术如何助力创新与变现。