标签：视觉语言模型

欢迎 PaliGemma 2 – 来自 Google 的新视觉语言模型

我们很高兴迎来 Google 全新的视觉语言模型 PaliGemma 2，这是 PaliGemma 的一个新版本。与其前代产品一样，PaliGemma 2 使用强大的 SigLIP 进行视觉处理，但...

4个月前

Florence-2 是微软于 2024 年 6 月发布的一个基础视觉语言模型。该模型极具吸引力，因为它尺寸很小 (0.2B 及 0.7B) 且在各种计算机视觉和视觉语言任务上表现...

9个月前

PaliGemma 是 Google 推出的新一代视觉语言模型家族，能够接收图像与文本输入并生成文本输出。 Google 团队已推出三种类型的模型：预训练（PT）模型、混合模...

11个月前

我们很高兴在此发布 Idefics2，这是一个通用的多模态模型，接受任意文本序列和图像序列作为输入，并据此生成文本。它可用于回答图像相关的问题、描述视觉内容...

11个月前

视觉语言模型可以同时从图像和文本中学习，因此可用于视觉问答、图像描述等多种任务。本文，我们将带大家一览视觉语言模型领域: 作个概述、了解其工作原理、...

11个月前