PaliGemma 2在图像描述、乐谱识别、医学图像报告生成等多项任务上取得了业界领先的成果;并提供不同尺寸和分辨率的版本,用户可以根据不同的任务要求进行微调,以获得更好的效果。良好的表现。
OpenAI的发布会就像一部电视剧,让人眼花缭乱。谷歌还悄然发布了PaliGemma 2模型,迈向下一代可调整视觉语言模型。
今年5月,谷歌发布了PaliGemma,这也是Gemma家族中的第一个视觉语言模型。它致力于使模型民主化并降低视觉模型的使用难度。
PaliGemma 2 模型建立在更高性能的 Gemma 2 的基础上,增加了视觉功能、更容易的微调和更好的性能。
技术报告分析了任务类型、模型大小和分辨率之间的交互作用,相比PaliGemma进一步扩大了迁移任务的数量和范围,包括OCR相关任务,如表格结构识别、分子结构识别、乐谱识别等。 ,以及更长、更细粒度的图像描述和放射学报告生成,并在这些任务上取得了最先进的结果。
举报链接:
PaliGemma 2 的主要特点是:
1、模型尺寸包括3B、10B、28B参数,可以适应任务分辨率为224px、448px、896px的视觉输入。
2. PaliGemma 2 可以为图像生成详细的、上下文相关的描述,超越简单的对象识别来描述动作、情感和场景的整体叙述。
3、PaliGemma 2在化学式识别、乐谱识别、空间推理、胸部X光报告生成等方面有更强的表现。
PaliGemma 第 1 代的用户可以直接升级到 PaliGemma 2,无需进行重大代码修改即可获得性能改进。
模型架构
研究人员遵循与 PaliGemma 相同的建模、训练和数据设置:使用预训练的 SigLIP-So400m 视觉编码器,通过线性投影将“嵌入序列”映射到 Gemma 2 的输入空间;视觉嵌入与文本提示结合后,输入到Gemma 2语言模型;最后通过自回归采样得到语言模型的预测。
研究人员将 PaliGemma 2 的预训练分为三个阶段(不包括单模态组件的预训练)。
第一阶段,将预训练的SigLIPSo400m和Gemma 2的原始模型权重结合起来,在超过10亿个多模态任务样本上进行训练;图像分辨率为224*224像素;此阶段没有冻结任何参数。
第二阶段,首先在448*448像素的分辨率下训练5000万个样本,然后在896*896像素的分辨率下训练1000万个样本。在任务选择方面,增加“可以受益于高分辨率图像的任务”的比例,并增加输出序列的长度,以促进长视觉文本序列的OCR等任务的学习。
在第三阶段,第一阶段或第二阶段的检查点针对目标任务进行微调。 PaliGemma 包含一系列学术基准,其中一些涉及多个图像和短视频。
此外,研究人员还探索了文档相关任务、长图像描述生成和医学图像理解的新应用。
实验结果
研究人员在文本检测和识别、表格结构识别、分子结构识别、光学乐谱识别、长图像描述生成、空间推理和射线照相报告生成等任务上测试了 PaliGemma 2。表现。
模型尺寸和分辨率
研究人员探索了不同尺寸和分辨率的模型如何在各种任务中执行,选择三种尺寸(3B、10B 和 28B)并以两种不同的图像清晰度(224 像素和 448 像素)运行它们。 ),任务包括图像描述、视觉问答以及自然照片、文档、图表和视频的参考分割。
从结果中可以发现,让模型处理更高清的图像或者使用更大尺寸的语言模型会增加预测时的计算量,但大多数任务都可以从这两个改进中获得性能提升。
涉及理解文本、文档、屏幕和图表的任务对于提高图像清晰度有更大的好处,可能是因为这些任务中使用的图像的原始分辨率大于224像素,因此提高分辨率的效果更明显。
涉及多语言数据或需要复杂视觉推理的任务主要受益于模型大小的增加。
文本检测和识别
在高级光学字符识别(OCR)任务中,模型需要从图像中定位和识别单词。输出结果是数据对“转录文本,边界框”。研究人员遵循 HierText 竞赛规则并使用单词级准确性。 、召回率和F1分数作为评价指标。
如果单词结果与真实边界框之间的交集比 (IoU) 大于或等于 0.5,并且转录文本与真实文本匹配,则单词结果被视为真阳性,但 HierText 协议不规范字母大小写和标点符号。 ,也不会根据文本长度进行过滤,而是直接将预测结果与真实结果进行比较。
研究人员使用常见的 OCR 基准对 PaliGemma 2 进行了微调,包括 ICDAR'15、Total-Text、MLT17 和 MLT19、HierText、TextOCR、IntelOCR 以及其他多个数据集的训练分割混合,并在 ICDAR'15 上进行了执行并在全文本测试集。
结果表明,在 896 像素分辨率下,PaliGemma 2 3B 的性能优于最先进的 HTS 模型。
应该注意的是,PaliGemma 2 不依赖于 OCR 特定的架构组件。它仅通过微调通用视觉语言模型(VLM)来实现sota,展示了PaliGemma 2的多功能性,并在第二章和第三章中进行了介绍。 OCR相关预训练分3个阶段的优点。
降低分辨率后,预测质量显着下降,增加模型尺寸并没有带来改善。
表结构识别
表格结构识别任务的目标是从文档图像中提取表格文本内容、相应的边界框坐标和HTML格式的表格结构。
研究人员从 PubTabNet 数据集中选取了 516k 个表格数据图像,并从 FinTabNet 数据集中的标普 500 公司年报中选取了 113k 个财务报告表格。删除边界框超出图像帧的数据后,将图像填充到正方形中以匹配目标输入分辨率。
研究人员使用树编辑距离相似度(TEDS)和网格表相似度(GriTS)两个指标来评估模型质量,主要衡量单元格文本内容、单元格拓扑/结构和边界框质量。
结果表明,PaliGemma 2在大多数指标下表现出最高的性能,并且增加模型尺寸并不会提高模型的性能,而使用较低的图像分辨率会导致质量的小幅下降。
乐谱识别
研究人员使用GrandStaff数据集进行微调,该数据集包含53.7k张图像,并根据归一化平均编辑距离、字符错误率(CER)、符号错误率(SER)和行错误率(LER)进行评估。
结果表明,随着分辨率的提高,错误率逐渐下降,但将模型大小从3B增加到10B并不影响性能。
辐射报告生成
为了探索 PaliGemma 2 在医学领域的能力,研究人员将其用于自动生成胸部 X 射线报告的任务,相当于 X 射线图像的长描述。
MIMICCXR数据集包含377,000张图像和相应的放射学报告; Gemini 1.5 pro用于去除之前数据中覆盖的X射线。
使用这些数据进行微调后,使用 RadGraph F1 分数对结果进行评估,该分数测量参考报告中提取的实体与生成报告中提取的实体之间的 F1 分数,可以反映报告中实体的缺失或召回,如下以及与图像特征的关系。
可以看到,PaliGemma 2模型取得了最好的性能,增加分辨率和模型尺寸可以带来性能的提升。
CPU 推理和量化
为了评估仅 CPU 推理的速度,研究人员在四种不同的架构上使用 gemma.cpp 运行 PaliGemma 2 模型,并使用在 COCOcap 上微调的 PaliGemma 2 3B(224 像素)模型进行检查点。
提示词“描述该图像”的预填充长度为256+4=260个令牌(图像+文本),输出回复“水上有两座塔的大型建筑”为11个令牌
研究人员还对该模型进行了定量实验,从 32 位浮点(f32)权重转换为 16 位(bf16)权重,结果表明性能差异并不显着。
参考:
本文来自微信公众号“新智元”,作者:LRS,36氪经授权发布。