发布信息

多模态大语言模型对齐算法的应用场景与创新方法解析

作者:软荐小编      2025-03-24 09:01:39     151

应用场景与代表性方法

应用场景

文章对多模态大语言模型(MLLM)对齐算法的应用场景进行了介绍,这些场景分为三大层次:

通用图像理解与多模态o1

一般图像理解

MLLM 对齐算法的最初想法是处理多模态系统里的幻觉问题。最近的研究显示,这些算法不但可以提升对幻觉的处理效果,还能够增强模型在安全性、对话能力以及推理能力等多个方面的功能属性。

本节将系统地介绍几种创新的方法,这些方法按照其主要应用场景进行分类,包括减少幻觉和提升其他能力。

减少幻觉

MLLM对齐算法的最初设计目的是减少幻觉现象。

Fact-RLHF 是首个多模态的 RLHF 算法,它利用 10K 个人工标注的样本对奖励模型进行了训练,并且引入了多种机制,包括每个 token 的 KL 惩罚、事实信息校准以及正确性和长度惩罚等。

DDPO通过提高更正数据的权重,进一步优化了标准的DPO。

HA-DPO利用 MLLM 来生成图像描述。接着,通过 GPT-4 去验证幻觉情况。并且,对正负样本进行重写操作。此外,还加入了辅助的因果语言建模损失,以此来减少幻觉现象。

mDPO 引入视觉损失函数以解决视觉信息忽视的问题,同时增加锚定机制来避免选定响应的概率下降。

提升综合能力

除了减少幻觉,一些算法还专注于提升模型的多方面能力。

Silkie 收集了多样的指令数据集,并且使用 GPT-4V 对生成的响应进行评估,以此为应用 DPO 提供了偏好数据。CLIP-DPO 利用 CLIP 分数给数据做标注,同时应用 DPO 损失,进而在幻觉减缓和零样本分类任务的表现上都得到了提升。

SIMA 构建偏好对的方式是让模型对其生成的响应进行自我评估,这种方式进一步提升了多图像任务的表现。

近期,MM-RLHF 等方法借助更丰富多样的数据以及更先进的算法,使得 alignment 的效果得以进一步提高。

多模态o1发展

DeepSeek-R1的流行给MLLM社区带来了新的启示。

LMM-R1 运用的是纯文本数学数据集,它通过 RLOO 进行训练,并且在多模态数学基准方面取得了进步。

Open-R1-Video提升了模型在视频领域的表现,其利用的是 GRPO 方法。

VLM-R1 把 R1 方法应用于处理指代表达理解任务,从而进一步拓展了多模态推理的能力。

多图像、视频和音频

文章在这一部分讨论了多音频任务中的挑战和解决方法。

扩展多模态应用

文章介绍了在特定领域的扩展应用,同时提出了针对性更强的对齐方法。

作者对多模态大语言模型的不同应用场景进行了分析,详细地介绍了多种算法和方法,这些算法和方法涵盖了从通用图像理解到特定领域应用的各个方面。

展示了可以通过优化对齐算法达到减少幻觉现象的目的,还能提升模型在不同任务中的综合能力,尤其在视频、音频、医学、数学等复杂领域能够应用。

这些方法不断得到优化,MLLM 会在更多的领域把它强大的处理能力展现出来。

下表总结了目前alignment策略常见的损失函数形式:

_院士领衔万字长文,全面系统梳理多模态LLM对齐算法_院士领衔万字长文,全面系统梳理多模态LLM对齐算法

MLLM对齐数据构造与现有数据总结

主要内容总结

在多模态大型语言模型(MLLM)的研究领域里,对齐数据集是极为重要的组成部分。因为多模态数据集的构建过程涵盖了众多的数据来源,以及各种不同的生成方法和注释技术。所以,研究者们针对不同的构建方法进行了分类。

_院士领衔万字长文,全面系统梳理多模态LLM对齐算法_院士领衔万字长文,全面系统梳理多模态LLM对齐算法

这些数据集可以分为两类。一类是引入了外部知识的数据集。另一类是依赖自我标注的数据集。

研究者通过这些分类,能够更清晰地知晓不同数据集的特点,之后便可为多模态系统的优化给予支持。

作者全面地对现有的 MLLM 对齐数据集进行了分类,同时也进行了分析。详细地介绍了不同构建方法各自的优缺点,以及它们的应用场景。研究主要将注意力集中在以下几个方面:

这项工作让研究者们能够更清晰地理解多模态数据集的构建策略,从而为未来的研究提供有力的支持。

引入外部知识的数据集

LLaVA-RLHF收集了 10k 个样本,是通过人工选择正负响应的方式;RLHF-V 收集了 1.4k 个样本,是通过人工修正幻觉响应的方式。

LRV-Instruction 借助 GPT-4 生成了 400k 个视觉指令,这些视觉指令涵盖了 16 个视觉语言任务。

INTERACTIVECOT构建了具身智能的偏好数据集,并且是通过预定义分数来构建的。

自我标注的数据集

SQuBa利用微调后的模型来生成负样本,接着把生成的负样本和正样本进行 DPO 对比。SymDPO把 VQA 数据以及分类数据转变为 ICL 格式,以此来强化视觉学习。

Image DPO 构建 DPO 偏好对的方式是对图像进行扰动,像高斯模糊或者像素化等操作,同时保持文本不变。

AdPO 构建了原始图像及其模型响应的偏好对,同时也构建了对抗图像及其模型响应的偏好对。在优化过程中,原始图像及其模型响应的偏好对的图像和文本内容与对抗图像及其模型响应的偏好对的图像和文本内容在正负样本中是不同的。

实验发现

在实验部分,研究发现:

数据集规模与质量存在平衡关系:引入外部知识的数据集,可提升数据质量,不过也使构建成本增加。自我标注的方法虽能大规模生成数据,然而由于 MLLM 的性能受限,当前自我标注数据集的质量依然较低,并且存在一定的分布偏移问题。

自动化数据增强技术发展后,未来的自我标注方法可能会解决当前数据质量低的问题,还能提高数据的多样性和可信度。

未来的研究需要关注如何在保证数据质量的情况下,提高数据集的规模。

模型评估

现有的MLLM对齐评估基准被分为六个关键维度:

通用知识用于评估基础能力,幻觉用来衡量生成内容与事实的一致性,安全性用于评估响应中降低风险的能力,对话用于测试模型是否能输出用户要求的内容,奖励模型用于评估奖励模型的表现,以及与人类偏好的对齐。

通用知识

大多数基准会把高质量、人工注释的数据集放在优先考虑的位置,这些数据集是专门为实际应用场景而量身定制的。

MME-RealWorld拥有 13K 张图像所提供的 29K 个问答对,MMMU 拥有源自学术来源的 11.5K 个问题。MMStar 通过降低数据泄漏以及突出视觉依赖性来提升可靠性。

许多基准引入了创新的方法。比如 MMBench 有双语评估以及 Circulareval。MMT-Bench 则有用于域内外分析的任务图。还有 Blink 专注于视觉感知任务。这些框架提升了评估的精度,也揭示了模型的局限性。

任务往往需要具备高级的多模态推理能力,像 MathVista 所具备的数学视觉整合能力,SQA3D 所拥有的 3D 情境问答能力,还有 MMMU 对图表和地图的覆盖能力。

这些基准推动模型去解决跨学科的挑战。它们通过策划一些具有挑战性且细粒度的任务,比如 MVBench 中的时间理解以及 Mantis-Instruct 中的多图像处理等。这样做的目的是提升模型解决现实世界问题的能力,尤其是在细致感知和推理方面。

幻觉

这些基准能够系统地去识别多模态模型里的幻觉问题并进行分类,其中包含对象幻觉,像 Object HalBench ;还有内在和外在幻觉,比如 VideoHallucer ;以及关联偏差,像 VALOR-eval 。并且它们着重于在视觉、文本以及序列等上下文中进行细粒度的评估。

许多基准提出了创新的框架,像基于投票的查询(POPE)这种;还有 LLM 驱动的评分,像 HaELM 和 RefoMB ;以及开放词汇检测,像 OpenCHAIR ;再有无注释评估,像 GAVIE ;还有无 LLM 管道,像 AMBER ;以及 GPT-4 辅助的推理分析,像 Mementos 。

这些方法强调评估的自动化和可扩展性。同时,这些方法还能够解决数据泄漏以及语言先验等方面的问题。

数据集优先选用细粒度的人类注释,如 M-HalDetect 和 HallusionBench;同时也采用合成数据生成,像 VHTest 和 MHaluBench。这些数据平衡了现实世界的复杂性,包括 PhD 的反常识图像以及 ActivityNet-QA 的 58K 问答对;还平衡了受控挑战,例如 R-Bench 的鲁棒性分析。

一些基准专门致力于特定的任务,像多语言支持这方面的任务(MHumaneval);还有一些基准则处理更为广泛的问题,比如偏见和干扰这类问题(Bingo)。所有这些基准的目的都是为了提升模型在实际场景中的稳健性。

这些基准提出了对齐策略,比如 RLAIF-V 的开源反馈,同时还提出了统一框架 HQH,从而为开发更可靠的多模态系统提供了指导。

安全性

一些研究引入了新颖的技术,其中包括基于扩散的对抗性攻击,也就是 AdvDiffVLM;还有红队框架,即 RTVLM;以及后期微调策略,即 VLGuard。

这些方法能够增强评估的严谨性,其方式是模拟现实世界的威胁或者提升模型的抗干扰能力。

像 MultiTrust 和 RTVLM 这样的基准将可信度评估(如真实性、公平性)在多个维度上进行了统一,而有一些基准则把重点放在特定的挑战上,比如超出分布(OOD)泛化(VLLM-safety-bench)或者过度敏感性(MOSSBench)。这些基准为模型的限制给出了整体的看法。

MM-RLHF-SafetyBench 从现有的数据集中进行采样。它进一步涵盖了多个领域,包括对抗性攻击、隐私、红队攻击以及有害内容检测。

对话

这些基准优先对基础的视觉技能进行评估。其中包括低级感知能力,像 Q-Bench 和 LLVisionQA 等。还包括低级信息的描述能力,例如 LLDescribe 。同时也包括质量评估。

它们强调模型解释和表达细粒度视觉信息的能力。

模型在具有挑战性场景中的泛化能力通过几个基准进行了测试,这些场景包括非常规图像(LLaVA Bench-Wilder)、跨领域任务(LiveBench 的数学/新闻整合)以及对抗性提示(Vibe-eval 的高难度问题)。这些基准表明了模型在标准数据集之外的适应能力。

奖励模型

每个基准都有其特定的评估维度。比如多语言能力,涵盖 M-RewardBench 中的 23 种语言;还有对齐、安全性、偏见等方面,属于 MJ-Bench;通过人类注释来增强可解释性以及最终模型评分能力的是 MM-RLHF-RewardBench;而 MLLM 在辅助评判者跨多种模态中的能力,体现在 MLLM-as-a-Judge 的评分与成对比较上。

这些框架揭示了模型在结构化和OOD场景中的优缺点。

高质量的数据集由人类与 AI 合作而策划,例如通过 VL-RewardBench 的注释管道;也通过结构化三元组设计来策划,像 RewardBench 那样。这些任务涵盖从简单的偏好排序到复杂的推理。通过这些数据集,推动了模型去处理诸如幻觉和伦理对齐等细致的挑战。

对齐

一些基准研究了模型与人类偏好的对齐能力。

Arena-Hard 是一个涵盖多维度的基准,其目的是对中文 LLM 的对齐能力进行评估。Alpacaeval-V2 给出了一种简单的回归分析方式,用以控制自评过程中的长度偏差。Arena-Hard 使模型性能的分离度增加了三倍,并且与人类偏好排名的相关性达到了 98.6%。MM-AlignBench 是一个基准,它是专门设计的,并且是手工注释的,其目的在于评估与人类价值观的对齐。

许多当前的 MLLM 对齐算法总体上侧重于防止模型生成幻觉。同时,这些算法还在探索如何利用自身来提升 MLLM 的通用知识和对话能力。这是未来的一个重要方向。

一些研究者认为不安全的响应与人类偏好不一致,所以应用 MLLM 对齐算法来处理安全问题。这些框架中奖励模型的有效性,尤其是在引导其达到对齐方面的表现,值得深入去研究。

此外,关于与人类偏好的对齐这一方面,基准从 LLM 领域发展到了 MLLM 领域。

未来工作与挑战

多模态大型语言模型(MLLM)迅速发展,将其与人类偏好对齐已成为研究重点。不过,仍存在一些挑战。

首先,高质量且多样化的数据集存在稀缺的问题,且这一问题尚未得到有效解决。其次,许多方法没有能有效地利用视觉信息,它们往往主要依靠文本来构建正负样本,而忽略了多模态数据所具有的全部潜力。此外,当前缺乏全面的评估标准,目前的方法通常只是在幻觉或对话任务等特定类型的基准上进行验证,这就导致它们的普适性难以被评估。

借鉴 LLM 后期训练策略以及智能体研究的进展,能够揭示现有的 MLLM 对齐方法所存在的局限性。而克服这些挑战对于开发出更强大且更全面的对齐方法来说是极为重要的。

数据挑战

MLLM 对齐面临着两个重要的数据相关方面的挑战,一是数据质量,二是覆盖范围。

高质量的 MLLM 对齐数据的可用性存在一定限制。与 LLM 相比较而言,获取以及对多模态数据进行注释的过程要复杂许多,这是因为其涉及对多个模态的处理。

其次,现有数据集在涵盖多样化多模态任务这方面存在不足,像光学字符识别任务、数学问题任务以及图表理解任务等。构建一个涵盖范围广泛的综合数据集是一项极具挑战性的工作。

作者知晓,当下不存在一个公开的且完全由人工注释的多模态数据集,其样本量超过 200,000 个。

这些限制在数据质量方面,也在数据覆盖范围方面。它们成为了有效对齐 MLLM 的重大障碍。

利用视觉信息进行对齐

目前的对齐数据呈现为这样的形式:存在偏好数据 D,它包含 x(即问题)、I(即图像)以及 yw(表示正确的响应)和 yl(表示错误的响应)。

在当前的研究里,主要存在三种方法,这些方法是用于利用视觉信息来增强对齐性能的。不过,每种方法都有它自身的局限性。

研究人员创建了新的图像 Ineg,并且把(yw|X, Ineg)当作负样本来使用。这种方法能够减少幻觉,还能提高 MLLM 对不同图像的鲁棒性,从而改善对齐效果。但是,视觉负样本一般都依赖于扩散算法或者对图像进行修改,而这些方法在质量度量方面比较缺乏,并且计算成本也比较高。

研究人员在这种方法中创建了一个新的图像 Ineg,接着利用该图像生成额外的响应 yneg,之后把(yneg|X, I)当作负样本。这种方法提升了文本比较的多样性,然而生成额外负样本的这个过程增加了计算开销。

该方法通过计算相似度分数来筛选数据,此相似度分数是文本与图像之间的。或者将其作为强化学习奖励函数的一部分。这种方法虽有助于减少数据噪声,然而评分的质量依赖于评估模型的质量,并且可能会受到模型偏见的影响。

每种方法在利用视觉数据增强 MLLM 对齐方面都能起到一定作用,不过在效率方面、成本方面以及潜在偏见方面存在着权衡。

综合评估

大多数 MLLM 对齐研究主要去评估它的算法在幻觉方面的表现,同时也评估在对话能力方面的表现,还评估在安全性等几个关键领域的表现。

未来的研究需要采用更全面的评估方法,并且要跨更广泛的任务来评估对齐方法,这样才能更好地展示其普适性和有效性。

全模态对齐

Align-anything 开创了一种研究,即通过多模态数据集“align-anything-200k”来实现全模态对齐。该数据集涵盖了文本、图像、音频和视频。这项研究展示了不同模态之间存在互补效应。

他们的工作尚处于起始阶段,每种模态的数据集规模都比较小,这对其任务覆盖范围造成了限制。

此外,所提出的算法只是对 DPO 方法的初步改进,没有充分利用每种模态本身所具有的独特结构信息。

未来,对齐算法设计将超越图像/文本领域,尤其是针对其他模态的对齐,这将是一个关键的趋势。

MLLM推理

最近,OpenAI(o1)和 DeepSeek-R1 所代表的推理 LLM 已经表明,强化学习算法以及偏好数据对于提升 LLM 在复杂问题求解方面的表现很重要,对于提升 LLM 在长时上下文理解方面的表现很重要,对于提升 LLM 在生成任务中的表现也很重要。

本文会探讨从 LLM 推理增强研究里得到的洞察,以及这些洞察对对齐 MLLM 的影响,主要从数据这个维度以及优化框架这个维度来进行分析。

(1) 数据。

目前,用于推理增强的数据集普遍有百万样本规模,例如 Qwen-2.5-MATH。

(2) 优化框架。

Mini-Max采用了离线采样策略,同时也采用了在线采样策略,通过这样的方式进一步提升了模型性能。

Llama 3 有六轮 DPO 迭代,DeepSeek 则通过温度变化的采样以及反射/验证提示来对推理深度(长链式推理)和简洁性进行优化。

一个是通过用稀疏奖励来训练策略,同时去除评估模型,以此减少一半的参数量,像 DPO 和 GRPO 就是这样;另一个是对评估模型的设计进行精炼,比如引入比率作为优势函数的 PRIME ,以及通过重塑正负样本奖励的 OREAL 。

MLLM 领域通过优先考虑高质量数据以及采用创新的优化框架,正朝着更有效且可扩展的模型方向发展,并且这些模型能够更好地解锁 MLLM 的推理潜力。

LLM对齐的启示

LLM 的对齐在最近的研究中成为了一个关键焦点,这提供了许多有价值的见解,并且能够为 MLLM 的开发提供指导。通过对现有 LLM 对齐策略的经验教训进行审视,可以揭示出有助于提升 MLLM 研究的关键原则。

(1) 提高训练效率。

当前 MLLM 的对齐方法是以 DPO 损失函数为依托的。不过,因为 DPO 必须同时加载策略模型以及参考模型,所以训练速度会明显降低。能否借助类似 SimPO 的无参考方法来进一步提高训练效率呢?

这一方法有加速训练过程的可能,并且能减少对参考模型的依赖。深入研究参考模型在 MLLM 对齐中的具体作用以及所产生的影响,对于提升效率和优化模型设计是极为重要的。

(2) 减轻过度优化/奖励黑客问题。

在使用 DPO 或者 RLHF 来让 LLM 进行对齐的时候,存在一个关键挑战,那就是过度优化。这种过度优化是通过学习到的代理奖励模型来提升性能,但实际上质量可能会停滞不前,甚至出现退化的情况。

为应对这一挑战,解决策略包括:

MLLM作为智能体

MLLM 具备 LLM 强大的推理能力,同时也具备处理来自多种模态(像图像、文本以及音频)数据的能力。这一特性使得它们可以从多种信息源当中提取知识,并且能够进行综合分析,在应对复杂的现实任务时展现出很大的优势。

要使 MLLM 变为高效的智能体,有几个问题需要处理。

论文链接:

GitHub链接:

相关内容 查看全部