感知对齐的评估体系
视频动态生成的评估面临两大核心挑战:
现有指标不能很好地与人类感知相契合,同时评测提示的多样性存在不足,这使得模型的动态生成潜力没有被充分地挖掘和探索。
团队为此提出了 VMBench,它是首个融合了感知对齐指标以及多样化动态类型的视频运动评测基准。
人类在观察视频时,首先会依据先验经验以及物理规律来构建对场景的整体理解。接着,会有选择性地关注运动物体的平滑性以及时序一致性,尤其是在遮挡场景的情况下。
此分层感知机制给了 PPM 启发(图 2),于是 PPM 设计出了一个从全局到局部的五维评估体系。
图2 用于评估视频运动的指标框架
上图框架的灵感来源于人类对视频中运动的感知机制。人类对视频中运动的感知主要包含两个方面,一是运动的综合分析,二是运动细节的捕捉。作者提出了一个用于评估视频运动的指标框架。
具体来说,MSS 对应着人类对运动进行综合分析的过程,CAS 也对应着人类对运动进行综合分析的过程。同时,OIS 对应着运动细节的捕捉,PAS 对应着运动细节的捕捉,TCS 同样对应着运动细节的捕捉。
1、常识遵守性评分(CAS)
通过构建多层级分类模型量化视频内容是否符合物理规律。
具体流程包括:
从主流生成模型里收集 10,000 个视频来构建数据集。接着,用 VideoReward 模型把视频质量分成五级(从 Bad 到 Perfect)。然后,利用 VideoMAEv2 架构的时空建模网络去预测视频的常识合理性概率分布。最后,通过对各类别概率进行加权平均,得出综合评分。
该指标解决了一个问题,即传统方法在检测时会遗漏对物理规律的违反情况,比如物体出现反重力运动这种现象。
2、运动平滑度评分(MSS)
传统光流法对视觉感知不敏感,针对此问题,提出了场景自适应的质量骤降检测机制。
利用 Q-Align 美学评分模型来分析相邻帧之间质量降低的幅度,要是这幅度超过了通过 Kinetics 等真实视频统计建模所获得的动态阈值,就可以判定为异常帧。
最终把异常帧占比的补数当作平滑度得分,这样能够有效捕捉到人类敏感的低帧率卡顿以及高动态模糊。
3、对象完整性评分(OIS)
为了检测在运动过程中的非自然形变,例如人体关节错位等情况。首先基于 MMPose 来提取关键点的轨迹,然后结合解剖学的约束规则,像四肢长度比例的容差等,以此来分析形状的稳定性。
统计自然运动数据集,以此来设定各部位的形变阈值。然后计算在所有帧中符合解剖学约束的比例。
该指标与仅关注语义一致性的 DINO 方法相比,更贴近人类对于肢体协调性的敏感度。
4、可感知幅度评分(PAS)
通过多模态定位技术分离主动运动主体与背景位移。
首先借助 GroundingDINO 来锁定语义主体,接着利用 GroundedSAM 生成时序稳定的实例掩膜,之后通过 CoTracker 去追踪关键点的位移轨迹。
设定感知敏感阈值时要结合场景类型,像机械运动和流体运动等。然后计算帧级位移幅度与阈值的归一化比值。
该方法克服了传统光流法因相机运动导致的幅度高估问题。
5、时间一致性评分(TCS)
针对物体异常消失/出现问题,提出轨迹验证双阶段检测。
第一阶段利用 GroundedSAM2 达成像素级的实例分割以及跨帧的 ID 追踪,将物体的可见状态记录下来;第二阶段借助 CoTracker 对物体的运动轨迹进行追踪,构建起连续性的规则,像遮挡后重现需满足空间连贯性等,以此来过滤掉合法的消失事件或者出现的情况,比如物体移出画面边界等。
最终把异常消失实例占比的补数当作评分,和 CLIP 特征相似度方法相比,它更能贴合人眼的视觉感知。
整体的评估流程如图3所示。
PMM 包含以下多个评估指标:有常识一致性得分,也就是 CAS;还有运动平滑度得分,即 MSS;以及物体完整性得分,为 OIS;同时有可感知幅度得分,称作 PAS;另外还有时间连贯性得分,是 TCS。
上图(a-e)是每个指标的计算流程图。
PMM 生成的得分有变化趋势,且这一趋势与人类评估的趋势是一致的,这表明它与人类感知高度契合。
元信息引导的prompt自动生成
现有基准存在提示类型单一的问题,导致无法充分评估模型的运动生成能力。对此,作者提出了元信息引导的 prompt 生成框架(MMPG)。该框架通过结构化元信息提取与大语言模型协同优化,构建了目前覆盖最广、描述最细的运动提示库,此运动提示库涵盖了六大动态场景维度,例如生物运动、流体动态等。
该框架包含以下核心步骤:
元信息结构化提取
作者把运动描述拆分成了三个核心的元信息要素,分别是主体(Subject,S)、场景(Place,P)以及动作(Action,A)。
利用大语言模型(Qwen-2.5)基于现有视频文本数据集构建数据库,该数据库包含数万条元信息。同时,通过多维度扩展策略来提升多样性。
将其分类为人类、动物和物体这三类。结合目标检测模型来筛选出可以被识别的实体。然后通过 GPT-4o 生成具有不同实体数量(单主体或多主体)的变体描述。
从 Places365 等数据集中把多样化场景提取出来,同时过滤掉重复或者模糊的地理信息。
从动力学数据集中选取真实动作,接着通过 LLM 进行推理,从而生成动物与物体的合理运动模式。
自优化提示生成与验证
从元信息库中随机选取三元组(S,P,A),接着使用 GPT-4o 来对其逻辑一致性进行评估,之后通过迭代优化来生成自然且流畅的运动描述。
请提供需要改写的句子呀,你没有给出具体的内容呢。
为提升物理合理性,作者引入双阶段过滤机制:
LLM 进行逻辑验证时,会利用 Deepseek-R1 进行推理,把那些违背物理规律或者存在语义矛盾的描述(例如“汽车在湖面飞行”)剔除掉。
人机协同进行校验。一方面结合专家的标注,另一方面运用自动化筛选。从 5 万条候选提示当中精心挑选出 1050 条高质量提示。这样做的目的是确保能够覆盖各种复杂的交互情况,比如多主体的协作;也能覆盖精细的动作,像手指的弹奏;还能覆盖特殊的场景,例如微观流体。
构建提示词的流程如图4所示。
图4 元指导运动提示生成(MMPG)框架。
MMPG包含三个阶段:
从 VidProM 数据集中提取主体、场所和动作信息;从 Didemo 数据集中提取主体、场所和动作信息;从 MSRVTT 数据集中提取主体、场所和动作信息;从 WebVid 数据集中提取主体、场所和动作信息;从 Place365 数据集中提取主体、场所和动作信息;从 Kinect - 700 数据集中提取主体、场所和动作信息。
根据提取的信息来生成提示,然后对提示内容进行迭代优化。
人类与 DeepSeek-R1 协作来验证提示的合理性。
作者通过这样的方式构建了 1050 条高质量提示词。这些提示词的具体统计情况如图 5 所示。
从多个角度去对 VMBench 里的提示进行统计分析。
这些分析展示了 VMBench 的评估范围是全面的,涵盖了运动动态方面,涵盖了信息多样性方面,也涵盖了对现实世界常识的符合度方面。
实验 实验设置
研究基准测试对六个流行的文本生成视频模型进行评估,这些模型分别是 OpenSora、CogVideoX、OpenSora - Plan、Mochi 1、HunyuanVideo 和 Wan2.1。
作者构建了 MMPG-set(meta-Guided Motion prompt Generation 数据集),目的是提供更丰富的运动类型。这个数据集涵盖了六种运动模式,一共有 1,050 个运动提示(prompts),可以用来评估模型的运动生成能力。
每个模型会依据 MMPG-set 来生成 1050 个视频,而这样的模型一共有 6 个,所以最终总共生成了 6300 个视频。
为保证公平比较,作者依据各模型官方项目的超参数设定来进行实验。每个提示词仅生成一段视频,同时固定初始种子,以此来保证可复现性。推理过程是在 8 张 Nvidia H20 GPU 上运行的。
作者从每个模型的输出结果里抽取 200 段视频,这些视频一共有 1200 段,这些视频被用于人类感知对齐验证实验。
以下是比较指标(Comparison Metrics)。
1) 基于规则的指标
基于规则的方法评估四个维度:
采用 RAFT 光流幅值分析,并且结合结构运动一致性检测(基于 4 帧 SSIM 平均值)来进行评估,同时遵循既定评测协议,以此来确定可感知动态幅度。
使用 DINO 和 CLIP 特征跟踪,通过计算相邻帧的余弦相似度,以此来衡量帧间的一致性,这体现了时间一致性(Temporal Coherence)。
运动平滑度是通过结合插值误差与 Dover 视频质量评估的方式来进行测量的。
物体完整性方面,通过光流扭曲误差以及语义一致性检查来进行双重验证。
2) 多模态大语言模型(MLLM)评估
团队选取五个前沿的多模态大模型进行运动评测:
LLaVA-NEXT-Video
MiniCPM-V-2.6
InternVL2.5
Qwen2.5-VL
InternVideo2.5
这些模型的评估运用了标准化的流程。具体来说,是对每个视频按照 2 帧/秒(fps)的采样率来进行处理。这样做的目的是保持运动模式的完整性,同时也能控制计算成本。
MLLM 评估包含五个重要维度。其一为运动幅度;其二是时间一致性;其三是物体完整性;其四是运动平滑度;其五是常识性。
每个维度都使用 1 到 5 分的制度来进行评分。为了确保公平性,在所有的模型之间会保持相同的帧序列以及评估标准。
接下来是评估指标(Metrics)。
斯皮尔曼相关系数,它是一种用于衡量两个变量之间的相关性的统计指标。这种相关性不是基于变量的具体数值,而是基于变量的秩次。通过对变量的秩次进行分析,可以确定它们之间的线性关系程度。斯皮尔曼相关系数的取值范围在 -1 到 1 之间,其中 -1 表示完全负相关,1 表示完全正相关,0 表示无相关。
斯皮尔曼秩相关系数(Spearman’s Rank Correlation Coefficient, ρ)可用来衡量两个变量之间的单调关系。这种方法属于非参数统计方法,尤其适合那些变量不服从正态分布的数据集。
皮尔逊相关系数主要衡量线性关系,与它不同的是,斯皮尔曼相关性关注基于排名的关联性。所以,斯皮尔曼相关性对异常值更加鲁棒,并且适用于有序数据或非线性依赖关系的场景。
2) 准确性(Accuracy)
作者为了验证运动评估指标与人类偏好是否一致,在 1200 段带有人类标注的视频(这些视频包含 200 个提示且对应 6 个模型)上进行了成对比较。
作者针对每个提示,会将由不同模型生成的 6 选 2 组合所形成的 15 种可能的视频对进行比较,最终挑选出 3,000 组视频对来进行评估。
人类偏好标注是通过比较五个核心维度(OIS、MSS、CAS、TCS、PAS)下的平均专家评分来确定的。那些在这些维度下平均专家评分较高的视频,被认定为“偏好样本”。
PMM 评估指标会计算各个视频在相同标准之下的综合 PMM 评分,然后依据这个评分来进行视频的对比。
一致性准确率(Alignment Accuracy)计算的是 PMM 偏好与人类标注结果一致的比率,这里不包括评分相同的样本,这样做是为了确保决策的明确性。
这一过程能让本研究的评估指标更好地与人类感知相契合,还能提供精确的运动质量评估办法。
实验结果
人类感知对齐的验证机制
作者邀请了三位领域专家,让他们分别对每个样本进行标注。标注依据的是 PMM 评估标准,该标准包含可感知动态幅度(PAS)、时间一致性(TCS)、物体完整性(OIS)、运动平滑度(MSS)和常识一致性(CAS)。
最终,收集到了 6,000 条详细的评分。并且达到了标注一致性很高的程度,这种标注一致性是指不同标注者之间的一致性很高(high inter-annotator agreement)。
作者计算了斯皮尔曼相关系数(Spearman Correlation),目的是评估评测指标与人类感知的一致性。该系数用于衡量评测指标分数与专家评分之间的对齐程度。较高的斯皮尔曼相关系数表明与人类感知的一致性更强。
将其与其他的评测指标进行比较。 把它和别的评测指标拿来做比较。 拿它与其他评测指标进行对比。 对它和其他评测指标进行比较操作。 把它与其他的那些评测指标进行比较。 拿它跟其他评测指标进行比较。 与其他的评测指标展开比较。 对它和别的评测指标做比较。 把它同其他评测指标进行比较。 与其他评测指标进行对照比较。
上标*表示遵循 VBench 的实现,上标†表示遵循 evalCrafter 的实现。在规则基方法里,黄色背景意味着特定维度的基线。
从表 1 可知,在运动平滑度(MSS)评估方面。先进的指标像 AMT(18.1%)和 Warping Error(-19.1%),即便它们很先进,在面对复杂形变时,依然展现出有限的区分能力,并且还产生了违反直觉的评估结果。
在物体完整性评估方面,存在类似的问题。像 DINO,它的对齐度只有 27.4%,而 Dover 的对齐度仅为 34.5%。这两者都没有能够有效地捕捉到人类对于运动中结构保持性的敏感度。
在可感知动态幅度(PAS)的评估里,基于规则的那些方法,像是 SSIM 以及 RAFT ,它们的人类对齐度分别只是 17.8%和 47.7%。
本研究方法的对齐度达到了 65.2%,与其他方法相比具有明显优势。在时间一致性(TCS)评估方面,基于规则的指标,像 CLIP 和 DINO,它们的对齐度分别只有 28.0%和 27.4%。这些指标无法准确地反映出人类对轻微不一致性的容忍度,并且也不能维持物理的合理性。
而本研究评测方法达到了54.5%的对齐度,大幅领先。
与现有基准(VBench和evalCrafter)的比较
VBench 评测方法包含 AMT 这一内容。
evalCrafter利用 Dover 技术来进行评估,同时也会运用 Warping Error。
从表中数据可知,将本研究方法与之对比,VBench 和 evalCrafter 的运动评估指标与人类感知的相关性偏低。这显示出它们在评估运动质量方面的效果不佳,无法有效地进行运动质量评估。
与多模态大语言模型(MLLMs)的比较
多模态大模型(MLLMs)在物理适应性评分(PAS)方面展现出了一定的能力,比如 InternVideo2.5 达到了 44.3%。然而,从整体上看,MLLMs 在所有维度上的平均相关性只是在 10.0%到 30.0%之间。
这表明当前的 MLLMs 在运动质量评估方面存在着根本性的差异,这种差异难以让其准确地与人类的感知标准相契合。
消融实验
关于运动评估指标的消融研究。
移除的消融实验展示了单独去除每个度量所产生的影响。基于添加的消融实验则是逐步加入各个度量,从而观察其影响。
根据表 2 可知,若去除任意一个单一指标,就会使整体评估准确率明显下降,这凸显出每个评估维度在整体框架里的重要性。
值得注意的是,把 CAS(常识一致性,Commonsense Adherence, CAS)指标去除之后,准确率下降的情况最为明显,下降到了 64.1%,这种影响比其他单个维度的消融效果都要大。
这表明 CAS 指标对于评估视频质量有着关键的作用,同时也与人类在感知视频质量时优先关注的那些关键因素高度契合。
作者针对面向性能优化的变体进行研究。作者模拟人类的感知信息处理流程,接着逐步增加评估维度。结果表明,每新增一个评估维度,整体准确率都有显著的提升。
这一结果进一步证明了本研究提出的评估框架与人类感知机制的一致性。
定性分析
PMM 与人类感知的一致性情况;PMM 对于人类感知的契合度;PMM 在与人类感知方面的一致性表现
PMM 指标的斯皮尔曼相关性矩阵。
如图 6 所示,人类评分在 OIS 这个评估维度与 PMM 评估指标之间的相关性保持一致,人类评分在 CAS 这个评估维度与 PMM 评估指标之间的相关性保持一致,人类评分在 MSS 这个评估维度与 PMM 评估指标之间的相关性保持一致,人类评分在 TCS 这个评估维度与 PMM 评估指标之间的相关性保持一致,人类评分在 PAS 这个评估维度与 PMM 评估指标之间的相关性保持一致。
OIS(物体完整性)、CAS(常识一致性)以及 MSS(运动平滑度)之间的相关性较强,然而 PAS(可感知动态幅度)与其他指标的相关性较弱。
具体来看:
图 6(a)表明,PAS 与其他维度之间存在负相关关系。比如,它与 OIS 的相关系数为 ρ=-0.18。
视频中的高动态振幅可能会导致形变和伪影,从而降低结构完整性评分和时间一致性评分。
OIS 与 MSS 之间存在较强的正相关性,其相关系数为 ρ = 0.59;OIS 与 CAS 之间也存在较强的正相关性,相关系数为 ρ = 0.50。这表明 OIS 能够很好地反映物理合理性以及运动合理性。
TCS(时间一致性)与其它维度的相关性不是很高,这显示出该指标能够给出更为独立且全面的评估视角。
PAS 与结构/时间相关指标呈现出负相关性。这种负相关性对传统基于光流的视频运动评估框架构成了挑战。它凸显出在运动视频评估中,单独去衡量运动幅度是很重要的。
图 6(b)显示出,作者所提出的评估指标相互之间是有关联性的,且这种关联性符合人类的感知特性,从而进一步验证了 PMM 评估框架具有合理性。
使用 PMM 来对视频生成模型进行评估。
对六个开源视频生成模型进行了 VMBench 评估。该评估的结果是,分数越高,就意味着该模型在该类别中的性能越优良。
如表 3 呈现的那样,作者借助 PMM 评估指标对多个处于领先地位的视频生成模型展开了评测,这些模型包含 Mochi 1、OpenSora、CogVideoX、OpenSora - Plan、HunyuanVideo 以及 Wan2.1。
评测结果显示,Wan2.1 在运动视频生成领域表现最为突出。它所生成的视频在视觉真实性方面比其他模型都要优秀。
论文链接:
代码仓库链接: