AI轻松击败人类!
这次是进行看图猜地名的活动:给 AI 一张未曾见过的照片,它能够猜出这张照片是在何处拍摄的,并且其准确率是比较高的。
也就是说,从图像中,AI能识别地理信息方面。
以后网上晒图可要当心了,AI知道你在哪里!
沃顿商学院的教授 Ethan Mollick 研读了相关论文,他认为 AI 的这种能力对现实世界有着很大的影响。
具体而言,在不借助搜索引擎或 AI 模型的条件下,让大学生去猜测每张街景图像所对应的大洲名称,让大学生去猜测每张街景图像所对应的国家名称,让大学生去猜测每张街景图像所对应的城市名称。
表 3 呈现了人类的准确率,即最后一行的数据。与视觉语言模型相比较而言,人类的表现呈现出明显较差的态势。
Gemini1.5-Pro 是表现最好的模型。在大洲层面的预测中,它的正确率比人类高出 59.6%。在国家层面的预测中,它的正确率比人类高出 74.2%。在城市层面的预测中,它的正确率比人类高出 62.6%。
大多数大学生表示他们对这些图像不熟悉,并且承认自己是在胡乱猜测。
表 3 展示了 VLM 与人类在 FAIRLOCATOR 数据集的 100 张图像上的表现情况并进行了对比。
论文链接:
项目地址:
然而,AI模型仍然存在一些问题,包括偏差和隐私问题。
研究人员评估了四个 VLM 模型。他们发现,这些模型虽能从图像中识别地理信息,在城市预测中准确率最高可达 53.8%,但却表现出了显著的地区性偏差。
经济发达且人口密集的地区表现突出。相比之下,发展较慢的地区表现较差,低了 12.5%;人口稀少的地区表现也不佳,低了 17.0%。
这些模型还展现出了地区性的偏差情况,并且经常会对某些特定的位置进行过度预测。
VLM 模型具有强大性能,这引发了隐私问题。即便用户不希望自己的位置被他人知晓,AI 仍有可能从图片里发现用户的踪迹。
三大偏差
视觉语言模型(VLMs)从图像中识别地理信息的能力早已被研究。然而,对于其中的偏差问题,却缺乏足够的关注。
这些研究没有深入去分析视觉语言模型在地理信息识别方面所存在的偏差。
在地理信息识别中,新研究将视觉语言模型的偏差分为两类:
(1)在识别来自不同地区的图像时存在的准确率差异;
(2)在地理推理过程中更频繁地预测某些地区的系统性倾向。
开发了名为 FAIRLOCATOR 的基准测试,目的是评估偏差。这个基准测试包含了 1200 张图像,这些图像来自 43 个国家的 111 个城市。
每张图像都附有详细的地理信息,包括国家、城市和街道名称。
FAIRLOCATOR 具备评估框架,能够自动向视觉语言模型发起查询,还能提取回复,并且可以通过名称翻译和去重处理,将回复与真实数据进行比对。
为评估视觉语言模型(VLMs)在预测城市地理信息方面的性能,把图像分成了两部分来进行分析。
为了验证 VLMs 是否倾向于对相似城市(也就是同一国家内的城市)进行著名城市的预测,研究进行了如下操作:先选择了每个洲人口最多的 6 个国家,接着从每个国家中又进一步挑选出 10 个城市。
为了对具有不同文化、人口和发展水平的国家进行探索,研究从全球按人口排名选取了 60 个城市。在选取过程中,每个国家最多选择 2 个城市,这样避免了人口大国的过度代表,从而确保了样本的多样性,使得样本涵盖了不同的文化和经济发展水平。
这项研究使用了四种不同的 VLMs,分别是 GPT-4o,Gemini-1.5-Pro,LLaMA-3.2-11B 以及 LLaVA-v1.6-Vicuna-13B。
研究人员发现,当前的视觉语言模型(VLMs)存在显著偏差,具体体现在以下三个关键方面:其一,在某个方面表现出偏差;其二,在另一个方面表现出偏差;其三,在第三个方面表现出偏差。
偏向知名城市:比如,Gemini-1.5-Pro 在对来自巴西的图像进行识别时,常常将其预测为圣保罗。这显示出该模型具备识别巴西特征的能力,然而,它却欠缺捕捉区域多样性以及细微差异的能力。
VLMs 在识别发达地区图像的地理信息时,其准确率更高,平均准确率达到 48.8%。而在识别欠发达地区的图像时,其性能明显下降,准确率通常会降到 41.7%。
VLMs 常常会把城市或者现代场景(即便这些场景来自发展中国家)和发达国家联系到一起。而那些描绘郊区或者乡村景观的图像,却经常被错误地划分成来自发展中国家。
图 1 展示了本文所发现的三种偏差类型。其中,“GT”指代真实标签,也就是 Ground Truth;“Pre”指代视觉语言模型的预测结果。
模型指令与提示词
为了让视觉语言模型(VLMs)能更好地完成地理定位任务,借鉴了在 GeoGuessr 游戏中玩家经常使用的那些策略。
在 GeoGuessr 游戏里,玩家被放置于一个具有半随机性的谷歌街景地点,并且被要求仅凭借有限的线索去猜测图片里的位置。
在提示中,要求 VLMs 依据图像的细节,像门牌号这类细节,还有行人、标志、语言以及光线等,去推断地理位置。
VLMs 为了便于后期处理,需要以 JSON 格式返回响应,该响应包含五个关键字段,分别是「分析」、「大洲」、「国家」、「城市」和「街道」。
将图像编码为 VLMs 的输入时,要确保把所有元数据都移除掉。这些元数据包括时间、位置、相机参数和作者信息等。因为这些数据有可能会使 VLMs 轻易地推断出位置。
接着,从输出里把答案提取出来,要保证这些答案既不是未知的,也不是无效的。
每个模型针对每张图片,最多具备五次尝试的机会;倘若五次尝试所得到的结果均为无效,那么这张图片就会被标记为失败案例。
为保证实验的可靠性,有这样的要求:每张图片都必须由同一个模型生成出三个响应。
这项任务中使用的具体提示如下:
实验过程
使用 FAIRLOCATOR 框架,将注意力集中于对两个关键研究问题的解决:
VLM 是否在共享的文化背景下对特定城市有偏好呢?比如在同一个国家里的不同城市之间。
这一部分会探讨视觉语言模型(VLMs)是否对某些特定城市有倾向,即便这些城市处于同一个国家或者有着相似的文化背景。
分析模型在识别这些城市以及区分它们时的表现,能够让我们了解是否对某些城市存在偏好或偏差。
考虑到文化方面的差异,全球各地区的准确性会如何变化?
这一部分要对 VLM 在不同的全球经济、人口结构以及文化背景下的表现进行评估。具体而言,会去调查这些因素是怎样对地理定位任务的准确性产生影响的。
详细分析不同区域,能够揭示出哪些因素对模型性能的影响最为显著,同时也可以探讨出可能的原因以及解决方案。
深度评估
FAIRLOCATOR 的“深度评估”部分包含了各个大陆人口最多的国家。大洋洲的人口最多国家是澳大利亚。南美洲的人口最多国家是巴西。北美洲的人口最多国家是美国。欧洲的人口最多国家是俄罗斯。非洲的人口最多国家是尼日利亚。
每个国家都挑选出了人口最多的十个城市,并且在每个城市都收集了十张图片。
图 2 展示了城市中 GPT - 4o 预测频率最高的那些城市。图 3 展示了 Gemini - 1.5 - Pro 的预测结果。图 4 展示了 LLaMA - 3.2 - Vision 的预测结果。图 5 展示了 LLaVA - v1.6 - 13B 的预测结果。
一个城市的“正确”得分最高能达到 30 分。视觉语言模型(VLMs)具备三次预测的机会。
图2:GPT-4o在六个国家中最常被预测到的城市。
图 3 展示了在六个国家中 Gemini - 1.5 - Pro 被预测到最多的城市。
图 4 展示了在六个国家中 LLaMA - 3.2 - Vision 最常被预测到的城市。
图 5 展示了在六个国家中 LLaVA-v1.6-13B 最常被预测到的城市。
这四个模型在不同层面的准确率由表 1 展示,这些层面包括大陆、国家、城市和街道,且涵盖了六个国家。
这四个模型中,GPT-4o 的表现最为突出。与准确性最低的模型 LLaVA 相比,在大洲层面,它的准确率提高了 65.9%;在国家层面,准确率提高了 60.4%;在城市层面,准确率提高了 37.4%。
在所分析的这些国家里,视觉语言模型(VLMs)在识别方面,美国和印度的效果是最好的;接着是澳大利亚和巴西;而尼日利亚和俄罗斯的识别表现则是最差的。
在视觉语言模型(VLMs)的预测里,观察到了有对较大城市的偏向。尤其是在巴西的情况中观察到了这种偏向,在尼日利亚的情况中也观察到了这种偏向,在俄罗斯的情况中同样观察到了这种偏向。
这些结果显示,视觉语言模型具备在国家层面进行区分的能力,然而,它们在对一个国家内部的不同城市进行更细致的区分时,会遭遇困难。
这种偏向在澳大利亚和美国等国家表现得稍微弱一些。
然而,偏好是很明显的。在澳大利亚,悉尼、布里斯班和墨尔本更受人们的喜爱;在美国,纽约市被预测的次数过多,虽然从表面上看预测似乎更加均衡。
模型能力提升后,视觉语言模型(VLMs)展现出了更强的能力,能够分辨城市间的细微差异。
该模型在识别澳大利亚城市时存在困难,它常常把澳大利亚的城市错误地归为美国城市,像纽约市、迈阿密、旧金山以及洛杉矶等。
这种困难或许是因为澳大利亚和美国的城市在文化方面有相似性,同时在视觉上也有相似性。
这两个国家在联合国的区域分类里属于西欧及其他国家组。对于那些不太先进的模型而言,要区分这些城市会更加困难。
其他模型方面,它们在识别各个国家的城市时较为准确,然而错误预测的情况依然普遍存在。
广度评估
FAIRLOCATOR 的“广度子集”包含 60 个城市。这些城市是依据人口排名从高到低挑选出来的。
为保证多样性,避免同一国家的城市数量过多。每个国家最多纳入两个城市,这样做使得该子集中涵盖了 43 个国家,这个数量超过了“深度子集”中涉及的六个国家。
为了探究视觉语言模型(VLM)预测中的区域差异,每个城市都按照经济状况进行分类,每个城市也按照人口规模进行分类,每个城市还按照文化背景进行分类。
经济状况是根据全球城市百万富翁的数量来进行排名确定的。在这个榜单上,排名在前 50 名的城市被划分到“发达”城市这一类别中。其中,在这个子集中,有 20 个属于发达城市,还有 40 个是发展中城市。
人口规模是按照全球城市人口排名来标注的。其中,人口超过 1000 万的城市被划分到“人口众多”这一类。这样一来,就有 22 个属于“人口众多”的城市,同时还有 38 个人口相对较少的城市。
文化分类方面,由于各大洲内部有着文化的多样性,仅仅将大洲当作分类标准的话,通常被觉得是不够完善的。采用了联合国区域集团的分类方式,这种方式把各国划分成五个在文化上相关的集团。其中有非洲集团,还有亚洲及太平洋经济社会委员会(亚太经社会)地区发展中成员国集团(APSIDA),以及东欧集团(EEG)、拉丁美洲和加勒比国家集团(GRULAC)、西欧和其他国家集团(WEOG)。表 2 在其标题中给出了每个集团的定义。
表 2 展示了四种模型在“广度评估”中的准确率情况。其中,“Cont.”代表大洲,“Ctry.”表示国家,“St.”是街道。并且最高分用粗体进行了标记。
在表 2 里,“Africa”所指的是非洲集团;“APSIDS”指的是亚洲及太平洋小岛屿发展中国家集团;“EEG”代表的是东欧集团;“GRULAC”是拉丁美洲和加勒比集团;“WEOG”则是西欧及其他国家集团。
按经济、人口和文化群体分类的结果也列于表2中。
总体而言,在“广度”评估方面,城市层面的准确率(44.1%)比“深度”评估(25.2%)要高。这很有可能是因为“广度”子集中包含了 60 个全球知名城市。
在“深度”评估中,GPT-4o 的表现最为出色,但在“广度”评估里,Gemini-1.5-Pro 和 GPT-4o 的表现是相当的。Gemini 能够出色地识别大洲和国家,而 GPT-4o 在识别城市方面则展现出了更优秀的性能。
对于发达城市、人口众多的城市以及特定文化群体内的城市存在偏见这一问题,主要有以下发现:
在发展中的城市里,所有模型一直展现出较低的准确率。在人口较少的城市中,所有模型也一直呈现出较低的准确率。并且,在这两种城市中,人口因素对模型性能的影响更为显著。
从经济水平方面来看,在城市层面进行预测时,LLaVA 的准确率下降的幅度是最大的。当从发达城市转变为发展中城市时,它的准确率下降了 12.5%。与之相反,Gemini 受到的影响最小,在城市层面仅仅下降了 0.8%,然而它在国家层面的准确率下降了 8.6%。
从人口因素方面来看,性能的下降较为显著。在从人口较多的城市转换到人口较少的城市的过程中,视觉语言模型(VLM)在城市层面的预测准确率降低了 12.4%到 17.1%。
不同文化群体之间的准确率存在显著差异,在城市层面,这种准确率差异达到了 19.1%。
西欧及其他国家集团(WEOG)的国家在城市层面的准确率最高,为 56.5%。东欧集团(EEG)的准确率次之,是 50.0%。非洲集团的准确率最低,为 37.4%。
这种模式在四种视觉语言模型里是一致的,这表明了非洲国家在视觉语言模型方面的代表性存在不足的问题。
Gemini 在非洲集团与西欧及其他国家集团之间的准确率差异相对最小,为 9.7%;GPT-4o 的准确率差异则相对最大,达到 26.8%。
本节对视觉语言模型(VLM)在地理定位任务中的表现进行了详细分析,提出了用于解释这些表现的假设,并且进行了初步实验以对其进行验证。
是否存在数据泄露?
图像有了新版本。因为视觉语言模型表现出色,所以有人可能会认为其训练数据中包含了谷歌街景图像,进而可能使模型记住答案。
为了展开对此的调查,以 2019 年版谷歌街景图像作为主要实验所使用的基础,增添了 2024 年的新版本以及 2014 年的旧版本。
2024 年的图像未被纳入 GPT-4o 和 Gemini-1.5-Pro 的训练数据。原因是这些模型的发布日期晚于 2024 年。而纳入 2014 年的图像,是为了检验视觉语言模型能否识别旧的视图。
研究人员关注不同时间版本里的相同位置,目的是尽量减少区域差异。
某些版本在某些地区的可用性存在限制,所以选择了美国的三个城市来进行这项研究,这三个城市分别是丹佛、拉斯维加斯和纽约。
每个城市都确定了 10 个位置,这些位置中有许多在选定的时间范围内会发生变化,最终一共得到 90 张图像。
结果显示,在城市层面的准确率方面,2019 年的图像准确率为 84.6%,是表现最佳的;其次,2024 年的图像准确率为 82.5%;而 2014 年的图像准确率为 79.2%,是表现最差的。
这些发现表明,训练数据对准确率会产生影响。并且,在美国的这些案例当中,这种影响相对而言是比较小的。
是否存在虚假相关性?
特定特征的另一种假设表明,视觉语言模型(VLM)或许会借助图像里的表面相关性去推断位置。
研究人员为了研究独特特征与真实情况的关系,聚焦于不同城市的唐人街。这些唐人街具有共同的视觉元素,其中包括汉字,还有文化装饰,像红灯笼和挥春。
在实验里,从各个大洲分别选取一个唐人街。比如在亚洲的曼谷,在非洲的约翰内斯堡,在南美洲的利马,在欧洲的伦敦,在美国的纽约,以及在大洋洲的悉尼。并且从这些选取的唐人街中,各自抽取十张图片。这些地方都拥有着大量华人社区,是成熟的唐人街。
GPT-4o 和 Gemini-1.5-Pro 得出的实验结果被总结在表 5 里,这些结果显示视觉语言模型在识别这些唐人街场景时表现得很出色。
这一发现表明,视觉语言模型并非仅仅依赖那些将图像与中国相联系的明显线索,而是会运用其他一些细微的特征。
城市景观风格
研究人员研究了除特定特征之外的内容,还研究了图像的整体风格对预测结果的影响。
具体来说,研究人员探究视觉语言模型(VLM)是否存在偏见。
如图 1(c)所示,GPT-4o 把来自南非开普敦的城市景观预测成了美国的圣地亚哥和法国的尼斯。而对于更具乡村风格的图像,Gemini-1.5-Pro 会把俄罗斯的莫斯科错认为乌克兰的哈尔科夫,把西班牙的马德里错认为西班牙的塞维利亚。
LLaMA 出现了类似错误,它把巴西巴西利亚干净整洁的街道场景预测成了澳大利亚的悉尼,还把俄罗斯克拉斯诺亚尔斯克高楼林立的城市景观识别为美国纽约。
这些发现让我们看到视觉语言模型在对城市环境进行解读时可能有的区域偏见。
思维链(CoT)能起作用吗?
研究人员为了评估视觉语言模型(VLM)的性能,使用了思维链(CoT)提示来对其输出结果进行分析。
研究人员给出了两个示例查询,其中一个是针对 Gemini 的,另一个是针对 LLaMA 的。
案例研究显示,思维链推理虽看上去合乎逻辑,然而它与最终答案并非一直保持一致。
在思维链示例(1)里,Gemini 把该地点正确识别为位于非洲周边。同时,它指出没有可见的车牌或标识,无法辅助进一步分析到底是哪个国家或城市。
尽管缺乏这些证据,该模型仍然预测出了正确答案。
在思维链示例(2)里,LLaMA 能够识别出加州的典型特征,不过它错误地进行了预测,预测结果是圣巴巴拉,而实际上正确答案应该是洛杉矶。
在多个示例里,在思维链推理过程中,所引用的元素常常和最终答案的部分是相符的。
然而,这些元素通常比较宽泛,无法准确地确定具体位置。
仅仅依靠推理过程很难确定图像的确切地理位置。
假设模型的回答并非因对图像信息进行真实推理而得出,而是受其先前有关地理位置的知识所影响。
参考资料: