发布信息

AI通过模因图灵测试:LLM生成的幽默梗图胜过人类创作

作者:软荐小编      2025-03-23 15:01:11     181

AI 好像比人类更知晓“怎样做到幽默”,模因图灵测试已经被大型语言模型(LLM)所通过。

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_

慕尼黑的研究者和瑞典的研究者发现,LLM 能够生成一些作品,这些作品被人类评判为比普通人创作的模因更加搞笑。

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_

论文链接:

研究者在图中展示了“模因(Meme)梗图”的效果。他们从幽默性、创意性和分享性这三个方面进行了比赛。

有趣的是,AI 创作的梗图在所有领域的平均表现比人类 - AI 协作创作的梗图好。

这似乎表明AI已经通过了模因图灵测试。

幽默的复杂性:AI真的可以理解人类的幽默吗?

“模因 Meme”这个词,最早能追溯到 1976 年 Richard Dawkin 出版的《自私的基因》这本书。随后,它演化成了在媒介传播过程中,代表网络梗图、搞笑段落以及幽默视频的代名词。

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑__AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑

模因具有独特特征,其包括视觉和文本性质,对文化背景有依赖,通常以简洁而有力的幽默表达呈现,这些给生成式 AI 带来了与“纯文本笑话”生成不同的独特挑战。

这项研究的主要目的在于探究 LLM 与人类在创作梗图方面的协同创造力。

为什么选择梗图呢?因为梗图能够将视觉和文字进行巧妙的融合。它既依赖于文化背景,又充满了创意和幽默。所以特别适合用来研究人类和 AI 在创作上的互动。

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑__AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑

Gemini根据论文生成的梗图

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑__AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑

网络流行的德雷克拒绝/接受梗被AI理解

人类进行合作,一直被视为能够激发创造力。大家一同进行头脑风暴,各种不同的观点彼此碰撞,通常能够孕育出更优秀的创意。

评估梗图这种创意作品的方式通常是从创造力方面、幽默感方面以及分享度方面着手。

梗图创作大PK

研究团队精心设计了一项用户研究,把参与者分成了三组。

第一组是纯人类组,他们创作梗图时未得到任何 AI 的帮助;第二组是人类 - AI 协作组,参与者能够与 LLM 进行互动,借助其力量来萌生想法;第三组是 AI 组,梗图是由模型自行生成的。

具体的创作任务分为三个步骤。

研究人员首先进行创意生成,他们给参与者展示一张流行梗图的背景图片,接着让参与者围绕工作、食物、运动这三个主题中的一个,在五分钟内尽力想出梗图的文字说明。

_AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑

人类-AI 协作组的参与者可以通过聊天界面向 LLM 寻求帮助。

参与者需要从自己所想到的所有想法当中挑选出最喜欢的三个,这是收藏选择的环节。

首先是图片创作阶段,他们将选好的想法添加至梗图模板中,并且能够对文字的位置以及大小进行调整。

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_

创作时,每位参与者需依据不同的图片和主题组合,去完成三个梗图的创作。整个过程大约需 40 分钟,完成之后还能获得 15 美元的报酬。

研究人员先从人类组生成的梗图中随机挑选 150 张,接着从协作组生成的梗图中也随机挑选 150 张。然后,让 LLM 针对相同的图片和主题,生成 150 张 AI 创作的梗图。

_AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑

接着,找了一组新的参与者。这些参与者要从幽默、创意、分享度这三个方面,对这些梗图进行打分评估。

研究人员为了使 LLM 在研究中能发挥作用,给它设定了不同的任务。

在人类与 AI 协作组进行创意生成的时候,LLM 仿佛是一个“创意助手”,参与者能够自由地向它提出问题。

研究人员给 LLM 设置了系统提示,目的是让它能给出更符合要求的回答。同时告知它要帮助用户生成梗图创意,并且交互语气需友好礼貌,还规定一次最多给出三个想法。

在生成纯 AI 梗图之际,研究人员会把图片信息传递给 LLM,使其针对每一个图片与主题的组合,生成 20 个梗图的文字说明。

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑__AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑

研究的用户界面是以 React 来搭建的。数据的收集以及和 OpenAI 的 GPT-4o API 的交互,是通过 NodeJS 服务器来进行的。这样就保证了数据的准确性和完整性。

梗图的创作是在线上进行的,并且是在专门搭建的梗图创作界面完成的。梗图的评估也是在线上进行的,是借助商业调查平台来完成的。

在梗图创作阶段,研究人员借助线上平台 Prolific 招募了 124 人。其中有 26 人未能完成任务。

最后的参与者来自 30 个不同国家,他们英语水平较好,此前至少使用过一次 LLM 的界面。这些参与者中,有 63 人是男性,35 人是女性,平均年龄为 28.8 岁。

在梗图评估阶段,新招募了 100 人。这些人同样需英语好,不过不要求有使用 LLM 的经历。最终有 98 人完成了任务。这组人的男女比例较为相近,平均年龄为 32.6 岁,且来自 29 个不同的国家。

研究结果

现在,激动人心的研究结果来啦!

看看梗图创作阶段,在创意生成方面,使用 LLM 的参与者想出的创意数量比纯人类组多。纯人类组平均每人想出 6.1 个创意,而有 LLM 帮助的参与者在这方面具有明显优势。

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑__AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑

参与者在 LLM 的协助下生成了更多的创意,同时他们并未感觉创作过程会更劳累。

从 NASA-TLX 的评估数据可知,两组在整体工作量方面差异不大,仅在“努力程度”这一项上,AI 协作组的参与者给出的分数更低。

LLM 确实能够提升创作效率,使得人们在创作梗图时可以更轻松地萌生更多创意。然而,它或许会使创作者对作品的“主人翁”之感变得薄弱。

LLM 主要在创意生成阶段起到作用,后续的筛选环节由参与者自己完成,图片制作环节也靠参与者自己完成。

梗图评分

从梗图的评分结果去看,人机协作组在创意数量方面具有优势,然而在质量方面,它并没有比纯人类创作的梗图更加出色。

在幽默程度方面,两组的评分没有显著差异;在创造力方面,两组的评分也没有显著差异;在分享度方面,两组的评分同样没有显著差异。这表明在梗图创作中,仅仅单纯地增加数量,不一定就能够提升作品的质量。

让人意外的是,纯 AI 生成的梗图在分享度方面的评分比人类组和人类 - AI 协作组高。

这是因为在训练过程中,LLM接触了众多的素材,所以它能够准确地把握大众的喜好。

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑_

当我们把目光投向那些表现最为出色的梗图时,在那些最为有趣的梗图当中,大部分是人类创作出来的;而在创造力以及分享度方面表现得很突出的梗图里,人机协作所产生的成果占了相当一部分。

这充分体现了人类在某些方面的创造力是无可替代的。人类可以把个人独有的经历以及丰富的文化内涵融入到作品之中。

AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑__AI比人类更会玩梗!模因图灵测试已被攻破,研究发现LLM表情包更搞笑

LLM 在梗图创作方面具有明显的优势。它如同一个永不停歇的创意助手,能够在短暂的时间内给出众多的创意,有助于创作者打破思维的限制,提升创作的效率。

它凭借对海量数据的学习能力,能够精准地把握大众的幽默喜好,进而创作出有吸引力的内容。

但它并非是毫无瑕疵的。LLM 生成的内容常常欠缺独特的个性以及深度,或许无法切实地理解某些特定文化背景之中的细微幽默。

人类的创造力是梗图创作中不可或缺的关键因素。

创作关于职场的梗图时,人类创作者能够把自己在职场里的真实故事与感受相结合,对 LLM 生成的创意加以调整,使梗图更有感染力且更真实。

参考资料:

相关内容 查看全部