2024年,游戏行业的AI从外到内不断触及游戏机制的核心。
众所周知的《沙威玛传奇》大多是利用AI制作的,以降低成本、提高效率。后来在《一千零一夜》和《爸爸》中,AI成为了游戏的核心玩法。近期,得到各大厂商支持的《永恒》和《暗区突围》中的AI技术再次向前迈进了一步,成为玩家在游戏中的“助手”和“队友”。
Entertainment Capitalism 的人工智能地图
与腾讯、网易的游戏内AI队友不同,就在上个月,一款名为“桌AI”的桌面伴侣宠物走红。在传统桌宠的幌子下,它真正了解玩家和游戏,并在游戏过程中提供真正的价值(查看指南、实时聊天)。从功能上看,它与当年的游戏语音助手YY非常相似。
经过一个月的内测,注册用户总数突破1万,DAU突破3000,付费率超出预期。
留存率也相当高,首次访问留存率为63%,第7天留存率为29%,第30天留存率为22%,日均时长为237分钟。这个数据甚至超过了国内很多大厂的大型号产品。
要知道,根据此前广为流传的一张统计图,国产大型AI模型的用户往往在30天后就流失严重。从字节的豆宝到百度的文心一言(现更名为文小言),使用率均降至1%以下。
问题是,为什么AI布局了这么多赛道,却只在游戏赛道上如此成功?
原因是游戏玩家既对科技感兴趣,又对AI助手有强烈需求。这样的盲点和痛点是目前AI在其他领域很少触及的领域,需要一定的门槛。
AI助手或将成为AI领域竞争的下一个赢家。
跨维度的碰撞
TableZai AI 的制作团队是一家名为 Facebook Mind 的国内公司,成立于去年 6 月。
创始人Adam是一位热爱玩游戏的95后。毕业于帝国理工学院,获学士、硕士学位。在创业之前,他曾在亚马逊和微软工作,并对聊天机器人进行了广泛的研究。
由于创始人和他的整个团队对游戏非常热衷,德赛在AI推出时就拥有了同类产品中难得的优势——匹配当前各大主流游戏。
目前,TableZai AI已适配《黑神话:悟空》、《原神》、《零零》、《明潮》等20余款游戏。
只要你打开游戏,Deskboy AI就会在屏幕上陪伴你。玩家可以通过文字或语音与赫德斯哉实时互动。
然而,仅仅“陪伴”还远远不足以让它脱颖而出。
如前所述,其核心亮点在于“理解游戏”和“理解玩家”。这主要体现在两个方面:首先,在游戏过程中,德斯再AI不仅可以理解游戏中的画面和内容,而且还可以根据玩家的行为提供有针对性的反馈。
例如,如果玩家表现出色,它会称赞玩家很棒;如果玩家不幸失败,它也会用幽默的语言来嘲笑他。
第二个方面是,在了解游戏的基础上,还可以实时提供游戏策略,在玩家陷入困境时提供帮助。
这样,玩家在游戏过程中不再需要切换回桌面,然后打开浏览器在各个网站和论坛上搜索攻略,德斯哉就会站在旁边告诉你如何通关。
除了这些核心功能外,DeskZai还可以利用生成式AI,根据玩家的喜好定制各种形状和声音。这种个性化的功能进一步增加了玩家的粘性。
不过,这样的功能虽然看起来简单,但真正实现起来却有一定的技术门槛。
具体来说,此类阈值包括:
大模型多模态游戏陪伴——让AI“懂游戏”;
从2D视频生成大模型——定制外观;
语音线路定制大模型——定制语音(语音克隆等);
其中,多模态游戏陪伴的大模式是其与游戏融合的关键。据Facebook Mind介绍,该模型的运行机制是,在用户授权后,该模型将游戏画面、音效和具有各种情绪的用户结合起来。声音用作输入,提供与游戏进度同步的个性化反馈。
从技术上来说,对于游戏知识信息,模型仍然可以通过从各种来源(游戏介绍、策略)等吸收信息,使自己“精通”不同的游戏。
但最大的困难是如何让模型能够提供实时反馈,同时理解各种输入模态(图片、声音)?
这就涉及到一个非常重要的技术——多模态融合。
从某种程度上来说,这是一项重要的技术,将决定未来大型模型在游戏中的广度和深度。
看得见、听得见的人工智能队友
之所以多模态技术在下一阶段的游戏AI中如此重要,主要是因为在之前所有结合LLM的游戏中,比如《一千零一夜》等作品中,AI的定位和作用始终是密不可分的。对话”是一个单调的框架。
这种限制限制了AI在游戏中的作用只能提供对话选项和简单的交互,而无法深入研究其他方面。
通过从不同模态的数据中提取特征,游戏中的AI助手可以将原始数据转换为模型可以处理的数值表示,同时将异构特征投影到公共子空间中,使得多个-具有相似语义的模态模型模态数据由相似的向量表示,允许人工智能理解不同模态的信息。
事实上,这种多模态的方式已经日益成为AI+游戏的潜在发展方向。
在Nvidia今年展示的一个名为G-Assist的游戏助手项目中,这款RTX驱动的AI助手将通过分析玩家的语音或文本命令以及游戏界面的屏幕截图来提供实时策略和其他相关帮助。
这和Table Zai AI的一些想法几乎是一样的。
G-Assist的核心技术在于其AI视觉模型。通过集成先进的AI视觉模型,G-Assist可以实时分析游戏窗口中的视觉信息,例如识别屏幕上出现的敌对NPC,或者推荐首选的武器和材料来收集。方法。
除了“看到”之外,这类多模态融合技术的另一大挑战是如何在实时游戏中实现玩家与AI之间极低延迟的语音交互。
最理想的情况是玩家能够像平常说话一样与AI助手进行实时交流。这测试了AI“倾听”的能力。
在今年5月的开发者大会上,微软推出了Copilot+ PC,这是一款为AI时代而生的全新PC,它也具备在游戏中充当AI助手的能力。
例如,在《我的世界》视频演示中,通过集成Open AI的GPT-4o模型,Copilot可以实时分析游戏画面的内容,并根据不同的情况和场景,用各种语气和语气与玩家交流。
例如,当玩家成功躲避敌人追击时,副驾驶会发出喘息声,祝贺玩家成功找到庇护所。
这种实时、低延迟的语音交互背后的技术大致可以分为两种类型。一是传统的基于神经网络的文本转语音(Text-to-Speech)技术,也称为TTS;另一种是端到端的,即 GPT-4o 演示的那种实时语音技术。
从技术角度来看,后者要求更高,但效果却远好于前者。
这是因为传统的TTS合成通常需要先将文本转换为语音,并且输出往往存在一定的延迟。这种差距在一些需要快速反应的竞技类、动作类游戏中表现得尤为突出。 。
更重要的是,由于融合了意图理解、自然语言处理等环节,端到端的语音模型不仅可以“像真人一样流畅”,还可以根据语气实时调整自己的语气。不同的情况。 ,语调。
传统TTS要想实现这一点,只能提前手动设置。
拥有“看”和“听”的能力后,LLM在游戏中的定位不再局限于单纯进行对话的NPC,甚至是可以实时互动的AI助手。对于一些更有野心的游戏公司来说,这种多模态技术的成熟也成为了在AI时代重建自己护城河的新手段。
代理技术让人工智能比真人更好
打破“对话”框架的限制后,AI助手在游戏中能做什么?
网易在《永劫》中给出的答案是:一个能听懂语音指令、自动运行地图、收集物资、配合战斗的智能AI队友。
6月19日,手游《永恒之劫》在“最终测试”中引入了全新的“游戏副驾驶”功能。并且依托先进的LLM技术,为玩家提供了比真人更优秀的AI队友。
这样的队友有多聪明?
例如,在战斗中,如果玩家说:“给我一些药”,AI队友就会立即跑到玩家身边,给他们相应的道具。
同样,在战斗中,AI队友不仅可以指挥哪里战斗,还可以通过独立判断战场局势来优化决策,创造出与真实队友组队打黑一致的默契体验。
有时,对于一些特定的道具搜索,AI队友也可以响应请求。
除了基本的战斗和搜索指令外,AI队友还会主动说话聊天,缓解战斗后的气氛,为玩家提供情感陪伴的价值。
总的来说,这个AI队友可以跑地图、搜索物资、战斗、协助救援,还可以和玩家实时语音聊天。它几乎可以做真正队友能做的所有事情。
为了实现这一点,网易依靠的是前面提到的多模态识别、实时语音交互等技术。
具体来说,这个AI队友不仅可以听懂玩家的话(语音识别)、观察战场局势(视觉信息输入)、了解地图和英雄技能(游戏机制学习),甚至可以借助大佬的帮助学习如何战斗。来自众多大师的数据。不错的永恒劫手机游戏。
但除了多模态之外,创造这样的智能AI队友还有最重要的一块:AI Agent技术。
这是因为多模态+LLM的结合解决了看、听、理解以及与AI队友沟通的问题,但要让它真正成为游戏中的得力助手,它必须能够自己操作游戏。
这背后就是AI Agent技术。
与传统NPC依靠预设程序执行固定操作不同,Agent技术赋予AI队友更大的灵活性和自主权。这是因为Agent技术赋予了AI队友“自主规划”和“自主运营”的能力。
在人工智能领域,Agent是指能够感知环境、做出决策和执行行动,能够在复杂多变的环境中独立完成任务的系统。
事实上,早在《永劫》中的AI队友出现之前,业界就已经在探索Agent+游戏的方向。比如网易本身就有一个名为网易数智的AI平台,为MMO、SLG等游戏类型提供AI对手。
同样在今年 3 月,谷歌旗下 DeepMind 宣布对新型 AI 代理 SIMA 进行突破性研究,旨在使代理能够在各种游戏环境中理解并执行自然语言指令。
SIMA 在游戏中执行动作只需要两个输入:屏幕上的图像和用户提供的自然语言指令。测试期间,SIMA在《无人深空》、《拆迁》等9款不同游戏中进行了训练和测试,在游戏中执行了驾驶飞船、采矿、砍伐树木等一系列操作。
通过学习不同的游戏世界,SIMA 捕捉图像、语言和游戏行为之间的联系。
这种联系来自于游戏过程中收集的大量数据。例如,屏幕上的图片、声音效果、文字描述,甚至鼠标和键盘的操作记录。
然后,收集的数据集用于训练预先指定的模型,以适应不同的游戏场景和任务。
从玩法机制上来说,AI Agent技术在游戏领域的介入几乎是不可避免的,因为有太多游戏的目标需要复杂的规划和多个子任务才能完成,比如“寻找资源、建造营地”等等。
这种融合多模态、Agent等技术的游戏尝试,发展到一定阶段后,必然会出现成熟的“高手”。
比如《暗区突围》中的AI队友就是这样的例子。
更高的门槛,更高的体验
今年8月的科隆游戏展上,腾讯魔方工作室分享了最新的自研AI技术——FACUL。
这是魔方工作室与暗区突围项目组合作推出的全球首款语音指令FPS AI。它应用了最先进的生成式人工智能技术,包括语音输入、大语言模型、实时语音合成和环境识别。
所谓FACUL,实际上是一系列核心功能的集合,目的是让AI表现得更像人类队友。
具体来说,它包括:
复杂命令识别:该功能意味着AI可以理解玩家发出的复杂命令,使其能够识别并执行多步命令,以适应不同的战术需求。
战术执行:指AI执行战术操作的能力,例如掩护、包抄、攻击等。AI不是简单地跟随玩家或执行基本攻击,而是可以执行更复杂的战术。
物体识别:这意味着AI可以识别场景中的特定物体,例如敌人、掩体、道具等。这种识别能力是执行任务和战术的基础,帮助AI在复杂环境中做出适当的决策。
类人交互:旨在让人工智能的行为更接近人类。人工智能将表现出类似人类的反应并增强游戏的沉浸感。
虽然和《永劫》中的AI队友一样,《暗区突围》中的FACUL也结合了多模态、Agent等技术,但无论是复杂度还是要求都比前者高了一步。
这主要是因为,与《永劫》相比,《暗区突围》中的道具、武器、场景更多、更复杂,战斗中需要执行的战术也更加多样、充满变数。 。
例如,“FACUL”将允许 AI 角色识别多达 17,000 个游戏物品,包括建筑物、武器和表面。魔方工作室表示,他们甚至可以识别“一片草叶”。
在具体的战斗中,玩家还可以向AI队友发出一系列连续且复杂的指令。在执行这些指令时,AI队友不仅能准确理解其含义,还能知道指令中提到的“沙包”。 ”,“车”到底在哪里?
在执行指令时,FACUL首先会基于多模态输入对环境进行结构化分析,建立包含敌友位置、障碍物、目标物体等要素的“态势图”。
随后,当玩家发出“清理房间、守卫出口”等复合指令时,AI队友会利用Agent的任务分解和多步执行能力,将其分解为多个步骤:先清除敌人,然后寻找补给,最后在出口处守卫。
这种多阶段的任务分解和执行能力是Agent技术中“自主规划”的重要组成部分,也是FACUL等AI高效、灵活地完成任务的关键。
结论
可以说,《永劫》、《暗区突围》等例子都揭示出,随着多模态、Agent等技术的进一步发展,AI对游戏的介入正在不断深入,其带来的游戏体验的提升是变得越来越明显。
但与此同时,AI+游戏的另一大趋势是:随着技术复杂度不断提高,“AI游戏”的门槛和壁垒也一步步变高,有实力的玩家留在扑克上表也成为资源和资金更加雄厚的大工厂。
不过,从行业角度来看,这种上升的门槛或许并不是一件坏事。
因为随着各大公司逐渐占领AI+游戏领域,AI游戏的制作将进入更加稳定、有更多标准和法规可遵循的“产业时代”,其质量提升也将更加扎实、可控。而不是像早期的AI游戏那样,游戏的火爆大部分只能依靠团队的“灵感”、天赋或者运气。
本文来自微信公众号,作者:鱼子酱团队,36氪授权发布。