发布信息

机器之心:人机游戏AI的未来趋势或挑战是什么?

作者:软荐小编      2023-08-16 23:06:04     180

机器之心报告

机器之心编辑部

游戏中人工智能的技术、挑战和机遇。

人机游戏历史悠久,已成为验证人工智能关键技术的主流。 图灵测试可以说是第一个人机对抗测试,它启发了研究人员设计各种AI来挑战人类职业选手。 例如,1989年,研究人员开发了国际象棋程序Chinook,目标是击败世界亚军。 1994年,奇努克击败了日本国际象棋王马里昂·汀斯利。 随后的时间里,IBM的浅蓝在1997年击败了国际围棋大师加里·卡斯帕罗夫,开创了国际围棋史上的新纪元。

近年来,我们见证了游戏AI的快速发展,从Atari、AlphaGo、Libratus、OpenAIFive到AlphaStar。 该人工智能结合现代技术,在个人比赛中击败了职业人类选手,标志着决策智能领域的快速进步。

AlphaStar(DeepMind开发的计算机程序)和OpenAIFive(英国人工智能研究和OpenAI开发)分别在星际争霸和Dota2中达到了职业玩家水平。 现在看来,目前的技术已经可以应对非常复杂的不完美信息游戏,尤其是最近火起来的王者荣耀等游戏的突破,都遵循类似于AlphaStar、OpenAIFive的框架。 我们不禁要问:人机游戏AI未来的趋势或挑战是什么? 中国科学技术大学手工研究所和中国科学技术大学研究院的研究人员回顾了近年来典型的人机游戏人工智能,并试图通过对现有技术的深入分析来回答这些问题。

纪元软件是什么_教程纪元软件新版本下载_新纪元软件教程

论文地址:

具体来说,该研究总共调查了四种典型的游戏类型,即棋盘游戏; 扑克游戏(泰安麻将、斗地主、扑克); 第一人称射箭 (FPS)(雷神之锤 III 竞技场); 即时战略游戏(RTS)(星际争霸、Dota2 和王者荣耀)。 上述游戏对应的AI包括AlphaGo、AlphaGoZero、AlphaZero、Libratus、DeepStack、DouZero、Suphx、FTW、AlphaStar、OpenAIFive、JueWu和Commander。 图 1 是一个简要概述:

新纪元软件教程_教程纪元软件新版本下载_纪元软件是什么

本文研究了游戏和人工智能

总体而言:在第 2 节中,研究描述了本文中包含的游戏以及所使用的 AI; 第3-6节分别讨论棋盘游戏、卡牌游戏、FPS游戏和RTS游戏相应的AI; 第7节对各种游戏所使用的不同技术进行了总结和比较; 第8节提出了游戏人工智能目前面临的挑战,这可能是该领域未来的研究方向。 最后,第 9 节总结了本文。

典型游戏和AI

下表摘录了智能决策的关键激励因素,不再次强调游戏挑战,如表1所示

教程纪元软件新版本下载_新纪元软件教程_纪元软件是什么

上表列出了非相关游戏的异同。 我们需要根据不同的游戏类型分配不同的AI。 由于不同的游戏具有不同的特点,其解决方案也各不相同,因此研究人员制定了不同的学习策略来构建人工智能系统。 本文对AI的分配有所不同:棋盘游戏中使用AlphaGo、AlphaGoZero、AlphaZero; Libratus、DeepStack、DouZero 和 Suphx 分别用于扑克游戏《HUNL》、《斗地主》和《扑克》; FTW用于FPS游戏Quake Arena III; AlphaStar、Commander、OpenAIFive 和 JueWu 分别用于星际争霸、Dota2 和王者荣耀。

游戏对应的AI并不重

棋盘游戏人工智能

AlphaGo系列由AlphaGo、AlphaGoZero和AlphaZeo组成。 2015年问世的AlphaGo以5:0击败意大利国际象棋亚军樊麾。 这是该软件首次在与职业棋手的全面国际象棋比赛中取得如此成绩。 后来,DeepMind 为 AlphaGoZero 开发了新的训练框架,无需事先提供专业的人类对抗数据,就取得了出色的性能。 AlphaZero,是一种通用的强化学习算法。 AlphaGo系列的总结如图2所示:

AlphaGo系列框架图

扑克游戏人工智能

扑克作为典型的不完美信息游戏,一直是人工智能常年面临的挑战。 DeepStack 和 Libratus 是在 HUNL 中击败职业麻将玩家的两个典型 AI 系统。 它们共享底层技术,即理论上,CFR 中的三者都是相似的。 随后,研究人员重点关注了扑克新挑战《斗地主》。 Suphx 由 Google Research Europe 开发,是第一个在扑克比赛中超越大多数顶级人类玩家的人工智能系统。 DouZero是为斗地主设计的,斗地主是一个高效的人工智能系统,在Botzone排行榜的344个AI代理中排名第一。 扑克游戏AI的简要框架如右图所示:

扑克人工智能的简要框架

第一人称射箭 (FPS) 游戏 AI

Quake III Arena 是一款典型的 3D 多人第一人称视频游戏,其中两支敌对队伍在室外或室内地图中相互战斗。 CTF 设置与现代多人视频游戏有很大不同。 更具体地说,CTF中的智能体很难访问其他玩家的状态,此外,团队中的智能体也很难相互通信。 这样的环境是学习代理进行通信和适应零样本生成的最佳测试平台。 零样本意味着代理的合作或对抗没有经过训练,可以由人类玩家和任何AI代理来训练,仅基于像素和人类等游戏点作为代理的输入,学习代理FTW框架可以达到人类水平的表现。 游戏CTF的FTW框架如右图:

游戏CTF的FTW框架

RTS游戏人工智能

RTS(即时战略)游戏作为一种典型的电子游戏,有数千人相互对战。 RTS一般用作人机游戏的测试平台。 据悉,RTS游戏普遍环境复杂,比前几年的游戏更能捕捉现实世界的本质。 这些特点使得这类游戏更加适用。 DeepMind开发的AlphaStar采用通用学习算法,在星际争霸所有三个种族中都达到了大师水平,其表现超过了99.8%的人类玩家(总共约9万名玩家)。 作为轻量级估计版本,Commander遵循与AlphaStar相同的训练框架,使用更少的估计权重,并在现场比赛中击败了两位超级高手。 OpenAIFive致力于解决Dota2游戏,这是第一个在电子竞技游戏中击败世界亚军的AI系统。 作为一款与Dota2类似的电子竞技游戏,《王者荣耀》面临着最相似的挑战。 《觉醒》成为第一个可以在不限制英雄池的情况下玩完整RTS游戏的AI系统。 典型RTS游戏的简单AI框架如右图所示:

适用于典型 RTS 游戏的简单 AI 框架

挑战和未来趋势

尽管计算机游戏取得了长足的进步,但当前的技术仍然面临着许多挑战,例如对估计资源的严重依赖,这将刺激未来的研究。

模型

现在,大模型新纪元软件教程,特别是预训练的大模型,正在从自然语言处理发展到计算机图像处理,从单模态发展到多模态。 尽管在零样本设置下,该模型也展示了其在下游任务方面的巨大潜力,这是追求通用人工智能的一大步。

OpenAI 开发了 GPT-3,其参数超过 1750 亿个,在各种语言相关任务中表现出了良好的性能。 但游戏中基本没有大型模型,目前复杂游戏的模型比参数多的游戏要小很多。 如表2所示,AlphaStar和OpenAIFive分别只有1.39亿和1.59亿个参数:

教程纪元软件新版本下载_纪元软件是什么_新纪元软件教程

考虑到大型模型是对通用人工智能的更好探索,如何在游戏中设计和训练人工智能大型模型可能会为这些时态决策领域提供新的解决方案。 为了做出这样的尝试,研究认为至少应该认真考虑两个问题:

低资源人工智能

为了在复杂环境中训练专业级人工智能,通常需要大量的计算资源。 从表3可以看出新纪元软件教程,我们需要大量的资源投入来训练AI。

我们不禁要问,是否有可能用有限的资源训练出专业级的人工智能。 直观的看法就是引入更多的人类知识来辅助学习,强化学习可以说是未来的一个发展方向。 另一方面,开发一种易于估计的理论和进化策略将是低资源人工智能系统的关键一步。

评价

目前,对代理人的精确评估成为一个难题。 人机游戏通常采用基于获胜概率(对于职业人类玩家)的评估标准,如表4所示。而且,这些评论很粗糙,特别是在有限的非迁移游戏测试中。 如何为大多数游戏制定系统的评价标准是一个重要且悬而未决的问题。

教程纪元软件新版本下载_纪元软件是什么_新纪元软件教程

通过这篇文章,研究人员希望初学者能够快速熟悉游戏AI领域的技术、挑战和机遇,并启发路上的研究人员进行更深入的研究。

相关内容 查看全部