《俄罗斯方块》的玩法策略发现和演变外文翻译资料

 2022-08-07 14:34:26

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


《俄罗斯方块》的玩法策略发现和演变

文莱达鲁萨兰国计算与信息学院媒体信息学特别兴趣小组

摘要:

智能系统的一个重要特征是自动发现新知识的能力。这项工作使用一种进化技术来寻找好的解决方案,然后使用一种数据挖掘技术来提取隐含编码在进化的解决方案中的知识。本文采用遗传算法(GA)求解随机生成的四元组序列。这一领域之前的研究采用进化策略来进化预先定义的评估功能的权重(即偏好),然后再用来决定玩家的行动,与此相反,我们直接进化了玩法行动。每条染色体都代表着一个可行的游戏策略,它的适用性可以通过使用来自每条染色体的游戏指导来模拟实际的游戏玩法来评估。在每个模拟中,与游戏玩法相关的13个属性,即每个铁板鱼的轮廓图案和动作,都是从进化最好的游戏中记录下来的。这将产生6583个实例,然后我们应用Apriori算法从这些实例中提取关联模式。结果表明,即使遗传算法不知道这些游戏策略,也可以从进化的游戏中成功地提取出合理的游戏策略。

关键词:进化一个俄罗斯方块玩家,遗传算法,发现俄罗斯方块游戏策略

本文研究了俄罗斯方块游戏中关于游戏策略的知识发现问题。俄罗斯方块是帕基特诺夫在1984年[1]创造的一款著名的瓷砖拼图游戏。俄罗斯方块游戏的目的是重新排列掉落的铁板上的20 times;10瓷砖板,以确保板上有最少的未填满的瓷砖。俄罗斯方块中的7种鲤鱼是根据它们与相应字母的相似度来命名的:I、J、L、O、T、S、z。虽然俄罗斯方块的玩法简单,但鲤鱼的位置和旋转的合理组合产生了大量的游戏状态。在棋盘大小为20张times;10牌的情况下,可能的gamestate上限是7 times; 2200个状态。[2]认为,寻找俄罗斯方块控制器是一个NP完全问题。俄罗斯方块游戏已经成为许多人工智能游戏研究人员探索的热门桌面游戏,因为它的游戏规则简单,但游戏策略复杂。使用手工制作的规则和启发式来模仿玩家的行为是[3]的许多同事调查的既定研究主题之一。玩家的行动规则通常是基于这样一个事实,即鲤鱼的放置方式应该是每一行的所有空白都应该被填满,或者放置不会产生无法到达的洞,或其他想要/不想要的属性。这个概念在以前的所有作品中都很常见。例如,采用了以下性质:被填充的河豚所形成的最顶部轮廓、无法到达的孔数、被填充河豚的最大和最小高度等代表董事会成员国。董事会状态和行动之间的联系可以使用生成-测试策略来确定。尝试所有可能的下一个状态,最佳选择[4]。该模型的表现取决于该项目对未来的展望。传统知识工程方法虽然能够有效地对专家知识进行紧凑编码,但传统知识工程方法中的知识获取瓶颈问题对许多问题领域提出了很大的挑战。这个过程是耗时的,有效的启发式并不总是可以实现的。尽管传统知识工程方法存在这些局限性,但很少有游戏AI研究人员探索通过软计算技术利用知识发现提取游戏策略的可能性。在这里,我们研究了进化计算技术的应用,以发现如何玩俄罗斯方块的控制知识。我们感兴趣的是找出从只使用一般适应度函数的游戏玩法中产生的模式。在这里执行的《俄罗斯方块》游戏中,适应度函数反映了关于未填充砖块数量的信息。这背后的直觉是有一个简单的进化系统,它进化解决方案,然后从解决方案中提取更高层次的知识。论文中其余的材料被组织成以下部分;第二节:相关作品;第三节:问题的制定;第四部分:实验结果与讨论;第五部分:结论。

相关的工作

基于规则的手工制作的《俄罗斯方块》控制器已经被研究并成熟了几十年。在基于规则的方法中,玩家的行动是基于从游戏中提取的信息而决定的。用填满的四边形所形成的最顶部轮廓、无法到达的孔数等属性来表示板的状态(读者可以在[5]中找到很好的总结)。这些期望的板性能可以量化为一个值函数V(s)[6],通常表示为期望的板性能fieg的适应度的加权线性和。V (s) = ?N i = 1 wifi(年代)。将这些规则和启发式应用到游戏中,这些规则和启发式的不同加权组合会产生不同的控制器行为。随着规则和启发式的增加,手动调整这些参数并不是一件简单的事情。因此,进化计算被广泛应用于寻找这些规则的最优加权组合[6,7]。最新进展在软计算方法也被许多研究人员探索,强化学习(RL)技术学习state-actions政策玩许多游戏和学习之间的关联操作和积累董事会值V (s)当前的行动和未来行动的序列(8、9)。[10]最近对关系强化学习(RRL)、交叉熵RL和交叉熵RRL进行了研究。俄罗斯方块也是认知科学家的研究领域,他们想从认知科学的角度[11]研究我们如何学习解决问题的技能。然而,通过知识发现技术发现《俄罗斯方块》玩法策略的尝试还没有达到大多数研究者的目的。据我们所知,这项工作代表了该领域的早期工作之一。一个能够自己发现重要概念的自学习系统的想法已经被提出和讨论了几十年。一个能够学习和发现新概念的自学习系统必须完成以下基本任务:(i)模式生成,(ii)模式发现,(iii)概念形成。虽然这个框架已经在很多地方被规划和讨论过,但是一个能够以这种方式形成新概念的全面的自学系统还没有被实现。本文从俄罗斯方块领域的角度讨论了模式生成和模式发现组件。采用遗传算法对随机生成的棋盘序列进行演化。然后使用关联规则挖掘来分析进化的游戏玩法,以发现游戏模式,即游戏策略。

我们的方法

GA被用来进化玩家的游戏玩法,使之与tetrinotes的序列相对应。对于每一个给定的序列,GA发现了一系列的动作,这些动作可以最优地放置tetrominoes,从而产生最小的未填满的洞。我们希望从许多不同游戏的玩法中看到一种游戏策略。然后利用关联规则挖掘技术提取游戏策略。在这一执行过程中,我们对《俄罗斯方块》的玩法做出了以下假设:对于每一个时间步,一个四重奏的信息透露给一个玩家。只有当玩家玩过当前的铁板鱼后,下一个铁板鱼的信息才会被透露。2. 对于每个tau; (tau;),只允许一个动作(旋转和平移的组合)。3.在游戏过程中没有进行排位。因此,每一场游戏都会产生一个由50条鲤鱼组成的序列。序列从集合{I,J,L,O,T,S,Z}中均匀选择随机生成。让我们使用元组(S, a,F,V)正式定义俄罗斯方块游戏,其中S是一组游戏状态;A是玩家行动的集合;F为跃迁函数;V是[12]值函数。bull;游戏状态S:状态Sisin;S是俄罗斯方块棋盘区域上的一个可能的排列。在这个实现中,状态sisin;{0,1}20times;10is表示为一个二进制矩阵,其中条目1表示一个填充的tile,条目0表示一个空tile。bull;玩家的动作aisin;a:在游戏过程中,每个新的东板鱼tau;isin;{I, J,L,O,T,S,Z}被放置在最上面一排的棋盘上。在每一个时间步,由于它的重力,tetrominoe碎片掉落一块瓷砖。玩家可以旋转鲤鱼(即90度、180度、270度),并在水平轴上移动鲤鱼(即左/右移动)。这里,A表示一系列动作{a1,a2,hellip;,一个玩家从游戏开始到游戏结束所获得的。动作a表示为元组(tau;, r, x) where, tau;表示所需的鳍虫,risin;{1,2,3,4},其中(rminus;1)90表示所需的旋转,xisin;{1,2,hellip;,10}表示螯鱼最左边的位置。bull;过渡函数F:过渡函数F(s, a): st→st 1将当前板状态st映射到新板状态st 1,这是应用有效行动a的结果。有效行动是指符合《俄罗斯方块》规则的行动。bull;值函数V:值函数V(s): s→R将板状态s映射到一个真实值。

在[6]中,各种特征(即适应度标准)被提出。我们的健康标准是一个简单的未填充瓷砖的度量,这将在下一节中讨论。

在我们的执行中,只有当所有50个鲤鱼完全填满200个方格时,才会出现一款完美的游戏。因此,游戏的目标是将填满的贴图最大化(或将未填满的贴图最小化)。每个游戏都用染色体cn表示,它代表一系列的动作{a1,a2,hellip;,是}。一个染色体C的种群是一个m times; n矩阵,其中m表示动作序列的长度,n表示种群中染色体的数量。每条染色体都代表了特定序列的一种不同的捕食策略。这些染色体是进化的。对于每一代,我们都通过模拟实际的俄罗斯方块游戏来评估每条染色体的适合度。较少的未填充瓷砖的染色体被认为是更好的,并希望在下一代中复制

每次游戏结束时未填满的贴图的总量是游戏整体质量的良好指标。一款更好的游戏应该有更少的未填满的贴图。然而,未填满贴图的数量并不能很好地衡量玩家在游戏过程中的行动,因为它并没有足够的表达能力来描述不同行动的结果。然而,研究人员决定用一种反映未填满瓷砖数量的方法来评估染色体的适合度。这是出于我们的好奇心,我们想知道复杂的游戏玩法策略是否会出现在只有一个简单的健身计划的游戏中,而这个计划并没有描述任何关于游戏的深层次知识。

3.1.1。适应度函数我们将未填充的局部砖定义为在期望区域内未填充的砖。我们清点所有的部分空缺瓷砖所需的地区成长为一代进步[13](见Eq 2)。通过这种方式,我们更看重工作的底部区域的董事会在游戏的早期阶段,逐步扩大地区董事会全体向比赛结束。让我们描述了使用这些过程参数:h,步骤和w。T h e h表示俄罗斯方块董事会的行数,一步表示俄罗斯方块的位置沿行董事会GA代,n,增加对最大的一代(设定在500):一步= h (maxGenerationminus;n) / maxGeneration

权重w表示第i行重要性

3.1.2。在这个实现过程中,整个种群中最适的10%被挑选出来,并在不经过交叉和变异过程的情况下延续到下一代。其余的人会进行一个标准的点交叉和点突变。双亲为一对:按其在全群体中的排名顺序选择cxx,从其余群体中随机选择cyx。然后,对cxamp;cy进行标准的一点杂交,产生两个后代,并将较好的后代czz保留给下一代。然后一个点突变随机应用到染色体cz上。这个过程一直持续到所有的终止条件都被满足或遗传算法达到最大的生成。3.2。每条染色体通过模拟实际游戏进行评估,见图1。模拟函数以一系列的鲤鱼和进化的动作(即位置和旋转)作为输入。模拟游戏并计算适合度。

3.3。从进化游戏中挖掘游戏策略3.3.1我们决定记录以下属性:(i)顶部瓷砖轮廓图案,(ii) tetromino tau;,和(iii)为每个tetromino采取的动作a。总共有145个进化的游戏玩法,因此所有行动共有7250个情节(50 times; 145)。然而,只有一款完美的游戏使用了全部50条鲤鱼。从我们的实验中,我们共记录了6585集,在每一集中记录了13个描述轮廓图案、四足鱼类型和动作(即位置和旋转)的属性。图2说明了一些轮廓模式示例。我们假设轮廓模式依赖于如何逻辑决定

3.3.2。Apriori算法是目前流行的关联分析算法[14]。背后的想法是列出数据集中可能的属性组合;然后,可以评估这些属性的相关关系。463 Somnuk Phon-Amnuaisuk / Procedia Computer Science 60 (2015) 458 - 467 X→Y但这将产生大量可能的组合。两个约束:支持数s和置信值c通常被用来修剪不太重要的组合。s(X→Y) =sigma;(Xcup;Y) N (3) c(X→Y) =sigma;(Xcup;Y) sigma;(X) sigma;(X)(4)其中X和Y表示感兴趣区域内的不相交集(Xcap;Y =empty;),即轮廓图案、板子的位置和旋转;sigma;(·)是返回集合中项目的计数的函数。a支持数s(X→Y)是集合X的出现次数与观测总数(即N个事务)的比率。信心c (X→Y)的比率发生的数量是集合Xcup;集合X Y /总发生,注意组属性Xcup;Y组属性X的始终是一个子集的上下文推测的算法。图1图形化地总结了演化过程、模拟、模式记录和关联规则挖掘过程在这里实现。4. 实验设计和结果每个遗传算法群体都进化出一个随机生成的铁鱼序列的游戏玩法。145条四苯虫序列,每个序列有50条四苯虫序列,均从{I,J,L,O,T,S,Z}集合中均匀采样。结果建立了145个GA群体,每个群体使用200条染色体、10%的精英方案、1点交叉、1点突变等参数在500代内完成进化。下面的伪代码强调了在这个实现中使用的演进过程。

4.1。结果和讨论所有145个序列的适应度分布都有相似的模式。图3显示了GA种群在整个进化过程中观察到的未填充和部分未填充瓷砖的平均值。在第一代游戏中,未填满的贴图的数量大约是80-100个,在游戏结束时,平均有20个未填满的贴图。在第一代游戏中,未填满的贴图的数量大约是10个,在游戏结束时,未填满的贴图平均为20个。将这两种进化策略的游戏玩法与人类的进行比较是很有趣的。表1所示的是该系统的游戏玩法和人类使用相同的tetromino序列进行游戏的例子。464 Somnuk Phon-Amnuaisuk / Procedia Computer Science 60(2015) 458 - 467以及图34。人类玩家也会按照同样的顺序玩游戏,因为我们只对比较人类和电脑的游戏策略感兴趣,所以我们决定人类玩家可以花足够的时间玩每一个铁板鱼。结果表明,遗传算法解的质量较好

记录在我们的实验中,每个实例都有13个属性即轮廓模式(10),位置和旋转(2),一个tetromino(1)。然而,我们没有选择对这些属性进行关联规则挖掘,因为太小了(我)6583实例数据大小考虑来自13个属性的所有可能组合,和(2)它可能不是卓有成效的轮廓的基本知识单元模式。我们决定把轮廓信息和位置结合起来。这种预处理将13个属性减少到只有4个属性

尽管Apriori算法计算的关联规则明确地表明了这一点,但应该指出的是,在大多数情况下,对规则的解释并不是直接翻译。例如,上面的第一个模式(s1=0 rotation=3 token=I ==gt; s2=0)应该被解释为:

图4为读者提供了关于旋转信息的参考。通过研究这些规则,我们意识到,所有这些提取出来的规则都是对如何在现有的板上放置铁板的逻辑描述,使其符合轮廓而不产生洞。这表明进化的游戏玩法已经成功地捕捉到了这些规则。是否有可能提取出描述更复杂玩法策略的更复杂规则?我们相信,目前的模式可以进一步加以利用。在未来的工作中,我们将计算出更多手工制作的功能以及它们之间的关系,这些功能能够有效地描述游戏玩法。只要有足够的交易,就会出现有趣的玩法模式。

5. 在本文中,我们研究了自动发

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[259610],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。