AI花了7000个小时打败《Pokemon Red》的第一个健身房,但在5万个小时后仍然找不到第二个
2024-09-10 05:23

AI花了7000个小时打败《Pokemon Red》的第一个健身房,但在5万个小时后仍然找不到第二个

  

  

  一名程序员给一个人工智能模型进行了5万小时的训练,教它如何玩《精灵宝可梦红》(Pokemon Red),从而产生了一个能够探索游戏并组建团队击败第一个健身房领导者的算法——但这个算法无法找到穿越月球山的路,也无法知道如何继续购买magkarp。最重要的是,这个练习是一种了解机器学习实际工作原理的迷人方式。

  正如Peter Whidden在一个广泛的视频中所概述的那样,AI能够通过模拟器上的常规控制输入与游戏进行交互。它按下一个按钮,看着屏幕看看发生了什么,就像人类玩家一样。Whidden将每个学习环节设置为两个小时的游戏时间,尽管随着模拟速度的加快,这些环节可以在大约6分钟内实时完成,并且通过同时运行40个测试环节,这一过程进一步加快了。

  由于机器算法本身并不关心是否能打败电子游戏,所以Whidden为AI设定了特定的奖励目标。为了鼓励好奇的探索,每当AI看到新事物时,它就会获得奖励点,这是通过屏幕上出现的明显不同的像素来衡量的。这就产生了一些意想不到的结果——例如,AI只会被水的轻微动画所吸引,但它却能够激励计算机从“托托镇”(plattown)穿过“绿森林”(Viridian Forest),到达“锡城”(Pewter City),在那里与Brock进行了第一次健身房战斗。

  AI也需要更多的奖励和惩罚。由于奖励都与看到新事物有关,AI只想继续前进,这意味着它不关心战斗或捕捉Pokemon,所以它最初只是逃避每次遭遇。所以Whidden添加了一个系统,即AI将基于其活跃的Pokemon团队的总级别而获得奖励。

  这能够让AI为XP而战并抓住Pokemon,但同时也产生了意想不到的后果。当AI来到Pokemon Center时,它便会与PC进行互动并储存一些Pokemon。这极大地降低了团队的总等级,同时剥夺了大量的奖励点数。这对AI来说相当于一次创伤性的经历,导致它完全避开精灵宝可梦中心——因此拒绝治疗团队,直到Whidden再次调整奖励系统。

  因为AI总是随机行事,直到找到能够获得奖励点数的方法,所以与Brock的战斗便是一个特别的问题,因为你需要利用他的岩石类型Pokemon的元素弱点去对他们造成真正的伤害。只有在一次迭代中,除了Bubblebeam, AI的Squirtle在每次移动中都处于PP之外,算法才能够学会如何打败健身房。

  然而,尽管AI不擅长弄清楚人类玩家可能非常自然的东西,但它很快就学会了其他更深奥的东西。Whidden在某一点上意识到,算法总是会绘制一条非常具体的,看似荒谬的路径,从托盘镇到第一次遇到野生口袋妖怪。这看起来很奇怪,直到我们发现这一系列精确的输入能够确保玩家只需要投掷一次Pokeball便能够捕获野生Pokemon。是的,AI自发地学会了快速奔跑者花费数年时间开发的RNG操纵艺术。

  打败Brock是这个项目的一个很自然的最终目标,但是《Whidden》确实让AI跑得更久,看看会发生什么,它确实进入了Mt. Moon的深处——但是地下城潮湿、单调的通道让AI很不舒服,以至于它永远无法找到通往另一边的路,所以它永远无法找到Cerulean City的第二个健身房。

  然而,AI确实喜欢的一件事是购买了Magikarp。在这一点上,以荒谬的价格向你出售有史以来最糟糕的口袋妖怪的坏人几乎是一个笑话,但对于AI来说,购买Magikarp是一种快速获得5个级别的口袋妖怪的方法——这是游戏中最划算的交易!显然,人工智能买了那个马吉卡普一万多次。

  哦,关于计算机随机操作的魔力的最后一个轶事:有一次,AI捕获了一只Rattata,并将Pokemon命名为“AI”。有时候,这些事情的结果有点太完美了。

  人工智能生成的美术和文字极具争议性,但一些资深开发者认为,在游戏行业中,“金钱仍然会驱使所有人”使用机器学习。

本内容为作者翻译自英文材料或转自网络,不代表本站立场,未经允许不得转载
如对本稿件有异议或投诉,请联系本站
想要了解世界的人,都在 九九叭

相关推荐