“现实世界没有什么有趣的任务,”格里乌斯笑着说,“游戏则非常完美,它们会给你提供奖励——不管你有没有赢,不管你得到什么样的分数,你都能得到奖励。”游戏可以玩无数次——它们只是软件,可以同时被成千上万的机器人玩,如此一来就能成倍加快它们找到解决方案或策略的速度。
但这种方法的缺陷在于,机器人学习做什么完全取决于奖励。算法对游戏的工作原理完全没有概念,因此,如果游戏中存在漏洞或故障,机器人还是只会做最简单的、会给它奖励的事情。
今年早些时候,德国弗莱堡大学的研究人员在训练强化学习算法来玩雅达利的游戏 Q*bert时发现了这一点。它没有学习像人类那样玩游戏,而是学会了通过从舞台侧面跳下来引诱敌人自杀,因为它们知道敌人会跟着它们跳下去。游戏认定敌人被杀,给予机器人额外的生命和分数,所以说机器人有赚了。
该机器人还发现了游戏的一个小故障:如果它从一个平台跳到另一个平台,它可以拿到数十万的分数。从技术上讲,它是在做自己的本职工作:拿分。但这算不上真正地学习玩游戏。
最近,格里乌斯的工作重心是通过随机化这些机器人每次玩的游戏级别来打造更好的游戏机器人。他指出,因为机器人从来不会在同一级别上玩两次,所以它们并不仅仅是学习如何找到破解的办法或者找到一个策略——它们实际上是在学习如何在任何情况下完成任务。
不仅仅是游戏
OpenAI的游戏追求不仅仅是为了在游戏中打败职业选手,而是学习如何做出成千上万个小决定来实现更大的最终目标。一个例子是OpenAI的另一个项目,它使用与《Dota 2》机器人一样的学习系统和算法:它的研究人员设计了一种算法来控制机械手,机械手能够握住一个物体,并用手指操纵它进入特定的方向。
OpenAI技术人员乔纳斯·施耐德(Jonas Schneider)告诉Quartz,这两个项目是在大约同一时间启动的。但他指出,当《Dota 2》团队在去年的比赛中展示了它们打败人类职业选手的进步时,机器人团队意识到了强化学习系统的潜力。
“我们基本上用了和Dota实验相同的代码,达到了相同的性能水平。”施耐德说,“在短短几周内,我们就达到了此前多个月我们一直在努力开发的项目同等的水平。我想我们都很惊讶。”
这些实验使用的是OpenAI开发的一个名为Rapid的程序,该程序可协调数千个处理器来同时运行数百个强化学习算法。每一个算法都驱动机器人来玩游戏或者模拟手部移动动作,然后在实验结束后将机器人学到的东西同步给其他的机器人。
利用比普通笔记本电脑高出数千倍的计算能力,机械手能够展现出令人惊叹的灵巧性,完全不需要人类通过编码来告诉它们该如何移动每一根手指。
此外,虽然OpenAI使用类似的代码来训练它的游戏AI和机器人,但一个重要的区别在于,它们都在学习如何分别完成各自的任务。如果你想让《Dota 2》机器人控制一只机械手,它根本无法做到:算法足够通用,可以学习多种技能,但能够学到的技能还是有限的。
“我们还没有看到很多东西能够在游戏中训练出来以后,直接转移到现实世界中去。”格里乌斯说道,“但我们已经看到的是,为玩游戏而发明的方法已经转移到了现实世界。”
OpenAI的Rapid强化学习系统并不是第一个开发自游戏,然后被转用于现实世界的技术。格里乌斯指出,蒙特卡罗树搜索是一种算法,10多年前它最初被开发来玩围棋游戏,现在则被用于诸如规划和优化的任务。欧洲太空总署用该算法来规划太空探测器的星际轨迹。它也是DeepMind AlphaGo算法的核心,后者在2016年击败了世界围棋冠军李世石。
对于OpenAI的机器人团队来说,《Dota 2》似乎是证明了这种技术能够在未来用于更加复杂的工作。《Dota 2》系统使用的计算能力是机械手的20多倍,训练时间为两周,而后者只有两天——这意味着机器人团队有望攻克需要更多时间去学习的问题。
“我们对现有的算法能够取得的进展感到惊讶,所以我们希望在某种程度上,Dota将成为最后一个游戏里程碑。”施耐德说,“很显然,如果像这么复杂的游戏可以通过强化学习来解决,那称得上强化学习和游戏的终极考验。”
更多相关资讯请关注:Dota2专区