在刚刚秀完可以像人手一样抓取和操纵物体的Dactyl 机械手系统之后,OpenAI迎来又一次令人瞩目的人机大战。
这是家在2015年由马斯克等诸多硅谷大亨联合建立的AI非营利组织,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用,当然,他们还希望对标谷歌DeepMind。
北京时间今天凌晨,人类和OpenAI Five展开决战,人类代表队是由半职业Dota高手组成的战队,赛制为三局两胜。经过三轮的对决,高下立判而且毫无悬念,OpenAI Five轻松赢下头两盘,将人类虐的一点脾气都没有。
在第三轮,面对已经锁定胜局的OpenAI Five,主办方让现场观众为OpenAI Five选择英雄,AI阵容是小鱼人、隐刺、 斧王、 流浪、 痛苦之源;人类阵容是死亡先知、死灵法师、巫魔巫师、巫妖、直升机,最后人类高爆发秒人流,才让人类战队稍稍挽回颜面。
最终,比分2:1,人类完败。目前OpenAI Five的水平至少是6600以上。
谈谈为什么AI研究人员如此着迷于游戏
《Dota 2》需要玩家有快速的反应能力以及对游戏的策略有全面的了解,最重要的是,需要团队合作。该游戏是目前最赚钱的电子竞技项目之一,今年规模最大的一项锦标赛奖金池已经超过2300万美元。
研究人员的软件要战胜那些职业电竞选手,难度不亚于让一个机器人隔扣“篮球之神”迈克尔·乔丹(Michael Jordan)。
对于我们这些没有博士学位的人来说,游戏是一种相对简单的了解人工智能研究进展的方式:在复杂的环境中,人工智能能打败人类吗?我们理解IBM的DeepBlue在国际象棋比赛中击败大师级棋手加里·卡斯帕罗夫(Garry Kasparov)意味着什么,也知道谷歌DeepMind的AlphaGo在围棋比赛中战胜世界冠军李世石(Lee Sedol)意味着什么——实践和打磨技术数十载的人类敌不过机械性的计算系统。除了这些公开的比赛之外,人工智能研究人员数十年来一直在致力于打造比人类更会玩雅达利游戏、跳棋甚至《任天堂明星大乱斗》(Super Smash Bros)的人工智能系统。
并不是所有的关于玩电子游戏的AI的研究成果都适用于实验室之外地方,但在竞技场以外,OpenAI正在证明它专有的研究成果能够被广泛应用。举一个例子:被用来参加《Dota 2》比赛的算法,也可以被教导如何移动机械手。
强化学习技术
最热门的用来教导机器人玩游戏的方法之一,也就是OpenAI所使用的技术,名为强化学习,该技术的运作原理是:你给机器人一个目标,比如收集硬币,当机器人完成目标时给予它奖励。最初,机器人是任意行动的,直至它偶然地弄明白了该如何完成任务。机器人用来完成任务的动作被其系统认为是较好的方法,因而当下一次尝试完成任务时,机器人更有可能继续采用那些动作。经过成百上千甚至上百万次的尝试以后,策略就会形成。
例如,OpenAI玩《Dota 2》的机器人在两周内与自己进行数百万次的游戏对抗。在每一场比赛中,机器人的奖励都从为自己获得分数转变成到增加整个团队的分数。该研究小组称这是“团队精神”。
纽约大学人工智能教授朱利安·格里乌斯(Julian Togelius)告诉Quartz:游戏对于人工智能来说是一个很好的学习途径,因为它们模拟现实世界,但带有任务目标。
更多相关资讯请关注:Dota2专区