AIAI在DOTA2顶级赛事上一败涂地，这究竟意味着什么？

原标题：AI在DOTA2顶级赛事上一败涂地，这究竟意味着什么？随着昨日OpenAIFive被一支中国队伍打败以及前天的另一场失败，AI提前结束了其在本届DOTA2国际顶尖赛事TI8的旅程。回顾这两场比赛，虽然AI在比赛的前20-35分钟内保持了很好的获胜机会，但OpenAIFive最终仍没有把握住机会：第一场比赛AI对阵世界排名前18的队伍的paiNGaming，比赛持续了大约51分钟（一般比赛持续40分钟）；在第二场比赛中，AI对阵由中国退役顶尖玩家组成的队伍，其中三人曾在一支明星队伍中比赛过，在经历了一些精彩额来回战斗后，人类45分钟后获胜。OpenAIFive在比赛中确实展现了自己一定的实力，根据OpenAI赛后发布的博客文章，导致失败的主要原因是对战的游戏玩家明显实力比AI高出不少量级，如今年5月以来玩家排名的图表所示：图|各个队伍的实力分布（来源：OpenAI）除此之外，缺乏战略规划也导致了AI的失败。“我们并不感到震惊，”OpenAI成员FilipWolski赛后对媒体表示。“我们以极高的不确定性参加了比赛。我们不知道某些因素，比如在比赛那天我们会对战谁”。在周三遭遇首次失败之后，开发人员也重新调整了AI的奖励系统，试图最大限度地获得胜利的机会。Wolski向表示：“当机器人赢得比赛时，最大的回报是给予奖励……这个项目让我们经历了很多不眠之夜，我们会休息一下，并考虑是否为AI上传新的超参数。我们将继续研究Dota2，以便更好地使用越来越少的限制来玩游戏。”总体来说，在保留一定限制的前提下，OpenAI的系统仍然无法全面理解DOTA复杂的游戏系统和规则，比如对侦查守卫和诡计之雾的错误使用，站在Roshan洞穴发呆，将Roshan复活盾交给辅助等等。这些行为和操作无疑浪费了游戏中宝贵的资源和稍纵即逝的战机。退一步讲，即使AI系统对这些物品和机制有人类无法理解的“独特看法”，但是结合局势来看，这些做法似乎不符合OpenAI团队所说的“为全局最优设计的算法”，反倒像是AI系统在通过不断试错，来找到物品的正确使用方法和机制背后蕴藏的原理。这或许是因为新的AI算法还存在Bug和训练时间不足。图：OpenAI在泉水处疯狂插眼纵观八月中旬和TI8的几场比赛，OpenAI的系统似乎并没有展现出太多的进步。虽然比赛规则有所调整，但是面对更加默契和高水平的职业队伍时，AI系统精密计算的技能释放和反应极快的微操可以惊艳观众，打赢遭遇战，但是无法带来胜利。归根结底，这是因为规则修改后的游戏更加真实，同时顶级职业选手对Dota的理解更加成熟，比如抱团、刷野和带线的时机；对战术的执行更为彻底，比如黑皇杖等关键装备出炉后的开雾抓人；针对不同局势的出装也更加灵活，比如关键英雄补出永恒之盘，防止被秒。这些战略上的部署是目前AI系统所缺失的，它还无法针对局势制定和变化战术。本质上讲，如果人类选手的所有操作都可以被AI视为一种输入值，那么OpenAI的强大算法就会处理这些输入值，并产生相应的输出值，即AI英雄的操作。显而易见，AI通常可以完美地执行这些反馈操作，比如利用跳刀和风杖躲斧王跳吼。图丨OpenAI开发团队亮相TI8（来源：TI8）然而AI系统缺少在无信息情况下的主动的预测性行动，比如在特定位置被抓后进行反眼，在关键时间点组织开雾进攻，或者围绕Roshan盾进行推进和反打。这种特征在逆风局势下尤为明显，因为OpenAI作为被动的一方需要寻求突破口来打开局面，有效的战术转变是一种必须掌握的技能。图|OpenAI重大事件时间轴（来源：DT君）值得注意的是，OpenAIFive整个从零开始最终达到世界级职业玩家水平的道路中，并没有使用任何人类提供的额外数据进行训练。但在这次比赛结束后，如果开发团队希望AI能够更快地进步，他们真的需要考虑让AI学习人类的经验了。-End-校审：黄珊责任编辑：

本文来自投稿，不代表长河网立场,转载请注明出处： http://www.changhe99.com/a/PVdLJjWVrQ.html