A轮融资千万美元后，他们做了一款被微信推荐的AI小游戏

发布时间：2020-03-17 17:58:36 所属栏目：网页游戏来源：新浪游戏

导读：最近，一款叫做《轮到你了揭秘篇》的微信创意小游戏，颠覆了我对小游戏的认知。它的玩法类似不用说话的《狼人杀》，要求5名玩家根据彼此的行为推断身份，做出决策，整个游戏过程充满了复杂的博弈推理和欺骗，非常烧脑，和那些超休闲游戏的简单体验完全不

　　最近，一款叫做《轮到你了揭秘篇》的微信创意小游戏，颠覆了我对小游戏的认知。

　　它的玩法类似不用说话的《狼人杀》，要求5名玩家根据彼此的行为推断身份，做出决策，整个游戏过程充满了复杂的博弈推理和欺骗，非常烧脑，和那些超休闲游戏的简单体验完全不同。

　　然而仔细一查，它的研发商：超参数科技却不是一家游戏公司。它的主业是AI在游戏领域的应用，创始人刘永升是腾讯AI Lab之前的总经理，团队曾负责围棋AI“绝艺”，《王者荣耀》AI“绝悟”的研发。2019年初，他们还获得了晨兴资本、高榕资本千万美元的A轮投资。

　　据超参数所说，在零买量，零推广的情况下，上线2个月，《轮到你了》的用户量超过30万，DAU超过了3万，并且仍在快速增长。

　　他们是怎么做到的？这个品类还有多少机会？

　　《轮到你了》是一款怎样的游戏？

　　去年10月，超参数希望做一款能展现AI高级功能的产品。为了节约资源，他们打算做一款非数值玩法，以复杂博弈为核心乐趣的小游戏。

　　团队最先想到的是《狼人杀》这种身份隐藏类的桌游：它上手简单又不乏深度，易懂难精。在翻遍海外桌游论坛上Top 100的游戏之后，大家确定了《狼人杀》《阿瓦隆》《政变》《魔城马车》《矮人矿工》等几个原型备选。

　　很巧的是，当时AI负责人李宏亮也在MIT的一篇论文中看到了一个实验，用AI在《阿瓦隆》游戏中取得了不错的成果。于是团队最终以《阿瓦隆》为基础，砍掉了复杂的角色设计和发言环节，又借用了都市悬疑推理日剧《轮到你了》的包装，用1个月的时间研发出了玩法原型：

　　（1）5名玩家会共度5个夜晚，其中“好人方”包括2位住民、1位目击者；“坏人方”包括2位捣乱者；

　　（2）所有玩家每晚需轮流提案要监控哪些人。住民和被监控的捣乱者在夜晚无法行动，未被监控的捣乱者可以选择是否恶作剧；

　　（3）在5天中，出现3晚恶作剧则捣乱者获胜；出现3晚平安夜，且目击者没被捣乱者找出，则“好人”获胜。

　　在整局游戏中，玩家无需发言，只要根据投票记录做出推理即可，单局游戏时长大概是4分钟。为了进一步降低门槛，团队还把新手视频从2分10秒砍到了1分5秒，把这个阶段的流失率从50%降低到了20%左右（被评为创意小游戏后流失率为10%）。

　　解决了桌游玩法高门槛的问题，接下来就要轮到AI出马了。

　　如何用2个月打造一套AI？

　　为了训练AI，团队先找到100名测试玩家，积累了2000多局的对战数据，让AI模仿学习这些样本。这类似AlphaGo当年的第一步：研究数百万人类围棋专家的棋谱。

　　当AI对游戏有了一些理解，已经能够欺骗其他玩家之后，团队开始引入强化学习——这也是AlphaGo的主要算法框架。简单解释，就是让AI自己和自己竞技，以胜利为目标，积累经验，总结规律。

　　然而问题出现了：跑了几个小时，打了整整几百万把，团队却发现AI的水平依旧很菜，远远达不到人类的正常程度。

　　仔细分析之后，团队发现和围棋、斗地主、德州等传统棋牌游戏不同，在《轮到你了》中，玩家还要在不知道彼此身份的情况下，形成动态的竞争合作关系。在之前的强化学习框架中，AI固然会复盘每个操作对胜率的影响，但更重要的是要随时预测其他人的身份，并尝试影响他们的的行为。

　　于是团队重新梳理了学习逻辑，在强化学习中又加入了预测学习的算法，让AI模拟人类的思维，不断推理其他玩家身份的概率分布——例如根据投票记录，A是目击者的概率有80%。果然，AI的操作变得聪明了许多。

　　但新的问题又出现了。《轮到你了》的AI和AlphaGo的目的不同，它不需要追求水平的极限，而是要尽量伪装成人类，这对它提出了更多要求：

　　（1）高拟人性。这要求AI大部分的操作都比较常规（不能蠢得毫无逻辑），同时偶尔也会出现低级失误，或者十分精妙的操作。

　　（2）差异化段位。玩家段位越高，匹配到的AI水平就要越高。比如低级AI的逻辑链应该更简单，更容易失误；而高级AI的套路更多，推理/反推理能力更强。

　　（3）差异化风格。人类玩家的性格各不相同，因此在相同局面下，AI要能采取截然不同的行动。同样抽到捣乱者的身份，冲锋型AI可能开局直接捣乱，力图快攻取胜；而猥琐型AI则可能连续潜水两个晚上，到最后三轮再连续捣乱。

　　这些要求怎么满足？AI负责人李宏亮打了一个比方：先找100个人，让他们不断随机匹配，进行5人一局的对战，同时给每个人设立不同的目标。例如张三的目标，就是不断提升和李四、王二麻子对局的胜率。

　　这100个人最开始都是一张白纸，但因为对局经历不同，大家都会对游戏形成自己的理解。而为了打败李四和王二麻子，张三会努力分析他们的风格，找到一套克制的思路，从而形成自己的风格。

　　而在100个人都形成了自己的风格之后，只要再组织一场积分循环赛，自然就可以列一个排名清单，并在每个段位中选出风格不一样的选手。

　　在AI领域，这种学习方法叫做“基于种群的多智能体强化”。至此，经历了小样本模仿学习、强化学习+预测学习、基于种群的多智能体强化三个步骤，花费2个月的时间，团队终于打造出了一套合格的AI。

　　战略负责人陈昭翰说，在对反应时间、头像等都做了随机化设计之后，这套AI基本达到了真假难辨的程度。“我们自己测试的时候，有时候会说AI是不是出问题了，打得这么傻。结果一查后台数据，其实那个不是AI，是其他玩家出现了失误。”

　　根据测试数据，制作人高远也摸索出了一套AI的调用流程：

　　（1）先给新手分配3场对局，分别让玩家扮演捣乱者、目击者和住民，方便他们理解规则。

　　（2）在接下来的8-9局中，玩家会与行为树脚本匹配（即没有经历过深度学习的AI），强化对游戏的理解。同时每玩3局，在第4局插入一场深度学习AI，缓和与行为树脚本对战的枯燥体验。

　　（3）之后伴随玩家的段位提升，不断调整AI的比例，既保证中低玩家的游戏体验，又保证高段位的玩家的匹配不用等待太久。

（编辑：应用网_阳江站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!