大学教授跳槽腾讯，用1年时间解决行业难题？

又是一年GDC落幕。这个关乎游戏产业未来的「游戏圈春晚」，年年都是神仙打架。今年的情况可能更特别——「AI+游戏」是这一年的关键词，这是现在最前沿、最受关注的领域。所以没两把刷子的团队，可能都很难在这里分享。

不过中国团队还是很争气，以腾讯、网易、米哈游、字节为首，他们组团参与这个顶级盛会，就AI、渲染、跨端等多个维度与全球游戏开发者做了分享和交流；腾讯系海外全资及控股工作室Digital Extremes、拳头、Supercell等也带来近10场分享。足以见得，我们整体上在很多方面的水平确实已经上了国际牌桌。

这些分享中让我印象深刻的一场，是腾讯魔方技术中心AI团队负责人Elvis分享的技术：「《火影忍者》手游：针对格斗游戏大规模强化学习的优化」。它是GDC AI峰会16场主题分享中的一场，含金量相当高。研发游戏AI的团队并不少，它特别在哪儿？

你可以这么理解：在格斗游戏领域，这是全球首次这样应用强化学习技术——在此之前，根本就没多少人尝试用三四百个机制各异的角色，去做大规模的强化学习，毕竟这训练成本想想就非常恐怖。但魔方这支AI团队花了一年多时间，就找到了高效率的解决方案，报名GDC后，这个议题也很快被官方pick了。

在这背后，他们到底经历了什么？我们和负责人Elvis聊了聊，发现Elvis和这支团队近年的历程还挺有趣。

01 20年经验学术大佬，加入腾讯做AI

我们不妨从Elvis的故事聊起：和很多人一样，他小时候的梦想是当科学家；但和大多数人不一样的是，他真的一步一步读到博士，实现了科研梦想。

早期他研究过游戏引擎，拿过中国发明家协会的发明银奖；读博时，他研究的专业是仿真系统；后来他又去IBM研究过超级计算机的大规模仿真系统，顺便拿了ACM的全球论文奖……后来，他就一直在海外担任大学教授，课程依然涉及游戏开发。到现在，他在物理仿真、大规模虚拟世界、游戏AI等领域的研发经验已经有20多年。

这样一个学术大佬，为什么选择加入腾讯做游戏AI？

最大的原因，可能是在高校任职多年后，他逐渐发现：梦想并不像现实那样美好。

Elvis说，之前在海外时，大部分高校的运作模式和他小时候的想象不太一样——「大家都很重视KPI，可能每年会给你一个棒形图作为推手，统计每个教授的文章发表数量、排名。」重视研究倒无可厚非，但关键在于，他们在申请研究经费时，往往要写上未来三年的发表量，如果某一年审核不达标，经费可能就拿不到了。

这一点让Elvis挺迷惑：「如果真的要做一个很有影响力的研究，你怎么可能在还没做之前就知道自己每一年能发表多少呢？你连研究是否成功还不知道呢！」特别是久而久之，许多年轻的教授都会顺着这样的规则，倾向于去做非常保守、安全，基本没什么应用场景的研究。因为考虑到经费和学校给到的压力，他们没有这个冒险的空间。

但Elvis可能天生是个不安分的人：他真正想做的，是更有影响力、有大规模应用场景的事。结果机缘巧合，他20多年的老朋友——魔方的技术总监，正好和他聊到了这件事。聊过后，他很快就决定加入魔方，去从头组建一支AI技术团队。

有腾讯的平台在，这支团队组建得不算困难，成员中既有游戏行业从业者，也有像Elvis一样的科研工作者。有意思的是，比起团队成员的实践能力，Elvis最看重的一个因素，是听起来比较虚的「热情」。

热情这种事要怎么测试？Elvis说，他每次在面试环节，都喜欢提两个特别的问题——为了保护「机密」，题目我不能具体描述，但你可以想象到，他提的是那种常见的开放性题目。比如经常被网友调侃的「一头牛重800公斤，一座桥承重700公斤，请问牛怎么过桥？」（仅为举例，真实题目还是更严谨一些）

当然，他问这个不是为了一个标准答案，或者抖机灵的回答，而是会一直问面试者：「还有没有更好的方案？有没有更好的回答？」一次一次问下去，即便说不出最优解，但只要能耐心地一直探究下去，这种热情其实就比大多数人强了。

02 一年时间，解决世界性难题

团队组建起来之后，Elvis面对的第一个项目，就是个艰巨的挑战。

这个项目，是用强化学习的方式，为《火影忍者》手游研发角色的对战AI。为什么魔方会想到做这个？Elvis说，他们并非一个纯粹的科研团队，而是贴近产品的技术团队，他们做的事都是为了解决项目组的需求。

而这个AI主要解决两个需求：一个是在「晓·觉醒」和「爬塔玩法」等AI挑战赛中挑战AI；另一个是因为《火影忍者》手游角色超多，光靠人力验证平衡性会很难，如果能用AI的自我对战提供大量数据参考，调整起来就会更有效率。听起来很实在，但讲真，这无论对《火影忍者》手游，还是魔方来说，都算是一个相当激进的创新。

强化学习和传统的行为树AI不一样，不是靠固定的动作路数来出招，也没有数值上的加成，而是要通过自博弈（Self-play）的训练方法，让AI左右互搏，模拟人类的反应、技巧，像真人一样公平地走位、玩心机、拼操作，不断提升水平。在技术层面，这倒不至于特别难。

但对《火影忍者》手游这种类型的产品，它太难了：游戏里的角色有三四百个，每个人都有一套独立的机制、动作模组，总技能数上千。这个数量一多，训练时间和算力成本就成倍上升——「20个角色的对局要训两天，如果是400个角色，对局数起码是200多倍。你可以想象，这样训下去可能一年多才能训完一次，这是不可行的。」

在初期，Elvis就和团队攻坚这个难题。大概一年后，他们找到了一种巧妙的方法，直接让训练需要的时间和资源都下降了90%。

对这种方法，Elvis有一个比喻：「张无忌学太极剑时，张三丰让他忘记招式，我们的做法有点类似。」在传统方案中，AI要记住每个对手的技能，再一一查找ID，进而用对应的方式反击——这就好比让张无忌把天下所有门派的武功招式都记住再去打架练习，等他一遇到新的对手，又要从头学习一遍。

而新的方案，就是「忘记招式」——不再让AI查找技能，而是把所有技能标出详细的属性，比如XY轴的攻击范围、起手的速度、后摇时间的长短……让AI识别这些泛化的属性，把所有招式都看成同一种武功心法，用已有的经验应对。这样一来，既能省去查找和训练的时间，也不用担心遇到新角色要再次学习。

解决了这个最大的难题，魔方在格斗游戏AI上的强化学习技术和应用，可以说已经在世界范围内领先了。《火影忍者》手游本身也很争气，已经保持了8年常青和连续增长。

除此之外，他们也会遇到一些其他层面的问题。比如AI的打法非常务实：为了保证获胜，它往往会只用效果最好的技能，结果就是一些辅助手段一直捏在手里没用过。这种做法其实没什么不对，但从项目组的角度来看，这种模式不够「拟人」，也体现不出很多角色的设计特点。

为了解决这个问题，他们又引入了更加丰富的奖惩体系——强化学习的基础原理，就是通过不同的奖惩条件，让AI一次次不断接近更加「正确」的行为模式。举例来说，设置「三技能使用」的奖励，就是鼓励AI多用大招，要么用来斩杀对手，要么在保证能衔接技能的情况下放大招。这些如果放在AI绝对理性的判断下，可能没那么「有效」，但这种打法显然是更精彩、更拟人的，毕竟哪个人类玩家会不喜欢秀呢？

后来，除了解决一开始的两个需求外，这项技术也被应用到了《火影忍者》手游2022年的「晓•觉醒」活动里。这场人机大战一开打，就引起了相当多玩家的挑战和热议。有趣的是，在活动最难的第三阶段，还有10%的玩家战胜了AI。

在未来，这项技术还有很大的发展空间。比如结合角色设定，他们可以尝试训练出更加性格化的AI，让角色给人的感受更加立体、真实；另外，他们也正在探索一些类似爬塔的，与玩法相结合的新模式。不管怎么用，大概都能让玩家有更新奇多元的体验。

03 游戏行业的能量，远超我们想象

在GDC之前，这套技术方案已经在去年的世界人工智能大会分享过一次，这次也是它第二次在世界舞台上露面。GDC现场，Elvis分享完后，不少游戏开发者都忍不住围上来，排队与他继续交流。

有一位海外开发者问到「如何保证AI忍者的乐趣？」，Elvis说：「游戏的核心还是要好玩，所以AI的难度设计并不是越难越好。实际上，经过我们的测试，如果仅保留以胜利为目标的奖惩体系，AI为了获胜，战斗行为会变得非常保守，让战斗体验不那么有趣，这也是为什么我们还加入了第二套更加细致定义忍者行为的奖惩体系，让AI忍者的行为更有个性，更好玩。」

和Elvis聊到这些经历，让我挺感慨的——魔方在GDC分享了全球首次将强化学习应用于格斗游戏的经验，只是上千场演讲中的一个例子而已。那么多团队，有那么多故事，他们的能量汇集在一起，游戏行业的势能其实远超我们想象。而国内大厂的这么多前沿技术探索在GDC亮相，背后的意义可能也比我们想象中还要深远。

在36年前，首届GDC大会由Chris Crawford在自家的客厅中举办，参会人数仅仅25人；而36年后，这一届GDC在美国旧金山最大的会议中心举办，里面聚集了1000多场演讲、近3万名从业者，演讲提案要经过专家委员会多轮筛选，据说申报最终通过率可能不足15%……有如此强大的影响力，可以说GDC已经代表着游戏行业最前沿的动向和未来趋势。

反过来说，这些登上GDC的开发者和团队，都在积极拥抱全球化的游戏研发进程，并用自己的探索影响着游戏行业的未来。不管平时怎么调侃国内大厂，这一点我还是挺Respect。

就拿魔方来说，从一个玩家的角度出发，我从来没期望过《火影忍者》手游搞这么前沿的AI技术；从开发者角度思考，从头建团队、做这么激进的方案，好像也有点危险。尤其是在这几年，能把团队养活都不错了，还有多少人顾得上搞这种超长线的投资？

但从功利的角度想想，这或许也是因为此前的一些经历，让魔方对前沿产品所需的积累和储备格外敏感、敢去冲这样的项目。好比Enzo（魔方总裁张晗劲）说的：「就像自己天天在家练功夫，突然有一天发现外面的人都用上机关枪了。这时你的第一反应不会是为什么我这次没打赢，而是开始怀疑，我大概率打一万次也打不过。」

原文：晚点LatePost报道

所以，自从魔方AI团队的技术以《火影忍者》手游为范本取得多项专利后，他们的「集海训练系统」也陆续应用到FPS领域的《暗区突围》手游，以及另外三款在研新品中。AI团队规模人数，在2023年扩充了50%左右。除了游戏内的智能AI外，他们也开始探索应用于不同品类游戏的生成式AI项目，大大加速了游戏美术和动画资源的生产效率。

在产品层面上，整个射击品类的成绩，也是靠他们这种势头冲出来的。从《独立防线》到《王牌战士》，再到《暗区突围》，在付出八年时间、三代产品前赴后继的努力之后，魔方终于拿到了射击品类的门票——发行1年，全球用户已经超过了1亿。

而上升到腾讯，乃至其他头部大厂的层面，这一点其实是一样的——如今腾讯已经有了足够充分的条件和位置，他们就是一定要走向全球、影响未来的。

怎么影响呢？有一些挺实在的例子可以聊聊。比如Elvis就提到，他在魔方很开心的一个原因是：他在高校的研究成果，可能只会有几百人看看论文，根本没地方应用；而在游戏团队的研发成果，大概率会和数百万玩家见面。

这或许也关系到做学术和做工程的本质区别。Elvis举了另一个例子：「科学跟工程最大的区别在哪？有一篇关于网络游戏架构的论文曾在2004年发表，它是这个领域里引用量最高的论文。但是从2004年到2024年，从来没有一个成功的游戏应用它的架构，一个也没有。」

原因在于，论文里提到了用串流技术来架构网游，但与视频相比，网游的数据变化频率极高、数据量小，用针对大量下载数据流量的技术来探讨网游架构，从逻辑上已经错了。但是因为这篇论文写得很好、实验合规，也够创新，所以上了很多顶会顶刊，但一直都很难投入大规模应用。

「我经常举这个例子——科学跟工程最大的区别就在这里，工程不一定要非常创新，不一定要做很多高大上的事情，但一定要解决真正的问题。」

而放眼全球，游戏厂商的优势就在这里。以腾讯为例，如今它已经在海外通过投资并购，或者自建了庞大的团队，全球化也早就布局已久——早在2008年就投资了拳头，2021年还组建了Level Infinite全面出海；最关键的，是它拥有极大规模的用户，这正好就是行业未来发展所必需的，前所未有的技术挑战和训练条件，在这么多用户的接触和碰撞之下，真正的应用会放出火花。

如今，中国厂商已经在这条路上迈出了一大步。我相信在不久的未来，我们还能见到更厉害的成果，看到他们实实在在地让游戏行业变得更好。