继米哈游之后,又一位重量级选手入局这个特殊的AI方向

文/ 以撒 2023-07-27 11:00:43
在ChatGPT把大语言模型带火之后,我相信大家都在等一些重量级的AI应用出现。说实话,这件事真的急不得,至少在游戏/互联网行业都还需要一两年来摸清方向。

但有一个大方向,却是从一开始就非常清晰的:AI虚拟主播。原因很简单,AI的推理、连续对话和角色扮演等能力,都与虚拟主播的要求高度契合。在AI语音也相当发达的前提下,已经有不少民间大神通过自己的研究,为纸片人接入大语言模型,在平台上高强度直播。


大家可别小瞧虚拟主播这条赛道。要知道,游戏行业有许多大厂都在这里投入不小,比如腾讯、网易、米哈游、完美世界……

不过要说他们已经经过验证的AI虚拟主播,可能就屈指可数了。其中人气最高的,显然是米哈游的鹿鸣,目前她仅直播过三次,我们此前的文章也聊过不少。


而在此之后排在第二的,可能要数7月14日刚刚首播的,枝江娱乐的阿花——你应该想不到,这位主播的形象并非美少女,而是一只羊驼……但第一次直播一个多小时内,她就拿下了121位舰长,虽然这个数量不及鹿鸣首播的300多舰,但放眼V圈来看,也是相当难得的成绩了。

什么概念呢?举个不一定恰当的例子:相当于手游产品首测还没做付费的时候,就有一百多号人充了大小月卡。


为什么这只羊驼会这么受欢迎?实际上,阿花是与虚拟女团A-SOUL相关的NPC——A-SOUL可以说是目前V圈最火的虚拟团体了,制作团队形象就是羊驼,阿花则是羊驼阿草(是一只白色的枝江羊驼NPC)的学妹。

除此之外,阿花背后还有Intel作为“首席技术支持官”。背靠这两位重量级选手,有强大的光环倒也不难理解。

而实际的直播观感又怎么样呢?看完这次首播后,我发现阿花在各方面的表现其实还算不上完全成熟。不过在内容背后,我却看出了不小的潜力。


01 直播内容:三种开发空间不小的能力


在直播中,阿花简单展示了几种能力。首先是作为核心的对话聊天能力,在观众们输入弹幕后,她会挑选一些回答。

从互动情况来看,大部分问题她都能做到较为自然地回答。比如有人问她为什么叫阿花,她的回答是“因为我就像一朵花儿,虽然憨憨的,但也能给这个世界增添一点点可爱和色彩呢。”


当然,观众们少不了千奇百怪的输入,遇到一些特别的梗或新知识时,阿花就显得还不太会应对。比如有人吓唬她,说“爆!爆!爆!”(大概是发言爆炸了的意思,V圈常用来开玩笑),她就不太明白这是什么意思。


不过在与A-SOUL和枝江娱乐相关的问题上,阿花应对得都不错。像是有人问她和成员谁高,她的回答是自己站在别人旁边小小的,但这并不重要,重要的是能一起唱歌、跳舞。其实这个问题本身就带一些调侃和钓鱼的意味,这么一看,阿花的回答还是挺得体的。


此外还有一点比较特别:因为阿花是3D角色,她在说话时也会根据对话内容,做出相应的动作和表情。这给她对话的生动、真实程度都有一些加成——有时候也让她看起来更加憨憨或可爱。相比于民间大多数的2D AI主播来说,这种能力的确比较少见。

此时的她还不理解一百舰的意思

除了对话聊天之外,阿花也表演了节目,与阿草和小黑一起跳了支舞,虽然羊驼跳舞看上去有点滑稽,不过我猜这次表演只是作为一部分基础演示,更深入的内容还会在后续放出来。


另外,因为身处3D大场景中,阿花也能结合弹幕的互动投票结果,在场景中选择某个位置“遛弯”,移动过去。

这项能力看起来也不算深度,但这次的场景比较小——以往A-SOUL曾经提到过“枝江开放世界”的规划,在前几天贝拉的生日会上,也已经放出了地图原画和部分场景。如果能让阿花在更大的场景中交互,结果可能会更有趣。

枝江开放世界的地图

贝拉生日会上的场景


02 综合评价:可能是AI虚拟主播的新解法


总的来说,枝江娱乐在首播中打出的“牌”算不上王炸,但仅通过这些牌,就足以看出他们的一些底气和思路了。

首先在技术这块,阿花称得上底子硬、上限高。一方面,虽然能看出她在部分问答上还不够熟练,但学习新知识本来就是大语言模型的强项,只要多聊天,她就能变得越来越聪明,应对一些V圈的梗也基本不成问题。

另一方面,他们与Intel的深入合作也对阿花的发展相当有利。在LLM推理部分,他们与Intel合作,对不同规模的LLM进行了完善的测试和分析,Intel的技术专家团队在一个月内提供了Super-Fused FP16/AMX-BF16 LLM推理加速方案,极大提升了效能。

经验证,对比Stock PyTorch性能,10/20/70亿LLM推理任务都获得了至多2.8倍的加速比,这让阿花能以非常低的开发投入满足部署性能要求。

另外,阿花历经形象设计、模型制作、引擎适配、交互设计等多重流程,会逐渐从后台走进人们的视野。A-SOUL与Intel在第四代英特尔® 至强® 可扩展处理器上,引入Super-fused LLM推理加速方案所实现的效果也将逐渐为双方带来更大的好处。这很有利于后续经营——比如在如今的V圈,3D势(xx势通常指直播定位)的成本问题是一个很难忽视的痛点,而阿花作为AI主播,可能会有不小的优势。

其次在内容这块,阿花也能结合A-SOUL讲更多故事、实现更多效果。结合整体的内容铺排来看,阿花本身就是枝江大世界内容的一环。在粉丝观看女团成员直播之余,她可以作为补充,提升内容的丰富程度。这一点,有不少观众在首播时就已经意识到了。


别看她现在只是一只羊驼,在首播上,官方表示在学习足够深入之后,阿花还会解锁人类形态。到那时,一些能力可能才会展现出真正的威力。


这不,在不久后的Bilibili World上,阿花就兑现承诺,在Intel × A-SOUL线下直播访谈中的惊喜彩蛋环节中变成了人类形态露面,并现场演唱了一首歌。从观众的反应不难看出,大家都对阿花很感兴趣。尤其是在她变身的时候,现场接连爆发了好几阵呼声……


综合这些点来看,我觉得枝江娱乐和A-SOUL在AI虚拟主播方面,已经有了一条很明朗的路径。因为阿花展现出的能力虽有限,但已经有了很多独特的优势。


阿花的人类形态

首先,V圈中能稳定直播的3D势本来就不多,在品质和互动性的提升上,有能力的团队都在尝试各种可能性。举个例子:在直播中最常见的互动形式,仍然是通过弹幕投票决定直播内容,或是在场景中增加一个元件,并且显示弹幕发送者的ID来增加参与感。

但要说再往后怎么做,在技术出现大突破之前,就很难有明确的头绪。这也是许多观众都希望在A-SOUL这种团队身上,继续看到下一步动作的原因——作为V圈顶流,他们的技术和玩法都很领先,能力到位,自然会有一些带头探索的责任在身上。如果他们能利用好AIGC,让直播、游戏和AI融合起来,相信就能做出更多新颖、有趣的内容,这个虚拟世界,也会变得更精彩。

而阿花这样的AI虚拟主播,可能反而会在互动性上有新的解法。就拿场景的应用来说,由中之人扮演的3D虚拟主播,只要不是提前录制好的播片,不管场景看起来多大,在直播中的移动很大程度上都会受到动捕场地的限制。像贝拉生日会做到的效果其实已经很惊艳了,但离完全不受限制的“开放世界”,肯定还是有一些距离。


如果从AI的角度来看,一个虚拟世界中的NPC显然就不会受到这么大的限制了——他们在3D世界中可以去到更多的地方、实现更真实的效果。这样一来,直播也就会更像一个具有互动性的开放世界游戏。这种效果,对目前的虚拟直播来说是遥不可及的,但对AI来说就没那么遥远。

而且这种大地图的应用,还只是出于3D角色本身的特点。如果再加上AIGC技术的应用,让阿花结合枝江世界的背景讲一些故事、玩一些互动游戏,玩法可就更多了。

其次,大多数由民间自制的AI虚拟主播,往往都在长线运营方面有更大难度。如果你了解过,会发现一些AI势吸引人的点在于,观众会尝试用大量的调侃和梗来试探AI对话的边界。这种试探确实能带来一些有趣的对话,进而引流、出圈,但不得不承认的是,大多数观众其实很难长时间保持这种试探的热情,相对来说也更难成为忠实粉丝。

而相比之下,阿花背后的思路显然是要走长远路线的。它背靠A-SOUL和Intel,在技术和内容两方面都有不小的优势,并且也有自己的团队枝江娱乐支撑产出。如果他们能规划好这条赛道的后续经营,或许AI虚拟主播就不止是我们找乐子的存在了,而是真的能进一步抬高上限,甚至成为不少人生活的一部分。

Alex Matveev
2022-06-06 16:27:13
不合规
审核中
@苏某某: 她在音乐方面的喜好,以及对天文的兴趣,也源于这部动画的影响。一直很喜欢爵士乐的她突然开始想
乐方面的喜好,以及对天文的兴趣,也源于这部动画的影响。一直很喜欢爵士乐的她突然开始想,没有系统了解过此类音乐的她怎么会喜欢上 呢?后来听完《美少女战士》原声带后才发现,“原来我在那么小的时候
评论全部加载完了~