随着营销渠道的不断扩展和买量策略的日益丰富,游戏直播领域买量的趋势正变得愈发显著。自 2020 年起,抖音、快手等短视频平台陆续推出如“小风车”、“小手柄”、“小铃铛”等互动功能后,主播、游戏开发商与平台之间的利益分配格局也被重新定义。
众多游戏公司纷纷与主播签订合约,通过组织大规模的直播活动来吸引玩家观看直播并下载游戏。然而,在这种模式下,新吸引的玩家在游戏中的消费往往大部分流向了主播和直播平台,游戏运营的成本随之水涨船高。
在这样一个大背景下,如何获得更高性价比的营销方式,以更便捷、智能化的互动传播形式,触达更多核心玩家,成为当下游戏厂商进一步提升游戏买量突围的关键砝码!
如今,伴随着 AI 技术的迭代发展,虚拟数字人正迅速融入千行百业,成为新的“数字员工”。从教育到金融,从文旅到传媒,数字人的身影无处不在。AI 虚拟人主播纷纷“霸屏”的现象也为网易数智游戏行业部带来了新的启示:通过 AI 虚拟人,在玩家进行游戏操作的同时,能够提供实时互动解说,不仅为玩家提供更加丰富、个性化的娱乐体验,还能有效缩减游戏厂商的运营成本。
今天,我们就以棋牌游戏“掼蛋”为例,与网易数智游戏行业部技术专家,共同挖掘 AI 技术在游戏直播领域的广阔潜能和创新应用。
01.项目概述
在项目开始前,团队对以下问题进行了反复思索:
项目目标&难点
带着以上问题,游戏行业部技术团队探索出了一条新思路。
在每位玩家的每一次出牌时,前端系统会向掼蛋推理模型请求决策。具体来说,前端会将当前的游戏局面和出牌信息发送给掼蛋AI 主播。在 Agent 中,LLM 工作流会将对这些信息进行深入分析和逻辑推理,输出符合游戏情境、并以第一人称“我”为视角的超拟人化解说词。
最终,通过解说词文本驱动 3D 虚拟人形象,实现实时的 TTS 语音解说和动画动作,为观众带来实时生动的游戏互动体验。
(项目时序图)
通过应用该方案,基于专家经验构建详细的 Agent workflow 和 prompt,确保能够全面覆盖所有解说场景,提供全面且高度可控的解说服务。另外,通过结合传统深度学习模型,我们增强了出牌和组牌方案的推理能力,弥补了 LLM 在数值推理方面的不足,确保了解说内容的准确性和可靠性。此外,利用真实主播的语料数据对模型进行微调,让生成的解说内容在风格上具有高度拟人性,更贴近真实主播的表现。
02.掼蛋AI主播
以下为掼蛋 AI 主播流程图:
1. 掼蛋局面信息的解析与增强
需要先对前端传入的少量数据进行解析和增强,然后将其映射为相应的局面信息。
前端传入的数据:
经过解析和增强之后的数据:
传递的数据可以解析和增强成自己想要的局面信息,并将局面信息转化为合理规范的自然语言之后输入给 LLM,会让 LLM 更好地理解现在游戏局面和进行推理。
2. 局面精彩程度的判断
如何确保我们的解说既精炼又充满吸引力,还能与真人主播的解说风格保持一致?
在观摩了众多真人掼蛋主播的解说视频后,我们注意到真人主播们更倾向于挑选那些关键、富有意义或激动人心的出牌时刻进行点评解说。为了复刻这种解说风格,AI 虚拟人需要在获取游戏局势信息后,依据这些数据来判断每一步棋是否具有特殊意义或局面是否足够精彩,并根据精彩程度来进行解说。
所以,我们衡量局面精彩程度的标准包括:
通过算法对这些指标进行量化和分析,并根据出手的精彩程度分配不同的解说概率,从而实现对局面的精准解说,模拟真人主播的解说选择,确保我们的 AI 虚拟主播能够像真人主播一样,专注于那些最值得解说的游戏时刻。
3. Workflow 的设计
分支设计:
在深入学习真人掼蛋主播的解说逻辑之后,我们针对不同的游戏局势构建了几十个 LLM Workflow 分支。这种精细化的分支设计显著地提升了 LLM 对游戏局面的理解和分析深度,进而能够生成更精准、更高质量的解说词。通过一系列不同特征的组合来对游戏局面进行细致分类,这些特征包括:
Prompt 设计:
我们针对不同组合的分支设计了符合场景的 LLM Prompt,确保每个提示都能精准匹配其特定的场景需求,这些提示中涵盖了以下要素:
在 Workflow 的设计过程中,引入了一个特别的分支,以第一人称视角“我”来描述游戏开局的情况,在这个分支中,我们会详细分析手牌的优劣,确定本局游戏的定位,并提出相应的打法策略。另外,对于一些分支场景加入了一系列辅助推理决策的算法小模型,以增强 LLM 的解说能力并减少错误判断。这些模型包括算牌、组牌以及推测对手或队友手牌等,它们能够有效辅助 LLM 输出更准确的解说词,从而降低幻觉发生的概率。
4. 解说拟人化处理
在 Workflow 设计中,我们确实遇到了 LLM 输出的解说词虽然符合场景但显得生硬、缺乏真人主播风格的问题。为此,我们尝试了多种方法来优化 Prompt 来提升解说词的自然度和流畅性,如:few-shot,相似场景真人解说词的 RAG,Dialogue Enginerring 和制作角色卡等,但效果都不理想。
如何通过 Prompt 引导 LLM 进行更自然对话的研究,以及如何结合不同的技术来提升解说词的质量?
● 微调的拟人化改写器 Instruct-LLM
针对以上问题,技术团队采用了微调技术来提升解说的自然度,但为了保留原 LLM 的核心分析和推理能力,不直接对 LLM 进行微调,而是再引入一个新型的拟人化修改器 LLM,专门负责对生成的解说词进行人性化调整。
为此,我们准备了一个包含数万条“ AI-真人”解说词对照的数据集用于微调,确保其输出的解说词既保留了精准性,又增添了真人解说的生动感和亲和力。
● 微调数据集制作 Pipeline
用于微调的数据集主要有三个来源,分别是“网上掼蛋真人主播解说视频”、“LCCC-真人社交对话数据集”和“收集的掼蛋规则和玩法文章”。
针对网上掼蛋真人主播解说视频,我们采用了 STT 模型,从视频中提取文本内容,运用 LLM 结合 CoT(Chain of Thought)技术以及一些字符串替换技巧,对 STT 转录的文本进行错误修正和清洗。通过这一流程,我们积累了数万条真人解说语句。在此基础上,我们进一步利用 LLM 为每一条真人解说句生成语义一致的 AI 解说句,从而构建了数万个“AI vs 真人”的数据对。这些数据对将作为我们 LLM 微调的宝贵资源,以提升 AI 解说的自然度和准确性。
对于LCCC-真人社交对话数据集,我们从该数据集中随机抽取数万条真人社交对话句子,并采用相同的方法生成对应的数万个“AI vs 真人”的数据对。加入真人社交对话数据对的目的是防止 LLM 修改器在微调时出现解说拟人性的过拟合现象。
为避免 LLM 修改器在修改过程中因不熟悉规则而产生错误,我们从网络上广泛搜集并整理了大量关于掼蛋游戏规则和玩法的文章,从这些资料中提取了数千个与掼蛋玩法规则相关的问答数据对,将这些数据对加入微调数据集,以增强模型对掼蛋规则的理解。
为了确保数据集的质量,我们特别关注数据对之间的句意一致性。由于创建合成数据时可能会产生句意不一致的数据对,我们也增加了数据检查和筛选逻辑。经过这一严格的筛选过程后,我们最终得到了一个高质量的微调数据集,为 LLM 提供了坚实的知识基础,以确保在解说掼蛋游戏时的准确性和专业性。
● 模型微调
我们结合 LoRA 方法进行多阶段微调,经过微调后,改写器能够对原始解说词进行精准修改,实现了超拟人化的效果,同时还能确保句意保持不变,助力解说语句的口吻、语气和用词更加贴近真人主播的水平,提升了 AI 虚拟人解说的专业性和观赏性。
03.虚拟数字人框架Rapport
我们携手合作伙伴 Speech Graphics ,采用了其创新的 Rapport 虚拟数字人框架。该框架支持前端 JS 和 iframe 嵌入,并可以通过解说词文本驱动虚拟数字人形象,完美拼成掼蛋 AI 主播的最后一块“拼图”。
此外,该框架具备高度的定制性,支持3D/2D 数字人形象、声音、动作和表情等个性化定制。通过这一框架,我们能够灵活地驱动虚拟主播,完美契合我们对虚拟主播场景的特定需求,确保了虚拟主播的表现力和互动性,为观众带来更加生动和真实的沉浸式体验。
(内置的 Metahuman 形象示例)
(内置的 WebGL 形象示例)
游戏行业部的技术专家们坚信,AI 技术创新的巨大潜力。未来,我们将持续探索、突破,并积极将更多 AI 技术融入游戏领域,帮助客户实现产品的持续进化和创新,为游戏行业创造更大的价值。