中文站

网易易盾AI团队包揽“语音关键词识别”双赛道冠军


近日,第十六届全国人机语音通讯学术会议(National Conference on Man-Machine Speech Communication,NCMMSC2021)公布“长短视频多语种多模态识别挑战赛”(Video Keyword Wakeup Competition)-— 汉语长短视频直播语音关键词(VKW)任务最终成绩。

历时4个月的征集与评选,网易易盾在VKW任务中,以综合指标第一名的成绩击败来自海内外的61支队伍,在验证集的3个场景上均取得大幅超出基线25%的效果,坐拥“受限”与“非受限”赛道的双料冠军。

这是网易易盾继视觉、深度伪造、自然语义识别等方向大赛夺冠之后,在语音方向的又一突破和进展,彰显了网易易盾在人工智能领域的综合技术实力,语音自定义关键词识别准确度达实用级别。


一、大赛有哪些挑战?

两大并行指标、三类媒体形式

自1990年开创以来,该系列会议已成功召开了15届,每年都会推出不同的语音识别任务。

本次挑战赛,由腾讯科技ASR&OCR oteam联合清华大学、西北工业大学、数据堂、中国计算机学会语音对话与听觉专委会发起,聚焦时下业界最为关注的三类媒体形式——长视频、短视频、直播场景,考察模型在场景失配下的语音内容理解与识别能力。


挑战赛提供规模巨大数据集,训练数据集涵盖1505小时普通话朗读数据,并提供长视频、短视频、直播场景各5小时有标注数据供场景微调,各5小时有标注数据用于在开发集关键词列表上进行系统优化和调参,各20小时有标注数据用于评价提交系统。

本次比赛的评价指标与国际接轨,采用语音关键词的整体精准度(Precision)、召回率(Recall)与ATWV指标(Actual Term-weighted Value)作为并行评测指标,兼顾不同目标,增加了识别任务的难度。

精准度及召回率:

即语音中全部关键词的识别情况,反映系统对于当前词表的综合性能。

TWV指标:

即每个关键词上平均TWV值,反映系统对于不同频次关键词检测效果的平均性能。

三个赛道的成果展示:


网易易盾 nisp_speech 团队在引入了多项特色增强技术之后,在短视频场景测试集中,定位准确率高达0.88,召回率高达0.93,不同频次关键词检测效果的平均性能高达0.93,在“场景适配”和“关键词定位”的算法精度上取得第一,达到灵活适配多场景、支持用户自定义语音关键词的理想效果。

二、我们是如何实现的?

独创BBS-KWS解决方案的背后

网易易盾首创一种颇具实用价值的关键词检测算法(BBS-KWS),即一套基于端到端 ASR 模型的 KWS 算法。ASR 模块中使用 CTC-based 方法搭建,通过引入综合大主干(big backbone)、关键词偏移(biasing keywords)、混合音节建模(mixed syllable modeling units)提升关键词候选路径的准召能力,通过引入关键词多级匹配、模糊匹配、关键词打分约束最终的决策,并引入大数据半监督学习,改善模型在更复杂语音环境下的适应能力。


图 | BBS-KWS算法流程

基于三大主要特点命名:

第一个B代表大主干(big backbone),算法中引入了Conformer结构作为基础,在模型前期引入更多卷积层提升特征表达能力,在重点捕获语义的编码层拓宽了多头注意力层。模型主干的能力被大大提升;

第二个B代表关键词偏移(biasing keyword),算法在ASR解码过程中引入了基于语言模型的自适应热词权重,引导解码过程更偏向关键词;

第三个S代表混合音节建模(mixed syllable modeling unit),算法引入了更小的建模单元音节,以获得更好的泛化能力;

此外,KWS中的多级匹配,模糊匹配能处理部分KWS问题中OOV的问题,对算法的提升明显。VKW任务中的难点之一是场景失配,BBS-KWS中的声学模型也通过多轮次的半监督学习提升场景适应能力,获得更高的精度。

BBS-KWS开发便捷,针对新增自定义关键词的场景可以灵活地适配,大大提升召回,对精度的把控主要依靠关键词打分及工作点的选择上。未来针对关键词的自适应关键点及区分误召回方面仍有提升空间。


图 | 易盾 nisp_speech 的团队成员

为了提升效果,易盾 nisp_speech 团队设计了一系列算法实验,做了很多优化。“有赖于日常积累,我们团队以相对平缓的节奏完成了本次竞赛任务,”网易易盾资深计算机语音算法工程师杜彬彬表示,团队内部的充分交流与合作可以激发创新。在比赛准备过程中,每一位成员直接参与各项baseline效果的提升,通过内部榜单看进展,并各自学习训练过程中的优质经验。

三、我们的技术有哪些应用?

专注AI识别,与产业应用结合

关键词检测,是语音识别的核心领域之一,其目的在于识别语音材料中的特定词汇是否出现以及出现的位置,有利于促进机器更好理解多语种、长短句的语意,对语音内容检测的准确率产生最直接的影响。

一站式、多场景应用

成立于2016年的网易易盾,以敏感内容检测起家,在语音识别视频识别文本识别等计算机感知领域的技术储备雄厚,在落地应用上也拥有着诸多的实践经验。当前,网易易盾语音关键词识别技术已成功应用于点播、直播、IM私聊、语音社交等场景中的不良内容检测。


监管合规策略布控

“音频检测”,是易盾内容安全检测技术之一,核查语音是否涉及色情、政治、谩骂、广告等关键词,综合理解文本语义环境,一网打尽若干种类型的内容风险。

易盾技术团队构建了“自主发现-精细排查-循环迭代”的完整技术链路,能够灵活高效响应紧急问题,并形成了算法极速定制机制,能够在短周期内训练出满足客户需要的个性化算法模型,进一步确立了内容安全领域技术能力的领先性。

截止目前,网易易盾“语音检测”解决方案为广播电视、陌生人社交、在线音乐等行业客户保驾护航,提供智能解析、关键词定位、语义理解、声纹检测等服务,累计过检时长超3亿小时。

四、总结

语音识别所面对的挑战有别于文本、图像识别:

语音中的敏感内容检测并不是一步到位,先得把音频转换成文字,这个过程十分复杂,AI机器不仅要理解语音,而且得分析语义,做出最佳转换决策。小语种、方言、语音、语调、语速、背景音、噪音都会导致语音中“关键词”定位的准确率下降。


独创的关键词检测算法(BBS-KWS),在业界权威大赛受到认可,意味着易盾在合作中能够为企业提供更优质的音视频解决方案。全面升级的语音内容检测能力,将帮助娱乐社交行业解决合规审核不足、人工成本高企的众多问题,助力新形态产品轻松应对“风控”与“运营”环节。

后疫情时代,语音社交以便捷的优势悄然步入日常生活,语音数据迎来了爆炸式增长。另一方面,政策制定愈发明晰,监管态度趋严,可以预见的是,国家越来越重视运用互联网技术和信息化手段开展互联网内容生态治理,营造清朗的网络空间。

未来,网易易盾也将持续针对数字网络时代的敏感内容识别输出新技术,进一步扩大应用范围,不断提升核心效果。