中文站

借AI之力,网易易盾构建面向未来的数字安全体系

今年5月,在第十二届西湖论剑·数字安全大会上,中国工程院院士邬江兴参与探讨AI引领数字安全变革议题,提出观点:“内生安全理论和方法开辟了全球数字生态系统转型的新途径,这是世界的发展浪潮。”

进入7月,在2024世界人工智能大会暨人工智能全球治理高级别会议上,全球顶尖的AI产业的代表人物汇聚于此,共同见证《人工智能全球治理上海宣言》的发表。宣言提出促进全球人工智能健康有序安全发展的系列主张。

依据这些重要的行业前沿动态,不难看出,网络安全的这一道“旧命题”已经被AI时代的技术发展赋予了“新生命”。在未来的发展中,安全需要AI的赋能,AI需要安全的治理。

无独有偶,于上周末落幕的“智见未来,护航AI”2024网易易盾AI数字内容风控大会上,来自AI、安全等领域的多位产学研专家就AI与安全的当下现状、未来趋势以及企业需要为此应对的策略等话题进行了探讨交流。

会上,网易数智副总经理、网易易盾总经理朱浩齐分享了网易易盾面向AI未来的数字安全体系建设经验,并带来了面向数字内容风控场景下的安全垂域大模型。


01 从附加安全到内生安全

“安全是一个需要抬头创新、低头深耕的行业。”朱浩齐说,“我从08年加入网易,见证了互联网行业近20年的蓬勃发展。安全就像互联网这棵参天大树深入地下的根,根看不见,但却是一切发展的基石。”

网易易盾在安全业务的耕耘上并不追求一蹴而就。与其他互联网产业不同,“野蛮生长”、“发展红利”这些热词似乎与网络安全从未同框。就像它的发展历史一样,安全伴随着互联网的发展而发展,以“保护”的姿态,活跃在风光背后。

溯其历史,50多年前全球网络安全领域就提出“病毒”的概念,但是为什么越治理问题越多呢?网络空间的安全威胁为什么愈演愈烈呢?计算机在发展,互联网在发展,安全技术也在发展和创新,从简单规则到机器学习到AI大模型,全球安全行业的研发和实践从未停止,但技术的进步却没有让安全问题消失。

在网易易盾总经理朱浩齐的分享中,他首先带来一组数字:从全球维度看,网络安全带来的经济损失已经高达10.5万亿,成为仅次于美国和中国的世界第三大“经济体”。从国内的数据看,网络违法事件和案件数量逐年上升的趋势明显。


网易数智副总经理、网易易盾总经理 朱浩齐

随后,他以数字内容为例指出:安全技术固然在创新,但产业的进步也同样带来信息量大幅提升、信息传播效率增加等促使安全问题发生的条件。引用马克思的唯物辩证法,“矛盾是事物发展的内在动力”。

因此,安全问题是技术发展的必然。

因此,对抗安全风险无法采用“清零”思维。

因此,需要主动迎接一场底层安全范式的转变:从附加安全到内生安全——将安全融入到技术和产品设计中,不是让两个系统简单叠加,用一个保护另一个,而是按需求设计一个具有安全能力的完整的系统。

在有了观念的转变后,面向未来的安全体系还需要技术、工具与实践。

02 弹性纵深的数字安全体系 

安全,不是一朝一夕的事情。

尽管在过去几十年的发展中,无数网安从业人员,为了心中的理想与信念,在各自的领域之中与其所面临的“威胁”进行对抗,但不可否认的是,每年仍然有大量的安全风险出现,导致个人、企业乃至社会发生或多或少的损失。

“如今,我们要面临一种新技术加持下的境遇。尤其是全新技术带来的既有“已知的未知”安全问题,也有“未知的未知”安全问题。”朱浩齐说。

为了解决各种“已知的未知”和“未知的未知”安全问题,网易易盾设计了一种新的防御理论:内生的弹性纵深防御体系。这个体系中有两个最重要的设计原则:

一是用时间换精度。这个原则中考虑的并非某个时间点下系统的静态防御能力,而是需要评估在持续的攻击之下系统的自我升级能力,其称之为“自免疫力”。

二是用不确定性提升防御强度。在测试数据变化的情况下,该原则要求通过提升自我保护能力实现系统对多次攻击的稳定防御。


原则一让网易易盾的安全体系具备了纵深防御的特点。原则二让网易易盾的安全体系具备了弹性防御的能力。

网易易盾内容安全负责人饶晓艳在介绍纵深的内容检测时提到,“内容安全,并不是在内容发布时完成审核就没有风险了”。数字内容在被消费和运营的过程中,风险程度是动态变化的,所以业务链路的各个业务环节都需要有机制可以触发风险检测,例如基于内容的传播、互动、运营等环节,可结合热度、搜索、推优等有再次触发内容审核的机制。同时,内容审核链路上,通常需要会结合本地端侧审核、SaaS云端审核、人工审核以及专项的历史数据回扫来控制风险。

网易易盾业务安全负责人卓辉通过用户在业务中的全生命周期分析,提出了内生、弹性、纵深防御体系的构建方法。首先,他强调在用户注册和登录阶段增加拦截措施,有效阻止工具批量注册账号,从而提升黑灰产作弊的成本。随后,通过风控引擎的多模式识别技术,精确区分正常用户、作者、团伙账号以及个人作弊者。对于识别出的不同风险账号,采取差异化的应对策略,根据标签结果进行弹性处置,使用内生的业务干预的处置措施提升安全性的同时,还能大大提高黑灰产的作弊成本。这种纵深防御策略不仅提升了安全防护的层次性,也增强了对作弊行为的适应性和灵活性。卓辉说,最好的防御措施并不是正面交锋,而是“智守无声,攻不知而势已溃”。

网易易盾应用安全负责人朱星星在带来政策介绍后强调,应用在上架运营前,非常有必要进行安全漏扫检查、隐私合规检查、安全加固,以提供有效防御。需要特别说明的是,易盾安全加固在应用运行时,提供多方位的、多维度的纵深防御,每一个层级的防护都提供了多种功能,有效阻止攻击,提高破解分析的门槛和难度,延长应用的生命周期。并且这需要企业、开发者在移动应用的整个生命周期中重视并一同参与。

03 安全大模型用魔法打败魔法

在此次的网易易盾AI数字内容风控大会上,网易易盾发布了面向数字内容风控场景下的安全垂直大模型。

在历经2023年的“百模大战”后,社会各界对于各种各样个性的大模型名字早已麻木。网易易盾本次发布的大模型,没有名字,只有明确的应用场景与切实的产业价值,像树的根一样,繁华不见树根,繁华需要树根。

网易数智副总经理、网易易盾总经理朱浩齐在官宣大模型亮相时表示,安全,就要一丝一毫都不能差,在大模型的“军备竞赛”中,网易易盾坚持深耕垂直领域,研发聚焦数字内容风控场景下的行业大模型。

因此,在内部测试千万遍,反复确认无问题之后,网易易盾的安全大模型终于“千呼万唤始出来”。


应用安全大模型的数字内容风控通过大模型对风控尺度的理解,对风险内容实现标签的自动、精准标识,提升人工审核效率。目前,基于各种场景的测试情况,网易易盾安全大模型已经做到对部分色情疑难样本召回提升30%以上,助力广告对抗场景下的违法广告识别率达到97%以上,AIGC人脸风格化疑难案例的识别率超90%。此外,该安全大模型将风险对抗的时效提升到了小时级,并且辅助真人引流团伙检出量增长达3倍。

同时,在结合了网易易盾安全大模型的通用大模型问答场景中,基于安全大模型对用户输入的语义理解和对风控规则的理解,能够帮助各类通用大模型对于一些“看上去不好答”的题目,给予准确的回答。除少数几个极度敏感的议题外,帮助提供开放式问答的模型能够快速做到“应答尽答”。

“对人工智能的治理,长期来看,也许需要靠另一个人工智能了。”朱浩齐表达了对AI时代内容安全问题治理趋势的判断,“人工智能给数字内容生产和传播效率带来的是几何倍数级别的增长,对于安全治理的能力提升要求自然也只有人工智能才能满足。”

在著名动画《成龙历险记》中有一句台词“要用魔法打败魔法”作为经典流传了下来,与此不谋而合。

04 写在最后

已故的理论物理学家史蒂芬·霍金曾说:“成功创造人工智能会是人类历史上最大的事件。不幸的是,也可能是最后一次——除非我们学会如何规避风险。”

彼时霍金先生去世时,最为人熟知的通用人工智能ChatGPT并未问世。随着以ChatGPT为代表的一众通用大模型与垂直大模型纷纷进入产业应用端,此时此刻却如他所言,人类历史上最大的事件正在一笔一笔呈现于当下。

在AI安全的形势倒逼我们陷入被动之前,我们是时候提前主动拥抱一场思维上的革命了。AI与安全的长征路上,网易易盾期待与所有关注AI与安全的伙伴们并肩同行。