借AI之力，网易易盾构建面向未来的数字安全体系

今年5月，在第十二届西湖论剑·数字安全大会上，中国工程院院士邬江兴参与探讨AI引领数字安全变革议题，提出观点：“内生安全理论和方法开辟了全球数字生态系统转型的新途径，这是世界的发展浪潮。”

进入7月，在2024世界人工智能大会暨人工智能全球治理高级别会议上，全球顶尖的AI产业的代表人物汇聚于此，共同见证《人工智能全球治理上海宣言》的发表。宣言提出促进全球人工智能健康有序安全发展的系列主张。

依据这些重要的行业前沿动态，不难看出，网络安全的这一道“旧命题”已经被AI时代的技术发展赋予了“新生命”。在未来的发展中，安全需要AI的赋能，AI需要安全的治理。

无独有偶，于上周末落幕的“智见未来，护航AI”2024网易易盾AI数字内容风控大会上，来自AI、安全等领域的多位产学研专家就AI与安全的当下现状、未来趋势以及企业需要为此应对的策略等话题进行了探讨交流。

会上，网易数智副总经理、网易易盾总经理朱浩齐分享了网易易盾面向AI未来的数字安全体系建设经验，并带来了面向数字内容风控场景下的安全垂域大模型。

01 从附加安全到内生安全

“安全是一个需要抬头创新、低头深耕的行业。”朱浩齐说，“我从08年加入网易，见证了互联网行业近20年的蓬勃发展。安全就像互联网这棵参天大树深入地下的根，根看不见，但却是一切发展的基石。”

网易易盾在安全业务的耕耘上并不追求一蹴而就。与其他互联网产业不同，“野蛮生长”、“发展红利”这些热词似乎与网络安全从未同框。就像它的发展历史一样，安全伴随着互联网的发展而发展，以“保护”的姿态，活跃在风光背后。

溯其历史，50多年前全球网络安全领域就提出“病毒”的概念，但是为什么越治理问题越多呢？网络空间的安全威胁为什么愈演愈烈呢？计算机在发展，互联网在发展，安全技术也在发展和创新，从简单规则到机器学习到AI大模型，全球安全行业的研发和实践从未停止，但技术的进步却没有让安全问题消失。

在网易易盾总经理朱浩齐的分享中，他首先带来一组数字：从全球维度看，网络安全带来的经济损失已经高达10.5万亿，成为仅次于美国和中国的世界第三大“经济体”。从国内的数据看，网络违法事件和案件数量逐年上升的趋势明显。

网易数智副总经理、网易易盾总经理朱浩齐

随后，他以数字内容为例指出：安全技术固然在创新，但产业的进步也同样带来信息量大幅提升、信息传播效率增加等促使安全问题发生的条件。引用马克思的唯物辩证法，“矛盾是事物发展的内在动力”。

因此，安全问题是技术发展的必然。

因此，对抗安全风险无法采用“清零”思维。

因此，需要主动迎接一场底层安全范式的转变：从附加安全到内生安全——将安全融入到技术和产品设计中，不是让两个系统简单叠加，用一个保护另一个，而是按需求设计一个具有安全能力的完整的系统。

在有了观念的转变后，面向未来的安全体系还需要技术、工具与实践。

02 弹性纵深的数字安全体系

安全，不是一朝一夕的事情。

尽管在过去几十年的发展中，无数网安从业人员，为了心中的理想与信念，在各自的领域之中与其所面临的“威胁”进行对抗，但不可否认的是，每年仍然有大量的安全风险出现，导致个人、企业乃至社会发生或多或少的损失。

“如今，我们要面临一种新技术加持下的境遇。尤其是全新技术带来的既有“已知的未知”安全问题，也有“未知的未知”安全问题。”朱浩齐说。

为了解决各种“已知的未知”和“未知的未知”安全问题，网易易盾设计了一种新的防御理论：内生的弹性纵深防御体系。这个体系中有两个最重要的设计原则：

一是用时间换精度。这个原则中考虑的并非某个时间点下系统的静态防御能力，而是需要评估在持续的攻击之下系统的自我升级能力，其称之为“自免疫力”。

二是用不确定性提升防御强度。在测试数据变化的情况下，该原则要求通过提升自我保护能力实现系统对多次攻击的稳定防御。

原则一让网易易盾的安全体系具备了纵深防御的特点。原则二让网易易盾的安全体系具备了弹性防御的能力。

网易易盾内容安全负责人饶晓艳在介绍纵深的内容检测时提到，“内容安全，并不是在内容发布时完成审核就没有风险了”。数字内容在被消费和运营的过程中，风险程度是动态变化的，所以业务链路的各个业务环节都需要有机制可以触发风险检测，例如基于内容的传播、互动、运营等环节，可结合热度、搜索、推优等有再次触发内容审核的机制。同时，内容审核链路上，通常需要会结合本地端侧审核、SaaS云端审核、人工审核以及专项的历史数据回扫来控制风险。

网易易盾业务安全负责人卓辉通过用户在业务中的全生命周期分析，提出了内生、弹性、纵深防御体系的构建方法。首先，他强调在用户注册和登录阶段增加拦截措施，有效阻止工具批量注册账号，从而提升黑灰产作弊的成本。随后，通过风控引擎的多模式识别技术，精确区分正常用户、作者、团伙账号以及个人作弊者。对于识别出的不同风险账号，采取差异化的应对策略，根据标签结果进行弹性处置，使用内生的业务干预的处置措施提升安全性的同时，还能大大提高黑灰产的作弊成本。这种纵深防御策略不仅提升了安全防护的层次性，也增强了对作弊行为的适应性和灵活性。卓辉说，最好的防御措施并不是正面交锋，而是“智守无声，攻不知而势已溃”。

网易易盾应用安全负责人朱星星在带来政策介绍后强调，应用在上架运营前，非常有必要进行安全漏扫检查、隐私合规检查、安全加固，以提供有效防御。需要特别说明的是，易盾安全加固在应用运行时，提供多方位的、多维度的纵深防御，每一个层级的防护都提供了多种功能，有效阻止攻击，提高破解分析的门槛和难度，延长应用的生命周期。并且这需要企业、开发者在移动应用的整个生命周期中重视并一同参与。

03 安全大模型用魔法打败魔法

在此次的网易易盾AI数字内容风控大会上，网易易盾发布了面向数字内容风控场景下的安全垂直大模型。

在历经2023年的“百模大战”后，社会各界对于各种各样个性的大模型名字早已麻木。网易易盾本次发布的大模型，没有名字，只有明确的应用场景与切实的产业价值，像树的根一样，繁华不见树根，繁华需要树根。

网易数智副总经理、网易易盾总经理朱浩齐在官宣大模型亮相时表示，安全，就要一丝一毫都不能差，在大模型的“军备竞赛”中，网易易盾坚持深耕垂直领域，研发聚焦数字内容风控场景下的行业大模型。

因此，在内部测试千万遍，反复确认无问题之后，网易易盾的安全大模型终于“千呼万唤始出来”。

应用安全大模型的数字内容风控通过大模型对风控尺度的理解，对风险内容实现标签的自动、精准标识，提升人工审核效率。目前，基于各种场景的测试情况，网易易盾安全大模型已经做到对部分色情疑难样本召回提升30%以上，助力广告对抗场景下的违法广告识别率达到97%以上，AIGC人脸风格化疑难案例的识别率超90%。此外，该安全大模型将风险对抗的时效提升到了小时级，并且辅助真人引流团伙检出量增长达3倍。

同时，在结合了网易易盾安全大模型的通用大模型问答场景中，基于安全大模型对用户输入的语义理解和对风控规则的理解，能够帮助各类通用大模型对于一些“看上去不好答”的题目，给予准确的回答。除少数几个极度敏感的议题外，帮助提供开放式问答的模型能够快速做到“应答尽答”。

“对人工智能的治理，长期来看，也许需要靠另一个人工智能了。”朱浩齐表达了对AI时代内容安全问题治理趋势的判断，“人工智能给数字内容生产和传播效率带来的是几何倍数级别的增长，对于安全治理的能力提升要求自然也只有人工智能才能满足。”

在著名动画《成龙历险记》中有一句台词“要用魔法打败魔法”作为经典流传了下来，与此不谋而合。

04 写在最后

已故的理论物理学家史蒂芬·霍金曾说：“成功创造人工智能会是人类历史上最大的事件。不幸的是，也可能是最后一次——除非我们学会如何规避风险。”

彼时霍金先生去世时，最为人熟知的通用人工智能ChatGPT并未问世。随着以ChatGPT为代表的一众通用大模型与垂直大模型纷纷进入产业应用端，此时此刻却如他所言，人类历史上最大的事件正在一笔一笔呈现于当下。

在AI安全的形势倒逼我们陷入被动之前，我们是时候提前主动拥抱一场思维上的革命了。AI与安全的长征路上，网易易盾期待与所有关注AI与安全的伙伴们并肩同行。

借AI之力，网易易盾构建面向未来的数字安全体系

热门标签

热门文章

深度解读｜艾瑞报告重磅发布，网易智企-易盾持续领跑内容风控行业

AI内容治理如何落地？生成合成内容标识解读

"清朗"专项行动全面落地：两阶段、14项重点，企业如何系统应对

听劝！OpenClaw用前，先把这个Skill安排上！

多模态大模型综合防御体系，构筑金融安全 “护城河”