中文站

多模态大模型综合防御体系,构筑金融安全 “护城河”

2025年,金融行业正处于数字化变革的关键节点,为抓住AI带来的时代机遇,FIS中国金融数智创新峰会于10月23日在上海落下帷幕。本次大会主题聚焦“智启金融新范式,共筑数智新生态”,汇集200+来自国内外一线金融机构的信息技术、金融科技、信息安全、风险管理、合规风控等相关部门的高层领导和负责人,深度解析行业前沿趋势与最新技术,充分洞悉大模型能力结合下的风险管理、客户服务、产品创新等方面的最新趋势与实践!

其中,安全合规与风险防控成为本届峰会的核心议题。因此,本次峰会特设置了的《网易金融闭门会》,由网易易盾国央企行业负责人朱文涛带来《面向大模型场景的金融领域综合防御体系》主题分享,结合网易28年安全技术沉淀与上万家客户实践经验,为行业拆解金融大模型安全防护的核心逻辑,勾勒出 “技术+运营” 双轮驱动的安全新路径。

从 “邮箱安全” 到 “大模型防御”,网易易盾的28年安全基因

作为网易数字旗下核心安全品牌,网易易盾的安全基因可追溯至1997年——从支撑网易邮箱内容检测起步,2000至2016年深耕网易游戏、云音乐、新闻等内部互联网业务,在 UGC(用户生产内容)、PGC(专业生产内容)场景中积累了海量风险防御经验;2016年开启商业化征程后,先以泛互联网行业为起点夯实能力,2019年起全面进军泛国央企、金融机构与运营商领域,如今已成为金融大模型安全赛道的 “实战派领航者”。

截至2025年,国内超八成大模型创业主体(如Kimi、MiniMAX、硅基流动等)及多模态大模型企业(如生数科技、爱诗等),其大模型安全围栏的技术内核均源自网易易盾,在核心赛道构建起坚实的安全底座。

大模型安全新挑战:从 “文本拦截” 到 “多模态防御”

步入AIGC(人工智能生产内容)时代,金融大模型安全面临的挑战已从 “单一风险拦截” 升级为 “复杂风险治理”。

一方面,传统风险未消而新风险迭起:Emoji暗藏引流暗号、藏头诗规避检测、OCR图片扭曲篡改等UGC场景的 “隐蔽手段” 仍在演化,大模型 “越狱攻击”诱导生成违规内容、敏感信息泄露(如券商客户隐私数据)、科技伦理失范(如生成影射性内容)等新型风险又接踵而至;

另一方面,监管体系日益完善且要求趋严:从中央网信办 “清朗专项行动” 将金融领域AI问答风险纳入重点排查范畴,到《网络安全技术 人工智能服务安全基本要求》国标正式落地,金融大模型需同时满足“合规备案”与“实时风险管控”的双重标准。

更关键的是,未加防护的 “裸模” 安全水位堪忧——实测数据显示,未经安全围栏加持的大模型,违法违规内容召回率仅70%,误伤率却超15%,传统敏感词审核在大模型场景下更易陷入 “该拦不拦、误拦错拦” 的困境。

网易易盾金融多模态大模型综合防御体系

为此,网易易盾构建起 “内外兼修” 的多模态大模型防御体系:内生安全(Safety)聚焦大模型隐患发现与价值观对齐,通过常态化风险检测机制,破解了行业内 “模型安全对齐后生成能力下降” 的核心难题:大模型过度安全对齐导致 “智能度滑坡”,而网易易盾的对齐方案可在保障安全的同时,最大程度保留模型的涌现能力;外生防护(Security)则打造全链路 “安全围栏”,实现输入-输出全流程闭环管控:输入侧可精准识别并拦截违法违规Prompt、上下文套话攻击、URL恶意内容(如联网搜索引入的敏感信息),输出侧则通过实时切片审核技术,对涉政、涉军等高风险内容即时回退,对低风险内容进行正向引导,更能敏锐捕捉组合型敏感数据,避免隐私泄露风险。

尤为值得关注的是,网易易盾是国内为数不多能覆盖 “文本+图像+音频+视频” 全模态的安全厂商,在图像领域细分100+分类,即便音频/视频检测门槛呈指数级增长,其技术也已通过工行、华泰等金融客户的实战验证,在复杂场景中展现出稳定的防护能力。

金融场景定制方案:从 “备案合规” 到 “业务赋能”

大模型安全不是建完一套系统就万事大吉,构建可持续运营体系才是关键。” 朱文涛在分享中着重强调。网易易盾的核心优势在于构建了 “监管同步+实时响应+专项预案” 的运营体系,为金融机构提供了动态适配的安全保障。作为网易集团安全技术支撑团队,网易易盾每日更新通用防御策略,并通过API接口同步至私有化客户,确保客户防护口径与监管要求实时对齐。

同时,自建的境外反华势力、黑灰产动态监测网络,可快速捕捉全球最新攻击样本,结合3000+公有云客户的实时风险数据,实现半小时内更新防御算法,让防护能力始终跑在风险前面。在部分高敏感时期,网易易盾更会提前制定专项防护预案——如高考期间,对大模型作弊类请求实施实时阻断,助力合作客户实现监管零处罚。

立足金融机构的实际需求,网易易盾进一步打造了全流程定制化解决方案。

在合规备案环节,提供 “算法备案+大模型备案” 一体化服务;

在集团级流量治理层面,为某头部券商定制网关方案,将安全围栏与网关原生集成,覆盖内网、互联网多区域,无需业务系统重复接入,仅通过统一ID即可实现全集团大模型流量的安全管控;

在业务场景融合上,将安全合规组件嵌入金融Agent(如投顾智能体、客服智能体),已覆盖产品营销、投顾服务、客诉处理四大类20+个细分场景 ,其合规拦截率均稳定在 95.8%以上,实现安全与业务的协同发展。

深耕金融合规,共筑大模型安全生态

展望未来,朱文涛表示,网易易盾将持续聚焦金融大模型的行业化安全需求,一方面深化多模态防御技术,进一步提升复杂场景下的风险识别精度;另一方面联合更多金融机构,探索金融行业合规审核路径,让大模型技术在安全合规的前提下,真正为金融业务降本增效。从邮箱安全到大模型防御,从技术沉淀到行业赋能,网易易盾正以28年的安全基因,成为金融机构拥抱大模型时代的 “安全伙伴”。