中文站

贯彻内生安全防御理念,网易易盾产品能力一览

社会学家乌尔里希在他的著作《风险社会》中指出:风险的产生、外溢、分布、防范和控制已经成为现代社会的管理纲要。技术的发展,需要在应用中不断“除错”。这个过程中,它必然带来风险,并且技术力量越大,风险程度越大。这就是目前面临的人与AI共处的核心矛盾。


“我们做的,是理解、预测和缓解这一核心矛盾”,在前不久的2024网易易盾AI数字内容风控大会上,为了解决AI时代中各种“已知的未知”和“未知的未知”的安全问题('未知的未知',来自于经济学家奈特所定义的‘The unknown unknown’,是‘藏身’预料之外的极端不确定性,也是最有可能对整个系统带来灭绝危机的风险),网易易盾发布了具备弹性纵深能力的内生防御体系。

关于内生的弹性纵深防御体系,此前已做较为详尽的介绍。今天我们来聊聊:如何在实际业务中构建弹性、纵深的内容安全体系。

内生的弹性纵深防御体系


在当前以GenAI为核心的人机共存时代,企业面临着一系列典型的风险挑战。常见的的挑战包括:

恶意应用:少数用户可能会利用人工智能工具传播有害信息,例如使用AI技术进行不雅图像的合成与传播,或通过算法生成违反社会规范的内容。这种行为不仅侵犯了他人的权益,也对社会秩序构成了威胁。

引流强对抗:在某些情况下,AI系统可能会遭遇到强烈的对抗性挑战,如恶意的流量引导广告、针对大型AI模型的逃逸攻击等。这些行为不仅破坏了网络环境的和谐,也对AI系统的安全性提出了严峻考验。

越狱攻击:攻击者通过发现并利用AI模型的漏洞或设计缺陷,获取不正当的访问权限或执行未授权的操作。例如著名的“奶奶漏洞”,用户通过让AI扮演已故亲人并提出不恰当的要求,富有同情心的AI可能会满足这些请求。

生成不可控:算法存在一定的不可控性,一方面可能被设计为或无意中生成特定政治观点的内容,从而操纵公众舆论,影响社会稳定。另一方面,可能会生成不适当的内容,如色情、暴力或其他令人不悦的材料。这些内容可能会对未成年人或敏感人群造成不良影响。


“内容安全的风险管理不仅是一场持久战,更是一个持续迭代和完善企业安全框架的动态过程”,网易易盾内容安全产品负责人饶晓艳介绍,因此,企业需要在风险管理的不同阶段采取对应的策略进行防控:

事前规划:在风险管理的初始阶段,企业需要从组织结构、制度流程、意识形态等多个维度进行全面规划。这不仅要求管理层给予足够的重视,还需要确立一套清晰的安全政策和规范,为后续的风险控制打下坚实的基础。

事中管控:在业务内容的整个生命周期中,企业需要能够实时地发现并处置风险,确保风险处于可控状态。关键要素包括:

○ 安全标准:建立一套完善的安全标准,确保所有业务流程和操作都符合安全要求。

○ 内容检测技术:运用先进的技术手段,对内容进行实时监控和分析,及时发现潜在的风险。

○ 安全运营:建立专业的安全运营团队,负责日常的风险评估、监控和应急响应。

事后监测:在风险管理的后期阶段,企业需要进行异步的风险管理,这包括:

○ 风险点发现:通过回顾和分析,发现在事前和事中阶段可能遗漏的风险点。

○ 数据驱动:利用数据分析和工具,对风险管理过程进行评估,找出改进点,从而不断提升风险管理能力。

关于网易易盾数字内容安全体系建设,饶晓艳总结道:“在整个风险管理的过程中,企业应该采用一种积极主动的态度,不断学习、适应和创新,以适应不断变化的安全需求。通过这种全方位的风险管理策略,企业可以更好地保护自身和用户的利益,确保业务的可持续发展。”

在构建人机共存时代的安全体系建设中,提升安全管理能力是一个持续的挑战,因此如何评估企业当前所在的阶段和安全成熟度能力,是后续构建安全体系,提供针对性方案的必要过程。网易易盾的安全专家团队一直致力于探索和输出有效的评估方案,以帮助企业更好地理解和管控安全风险,当前有效的手段包括但不限于:

内容安全成熟度评估模型:网易易盾自主开发了一套内容安全成熟度评估模型,旨在帮助企业识别和评估其内容安全管理的各个环节。通过这一模型,企业可以发现潜在的风险点,从而有针对性地进行改进和优化。

算法安全评估:随着人工智能技术的广泛应用,算法的安全性也变得越来越重要。网易易盾专家团队通过算法安全评估,帮助企业识别和解决算法可能带来的安全问题,确保其技术应用的安全性和可靠性。

双新评估:易盾通过双新评估,帮助企业在引入新技术或开展新业务时,能够全面评估其可能带来的安全风险,从而做出更明智的决策。

“我们致力于通过可评估、可定义、能量化的方式,建设一个更完善的安全体系。这意味着企业可以更清晰地了解自身的安全状况,制定更有针对性的安全策略,并量化其安全管理的效果。”饶晓艳希望通过这些措施,可以让企业构建更加全面、系统、可量化的安全管理体系,更好地应对各种安全挑战,保障企业的稳定发展和用户的安全体验。

传统的通用风险分类已无法满足当前复杂多变的安全需求。企业需要对标准进行精细化管理,以适应监管、区域、文化等动态变化。在构建内容安全体系建设框架的过程中,精细化的安全标准无疑是至关重要的。其核心目标是高效地发现和处置风险。为了实现这一目标,网易易盾将其拆解为以下多个关键步骤:

行业场景化策略标准:例如在AIGC(人工智能生成内容)的输入端和输出端,网易易盾制定了不同的策略,以应对多样化的需求。这种细分策略有助于更精确地识别和管理风险。

不良内容分类标准:网易易盾在数千家行业头部企业实践过程中,不断扩展风险标签的数量,从最初的十几个标签,逐步扩展到上千个标签,以更细致地描述和分类风险。

风险分级:通过增加风险分级,企业可以更清晰地识别风险的严重程度,从而采取相应的处置措施。

内容正负面:在内容检测过程中,企业不仅需要关注内容的合规性,还增加了内容质量的标签维度。这有助于对内容进行更全面的分类和标记,辅助平台进行更完整的内容生态治理。

全球区域化标准:经过数十年的沉淀,网易易盾在全球范围内十多个国家均设有专业的内容安全服务团队,使其能够适应不同国家和地区的监管要求和文化差异配置相应的安全服务标准和策略。

这些精细化的事中安全管理措施,不仅能够提高风险发现和处置的效率,还能够确保内容安全策略的灵活性和适应性。这将为企业提供一个更加全面、系统、可量化的安全管理体系,使其能够在人机共存的时代中,更好地应对各种安全挑战,保障企业的稳定发展和用户的安全体验。

在内容安全建设的框架中,纵深的内容检测是第二个关键要素。它不仅涉及内容发布时的审核,更重要的是在内容的整个生命周期中,持续监测和评估其风险。以下是对这一要素的进一步优化和细化:

内置的多节点审核回查:

○ 内容传播环节:对于热度飙升的内容,是否需要触发额外的审核机制?这是一个重要的考量点。随着内容的传播和关注度增加,其潜在风险也可能随之上升,因此需要及时进行风险评估。

○ 内容互动环节:即使是2年前的内容,一旦被重新搜索和阅读,也可能引发新的讨论和争议。因此,这类内容是否需要重新触发审核,也是企业方需要考虑的问题。

○ 内容运营环节:当内容被推荐到首页或其他显著位置时,其影响力和可见度显著增加,相应的风险也可能增加。因此,是否需要在这一环节触发审核,以确保内容的安全性和合规性。

○ 时序内容回查:在不同的重大事件节点,企业需要针对性地回查历史数据,评估内容的安全性和合规性。这种主动的风险回查机制,有助于及时发现和处理潜在的风险。

动态审核策略:

○ 云端实时审核+人工审核:结合云端的实时审核和人工审核,可以更全面地控制风险。云端审核可以快速处理大量内容,而人工审核则可以提供更深入和细致的分析。

○ 专项回扫:通过专项的历史数据回扫,可以对过去的审核结果进行重新评估,确保内容的持续合规性。

随着大模型在端上的应用增多,网易易盾也在积极上线多个版本的端侧审核方案。这些方案可以进一步加深审核链路,提高风险发现的效率和准确性。

通过这些措施,企业可以构建一个更加全面和纵深的内容检测体系,确保内容在各个环节和阶段都能够得到有效的风险管理和控制。这不仅有助于提升内容的安全性,也能够增强用户的信任和满意度,为企业的可持续发展提供坚实的保障。

在构建内容安全建设框架的过程中,第三个关键要素是弹性的安全运营。这一要素的核心在于应对日常工作中复杂多变的对抗和处置情况。具体包括:

增加对抗者的不确定性:

○ 弹性安全策略:通过实施灵活多变的安全策略,增加内容对抗者的不确定性。这包括但不限于动态调整审核规则、随机抽样审核等手段,使得对抗者难以预测内容何时会被拦截以及拦截的原因。

○ 安全自适应:利用大模型技术手段,如机器学习和人工智能,使安全系统能够自适应不断变化的威胁环境,从而更有效地应对各种挑战。

提升效果迭代效率:

○ 数智化运营:利用网易易盾智能审核系统配置多样化的监控和分析指标,企业可以更高效地处理和分析大量数据,从而快速响应和适应不断变化的安全威胁。

○ 算法模型自训练:通过算法自训练平台,可以显著缩短模型训练的时间。例如,原先需要1-2周才能训练好的模型,现在只需30分钟即可快速上线,及时应对新出现的威胁。

平衡安全合规和用户体验:

 ○ 弹性安全处置:企业应结合自身业务情况,采用分级的处置机制。例如,通过弹性的分级处置、先发后审、举报投诉等机制,可以缩短用户的审核时间,降低误伤率,从而提升用户体验。

○ 弹性人审机制:企业通过合理的审核流程和策略,可以在保障安全的同时,维护用户的满意度和忠诚度。

数智化运营功能:

○ 策略管理与自训练:网易易盾在安全运营平台上发布了多个智能运营功能,如策略管理、自训练等。这些功能帮助企业探索符合自身业务需求的、更弹性的运营方式,提高安全运营的效率和效果。

通过这些措施,企业可以构建一个更加灵活、高效、用户友好的安全运营体系。这不仅有助于提升内容的安全性和合规性,还能够在保障用户体验的同时,应对不断变化的安全挑战,确保企业的稳定发展和用户的安全体验。

除了前述的关键要素外,网易易盾在大模型安全围栏的实践也是值得分享的重要经验。以下是对这一实践的进一步优化和细化:

输入风险识别:

○ 从用户输入端开始,网易易盾会首先进行有害信息的检测和分析。这一步骤是确保内容安全的第一道防线,通过实时监测和分析用户输入,可以及时发现并拦截有害信息。

风险答案修正:

○ 风险识别:对用户提出的问题进行风险分类,区分哪些问题需要准确回答,哪些问题需要正向引导。这种分类机制有助于更精准地处理不同类型和风险等级的问题。

○ 回答修正:针对风险问题,网易易盾提供安全回答参考,帮助企业在确保内容安全的同时,提供高质量的用户服务。

输出风险识别:

○ 对于由业务大模型回答的内容,在输出后也需要进行有害内容的检测。考虑到时效性,网易易盾采用流式切片检测技术,能够在内容生成过程中更早地发现风险,从而及时进行干预和处理。

安全语料库:

○ 在最前置的大模型训练环节,网易易盾会提供覆盖多分类的内容安全语料库。通过这些语料库,可以提高模型本身的安全围栏能力,确保其在处理各种内容时能够遵守安全和合规的标准。

黑灰产作弊已经形成了成熟的上下游产业链,他们不仅拥有传统的作弊工具如模拟器和群控农场,还不断升级到更低成本、更高性能的主板机。此外,他们还会利用最新的AI技术,如合成人脸,来绕过业务的真人核身机制。

在面对复杂且不断进化的黑灰产,企业必须不断提升自身的防护措施。安全是一场没有终点的竞赛。企业需要不断地更新和提升防护措施,以应对不断变化的威胁。这要求业务从内生设计开始,将安全建设作为重要考量,确保其贯穿于整个产品生命周期之中。

业务安全防御体系搭建的要点:

○ 安全渗透测试:在业务体系设计之初,应考虑进行安全渗透测试,根据测试结果加固产品。这有助于在产品开发的早期阶段识别和解决潜在的安全问题。

○ 深入业务场景逻辑:易盾会深入业务场景逻辑,根据场景设计解决方案,使业务和安全更加紧密耦合。这种深度整合有助于在业务运行过程中更有效地识别和防御安全威胁。

○ 安全标签与数据分析:通过易盾的业务安全标签和数据分析等多重结果,进行灵活弹性的处置。这不仅可以提高安全防护的针对性和有效性,还可以根据实际情况调整安全策略。

协同共进是构建强大安全防御体系的关键,通过网易易盾的专业知识和技术支持,结合业务方的深入理解,可以共同设计出更有效、更适应业务需求的安全解决方案。通过这些措施,企业可以构建一个更加全面、系统、可量化的安全管理体系,确保在人机共存的时代中,保障企业的稳定发展和用户的安全体验。

随着移动互联网的蓬勃发展,用户享受到了前所未有的便利,但同时也面临着隐私泄露等安全隐患。个人信息泄露问题尤为突出,如诈骗电话和短信等,这些都指向了一个核心问题——应用安全。

除了应用开发自身可能引起的隐私合规问题,接入第三方SDK也是导致隐私泄露的一个重要原因。网易易盾凭借对监管政策的深入理解、应用商店上架政策的熟悉,以及服务众多客户积累的经验,能够帮助开发者快速发现并解决这些问题。

网易易盾提供了全面的安全加固解决方案,适配所有主流移动平台。特别值得一提的是,网易易盾安全加固及所有业务安全SDK已经全面适配了鸿蒙版本,确保了在这一新兴平台上的应用也能获得同等级别的安全保护。通过这些措施,网易易盾致力于为用户提供一个安全、可靠的移动互联网环境,保护用户隐私,防御潜在的安全威胁。

安全是一场持久战,通过不断地技术创新和实践积累,网易易盾致力于提供更全面、更高效的内容安全解决方案,帮助企业应对不断变化的安全挑战。网易易盾践中,通过数据驱动的决策、自动化流程、持续优化与迭代,以及用户体验的优化,进一步提升内容安全的管理效率和效果。