中文站

"三箭"齐发,网易易盾引领AIGC内容合规技术发展

当AI绘画、AI作曲惊艳世界,当大模型对话以假乱真……AIGC技术的浪潮正以前所未有的速度重塑产业。然而,狂欢背后,危险的暗流同样汹涌,引发了一系列不容忽视的安全问题。

这些安全事件轻则给企业带来沉重的经济损失,重则扰乱社会秩序,给社会稳定带来不良影响。更为令人揪心的,便是对人类身心造成的巨大伤害,尤其是对于心智尚未健全、缺乏个人保护能力的未成年人。

*图片由即梦AI生成

2025年5月22日,美国一条关于“AI犯罪”案件的公示——14岁少年因沉迷AI聊天机器人而自杀。作为首例AI心理伤害追责案,引发全球网民对AI安全热议:

 ● 情感陪伴类AI服务内容的监管标准将如何变化?

 ● 企业对未成年人网络保护义务应如何厘清?

 ● 平台方主体责任及社会责任该如何践行?

当前,案件争议点聚焦在责任划分:原告(父母)指控软件开发平台以“心理治疗师”或“成年恋人”身份与受害者建立情感联系,并暗示“死亡是通往另一个世界的合理选择”。技术提供方因与平台存在技术授权关系被列为共同被告。

行业伦理与平台责任

2022年,ChatGPT的横空出世,为各类AI应用的商业化打开了大门,其中,尤为成功的是:情感陪护类产品。有行业报告预测:仅AI陪伴这一行业市场规模,预计在2031年将达到2800亿美元。

但是,当技术以“人性化”为卖点,却缺乏对脆弱群体的保护机制时,虚拟温暖或沦为“致命”诱导。

2024年度诺贝尔物理学奖获得者、“AI教父”辛顿(Geoffrey E. Hinton)在得知获奖之后就提出警告:人工智能最终有可能反噬人类。未成年人就是高风险群体之一。他们的心理往往较为脆弱,不少人会面临孤立、缺乏自信、沟通障碍、抑郁症等社交挑战。

为解决AIGC技术引发出的虚假不良、侵权网暴等问题,各国陆续出台或修订多部法律法规来对其行业良性发展进行规制。如:

 ● 我国早在2023年就出台了《生成式人工智能服务管理暂行办法》 ,《办法》要求采取有效措施防范未成年人用户过度依赖或者沉迷生成式人工智能服务;规定提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识;规定提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施并采取模型优化训练等措施进行整改等多项重要内容。

 ● 欧盟的《人工智能法》于2024年8月1日生效。该法案明确规定,聊天机器人等人工智能系统必须明确告知用户他们在与机器互动,人工智能技术提供商必须确保合成的音频、视频、文本和图像内容能够被检测为人工智能生成的内容。此外,该法案还规定,禁止使用被认为对用户基本权利构成明显威胁的人工智能系统。

 ● 美国在经过多年酝酿后,也于2025年5月19日总统签署通过联邦层面首部AI监管法案TAKE IT DOWN Act。旨在保护儿童和家庭免受通过未经同意传播私密图像和深度伪造虐待而遭受的网络勒索和剥削。

可以看出,各国多项法律均重点关注AIGC行业发展中的用户的隐私保护、内容管理、家长控制及未成年人应用模式,身心健康保护等内容。

我们深知:只有构建法律问责、技术过滤、生态共建、家庭监护等多重防线,平衡AI技术发展的创新与安全,才能避免悲剧重演。

“三箭”齐发,引领AIGC内容合规技术发展

在人工智能浪潮奔涌与数据价值日益凸显的今天,安全与创新如同双翼,缺一不可。作为数字内容风控领军者,网易易盾一直以来,以责任为锚,以技术为帆,与监管机构、行业伙伴携手筑牢安全底座,让技术创新动能始终运行于规范、透明的轨道之上,共同塑造清朗有序、活力迸发的数字未来。

1.发布《倡议》,推动安全发展

近日,在2025中国网络文明大会网络法治分论坛上,网易易盾参与发布了《推动人工智能安全可靠可控发展行业倡议》

该《倡议》由中国网络空间安全协会在中央网信办网络法治局、网络管理技术局指导,会同产业、学术、教育等65家会员单位共同发布,旨在响应《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》等政策要求,推动行业自律,强化技术研发、应用推广和生态建设中的安全可控要求,为人工智能健康发展营造良好环境。

2025中国网络文明大会网络法制分论坛·网易易盾(右一)

《倡议》紧紧围绕“安全、可靠、可控”的核心目标,从法治、技术、数据、伦理等多个维度提出八大倡议方向:一是坚持法治引领,保障全程合规;二是构建安全底座,完善治理能力;三是筑牢技术根基,强化可靠可控;四是优化算法性能,保障可靠运行;五是守护数据安全、夯实发展基石;六是重视人才培育、提升全民素养;七是坚守伦理价值、引领技术向善;八是共享治理经验、推动公平普惠。

2.参编国标,牢筑安全底线

近日,国家市场监督管理总局、国家标准化管理委员会发布2025年第10号《中华人民共和国国家标准公告》,由全国网络安全标准化技术委员会归口的6项国家标准正式发布。本次发布的标准聚焦数据安全、生成式人工智能安全等关键领域,进一步丰富了大网络安全工作格局下的网络安全标准体系建设,为国家数据安全和人工智能安全的管理工作及产业发展提供标准支撑。

其中,网易易盾依托人工智能安全研究和产品的实践积累,参与了此次发布的人工智能安全领域重要国家标准—GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》,该国家标准将于2025年11月1日正式实施。

GB/T 45654-2025《网络安全技术 生成式人工智能服务安全基本要求》

3.模型获评“优秀防御级”,垂域持续领先

近日,中国信息通信研究院公布 2025年新一轮安全大模型能力评估结果,网易易盾自研安全大模型凭借过硬的技术能力,和突出的性能,通过AIIA/PG 0153-2024《大模型安全风险防范能力 第3部分:内容安全能力要求及评估方法》,并获得“优秀防御级”评定。

作为行业内首个面向数字内容风控场景下的安全垂直大模型,网易易盾安全大模型可以通过大模型对风控尺度的理解,极大程度的实现对风险内容实现标签的自动、精准标识,从而提升人工审核效率。

大模型安全风险防范能力评估证书

当大模型加速渗透千行百业,内容安全的战场已从单一内容过滤,升级为全生命周期攻防战。网易易盾通过打造业内首个“内生安全+围栏防护”双维防御体系,让安全能力深度融入AI血液。

内生安全,让安全长于AI基因。从模型训练入手,对语料进行安全领域语料处理,杜绝暴力、偏见等“毒性知识”注入;加固安全质量,通过对抗样本攻击训练,提升模型抗诱导能力,阻断“越狱”指令;生成内容修正:实时矫正模型输出中的事实错误、价值观偏差,守好内容合规红线。

围栏防护,给AI应用穿上铠甲。贯穿产品上线与运营全程,产品上线时提供安全咨询与功能服务,如算法备案、智能验证、大模型备案、实名核验、安全标准制定、内容标识、投诉举报等;产品运营时确保内容合规,开展大模型横向评测、人工审核、安全问题代答等工作,同时构建安全生态,进行员工安全意识培训、舆情报告与接口防爬。二者结合全方位保障大模型内容安全。

AI与安全的征程上,网易易盾期待与所有关注AI与安全的伙伴们并肩同行,为 AI 时代扎紧防护网,让创新始终秉持敬畏之心。