上周,全球计算机多媒体顶级会议ICME 2019(国际多媒体与博览会议)在上海圆满结束,网易易盾深度学习资深研发工程师姚益武受邀出席会议,展示了网易易盾在深度卷积神经网络int8量化算法上的最新研究成果。
ICME签到处
ICME由 IEEE 下设的计算机学会、电路与系统学会、通信学会、信号处理学会联合举办,始于 2000 年,至今已经连续举办了 19 届,是计算机多媒体领域最重要的国际会议之一。ICME是学术界交流多媒体领域最近研究成果的旗舰论坛,也是工业界展示最新产品或系统的平台,涵盖文本分析、图形图像、视频、语音音频等多媒体数据的处理、传输、分析与应用等主题,为CCF推荐参加的B类国际学术会议。
在本次会议上,网易易盾深度学习资深研发工程师姚益武发表了题为《Efficient Implementation of Convolutional Neural Networks with End to End Integer Only Dataflow》的学术论文,展示了有助于构建端到端的纯整数运算通路的int8量化新算法。
姚益武表示,Int8量化由于精度损失低,能够实现4倍压缩比,且兼容于现有的整数运算单元,在产业界已经获得广泛应用,包括TensorFlow-Lite与TensorRT涉及的int8量化算法。
他指出,TensorFlow-Lite中的in8量化属于线性量化方法,但是为了执行量化卷积或矩阵乘法运算,需要提供额外的浮点乘因子,因而所构建的量化网络并非纯整数运算通路,并且该量化算法需要借助重训练以恢复精度损失。
图为卷积层的int8量化统一表示结构,首先输入、输出以及权重均表示为int8整数,同时量化层涉及的乘法累加、仿射变换等都是纯整数操作,且int8量化输出可直接传递至下一层,另外int8输出通过简单的位移操作便可还原为浮点小数,整个计算结构简单、有效,易于硬件实现
表显示了在ImageNet2012-1K验证集上,所提出的int8量化算法与TensorRT int8量化算法之间的Top1精度对比,获得了与TensorRT相接近的量化效果
“TensorRT中的线性int8量化方法,能够在NVIDIA平台上提供高吞吐、低延迟的推理性能,深度网络的权重按非阈值方式映射到int8区间,激活输出则按照阈值方式完成int8量化,每一层的实现方式相对简单。然而当前层的整数结果需要还原回浮点实数,方能传递至下一层,因此也不能构建端到端的纯整数运算通路。”
姚益武在ICME 2019上提出的int8量化新算法有助于构建端到端的纯整数运算通路,且统一表示层的设计简化了网络结构的拓扑设计,因此非常适合在现有硬件平台上实现,包括CPU/GPU/FPGA等通用计算平台。另外,所提出的int8量化算法,在复杂分类网络与目标检测模型上获得了与TensorRT相接近的推理精度,工业应用潜力比较大。
“应用于易盾内容安全图像识别上,在确保业务模型推理精度的前提下,其服务的响应时间能得到显著降低。”姚益武进一步解释了int8量化算法在网易易盾业务上的应用潜力。
参会的第三方专家点评网易易盾这一研究成果时表示,该方法可以保持相对较高的准确性,有效解决TensorRT的问题。而另外个专家则更进一步指出,int8量化新算法能够简化CNNs中的运算,并让精度损失显得微不足道。
据悉,姚益武为网易易盾实验室成员,该实验室在2018年还研发出了一种对多视角多模态特征信息进行有效融合的自编码器神经网络,在准确率、NMI、Purity、ARI等各项性能指标上,较当下多项国际先进的多视角多模态信息融合技术有显著性的领先。
网易易盾实验室成立于2016年,隶属于网易安全部,目前拥有数十名AI算法专家、安全研究员、政策法规研究专员等。实验室目前专注探索人工智能技术在安全领域的应用,以及安全相关法规、社会责任等研究。