本技术方案涵盖了一种针对卷积神经网络的量化技术,该技术应用于深度学习领域。该方法通过逐层量化目标卷积神经网络,实现网络参数的优化,以提升模型的运行效率。
背景技术
卷积神经网络是一种可以用于图像识别、计算机视觉、自然语言处理等领域的深度学习模型。卷积神经网络的量化是一种旨在减少模型大小和加速推理过程的优化技术。
量化可以包括感知训练量化(Quantization Aware Training,QAT)方法和后训练量化(Post-Training Quantization,PTQ)方法。PTQ方法由于无需额外的训练操作而应用较广。
卷积神经网络的量化可以根据量化颗粒的不同分为逐层(Per-Layer)量化与逐通道(Per-Channel)量化。逐层量化为每一卷积层的权重共享同一组量化参数;逐通道量化为每一卷积层的相同通道内的权重共享同一组量化参数。
但发明人发现,在基于PTQ方法对卷积神经网络进行量化时,存在不同通道或者不同空间位置的激活值分布不均而导致的值域范围差异较大的问题。而由于硬件设备的资源受限,使得不能支持逐通道量化进行卷积神经网络的量化,而是采用逐层量化的量化方式。如此会使得整个卷积层的值域范围由个别值域范围较大的通道或空间位置所主导,使得卷积神经网络中存在不同通道或不同的空间位置的数据分布不均的问题,会最终导致其它通道或空间位置的量化分辨率明显降低,而影响模型量化之后的性能。
实现思路