本技术涉及一种神经网络模型的构建方法、设备及系统,包括:获取预设神经网络模型;在所述预设神经网络模型的隐藏层后增加伪量化层,得到新的神经网络模型;所述伪量化层用于将隐藏层输出的第一数据类型的数据量化为第二数据类型的数据,以及对所述第二数据类型的数据进行取整计算,以及将所述进行取整计算后的第二数据类型的数据反量化为第一数据类型的数据;基于目标任务,对所述新的神经网络模型进行训练得到收敛的神经网络模型,实现了在对神经网络模型的训练结果不会造成太大影响的情况下,减小了神经网络模型文件的占用空间,减少内存带宽,降低计算资源的需要,获取更高性能,实现低功耗运行。
背景技术
在电脑侧开发神经网络时,一般采取32-bit浮点型来进行网络流动的数值计算以及存储网络的权值,且电脑侧可以使用拥有大量浮点计算单元的GPU对神经网络进行加速。然而在移动互联网时代,越来越多的AI算法需要在移动端落地,而原先在PC机上运行的神经网络模型在资源紧张的移动端设备上,效率便成为很大的瓶颈。
为了让AI算法更好地落地,有待提出一种适应资源紧张的终端设备运行AI算法的方案。
实现思路