一种用于ViTs的逐图像块后训练量化方法及系统

123技术园

首页 / 技术内容

2025-02-23 10:22

No.1343166078125350912

技术概要

PDF全文

本技术涉及人工智能技术领域，具体公开了一种用于ViTs的逐图像块后训练量化方法及系统，方法包括:获取全精度Vision transformer预训练模型、校准数据和量化器；将预训练模型中的全部模块替换为对应的量化模块，得到待量化的ViT模型，所述量化模块中包括激活值和权重的量化器，所述激活值采用逐图像块均匀量化器；利用所述校准数据，计算得到各量化器的缩放因子和零点偏移的初始值；利用校准数据和预训练模型，对缩放因子进行迭代优化，得到量化后的ViT模型。本发明允许每个图像块享有独立的量化参数，极大提升了量化分辨率并且使量化的激活值具有更强的表征能力。

背景技术

Vision Transformers (ViTs)在许多下游计算机视觉任务中取得了优异性能。然而，大量参数和存储需求严重阻碍其被部署于资源受限的硬件设备上。为了将ViTs运用于实际应用中，模型量化技术获得了研究人员的广泛关注。模型量化是最为高效和普遍的模型压缩方法之一，其用更低比特的形式来表示全精度的模型权重和/或激活值。模型量化方法可大致被分成两大类流程：量化感知训练(Quantization AwareTraining, QAT)和后训练量化(Post Training Quantization, PTQ)。QAT利用完整的数据集以重训练或微调方式恢复量化模型的预测准确率。虽然量化模型的准确率可以恢复成与全精度模型相同的等级，但对于大规模的模型如ViTs，整个量化过程将极其消耗时间和能源。近来，越来越多的研究人员转向PTQ方法的研究。PTQ仅需要一个小型无标签的校准数据集并且无需微调来量化预训练模型，极大促进了模型的快速和高效部署。其缺点在于后训练量化后的ViTs模型的预测准确率会发生急剧下降，因此大部分工作集中在如何恢复量化后的模型准确率上。大部分现有ViTs的PTQ工作将准确率下降归因于post-LayerNorm激活值的通道间差异以及post-Softmax激活值即注意力特征的非均匀分布。这些特殊模块设计了大量精巧的量化器和量化方法来消除数值差异对量化的有害影响并适应具有特殊分布的激活值。然而，现有方法仍存在两个问题：首先，所有具有严重通道间差异的post-LayerNorm激活值共享或部分共享对于量化性能而言非重要的量化参数。这种粗粒度的量化降低了量化分辨率并阻碍了激活值的表征能力，导致量化误差增加。其次，注意力特征相关量化参数的优化和其他量化参数的优化被认为同等重要，这可能会造成次优的注意力特征量化参数并使量化后注意力特征崩溃。崩溃后的注意力特征难以精准地捕获构成ViTs归纳偏置的全局依赖，对量化后ViTs的性能造成挑战。 Vision transformer模型的结构如图1所示，其部分模块的输入激活值的部分通道数值的箱型图和散点图如图2所示。图2中（a）-（h）显示出不仅是post-LayerNorm激活值具有严重的通道间差异，其他激活值也具有不同程度的数值差异。激活值的每个通道中还可能存在少量异常值。这些不同程度的数值差异和异常值将对量化参数产生负面影响，同时粗粒度的量化参数会使量化分辨率降低。一方面，很难找到一个共同的量化参数来适应所有的通道。粗粒度的量化参数意味着量化域中的一个整型数值对应着浮点域中较大的数值间隔。另一方面，异常值很可能主导量化参数的计算。这些异常值严重偏离其他数值，无法充分利用量化域中的量化等级即整型数值。因此，现有PTQ方法难以达到令人满意的准确率，尤其在低比特情形下。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

赫鑫宇李东哲卢冶

技术所属：南开大学

相关技术

人脸识别装置 人脸识别装置
本发明属于人脸识别技术领域，并具体公开了一种人脸识别装置，包括摄像头和遮光件，遮光件包括入光部和遮光部，入光部设置于摄像头的入光侧，入光部上设置有入光孔，入光孔与摄像头的镜头正对，入光孔的入光范围小于镜头的拍摄范围，遮光部沿入光部的外周向设置，遮光部的遮光范围大于镜头的拍摄范围。通过设置遮光件，摄像头的拍摄范围由原来的镜头的拍摄范围缩小为入光部的入光孔的入光范围，入光孔的入光范围外的光线被遮光部遮挡以避免该部分光线入射镜头，减少脸部范围外的光线对曝光时长的影响，增加对脸部的特征信息的采集，提高人脸识别效率及识别准确度。
玉米果穗表型分析方法、装置及设备 玉米果穗表型分析方法、装置及设备
本申请提供一种玉米果穗表型分析方法、装置及设备，其中，方法能够对玉米果穗的原始图像进行深度处理得到玉米果穗的深度图，通过金字塔式融合策略，在不同尺度的深度图像中利用局部特征动态调整分割阈值，对金字塔各层得到的玉米果穗掩码图像进行融合，得到对应的果穗掩码图像；对果穗掩码图像进行基于纹理信息和深度信息的区域扩散处理，划分出各个单果穗掩码；通过对玉米果穗原始图像进行单果穗掩膜遍历，提取出单果穗图像；利用颜色信息区分算法将单果穗图像划分为秃尖区域和籽粒区域，从而得到秃尖区域掩码、籽粒区域掩码；根据秃尖区域掩码、籽粒区域掩码以及果穗掩码，确定玉米果穗的各种表型参数，计算果穗均匀度和/或籽粒紧实度。
焊缝关键点识别方法、装置、设备、介质及程序产品  焊缝关键点识别方法、装置、设备、介质及程序产品 
 本发明公开了一种焊缝关键点识别方法、装置、设备、介质及程序产品，该方法包括:基于训练图像数据和标注数据生成数据集，构建原始识别模型，对原始识别模型进行改进，基于数据集对改进后的原始识别模型进行训练和优化，获得目标识别模型；通过焊接机器人上的图像采集设备采集焊接件的深度图像和RGB图像；将RGB图像输入至目标识别模型进行焊缝关键点识别，基于识别结果和深度图像确定焊接件的焊缝关键点坐标，实现对焊缝关键点的精准识别，从而引导焊接机器人准确到达焊缝关键点坐标位置进行焊接，提升了关键点识别自主性和适应性，有效地适配不同需求的焊接任务，确保焊接质量的同时，大幅提升了焊接效率，降低时间成本。
基于三维点云数据的辅助加工质量评估方法、介质及设备  基于三维点云数据的辅助加工质量评估方法、介质及设备 
 本申请提供了基于三维点云数据的辅助加工质量评估方法、介质及设备，涉及加工件质量检测技术领域。该方法首先获取待检测加工件对应的三维点云，并将其与待检测加工件对应的极限模型进行对比，确定超差区域，用于重点检测以确定待检测加工件是否合格。在待检测加工件合格的情况下，利用OBB方向包围法确定待检测加工件的目标表面对应的目标坐标系，并结合目标表面的至少两个目标评价指标，建立目标点云对应的多维特征张量，以通过多维的数据结构对目标点云的质量特性进行表示。最后将目标点云对应的多维特征张量输入预置的质量评估模型中，预测得到目标表面的质量等级，从而辅助实现对工件加工表面质量的全面、准确评估。
跨令牌引导Transformer的弱监督定位方法  跨令牌引导Transformer的弱监督定位方法 
 本发明公开了跨令牌引导Transformer的弱监督定位方法，包括如下步骤:采集图像并对图像进行预处理；构建由依次连接的多个基础Transformer块和多个位置Transformer块组成的Transformer编码器，将预处理后的图像依次经过基础Transformer块和位置Transformer块进行处理；将每个位置Transformer块的中间量取出并平均，得到平均后的中间量；构建滤波调节模块FRM，将平均后的中间量输入到滤波调节模块进行优化，得到最终定位图；本发明通过编码器有效缓解了目标区域周围的上下文偏差问题，通过滤波调节模块进一步提高了定位图的清晰度和语义一致性。
一种基于Mamba的遥感图像作物分类方法  一种基于Mamba的遥感图像作物分类方法 
 本发明属于图像数据处理技术领域，尤其为一种基于Mamba的遥感图像作物分类方法。该方法包括输入层、预处理模块、ENVI嵌入模块、3D卷积层、EMA通道注意力模块、Mamba Block模块、Uper Net解码器和输出层，Mamba Block通过独特的结构设计实现了高效的特征提取和信息融合，NDVI嵌入模块通过独特的算法设计将NDVI信息融入图像，提高了模型的分类精度和计算效率。本发明不仅提高了作物分类的精度，还优化了模型的计算效率，适合大规模遥感图像处理任务，具有重要的应用价值。
基于局部密度参数调整与强度优化的点云平滑拟合方法  基于局部密度参数调整与强度优化的点云平滑拟合方法 
 本发明属于点云数据处理技术领域，公开了一种基于局部密度参数调整与强度优化的点云平滑拟合方法，获取原始点云数据经预处理后进行局部密度计算，进行动态调整搜索半径策略和动态扩展邻域，边界判断后对边界点边界保护机制或计算联合权重和更新平滑拟合，获得拟合重建后的点云可视化结果图。本发明有效解决了现有技术在稀疏点云平滑、噪声鲁棒性、强度特征保留和边界特征模糊等方面的不足，能够动态适应点云的稀疏性与非均匀分布，显著提升点云平滑拟合的精度与强度信息的优化能力，为前视三维声呐的地形测绘、水下目标探测和环境建模提供了更精确、高效的技术方案。
图像情感分析方法及装置、存储介质及电子设备  图像情感分析方法及装置、存储介质及电子设备 
 本发明提供一种图像情感分析方法及装置、存储介质及电子设备，属于图像分析领域，该方法包括:确定目标图像的元数据集合，包括描述文本信息和标签信息；对标签信息进行语义描述形式转换，获得标签描述信息；对目标图像、描述文本信息和标签描述信息进行统一表征，得到元数据特征和图像特征；对元数据特征和图像特征进行信息增强，得到元数据增强特征和图像增强特征；对元数据增强特征和图像增强特征进行跨模态特征融合处理，获得目标图像的融合特征；基于融合特征进行情感识别，得到目标图像的情感类别。应用本发明的方法，可利用图像的元数据特征和视觉特征对图像呈现的情感进行多维度分析，有利于提高图像情感识别的准确性。
一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统  一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统 
 本发明提出了一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统，所述方法包括:步骤1，在LoRA微调过程中，结合CLIP损失和感知损失，动态调整CLIP损失和感知损失的权重；步骤2，利用CLIP模型计算去噪后的中间图像与目标文本的语义相似度，并根据相似度差异优化扩散模型的噪声预测能力；步骤3，采用感知损失计算中间图像与目标图像在特征空间的差异，并优化扩散模型的噪声预测能力，提升生成图像的视觉质量与细节保真度；步骤4，根据训练进展调整是否启用CLIP损失和感知损失。通过引入CLIP损失，模型在微调训练过程中能够更好地将图像与文本进行对齐，使得生成的图像更加符合文本提示的描述。
融合时空立方体各向异性的图结构生成方法及装置  融合时空立方体各向异性的图结构生成方法及装置 
 本发明公开了一种融合时空立方体各向异性的图结构生成方法及装置，涉及图像处理及遥感数据处理技术领域，主要目的在于解决现有遥感数据处理受空缺值影响，导致准确性较低的问题。主要包括获取待处理遥感数据，并依据待处理遥感数据提取多个子时空立方体；对时空立方体进行有效元素提取，得到节点集合；依据节点集合中的有效节点进行边构建，得到匹配所述节点集合的边集合，其中，边集合中的各个边的属性嵌入有对应有效节点的时空偏移量，时空偏移量用于表征对应有效节点之间的时空距离和各向异性；依据节点集合和匹配所述节点集合的边集合进行图结构生成，得到待处理遥感数据所对应多个子时空立方体的图结构。主要用于生成遥感数据的图结构。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工