一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统

123技术园

首页 / 技术内容

2025-02-23 14:22

No.1343226600321458176

技术概要

PDF全文

本技术提出了一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统，所述方法包括:步骤1，在LoRA微调过程中，结合CLIP损失和感知损失，动态调整CLIP损失和感知损失的权重；步骤2，利用CLIP模型计算去噪后的中间图像与目标文本的语义相似度，并根据相似度差异优化扩散模型的噪声预测能力；步骤3，采用感知损失计算中间图像与目标图像在特征空间的差异，并优化扩散模型的噪声预测能力，提升生成图像的视觉质量与细节保真度；步骤4，根据训练进展调整是否启用CLIP损失和感知损失。通过引入CLIP损失，模型在微调训练过程中能够更好地将图像与文本进行对齐，使得生成的图像更加符合文本提示的描述。

背景技术

扩散模型是一种基于概率分布的生成模型，其基本思想是通过逐步将真实数据添加噪声，使其最终接近标准高斯分布的过程，称为正向扩散；然后通过训练一个模型来学习逆向过程，从随机噪声逐步还原出真实数据，从而实现数据生成。在正向扩散过程中，模型以固定的步骤将噪声注入数据，逐步破坏其结构，直到数据完全变成无结构的高斯噪声。而逆向生成的目标是逐步去除噪声，恢复出逼真的数据分布。现阶段，大量用户和工业需求对AIGC（人工智能生成内容）的要求变得更加细分化，不同领域和个人用户需要生成的内容能够更精准地满足特定的场景需求。这种趋势推动了微调技术的诞生与发展。微调技术通过对预训练模型进行高效调整，使模型能够在保持原有能力的同时，适应特定任务或用户需求，从而实现更加个性化和定制化的生成效果。微调技术是扩散模型领域的一个非常重要的研究方向，微调技术的核心思想是以一个已经预训练好的大模型为基础，通过少量的新任务数据和针对性的训练，使模型专注于特定领域或任务。传统上，深度学习模型的训练通常需要大量数据和计算资源，但微调技术可以利用预训练模型的广泛适应性，显著减少新任务的训练成本，同时避免从零开始构建模型。常见的微调方式包括全参数微调和部分参数微调，例如冻结部分参数，仅优化特定层，但是大部分微调技术仍然面临计算资源需求高，训练后保存的模型参数量大等问题。由于微调技术通常依赖于大规模的预训练模型，而这些模型的训练和优化往往需要强大的计算资源，如高性能GPU集群和大容量存储设备，这使得大部分普通用户和小型团队难以承担相应的成本和技术复杂性。即使微调相较于从零训练模型已经显著降低了资源需求，但对于许多用户而言，依然需要熟悉深度学习框架、调整超参数以及准备高质量的领域数据，这些门槛阻碍了微调技术的普及。为了解决这一问题，近年来出现了LoRA微调的技术，LoRA（Low-Rank Adaptation）是一种轻量化的模型微调技术，旨在降低在大型预训练模型上进行微调的计算成本和存储需求，同时保持微调的灵活性和效果。LoRA 的核心思想是利用低秩矩阵分解来高效地更新模型参数，而不是对整个预训练模型的权重进行调整。在微调过程中，LoRA冻结预训练模型的所有原始参数，并在指定的网络层中插入可训练的低秩矩阵。这些低秩矩阵用于捕获微调过程中新增的特定任务信息，从而在减少参数更新数量的同时，实现高效微调。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

周铖昊项正龙薛羽田伟钟水明徐昕

技术所属：南京信息工程大学

相关技术

堆叠物体的物体数量检测方法、装置及系统 堆叠物体的物体数量检测方法、装置及系统
本发明提供了一种堆叠物体的物体数量检测方法、装置及系统，涉及图像处理技术领域，上述堆叠物体的物体数量检测方法包括:获取堆叠物体的深度图像；其中，深度图像中携带有各个像素点对应的深度距离，堆叠物体由多个尺寸相同的目标物体堆叠得到；基于深度图像中堆叠物体所覆盖的各目标像素点对应的深度距离，确定各目标像素点对应的物体层；基于深度图像确定各目标像素点对应的物理长度和物理宽度，基于各目标像素点对应的物体层及物理长度和物理宽度确定堆叠物体中包含的目标物体数量。本发明提升了堆叠货物的货物数量检测的准确性。
一种适用于水下姿势聚类的方法及装置 一种适用于水下姿势聚类的方法及装置
本发明公开了一种适用于水下姿势聚类的方法及装置，涉及水下手势识别技术领域，包括S1、通过训练一个深度网络，来学习有用的图像表示，让目标点均匀地分散在d维空间上；S2、目标转换向量进行归一化操作；若都均匀分布，使用混合高斯分布将向量，投影到球面；S3、在优化聚类目标的同时，卷积神经网络模型学习图像表征，并对图像分类。该适用于水下姿势聚类的方法及装置，提出了一个无监督聚类方法，以端到端方式构建深度神经网络，在没有额外处理的情况下提供姿态图像的直接聚类分配；采用多模态深度聚类，训练深度网络将图像嵌入与从高斯混合模型分布中采样的目标点对齐，通过图像嵌入的混合分量关联来确定聚类分配。
图像转换方法、装置、计算机设备和存储介质 图像转换方法、装置、计算机设备和存储介质
本申请涉及一种图像转换方法、装置、计算机设备和存储介质。所述方法包括:采用位深度扩展模块对低位标准颜色通道图进行位深度扩展处理，得到高位标准颜色通道图；采用逆图像处理模块对所述高位标准颜色通道图进行图像转换，得到高位原始图。采用本方法能够减小转换得到的Raw图和原始的Raw图之间的误差。
一种基于光度立体视觉的表面缺陷检测及量化方法 一种基于光度立体视觉的表面缺陷检测及量化方法
本发明公开了一种基于光度立体视觉的表面缺陷检测及量化方法，包括多个不同方向光源照射下的待测物体表面图像；根据不同光源的方向向量和图像灰度计算物体表面法向量；根据法向量计算待测物体特征；将不同特征分别归一化至灰度值0‑255之间即可得到特征图；将特征图进行图像融合，得到一张融合图；检测融合图的边缘；检测候选缺陷；量化候选缺陷的深度。本发明利用散度和旋度表示缺陷表面法向量场的聚散或者旋转强度，平均曲率和高斯曲率表示缺陷表面的弯曲情况，本发明对光度立体视觉的散度图、旋度图、高斯曲率图、平均曲率图进行图像融合，使得单张图像具有更多的特征信息，能够更好地凸显缺陷的特征。
人脸识别装置 人脸识别装置
本发明属于人脸识别技术领域，并具体公开了一种人脸识别装置，包括摄像头和遮光件，遮光件包括入光部和遮光部，入光部设置于摄像头的入光侧，入光部上设置有入光孔，入光孔与摄像头的镜头正对，入光孔的入光范围小于镜头的拍摄范围，遮光部沿入光部的外周向设置，遮光部的遮光范围大于镜头的拍摄范围。通过设置遮光件，摄像头的拍摄范围由原来的镜头的拍摄范围缩小为入光部的入光孔的入光范围，入光孔的入光范围外的光线被遮光部遮挡以避免该部分光线入射镜头，减少脸部范围外的光线对曝光时长的影响，增加对脸部的特征信息的采集，提高人脸识别效率及识别准确度。
玉米果穗表型分析方法、装置及设备 玉米果穗表型分析方法、装置及设备
本申请提供一种玉米果穗表型分析方法、装置及设备，其中，方法能够对玉米果穗的原始图像进行深度处理得到玉米果穗的深度图，通过金字塔式融合策略，在不同尺度的深度图像中利用局部特征动态调整分割阈值，对金字塔各层得到的玉米果穗掩码图像进行融合，得到对应的果穗掩码图像；对果穗掩码图像进行基于纹理信息和深度信息的区域扩散处理，划分出各个单果穗掩码；通过对玉米果穗原始图像进行单果穗掩膜遍历，提取出单果穗图像；利用颜色信息区分算法将单果穗图像划分为秃尖区域和籽粒区域，从而得到秃尖区域掩码、籽粒区域掩码；根据秃尖区域掩码、籽粒区域掩码以及果穗掩码，确定玉米果穗的各种表型参数，计算果穗均匀度和/或籽粒紧实度。
焊缝关键点识别方法、装置、设备、介质及程序产品  焊缝关键点识别方法、装置、设备、介质及程序产品 
 本发明公开了一种焊缝关键点识别方法、装置、设备、介质及程序产品，该方法包括:基于训练图像数据和标注数据生成数据集，构建原始识别模型，对原始识别模型进行改进，基于数据集对改进后的原始识别模型进行训练和优化，获得目标识别模型；通过焊接机器人上的图像采集设备采集焊接件的深度图像和RGB图像；将RGB图像输入至目标识别模型进行焊缝关键点识别，基于识别结果和深度图像确定焊接件的焊缝关键点坐标，实现对焊缝关键点的精准识别，从而引导焊接机器人准确到达焊缝关键点坐标位置进行焊接，提升了关键点识别自主性和适应性，有效地适配不同需求的焊接任务，确保焊接质量的同时，大幅提升了焊接效率，降低时间成本。
基于三维点云数据的辅助加工质量评估方法、介质及设备  基于三维点云数据的辅助加工质量评估方法、介质及设备 
 本申请提供了基于三维点云数据的辅助加工质量评估方法、介质及设备，涉及加工件质量检测技术领域。该方法首先获取待检测加工件对应的三维点云，并将其与待检测加工件对应的极限模型进行对比，确定超差区域，用于重点检测以确定待检测加工件是否合格。在待检测加工件合格的情况下，利用OBB方向包围法确定待检测加工件的目标表面对应的目标坐标系，并结合目标表面的至少两个目标评价指标，建立目标点云对应的多维特征张量，以通过多维的数据结构对目标点云的质量特性进行表示。最后将目标点云对应的多维特征张量输入预置的质量评估模型中，预测得到目标表面的质量等级，从而辅助实现对工件加工表面质量的全面、准确评估。
跨令牌引导Transformer的弱监督定位方法  跨令牌引导Transformer的弱监督定位方法 
 本发明公开了跨令牌引导Transformer的弱监督定位方法，包括如下步骤:采集图像并对图像进行预处理；构建由依次连接的多个基础Transformer块和多个位置Transformer块组成的Transformer编码器，将预处理后的图像依次经过基础Transformer块和位置Transformer块进行处理；将每个位置Transformer块的中间量取出并平均，得到平均后的中间量；构建滤波调节模块FRM，将平均后的中间量输入到滤波调节模块进行优化，得到最终定位图；本发明通过编码器有效缓解了目标区域周围的上下文偏差问题，通过滤波调节模块进一步提高了定位图的清晰度和语义一致性。
一种基于Mamba的遥感图像作物分类方法  一种基于Mamba的遥感图像作物分类方法 
 本发明属于图像数据处理技术领域，尤其为一种基于Mamba的遥感图像作物分类方法。该方法包括输入层、预处理模块、ENVI嵌入模块、3D卷积层、EMA通道注意力模块、Mamba Block模块、Uper Net解码器和输出层，Mamba Block通过独特的结构设计实现了高效的特征提取和信息融合，NDVI嵌入模块通过独特的算法设计将NDVI信息融入图像，提高了模型的分类精度和计算效率。本发明不仅提高了作物分类的精度，还优化了模型的计算效率，适合大规模遥感图像处理任务，具有重要的应用价值。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工