高效微调预训练模型技术及应用

123技术园

首页 / 技术内容

高效微调预训练模型技术及应用

2025-02-16 14:04

No.1340685212891488256

技术概要

PDF全文

本技术涉及一种高效微调预训练模型的技术，包括装置、服务器和存储介质。该技术通过获取文本和图像特征，依据实体类别和可学习参数，实现模型的快速优化。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着大数据技术的发展，自监督学习的预训练视觉语言模型在识别任务中取得了显著的性能。预训练视觉语言模型通过在训练过程中使用大规模的图像-文本对作为输入，以获得与全监督学习方法相当的效果；同时，预训练视觉语言模型对于新的数据集具有很好的可迁移性，并进而较容易地扩展到其他任务，例如：目标检测、语义分割和三维感知；预训练视觉语言模型具有出色的泛化能力，但当预训练视觉语言模型应用于数据有限的下游任务时，由于需要支持难以承受的训练资源，预训练视觉语言模型易灾难性遗忘，失去在训练前阶段获得的泛化能力。在相关技术中，基于预训练视觉语言模型的参数微调方法，能够解决上述视觉语言模型易灾难性遗忘的问题，相关技术中，预训练视觉语言模型的参数微调方法包括基于适配器的方法和基于提示的方法，其中，基于提示的方法在下游任务的知识迁移方面表现出了更好的性能。在相关技术中，基于提示的方法集中在单一模式提示学习的设计上，忽视了文本和视觉特征之间的相互联系和差异，降低预训练视觉语言模型的微调准确率，此外，基于提示的微调方法所采用的物理机制，不能有效的提高预训练视觉语言模型在下游任务的迁移能力。针对相关技术中基于提示的预训练视觉语言模型的参数微调方法，准确率低且在下游任务中的迁移能力弱的问题，尚缺少较佳技术方案。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

金鑫张文垚曾文军

技术所属：宁波东方理工大学（暂名）

相关技术

新场景下目标检测性能自适应度量方法  新场景下目标检测性能自适应度量方法 
 本发明公开了一种新场景下目标检测性能自适应度量方法。该方法包括:融合光照、色偏和散度估计度量背景差异(S1)，其中，计算训练场景和应用场景的背景差异指标的统计量(S1‑1)；在此基础上，将训练场景作为正常场景，对应用场景进行分类，分为正常、高动态、强光、低照度、色偏以及低能见度场景，作为场景间背景差异的度量(S1‑3)。综合标签偏移和特征偏移度量目标差异(S2)；其中，通过KS检验计算标签偏移结果(S2‑1)；使用训练场景和应用场景中图像检测结果的目标特征熵计算特征偏移结果(S2‑2)；作为目标差异的度量结果。与现有方法不同，本发明方法不仅能够判断场景间是否存在域差异，还能细粒度地分析场景的域差异的类型。可以提升目标检测算法在新场景下的性能。
基于自协作并行生成对抗网络的无监督真实图像去噪方法  基于自协作并行生成对抗网络的无监督真实图像去噪方法 
 本发明公开了一种基于自协作并行生成对抗网络的无监督真实图像去噪方法。主要包括以下步骤:利用噪声的可叠加性，构造基于初始降噪器的噪声提取模块，用于对真实图像的噪声成分进行提取；采用并行生成对抗分支框架，分支1先通过非配对合成的方式合成伪真实噪声图像再通过自合成的方式合成噪声图像，即“非配对合成—自合成”；分支2先通过自合成的方式合成噪声图像再通过非配对合成的方式合成伪真实噪声图像，即“自合成—非配对合成”；采用自协作策略，每次迭代后用当前更收敛的去噪器取代之前较弱的去噪器，直到去噪器完全收敛，完成网络训练并得到最终模型。本发明所述的方法能够很好地去除真实图像上的噪声，是一种有效的图像去噪方法。
基于采样差异作为扰动的自监督真实图像去噪方法  基于采样差异作为扰动的自监督真实图像去噪方法 
 本发明公开了一种基于采样差异作为扰动的自监督真实图像去噪方法。主要包括以下步骤:提出并使用随机子样本生成策略以获得更多的子样本；根据随机子样本生成策略而提出一种采样差异损失函数；将循环策略引入损失函数的构建，提出循环采样差异损失函数；通过上述步骤对去噪网络进行训练，以得到去噪模型，然后将带有噪声的图像作为输入，通过训练好的网络模型，得到高质量的去噪图像。本发明所述方法可以不需要干净图像进行训练并且优于现有的伪监督/自监督方法，是一种有效的自监督真实图像去噪方法。
基于单幅RGB图像的高光谱重建方法  基于单幅RGB图像的高光谱重建方法 
 本发明提供了一种基于单幅RGB图像的高光谱重建方法，具有这样的特征，高光谱重建模型包括:锥形多尺度特征提取模块，用于对单幅RGB图像经由切片分区处理后的特征映射进行特征提取，得到浅层区域聚合特征；多个依次连接的多尺度自适应残差注意模块，用于对浅层区域聚合特征进行处理，得到深层特征；组合处理模块，用于对深层特征进行卷积和激活函数处理，得到高光谱图像，其中，多尺度自适应残差注意模块包括顺次连接的锥形多尺度特征提取模块、最优非局部模块、像素自注意力模块、LayerNorm模块和多层感知机模块。总之，本方法能够提高重建的高光谱图像的精度。
预训练模型的高效微调方法、装置、服务器及存储介质  预训练模型的高效微调方法、装置、服务器及存储介质 
 本申请公开了一种预训练模型的高效微调方法、装置、服务器及存储介质，该方法包括:获取第一文本特征和图像提示特征，第一文本特征是根据预设的实体类别文本信息和可学习文本提示信息进行编码生成的，图像提示特征是对第一输入图像对应的实体类别图像分块和预设的可学习视觉提示参数进行编码所生成的；对图像提示特征进行掩码处理，生成第一掩码图像特征，并利用预设的多模态掩码重建网络处理第一掩码图像特征和第一文本特征，生成重构图像；计算第一输入图像与重构图像的损失值，并根据损失值对预训练模型的参数进行微调。通过本申请，解决相关技术中基于提示的预训练视觉语言模型的参数微调方法，准确率低且在下游任务中的迁移能力弱的问题。
一种眼象图质量控制方法、装置、存储介质和设备  一种眼象图质量控制方法、装置、存储介质和设备 
 本发明提供一种眼象图质量控制方法、装置、存储介质和设备，属于图像识别术领域，方案在获取到眼象图后，先对眼象图进行分类，得到眼象图对应的视角类别，获取与所识别到的视角类别相匹配的眼象图判断条件，然后再对眼象图进行处理，得到眼象图的黑白睛语义分割掩码图，再识别得到黑白睛语义分割掩码图中的黑睛区域的区域信息以及白睛区域的区域信息，最后再基于眼象图判断条件对黑睛区域的区域信息以及白睛区域的区域信息进行分析，基于分析结果判断眼象图是否合格，从而对眼象图是否合格的判断标准进行统一，以便于后续对眼象图进行分析，并且判断过程快速，效率高，人工参与率低，解决了眼象图质量参差不齐的情况。
图像处理方法及装置  图像处理方法及装置 
 本申请涉及一种图像处理方法及装置，所述方法包括:获取原始图像以及针对所述原始图像的需求表述；对所述原始图像进行切块处理，得到多个局部图像块，其中，每个所述局部图像块为所述原始图像中相应的局部区域；对所述原始图像进行分辨率调整，得到目标图像，其中，所述目标图像的分辨率与每个所述局部图像块的分辨率一致；对多个所述局部图像块、所述目标图像以及所述需求表述进行处理，得到所述需求表述对应的答案表述。如此采用对原始图像进行切块的手段可以扩大处理高分辨率图像的能力，可以实现对高分辨率图像进行很好的处理。
一种关注长短期时间关系的视频行人重识别方法  一种关注长短期时间关系的视频行人重识别方法 
 本发明公开了一种关注长短期时间关系的视频行人重识别方法，特点是首先将训练数据送入Transformer网络，利用Transformer网络强大的建模能力，获得了视频帧中更具有辨别性的特征，再通过挖掘视频帧中的时间关系和空间线索，挖掘视频中的时空信息，再通过梯度反向传播算法更新待训练的视频行人重识别模型最终得到训练后的视频行人重识别模型，最后获取与查询特征的余弦距离最近的检索特征，并将与该检索特征对应的检索数据作为查询数据的识别结果；优点是通过充分挖掘视频帧中的时间关系和空间线索，能够更好挖掘视频中的时空信息，提高行人重识别的鲁棒性和准确性。
一种基于ID-YOLOv8的老、幼、孕、残检测方法  一种基于ID-YOLOv8的老、幼、孕、残检测方法 
 本发明公开了一种基于ID‑YOLOv8的老、幼、孕、残检测方法，主要针对解决现有人体检测技术无法有效识别和分类老年人、儿童、孕妇和残疾人士的难题。该方法通过改进YOLOv8模型，添加一个专门的“老、幼、孕、残检测头”，专用于识别和分类这四类人群，同时，模型引入了卷积与注意力融合模块，通过捕捉长距离依赖关系和局部光谱相关性，从而提升全局和局部特征的建模能力，有效提高了目标检测分类的精度和鲁棒性。该改进后的模型被命名为ID‑YOLOv8，特别优化了对老年人、儿童、孕妇和残疾人士的感知能力，使其能够在复杂环境中实现稳定且准确的检测，广泛适用于智能安防、智能交通管理、医疗影像分析等应用场景。
一种风电叶片用拉挤板材表面缺陷的检测方法及系统  一种风电叶片用拉挤板材表面缺陷的检测方法及系统 
 本发明提供一种风电叶片用拉挤板材表面缺陷的检测方法及系统，涉及图像处理技术领域，方法包括:获取拉挤板材表面在反射场和背光场下的交叉频闪图像；拆分图像获得反射场和背光场图像；基于反射场图像构建反射场数据集，基于背光场图像构建背光场数据集；构建在反射场和背光场下的视觉检测模型；使用反射场数据集训练反射场下的模型，使用背光场数据集训练背光场下的模型；获取待检测拉挤板材表面在反射场和背光场下的交叉频闪图像；拆分图像获得待检测反射场和背光场图像；将待检测反射场图像输入反射场下的模型，得到反射场检测结果，将待检测背光场图像输入背光场下的模型，得到背光场检测结果；根据反射场和背光场检测结果得到最终检测结果。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工