对比学习驱动的图像与文本编码器协同训练技术及其在医学图像分析中的应用

123技术园

首页 / 技术内容

2025-02-10 14:37

No.1338519328794091520

技术概要

PDF全文

本技术涉及一种结合对比学习的图像编码器与文本编码器的联合训练技术，旨在提升医学图像理解的准确性。该技术包括对3D多模态脑部图像的处理，通过编码器联合训练，实现图像查询和健康状态评估，为医疗领域提供创新的解决方案。

背景技术

近年来，人工智能技术的飞速发展为各行各业带来了革命性的变革，尤其在计算机视觉与自然语言处理领域，深度学习技术的崛起更是引领了技术创新的潮流。在医学领域，这一技术被广泛应用于医学图像分析、辅助诊断以及影像报告自动生成等方面，显著提升了医疗服务的效率与精准度。然而，目前大多数基于深度学习的医学图像处理需要有大量的人工标注作为标签，来对神经网络进行训练。对于医学图像特别是3D图像和多模态图像，数据量稀少较为稀少，且标注需要专业医生手工制作。在医学图像处理的特定领域中，脑MRI(Magnetic Resonance Imaging，核磁共振)图像作为关键的诊断依据，其处理与分析的复杂性尤为突出。由于脑MRI图像通常包含多种模态(如T1(T1-weighted imaging，T1加权成像)、T2(T2-weighted imaging，T2加权成像)、ADC(Apparent Diffusion Coefficient，表观扩散系数)、DWI(Diffusion-weightedImaging，扩散加权成像)等)，每种模态都提供了独特的解剖与病理信息，因此，如何有效融合这些多模态信息，同时保留3D图像的空间完整性，成为当前技术挑战之一。现有的对比学习技术大多聚焦于2D图像处理，当将3D图像简单切分为2D切片序列进行处理时，不可避免地会损失重要的空间结构信息，进而影响诊断的准确性。此外，医学报告的自然语言处理也面临独特挑战。中文医学报告因其高度的相似性、单一化的语义内容以及专业术语的复杂性，使得传统自然语言处理技术难以直接应用并达到理想效果。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

柴超刘之洋杨东张明浩沈文夏爽王慧颖

技术所属：南开大学天津市第一中心医院

相关技术

新场景下目标检测性能自适应度量方法  新场景下目标检测性能自适应度量方法 
 本发明公开了一种新场景下目标检测性能自适应度量方法。该方法包括:融合光照、色偏和散度估计度量背景差异(S1)，其中，计算训练场景和应用场景的背景差异指标的统计量(S1‑1)；在此基础上，将训练场景作为正常场景，对应用场景进行分类，分为正常、高动态、强光、低照度、色偏以及低能见度场景，作为场景间背景差异的度量(S1‑3)。综合标签偏移和特征偏移度量目标差异(S2)；其中，通过KS检验计算标签偏移结果(S2‑1)；使用训练场景和应用场景中图像检测结果的目标特征熵计算特征偏移结果(S2‑2)；作为目标差异的度量结果。与现有方法不同，本发明方法不仅能够判断场景间是否存在域差异，还能细粒度地分析场景的域差异的类型。可以提升目标检测算法在新场景下的性能。
基于自协作并行生成对抗网络的无监督真实图像去噪方法  基于自协作并行生成对抗网络的无监督真实图像去噪方法 
 本发明公开了一种基于自协作并行生成对抗网络的无监督真实图像去噪方法。主要包括以下步骤:利用噪声的可叠加性，构造基于初始降噪器的噪声提取模块，用于对真实图像的噪声成分进行提取；采用并行生成对抗分支框架，分支1先通过非配对合成的方式合成伪真实噪声图像再通过自合成的方式合成噪声图像，即“非配对合成—自合成”；分支2先通过自合成的方式合成噪声图像再通过非配对合成的方式合成伪真实噪声图像，即“自合成—非配对合成”；采用自协作策略，每次迭代后用当前更收敛的去噪器取代之前较弱的去噪器，直到去噪器完全收敛，完成网络训练并得到最终模型。本发明所述的方法能够很好地去除真实图像上的噪声，是一种有效的图像去噪方法。
基于采样差异作为扰动的自监督真实图像去噪方法  基于采样差异作为扰动的自监督真实图像去噪方法 
 本发明公开了一种基于采样差异作为扰动的自监督真实图像去噪方法。主要包括以下步骤:提出并使用随机子样本生成策略以获得更多的子样本；根据随机子样本生成策略而提出一种采样差异损失函数；将循环策略引入损失函数的构建，提出循环采样差异损失函数；通过上述步骤对去噪网络进行训练，以得到去噪模型，然后将带有噪声的图像作为输入，通过训练好的网络模型，得到高质量的去噪图像。本发明所述方法可以不需要干净图像进行训练并且优于现有的伪监督/自监督方法，是一种有效的自监督真实图像去噪方法。
基于单幅RGB图像的高光谱重建方法  基于单幅RGB图像的高光谱重建方法 
 本发明提供了一种基于单幅RGB图像的高光谱重建方法，具有这样的特征，高光谱重建模型包括:锥形多尺度特征提取模块，用于对单幅RGB图像经由切片分区处理后的特征映射进行特征提取，得到浅层区域聚合特征；多个依次连接的多尺度自适应残差注意模块，用于对浅层区域聚合特征进行处理，得到深层特征；组合处理模块，用于对深层特征进行卷积和激活函数处理，得到高光谱图像，其中，多尺度自适应残差注意模块包括顺次连接的锥形多尺度特征提取模块、最优非局部模块、像素自注意力模块、LayerNorm模块和多层感知机模块。总之，本方法能够提高重建的高光谱图像的精度。
预训练模型的高效微调方法、装置、服务器及存储介质  预训练模型的高效微调方法、装置、服务器及存储介质 
 本申请公开了一种预训练模型的高效微调方法、装置、服务器及存储介质，该方法包括:获取第一文本特征和图像提示特征，第一文本特征是根据预设的实体类别文本信息和可学习文本提示信息进行编码生成的，图像提示特征是对第一输入图像对应的实体类别图像分块和预设的可学习视觉提示参数进行编码所生成的；对图像提示特征进行掩码处理，生成第一掩码图像特征，并利用预设的多模态掩码重建网络处理第一掩码图像特征和第一文本特征，生成重构图像；计算第一输入图像与重构图像的损失值，并根据损失值对预训练模型的参数进行微调。通过本申请，解决相关技术中基于提示的预训练视觉语言模型的参数微调方法，准确率低且在下游任务中的迁移能力弱的问题。
一种眼象图质量控制方法、装置、存储介质和设备  一种眼象图质量控制方法、装置、存储介质和设备 
 本发明提供一种眼象图质量控制方法、装置、存储介质和设备，属于图像识别术领域，方案在获取到眼象图后，先对眼象图进行分类，得到眼象图对应的视角类别，获取与所识别到的视角类别相匹配的眼象图判断条件，然后再对眼象图进行处理，得到眼象图的黑白睛语义分割掩码图，再识别得到黑白睛语义分割掩码图中的黑睛区域的区域信息以及白睛区域的区域信息，最后再基于眼象图判断条件对黑睛区域的区域信息以及白睛区域的区域信息进行分析，基于分析结果判断眼象图是否合格，从而对眼象图是否合格的判断标准进行统一，以便于后续对眼象图进行分析，并且判断过程快速，效率高，人工参与率低，解决了眼象图质量参差不齐的情况。
图像处理方法及装置  图像处理方法及装置 
 本申请涉及一种图像处理方法及装置，所述方法包括:获取原始图像以及针对所述原始图像的需求表述；对所述原始图像进行切块处理，得到多个局部图像块，其中，每个所述局部图像块为所述原始图像中相应的局部区域；对所述原始图像进行分辨率调整，得到目标图像，其中，所述目标图像的分辨率与每个所述局部图像块的分辨率一致；对多个所述局部图像块、所述目标图像以及所述需求表述进行处理，得到所述需求表述对应的答案表述。如此采用对原始图像进行切块的手段可以扩大处理高分辨率图像的能力，可以实现对高分辨率图像进行很好的处理。
一种关注长短期时间关系的视频行人重识别方法  一种关注长短期时间关系的视频行人重识别方法 
 本发明公开了一种关注长短期时间关系的视频行人重识别方法，特点是首先将训练数据送入Transformer网络，利用Transformer网络强大的建模能力，获得了视频帧中更具有辨别性的特征，再通过挖掘视频帧中的时间关系和空间线索，挖掘视频中的时空信息，再通过梯度反向传播算法更新待训练的视频行人重识别模型最终得到训练后的视频行人重识别模型，最后获取与查询特征的余弦距离最近的检索特征，并将与该检索特征对应的检索数据作为查询数据的识别结果；优点是通过充分挖掘视频帧中的时间关系和空间线索，能够更好挖掘视频中的时空信息，提高行人重识别的鲁棒性和准确性。
一种基于ID-YOLOv8的老、幼、孕、残检测方法  一种基于ID-YOLOv8的老、幼、孕、残检测方法 
 本发明公开了一种基于ID‑YOLOv8的老、幼、孕、残检测方法，主要针对解决现有人体检测技术无法有效识别和分类老年人、儿童、孕妇和残疾人士的难题。该方法通过改进YOLOv8模型，添加一个专门的“老、幼、孕、残检测头”，专用于识别和分类这四类人群，同时，模型引入了卷积与注意力融合模块，通过捕捉长距离依赖关系和局部光谱相关性，从而提升全局和局部特征的建模能力，有效提高了目标检测分类的精度和鲁棒性。该改进后的模型被命名为ID‑YOLOv8，特别优化了对老年人、儿童、孕妇和残疾人士的感知能力，使其能够在复杂环境中实现稳定且准确的检测，广泛适用于智能安防、智能交通管理、医疗影像分析等应用场景。
一种风电叶片用拉挤板材表面缺陷的检测方法及系统  一种风电叶片用拉挤板材表面缺陷的检测方法及系统 
 本发明提供一种风电叶片用拉挤板材表面缺陷的检测方法及系统，涉及图像处理技术领域，方法包括:获取拉挤板材表面在反射场和背光场下的交叉频闪图像；拆分图像获得反射场和背光场图像；基于反射场图像构建反射场数据集，基于背光场图像构建背光场数据集；构建在反射场和背光场下的视觉检测模型；使用反射场数据集训练反射场下的模型，使用背光场数据集训练背光场下的模型；获取待检测拉挤板材表面在反射场和背光场下的交叉频闪图像；拆分图像获得待检测反射场和背光场图像；将待检测反射场图像输入反射场下的模型，得到反射场检测结果，将待检测背光场图像输入背光场下的模型，得到背光场检测结果；根据反射场和背光场检测结果得到最终检测结果。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工