基于开放词汇分割的图像全景分割模型的训练方法和装置

123技术园

首页 / 技术内容

2025-02-25 11:32

No.1343908633397960704

技术概要

PDF全文

本技术涉及一种基于开放词汇分割的图像全景分割模型的训练方法和装置，获取训练样本集及预设的点网格；训练样本集中包括至少一个图像、所述至少一个图像中每个图像对应的像素级的类别标签；基于预设的点网格、至少一个图像和每个图像对应的像素级的类别标签，确定预设的点网格中每个点对应的查询嵌入向量；基于至少一个图像以及每个点对应的查询嵌入向量，结合预训练好的特征提取及掩码生成模型，生成每个点对应的预测掩码区域向量；基于至少一个图像以及每个点对应的预测掩码区域向量，结合预设的余弦相似度损失函数，更新多尺度特征适配器的参数。无须耗费大量的人工注释成本，也能完成图像全景分割并提高图像分割的分割性能。

背景技术

为了克服封闭词汇分割的限制，人们提出了开放词汇分割。开放词汇分割使用自然语言表示的类别名字的文本嵌入作为标签嵌入，而不是从训练数据集中学习它们。通过这样做，模型可以对更宽泛的词汇进行分类，从而提高处理更广泛类别的能力。为了确保提供有意义的嵌入，通常使用预训练的文本编码器。这个编码器可以有效地捕捉单词和短语的语义含义，这对于开放词汇分割非常关键。多模态模型，例如(Contrastive language-image Pre-Training，CLIP)已经展现出在开放词汇分割方面的潜力，因为它们能够从大规模互联网数据中学习对齐的图像文本特征表示。目前通常依赖于图像-掩模-文本三元组进行基于开放词汇分割的图像语义分割，但这种方法需要耗费大量的人工精力对掩模和文本之间的对应关系进行标注，会导致昂贵的注释成本。尽管现有技术中已经提出了一些弱监督方法，例如通过文本监督来降低注释成本，但监督的不完整性严重限制了通用性和性能。其中，文本监督只利用图像和文本对进行语义分割，在捕获复杂的空间细节方面存在不足，这对于密集预测来说不是最佳的。此外，文本监督这种类型的监督缺乏位置信息，使得模型难以区分具有相同语义类的不同实例。这些问题严重限制了现有弱监督方法的多功能性和分割性能。因此，现有技术中在基于开放词汇分割的图像分割过程中，需要昂贵的注释成本，同时限制了图像分割的多功能性和分割性能。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

王兆卿陈紫业贺潇郭彦东

技术所属：智平方(深圳)科技有限公司智平方具身科技(深圳)有限公司.

相关技术

一种多维数据分析的智慧农村监测系统 一种多维数据分析的智慧农村监测系统
本发明涉及智慧农村监测领域，尤其涉及一种多维数据分析的智慧农村监测系统，本发明设置飞控器，其用以控制若干搭载图像采集单元的无人机以预定路径飞行，采集若干农村区域的夜间图像；特征解析器，用以接收针对不同农村区域的夜间图像，基于夜间图像进行纹路解析；图像分析器，包括聚类单元以及增强单元:聚类单元用以基于纹理特征针对夜间识别目标的纹路掩盖干扰值以及相似度确定区域内所获取夜间图像的纹理干扰表征值，以划分纹理干扰类别；增强单元响应于聚类单元的划分结果，用以对各农村区域的夜间图像适应性地进行处理，本发明能够在保证数据可靠性的前提下，更加精准地识别烟雾特征以及时报警，避免火灾的发生，同时能够节约算力资源。
基于人工智能的护工行为识别与干预系统 基于人工智能的护工行为识别与干预系统
本发明涉及人工智能领域，具体是指基于人工智能的护工行为识别与干预系统，包括集成设备、数据采集与预处理模块、行为识别与分析模块、干预与响应模块、用户界面模块和安全与隐私模块，本方案提出在行为识别与分析模块中，使用COA‑CNN‑LSTM模型对预处理后的数据进行分析，识别护工和患者的行为并进行分类，COA‑CNN‑LSTM模型结合了卷积神经网络和长短期记忆网络的特性，提高了对护工和患者行为的识别准确度；在行为识别与分析模块中，使用VGG‑ICNN模型作为基础架构，构建行为识别模型，从而提高了行为模式的特征表示能力，更好地理解和预测护工和患者的行为，提高系统的智能化程度和服务质量。
图像轮廓保留的高斯模糊方法以及相关装置 图像轮廓保留的高斯模糊方法以及相关装置
本发明涉及图像处理领域，公开了一种图像轮廓保留的高斯模糊方法以及相关装置。该方法包括:获取待处理的目标图像；根据预置转换算法，对所述目标图像进行矩阵化处理，得到图像矩阵；根据设置的模糊半径，生成卷积核；基于预置卷积核，对所述图像矩阵进行高斯混合计算处理，生成所述卷积核中每个元素的权重；根据所述卷积核中每个元素的权重，利用所述卷积核对所述图像矩阵中进行归一化处理，生成图像归一化矩阵；基于所述图像归一化矩阵，生成所述目标图像对应的高斯模糊图像。本发明解决了现有技术的图像模糊处理中细腻度不足图像的轮廓丢失严重的技术问题。
基于SwinUnet的改进3D医学图像分割方法  基于SwinUnet的改进3D医学图像分割方法 
 本发明公开一种基于SwinUnet的改进3D医学图像分割方法，基于SCConv3D和AxialAttention特征融合的改进3D医学图像分割方法，解决在医学分割领域VisionTransformer模块和卷积模块结合但提取的特征效果不佳的问题。解决下采样过程中，特征提取效果差，不适配的问题，提升在图像分割的训练速度和准确率。
全局主成分引导下的端到端锚点多视图图像聚类方法  全局主成分引导下的端到端锚点多视图图像聚类方法 
 本申请公开了一种全局主成分引导下的端到端锚点多视图图像聚类方法，具体涉及图像处理的领域。包括:获取各视图的子视图样本矩阵，并确定特征映射矩阵；获取全局锚点矩阵及锚点图矩阵；在锚点图矩阵中获取锚点模糊标签矩阵，并基于锚点模糊标签矩阵得到样本模糊标签矩阵；基于子视图样本矩阵、特征映射矩阵、全局锚点矩阵、锚点图矩阵、锚点模糊标签矩阵及样本模糊标签矩阵建立目标函数；重新确定特征映射矩阵，并重新通过特征映射矩阵将所有视图的子视图样本矩阵转换至统一潜在空间，直至目标函数收敛，输出最终的样本模糊标签矩阵。能实现目标函数的统一以便于模型优化习得全局最优解并提升聚类精度。
基于视图交互聚合的矢量地图构建方法和系统  基于视图交互聚合的矢量地图构建方法和系统 
 本发明涉及基于视图交互聚合的矢量地图构建方法和系统，获取可见光图像，分别提取可见光图像在像素级坐标系和摄像机坐标系下的特征，通过异步互学习融合模块得到融合特征；融合特征通过关键点预选取模块，得到深度实例特征和几何位置特征，并作为初始参考点；以融合特征，和基于关键点预选取模块得到的关键点查询与实例查询，作为目标检测算法的输入，得到的初始参考点作为目标检测算法额外的提示特征，得到预测的矢量地图元素标签以及所在的位置；预测的矢量地图元素标签以及所在的位置形成单帧的矢量地图，将历史帧中的丰富特征信息与当前帧中的稀疏特征进行聚合，以增强当前帧的稀疏特征，进一步通过检测头得到矢量地图。
一种基于部件的手写汉字评价方法  一种基于部件的手写汉字评价方法 
 一种基于部件的手写汉字评价方法，涉及计算机图形学。包括步骤:1）对给定的手写汉字的部分部件进行“随机移动”和“大小变化”调整；2）使用未经变化的标准布局手写汉字和步骤1）中生成的数据作为数据集，对汉字部件重建模块进行预训练；3）利用预训练的汉字部件重建模块，对手写汉字的布局特征进行提取；4）以手写汉字的布局特征为输入，结合布局评价模块进行手写汉字布局评价，得到评价结论及修改建议；5）利用布局评价的建议对手写汉字进行调整。解决现有技术在汉字评价方式、评价结果展示方面的不足，同时有效缩短传统手工设计评价模板的周期并降低成本。在书法教育、字体设计、文字识别领域等领域具备广泛的应用前景。
一种联合级联3DCNN与SDTA编码的高光谱影像矿区树种分类方法  一种联合级联3DCNN与SDTA编码的高光谱影像矿区树种分类方法 
 本发明公开了一种联合级联3DCNN与SDTA编码的高光谱影像矿区树种分类方法，包括以下步骤:构建级联3D卷积神经网络提取局部光谱特征和空间特征；通过分割深度转置注意力编码器，对通道维度特征权重进行动态更新；通过将3D卷积与分割深度转置注意力编码器结合以后，在矿区树种分类中提取和分离光谱相近的树种之间的特征；基于残差连接构建融合高级特征和低级特征的模块，并最终将特征展平输入到全连接层，使用softmax激活函数输出最终的分类概率。构建了适用于机载高光谱数据的矿区树种分类深度网络，通过级联3D卷积网络架构提升高维度特征提取能力。
隐式锚点引导下的快速多视图图像聚类方法  隐式锚点引导下的快速多视图图像聚类方法 
 本申请公开了一种隐式锚点引导下的快速多视图图像聚类算法，具体涉及图像处理的领域。包括:获取各视图的子视图样本矩阵，并随机生成样本标签矩阵；构建锚点特征矩阵和锚点指示矩阵；构造各视图的特征结构图和重构共识图；确定所有视图的特征结构图与重构共识图的损失误差，并基于损失误差建立目标函数；对目标函数中的锚点特征矩阵、锚点指示矩阵及样本标签矩阵进行更新，直至目标函数达到预设条件，输出最优的样本标签矩阵。引入锚点特征矩阵以及锚点指示矩阵构造结构图损失函数以实现样本特征向标签信息的传播，并在优化过程中隐式更新锚点信息以精简优化过程，并使求解优化加速，减少计算时间。
一种基于图像处理的船舶吃水线检测方法  一种基于图像处理的船舶吃水线检测方法 
 本发明公开了一种基于图像处理的船舶吃水线检测方法，包括S1:获取船舶吃水线检测图像，并进行预处理；S2：对预处理后的图像进行图像分割操作，并基于分割后的若干局部图像得到像素点的梯度幅值和梯度方向；S3：对分割后的若干局部图像进行非极大值抑制操作得到细化后的图像；S4：通过双阈值排除细化后的图像中的非边缘区域；S5：对排除了非边缘区域的图像进行链接操作，形成完整的边界轮廓；S6：将经过S5处理后的若干局部图像重新拼接得到吃水线优化后的图像。本发明对图像进行了分割处理，并根据梯度幅值设定双阈值，并且双阈值能够根据图像像素变化而自适应调整，避免误剔除吃水线的弱边缘的问题，保证吃水线的准确检测。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工