轻量化视觉语义理解技术及其设备

123技术园

首页 / 技术内容

轻量化视觉语义理解技术及其设备

2025-02-10 18:14

No.1338573791122694144

技术概要

PDF全文

本技术涉及视觉语义理解领域，介绍了一种轻量化语义理解技术及其设备。该技术通过特征金字塔网络实现自顶向下的特征融合，旨在保护关键部位信息的同时，提升模型的效率和准确性。

背景技术

视觉语义理解是指将图像每个像素分配到对应的类别中，分割若干具有语义意义的区域，实现对图像的语义理解和分析。随着航空装备不断丰富和其应用场景的不断拓展，图像语义分割在军用和民用航空的应用价值和前景愈发明显，尤其是对目标关键部位的语义理解有更加迫切的需求。目标关键部位的语义理解可以实现更准确、更高效的目标识别和跟踪，锁定关键信息，帮助自动化系统高效地理解和分析图像数据，提高飞行器安全和效率。可见，目标关键部位的语义理解能够有力推动航空科学技术迈向智能化，同时拥有广泛和重要的应用前景。目标关键部位语义理解是一种特殊的语义分割算法。它侧重于目标组件信息，它将一个目标分割成几个语义部分，以期为特定任务提供更精细的信息，比如自主机器人维修汽车引擎，它首先需要将车进一步分割为轮胎、引擎盖、车门等等。当前，多类别的对象级别语义分割得到了广泛的研究，但对象组件级别语义分割并未充分探讨，且现有工作主要针对一些具有精确定位的特定类别，如人和汽车。当前方法可以粗略地分为两类。第一类通常侧重于探索对象部分的内在关系和结构信息。例如，Liang等人提出了一种自监督方式损失函数来维持解析结构。Wang等人建立了一个分层树结构，根据基本边界标志的空间关系将它们构成组件。一些其他研究也借助于附加的结构信息，例如，人的姿势和3d信息。第二类侧重于提高图像或特征图中的解析分辨率。例如，Chieh等人提出了一种注意力模型来融合不同图像缩放比例的解析结果。Xia等人提出了一个两级网络来融合全局特征与检测到的局部特征。尽管以上模型是有效的，但是它们只适用于单种类情况。随着多种类语义组件标注的日益增多，Hariharan等人提出一种顺序地执行对象和组件分割，其中首先分割对象掩模，然后将部分标签分配给掩模内的像素。但预测的语义对象掩码误差可以传播到组件，最终组件分割效果一般。后来，Adobe公司利用两路全卷积神经网络实现多种类下同时预测目标类别和分割目标组件，虽然组件分割精度有所提升，但对于种类间存在外观和纹理相似的场景下，目标组件类别准确度不高。近期，Zhao等人提出一种带有边界感知和语义感知的联合解析结构，利用边界感知模块处理组件级别的歧义，利用语义感知模块解决类别歧义问题。虽然这个方法进一步提升了算法的精度，但遗憾的是此方法仍存在(将狗头部识别为马头部的)组件级别语义歧义问题，同时该算法并未针对多角度下采集数据特点做相应优化。此外，传统的语义分割模型通常具有大量的参数和计算量，导致模型在移动设备或嵌入式设备上难以部署，同时推理速度慢，无法满足实时性的要求。随着人工智能技术的快速发展，越来越多的移动设备和嵌入式设备开始集成人工智能功能，例如手机、平板电脑、无人机、微型航天器等。这些设备的计算资源有限，无法支持传统语义分割模型的运行，因此，轻量化图像语义分割技术成为当前研究的热点之一。近年来，研究人员提出了多种轻量化图像语义分割技术，取得了显著的成果。例如，DeepLabV3+通过移除模型中冗余的参数或神经元，从而减少模型参数量和计算量，但这可能会导致模型在语义分割任务上的性能有所下降，尤其是在细节和边缘的分割上。XNOR-Net 和 BinaryConnect 等模型都采用了权重量化技术，将模型的权重从高精度浮点数转换为低精度整数，从而减少模型参数量和存储空间，但这会降低网络的表示能力，可能导致模型在复杂任务上的性能下降。MobileNet、ShuffleNet 等采用了网络结构搜索技术，自动搜索更轻量级的网络结构，但这可能会限制网络对复杂特征的学习能力，在模型泛化能力方面有所欠缺。以上语义分割方法的提出都极大程度上推动了语义理解模型轻量化的研究进展，但在处理复杂场景时，仍存在一些不足之处，因此，针对不同的数据集和应用场景，需要有针对性地进行定制化设计，以满足特定地任务需求。在多视角环境下，采集的数据会出现诸如形状、旋转、光照以及尺度变化等情况，这将对多种类目标组件语义分割提出更高要求，致使现有方法还不能很好地解决目标关键部位的语义理解问题，主要难点在于：第一，多种类关键部位带来的类间语义歧义问题。早期研究主要针对特定单种类目标(比如人体)的关键部位分割，虽然近几年研究开始涉及多种类关键部位分割问题，但由于不同种类相同部位存在轮廓、纹理或颜色的相似性，这导致类别歧义成为一个比较棘手的问题，尤其是存在相似目标和遮挡的场景更为明显，也是导致语义理解方法鲁棒性不好的重要因素。第二，多视角数据带来的图像特征属性变化问题；比如尺度、旋转、光照变化和遮挡，甚至是多种特征变换的组合场景，致使图像特征属性变化，对现有基于常规视角数据集训练的语义分割算法的适用性和鲁棒性提出了挑战。由此可见，现有的目标关键部位的语义理解技术，由于存在多种类关键部位带来的类间语义歧义问题，导致输出结果稳定性较差，影响了语义理解的适用性和鲁棒性。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

朱战霞徐智付馨雨李倩龙

技术所属：西北工业大学

相关技术

一种面向实时感知数据的去中心化预言机服务系统及方法  一种面向实时感知数据的去中心化预言机服务系统及方法 
 本申请的实施例涉及一种面向实时感知数据的去中心化预言机服务方法、电子设备和可读存储介质，通过获取传感器感知数据；判断预构建的预言机服务系统模型中各节点的网络状态请求是否超时，若网络状态请求超时，则基于共识协议中的网络状态发现算法更新各服务节点的网络状态，和/或基于共识协议中的可靠视图更改算法更新领导节点，得到网络状态达成共识的各节点；基于复合真值发现算法处理各节点中的传感器感知数据得到预言机真值推理数据，以实现对物联网传感器流式数据的实时、准确的真值推断，本发明还设计了DPS‑BFT共识协议，允许服务节点在部分同步拜占庭网络中自由加入或离开，而不影响网络的整体性能。
一种基于音频和图像融合的三维模型生成方法及设备  一种基于音频和图像融合的三维模型生成方法及设备 
 本发明涉及计算机视觉技术领域，公开了一种基于音频和图像融合的三维模型生成方法及设备，方法包括获取音频数据；对所述音频数据进行特征提取，得到音频特征向量；将所述音频特征向量通过训练好的对抗扩散生成模型映射为若干张第一二维图像；初始化一个三维模型，并利用所述音频特征向量从若干个随机角度渲染所述三维模型，生成若干个视角的第二二维图像；根据所述音频特征向量、所述第一二维图像和所述第二二维图像，对所述三维模型进行迭代优化，生成最终的三维模型。本发明能够学习音频和图像之间的复杂映射关系，保证了三维模型从多个视角学习三维场景的特性，不需要大规模三维标注数据集，实现了高质量和多样性兼具的三维模型生成。
中文艺术海报生成方法、装置、计算机设备及存储介质  中文艺术海报生成方法、装置、计算机设备及存储介质 
 本发明公开了一种中文艺术海报生成方法、装置、计算机设备及存储介质，方法包括:基于背景图像和中文宣传文本，生成中文宣传文本在背景图像中的中文布局信息；基于中文布局信息对背景图像进行图像定位和分割，得到中文宣传文本所在区域的局部图像，并基于中文宣传文本和局部图像，采用目标预测模型进行文本风格预测，得到文本风格信息；基于文本风格信息对中文宣传文本进行风格和图形转换处理，生成目标中文图形；基于中文布局信息，将目标中文图形融合至背景图像得到中文艺术海报。本实施例中，可以提高中文艺术海报中字体准确性和风格多样化，能够有效提高中文艺术海报的视觉效果，在提高了中文艺术海报的生成效率的同时还兼顾了其生成质量。
一种马路黑烟车辆识别方法和系统  一种马路黑烟车辆识别方法和系统 
 本发明适用于黑烟车辆识别技术领域，提供了一种马路黑烟车辆识别方法和系统。本发明通过选择多个公共辅助车辆；进行定位和启停识别，选择目标辅助车辆；接收监测拍摄片段，提取代表检测图像；进行灰度化处理，获取灰度统计数据；计算可疑范围占比，在可疑范围占比大于预设的标准范围占比时，进行车辆识别，获取黑烟车辆信息。能够从多个公共辅助车辆中，选择目标辅助车辆，接收监测拍摄片段，提取代表检测图像，进行灰度化处理与分析，计算可疑范围占比，并在可疑范围占比大于预设的标准范围占比时，识别黑烟车辆信息，无需在马路的监控杆或龙门架上安装监测设备，有效提高了黑烟车辆的监测识别范围，且极大的降低了马路黑烟车辆识别的成本。
一种基于多模态时空数据建模的多层网络状态预测方法  一种基于多模态时空数据建模的多层网络状态预测方法 
 本发明涉及一种基于多模态时空数据建模的多层网络状态预测方法，包括以下步骤:获取多层动态网络中能够反映各节点交互的时空多模态数据；基于时空多模态数据，通过伯努利分布和泊松分布将节点的连通性和属性信息与网络群组相关联，建立具有共享群组的多层时空Hawkes过程，以捕获每层节点之间从历史事件到后续事件的相互作用，构建多模态时空模型；利用具有局部收敛性的分层期望‑极大值算法进行多模态时空模型的参数求解，得到网络状态预测结果。与现有技术相比，本发明具有建模精准、预测准确等优点。
动画视频帧智能选择对话生成系统  动画视频帧智能选择对话生成系统 
 本发明公开了动画视频帧智能选择对话生成系统，具体涉及计算机视觉技术领域，将角色库中的动画视频转换为视频帧序列，使用计算机视觉技术检测每一帧中出现的角色，并进行跟踪，对于检测到的角色，提取其外观特征，将提取的角色的外观特征和角色库中获取的角色外观特征进行匹配，确定检测到的角色的身份，建立一个角色音色库，包括音频数据和已标注的音色，从音频数据中提取音频特征并进行音色识别，将识别出的音色与预先标注的角色音色进行匹配，根据音色识别结果，将每个角色的对话内容抽取出来，并将对话内容转换成文本形式，对抽取出的对话内容进行主题相似度判断，根据判断结果，将具有相似主题的对话内容进行修改，以生成新的对话内容。
支持多协议转换的统一会话管理方法及相关设备  支持多协议转换的统一会话管理方法及相关设备 
 本发明提供一种支持多协议转换的统一会话管理方法及相关设备。该方法通过维护原‑目标协议会话映射表和目标协议包头信息存储来对会话进行管理；其中，所述原‑目标协议会话映射表包括N个条目，每个条目包括原协议会话标识和目标协议会话序号；其中，所述目标协议会话序号用于指示目标协议包头信息存储的地址。本发明可有效降低不同协议会话管理和参数更新的难度，提高硬件的利用率。
一种基于融合检测的底稿图像识别系统及方法  一种基于融合检测的底稿图像识别系统及方法 
 本发明公开了一种基于融合检测的底稿图像识别系统及方法，属于光学字符识别技术领域，其方法具体包括:获取底稿图像，并对获取的底稿图像进行预处理，对预处理后的底稿图像进行角度识别，并进行旋转校正处理，对旋转校正后的底稿图像中的文本位置进行识别，根本识别出的底稿图像中的文本位置，对底稿图像中文本内容进行识别，通过融合多种检测方法，可以综合各自的优点，减少单一方法的缺陷，提高底稿图像的识别精度，该方法适用于各种复杂的底稿图像识别场景，包括但不限于金融领域的底稿图像等。
一种CT系统中心投影参数自动化计算与调整方法 一种CT系统中心投影参数自动化计算与调整方法
本发明一种CT系统中心投影参数自动化计算与调整方法，涉及工业CT技术领域。通过调整CT发光基点的光锥照射至探测器感应板内；开启CT发光基点，通过调整第一定位平台的Z、X的位移，调整第三定位平台X、Y的位移，将检测板的投影调整在探测器感应板内显示；记录检测球投影到探测器感应板的点位；偏移探测器感应板对多次偏移探测器感应板上的四点数据进行记录与结合，计算出四条直线，利用四条直线计算CT发光基点的中心坐标；将CT发光基点的中心调整到与探测器感应板的中心点在同一轴线上。达到降低了对用于矫正的四点模型精确计算的繁琐操作，只要采用简易的、精度要求较低的四点模型，只通过手动加工就可满足要求。
一种基于拓扑重建的义齿牙冠曲面生成方法 一种基于拓扑重建的义齿牙冠曲面生成方法
本申请涉及图像数据处理技术领域，尤其涉及一种基于拓扑重建的义齿牙冠曲面生成方法。方法包括:获取目标用户的牙齿在目标缺牙处的点云数据，并对点云数据进行三角剖分处理获得初始三角网格模型；确定初始三角网格模型中的三角形所形成的顶点的第一评价值；根据初始三角网格模型中共边的三角形对的顶点的第一评价值，确定三角形对的顶点的权重；根据三角形对所包括的四个顶点的权重，对初始三角网格模型中的三角形对进行曲面细分处理，获得目标三角网格模型；在目标三角网格模型的目标参数值满足预设条件的情况下，根据目标三角网格模型生成义齿牙冠。通过以上技术方案能够提高所生成的义齿牙冠的使用寿命。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工