一种基于模态多样性的短视频自动标注方法

123技术园

首页 / 技术内容

一种基于模态多样性的短视频自动标注方法

2025-02-23 09:35

No.1343154314713243648

技术概要

PDF全文

本技术提供一种基于模态多样性的短视频自动标注方法，属于自动标注领域，包括:获取三种模态以描述短视频的整体表示；将三种模态两两组合形成三种模态组，分别将各模态组合输入多头注意力机制中，以得到增强的视觉特征f

背景技术

近年来，随着多媒体技术的迅猛进步，短视频成为备受欢迎的传播形式，吸引了庞大的用户群体。然而，如何为用户提供更加精准的个性化服务，已成为短视频行业面临的一大挑战。目前，在短视频领域的研究方向主要为个性化推荐、流行度预测以及记忆度建模等。短视频的自动标注功能对于高效利用视频资源、方便检索、分类和管理具有重要意义。而由于短视频包含了多模态信息，这为多标签分类带来了挑战。其关键在于如何有效地整合这些多模态信息，以形成准确的多模态表示。过去的方法在追求多模态一致表示时，往往忽视了模态多样性的考量，这可能导致模态偏差的产生。模态偏差不仅会使表征偏离视频内容，还可能阻碍信息的融合。因此，如何克服这些问题，完成准确率更高的自动标注，成为当前研究的重点。为了获得更加准确的多模态表示，研究者们从联合表征学习和协调表征学习两个角度进行了研究。联合表征学习致力于将不同模态的信息投影到共享的空间中，然后整合模态信息；协调表征学习则侧重于在保持各个模态表征独立性的同时，探索它们之间的潜在关系。这些研究为探索多标签分类的一致性和互补性提供了许多的有效方案。在多标签分类中，类别相关性是一个主要的问题。早期的方法如二元关联、校准标签排名等，探究了两标签的关联关系。然而，这些浅层网络很难对复杂的标签关系进行建模。近年来，越来越多的基于图网络的多标签分类方法得到了发展。然而，在多模态场景下，多标签分类面临着更复杂的挑战——建模模态和多标签的潜在关系。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

苏育挺井佩光

技术所属：泉州桐兴科技有限公司.

相关技术

人脸识别装置 人脸识别装置
本发明属于人脸识别技术领域，并具体公开了一种人脸识别装置，包括摄像头和遮光件，遮光件包括入光部和遮光部，入光部设置于摄像头的入光侧，入光部上设置有入光孔，入光孔与摄像头的镜头正对，入光孔的入光范围小于镜头的拍摄范围，遮光部沿入光部的外周向设置，遮光部的遮光范围大于镜头的拍摄范围。通过设置遮光件，摄像头的拍摄范围由原来的镜头的拍摄范围缩小为入光部的入光孔的入光范围，入光孔的入光范围外的光线被遮光部遮挡以避免该部分光线入射镜头，减少脸部范围外的光线对曝光时长的影响，增加对脸部的特征信息的采集，提高人脸识别效率及识别准确度。
玉米果穗表型分析方法、装置及设备 玉米果穗表型分析方法、装置及设备
本申请提供一种玉米果穗表型分析方法、装置及设备，其中，方法能够对玉米果穗的原始图像进行深度处理得到玉米果穗的深度图，通过金字塔式融合策略，在不同尺度的深度图像中利用局部特征动态调整分割阈值，对金字塔各层得到的玉米果穗掩码图像进行融合，得到对应的果穗掩码图像；对果穗掩码图像进行基于纹理信息和深度信息的区域扩散处理，划分出各个单果穗掩码；通过对玉米果穗原始图像进行单果穗掩膜遍历，提取出单果穗图像；利用颜色信息区分算法将单果穗图像划分为秃尖区域和籽粒区域，从而得到秃尖区域掩码、籽粒区域掩码；根据秃尖区域掩码、籽粒区域掩码以及果穗掩码，确定玉米果穗的各种表型参数，计算果穗均匀度和/或籽粒紧实度。
焊缝关键点识别方法、装置、设备、介质及程序产品  焊缝关键点识别方法、装置、设备、介质及程序产品 
 本发明公开了一种焊缝关键点识别方法、装置、设备、介质及程序产品，该方法包括:基于训练图像数据和标注数据生成数据集，构建原始识别模型，对原始识别模型进行改进，基于数据集对改进后的原始识别模型进行训练和优化，获得目标识别模型；通过焊接机器人上的图像采集设备采集焊接件的深度图像和RGB图像；将RGB图像输入至目标识别模型进行焊缝关键点识别，基于识别结果和深度图像确定焊接件的焊缝关键点坐标，实现对焊缝关键点的精准识别，从而引导焊接机器人准确到达焊缝关键点坐标位置进行焊接，提升了关键点识别自主性和适应性，有效地适配不同需求的焊接任务，确保焊接质量的同时，大幅提升了焊接效率，降低时间成本。
基于三维点云数据的辅助加工质量评估方法、介质及设备  基于三维点云数据的辅助加工质量评估方法、介质及设备 
 本申请提供了基于三维点云数据的辅助加工质量评估方法、介质及设备，涉及加工件质量检测技术领域。该方法首先获取待检测加工件对应的三维点云，并将其与待检测加工件对应的极限模型进行对比，确定超差区域，用于重点检测以确定待检测加工件是否合格。在待检测加工件合格的情况下，利用OBB方向包围法确定待检测加工件的目标表面对应的目标坐标系，并结合目标表面的至少两个目标评价指标，建立目标点云对应的多维特征张量，以通过多维的数据结构对目标点云的质量特性进行表示。最后将目标点云对应的多维特征张量输入预置的质量评估模型中，预测得到目标表面的质量等级，从而辅助实现对工件加工表面质量的全面、准确评估。
跨令牌引导Transformer的弱监督定位方法  跨令牌引导Transformer的弱监督定位方法 
 本发明公开了跨令牌引导Transformer的弱监督定位方法，包括如下步骤:采集图像并对图像进行预处理；构建由依次连接的多个基础Transformer块和多个位置Transformer块组成的Transformer编码器，将预处理后的图像依次经过基础Transformer块和位置Transformer块进行处理；将每个位置Transformer块的中间量取出并平均，得到平均后的中间量；构建滤波调节模块FRM，将平均后的中间量输入到滤波调节模块进行优化，得到最终定位图；本发明通过编码器有效缓解了目标区域周围的上下文偏差问题，通过滤波调节模块进一步提高了定位图的清晰度和语义一致性。
一种基于Mamba的遥感图像作物分类方法  一种基于Mamba的遥感图像作物分类方法 
 本发明属于图像数据处理技术领域，尤其为一种基于Mamba的遥感图像作物分类方法。该方法包括输入层、预处理模块、ENVI嵌入模块、3D卷积层、EMA通道注意力模块、Mamba Block模块、Uper Net解码器和输出层，Mamba Block通过独特的结构设计实现了高效的特征提取和信息融合，NDVI嵌入模块通过独特的算法设计将NDVI信息融入图像，提高了模型的分类精度和计算效率。本发明不仅提高了作物分类的精度，还优化了模型的计算效率，适合大规模遥感图像处理任务，具有重要的应用价值。
基于局部密度参数调整与强度优化的点云平滑拟合方法  基于局部密度参数调整与强度优化的点云平滑拟合方法 
 本发明属于点云数据处理技术领域，公开了一种基于局部密度参数调整与强度优化的点云平滑拟合方法，获取原始点云数据经预处理后进行局部密度计算，进行动态调整搜索半径策略和动态扩展邻域，边界判断后对边界点边界保护机制或计算联合权重和更新平滑拟合，获得拟合重建后的点云可视化结果图。本发明有效解决了现有技术在稀疏点云平滑、噪声鲁棒性、强度特征保留和边界特征模糊等方面的不足，能够动态适应点云的稀疏性与非均匀分布，显著提升点云平滑拟合的精度与强度信息的优化能力，为前视三维声呐的地形测绘、水下目标探测和环境建模提供了更精确、高效的技术方案。
图像情感分析方法及装置、存储介质及电子设备  图像情感分析方法及装置、存储介质及电子设备 
 本发明提供一种图像情感分析方法及装置、存储介质及电子设备，属于图像分析领域，该方法包括:确定目标图像的元数据集合，包括描述文本信息和标签信息；对标签信息进行语义描述形式转换，获得标签描述信息；对目标图像、描述文本信息和标签描述信息进行统一表征，得到元数据特征和图像特征；对元数据特征和图像特征进行信息增强，得到元数据增强特征和图像增强特征；对元数据增强特征和图像增强特征进行跨模态特征融合处理，获得目标图像的融合特征；基于融合特征进行情感识别，得到目标图像的情感类别。应用本发明的方法，可利用图像的元数据特征和视觉特征对图像呈现的情感进行多维度分析，有利于提高图像情感识别的准确性。
一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统  一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统 
 本发明提出了一种基于CLIP损失与感知损失的扩散模型LoRA微调优化方法及系统，所述方法包括:步骤1，在LoRA微调过程中，结合CLIP损失和感知损失，动态调整CLIP损失和感知损失的权重；步骤2，利用CLIP模型计算去噪后的中间图像与目标文本的语义相似度，并根据相似度差异优化扩散模型的噪声预测能力；步骤3，采用感知损失计算中间图像与目标图像在特征空间的差异，并优化扩散模型的噪声预测能力，提升生成图像的视觉质量与细节保真度；步骤4，根据训练进展调整是否启用CLIP损失和感知损失。通过引入CLIP损失，模型在微调训练过程中能够更好地将图像与文本进行对齐，使得生成的图像更加符合文本提示的描述。
融合时空立方体各向异性的图结构生成方法及装置  融合时空立方体各向异性的图结构生成方法及装置 
 本发明公开了一种融合时空立方体各向异性的图结构生成方法及装置，涉及图像处理及遥感数据处理技术领域，主要目的在于解决现有遥感数据处理受空缺值影响，导致准确性较低的问题。主要包括获取待处理遥感数据，并依据待处理遥感数据提取多个子时空立方体；对时空立方体进行有效元素提取，得到节点集合；依据节点集合中的有效节点进行边构建，得到匹配所述节点集合的边集合，其中，边集合中的各个边的属性嵌入有对应有效节点的时空偏移量，时空偏移量用于表征对应有效节点之间的时空距离和各向异性；依据节点集合和匹配所述节点集合的边集合进行图结构生成，得到待处理遥感数据所对应多个子时空立方体的图结构。主要用于生成遥感数据的图结构。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工