基于掩码指导信息融合的新闻场景多层级图文检索方法
2025-02-28 10:14
No.1344976079282249728
技术概要
PDF全文
本技术涉及多模态信息检索技术领域,具体公开了基于掩码指导信息融合的新闻场景多层级图文检索方法。本发明引入了基于掩码的交叉注意力模块,通过优化掩码语言模型损失指导图像和文本两个模态的信息更好地融合;通过选择相关程度最高的文本和图像特征,在两个模态之间进行更细粒度并且高效地对齐;充分考虑了新闻数据的数据特性,即新闻文章中图片和所有文本段的弱对齐关系,进而借鉴对比学习的思想,通过拟合数据的真实分布和模型输出分布来更新参数,更好地学习新闻图文之间的层级关联关系。
背景技术
随着互联网与移动设备的不断发展和普及,网络已经成为大众获取新闻的主要途径之一。这些新闻以多种多样的模态形式被呈现出来,包括文字、图像、视频等,它们之间互为补充,共同服务于同一个主题。多模态的数据可以将新闻事件更加直观地传达给读者,但也为当今的检索技术提出了新的挑战,例如以文搜图,以图搜文等跨模态的搜索操作。 得益于Transformer(变压器)模型和显卡算力的快速发展,近年来的多模态图文检索领域取得了巨大进步。然而,现有的大部分方法未考虑新闻文章内图片和文本的层次关联关系,一篇文章内包含多个图片和文本段落,如果只考虑图片和图片标题的对应,会忽略图片和其它文本段语义的弱对齐关系,如果考虑图片和文本段的所有对应,会引入过多无关噪声。此外,现有的方法大多直接对从两个不同模态的数据提取到的全局特征进行对齐操作,忽略了图文特征在不同模态的分布差异以及更细粒度地对齐需求。 有鉴于此,特提出本发明。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
白延庭  于欣  许立波
技术所属: 浙江大学
相关技术
一种服务开发方法、装置、设备及存储介质 一种服务开发方法、装置、设备及存储介质
一种高精度双层优化方法的神经网络搜索架构构建方法 一种高精度双层优化方法的神经网络搜索架构构建方法
跨总线域的设备对宿主机空间DMA访问方法及相关设备 跨总线域的设备对宿主机空间DMA访问方法及相关设备
一种客户信息定期维护方法及系统 一种客户信息定期维护方法及系统
代码发布方法、装置、计算机设备和可读存储介质 代码发布方法、装置、计算机设备和可读存储介质
一种基于统一管理平台的子应用数据获取方法及装置 一种基于统一管理平台的子应用数据获取方法及装置
利用深度学习的BIM模型错误自动检测系统 利用深度学习的BIM模型错误自动检测系统
一种基于智能反射面的室内T型走廊场景路径损耗的分析方法 一种基于智能反射面的室内T型走廊场景路径损耗的分析方法
模型评估任务处理方法及装置 模型评估任务处理方法及装置
基于大数据的异常信号智能识别方法 基于大数据的异常信号智能识别方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利