本技术涉及多模态信息检索技术领域,具体公开了基于掩码指导信息融合的新闻场景多层级图文检索方法。本发明引入了基于掩码的交叉注意力模块,通过优化掩码语言模型损失指导图像和文本两个模态的信息更好地融合;通过选择相关程度最高的文本和图像特征,在两个模态之间进行更细粒度并且高效地对齐;充分考虑了新闻数据的数据特性,即新闻文章中图片和所有文本段的弱对齐关系,进而借鉴对比学习的思想,通过拟合数据的真实分布和模型输出分布来更新参数,更好地学习新闻图文之间的层级关联关系。
背景技术
随着互联网与移动设备的不断发展和普及,网络已经成为大众获取新闻的主要途径之一。这些新闻以多种多样的模态形式被呈现出来,包括文字、图像、视频等,它们之间互为补充,共同服务于同一个主题。多模态的数据可以将新闻事件更加直观地传达给读者,但也为当今的检索技术提出了新的挑战,例如以文搜图,以图搜文等跨模态的搜索操作。
得益于Transformer(变压器)模型和显卡算力的快速发展,近年来的多模态图文检索领域取得了巨大进步。然而,现有的大部分方法未考虑新闻文章内图片和文本的层次关联关系,一篇文章内包含多个图片和文本段落,如果只考虑图片和图片标题的对应,会忽略图片和其它文本段语义的弱对齐关系,如果考虑图片和文本段的所有对应,会引入过多无关噪声。此外,现有的方法大多直接对从两个不同模态的数据提取到的全局特征进行对齐操作,忽略了图文特征在不同模态的分布差异以及更细粒度地对齐需求。
有鉴于此,特提出本发明。
实现思路