本申请涉及了一种面向流数据的持续哈希学习检索方法和装置,本方法构建了哈希检索模型,哈希检索模型训练过程引入持续学习框架,首先通过残差网络基于自监督学习从无标签的训练流数据中提取出第一特征,卷积神经网络能够利用第一特征快速学习有标签的样本数据,并将学习到的第二特征反馈给残差网络,以巩固残差网络;训练流数据包括实时采集的第一实时流数据和数据库中的预存流数据,这样模型能够在不断学习新的实时流数据同时避免对旧的预存流数据知识的遗忘,而且持续学习框架还与哈希函数有效连接,利用残差网络和卷积神经网络持续学习进而提取的特征指导哈希函数的学习,不断提高生成的哈希码质量,进一步提升检索性能。
背景技术
哈希检索在数据存储和检索领域应用广泛,其核心是通过特定哈希函数将数据映射为固定长度哈希码。在数据检索时,对于给定查询数据,先计算其哈希码,再依据此码查询可能包含目标数据的区域实现快速检索。
现存大多数哈希检索方法基于批处理训练模式,处理固定数据集时性能优良。因为此时数据分布和特征相对稳定,可对整个数据集学习并优化哈希函数达到良好检索效果。然而,现实世界中数据多以流数据形式存在,具有顺序、大量、快速、连续到达且随时间无限增长的特点。基于批处理训练模式的哈希检索方法难以适应流数据场景,无法实时对新到达数据学习和更新哈希函数。
为了解决流数据处理的问题,一些在线哈希检索方法应运而生。这些方法试图在处理流数据时能够实时更新哈希函数。然而,尽管这些方法在一定程度上能够处理流数据,但它们仍然存在一些局限性。其中一个关键问题是无法有效处理随着流数据块不断出现的未知新类。当新的数据类别出现时,这些在线哈希检索方法难以准确地对新类数据进行表征和学习,从而影响检索性能。
实现思路