本技术公开了一种文件聚类方法、装置、设备和介质,由于该方法中获取预设时间段的日志文件中记录的每个被访问文件的标识信息和被访问时间,将标识信息作为主键并将被访问时间作为值,确定每个键值对,按照被访问时间对键值对进行排序,根据排序后的键值对中被访问时间之间的间隔,确定归属于每个组的键值对;针对归属于每个组的键值对,将该组中包含的每个键值对中记录的文件的标识信息标识的目标被访问文件保存在该组对应的文件集合中,由于基于排序后键值对进行聚类的方法提高了文件聚类结果与用户访问的关联性,从而提高了文件访问速度,且在确定归属于每个组的键值对,采用自下而上树形合并的方法进行聚类,使得聚类的时间复杂度降低。
背景技术
随着信息化时代的到来,大数据、云计算等新兴领域应运而生并迅速发展,在这样的背景下,在文件存储系统中,常采用分布式存储架构将数据组织成文件进行存储和访问。
现有技术中采用分布式存储架构进行存储时,文件的访问速度方面存在问题,为了提高文件的访问速度,现有技术采用基于特征提取的文件聚类实现,但在进行文件聚类时,由于需要确定每个文件与其他文件的相似度,从而导致消耗大量的计算资源,文件聚类的复杂度较高,并且文件聚类结果只与文件本身的内容特征或标题特征有关,而与用户访问的行为特征的关联性差,无法有效提高文件访问速度,降低用户的访问时延,因此如何对文件进行聚类以提高文件访问速度并降低文件聚类的复杂度就成为亟待解决的技术问题。
实现思路