本技术介绍了一种异构知识图谱实体匹配技术,该技术属于知识图谱领域。主要步骤包括:获取并处理两个异构知识图谱数据;运用预训练的大型语言模型提取知识图谱信息;通过相似度计算实现实体对齐。
背景技术
近年来,涌现出一大批知识图谱(knowledge graph,KG),诸如YAGO、Dbpedia、NELL等。这些大规模知识图谱在问答系统、个性化推荐等智能服务中起到重要作用。此外,为满足特定领域相关需求,衍生出越来越多的领域知识图谱,如医疗知识图谱。在知识图谱构建过程中,无法避免地需要在覆盖率和正确率间作权衡。而任何一个知识图谱,都无法达到完备或者完全正确。
为提升知识图谱的覆盖率及正确率,一种可行方法是从其它知识图谱中引入相关知识,因为以不同方式构建得到的知识图谱间存在知识的冗余以及互补。例如,从网页上抽取构建的通用知识图谱中可能仅包含药品的名字,而更多的信息可在基于医疗数据构建的医疗知识图谱中找到。为将外部知识图谱中的知识整合到目标知识图谱中,最重要的一步是对齐不同的知识图谱。为此,实体对齐(entity alignment,EA)任务被提出并受到广泛关注。该任务旨在找到不同知识图谱中表达同一含义的实体对。而这些实体对则作为链接不同知识图谱的枢纽,服务于后续任务。
目前,主流实体对齐方法主要借助知识图谱结构特征判断两实体是否指向同一事物。这类方法假设不同知识图谱中表达同一含义的实体具有类似的邻接信息。在人工构建的数据集上,这类方法取得了最好的实验结果。但这些人工构建的数据集中的知识图谱比真实世界的知识图谱更加稠密,而基于结构特征的实体对齐方法在具有正常分布的知识图谱上效果大打折扣。
事实上,通过分析真实世界知识图谱中的实体分布可知,超过半数的实体只与一两个其它实体相连。这些实体被称为长尾实体(long-tail entities),占据了知识图谱实体的大部分,使得图谱整体呈现较高的稀疏性。这也符合对真实世界知识图谱的认知:只有很少一部分实体被经常使用并具有丰富的邻接信息;绝大部分实体很少被提及,包含微少的结构信息。因此,当前基于结构信息的实体对齐方法在真实世界数据集上的表现不尽人意。
实现思路