本技术公开一种基于属性感知的Web网页信息抽取方法及装置,属于网页信息抽取技术领域。包括:爬取给定目标网站的原始网页数据,将其保存下来作为模型的原始输入,在原始数据上对数据进行预处理,去除script等原始数据中无用的标签输入,减少输入模型的噪声信息;提取网页中的变量节点,构造输入模型的token序列和xpath序列,同时记录序列的位置信息,在预训练模型的基础上增加属性感知嵌入模块,使得预训练模型模型能够感知到性的模式信息,将输入信息的嵌入通过一个分类层,模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率,为下游任务提供丰富的结构化知识,促进下游任务的发展。
背景技术
随着互联网的快速发展,以Web页面为载体的信息非常丰富。从Web页面中抽取信息是一个十分基础且重要的工作,它能在许多实际应用中发挥作用,比如知识库的构建、问答系统、推荐系统和检索系统等等。Web页面与文本丰富的传统文档(如新闻)不同,Web页面内的信息是由标记语言组成的,具有分块和语法不规范的特点,这些特点为Web页面的信息抽取增加了难度,同时也引发了学术界和工业界的广泛关注。
当前Web页面信息抽取方法主要关注的是如何对HTML页面进行表征,比如如何利用DOM树特征、Xpath信息、视觉特征等,并且增加了额外的计算开销,在大规模信息抽取任务中将变得效率低下。而且,当前的Web信息抽取工作缺乏对待抽取属性的模式有效利用,模型无法感知到待抽取属性的情况。
实现思路