一种基于属性感知的Web网页信息抽取方法及装置
2025-02-22 21:43
No.1342975073967153152
技术概要
PDF全文
本技术公开一种基于属性感知的Web网页信息抽取方法及装置,属于网页信息抽取技术领域。包括:爬取给定目标网站的原始网页数据,将其保存下来作为模型的原始输入,在原始数据上对数据进行预处理,去除script等原始数据中无用的标签输入,减少输入模型的噪声信息;提取网页中的变量节点,构造输入模型的token序列和xpath序列,同时记录序列的位置信息,在预训练模型的基础上增加属性感知嵌入模块,使得预训练模型模型能够感知到性的模式信息,将输入信息的嵌入通过一个分类层,模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率,为下游任务提供丰富的结构化知识,促进下游任务的发展。
背景技术
随着互联网的快速发展,以Web页面为载体的信息非常丰富。从Web页面中抽取信息是一个十分基础且重要的工作,它能在许多实际应用中发挥作用,比如知识库的构建、问答系统、推荐系统和检索系统等等。Web页面与文本丰富的传统文档(如新闻)不同,Web页面内的信息是由标记语言组成的,具有分块和语法不规范的特点,这些特点为Web页面的信息抽取增加了难度,同时也引发了学术界和工业界的广泛关注。 当前Web页面信息抽取方法主要关注的是如何对HTML页面进行表征,比如如何利用DOM树特征、Xpath信息、视觉特征等,并且增加了额外的计算开销,在大规模信息抽取任务中将变得效率低下。而且,当前的Web信息抽取工作缺乏对待抽取属性的模式有效利用,模型无法感知到待抽取属性的情况。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
施凡  李晔  许成喜  薛鹏飞  马慧敏  张雪艳  胡淼  丁然
技术所属: 中国人民解放军国防科技大学
相关技术
一种基于属性感知的Web网页信息抽取方法及装置 一种基于属性感知的Web网页信息抽取方法及装置
一种场景问答模型生成方法及装置 一种场景问答模型生成方法及装置
社交媒体特征数据的预估方法及装置 社交媒体特征数据的预估方法及装置
一种基于数字孪生的双向DC/DC变换器状态监测方法 一种基于数字孪生的双向DC/DC变换器状态监测方法
基于模仿学习的驾驶培训教学方法及系统 基于模仿学习的驾驶培训教学方法及系统
一种多参与方监理数据管理方法 一种多参与方监理数据管理方法
风电低出力事件判别及功率预测模型训练方法及装置 风电低出力事件判别及功率预测模型训练方法及装置
一种基于贪心策略的抗社交网络用户身份关联方法 一种基于贪心策略的抗社交网络用户身份关联方法
直流变换器故障诊断方法、装置、设备、介质及程序产品 直流变换器故障诊断方法、装置、设备、介质及程序产品
一种商业秘密保护泄密点分析的方法 一种商业秘密保护泄密点分析的方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利