一种基于属性感知的Web网页信息抽取方法及装置

123技术园

首页 / 技术内容

2025-02-22 21:43

No.1342975073967153152

技术概要

PDF全文

本技术公开一种基于属性感知的Web网页信息抽取方法及装置，属于网页信息抽取技术领域。包括:爬取给定目标网站的原始网页数据，将其保存下来作为模型的原始输入，在原始数据上对数据进行预处理，去除script等原始数据中无用的标签输入，减少输入模型的噪声信息；提取网页中的变量节点，构造输入模型的token序列和xpath序列，同时记录序列的位置信息，在预训练模型的基础上增加属性感知嵌入模块，使得预训练模型模型能够感知到性的模式信息，将输入信息的嵌入通过一个分类层，模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率，为下游任务提供丰富的结构化知识，促进下游任务的发展。

背景技术

随着互联网的快速发展，以Web页面为载体的信息非常丰富。从Web页面中抽取信息是一个十分基础且重要的工作，它能在许多实际应用中发挥作用，比如知识库的构建、问答系统、推荐系统和检索系统等等。Web页面与文本丰富的传统文档（如新闻）不同，Web页面内的信息是由标记语言组成的，具有分块和语法不规范的特点，这些特点为Web页面的信息抽取增加了难度，同时也引发了学术界和工业界的广泛关注。当前Web页面信息抽取方法主要关注的是如何对HTML页面进行表征，比如如何利用DOM树特征、Xpath信息、视觉特征等，并且增加了额外的计算开销，在大规模信息抽取任务中将变得效率低下。而且，当前的Web信息抽取工作缺乏对待抽取属性的模式有效利用，模型无法感知到待抽取属性的情况。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

施凡李晔许成喜薛鹏飞马慧敏张雪艳胡淼丁然

技术所属：中国人民解放军国防科技大学

相关技术

一种基于属性感知的Web网页信息抽取方法及装置  一种基于属性感知的Web网页信息抽取方法及装置 
 本发明公开一种基于属性感知的Web网页信息抽取方法及装置，属于网页信息抽取技术领域。包括:爬取给定目标网站的原始网页数据，将其保存下来作为模型的原始输入，在原始数据上对数据进行预处理，去除script等原始数据中无用的标签输入，减少输入模型的噪声信息；提取网页中的变量节点，构造输入模型的token序列和xpath序列，同时记录序列的位置信息，在预训练模型的基础上增加属性感知嵌入模块，使得预训练模型模型能够感知到性的模式信息，将输入信息的嵌入通过一个分类层，模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率，为下游任务提供丰富的结构化知识，促进下游任务的发展。
一种场景问答模型生成方法及装置  一种场景问答模型生成方法及装置 
 本发明提供一种场景问答模型生成方法及装置，涉及人工智能技术领域。所述方法包括:获取各个预设性格类型对应的多个样本问答对；针对每个所述预设性格类型，使用所多个样本问答对训练基础模型，得到预设性格类型对应的性格模型；利用性格模型生成场景问题对应的场景答复，并基于场景答复获取所述性格模型的偏好分数；基于每个性格模型的偏好分数，将所有性格模型融合为指定场景下的目标问答模型。本发明融合得到的目标问答模型在回答指定场景中的问题时，可给出更加符合用户偏好的回答，可有效提升问答模型在指定场景中的对话自然度。
社交媒体特征数据的预估方法及装置  社交媒体特征数据的预估方法及装置 
 本发明实施例中提供了一种社交媒体特征数据的预估方法、装置及电子设备，属于数据处理技术领域，该方法包括:对采集到的多个社交媒体数据进行数据清洗与格式化操作，得到标准数据；对构建的预测数据D={D1,D2,D3}按时间顺序整理，并将整理后的预测数据分割为训练集和测试集，使用训练集训练LSTM模型，通过调整权重和偏置项最小化预测误差，在训练完成后，将新的目标特征传播量数据输入LSTM模型，基于学习到的模式输出未来预设时间段内的目标特征传播量预测值D4；利用图表库生成目标特征传播量的趋势图、情感分析图和用户互动图。本发明提高了社交媒体特征数据预估的准确性。
一种基于数字孪生的双向DC/DC变换器状态监测方法  一种基于数字孪生的双向DC/DC变换器状态监测方法 
 本发明公开了一种基于数字孪生的双向DC/DC变换器状态监测方法。方法包括建立基于状态空间模型的数字孪生模型；采集双向DC/DC变换器实际运行时的电感电流和输出电压；根据实际运行时的电感电流和输出电压和电感初始值、电容初始值和电阻初始值，利用数字孪生模型，获得电感电流和输出电压的计算值；将实际值与计算值进行比较，计算模型误差；根据模型误差不断迭代更新双向DC/DC变换器的电感、电容和电阻；直至模型误差符合预设误差要求为止；将最后一次迭代更新的电感、电容和电阻，与正常情况下及各种故障情况下的电感、电容和电阻进行比较，实现了各元件状态的检测。本发明方案可实现双向DC/DC变换器各元件的故障检测。
基于模仿学习的驾驶培训教学方法及系统  基于模仿学习的驾驶培训教学方法及系统 
 本发明提供基于模仿学习的驾驶培训教学方法及系统，涉及智驾技术领域，包括获取多个人类驾驶员在多种驾驶场景下的驾驶行为示范数据，并提取所述驾驶行为示范数据中的驾驶行为特征；基于所述驾驶行为示范数据计算人类驾驶员的实际驾驶行为轨迹的第一特征期望；采用强化学习算法优化智能体的驾驶策略，通过所述智能体在模拟环境中执行所述驾驶策略得到智能体的模拟驾驶行为轨迹计算第二特征期望；通过最小化所述第一特征期望与所述第二特征期望之间的差异并且结合生成对抗网络交替优化更新所述隐含奖励函数的参数；将所述智能体驾驶策略用于所述智能体的辅助驾驶决策。
一种多参与方监理数据管理方法  一种多参与方监理数据管理方法 
 本发明具体涉及一种多参与方监理数据管理方法，包括步骤:为所有监理参与方创建分布式数字身份；定义监理数据的不同类别及其敏感级别；当某个监理参与方需要获取监理数据时，该参与方需向监理单位发起数据授权请求；监理单位接收到请求后，基于请求方的身份验证和数据访问规则，决定是否批准请求；如果请求被批准，监理单位将通过自己的身份私钥和请求方的分布式数字身份颁发一个可验证声明；施工单位在收到可验证声明后，将其连同数据获取请求一起发送给数据提供方；数据提供方接收到请求后，提取可验证声明中的信息；数据提供方使用请求方的身份公钥对可验证声明进行验签，确认无误后根据可验证声明中的授权范围提供相应的监理数据。
风电低出力事件判别及功率预测模型训练方法及装置  风电低出力事件判别及功率预测模型训练方法及装置 
 本公开提供了一种风电低出力事件判别及功率预测模型训练方法及装置，涉及风电功率预测技术领域，所述方法包括:对历史风电数据进行主成分分析，对主成分分析结果进行聚类，确定风电低出力事件对应的数据，构成样本集；对样本集中的至少一个气象要素和至少一个气象要素对应的风电功率点进行风电低出力事件类型的标注；基于样本集对风电低出力事件分类模型进行训练，基于样本集对不同风电低出力事件对应的风电低出力功率预测模型进行训练，如此，在后续功率预测场景中，可以根据不同风电低出力事件进行预测，增加风电功率短期功率预测的精度，提高风电功率预测结果对电力调度的积极意义。
一种基于贪心策略的抗社交网络用户身份关联方法  一种基于贪心策略的抗社交网络用户身份关联方法 
 本发明涉及社交网络分析技术领域，公开了一种基于贪心策略的抗社交网络用户身份关联方法。为了有效建模和求解抗社交网络用户身份关联问题并平衡成本与收益，提出了一种基于贪心策略的账号注入方案，将对用户身份关联模型的攻击问题建模为最大化确定的错误配对数量问题，让这些配对的相似度得分一定大于现有账号对之间的相似度得分，从而使对社交网络用户身份关联的攻击问题可解；基于贪心策略采用基于账号网络角色的脆弱性评估方法来识别脆弱性，实现从易到难的渐进式攻击；同时设计了一种基于贪心策略的注入策略搜索方法，用以确定应在注入账号和哪些现有账号之间发起好友连接，从而以低成本实现高效攻击。
直流变换器故障诊断方法、装置、设备、介质及程序产品  直流变换器故障诊断方法、装置、设备、介质及程序产品 
 本发明公开了一种直流变换器故障诊断方法、装置、设备、介质及程序产品，该方法包括:采集直流变换器的历史运行数据和故障样本数据，对历史运行数据和故障样本数据进行预处理，获得数据集，基于数据集构建核函数，构建原始模型，并基于核函数对原始模型进行训练和优化，获得故障诊断模型，原始模型包括支持向量机，采集直流变换器的实时运行数据，并对实时运行数据进行预处理，将预处理后的实时运行数据输入至故障诊断模型进行故障诊断，获得直流变换器的故障概率和故障类型，从而实现对直流变换器的运行状态进行监测，确保故障诊断时效性，有效地提升故障诊断的准确性，为故障处理提供可靠的诊断结果，提升故障处理的响应速度。
一种商业秘密保护泄密点分析的方法  一种商业秘密保护泄密点分析的方法 
 本发明公开了一种商业秘密保护泄密点分析的方法，包括如下步骤:调查得到每个部门员工涉及的数据资产；将数据资产的数据放入数据库；调查部门数据资产流转规则，将不同部门员工数据整合成基础的数据表，对每个数据表加标签，并对数据做替换处理；根据流转规则对数据表做关联处理得到不同的数据关联表；将不同的数据关联表的数据提取，与各个秘密保护单元做差异分析；做出泄密点分析报告；通过本发明的分析方法，借助常规的工具，可将众多隐藏在貌似合理的业务流程中的泄密风险点挖掘出来，做到全面的商业秘密保护工作；通过数据替换，借助常规分析工具的同时能做到分析处理过程中商业秘密的防泄漏性。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工