一种非结构化文本类信息融合方法及装置

123技术园

首页 / 技术内容

一种非结构化文本类信息融合方法及装置

2025-02-24 20:17

No.1343678244297383936

技术概要

PDF全文

本申请公开了一种非结构化文本类信息融合方法及装置，方法包括首先对不同格式的文本信息中的各种信息标签进行提取，提取出对应的键值对标签；根据标签对文本信息进行信息提取，并将提取出来的信息存表落库；将根据信息不同划分为多个不同的数据流，然后进行标准化、进行修复和规则转换，重新融合到标准数据流中；从每个数据源中提取主键ID信息，并根据主键ID信息建立每个数据源之间的关联性。最后建立每个信息源的主键关联性，同时设置不同数据源的信息使用优先级，将多个数据源形成为统一整体。可以高效的完成对多个存在较大的关联性的文本数据源的融合，融合后生成一个标准化好的新数据源。

背景技术

在科技突飞猛进的大时代背景下，数据信息的提取、深加工、分析以及应用，变得亦发重要。文本信息也是数据信息的一部分，文本信息的应用场景极其广泛，涵盖多个领域，其中包括专利领域、法律文件领域等，文本对此类信息的描述具有绝对的优势。因此对文本信息的价值挖掘也显得尤为重要。文本信息的处理加工不同与传统的数据信息处理加工。文本信息的提取，需要很多的人力介入，需要业务人员和开发人员配合梳理文本信息特质，开发人员通过特质进行文本信息的识别，进而将数据入库，再对不同数据源的文本数据进行多源融合。最终将融合后的数据加以应用。常见的数据融合方案，是多源异构数据融合的思路，此方式只适用于将简单的非结构数据和结构化数据进行多源融合。一旦遇到类似于xml、txt、pdf、图片形式（拍照）等无固定格式存储的文本信息，会有诸多难点，一个是数据入库难：传统方式的文本信息入库会先进行标准化，但是对于复杂的文本信息没有标准化规则，规则负责的文本信息的标准化会丢失大量数据，难以保证数据的完整性。一个是数据融合难：入库后的数据，因为数据源的多样性，导致每个数据源没有可共用的标准化主键进行关联，难以对多个文本源的信息进行粒度对齐，并产生有效关联性。现有的技术通过数据采集、数据清洗,数据集成、数据存储等步骤对多源数据进行融合的。这种方案处理结构化文本数据具有显著的优势，但是针对非结构化文本数据，略显不足。具体不足如下：传统的数据采集方式是对格式较为统一的数据用统一的规则进行采集，比如采集mysql中的数据，根据dtd采集xml数据等，但是对于文本数据，使用统一的规则数据采集，会丢失大量信息，因为文本本来就难以有统一的规则，也难以有统一的格式。不同年代的文本数据存在格式不同，且内容表达的特质也不同，比较久远的数据存储方式可能是甚至可能是以纸质形式存储的，这类信息无法使用传统的数据采集方式进行采集。此专利在数据采集之前，增加了特征提取装置，可以对不同年代，不同存储形式的文本信息的特征进行提取并形成特征血缘关系，从而为数据采集基础。传统的数据清洗阶段是先制定一个统一的规则，对数据进行清洗，符合规则的进行保留，不符合规则的直接过滤。这种方式处理对文本数据的进行数据清洗是会丢失大量数据的。因为数据清洗需要指定规则，但是文本数据从提取到加工，规则是一点点完善建立起来的，而不是与生俱来的，因此，直接制定一个统一的规则进行数据清洗是不可取的。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

张金刚范娥媚严长春裴非王海廷

技术所属：北京星河智源科技有限公司

相关技术

基于流程模拟软件自定义模块的流程模拟方法、装置、平台、介质及产品  基于流程模拟软件自定义模块的流程模拟方法、装置、平台、介质及产品 
 本发明公开了一种基于流程模拟软件自定义模块的流程模拟方法、装置、平台、介质及产品。所述方法包括:响应于流程模拟事件被触发，获取流程模拟自定义脚本；其中，所述流程模拟自定义脚本为用户在所述流程模拟软件的自定义模块中编写的流程模拟脚本；判断所述流程模拟软件中是否存储有与所述流程模拟自定义脚本对应的CPU控制指令；若所述流程模拟软件中存储有与所述流程模拟自定义脚本对应的CPU控制指令，则调用所述CPU控制指令，生成流程模拟结果。本方案在基于流程模拟软件进行流程模拟时，可有效提升代码的执行性能，快速获取流程模拟结果。
气动进给清灰装备控制方法及系统  气动进给清灰装备控制方法及系统 
 本发明涉及数据处理技术领域，本发明涉及气动进给清灰装备控制方法，包括:首先，通过获取气动进给清灰装备中多个锯齿在不同时刻下的扭矩数据，并将同一时刻下多个锯齿的扭矩数据组合为一个扭矩序列，从而形成第一扭矩序列组；接着，计算当前扭矩序列与下一扭矩序列之间的关联度，利用皮尔逊相关系数及扭矩的最大最小值的乘积进行分析；若关联度低于设定关联度阈值，则剔除对应的扭矩序列，获得第二扭矩序列组；然后，针对第二扭矩序列组计算异常值，当异常值超过异常阈值时，系统将自动触发最大气动功率进行清灰。本发明解决了面对复杂操作环境下清灰效果不佳的问题。
一种基于自学习的数据挖掘方法及系统  一种基于自学习的数据挖掘方法及系统 
 本发明公开了一种基于自学习的数据挖掘方法及系统，收集不同生鲜产品在各个新鲜度阶段的时间序列图像数据，从中提取出静态特征和动态特征，通过分析这些特征，定义标签，该标签将静态特征与动态特征关联起来，以形成一个综合性的描述；根据动态特征的变化规律，将具有相似变化模式的产品归入同一相似组；在此基础上，利用这些标签和相似组数据训练自学习挖掘模型，专注于提升对相似组产品的识别能力；将挖掘结果反馈至系统的动态时空图中，实现对图中节点属性的更新，从而持续优化识别算法。本发明不仅能够有效克服动态特征变化带来的识别难题，还能通过静态特征提供稳定的识别基准，进而显著提升生鲜产品在不同新鲜度下识别的准确性和可靠性。
一种基于商密SM9的前向安全标识签名方法  一种基于商密SM9的前向安全标识签名方法 
 本发明公开了一种基于商密SM9的前向安全标识签名方法，包括密钥生成中心、签名者、验证者。密钥生成中心跟签名者、验证者之间是完全信任的。其中密钥生成中心初始化系统参数，并根据用户标识ID为签名者颁发初始密钥。签名者向密钥生成中心发出密钥更新请求，从而获得更新后的密钥。签名者输入系统主公钥、消息以及t时段下的密钥执行签名算法生成消息签名，并将消息、签名以及自身的用户标识ID发送给验证者。验证者输入系统主公钥以及接收到的参数执行签名验证算法，验证成功则输出1，验证失败则输出0。本发明通过引入密钥更新机制，即使在私钥泄露的情况下，也能确保过去生成的签名不被伪造的签名机制。
面向深度强化学习的电网运行环境推演方法  面向深度强化学习的电网运行环境推演方法 
 本发明提供一种面向深度强化学习的电网运行环境推演方法，涉及数据处理技术领域，基于电网中设备的属性对电网运行环境进行分类得到发电侧设备、储电侧设备以及用电侧设备；根据各设备的历史电力数据进行深度学习训练，分别得到发电子神经网络、储电子神经网络以及用电子神经网络；根据发电侧设备、储电侧设备以及用电侧设备的数据关联关系对发电子神经网络、储电子神经网络以及用电子神经网络组装，得到总神经推演网络；获取推演目标所对应的变量推演参数输入至总神经推演网络得到预测推演结果；将预测推演结果与实际发生结果比对得到多维度训练数据，基于多维度训练数据对总神经推演网络中神经元的权重以及激励函数训练更新处理。
一种基于知识图谱的多模态习题表征方法  一种基于知识图谱的多模态习题表征方法 
 本发明公开了一种基于知识图谱的多模态习题表征方法，涉及多模态表征技术领域，包括:获取多模态信息的数学习题信息以及相关知识点，提取多模态习题涉及的所有元素；提取多模态习题的图像和文本特征；基于表层理解规则，明确习题文本和图片中各元素之间的空间关系，并构建表示表层信息的知识图谱；基于隐层理解的规则，将习题涉及的相关定理和公式转化为形式化语言，并构建表示隐层信息的知识图谱；将表示表层信息和表示隐层信息的知识图谱融合为表示完整的习题信息的知识图谱；基于表示不同习题信息的知识图谱节点和边，计算习题之间的相似度和困难度及文本知识图谱和图像知识图谱的匹配度；基于自动解题模型，获得习题的深度表征。
一种非结构化文本类信息融合方法及装置  一种非结构化文本类信息融合方法及装置 
 本申请公开了一种非结构化文本类信息融合方法及装置，方法包括首先对不同格式的文本信息中的各种信息标签进行提取，提取出对应的键值对标签；根据标签对文本信息进行信息提取，并将提取出来的信息存表落库；将根据信息不同划分为多个不同的数据流，然后进行标准化、进行修复和规则转换，重新融合到标准数据流中；从每个数据源中提取主键ID信息，并根据主键ID信息建立每个数据源之间的关联性。最后建立每个信息源的主键关联性，同时设置不同数据源的信息使用优先级，将多个数据源形成为统一整体。可以高效的完成对多个存在较大的关联性的文本数据源的融合，融合后生成一个标准化好的新数据源。
基于生成对抗网络数据解耦的数据平衡去毒方法  基于生成对抗网络数据解耦的数据平衡去毒方法 
 本发明涉及机器学习领域，具体为基于生成对抗网络数据解耦的数据平衡去毒方法，对数据集进行降维映射和聚类分析，得到若干数据聚类；对每个数据聚类加入对抗扰动，生成对抗数据聚类；对每个对抗数据聚类进行转移率计算和中毒样本去除，得到去毒数据聚类，并将所有去毒数据聚类组合为去毒数据集；对去毒数据集进行数据解耦和平衡处理，得到平衡数据集；基于平衡数据集，对待去毒模型进行微调训练，从而得到去毒模型。本发明能够减少训练数据的中毒样本，避免模型训练过程中学习拟合后门触发器的特征，提高模型后门攻击防御效果的稳定性和模型在实际应用中的可靠性。
一种地脚螺栓防松设计方法及系统  一种地脚螺栓防松设计方法及系统 
 本发明涉及多目标优化控制技术领域，公开了一种地脚螺栓防松设计方法及系统，包括提取地脚螺栓的基础尺寸参数，基于基础尺寸参数构建螺栓初始实体模型；提取地脚螺栓的精细几何参数，生成带有精细螺纹特征的完整螺栓实体模型；对螺栓实体模型划分有限元网格，生成有限元模型；构建防松性能目标函数和重量目标函数，建立多目标优化模型，并求解得到最优解；收集常用金属的物理力学性能数据，搜索最优材料组合，生成地脚螺栓的优化模型；通过优化迭代循环，直至多目标优化模型的函数值达到收敛条件，输出最终的防松地脚螺栓设计方案。本发明提供了一种高效、精确的地脚螺栓防松方案，实现了防松性能和重量的优化平衡。
一种弹性组合定步长仿真方法及系统  一种弹性组合定步长仿真方法及系统 
 本申请提供了一种弹性组合定步长仿真方法及系统，涉及工业互联网数值仿真计算领域，方法包括:获取信息物理系统模型；将信息物理系统模型编译成标准状态方程形式的数学模型；设置定步长仿真算法；设置基础仿真步长；设置仿真采用的定步长模式；定步长模式包括：分时段自定义步长模式和自适应步长模式；通过设置的定步长仿真算法、基础仿真步长以及定步长模式，生成仿真配置文件；通过仿真配置文件、结合数学模型，执行单步积分，完成仿真。本申请的技术方案可支持，分时段跨区间自定义步长离线仿真，同时支持基于事件触发的自适应定步长在线仿真。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工