一种非结构化文本类信息融合方法及装置
2025-02-24 20:17
No.1343678244297383936
技术概要
PDF全文
本申请公开了一种非结构化文本类信息融合方法及装置,方法包括首先对不同格式的文本信息中的各种信息标签进行提取,提取出对应的键值对标签;根据标签对文本信息进行信息提取,并将提取出来的信息存表落库;将根据信息不同划分为多个不同的数据流,然后进行标准化、进行修复和规则转换,重新融合到标准数据流中;从每个数据源中提取主键ID信息,并根据主键ID信息建立每个数据源之间的关联性。最后建立每个信息源的主键关联性,同时设置不同数据源的信息使用优先级,将多个数据源形成为统一整体。可以高效的完成对多个存在较大的关联性的文本数据源的融合,融合后生成一个标准化好的新数据源。
背景技术
在科技突飞猛进的大时代背景下,数据信息的提取、深加工、分析以及应用,变得亦发重要。文本信息也是数据信息的一部分,文本信息的应用场景极其广泛,涵盖多个领域,其中包括专利领域、法律文件领域等,文本对此类信息的描述具有绝对的优势。因此对文本信息的价值挖掘也显得尤为重要。 文本信息的处理加工不同与传统的数据信息处理加工。文本信息的提取,需要很多的人力介入,需要业务人员和开发人员配合梳理文本信息特质,开发人员通过特质进行文本信息的识别,进而将数据入库,再对不同数据源的文本数据进行多源融合。最终将融合后的数据加以应用。 常见的数据融合方案,是多源异构数据融合的思路,此方式只适用于将简单的非结构数据和结构化数据进行多源融合。一旦遇到类似于xml、txt、pdf、图片形式(拍照)等无固定格式存储的文本信息,会有诸多难点,一个是数据入库难:传统方式的文本信息入库会先进行标准化,但是对于复杂的文本信息没有标准化规则,规则负责的文本信息的标准化会丢失大量数据,难以保证数据的完整性。一个是数据融合难:入库后的数据,因为数据源的多样性,导致每个数据源没有可共用的标准化主键进行关联,难以对多个文本源的信息进行粒度对齐,并产生有效关联性。 现有的技术通过数据采集、数据清洗,数据集成、数据存储等步骤对多源数据进行融合的。这种方案处理结构化文本数据具有显著的优势,但是针对非结构化文本数据,略显不足。具体不足如下: 传统的数据采集方式是对格式较为统一的数据用统一的规则进行采集,比如采集mysql中的数据,根据dtd采集xml数据等,但是对于文本数据,使用统一的规则数据采集,会丢失大量信息,因为文本本来就难以有统一的规则,也难以有统一的格式。不同年代的文本数据存在格式不同,且内容表达的特质也不同,比较久远的数据存储方式可能是甚至可能是以纸质形式存储的,这类信息无法使用传统的数据采集方式进行采集。此专利在数据采集之前,增加了特征提取装置,可以对不同年代,不同存储形式的文本信息的特征进行提取并形成特征血缘关系,从而为数据采集基础。 传统的数据清洗阶段是先制定一个统一的规则,对数据进行清洗,符合规则的进行保留,不符合规则的直接过滤。这种方式处理对文本数据的进行数据清洗是会丢失大量数据的。因为数据清洗需要指定规则,但是文本数据从提取到加工,规则是一点点完善建立起来的,而不是与生俱来的,因此,直接制定一个统一的规则进行数据清洗是不可取的。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
张金刚  范娥媚  严长春  裴非  王海廷
技术所属: 北京星河智源科技有限公司
相关技术
基于流程模拟软件自定义模块的流程模拟方法、装置、平台、介质及产品 基于流程模拟软件自定义模块的流程模拟方法、装置、平台、介质及产品
气动进给清灰装备控制方法及系统 气动进给清灰装备控制方法及系统
一种基于自学习的数据挖掘方法及系统 一种基于自学习的数据挖掘方法及系统
一种基于商密SM9的前向安全标识签名方法 一种基于商密SM9的前向安全标识签名方法
面向深度强化学习的电网运行环境推演方法 面向深度强化学习的电网运行环境推演方法
一种基于知识图谱的多模态习题表征方法 一种基于知识图谱的多模态习题表征方法
一种非结构化文本类信息融合方法及装置 一种非结构化文本类信息融合方法及装置
基于生成对抗网络数据解耦的数据平衡去毒方法 基于生成对抗网络数据解耦的数据平衡去毒方法
一种地脚螺栓防松设计方法及系统 一种地脚螺栓防松设计方法及系统
一种弹性组合定步长仿真方法及系统 一种弹性组合定步长仿真方法及系统
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利