本申请公开了一种非结构化文本类信息融合方法及装置,方法包括首先对不同格式的文本信息中的各种信息标签进行提取,提取出对应的键值对标签;根据标签对文本信息进行信息提取,并将提取出来的信息存表落库;将根据信息不同划分为多个不同的数据流,然后进行标准化、进行修复和规则转换,重新融合到标准数据流中;从每个数据源中提取主键ID信息,并根据主键ID信息建立每个数据源之间的关联性。最后建立每个信息源的主键关联性,同时设置不同数据源的信息使用优先级,将多个数据源形成为统一整体。可以高效的完成对多个存在较大的关联性的文本数据源的融合,融合后生成一个标准化好的新数据源。
背景技术
在科技突飞猛进的大时代背景下,数据信息的提取、深加工、分析以及应用,变得亦发重要。文本信息也是数据信息的一部分,文本信息的应用场景极其广泛,涵盖多个领域,其中包括专利领域、法律文件领域等,文本对此类信息的描述具有绝对的优势。因此对文本信息的价值挖掘也显得尤为重要。
文本信息的处理加工不同与传统的数据信息处理加工。文本信息的提取,需要很多的人力介入,需要业务人员和开发人员配合梳理文本信息特质,开发人员通过特质进行文本信息的识别,进而将数据入库,再对不同数据源的文本数据进行多源融合。最终将融合后的数据加以应用。
常见的数据融合方案,是多源异构数据融合的思路,此方式只适用于将简单的非结构数据和结构化数据进行多源融合。一旦遇到类似于xml、txt、pdf、图片形式(拍照)等无固定格式存储的文本信息,会有诸多难点,一个是数据入库难:传统方式的文本信息入库会先进行标准化,但是对于复杂的文本信息没有标准化规则,规则负责的文本信息的标准化会丢失大量数据,难以保证数据的完整性。一个是数据融合难:入库后的数据,因为数据源的多样性,导致每个数据源没有可共用的标准化主键进行关联,难以对多个文本源的信息进行粒度对齐,并产生有效关联性。
现有的技术通过数据采集、数据清洗,数据集成、数据存储等步骤对多源数据进行融合的。这种方案处理结构化文本数据具有显著的优势,但是针对非结构化文本数据,略显不足。具体不足如下:
传统的数据采集方式是对格式较为统一的数据用统一的规则进行采集,比如采集mysql中的数据,根据dtd采集xml数据等,但是对于文本数据,使用统一的规则数据采集,会丢失大量信息,因为文本本来就难以有统一的规则,也难以有统一的格式。不同年代的文本数据存在格式不同,且内容表达的特质也不同,比较久远的数据存储方式可能是甚至可能是以纸质形式存储的,这类信息无法使用传统的数据采集方式进行采集。此专利在数据采集之前,增加了特征提取装置,可以对不同年代,不同存储形式的文本信息的特征进行提取并形成特征血缘关系,从而为数据采集基础。
传统的数据清洗阶段是先制定一个统一的规则,对数据进行清洗,符合规则的进行保留,不符合规则的直接过滤。这种方式处理对文本数据的进行数据清洗是会丢失大量数据的。因为数据清洗需要指定规则,但是文本数据从提取到加工,规则是一点点完善建立起来的,而不是与生俱来的,因此,直接制定一个统一的规则进行数据清洗是不可取的。
实现思路