本技术方案介绍了一种智能文本知识抽取与时空信息标准化技术及其相关设备。该技术涉及从文本中提取知识并对其进行时空规范化处理。具体步骤包括:首先获取文本数据,定义知识抽取的本体模型;然后利用该本体模型对文本数据进行分析,构建多智能体系统以实现知识的抽取和时空信息的规范化表达。
背景技术
随着移动互联网等新一代信息技术的蓬勃发展,广泛分布于各类数字化平台(如社交媒体、新闻网站、专业文献库等)中泛在文本数据呈现数量急剧增长、更新频率快、覆盖面广等特点,这些数据蕴含丰富的时空语义信息,具有较强的现势性与关联性,依然成为获取时空知识的关键数据源。然而,由自然语言构成的泛在文本数据往往具有表达不精确、描述不统一等固有特征,其中蕴含的时空特征与时空知识所要求的基于失控参考系统进行规范化表达之间存在显著差异。例如,文本通常采用地名地址等方式隐式描述时空特征,准确的位置或时间表达很少,同时文本上下文中对同一时空十五的不同指代可能有不同形式的描述,这在很大程度上限制了其在时空知识发现、推理等下游任务重的应用潜力。因此,如何有效地认知与处理泛在文本数据在语义表达上的模糊性、多样性等特征,研究发展具有普适性的知识抽取与时空规范化表达方法,支撑面向实际应用的高质量时空知识获取与服务,具有重要的理论价值和现实意义。
当前,面向时空知识抽取与规范化表达的研究方法主要可分为基于流水线的多阶段处理方法和基于端到端的统一建模方法两大类。流水线方法采用模块化的串行处理范式,通常包括知识抽取、时空要素识别、时空语义规范化等核心环节,其代表性工作包括基于规则模板的中文地址要素解析方法、融合深度学习的地址匹配模型DeepAM等。该类方法的处理流程清晰明确,具有较好的可解释性与可控性,但其各处理环节相对独立,难以充分利用环节间的语义关联信息,同时在面对未覆盖的任务场景时表现出较弱的泛化能力,往往需要持续的人工干预与优化,且在处理海量文本中普遍存在的时空语义模糊与歧义问题时效果欠佳。端到端方法则将任务直接建模为"时空语义文本到规范化时空表达"的映射学习问题,典型代表包括“地理位置-语言”预训练模型ERNIE-GeoL、多模态地理语言模型预训练模型MGeo等。这类方法虽然能够实现端到端的自动化处理,但其对大规模任务相关标注数据的依赖性较强,且采用黑盒式的建模方式导致预测结果缺乏可解释性,难以保证模型在复杂场景下的鲁棒性与可靠性。
实现思路