本技术方案提出了一种依托于数据增强的大规模事件抽取模型构建方法,属于数据处理技术领域。该方法涵盖了确立事件数据集的事件标注框架和相关第一提示词,其中第一提示词涵盖了事件抽取任务的界定。
背景技术
事件抽取是信息抽取领域一个重要且富有挑战性的子任务,旨在从非结构化的文本中抽取出结构化的事件信息,主要包括事件触发词、事件类别、事件论元等。事件抽取在自动文摘、自动问答、信息检索、知识图谱构建等领域有着广泛的应用。
目前,事件抽取主要依赖人工标注数据,导致相关应用成本高昂。事件抽取是一项复杂的任务,需要对文本进行细致的标注。传统的事件抽取标注通常涉及到多个层次的结构,包括事件范围的识别、事件触发词识别、事件类型分类以及事件论元识别等。这些标注任务均需要人工参与,耗时且费力。由于标注数据的复杂性,标注过程容易出现不一致性和主观性,导致难以建立高质量的标注数据集。此外,标注数据的成本也是一个重要的问题。由于事件抽取标注需要专业的领域知识和语言理解能力,导致了人工标注数据的获取成本非常高昂。然而,由于事件抽取任务的内在复杂性,相关的有监督事件抽取大模型需要大量有标注训练数据才能达到可用水平,目前主要依赖人工标注数据,这也导致在现实世界中开发事件抽取相关的应用成本高昂。
实现思路