本技术介绍了一种融合词汇增强和字符外部信息的中文实体识别技术。该技术突破了传统方法的局限,通过整合汉字的外部信息和动态调整词频匹配词权重,有效提升了实体识别的准确性。
背景技术
命名实体识别(NER)的目的是从句子中检测实体,并识别预先定义的类型,如人名、地点和机构。命名实体识别是许多下游自然语言处理(NLP)问题的基础,如知识图谱、信息检索、问答系统、和机器翻译等。中文作为世界上使用人数最多的语言之一,在国际交流、商务往来和文化传播中扮演着越来越重要的角色。互联网的普及带来了大量中文文本数据,包括社交媒体、新闻报道和学术文章等。中文命名实体识别技术能够从中提取关键信息,帮助用户迅速找到所需内容,从而提高信息检索和处理的效率。
早期的命名实体识别方法主要是基于人工编写的规则和词典在文本中匹配命名实体。但是这些规则往往和领域、语言文本风格是强相关的,规则和词典的建立依赖于专家的知识且制作极为耗时。此外,这类系统的可移植性很差,不便于跨场景使用。
基于统计的方法将NER任务转换为序列标记任务,并使用人工标记的语料库进行训练。数据标记的成本远低于设计规则的成本,且基于统计的方法是通用的,不需要太多手工设计的规则,在深度学习爆发之前逐渐成为主流方法。常用的统计模型包括条件随机场、隐马尔可夫模型、最大熵模型等等。但是基于统计的方法依赖于人工设计特征,如词性、字形特征等等,这需要领域专家的知识和经验,错误的特征设计将严重影响模型性能。
近年来,深度学习在NLP领域取得了显著突破。将深度学习应用于命名实体识别时,深度学习可以在无需复杂的特征工程和丰富的领域知识的前提下,学习到复杂的隐藏表示。此外,基于深度学习的命名实体识别方法泛化性亦更强、更通用。因此,基于深度学习的命名实体识别方法相较传统的基于规则的方法和基于统计的方法使用更加广泛,识别精度也更高。基于深度学习的命名实体识别方法此前已有很多研究,但主要集中在英文命名实体识别。中文命名实体识别相较于英文命名实体识别更加困难,这主要体现在两方面。首先中英文的显著不同点是中文的基本单位是汉字,而英文是单词,中文没有英文中像空格这样明显的分隔符。其次,英文中很多实体都有明显的特征,即首字母大写。这导致中文实体的边界识别更为困难,而英文实体识别主要任务集中在识别实体的类型。
由于汉语中没有明确的分隔符,因此早期的研究大多都会在进行中文NER之前先去分词。然而,汉语分词中的错误可能导致实体边界的错误识别,从而影响模型性能。近期提出的NER方法都是基于字符的,基于字符的方法可以消除分词错误,但同时又丢失了单词信息。在中文NER中,单词信息和词汇边界信息是至关重要的。最近的一些基于词汇增强的NER方法利用外部词典来补充丢失掉的词汇信息,通过将词典中的词汇信息集成到字符级别的表示层中,使得NER模型能够更准确地捕捉语言中的实体信息。Zhang Y等人在其发表的论文“Chinese NER using lattice LSTM”(Annual Meeting of the Association forComputational Linguistics(Volume 1:Long Papers).2018:1554-1564.)中提出了Lattice LSTM,Lattice LSTM是第一种从外部词典中获取潜在的单词信息并将其合并到基于字符的中文命名实体模型的方法,在不依赖于分词结果的情况下引入了词语信息,避免了由于分词导致的误差传播。R Ma等人在其发表的论文“Simplify the Usage of Lexiconin Chinese NER”(Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics.2020:5951-5960.)中提出了SoftLexicon,SoftLexicon将词汇信息整合到字符表示中,从而避免复杂的建模结构,这些通过外部词典将单词信息注入模型的方法在几个中文NER数据集上取得了有前景的结果。然而,在将词典信息整合到字符表示中后,现有的方法大多忽略了汉字额外的信息(如笔画、拼音等),这些信息已被证明有利于提升中文NER模型的性能。引入了多种外部信息后,如何将它们有效融入到模型中也是一个关键问题。此外,现有的基于词汇增强的方法都是直接基于匹配词的词频作为其权重,没有很好地捕捉不同语境下字符与词汇的不同关联性。
现有技术通过整合外部词典信息以弥补基于字符的中文命名实体方法丢失的词汇信息和词边界信息。这些方法往往忽略汉字的额外信息(如笔画、拼音等),这些信息可进一步丰富特征表示,对提升模型性能非常有帮助。此外,现有方法多基于词频作为权重,未能充分捕捉不同语境下字符与词汇的关联性。
实现思路