中文实体识别:词汇增强与字符信息融合技术
2025-02-13 10:19
No.1339541418968096768
技术概要
PDF全文
本技术介绍了一种融合词汇增强和字符外部信息的中文实体识别技术。该技术突破了传统方法的局限,通过整合汉字的外部信息和动态调整词频匹配词权重,有效提升了实体识别的准确性。
背景技术
命名实体识别(NER)的目的是从句子中检测实体,并识别预先定义的类型,如人名、地点和机构。命名实体识别是许多下游自然语言处理(NLP)问题的基础,如知识图谱、信息检索、问答系统、和机器翻译等。中文作为世界上使用人数最多的语言之一,在国际交流、商务往来和文化传播中扮演着越来越重要的角色。互联网的普及带来了大量中文文本数据,包括社交媒体、新闻报道和学术文章等。中文命名实体识别技术能够从中提取关键信息,帮助用户迅速找到所需内容,从而提高信息检索和处理的效率。 早期的命名实体识别方法主要是基于人工编写的规则和词典在文本中匹配命名实体。但是这些规则往往和领域、语言文本风格是强相关的,规则和词典的建立依赖于专家的知识且制作极为耗时。此外,这类系统的可移植性很差,不便于跨场景使用。 基于统计的方法将NER任务转换为序列标记任务,并使用人工标记的语料库进行训练。数据标记的成本远低于设计规则的成本,且基于统计的方法是通用的,不需要太多手工设计的规则,在深度学习爆发之前逐渐成为主流方法。常用的统计模型包括条件随机场、隐马尔可夫模型、最大熵模型等等。但是基于统计的方法依赖于人工设计特征,如词性、字形特征等等,这需要领域专家的知识和经验,错误的特征设计将严重影响模型性能。 近年来,深度学习在NLP领域取得了显著突破。将深度学习应用于命名实体识别时,深度学习可以在无需复杂的特征工程和丰富的领域知识的前提下,学习到复杂的隐藏表示。此外,基于深度学习的命名实体识别方法泛化性亦更强、更通用。因此,基于深度学习的命名实体识别方法相较传统的基于规则的方法和基于统计的方法使用更加广泛,识别精度也更高。基于深度学习的命名实体识别方法此前已有很多研究,但主要集中在英文命名实体识别。中文命名实体识别相较于英文命名实体识别更加困难,这主要体现在两方面。首先中英文的显著不同点是中文的基本单位是汉字,而英文是单词,中文没有英文中像空格这样明显的分隔符。其次,英文中很多实体都有明显的特征,即首字母大写。这导致中文实体的边界识别更为困难,而英文实体识别主要任务集中在识别实体的类型。 由于汉语中没有明确的分隔符,因此早期的研究大多都会在进行中文NER之前先去分词。然而,汉语分词中的错误可能导致实体边界的错误识别,从而影响模型性能。近期提出的NER方法都是基于字符的,基于字符的方法可以消除分词错误,但同时又丢失了单词信息。在中文NER中,单词信息和词汇边界信息是至关重要的。最近的一些基于词汇增强的NER方法利用外部词典来补充丢失掉的词汇信息,通过将词典中的词汇信息集成到字符级别的表示层中,使得NER模型能够更准确地捕捉语言中的实体信息。Zhang Y等人在其发表的论文“Chinese NER using lattice LSTM”(Annual Meeting of the Association forComputational Linguistics(Volume 1:Long Papers).2018:1554-1564.)中提出了Lattice LSTM,Lattice LSTM是第一种从外部词典中获取潜在的单词信息并将其合并到基于字符的中文命名实体模型的方法,在不依赖于分词结果的情况下引入了词语信息,避免了由于分词导致的误差传播。R Ma等人在其发表的论文“Simplify the Usage of Lexiconin Chinese NER”(Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics.2020:5951-5960.)中提出了SoftLexicon,SoftLexicon将词汇信息整合到字符表示中,从而避免复杂的建模结构,这些通过外部词典将单词信息注入模型的方法在几个中文NER数据集上取得了有前景的结果。然而,在将词典信息整合到字符表示中后,现有的方法大多忽略了汉字额外的信息(如笔画、拼音等),这些信息已被证明有利于提升中文NER模型的性能。引入了多种外部信息后,如何将它们有效融入到模型中也是一个关键问题。此外,现有的基于词汇增强的方法都是直接基于匹配词的词频作为其权重,没有很好地捕捉不同语境下字符与词汇的不同关联性。 现有技术通过整合外部词典信息以弥补基于字符的中文命名实体方法丢失的词汇信息和词边界信息。这些方法往往忽略汉字的额外信息(如笔画、拼音等),这些信息可进一步丰富特征表示,对提升模型性能非常有帮助。此外,现有方法多基于词频作为权重,未能充分捕捉不同语境下字符与词汇的关联性。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
刘若辰  杨嘉辉  张西龙  吕浩源
技术所属: 西安电子科技大学
相关技术
基于DQN算法的重型卡车电池系统智能决策方法及相关设备 基于DQN算法的重型卡车电池系统智能决策方法及相关设备
一种基于引力交通模型的历史文化资源结构关系提取及可视化方法与系统 一种基于引力交通模型的历史文化资源结构关系提取及可视化方法与系统
一种超声内检测管道裂纹的三维数值模拟方法 一种超声内检测管道裂纹的三维数值模拟方法
一种重要性感知的大模型前缀KV重排方法和系统 一种重要性感知的大模型前缀KV重排方法和系统
一种多模态信息映射的视觉语言模型窃取攻击方法及系统 一种多模态信息映射的视觉语言模型窃取攻击方法及系统
基于表示学习的风光储调度规则挖掘方法与系统 基于表示学习的风光储调度规则挖掘方法与系统
一种多维度零件机加工艺的相似性评价方法 一种多维度零件机加工艺的相似性评价方法
一种基于强化学习进行布局调整的芯片宏元件放置方法 一种基于强化学习进行布局调整的芯片宏元件放置方法
一种基于MBSE的汽车自动驾驶系统建模方法 一种基于MBSE的汽车自动驾驶系统建模方法
一种用于工程车辆的通过噪声预测方法及装置 一种用于工程车辆的通过噪声预测方法及装置
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利