中文实体识别：词汇增强与字符信息融合技术

123技术园

首页 / 技术内容

2025-02-13 10:19

No.1339541418968096768

技术概要

PDF全文

本技术介绍了一种融合词汇增强和字符外部信息的中文实体识别技术。该技术突破了传统方法的局限，通过整合汉字的外部信息和动态调整词频匹配词权重，有效提升了实体识别的准确性。

背景技术

命名实体识别(NER)的目的是从句子中检测实体，并识别预先定义的类型，如人名、地点和机构。命名实体识别是许多下游自然语言处理(NLP)问题的基础，如知识图谱、信息检索、问答系统、和机器翻译等。中文作为世界上使用人数最多的语言之一，在国际交流、商务往来和文化传播中扮演着越来越重要的角色。互联网的普及带来了大量中文文本数据，包括社交媒体、新闻报道和学术文章等。中文命名实体识别技术能够从中提取关键信息，帮助用户迅速找到所需内容，从而提高信息检索和处理的效率。早期的命名实体识别方法主要是基于人工编写的规则和词典在文本中匹配命名实体。但是这些规则往往和领域、语言文本风格是强相关的，规则和词典的建立依赖于专家的知识且制作极为耗时。此外，这类系统的可移植性很差，不便于跨场景使用。基于统计的方法将NER任务转换为序列标记任务，并使用人工标记的语料库进行训练。数据标记的成本远低于设计规则的成本，且基于统计的方法是通用的，不需要太多手工设计的规则，在深度学习爆发之前逐渐成为主流方法。常用的统计模型包括条件随机场、隐马尔可夫模型、最大熵模型等等。但是基于统计的方法依赖于人工设计特征，如词性、字形特征等等，这需要领域专家的知识和经验，错误的特征设计将严重影响模型性能。近年来，深度学习在NLP领域取得了显著突破。将深度学习应用于命名实体识别时，深度学习可以在无需复杂的特征工程和丰富的领域知识的前提下，学习到复杂的隐藏表示。此外，基于深度学习的命名实体识别方法泛化性亦更强、更通用。因此，基于深度学习的命名实体识别方法相较传统的基于规则的方法和基于统计的方法使用更加广泛，识别精度也更高。基于深度学习的命名实体识别方法此前已有很多研究，但主要集中在英文命名实体识别。中文命名实体识别相较于英文命名实体识别更加困难，这主要体现在两方面。首先中英文的显著不同点是中文的基本单位是汉字，而英文是单词，中文没有英文中像空格这样明显的分隔符。其次，英文中很多实体都有明显的特征，即首字母大写。这导致中文实体的边界识别更为困难，而英文实体识别主要任务集中在识别实体的类型。由于汉语中没有明确的分隔符，因此早期的研究大多都会在进行中文NER之前先去分词。然而，汉语分词中的错误可能导致实体边界的错误识别，从而影响模型性能。近期提出的NER方法都是基于字符的，基于字符的方法可以消除分词错误，但同时又丢失了单词信息。在中文NER中，单词信息和词汇边界信息是至关重要的。最近的一些基于词汇增强的NER方法利用外部词典来补充丢失掉的词汇信息，通过将词典中的词汇信息集成到字符级别的表示层中，使得NER模型能够更准确地捕捉语言中的实体信息。Zhang Y等人在其发表的论文“Chinese NER using lattice LSTM”(Annual Meeting of the Association forComputational Linguistics(Volume 1:Long Papers).2018:1554-1564.)中提出了Lattice LSTM，Lattice LSTM是第一种从外部词典中获取潜在的单词信息并将其合并到基于字符的中文命名实体模型的方法，在不依赖于分词结果的情况下引入了词语信息，避免了由于分词导致的误差传播。R Ma等人在其发表的论文“Simplify the Usage of Lexiconin Chinese NER”(Proceedings of the 58th Annual Meeting of the Association forComputational Linguistics.2020:5951-5960.)中提出了SoftLexicon，SoftLexicon将词汇信息整合到字符表示中，从而避免复杂的建模结构，这些通过外部词典将单词信息注入模型的方法在几个中文NER数据集上取得了有前景的结果。然而，在将词典信息整合到字符表示中后，现有的方法大多忽略了汉字额外的信息(如笔画、拼音等)，这些信息已被证明有利于提升中文NER模型的性能。引入了多种外部信息后，如何将它们有效融入到模型中也是一个关键问题。此外，现有的基于词汇增强的方法都是直接基于匹配词的词频作为其权重，没有很好地捕捉不同语境下字符与词汇的不同关联性。现有技术通过整合外部词典信息以弥补基于字符的中文命名实体方法丢失的词汇信息和词边界信息。这些方法往往忽略汉字的额外信息(如笔画、拼音等)，这些信息可进一步丰富特征表示，对提升模型性能非常有帮助。此外，现有方法多基于词频作为权重，未能充分捕捉不同语境下字符与词汇的关联性。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

刘若辰杨嘉辉张西龙吕浩源

技术所属：西安电子科技大学

相关技术

基于DQN算法的重型卡车电池系统智能决策方法及相关设备  基于DQN算法的重型卡车电池系统智能决策方法及相关设备 
 本发明公开了一种基于DQN算法的重型卡车电池系统智能决策方法及相关设备，首先分析了重型卡车电池系统的组成结构和运行能量流动关系，构建了详细的电池能耗计算模型；接着，从能耗计算模型中抽象出约束条件和优化目标，并将决策问题转化为马尔可夫决策过程；通过设计深度强化学习的状态、动作和奖励函数，构建了DQN模型，并利用历史数据进行训练，生成了能够根据当前状态选择最优动作的智能模型；系统实时获取电池的状态，并通过训练好的DQN模型计算最优动作，动态调整电池的能量分配和温度控制，从而实现能耗的最小化和系统性能的最优化。本发明能显著提升重型卡车的能源效率和系统性能，提高了车辆的整体运行效率和安全性。
一种基于引力交通模型的历史文化资源结构关系提取及可视化方法与系统  一种基于引力交通模型的历史文化资源结构关系提取及可视化方法与系统 
 本发明涉及信息提取与可视化领域，具体是一种基于引力交通模型的历史文化资源结构关系提取及可视化方法与系统。本发明通过对目标范围内的历史文化资源进行文本分析处理与地理空间分析，量化提取各历史文化资源的影响指数、两两间关联强度系数及最短路径距离。然后基于以上数据应用引力模型计算历史文化资源间的空间关联强度，并在数字化路网空间中进行分配，生成基于现实路网空间的历史文化资源空间结构的可视化成果。相较于既有分析方法，本发明有效提高了历史文化资源结构分析的科学性、准确性与客观性，具有广泛的应用前景与推广潜力。
一种超声内检测管道裂纹的三维数值模拟方法  一种超声内检测管道裂纹的三维数值模拟方法 
 本发明公开了一种超声内检测管道裂纹的三维数值模拟方法，该方法包括如下步骤:S1：根据超声传播过程建立三维几何模型；S2：添加各部分对应的材料属性；S3：使用压力声学、瞬态、固体力学、静电、电路设置传播过程及几何模型的边界条件；S4：使用多物理场声‑结构边界耦合液固边界，使用压电效应耦合静电和固体力学物理场；S5：在被测管道内部设置裂纹缺陷；S6：使用自由三角形、扫掠、自由四面体进行实体单元网格划分；S7：添加研究，设置求解器类型进行模拟计算。本发明可用于裂纹缺陷的超声内检测，推动了针对裂纹检测仅有二维平面模型检测的发展，可直观观测到超声波传播的过程。
一种重要性感知的大模型前缀KV重排方法和系统  一种重要性感知的大模型前缀KV重排方法和系统 
 本发明公开了一种重要性感知的大模型前缀KV重排方法和系统，包括:通过重要信息采集模块根据历史查询和前缀的计算结果，判断出基数树中每个节点内的所有token是否为重要的；通过前缀KV重排模块读取包含Imp序列的K或V的数据块到CPU内存中，然后将其中重要的token对应的K或V重新放置在一个数据块中，不重要的token对应的K或V放置在其他的数据块中；元数据更新模块根据重排后的token顺序，更新每个基数树节点中的序列，把重要的token放在前面，不重要的放在后面。本发明缓解了读放大问题，进一步减少磁盘的数据读取量；降低前缀KV复用时的加载时间，从而缩短大模型推理时产生第一个token的时间。
一种多模态信息映射的视觉语言模型窃取攻击方法及系统  一种多模态信息映射的视觉语言模型窃取攻击方法及系统 
 本发明公开了一种多模态信息映射的视觉语言模型窃取攻击方法及系统，该方法包括:基于第一数据集对第一视觉语言模型进行微调；选择初始替代模型；将第二数据集输入至目标模型和所述初始替代模型，反向传播图文映射联合损失函数，更新初始替代模型的参数，得到最终替代模型；将第三数据集输入至所述最终替代模型，计算最终替代模型的检索准确率。该系统包括：数据集划分模块、微调模块、预选模块、模型训练模块和检测模块。本发明能够在黑盒场景下有效窃取视觉语言模型的功能，并且不受训练数据集分布是否相同的影响，为研究视觉语言模型等多模态模型的潜在安全性及防御方法提供了新的思路和帮助。本发明可广泛应用于信息安全领域。
基于表示学习的风光储调度规则挖掘方法与系统  基于表示学习的风光储调度规则挖掘方法与系统 
 本发明公开一种基于表示学习的风光储调度规则挖掘方法与系统，方法包括以下步骤:基于风光储调度历史数据，构建知识图谱；结合逻辑规则演绎性，利用关系路径编码模型将知识图谱中较长的规则路径递归分解为单个规则头，并输出规则得分；使用路径闭合预测模型衡量推导出的规则头与实际目标关系之间的差距；评估并选择高质量的规则，构建调度规则集。本发明具有规则挖掘效率高、可解释性强等特点，可以为风光储系统的智能调度决策提供有力支持。
一种多维度零件机加工艺的相似性评价方法  一种多维度零件机加工艺的相似性评价方法 
 本申请公开了一种多维度零件机加工艺的相似性评价方法，其属于机加工艺领域。获取多个样本零件数据，所述样本零件数据包括样本零件的材料信息、样本零件的加工过程信息以及样本零件的成品参数；基于样本零件的材料信息对多个样本零件数据进行归类，得到每一个样本零件数据的分类；基于样本零件的加工过程信息创建样本零件的相似度评价优先级；基于样本零件数据的分类并结合样本零件的成品参数，对样本零件的加工过程信息进行相似度评价，得到不同样本零件数据之间的相似度。本申请的有益效果在于提供了一种将现有的工艺知识进行高效的多维度零件机加工艺的相似性评价方法。
一种基于强化学习进行布局调整的芯片宏元件放置方法  一种基于强化学习进行布局调整的芯片宏元件放置方法 
 本发明公开一种基于强化学习进行布局调整的芯片宏元件放置方法，使用强化学习来学得如何调整现有的布局而不是从头放置元件，从而为策略提供足够的信息，并获得相对密集和准确的奖励。此外，本方法在训练过程中引入了规整度这一概念，这是芯片设计行业中被视为重要指标，但当前强化学习布局方法中常被忽视。本方法在ICCAD 2015基准测试中进行评估，与几种竞争方法相比能够改进半周长布线长度和规整度。使用商业软件测试芯片的功耗、表现、面积性能，结果表明所提出的布局调整方法能够实现显著的PPA改进。此外，本方法能够对任何方法的布局进行微调，提升其质量。
一种基于MBSE的汽车自动驾驶系统建模方法  一种基于MBSE的汽车自动驾驶系统建模方法 
 本发明属于复杂系统设计、基于模型的系统工程技术领域，具体涉及一种基于MBSE的汽车自动驾驶系统建模方法。该方法具体过程为:步骤一：子系统级需求分析，步骤二：子系统级功能架构分析，步骤三：组件级功能分析，步骤四：组件级逻辑架构设计，步骤五：子系统级逻辑架构设计，步骤六：组件级物理架构设计，步骤七：子系统级物理架构设计。该方法支持自动驾驶系统全流程建模，确保模型在各个层次上的一致性和完整性。
一种用于工程车辆的通过噪声预测方法及装置  一种用于工程车辆的通过噪声预测方法及装置 
 本发明提供一种用于工程车辆的通过噪声预测方法及装置，涉及工程车辆技术领域。该方法包括:将工程车辆物理模型进行声源划分，获得车辆噪声声源；对工程车辆的通过噪声急加速区域进行位置划分，获得工况点位；基于车辆噪声声源以及工况点位进行车辆参数计算，得到转速数据以及扭矩数据；基于转速数据以及扭矩数据，根据工程车辆基础数据，通过声学试验进行特性数据采集，获得声源声学特性；基于车辆噪声声源，根据工程车辆基础数据进行噪声传递计算，得到噪声传递函数；根据声源声学特性以及噪声传递函数进行瞬态噪声关联预测，获得工程车辆的通过噪声预测结果。本发明是一种针对工程车辆的高效且准确的噪声预测方法。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工