用户定位导向的地理词向量生成技术
2025-02-16 12:36
No.1340663022221533184
技术概要
PDF全文
本技术涉及自然语言处理技术,提出了一种用户定位导向的地理词向量生成技术。该技术通过整合地理实体及其相关联的文本语料,构建出地理语料库,并在此基础上发展出一套地理词向量构建流程,旨在提升地理信息处理的准确性和效率。
背景技术
以深度学习为基础的地名识别方法备受关注,通过将大量语料在预训练模型上训练出地理词向量后,输入到神经网络模型并进行学习以完成地理实体识别任务。当前,对于地理词向量模型的研究主要有one-hot、Word2Vec等模型,但是它们均存在着以下几个问题:1)无法联系前后文信息;2)无法动态表达词语的多义性。尤其对于地理领域,存在一些缩写地名或者复杂地名,导致地名词向量特征表达能力较弱。 基于神经网络的深度学习技术在文本地理信息识别中引入了词向量来表示词语。词向量是一种从大规模文本数据里学习以及提取词语特征信息的一种方法,其将文本的各种前后文关系转换成数学向量的形式。深度学习将地理词向量利用神经网络学习出特征,既避免了复杂的手动提取,同时拥有了良好的一般化能力。早期Hammerton等人利用神经网络研究NER技术,采用了序列建模能力出色的单方向长短期记忆网络(LSTM),所以LSTM-CRF模型成为NER的主流技术,而Guillaume Lample等人借鉴其思想提出了双方向的长短期记忆网络模型(BiLSTM)和条件随机场模型(CRF)相结合的神经网络模型,能够获得双向的上下文关系,在后来的地理信息识别相关任务中进行了普遍运用。 然而以上方法都存在这样的两个问题:首先,随着任务复杂度的增加,深度学习的模型要训练的数据量也同时增加,由于训练数据通常需要人工标记,因此海量训练数据的获取成本非常高,这使得训练或者改进模型成为了一项耗时耗力的工程,非常不利于深度模型的推广和应用。其次,当前地理领域的命名实体识别任务中所搭建的地理词向量训练模型无法表示一词多义现象,因为这些模型只提取字词特征,没有考虑到前后文的关联,导致最终训练出静态地理词向量,使得地理命名实体识别能力下降。 为了解决第一个问题,人们尝试将深度学习过程中产生的具有共性的知识提取出来用于具有相关性的机器学习任务中去,基于这种重用思想,迁移学习(Transferlearning)将一个完整的训练任务划分为两个步骤:预训练(pre-train)和微调训练(finetuning)。 预训练阶段:这个阶段的训练目标是生成包含可重用知识的模型——预训练模型。为了使得更多不同的任务能从中受益,预训练模型要包含尽量多的可重用知识,因此预训练模型都非常复杂。这类复杂模型只能靠海量数据来进行训练,这个阶段会耗费大量的计算资源。虽然耗费巨大,但是由于可以实现一次投入、重复利用,因此人们仍然会在预训练上持续投入大量的资源。 微调阶段:根据任务的需要,在预训练模型的基础上,设计并增加相应的微调任务层。该阶段的主要目的是训练微调任务层的参数,由于微调任务层通常不会很复杂,参数数量比较少,因此可以使用较少的训练数据完成训练工作。 为解决第二个问题,Google团队Jacob Devlin等人发明了基于迁移学习的BERT语言预处理模型用于表征单个词向量,BERT模型是在33亿以上数量级的各类文本语料库上训练的一种语言模型,然后根据不同的指定任务进行微调,该模型在11个不同的NLP任务中取得了迄今为止最好的结果。黄志恒等人用实验证明了BiLSTM-CRF模型在序列标注任务中确实有较好的表现。Jason P.CChiu和Eric Nichols等人将BiLSTM模型和CRF网络相结合,该深度学习方法的F1值为2.3%,高于On-toNotes 5.0数据集上的最佳结果。基于此模型现已成为NER等任务的一种先进模型。 综上所述,文本地理信息识别在早期主要采用规则匹配方法和统计方法,近年来主要采用迁移学习与深度学习方法,但是都还存在着地理词向量特征单一和对于特殊地名不能精准提取等问题。目前融合BERT模型与地名识别网络(BiLSTM-CRF模型)较少,特别是在图像地理定位方面的应用就更少了。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
朱玛  杨春芳  方萌  胡雪丽  杨爽  乔亚琼  曾雨葳
技术所属: 中国人民解放军网络空间部队信息工程大学
相关技术
一种基于属性感知的Web网页信息抽取方法及装置 一种基于属性感知的Web网页信息抽取方法及装置
一种场景问答模型生成方法及装置 一种场景问答模型生成方法及装置
社交媒体特征数据的预估方法及装置 社交媒体特征数据的预估方法及装置
一种基于数字孪生的双向DC/DC变换器状态监测方法 一种基于数字孪生的双向DC/DC变换器状态监测方法
基于模仿学习的驾驶培训教学方法及系统 基于模仿学习的驾驶培训教学方法及系统
一种多参与方监理数据管理方法 一种多参与方监理数据管理方法
风电低出力事件判别及功率预测模型训练方法及装置 风电低出力事件判别及功率预测模型训练方法及装置
一种基于贪心策略的抗社交网络用户身份关联方法 一种基于贪心策略的抗社交网络用户身份关联方法
直流变换器故障诊断方法、装置、设备、介质及程序产品 直流变换器故障诊断方法、装置、设备、介质及程序产品
一种商业秘密保护泄密点分析的方法 一种商业秘密保护泄密点分析的方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利