本技术涉及自然语言处理技术,提出了一种用户定位导向的地理词向量生成技术。该技术通过整合地理实体及其相关联的文本语料,构建出地理语料库,并在此基础上发展出一套地理词向量构建流程,旨在提升地理信息处理的准确性和效率。
背景技术
以深度学习为基础的地名识别方法备受关注,通过将大量语料在预训练模型上训练出地理词向量后,输入到神经网络模型并进行学习以完成地理实体识别任务。当前,对于地理词向量模型的研究主要有one-hot、Word2Vec等模型,但是它们均存在着以下几个问题:1)无法联系前后文信息;2)无法动态表达词语的多义性。尤其对于地理领域,存在一些缩写地名或者复杂地名,导致地名词向量特征表达能力较弱。
基于神经网络的深度学习技术在文本地理信息识别中引入了词向量来表示词语。词向量是一种从大规模文本数据里学习以及提取词语特征信息的一种方法,其将文本的各种前后文关系转换成数学向量的形式。深度学习将地理词向量利用神经网络学习出特征,既避免了复杂的手动提取,同时拥有了良好的一般化能力。早期Hammerton等人利用神经网络研究NER技术,采用了序列建模能力出色的单方向长短期记忆网络(LSTM),所以LSTM-CRF模型成为NER的主流技术,而Guillaume Lample等人借鉴其思想提出了双方向的长短期记忆网络模型(BiLSTM)和条件随机场模型(CRF)相结合的神经网络模型,能够获得双向的上下文关系,在后来的地理信息识别相关任务中进行了普遍运用。
然而以上方法都存在这样的两个问题:首先,随着任务复杂度的增加,深度学习的模型要训练的数据量也同时增加,由于训练数据通常需要人工标记,因此海量训练数据的获取成本非常高,这使得训练或者改进模型成为了一项耗时耗力的工程,非常不利于深度模型的推广和应用。其次,当前地理领域的命名实体识别任务中所搭建的地理词向量训练模型无法表示一词多义现象,因为这些模型只提取字词特征,没有考虑到前后文的关联,导致最终训练出静态地理词向量,使得地理命名实体识别能力下降。
为了解决第一个问题,人们尝试将深度学习过程中产生的具有共性的知识提取出来用于具有相关性的机器学习任务中去,基于这种重用思想,迁移学习(Transferlearning)将一个完整的训练任务划分为两个步骤:预训练(pre-train)和微调训练(finetuning)。
预训练阶段:这个阶段的训练目标是生成包含可重用知识的模型——预训练模型。为了使得更多不同的任务能从中受益,预训练模型要包含尽量多的可重用知识,因此预训练模型都非常复杂。这类复杂模型只能靠海量数据来进行训练,这个阶段会耗费大量的计算资源。虽然耗费巨大,但是由于可以实现一次投入、重复利用,因此人们仍然会在预训练上持续投入大量的资源。
微调阶段:根据任务的需要,在预训练模型的基础上,设计并增加相应的微调任务层。该阶段的主要目的是训练微调任务层的参数,由于微调任务层通常不会很复杂,参数数量比较少,因此可以使用较少的训练数据完成训练工作。
为解决第二个问题,Google团队Jacob Devlin等人发明了基于迁移学习的BERT语言预处理模型用于表征单个词向量,BERT模型是在33亿以上数量级的各类文本语料库上训练的一种语言模型,然后根据不同的指定任务进行微调,该模型在11个不同的NLP任务中取得了迄今为止最好的结果。黄志恒等人用实验证明了BiLSTM-CRF模型在序列标注任务中确实有较好的表现。Jason P.CChiu和Eric Nichols等人将BiLSTM模型和CRF网络相结合,该深度学习方法的F1值为2.3%,高于On-toNotes 5.0数据集上的最佳结果。基于此模型现已成为NER等任务的一种先进模型。
综上所述,文本地理信息识别在早期主要采用规则匹配方法和统计方法,近年来主要采用迁移学习与深度学习方法,但是都还存在着地理词向量特征单一和对于特殊地名不能精准提取等问题。目前融合BERT模型与地名识别网络(BiLSTM-CRF模型)较少,特别是在图像地理定位方面的应用就更少了。
实现思路