用户定位导向的地理词向量生成技术

123技术园

首页 / 技术内容

用户定位导向的地理词向量生成技术

2025-02-16 12:36

No.1340663022221533184

技术概要

PDF全文

本技术涉及自然语言处理技术，提出了一种用户定位导向的地理词向量生成技术。该技术通过整合地理实体及其相关联的文本语料，构建出地理语料库，并在此基础上发展出一套地理词向量构建流程，旨在提升地理信息处理的准确性和效率。

背景技术

以深度学习为基础的地名识别方法备受关注，通过将大量语料在预训练模型上训练出地理词向量后，输入到神经网络模型并进行学习以完成地理实体识别任务。当前，对于地理词向量模型的研究主要有one-hot、Word2Vec等模型,但是它们均存在着以下几个问题：1)无法联系前后文信息；2)无法动态表达词语的多义性。尤其对于地理领域，存在一些缩写地名或者复杂地名，导致地名词向量特征表达能力较弱。基于神经网络的深度学习技术在文本地理信息识别中引入了词向量来表示词语。词向量是一种从大规模文本数据里学习以及提取词语特征信息的一种方法，其将文本的各种前后文关系转换成数学向量的形式。深度学习将地理词向量利用神经网络学习出特征，既避免了复杂的手动提取，同时拥有了良好的一般化能力。早期Hammerton等人利用神经网络研究NER技术，采用了序列建模能力出色的单方向长短期记忆网络(LSTM)，所以LSTM-CRF模型成为NER的主流技术，而Guillaume Lample等人借鉴其思想提出了双方向的长短期记忆网络模型(BiLSTM)和条件随机场模型(CRF)相结合的神经网络模型，能够获得双向的上下文关系，在后来的地理信息识别相关任务中进行了普遍运用。然而以上方法都存在这样的两个问题:首先，随着任务复杂度的增加，深度学习的模型要训练的数据量也同时增加，由于训练数据通常需要人工标记，因此海量训练数据的获取成本非常高，这使得训练或者改进模型成为了一项耗时耗力的工程，非常不利于深度模型的推广和应用。其次，当前地理领域的命名实体识别任务中所搭建的地理词向量训练模型无法表示一词多义现象，因为这些模型只提取字词特征，没有考虑到前后文的关联，导致最终训练出静态地理词向量，使得地理命名实体识别能力下降。为了解决第一个问题，人们尝试将深度学习过程中产生的具有共性的知识提取出来用于具有相关性的机器学习任务中去，基于这种重用思想，迁移学习(Transferlearning)将一个完整的训练任务划分为两个步骤：预训练(pre-train)和微调训练(finetuning)。预训练阶段：这个阶段的训练目标是生成包含可重用知识的模型——预训练模型。为了使得更多不同的任务能从中受益，预训练模型要包含尽量多的可重用知识，因此预训练模型都非常复杂。这类复杂模型只能靠海量数据来进行训练，这个阶段会耗费大量的计算资源。虽然耗费巨大，但是由于可以实现一次投入、重复利用，因此人们仍然会在预训练上持续投入大量的资源。微调阶段：根据任务的需要，在预训练模型的基础上，设计并增加相应的微调任务层。该阶段的主要目的是训练微调任务层的参数，由于微调任务层通常不会很复杂，参数数量比较少，因此可以使用较少的训练数据完成训练工作。为解决第二个问题，Google团队Jacob Devlin等人发明了基于迁移学习的BERT语言预处理模型用于表征单个词向量，BERT模型是在33亿以上数量级的各类文本语料库上训练的一种语言模型，然后根据不同的指定任务进行微调，该模型在11个不同的NLP任务中取得了迄今为止最好的结果。黄志恒等人用实验证明了BiLSTM-CRF模型在序列标注任务中确实有较好的表现。Jason P.CChiu和Eric Nichols等人将BiLSTM模型和CRF网络相结合，该深度学习方法的F1值为2.3％，高于On-toNotes 5.0数据集上的最佳结果。基于此模型现已成为NER等任务的一种先进模型。综上所述，文本地理信息识别在早期主要采用规则匹配方法和统计方法，近年来主要采用迁移学习与深度学习方法，但是都还存在着地理词向量特征单一和对于特殊地名不能精准提取等问题。目前融合BERT模型与地名识别网络(BiLSTM-CRF模型)较少，特别是在图像地理定位方面的应用就更少了。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

朱玛杨春芳方萌胡雪丽杨爽乔亚琼曾雨葳

技术所属：中国人民解放军网络空间部队信息工程大学

相关技术

一种基于属性感知的Web网页信息抽取方法及装置  一种基于属性感知的Web网页信息抽取方法及装置 
 本发明公开一种基于属性感知的Web网页信息抽取方法及装置，属于网页信息抽取技术领域。包括:爬取给定目标网站的原始网页数据，将其保存下来作为模型的原始输入，在原始数据上对数据进行预处理，去除script等原始数据中无用的标签输入，减少输入模型的噪声信息；提取网页中的变量节点，构造输入模型的token序列和xpath序列，同时记录序列的位置信息，在预训练模型的基础上增加属性感知嵌入模块，使得预训练模型模型能够感知到性的模式信息，将输入信息的嵌入通过一个分类层，模型输出Web页面信息抽取的最终结果。该方法能够提高Web页面信息抽取的准确率，为下游任务提供丰富的结构化知识，促进下游任务的发展。
一种场景问答模型生成方法及装置  一种场景问答模型生成方法及装置 
 本发明提供一种场景问答模型生成方法及装置，涉及人工智能技术领域。所述方法包括:获取各个预设性格类型对应的多个样本问答对；针对每个所述预设性格类型，使用所多个样本问答对训练基础模型，得到预设性格类型对应的性格模型；利用性格模型生成场景问题对应的场景答复，并基于场景答复获取所述性格模型的偏好分数；基于每个性格模型的偏好分数，将所有性格模型融合为指定场景下的目标问答模型。本发明融合得到的目标问答模型在回答指定场景中的问题时，可给出更加符合用户偏好的回答，可有效提升问答模型在指定场景中的对话自然度。
社交媒体特征数据的预估方法及装置  社交媒体特征数据的预估方法及装置 
 本发明实施例中提供了一种社交媒体特征数据的预估方法、装置及电子设备，属于数据处理技术领域，该方法包括:对采集到的多个社交媒体数据进行数据清洗与格式化操作，得到标准数据；对构建的预测数据D={D1,D2,D3}按时间顺序整理，并将整理后的预测数据分割为训练集和测试集，使用训练集训练LSTM模型，通过调整权重和偏置项最小化预测误差，在训练完成后，将新的目标特征传播量数据输入LSTM模型，基于学习到的模式输出未来预设时间段内的目标特征传播量预测值D4；利用图表库生成目标特征传播量的趋势图、情感分析图和用户互动图。本发明提高了社交媒体特征数据预估的准确性。
一种基于数字孪生的双向DC/DC变换器状态监测方法  一种基于数字孪生的双向DC/DC变换器状态监测方法 
 本发明公开了一种基于数字孪生的双向DC/DC变换器状态监测方法。方法包括建立基于状态空间模型的数字孪生模型；采集双向DC/DC变换器实际运行时的电感电流和输出电压；根据实际运行时的电感电流和输出电压和电感初始值、电容初始值和电阻初始值，利用数字孪生模型，获得电感电流和输出电压的计算值；将实际值与计算值进行比较，计算模型误差；根据模型误差不断迭代更新双向DC/DC变换器的电感、电容和电阻；直至模型误差符合预设误差要求为止；将最后一次迭代更新的电感、电容和电阻，与正常情况下及各种故障情况下的电感、电容和电阻进行比较，实现了各元件状态的检测。本发明方案可实现双向DC/DC变换器各元件的故障检测。
基于模仿学习的驾驶培训教学方法及系统  基于模仿学习的驾驶培训教学方法及系统 
 本发明提供基于模仿学习的驾驶培训教学方法及系统，涉及智驾技术领域，包括获取多个人类驾驶员在多种驾驶场景下的驾驶行为示范数据，并提取所述驾驶行为示范数据中的驾驶行为特征；基于所述驾驶行为示范数据计算人类驾驶员的实际驾驶行为轨迹的第一特征期望；采用强化学习算法优化智能体的驾驶策略，通过所述智能体在模拟环境中执行所述驾驶策略得到智能体的模拟驾驶行为轨迹计算第二特征期望；通过最小化所述第一特征期望与所述第二特征期望之间的差异并且结合生成对抗网络交替优化更新所述隐含奖励函数的参数；将所述智能体驾驶策略用于所述智能体的辅助驾驶决策。
一种多参与方监理数据管理方法  一种多参与方监理数据管理方法 
 本发明具体涉及一种多参与方监理数据管理方法，包括步骤:为所有监理参与方创建分布式数字身份；定义监理数据的不同类别及其敏感级别；当某个监理参与方需要获取监理数据时，该参与方需向监理单位发起数据授权请求；监理单位接收到请求后，基于请求方的身份验证和数据访问规则，决定是否批准请求；如果请求被批准，监理单位将通过自己的身份私钥和请求方的分布式数字身份颁发一个可验证声明；施工单位在收到可验证声明后，将其连同数据获取请求一起发送给数据提供方；数据提供方接收到请求后，提取可验证声明中的信息；数据提供方使用请求方的身份公钥对可验证声明进行验签，确认无误后根据可验证声明中的授权范围提供相应的监理数据。
风电低出力事件判别及功率预测模型训练方法及装置  风电低出力事件判别及功率预测模型训练方法及装置 
 本公开提供了一种风电低出力事件判别及功率预测模型训练方法及装置，涉及风电功率预测技术领域，所述方法包括:对历史风电数据进行主成分分析，对主成分分析结果进行聚类，确定风电低出力事件对应的数据，构成样本集；对样本集中的至少一个气象要素和至少一个气象要素对应的风电功率点进行风电低出力事件类型的标注；基于样本集对风电低出力事件分类模型进行训练，基于样本集对不同风电低出力事件对应的风电低出力功率预测模型进行训练，如此，在后续功率预测场景中，可以根据不同风电低出力事件进行预测，增加风电功率短期功率预测的精度，提高风电功率预测结果对电力调度的积极意义。
一种基于贪心策略的抗社交网络用户身份关联方法  一种基于贪心策略的抗社交网络用户身份关联方法 
 本发明涉及社交网络分析技术领域，公开了一种基于贪心策略的抗社交网络用户身份关联方法。为了有效建模和求解抗社交网络用户身份关联问题并平衡成本与收益，提出了一种基于贪心策略的账号注入方案，将对用户身份关联模型的攻击问题建模为最大化确定的错误配对数量问题，让这些配对的相似度得分一定大于现有账号对之间的相似度得分，从而使对社交网络用户身份关联的攻击问题可解；基于贪心策略采用基于账号网络角色的脆弱性评估方法来识别脆弱性，实现从易到难的渐进式攻击；同时设计了一种基于贪心策略的注入策略搜索方法，用以确定应在注入账号和哪些现有账号之间发起好友连接，从而以低成本实现高效攻击。
直流变换器故障诊断方法、装置、设备、介质及程序产品  直流变换器故障诊断方法、装置、设备、介质及程序产品 
 本发明公开了一种直流变换器故障诊断方法、装置、设备、介质及程序产品，该方法包括:采集直流变换器的历史运行数据和故障样本数据，对历史运行数据和故障样本数据进行预处理，获得数据集，基于数据集构建核函数，构建原始模型，并基于核函数对原始模型进行训练和优化，获得故障诊断模型，原始模型包括支持向量机，采集直流变换器的实时运行数据，并对实时运行数据进行预处理，将预处理后的实时运行数据输入至故障诊断模型进行故障诊断，获得直流变换器的故障概率和故障类型，从而实现对直流变换器的运行状态进行监测，确保故障诊断时效性，有效地提升故障诊断的准确性，为故障处理提供可靠的诊断结果，提升故障处理的响应速度。
一种商业秘密保护泄密点分析的方法  一种商业秘密保护泄密点分析的方法 
 本发明公开了一种商业秘密保护泄密点分析的方法，包括如下步骤:调查得到每个部门员工涉及的数据资产；将数据资产的数据放入数据库；调查部门数据资产流转规则，将不同部门员工数据整合成基础的数据表，对每个数据表加标签，并对数据做替换处理；根据流转规则对数据表做关联处理得到不同的数据关联表；将不同的数据关联表的数据提取，与各个秘密保护单元做差异分析；做出泄密点分析报告；通过本发明的分析方法，借助常规的工具，可将众多隐藏在貌似合理的业务流程中的泄密风险点挖掘出来，做到全面的商业秘密保护工作；通过数据替换，借助常规分析工具的同时能做到分析处理过程中商业秘密的防泄漏性。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工