一种基于相似度进行中文文本纠错的实现方法

123技术园

首页 / 技术内容

2025-02-22 09:32

No.1342791243230617600

技术概要

PDF全文

本技术提供了一种基于相似度进行中文文本纠错的实现方法，其特征在于，包括如下步骤:进行词库编译；利用编译好的词库，使用字哈希对待检测文本进行标记，得到一个待检测文本对应的序列，记录id；使用双字哈希对序列进行计算处理，找出待检测文本中所有与词库相似的词，计算后得到一个疑似相似词列表；对S3中所述的疑似相似词列表中的每个词进行相似度计算，保留相似度大于70的词，计算后得疑似错误列表；纠错。本发明可以提前查找中文文本可能存在的错误，大大减少了人力成本，并且能够提高现有文本纠错的检出率和正确率，具有广泛的应用前景，还可以应用于抄袭判断，文章查重等。

背景技术

目前，针对中文文本，错别字、敏感字都有一些相对不错的检测方案；针对错别字，有kenlm统计语言模型工具、transformer模型、conv_seq2seq模型、bert模型以及以bert为基础的改进模型等方式进行检测识别；针对敏感词，采用记录敏感词数据库，然后检测匹配的方式进行检测识别。虽然错别字和敏感词检测识别的精准率和召回率有待进步，但是检测结果可以给人提供一定的参考，大大减少了人工工作量。其中，在错别字识别方面，pycorrector是一个中文文本纠错工具。pycorrector依据语言模型检测错别字位置，通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。集成了上面提到的多种模型，并提供了针对多种模型的快速使用方式，比如：pycorrector集成bert检测识别错别字。但是现有的中文文本中纠错方法都不能找到所有错误。本文的方法也不能解决所有的问题，只是可以提高检出率和正确率。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

王宁张发雨孟奥党章王伦冯立二吴兴龙杨正云

技术所属：江苏致网科技有限公司.

相关技术

一种基于遥感数据分析的水稻产量预测系统 一种基于遥感数据分析的水稻产量预测系统
本发明属于水稻产量预测领域，涉及遥感数据分析技术，用于解决现有技术的水稻产量预测分析过程效率低下的问题，具体是一种基于遥感数据分析的水稻产量预测系统，包括稻田基础信息模块、遥感数据分析模块、历史数据匹配模块、产量预测模块以及种植优化模块；稻田基础信息模块、遥感数据分析模块、历史数据匹配模块、产量预测模块以及种植优化模块依次进行通信连接；稻田基础信息模块用于对需要进行水稻产量预估的稻田进行基础信息收集:将水稻种植地区标记为预测区域，获取预测区域的种植参数；本发明可以绘制生长系数与监测时间点的生长预测曲线，通过生长预测曲线比对的方式简化传统的水稻产量预测分析过程，提高预测分析的效率。
隐私算法构建方法、装置、电子设备和可读存储介质 隐私算法构建方法、装置、电子设备和可读存储介质
本申请提供了一种隐私算法构建方法、装置、电子设备和可读存储介质，其中，该方法包括:将原始函数的当前数值区间划分成M个数值区间；原始函数为用于隐私计算的平滑非线性函数；针对目标数值区间，根据该目标数值区间中的第一值和第二值，确定出该目标数值区间的目标阶数，该第一值为该目标数值区间中的最大绝对值，该第二值为最小绝对值，该目标数值区间为该M个数值区间中的任意一个数值区间；根据该原始函数，构建该目标数值区间的目标多项式，该目标多项式的最高阶数不大于该目标阶数；对当前得到的所有多项式集合进行融合，得到目标函数，该目标函数用于替换原始函数，用于隐私计算，目标函数的输入参数包括用于隐私计算的密态数据。
一种基于全生命周期法的架空输电线路工程建设碳排放计算方法  一种基于全生命周期法的架空输电线路工程建设碳排放计算方法 
 本发明公开了一种基于全生命周期法的架空输电线路工程建设碳排放计算方法，该计算方法包括以下步骤:S1、选用GB/T 51366‑2019《建筑碳排放计算标准》作为架空输电线路碳排放计算准则；S2、结合计算标准，选择以全生命周期法为理论基础，以碳排放因子法为主要计算方法进行组合计算；S3、对电能、化石燃料、机械设备、建筑材料的碳排放因子进行详细对比，并最终建立适用于架空输电线路工程建设的碳排放因子清单；本发明基于全生命周期法法，将碳排放量划分为三个关键阶段：车辆运输、建造过程以及建材使用，简化了对架空输电线路主要部件与整体结构分析的复杂性，降低了计算的工作量和计算成本，具有广泛的适用性。
一种船舶机电装备虚拟环境中故障排除维修系统  一种船舶机电装备虚拟环境中故障排除维修系统 
 本发明属于船舶机电装备虚拟环境中故障排除维修技术领域，涉及到一种船舶机电装备虚拟环境中故障排除维修系统。本发明通过构建目标船舶机电装备虚拟环境，并分析其评价情况，有助于构建更逼真的目标船舶机电装备虚拟环境，利于维修人员在其中进行故障的排除和维修演练，减少了实际维修的试错成本，提高了维修人员的实践能力和应急处理能力，通过分析各维修人员当前故障排除维修测试对应各故障模拟状态的评价指标，有助于维修人员发现并纠正自己在维修过程中的优势和不足，并进行有针对性的改进，通过分析各维修人员的故障排除维修测试的综合评价情况，识别出技能优秀的维修人员，制定各维修人员的个人发展计划。
一种基于邻域粒模糊c均值聚类的区域生态环境质量评价方法  一种基于邻域粒模糊c均值聚类的区域生态环境质量评价方法 
 本发明公开一种基于邻域粒模糊c均值聚类的区域生态环境质量评价方法，属于电数字数据处理技术领域，包括:基于云平台计算并重构遥感时序MODIS数据集，将生态因子进行标准化，对生态因子遥感影像基于邻域粒模糊c均值聚类划分为n个类别，利用改进的熵权法得到基于MODIS的综合遥感生态指数PRSEI，根据研究区的PRSEI得出年份区间的矿区生态环境质量变化。本发明将熵权法与邻域模糊c均值聚类算法实现有效融合，不仅保留了各个生态因子的全部遥感像元信息，过程清晰，有助于更好地分析和解决遥感生态等复杂的系统问题。
基于注意力引导特征蒸馏和原型对比对齐的联邦学习方法  基于注意力引导特征蒸馏和原型对比对齐的联邦学习方法 
 本发明公开了基于注意力引导特征蒸馏和原型对比对齐的联邦学习方法，通过结合注意力引导的特征蒸馏和原型对比对齐机制实现了在保护客户端隐私的同时提升联邦学习模型的个性化和泛化性能的功能。注意力引导的特征蒸馏技术用于解决历史信息遗忘问题，通过利用前一轮的本地特征提取器作为教师模型，并结合注意力机制指导新学生模型的学习，有效保留和传承客户端的个性化历史知识。原型对比对齐技术解决个性化与泛化之间的冲突问题，通过调整全局原型和本地原型之间的关系，并采用原型对比学习损失和原型对齐损失，增强模型在不同客户端数据上的区分能力，从而在保持个性化准确度的同时提高模型的泛化性能。
一种知识增强因果链推理的事件预测方法  一种知识增强因果链推理的事件预测方法 
 本发明公开了一种知识增强因果链推理的事件预测方法。其中，方法包括建立事件征候识别框架；获取事件文本，利用事件征候识别框架对事件文本进行事件摘要与分类，论元抽取与匹配操作，获得事件文本对应的匹配因果知识图；基于匹配因果知识图，使用蒙特卡洛模拟方法对与匹配因果知识图对应的事件征候进行推理和概率估计，确定事件征候发生的概率；并将匹配因果知识图中的节点信息格式化为事件征候推理的提示词，并将提示词输入事件征候识别框架中，获得事件征候发生概率。本发明提供的方案是在大型语料库中进行自监督预训练，无需利用大量的标注数据进行训练，因此，相比于深度学习模型，可显著降低成本。
一种航空发动机燃烧室寿命预测方法、装置、设备及介质  一种航空发动机燃烧室寿命预测方法、装置、设备及介质 
 本申请公开了一种航空发动机燃烧室寿命预测方法、装置、设备及介质，涉及寿命预测技术领域，获取对航空发动机的燃烧室分别进行高温燃烧试验和单轴拉伸试验所得到的第一试验数据和第二试验数据，对第一试验数据进行特征提取和特征融合，得到融合特征，基于第二试验数据计算得到疲劳损伤参数，以融合特征和疲劳损伤参数作为输入，利用训练好的寿命预测模型预测燃烧室的寿命，能够在寿命预测过程中充分捕捉微观结构变化对材料宏观力学性能的影响，从而可提高航空发动机燃烧室寿命预测的预测精度。
一种不确定条件下水库群调度区间多目标优化方法  一种不确定条件下水库群调度区间多目标优化方法 
 本发明公开了一种不确定条件下水库群调度区间多目标优化方法，属于水库优化调度技术领域，首先建立一种创新的梯级水库群区间多目标调度模型；其次提出一种双种群动态协同区间优化方法用以求解所提区间多目标调度模型，进一步获得水库群最优调度方案；最后输出水库群最优调度方案集；其中所提优化方法通过混沌‑秩序映射初始化策略、动态自适应互促更新策略以及精英指导优化策略的有机结合，从而快速、高效地寻优得到一组考虑径流不确定性的可靠、精确调度方案集合，为调度决策者提供了解决梯级水库群优化多目标复杂工程问题的有效决策技术手段，提高了水资源管理的智能化水平和综合性效益，进一步增强水资源系统应对复杂环境和不确定因素的能力。
一种基于量子图注意力网络的图分类方法  一种基于量子图注意力网络的图分类方法 
 本发明提供了一种基于量子图注意力网络的图分类方法，包括:步骤1，将图数据通过角度编码和振幅编码转化为用于量子计算的量子态；步骤2，建立量子线性映射器，对于角度编码得到的量子态，使用一组交替的可训练含参量子门和CNOT门组成一组酉门来对量子态进行演化；步骤3，建立量子图注意力层，在计算节点与节点之间的注意力系数时，将节点进行两两拼接，并迭代地输入到量子图注意力层中；步骤4，将对目标节点影响小的节点视为噪声项进行剔除；步骤5，进行图分类。本发明避免了对图结构的严格依赖，能够更好地应对大规模图数据的处理需求，是一种通用的电路设计方法，显著提高了量子图神经网络的处理效率和灵活性。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工