一种基于相似度进行中文文本纠错的实现方法
2025-02-22 09:32
No.1342791243230617600
技术概要
PDF全文
本技术提供了一种基于相似度进行中文文本纠错的实现方法,其特征在于,包括如下步骤:进行词库编译;利用编译好的词库,使用字哈希对待检测文本进行标记,得到一个待检测文本对应的序列,记录id;使用双字哈希对序列进行计算处理,找出待检测文本中所有与词库相似的词,计算后得到一个疑似相似词列表;对S3中所述的疑似相似词列表中的每个词进行相似度计算,保留相似度大于70的词,计算后得疑似错误列表;纠错。本发明可以提前查找中文文本可能存在的错误,大大减少了人力成本,并且能够提高现有文本纠错的检出率和正确率,具有广泛的应用前景,还可以应用于抄袭判断,文章查重等。
背景技术
目前,针对中文文本,错别字、敏感字都有一些相对不错的检测方案;针对错别字,有kenlm统计语言模型工具、transformer模型、conv_seq2seq模型、bert模型以及以bert为基础的改进模型等方式进行检测识别;针对敏感词,采用记录敏感词数据库,然后检测匹配的方式进行检测识别。虽然错别字和敏感词检测识别的精准率和召回率有待进步,但是检测结果可以给人提供一定的参考,大大减少了人工工作量。 其中,在错别字识别方面,pycorrector是一个中文文本纠错工具。pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。集成了上面提到的多种模型,并提供了针对多种模型的快速使用方式,比如:pycorrector集成bert检测识别错别字。但是现有的中文文本中纠错方法都不能找到所有错误。本文的方法也不能解决所有的问题,只是可以提高检出率和正确率。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
王宁张发雨孟奥党章王伦冯立二吴兴龙杨正云
技术所属: 江苏致网科技有限公司.
相关技术
一种基于遥感数据分析的水稻产量预测系统 一种基于遥感数据分析的水稻产量预测系统
隐私算法构建方法、装置、电子设备和可读存储介质 隐私算法构建方法、装置、电子设备和可读存储介质
一种基于全生命周期法的架空输电线路工程建设碳排放计算方法 一种基于全生命周期法的架空输电线路工程建设碳排放计算方法
一种船舶机电装备虚拟环境中故障排除维修系统 一种船舶机电装备虚拟环境中故障排除维修系统
一种基于邻域粒模糊c均值聚类的区域生态环境质量评价方法 一种基于邻域粒模糊c均值聚类的区域生态环境质量评价方法
基于注意力引导特征蒸馏和原型对比对齐的联邦学习方法 基于注意力引导特征蒸馏和原型对比对齐的联邦学习方法
一种知识增强因果链推理的事件预测方法 一种知识增强因果链推理的事件预测方法
一种航空发动机燃烧室寿命预测方法、装置、设备及介质 一种航空发动机燃烧室寿命预测方法、装置、设备及介质
一种不确定条件下水库群调度区间多目标优化方法 一种不确定条件下水库群调度区间多目标优化方法
一种基于量子图注意力网络的图分类方法 一种基于量子图注意力网络的图分类方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利