本技术提供了一种基于相似度进行中文文本纠错的实现方法,其特征在于,包括如下步骤:进行词库编译;利用编译好的词库,使用字哈希对待检测文本进行标记,得到一个待检测文本对应的序列,记录id;使用双字哈希对序列进行计算处理,找出待检测文本中所有与词库相似的词,计算后得到一个疑似相似词列表;对S3中所述的疑似相似词列表中的每个词进行相似度计算,保留相似度大于70的词,计算后得疑似错误列表;纠错。本发明可以提前查找中文文本可能存在的错误,大大减少了人力成本,并且能够提高现有文本纠错的检出率和正确率,具有广泛的应用前景,还可以应用于抄袭判断,文章查重等。
背景技术
目前,针对中文文本,错别字、敏感字都有一些相对不错的检测方案;针对错别字,有kenlm统计语言模型工具、transformer模型、conv_seq2seq模型、bert模型以及以bert为基础的改进模型等方式进行检测识别;针对敏感词,采用记录敏感词数据库,然后检测匹配的方式进行检测识别。虽然错别字和敏感词检测识别的精准率和召回率有待进步,但是检测结果可以给人提供一定的参考,大大减少了人工工作量。
其中,在错别字识别方面,pycorrector是一个中文文本纠错工具。pycorrector依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。集成了上面提到的多种模型,并提供了针对多种模型的快速使用方式,比如:pycorrector集成bert检测识别错别字。但是现有的中文文本中纠错方法都不能找到所有错误。本文的方法也不能解决所有的问题,只是可以提高检出率和正确率。
实现思路