本申请提供一种文本纠错方法及装置、电子设备、计算机可读存储介质,方法包括:对待纠错文本的每一汉字,根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词‑拟纠正词对;其中,候选词为所述待纠错文本中的疑似错误词汇,拟纠正词为所述目标词典中的条目;针对每一候选词,从包含所述候选词的若干候选词‑拟纠正词对中,确定唯一的指定候选词‑拟纠正词对;针对每一指定候选词‑拟纠正词对,判断其中的拟纠正词是否为候选词的纠正词;基于所有指定候选词‑拟纠正词对的判断结果,获得所述待纠错文本的纠错结果。本申请方案,极大地缩小了错误词的搜索范围,节省了候选词的构建时间,从而整体上提高了文本纠错的效率。
背景技术
文本纠错通常分为错误检测和错误纠正两个阶段。在错误检测阶段,需识别待纠错文本中可能存在的错误词汇。一般,可以对待纠错文本进行分词,获得多个分词单元,然后以字粒度和词粒度两个方面对分词单元进行错误检测,获得检测结果,作为疑似错误候选集。疑似错误候选集中可以包括待纠错文本中多个疑似错误的字和词汇。在错误纠正阶段,可以利用字词典对疑似错误的字或词汇进行纠正,从而得到纠正后的文本。
相关技术中,可以对待纠错文本进行字或词级别的2-gram和3-gram计算,从而得到疑似错误候选集。然而,这种方式获得的疑似错误候选集中包含数量巨大的字和词汇,这使得后续错误纠正阶段涉及大量计算,导致文本纠错的效率低下。
实现思路