本技术涉及自然语言处理技术领域,公开了一种多输入中文拼写纠错方法、系统、电子设备及介质,方法包括:获取不同类型的拼写纠错模型针对同一个待纠错句子输出的纠错结果;根据提示词模板和各个纠错结果组成的候选集合确定提示词;将提示词输入至大语言模型,确定输出结果;根据输出结果确定待纠错句子的正确中文拼写结果。本申请集合了多个不同类型的拼写纠错模型的纠错结果融入到提示词中,作为大语言模型的输入,提高了正确结果在集合中的召回率,另外,本申请通过特定的提示词模板,使得大语言模型不会直接生成纠错的句子,而是生成提示词模板对应的输出结果,从而有效避免大语言模型自由生成的纠错结果与原句存在较大的语义偏差。
背景技术
拼写纠错任务旨在发现输入文本中的错误的字词并且进行改正,是自然语言处理(Natural Language Processing,NLP)中一个重要的研究方向,在光学字符识别(OpticalCharacter Recognition,OCR)、语音识别(Automatic Speech Rccognition,ASR)、编辑审核等场景下被广泛使用。因为识别算法精度和人工输入的准确性等原因,这些场景下会出现大量存在拼写错误的文本,这些带有错误的文本会严重影响下游任务。为了解决文本中的拼写错误问题,往往需要大量的领域专家対输入文本进行人工纠错,人工纠错的方法存在投入大,效率低下等痛点。
现有技术为了解决人工纠错效率低下的问题,通过会使用大语言模型来协助完成纠错任务,随着ChatGPT在过去两年表现出的优异效果,大语言模型(Large LanguageModels,LLM)在许多NLP任务上被证明是有效的。针对中文拼写纠错任务,现有工作大多将大语言模型直接用于纠错。对于一段存在错误文本让LLM进行纠错时,由于模型结构的原因,LLM倾向于自由生成。这种机制虽然会让生成的纠错句子在拼写和语法上完全正确,但是生成的纠错结果可能会与原句存在较大的语义偏差。
实现思路