文本纠错方法及装置、电子设备、存储介质
2025-02-23 17:11
No.1343269084590252032
技术概要
PDF全文
本申请提供一种文本纠错方法及装置、电子设备、计算机可读存储介质,方法包括:对待纠错文本的每一汉字,根据预设检索策略,逐个在目标词典对应的倒排索引中进行检索,获得多个候选词‑拟纠正词对;其中,候选词为所述待纠错文本中的疑似错误词汇,拟纠正词为所述目标词典中的条目;针对每一候选词,从包含所述候选词的若干候选词‑拟纠正词对中,确定唯一的指定候选词‑拟纠正词对;针对每一指定候选词‑拟纠正词对,判断其中的拟纠正词是否为候选词的纠正词;基于所有指定候选词‑拟纠正词对的判断结果,获得所述待纠错文本的纠错结果。本申请方案,极大地缩小了错误词的搜索范围,节省了候选词的构建时间,从而整体上提高了文本纠错的效率。
背景技术
文本纠错通常分为错误检测和错误纠正两个阶段。在错误检测阶段,需识别待纠错文本中可能存在的错误词汇。一般,可以对待纠错文本进行分词,获得多个分词单元,然后以字粒度和词粒度两个方面对分词单元进行错误检测,获得检测结果,作为疑似错误候选集。疑似错误候选集中可以包括待纠错文本中多个疑似错误的字和词汇。在错误纠正阶段,可以利用字词典对疑似错误的字或词汇进行纠正,从而得到纠正后的文本。 相关技术中,可以对待纠错文本进行字或词级别的2-gram和3-gram计算,从而得到疑似错误候选集。然而,这种方式获得的疑似错误候选集中包含数量巨大的字和词汇,这使得后续错误纠正阶段涉及大量计算,导致文本纠错的效率低下。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
简仁贤王伟刘家国吴文杰
技术所属: 竹间智能科技(上海)有限公司.
相关技术
FPGA实现硬件逻辑实时仿真的方法及装置 FPGA实现硬件逻辑实时仿真的方法及装置
基于API和数据库的动态标定方法 基于API和数据库的动态标定方法
一种虚拟机的沙箱引擎更新方法、装置、设备和介质 一种虚拟机的沙箱引擎更新方法、装置、设备和介质
频域响应仿真与测量数据处理方法及装置 频域响应仿真与测量数据处理方法及装置
服务数据节点迁移方法、装置、电子设备及存储介质 服务数据节点迁移方法、装置、电子设备及存储介质
配送控制方法、装置、服务器、智能柜及机器人 配送控制方法、装置、服务器、智能柜及机器人
适用于硬件电路的高精度压缩方法、装置及电子设备 适用于硬件电路的高精度压缩方法、装置及电子设备
融合多源信息的打击目标智能识别方法和系统 融合多源信息的打击目标智能识别方法和系统
水利对象关联关系建立方法 水利对象关联关系建立方法
问题解答方法、装置、介质和电子设备 问题解答方法、装置、介质和电子设备
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利