本申请涉及文档识别的技术领域,尤其是涉及一种基于人工智能的文档信息识别方法、系统及电子设备。方法包括:获取文档信息图像,对文档信息图像进行一级识别,得到第一文档信息以及与第一文档信息相对应的内容场景信息,判断第一文档信息中是否存在语义不清的文本,若存在,则将文档信息图像中与语义不清的文本相对应的图像节点进行标记,得到标记文档信息图像,对第一文档信息以及内容场景信息进行内容场景关联分析,得到目标文本,基于目标文本对第一文档信息进行更新,得到第二文档信息,并将第二文档信息发送至用户终端。从而提高文档信息识别的准确度。
背景技术
随着文档处理技术的飞速发展,如文档信息的识别技术被广泛应用各种自然语言处理的场景中。文档信息识别技术是指通过图像处理和模式识别技术对图片中的光学字符进行识别,并将光学字符翻译成计算机文本;文档翻译是利用计算机将一种自然语言转换为另一种自然语言的过程。对于某些翻译场景,需要对文档信息进行文本识别之后再进行文档翻译,文档信息识别的准确度将会影响到文档翻译的准确度。
目前,现有的文档信息识别技术仅能在文档文字清晰无干扰线条或墨迹的状况下进行识别,对低质量的文档信息识别经常出现较多错误,存在文本识别的准确度不高的问题。
实现思路