本技术涉及一种融合检测技术在底稿图像识别中的应用系统与方法,属于光学字符识别技术领域。该方法包括:首先获取底稿图像,然后对底稿图像进行预处理,接着对预处理后的底稿图像进行特征提取和模式识别,最终实现对底稿图像的准确识别。
背景技术
光学字符识别一般包括图像预处理、文本检测和文本识别过程,其中文本检测方法中比较流行的是基于像素分割的方法和基于回归的方法。底稿图像包含金融场景下的各类文本图像,如银行流水、发票、凭证和各类证件照等,打印质量也各不相同,存在拍照、扫描和pdf打印等。因此,底稿图像中的文本行尺寸、形状和页面排版多变,字体也各不相同,存在小字、透字、文本粘连等问题,由于其场景的复杂性,使用现有的单一文本检测模型很难达到较好的文本检测效果,从而导致整体识别质量差。
基于像素分割的文本检测方法通常借鉴物体语义分割和实例分割的思想,利用全卷积神经网络对图像中的每个像素点进行文本和非文本分类,从而得到文本区域掩码图,然后通过一些像素聚合的后处理方式将属于同一文本的文本像素点聚合在一起得到最后的文本实例边界框,这类方法中比较典型的算法有PSENet、PAN、MSR和DBNet等。基于回归的文本检测方法主要是基于以深度学习为基础的目标检测技术或者实例分割技术,它将文本视为一种通用目标然后直接检测出整个文本实例,此类方法通常是直接回归出水平矩形或者多方向的任意形状多边形以解决文本检测的问题,这类方法中比较典型的算法有Text-Boxes、EAST和Yolo等。基于像素分割的方法的主要优势在于对文本边界的预测比较精准,能够适应于各种形状的文本,同时有较强的抗噪声干扰能力;同时它也存在一些缺陷,如无法检测重叠文本和对小目标不敏感等。基于回归的方法的主要优势在于能够准确检测重叠文本、对小目标的检测效果较好;同时它的缺陷在于不适用于文本行角度、形状存在多样性的场景。
如公开号为CN116935405A的中国专利公开了一种基于OCR和NLP提取客户文档扫描件内服务条款方法,步骤如下:1)、服务器获取用户上传的扫描件;2)、将扫描件转换为JPG格式的图片;3)、使用DBnet网络识别图片中包含文字的行;4)、将识别出包含文字的行转换为独立的图片;5)、将包含文字的独立的图片转换为标准化图片;6)、将标准化图片交给文字识别网络,识别出文字;7)、识别出的文字中的标题、段落,切换为正文;8)、识别文档中的表格,切换为正文;9)、提取出文档中的服务内容和对工程师要求,切换为正文;10)、进行关键词搜索,并规范化提取内容。该发明通过系统自动化减少技术人员和业务人员的沟通成本和时间成本,快速定位客户所要的服务内容。
如公开号为CN118314563A的中国专利公开了一种基于旋转框体的文本检测方法,属于文本检测领域。所述方法包括:S1、获取图片数据集,并对其进行预处理;S2、构造基于改进YOLOv8s-obb算法得到的文本检测模型;S3、将所述步骤S1预处理后的图片数据集输入所述步骤S2的文本检测模型中进行迭代,得到最优的文本检测模型;S4、使用所述最优的文本检测模型对所述步骤S1预处理后的图片数据集进行文本检测。该发明通过改进的YOLOv8s-obb算法生成可旋转的文字检测框体,解决了交通标志牌等目标因图像角度问题所导致的检测框无法全覆盖的问题,同时有效提高检测准确度。
上述专利的缺陷:1)无法处理重叠文本,会导致后续识别结果错误;2)对于长文本检测效果不够好,不能适用于底稿文本识别场景。
实现思路