融合检测技术在底稿图像识别中的应用系统与方法
2025-02-13 20:06
No.1339689279072509952
技术概要
PDF全文
本技术涉及一种融合检测技术在底稿图像识别中的应用系统与方法,属于光学字符识别技术领域。该方法包括:首先获取底稿图像,然后对底稿图像进行预处理,接着对预处理后的底稿图像进行特征提取和模式识别,最终实现对底稿图像的准确识别。
背景技术
光学字符识别一般包括图像预处理、文本检测和文本识别过程,其中文本检测方法中比较流行的是基于像素分割的方法和基于回归的方法。底稿图像包含金融场景下的各类文本图像,如银行流水、发票、凭证和各类证件照等,打印质量也各不相同,存在拍照、扫描和pdf打印等。因此,底稿图像中的文本行尺寸、形状和页面排版多变,字体也各不相同,存在小字、透字、文本粘连等问题,由于其场景的复杂性,使用现有的单一文本检测模型很难达到较好的文本检测效果,从而导致整体识别质量差。 基于像素分割的文本检测方法通常借鉴物体语义分割和实例分割的思想,利用全卷积神经网络对图像中的每个像素点进行文本和非文本分类,从而得到文本区域掩码图,然后通过一些像素聚合的后处理方式将属于同一文本的文本像素点聚合在一起得到最后的文本实例边界框,这类方法中比较典型的算法有PSENet、PAN、MSR和DBNet等。基于回归的文本检测方法主要是基于以深度学习为基础的目标检测技术或者实例分割技术,它将文本视为一种通用目标然后直接检测出整个文本实例,此类方法通常是直接回归出水平矩形或者多方向的任意形状多边形以解决文本检测的问题,这类方法中比较典型的算法有Text-Boxes、EAST和Yolo等。基于像素分割的方法的主要优势在于对文本边界的预测比较精准,能够适应于各种形状的文本,同时有较强的抗噪声干扰能力;同时它也存在一些缺陷,如无法检测重叠文本和对小目标不敏感等。基于回归的方法的主要优势在于能够准确检测重叠文本、对小目标的检测效果较好;同时它的缺陷在于不适用于文本行角度、形状存在多样性的场景。 如公开号为CN116935405A的中国专利公开了一种基于OCR和NLP提取客户文档扫描件内服务条款方法,步骤如下:1)、服务器获取用户上传的扫描件;2)、将扫描件转换为JPG格式的图片;3)、使用DBnet网络识别图片中包含文字的行;4)、将识别出包含文字的行转换为独立的图片;5)、将包含文字的独立的图片转换为标准化图片;6)、将标准化图片交给文字识别网络,识别出文字;7)、识别出的文字中的标题、段落,切换为正文;8)、识别文档中的表格,切换为正文;9)、提取出文档中的服务内容和对工程师要求,切换为正文;10)、进行关键词搜索,并规范化提取内容。该发明通过系统自动化减少技术人员和业务人员的沟通成本和时间成本,快速定位客户所要的服务内容。 如公开号为CN118314563A的中国专利公开了一种基于旋转框体的文本检测方法,属于文本检测领域。所述方法包括:S1、获取图片数据集,并对其进行预处理;S2、构造基于改进YOLOv8s-obb算法得到的文本检测模型;S3、将所述步骤S1预处理后的图片数据集输入所述步骤S2的文本检测模型中进行迭代,得到最优的文本检测模型;S4、使用所述最优的文本检测模型对所述步骤S1预处理后的图片数据集进行文本检测。该发明通过改进的YOLOv8s-obb算法生成可旋转的文字检测框体,解决了交通标志牌等目标因图像角度问题所导致的检测框无法全覆盖的问题,同时有效提高检测准确度。 上述专利的缺陷:1)无法处理重叠文本,会导致后续识别结果错误;2)对于长文本检测效果不够好,不能适用于底稿文本识别场景。
实现思路
阅读余下40%
技术概要为部分技术内容,查看PDF获取完整资料
该技术已申请专利,如用于商业用途,请联系技术所有人!
技术研发人员:
尹亮  刘辉  邓勇  仇星  韩起磊
技术所属: 北京荣大科技股份有限公司
相关技术
一种面向实时感知数据的去中心化预言机服务系统及方法 一种面向实时感知数据的去中心化预言机服务系统及方法
一种基于音频和图像融合的三维模型生成方法及设备 一种基于音频和图像融合的三维模型生成方法及设备
中文艺术海报生成方法、装置、计算机设备及存储介质 中文艺术海报生成方法、装置、计算机设备及存储介质
一种马路黑烟车辆识别方法和系统 一种马路黑烟车辆识别方法和系统
一种基于多模态时空数据建模的多层网络状态预测方法 一种基于多模态时空数据建模的多层网络状态预测方法
动画视频帧智能选择对话生成系统 动画视频帧智能选择对话生成系统
支持多协议转换的统一会话管理方法及相关设备 支持多协议转换的统一会话管理方法及相关设备
一种基于融合检测的底稿图像识别系统及方法 一种基于融合检测的底稿图像识别系统及方法
一种CT系统中心投影参数自动化计算与调整方法 一种CT系统中心投影参数自动化计算与调整方法
一种基于拓扑重建的义齿牙冠曲面生成方法 一种基于拓扑重建的义齿牙冠曲面生成方法
技术分类
电信、广播电视和卫星传输服务 电信、广播电视和卫星传输服务
互联网软件服务 互联网软件服务
集成电路设计 集成电路设计
信息集成数字服务 信息集成数字服务
电气机械制造 电气机械制造
计算机、通信、电子设备制造 计算机、通信、电子设备制造
医药制造、生物基材料 医药制造、生物基材料
石油煤矿化学用品加工 石油煤矿化学用品加工
化学原料制品加工 化学原料制品加工
非金属矿物加工 非金属矿物加工
金属制品加工 金属制品加工
专用设备制造 专用设备制造
通用设备制造 通用设备制造
通用零部件制造 通用零部件制造
汽车制造业 汽车制造业
铁路、船舶、航天设备制造 铁路、船舶、航天设备制造
电力、热力生产和供应 电力、热力生产和供应
燃气生产和供应 燃气生产和供应
水生产和供应 水生产和供应
房屋建筑、土木工程 房屋建筑、土木工程
交通运输、仓储和邮政 交通运输、仓储和邮政
农、林、牧、渔业 农、林、牧、渔业
采矿业 采矿业
农副、食品加工 农副、食品加工
烟草、酒水加工 烟草、酒水加工
纺织皮具居家制品 纺织皮具居家制品
文教体娱加工 文教体娱加工
苏ICP备18062519号-5 © 2018-2025 【123技术园】 版权所有,并保留所有权利