融合检测技术在底稿图像识别中的应用系统与方法

123技术园

首页 / 技术内容

2025-02-13 20:06

No.1339689279072509952

技术概要

PDF全文

本技术涉及一种融合检测技术在底稿图像识别中的应用系统与方法，属于光学字符识别技术领域。该方法包括：首先获取底稿图像，然后对底稿图像进行预处理，接着对预处理后的底稿图像进行特征提取和模式识别，最终实现对底稿图像的准确识别。

背景技术

光学字符识别一般包括图像预处理、文本检测和文本识别过程，其中文本检测方法中比较流行的是基于像素分割的方法和基于回归的方法。底稿图像包含金融场景下的各类文本图像，如银行流水、发票、凭证和各类证件照等，打印质量也各不相同，存在拍照、扫描和pdf打印等。因此，底稿图像中的文本行尺寸、形状和页面排版多变，字体也各不相同，存在小字、透字、文本粘连等问题，由于其场景的复杂性，使用现有的单一文本检测模型很难达到较好的文本检测效果，从而导致整体识别质量差。基于像素分割的文本检测方法通常借鉴物体语义分割和实例分割的思想，利用全卷积神经网络对图像中的每个像素点进行文本和非文本分类，从而得到文本区域掩码图，然后通过一些像素聚合的后处理方式将属于同一文本的文本像素点聚合在一起得到最后的文本实例边界框，这类方法中比较典型的算法有PSENet、PAN、MSR和DBNet等。基于回归的文本检测方法主要是基于以深度学习为基础的目标检测技术或者实例分割技术，它将文本视为一种通用目标然后直接检测出整个文本实例，此类方法通常是直接回归出水平矩形或者多方向的任意形状多边形以解决文本检测的问题，这类方法中比较典型的算法有Text-Boxes、EAST和Yolo等。基于像素分割的方法的主要优势在于对文本边界的预测比较精准，能够适应于各种形状的文本，同时有较强的抗噪声干扰能力；同时它也存在一些缺陷，如无法检测重叠文本和对小目标不敏感等。基于回归的方法的主要优势在于能够准确检测重叠文本、对小目标的检测效果较好；同时它的缺陷在于不适用于文本行角度、形状存在多样性的场景。如公开号为CN116935405A的中国专利公开了一种基于OCR和NLP提取客户文档扫描件内服务条款方法，步骤如下：1)、服务器获取用户上传的扫描件；2)、将扫描件转换为JPG格式的图片；3)、使用DBnet网络识别图片中包含文字的行；4)、将识别出包含文字的行转换为独立的图片；5)、将包含文字的独立的图片转换为标准化图片；6)、将标准化图片交给文字识别网络，识别出文字；7)、识别出的文字中的标题、段落，切换为正文；8)、识别文档中的表格，切换为正文；9)、提取出文档中的服务内容和对工程师要求，切换为正文；10)、进行关键词搜索，并规范化提取内容。该发明通过系统自动化减少技术人员和业务人员的沟通成本和时间成本，快速定位客户所要的服务内容。如公开号为CN118314563A的中国专利公开了一种基于旋转框体的文本检测方法，属于文本检测领域。所述方法包括：S1、获取图片数据集，并对其进行预处理；S2、构造基于改进YOLOv8s-obb算法得到的文本检测模型；S3、将所述步骤S1预处理后的图片数据集输入所述步骤S2的文本检测模型中进行迭代，得到最优的文本检测模型；S4、使用所述最优的文本检测模型对所述步骤S1预处理后的图片数据集进行文本检测。该发明通过改进的YOLOv8s-obb算法生成可旋转的文字检测框体，解决了交通标志牌等目标因图像角度问题所导致的检测框无法全覆盖的问题，同时有效提高检测准确度。上述专利的缺陷：1）无法处理重叠文本，会导致后续识别结果错误；2）对于长文本检测效果不够好，不能适用于底稿文本识别场景。

实现思路

阅读余下40%

技术概要为部分技术内容，查看PDF获取完整资料

该技术已申请专利，如用于商业用途，请联系技术所有人！

技术研发人员：

尹亮刘辉邓勇仇星韩起磊

技术所属：北京荣大科技股份有限公司

相关技术

一种面向实时感知数据的去中心化预言机服务系统及方法  一种面向实时感知数据的去中心化预言机服务系统及方法 
 本申请的实施例涉及一种面向实时感知数据的去中心化预言机服务方法、电子设备和可读存储介质，通过获取传感器感知数据；判断预构建的预言机服务系统模型中各节点的网络状态请求是否超时，若网络状态请求超时，则基于共识协议中的网络状态发现算法更新各服务节点的网络状态，和/或基于共识协议中的可靠视图更改算法更新领导节点，得到网络状态达成共识的各节点；基于复合真值发现算法处理各节点中的传感器感知数据得到预言机真值推理数据，以实现对物联网传感器流式数据的实时、准确的真值推断，本发明还设计了DPS‑BFT共识协议，允许服务节点在部分同步拜占庭网络中自由加入或离开，而不影响网络的整体性能。
一种基于音频和图像融合的三维模型生成方法及设备  一种基于音频和图像融合的三维模型生成方法及设备 
 本发明涉及计算机视觉技术领域，公开了一种基于音频和图像融合的三维模型生成方法及设备，方法包括获取音频数据；对所述音频数据进行特征提取，得到音频特征向量；将所述音频特征向量通过训练好的对抗扩散生成模型映射为若干张第一二维图像；初始化一个三维模型，并利用所述音频特征向量从若干个随机角度渲染所述三维模型，生成若干个视角的第二二维图像；根据所述音频特征向量、所述第一二维图像和所述第二二维图像，对所述三维模型进行迭代优化，生成最终的三维模型。本发明能够学习音频和图像之间的复杂映射关系，保证了三维模型从多个视角学习三维场景的特性，不需要大规模三维标注数据集，实现了高质量和多样性兼具的三维模型生成。
中文艺术海报生成方法、装置、计算机设备及存储介质  中文艺术海报生成方法、装置、计算机设备及存储介质 
 本发明公开了一种中文艺术海报生成方法、装置、计算机设备及存储介质，方法包括:基于背景图像和中文宣传文本，生成中文宣传文本在背景图像中的中文布局信息；基于中文布局信息对背景图像进行图像定位和分割，得到中文宣传文本所在区域的局部图像，并基于中文宣传文本和局部图像，采用目标预测模型进行文本风格预测，得到文本风格信息；基于文本风格信息对中文宣传文本进行风格和图形转换处理，生成目标中文图形；基于中文布局信息，将目标中文图形融合至背景图像得到中文艺术海报。本实施例中，可以提高中文艺术海报中字体准确性和风格多样化，能够有效提高中文艺术海报的视觉效果，在提高了中文艺术海报的生成效率的同时还兼顾了其生成质量。
一种马路黑烟车辆识别方法和系统  一种马路黑烟车辆识别方法和系统 
 本发明适用于黑烟车辆识别技术领域，提供了一种马路黑烟车辆识别方法和系统。本发明通过选择多个公共辅助车辆；进行定位和启停识别，选择目标辅助车辆；接收监测拍摄片段，提取代表检测图像；进行灰度化处理，获取灰度统计数据；计算可疑范围占比，在可疑范围占比大于预设的标准范围占比时，进行车辆识别，获取黑烟车辆信息。能够从多个公共辅助车辆中，选择目标辅助车辆，接收监测拍摄片段，提取代表检测图像，进行灰度化处理与分析，计算可疑范围占比，并在可疑范围占比大于预设的标准范围占比时，识别黑烟车辆信息，无需在马路的监控杆或龙门架上安装监测设备，有效提高了黑烟车辆的监测识别范围，且极大的降低了马路黑烟车辆识别的成本。
一种基于多模态时空数据建模的多层网络状态预测方法  一种基于多模态时空数据建模的多层网络状态预测方法 
 本发明涉及一种基于多模态时空数据建模的多层网络状态预测方法，包括以下步骤:获取多层动态网络中能够反映各节点交互的时空多模态数据；基于时空多模态数据，通过伯努利分布和泊松分布将节点的连通性和属性信息与网络群组相关联，建立具有共享群组的多层时空Hawkes过程，以捕获每层节点之间从历史事件到后续事件的相互作用，构建多模态时空模型；利用具有局部收敛性的分层期望‑极大值算法进行多模态时空模型的参数求解，得到网络状态预测结果。与现有技术相比，本发明具有建模精准、预测准确等优点。
动画视频帧智能选择对话生成系统  动画视频帧智能选择对话生成系统 
 本发明公开了动画视频帧智能选择对话生成系统，具体涉及计算机视觉技术领域，将角色库中的动画视频转换为视频帧序列，使用计算机视觉技术检测每一帧中出现的角色，并进行跟踪，对于检测到的角色，提取其外观特征，将提取的角色的外观特征和角色库中获取的角色外观特征进行匹配，确定检测到的角色的身份，建立一个角色音色库，包括音频数据和已标注的音色，从音频数据中提取音频特征并进行音色识别，将识别出的音色与预先标注的角色音色进行匹配，根据音色识别结果，将每个角色的对话内容抽取出来，并将对话内容转换成文本形式，对抽取出的对话内容进行主题相似度判断，根据判断结果，将具有相似主题的对话内容进行修改，以生成新的对话内容。
支持多协议转换的统一会话管理方法及相关设备  支持多协议转换的统一会话管理方法及相关设备 
 本发明提供一种支持多协议转换的统一会话管理方法及相关设备。该方法通过维护原‑目标协议会话映射表和目标协议包头信息存储来对会话进行管理；其中，所述原‑目标协议会话映射表包括N个条目，每个条目包括原协议会话标识和目标协议会话序号；其中，所述目标协议会话序号用于指示目标协议包头信息存储的地址。本发明可有效降低不同协议会话管理和参数更新的难度，提高硬件的利用率。
一种基于融合检测的底稿图像识别系统及方法  一种基于融合检测的底稿图像识别系统及方法 
 本发明公开了一种基于融合检测的底稿图像识别系统及方法，属于光学字符识别技术领域，其方法具体包括:获取底稿图像，并对获取的底稿图像进行预处理，对预处理后的底稿图像进行角度识别，并进行旋转校正处理，对旋转校正后的底稿图像中的文本位置进行识别，根本识别出的底稿图像中的文本位置，对底稿图像中文本内容进行识别，通过融合多种检测方法，可以综合各自的优点，减少单一方法的缺陷，提高底稿图像的识别精度，该方法适用于各种复杂的底稿图像识别场景，包括但不限于金融领域的底稿图像等。
一种CT系统中心投影参数自动化计算与调整方法 一种CT系统中心投影参数自动化计算与调整方法
本发明一种CT系统中心投影参数自动化计算与调整方法，涉及工业CT技术领域。通过调整CT发光基点的光锥照射至探测器感应板内；开启CT发光基点，通过调整第一定位平台的Z、X的位移，调整第三定位平台X、Y的位移，将检测板的投影调整在探测器感应板内显示；记录检测球投影到探测器感应板的点位；偏移探测器感应板对多次偏移探测器感应板上的四点数据进行记录与结合，计算出四条直线，利用四条直线计算CT发光基点的中心坐标；将CT发光基点的中心调整到与探测器感应板的中心点在同一轴线上。达到降低了对用于矫正的四点模型精确计算的繁琐操作，只要采用简易的、精度要求较低的四点模型，只通过手动加工就可满足要求。
一种基于拓扑重建的义齿牙冠曲面生成方法 一种基于拓扑重建的义齿牙冠曲面生成方法
本申请涉及图像数据处理技术领域，尤其涉及一种基于拓扑重建的义齿牙冠曲面生成方法。方法包括:获取目标用户的牙齿在目标缺牙处的点云数据，并对点云数据进行三角剖分处理获得初始三角网格模型；确定初始三角网格模型中的三角形所形成的顶点的第一评价值；根据初始三角网格模型中共边的三角形对的顶点的第一评价值，确定三角形对的顶点的权重；根据三角形对所包括的四个顶点的权重，对初始三角网格模型中的三角形对进行曲面细分处理，获得目标三角网格模型；在目标三角网格模型的目标参数值满足预设条件的情况下，根据目标三角网格模型生成义齿牙冠。通过以上技术方案能够提高所生成的义齿牙冠的使用寿命。

技术分类

电信、广播电视和卫星传输服务电信、广播电视和卫星传输服务

互联网软件服务互联网软件服务

集成电路设计集成电路设计

信息集成数字服务信息集成数字服务

电气机械制造电气机械制造

计算机、通信、电子设备制造计算机、通信、电子设备制造

医药制造、生物基材料医药制造、生物基材料

石油煤矿化学用品加工石油煤矿化学用品加工

化学原料制品加工化学原料制品加工

非金属矿物加工非金属矿物加工

金属制品加工金属制品加工

专用设备制造专用设备制造

通用设备制造通用设备制造

通用零部件制造通用零部件制造

汽车制造业汽车制造业

铁路、船舶、航天设备制造铁路、船舶、航天设备制造

电力、热力生产和供应电力、热力生产和供应

燃气生产和供应燃气生产和供应

水生产和供应水生产和供应

房屋建筑、土木工程房屋建筑、土木工程

交通运输、仓储和邮政交通运输、仓储和邮政

农、林、牧、渔业农、林、牧、渔业

采矿业采矿业

农副、食品加工农副、食品加工

烟草、酒水加工烟草、酒水加工

纺织皮具居家制品纺织皮具居家制品

文教体娱加工文教体娱加工