本技术提供一种无线表格检测方法及系统,该方法的步骤包括:获取待检测的文档页面,并构建为页面图像进行至少一个判定标准的判定:所述判定标准包括第一判定标准,所述第一判定标准的判定步骤包括:将所述页面图像通过横向划分线平均划分为多个纵向区域,将每个纵向区域采用纵向划分线平均划分,将横向划分线和纵向划分线的交点作为判定点;基于判定点的位置选取第一预设个数的像素点,并将像素点的明度值的变化范围与预设的变化区间相比较,判定该判定点是否为空点;计算同一高度空点的坐标中心点,若同一高度的坐标中心点的个数大于1,则符合第一判定标准;若所述页面图像符合全部的判定标准,则判定该页面图像对应的文档页面存在无线表格。
背景技术
随着深度学习技术的发展,表格检测技术已经广泛应用到资质审核和合同审核的工作中,在审核过程中往往会涉及大量的对资质证书以及合同文档内容进行审核的工作,而这类证书和合同上通常会盖有样式各异的表格。对表格的定位可以对后续的内容进行识别,包括字段识别等。
近年来,深度学习在图像处理和自然语言处理领域取得了显著进展,也推动了有线表格检测技术的发展。基于深度学习的方法通常使用卷积神经网络(CNN)等模型,通过大量的训练数据来学习表格的复杂特征,并能够在各种布局和格式的文档中准确检测表格。例如,一些研究提出了端到端的深度学习模型,能够同时进行表格检测和结构识别,从而提高了表格检测的实用性和准确性。
现有的深度学习检测技术可以较好的检测有线表格。但是对无线表格的检测效果一般,且无线表格形式多样,布局变换较多,很难有太强的规律,虽然可以令深度学习学到其特征,但是伴随大量的无线表格无法定位,无线表格的文档表格内容识别和字段提取就成了很大的问题。
实现思路