本技术提供一种用于发票识别模型的训练数据增强方法及系统,包括:将发票图片输入通用文本检测模型得到文本区域;将文本区域输入通用文字识别模型得到识别文本;从票务系统获取发票所有字段值,校正后得到真实文本;为识别文本匹配对应的真实文本;确定识别文本在真实文本中的相对位置,补全未被识别到的文本,计算补全后完整文本区域的位置信息;将识别文本中的引导词与其对应的真实文本进行拼接,得到完整文本信息;将发票图片作为输入,完整文本区域的位置信息为标签,构建文本检测训练数据;将完整文本区域作为输入,完整文本信息为标签,构建文字识别训练数据。本发明能够自动修正通用模型在发票场景下的识别误差,生成高质量标注数据。
背景技术
OCR(Optical Character Recognition)技术已经成为人工智能和计算机视觉领域中至关重要的一部分,其核心目标是将图像中的文字信息结构化,便于后续处理。OCR技术被广泛应用于文档管理、票据识别、财务处理等领域。其中,发票识别是重要的商业场景之一,通过发票自动化处理,可显著提高企业的财务和管理效率。
在发票识别系统中,文本检测与文字识别是关键技术。文本检测的任务是定位发票图像中包含文字的区域,并精确标定这些区域的边界,通常以四点坐标表示。文字识别则从这些区域中提取出文字内容,最终将图像信息转化为识别文本。高精度的文本检测和文字识别模型依赖于大量高质量的训练数据。然而,训练数据的构建过程耗时耗力,成为模型开发的主要瓶颈。
当前主流的标注方法包括全人工标注和半自动标注工具:
全人工标注方法完全依赖标注人员逐张查看图像,逐一标注每个文字区域的坐标及对应文字内容,虽然标注质量高,适用于各种复杂场景,但标注成本高,需要耗费大量人力,且要求标注人员具备较高的专业性,标注效率低,单张图像标注需要数分钟甚至更长时间,难以在短时间内生成大规模训练数据集,并且随着数据规模的增长,人工标注效率难以跟上模型优化对训练数据规模的需求。
半自动标注工具则结合了通用的文本检测和文字识别模型,输出初步结果后由人工校正,虽然一定程度上减少了人工干预,提高了标注效率,但半自动标注工具在发票场景下的应用效果并不理想:通用的模型精度不足,由于通用模型未针对发票场景优化,检测和识别的初始结果往往存在较大误差,导致人工修正成本仍然较高。
实现思路