本技术公开一种基于相位引导Transformer‑CNN双路径融合的深度图预测方法和装置,包括:获取待处理的条纹图像;通过傅里叶模型对所述条纹图像提取关于相位信息的频率特征,并利用Transformer模型获取长距离和全局频率特征;利用CNN模型从所述条纹图像中提取细节特征;对所述长距离和全局频率特征以及所述细节特征进行交叉融合,并进行多尺度特征增强得到所述条纹图像的深度图。PG‑FTCNet能有效预测复杂表面上的相位信息,同时显著提高深度图预测的精度。该方法以条纹投影轮廓术中的单张条纹图像为输入,同时实现相位展开和深度图预测,在提升结果可解释性的同时,保留了高效的端到端计算模式,为FPP的三维重建任务提供了一种可靠且实用的解决方案。
背景技术
条纹投影轮廓术(Fringe Projection Profilometry,FPP)是一种广泛应用于计算机视觉领域的非接触式三维重建技术,其基本原理是向待测物体表面投射条纹图案,通过条纹的变形计算包裹相位,随后进行相位展开,最终将展开后的相位映射为深度值,从而生成三维重建所需的深度图。在这一过程中,相位展开的准确性对最终深度图的质量起着至关重要的作用,因此,相位展开是FPP的关键步骤之一。
近年来,深度学习因其在自动化学习复杂信息方面的卓越表现,被广泛应用于多个领域,并取得了显著进展。在FPP相关研究中,许多学者开始探索如何将深度学习技术引入相位展开和深度图预测任务。例如,卷积神经网络(CNN)已被证明在相位展开中表现出色,能够有效提取局部相位特征并处理中等程度的噪声。然而,CNN的感受野受到限制,在捕捉全局特征时存在不足,可能错误假设局部相位的连续性,难以应对复杂表面上的不连续性或较大的相位跳跃,从而引发相位展开错误。
此外,生成对抗网络(GAN)也被应用于相位展开任务,通过生成器与判别器的对抗学习,GAN在合成数据和抑制高频噪声方面表现突出。但其结果往往容易抹平细节,特别是在生成器过拟合时可能出现伪影,限制了结果的可信度。另一方面,基于Transformer的模型由于能够捕捉长距离依赖关系和丰富的上下文信息,近来也成为相位展开研究的热点。然而,Transformer在整合全局与局部特征时仍面临平衡性挑战,可能因为过度关注全局背景而忽视局部细节,从而限制其在解决相位模糊和噪声干扰问题上的表现。
尽管深度学习技术在FPP的相关研究中展现了潜力,但目前主流的深度预测神经网络大多采用从条纹图直接到深度图的端到端方式,完全跳过了传统的相位展开步骤。这种方法虽然在计算效率上有所提升,但由于缺乏对相位展开过程的显式建模,其结果的可解释性不足,且无法充分利用相位信息来优化深度图预测。这使得现有方法在处理复杂表面时难以应对相位跳跃和误差传播等问题,导致最终深度图质量受限。
实现思路