本技术揭示了一种融合语义分割与阴影考量的逆渲染方法及装置,应用于计算机视觉与图形学。该技术通过输入多视角三维场景照片,重建场景几何形状,优化视觉效果,提升场景重建的准确性和真实感。
背景技术
利用现实世界所拍摄的二维图像在计算机中重建高保真的三维场景,可应用于虚拟现实、增强现实以及数字孪生等。但是,二维图像对应的是现实场景的某一特定状态,考虑到更为灵活的应用,如可以对场景进行修改,包括重照明、材质编辑等,这就需要获得现实场景的材质和光照等属性,这一工作内容通常被称为逆渲染,它是指从二维图像中恢复三维场景的几何形状、材质属性以及光照环境等物理属性。但是从几何、材质和光照共同合成的结果中正确分解出这些属性具有很大的不确定性,这些属性的不同组合可能会有相同的合成结果。因其复杂性和不适定性,这项工作一直是计算机视觉和图形领域具有挑战性的问题。
早期的逆渲染工作主要致力于本征图像分解,将图像分解为反照率图和亮度图,大致分为基于手工设定先验知识的方式和基于深度学习的方式两类。基于手工设定先验知识的方式多根据经验知识设定阈值分解图像的反照率和亮度;基于深度学习的方式通常需要反照率的标签值进行监督,而真实场景的反照率通常难以获取。当前隐式神经渲染方式在新视图合成、三维重建等方面都取得了较好的效果,它的出现也给逆渲染给这一工作带来了新的解决问题思路,当前的相关研究工作多通过多层感知机(MultilayerPerceptron,简称MLP)学习场景的几何和材质等,并采用基于物理的渲染方程取代神经辐射场(Neural Radiance Fields,简称NeRF)中的体渲染方程来处理这一问题。
然而在逆渲染中,阴影的存在会干扰材质的估计,容易将阴影解释为场景本身的材质属性,当前隐式神经渲染方面的部分相关工作未直接针对这一问题提出解决方案。此外,还有些研究利用先验知识,如利用语义分割网络得到的语义分类结果来直接约束属于同一类别的区域材质相同,此类方式虽然减弱了阴影对材质预测的影响,但是所采用的二维语义分割网络需要大量视角的语义分割的标签值,且泛化能力弱,无法得到三维场景各视角较为准确的语义分割结果。
实现思路