本技术提供了一种图层聚焦插画单视图3D重建方法,该方法通过SAM对数据集中的原始插画单视图进行区域分割,得到包含原始插画单视图及其图层通道的区域文本对微调CLIP模型;然后对数据集T中的每张原始插画单视图提取非自然的轮廓线,语义信息与图层信息;根据单视图中角色体态选取基础素模初始化3D点云,并通过点云分割将人体点云分割成不同的部分,并依照非自然的轮廓线的位置信息对相应点云区域进行噪声生长与颜色扰动,再分别映射到潜空间当中,并采用LDM获得最终潜在表示;最后将最终潜在表示经过解码器获得最终3D表示,重建3D资产。本发明可根据给定的一张插画单视图,生成相对应的3D资产。
背景技术
近年来在娱乐,遥感和商业领域,AIGC的工作都已经成为热门话题。这一新潮且复杂的技术随着相关社区的建设和硬件产品的发展吸引了越来越多的目光与投资。作为其3D领域的一大方向,3D生成与重建的工作随着大规模模型的开发和3D表示方法的发展,这种复杂的工作变得简单化,甚至个人电脑就能部署模型推理出效果不错的3D资产。以下是几种现有流行的技术:
1.用3D数据(即3D扩散模型)训练一个新的扩散模型,直接按条件生成3D资产并保持强大的3D一致性,对应技术实例有Get3D;
2.直接将2D扩散模型提升应用到3D生成,能够处理各种文本提示,并产生高度详细和复杂的几何和外观,对应技术实例有Dreamface;
3.按照新视图生成思路获取足够多的多视图,应用稀疏视图重建方法或得分蒸馏采样(SDS)优化,将这些多视图图像融合成3D形状,可以产生高质量的3D形状创建,对应技术实例有Instant3d/Dreamfusion。
虽然这几种技术都开发有亮眼的模型,生成的3D资产也确实十分优秀,但是在广泛的实验以及应用中这几种技术仍然有些缺陷需要解决。
首先对于第一种技术方法,在扩展到大的生成领域时存在困难,因为3D数据通常难以获得且成本高昂,当前3D数据集的规模远远小于2D数据集,这导致生成的3D资产在处理复杂文本提示和生成复杂/精细的几何和外观方面存在不足。
然后对于第二种技术方法,由于2D扩散模型无法理解摄像机视图,生成的3D资产很难形成几何一致性,常常出现生成的3D资产错位的问题,特别是对于结构复杂的实例。
最后对于第三种技术方法,在多视图图像间接生成的过程造成了很大的低效率问题,此外,生成的形状质量严重依赖于多视图图像的保真度和连续性,常常导致细节丢失或重建失败。
而且上述技术多在有关自然图片的问题上考虑应用并优化,对于将2D插画图片进行3D生成的优化工作仍有缺陷。其中,2D插画3D重建问题主要包括复杂且极端的配色和基于非自然线条的黑色轮廓,但当前的研究存在色块堆砌、计算量大、光照图层不理解、特定配饰信息检索不充分等问题。
实现思路