本技术涉及计算机领域,提出了一种结合点云与影像数据的露天矿区建筑图像分割技术。该技术首先对矿区激光点云和无人机影像数据进行预处理,随后通过特定算法实现图像分割,旨在提高露天矿区建筑识别的准确性和效率。
背景技术
矿区存在大量的裸露土地、植被、矿坑等复杂背景,这些元素可能会对建筑物的分割产生干扰,且建筑物在影像中可能只占据较小的比例,导致正负样本之间的数据不平衡,这对训练深度学习模型是一个挑战。高精度的点云和影像数据为矿区的建筑物识别提供了丰富的信息来源,但同时也带来了数据量大、处理复杂度高等挑战。传统的建筑物识别方法往往依赖于人工解译,效率低下且易出错。因此,如何有效地利用点云和影像数据,实现矿区建筑物的自动、快速、准确识别,成为了当前的研究热点。
在深度学习方法流行之前,基于Texton Forest和Random Forest等传统机器学习分类器的语义分割方法是用得比较多的方法。但是深度学习的兴起,大大的提高了语义分割方法的精度,使得学者对于传统的语义分割方法的研究热情逐渐开始走向下坡路。
在2012年,Ciresan采取滑窗的方式,取以每个像素点为中心的小图像块(patch)输入CNN来预测该像素点的语义标签,打破CNN只用于目标分类的先河;伯克利大学的Girshick教授等人共同提出了首个在目标检测方向应用的深度学习模型(Region-basedConvolutional Neural Network,R-CNN);由于R-CNN的效率太低,2015年由Ross等学者提出了它的改进版本:FastR-CNN,它在传统的R-CNN模型上有所改进的地方是直接使用一个神经网络对整个图像进行特征提取,就省去了串行提取特征的时间。但早期的方法均存在参数量级大、运算繁琐等问题,因此影响了运算速度。针对以上缺陷,Long等在2015年提出一种基于编码器-解码器(上采样/反卷积)结构的语义分割模型,它完全改变了之前需要一个窗口来将语义分割任务转变为图片分类任务的观念,FCN完全丢弃了图片分类任务中全连接层,从头到尾都只使用到了卷积层,但是,若要获得更深入的结构特征,FCN就必须完成多次下采样,同时还必须保存在池化过程中丢弃的位置信息,这可能导致较大的空间信息损失。
为了解决这个问题,Ronne berger提出了编码-解码(encoder-decoder,ED)体系结构,该架构利用编码网络来获取图片的高层低分辨率语义特征图,并在解码部分重建图像的细节特征和空间尺寸,从而保证输入和输出之间的分辨率相同。为了提高语义分割的效果,最近卢宏涛等研究提出的Deeplabv3+网络在ED结构的基础上加入了空洞卷积空间金字塔模块(Atrous Spatial Pyramid Pooling,ASPP)像进行分割时,网络对目标区域和特征并没有进行重点关注,使得对重要特征和不重要特征的像素无法准确区分,导致多个类别出现在同一感兴趣区域。
近年来,众多学术工作聚焦于高清晰度遥感图像与机载LiDAR数据的融合,以提高建筑物的识别精度。Moussa等、Grigillo等结合LiDAR数据和高分影像采用基于对象的方法,通过设置高度阈值得到建筑物候选区域;Wang等提出一种结合LiDAR数据与高分影像的建筑物提取方法,提取结果的总体精度与用户精度均有所提升。计算机科学的发展,使得深度学习理论及应用取得重要进展,并在图像语义分割中取得良好的效果,特别是对高级语义信息提取,解决了传统图像分割方法中语义信息缺失的问题。Nahhas等在2018年提出了一种基于深度学习(DL)的建筑物检测方法,该方法使用了光检测和测距(LiDAR)数据与正射影像的融合。所提出的方法利用基于对象的分析来创建对象,特征级融合,基于自动编码器的降维将低级特征转换为压缩特征以及卷积神经网络(CNN)将压缩特征转换为高级要素,用于将对象分类为建筑物和背景。针对网格搜索方法对所提出的体系结构进行了优化,并分析和讨论了其对超参数的敏感性;Du等提出了一种结合点和网格特征从LiDAR点云数据中提取建筑物的方法,该方法对大尺寸LiDAR数据也有较好的提取效果;Hujebri等通过正射影像的光谱信息区分植被和建筑物,并用均值漂移方法检测建筑物,该方法在地表复杂的密集城市区显示出良好的性能;Wang等提出U型高分辨率网络(U-HRNet),在多个语义分割和深度预测数据集上实现显著改进,而且计算量几乎没有增加,取得了很好的分类和提取效果。但这些方法均采用标准卷积提取特征,提高了网络模型的复杂度,容易产生特征冗余和过拟合。
实现思路