-
为验证所提出的融合分类算法的有效性,采用城区和林区不同场景的数据进行验证实验。
-
该数据集(下文简称Houston数据集)[10],在休斯顿大学校园和邻近城市地区获取,包括1景高光谱影像和1景由LiDAR点云生成的数字表面模型(DSM)栅格数据。其中,高光谱影像的光谱范围为380~1050 nm,包含144个波段,空间大小为349×1 905,空间分辨率为2.5 m,共包含15个地类。图2为高光谱影像(真彩色模式)、DSM,训练和测试样本的数量见表1(a)。在高光谱影像的获取过程中,由于云层的遮挡导致部分研究区域位于阴影之下,在该区域也没有选择训练样本,但部分测试样本位于阴影区域,增大了实验的挑战性。
-
该实验数据集在广西壮族自治区南宁市高峰林场地区获取[14],经过几何校正、拼接、配准等预处理后形成的数据集(下文简称高峰林场数据集)也包括1景高光谱和1景DSM栅格数据。其中,高光谱影像包含125个波段,空间大小为351×2281,空间分辨率为1 m,共15个类别。结合野外调查,获得该场景的训练和测试样本,两者没有交叉。图3为该高光谱影像和DSM,训练和测试样本的数量和图例信息见表1(b)。
-
拓展形态剖面特征(EMP)通过采用不同形状、依次增大的结构元素对波段进行序列开闭运算,可以有效提取场景中的对象大小和形状空间结构信息,广泛用于空间信息的提取。考虑到研究场景中,道路、房屋、草地、树林、树冠等往往具有规整的边界或规则的形状,基于序列尺寸的圆形和线形结构元素,对DSM和高光谱波段提取多尺度特征,具体参数设置参考文献[7]。
首先,采用序列尺寸的圆形和线形结构元素,分别对DSM波段和高光谱影像提取形态剖面特征,然后,对于共计210维的光谱、空间和高度特征进行基于图模型的特征融合(见1.2节)后,通过不同维数融合特征的精度比较(见3.1节)确定最终保留的特征维数。融合后的特征基于径向基函数,采用概率支持向量机[13]进行分类。其中的模型参数由10-折交叉验证获取。
在分类结果优化阶段,涉及目标函数(公式(15)和(16))中两个超参数
$\;\;\beta $ 的选择问题,默认设置两个超参数取值一致,并通过实验确定较优的参数值。结果评价采用定量精度评价和目视解译结合的方式。分类结果的定量评价采用基于混淆矩阵的整体精度(OA)、Kappa系数以及相关的类别生产者和用户精度等指标。(a) 休斯顿
(a) Houston(b) 高峰林场
(b) Gaofeng forest farmClass name Number of training/testing samples/pixel Sample color Class name Number of training/testing samples/pixel Sample color Healthy grass 198/1053 Eucalyptus 193/315 Stressed grass 190/1064 Road 74/106 Synthetic grass 192/505 Tilia tuan 40/52 Trees 188/1056 Cultivated land 95/127 Soil 186/1056 Acacia crassicarpa benth 208/308 Water 182/143 Wasteland 16/20 Residential 196/1072 Michelia macclurei dandy 69/95 Commercial 191/1053 Building 165/251 Road 193/1059 Other broad leaved forests 184/275 Highway 191/1036 Pinus massoniana lamb 214/300 Railway 181/1054 Cunninghamia lanceolata 34/47 Parking Lot 1 192/1041 Water 390/562 Parking Lot 2 184/285 Mixed shrub forest 53/84 Tennis court 181/247 Bamboo 21/34 Running track 187/473 Grassland 23/20 Table 1. Class names and their numbers
-
基于两个数据集,从特征提取阶段中保留特征维数的影响、超参数
$\;\beta $ 的取值、初始分类方法的影响、与主流方法的对比等方面评估所提出的方法的优劣。 -
首先对图模型融合后Houston 数据集整体精度OA随保留特征维数(1~32)变化的情况进行分析。实验结果表明:随着特征维数的增加,GGF和GGF-CRF的分类精度都在逐渐提升;且对于保留不同维数获得的初始分类结果采用后处理算法后精度均有所提升。高峰林场数据集也有相似的表现。当保留特征维数超过24维后,分类精度开始逐渐下降。保留特征维数在20~32之间时,OA均超过90%;且当融合特征维数取24维时精度最高。因此,后续的保留特征维数均设置为24维。
-
表2为不同
$\;\beta $ 取值下,Houston总体分类精度(OA)、Kappa系数及平均精度(AA)的值。当$\;\beta $ 在一定范围内取值时,3个指标均比较稳定,表现出算法对于$\;\beta $ 取值的鲁棒性。可以认为$\;\beta $ 取值在[0.5, 4.5]范围时,算法对于超参数的取值不敏感。这一结论也被其他研究[9]和文中的高峰林场数据所证实。因此,后续实验中,Houston数据集$\;\beta $ 取值固定为1,高峰林场数据集$\;\beta $ 取值固定为2.5。Precision β 0.5 1 1.5 2 2.5 3 3.5 4 4.5 OA 93.99% 94.00% 93.93% 93.88% 93.89% 93.86% 93.85 93.84% 93.83% Kappa 0.935 0.935 0.934 0.933 0.934 0.933 0.933 0.933 0.933 AA 93.47% 93.42% 93.19% 93.07% 91.30% 93.06% 93.04% 93.04% 93.03% Table 2. Influence of different β values on the final classification accuracy (Houston)
-
为全面评价提出方法的优势和不足,设置不同特征及组合、不同特征融合方法以及不同CRF后处理方法,共7种方法进行对比分析。具体而言:
(1) FSpe:基于光谱特征的SVM分类;
(2) FDSM:基于DSM提取的形态学的SVM分类;
(3) FSpe+FSpa:基于形态学空间特征及光谱主成分结合的分类;
(4) FSpe+FDSM:光谱-高度特征叠加融合分类;
(5) GGF:空间-光谱-高度特征经过图模型融合后进行分类,即文中采用的初始分类方法;
(6) GGF_CRF1:对于GGF的输出结果仅考虑融合特征局部差异性的CRF后处理方法;
(7) GGF-CRF:文中提出的方法。
上述方法中,(1)~(5)属于像素级分类方法(第一组);(6)~(7)属于基于CRF的分类优化方法(第二组)。前者的对比可以评价各类特征的重要性及特征融合方法的有效性;后者的对比可以评价提出优化模型的有效性。
表3(a)展示了两组七种方法在处理Houston数据集的生产者精度对比。整体而言,文中提出的方法(GGF-CRF)在大部分类别上获得了最优或次优的结果,且OA、AA和Kappa均为最高。合成草地、裸土、网球场及跑道的分类精度达到100%,且大部分类别的分类精度均在90%以上。
(a) 休斯顿数据集
(a) Houston data setCategory Pixel level classification method CRF classification optimization method FSpe FDSM FSpe+FSpa FSpe+FDSM GGF GGF_CRF1 GGF-CRF Healthy grass 82.34 24.88 55.69 55.89 81.67 82.43 83.1 Stressed grass 83.36 55.92 84.40 84.49 99.34 99.62 99.81 Synthetic grass 100 91.88 100 100 100 100 100 Trees 93.37 67.23 91.57 98.11 99.24 99.24 99.62 Soil 98.30 76.80 100 99.15 100 100 100 Water 91.61 80.42 99.30 96.50 95.10 95.10 94.41 Residential 76.59 71.74 82.84 91.32 92.35 92.26 93.47 Commercial 56.51 61.92 53.09 52.42 94.59 94.78 95.73 Road 66.57 51.37 79.04 83.95 86.02 85.93 85.74 Highway 72.39 53.86 68.15 79.92 93.24 93.63 94.98 Railway 92.88 83.97 97.34 87.76 90.70 90.80 90.61 Parking Lot 1 78.58 60.71 97.70 79.63 94.24 94.43 97.41 Parking Lot 2 72.98 57.19 81.05 74.04 72.28 71.93 66.67 Tennis Court 98.79 97.17 100 98.79 100 100 100 Running Track 98.31 28.96 98.52 97.67 99.37 99.37 99.79 OA 81.98% 60.48% 85.12% 85.14% 93.34% 93.47% 94.00% AA 84.17% 64.27% 85.91% 85.31% 93.21% 93.30% 93.42% Kappa 0.805 0.597 0.839 0.839 0.928 0.929 0.935 (b)高峰林场数据集
(b) Gaofeng forest farm data setCategory Pixel level classification method CRF classification optimization method FSpe FDSM FSpe+FSpa FSpe+FDSM GGF GGF_CRF1 GGF-CRF Eucalyptus 73.65 60.63 90.79 77.46 86.67 96.82 97.14 Road 48.11 52.83 90.57 66.98 74.53 73.50 73.58 Tilia tuan 5.77 46.15 59.62 53.85 25 32.69 32.69 Cultivated land 83.46 98.43 100 96.85 100 100 100 Acacia crassicarpa benth 71.75 88.31 97.08 87.66 90.91 97.73 97.73 Wasteland 80 55 95 90 95 100 100 Michelia macclurei dandy 31.58 55.79 75.79 70.53 67.37 83.16 84.24 Building 83.27 84.06 96.41 92.83 98.01 97.21 97.21 Other broad leaved forests 70.91 66.55 96.36 65.82 83.27 85.45 85.82 Pinus massoniana lamb 73.67 92.67 92.00 85.67 89.00 96.67 97.00 Cunninghamia lanceolata 12.77 68.09 95.74 65.96 78.72 95.74 95.74 Water 99.82 98.22 100 99.64 100 100 100 Mixed shrub forest 2.38 51.19 73.81 67.86 73.81 88.1 88.1 Bamboo 0 2.94 17.65 17.65 0 0 0 Grassland 10.00 40.00 55.00 85.00 95.00 100 100 OA 71.46% 78.58% 92.41% 83.32% 87.71% 92.37% 92.84% AA 49.81% 64.06% 82.39% 74.92% 77.15% 83.14% 83.28% Kappa 0.674 0.756 0.914 0.811 0.860 0.913 0.919 Table 3. Producer's accuracy comparison of seven classification methods for different data sets
在像素级分类方法中,单一特征的分类结果FSpe和FDSM的整体精度均较低,分别为81.98%和60.48,体现出光谱特征对于遥感分类的基础性作用,也体现出高度特征在区分高度差异不大的地物上的局限性。但阴影区内外地物光谱特征的差异和阴影区训练样本的缺失导致FSpe在阴影区的表现(图4(c))不佳。
Figure 4. Classification results obtained from different feature fusion settings in the shaded area (Houston data set)
光谱-空间联合特征(FSpe+FSpa)和光谱-高度联合特征(FSpe+FDSM)的应用将分类精度分别提升到85.12%和85.14%,表明了光谱与空间、高度特征的互补性。而在FSpe+FSpa简单叠加的特征融合方式建立的特征空间中,阴影区域内外相同地类的样本差异仍然较大,导致该部分分类结果不佳(图4(e))。应用流形学习的广义图融合算法GGF后,由于引入了训练样本在联合特征空间的相似性信息,分类精度进一步提升到了93.34%,表明该算法不仅能降低特征的维数,还能有效去除波段间的冗余,使得样本间的特征差异更适合采用欧式距离度量。如图4(g)所示,阴影区的分类结果明显改善,特别是跨越阴影和非阴影区域的高速公路(高架桥)分类最为完整。
但如图5(a)所示,由于上述5种分类过程均以像素为单位,特征提取即使考虑了局部邻域的信息,分类结果中仍然存在不同程度的“胡椒盐”噪声,地物边界不清晰,仍需要借助后处理手段进行平滑。
Figure 5. Initial classification map and results optimized by different CRF methods (Houston data set)
在GGF方法分类的基础上,两种后处理算法结果各类别和整体精度均略有提高,GGF-CRF的OA、AA和Kappa系数均最高,但数值上GGF-CRF1和GGF-CRF方法精度差异不大。图5为GGF分类及两种优化方法的结果。直观上,图5(b)分类图的视觉差异要远大于精度统计反映的差异,造成这一现象的原因是缺少位于不同对象邻接区域的测试样本。从图5(b)~(c)中还可以看出:两种优化方法在不同程度上减少了GGF中(图5(a))的“胡椒盐”噪声。GGF-CRF1方法考虑了相邻像素间融合特征异质性值,不仅能准确反映不同地物类别之间的边界,并且对于较小的地物类别,在分类结果中也能被保留下来。GGF-CRF在GGF-CRF1的结果上进行再优化,通过考虑类别间的空间共生关系,能有效改善GGF-CRF1方法中的噪声。
根据公式(16),当相邻像素类别相同时,1−
$\delta \left( {{y_i},{y_j}} \right)$ 取0;当相邻像素类别不同时,较强空间关系对应的 1-${g_d}\left( {{y_i},{y_j}} \right)$ 较小。求解公式(16)的极小值,倾向于保留邻域空间关系更稳固的类别对。因此,如表3所示,从GGF-CRF1到GGF-CRF,大多数类别的精度均有所提升,特别是居民区、商业区、高速公路等人工地物类别。 -
表4所示为文中提出的方法与主流融合方法的结果对比。其中,Deep fusion[15]首先使用卷积神经网络方法将光谱数据和激光雷达数据映射为成高度抽象的特征向量,再使用全连接神经网络来融合光谱和激光雷达数据特征,通过网络来训练学习这两种特征的非线性组合。HyMCKs[8]利用复合核来实现异构数据地融合分类。多级融合[4]方法针对特定地物类型的特点设计融合准则,使用投票方法对特征级融合结果进行决策级融合,然后再利用条件随机场对分类结果进行后处理。EC-CRF[11]方法利用Sobel算子分别对高光谱和LiDAR进行边缘提取,并将两种边缘进行组合,根据梯度自适应地控制一个可变加权系数并输入CRF模型中。
Table 4. Comparison of classification accuracy of different methods on Houston data set
从表4中可以看出,文中的方法在总体精度和Kappa值上都处于较高的水平。相比于其他融合算法,该算法能在高光谱和LiDAR数据融合分类上获得较好的效果。
-
表3(b) 展示了上述两组七种方法在高峰林场数据集分类结果的生产者精度对比。整体而言,文中提出的方法(GGF-CRF)在大部分类别上获得了最优或次优的结果,且OA、AA和Kappa均为最高。耕地、荒地、水体及草地的分类精度达到100%,大部分类别的分类精度均在80%以上。同时,目视对比,该数据集的分类结果也具有与图5类似的表现。
因此,与Houston数据集类似的实验结果,实验证实了该算法在提升分类精度和改善“胡椒盐”现象的有效性。
-
在 CPU Intel i7 2.50 GHz、内存64 GB、Windows 7操作系统、Matlab 2019b 环境下测试了算法耗时。在第一特征融合及初始分类步骤中,由于初始分类耗时因特征参数、样本数量和分类器设置而异。统计未包含形态特征提取和SVM交叉验证步骤的时间。
Houston整体处理时间为220.05 s,高峰林场整体处理时间为240.45 s,第二优化步骤比第一特征融合及初始分类步骤需要更多的计算时间。其中,目标函数(公式(15)和(16))的求解占整个处理时间的约70%。第一步处理中,形态特征提取、拉普拉斯特征映射和SVM参数交叉寻优占用超过80%的处理时间。
Conditional random field classification method based on hyperspectral-LiDAR fusion
doi: 10.3788/IRLA20210112
- Received Date: 2021-02-17
- Rev Recd Date: 2021-06-07
- Publish Date: 2021-12-31
-
Key words:
- hyperspectral /
- LiDAR /
- condition random field /
- feature fusion based on graph model /
- local heterogeneity /
- spatial co-occurrence
Abstract: The interpretation of single remotely sensed data source may suffer from inaccurate boundary and low classification accuracy. The integration of hyperspectral and LiDAR data opens up the possibility to improve the classification performance. But, it is a challenge that how to appropriately integrate the considerable heterogeneity between the two types of data. In this paper, a conditional random field classification method was proposed to solve this problem by jointly taking both the heterogeneity of fused spectral-spatial-height features and co-occurrence of class labels into account. Firstly, the morphological features were extracted from two types of data respectively, and a graph model and training samples were jointly used to fuse the morphological features and spectral features. The obtained features were inputted into a support vector machine classifier to obtain the initial classification results with probabilistic outputs. Then, based on the fusion features, a local heterogeneity value was calculated to measure the essential difference of classes among pixels. Meanwhile, a class co-occurrence matrix, whose element calculated the spatial relationship between classes, was also obtained. Finally, a conditional random field framework was used to integrate the initial classification results, local heterogeneity information and the class co-occurrence matrix, and obtain the final classification results through inferencing two objective functions. In this process, by defining the weight between two neighboring pixel as a monotone decreasing function respect to the normalized Euclidean distance of the corresponding fused features, the object boundary could be regularized by giving a smaller weight to the class pairs with different labels and distinct features. Similarly, by giving a small weight to the class pairs with a strong spatial relationship, the purpose of maintaining the class pairs with stable spatial relations could be achieved. The method was validated with Houston and Gaofeng forest farm data sets. The overall accuracies of the proposed method reached to 94.00% and 92.84% respectively, and the "pepper and salt" phenomena of the initial classification results were significantly reduced. The result indicates the effectiveness of the proposed method.