-
林分平均高是评价森林生产力、计算森林生物量和蓄积量、研究森林碳循环的重要参考指标[1-3]。传统的森林参数调查中,需要花费大量人力物力,在地形复杂、人迹罕至的地方,甚至无法实现人工地面调查。
20世纪80年代中期,激光雷达技术被应用于森林参数的获取[4]。机载LiDAR技术由于其具有测量精度高、实时性好、方便灵活等特点被广泛用于森林参数的获取。利用机载LiDAR点云数据获取森林参数可根据点云密度大小分为两类:即利用高密度点云直接获取单木参数,包括单木树高、冠幅、冠面积和材积等[5-7]。这一类方法往往需要高密度的激光点云,通常点云密度需达15点·m−2以上,数据获取成本较高,大区域范围难以应用。另一类利用相对稀疏的点云密度获取林分测树因子,如平均高、郁闭度、蓄积量等林分因子。通过建立机载LiDAR点云数据的统计特征和野外样地的林分调查因子的相关模型完成大范围的森林参数制图[8-9]。这一类方法对机载LiDAR点云数据密度要求较低,通常利用2点·m−2以上的低密度LiDAR点云即可与样地统计数据建立模型,完成大区域下森林参数的获取[10-12]。
近年来,已有大量研究利用机载LiDAR点云数据结合样地调查数据建立模型估测林分参数。这些模型主要分为参数模型和非参数模型。参数模型以线性回归为代表,Næsset、穆喜云、庞勇等[1, 4, 13]分别对挪威东南部的针叶林、内蒙古大兴安岭生态站典型的森林类型、山东省泰安市徂徕山林场人工林为主的林分利用机载LiDAR点云数据建立线性回归模型估测林分平均高都得到了较好的结果。Kwak、Silva、刘浩、徐婷等[14-17]基于机载LiDAR点云数据采用线性回归建立模型估测生物量、蓄积量、平均胸径、胸高断面积等森林参数也都取得了较好的效果。然而,虽然线性回归模型简单明了,但以此建立模型对数据要求较高,它假设数据满足正态性、方差齐性、独立性和线性相关等严苛的条件才能建立模型[18],实际应用中数据并非能满足以上的条件。非参数模型主要有支持向量机、随机森林、K近邻法(K-NN)、人工神经网络(ANN)、决策树等,这些方法都已被成功应用于森林参数估测[19-21]。鲁林等[22]基于机载LiDAR点云数据探索了随机森林算法在估测林分平均高中的适用性。Alberto等[23]基于机载LiDAR点云数据构建K近邻回归模型对位于巴西的火炬松(Pinus taeda L.)种植园进行了林分平均高和优势高估测,模型的相关性(R2)分别为94%和90%。Monnet等[24]基于机载LiDAR点云数据构建支持向量机和普通最小二乘模型对林分优势高进行估计,结果显示支持向量机和普通最小二乘估测精度相近,但支持向量机模型精度更高。Tompalski等[25]利用最小二乘模型、随机森林、K-NN 3个模型测试模型的可移植性,基于不同区域、不同点云特征对断面积加权平均高、断面积平均木直径和总材积进行估测,显示了机器学习算法在森林参数估测上具有巨大的优势性。洪奕丰等[26]基于机载LiDAR点云数据对长白落叶松(Larix olgensis Henry.)组分生物量使用随机森林算法反演建模,随机森林模型的精度(R2)均高于0.91。由于机载LiDAR点云数据的特殊性,能从三维结构上反映森林的垂直结构,因此,机载LiDAR点云数据可提供更多描绘森林的特征来估测森林参数。对于多特征参数的应用,更好的挖掘机载LiDAR点云数据获取森林参数的潜力,无疑机器学习提供了更加便利的技术手段。
国外已有多位研究者基于机载LiDAR点云数据使用不同的机器学习方法对森林参数进行了估测研究,而国内相应研究较少。鉴于此,本研究以广西壮族自治区高峰林场试验区为研究区,采用2016年9月获取的机载LiDAR点云数据为基础,结合105块同步获取的样地数据,使用随机森林、支持向量机、支持向量机+随机森林的组合模型分别对研究区林分平均高进行建模估测。评价不同方法在使用机载LiDAR点云数据估测林分平均高应用中的适应性,采用模型精度高、泛化能力强的模型完成研究区林分平均高制图。
HTML
-
基于79个训练样本数据与机载LiDAR数据提取的30 m×30 m空间林分尺度下的特征变量回归建模。使用网格搜索算法结合十折交叉验证方法分别对随机森林、支持向量机及组合回归模型进行参数寻优。(1)随机森林主要对构建决策树的数量,使树节点分裂的最小特征数,最小叶子节点3个参数进行寻优。最终参数最优解的结果为:构建决策树的数量75,树节点分裂的最小特征数为2,最小叶子节点为2;(2)支持向量机模型参数寻优中选用常用的3个核函数,即线性核、RBF和多项式核函数分别进行。寻优结果为: 核函数为RBF,惩罚参数(C)为10,gamma参数为0.02。(3)根据参数寻优建立的随机森林回归模型得到参与建模LiDAR特征变量的重要性,如图2。图中重要性值越高,该特征对林分平均高估测越重要。由图2可以看出,LiDAR特征变量中几个高度分位数的重要性值都较大,其中以H80高度分为数最大;其次为点云的几个统计变量(Hvar、Hmean、Hstd等)。说明植被点云的首次回波中75%~95%的高度分位数或最大高度分位数(Hmax)有利于拟合林分平均高或优势木平均高,这与前人研究结果一致[22, 28-30]。密度变量重要性值较大的有D3,D4,D8等。其中D3被选中与刘浩等[17]的研究结果一致。研究中选择大于80%信息累计贡献的特征变量使用支持向量机回归建模,随机森林回归模型优选后的特征变量具体见表1。依据网格参数寻优方法,进一步得到组合模型的参数最优解:核函数为RBF,惩罚参数(C)为10,gamma参数为0.01。
序号 Order 变量 Variable 重要性 Importance 1 H80 0.100 73 2 H95 0.073 89 3 H75 0.069 96 4 H60 0.066 89 5 H90 0.061 01 6 Hvar 0.058 46 7 H70 0.057 75 8 Hmax 0.050 81 9 Hstd 0.042 36 10 Hmean 0.040 72 11 D3 0.034 92 12 Hmedian 0.033 50 13 H30 0.028 55 14 Hcv 0.025 59 15 H40 0.025 08 16 D8 0.022 87 17 D4 0.020 97 Table 1. RF model feature selection
-
使用79个训练样本数据和26个检验样本数据分别利用3个回归模型进行林分平均高预测,进一步分析3个模型的预测林分平均高和实测林分平均高的相关关系。图3、4、5分别为随机森林模型、支持向量机模型以及两种方法组合模型的预测林分平均高和实测平均高的相关关系。
Figure 3. Comparison of stand mean height between and the RFR model estimations the ground measured values
Figure 4. Comparison of stand mean height between and the SVR model estimations the ground measured values
Figure 5. Comparison of stand mean height between and the RFR&SVR model estimations the ground measured values
3个模型精度评价指标见表2。表中差值一项反映了3个模型中训练数据和检验数据对应的精度指标之差,差值越小,模型泛化能力越强。由表2可知,3个模型的决定系数(R2)均大于0.85,RMSE也都较小。从检验样本的精度指标及其与模型精度的差值看,组合模型(RFR&SVR)的差值最小,泛化能力最强,说明利用组合模型更适合推演到区域尺度完成林分平均高制图。最后,采用python语言读取整个研究区的对应的LiDAR变量特征,利用组合模型完成整个研究区林分平均高制图,图6为研究区林分平均高分布图。
回归模型
Regression model训练样本
Training sample检验样本
Test sample差值
DifferenceR2 RMSE/m R2 RMSE/m R2 RMSE/m RFR 0.886 1 1.22 0.837 5 1.56 0.048 6 0.34 SVR 0.886 4 1.21 0.840 9 1.54 0.045 5 0.33 RFR&SVR 0.859 8 1.35 0.853 2 1.48 0.006 6 0.13 -
(1)随机森林回归模型中,从训练样本的随机抽样到特征选择的随机抽样,两层随机抽样保证了模型的稳定性,在预测林分平均高中具有较强的抗噪声能力,使得随机森林模型在预测林分平均高中表现较好,训练数据和检验数据的预测精度均高于80%。同时,每棵决策树的建立,投票选择出对林分平均高解释性最强的特征变量,取每个特征的均值作为最终在模型中的贡献程度,相比于支持向量机模型而言可以更好的解释特征变量。
(2)使用支持向量机预测林分平均高,通过核函数由低维到高维映射,解决了高维空间计算复杂的问题。同时,支持向量机寻找最少的支持向量构建支撑面,对噪声异值敏感度降低。回归过程中引入误差损失函数,使得误差容忍度提高,模型精度有所提高。对于小样本数据,支持向量机表现较优,研究结果也证明了这一点。较随机森林而言,支持向量机在利用105块实测样地数据建模预测林分平均高中精度优于随机森林模型。
(3)组合模型利用了随机森林模型优选特征的可解释性和科学性,同时结合了支持向量机模型对小样本数据回归预测的优势,更好的完成林分平均树高的预测。研究结果得到组合模型的泛化能力最强,估测精度也与前两种方法相差较小,更适合于模型的推演与制图。
(4)随机森林和支持向量机这一类机器学习算法,在模型的构建中,模型参数的优化是精确的预测林分平均高的关键。使用格网搜索算法进行参数的选择,是一种高效快捷的方式,它利用交叉验证的方法对每一组参数进行打分,最终选取出最优的参数组合,避免了在预测林分平均高建模中盲目调节参数的目的。
(5)利用105块实测数据对研究区内的林分平均高建模回归预测,虽然取得了较好的结果,但由于本次研究中受样地数量的限制,没有分树种进行估测,一定程度会影响树高的估测精度。因此,后期需要分树种建模预测林分平均高,进一步改善预测精度。