快速、準確且實時地檢測煙草葉片的氮含量對煙葉品質監測具有重要意義。無人機搭載的高光譜遙感技術可在大尺度上獲取農田作物的精細光譜信息。結合多種機器學習算法,可建立高*的葉片氮含量(LNC)評估模型。本研究旨在利用無人機高光譜影像數據構建高性能煙草LNC估算模型。為解決單模型性能差異(異質性)問題,引入集成學習策略,將多元線性回歸(MLR)、決策樹回歸(DTR)、隨機森林(RF)、自適應提升(Adaboost)及堆疊(Stacking)等多種算法進行融合,以挖掘更多有效數據特征。模型性能通過決定係數(R²)、均方根誤差(RMSE)和平均絕*百分比誤差(MAPE)評估,並以偏最小二乘回歸(PLSR)作為基準。結果表明,所有集成學習模型均優於PLSR(R²=0.680,RMSE=5.402 mg/g,MAPE=19.72%),其中基於堆疊策略的模型表現*佳(R²=0.745,RMSE=4.825 mg/g,MAPE=17.98%)。研究為利用無人機高光譜技術實現高*、無損的作物養分與植被表型特征檢測提供了參考。
煙草是中國重要的經濟作物,其生產質量直接影響農民收益與區域經濟發展。葉片氮含量(LNC)是影響煙葉品質的關鍵指標,但傳統檢測方法(人工經驗或實驗室分析)存在操作繁瑣、成本高、時效差的問題。無人機(UAV)結合高光譜遙感技術為實現作物氮含量的快速、無損檢測提供了可能,並在水稻、玉米、棉(mian)花(hua)等(deng)作(zuo)物(wu)的(de)葉(ye)氮(dan)含(han)量(liang)估(gu)算(suan)中(zhong)取(qu)得(de)了(le)成(cheng)功(gong),但(dan)在(zai)煙(yan)草(cao)領(ling)域(yu)的(de)應(ying)用(yong)仍(reng)然(ran)較(jiao)為(wei)有(you)限(xian)。盡(jin)管(guan)高(gao)光(guang)譜(pu)數(shu)據(ju)能(neng)夠(gou)反(fan)映(ying)作(zuo)物(wu)的(de)表(biao)型(xing)特(te)征(zheng),但(dan)其(qi)與(yu)葉(ye)氮(dan)含(han)量(liang)之(zhi)間(jian)的(de)關(guan)係(xi)需(xu)要(yao)通(tong)過(guo)*確的建模加以揭示,現有的回歸模型在不同作物和環境條件下表現異質,影響預測的穩定性和精度。本研究采用三種集成學習方法——隨機森林(RF)、Adaboost回歸和堆疊回歸(stacking),以解決單一模型的局限性,並與傳統的部分最小二乘回歸(PLSR)進行了對比。本研究首*係統評估UAV‑HRS用於煙草LNC反演的潛力,並以集成學習緩解不同模型在不同地塊、品種和環境下的性能異質性。

圖1 研究技術路線
本研究於2022年在中國雲南省大理白族自治州祥雲縣和彌渡縣開展,實驗地點位於六個煙草研究農田(S1~S6),采用隨機區組設計,分為三次重複(R1–R3)。每個實驗地塊麵積約1000 m²,均為平坦地形,且沒有高壓電線、樹木、建築物等阻礙無人機飛行的障礙物。煙草苗於四月下旬移栽,隨後每個地塊根據施肥量(0%、25%、50%、75%、100%、125%、150%)分配了七種肥料處理。

圖2 研究區域與實驗地塊分布(XZ:夏莊;XJ:新街;HY:洪岩)
無人機搭載的高光譜成像平台包括DJI Matrice 600 Pro無人機和江蘇雙利合譜科技有限公司的GaiaSky-mini2-VN推掃高光譜成像儀,後者在400–1000納米範圍內采集了176個波段的高光譜圖像,光譜分辨率為3.5納米。高光譜圖像采集周期為每隔20天(±3天),從移栽後35天開始,持續到收獲。采集時間段選擇在晴天的10:00到15:00之間,飛行高度為80米,空間分辨率為0.032mi。zaimeiciceliangqian,jinxingleguangpuxiaozhun。yancaoyangpindecaijiyugaoguangputuxiangcaijitongbujinxing。zaimeigechulidikuaizhong,congliangzhudaibiaoxingyancaozhizhudeshangzhongbuyepianshanggecaijiliangpianyezi。yangpinbeifangrubiaoshidezhidaizhong,bingzhuansongzhihuaxueshiyanshijinxingfenxi。
本研究通過使用數據處理軟件,提取純煙株像元的平均反射率;采用ExG(過量綠色指數)掩膜剔除土壤、陰影與雜草(優於NDVI)見圖3。

(a)Raw (b)ExG (c)NDVI
圖3 純煙草像素提取中ExG與NDVI的對比分析。
利用SPA(Successive Projection Algorithm)篩選氮敏感波段,該算法不僅能壓縮光譜數據,還能根據波長對LNC的貢獻度篩選出有效波段,剔除無意義波長,從而降低模型複雜度,共選出15個關鍵波段(405~959 nm)。
圖4展示了基於Bagging策略(Bootstrap Aggregating)的集成學習原理。該方法通過對原始訓練集進行多次自助抽樣(Bootstrap sampling),生成若幹個隨機子集,在每個子集上分別訓練獨立的弱學習器,最終通過平均或投票融合得到整體預測結果。研究結果表明,RF模型在測試集上獲得R²=0.711、RMSE=5.137 mg/g,顯著優於傳統的PLSR模型,驗證了Bagging策略在複雜農田環境下的穩健性與抗噪聲能力。

圖4 袋裝法與提升法基本策略比較
研究對400~1000 nm全波段反射率數據進行PCA分析後發現,前七個主成分即可累計解釋超過99.9%的光譜信息,如圖5所示。這說明煙草冠層的主要光譜變異可由少量主成分表示,為後續PLSR建模顯著降低了維度與共線性問題。PCA的引入有效壓縮了數據冗餘,提升了模型訓練的計算效率和穩定性,為構建偏最小二乘回歸(PLSR)及多元線性回歸(MLR)模型提供了優化輸入。

圖5 前7個主成分貢獻超過99.9%的信息量
使用連續投影算法(SPA)通過逐步投影和最小化波段間共線性,篩選出*具代表性的光譜特征變量。橫軸為選擇波段數量,縱軸為模型的RMSE值。結果顯示,當選取波段數量達到15個時,RMSE下降至約5.1 mg/g,達到*優解。進一步增加波段數量並未顯著降低誤差,表明SPA有效找到了信息量豐富且冗餘度低的波段組合。論文指出,SPA能夠在保持主要氮敏感特征的同時減少噪聲幹擾,為後續建模提供更高信噪比的輸入變量,從而提升模型的泛化性能。

圖6 SPA最終篩選的條帶數量
圖7展示了通過SPA算法篩選出的15個關鍵氮敏感波段在400~1000 nm範圍內的分布情況。這些波段主要集中於三個關鍵光譜區間:藍光區(405–466 nm):對應葉綠素強吸收區,與植被含氮水平密切相關;紅邊區(662–721 nm):對葉片氮、葉綠素及生理狀態最敏感;近紅外區(763–959 nm):反映葉片內部結構與水分含量變化。
波段分布均勻且物理意義明確,表明這些波段能全*表biao征zheng煙yan草cao冠guan層ceng的de光guang譜pu響xiang應ying特te征zheng。論lun文wen指zhi出chu,該gai結jie果guo驗yan證zheng了le光guang譜pu特te征zheng與yu葉ye片pian氮dan含han量liang之zhi間jian存cun在zai穩wen定ding的de函han數shu關guan係xi,為wei建jian立li穩wen健jian的de高gao光guang譜pu反fan演yan模mo型xing提ti供gong了le物wu理li依yi據ju。

圖7 所選15個頻帶的分布表
本文比較了不同建模方法在訓練集與測試集上的預測性能,包括PLSR、MLR、DTR、RF、Adaboost以及三種堆疊模型(Stacking-1/2/3),如圖8所示。結果顯示,所有集成學習模型均顯著優於基線PLSR模型(R²=0.680)。其中,Stacking-3模型在測試集上表現*佳(R²=0.745,RMSE=4.824 mg/g,MAPE=17.98%),兼具高精度與高穩定性。Adaboost模型在MAPE上表現*優(17.56%),說明其通過動態調整弱學習器權重有效降低了偏差。整體趨勢表明,Stacking策ce略lve可ke整zheng合he不bu同tong模mo型xing的de優you點dian,提ti取qu更geng多duo潛qian在zai特te征zheng信xin息xi,從cong而er提ti高gao對dui煙yan草cao葉ye片pian氮dan含han量liang的de預yu測ce能neng力li。這zhe一yi結jie果guo證zheng實shi了le集ji成cheng學xue習xi框kuang架jia在zai應ying對dui高gao維wei非fei線xian性xing農nong業ye遙yao感gan數shu據ju時shi的de優you勢shi。

圖8 不同模型下訓練集與測試集的煙草煙霧密度(mg/g),R2與RMSE的對比分析
不同子集達到AVCR>99.9%所需的主成分數不同——S1~S3:5;S4:8;S5:6;S6:6。這表明各子集的“有效信息維度”並不一致,反映了品種、環境與背景噪聲導致的譜—氮關係複雜度差異。複雜度越高(如S4需8個PC),越難以用統一線性子集*確刻畫。

圖9 子集S1~S3、S4、S5和S6的AVCR值
橫向對比各個子集:S6(*佳):測試集 R²=0.703,RMSE=5.315 mg/g,MAPE=16.30%;S4(最差):測試集 R²=0.462,RMSE=6.122 mg/g,MAPE=17.86%。
在樣本量較小的子集(S4、S5、S6),PLSR的過擬合傾向更明顯,而樣本量相對較大的S1~S3穩定性更好,指出樣本量與參數充分訓練對穩定性的關鍵作用。

圖10 PLSR在各子集的泛化差異比較
本文基於UAV搭載高光譜(400~1000 nm)與田間實測數據,采用PCA+SPA兩級降維並係統比較PLSR與多種集成學習策略,結論表明:在跨地區、跨品種、跨環境的混合數據下,集成學習整體顯著優於PLSR,其中堆疊(Stacking)在精度與穩健性上*優;*佳模型SPA‑Stacking‑3在測試集達到R²≈0.745、RMSE≈4.82 mg/g、MAPE≈17.98%,而且基學習器應“準確且異質”,二層元學習器宜取簡單線性模型以抑製過擬合;SPA能有效降低光譜冗餘、基本不損失關鍵信息。盡管UAV‑HRS的定量精度尚低於近地觀測,但其提供連續空間信息、適於規模化表型監測,具備用於煙草氮素與相關性狀快速、無損監測的應用潛力;後續應進一步提升影像與預處理質量、拓展基學習器譜係,並開展分生育期/分區建模以增強普適性與可靠性。
Mingzheng Z ,Tian’en C ,Xiaohe G , et al.UAV-borne hyperspectral estimation of nitrogen content in tobacco leaves based on ensemble learning methods[J].Computers and Electronics in Agriculture,2023,211DOI:10.1016/J.COMPAG.2023.108008.
地址:無錫市梁溪區南湖大道飛宏路58-1-108
電話:
郵箱:
地址:北京市海澱區中關村大街19號
電話:
郵箱:
地址:陝西省西安市高新區科技一路40號盛方科技園B座三層東區
電話:
郵箱:
地址:成都市青羊區順城大街206號四川國際大廈七樓G座
電話:
郵箱:
地址:深圳市龍華區民治梅龍路
電話:
郵箱: