背景
茶多酚是茶葉的重要組成部分,也是生物活性化學物質的重要來源,具有抗氧化、抗癌、抗菌、抗(kang)炎(yan)和(he)抗(kang)動(dong)脈(mai)硬(ying)化(hua)的(de)能(neng)力(li),在(zai)醫(yi)藥(yao)和(he)食(shi)品(pin)工(gong)業(ye)中(zhong)發(fa)揮(hui)著(zhe)重(zhong)要(yao)作(zuo)用(yong)。高(gao)光(guang)譜(pu)成(cheng)像(xiang)技(ji)術(shu)是(shi)基(ji)於(yu)大(da)量(liang)窄(zhai)波(bo)段(duan)的(de)圖(tu)像(xiang)數(shu)據(ju)技(ji)術(shu)。它(ta)將(jiang)成(cheng)像(xiang)技(ji)術(shu)與(yu)光(guang)譜(pu)技(ji)術(shu)相(xiang)結(jie)合(he),檢(jian)測(ce)目(mu)標(biao)的(de)二(er)維(wei)幾(ji)何(he)空(kong)間(jian)和(he)一(yi)維(wei)光(guang)譜(pu)信(xin)息(xi),已(yi)被(bei)廣(guang)泛(fan)應(ying)用(yong)於(yu)農(nong)產(chan)品(pin)質(zhi)量(liang)檢(jian)測(ce)。
基ji於yu高gao光guang譜pu技ji術shu建jian立li的de模mo型xing結jie果guo受shou多duo種zhong因yin素su的de影ying響xiang。特te征zheng數shu據ju預yu處chu理li方fang法fa是shi影ying響xiang分fen析xi結jie果guo的de主zhu要yao因yin素su。常chang見jian的de光guang譜pu數shu據ju預yu處chu理li方fang法fa包bao括kuo正zheng交jiao信xin號hao校xiao正zheng(OSC)、一階導數(FD)、二階導數(SD)、多元散射校正(MSC)、標準正態變量變換(SNVT)、Savitzky-Gola濾波(SG)。結果表明,這些方法可以減少外界因素的影響,在一定程度上提高檢測的準確性。
光guang譜pu特te征zheng波bo段duan的de選xuan擇ze是shi影ying響xiang模mo型xing結jie果guo的de另ling一yi個ge重zhong要yao因yin素su。有you效xiao地di選xuan擇ze特te征zheng波bo段duan可ke以yi節jie省sheng計ji算suan資zi源yuan,提ti高gao模mo型xing性xing能neng。近jin年nian來lai,研yan究jiu人ren員yuan提ti出chu了le許xu多duo特te征zheng波bo段duan選xuan擇ze方fang法fa,如ru區qu間jian偏pian最zui小xiao二er乘cheng(iPLS)、協同區間偏最小二乘(siPLS)、後向區間偏最小二乘(biPLS)。這些特征選擇算法將所有特征劃分為若幹個區間,然後通過迭代選取區間中效果較好的一小部分作為特征集合。然而,通過這種“捆綁”方法選擇的光譜特征可能會遺漏一些重要特征。
為了避免手動數據分割引起的偏差,有許多計算方法可用於樣本選擇,如隨機選擇(RS),Kennard-Stone(KS)或基於聯合x-y距離(SPXY)的樣本集分割算法。
本(ben)研(yan)究(jiu)旨(zhi)在(zai)探(tan)討(tao)基(ji)於(yu)高(gao)光(guang)譜(pu)圖(tu)像(xiang)技(ji)術(shu)的(de)茶(cha)多(duo)酚(fen)含(han)量(liang)快(kuai)速(su)無(wu)損(sun)在(zai)線(xian)檢(jian)測(ce)的(de)可(ke)行(xing)性(xing)。采(cai)用(yong)不(bu)同(tong)的(de)數(shu)據(ju)預(yu)處(chu)理(li)方(fang)法(fa)對(dui)采(cai)集(ji)到(dao)的(de)茶(cha)葉(ye)高(gao)光(guang)譜(pu)數(shu)據(ju)進(jin)行(xing)處(chu)理(li)。本(ben)文(wen)通(tong)過(guo)建(jian)立(li)模(mo)型(xing)並(bing)對(dui)建(jian)模(mo)結(jie)果(guo)進(jin)行(xing)分(fen)析(xi),選(xuan)擇(ze)了(le)*佳的預處理方法。
試驗設計
四川農業大學康誌亮團隊共選出三個級別的雅安藏茶,獲取其茶多酚含量後,用SPXY算法對數據集進行劃分(表1)。利用江蘇雙利合譜公司研製的GaiaSorter高光譜分選儀獲得了藏茶的高光譜數據,其有效光譜範圍為387 ~ 1035nm,光譜分辨率為2.8 nm,光譜通道為256條。把茶葉均勻地鋪在一個容器裏(大約65厘米 × 65厘米)。高光譜采集係統如圖1所示。由於暗電流的影響,最終420 ~ 1010 nm波段被保留作為原始光譜數據。
表1 基於 SPXY 算法的茶多酚含量統計及樣品分配結果


圖1 高光譜成像係統示意圖
隨機噪聲通常是在獲取光譜時由外界環境、儀器響應和其他與被測樣品性質無關的因素產生的,並且光譜數據出現無序波動。因此,本文采用了SG、MSC、SNVT、FD、SD和Z分數標準化(ZSS)六種預處理算法來消除原始光譜數據中的噪聲。
本研究使用的SPXY算法是由KS(Kennard-Stone)算法發展而來。KSsuanfajiangsuoyouyangbenkanzuoxiaozhunjidehouxuanyangben,bingxuanzejinruxiaozhunjideoujilideduliangzuidadelianggeyangben。ranhou,tongguojisuanshengyuyangbenyuxiaozhunjizhongyizhiyangbenzhijiandeoujilideduliang,xuanzezuijiejinxuandingyangbendelianggeyangbenbingjiangqifangruxiaozhunjizhong,zhongfushangshubuzhou,zhidaoyangbenshudadaoshedingzhi。zaiSPXY計算樣本距離時,同時考慮了樣本標號(Y)和樣本特征(X)。
所獲得的高光譜數據往往包含大量冗餘信息,這將對最終建模的準確性和效率產生一定的影響。本研究使用六種方法,梯度提升(GB)、自適應提升(AdaBoost)、隨機森林(RF)、分類提升(CatBoost)、LightGBM和XgBoost來選擇高光譜特征波段。模型中使用了隨機森林回歸(RFR)、分類提升回歸(CatBoostR)、LightGBM回歸(LightGBMR)、XGBoost回歸(XGBoostR)和模型集成策略用於預測茶多酚。
結論
梯度提升回歸(GBR)用於建模和預測原始數據和預處理的光譜數據。基於不同預處理算法和不同樣本劃分算法的建模結果如圖2所示。如圖2a所示,校準集的R2均大於0.96。RAW-KS-GBR模型效果*好。FD-KS-GBR模型校準集R2*大的,為0.9857,但測試集R2最小,僅為0.6490,表明FD-KS-GBR模型存在嚴重的過擬合問題。圖2b是基於SPXY劃分數據集的建模結果。通過FD和SD預處理光譜數據建立的模型校準集在0.98以上,但測試集R2不超過0.88。

圖2 不同輸入下GBR模型的預測結果。基於KS劃分數據集的建模結果(a)、基於SPXY劃分數據集的建模結果(b)。
KS算法比SPXY算法建立的模型更容易出現過擬合,因此SPXY-GBR模型總體上優於KS-GBR模型。基於圖2,比較兩種不同的數據集劃分方法和六種不同的預處理算法建模結果,效果較好的模型是RAW-KS-GBR、SG-SPXY-GBR和SNVT-SPXY-GBR。SG-SPXY-GBR具有最高的測試集R2,為0.9365,其校準集R2也達到0.9563。這表明,以SG為預處理算法,SPXY為樣本分割法建立的模型不僅精度高,而且具有更好的魯棒性。綜上所述,最終選擇SG算法對藏茶原始高光譜數據進行預處理。原始光譜曲線RAW和SG預處理後的光譜曲線如圖3所示。

圖3 藏茶光譜曲線。原始數據(a);通過SG算法預處理的數據(b);(c)圖為(a)中紅框的放大視圖;(d)圖為(b)中紅框的放大視圖。
SG算suan法fa預yu處chu理li後hou的de數shu據ju噪zao聲sheng有you了le一yi定ding程cheng度du的de改gai善shan,但dan數shu據ju中zhong仍reng有you大da量liang與yu茶cha多duo酚fen含han量liang預yu測ce無wu關guan的de信xin息xi。如ru果guo不bu進jin一yi步bu提ti取qu特te征zheng,高gao維wei數shu據ju無wu疑yi會hui影ying響xiang模mo型xing的de準zhun確que性xing和he魯lu棒bang性xing。本ben研yan究jiu采cai用yongGB、AdaBoost、RF、CatBoost、LightGBM和XGBoost這六種算法選擇前30個最重要光譜特征(圖4)。RF和CatBoost以522.66 nm波長為第二重要特征,而XGBoost以564.55 nm波長為*一重要特征,在GB中僅排名第五,在AdaBoost中排名第四,在RF中排名第七。不同算法提取的特征波長大多分布在420 ~ 700 nm之間。試驗結果表明,不同算法提取的特征波長不同,但也有一定的共性。上述六種算法提取的特征將作為後續回歸預測算法的輸入。
表2展示了不同模型的全波段預測結果。CatBoostR模型具有最高的準確度,在校準和測試集上的R2分別為0.9578和0.9493。RFR模型預測效果較差,校準R2僅為0.9040。
本研究以RFR、LightGBM和XGBoostR為三個基礎學習模型,以CatBoostR為元學習模型,建立了一個新的stacking預測模型(圖5)。表3展zhan示shi了le不bu同tong模mo型xing的de預yu測ce結jie果guo。與yu全quan波bo段duan建jian模mo結jie果guo相xiang比bi,即ji使shi特te征zheng維wei數shu降jiang低di,模mo型xing性xing能neng也ye沒mei有you相xiang應ying降jiang低di。優you選xuan特te征zheng在zai一yi定ding程cheng度du上shang提ti高gao了le建jian模mo精jing度du,並bing進jin一yi步bu提ti高gao了le模mo型xing魯lu棒bang性xing。CatBoostR模型的預測精度普遍可以接受,RMSEC小於0.35,RMSEP小於0.45。CatBoost + CatBoostR模型的RMSEC和RMSEP值最接近。因此,該模型被認為是四個獨立模型中*好的。本文建立的stacking模型中以CatBoost算法提取的特征作為輸入的模型效果*優。圖6a是CatBoost + stacking模型對藏茶茶多酚含量的預測結果。由於茶多酚含量在7%左右的樣本數量較少,SPXY沒有在該值附近分配測試集。因此,在SPXY劃分的數據集中,選擇對應於校準集中茶多酚含量為7.2671%的樣品作為測試樣本之一,選擇對應於測試集中茶多酚含量為8.7892%的樣品作為校準樣本之一。如果替換的數據被輸入到CatBoost + stacking模型中,校準集R2為0.9686,RMSEC為0.2833,測試集R2為0.9577,RMSEP為0.3703。
綜上結果表明,新建立的stacking預測模型比個體回歸模型性能更優,可實現藏茶茶多酚含量的準確預測。

圖4 由不同算法選擇的特征波段。GB(a);AdaBoost(b);RF(c);CatBoost(d);LightGBM(e)和XGBoost(f)。
表2 基於全波段的預測結果


圖5 用於茶多酚預測的stacking回歸模型流程

圖6 基於CatBoost + stacking模型的茶多酚預測結果。更換樣本前的預測結果(a)和更換樣本後的預測結果(b)。
作者信息
康誌亮,博士,四川農業大學機電學院教授,博士生導師。
主要研究方向:信號與信息處理、傳感器與檢測技術、自動控製。
Luo, X., Xu, L.j., Huang, P., Wang, Y.c., Liu, J., Hu, Y., Wang, P., & Kang, Z.l. (2021). Nondestructive Testing Model of Tea Polyphenols Based on Hyperspectral Technology Combined with Chemometric Methods. Agriculture, 11:673-687.
https://doi.org/10.3390/agriculture11070673
地址:無錫市梁溪區南湖大道飛宏路58-1-108
電話:
郵箱:
地址:北京市海澱區中關村大街19號
電話:
郵箱:
地址:陝西省西安市高新區科技一路40號盛方科技園B座三層東區
電話:
郵箱:
地址:成都市青羊區順城大街206號四川國際大廈七樓G座
電話:
郵箱:
地址:深圳市龍華區民治梅龍路
電話:
郵箱: