醬油香氣型白酒(SSAB)以其複雜而獨特的香氣著稱,香氣成分主要來源於發酵、蒸餾與貯存等多階段過程中產生的多類揮發性化合物,其中醇類與酯類物質是構成其風味的關鍵物質,直接影響白酒的果香、花香與醇厚度。當前對白酒香氣成分的主流分析方法主要依賴氣相色譜-質譜(GC-MS)、GC-IMS 等技術,這些方法雖然精準,卻存在操作複雜、成本高、檢測周期長、樣品前處理繁瑣且具有潛在破壞性的限製,不利於實現大量樣品的高*分析。
近年來,高光譜成像技術作為一種快速、無(wu)損(sun)的(de)分(fen)析(xi)手(shou)段(duan)逐(zhu)漸(jian)成(cheng)為(wei)研(yan)究(jiu)熱(re)點(dian)。該(gai)技(ji)術(shu)融(rong)合(he)了(le)光(guang)譜(pu)檢(jian)測(ce)與(yu)數(shu)字(zi)成(cheng)像(xiang)能(neng)力(li),可(ke)同(tong)時(shi)獲(huo)取(qu)樣(yang)品(pin)的(de)空(kong)間(jian)結(jie)構(gou)信(xin)息(xi)與(yu)多(duo)維(wei)光(guang)譜(pu)特(te)征(zheng),從(cong)而(er)實(shi)現(xian)對(dui)內(nei)部(bu)物(wu)理(li)屬(shu)性(xing)和(he)化(hua)學(xue)成(cheng)分(fen)的(de)綜(zong)合(he)表(biao)征(zheng)。許(xu)多(duo)研(yan)究(jiu)將(jiang) HSI 與機器學習算法結合,以替代傳統色譜分析中繁瑣且耗時的操作,為成分檢測提供更高*的解決方案。然而,,現有研究尚未將高光譜成像應用於白酒香氣物質的定量分析。因此,該研究旨在探索 HSI 結合機器學習模型用於醇類和酯類的高*、準確、無損檢測,以期為白酒香氣品質評價提供一種更為便捷可靠的新方法。
作者信息: 田建平,四川輕化工大學,碩導
期刊來源:Journal of Food Composition and Analysis
本研究以醬油香型白酒(SSAB)中的醇類與酯類香氣成分為研究對象,旨在探索高光譜成像(HSI)結合機器學習模型實現香氣成分的無損、快速、定量檢測的可行性。研究首先對 900–1700 nm 近紅外光譜數據進行了多種算法的預處理。隨後,基於全譜與特征波長光譜數據分別構建了粒子群優化-支持向量回歸(PSO-SVR)模型和隨機森林(RF)模型。此外,通過 Spearman 相xiang關guan性xing分fen析xi篩shai選xuan與yu目mu標biao指zhi標biao顯xian著zhu相xiang關guan的de化hua學xue成cheng分fen,將jiang相xiang關guan變bian量liang與yu特te征zheng波bo長chang組zu合he輸shu入ru模mo型xing,以yi提ti升sheng預yu測ce性xing能neng。本ben研yan究jiu最zui終zhong通tong過guo模mo型xing對dui比bi評ping估gu了le不bu同tong比bi較jiao策ce略lve在zai醇chun類lei與yu酯zhi類lei含han量liang預yu測ce中zhong的de效xiao果guo,旨zhi在zai建jian立li一yi種zhong高gao精jing度du、無損、高*的白酒香氣成分檢測方法,為醬油香型白酒的質量控製與香氣評價提供技術支持。
本實驗所用的SSAB樣品由四川某醬香型白酒廠提供,所采集的白酒樣品來自釀造車間的三個發酵窖池,共取樣四批,每批從一個發酵窖池中抽取20個樣品,代表窖池內的五個不同位置,每個位置取樣四次,總計,獲得240個樣品(3個坑× 4個采樣× 20個樣品=總共240個樣品)。根據取樣的發酵坑,將每個批次中收集的樣品分別密封在樣品瓶中,並儲存在4 ℃下。采用GC-MS(7890 A/5975 B,USA)分析SSAB樣品中的揮發性化合物。
在這項研究中采用的HSI係統包括一個高光譜相機(GaiaField-N17 E-HR),高光譜成像係統的集成支架,四個55 W鹵素燈和一台配備數據采集軟件SpecVIEW的計算機。HSI係統的組成圖見圖1。本研究選用的高光譜相機來自江蘇雙利譜成像科技有限公司,可在近紅外(NIR)900–1700 nm 波段範圍內采集圖像。該相機的光譜分辨率為 5 nm,像素維度為640*512(空間維度 × 光譜維度),共生成 512 個光譜通道。為保證采集到的高光譜數據具有較高準確性,係統參數設置如下:電機起始位置為 0.55 cm,運動距離為 1 cm,前進速度為 0.075 cm/s,後退速度為 0.2 cm/s,相機增益設為 2,曝光時間設為 2 ms。樣本圖像的 R、G、B 值分別調整至 954.15、927.55 和 904.28,且樣本與相機鏡頭之間的距離保持為 40 cm。

圖1 HSI係統的組成
在zai從cong樣yang品pin的de高gao光guang譜pu圖tu像xiang中zhong提ti取qu高gao光guang譜pu數shu據ju之zhi前qian,需xu要yao對dui采cai集ji的de圖tu像xiang進jin行xing黑hei白bai白bai色se校xiao正zheng,以yi減jian少shao采cai集ji過guo程cheng中zhong相xiang機ji波bo動dong和he環huan境jing因yin素su的de影ying響xiang,從cong而er獲huo得de相xiang對dui穩wen定ding的de光guang譜pu反fan射she率lv值zhi。HSI係統采集的圖像除了包含相關的感興趣目標外,還包含不相關的背景信息,因此,有必要為所有圖像進行感興趣區域(ROI)提取。為獲得一致且代表性的光譜區域,本研究將樣品置於高度 1 cm、直徑 12 cm 的培養皿中,並將 ROI 定義為培養皿中心位置、半徑為 255 像素的圓形區域。對 ROI 內所有像素的光譜反射率取平均值,可有效減少單個像素光譜波動的影響,提升整體光譜數據的信噪比。
本研究采用四種預處理方法:乘性散射校正(MSC),標準正態變量(SNV),Savizky-Golay濾波器(SG)和EPO對提取的光譜數據進行預處理,其中在EPO中,主要參數是nlv,其用於限製保留向量的數量,在該研究中,nlv的值被設置為1-4,表示為EPO 1-EPO 4,以研究nlv值對光譜數據和模型的影響。在預處理之後,使用SPXY算法將240個SSAB樣品的光譜數據以3:1的比例分離成校準集(180)和預測集(60)。在樣本的全波段信息中存在大量冗餘光譜數據,其中包括大量幹擾和不必要的信息,這將對預測模型的性能產生不利影響。因此,采用了三個特征提取方法,即隨機森林(RF),無信息變量消*(UVE),競爭自適應加權采樣(CARS)被用來從預處理後的光譜數據中提取與酯和醇的化學信息最相關的特征波長。
機器學習在食品工業中得到了廣泛的應用,該研究在對比分析現有研究的基礎上,選擇PSO-SVR和RF兩種機器學習模型對SSAB中的醇類和酯類含量進行準確檢測。在PSO-SVR模型中,通過PSO對幾組參數進行比較分析後,最終確定c1和c2值均為2,初始種群規模為30是*佳的。RF算法中,經過比較決策樹數量設置為100,葉子數量設置為5。
在這項研究中,采用六個參數評估預測芳香酯和醇含量模型的性能:校準組確定係數(Rc2)、預測組確定係數(Rp2)、校準均方根誤差(RMCEC)、預測均方根誤差(RMSEP)、預測組的剩餘預測偏差(RPD),RMCEC與RMSEP的絕*差值(AB_RMSE)。
本研究采用Spearman計算各香氣成分含量與總醇、酯含量的相關性。相關性的穩健性基於它們的相關係數(r)和P值。r值越接近−1或1,兩個變量之間的線性相關性越強。p值可作為確定觀察到的相關係數顯著性的指標。通常,較小的p值表明觀察到的相關係數不太可能是由於隨機因素,從而表明更顯著的相關性。
圖2(a) 給出了 900–1700 nm 區內,從高光譜圖像 ROI 提取的白酒原始近紅外光譜。整體曲線平滑,在約 1700 nm 處反射率急劇上升。不同波段反射率的起伏源於特定化學鍵在對應波長吸收能量所引起的分子偶極矩變化。900–1400 nm 範圍內,1100 nm 與 1300 nm 附近出現兩個明顯反射峰,1200 nm 處可見微弱吸收,對應 C–H 伸縮振動的一級倍頻;1400–1700 nm 區段各樣品反射率基本相當,差異不顯著。圖2(b)–(h) 依次展示了原始光譜經 MSC、SNV、SG 及 EPO 算法預處理後的曲線。MSC 與 SNV 均使兩處反射峰出現不同程度的強度變化,並顯著放大了 1400–1700 nm 區間的反射率差異;SG 僅對 1670 nm 附近的反射強度略有提升,整體變動微小。EPO 則突出了 1700 nm 附近的反射與吸收區域,且隨 nlv 增大,曲線逐漸趨於平穩。各方法對反射強度的影響程度不一,但是否能真正提升模型精度仍需進一步驗證。

圖2 原始及預處理後的光譜曲線
本研究以原始光譜和經預處理的光譜作為輸入,分別建立 PSO-SVR 與 RF 模型。在基於原始光譜的兩種模型中,PSO-SVR 預測性能更佳,其對醇類和酯類的 R_p² 分別為 0.772 與 0.685,RMSEP 分別為 1.135 mg L⁻¹ 和 0.128 mg L⁻¹。比較各類預處理後的建模效果,對於醇類預測,EPO3 表現*優:PSO-SVR 的 R_p² 達 0.894,RMSEP 降至 0.653 mg L⁻¹;RF 的 R_p² 為 0.775,RMSEP 為 0.953 mg L⁻¹。對於酯類預測,PSO-SVR 仍以 EPO3 *佳(R_p² = 0.855,RMSEP = 0.097 mg L⁻¹),而 RF 則優選 MSC(R_p² = 0.842,RMSEP = 0.099 mg L⁻¹)。總體而言,EPO 可ke顯xian著zhu提ti升sheng模mo型xing預yu測ce精jing度du,其qi原yuan理li在zai於yu將jiang外wai部bu參can數shu與yu光guang譜pu數shu據ju正zheng交jiao化hua,剔ti除chu外wai部bu擾rao動dong,使shi建jian模mo聚ju焦jiao於yu光guang譜pu本ben身shen的de主zhu要yao特te征zheng與yu規gui律lv,從cong而er增zeng強qiang建jian模mo效xiao果guo與yu預yu測ce性xing能neng。優you化hua程cheng度du與yu nlv 值密切相關:適度增大 nlv 可提高精度,但過高 nlv 會引入冗餘信息,反而導致精度下降。
為降低計算複雜度並提升模型精度,本研究采用 RF、UVE 與 CARS 三種特征提取算法,從光譜中篩選與醇、酯相關的特征波長。圖3 給出了各方法的選取標準及波段分布:RF 以“重要性 > 0.15”為閾值;UVE 通過統計特征與目標變量的相關性,保留位於上下邊界線之外的變量;CARS 則以采樣過程中 RMSECV 先降後升的最低點對應的變量數作為*優波長。三種方法均將 1700 nm 附近視為關鍵區,1400–1600 nm 區間入選波段較少。細節差異方麵,RF 為醇類選出的波段更分散,在 1350 nm 與 1650 nm 處明顯多於酯類;UVE 在 1000–1300 nm 範圍內為醇類保留的波段少於酯類;CARS 則為醇類額外挑出了 1300–1500 nm 段及更多 1650 nm 附近的波長。

圖3 基於RF、UVE與CARS的特征波長提取結果
利用 RF、UVE、CARS 三種方法所得特征波長分別建立 PSO-SVR 與 RF 預測模型。對於醇、酯兩類指標,RF-PSO-SVR 表現*佳:醇的 R_p² = 0.850,RMSEP = 0.777 mg L⁻¹;酯的 R_p² = 0.850,RMSEP = 0.099 mg L⁻¹,表明 RF suoxuanboduangengnengkehuabaijiuxiangqihuaxuexinxi。raner,quanpumoxingdejingdurengpubiangaoyutezhengbochangmoxing。yuanyinzaiyutezhengtiquzaitichurongyuyuruoxinxidetongshi,yebukebimiandisheqilebufenhanyouxiaohuaxuexinhaode波長。盡管如此,基於特征波長的 PSO-SVR 模型 RPD 均大於 2.0,證實其仍可勝任醇、酯的可靠預測。
baijiuzhengtifengweibingfeiyoudanyixiangqichengfenjueding,gexiangqizufenjiancunzaixietongxiaoying,bingjinyibugongtongsuzaobaijiufengwei。weitishengjiyutezhengbochangmoxingdeyucejingdu,benyanjiuduidangexiangqihuahewuyuchunlei、酯類分別進行了相關性分析。圖4的相關熱圖以顏色深淺表示相關強度;以 p ≤ 0.01 且 |r| ≥ 0.8 為篩選標準,發現樣品中乙醇含量與醇類總量呈顯著正相關(r = 0.93)。乙酸乙酯、乳酸乙酯分別與其它酯類總量顯著正相關,r 依次為 0.87 與 0.88。這表明乙醇濃度升高會帶動醇類總量增加,而乙酸乙酯與乳酸乙酯的增量同樣顯著推高整體酯含量。

圖4 單體香氣化合物與醇類、酯類的相關性分析(* 表示 p ≤ 0.01 且 |r| ≥ 0.8)
本研究將實測得到的白酒乙醇含量作為新特征,與醇類特征波長拚接,形成含 43 個變量的融合數據,用於建立 RF-PSO-SVR 醇類預測模型;同理,把乙酸乙酯與乳酸乙酯實測值並入酯類特征波長,共 50 個變量,構建酯類預測模型。模型精度顯著提升:醇類 R_p² 達 0.997,RMSEP 降至 0.118 mg L⁻¹;酯類 R_p² 達 0.996,RMSEP 僅 0.017 mg L⁻¹。與融合前相比,醇、酯 R_p² 分別提高 0.147 與 0.146,RMSEP 分別下降 0.659 mg L⁻¹ 和 0.082 mg L⁻¹。結果表明,通過 Spearman 相關篩選引入單體香氣變量,並與特征波長聯合輸入,可顯著提升基於特征波長的預測精度。
該研究提出了一種基於高光譜成像(HSI)與機器學習的 SSAB 香氣定量預測方法,係統論證了醇類與酯類無損檢測的可行性。預處理對比表明:醇類*優預處理為 EPO(nlv = 3);酯類在 PSO-SVR 框架下優選 EPO(nlv = 3),在 RF 框架下則優選 MSC。就模型精度而言,醇、酯的*佳統一模型均為 EPO3-FULL-PSO-SVR(醇:R p² = 0.855,RMSEP = 0.653 mg/L;酯:R p² = 0.894,RMSEP = 0.097 mg/L)。進一步將 RF、UVE、CARS 等特征提取與 PSO-SVR/RF 耦合,發現 RF 結果雖優於其他組合,但仍不及全譜模型;而 EPO3-RF-PSO-SVR 再引入 Spearman 相關篩選後,精度顯著提升(醇:R p² = 0.997,RMSEP = 0.118 mg/L;酯:R p² = 0.996,RMSEP = 0.017 mg/L)。單一香氣組分預測時,EPO3-PSO-SVR 表現受該組分占總含量比例影響而波動。總體而言,HSI 聯合機器學習可實現 SSAB 香氣的無損、精準檢測;特征波長亦揭示了 SSAB 香氣成分的關鍵信息。研究結果為深化 SSAB 香氣研究、優化釀造工藝及強化生產過程控製提供了新思路,可確保產品一致性及品質穩定,開辟了 SSAB 質量檢測的新方向。
地址:無錫市梁溪區南湖大道飛宏路58-1-108
電話:
郵箱:
地址:北京市海澱區中關村大街19號
電話:
郵箱:
地址:陝西省西安市高新區科技一路40號盛方科技園B座三層東區
電話:
郵箱:
地址:成都市青羊區順城大街206號四川國際大廈七樓G座
電話:
郵箱:
地址:深圳市龍華區民治梅龍路
電話:
郵箱: