「期刊」:Chemosphere
「原題」:Predicting the occurrence of substituted and unsubstituted, polycyclic aromatic compounds in coking wastewater treatment plant effluent using machine learning regression
「譯題」:利用機器學(xué)習(xí)回歸預(yù)測焦化廢水處理廠排放液中取代和未取代的多環(huán)芳烴的發(fā)生
「DOI」:10.1016/j.chemosphere.2024.142476
?圖片摘要
成果簡介
摘要
本研究提出了三種基于不同核函數(shù)的機器學(xué)習(xí)(ML)模型,用于預(yù)測焦化廢水處理廠排放液中多環(huán)芳烴(PACs)及其衍生物(包括取代的雜環(huán)多環(huán)芳烴 HPACs 和烷基化 PACs)。通過使用常規(guī)測量的廢水質(zhì)量數(shù)據(jù)作為模型輸入,我們預(yù)測了最終排放液中 14 種 HPACs 的發(fā)生,R2 達到了 0.83。基于支持向量機(SVR)的回歸模型進一步的性能評估顯示,對數(shù)誤差(MALE)為 0.46,平方誤差(RMSE)為 0.073 ng/L。相比之下,K-最近鄰和隨機森林模型在 HPAC 預(yù)測上的 R2 分別為 0.75 和 0.76。通過特征分析進一步探索模型,發(fā)現(xiàn) SVR 模型的優(yōu)越預(yù)測能力是基于其對溶解有機碳(DOC)和總氨(T-NH3)輸入變量的更高權(quán)重(81%),這可能捕捉到在處理廠中可能發(fā)生的二次轉(zhuǎn)化。
亮點
提出了三種「基于核的機器學(xué)習(xí)」模型,用于預(yù)測「焦化廢水」中的「多環(huán)芳烴及其衍生物」。使用「常規(guī)廢水質(zhì)量數(shù)據(jù)」作為輸入,實現(xiàn)了對 14 種 「HPACs」 的準確預(yù)測。通過「特征分析」揭示了 「SVR」 模型在預(yù)測中的優(yōu)越性,特別是在處理廠中可能發(fā)生的二次轉(zhuǎn)化。關(guān)鍵詞
多環(huán)芳烴(PACs),雜環(huán)多環(huán)芳烴(HPACs),機器學(xué)習(xí),回歸模型,焦化廢水處理
引言
工業(yè)排放繼續(xù)是水生和陸地環(huán)境中有機污染物的主要來源。多環(huán)芳烴(PACs)是一類由兩個或更多融合苯環(huán)組成的有機污染物。PACs 在化石燃料如煤和石油中天然存在,并在焦化和氣化過程中釋放到大氣中,最終進入水圈。盡管對未取代的 PAHs 有嚴格的監(jiān)管,但工業(yè)廢水中取代 PACs 如 HPACs 和 APACs 的監(jiān)測和排放既不受監(jiān)控也未被規(guī)范。預(yù)測焦化廢水中 HPACs 以及 APACs 和 PAHs 的發(fā)生對于評估焦化廢水對接受水體的環(huán)境風(fēng)險至關(guān)重要。
圖文導(dǎo)讀
圖 1:PAHs、HPACs 和 APACs 在焦化廢水處理廠中的分布
「目的」:展示 PAHs(多環(huán)芳烴)、HPACs(雜環(huán)多環(huán)芳烴)和 APACs(烷基化多環(huán)芳烴)在焦化廢水處理廠的初級進水、生物出水和最終出水樣本中的濃度分布。「展示」:圖中顯示了不同種類的 PAHs、HPACs 和 APACs 在三個采樣點的濃度變化,其中 NAP(萘)在初級進水中濃度遠高于其他 PAHs,而經(jīng)過生物處理和三級化學(xué)處理后,APACs 和 HPACs 的濃度有所降低,但 HPACs 的濃度在最終出水中仍然較高?!附Y(jié)論」:研究表明,HPACs 在最終出水中的濃度是其對應(yīng)母體 PAHs 的近 70%以上,這可能是由于在廢水處理過程中發(fā)生了二次轉(zhuǎn)化。圖 2:生物出水和最終出水樣本中常規(guī)水質(zhì)參數(shù)的箱線圖和 PCA 分析的雙標圖
「目的」:通過標準測試測量生物出水和最終出水樣本中的水質(zhì)參數(shù),并通過主成分分析(PCA)來確定輸入變量?!刚故尽梗合渚€圖顯示了不同水質(zhì)參數(shù)的分布,PCA 雙標圖展示了生物出水和最終出水中主要變異軸和相關(guān)性?!附Y(jié)論」:PCA 分析表明,溶解有機碳(DOC)和總氨氮(NH3-T)與 HPACs 和 APACs 的濃度有強相關(guān)性,這些參數(shù)被選為回歸模型的輸入變量。圖 3:機器學(xué)習(xí)回歸模型開發(fā)和分析工作流程示意圖
「目的」:概述了本研究中使用的機器學(xué)習(xí)回歸模型的開發(fā)和分析流程?!刚故尽梗簣D中包括了數(shù)據(jù)集選擇、特征選擇、模型訓(xùn)練、交叉驗證、模型評估和模型解釋等步驟?!附Y(jié)論」:該圖提供了研究方法的全面視圖,說明了如何從實際廢水數(shù)據(jù)中開發(fā)出有效的機器學(xué)習(xí)模型。圖 4:回歸模型的交叉驗證性能
「目的」:評估隨機森林(RFR)、支持向量機回歸(SVR)和核 k 最近鄰(KkNN)三種回歸模型的性能?!刚故尽梗和ㄟ^ 5 折交叉驗證的訓(xùn)練和驗證誤差來展示模型的性能,其中 SVR 模型在多個指標上表現(xiàn)最佳?!附Y(jié)論」:SVR 模型在預(yù)測 HPACs 方面顯示出最高的 R2 值和最低的 MALE 誤差,表明其在預(yù)測 HPACs 方面的優(yōu)越性。圖 5:回歸模型預(yù)測的 PAC 濃度與實際濃度的對數(shù)回歸圖
「目的」:比較三種回歸模型在預(yù)測焦化廢水中 PAC 濃度時的準確性?!刚故尽梗簣D中顯示了三種模型預(yù)測的 PAC 濃度與實際濃度的對數(shù)回歸關(guān)系,以及預(yù)測值的毒性當量商(TEQ)。「結(jié)論」:所有模型都傾向于高估 PAC 的濃度,這在考慮到 PAC 的高毒性時是一個優(yōu)勢。SVR 模型在預(yù)測 HPACs 方面表現(xiàn)最佳。圖 6:回歸模型的偏依賴圖和輸入變量的重要性
「目的」:解釋回歸模型中輸入變量的影響力和重要性。「展示」:偏依賴圖揭示了輸入變量如 DOC 和 NH3-T 對 HPACs 濃度預(yù)測的影響,排列重要性圖顯示了各輸入變量在模型中的權(quán)重?!附Y(jié)論」:SVR 模型在預(yù)測 HPACs 時,對 DOC 和 NH3-T 的權(quán)重分配較高,這與它們在模型預(yù)測結(jié)果中的重要性一致。圖 7:回歸模型中輸入變量的排列特征重要性樹狀圖
「目的」:通過排列特征重要性來分析不同輸入變量在回歸模型中的作用?!刚故尽梗簶錉顖D顯示了不同輸入變量在 RFR、SVR 和 KkNN 模型中的相對重要性和數(shù)值權(quán)重?!附Y(jié)論」:DOC 和 NH3-T 在所有模型中都被識別為最重要的輸入變量,這進一步證實了它們在預(yù)測 HPACs 濃度中的關(guān)鍵作用。小結(jié)
本研究的結(jié)論是,開發(fā)的機器學(xué)習(xí)模型能夠準確預(yù)測焦化廢水最終出水中 HPACs 的發(fā)生,尤其是 SVR 模型在預(yù)測低分子量 PAHs 和 HPACs 方面表現(xiàn)出色。未來工作方向包括進行長期采樣以進一步驗證模型,并提高預(yù)測準確性。此外,研究還建議通過控制焦化廢水中的懸浮固體來減少 HPACs 在最終出水中的可能性。
?AI 點評 ↓ ↓ ↓
?焦化廢水處理廠排放的 PACs 和 HPACs 的環(huán)境風(fēng)險是什么?
焦化廢水處理廠排放的多環(huán)芳烴(PACs)和雜環(huán)多環(huán)芳烴(HPACs)具有高環(huán)境風(fēng)險,因為它們不僅能在廢水中持久存在,而且在處理過程中可能轉(zhuǎn)化為更具毒性和遷移性的取代雜環(huán)產(chǎn)品。這些化合物對受納水體構(gòu)成嚴重的環(huán)境威脅,尤其是硝化的 N-HPACs,由于其增加的極性和水溶性,比未取代的 PAHs 更容易被水生動物細胞吸收。此外,硫取代的 S-HPACs 雖然在自然條件下不易分解,但也表現(xiàn)出極高的抗降解性。因此,預(yù)測這些化合物的釋放對于評估焦化廢水對受納水體的環(huán)境風(fēng)險至關(guān)重要。
本研究提出的機器學(xué)習(xí)模型如何預(yù)測焦化廢水中的 PACs 和 HPACs?
本研究提出了三種基于核的機器學(xué)習(xí)回歸模型,用于預(yù)測焦化廢水中的 PACs 和 HPACs。這些模型使用常規(guī)測量的廢水質(zhì)量數(shù)據(jù)作為輸入,預(yù)測了最終出水中 14 種 HPACs 的發(fā)生情況。支持向量機回歸(SVR)模型在預(yù)測 HPACs 方面表現(xiàn)最佳,R2 值為 0.83,對數(shù)誤差(MALE)為 0.46,平方誤差(RMSE)為 0.073 ng/L。通過特征分析和部分依賴圖,研究發(fā)現(xiàn) SVR 模型之所以預(yù)測性能優(yōu)越,是因為它對溶解有機碳(DOC)和總氨氮(NH3-T)這兩個輸入變量賦予了較高的權(quán)重,這兩個變量能夠捕捉到處理廠中可能發(fā)生的潛在次級轉(zhuǎn)化。
本研究的結(jié)論和未來工作方向是什么?
本研究的結(jié)論是,開發(fā)的機器學(xué)習(xí)模型能夠準確預(yù)測焦化廢水最終出水中 HPACs 的發(fā)生,尤其是 SVR 模型在預(yù)測低分子量 PAHs 和 HPACs 方面表現(xiàn)出色。未來工作方向包括進行長期采樣以進一步驗證模型,并提高預(yù)測準確性。此外,研究還建議通過控制焦化廢水中的懸浮固體來減少 HPACs 在最終出水中的可能性。