「期刊」:Chemosphere
「原題」:Predicting the occurrence of substituted and unsubstituted, polycyclic aromatic compounds in coking wastewater treatment plant effluent using machine learning regression
「譯題」:利用機(jī)器學(xué)習(xí)回歸預(yù)測(cè)焦化廢水處理廠排放液中取代和未取代的多環(huán)芳烴的發(fā)生
「DOI」:10.1016/j.chemosphere.2024.142476
?圖片摘要
成果簡(jiǎn)介
摘要
本研究提出了三種基于不同核函數(shù)的機(jī)器學(xué)習(xí)(ML)模型,用于預(yù)測(cè)焦化廢水處理廠排放液中多環(huán)芳烴(PACs)及其衍生物(包括取代的雜環(huán)多環(huán)芳烴 HPACs 和烷基化 PACs)。通過(guò)使用常規(guī)測(cè)量的廢水質(zhì)量數(shù)據(jù)作為模型輸入,我們預(yù)測(cè)了最終排放液中 14 種 HPACs 的發(fā)生,R2 達(dá)到了 0.83?;谥С窒蛄繖C(jī)(SVR)的回歸模型進(jìn)一步的性能評(píng)估顯示,對(duì)數(shù)誤差(MALE)為 0.46,平方誤差(RMSE)為 0.073 ng/L。相比之下,K-最近鄰和隨機(jī)森林模型在 HPAC 預(yù)測(cè)上的 R2 分別為 0.75 和 0.76。通過(guò)特征分析進(jìn)一步探索模型,發(fā)現(xiàn) SVR 模型的優(yōu)越預(yù)測(cè)能力是基于其對(duì)溶解有機(jī)碳(DOC)和總氨(T-NH3)輸入變量的更高權(quán)重(81%),這可能捕捉到在處理廠中可能發(fā)生的二次轉(zhuǎn)化。
亮點(diǎn)
提出了三種「基于核的機(jī)器學(xué)習(xí)」模型,用于預(yù)測(cè)「焦化廢水」中的「多環(huán)芳烴及其衍生物」。使用「常規(guī)廢水質(zhì)量數(shù)據(jù)」作為輸入,實(shí)現(xiàn)了對(duì) 14 種 「HPACs」 的準(zhǔn)確預(yù)測(cè)。通過(guò)「特征分析」揭示了 「SVR」 模型在預(yù)測(cè)中的優(yōu)越性,特別是在處理廠中可能發(fā)生的二次轉(zhuǎn)化。關(guān)鍵詞
多環(huán)芳烴(PACs),雜環(huán)多環(huán)芳烴(HPACs),機(jī)器學(xué)習(xí),回歸模型,焦化廢水處理
引言
工業(yè)排放繼續(xù)是水生和陸地環(huán)境中有機(jī)污染物的主要來(lái)源。多環(huán)芳烴(PACs)是一類由兩個(gè)或更多融合苯環(huán)組成的有機(jī)污染物。PACs 在化石燃料如煤和石油中天然存在,并在焦化和氣化過(guò)程中釋放到大氣中,最終進(jìn)入水圈。盡管對(duì)未取代的 PAHs 有嚴(yán)格的監(jiān)管,但工業(yè)廢水中取代 PACs 如 HPACs 和 APACs 的監(jiān)測(cè)和排放既不受監(jiān)控也未被規(guī)范。預(yù)測(cè)焦化廢水中 HPACs 以及 APACs 和 PAHs 的發(fā)生對(duì)于評(píng)估焦化廢水對(duì)接受水體的環(huán)境風(fēng)險(xiǎn)至關(guān)重要。
圖文導(dǎo)讀
圖 1:PAHs、HPACs 和 APACs 在焦化廢水處理廠中的分布
「目的」:展示 PAHs(多環(huán)芳烴)、HPACs(雜環(huán)多環(huán)芳烴)和 APACs(烷基化多環(huán)芳烴)在焦化廢水處理廠的初級(jí)進(jìn)水、生物出水和最終出水樣本中的濃度分布。「展示」:圖中顯示了不同種類的 PAHs、HPACs 和 APACs 在三個(gè)采樣點(diǎn)的濃度變化,其中 NAP(萘)在初級(jí)進(jìn)水中濃度遠(yuǎn)高于其他 PAHs,而經(jīng)過(guò)生物處理和三級(jí)化學(xué)處理后,APACs 和 HPACs 的濃度有所降低,但 HPACs 的濃度在最終出水中仍然較高?!附Y(jié)論」:研究表明,HPACs 在最終出水中的濃度是其對(duì)應(yīng)母體 PAHs 的近 70%以上,這可能是由于在廢水處理過(guò)程中發(fā)生了二次轉(zhuǎn)化。圖 2:生物出水和最終出水樣本中常規(guī)水質(zhì)參數(shù)的箱線圖和 PCA 分析的雙標(biāo)圖
「目的」:通過(guò)標(biāo)準(zhǔn)測(cè)試測(cè)量生物出水和最終出水樣本中的水質(zhì)參數(shù),并通過(guò)主成分分析(PCA)來(lái)確定輸入變量?!刚故尽梗合渚€圖顯示了不同水質(zhì)參數(shù)的分布,PCA 雙標(biāo)圖展示了生物出水和最終出水中主要變異軸和相關(guān)性?!附Y(jié)論」:PCA 分析表明,溶解有機(jī)碳(DOC)和總氨氮(NH3-T)與 HPACs 和 APACs 的濃度有強(qiáng)相關(guān)性,這些參數(shù)被選為回歸模型的輸入變量。圖 3:機(jī)器學(xué)習(xí)回歸模型開(kāi)發(fā)和分析工作流程示意圖
「目的」:概述了本研究中使用的機(jī)器學(xué)習(xí)回歸模型的開(kāi)發(fā)和分析流程?!刚故尽梗簣D中包括了數(shù)據(jù)集選擇、特征選擇、模型訓(xùn)練、交叉驗(yàn)證、模型評(píng)估和模型解釋等步驟?!附Y(jié)論」:該圖提供了研究方法的全面視圖,說(shuō)明了如何從實(shí)際廢水?dāng)?shù)據(jù)中開(kāi)發(fā)出有效的機(jī)器學(xué)習(xí)模型。圖 4:回歸模型的交叉驗(yàn)證性能
「目的」:評(píng)估隨機(jī)森林(RFR)、支持向量機(jī)回歸(SVR)和核 k 最近鄰(KkNN)三種回歸模型的性能?!刚故尽梗和ㄟ^(guò) 5 折交叉驗(yàn)證的訓(xùn)練和驗(yàn)證誤差來(lái)展示模型的性能,其中 SVR 模型在多個(gè)指標(biāo)上表現(xiàn)最佳?!附Y(jié)論」:SVR 模型在預(yù)測(cè) HPACs 方面顯示出最高的 R2 值和最低的 MALE 誤差,表明其在預(yù)測(cè) HPACs 方面的優(yōu)越性。圖 5:回歸模型預(yù)測(cè)的 PAC 濃度與實(shí)際濃度的對(duì)數(shù)回歸圖
「目的」:比較三種回歸模型在預(yù)測(cè)焦化廢水中 PAC 濃度時(shí)的準(zhǔn)確性。「展示」:圖中顯示了三種模型預(yù)測(cè)的 PAC 濃度與實(shí)際濃度的對(duì)數(shù)回歸關(guān)系,以及預(yù)測(cè)值的毒性當(dāng)量商(TEQ)。「結(jié)論」:所有模型都傾向于高估 PAC 的濃度,這在考慮到 PAC 的高毒性時(shí)是一個(gè)優(yōu)勢(shì)。SVR 模型在預(yù)測(cè) HPACs 方面表現(xiàn)最佳。圖 6:回歸模型的偏依賴圖和輸入變量的重要性
「目的」:解釋回歸模型中輸入變量的影響力和重要性?!刚故尽梗浩蕾噲D揭示了輸入變量如 DOC 和 NH3-T 對(duì) HPACs 濃度預(yù)測(cè)的影響,排列重要性圖顯示了各輸入變量在模型中的權(quán)重?!附Y(jié)論」:SVR 模型在預(yù)測(cè) HPACs 時(shí),對(duì) DOC 和 NH3-T 的權(quán)重分配較高,這與它們?cè)谀P皖A(yù)測(cè)結(jié)果中的重要性一致。圖 7:回歸模型中輸入變量的排列特征重要性樹(shù)狀圖
「目的」:通過(guò)排列特征重要性來(lái)分析不同輸入變量在回歸模型中的作用?!刚故尽梗簶?shù)狀圖顯示了不同輸入變量在 RFR、SVR 和 KkNN 模型中的相對(duì)重要性和數(shù)值權(quán)重?!附Y(jié)論」:DOC 和 NH3-T 在所有模型中都被識(shí)別為最重要的輸入變量,這進(jìn)一步證實(shí)了它們?cè)陬A(yù)測(cè) HPACs 濃度中的關(guān)鍵作用。小結(jié)
本研究的結(jié)論是,開(kāi)發(fā)的機(jī)器學(xué)習(xí)模型能夠準(zhǔn)確預(yù)測(cè)焦化廢水最終出水中 HPACs 的發(fā)生,尤其是 SVR 模型在預(yù)測(cè)低分子量 PAHs 和 HPACs 方面表現(xiàn)出色。未來(lái)工作方向包括進(jìn)行長(zhǎng)期采樣以進(jìn)一步驗(yàn)證模型,并提高預(yù)測(cè)準(zhǔn)確性。此外,研究還建議通過(guò)控制焦化廢水中的懸浮固體來(lái)減少 HPACs 在最終出水中的可能性。
?AI 點(diǎn)評(píng) ↓ ↓ ↓
?焦化廢水處理廠排放的 PACs 和 HPACs 的環(huán)境風(fēng)險(xiǎn)是什么?
焦化廢水處理廠排放的多環(huán)芳烴(PACs)和雜環(huán)多環(huán)芳烴(HPACs)具有高環(huán)境風(fēng)險(xiǎn),因?yàn)樗鼈儾粌H能在廢水中持久存在,而且在處理過(guò)程中可能轉(zhuǎn)化為更具毒性和遷移性的取代雜環(huán)產(chǎn)品。這些化合物對(duì)受納水體構(gòu)成嚴(yán)重的環(huán)境威脅,尤其是硝化的 N-HPACs,由于其增加的極性和水溶性,比未取代的 PAHs 更容易被水生動(dòng)物細(xì)胞吸收。此外,硫取代的 S-HPACs 雖然在自然條件下不易分解,但也表現(xiàn)出極高的抗降解性。因此,預(yù)測(cè)這些化合物的釋放對(duì)于評(píng)估焦化廢水對(duì)受納水體的環(huán)境風(fēng)險(xiǎn)至關(guān)重要。
本研究提出的機(jī)器學(xué)習(xí)模型如何預(yù)測(cè)焦化廢水中的 PACs 和 HPACs?
本研究提出了三種基于核的機(jī)器學(xué)習(xí)回歸模型,用于預(yù)測(cè)焦化廢水中的 PACs 和 HPACs。這些模型使用常規(guī)測(cè)量的廢水質(zhì)量數(shù)據(jù)作為輸入,預(yù)測(cè)了最終出水中 14 種 HPACs 的發(fā)生情況。支持向量機(jī)回歸(SVR)模型在預(yù)測(cè) HPACs 方面表現(xiàn)最佳,R2 值為 0.83,對(duì)數(shù)誤差(MALE)為 0.46,平方誤差(RMSE)為 0.073 ng/L。通過(guò)特征分析和部分依賴圖,研究發(fā)現(xiàn) SVR 模型之所以預(yù)測(cè)性能優(yōu)越,是因?yàn)樗鼘?duì)溶解有機(jī)碳(DOC)和總氨氮(NH3-T)這兩個(gè)輸入變量賦予了較高的權(quán)重,這兩個(gè)變量能夠捕捉到處理廠中可能發(fā)生的潛在次級(jí)轉(zhuǎn)化。
本研究的結(jié)論和未來(lái)工作方向是什么?
本研究的結(jié)論是,開(kāi)發(fā)的機(jī)器學(xué)習(xí)模型能夠準(zhǔn)確預(yù)測(cè)焦化廢水最終出水中 HPACs 的發(fā)生,尤其是 SVR 模型在預(yù)測(cè)低分子量 PAHs 和 HPACs 方面表現(xiàn)出色。未來(lái)工作方向包括進(jìn)行長(zhǎng)期采樣以進(jìn)一步驗(yàn)證模型,并提高預(yù)測(cè)準(zhǔn)確性。此外,研究還建議通過(guò)控制焦化廢水中的懸浮固體來(lái)減少 HPACs 在最終出水中的可能性。