温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
解决
环境监测
污染物
浓度
数据
缺失
异常
问题
方法
分析
玲玲
解决环境监测污染物浓度数据缺失异常问题的方法分析(贵州省环境工程评估中心,贵州 贵阳 550001)摘要:本文提出基于 LSTW 模型所设计的处理方案,从污染物时空变化特征出发,为构建预测模型提供预测目标。并基于 LSTM 构建污染物浓度预测模型,将数据划分为不同尺度,分析不同时段结果,训练前序数据,通过多个非目标序列数据输入提升指标捕捉精准度,以此实现解决数据缺失目标。关键词:环境监测;污染物浓度;数据缺失异常;LSTM中图分类号:X51 文献标志码:A 文章编号:1674-263X(2023)01-0087-03Abstract:This paper proposes a treatment scheme based on the LSTW model,which provides prediction targets for the construction of prediction models based on the spatio-temporal variation characteristics of pollutants.The pollutant concentration prediction model was built based on LSTM,the data was divided into different scales,the results of different time periods were analyzed,the presequencing data was trained,and multiple non-target sequence data were input to improve the accuracy of index capture,so as to solve the data missing problem.Key words:environmental monitoring;pollutant concentration;data missing;LSTMAnalysis of Methods to Solve the Problem of Pollutant Concentration Data Missing in Environmental MonitoringDONG Lingling(Guizhou Environmental Engineering Evaluation Center,Guiyang 550001,China)在党的十九届五中全会上,习总书记就生态环境保护与治理提出明确要求,要求将大气环境保护与防治作为环境保护工作重点。因此,预测大气污染物浓度十分必要。但因使用无线传感器,数据收集存储过程中易出现数据不完整问题,设计估算模型,估算补全缺失异常数据,对于构建完整干净数据资源起到支持作用。1污染物时空变化特征空气质量污染监测的重要基础是空气质量污染物浓度变化,单一污染物浓度无法全面反映地区空气质量污染情况,因此要从首要污染物种类出发,分析出现频次和浓度时空变化特征1。计算首要污染物指标空气质量分指数的公式为式中:l为指标浓度低值下标;t为指标浓度高值下标;IAQIx为污染物指标空气质量分指数。将 IAQI50 的污染物定义为空气质量首要污染物2。选 取 A 地 区 20202021 年 PM10、PM2.5、O3、NO2、SO2、CO 集中污染物的逐时数据作为补全对象,计算日均值,并借助上述公式计算出以上几种污染物的 IAQI 值3。经计算,首要污染物为 PM10、PM2.5、O3。1.1 日均变化趋势结合 A 地区 20202021 年各污染物日均峰值变化调研资料来看,我国 PM10、PM2.5、O3、NO2、SO2、CO 的国家、级日均浓度超限污染物为PM10、PM2.5和 NO2,说明在环境治理工作中要针对PM10、PM2.5、O3和 NO2重点展开4。1.2 季节变化特征将一年分成四季,以 3 月作为春季开端。结合A 地区 20202021 年各季节 6 种污染物指标浓度的四季变化特征来看,春夏季为 PM10、O3浓度的变化拐点,夏季为 PM2.5浓度变化拐点,冬季 PM10、PM2.5浓度达到峰值3。收稿日期:2022-12-28 作者简介:董玲玲(1981),女,硕士,高级工程师,研究方向为环境监测。Vol.36 No.1202303第 36 卷 第 1 期202303HEILONGJIANG HUANJING TONGBAO黑 龙 江 环 境 通 报董玲玲88第 36 卷细胞记忆值为由输入门接收此时刻输入数据,提取输入数据特征,并将记忆状态标识为 T2i和 C*:式中:bc为偏执;wc为生成当前记忆状态标识的权重矩阵;b2为偏执;w2为输入门的权重矩阵。下一时刻总体记忆细胞标识 Ct为最终通过输出门的输出结果为最后,本文所使用的优化器为 Adam,其由RMSprop 和 Adagrad 改进而成,能够起到控制学习率大小的作用,可快速完成最优获取 w 和 b,并有效保障模型收敛速度。2.2 数据选取与区域划分选取时间序列数据方面,将 A 地区 20202021年某地区 6 种污染物除 PM10外的其余污染物指标中的异常和缺失数据予以替换和填补。组成 A 地区的省份包括:Y 省、G 省和 X 省,通过设置地面监测点,将 PM10、PM2.5、O3、NO2、SO2、CO 指标逐时数据进行测定,求出小时均值,并依照时间顺序顺次排列,使得在同一时刻均含有以上 6 种污染物浓度数据。模型基础数据为 2021 年 6 月2021 年 12月间空气质量污染物的小时浓度数据,按照第 1 节中的计算方法求出首要污染物 PM10、PM2.5、O3的预测输出。在预测 PM2.5小时浓度时,训练模型输出参数为 PM2.5浓度,输入参数为其余污染物前一小时浓度。其他 2 种首要污染物依此进行定义和计算,得出 PM10、PM2.5、O3的浓度。在区域划分方面,从各省行政区域出发,由每种污染物指标小时浓度均值组成输入数据集,对应时间序列。经收集,3 个省份均获取 4258 组数据,分成测试和训练部分,使用 LSTM 算法完成模型构建。2.3 LSTM 模型构建模型分成输入、迭代和输出 3 个部分。输入部分是整合处理校检污染物指标数据,按照尺度差异分类形成测试集和数据集;迭代部分是构建 LSTM模型,遵照适合的网络执行中优化器和激活函数最1.3 空间分布特征结合 A 地区 20202021 年各季节 6 种污染物指标浓度的空间分布特征来看,在日照时间长、地势高的地区,其 O3浓度较高,PM2.5浓度与之相对,浓度偏低5。2环境监测污染物浓度数据缺失异常问题解决方法2.1 方法原理本文所设计的估算补全缺失异常数据的基本理论包括循环神经网络、LSTM 和优化算法,因 LSTM相较于循环神经网络能够解决梯度问题,因此将其作为模型构建的关键理论。首先,循环神经网络可分为三层结构,分别为输出层、隐藏层和输入层。将输入数据设定为 X=(xi,xn),将隐藏层与输入层间的共享向量表示为 u=(ui,un),则输出层数据值为由此,得到隐藏层输出值 Oi和隐藏层状态向量hi:隐藏层和输出层间的共享向量 v 和第二个激活函数的到数据 y 为将损失函数带入,借助梯度下降操作获取未知向量。其次,LSTM 是改进循环神经网络的算法,此种算法中当前时刻更新细胞记忆和输入的依据是前一时刻两输出值单元值和细胞状态,表示上一时刻输出值与当前时刻输入数据进入遗忘门后与激活函数产生的结果标识,表达式为式中:b1为该时段遗忘门偏执;w1为该时段遗忘门权重矩阵。黑 龙 江 环 境 通 报89第 1 期污染物PM10O3PM2.5MSE19.50410.300.32RMSE4.4420.253.06R20.850.330.82表 1 Y 省 3 种目标污染多个前序输出的预测精度表 2 G 省 3 种目标污染多个前序输出的预测精度表 3 X省 3 种目标污染多个前序输出的预测精度表 4 Y 省 3 种目标污染物 t、t+1、t+2 时刻的预测精度污染物PM10O3PM2.5MSE117.421284.5687.3RMSE1.8435.989.40R20.950.020.89污染物PM10O3PM2.5MSE69.20525.8332.49RMSE8.3322.935.78R20.950.150.89污染物PM10O3PM2.5时刻tt+1t+2tt+1t+2tt+1t+2MSE98.03 78.34 74.33 94.34 61.09 74.33 14.32 19.20 17.46RMSE9.508.348.869.817.938.503.744.594.26R20.280.470.450.650.740.820.440.530.59优形式,网络迭代次数由 loss 值确定,以此完成网络训练;输出是联系全连接层,转换输出数据。此模型在应用中存在单元因子和多元因子预测问题,多种细分模型优劣势不同。而污染物小时浓度预测本身具备由多元预测单一因子的特征,为保证预测精准性,解决数据缺失异问题,应当整合操作输入参数。借助神经网络数据包搭建模型网络,将 python 作为实现语言,划分整合输入参数函数,经过多种输入参数共同作用,输出 PM10、PM2.5、O3污染物。借优化器,调节训练参数,通过多次迭代实现最小化误差值,以此将预测模型调整为最优形式。2.4 预测结果及精度验证Y 省、G 省和 X 省经过多个前序序列数据处理后,其整体预测结果为:首先,Y省的预测结果见表1。通过读表,并与单个目标前序输入预测结果对比,得到 PM10、PM2.5、O3浓度预测结果数据有所提高的结论,且 PM2.5、O3表现更为明显。计算出的 R2精度评价指标分别提升0.05和0.2,说明误差有效降低,基于 PM2.5、O3浓度预测 PM10浓度值也可提升精度。因此,在 Y 省首要污染物浓度预测中借助多个前序序列输入能够提升精度。于 G 省,且 PM2.5的 R2精度评价指标提升 0.05,O3的 R2精度评价指标提升 0.09。通过对 Y 省、G 省和 X 省的经过多个前序序列数据处理后对污染物浓度预测结果分析来看,相较于单一非目标序列数据输入,此种输入方式具有精度更高的优势。对以上所得到的数据和结论进行检验。首先,Y 省的预测精度评价见表 4。通过读表发现,PM10误差较大,PM2.5、O3的R2较小,且 PM2.5为 3 种污染物最小预测误差。通过横纵对比,发现 PM2.5的 R2数值不断升高,O3的R2先升高后减小。证明此种方法在输出结果方面存在一定的不确定性,但整体预测精度误差在可接受范围内。3结语综上所述,本文针对环境污染物浓度监测中数据缺失异常问题,提出的基于 LSTM 的多步预测模型具有高精度优势,能够精准预测大气污染物浓度,在未来研究中可迁移水平提升方面予以深化。参考文献:1李勋,张盛华,储劲柏,等.空气污染物 VOCs 排放浓度在线监测系统设计与实现 J.能源与环保,2022,44(06):47-52.2何丹,金明姬.基于环境监测数据的 2016-2020 年吉林省大气环境质量时空变化分析 J.延边大学农学学报,2022,44(01):49-56.3 张 娣,陈 学 刚,赵 直.乌 鲁 木 齐 市 采 暖 期 大 气污 染 物 浓 度 时 空 变 化 分 析 J.环 境 科 学 与 技术,2021,44(10):187-195.4李文敏.基于物联网的大气颗粒污染物浓度监测方法研究 J.环境科学与管理,2021,46(06):130-134.5戚卫伟.营口地区夏季雨水径流下水质污染物浓度监测试验分析 J.黑龙江水利科技,2021,49(04):14-16.董玲玲:解决环境监测污染物浓度数据缺失异常问题的方法分析G 省 3 种污染物的预测结果见表 2。相较于 Y省,该省预测 PM2.5、O