分享
基于数据特征分析的污染源监测数据异常值识别方法研究_尤辰汀.pdf
下载文档

ID:2378758

大小:386.92KB

页数:6页

格式:PDF

时间:2023-05-14

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 数据 特征 分析 污染源 监测 异常 识别 方法 研究 尤辰汀
第 48 卷第 2 期2023 年 2 月环境科学与管理ENVIONMENTAL SCIENCE AND MANAGEMENTVol.48 No.2Feb 2023收稿日期:2023 02 15作者简介:尤辰汀(1986 ),女,大学本科,工程师,研究方向:污染源监测监控。文章编号:1674 6139(2023)02 0133 06基于数据特征分析的污染源监测数据异常值识别方法研究尤辰汀(苏州市环境监测站(苏州市环境监控中心),江苏 苏州 215000)摘要:为避免在污染源监测时因为存在一些异常值影响数据可靠性,本次研究设计了一种基于数据特征分析的污染源监测数据异常值识别方法。先对污染源监测数据进行去噪处理,通过关联度分析方法对去噪处理后的数据实施数据特征分析,完成异常值中失效值的识别。然后基于 LSTM 网络构建离群异常值识别模型,实现污染源监测数据中离群异常值的识别。最后通过实验证明设计方法的先进性,该方法能够实现污染源监测数据异常值识别,模型拟合程度最高可达 0.98,对于失效值与离群异常值的识别精度均较高。关键词:数据特征分析;去噪处理;LSTM 网络;污染源监测数据;异常值识别中图分类号:X83文献标志码:AOutlier Identification of Pollution SourceMonitoring Data Based on Data Feature AnalysisYou Chenting(Suzhou Environmental Monitoring Station(Suzhou Environmental Monitoring Center),Suzhou 215000,China)Abstract:In order to avoid some outliers affecting data reliability during pollution source monitoring,this study designed amethod for identifying outliers of pollution source monitoring data based on data feature analysis First,the pollution source monito-ring data is de noised,and then the de noised data is analyzed by the correlation analysis method to complete the identificationof the invalid value in the abnormal value Then an outlier identification model is built based on LSTM network to realize outlier i-dentification in pollution source monitoring data Finally,the experiment proves that the design method is progressiveness Thismethod can realize the identification of abnormal values of pollution source monitoring data,and the model fitting degree can reach0.98 at most The identification accuracy of failure values and outliers is highKey words:data feature analysis;denoising;LSTM network;pollution source monitoring data;abnormal value identification前言随着工业技术与社会经济的迅速发展,大气环境污染问题与水环境污染问题等成为社会性问题,并且越来越严重,全球都在积极探寻环境污染问题的解决方案。中国的工业废水总排放量与大气污染物总排放量一直居高不下,对生态平衡造成了严重破坏。中国对于控制污染源企业实际排污量、污染物总量减排等问题越来越重视,一直致力于发展节能环保产业,尽管取得了一定发展,但整体发展水平还较低,急需创新环保技术,大力发展污染源监测技术1。近年来,中国很多城市都在积极实施污染源在线监测技术。在监测中既要考虑监测的实时性等问题,还要考虑数据的可靠性。这是由于在监测中331第 48 卷第 2 期2023 年 2 月尤辰汀基于数据特征分析的污染源监测数据异常值识别方法研究Vol.48 No.2Feb 2023采集的污染源监测数据中往往存在一些异常值,需要对其进行识别。对于该问题的研究,目前已经取得了比较丰富的研究成果。其中杨鸽、范振东、傅春江等学者提出了一种基于奇异谱分析的异常值识别技术,无需人工构建数学模型2。杨哲、李艳玲、张鹏等学者针对安全监测提出了一种基于标准四分位间距及 M 估计量的异常识别改进方法,消除了离群点对于识别结果的影响3。以上方法存在识别精度较低的问题,因此根据数据特征分析思想,设计一种基于数据特征分析的污染源监测数据异常值识别方法。1污染源监测数据异常值识别方法1 1数据去噪处理通过完备 EMD 低通滤波去噪算法实施污染源监测数据的去噪处理。将原污染源监测数据信号用a()来表示,噪声用b()来表示,则含噪的污染源监测数据信号 c()可用式(1)来表示:c()=a()+b()(1)实施去噪处理是为尽量筛选噪声信号 b(),获取与原始污染源监测数据信号最接近的最佳去噪信号?a(),可以用式(2)来表示:?a()=c()?b()(2)在去噪中对 c()实施完备 EMD 分解,获取多阶 IMF 分量,对其进行由高频至低频的排列4。对各阶 IMF 分量对应的噪声能量分布曲线进行获取。在获取中主要通过连续均方根误差相关准则对 IMF 分量对应噪声能量密度进行获取,具体公式如(3):B(dl,dl+1)=1MMj=1dl(j)dl+1(j)2=1MMj=1IMFl(j)2l=1,2,m 1(3)式(3)中,B(dl,dl+1)指的是 dl这一 IMF 分量与相邻的下一个 dl+1IMF 分量之间的噪声能量密度,也就是 dl对应的噪声能量密度;M 是指第 j 个信号的信号长度;dl(j)指的是第j个信号的第 dl个 IMF分量;dl+1(j)是指第j个信号的第 dl+1个IMF 分量;IMFi(j)是指第 j 个信号 的 l 阶 IMF 分量;m 指的是分解阶数5。在噪声能量分布曲线中选择局部极小值位置,将其作为噪声主导与期望信号开始主导的对应分界点,寻找对应的噪声能量分布产生突变的第 i 个 IMF 分量。将其中的分界点 i 定义为式(4):i=arg min1imB(dl,dl+1)(4)式(4)中,arg()指的是自变量函数。当期望信号开始主导时,IMF 分量内有可能出现全局最小值,也就是一些分量的能量比噪声模态对应分量能量低,此时i的IMF对应的噪声能量是全局最小值之前的一个局部极小值6。此时式(5)成立:i=arg firstlocalminiimB(dl,dl+1)(5)式(5)中,firstlocal 表示局部。将高频 IMF 分量对应阶数 i 舍弃后,对 i+1 个 IMF 与其后全部 IMF分量进行重构,具体如式(6)所示:?a()=mj=i+1IMFj()(6)式(6)中,IMFj()指的是信号 的 j 阶 IMF 分量。就此完成完备 EMD 低通滤波去噪操作。1 2失效异常值识别通过关联度分析方法对去噪处理后的污染源监测数据实施数据特征分析,主要是对数据的关联度进行分析,以识别异常值中的失效值7。在污染源监测数据的关联度分析中,主要使用邓氏关联度对污染源监测数据间的关联度进行计算。431第 48 卷第 2 期2023 年 2 月尤辰汀基于数据特征分析的污染源监测数据异常值识别方法研究Vol.48 No.2Feb 2023首先获取数据关联度阈值也就是邓氏关联度。具体计算过程如下:(1)设有k 个污染源监测数据序列,用式(7)来表示序列集:Y=Yt|t=1,2,k=Yt(u)|u=1,2,g(7)式(7)中,Yt指的是序列集中的污染源监测数据序列;Yt(u)是指 Yt序列对应数据集;g 指的是Yt(u)中的数据个数8。(2)利用均值化方式实施数据序列的无量纲处理,具体如式(8)所示:Yt(u)=Yt(u)?Yt(u)(8)式(8)中,Yt(u)指的是无量纲处理后的 Yt序列对应数据集;?Yt(u)是指 Yt(u)的均值。(3)通过式(9)计算关联系数 ts(u),其中关联系数 ts(u)表示 Yt做参考序列时,在 u 这一时间点上与比较序列 Ys的关联程度。ts(u)=min+maxts(u)+maxu=1,2,gt=1,2,ks=1,2,ks t(9)式(9)中,min指的是 Yt做参考序列时,在 u 这一时间点上与比较序列 Ys的最小关联程度;max是指最大关联程度;指的是参考阈值;ts(u)是指Yt与 Ys的关联参考值。(4)计算 Yt做参考序列时与比较序列 Ys之间的关联程度进行计算,用 ts来表示,计算公式具体如式(10):ts=1ggu=1ts(u)(10)(5)则数据关联度阈值可以用式(11)来表示:Et=ts1 ts2 ts3 tsk|s1,s2,sk kt=1,2,k(11)式(11)中,tsk指的是第 k 个 ts。获取数据关联度阈值后,将式(12)作为分析阈值:=tsk 22ts(12)式(12)中,ts指的是 Yt与 Ys各点关联系数的对应方差。当污染源监测数据中数据关联度大于分析阈值 时,认为对应数据非异常值,当数据关联度小于 时,认为对应数据为异常值中的失效值。1 3离群异常值识别基于 LSTM 网络构建离群异常值识别模型,实现污染源监测数据中离群异常值的识别。具体步骤如下:(1)数据归一化处理:通过这种处理方式将测值序列的值域直接控制在 0 1 的范围内,降低模型训练波动。具体公式如式(13):Jnew=Jold JminJmax Jmin(13)式(13)中,Jnew指的是归一化后的污染源监测数据;Jold是指归一化前的污染源监测数据;Jmax指的是污染源监测数据中的最大值;Jmin是指污染源监测数据中的最小值。(2)分割数据集:为满足离群异常值识别模型检测与训练的需要,对数据序列实施分割,将数据序列分割为检测集与训练集。将分割比例直接设为0.3,即应用前 30%的数据序列实施模型训练,应用全部样本数据实施检测。(3)数据输入重塑:重塑原始监测数据序列,使其满足 LSTM 网络中对于输入数据的实际维度要求。给出一个参数 F,表示模型中长期记忆单元的对531第 48 卷第 2 期2023 年 2 月尤辰汀基于数据特征分析的污染源监测数据异常值识别方法研究Vol.48 No.2Feb 2023应前向记忆距离。用式(14)表示原始数据序列:G=(g1,g2,gp)(14)式(14)中,gp指的是第p个原始数据。则输入数据集与输出集可以用式(15)来表示:V=V1,V2,VpFO=O1,O2,OpF(15)式(15)中,V 指的是输入数据集;VpF是指第 p F个输入数据;O指的是输出数据集;OpF是指第p F 个输出数据。其中的输入数据与输出数据可用式(16)来表示:Vu=vu,vu+1,vu+fOu=ou+F+1(16)式(16)中,vu+F指的是第 u+F 个输入数据维度;ou+F+1是指第 u+F+1 个异常值检测数据点。(4)离群异常值识别模型构建:构建模型由网络输入层、网络输出层以及隐含层构成,其中隐含层为单隐含层结构。模型的输入数据因子数量由 F 值决定,也就是输入层节点数由 F

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开