分享
基于一个发现污染类核心区域...聚类模型的大气污染情况分析_谢越.pdf
下载文档

ID:2258815

大小:1.15MB

页数:10页

格式:PDF

时间:2023-05-04

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 一个 发现 污染 核心 区域 模型 大气污染 情况 分析 谢越
第 40 卷第 12 期2022 年 12 月环境工程Environmental EngineeringVol40No12Dec2022收稿日期:20220302基金项目:甘肃省重点研发计划(21YF5GA053);甘肃省高等学校产业支撑计划项目(2022CYZC-36);国家自然科学基金项目(61762057)第一作者:谢越(1995),男,硕士,主要研究方向为聚类及复杂网络分析。12201753 stulzjtueducn*通信作者:陈梅(1973),女,博导,主要研究方向为复杂数据挖掘、模式识别、复杂网络分析。chenmeilz maillzjtucnDOI:10.13205/jhjgc202212019谢越,陈梅,王有帅 基于一个发现污染类核心区域的聚类模型的大气污染情况分析 J 环境工程,2022,40(12):142150,179基于一个发现污染类核心区域的聚类模型的大气污染情况分析谢越陈梅*王有帅(兰州交通大学 电子与信息工程学院,兰州 730070)摘要:由于污染源受地形、地貌及气象等条件影响而分布多样,大气污染数据在空间中呈任意形状、任意密度的复杂分布。为探究这种大气污染分布状况,基于 DP 算法提出了 1 个发现污染类核心区域的聚类模型。以实现对污染数据不经统计直接聚类,在保持空气污染数据分布特征不变的基础上提取出关键污染数据,更准确地挖掘空气污染变化规律。将所提聚类模型和 k-Means 算法在由兰州市 2017,2019,2021 年各年 1 月污染物浓度小时数据构成的 3 个数据集上进行了对比分析。结果显示:所提模型在以上 3 个数据集上均能更清晰地挖掘出污染数据,在污染类核心区域中的关键污染数据分别为 59.0%、57.2%和 69.0%,且造成污染的首要污染物均为 NO2和颗粒物。此外,该模型从兰州市2021 年 1 月数据中解析出,兰州市月污染变化由污染物 NO2和 PM10共同作用或交替作用引起,日污染变化在受污染小时数和首要污染物(NO2和 PM10)出现次数上的变化趋势均呈双峰型,污染区域为城关区。并通过分析上述污染规律的成因,证明该模型在确保数据复杂分布不变的情况下提取关键污染数据的有效性。关键词:空气污染;聚类模型;空间分布;簇核心区域ANALYSIS OF AI POLLUTION BASED ON A CLUSTEING MODEL FODISCOVEING THE BACKBONE OF POLLUTION CLUSTEXIE Yue,CHEN Mei*,WANG Youshuai(School of Electronics and Information Engineering,Lanzhou Jiaotong University,Lanzhou 730070,China)Abstract:Since the distribution of air pollution sources is influenced by topography,landform and meteorology,thedistribution of air pollution data in space is of arbitrary shapes and densities To more accurately mine the rule of air pollution,this paper proposed a clustering model based on the DP algorithm for discovering the backbones of the cluster The model coulddirectly group pollution data without statistical analysis and extract key information from air pollution data by keeping thedistribution unchanged,so as to excavate the change law of air pollution more accurately The proposed clustering model andthe k-Means algorithm were compared and analyzed on the three hourly pollutant concentration datasets monitored in January of2017,2019 and 2021 in Lanzhou respectively In these three datasets,our model could more clearly mine the pollution dataThe key pollution data accounted for 59.0%,57.2%and 69.0%respectively in the backbones of pollution cluster,and theprimary pollutants causing pollution were NO2and particulate matter To reflect the applicability of the model,we analyzed ourmodel on the pollution data in Lanzhou in January 2021,then found that the variation of air pollution in that month was causedby the joint or alternate action of pollutants NO2and PM10,the hourly variation trend of pollution showed a bimodal patternboth on the number of contaminated hours and the occurrence frequency of primary pollutants(NO2and PM10),andChengguan District was the polluted area The validity of the model was tested using the causes analysis of the above pollution第 12 期谢越,等:基于一个发现污染类核心区域的聚类模型的大气污染情况分析laws,which made the model practical and effective for extracting key air pollution data without changing its complex distributionKeywords:air pollution;clustering model;spatial distribution;backbone of cluster0引言目前,频发的空气污染事件已成为大多数发展中国家社会经济发展和公共卫生的严重威胁1,2,空气污染已成为全球关注的问题3,正确认识和治理空气污染刻不容缓。国内一些学者已从不同角度使用一些传统的分析方法如灰色关联度分析、相关性分析、广义线性模型和贝叶斯时空模型等对我国城市空气污染的时空分布规律进行研究4-7。但随着数据时代和城市数字化时代的到来,污染数据如 PM2.5、PM10及 NO2等浓度被传感器获取并存储于数据库8-12,产生大量数据,而且可能会因为传感器检测异常或信号传输过程中受到干扰而产生一些噪声数据。同时,由于污染排放源分布和排放量的多样性,以及地形、地貌和气象条件等的不同,使空气污染数据又具有非线性特性13,14,在空间中呈任意形状、任意密度的复杂分布,如图 1a 所示。因此,如何利用数据挖掘的相关技术对这类复杂数据进行分析以提出解决办法十分重要。注:其中一种颜色表示一个不同的类簇,黑色点表示噪声点图 1空气污染数据及 k-Means 聚类结果示意Figure 1An example of air pollution data and the clusteringresults by k-Means聚类是数据挖掘中的热门技术,已被广泛应用于计算机视觉、信息检索、特征选择、安全及商业智能等诸多领域15,16。聚类分析技术是一种合理有效简化大量数据信息的多元统计分析技术,用若干分类来反映群体的亲疏特征17,可从异构数据中快速获取具有较高使用价值的信息。聚类曾被广泛应用于大气科学数据,特别是气候和气象数据。20 世纪 80 年代以来,学界开始使用聚类技术研究空气污染,其中 k-Means 算法是应用于空气污染研究常用的聚类方法之一18。梁银双等19 首先将空气质量指数变化曲线通过函数型数据的主成分分析进行降维,然后将主成分基系数使用 k-Means 进行聚类;龙凌波等20 在分析了我国沿海地区 12 个省的 115 个地级以上城市20152016 年 6 种主要大气污染物逐小时浓度数据的时间变化特征与空间分异特征的基础上,采用 k-Means 算法探究了不同城市间大气污染的空间分异特征,识别了区域污染分布特征及潜在影响因素;金仁浩等21 使用 k-Means 方法分别对北京市 2018 年34 个站点 6 种污染物浓度年均值和各站点不同空气质量等级天数进行聚类,总结出大气污染治理应关注的站点和区域。武祺然等22 将空气质量指数数据和6 项空气污染物浓度数据拟合为函数曲线,然后对空气质量指数曲线族的主成分基系数使用 k-Means 进行聚类,对 6 项空气污染物浓度曲线族进行多元Funclust 聚类,发掘了浙江省空气质量指数和 6 项空气污染物浓度的动态变化特征。然而,上述基于聚类的空气污染分析方法存在一些不足之处:1)均使用 k-Means 聚类算法进行分析。由于 k-Means23,24 是基于划分的聚类算法,k 值的选择具有不确定性,易受人为因素影响,初始 k 个簇中心的选择具有随机性,使最终聚类结果不稳定;在更新簇中心时,通过取簇中所有数据点的均值来代替,会对噪声数据点较敏感;簇中心确定后,根据距离最近簇中心的划分规则将其余数据点分配,因此适合于球状簇的划分,对像空气污染数据这样具有任意分布特征的数据的划分效果不佳25-27。k-Means 算法对图 1a 示例的聚类结果如图 1b 所示。可以看出其不能识别出数据的复杂空间分布簇,并将噪声点划分到不同的簇中。2)上述聚类方法都不直接作用于原始空气污染数据,其模式均是数据统计聚类分析模341环境工程第 40 卷式。该模式在聚类前首先对大气数据降维、求浓度日/年均值或处理成函数型数据等操作,虽然可以得到污染物的宏观信息,但会导致具体污染信息如某站点在某小时是否处于污染状态信息变得模糊,致使具体污染信息损失,同时也会破坏空气污染数据的分布特征。为提出一种稳定的、对噪声数据具有鲁棒性、并适用于任意分布数据集的大气污染数据分析方法,本文基于密度峰值聚类(density peaks,DP)算法提出了1 个基于发现污染类核心区域的聚类模型,为聚类数据统计分析模式。该模型对空气污染数据不经预先统计直接聚类,保留原始数据的全部信息,且数据的划分同时考虑数据点间每一维污染物浓度大小,划分依据较为全面。从聚类结果中重点选择包含污染数据最多的簇进行分析,从该簇中去除噪声数据等干扰因素,并在保持空气污染数据任意分布特征不变的情况下,提取其核心区域并从中获取导致空气污染的关键污染数据。簇核心区域中数据的特点是密度较大,从数据分布上看,其周围的数据点多且集中;从聚类的角度来看,其与周围的数据联系更紧密且更相似。故可将含污染数据最多簇的核心区域中的污染数据看作是具有污

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开