智城实践NO.0220231智能城市INTELLIGENTCITY几种电力数据异常检测算法的对比分析申佳灵易婷聂勤李军成*(湖南人文科技学院,湖南娄底417000)摘要:在采集电力数据时,往往会产生异常数据,这对后期的数据分析与处理会造成不良影响。因此,对电力数据的异常值进行有效检测显得尤为重要。文章以孤立森林算法、随机森林算法、K-Means算法及DBSCAN算法等电力数据异常检测算法为对象,通过仿真试验对四种算法的检测效果进行对比分析,为电力数据异常检测算法的选取提供了一定的依据。关键词:孤立森林算法;随机森林算法;K-Means算法;DBSCAN算法;电力数据检测中图分类号:TP393文献标识码:A文章编号:2096-1936(2023)02-0001-04DOI:10.19301/j.cnki.zncs.2023.02.001文献[1]提出了将可能性模糊C均值算法与改进的粒子群优化算法相结合的异常数据检测算法;文献[2]基于K-Means聚类算法将聚类中心点定义为与实际簇中心距离较为接近的数据点,改变了传统方法中任意选择聚类中心的缺陷;文献[3]对密度峰值聚类算法进行优化,用于检测电力大数据的异常值;文献[4]提出了一种基于孤立森林的大规模电量异常检测算法;文献[5]将孤立森林算法用于电力调度数据异常检测。在对电力数据的异常值进行检测时,需要选择合适的算法。文章研究目的是通过仿真试验对目前常用的孤立森林算法、随机森林算法、K-Means算法、DBSCAN算法等电力异常数据检测算法进行对比分析,为电力数据异常检测算法的选取提供一定参考。1预备知识1.1孤立森林算法孤立森林算法[6]是一种高效的无监督异常检测算法。与传统的优化正常样本的描述相反,孤立森林算法主要是对异常样本的描述做优化,将分布稀疏并且离密度高的群体较远的点定义为异常点,在样本点随机选择的基础上,随机产生分割条件,对各个数据进行分配,基于异常数据占比量小以及特征值与正常数据差别较大两个特征,构建多棵孤立二叉树,组成孤立森林。对任意样本点,需要进行合理评估,当每个样本点都经历了孤立二叉树的构建过程后,可以计算路径长度。在这种方式下,异常点通常具有较短的路径,且无须计算距离等指标,利用多棵树的建立能够减小误差,增加稳定性。在利用孤立森林算法进行电力数据异常检测时,若异常得分为正数,则将该样本点判定为正常值,反之判定为异常值。1.2随机森林算法随机森林算法[7]是一种基于集成学习的方法,主要通过多棵决策树对数据进行训练,并且随机过程可降低异常数据对结果的影响。随机森林...