温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
LOF
SVM
异常
用电
用户
分阶段
识别
方法
顾臻
电气传动 2023年 第53卷 第3期ELECTRIC DRIVE 2023 Vol.53 No.3摘要:准确的电力异常用户识别方法能为供电企业锁定存在窃电行为或其他违规行为的电力用户提供参考。大多数基于机器学习的异常识别模型采用了无监督算法,但模型的准确度还较低。针对上述问题,提出一种结合无监督的局部离群因子(LOF)算法与有监督的支持向量机(SVM)算法的两阶段异常用电用户识别方法。基于分析异常电能表区别于正常电能表的电流电压表现,构建异常识别模型的输入特征;采用无监督的LOF算法进行采样,筛选出可疑样本交给人工进行标记,然后利用标记样本训练有监督的SVM模型;在之后的检测工作中,直接将LOF算法筛选出可疑样本交给SVM模型进行识别。实例结果表明,该方法对电力异常用户的识别准确度高,对供电企业的窃电稽查工作具有指导意义。关键词:电力异常用户识别;机器学习;局部离群因子(LOF);支持向量机(SVM)中图分类号:TM28文献标识码:ADOI:10.19457/j.1001-2095.dqcd23988Phased Identification Method of Abnormal Electricity Users Based on LOF+SVMGU Zhen1,ZHUANG Gewei1,HE Qing1,ZHOU Lei1,AN Bailong1,DUAN Yan2(1.Power Science Research Institute,State Grid Shanghai Electric Power Company,Shanghai 200051,China;2.Department of Vehicle Engineering,School of Automobile,Tongji University,Shanghai 201804,China)Abstract:Accurate identification method of abnormal electricity users can provide reference for power supplyenterprises to lock in electricity theft or other violations of power users.Most abnormal user identification modelsbased on machine learning adopt unsupervised algorithms,but the accuracy of the models is low.To solve theabove problems,a two-stage abnormal power user identification method combining unsupervised local outlierfactor(LOF)algorithm and supervised support vector machine(SVM)algorithm was proposed.Based on theanalysis of the current and voltage performance of the abnormal energy meter different from the normal energymeter,the input characteristics of the abnormal identification model were constructed.The LOF algorithm was usedto sample,and the suspicious samples were selected and handed over to manual labeling.Then the supervised SVMmodel was trained by the labeled samples.In the subsequent detection work,the suspicious samples screened byLOF algorithm were directly sent to the SVM model for identification.The example results show that this methodhas high identification accuracy for power abnormal users,and has guiding significance for the power stealinginspection of power supply enterprises.Key words:abnormal electricity user identification;machine learning;local outlier factor(LOF);supportvector machine(SVM)作者简介:顾臻(1989),男,硕士,工程师,Email:顾臻,等基于LOF+SVM的异常用电用户分阶段识别方法顾臻1,庄葛巍1,贺青1,周磊1,安佰龙1,段艳2(1.国网上海市电力公司 电力科学研究院,上海 200051;2.同济大学 汽车学院 车辆工程系,上海 201804)随着智能电网的快速发展以及用户用电需求的不断增加,社会中出现了各种窃电行为,不仅给电网带来了直接经济损失,而且影响电网安全稳定运转1。智能电网的推广应用过程中积累了海量的用户用电数据,伴随着机器学习在异常识别领域的兴起,如何利用机器学习方法识别非法窃电行为逐渐成为研究热点:曾虎2基于聚类分析与支持向量机回归的相关技术,提出了基于电流、电压、电量等电能计量数据的窃电检测模型,吴迪等3分析了电气特征参量、窃电方法及本质之间的关系,提出了基于大数据的防窃电模型与方法,李宁等4提出了基于电量离群点挖掘的窃电辨识方法。程俊文等5提出了一种基于K-means90顾臻,等:基于LOF+SVM的异常用电用户分阶段识别方法电气传动 2023年 第53卷 第3期聚类算法以及用电信息采集系统所采参数,建立多维特征因子关联模型,确定窃电嫌疑用户的方法。邓明斌等6提出了一种检测方法,该方法对异常用电的表现进行特征提取,基于每个特征采用机器学习方法学习用电异常的判决阈值,针对每一个具体特征均进行了独立的异常检测。上述异常用户识别模型实现了对窃漏电行为的自动识别,但模型的准确度与人工检测的准确度还有一定差距。异常检测中的正常样本与异常样本的比例严重倾斜,机器学习中的无监督算法在处理类不平衡数据方面比有监督算法更具优势,所以相关研究多从无监督角度出发7。而有监督异常检测方法可以实现更高的准确率,前提是在训练模型时,保证训练样本中的异常样本占比足以让模型学到异常样本的特征。针对上述问题,提出结合无监督局部离群因子(local outlier factor,LOF)和有监督支持向量机(support vector machine,SVM)的异常用户识别方法:在模型构建阶段,首先利用无监督的LOF算法进行采样,将采集到的异常样本交由人工进行检测并标记,以获得有监督模型的训练样本;然后利用有标记的样本训练有监督式SVM异常识别模型;在应用阶段,采用分阶段识别方法,首先利用LOF算法筛选出异常样本,然后将异常样本交给有监督式 SVM 异常识别模型进一步识别。通过实例比对了不同算法的准确度、召回率等指标,最终验证了结合无监督LOF与有监督SVM模型的分阶段识别方法的有效性。1算法简介1.1LOF算法LOF 算法是一种无监督异常检测算法。该算法通过计算给定数据点相对于其邻域的局部密度偏差而实现异常检测8-9。LOF算法中核心定义如下:1)点p与点o之间的距离:d(p,o)。2)第k距离:k_distance。对于数据集D中的点o,点p的第k距离dk(p)满足如下条件:dk(p)=d(p,o)(1)在数据集D中至少有不包括点p在内的k个点o D x p,满足:d(p,o)d(p,o)(2)在数据集D中最多有不包括点p在内的k-1个点o D x p,满足:d(p,o)0;若有yi=-1,则有Txi+b 0,令:Txi+b +1 yi=+1Txi+b -1 yi=-1(10)离超平面最近的训练样本点使得上述公式等号成立,它们即为支持向量(support vector),两个异类支持向量到超平面的距离之和定义为间隔,公式为=2/|(11)当间隔取最大值,即max,b2/|s.t.yi(Txi+b)1i=1,2,m(12)则可找到“最大间隔”的划分超平面。当样本空间内的样本参数x的维度扩展到高维,SVM算法同样适用。2异常用电用户分阶段识别方法构建2.1构建用于识别用户类别的特征2.1.1异常用户用电特征分析针对每个用户的电能表,电力部门每隔15 min对其A,B,C三相的电压、电流值进行采集,所以在一天的采集数据中,该电能表的三个相位都将预期获得96个电流采集数据和96个电压采集数据。用户的电流、电压值是由电力部门直接采集的数据,但在实际采集过程中不可避免存在缺失值,基于不完整的电流和电压数据计算而来的用电量和功率等特征可能与实际值存在误差,不能准确反映用户的用电特征,而直接针对电流、电压数据进行用电特征分析的过程能够避免上述误差的产生。在对异常用户的用电特征进行分析时,选取任意一天采集数据较完整的数据作为分析源(每一相的电流或电压采集数据的个数不低于90个),通过分析用户用电时的电流电压数据是否表现异常,判定用户的窃电嫌疑。1)电压分析。利用三相电压的采集数据作为用户用电特征参量,通过判断当前电能表是否处于欠压或失压状态,来判定用户的窃电嫌疑系数:电能表在正常用电状态下的电压采集值近似等于额定电压,若电能表的电压采集值低于设定的阈值电压(一般为额定电压的90%),表明该电能表处于欠压或失压状态,该用户可能存在窃电嫌疑。2)电流分析。利用三相电流的采集数据作为用户用电特征参量,通过判断当前电能表是否处于欠流或失流状态,来判定用户窃电嫌疑系数:电能表在正常用电状态下的三相电流值一般不为零,而异常用户电能表的三相电流值出现连续多个零值或负值,即该电能表处于失流状态;正常电能表在任意时刻的任意一相的电流值与该时刻的三相电流的平均值的比值接近1,而异常用户电能表的该项比值一般大于1.5及以上,即该电能表处于欠流状态,该对应用户可能存在窃电嫌疑。2.1.2基于统计的数据特征提取基于异常用户与正常用户的用电特征有所不同,针对某用户电能表在某一天的电流及电压采集数据信息,构建新特征以反映该用户电能表在该天的电流电压表现,所构建的新特征如表1所示。表1用户在某一天的用电特征Tab.1Power consumption characteristics of users on a certain day特征类I/IaverageRatioI=0RatioI 0RatioU=0RatioU 90%U0特征参数IA/IaverageIB/IaverageIC/IaverageRatioIA=0RatioIB=0RatioIC=0RatioIA 0RatioIB 0RatioIC 0RatioUA=0RatioUB=0RatioUC=0RatioUA 90%U0RatioUB 90%U0RatioUC 90%U0说明针对每一相:计算当前数据采集时刻的该相电流值与三相电流平均值的比值,然后取一天中不同时刻计算值的最大值作为该特征值针对每一相:计算一天内电流采集数值为 0的数据个数占该天电流数据总采集个数的比例针对每一相:计算一天内电流采集数值小于 0的数据个数占该天电流总采集个数的比例针对每一相:计算一天内电压采集数值为 0的数据个数占该天电压总采集个数的比例针对每一相:计算一天内电压采集数值小于额定电压U0的9