基于k近邻隔离森林的异常检测①丁鹏霖(福建师范大学计算机与网络空间安全学院,福州350117)通信作者:丁鹏霖,E-mail:273623994@qq.com摘要:异常检测是机器学习与数据挖掘的热点研究领域之一,主要应用于故障诊断、入侵检测、欺诈检测等领域.当前已有很多有效的相关研究工作,特别是基于隔离森林的异常检测方法,但在处理高维数据时仍然存在许多困难.提出了一种新的k近邻隔离森林的异常检算法:k-nearestneighborbasedisolationforest(KNIF).该方法采用超球体作为隔离工具,利用第k近邻的方法来构建隔离森林,并构建基于距离的异常值计算方法.通过充分实验表明KNIF方法能有效地进行复杂分布环境下的异常检测,并能适应不同分布形式的应用场景.关键词:异常检测;隔离森林;k近邻;超球体引用格式:丁鹏霖.基于k近邻隔离森林的异常检测.计算机系统应用,2023,32(2):199–206.http://www.c-s-a.org.cn/1003-3254/8988.htmlAnomalyDetectionBasedonk-nearestNeighborIsolationForestDINGPeng-Lin(CollegeofComputerandCyberSecurity,FujianNormalUniversity,Fuzhou350117,China)Abstract:Anomalydetectionisoneoftheresearchfocusesinmachinelearninganddatamining,whichismainlyusedinfaultdiagnosis,intrusiondetection,andfrauddetection.Therehavebeenmanyeffectiverelatedstudies,especiallythoseoftheanomalydetectionmethodbasedonisolationforest,buttherearestillmanydifficultiesintheprocessingofhigh-dimensionaldata.Anewanomalydetectionalgorithm,k-nearestneighborbasedisolationforest(KNIF),isproposed.Themethoduseshyperspheresasanisolationtool,utilizesthek-nearestneighbormethodtoconstructanisolationforest,andconstructsadistance-basedoutliercalculationmethod.SufficientexperimentsshowthattheKNIFmethodcaneffectivelydetectanomaliesincomplexdistributionenvironmentsandcanadapttoapplicationscenariosofdifferentdistributionforms.Keywords:anomalydetection;isolationforest;k-nearestneighbor;hypersphere异常检测[1–4]就是检测数据中不符合行为的异常数据,异常数据也可以称之为离群点、污点、不一致点,数据异常可以转化为各种应用领域中的重要可操作信息.在大数据信息时代,异常检测在许多领域都发挥着不可忽视的作用,包括信用卡欺诈检测,保险或医疗保健,交通管理,网络安全入侵检测,安全攸关系统中的故障检测以及对敌方活动...