大气
电场
测量
数据
异常
检测
校正
方法
研究
夏志祥
电 子 测 量 技 术E L E C T R ON I CME A S UR EME N TT E CHNO L OG Y第4 6卷 第1期2 0 2 3年1月 D O I:1 0.1 9 6 5 1/j.c n k i.e m t.2 2 1 0 3 0 2大气电场测量数据的异常检测及校正方法研究*夏志祥1,2,3 李 准4 徐 伟1,2(1.南京信息工程大学气象灾害预防预警与评估协同创新中心 南京2 1 0 0 4 4;2.南京信息工程大学江苏省气象探测与信息处理重点实验室 南京2 1 0 0 4 4;3.盐城市第三人民医院 盐城2 2 4 0 0 0;4.江西省气象服务中心 南昌3 3 0 0 9 6)摘 要:大气电场序列的清洗预处理对后续的挖掘研究具有重要意义。提出一种基于孤立森林结合C h e n-L i u迭代算法的大气电场异常点检测与校正方法。该方法利用求和自回归移动平均(A R I MA)模型对大气电场时间序列进行拟合并得到拟合残差,基于残差序列构建孤立森林模型以确定异常点位置,最后通过C h e n-L i u算法进行校正。通过模拟和实测大气电场数据验证所提方法的可靠性,相对于原序列,清洗后大气电场序列预测结果在均方根误差和平均百分比误差分别改善2 7.8%和3 4.9 8%。关键词:大气电场;异常检测与校正;孤立森林;C h e n-L i u迭代算法中图分类号:TM 8 6 3 文献标识码:A 国家标准学科分类代码:1 7 0.1 5R e s e a r c ho na n o m a l yd e t e c t i o na n dc o r r e c t i o nm e t h o do fa t m o s p h e r i ce l e c t r i c f i e l dm e a s u r e m e n td a t aX i aZ h i x i a n g1,2,3 L iZ h u n4 X uW e i1,2(1.C o l l a b o r a t i v e I n n o v a t i o nC e n t e ro nF o r e c a s t a n dE v a l u a t i o no fM e t e o r o l o g i c a lD i s a s t e r s,N a n j i n gU n i v e r s i t yo f I n f o r m a t i o nS c i e n c e&T e c h n o l o g y,N a n j i n g2 1 0 0 4 4,C h i n a;2.K e yL a b o r a t o r yf o rA e r o s o l-C l o u d-P r e c i p i t a t i o no fC h i n aM e t e o r o l o g i c a lA d m i n i s t r a t i o n,N a n j i n gU n i v e r s i t yo f I n f o r m a t i o nS c i e n c e&T e c h n o l o g y,N a n j i n g2 1 0 0 4 4,C h i n a;3.Y a n c h e n gT h i r dP e o p l e sH o s p i t a l,Y a n c h e n g2 2 4 0 0 0,C h i n a;4.J i a n g x iM e t e o r o l o g i c a lS e r v i c eC e n t e r,N a n c h a n g3 3 0 0 9 6,C h i n a)A b s t r a c t:T h e c l e a n i n go f t h e a t m o s p h e r i c e l e c t r i c f i e l d i s t h ek e ys t e po f p r e t r e a t m e n t,w h i c h i so f g r e a t s i g n i f i c a n c e t ot h es u b s e q u e n te x c a v a t i o nr e s e a r c h.I nv i e wo ft h es h o r t c o m i n g so ft r a d i t i o n a la n o m a l yd e t e c t i o na l g o r i t h m,w h i c hn e e d s t os p e c i f yt h ec o r r e s p o n d i n gp a r a m e t e r sa n df a i lt ou s et h er e l e v a n ti n f o r m a t i o nb e t w e e nt i m es e r i e s,an e wo u t l i e rd e t e c t i o na n dc o r r e c t i o nm e t h o db a s e do n t h e c o m b i n a t i o no f i s o l a t i o n f o r e s t a n dC h e n-L i ua l g o r i t h mi sp r o p o s e d.T h em e t h o du s e sA R I MAm o d e l t o c o m b i n e t h e a t m o s p h e r i c e l e c t r i c f i e l d t og e t t h e f i t t i n g r e s i d u a l.T h e i s o l a t i o n f o r e s tm o d e l i sc o n s t r u c t e db a s e do nr e s i d u a ls e q u e n c et od e t e r m i n et h el o c a t i o no ft h eo u t l i e r s.F i n a l l y,t h eC h e n-L i ua l g o r i t h mi su s e dt oc o r r e c t t h eo u t l i e r s.T h er e l i a b i l i t yo f t h ep r o p o s e dm e t h o d i sv e r i f i e db ys i m u l a t i o ns e r i e sa n dt h ea t m o s p h e r i ce l e c t r i c f i e l dt e s t.C o m p a r e dw i t ht h eo r i g i n a lp r e d i c t i o n,t h er e s u l t so f t h ep r e d i c t i o no f t h es e r i e so f t h ra t m o s p h e r i ce l e c t r i c f i e l da f t e r c l e a n i n ga r e i m p r o v e db y2 7.8%a n d3 4.9 8%r e s p e c t i v e l y i nr o o tm e a ns q u a r e e r r o r a n dm e a np e r c e n t a g ee r r o r.K e y w o r d s:a t m o s p h e r i ce l e c t r i c f i e l d;a n o m a l yd e t e c t i o na n dc o r r e c t i o n;i s o l a t i o nf o r e s t;C h e n-L i ua l g o r i t h m 收稿日期:2 0 2 2-0 6-1 3*基金项目:国家重点研发计划政府间/港澳台重点专项(2 0 2 1 Y F E 0 1 0 5 5 0 0)、国家自然科学基金(4 1 6 0 5 1 2 1)项目资助0 引 言 大气电场是大气物理和空间物理领域的重要物理现象。大气中存在带正电荷的离子,地球表面携带负电荷,形成垂直向下的电场。实时监测大气电场时间序列对了解全球气候变化、反演雷暴云电荷结构、提高雷电预警效率具有重要意义1-3。大气电场监测数据通常由大气电场仪测得,由于电场传感器对电场敏感,本身易受区域电磁环境以及气候等因素干扰4,同时采集的数据需要经历传输、存储和数据平台交互等环节,其中任何一个环节出现故障都会导致部分数据发生异常,对后续电场的挖掘与分析产生较大影响。为了更有效地利用监测数据,需要采用合理的方法09夏志祥 等:大气电场测量数据的异常检测及校正方法研究第1期对大气电场数据进行预处理。自M a l a n等5提出了经典的场磨式大气电场仪后,国内外学者主要通过优化电场传感器采集电路和校准实验来提高测量数据的精度6-8,或通过软件模拟仿真的方法对大气电场序列整体数值进行修正9-1 1。实际大气电场时间序列中还会包含一些与其他数据存在显著性差异的异常点,需要对这些异常点进行额外的检测和校正。国内外对时间序列异常点检测的研究起初是基于概率统计的方法,其核心思想是假设样本数据符合某种概率分布如高斯分布模型1 2,接着通过检验算法确定数据的异常情况。但在实际时间序列中,基本都表现出强随机性,难以将其归纳为某种概率模型。1 9 9 9年,K n o r r等1 3提出基于最近邻的异常点检测方法,通过对所有数据进行距离计算确定异常点,这对于大量 数 据 的 异 常 检 测 而 言 计 算 过 于 庞 大。2 0 1 8年,M u n i r等1 4提出的D e e p A n T算法是一种基于深度学习的离群值检测方法,应用固定的卷积神经网络来预测未来的值,通过设置阈值来判定异常点,该方法属于有监督的机器学习方法,依赖于数据标签,同时转移到新的数据集需要重新训练。上述方法对于异常值的校正采用均值填充、众值填充等方法,忽视了时间序列内在的规律。C h e n-L i u迭代算法对时间序列进行建模分析,通过模型参数和异常点效应的联合估计能够准确检测异常点1 5,并对异常点进行有效地校正。但异常检测依赖于阈值C的选择且计算繁琐。针对C h e n-L i u迭代算法异常检测部分的不足,利用孤立森林自适应的优点1 6,将孤立森林与C h e n-L i u迭代算法相结合,构建异常检测和校正模型。首先建立A R I MA时间序列模型得到残差序列。接着利用C h e n-L i u迭代算法对检测到的异常点进行校正,构建大气电场序列异常检测和校正模型。通过实验仿真验证,两者结合可以准确地检测异常点并有效地进行校正,具有一定的可靠性和实用性。1 大气电场时间序列的异常检测及校正原理 对大气电场时间序列进行数学建模分析,能够得到序列内在的规律和时序相关信息,可用于区分正常点与异常点。针对大气电场时间序列通常表现为非平稳状态,利用求 和 自 回 归 移 动 平 均 模 型(a u t o r e g r e s s i v ei n t e g r a t e dm o v i n ga v e r a g em o d e l,A R I MA)1 7,对原序列进行若干次差分使其成为平稳序列,对平稳序列建立自回归移动平均(a u t o r e g r e s s i v em o v i n ga v e