分享
变系数模型的稳健LS-SVR估计算法及数值分析_张辉国.pdf
下载文档

ID:2397906

大小:1.29MB

页数:6页

格式:PDF

时间:2023-05-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
系数 模型 稳健 LS SVR 估计 算法 数值 分析 张辉国
基金项目:新疆自然科学基金(2019D01C045);教育部人文社会科学研究规划基金(19YJA910007);国家自然科学基金(11961065)收稿日期:2021-06-18 修回日期:2021-08-10 第 40 卷 第 4 期计 算 机 仿 真2023 年 4 月 文章编号:1006-9348(2023)04-0367-06变系数模型的稳健 LS-SVR 估计算法及数值分析张辉国,张孟娟,胡锡健(新疆大学数学与系统科学学院,新疆 乌鲁木齐 830046)摘要:变系数模型的最小二乘支持向量回归估计方法(VC-LS-SVR)是最近提出的一种用于分析变量间回归关系动态变化特征的有力工具,经典非参数回归模型与机器学习方法相融合的新技术,不仅增强了变系数模型对变量间非线性关系的适应性与可计算性,同时继承了经典统计模型的可解释性。但是上述方法直接利用最小二乘支持向量回归(LS-SVR)技术拟合变系数模型,缺乏稳健性,数据中的异常值会扭曲系数函数的估计,从而引起对回归关系的误导性解释。为解决上述问题,基于 VC-LS-SVR 和加权思想提出了两种稳健估计方法:变系数模型的加权最小二乘支持向量回归估计方法(VC-WLS-SVR)与迭代重加权最小二乘支持向量回归估计方法(VC-IRLS-SVR)。数值实验结果表明两种方法具有稳健性,能够有效抑制异常值的影响,即使在异常数据污染率达到 50%或存在极端异常值的情况下,也能获得准确和稳定的估计结果。关键词:变系数模型;最小二乘支持向量机;加权函数;迭代重加权;异常值中图分类号:N945.12;TP391.9 文献标识码:BRobust LS-SVR Estimation Algorithm and NumericalAnalysis of Varying Coefficient ModelZHANG Hui-guo,ZHANG Meng-juan,HU Xi-jian(College of Mathematics and System Science,Xinjiang University,Urumqi Xinjiang 830046,China)ABSTRACT:The least squares support vector regression estimation method of varying coefficient model(VC-LS-SVR)is a powerful tool recently proposed to analyze the dynamic change characteristics of regression relationship a-mong variables.The new technique of integrating classical non-parametric regression model with machine learningmethod not only enhances the adaptability and computability of varying coefficient model to the nonlinear relationshipof variables,but also inherits the interpretability of classical statistical model.However,this method directly uses theleast squares support vector regression(LS-SVR)technology to fit the varying coefficient model,which is lack of ro-bustness.The outliers in the data will distort the estimation of the coefficient function,resulting in misleading inter-pretation of the regression relationship.In order to get the robust estimation of regression coefficient,this paper propo-ses two robust estimation methods based on VC-LS-SVR and weighted idea:weighted least squares support vectorregression estimation method of varying coefficient model(VC-WLS-SVR)and iterative reweighted least squaressupport vector regression estimation method of varying coefficient model(VC-IRLS-SVR).Numerical experimentalresults show that the two methods are robust and can effectively suppress the influence of outliers.Even when the pol-lution rate of abnormal data reaches 50%or extreme outliers exist,accurate and stable estimation results can be ob-tained.KEYWORDS:Varying coefficient model;LS-SVM;Weighted function;Iterative reweighted;Outliers1 引言变系数模型作为模拟变量间回归关系动态变化的重要工具,是经典线性回归模型的有效扩展,在社会科学和自然科学领域受到了广泛的关注1,2。该模型中的回归系数允许随其它协变量的值光滑变化,而不是设为固定常数,有效解决了非参数回归研究中的“维数灾难”问题,并且继承了经典线性回归模型的简单性和易解释性。其中系数函数的估计是变系数模型的关键问题,人们一直致力于为其发展有效的763估计方法3-5。作为目前最流行 且 有 效 的 方 法 之 一,支 持 向 量 机(Support Vector Machines,SVM)将线性思想应用于非线性数据,主要解决分类和非线性函数估计问题,由 Vapnik 等人6于 1995 年提出后被许多人进一步研究7-10。Suykens 等人11在 1999 年提出了最小二乘支持向量机(Least SquaresSupport Vector Machine,LSSVM),该方法是一种基于 SVM 的改进算法,在继承 SVM 优点的同时,采用等式约束替代 SVM中的不等式约束,并使用误差的 2-范数替代 SVM 中的-不敏感损失函数,从而将求解 SVM 的凸二次规划问题转化为求解线性方程组的问题,降低了算法复杂度,求解速度较快,在各个领域中都得到一定应用12-13和进一步的研究发展14-16。但 LSSVM 存在两个潜在的缺陷:一是解丢失了稀疏性17-18;二是损失函数中采用误差平方和度量损失,若训练数据中存在异常值以及误差不服从高斯分布时,LSSVM 的稳健性较差。为此,国内外许多学者针对稳健 LSSVM 进行了深入研究,增加 LSSVM 稳健性的方法主要分为四个方面19:基于异常值剔除技术改进、基于加权函数改进、基于 p-范数改进以及基于损失函数改进。用于回归的 LSSVM 问题一般称为最小二乘支持向量回归机(LS-SVR),基于 LS-SVR 对于非线性数据的适应性以及计算的简单性,Shim 和 Hwang20在 2015 年提出了利用 LS-SVR 技术拟合变系数模型的方法 VC-LS-SVR,给出了广义交叉验证法来选择算法中的超参数,并提供了构造估计系数函数置信区间的方法。该方法被证明估计系数函数的表现优于常用的局部多项式拟合方法,是一种简单且高效的新方法。由于该方法把 LS-SVR 直接应用于变系数模型,所以也具有其面对异常值不稳健的缺点,当存在异常值时,可能会导致系数函数的估计失效,因此,本文将在原始的 VC-LS-SVR 方法框架下,基于加权函数提出两种变系数模型的稳健最小二乘支持向量回归估计方法,预期在数据包含异常值时,两种稳健估计方法在估计系数函数方面比 VC-LS-SVR方法有更好的表现。最后还做了数值实验,以评估所提出方法在恢复真实回归系数曲线方面的稳健性,并对三种方法估计系数函数的性能进行了全面的比较。2 VC-LS-SVR 方法的介绍给定训练数据集 T=(ti,xi,yi)ni=1,其中 tiR 是光滑变量(ti可以是多维的,这里只讨论一维情况),协变量 xiRp,响应变量 yiR,i=1,2,n。考虑如下变系数模型yi=f(ti,xi)+(ti,xi)i=pj=1j(ti)xij+(ti,xi)i(1)其中 xij是 xi的第 j 个分量,j(),j=1,2,p 是需要估计的未知系数函数,Var(yi)=2(ti,xi)0,i是均值为 0、方差为 1 的独立同分布的随机变量。现若假定回归系数 j(ti)与光滑变量 ti是非线性相关的,有 j(ti)=wtj(ti)+bj,j=1,2,p,其中 wj是一个与特征映射(ti)维度相对应的权重向量,()是非线性特征映射函数,该函数将输入空间映射到以隐式方式定义维度的较高维特征空间。在实际工作中,并不需要给定()的明确形式,而是利用输入空间中的核函数替代特征空间中的内积,即 K(ti,tj)=(ti)t(tj)。需要注意的是,核函数的选择需满足一定的条件21,在实践中,最常用的核函数有线性核、高斯核以及多项式核,其定义分别如下K(ti,tj)=ttitjK(ti,tj)=exp-ti-tj22|K(ti,tj)=(1+ttitj)d其中 0 和 d 是需预先指定的核参数。则式(1)中回归函数 f()可重写为f(ti,xi)=pj=1xij(wtj(ti)+bj)基于 LS-SVR 的思想,VC-LS-SVR 的优化问题可定义为min12pj=1wj2+2ni=1e2is.t.yi=pj=1xij(wtj(ti)+bj)+ei,i=1,2,n其中 为正则化参数,ei是独立同分布的随机变量(均值为0,方差 Var(e)。通过构造拉格朗日函数和 KKT 最优条件求解该优化问题,结果由下列线性方程组给出:XXtK+1InXXtOpp|b|=Y0p1|(2)其中 X=(x1,x2,xn)t,Y=(y1,y2,yn)t,=(1,2,n)t,b=(b1,b2,bj)t,In表示一个维度为 n 的单位矩阵,Opp表示一个 p 维的零矩阵,0p1表示一个 p 维的零向量,K是由元素 Kij=K(ti,tj)构成的 nn 核矩阵,表示为点乘,即每个矩阵元素对应相乘。给定一个数据点(t0,x0),系数函数的 VC-LS-SVR 估计形式为j(t0)=ni=1xijK(t0,ti)i+bj,j=1,2,(3)对应的回归函数估计值为f(t0,x0)=pj=1x0j(ni=1xijK(t0,ti)i+bj)(4)3 变系数模型的稳健 LS-SVR 估计上节中提到的 VC-LS-SVR 方法将 LS-SVR 直接应用于变系数模型,因此也具有 LS-SVR 面对异常值不稳健的缺点,为了在之前的 VC-LS-SVR 解的基础上获得稳健估计,863在后续的讨论中,将利用 WLS-SVR22的思想,通过加权因子 vi对每个样本点的误差变量 ei=i/进行加权,则有如下优化问题min12pj=1wj2+2ni=1vie2is.t.yi=pj=1xij(wtj(ti)+bj)+ei,

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开