分享
迭代修正鲁棒极限学习机_吕新伟.pdf
下载文档

ID:2398081

大小:1.64MB

页数:7页

格式:PDF

时间:2023-05-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
修正 极限 学习机 吕新伟
2023-05-10计算机应用,Journal of Computer Applications2023,43(5):1342-1348ISSN 1001-9081CODEN JYIIDUhttp:/迭代修正鲁棒极限学习机吕新伟1,2,鲁淑霞1,2*(1.河北省机器学习与计算智能重点实验室(河北大学),河北 保定 071002;2.河北大学 数学与信息科学学院,河北 保定 071002)(通信作者电子邮箱)摘要:极限学习机(ELM)的许多变体都致力于提高ELM对异常点的鲁棒性,而传统的鲁棒极限学习机(RELM)对异常点非常敏感,如何处理数据中的过多极端异常点变成构建RELM模型的棘手问题。对于残差较大的异常点,采用有界损失函数消除异常点对模型的污染;为了解决异常点过多的问题,采用迭代修正技术修改数据以降低由异常点过多带来的影响。结合这两种方法,提出迭代修正鲁棒极限学习机(IMRELM)。IMRELM通过迭代的方式求解,在每次的迭代中,通过对样本重加权减小异常点的影响,在不断修正的过程中避免算法出现欠拟合。在具有不同异常点水平的人工数据集和真实数据集上对比了IMRELM、ELM、加权极限学习机(WELM)、迭代重加权极限学习机(IRWELM)和迭代重加权正则化极限学习机(IRRELM)。在异常点占比为80%的人工数据集上,IRRELM的均方误差(MSE)为2.450 44,而IMRELM的MSE为0.000 79。实验结果表明,IMRELM在具有过多极端异常点的数据上具有良好的预测精度和鲁棒性。关键词:鲁棒极限学习机;重加权;迭代修正;异常点;回归中图分类号:TP181;TP391 文献标志码:AIteratively modified robust extreme learning machineLYU Xinwei1,2,LU Shuxia1,2*(1.Hebei Key Laboratory of Machine Learning and Computational Intelligence(Hebei University),Baoding Hebei 071002,China;2.College of Mathematics and Information Science,Hebei University,Baoding Hebei 071002,China)Abstract:Many variations of Extreme Learning Machine(ELM)aim at improving the robustness of ELMs to outliers,while the traditional Robust Extreme Learning Machine(RELM)is very sensitive to outliers.How to deal with too many extreme outliers in the data becomes the most difficult problem for constructing RELM models.For outliers with large residuals,a bounded loss function was used to eliminate the pollution of outliers to the model;to solve the problem of excessive outliers,iterative modification technique was used to modify data to reduce the influence caused by excessive outliers.Combining these two approaches,an Iteratively Modified RELM(IMRELM)was proposed and it was solved by iteration.In each iteration,the samples were reweighted to reduce the influence of outliers and the under-fitting was avoided in the process of continuous modification.IMRELM,ELM,Weighted ELM(WELM),Iteratively Re-Weighted ELM(IRWELM)and Iterative Reweighted Regularized ELM(IRRELM)were compared on synthetic datasets and real datasets with different outlier levels.On the synthetic dataset with 80%outliers,the Mean-Square Error(MSE)of IRRELM is 2.450 44,and the MSE of IMRELM is 0.000 79.Experimental results show that IMRELM has good prediction accuracy and robustness on data with excessive extreme outliers.Key words:Robust Extreme Learning Machine(RELM);reweighting;iterative modification;outlier;regression0 引言 极限学习机(Extreme Learning Machine,ELM)自提出以来,已经成功应用于各种实际问题1-5,成为广泛使用的机器学习工具之一。ELM主要依赖于给定的训练数据标签,如基于 L2范数损失函数的 ELM6假设训练标签的误差是一个正态分布;然而,实际问题中的训练样本不能保证误差具有正态分布。此外,ELM往往过分强调训练过程中残差较大的异常点,导致ELM对异常点的敏感性和鲁棒性较差。因此,构造能够抑制异常点影响的鲁棒极限学习机(Robust ELM,RELM)模型,在机器学习中是必要和有意义的。ELM 的许多变体都致力于提高 ELM 对异常点的鲁棒性。引入正则化的极限学习机7-9通过在最小化目标函数中添 加 正 则 化 项 以 减 小 结 构 风 险,如 加 权 极 限 学 习 机(Weighted ELM,WELM)10和鲁棒极限学习机(RELM)11为训练样本分配适当的权值,但它们的性能在很大程度上依赖于权重估计的初始值。Chen等12基于正则化项和损失函数的多种组合设计了迭代重加权极限学习机(Iteratively Re-Weighted ELM,IRWELM),并通过迭代加权算法实现。最近的一些研究则通过替换损失函数来增强极限学习机的鲁棒文章编号:1001-9081(2023)05-1342-07DOI:10.11772/j.issn.1001-9081.2022030429收稿日期:2022-03-17;修回日期:2023-02-03;录用日期:2023-02-06。基金项目:河北省自然科学基金资助项目(F2021201020)。作者简介:吕新伟(1997),男,山东济宁人,硕士研究生,主要研究方向:机器学习;鲁淑霞(1966),女,河北保定人,教授,博士,CCF会员,主要研究方向:机器学习、深度学习。第 5 期吕新伟等:迭代修正鲁棒极限学习机性,例如使用 Huber损失函数13、L1范数损失函数14以及各损失函数的变体15-16等实现鲁棒极限学习机,以减少异常点的影响;但它们仍然不够稳健,因为这些损失函数受到残差较大的异常点的影响。具有相关熵损失函数17和重标极差损失函数18的极限学习机改进版本倾向于构造有界和非凸损失函数,以提高对异常点的鲁棒性。尽管这些损失函数具有良好的学习性能,但是求解该优化问题的方法过于复杂。有界的损失函数可以抑制残差较大异常点的影响,迭代重加权正则化极限学习机(Iterative Reweighted Regularized ELM,IRRELM)19通过有界的L2范数损失函数抑制较大异常点的负面影响;但过多的异常点反过来会影响损失函数对异常点的判定,影响回归结果。因此本文在有界L2范数损失函数的基础上使用迭代修正方法,提出了一种用于回归估计的鲁棒极限学习机,以抑制异常点的负面影响,采用迭代加权算法求解鲁棒极限学习机。在每次迭代中,为本轮认为是异常点的标签重新赋值,并在每次迭代的过程中逐渐去除异常点的影响,增强极限学习机的鲁棒性。本文的主要工作包括:为减小极端异常点的影响,采用了有界损失函数,并在有界损失函数的基础上提出了迭代修正鲁棒极限学习机(Iteratively Modified RELM,IMRELM),让这些残差较大的异常点在迭代的过程中找到正确的标签。实验结果表明,当数据中的异常点数过多且残差较大时,本文IMRELM的结果优于对比的几种鲁棒极限学习机算法。1 相关工作 1.1极限学习机假设有 N 个任意样本(xi,yi)Ni=1,其中:xi Rd为输入变量;yi R是回归估计中相应的目标。ELM是一个单隐层神经网络,具有L个神经元的ELM的输出函数可以表示为:f(x)=i=1Lhi(x)i=h(x)(1)其 中:=1,2,LT为 ELM 输 出 权 重;h(x)=h1(x),h2(x),hL(x)为隐含层矩阵;f(x)为回归估计中相应的目标预测值。ELM求解以下优化问题来推导输出权重:min 122+C2i=1Nei2(2)s.t.h(xi)=yi-ei;i=1,2,N其中:ei是训练误差;C是平衡模型复杂度的正则化参数。基于最优性条件,得到式(2)的最优解:=|()HTH+IC-1Hy,N LHT()HHT+IC-1y,N (4)其中:z是一个变量;是一个常数,是对大异常点的惩罚。g(z)的上界意味着损失在一定值后不会增加惩罚,并且它抑制了异常点的影响。IRRELM的优化模型为:min 122+C2i=1Ng(ei)(5)s.t.h(xi)=yi-ei;i=1,2,N在迭代重加权中,每个样本的权重通过残差由下式给出:wi=|1,|ei 0,|ei(6)IRRELM的第k次迭代解为:k=|()HTwkH+IC-1Hwky,N LHT()HwkHT+IC-1wky,N kmax或者k-k-1 kmax或者k-k-1 p,停止迭代;5)k=k+1,重复2)5)步。3 实验与结果分析 为了研究IMRELM的有效性,在人工数据集和真实数据集上进行了数值实验。通过10次交叉验证和网格搜索方法选择实验参数。所有上述算法选择的参数的范围如下:参数kmax:10i,i=2,3,4,停止阈值 p:10i,i=-5,-4,1,2,正则化参数C1、C2:10i,i=-5,-4,4,5。所有的实验都在3.40 GHz的机器上使用Pycharm 2019进行。比较算法是极限学习机(ELM)和一些鲁棒极限学习机,包括加权极限学习机(WELM)、迭代重加权极限学习机(IRWELM)和迭代重加权正则化极限学习机(IRRELM)。在实验中,使用sigmoid激活函数g(x)=1/(1+exp(-x)。迭代加权的算法中的迭代次数为 200,采用均方误差(Mean-Square Error,MSE)作为估计标准:RMSE=1Ni=1N(yi-f(xi)2(12)其中:N是测试集的数量;yi、f(xi)分别是真实值和相应的预测值。通常,均方误差越小,方法的性能越好。3.1IMRELM在人工数据集上的实验在不同异常点水平的人工数据集上进行实验,结果给出了IMRELM算法和其他算法的实验结果,并通过统计测试比较了这些算法的性能。人工数据集来源于回归问题中广泛使用的函数,

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开