分享
基于蚁狮算法的元特征选择方法.pdf
下载文档

ID:3120199

大小:1.70MB

页数:12页

格式:PDF

时间:2024-01-21

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 算法 特征 选择 方法
第 卷第期 年月系统工程与电子技术 文章编号:()网址:收稿日期:;修回日期:;网络优先出版日期:。网络优先出版地址:基金项目:科技部科技创新 重大项目();国家自然科学基金();国家自然科学青年基金()资助课题通讯作者引用格式:李庚松,刘艺,郑奇斌,等基于蚁狮算法的元特征选择方法系统工程与电子技术,():犚犲 犳 犲 狉 犲 狀 犮 犲犳 狅 狉犿犪 狋:,():基于蚁狮算法的元特征选择方法李庚松,刘艺,郑奇斌,秦伟,李红梅,任小广,宋明武(国防科技创新研究院,北京 ;军事科学院,北京 ;天津(滨海)人工智能创新中心,天津 )摘要:为了提升基于元学习算法选择的性能,提出一种基于蚁狮算法的元特征选择方法。首先,通过鲁棒初始化机制构建初始种群,增强所选元特征子集的鲁棒性。其次,在个体解的搜索过程中应用动态边界策略,增加方法的种群多样性。然后,采用混沌映射变异策略,提升方法的寻优性能,给出方法伪代码并分析时间复杂度。最后,使用 个数据集、种元特征、种候选算法和种性能指标构建分类算法选择问题进行测试实验,分析方法的参数敏感性和机制策略效果,通过准确率、查准率、查全率和犉分数指标评估并对比方法性能,验证了所提方法的有效性和优越性。关键词:元特征选择;蚁狮优化算法;算法选择;元学习;分类中图分类号:文献标志码:犇犗犐:犕犲 狋 犪 犳 犲 犪 狋 狌 狉 犲狊 犲 犾 犲 犮 狋 犻 狅 狀犿犲 狋 犺 狅 犱犫 犪 狊 犲 犱狅 狀犪 狀 狋犾 犻 狅 狀狅 狆 狋 犻 犿 犻 狕 犪 狋 犻 狅 狀犪 犾 犵 狅 狉 犻 狋 犺犿 ,(犇犲 犳 犲 狀 狊 犲犐 狀 狀 狅 狏 犪 狋 犻 狅 狀犐 狀 狊 狋 犻 狋 狌 狋 犲,犅犲 犻 犼 犻 狀犵 ,犆犺 犻 狀 犪;犃犮 犪犱 犲犿狔狅 犳犕犻 犾 犻 狋 犪 狉 狔犛 犮 犻 犲 狀 犮 犲,犅犲 犻 犼 犻 狀犵 ,犆犺 犻 狀 犪;犜 犻 犪 狀 犼 犻 狀(犅 犻 狀 犺 犪 犻)犃狉 狋 犻 犳 犻 犮 犻 犪 犾犐 狀 狋 犲 犾 犾 犻 犵 犲 狀 犮 犲犐 狀 狀 狅 狏 犪 狋 犻 狅 狀犆 犲 狀 狋 犲 狉,犜 犻 犪 狀 犼 犻 狀 ,犆犺 犻 狀 犪)犃犫 狊 狋 狉 犪 犮 狋:,犉 ,犓犲 狔狑狅 狉 犱 狊:;();引言机器学习是数据分析和决策支撑的关键技术,广泛应用于科研、工业等领域。然而,“没有免费午餐”定理表明,不存在一个适用于所有问题的“最优”算法。因此,工程中常见的关键问题是如何从大量可行算法中为给定任务选 系统工程与电子技术第 卷择满足需求的合适算法,即算法选择问题。算法选择问题可以通过人工方法或自动方法解决。人工方法包括实验试错法和专家选择法,实验试错法通过实验获得候选算法的性能,根据应用需求选择合适的算法;专家选择法依赖领域专家经验进行算法选择。然而,实验试错法成本较高,专家选择法基于专家的经验知识,存在人为偏差,难以实现大规模应用。自动方法利用问题的抽象特征,通过设计模型实现算法选择过程的自动化,包括基于元学习的方法和基于协同过滤的方法。其中,基于元学习的方法具有计算开销低和灵活度高等优点,在故障诊断、图像分类、异常检测等领域得到了广泛应用。基于元学习的方法主要包括提取元特征、测度候选算法性能、训练算法选择模型等步骤,其中如何选择元特征是方法的关键问题。研究人员提出了多种元特征和元特征提取方法,在实际应用中取得了一定的效果。文献在分类数据集上提取了 种元特征,应用线性回归(,)学习元特征与算法性能的映射关系,通过预测候选算法的性能选择合适算法。文献 在提取使用 种元特征的基础上,采用随机森林回归(,)预测候选算法在新数据集上的性能。文献 选用 种元特征,应用支持向量回归(,)选择候选算法。文献 提取 种元特征,采用随机森林(,)构建元特征到最优算法的映射模型。文献 使用 种元特征,基于最近邻(,)训练映射模型,为新数据集选择最优算法。尽管当前方法能够有效解决算法选择问题,但是元特征的选用仍存在一些缺点:首先,多数研究采用固定的元特征,与问题的耦合度较高,可扩展性较弱;其次,现有的方法难以有效利用元特征的互补性。蚁狮优化(,)算法是一种受自然界中蚁狮捕食蚂蚁的行为机制启发所提出的新型演化算法。相较于其他演化算法,算法因其收敛速度快、参数设置少、寻优性能强、易于理解和实现等优点而备受青睐,被广泛应用于网络传输、污水处理、医学分析等诸多领域并取得了良好的效果 。为了有效利用元特征,进一步提升基于元学习算法选择的性能,提出基于的鲁棒元特征选择(,)方法。采用鲁棒初始化机制生成初始种群,增强所选元特征子集的鲁棒性;在搜索个体解的过程中,使用动态边界策略增加种群多样性;采用混沌映射变异策略,提升方法的全局搜索能力。以分类算法选择为测试问题,通过 个数据集、种元特征、种分类算法和种性能指标构建元数据集,在此基础上应用选择互补性较强的元特征;分析混沌映射变异策略的参数敏感性,对采用的机制和策略效果进行验证;使用准确率、查准率、查全率、犉分数指标对比评估方法的性能,验证的有效性及优越性。相关概念 基于元学习的算法选择 基于元学习的算法选择框架基于元学习算法选择框架如图所示 。图基于元学习的算法选择框架 框架的具体流程如下所述:首先提取历史数据集的元特征,获取各候选算法在历史数据集上的算法性能;然后以元特征为属性,以算法性能或最优算法为标签构建元数据集;最后,应用元算法在元数据集上进行训练,获得元模型。对于新数据集,提取其元特征作为元模型的输入,元模型对最优算法或各候选算法的性能进行预测,根据预测结果确定并输出最优算法。元特征类型根据反映数据集特性的不同,元特征可以分为类:基于统计和信息论的元特征、基于模型的元特征、基于基准的元特征和基于问题复杂度的元特征。基于统计和信息论的元特征采用统计学和信息论的方法抽取数据集的信息,从数据集、数值类型属性和枚举类型属性等方面描述数据集特性,包括整体统计特征、属性统计特征和属性信息熵特征。该类型元特征应用较为广泛,提取过程较为简单,然而其难以较好地刻画数据集特性。基于模型的元特征将数据集映射为决策树模型,使用模型的结构信息作为元特征,能够较好地反映数据集的整体特性,但提取成本高昂。基于基准的元特征将运行快速且易于实现的算法,即基准算法在数据集上的性能指标值作为元特征。该类型元特征的提取方法相对简单,能够反映数据集对不同类型算法的偏好,然而其计算开销较高。基于问题复杂度的元特征从类重叠、类不平衡、数据稀疏度等方面对数据集的几何复杂度进行量化评估。这第期李庚松等:基于蚁狮算法的元特征选择方法 一类型的元特征反映了求解问题的困难程度,在研究中的应用效果较好,但是其计算复杂度较大。犃犔犗算法算法采用随机游走、轮盘赌和精英策略完成个体解的搜索更新,具体包含如下个步骤:蚁狮随机在解空间中布置陷阱,选择其中适应度最优的个体为精英蚁狮;蚂蚁根据蚁狮的适应度通过轮盘赌选择一个蚁狮,围绕该蚁狮和精英蚁狮进行随机游走搜索较优解;蚁狮逐渐缩小陷阱限制蚂蚁的游走范围;蚁狮捕食蚂蚁并更新位置;蚁狮在新位置布置陷阱,更新精英蚁狮。蚂蚁随机游走方法如下所示:犡(狋),(狉(狋),(狉(狋),(狉(狋犜)()式中:狋为当前迭代次数;犜为最大迭代次数;犡(狋)表示随机游走位置;()表示随机游走步长的累加和;狉()为随机游走步长的生成函数,其计算如下所示:狉(狋),烅烄烆()式中:表示位于(,)之间的随机数。在随机游走过程中,蚂蚁的游走范围逐渐缩小,如下所示:犮狋犮犐犱狋犱烅烄烆犐()式中:犮和犱表示个体各维度值的上界和下界;犮狋和犱狋分别表示第狋次迭代中蚂蚁各维度值搜索范围的上界和下界;犐的计算如下所示:犐 狑狋犜()式中:狑的值取决于当前迭代数狋,狋 犜时,狑;狋 犜时,狑;狋 犜则狑;狋 犜则狑;当狋 犜时,狑;当狋 犜时,狑,从而使得 狑呈现分段指数递增趋势。是一种连续优化算法,而元特征选择是一种离散优化问题。为了应用算法进行元特征选择,将个体各维度值的搜索上界和下界设置为和,通过设置阈值使其离散化。具体地,算法对种群进行随机初始化,如下所示:犃犻 ()式中:犃犻为个体第犻维的编码值,反映第犻维元特征的选择状态。为了避免引入元特征的选择概率偏差,本文设置元特征选择阈值为,当犃犻 时,表示选择第犻个元特征;当犃犻 时,表示该元特征未被选择。将元数据集输入算法后,其根据元特征数确定维度数,生成初始个体;随后迭代搜索算法选择性能较优的个体;在迭代终止时,输出精英蚁狮选择的元特征子集及其算法选择性能。犚犕犃方法 鲁棒初始化机制由于元数据集是对原始数据采样构成的数据集,存在一定的偏差,因此需要考虑元特征选择的鲁棒性,即在元数据集分布存在微小扰动的情况下,能够生成相同或相似的元特征子集。通过提升元特征选择的鲁棒性,选择重要性较高的元特征,从而提高方法的泛化性能。通过使用不同数据抽样策略和元特征排序方法获得多样化的元特征排序,然后集成各元特征排序生成鲁棒元特征排序,并将其用于指导种群的初始化过程,从而提升所选元特征子集的鲁棒性。鲁棒元特征排序的生成方法如图所示,从犓折划分法、自助法、随机过采样和随机欠采样种方法中随机选择一种方法对元数据集进行抽样,生成抽样样本;在抽样样本上从检验法、卡方检验法和信息增益法种方法中随机选择一种方法对元特征的重要性进行评估,根据评估得分对元特征进行排序。最后对多个元特征排序进行集成,即对元特征在每个排序列表中的位置进行记录,采用位置的中值作为该元特征的最终位置(中值相同的元特征按照在元数据集中的出现顺序进行排序),得到鲁棒元特征排序。图鲁棒元特征排序生成方法 首先对种群进行随机初始化,然后基于鲁棒元特征排序,生成个体维度编码值的缩放倍率,如下所示:犣犻犾(犇犚犻)(狌犾)犇()式中:犣犻为个体第犻维编码值的缩放倍率;犚犻为第犻维元特征在鲁棒元特征排序中的排序位置;犾和狌为缩放倍率的最小值和最大值;犇为个体维度数。根据缩放倍率对个体维度值进行更新,调整个体对元特征的选择概率,如下所示:犃犻犃犻犣犻()式中:犃犻为更新后的个体第犻维编码值。本文设置式中的犾位于(,),狌位于(,)。可以看出,当第犻维元特征位于鲁棒元特征排序中靠前(或靠后)的排序位置时,犃犻被较大幅度地放大(或缩小);当其位于中间排序位置时,犃犻的变化幅度较小。通过这种方式,使得重要性较高的元特征更容易被选择,提升方法的泛化性能。综上,鲁棒初始化机制如算法所示。系统工程与电子技术第 卷算法鲁棒初始化机制伪代码输入:划分数犓,抽样规模的最大值犛犿和最小值犛狀,抽样次数犆犫,犆狅,犆狌。输出:鲁棒初始化种群 开始 将元数据集划分为犓份,对每份抽样样本随机采用一种方法生成元特征排序;根据犛犿和犛狀,对元数据集重复犆犫次自助法抽样,每个抽样随机选择一种方法生成元特征排序;对元数据集进行随机过采样,随机选择一种方法在抽样上生成元特征排序,重复该过程犆狅次;对元数据集进行随机欠采样,随机选择一种方法在抽样上生成元特征排序,重复该过程犆狌次;对上述过程中生成的多个元特征排序,通过集成得到鲁棒元特征排序;对种群进行随机初始化;利用鲁棒元特征排序和式()生成缩放倍率,通过缩放倍率和式()对种群中的个体维度值进行缩放更新,得到鲁棒初始化种群;结束 动态边界策略算法中每只蚂蚁随机游走的搜索边界变化过程相同,导致种群多样性较弱,为了增加方法的种群多样性,提出动态边界策略,对式()进行改进,如下所示:犮狋犮犐犜狋()烄烆烌烎犱狋犱犐犜狋()烄烆烌烎烅烄烆()从式()可以看出,随着迭代次数增加,犐值呈现分段递增趋势,搜索边界犮狋和犱狋与犐值成反比,呈现分段递减趋势;而在式()中,(犜狋)在(,)随着迭代次数增加呈现非线性递减趋势,()为位于(,)的随机值,使得犲(犜狋)()在(,)呈现具备一定随机性的非线性递减趋势。图给出了算法与随机游走的搜索边界变化过程。通过应用动态边界策略,蚂蚁保持搜索边界变化的整体递减趋势不变,在此基础上引入了一定的随机性,扩大了蚂蚁个体间的差异,从而增加了的种群多样性。图搜索边界变化过程 混沌映射变异策略针对算法易陷入局部最优的问题,引入混沌映射变异操作,提升方法的全局寻优能力。首先选择变异蚁狮种群;然后通过精英蚁狮编码值更新变异阈值向量;根据变异阈值向量对变异个体的维度值进行离散化的变异转换;最后通过混沌映射将离散化的维度值映射到连续域中,在保持变异效果的同时使得维度值的分布具有一定的随机性,提高变异蚁狮的种群多样性。具体流程如下所述。根据变异种群比例狆,从犖个蚁狮中选择犕犖狆个适应度值位于中间部分的蚁狮进行变异,该部分蚁狮具有较好的寻优潜力,通过变异操作能够以较大概率产生更好的个体。变异种群选择方法如图所示。图变异种群选择方法 每次迭代更新精英蚁狮后,记录其编码值,利用历史精英蚁狮和当前精英蚁狮的编码值更新变异阈值向量,如下所示:犞狋犻犈犻狋犻犿犈犿犻狋()式中:犞狋犻表示第狋次迭代变异阈值向量的第犻个阈值,计算得到的犞狋犻值位于(,);犈犻表示初始化精英蚁狮的第犻维编码值;犈犿犻表示第犿次迭代精英蚁狮的第犻维编码值。根据变异阈值向量,对第狋次迭代选中的变异个体编码值进行离散化的变异更新,如下所示:第期李庚松等:基于蚁狮算法的元特征选择方法 犕狋 犻犑(犕狋犻),犞狋犻犑(犕狋犻),犞烅烄烆狋犻()式中:犕狋犻为第狋次迭代中,变异蚁狮个体第犻维的编码值;犕狋 犻为变异更新后的编码值;犑()为离散化转换函数,其计算方法如下所示:犑(犕狋犻),犕狋犻,犕狋犻烅烄烆()函数值为表示选择第犻维元特征。通过式()式()可以看出,变异阈值犞狋犻越大,个体第犻维编码值发生变异的概率越小。上述过程中,变异蚁狮在向精英蚁狮靠拢的基础上,改变了部分编码值使得所选择的元特征子集发生变化,从而扩大个体的搜索范围,提升方法的全局寻优能力。由于混沌映射能够产生具有较好随机性分布的值,这里利用 混沌映射转换编码值,保留变异效果并使变异个体随机分布在连续域的解空间,如下所示:犕狋 犻 犝,犕狋 犻犝,犕狋 犻烅烄烆()式中:犕狋 犻表示映射转换后的编码值;犝表示通过 混沌映射产生的位于(,)的值,其计算如下所示:犝狓犺 狓犺()式中:狓犺不为且犺犣。完成上述变异和混沌映射操作后,将变异蚁狮加入到蚁狮种群,从中选择适应度值最优的犖个蚁狮构成下次迭代的蚁狮种群。方法整体描述的伪代码如算法所示。算法伪代码输入:元数据集、最大迭代次数犜、种群个体数犖、变异种群比例狆输出:元特征子集及其算法选择性能 开始 根据元数据集的元特征数确定个体维度数;使用鲁棒初始化机制初始化犖个蚁狮和蚂蚁,计算蚁狮的适应度值并从中选择最优的个体作为精英蚁狮;(未达到最大迭代次数犜)蚂蚁犪:犖 通过轮盘赌选择一个蚁狮;蚂蚁根据式()围绕选择的蚁狮和精英蚁狮进行动态边界策略的随机游走,更新蚂蚁的位置;计算所有蚂蚁的适应度值,如果蚂蚁的适应度值优于选择的蚁狮,则将蚁狮的位置更新为蚂蚁的位置;根据狆选择变异种群,更新精英蚁狮并记录其编码值,通过式()更新变异阈值向量;根据式()式()对变异蚁狮进行混沌映射变异操作后,将变异蚁狮加入至蚁狮种群,从中选出犖个适应度值最优的蚁狮进入下轮迭代;输出精英蚁狮选择的元特征子集和算法选择性能;结束现对的时间复杂度进行分析:设元数据集含有犢个元特征,设方法的种群规模为犖,最大迭代次数为犜,变异种群比例为狆,种元特征排序方法的时间复杂度均为犗(犢),可得鲁棒初始化机制的时间复杂度为犗(犢(犓犆犫犆狌犆狅);蚂蚁随机游走的时间复杂度为犗(犢犜犖),混沌映射变异策略的时间复杂度为犗(犢犜犖狆);综上所述,可得出方法整体的时间复杂度为犗(犢(犓犆犫犆狌犆狅犜犖(狆)。实验与结果分析 实验设置 数据集由于分类算法应用的广泛性,通过分类算法选择问题进行评估实验。为了综合度量方法的性能,实验使用来自 、和 的 个分类数据集,这些数据集的数据来源领域各异,实例数从 到 不等,属性数从到 不等,具有一定的差异性,构成多样化的数据集,从而能够有效评估方法的性能。实验数据集信息如表所示。表实验数据集信息犜 犪 犫 犾 犲犐 狀 犳 狅 狉犿犪 狋 犻 狅 狀狅 犳犲 狓 狆 犲 狉 犻 犿犲 狀 狋犱 犪 狋 犪 狊 犲 狋 狊序号数据集名称属性数实例数类数序号数据集名称属性数实例数类数 系统工程与电子技术第 卷续表犆狅 狀 狋 犻 狀 狌 犲 犱犜 犪 犫 犾 犲序号数据集名称属性数实例数类数序号数据集名称属性数实例数类数 第期李庚松等:基于蚁狮算法的元特征选择方法 续表犆狅 狀 狋 犻 狀 狌 犲 犱犜 犪 犫 犾 犲序号数据集名称属性数实例数类数序号数据集名称属性数实例数类数 元特征通过元特征提取工具提取常用的种分类数据集元特征,包括种基于统计和信息论的元特征、种基于模型的元特征、种基于基准的元特征和种基于问题复杂度的元特征。元特征信息如表所示。表元特征信息犜 犪 犫 犾 犲犐 狀 犳 狅 狉犿犪 狋 犻 狅 狀狅 犳犿犲 狋 犪 犳 犲 犪 狋 狌 狉 犲 狊元特征类型元特征名称基于统计和信息论的元特征 、基于模型的元特征 、基于基准的元特征 、基于问题复杂度的元特征、候选分类算法实验使用种候选分类算法,包括、支持向量机(,)、逻辑回归(,)、朴素贝叶斯(,)、线性判别分析(,)、决策树和多层感知机(,)。上述候选算法均使用 机器学习平台中的默认参数设置。候选算法性能测度使用准确率、查准率、查全率、犉分数和()指标多方面比较候选算法的性能。二分类问题包括种分类结果:真正例(,),表示正例被正确分类的数量;真反例(,),表示反例被正确分类的数量;假正例(,),表示反例被错误分类的数量;假反例(,),表示正例被错误分类的数量。基于上述分类结果计算准确率、查准率、查全率和犉分数指标值,分别如下所示:()()()犉()综合考虑算法的运行时间和准确率,其计算如下所示:系统工程与电子技术第 卷犪狆,犪狇 犪狆 犪狇 犪狆 犪狇()式中:犪狆和犪狇分别表示候选算法狆和狇;和 表示算法在数据集上的准确率和运行时间;为用于调整准确率和运行时间相对重要程度的可变参数。实验中的值取、和 ,以获得较为全面的算法性能比较结果。通过次 折交叉验证获取候选算法在各数据集上的性能指标值,对指标值进行比较从而确定数据集的最优算法,将最优算法作为标签与元特征结合,构建相应性能指标的元数据集。采用、和犉分别表示通过准确率、查准率、查全率和犉分数指标构建的元数据集;在指标上,使用犃、犃和犃分别表示指标的参数值取、和 时生成的元数据集。值得注意的是,使用回归元算法时,需要为各候选算法构建单独的元数据集,训练元模型预测算法性能指标值,比较各候选算法的预测指标值进而选择最优算法。设置参数较少且易于实现,是应用较为广泛的元算法。本文以为元算法,应用进行元特征选择,验证的有效性。研究表明的距离度量采用欧氏距离,犽值取元数据集实例数的 时,其表现更好,。经过测试,本文设置犽值为,距离度量采用以距离倒数为权重的加权欧式距离,可获得较优性能。此外,设置的种群个体数犖、最大迭代次数犜 。对比方法采用的对比算法选择方法包括、基于包裹式元特征选择方法的(,)、和。其中,的参数设置与第 节一致,其他方法均采用 中的默认参数设置。元数据集分析对构建的个元数据集进行分析,候选算法在各元数据集中的胜出次数如表所示。表候选算法胜出次数犜 犪 犫 犾 犲犠犻 狀狋 犻 犿犲 狊狅 犳狋 犺 犲犮 犪 狀 犱 犻 犱 犪 狋 犲犪 犾 犵 狅 狉 犻 狋 犺犿狊候选算法 犉犃犃犃 从表可以看出,候选算法仅在犃元数据集中的胜出次数较少,可见其具有优越的分类性能,但是运行时间是其较为明显的短板。与相对的是和,得益于算法较快的运行速度,其在指标上具备一定优势,但其分类性能较差。因此,随着值的减小,运行时间的重要性降低,两种候选算法在指标元数据集中的胜出次数减少。相较于和,的分类性能略优但时间开销更高,在个指标上的表现较为平庸。的分类性能较优且具有合适的时间开销,在个指标上均取得了较好结果。和 展现了较好的分类性能,另一方面,两种候选算法在指标的元数据集中也取得了较多次数的胜出,说明其在运行时间和准确率两方面较为均衡。的分类性能具有一定优势,但其在各数据集上的运行时间较长,因此算法在指标的元数据集中取得的胜出次数较少。参数敏感性分析的一个重要参数是变异种群比例狆,本节通过对比实验,分析方法对该参数的敏感性。研究人员通常更关注算法选择方法能否正确预测最优算法,即方法的准确率,因此,使用准确率作为性能指标,通过次折交叉验证计算指标值。狆值分别取、,、和,其他参数与第 节保持一致,对方法独立运行 次的平均结果进行比较,结果如表所示。表不同变异种群比例准确率比较犜 犪 犫 犾 犲犆狅犿狆 犪 狉 犻 狊 狅 狀狅 犳犪 犮 犮 狌 狉 犪 犮 狔狑 犻 狋 犺犱 犻 犳 犳 犲 狉 犲 狀 狋犿狌 狋 犪 狋 犻 狅 狀狆 狅 狆 狌 犾 犪 狋 犻 狅 狀狆 狉 狅 狆 狅 狉 狋 犻 狅 狀变异比例元数据集 犉犃犃犃 从表可以看出,变异种群比例对方法准确率的影响呈现一定变化趋势。以狆值取为对比,当狆值大于时,大部分蚁狮参与变异向精英蚁狮靠拢,使得蚁狮种群在解空间中的分布性降低,可能导致方法过早收敛,限制了方法的全局寻优能力,降低了方法性能;当狆值小于时,少量的变异蚁狮难以充分发挥混沌映射变异策略的优势,方法的泛化性能相对减弱。另一方面,当狆值分别取、和时,方法在测试环境的运行时间分别为 、和 。综合准确率和运行时间结果,在上述取值中,狆值取或时方法具有较优的算法选择性能和合适的时间开销。机制和策略效果验证为验证中不同机制策略的应用效果,将与算法进行对比。两种方法独立运行 次,通过次折交叉验证计算准确率、查准率、查全率和犉分数指标第期李庚松等:基于蚁狮算法的元特征选择方法 值,取运行结果的均值进行比较。其中,的变异种群比例狆取,其他参数与第 节一致,算法的参数设置与相同。图给出了与算法在各元数据集上性能指标值随迭代次数变化的比较结果。其中,犚、犚 、犚 和犚 犉表示的准确率、查准率、查全率和犉性能指标值;类似的,犃 、犃 、犃 和犃犉分别表示算法的上述性能指标值。图与算法在各元数据集上的性能比较结果 对比分析图中的迭代曲线可以发现,使用鲁棒初始化机制后,初始化精英蚁狮的适应度优于算法;在迭代前期,的动态边界策略增加了方法种群多样性,使其收敛速度略优于算法;在后期迭代中,算法常陷入局部最优,而的混沌映射变异策略提升了方法的全局搜索能力,使方法能够跳出局部最优,发现比算法更好的最优解;迭代终止时,与算法相比,可以产生适应度值更优的精英蚁狮,得到更好的元特征子集。下面评估方法的运行开销,以算法的运行时间作为基准,对的运行时间进行归一化处理,结果如表所示。系统工程与电子技术第 卷表犚犕犃和犃犔犗算法的相对运行时间犜 犪 犫 犾 犲犚犲 犾 犪 狋 犻 狏 犲狉 狌 狀 狀 犻 狀 犵狋 犻 犿犲狅 犳犚犕犃犪 狀 犱犃犔犗犪 犾 犵 狅 狉 犻 狋 犺犿元数据集性能指标准确率查准率查全率犉分数 犉 犃 犃 犃 从表中可以看出,在机制和策略的影响下,运行的开销更高,但是最高仅增加了 的运行时间。根据第 节对时间复杂度的分析,其计算开销相对于算法增加的主要原因在于执行了混沌映射变异策略,这也是下一步可以深入优化的部分。综上,具备更强的探索全局最优解的能力,同时具有合适的计算开销,说明所提出的机制和策略能有效增强方法的寻优性能。实验结果分析下面通过实验对比评估的性能。使用准确率、查准率、查全率和犉分数指标,通过次折交叉验证计算和对比方法的性能指标值,实验中的变异种群比例狆取,其他参数不变,取方法独立运行 次的平均结果进行比较。表表展示了各方法在种性能指标上的比较结果。表准确率比较犜 犪 犫 犾 犲犆狅犿狆 犪 狉 犻 狊 狅 狀狉 犲 狊 狌 犾 狋 狊狅 犳犪 犮 犮 狌 狉 犪 犮 狔元数据集 犉 犃 犃 犃 表查准率比较犜 犪 犫 犾 犲犆狅犿狆 犪 狉 犻 狊 狅 狀狉 犲 狊 狌 犾 狋 狊狅 犳狆 狉 犲 犮 犻 狊 犻 狅 狀元数据集 犉 犃 犃 犃 表查全率比较犜 犪 犫 犾 犲犆狅犿狆 犪 狉 犻 狊 狅 狀狉 犲 狊 狌 犾 狋 狊狅 犳狉 犲 犮 犪 犾 犾元数据集 犉 犃 犃 犃 表犉分数比较犜 犪 犫 犾 犲犆狅犿狆 犪 狉 犻 狊 狅 狀狉 犲 狊 狌 犾 狋 狊狅 犳犉狊 犮 狅 狉 犲元数据集 犉 犃 犃 犃 分析表内容发现,在各元数据集上,相较于平均提升了 的准确率,与准确率较高的相比,具有 的平均性能优势,说明具备一定的有效性。观察表查准率,在除以外的方法中,在个元数据集上均取得了较好表现。在各元数据集上的查准率性能均明显优于,达到 的平均性能差距,与相比平均提升了 的查准率,验证了对查准率指标的良好应用效果。表中,在各元数据集上的查全率性能差异较小,较为稳定,其相较于表现较好的有着 的平均性能优势,相较于则平均提升了 的查全率,证明了在查全率指标上的有效性。对表进行分析,与相比平均提升了 的犉分数,与相比平均领先了 的性能,在个元数据集上均取得了最优结果,证明了在犉分数指标上的优越性能。另外值得注意的是,对于查准率、查全率和犉分数指标,在各元数据集上的平均性能优于;而对于准确率指标,的平均性能劣于。可见使用的包裹式元特征选择方法应用效果较弱,其原因在于,该方法的优化目标为降低对算法性能的预测误差,与算法选择目标之间存在一定偏差。综上所述,使用全部 种元特征时,的性能较低,而通过进行元特征选择后,其在不同指标上均取得了较大的性能提升,在各元数据集上获得了最好的性能评估结果,证明了的有效性和优越性。结论为提升基于元学习的算法选择性能,提出基于算第期李庚松等:基于蚁狮算法的元特征选择方法 法的方法。采用鲁棒初始化机制进行种群初始化,增强所选元特征子集的鲁棒性;使用动态边界策略,增加种群多样性;通过混沌映射变异策略,提升方法的寻优性能。结果显示,在测试环境下,应用进行元特征选择后,性能在准确率指标上平均提升了 ,在查准率指标上平均提升了 ,在查全率指标上平均提升了 ,在犉分数指标上平均提升了 ,优于其他对比方法,证明了的有效性和优越性。在后续研究中,将通过并行计算方法,降低的运行时间。另一方面,将增加候选算法和实验数据集,进一步扩充元数据集,提升方法的可扩展性,满足更复杂的算法选择需求。参考文献,:,:,:,:,():,:,():,:,:李睿峰,许爱强,孙伟超,等基于元学习的航空电子设备特征选择算法推荐方法系统工程与电子技术,():,():,:,:,:,:,:,():,:,:,:,:,:,:,():,:,:,:曾子林,张宏军,张睿,等基于元学习思想的算法选择问题综述控制与决策,():,():,:,:,():,?:李郅琴,杜建强,聂斌,等特征选择方法综述计算机工程与应用,():,():,():系统工程与电子技术第 卷 ,:,:,:,():,:,():,:,:,:,:李洪奇,徐青松,朱丽萍,等基于数据集相似性的分类算法推荐计算机应用与软件,():,():作者简介李庚松(),男,硕士,主要研究方向为算法选择、大数据技术。刘艺(),男,助理研究员,博士,主要研究方向为机器人操作系统、大数据技术、演化算法。郑奇斌(),男,助理研究员,博士,主要研究方向为数据工程、数据挖掘、机器学习。秦伟(),男,助理研究员,硕士,主要研究方向为智能信息系统管理。李红梅(),女,助理研究员,博士,主要研究方向为个性化推荐。任小广(),男,副研究员,博士,主要研究方向为机器人操作系统、高性能计算、数值计算和模拟。宋明武(),男,工程师,主要研究方向为人工智能。

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开