191计算机与图像技术Computer&MultimediaTechnology电子技术与软件工程ElectronicTechnology&SoftwareEngineering1引言近年来,强化学习算法正广泛应用在电力分配、网络通信、机器人控制领域,其基本原理是通过智能体与环境不断的交互产生评价性的反馈信号,并利用反馈信号不断改善智能体的策略,最终使智能体能够自主学习到适应环境的最优策略[1-4],在与环境的互动过程中,选择何种特征作为模型输入是一个关键问题,特征选择不当不仅会导致算法性能下降,在实际问题中,也会导致更多的成本。无用的特征反而会干扰算法判断,因此必须非常慎重地选择状态特征。目前,对于特征选择方面的研究主要包括三类:基于特征子集评价策略的特征选择算法[5-6]、基于搜索策略的特征选择算法[7-9]、基于不同监督信息的特征选择方法[10-12]。其中基于搜索策略的特征选择算法分为全局最优搜索策略、随机搜索策略以及序列搜索策略的特征选择算法。由于强化学习算法特征之间具有非线性关系,而且适应度函数计算耗时长,因此本文使用能兼顾效果和效率的基于随机搜索策略的特征选择方法。2基本思路本文提出一种基于改进型遗传算法,使用PPO算法作为适应度函数的特征选择方法,其中染色体为各特征的序列串,使用改进型遗传算法在特征空间进行搜索,将当前个体的特征作为PPO算法的输入特征与环境进行互动,进而得出当前个体综合得分作为适应度值。由于强化学习算法训练时间较长,因此为了加速特征的选择,需要提前截断训练过程,同时保证对特征有效性进行一定程度的选择,综合以上因此,设计了本文算法,伪代码如下:算法1本文算法伪代码输入:17种特征f1,f2,…f17超参数:种群数量N最大迭代次数T交叉概率Pc突变概率Pm输出:最优染色体序列C1Q1初始化,数量为N2使用适应度函数F对Q1进行评价,得到F(Q1,1)2循环t=2,3,…T3根据适应度选择父代染色体4根据Pc交叉染色体5根据Pm突变染色体6更新种群7使用F对Qt进行评价,得到F(Qt,t)8对每个染色体的适应度进行标记9结束10返回最优染色体序列CF(Q,t)为采用PPO算法的适应度评价函数,本文使用种群迭代次数t作为PPO算法训练的次数,具体流程如下:算法2评价函数伪代码输入:染色体序列Q种群迭代次数t超参数:minibatchsizeMactornumberNhorizonH输出:染色体序列适应度F(Q,t)1初始化模型参数θ;3循环iteration=1,2,…t4循环actor=1,2,…N5使用参数θ与环境交互H次6计算Advantage的估计,…,7结束8从NH个样本中,选择M次样本...