谨请参阅尾页重要声明及华泰证券股票和行业评级标准1证券研究报告金工研究/深度研究2019年06月10日林晓明执业证书编号:S0570516010001研究员0755-82080134linxiaoming@htsc.com陈烨执业证书编号:S0570518080004研究员010-56793942chenye@htsc.com李子钰0755-23987436联系人liziyu@htsc.com何康021-28972039联系人hekang@htsc.com1《金工:华泰单因子测试之海量技术因子》2019.052《金工:“华泰周期轮动”基金组合改进版》2019.053《金工:A股市场低开现象研究》2019.05基于遗传规划的选股因子挖掘华泰人工智能系列之二十一本文通过原理分析和系统测试,介绍了遗传规划在选股因子挖掘中的应用遗传规划是一种启发式的公式演化技术,通过模拟自然界中遗传进化的过程来逐渐生成契合特定目标的公式群体,适合进行特征工程。将遗传规划运用于选股因子挖掘时,可以充分利用计算机的强大算力,同时突破人类的思维局限,挖掘出某些隐藏的、难以通过人脑构建的因子。本文介绍了遗传规划应用的完整流程,对遗传规划程序包gplearn进行了深度定制改进。测试结果显示,遗传规划能从有限的量价数据中挖掘出具有增量信息的因子,为选股因子研究提供了一种新的思路。针对因子挖掘问题,本文对遗传规划程序包gplearn进行了深度定制改进本文在遗传规划的应用中做出了以下贡献:(1)应用成熟的gplearn项目,对gplearn的关键参数进行了详细说明。(2)扩充了gplearn中的函数集,添加了一批适合于构造选股因子的函数。(3)将单因子测试过程引入gplearn,可以对待挖掘因子进行传统风格因子中性化。(4)使用了Python的并行运算技术,加快了因子矩阵的运算速度,缩短了因子挖掘时间。经过测试,遗传规划能从有限的量价数据中挖掘出具有增量信息的因子在遗传规划框架中,我们设定预测目标为个股20个交易日后的收益率,初步挖掘出了6个选股因子。这些因子在剔除了行业、市值、过去20日收益率、过去20日平均换手率、过去20日波动率五个因子的影响后,依然具有较稳定的RankIC。6个因子都具有良好的可解释性,其中大部分因子的相关性不高,说明遗传规划能从有限的量价数据中挖掘出具有增量信息的因子。遗传规划是一套灵活的框架,或许能为选股因子研究提供更多的可能性本着“授人以鱼不如授人以渔”的想法,本文旨在为读者展示遗传规划在选股因子挖掘中的详细流程,流程中的各环节依然有较大的调整空间。在实际应用中,读者可以根据自己特定的数据源、股票池、调仓周期、函数集以及评价...