温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
证券
_20180805_
人工智能
周报
最近
一个
XGBoost
稳定
战胜
指数
谨请参阅尾页重要声明及华泰证券股票和行业评级标准 1 证券研究报告证券研究报告 金工研究/量化投资周报 2018年08月05日 林晓明林晓明 执业证书编号:S0570516010001 研究员 0755-82080134 陈烨陈烨 010-56793927 联系人 李子钰李子钰 联系人 1 金工金工:上周市场整体上涨,融资余额下行上周市场整体上涨,融资余额下行2018.07 2金工金工:市场初步企稳,流动性可能改善市场初步企稳,流动性可能改善2018.07 3 金工金工:本周价量、市值、估值因子表现好本周价量、市值、估值因子表现好2018.07 最近一个月XGBoost稳定战胜指数 人工智能选股周报 20180804 本周本周全全 A 选股(沪深选股(沪深 300 行业行业市值市值中性)中性)朴素贝叶斯朴素贝叶斯表现表现最好最好 本周沪深 300 涨跌幅为-5.85%。本周 3 个模型跑赢基准,超额收益最高的模型是朴素贝叶斯,该模型本周获得绝对收益-5.40%,超额收益 0.45%。最近一月超额收益最高的模型是随机森林,该模型最近一月获得绝对收益-1.63%,超额收益 1.13%。2018 年以来超额收益最高的模型是随机森林,该模型 2018 年以来获得绝对收益-14.16%,超额收益 4.73%。2018 年以来 RankIC 均值最高的模型是 Stacking,该模型 RankIC 均值为 0.119。本周本周全全 A 选股(中证选股(中证 500 行业行业市值市值中性)中性)XGBoost 表现表现最好最好 本周中证 500 涨跌幅为-6.09%。本周超额收益最高的模型是 XGBoost,该模型本周获得绝对收益-6.36%,超额收益-0.28%。最近一月超额收益最高的模型是朴素贝叶斯,该模型最近一月获得绝对收益-3.07%,超额收益2.08%。2018 年以来超额收益最高的模型是 Stacking,该模型 2018 年以来获得绝对收益-14.11%,超额收益 8.04%。2018 年以来 RankIC 均值最高的模型是 Stacking,该模型 RankIC 均值为 0.119。本周本周沪深沪深 300 指数内选股指数内选股朴素贝叶斯朴素贝叶斯表现表现最好最好 本周沪深 300 涨跌幅为-5.85%。本周 4 个模型跑赢基准,超额收益最高的模型是朴素贝叶斯,该模型本周获得绝对收益-5.35%,超额收益 0.50%。最近一月超额收益最高的模型是 XGBoost,该模型最近一月获得绝对收益-1.28%,超额收益 1.48%。2018 年以来超额收益最高的模型是 XGBoost,该模型 2018 年以来获得绝对收益-14.44%,超额收益 4.45%。2018 年以来 RankIC 均值最高的模型是随机森林,该模型 RankIC 均值为 0.109。本周本周中证中证 500 指数内选股指数内选股 SVM表现表现最好最好 本周中证 500 涨跌幅为-6.09%。本周 3 个模型跑赢基准,超额收益最高的模型是 SVM,该模型本周获得绝对收益-5.77%,超额收益 0.32%。最近一月超额收益最高的模型是朴素贝叶斯,该模型最近一月获得绝对收益-3.55%,超额收益 1.59%。2018 年以来超额收益最高的模型是朴素贝叶斯,该模型 2018 年以来获得绝对收益-18.59%,超额收益 3.56%。2018年以来 RankIC 均值最高的模型是朴素贝叶斯,该模型 RankIC 均值为0.091。本周本周中证中证 800 指数内选股指数内选股朴素贝叶斯朴素贝叶斯表现表现最好最好 本周中证 800 涨跌幅为-5.91%。本周 3 个模型跑赢基准,超额收益最高的模型是朴素贝叶斯,该模型本周获得绝对收益-5.36%,超额收益 0.55%。最近一月超额收益最高的模型是随机森林,该模型最近一月获得绝对收益-0.93%,超额收益 2.43%。2018 年以来超额收益最高的模型是随机森林,该模型 2018 年以来获得绝对收益-13.96%,超额收益 5.78%。2018 年以来 RankIC 均值最高的模型是神经网络,该模型 RankIC 均值为 0.094。风险提示:通过人工智能模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。相关研究相关研究 1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 2 华泰人工智能华泰人工智能选股选股模型模型 华泰金工人工智能选股系列报告将多种机器学习算法应用到多因子选股中,目的是利用机器学习算法的非线性特性和自动学习能力,从传统的多因子数据中挖掘出能带来更高超额收益的非线性特征。本周报中,我们跟踪了 Stacking、SVM、朴素贝叶斯、随机森林、XGBoost、逻辑回归、神经网络 7 个模型在月频多因子选股的表现。对于每一种模型,我们构建了以下 5 种多因子选股模型,进行定期跟踪(对于 Stacking 模型,目前只应用于全 A 选股,后续会对其应用于指数内选股进行研究)。1.全 A 选股(沪深 300 行业市值中性):月频调仓,在全部 A 股中选股,组合构建时相对于沪深 300 指数进行行业中性和市值中性。2.全 A 选股(中证 500 行业市值中性):月频调仓,在全部 A 股中选股,组合构建时相对于中证 500 指数进行行业中性和市值中性。3.沪深 300 指数内选股:月频调仓,在沪深 300 指数成分股中选股,组合构建时相对于沪深 300 指数进行行业中性和市值中性。4.中证 500 指数内选股:月频调仓,在中证 500 指数成分股中选股,合构建时相对于中证 500 指数进行行业中性和市值中性。5.中证 800 指数内选股:月频调仓,在中证 800 指数成分股中选股,合构建时相对于中证 800 指数进行行业中性和市值中性。对于所有跟踪的模型,使用如下统一回测条件:1.股票池处理:剔除 ST、停牌、上市 3 个月以内的股票。2.特征提取:70 个因子作为特征(估值、成长、动量翻转、波动率、换手率、情绪、技术、市值等)。对原始因子做中位数去极值,缺失值填充(行业平均),行业市值中性,标准化。交易费用:单边千分之二。注:本周报自 2018 年 6 月 30 日起,开始使用行业中性+市值中性的组合构建方法进行回测,回测绩效相比之前周报有所区别,特此提醒。1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 3 各模型本周、最近一个月和各模型本周、最近一个月和 2018 年年以来超额收益表现以来超额收益表现 本周沪深 300 涨跌幅为-5.85%,中证 500 涨跌幅为-6.09%,中证 800 涨跌幅为-5.91%,三大指数有较大跌幅。最近一个月 XGBoost 和朴素贝叶斯稳定战胜指数,在所有组合中都有正的超额收益。图表图表1:各模型各模型本周超额收益表现本周超额收益表现 资料来源:Wind,华泰证券研究所 图表图表2:各模型各模型最近一个月超额收益表现最近一个月超额收益表现 资料来源:Wind,华泰证券研究所 图表图表3:各模型各模型 2018年以来超额收益表现年以来超额收益表现 资料来源:Wind,华泰证券研究所-2%-1%0%1%全A选股(基准:沪深300)全A选股(基准:中证500)沪深300成分内选股(基准:沪深300)中证500成分内选股(基准:中证500)中证800成分内选股(基准:中证800)StackingSVM朴素贝叶斯随机森林XGBoost逻辑回归神经网络-3%-1%1%3%全A选股(基准:沪深300)全A选股(基准:中证500)沪深300成分内选股(基准:沪深300)中证500成分内选股(基准:中证500)中证800成分内选股(基准:中证800)StackingSVM朴素贝叶斯随机森林XGBoost逻辑回归神经网络-2%0%2%4%6%8%10%全A选股(基准:沪深300)全A选股(基准:中证500)沪深300成分内选股(基准:沪深300)中证500成分内选股(基准:中证500)中证800成分内选股(基准:中证800)StackingSVM朴素贝叶斯随机森林XGBoost逻辑回归神经网络1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 4 各模型各模型 2018 年以来年以来和和 2011 年以来年以来 RankIC 均值均值 模型 RankIC 计算方法:在某一股票池(如沪深 300)内,使用模型对所有个股进行打分,然后将打分与个股下个月收益率计算 Spearman 秩相关系数,即得到该模型的 Rank IC 值。图表图表4:各模型各模型 2018年以来年以来RankIC均值均值 资料来源:Wind,华泰证券研究所 图表图表5:各模型和基准各模型和基准2011年以来年以来RankIC均值均值 资料来源:Wind,华泰证券研究所 对于全 A 选股,2018 年以来 RankIC 均值最高的模型是 Stacking,该模型 RankIC 均值为 0.119。对于沪深 300 成分内选股,2018 年以来 RankIC 均值最高的模型是随机森林,该模型RankIC 均值为 0.109。对于中证 500 成分内选股,2018 年以来 RankIC 均值最高的模型是朴素贝叶斯,该模型RankIC 均值为 0.091。对于中证 800 成分内选股,2018 年以来 RankIC 均值最高的模型是神经网络,该模型RankIC 均值为 0.094。0%2%4%6%8%10%12%14%全A选股沪深300成分内选股中证500成分内选股中证800成分内选股StackingSVM朴素贝叶斯随机森林XGBoost逻辑回归神经网络0%2%4%6%8%10%12%14%16%全A选股沪深300成分内选股中证500成分内选股中证800成分内选股StackingSVM朴素贝叶斯随机森林XGBoost逻辑回归神经网络1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 5 各模型各模型 2011 年以来年以来超额收益曲线超额收益曲线 图表图表6:各模型各模型 2011年以来年以来超额收益曲线超额收益曲线(全全 A选股,沪选股,沪深深300行业行业市值市值中性中性)资料来源:Wind,华泰证券研究所 图表图表7:各模型各模型 2011年以来年以来超额收益曲线超额收益曲线(全全 A选股,中证选股,中证500行业行业市值市值中性中性)资料来源:Wind,华泰证券研究所 图表图表8:各模型各模型 2011年以来年以来超额收益曲线超额收益曲线(沪深沪深300指数内选股指数内选股)资料来源:Wind,华泰证券研究所-20%0%20%40%60%80%2011/2/12011/8/202012/3/72012/9/232013/4/112013/10/282014/5/162014/12/22015/6/202016/1/62016/7/242017/2/92017/8/282018/3/16StackingSVM朴素贝叶斯随机森林XGBoost逻辑回归神经网络-50%0%50%100%150%200%250%2011/2/12011/8/202012/3/72012/9/232013/4/112013/10/282014/5/162014/12/22015/6/202016/1/62016/7/242017/2/92017/8/282018/3/16StackingSVM朴素贝叶斯随机森林XGBoost逻辑回归-10%0%10%20%30%40%50%60%70%2011/2/12011/8/202012/3/72012/9/232013/4/112013/10/282014/5/162014/12/22015/6/202016/1/62016/7/242017/2/92017/8/282018/3/16SVM朴素贝叶斯随机森林XGBoost逻辑回归神经网络1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 6 图表图表9:各模型各模型 2011年以来年以来超额收益曲线超额收益曲线(中证中证500指数内选股指数内选股)资料来源:Wind,华泰证券研究所 图表图表10:各模型各模型 2011年以来年以来超额收益曲线超额收益曲线(中证中证800指数内选股指数内选股)资料来源:Wind,华泰证券研究所 各模型各模型 2011 年以来年以来详细回测绩效详细回测绩效 图表图表11:各模型各模型 2011年以来年以来详细回测绩效详细回测绩效(全全A选股,沪选股,沪深深 300行业行业市值市值中性中性)模型模型名称名称 比较基准比较基准 年化收益率年化收益率 年化波动率年化波动率 夏普比率夏普比率 最大回撤最大回撤 年化超额收年化超额收益率益率 年化跟踪年化跟踪误差误差 超额收益超额收益最大回撤最大回撤 信息比率信息比率 Calmar比率比率 相对基准相对基准月胜率月胜率 月均双边月均双边换手率换手率 Stacking 沪深 300 6.53%23.40%0.28 42.30%5.20%4.08%5.16%1.27 1.01 60.00%94.08%SVM 沪深 300 8.23%23.07%0.36 41.51%6.81%3.62%4.59%1.88 1.48 71.11%87.69%朴素贝叶斯 沪深 300 6.30%23.42%0.27 41.92%4.98%3.98%9.73%1.25 0.51 61.11%73.29%随机森林 沪深 300 7.99%22.90%0.35 40.75%6.54%3.57%5.14%1.83 1.27 70.00%93.78%XGBoost 沪深 300 7.91%23.19%0.34 40.85%6.53%3.61%4.89%1.81 1.34 65.56%84.61%逻辑回归 沪深 300 7.31%22.57%0.32 41.95%5.78%3.79%6.46%1.53 0.89 62.22%80.58%神经网络 沪深 300 7.82%22.71%0.34 39.98%6.31%3.82%4.86%1.65 1.3 66.67%87.02%沪深 300 1.26%23.07%0.05 46.70%资料来源:Wind,华泰证券研究所 -20%0%20%40%60%80%100%120%2011/2/12011/8/202012/3/72012/9/232013/4/112013/10/282014/5/162014/12/22015/6/202016/1/62016/7/242017/2/92017/8/282018/3/16SVM朴素贝叶斯随机森林XGBoost逻辑回归神经网络-20%0%20%40%60%80%100%120%2011/2/12011/8/202012/3/72012/9/232013/4/112013/10/282014/5/162014/12/22015/6/202016/1/62016/7/242017/2/92017/8/282018/3/16SVM朴素贝叶斯随机森林XGBoost逻辑回归神经网络1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 7 图表图表12:各模型各模型 2011年以来年以来详细回测绩效详细回测绩效(全全A选股,中证选股,中证 500行业行业市值市值中性中性)模型模型名称名称 比较基准比较基准 年化收益率年化收益率 年化波动率年化波动率 夏普比率夏普比率 最大回撤最大回撤 年化超额收年化超额收益率益率 年化跟踪年化跟踪误差误差 超额收益超额收益最大回撤最大回撤 信息比率信息比率 Calmar比率比率 相对基准相对基准月胜率月胜率 月均双边月均双边换手率换手率 Stacking 中证 500 17.59%26.65%0.66 43.30%16.01%6.86%7.09%2.34 2.26 72.22%148.20%SVM 中证 500 16.84%26.12%0.64 45.34%15.17%5.97%5.47%2.54 2.77 70.00%148.05%朴素贝叶斯 中证 500 14.18%25.99%0.55 43.31%12.45%6.79%8.01%1.83 1.55 74.44%121.89%随机森林 中证 500 17.67%24.81%0.71 37.96%15.54%6.77%6.01%2.3 2.59 71.11%145.07%XGBoost 中证 500 17.81%25.59%0.7 37.73%15.93%6.39%6.77%2.49 2.35 71.11%137.16%逻辑回归 中证 500 13.62%26.22%0.52 46.35%12.00%6.44%9.77%1.86 1.23 65.56%138.33%神经网络 中证 500 16.10%25.92%0.62 44.09%14.35%6.51%9.75%2.2 1.47 72.22%152.15%中证 500 1.05%26.93%0.04 56.84%资料来源:Wind,华泰证券研究所 图表图表13:各模型各模型 2011年以来年以来详细回测绩效详细回测绩效(沪深沪深 300指数内选股指数内选股)模型模型名称名称 比较基准比较基准 年化收益率年化收益率 年化波动率年化波动率 夏普比率夏普比率 最大回撤最大回撤 年化超额收年化超额收益率益率 年化跟踪年化跟踪误差误差 超额收益超额收益最大回撤最大回撤 信息比率信息比率 Calmar比率比率 相对基准相对基准月胜率月胜率 月均双边月均双边换手率换手率 SVM 沪深 300 6.57%22.72%0.29 42.29%5.09%3.60%3.78%1.41 1.35 65.56%86.06%朴素贝叶斯 沪深 300 7.75%22.56%0.34 40.05%6.21%3.73%4.28%1.67 1.45 64.44%75.15%随机森林 沪深 300 7.27%22.74%0.32 40.71%5.79%3.64%4.09%1.59 1.42 68.89%95.12%XGBoost 沪深 300 8.16%22.63%0.36 39.99%6.64%3.58%3.86%1.85 1.72 64.44%85.27%逻辑回归 沪深 300 8.55%22.83%0.37 42.00%7.06%3.73%4.30%1.9 1.64 70.00%84.09%神经网络 沪深 300 5.96%22.79%0.26 43.24%4.51%3.52%3.72%1.28 1.21 61.11%101.81%沪深 300 1.26%23.07%0.05 46.70%资料来源:Wind,华泰证券研究所 图表图表14:各模型各模型 2011年以来年以来详细回测绩效详细回测绩效(中证中证 500指数内选股指数内选股)模型模型名称名称 比较基准比较基准 年化收益率年化收益率 年化波动率年化波动率 夏普比率夏普比率 最大回撤最大回撤 年化超额收年化超额收益率益率 年化跟踪年化跟踪误差误差 超额收益超额收益最大回撤最大回撤 信息比率信息比率 Calmar比率比率 相对基准相对基准月胜率月胜率 月均双边月均双边换手率换手率 SVM 中证 500 6.22%26.98%0.23 47.90%5.02%4.61%6.44%1.09 0.78 61.11%110.51%朴素贝叶斯 中证 500 9.11%26.10%0.35 46.73%7.60%5.06%5.18%1.5 1.47 63.33%85.81%随机森林 中证 500 8.13%27.04%0.3 47.40%6.91%4.96%4.85%1.39 1.42 62.22%118.03%XGBoost 中证 500 9.52%26.99%0.35 49.44%8.27%4.96%5.34%1.67 1.55 64.44%110.16%逻辑回归 中证 500 11.13%27.35%0.41 48.39%9.95%5.26%6.78%1.89 1.47 68.89%103.42%神经网络 中证 500 8.21%27.21%0.3 49.88%7.04%4.94%6.68%1.43 1.05 65.56%125.61%中证 500 1.05%26.93%0.04 56.84%资料来源:Wind,华泰证券研究所 图表图表15:各模型各模型 2011年以来年以来详细回测绩效详细回测绩效(中证中证 800指数内选股指数内选股)模型模型名称名称 比较基准比较基准 年化收益率年化收益率 年化波动率年化波动率 夏普比率夏普比率 最大回撤最大回撤 年化超额收年化超额收益率益率 年化跟踪年化跟踪误差误差 超额收益超额收益最大回撤最大回撤 信息比率信息比率 Calmar比率比率 相对基准相对基准月胜率月胜率 月均双边月均双边换手率换手率 SVM 中证 800 7.40%23.13%0.32 42.41%6.01%4.13%5.08%1.45 1.18 64.44%116.29%朴素贝叶斯 中证 800 7.72%23.06%0.33 42.64%6.27%4.68%6.07%1.34 1.03 65.56%92.62%随机森林 中证 800 9.11%22.96%0.4 42.26%7.64%4.37%7.80%1.75 0.98 70.00%120.68%XGBoost 中证 800 11.21%23.07%0.49 40.07%9.74%4.28%4.31%2.28 2.26 70.00%108.24%逻辑回归 中证 800 8.99%23.21%0.39 41.50%7.58%4.54%6.28%1.67 1.21 72.22%107.44%神经网络 中证 800 8.44%23.22%0.36 42.04%7.04%4.41%5.41%1.6 1.3 64.44%121.47%中证 800 1.18%23.37%0.05 48.98%资料来源:Wind,华泰证券研究所 1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 8 各模型各模型 RankIC 详细指标详细指标 图表图表16:各模型各模型 RankIC详细指标详细指标(全全A选股选股)模型模型名称名称 2011 年以来年以来RankIC 均值均值 2011 年以来年以来RankIC 标准差标准差 2011 年以来年以来 IR比率比率 2011年以来年以来 IC大大于于 0的比例的比例 2018 年以来年以来RankIC 均值均值 2018 年以来年以来RankIC 标准差标准差 2018 年以来年以来IR比率比率 2018年以来年以来 IC大于大于 0的比例的比例 Stacking 0.133 0.084 1.585 94.45%0.119 0.049 2.437 100.00%SVM 0.122 0.073 1.685 93.33%0.11 0.06 1.823 100.00%朴素贝叶斯 0.113 0.111 1.022 83.34%0.091 0.135 0.67 63.08%随机森林 0.136 0.086 1.576 92.22%0.102 0.078 1.309 87.69%XGBoost 0.141 0.092 1.534 91.11%0.102 0.081 1.252 87.69%逻辑回归 0.123 0.066 1.853 96.67%0.114 0.073 1.565 87.69%神经网络 0.129 0.076 1.689 95.56%0.108 0.064 1.688 100.00%资料来源:Wind,华泰证券研究所 图表图表17:各模型各模型 RankIC详细指标详细指标(沪深沪深300成分内选股成分内选股)模型名称模型名称 2011 年以来年以来RankIC 均值均值 2011 年以来年以来RankIC 标准差标准差 2011 年以来年以来 IR比率比率 2011年以来年以来 IC大大于于 0的比例的比例 2018 年以来年以来RankIC 均值均值 2018 年以来年以来RankIC 标准差标准差 2018 年以来年以来IR比率比率 2018年以来年以来 IC大于大于 0的比例的比例 SVM 0.091 0.1 0.913 80.00%0.087 0.118 0.739 75.38%朴素贝叶斯 0.103 0.13 0.79 75.56%0.077 0.156 0.494 63.08%随机森林 0.091 0.102 0.891 80.00%0.109 0.103 1.054 87.69%XGBoost 0.101 0.099 1.025 83.34%0.087 0.12 0.725 63.08%逻辑回归 0.097 0.088 1.094 85.56%0.064 0.076 0.851 75.38%神经网络 0.085 0.083 1.024 85.56%0.081 0.076 1.074 87.69%资料来源:Wind,华泰证券研究所 图表图表18:各模型各模型 RankIC详细指标详细指标(中证中证500成分内选股成分内选股)模型名称模型名称 2011 年以来年以来RankIC 均值均值 2011 年以来年以来RankIC 标准差标准差 2011 年以来年以来 IR比率比率 2011年以来年以来 IC大大于于 0的比例的比例 2018 年以来年以来RankIC 均值均值 2018 年以来年以来RankIC 标准差标准差 2018 年以来年以来IR比率比率 2018年以来年以来 IC大于大于 0的比例的比例 SVM 0.075 0.083 0.899 82.22%0.056 0.055 1.019 87.69%朴素贝叶斯 0.095 0.111 0.854 78.89%0.091 0.131 0.696 75.38%随机森林 0.085 0.091 0.935 81.11%0.059 0.057 1.034 87.69%XGBoost 0.091 0.094 0.968 83.34%0.068 0.104 0.649 75.38%逻辑回归 0.102 0.087 1.163 87.78%0.086 0.082 1.049 87.69%神经网络 0.09 0.08 1.12 85.56%0.064 0.075 0.859 87.69%资料来源:Wind,华泰证券研究所 图表图表19:各模型各模型 RankIC详细指标详细指标(中证中证800成分内选股成分内选股)模型名称模型名称 2011 年以来年以来RankIC 均值均值 2011 年以来年以来RankIC 标准差标准差 2011 年以来年以来 IR比率比率 2011年以来年以来 IC大大于于 0的比例的比例 2018 年以来年以来RankIC 均值均值 2018 年以来年以来RankIC 标准差标准差 2018 年以来年以来IR比率比率 2018年以来年以来 IC大于大于 0的比例的比例 SVM 0.094 0.074 1.275 92.22%0.087 0.078 1.105 100.00%朴素贝叶斯 0.101 0.117 0.864 80.00%0.076 0.14 0.547 63.08%随机森林 0.104 0.086 1.215 90.00%0.062 0.094 0.661 63.08%XGBoost 0.108 0.09 1.199 91.11%0.074 0.087 0.843 87.69%逻辑回归 0.109 0.083 1.302 93.33%0.087 0.077 1.124 87.69%神经网络 0.101 0.079 1.282 88.89%0.094 0.075 1.251 87.69%资料来源:Wind,华泰证券研究所 1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 9 华泰人工智能华泰人工智能选股选股模型简介模型简介 本报告所涉及的所有机器学模型的详细介绍,可参见华泰人工智能系列报告:1.人工智能选股框架及经典算法简介 2.人工智能选股之广义线性模型 3.人工智能选股之支持向量机模型 4.人工智能选股之朴素贝叶斯模型 5.人工智能选股之随机森林模型 6.人工智能选股之 Boosting 模型 7.人工智能选股之 Python 实战 8.人工智能选股之全连接神经网络 9.人工智能选股之循环神经网络模型 10.宏观周期指标应用于随机森林选股 11.人工智能选股之 Stacking 集成学习 12.人工智能选股之特征选择 13.人工智能选股之损失函数的改进 机器学习模型运用到多因子选股的流程机器学习模型运用到多因子选股的流程 图表图表20:机器学习模型运用到多因子选股的流程机器学习模型运用到多因子选股的流程 资料来源:华泰证券研究所 1 数据获取:a)股票池:沪深 300 成份股/中证 500 成份股/全 A股。剔除 ST股票,剔除每个截面期下一交易日停牌的股票,剔除上市 3 个月内的股票,每只股票视作一个样本。b)训练样本长度:72 个月。2 特征和标签提取:每个自然月的最后一个交易日,计算 70 个因子暴露度,作为样本的原始特征;计算下一整个自然月的个股超额收益(以沪深 300 指数为基准),作为样本的标签。因子池如图表 22 所示。3 特征预处理:a)中位数去极值:设第 T 期某因子在所有个股上的暴露度序列为,为该序列中位数,1为序列|的中位数,则将序列中所有大于+51的数重设为+51,将序列中所有小于 51的数重设为 51;b)缺失值处理:得到新的因子暴露度序列后,将因子暴露度缺失的地方设为中信一级行业相同个股的平均值。c)行业市值中性化:将填充缺失值后的因子暴露度对行业哑变量和取对数后的市值做线性回归,取残差作为新的因子暴露度。d)标准化:将中性化处理后的因子暴露度序列减去其现在的均值、除以其标准差,1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 10 得到一个新的近似服从N(0,1)分布的序列。4 训练集和交叉验证集的合成:a)分类问题:在每个月末截面期,选取下月收益排名前 30%的股票作为正例(=1),后 30%的股票作为负例(=0)。将训练样本合并,随机选取 90%的样本作为训练集,余下 10%的样本作为交叉验证集。b)回归问题:直接将样本合并成为样本内数据,同样按 90%和 10%的比例划分训练集和交叉验证集。5 样本内训练:使用机器学习模型对训练集进行训练。6 交叉验证调参:模型训练完成后,使用模型对交叉验证集进行预测。选取交叉验证集AUC(或平均 AUC)最高的一组参数作为模型的最优参数。7 样本外测试:确定最优参数后,以 T月月末截面期所有样本预处理后的特征作为模型的输入,得到每个样本的预测值(),使用预测值构建组合选股。本周报中,我们跟踪了 Stacking、SVM、朴素贝叶斯、随机森林、XGBoost、逻辑回归、神经网络 7 个模型在月频多因子选股的表现。对于每一种模型,我们构建了以下 5 种多因子选股模型,进行定期跟踪(对于 Stacking 模型,目前只应用于全 A 选股,后续会对其应用于指数内选股进行研究)。6.全 A 选股(沪深 300 行业市值中性):月频调仓,在全部 A 股中选股,组合构建时相对于沪深 300 指数进行行业中性和市值中性。7.全 A 选股(中证 500 行业市值中性):月频调仓,在全部 A 股中选股,组合构建时相对于中证 500 指数进行行业中性和市值中性。8.沪深 300 指数内选股:月频调仓,在沪深 300 指数成分股中选股,组合构建时相对于沪深 300 指数进行行业中性和市值中性。9.中证 500 指数内选股:月频调仓,在中证 500 指数成分股中选股,合构建时相对于中证 500 指数进行行业中性和市值中性。10.中证 800 指数内选股:月频调仓,在中证 800 指数成分股中选股,合构建时相对于中证 800 指数进行行业中性和市值中性。对于所有跟踪的模型,使用如下统一回测条件:3.股票池处理:剔除 ST、停牌、上市 3 个月以内的股票。4.特征提取:70 个因子作为特征(估值、成长、动量翻转、波动率、换手率、情绪、技术、市值等)。对原始因子做中位数去极值,缺失值填充(行业平均),行业市值中性,标准化。交易费用:单边千分之二。注:本周报自 2018 年 6 月 30 日起,开始使用行业中性+市值中性的组合构建方法进行回测,回测绩效相比之前周报有所区别,特此提醒。1 7 2 1 4 3 6 8/1 4 5 1 9/2 0 1 8 0 8 0 7 1 4:3 9 金工研究/量化投资周报|2018 年 08 月 05 日 谨请参阅尾页重要声明及华泰证券股票和行业评级标准 11 图表图表21:选股模型中涉及的全部因子及其描述选股模型中涉及的全部因子及其描述 大类因子大类因子 具体因子具体因子 因子描述因子描述 估值 EP 净利润(TTM)/总市值 估值 EPcut 扣除非经常性损益后净利润(TTM)/总市值 估值 BP 净资产/总市值 估值 SP 营业收入(TTM)/总市值 估值 NCFP 净现金流(TTM)/总市值 估值 OCFP 经营性现金流(TTM)/总市值 估值 DP 近 12 个月现金红利(按除息日计)/总市值 估值 G/PE 净利润(TTM)同比增长率/PE_TTM 成长 Sales_G_q 营业收入(最新财报,YTD)同比增长率 成长 Profit_G_q 净利润(最新财报,YTD)同比增长率 成长 OCF_G_q 经营性现金流(最新财报,YTD)同比增长率 成长 ROE_G_q ROE(最新财报,YTD)同比增长率 财务质量 ROE_q ROE(最新财报,YTD)财务质量 ROE_ttm ROE(最新财报,TTM)财务质量 ROA_q ROA(最新财报,YTD)财务质量 ROA_ttm ROA(最新财报,TTM)财务质量 grossprofitmargin_q 毛利率(最新财报,YTD)财务质量 grossprofitmargin_ttm 毛利率(最新财报,TTM)财务质量 profitmargin_q 扣除非经常性损益后净利润率(最新财报,YTD)财务质量 profitmargin_ttm 扣除非经常性损益后净利润率(最新财报,TTM)财务质量 assetturnover_q 资产周转率(最新财报,YTD)财务质量 assett