分享
东北证券_20180525_人工智能系列报告实证篇:人工智能算法在价量特征中的应用.pdf
下载文档
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
东北 证券 _20180525_ 人工智能 系列 报告 实证 算法 特征 中的 应用
请务必阅读正文后的声明及说明请务必阅读正文后的声明及说明 证券研究报告/金融工程研究报告 人工智能系列报告实证篇人工智能系列报告实证篇:人工智能算法在价量人工智能算法在价量特征特征中的应用中的应用 报告摘要报告摘要:机器学习可以快速海量地进行分析、拟合、预测,并具有很好的泛化能力,机器学习是一种归纳,而非演绎。该项技术被应用到量化投资中,通过大量数据习得模式,达到自主选股择时效果,我们在人工智能第一篇报告人工智能系列报告综述篇:人工智能发展史及算法介绍详细阐述了相关算法和应用案例,读者可参阅。价量特征指标在实际交易中常被市场参与者用于市场择时,相比基本面指标,具有更好的时效性,当前业界研究多集中于单个指标有效性检验或者通过图形模式识别交易信号,将多个指标合成单一指标进行选股的相关研究较少,本文初衷是通过有效的数据挖掘方法,挖掘多个价量指标信息,获取比单一指标更好地预测效果。在本文,我们运用 34 个价量特征进行决策树、支持向量机,随机森林、AdaBoost、GBDT、XGBoost 等机器学习模型进行历史数据回测,并构建投资组合,所有模型均是 36 个月滚动训练调参。结果表明,随机森林与 Boosting 算法表现较好,决策树和支持向量机表现差强人意,分类预测效果不明显。随机森林算法和 Boosting 算法(AdaBoost、GBDT、XGBoost 等),具有较好的分类预测效果,第10 组年化收益 13%-14%,夏普比率在 0.42-0.44,多空组合年化收益率为 7.11%-12.11%,夏普比率为 0.78-0.9,其中随森林模型多头组合年化收益率最高,XGBoost 模型多空组合收益率最高。机器学习算法如何在量化投资中真正有效利用起来,仍值得我们思考。目前,业界多将机器学习算法与多因子体系结合,进行量化选股,这样形成一套体系,从因子有效性检验、模型训练、预测和组合构建,往往研究重点集中于模型参数优化与因子筛选上,参数优化,输入变量选取的不同或者预处理方法改变,都会对最终输出结果造成影响,这种体系下,机器学习应用于量化投资的可解释性有待提高,如何使机器学习更为透明和可解释,值得我们进一步研究。历史收益率曲线 多头多头收益收益 多空收益多空收益 决策树决策树 11.7%11.8%支持向量机支持向量机 11.2%16.1%随机森林随机森林 14.0%7.1%AdaBoost 13.6%9.72%GBDT 13.5%11.0%XGBoost 12.9%12.1%相关报告 东北证券人工智能系列报告综述篇:人工智能发展史及算法介绍 2017-11-23 证券分析师:证券分析师:高建高建 执业证书编号:S0550511020011 研究助理研究助理:孙凯歌孙凯歌 执业证书编号:S0550117100006 13070102332 发布时间:发布时间:2018-05-25 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 2/29 金融工程研究金融工程研究报告报告 目录目录 1.引言引言.3 2.价量指标价量指标.3 3.机器学习选股体系机器学习选股体系.4 3.1.整体流程.4 3.2.模型调参.6 4.机器学习模型实证机器学习模型实证.7 4.1.决策树.7 4.2.支持向量机.9 4.3.随机森林.11 4.4.AdaBoost.14 4.5.GBDT.17 4.6.XGBoost.19 5.总结与展望总结与展望.21 附录:价量特征指标计算公式汇总附录:价量特征指标计算公式汇总.22 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 3/29 金融工程研究金融工程研究报告报告 1.引言引言 机器学习可以快速地对大量数据进行分析、拟合、预测,并具有很好的泛化能力,归根到底机器学习是一种归纳,而非演绎,该项技术被广泛应用到量化投资中,我们在人工智能第一篇报告 人工智能系列报告综述篇:人工智能发展史及算法介绍详细阐述了算法和相关应用案例,读者可参阅报告。价量指标在实际交易中常被市场参与者用于择时选股,相对基本面指标,具有更好的时效性。多数阿尔法收益来自市场短期波动,对于价量特征指标,当前业界多是研究单个指标有效性或者通过模式识别的方式发现交易信号等,将多个指标合成单个指标的研究较少。本文通过机器学习模型,挖掘多个价量指标信息,以获取比单一指标更好的预测效果。价量指标具体含义以及构建方法可参阅本文附录部分。本文选取 2007 年 1 月-2018 年 3 月月度数据为回测样本,采用 34 个价量指标,按照 36 个月滚动窗口进行模型训练,预测未来一个月股票的分类概率。我们分别测试决策树模型、支持向量机、随机森林、AdaBoost、GBDT、XGboost 等模型,通过价量特征指标进行机器学习算法有效性检验,并构建投资组合。2.价量指标价量指标 根据价量特征指标的普适性,本文选取价格类、动量类、成交量类、波动类等四大类价量特征,进行机器学习模型测试。选取的指标能够直接作为择时信号,或其数值能够表征市场强弱。指标含义和参数选择见下表,具体计算公式可参见报告附录部分。表表1:指标算法和参数选择:指标算法和参数选择 指标简称指标简称 中文名称中文名称 指标参数指标参数 价格重叠类 Bollinger_UpperBands 布林线上轨(5,2,2)Bollingger_LowBands 布林线下轨(5,2,2)WMA 移动加权平均(30)EMA 指数平均线(30)KAMA 考夫曼的自适应移动平均线(30)MA5 5 日均线(5)MA20 20 日均线(20)SAR 抛物线指标(0,0)HT_TRENDLINE 希尔伯特瞬时变换-动量类 APO 价格振荡器(12,26)AROONOSC 阿隆振荡(14)BOP 均势指标-CCI 顺势指标(14)CMO 钱德动量摆动指标(14)DX 动向指标(14)SIGNAL_MACD 平滑异同移动平均线(12,26,9)MFI 资金流量指标(14)请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 4/29 金融工程研究金融工程研究报告报告 PLUS_DI 上升动向值(14)MINUS_DI 下降动向值(14)MOM 动量(10)PPO 价格震荡百分比(12,26)ROC 变动率指标(10)RSI 相对强弱指数(14)KDJ_K KDJ 指标 K 值(5,3,3)KDJ_D KDJ 指标 D 值(5,3,3)TRIX 三重指数平滑平均线(30)ULTOSC 终极波动指标(7,14,28)WILLR 威廉指标(14)成交量类 ADOSC 振荡指标(3,10)OBV 能量潮-ATR 真实波动幅度均值(14)波动类 TURN_MA_5 换手率 5 日均值(5)TURN_MA_10 换手率 10 日均值(10)TURN_STD_5 换手率 5 日波动(5)数据来源:东北证券,Wind 为保证数据量纲一致,避免机器学习模型在训练测试中因数据范围过大产生较大误差,本文采用最大最小值法对数据进行标准化,使数据分布集中于0,1。./_()(.).XX m inX m axXscaledX m in 在进行数据标准化处理之后,34 个价量指标能够描述每只股票在时间截面上的特征,并与股票下一期价格涨跌相关联。后续我们可以运用机器学习模型寻找内在映射关系。3.机器学习选股体系机器学习选股体系 3.1.整体流程整体流程 根据上述方法,我们选定了价量特征指标,接下来,我们采用滑动窗口方式确定机器学习模型训练期与测试期,在每月初选用过去 36 个月度数据作为模型训练数据,进行参数调试和模型拟合,以最新月末数据作为测试数据载入拟合好的模型中,来预测未来一个月股票所属的涨跌类别。请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 5/29 金融工程研究金融工程研究报告报告 图图1:机器学习模型选股流程:机器学习模型选股流程 数据来源:东北证券 机器学习模型步骤:1、回测数据:a、股票样本池:沪深全 A,剔除 ST 股票、剔除上市不满 120 个交易日的次新股。b、回测区间:2007 年 1 月-2018 年 3 月,以 2007 年 1 月-2009 年 12 月作为起始训练期,回测期内滚动训练、调参、调仓。c、数据标准化:采用最大最小值法进行数据标准化。d、样本标签:训练样本中,价量特征对应的下一期收益前 30%标记为 1,后30%标记为-1,结合样本特征值,作为模型训练数据。2、模型训练:a、训练样本:每个月初,将过去 36 个月月末特征、标签数据作为训练样本,来预测未来一个月收益率所属类别。b、参数调试:采用网格调参法,每个月初在训练模型时,将过去 36 个月的样本数据作为拟合模型数据,分为 5 份,任意 4 份作为训练数据,1 份作为测试数据,重复交叉验证 5 次,按照 AUC 准则选取最优参数。3、组合构建 a、将训练数据载入最优参数下机器学习模型,进行模型拟合。b、在每月第一个交易日调仓时,将最近月末截面特征值带入训练好的机器学习模型中,输出归属标签 1 类的概率值。c、按照输出概率分为 10 组,组内等权配臵,计算分组收益率,夏普比率等指标,对机器学习算法进行比较。为模拟真实投资过程,本文采用滑动窗口方法进行调参和仓位变动。同真实投资一样,机器学习模型在指定历史数据窗口内将进行参数估计和模型拟合,以用于下一个投资期股票筛选,相较于传统方法将整个样本数据划分为训练集和测试集,滑动窗口法使得数据更具时效性,也更为符合投资实际应用场景。具体地,在每个数据窗口中,将数据分为训练区间、验证区间和测试区间。其中训练区间是进行模型参数调试和模型拟合,验证区间是为了校验选取最优参数;在确定最优参数后,在训练数据和验证数据合并,重新拟合模型;最后在测试区间上,应用拟合后的机器学习模型,检测样本外预测效果,并构建投资组合,动态滑动窗口 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 6/29 金融工程研究金融工程研究报告报告 如图 2 所示。图图2:滑动窗口示意图:滑动窗口示意图 数据来源:东北证券 3.2.模型调参模型调参 现实投资中,市场风格不断变化,为了使模型更能匹配当时市场环境,我们在每个滑动窗口期内,对模型进行参数调试,运用交叉验证方法,选取最优参数进行模型拟合,并应用到测试数据集,进行投资组合的构建。模型参数说明及本文具体取值范围如下表所示。表表2:参数说明及取值范围:参数说明及取值范围 算法算法 参数参数 Support Vector Classier(SVC)Kernel:核函数,用于将样本点从低维空间投影至高维空间,取值为rbf,linear。C:惩罚系数,C 越小模型对样本的拟合程度越好,但可能产生过拟合,取值为0.1,1,10,100,1000。Gamma:核函数系数,取值为10,1,0.1,0.01,0.001 Decision Tree (DT)max_features:划分时考虑的最大特征数,决策树在分裂节点时只考虑部分特征以控制生成树时间,取值为5,7,9,11,13,15,35 min_weight_fraction_leaf:叶子节点最小的样本权重和,用以控制决策树的复杂度和大小,取值为0,0.01,0.02,0.03,0.04,0.05 Random Forest(RF)n_estimators:基分类器个数,取值为100,200,300,400,500 criterion:用以评判分枝效果的标准,取值为gini,entropy max_depth:决策树最大深度,用以控制树的大小,取值为3,5,7,9,11,13 max_features:划分时考虑的最大特征数,决策树在分裂节点时只考虑部分特征以控制生成树时间,取值为5,7,9,11,13,15,35 AdaBoost(AB)n_estimators:基分类器个数,取值为100,200,300,400,500 learning_rate:学习率,控制每个弱学习器的权重修改速率,取值为0.05,0.1,0.2,0.3,0.4,0.5,1 max_features:划分时考虑的最大特征数,决策树在分裂节点时只考虑部分特征 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 7/29 金融工程研究金融工程研究报告报告 以控制生成树时间,取值为5,7,9,11,13,15,35 min_weight_fraction_leaf:叶子节点最小的样本权重和,用以控制决策树的复杂度和大小,取值为0,0.01,0.02,0.03,0.04,0.05 Gradient Boost Decision Tree(GBDT)n_estimators:基分类器个数,取值为100,200,300,400,500 learning_rate:学习率,控制每个弱学习器的权重修改速率,取值为0.05,0.1,0.2,0.3,0.4,0.5,1 max_depth:决策树最大深度,用以控制树的大小,取值为3,5,7,9,11,13 max_features:划分时考虑的最大特征数,决策树在分裂节点时只考虑部分特征以控制生成树时间,取值为5,7,9,11,13,15,35 loss:损失函数,用以优化梯度提升过程,取值为deviance,exponential XGBoost(XGB)n_estimators:基分类器个数,取值为100,200,300,400,500 eta:类似于 learning_rate,取值为0.05,0.1,0.3,0.5,1 max_depth:决策树最大深度,用以控制树的大小,取值为3,5,7,9,11,13 colsample_bytree:在建立树时对特征采样的比例,取值为0.5,0.7,0.8,0.9,1 数据来源:东北证券 4.机器学习模型实证机器学习模型实证 4.1.决策树决策树 决策树是一种简单却应用广泛的分类器,通过训练数据建立决策树,将不同类别数据贴上类别标签,使分类后的数据集纯度最高,并且能通过选择合适的特征加快分类速度,减少决策树深度。设训练数据集 D,可以取得 v 个特征值,对 D 进行划分,第 v 个特征值对应数据集记为vD,判断分类数据纯度一般运用三种指标:信息增益:1|(,)(D)()|vVvvDG ain D aEntEnt DD 21()logKkkkEnt Dpp,kp为 D 中第 k 类样本所占比例。信息增益越大,分类数据纯度越高。信息增益率:(,)n _ratio(D,a)()G ain D aG aiIVa 21|()log|vvVvDDIVaDD,信息增益率越大,反映了模型分类数据纯度越高。基尼指数:1|_(,)()|vVvvDG iniindex D aG ini DD 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 8/29 金融工程研究金融工程研究报告报告 21()1KkkG ini Dp Gini(D)反映了从 D 中抽取两个类别标签不一致的概率,基尼指数越小,分类数据纯度越高。分类数据纯度一般运用信息增益、信息增益率、基尼指数等三种指标。根据特征选择方法的不同,决策树算法中比较具有代表性的有 ID3、C4.5 以及 CART 算法,CART分类树算法使用基尼系数来代替信息增益比,基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好,因此考虑到算法效率及分类效果,本文采用决策树中的 CART 树算法进行实证。通过模型拟合和测试,按照决策树模型分类(所属类别为 1)输出概率值排序,分为十组,分别计算秩相关系数 IC 与分组超额收益如下图所示,回测期内 IC 均值为0.032,中位数为 0.022,正显著比率为 43.9%,负显著比率为 21.4%。图图3:秩相关系数(均值:秩相关系数(均值:0.032)图图4:决策树分组月度平均超额收益率:决策树分组月度平均超额收益率 数据来源:东北证券 数据来源:东北证券 不考虑交易费用情况下,决策树模型结果十组收益风险指标如下:表表3:决策树模型分组收益:决策树模型分组收益 组别组别 第第 1组组 第第 2组组 第第 3组组 第第 4组组 第第 5组组 第第 6组组 第第 7组组 第第 8组组 第第 9组组 第第 10组组 年化收益率年化收益率 -1.2%9.1%-0.5%-26.8%-15.6%32.7%63.8%18.8%6.1%11.7%年化波动率年化波动率 35.4%33.6%35.9%39.5%32.9%35.3%37.8%33.2%31.1%35.4%最大回撤最大回撤 -64.9%-50.5%-61.4%-90.1%-77.6%-37.5%-27.0%-43.8%-52.3%-45.7%夏普比率夏普比率 (0.03)0.27 (0.01)(0.68)(0.47)0.93 1.69 0.57 0.20 0.33 CalmarCalmar 比率比率 (0.02)0.18 (0.01)(0.30)(0.20)0.87 2.36 0.43 0.12 0.26 数据来源:东北证券,Wind 收益最高组出现在第 7 组,收益最低组出现在第 4 组,而且不同分组收益率差距较大。因此,仅分析一下第 10 组与第1 组多空净值供参考,多空组合年化收益率11.75%,年化波动率 14.87%,最大回撤 28.9%。请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 9/29 金融工程研究金融工程研究报告报告 图图5:决策树模型多空组合净值:决策树模型多空组合净值 数据来源:东北证券 表表4:决策树多空组合收益:决策树多空组合收益 年化收益率年化收益率 年化波动率年化波动率 最大回撤最大回撤 夏普比率夏普比率 Calmar 多空组合多空组合 11.75%14.87%-28.90%0.79 0.41 数据来源:东北证券 从分组平均超额收益率来看,决策树模型没有明显的分类效果,表现最好一组是第七组,收益分布和组次没有明显的关联关系,单个决策树模型分类效果不好。4.2.支持向量机支持向量机 支持向量机 SVM 是一种基于统计学习的机器学习方法,由于在文本分类中表现出特有的优势,成为机器学习领域研究的热点。SVM 的学习方法主要包括:线性可分向量机、线性支持向量机以及非线性支持向量机。SVM 主要思想是,建立一个最优决策超平面,使得该平面两侧距平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。SVM 采用核函数技巧将原始特征映射到更高维空间,将分类问题转化为一个凸二次规划问题的求解,可解决原始低维空间线性不可分的问题。在线性可分的情况下,最优超平面的构建转化成下面最优化问题:.()10TTiim ins tyxb 在线性不可分情况下,引入误差带宽和惩罚函数,构造并求解约束最优化问题:请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 10/29 金融工程研究金融工程研究报告报告 1 2.()10 0iTiiTiiiim ins tyxb 其中是分类向量,b 是常数,i是样本点 i 的松弛变量,C 是对松弛变量的惩罚系数,()ix是将原始特征值映射到高维空间的核函数。SVM 的核心问题是选取合适的核函数,将低维空间的原始特征映射到高维空间。SVM 核函数分为线性核函数、多项式核函数、高斯(RBF)核函数、sigmoid 核函数,其中高斯核函数、线性核函数应用较广泛,本文在调参过程中确定最优核函数。数据实证,将分类模型输出概率值作为单因子值,进行分组回测,秩相关系数 IC与分组超额收益如下图所示,回测期内 IC 均值为 0.051,中位数为 0.06,正显著比率为 52.1%,负显著比率为 17.3%。图图6:秩相关系数(均值:秩相关系数(均值:0.051)图图7:支持向量机分组月度平均超额收益率:支持向量机分组月度平均超额收益率 数据来源:东北证券 数据来源:东北证券 表表5:支持向量机模型分组收益:支持向量机模型分组收益 组别组别 第第 1组组 第第 2组组 第第 3组组 第第 4组组 第第 5组组 第第 6组组 第第 7组组 第第 8组组 第第 9组组 第第 10组组 年化收益率年化收益率-6.1%5.4%5.2%-10.5%2.0%23.2%36.7%22.7%12.2%11.2%年化波动率年化波动率 32.6%31.9%34.9%35.0%32.9%34.1%37.7%33.8%30.9%33.2%最大回撤最大回撤-64.5%-51.0%-55.1%-80.8%-62.9%-41.0%-42.4%-47.1%-48.2%-54.3%夏普比率夏普比率(0.19)0.17 0.15 (0.30)0.06 0.68 0.97 0.67 0.40 0.34 Calmar比率比率(0.09)0.11 0.09 (0.13)0.03 0.57 0.86 0.48 0.25 0.21 数据来源:东北证券,Wind 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 11/29 金融工程研究金融工程研究报告报告 图图8:支持向量机模型多空组合净值:支持向量机模型多空组合净值 数据来源:东北证券 表表6:支持向量机多空组合收益:支持向量机多空组合收益 年化收益率年化收益率 年化波动率年化波动率 年化收益率年化收益率 最大回撤最大回撤 夏普比率夏普比率 Calmar 多空组合多空组合 16.05%17.29%16.05%-41.56%0.93 0.39 数据来源:东北证券 支持向量机第1组年化收益率为-6.1%,第10组年化收益率11.2%,夏普比率为0.34,相对第 1 组有明显提升,第 10 组与第 1 组的多空组合年收益率为 16.05%,夏普比率 0.93。从分组与多空组合收益来看,支持向量机相对决策树有比较好的表现,但是从分层效果看,表现最好的是第 7 组,收益分布和组次仍没有明显的关联关系。4.3.随机森林随机森林 随机森林是由多棵决策树生成的。由于决策树是基于全样本,容易产生过拟合的问题,从而影响模型的泛化能力,因此在决策树的基础上,采用多棵决策树生成的随机森林来改进决策树的结果。随机森林是利用 bootstrapping 进行采样,是一种有放回抽样方法,随机且有放回地从训练集中的抽取 N 个样本集用于决策树训练,且单个数据集样本个数与原训练集样本个数一致。请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 12/29 金融工程研究金融工程研究报告报告 图图9:随机森林算法示意图:随机森林算法示意图 数据来源:东北证券、机器学习实战 随机森林的生成一般分为三个步骤:随机森林由 n 个决策树构成,对样本集合利用 bootstrapping 采样方法进行 n 次采样,形成 n 个训练样本;从特征集合 A 中随机选取 K 个特征,基于 K 个特征生成决策树,并得到每一棵树的决策结果;利用投票机制得出最终决策结果。设 n 个决策树对应的决策结果为1h Tii,12h,.,iNccc,N 为输出的类别数量,hi在训练集合上的输出结果为一个 N 维的向量12(,.,)Niiihhh,其中jih是hi在类cj 下的输出,x 为训练数据集合。最终决策的生成大多采用三种投票机制:绝对多数投票法:即若某个类标签得票数量过半,则最终决策为该类标签;否则拒绝该决策。,0.5111,TNTjkcifhhjiiikirejectotherw iseH 相对多数投票法:1arg m axTjiijhHc 加权投票法:1arg m axTjiiijw hHc 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 13/29 金融工程研究金融工程研究报告报告 图图10:秩相关系数(均值:秩相关系数(均值:0.056)图图11:分组月度平均超额收益率:分组月度平均超额收益率 数据来源:东北证券 数据来源:东北证券 数据实证,将分类概率作为单独因子值,进行分组回测,秩相关系数 IC 与分组超额收益如图所示,回测期内 IC 均值为 0.056,中位数为 0.052,正显著比率为 59.2%,负显著比率为 20.4%。按照归属于下月上涨类别的概率值排序,分层和取概率值最大 100 只股票,分别计算分组和前 100 的累计净值和风险收益指标。图图12:分组累计净值:分组累计净值 图图13:排名前:排名前 100 净值净值 数据来源:东北证券 数据来源:东北证券 表表7:随机森林模型分组收益:随机森林模型分组收益 组别组别 第第 1组组 第第 2组组 第第 3组组 第第 4组组 第第 5组组 第第 6组组 第第 7组组 第第 8组组 第第 9组组 第第 10组组 前前 100 年化收益率年化收益率 6.3%8.3%8.6%11.0%10.3%12.2%11.7%12.6%13.8%14.0%16.2%年化波动率年化波动率 32.3%31.6%32.8%31.5%32.3%31.5%31.6%31.5%31.1%31.6%31.9%最大回撤最大回撤 -50.0%-45.1%-43.0%-38.8%-42.2%-41.3%-44.1%-42.4%-43.0%-40.7%-41.5%夏普比率夏普比率 0.19 0.26 0.26 0.35 0.32 0.39 0.37 0.40 0.45 0.44 0.51 CalmarCalmar 比率比率 0.13 0.18 0.20 0.28 0.25 0.30 0.26 0.30 0.32 0.35 0.39 数据来源:东北证券,Wind 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 14/29 金融工程研究金融工程研究报告报告 图图14:随机森林模型多空组合净值:随机森林模型多空组合净值 数据来源:东北证券 表表8:随机森林模型多空组合收益:随机森林模型多空组合收益 年化收益率年化收益率 年化波动率年化波动率 最大回撤最大回撤 夏普比率夏普比率 Calmar 多空组合多空组合 7.11%9.10%-11.22%0.78 0.63 数据来源:东北证券 从分层来看,随机森林效果比较好,第 1 组年化收益率为 6.3%,夏普比率 0.19,第10 组年化收益率为 14%,夏普比率 0.44。归属类别 1 预测概率值最大 100 只股票,年化收益率为 7.11%,夏普比率为 0.78,随机森林相对决策树和支持向量机,预测效果更为明显。4.4.AdaBoost AdaBoost 是把多个“弱学习算法”提升(boost)为“强学习算法”,算法在迭代训练时,关注被错分样本,器重性能好分类器。最终分类器是由数个弱分类器(weak classifier)组合而成的,相当于最后 m 个弱分类器来投票决定分类,而且每个弱分类器的“话语权”不一样。AdaBoost 算法结构如图所示:请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 15/29 金融工程研究金融工程研究报告报告 图图15:AdaBoost 算法示意图算法示意图 数据来源:东北证券,Wind 最终分类器是由数个弱分类器(weak classifier)组合而成的,相当于最后 m 个弱分类器来投票决定分类。算法的具体过程可以表示为:首先,初始化所有训练样本的权重为 1/N,其中 N 为训练样本个数,并根据初始化的权值训练弱分类器;对于上一个弱分类器,给分类错误的样本重新赋予一个较大的权重;根据重新赋权的训练样本进行下一次弱分类器训练;同理,再次对于分类错误的样本重新赋予一个较大的权重,并且再次根据重新赋权的训练样本进行下一次弱分类器训练。经过多次迭代之后,得到最终的分类器。我们用数学公式表示上述过程为:1初始化训练样本的权值1111(,)NDww,11iwN 2使用具有权值mD的样本训练得到弱分类器mG,并计算mG在训练样本上的分类误差率:1()()Nmmiim imiiieP GxywI Gxy 3计算 Gm的系数:11log2mmmee,log 为自然对数 4更新训练集的权值:11,11,(,)mmmNDww,1,()m imimimimwwexpy GxZ 其中 Zm是规范化因子,,1()Nmm imimiiZwexpy Gx 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 16/29 金融工程研究金融工程研究报告报告 5最终得到强分类器()Gx:1()()()MmmmGxsignfxsignGx 数据实证,将模型分类输出概率值作为单独因子值,进行分组回测,秩相关系数 IC与分组超额收益如图所示,回测期内 IC 均值为 0.034,中位数为 0.044,正显著比率为 50%,负显著比率为 20.4%。图图16:秩相关系数(均值:秩相关系数(均值:0.034)图图17:分组月度平均超额收益率:分组月度平均超额收益率 数据来源:东北证券 数据来源:东北证券 按照模型输出结果排序,进行分组和取概率值最大 100 只股票,计算累计净值如 下图所示。图图18:分组累计净值:分组累计净值 图图19:排名前:排名前 100 净值净值 数据来源:东北证券 数据来源:东北证券 表表9:AdaBoost 模型分组收益模型分组收益 组别组别 第第 1组组 第第 2组组 第第 3组组 第第 4组组 第第 5组组 第第 6组组 第第 7组组 第第 8组组 第第 9组组 第第 10组组 前前 100 年化收益率年化收益率 3.1%8.4%10.5%11.4%11.1%11.9%14.9%10.4%13.3%13.6%14.8%年化波动率年化波动率 31.9%32.3%31.3%31.8%31.7%31.8%32.5%31.9%32.1%31.4%31.2%最大回撤最大回撤 -55.2%-46.6%-42.0%-42.1%-41.7%-42.2%-39.4%-42.7%-41.0%-37.0%-35.1%夏普比率夏普比率 0.10 0.26 0.33 0.36 0.35 0.38 0.46 0.33 0.41 0.43 0.47 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 17/29 金融工程研究金融工程研究报告报告 C Calmaralmar 比率比率 0.06 0.18 0.25 0.27 0.27 0.28 0.38 0.24 0.32 0.37 0.42 数据来源:东北证券,Wind 图图20:AdaBoost 模型多空组合净值模型多空组合净值 数据来源:东北证券 表表10:AdaBoost 模型多空组合收益模型多空组合收益 年化收益率年化收益率 年化波动率年化波动率 最大回撤最大回撤 夏普比率夏普比率 Calmar 多空组合多空组合 9.72%11.70%-16.21%0.83 0.60 数据来源:东北证券 4.5.GBDT GBDT 也是集成学习 Boosting 算法的一种,与 AdaBoost 相比,主要在弱分类器和迭代方法上有所不同。GBDT 限定模型中使用的弱分类器只能为 CART 回归树模型,而且迭代方法和 AdaBoost 也有区别。在 GBDT 的迭代中,假设我们前一轮迭代得到的强学习器是 ft-1(x),损失函数是 L(y,ft-1(x),本轮迭代目标是找到一个 CART 回归树模型的弱学习器 ht(x),让此轮迭代损失函数达到最小值:1(,()(,()()tttL yfxL yfxhx 对于二分类的 GBDT,如果用类似于逻辑回归的对数似然损失函数表示,则损失函数为:(,()log(1exp()y1,1L yfxyfx 负梯度误差为:1()()(,()/(1exp()()titifxfxiiiiL yfxryy fxfx 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 18/29 金融工程研究金融工程研究报告报告 对于生成的决策树,我们各个叶子节点的最佳残差拟合值为:c1(log(1exp()argm initjtjitixRcyfxc 更新学习器为:11()()()Jtttjitjjfxfxc IxR 以上为 GBDT 原理,我们将 34 个价量特征指标载入 GBDT 模型,进行模型训练、验证和测试,秩相关系数 IC 与分组超额收益如图所示,回测期内 IC 均值为 0.037,中位数为 0.028,正显著比率为 45.9%,负显著比率为 22.4%。图图21:秩相关系数(均值:秩相关系数(均值:0.037)图图22:分组月度平均超额收益率:分组月度平均超额收益率 数据来源:东北证券 数据来源:东北证券 图图23:分组累计净值:分组累计净值 图图24:排名前:排名前 100 净值净值 数据来源:东北证券 数据来源:东北证券 表表11:GBDT模型分组收益模型分组收益 组别组别 第第 1组组 第第 2组组 第第 3组组 第第 4组组 第第 5组组 第第 6组组 第第 7组组 第第 8组组 第第 9组组 第第 10组组 前前 100 年化收益率年化收益率 0.8%9.6%12.1%10.5%11.4%13.9%13.2%12.1%11.4%13.5%16.1%年化波动率年化波动率 34.2%32.7%32.0%32.1%31.8%30.8%31.7%31.5%31.3%30.8%31.7%最大回撤最大回撤 -58.0%-46.7%-41.9%-41.8%-41.7%-38.0%-41.8%-38.4%-39.6%-38.0%-40.3%夏普比率夏普比率 0.02 0.30 0.38 0.33 0.36 0.45 0.42 0.38 0.37 0.44 0.51 CalmarCalmar 比率比率 0.01 0.21 0.29 0.25 0.27 0.37 0.32 0.31 0.29 0.36 0.40 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 19/29 金融工程研究金融工程研究报告报告 数据来源:东北证券 图图25:GBDT模型多空组合净值模型多空组合净值 数据来源:东北证券 表表12:GBDT模型多空组合收益模型多空组合收益 年化收益率年化收益率 年化波动率年化波动率 最大回撤最大回撤 夏普比率夏普比率 Calmar 多空组合多空组合 10.98%12.27%-16.96%0.90 0.65 数据来源:东北证券 4.6.XGBoost XGBoost 是在 GBDT 基础上进行了一定改进,相当于加强版的 GBDT,和 GBDT相比,XGBoost 通过正则化减少了模型的过拟合可能性,通过并行运算处理方法提升速度。秩相关系数IC与分组超额收益如图所示,回测期内IC均值为0.049,中位数为0.059,正显著比率为 55.1%,负显著比率为 13.3%。图图26:秩相关系数(均值:秩相关系数(均值:0.049)图图27:分组月度平均超额收益率:分组月度平均超额收益率 请务必阅读正文请务必阅读正文后的后的声明及说明声明及说明 20/29 金融工程研究金融工程研究报告报告 数据来源:东北证券 数据来源:东北证券 图图28:分组累计净值:分组累计净值 图图29:排名前:排名前 100 净值净值 数据来源:东北证券 数据来源:东北证券 表表13:XGBoost 模型分组收益模型分组收益 组别组别 第第 1组组 第第 2组组 第第 3组组 第第 4组组 第第 5组组 第第 6组组 第第 7组组 第第 8组组 第第 9组组 第第 10组组 前前 100 年化收益率年化收益率 -1.3%6.2%10.7%10.3%12.8%14.7%13.7%14.5%13.8%12.9%13.5%年化波动率年化波动率 34.4%32.7%32.0%32.4%31.8%31.5%31.7%31.4%30.9%30.7%31.1%最大回撤最大回撤 -57.0%-46.6%-41.7%-42.1%-43.0%-37.7%-42.2%-40.9%-41.5%-41.4%-43.8%夏普比率夏普比率 (0.04)0.19 0.34 0.32 0.40 0.47 0.43 0.46 0.45 0.42 0.43 CalmarCalmar 比率比率 (0.02)0.13 0.26 0.24 0.30 0.39

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开