证券
_20181030_
一种
倒向
切片
回归
方法
降维
预测
组合
构建
http:/ 1/18 请务必阅读正文之后的免责条款部分 量化研究 人工智能系列 人工智能系列 降维、预测与组合构建一种“倒向切片回归”方法降维、预测与组合构建一种“倒向切片回归”方法|人工智能|研究背景:研究背景:预测问题是金融研究的核心问题,机构投资者很多时候面临的是美丽的烦恼,就是可用来预测的变量太多,各种风格因子、异像因子、基本面因子,多达上百个。AI 就是在这些超高维数据结构下合理挖掘信息的一种有效方法,引用萨金特的话,AI 本质上就是统计学,所以,作者试图在 JASA 等统计前沿杂志上,寻找适合金融预测的优秀统计方法。本文利用算法主要参考两位优秀华人统计学家的成果,一个是 UCLA 教授李克昭在 JASA 上的 SIR(Sliced Inverse Regression)方法,一个是普林斯顿范剑青教授在 Econometrics 的发表。SIR 思想:思想:常规降维方法是主成分分析法(PCA)或者类似的改进方法,但是此类方法有一个重要的缺陷,就是因子降维时只考虑了因子的信息,被预测变量的信息完全被忽略,降维后得到的是公共因子,即任何被预测变量都采用相同的主成分因子。而 SIR 方法,降维时考虑被预测变量信息,不同的被预测变量下,降维后的得到的主成份也不同,极大的提高了拟合精度。因子降维时只考虑了因子的信息,被预测变量的信息完全被忽略,降维后得到的是公共因子,即任何被预测变量都采用相同的主成分因子。而 SIR 方法,降维时考虑被预测变量信息,不同的被预测变量下,降维后的得到的主成份也不同,极大的提高了拟合精度。利用 SIR 方法会得到“充分预测变量”,然后利用该变量进行进一步的预测研究,预测效果会大幅提升,可以说“SIR 方法就是为预测而生的”。SIR 金融预测运用:金融预测运用:由于 SIR 方法无需过度研究因子本身,也无需研究被预测股票与因子之间的关系无需研究被预测股票与因子之间的关系,简化了很多的分析工作。本文利用 SIR 对本文利用 SIR 对(,)ttRf+1 进行降维分析,得到充分预测向量。然后利用 进行降维分析,得到充分预测向量。然后利用(,)ttRfb+1做回归分析,得到线性模型系数参数。利用 t+1 期股票收益和 t 期充分预测变量的线性关系,带入 t 期的充分预测变量数值,得到未来股票收益率的预测值。鉴于单一股票预测值本身没有意义,该方法适合对一个股票组合给出相对排序,获得特定样本下股票超低配的建议。对主动权益投资、指数增强策略、对冲策略能提供一些参考意见。做回归分析,得到线性模型系数参数。利用 t+1 期股票收益和 t 期充分预测变量的线性关系,带入 t 期的充分预测变量数值,得到未来股票收益率的预测值。鉴于单一股票预测值本身没有意义,该方法适合对一个股票组合给出相对排序,获得特定样本下股票超低配的建议。对主动权益投资、指数增强策略、对冲策略能提供一些参考意见。策略效果:策略效果:见右边图,模型利用过往 60 个交易日的数据,进行主成分分析,取前25 个主成分作为因子,然后见右边图,模型利用过往 60 个交易日的数据,进行主成分分析,取前25 个主成分作为因子,然后利用 T 期个股收益与滞后一期的 25 个因子做SIR 降维分析,得到预测变量,利用预测变量与前一期股票收益的线性关系,预测股票未来收益,取收益率排名前 30 的股票作为多头组合,后 30 作为空头组合。组合权重全部利用等权重。模型每隔 30 个交易日调仓,重新获得新的组合。机构投资者可以利用更有效“因子”来提升预测效果。机构投资者可以利用更有效“因子”来提升预测效果。SIR 方法的 AI 表示:策略效果:证券研究报告 分析师:包赞 S1230518090006 分析师:包赞 S1230518090006 TEL:021-80108127 TEL:021-80108127 量化研究报告量化研究报告 http:/ 2/18 请务必阅读正文之后的免责条款部分 正文目录 正文目录 1.前言1.前言.32.倒向切片回归介绍2.倒向切片回归介绍.42.1.充分降维思想.42.2.SIR 基本思想.62.3.SIR 算法与 R 程序.72.4.SIR 的 AI 表述与模拟计算.103.倒向切片回归金融运用3.倒向切片回归金融运用.113.1.SIR 预测性能展示.113.2.金融上因子预测模型.123.3.股票收益预测 SIR 算法.134.应用 SIR 方法构建组合举例4.应用 SIR 方法构建组合举例.13 图表目录 图表目录 图 1:中心子空间举例图示.6图 2:SIR 算法流程直观描述.8图 3:SIR 预测流程 AI 化展示.10图 4:SIR 预测向量具有更好预测性质.11图 5:金融投资下 SIR 预测流程 AI 化展示.12图 6:AI 化的预测流程.14图 7:预测组合累积收益情况.14表 1:2018 年以来多头股票持仓明细.15 附录:附录:1、参考文献 2、R 代码 量化研究报告量化研究报告 http:/ 3/18 请务必阅读正文之后的免责条款部分 1.1.前言 前言 预测问题是金融研究的核心问题,机构投资者很多时候面临的是美丽的烦恼,就是可用来预测的变量太多,各种风格因子、异像因子、基本面因子,多达上百个,如何有效利用这些因子构建投资组合获取收益是最重要、最被关心的课题。在 AI 算法日益盛行的今天,各类机器学习、人工智能算法充斥各行各业,引用萨金特的话,AI 本质上就是统计学,所以,作者试图在 JASA 等统计前沿杂志上,寻找适合金融预测的统计方法。本文利用算法主要参考两位优秀华人统计学家的成果,一个是 UCLA 教授李克昭在 JASA 上的 SIR 方法,一个是普林斯顿范剑青教授在 Economerics 的发表。当然 AI 算法并不是否定金融学,AI 只是提升预测准确性的工具,范剑青在一次报告中展示预测债券风险溢价的模型,他们利用 131 个宏观经济变量数据,其它数据依据这些数据挖掘获得,最终用了 8 个汇总宏观经济系列指标,用已有的信息来预测。发现有专业知识指导的机器学习可以改进预测的效果。如果只是用简单的算法来预测,大概可以预测 18%,如果用因子选择,可以预测到 24%左右,如果说因子选择的更合适,可以预测到 32%,如果再加入神经网络,最后的结果可以达到 45%左右,这个例子就说 AI 算法是有用的,但是一定要和金融专业知识相结合,尽量去选择更好的因子,这样才有最合适的预测效果。本文着重向大家介绍“倒向切片回归方法”(Sliced Inverse Regression,SIR),并且举例构建投资组合。由于作者因子库尚未搭建完成,本文用主成份分析对沪深 300 成分股抽取 30 个主成份,作为模型基础数据构建组合,因为文章目标是向投资者介绍 SIR 方法,所以,这样做不影响文章展示效果,反而,“不合适”的因子下,如果组合业绩良好,能更好证实 SIR 方法在金融投资方面应用的有效性。SIR 方法的名字就能字面理解该统计方法,倒向切片回归中的“倒向”指的是|E X Y,普通 OLS 回归关心的是|EYX,“切片”指的是我们把 Y 切成不同的区间来估计倒向的条件均值,具体算法请见后文。尽管 SIR 是经典统计方法,但是后文展示也可看出,该方法也是标准的 AI 算法。该方法由 UCLA 教授、著名统计学家李克昭提出。通常情况下,如果用大量的因子,大到因子的个数大于样本时间长度,来预测一个时间序列变量,会采用降维的方法,通过降维抽取能够涵盖因子的主要信息的特征向量,然后利用该向量来进行预测分析。常规方法是主成分分析法(PCA)或者类似的改进方法,但是此类方法有一个重要的缺陷,就是因子降维时只考虑了因子的信息,被预测的信息完全被忽略,降维后得到的是公共因子,即任何被预测变量都采用相同的主成分因子。而 SIR 方法,降维时考虑被预测变量信息,不同的被预测变量下,降维后的得到的主成份也不同,极大的提高了拟合精度,利用 SIR 方法会得到“充分预测变量”,然后利用该变量进行进一步的预测研究,预测效果会大幅提升。高维统计方法中,降维方法很多,相比主成分分析,SIR 考虑了被预测变量的信息;相比有偏估计的 Lasso,SIR 是无偏估计,精度方面有优势;相比有特定分布假设下的参数方法,SIR 是不需要参数分布假设的非参方法,所以,SIR 方法尤其适合金融建模,之所以,该方法在金融方面的运用不多,主要是由于该方法的数学基础是矩阵论、线性空间和泛函分析,理解起来尤其抽象,影响了该方法的推广。除了预测方面的运用,在做金融分析时候,经常会利用定价因子或者行业因子,比如 Fama 五因子来计算 R方、alpha 等指标来进行分析,具体来说,利用 FF-5 计算股票 alpha,然后构建 alpha 动量策略,或者在基金选择方面,利用 R 方来进行基金优选。这些分析都用利用 SIR 方法,由于其“充分预测变量”具有更好的拟合效果,其 alpha 更“纯洁”,R 方也更加客观,否则,回归分析的 R 方会随着被预测变量个数的增多而不断增大。量化研究报告量化研究报告 http:/ 4/18 请务必阅读正文之后的免责条款部分 本文第二部分重点介绍 SIR 方法的理论基础,然后介绍其算法,为了充分服务机构投资者,文中给出 SIR 方法的 R 语言程序。在第三部分,着重介绍该算法在金融中的运用,并且在统计模拟上,证明该方法在预测方面有更好效果。第四部分给出组合构建举例。2.2.倒向切片回归介绍 倒向切片回归介绍 在信息技术时代,数据的来源和类型多样化,数据的规模越来越大。如果直接处理这样大规模的数据,可能会导致“维数灾难”。把高维数据降低为低维数据,并且使得降低维数的数据能够反映数据样本所表达的信息,这样的降维过程就变得非常有意义。目前,在参数模型下的自变量降维已经有非常成熟的方法,如 Lasso 回归(Tibshirani,1996),平滑截断绝对偏差(SCAD;Fan&Li,2001)等等。然而,在实际问题中,常常缺乏足够的信息支持一个参数模型的设定。因此如何在非参数环境下进行自变量的降维成为一个重要问题,SIR 就是非参数模型下的降维方法。2.1.2.1.充分降维思想 充分降维思想 在回归中的降维问题中,一些传统的降维方法,比如主成分分析、因子分析、偏最小二乘方法,在实际的计算中是非常有用的。但是主成分分析以及因子分析没有考虑响应变量的信息。因此,可能要损失一部分回归的信息。而偏最小二乘方法只是考虑了线性模型的情况。对于更加一般的情况,比如非线性的时候。我们将介绍充分降维的思想。这种想法的一个很重要的特点便是把X用一些低维的线性组合Xb替代,但是却不损失条件分布的任何信息。而且,这种降维的方法不假定任何的参数模型。因此,我们认为,这种充分降维的方法对金融分析是非常有用的。为了不损失信息、提升拟合精度,不能把 Y 分开来而只讨论 X。下文,我们介绍充分降维,即在不导致信息损失的条件下降低 X 的维度。充分降维的思想是在不假定任何参数模型以及不损失条件分布|F X Y中所含有的信息的前提下,通过数据中高维的自变量的一些线性组合(个数较少),以之代替原自变量,而不导致原始回归信息的损失,来达到降维的目的。寻找原自变量的若干个线性组合这是解决高维自变量问题的一个合理方案。考虑因变量为 Y 关于自变量,在回归问题中,我们有模型如:(,.,)ttKttyfxxbbe=1 其中:(,.,)ttptxxx=1 是一个p1矩阵。这里非随机常数向量b是未知的列向量,K其中未知但远远小于X的维数p,随机误差e和X独立但分布未知,f是一个未知的函数。量化研究报告量化研究报告 http:/ 5/18 请务必阅读正文之后的免责条款部分 如果说,我们可以找出这样的向量,Kb bb12对某个函数f成立,那么,我们就将回归问题变成了Y对,.,tKtxxbb1进行回归拟合。充分降维就是要找到这样的一组向量使得K尽可能小,并且在给定,.,tKtxxbb1时,X与Y独立。也可以假设存在矩阵b(其维数K远远小于自变量 X 的维数 p),b的列向量由,Kb bb12构成,在给定Xb时,Y 和 X 条件独立,即 YX|Xb 其中,“”表示独立。这个模型等价于:|YX与|YXb有相同的条件分布。也就是说,p维的向量可以被 K 维的线性组合Xb代替,但是不损失 Y 关于 X 的回归的任何信息。这样的b总是存在的,且不唯一。因此,我们实际上是寻找自变量 X 张成的某个子空间 S,满足 YX|SP X 这里的SP表示关于内积的投影算子。满足这个条件的空间我们称为降维子空间。在一些较弱的条件满足时,所有满足这一些条件的空间的交集依然是一个降维空间。这时,我们称这个交集为中心降维子空间(Central dimension reduction subspace)。今后,我们记这个 CDR 子空间为|Y XS。我们通常假定是存在|Y XS,并且记|Y XS的维数 K 是 Y 关于 X 的回归的结构维数。如果X的协方差矩阵XS是正定的话,我们标准化为:/()XZXE X-=S-1 2 Cook(1998)证明了/|Y XXY ZSS-=S1 2。也就是说,基于 X 以及基于标准化的 Z 得到的两个空间之间可以自由转换的。因此,我们以后不妨假定 X 是标准化的随机变量。文献上有很多比较好的办法来估计 CDR 空间。比如说,倒向切片回归(SIR)、切片平均方差估计(SAVE)、以及等高线回归(SCR)。本文采用最传统的 SIR方法。关于中心子空间,我们给出一个直观的举例:XYXe-=+1211;(,.)XN220 0 1(,.)XYNe-=+1210 0 11 量化研究报告量化研究报告 http:/ 6/18 请务必阅读正文之后的免责条款部分 由于|YX和|YX1 分布相同,所以X1是中心子空间。图图 1:中心子空间举例图示:中心子空间举例图示 *数据来源:浙商证券研究所 2.2.2.2.SIR 基本思想 SIR 基本思想 切片逆回归是由 Li(1991)提出,这种方法操作简便,且较为稳健可靠,至今仍然被广泛使用。它沿用了主成分的基本思想,可以看作是主成分方法在回归背景下的改进。记cov(|)E x YhS=,cov()xxS=。求满足下式的相对特征向量,kbb1 iix ibbhlS=S 称第 i 个相对特征向量ib为第 i 个切片逆回归(SIR)方向。若仅有前 k 个特征值,iikl=1显著非零,则取其对应的 k 个相对特征向量所张成的空间(,)kLbb1为降维空间。此方法基于的矩阵是cov(|)E x YhS=,考虑到了因变量 Y 与自变量 x 之间的关系。为了确保逆回归函数(|)E X Y均在子空间 CDR 中,切片逆回归假定了一个关键的条件:线性条件:(|)TBE XX BP X=由于实际问题中 B 是未知的,因此我们通常要假定这个线性条件对任意的矩阵 B 都要成立。此时,这个线 量化研究报告量化研究报告 http:/ 7/18 请务必阅读正文之后的免责条款部分 性条件等价于假定自变量 X 是来自于椭球对称分布(Eaton,1986)。同时也指出线性条件不是一个很强的条件,因为高维数据的低维投影是渐近正态的。当线性条件成立的时候,我们有:(|)(|,)|(|)|(|)TTBE X YE E X Y X BYE E XX BYP E X Y=所以,(|)MVar E X Y=的列向量张成的空间总是属于 CDR 子空间的。的列向量张成的空间总是属于 CDR 子空间的。这里的 M 就称为切片逆回归的核矩阵了。此时,矩阵的非零特征值所对应的特征向量就是中心降维子空间的一个估计了。很显然,当 Y 是低维,比如说一维的时候,很多非参数的方法都是可以直接使用的。其中,Li(1991)提出了“切片”的想法。也就是把响应变量按照大小分成若干“切片”,得到每一个“切片”以内对应的自变量的平均值,这些平均值构成的方差矩阵便是倒向切片回归的核矩阵的一个很好的估计了。其中,Li(1991)提出了“切片”的想法。也就是把响应变量按照大小分成若干“切片”,得到每一个“切片”以内对应的自变量的平均值,这些平均值构成的方差矩阵便是倒向切片回归的核矩阵的一个很好的估计了。切片估计的相合性是统计中的一个重要问题。Hsing and Carroll(1992)以及 Zhu and Ng(1995)证明了切片数 H 从n到/n2时,渐近正态性以及n相合性质总是成立的。这里 n 是样本点的个数。Li(1991)以及 Zhu,OhtakiandLi(2005)的一些模拟例子说明了切片估计得到的切片逆回归的效果对切片数非常不敏感的。很显然,这个发现得到了 Hsing and Carroll(1992)以及 Zhu and Ng(1995)的理论支持。另外,Zhu and Fang(1996)利用核函数来估计切片逆回归的核矩阵。当每个窗宽范围以内包含/n1 2到/n3 4个样本点的时候,有n相合性以及渐近正态性的。很显然,从这个角度来说,Li(1991)的切片估计由于计算简单,具有一定的优势的。2.3.2.3.SIR 算法与 R 程序 SIR 算法与 R 程序 先简单介绍一下数学推导:传统的协方差矩阵:()()ntiiiXXXXn=S=-1 niiXXn=1 分组内协方差矩阵:hjjjnWn=S1 jS 是第j个切片的协方差估计,()jjncard C=为第j组样本个数。切片间协方差矩阵:()()njtjjinBXX XXn=-1 ijjiXCjXXn=依据矩阵运算规则:依据矩阵运算规则:量化研究报告量化研究报告 http:/ 8/18 请务必阅读正文之后的免责条款部分 BWS=+依据拟合规则 依据拟合规则,我们需要最小化给定 Y 值后最小化给定 Y 值后tb X的方差的方差,由于总方差恒定,相当于最大化切片间方差。由于总方差恒定,相当于最大化切片间方差。argmaxtbbbb=GtbbS=1其中:()()hjtjjjnXX XXn=G=-1,ijjiYSjXXn=这个优化的解 b 就是-S G1的特征向量。尽管 Li 关于 SIR 理论的描述涉及到矩阵论、线性空间理论与泛函分析,实际运用和理解,可以从更简洁直观的方式来理解,下图用直观性形式来描述。图图 2:SIR 算法流程直观描述算法流程直观描述 *注:红色虚线框内两边同乘X-S1即标准化后的特征向量形式。量化研究报告量化研究报告 http:/ 9/18 请务必阅读正文之后的免责条款部分 为了编程考虑,我们写出 SIR 算法流程,并且给出 SIR 算法的 R 代码。SIR 算法:为了编程考虑,我们写出 SIR 算法流程,并且给出 SIR 算法的 R 代码。SIR 算法:1、1、计算样本均值和样本方差,然后标准化:计算样本均值和样本方差,然后标准化:()E Xm=var()XS=/()iiZXm-=S-1 2 ,.,in=1 2、2、估计:估计:|hE Z YJ,H 为切片个数:,H 为切片个数:()|()hhhE ZI YJE Z YJE I YJ=,.,hH=1 3、3、估计:估计:var|()Zg Y,()()Hhhg YhI YJ=1 ()|()|()HThhhhE I YJE ZI YJE ZI YJ=L=1 4、4、,.,ruu1表示表示L前 r 个特征向量,前 r 个特征向量,kb/ku-=S1 2,,.,kr=1,充分预测变量为:,充分预测变量为:(),.,TkXbm-1()TknXbm-R 程序函数如下:R 程序:R 程序函数如下:R 程序:1、1、矩阵幂函数:矩阵幂函数:mat_power=function(a,alpha)a=round(a+t(a)/2,7);tmp=eigen(a)return(tmp$vectors%*%diag(tmp$values)alpha)%*%t(tmp$vectors)2、2、()g Y函数 函数 discretize=function(y,h)n=length(y);m=floor(n/h)y=y+.00001*mean(y)*rnorm(n)yord=yorder(y)divpt=numeric();for(i in 1:(h-1)divpt=c(divpt,yordi*m+1)y1=rep(0,n);y1y=divpth-1=h for(i in 2:(h-1)y1(y=divpti-1)&(ydivpti)=i return(y1)量化研究报告量化研究报告 http:/ 10/18 请务必阅读正文之后的免责条款部分 3、3、充分预测变量函数:充分预测变量函数:sir=function(x,y,h,r)p=ncol(x);n=nrow(x)signrt=mat_power(var(x),-1/2)xc=t(t(x)-apply(x,2,mean)xst=xc%*%signrt ydis=discretize(y,h)yless=ydis;ylabel=numeric()for(i in 1:n)if(var(yless)!=0)ylabel=c(ylabel,yless1);yless=ylessyless!=yless1 ylabel=c(ylabel,yless1)prob=numeric();exy=numeric()for(i in 1:h)prob=c(prob,length(ydisydis=ylabeli)/n)for(i in 1:h)exy=rbind(exy,apply(xstydis=ylabeli,2,mean)sirmat=t(exy)%*%diag(prob)%*%exy return(signrt%*%eigen(sirmat)$vectors,1:r)2.4.2.4.SIR 的 AI 表述与模拟计算 SIR 的 AI 表述与模拟计算 利用 SIR 的充分预测向量做预测可以理解为人工智能的四层次深度学习结构,从金融上来说利用 SIR 的充分预测向量做预测可以理解为人工智能的四层次深度学习结构,从金融上来说,tx表示原始的经济信息,tf表示依据原始信息构建的指标因子,第三层为利用 SIR 得到的充分预测向量,最终利用这些向量,得出预测值。图图 3:SIR 预测流程预测流程 AI 化展示化展示 *数据来源:浙商证券研究所 量化研究报告量化研究报告 http:/ 11/18 请务必阅读正文之后的免责条款部分 为了效率考虑,实际计算也可运用 dr 函数包,下面利用 dr 包,来进行 SIR 计算举例。yxxxxxe=+32123452369 其中,ixi=1 2 3 4 5为解释变量,y为被解释变量,为误差项。通过运用 dr()dr()函数,找到,iikb=1;再运用 lm()lm()函数进行线性拟合。模拟计算,假设这些变量都服从 1-2 的均匀分布,残差服从均值为 0,标准差为 0.1 的正太分布,通过计算,得到投射向量:beta=c(-0.756,-0.128,-0.327,-3.277,-0.118)。进一步按照下式计算,得到充分预测向量:x_1-beta1,1*x1+beta2,1*x2+beta3,1*x3+beta4,1*x4+beta5,1*x5 利用该向量,对 y 变量进行回归分析,充分预测向量 p 值显著,R 方达到 97.4%,从这看出,SIR 方法做到了在不损耗信息的条件下,达到降维的效果。利用该向量,对 y 变量进行回归分析,充分预测向量 p 值显著,R 方达到 97.4%,从这看出,SIR 方法做到了在不损耗信息的条件下,达到降维的效果。3.3.倒向切片回归金融运用 倒向切片回归金融运用 3.1.3.1.SIR 预测性能展示 SIR 预测性能展示 既然本文强烈推介 SIR 在金融上的运用,不仅仅要在数据结构上与解决方案上证明适合金融运用,更要证明其良好的预测性质。这一小结,我们构建一个“粗糙”模拟模型,用来展示 SIR 构建的预测向量具有更好的预测性质。“粗糙”模型是生成十变量随机矩阵和依据此线性构成的 y,然后分别利用 SIR 和 PCA 方法,构建预测向量,对 T+1 期进行预测,然后考察预测值与真实值的偏离。此处我们选择“相对误差=(预测值-真实值)/真实值”来比较二者与真实值之间的差距。图图 4:SIR 预测向量具有更好预测性质预测向量具有更好预测性质 *数据来源:建模过程数据 量化研究报告量化研究报告 http:/ 12/18 请务必阅读正文之后的免责条款部分 在该图中,红色圆点代表切片逆回归 SIR 降维回归法的相对误差序列,蓝色三角点代表主成分分析 PCA 降维回归法的相对误差序列。由该图可以看出,SIR 的偏差分布大致集中在 0 附近,在(-0.3,0.3)范围内波动且分布呈现均值为零的正态分布。而 PCA 的偏差分布较为离散,有部分偏差点甚至超出了 0.6。由此可见,PCA 的误差较大,预测性能不如 SIR 降维后的预测向量。3.2.3.2.金融上因子预测模型 金融上因子预测模型 考虑以下因子模型,1tr是希望被预测的股票在未来的收益率:(,)ttL ttrhffffe+=111 (3-1),iti titrb fuiptT=+11 (3-2)考虑以下因子模型,itr是 t 时刻第 i 个股票收益率,b 是 K X 1 维因子载荷向量,(,)ttKtfff=1是 K X 1维因子,itu是误差项(异质成分)。为了便于记号,我们记(,)ttptrrr=1,1(,)tpBbb,1(,)ttptuuu。3.1 式中 h()是未知函数,1t是与tf和itu独立的随机误差。1,L的线性组合是 K 维标准正交向量。显然,这个模型同样适用于横截面回归。由于没有完备因子库,我们下文组合构建举例采用公式 3.2 主成分分析法来构建因子,当然,很多机构投资者已经有因子数据库,可以忽略 3.2 式。股票收益的充分预测也可用深度学习结构表现,由四层线性或者非线性过程进行降维。充分预测和深度学习的关联见图 5。图图 5:金融投资下:金融投资下 SIR 预测流程预测流程 AI 化展示化展示 *数据来源:浙商证券研究所 量化研究报告量化研究报告 http:/ 13/18 请务必阅读正文之后的免责条款部分 3.3.3.3.股票收益预测 SIR 算法 股票收益预测 SIR 算法 SIR 金融运用算法:SIR 金融运用算法:1、得到被估计因子,ttTf=1;2、对,ttTf=1 进行标准化;3、构建|f y:|(|)(|)Hf ytthtthhE fyI E fyIH+=S=1111 4、从|f yS的 L 个最大特征向量得到1,L;5、构建预测指数1,tLtff并预测tR+1;4.4.应用 SIR 方法构建组合举例 应用 SIR 方法构建组合举例 本文目标是向机构投资者推荐 SIR 方法,投资者可以利用该方法进行降维,然后用充分预测变量作进一步的预测分析。由于该方法无需过度研究因子本身,也无需研究被预测股票与因子之间的关系无需研究被预测股票与因子之间的关系,简化了很多的分析工作。本文利用 SIR 对(,)ttRf+1 进行降维分析,得到充分预测向量。受限于因子库、数据流量问题,本文利用沪深 300 成分股收益率矩阵,通过主成分分析法得到公共因子,然后利用前 25 个因子,进行 SIR 分析,得到充分预测变量,然后利用(,)ttRfb+1做回归分析,得到 t+1 期股票收益和 t 期充分预测变量的线性关系,最后带入 t 期的充分预测变量数值,得到未来股票收益率的预测值。量化研究报告量化研究报告 http:/ 14/18 请务必阅读正文之后的免责条款部分 图图 6:AI 化的预测流程化的预测流程 *数据来源:浙商证券研究所 由于沪深 300 指数定期调整,本文为了简化,没有考虑指数调整。模型利用过往 60 个交易日的数据,进行主成分分析,取前 25 个主成分作为因子,然后利用 T 期个股收益与滞后一期的 25 个因子做 SIR 降维分析,得到预测变量,利用预测变量与前一期股票收益的线性关系,预测股票未来收益,取收益率排名前 30 的股票作为多头组合,后 30 作为空头组合。组合权重全部利用等权重。模型每隔 30 个交易日调仓,重新获得新的组合。利用 T 期个股收益与滞后一期的 25 个因子做 SIR 降维分析,得到预测变量,利用预测变量与前一期股票收益的线性关系,预测股票未来收益,取收益率排名前 30 的股票作为多头组合,后 30 作为空头组合。组合权重全部利用等权重。模型每隔 30 个交易日调仓,重新获得新的组合。机构投资这实际运用过程中,可以是用自己的因子数据库,这样会比本文单纯从 PCA 分析得到的因子更有效,预测性能更好。本文只用了简单线性回归来作为线性外推预测模型,实际运用中可以探索更有效的预测模型来提高预测精度。由于该方法能够给出未来股票收益的预测值,其预测值的本身并无意义,但是通过给出样本股票组合的相对排序,可以获得特定样本下股票超低配的建议。对主动权益投资、指数增强策略、对冲策略能提供一些参考意见。图图 7:预测组合累积收益情况:预测组合累积收益情况 *数据来源:建模过程数据 量化研究报告量化研究报告 http:/ 15/18 请务必阅读正文之后的免责条款部分 我们在下表展示今年以来,每一期多头组合的股票明细。表表 1:2018 年以来多头股票持仓明细年以来多头股票持仓明细 2018.02.08 2018.03.29 2018.05.16 2018.06.28 2018.08.09 2018.09.20 002001.SZ 新和成 600588.SH 用友网络 600874.SH 创业环保 600271.SH 航天信息 600569.SH 安阳钢铁 000063.SZ 中兴通讯 000933.SZ 神火股份 600859.SH 王府井 000002.SZ 万科 A 000959.SZ 首钢股份 600426.SH 华鲁恒升 600196.SH 复星医药 601699.SH 潞安环能 600176.SH 中国巨石 600598.SH 北大荒 600598.SH 北大荒 600068.SH 葛洲坝 002122.SZ*ST 天马 000425.SZ 徐工机械 600037.SH 歌华有线 000568.SZ 泸州老窖 000917.SZ 电广传媒 000338.SZ 潍柴动力 000792.SZ 盐湖股份 000488.SZ 晨鸣纸业 600030.SH 中信证券 600737.SH 中粮糖业 600380.SH 健康元 600596.SH 新安股份 002024.SZ 苏宁易购 601111.SH 中国国航 600208.SH 新湖中宝 600183.SH 生益科技 600655.SH 豫园股份 600125.SH 铁龙物流 000060.SZ 中金岭南 000983.SZ 西山煤电 600426.SH 华鲁恒升 000858.SZ 五粮液 600183.SH 生益科技 000968.SZ 蓝焰控股 000783.SZ 长江证券 601588.SH 北辰实业 600600.SH 青岛啤酒 600048.SH 保利地产 600132.SH 重庆啤酒 000488.SZ 晨鸣纸业 000725.SZ 京东方 A 600456.SH 宝钛股份 600635.SH 大众公用 600216.SH 浙江医药 000401.SZ 冀东水泥 600741.SH 华域汽车 002038.SZ 双鹭药业 600208.SH 新湖中宝 000729.SZ 燕京啤酒 000983.SZ 西山煤电 000680.SZ 山推股份 600104.SH 上汽集团 601169.SH 北京银行 600547.SH 山东黄金 600895.SH 张江高科 600779.SH 水井坊 002024.SZ 苏宁易购 600004.SH 白云机场 600428.SH 中远海特 000069.SZ 华侨城 A 600299.SH 安迪苏 601628.SH 中国人寿 000999.SZ 华润三九 600037.SH 歌华有线 600299.SH 安迪苏 000825.SZ 太钢不锈 600015.SH 华夏银行 601088.SH 中国神华 600383.SH 金地集团 600066.SH 宇通客车 600050.SH 中国联通 601766.SH 中国中车 000895.SZ 双汇发展 000543.SZ 皖能电力 000488.SZ 晨鸣纸业 600643.SH 爱建集团 600718.SH 东软集团 000422.SZ*ST 宜化 002024.SZ 苏宁易购 600690.SH 青岛海尔 600596.SH 新安股份 600270.SH 外运发展 000488.SZ 晨鸣纸业 600029.SH 南方航空 601601.SH 中国太保 000768.SZ 中航飞机 000968.SZ 蓝焰控股 000729.SZ 燕京啤酒 600741.SH 华域汽车 600595.SH 中孚实业 600585.SH 海螺水泥 600600.SH 青岛啤酒 600718.SH 东软集团 600028.SH 中国石化 000897.SZ 津滨发展 601899.SH 紫金矿业 600028.SH 中国石化 600362.SH 江西铜业 600109.SH 国金证券 601857.SH 中国石油 600809.SH 山西汾酒 600153.SH 建发股份 600718.SH 东软集团 601991.SH 大唐发电 002155.SZ 湖南黄金 000876.SZ 新希望 600426.SH 华鲁恒升 600638.SH 新黄浦 600643.SH 爱建集团 600812.SH 华北制药 600516.SH 方大炭素 600000.SH 浦发银行 600220.SH 江苏阳光 600031.SH 三一重工 600519.SH 贵州茅台 002001.SZ 新和成 600639.SH 浦东金桥 600839.SH 四川长虹 600096.SH 云天化 600352.SH 浙江龙盛 600048.SH 保利地产 600528.SH 中铁工业 600050.SH 中国联通 600663.SH 陆家嘴 600183.SH 生益科技 002155.SZ 湖南黄金 600528.SH 中铁工业 600027.SH 华电国际 600307.SH 酒钢宏兴 600132.SH 重庆啤酒 600068.SH 葛洲坝 000968.SZ 蓝焰控股 000858.SZ 五粮液 600820.SH 隧道股份 600027.SH 华电国际 600362.SH 江西铜业 000651.SZ 格力电器 600066.SH 宇通客车 601186.SH 中国铁建 601601.SH 中国太保 601699.SH 潞安环能 600816.SH 安信信托 000927.SZ 一汽夏利 601898.SH 中煤能源 600782.SH 新钢股份 601998.SH 中信银行 600117.SH 西宁特钢 601169.SH 北京银行 600100.SH 同方股份 000059.SZ 华锦股份 600383.SH 金地集团 000807.SZ 云铝股份 000002.SZ 万科 A 600123.SH 兰花科创 600276.SH 恒瑞医药 600096.SH 云天化 600029.SH 南方航空 000652.SZ 泰达股份 600547.SH 山东黄金 002244.SZ 滨江集团 601186.SH 中国铁建 000792.SZ 盐湖股份 600881.SH 亚泰集团 600019.SH 宝钢股份 600585.SH 海螺水泥 601919.SH 中远海控 600804.SH 鹏博士 600028.SH 中国石化 600016.SH 民生银行 601766.SH 中国中车 600779.SH 水井坊 600782.SH 新钢股份 601398.SH 工商银行 资料来源:浙商证券研