温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
中信
_20180806_
IC
系数
股票
权重
联系
相关
关系到
指数
增强
请参阅最后一页的重要声明 证券证券研究报告研究报告金融工程金融工程深度深度 从相关关系到指数增强从相关关系到指数增强 谈谈 ICIC 系数与股票权重的联系系数与股票权重的联系 主要观点主要观点 ICIC 系数系数(Information Coefficient)(Information Coefficient)在测试单因子有效性方面扮在测试单因子有效性方面扮演着举足轻重的作用演着举足轻重的作用 在传统的多因子选股模型当中,IC 系数(Information Coefficient)在测试单因子有效性方面扮演着举足轻重的作用,它用来评判一个因子区别股票优劣的能力以及决定最终该因子在构建 alpha 组合时分配的权重。有关 IC 系数及其衍生指标有很多,最常见的有两种,即:Pearson IC 和 Spearman rank IC。传统多因子模型中的传统多因子模型中的 ICIC 系数测算结果与组合构建之间的衔接不系数测算结果与组合构建之间的衔接不够紧密够紧密 传统多因子模型中的 IC 系数测算结果与组合构建之间的衔接不够紧密。一般的逻辑认为如果因子 IC 系数越大,那么用因子值排名靠前的股票构成的组合在未来预期超额收益越大,但是这一点在数学逻辑上的过度不够严密,相关性不等于单调性。通过相关性的数学表达式产生一个可以由数学逻辑直接过度的通过相关性的数学表达式产生一个可以由数学逻辑直接过度的多空多空组合组合 我们可以根据一个相关系数的假设检验结果分别衍生出一个多空组合和多头组合。不同于传统分组方法的是,这里的多空组合和多头组合的有效性取决于同一个统计结果,因此仅从收益正负的角度(多空组合考察绝对收益,纯多头组合考察相对基准的超额收益)来看是一致的。用分级靠档的方法,可以保证不同因子产生的多空收益可比用分级靠档的方法,可以保证不同因子产生的多空收益可比 为了将不同因子的分布统一化,我们采用分位数的思想,用因子的分位点代替其原始值,并将因子值进行分级靠档以减轻极端值的影响。具体地,对于每个因子,我们首先按照原始值的大小进行排序等分为 10 组,然后按照因子所在的组给每个股票赋予 09 代替因子的原始值。这样可以保证不同因子的分布基本一致、多头组合可以实现,且不同因子计算得出的收益之间是可比的。复合因子产生复合因子产生的沪深的沪深 300300 增强策略近增强策略近 4 4 年表现优异年表现优异 复合因子增强策略在历史上各年相对沪深 300 基准都有正的超额收益,其中 2007 年超额收益最高,达到 44.36%,并且在 2009 年、2014 年和 2015 年也分别实现了两位数的超额收益。此外,该策略在近 4 年一直维持了 2.5 以上的夏普比率(相对基准),且在风格切换明显的 2017 年仍然保持稳健。金融工程金融工程研究研究 丁鲁明丁鲁明 021-68821623 执业证书编号:S1440515020001 发布日期:2018 年 08 月 06 日 市场表现市场表现 相关研究报告相关研究报告 18.01.02 香港股市的有效 alpha 选股因子探索与分析 17.11.13 如何正确理解近期热度极高的低波动率因子 17.09.21 股东数量变化因子的有效性分析 17.07.14 市场风格切换下的因子有效性探索2017 年上半年因子表现回顾 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 目录目录 一)传统因子测试方法的优劣.1 二)从相关性到股票组合.2 三)因子有效程度的界定.3 四)基于多空组合的指数增强策略.6 五)总结.10 图图目录目录 图 1:基于分组的多空方法及权重股影响.2 图 2:ep_ttm 因子历史 Spearman IC 与多空收益(12 个月移动平均).6 图 3:沪深 300 增强策略累计回测表现.9 表表目录目录 表 1:沪深 300 内各因子有效性.5 表 2:沪深 300 内部分因子多空收益相关系数.6 表 3:沪深 300 增强策略各年表现.9 1 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 一)传统因子测试方法的优劣一)传统因子测试方法的优劣 在传统的多因子选股模型当中,IC 系数(Information Coefficient)在测试单因子有效性方面扮演着举足轻重的作用,它用来评判一个因子区别股票优劣的能力以及决定最终该因子在构建 alpha 组合时分配的权重。有关 IC系数及其衍生指标有很多,最常见的有两种,即:Pearson IC 和 Spearman rank IC。给定一个股票池?Si(i=1,2,.,n),假设我们在过去某个时间点?t0计算出了其中每个股票?Si的因子值?fi,为了评判该因子在时间?t0,t1的有效性,考察因子值?fi与股票在区间?t0,t1收益?ri之间的简单相关系数以及Spearman 秩相关系数,分别定义为该因子的 Pearson IC(或简单 IC)和 Spearman rank IC。直观上来看,一个因子的 IC 系数越大,意味着它与股票未来回报的相关性越高,那么由因子值较大的股票所构成的组合更有可能产生相对高收益。另一方面,如果对股票未来的收益与当期因子值之间建立一个简单的线性回归模型:?ri=a+bfi+ei(i=1,2,.,n)(1)则回归系数?b=cov(fi,ri)var(fi)=corr(fi,ri)std(ri)std(fi)=IC(fi)std(ri)std(fi),与 IC 系数符号一致且正相关。也就是说如果单纯从因子影响正负的角度来看,其实 IC 系数与因子线性回归模型是等价的。与此同时,我们发现在运用 IC 系数测试单因子时也存在一定的局限性。首先,需要假设每一期的 IC 系数是独立同分布的,在该前提下过去每一期因子的 IC 系数值可以被视为样本,因子的测算可以被看作是用样本推断实际分布(或与分布相关的统计量)的过程。其次,IC 系数的测算值反映的只是观测值的概念,并不意味着实际分布的期望大于 0,即在统计显著意义下不足以拒绝 IC=0 的原假设。在统计意义下,因子与收益的显著关系是一个很强的命题,在实证应用的层面过于苛刻。最后,传统多因子模型中的 IC 系数测算结果与组合构建之间的衔接不够紧密。一般的逻辑认为如果因子 IC 系数越大,那么用因子值排名靠前的股票构成的组合在未来预期超额收益越大,但是这一点在数学逻辑上的过度不够严密,相关性不等于单调性。一个更容易接受的指标是因子多空收益差(或因子相对于基准的超额收益),即将股票按因子值排序并分为 5 组(可以是其它数量),计算第一组股票组合相对最后一组股票组合的超额收益。如果测试结果显示历史上某个因子的多空收益差或多头相对基准的超额收益比较明显,那么可以直接根据最新一期的因子值形成最终的因子多空或多头组合,这与有效性检验结果的衔接是很直接的。但是因子多空组合的方法也有缺点。首先它没有解决股票如何加权的问题。一般在测试因子有效性的时候,多头组合、空头组合和基准都是等权指数,而一些常用的宽基指数(如沪深 300、中证 500、创业板指)多采取偏向市值加权的方法。如果最终的策略是由多空组合产生绝对收益,则与基准指数的加权方式无关,上述差别可以忽略。但是在 A 股做空受限的实际情况下,大多数量化策略的目标都是相对基准指数产生超额收益,这样在构建组合时必须要考虑加权方式产生的差异。换句话说,多头组合与基准在市值因子暴露的差别必须是可控的。一个简单的修正方案是在因子测试的阶段也采用市值加权的多头、空头和基准组合代替之前的等权组合,然后用最新的一期的因子多头组合作为未来一期的 alpha 组合,但是这样也引入了新的问题。假设基准指数成 2 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 分股的权重按从大到小的顺序依次为?w1w2.wn,某一个因子多头组合取因子排名前 20%的股票按照市值加权,且假设该因子多头中所有股票的市值之和约等于基准组合总市值的 20%,那么如果该组合也含有股票?S1,则它在多头组合中的权重约等于它在原组合中的 5 倍。这样,权重股过去的表现会对因子有效性的结论产生非常显著的影响,可以认为其它因子的有效性会被市值风格所掩盖。图图 1:基于分组的多空方法及权重股影响基于分组的多空方法及权重股影响 数据来源:Wind资讯,中信建投证券研究发展部 因子多空组合的另一个局限性在于它只考虑“局部”而非“全局”。某一个因子的多头组合只含有基准组合中股票总量的 20%(假设分为 5 组),而股票收益的影响因子可以有很多,单因子多头跑输指数并不能说明该因子失效,可能是其它 80%的股票中含有解释力更强的其它因子,这就要求我们因子体系的覆盖度足够全面,不同的因子之间能够相互弥补,否则即使这些因子能够在长期产生超额收益,得到的指数增强组合跟踪误差也会非常大。本文所介绍的方法是 IC 系数的一种拓展,与之前不同的是,我们不仅考察因子与收益的相关性,并且通过相关性的数学表达式产生一个可以由数学逻辑直接过度的指数增强组合,在构建组合时我们对个股权重的偏离也有一定的控制,这样就弥补了传统多因子方法的一些缺陷。二)从相关性到股票组合二)从相关性到股票组合 前一节我们介绍过 IC 系数的定义是当期因子值与下期股票收益之间的相关性,在对历史数据进行测试时,实际计算的是样本相关性:?corr(f,r)=cov(f,r)Var(f,r)=1n-1(fi-f)(ri-r)i=1n1n-1(fi-f)21n-1(ri-r)2i=1ni=1n (2)3 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 可以从另一个角度理解上式中的分子协方差项。过去一期的相关性大于 0,意味着如果在前一期的初始时间点上给每只股票赋予权重?fi-f,则形成的股票组合能够产生正收益。因为?(fi-f)=0i=1n,所以这是一个总权重为 0 的多空组合。这种理解在传统方法的基础上有两方面的改进。第一,它建立了由统计检验到组合构造之间的联系。虽然最终形成的是多空组合,但是它不再需要更强的单调性假设,是一种整体的权重再优化。相应地,从统计学的角度来看,它需要通过的假设检验也更弱。事实上,单调性的假设需要在(1)式中系数显著的情况下才有较强的说服力,这在回归的时候受极端样本的影响比较大。而从本节的理解角度来看,(1)式中的b不是一个确定的值,而是一个随机变量(类似于 Barra 模型中的风险因子收益),假设检验中的零假设变为了?E(b)=0,而不是先前的?b=0。这样,即使在单调性关系不显著的情况下,只要样本总体计算得出的系数值为正,也能够获取正收益。第二点改进是相对于传统分组方法产生的多空组合而言的。在基于分组的方法中,一个因子多头的股票数量可能只有成分股总量的 20%,在比较它和基准指数的超额收益时存在局部性,无法兼顾剩下 80%的股票。在式(2)中容易看出?corr(f,r)0等价于?fi(ri-r)i=1n0,因此,如果以归一化后的因子数值?fifii=1n作为每个股票的权重,等价于得到的新组合相对等权基准能够产生超额收益,在因子值都非负的情况下形成了一个纯多头增强组合。这样的组合实际上是根据股票的因子数值对所有股票重新赋权,相对于“取头部”的思想而言更加兼顾全局。直观上来看,后一种方法也更容易找出有效的因子。至此,我们可以根据一个相关系数的假设检验结果分别衍生出一个多空组合和多头组合。不同于传统分组方法的是,这里的多空组合和多头组合的有效性取决于同一个统计结果,因此仅从收益正负的角度(多空组合考察绝对收益,纯多头组合考察相对基准的超额收益)来看是一致的。本节目前为止所讨论的问题都只是围绕因子是否有效这一命题展开的,还没有涉及有效性的强弱(即因子组合收益的高低)。下面将给出衡量有效性程度的统计量的数学定义,从而能够定量的对不同因子的有效性进行横向比较。三)因子有效程度的界定三)因子有效程度的界定 传统的多因子模型主要通过 IC 系数的大小衡量因子有效的程度。具体地,我们将整个历史回测区间按照月份划分为不同的时间段,每个月末计算因子数值,并由此得到下个月因子的 IC 系数,这样形成了一个月频时间序列。衡量有效性程度的指标主要有两个,一个是历史上月频 IC 序列的均值,一个是 IC 序列的均值除以 IC 序列的标准差。但是,如果是根据因子 IC 系数的大小来选取相应的因子以及因子值排名靠前的股票构建组合,则最终的组合收益与因子测试结果之间的偏差来源可能有三点。4 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 第一点偏差来源于线性模型的假定与实际情况之间的偏误。在第一节中曾经提到过,因子 IC 与线性回归模型(1)中的回归系数b是正相关的。如果我们的所有因子值都是标准化之后结果(即均值为 0,方差为 1),则不同因子之间 IC 系数的相对大小关系等同于它们各自回归系数b之间的相对大小关系。因此,“IC 系数”这种提法其实隐含了线性回归式(1)需要满足的所有统计学假设,即从模型设定的角度可能存在偏误。第二点偏差来源于b的估计值与真实值之间的偏差。从统计学的角度来看,在假设线性关系的前提下,统计检验只能得出是否拒绝原假设的结论,实际参数的估计值虽然是无偏的,但是通常无法大量重复抽样,因此参数估计的误差在所难免,由此得出的 IC 系数大小以及因子有效性的结论也会受到影响。第三点偏差来源于残差项。在最终构建 alpha 组合时,我们通常会按某一因子值(或综合因子打分)对股票进行排序,这里的本质其实是对股票的预期收益进行排序,只不过预期收益是由类似于(1)的回归式给出。因此,实际收益与预期收益之间的不确定性由残差项e刻画。可以认为,实际收益排序与预期收益排序之间的差异是和e的标准差正相关的。一个好的因子模型需要保证e的波动尽可能小,即因子提供的信息尽可能大。因此,单从 IC 系数大小的角度来看,并不能保证因子的有效性直接转化为高收益。在第二节中,我们看到从 IC 系数出发可以衍生出一个多空组合和一个多头组合,那么是否能够直接从这种因子收益的角度评价有效性?答案是肯定的,但是必须对因子本身的结构做一定的约束。在之前的分析中,我们将因子与协方差的数学表达式转化成了实际的 alpha 组合,即多空组合?(fi-f)Sii=1n与多头组合?fifkk=1nSii=1n。一个直观的想法是用实际组合收益的大小去衡量因子的有效性,但是这在不同因子之间进行比较时会引入量纲不统一的问题。如果我们用?k倍因子数值代替因子原始值,则得到的多空组合?(kfi-kf)Sii=1n收益将会是原来的?k倍,因此多空组合收益在没有杠杆的约束下不能区分因子的优劣。虽然说对因子数值做标准化之后,似乎将所有因子放在了同一起跑线上,但是由于我们没有对各个因子的极端值加以控制,最终得到的不同因子组合对杠杆的要求也是不一样的。另一方面,如果我们对各个因子进行极端值意义下的归因,则最终得到的不同因子本身分布又会不一样。对于多头组合收益而言,其收益表达式相对于因子的相关系数多了一个?fkk=1n项,且必须保证因子值都为正数,这对于正负值都可取的因子(例如反转因子)存在一定麻烦。总之,这里的组合超额收益不仅仅取决于相关系数或协方差的大小,还取决于因子本身的分布。为了将不同因子的分布统一化,我们采用分位数的思想,用因子的分位点代替其原始值,并将因子值进行分级靠档以减轻极端值的影响。具体地,对于每个因子,我们首先按照原始值的大小进行排序等分为 10 组,然 5 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 后按照因子所在的组给每个股票赋予 09 代替因子的原始值。这样可以保证不同因子的分布基本一致、多头组合可以实现,且不同因子计算得出的收益之间是可比的。在表 1 中,我们按照上述方法,在沪深 300 成分股中分别计算每个因子的月均 Pearson IC、月均 Spearman rank IC、月均多头组合收益(相对等权组合超额)以及月均多空组合收益(根据 IC 系数得出,前面已有定义),其中因子数值在月末更新,测试时间是从 2005 年 5 月至 2017 年 12 月。从统计结果来看,即使是历史上所有月份的平均值,Pearson IC、Spearman rank IC、多头组合超额收益和多空组合收益这 4 个指标都存在较为显著的相关性,不同指标之间的相对大小关系基本一致。同时发现,单因子的月均多头超额收益都比较低,主要原因是我们在多头组合中囊括了所有样本股,对于因子值排名靠后的股票也只是低配,从而因子 alpha 会有减弱。在多空组合中,我们对低因子值股票做空,月均收益相对纯多头组合大幅提升。以 ep_ttm 指标为例,0.06 水平下的 Spearman IC 对应的多头组合年化 alpha 仅 2.6%,但多空组合年化 alpha 超过了 10%,这对于单因子而言已经是非常高了。从各大类因子当中,我们各节选一个因子,表 2 统计了这些因子多空组合收益的历史相关性矩阵。可以看出代表价值因子的 roe_ttm 和代表成长因子的 yoy_earnings_growth 之间有较高的相关系数,这是因为它们都与当期盈利指标相关。我们尝试过其它因子对,发现相关性没有出现显著降低。造成这一结果的一个原因可能是沪深 300 的成分股大部分都偏向价值股,而真正的成长股不多,因此盈利增速高但 roe 低的公司占比较少。另外,当市场比较关注基本面因子的时期,价值因子和成长因子可能同时有效。表表 1:沪深:沪深 300 内各因子有效性内各因子有效性 因子简称 因子含义 月均 Pearson IC 月均 Spearman IC 月均多头超额收益 月均多空组合收益 roe_simple_q 单季度 ROE 0.03 0.04 0.17%0.65%roe_ttm 过去 4 个季度 ROE 0.02 0.03 0.10%0.39%d_roe_simple_q ROE 单季环比增长 0.01 0.02 0.09%0.37%d_roe_ttm ROE 同比增长 0.03 0.05 0.23%0.89%qoq_earnings_growth 净利润环比增长 0.01 0.02 0.08%0.32%yoy_earnings_growth 净利润同比增长 0.00 0.04 0.19%0.74%roa_simple_q 单季度 ROA 0.02 0.03 0.08%0.35%roa_ttm 过去 4 个季度 ROA 0.01 0.02 0.03%0.15%d_roa_simple_q ROA 单季环比增长 0.01 0.02 0.09%0.36%d_roa_ttm ROA 同比增长 0.04 0.05 0.24%0.91%ep_ttm 过去 4 个季度盈利/价格 0.03 0.06 0.22%0.85%bp_lf 市净率 0.03 0.04 0.20%0.78%mom 长期动量 0.01 0.00 0.01%0.10%sec_return 短期反转 0.03 0.04 0.15%0.58%stom 月均换手率 0.03 0.05 0.11%0.45%stoq 季均换手率 0.02 0.04 0.10%0.40%stoa 年均换手率 0.02 0.04 0.07%0.29%数据来源:Wind资讯,中信建投证券研究发展部 6 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 表表 2:沪深:沪深 300 内部分因子多空收益相关系数内部分因子多空收益相关系数 roe_ttm yoy_earnings_growth ep_ttm bp_lf Mom Sec_return STOM roe_ttm 1.00 0.70 0.44 (0.53)0.28 (0.12)0.31 yoy_earnings_growth 0.70 1.00 0.29 (0.42)0.42 (0.31)0.20 ep_ttm 0.44 0.29 1.00 0.49 0.04 (0.19)0.26 bp_lf(0.53)(0.42)0.49 1.00 (0.21)(0.04)0.04 Mom 0.28 0.42 0.04 (0.21)1.00 (0.53)(0.02)Sec_return(0.12)(0.31)(0.19)(0.04)(0.53)1.00 0.14 STOM 0.31 0.20 0.26 0.04 (0.02)0.14 1.00 数据来源:Wind资讯,中信建投证券研究发展部 图图 2:ep_ttm 因子历史因子历史 Spearman IC 与多空收益(与多空收益(12 个月移动平均)个月移动平均)数据来源:Wind资讯,中信建投证券研究发展部 四)基于多空组合的指数增强策略四)基于多空组合的指数增强策略 从 IC 系数出发,我们得到了两种可能的构造指数增强组合的思路。第一种思路是直接使用上述多头组合进行增强,但问题也很明显,由于它在低因子值股票上仍有权重,组合超额收益不高,且其超额收益是相对等权基准而言的,不适用于市值加权基准。第二种思路是利用多空组合,将多空组合的权重与组合的原始权重进行叠加得到增强组合,从而多空收益差可以转化为超额收益,它的缺点在于多空组合中个股空头的权重可能超过其在原始组合中的权重,因此必须做进一步的调整,但是相比前一种思路在收益率上有明显提升。在本文的第一节中我们曾经介绍过基于因子分组的多空收益差方法,例如先将股票按照因子值的大小等分为 5 组,测试第 1 组与第 5 组的组合收益差。对于多空收益差显著的因子,可以在基准组合的基础上将空头组合中的股票权重调为 0,超配多头组合中的股票。但是这种方法在做指数增强时的超额收益会打折扣。原始多头组合与空头组合的收益都是假设满仓的,但是在对基准组合进行增强时,对应部分调整的权重大约只有原组合权重的 1/5(假设等权的情况),于是增强效果也只有原来的 1/5。究其原因,主要是因子分组的方法仅考虑因子极端值的股票,是一种“局部”的规律,在对整体进行增强时没有兼顾整个样本。换句话说,分组的多空收 7 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 益差指标所包含的信息量仅限于头、尾的股票,而不涉及中间,这一点限制了其最终的增强收益。相比之下,基于 IC 系数表达式衍生出的多空组合是一种“全局”的权重优化,包含的信息量更大。以下,我们根据这种思路建立一个沪深 300 指数增强策略。1.在每个月最后一个交易日整理沪深 300 指数成分股的因子数值。样本上剔除停牌和涨停的股票。2.若一只股票在某个因子上的值缺失,则以同期整个样本的因子平均值取代。3.对于每个因子,将 3 倍标准差以外的极端值统一替换成:均值+3*标准差。4.将处理后的因子数值进行排序,等分为 10 组,由小到大分别标记为 0,1,2,9,以所属组的编号值代替因子的原始数值。5.在单因子有效的基础上构造线性加权复合因子。6.针对线性加权复合因子构建多空组合(基于 IC 系数),设置个股权重最大值参数,对权重进行压缩。7.将压缩后的多空组合与沪深 300 指数成分组合的权重进行叠加(剔除停牌和涨停),若某一股票权重小于 0则将其设为 0,最后再按比例调整剩余股票的权重形成最终的增强组合。该组合权重每个月调整一次。在以上步骤当中,因子之间的相关性与最终得出的复合因子收益是紧密相关的。以两个因子的简单情形为例,记标准化后的因子值分别为?f1,i和?f2,i,它们按照一定的比例构成复合因子?f3=af1+(1-a)f2,其多空收益为:?(f3,i-f3i=1n)ri=a(f2,i-f2i=1n)ri+(1-a)(f1,i-f1)ri=aLS1+(1-a)LS2 可以看出,在不带杠杆约束的情况下,线性复合因子的多空收益等于其各个分量因子多空收益的线性组合。但是容易证明,复合因子形成的多空组合的杠杆一般是降低的,即:?maxi|f3,i-f3|amaxj|f2,j-f2|+(1-a)maxk|f1,k-f1|最优的复合系数a可以通过求解下面规划问题得出:?maxaaLS1+(1-a)LS2maxi|f3,i-f3|在最优状态下,如果调整a使得因子分子端的复合收益增加,则相应分母端杠杆的增加值会将其抵消。上式中由于分母部分不直接可导,所以一般没有显示最优解。为了得到显式解,分母可以用因子的标准差 8 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 代替极差。考虑下面的一般问题:?maxabTRstd(Fb)其中b是复合因子权重向量,?R是因子多空组合收益的期望向量,?F是因子数据矩阵。这里没有要求因子权重之和为 1,因为该优化问题的最优解不依赖于b中元素之和,如果以?kb代替b,最优化表达式的值不变。为求权重的最优解,令表达式对b的导数为 0 得到:?bRTb=RbTb 容易得到上式具有一般解?b=l-1R,其中l是任意正数,是因子协方差矩阵。在最优权重下,表达式的最大值为?RT-1R 我们注意到最优权重表达式中包含了因子协方差项。假设在理想状态下,所有因子之间都是不相关的,则最优权重恰好与因子的 IC 系数正相关(此时协方差矩阵是单位矩阵的倍数)。但是一般来说因子之间多少存在相关性,所以简单用 IC 系数对因子加权得到的复合因子往往不是最优的。虽然上面的结果从数学表达上看非常简洁,但是无论是最优权重还是最终的超额收益都受到输入变量?R的影响,如果用因子多空收益的历史值去估计未来一个月的数值会存在严重的过拟合问题,不同的样本内数据会对权重优化结果产生非常大的影响,因此在用这个最优化的表达式进行因子加权之前必须要对因子预期多空收益差(或者 IC 系数)做更细致的估计,不能简单用历史均值去估计未来,本文不针对这个问题做更深一步的讨论,以下我们仅以简单等权的情形为例,考察该模型的增强效果。具体地,考察 roe_ttm、yoy_earnings_growth、ep_ttm、bp_lf、Mom、Sec_return、STOM 这 7 个因子的增强效果。我们按照之前介绍的七个步骤构建沪深 300 指数增强组合,其中在构建复合因子这一步采取等权的方式,在权重压缩这一步设置增强组合相对成分股原始权重的偏离不超过 3%。回测时间从 2005 年 4 月至 2017 年12 月,每个月末进行调仓,下图为该策略的累计收益表现:9 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 图图 3:沪深沪深 300 增强策略累计回测表现增强策略累计回测表现 数据来源:Wind资讯,中信建投证券研究发展部 表表 3:沪深:沪深 300 增强策略各年表现增强策略各年表现 增强组合 沪深 300 基准 超额收益 跟踪误差 超额收益/跟踪误差 2005 年(5 月以后)2.38%-0.96%3.34%2.79%1.20 2006 年 125.44%121.02%4.42%4.79%0.92 2007 年 205.91%161.55%44.36%6.36%6.98 2008 年-63.46%-65.95%2.49%5.46%0.46 2009 年 121.62%96.71%24.90%4.18%5.96 2010 年-5.04%-12.51%7.48%4.08%1.83 2011 年-17.59%-25.01%7.42%2.76%2.68 2012 年 13.44%7.55%5.89%2.57%2.29 2013 年-4.54%-7.65%3.11%3.44%0.90 2014 年 62.33%51.66%10.67%4.15%2.57 2015 年 23.92%5.58%18.34%7.22%2.54 2016 年-1.81%-11.28%9.48%2.91%3.26 2017 年 30.57%21.78%8.79%3.10%2.83 数据来源:Wind资讯,中信建投证券研究发展部 从表中可以看出,该策略在历史上各年相对沪深 300 基准都有正的超额收益,其中 2007 年超额收益最高,达到 44.36%,并且在 2009 年、2014 年和 2015 年也分别实现了两位数的超额收益。此外,该策略在近 4 年一直维持了 2.5 以上的夏普比率(相对基准),且在风格切换明显的 2017 年仍然保持稳健。注意到上述策略完全是基于沪深 300 成分股内选股的,且模型中没有纳入争议比较大的市值因子,这一定 10 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 程度上保证了策略对指数跟踪的紧密以及在风格切换前后超额收益的稳健。由于本文中所研究的重点在于从 IC系数过渡到组合构造的方法,在因子筛选与复合加权方法没有做更深一步的优化,因此组合的超额收益在某些年份并不显著。从另一方面来看,A 股市场能够在 10 年以上保持稳定的 alpha 因子本身也比较有限,如果不加以权重上的动态调整,难免会在某些年份表现平平,我们这里所采用的因子虽然不能说完全摆脱了样本内的影响,但是基本上是定性分析师在选股时考虑比较多的因子,并且等权的加权方式也减轻了模型层面的过拟合。从实际回测结果来看,本文所介绍的因子有效性分析方法以及指数增强策略还是具备借鉴意义的。五)总结五)总结 一个在多因子选股研究中争论得比较多的问题是如何判断一个因子到底是 alpha 因子还是风险因子。由于量化研究里面大多数方法是基于历史判断未来,似乎因子的回测表现能够提供一些线索。一般来说,如果一个因子在历史上的回测效果时好时坏,我们认为它肯定不是 alpha 因子,但是历史表现稳定(例如 60%以上的月胜率)的因子一定是 alpha 因子吗?衡量一个因子的稳定性需要考察的回测区间有多长?胜率超过多少可以判断为 alpha 因子?这些问题没有一个明确定量的答案。它类似于统计学里面假设检验中对样本量大小和显著性水平的选择,带有一定程度的主观性。其实从辩证的角度来看,真正的 alpha 因子是不存在的,一些海外文献将能够产生超额收益的因子称为“anomaly”,将超额收益称为“abnormal return”,即它的存在是一种“异象”,因为如果真的存在一个规律性很强的因子,那么市场投资者对该因子的过度使用将最终使其超额收益降为 0,这有点类似于套利策略中对于市场无效的纠正。正是由于市场投资者在某些因子的有效性判断上存在分歧(或者信息上存在不对称),才使得一些因子能够在长期产生可观的超额收益。大多数因子本质上都是风险因子,其收益的不确定性造成了市场对其有效性产生了分歧。本文所介绍方法的背后正是秉承了这一观点。在第一节中,我们对回归式(1)中的系数b做了另一种解读,认为它是一个随机变量(风险因子,时正时负),而不是一个确定的值(alpha 因子)。好的因子不必要求回归系数每一期都显著大于 0,只要其分布的均值大于 0 即可。这样在长期大样本的基础上,其衍生出的多头组合以及多空组合能够跑赢相应的基准。随后我们介绍了一种基于上述多空组合的指数增强策略,该策略在大类因子中选出了相关性相对较低的 7 个因子构建等权组合,近 4 年相对沪深 300 指数都有 8%以上的超额收益,且夏普比率在 2.5 以上。由于我们在构建组合时主要是根据因子值对原先沪深 300 指数的权重做了调整,因此严格来说该策略应该算作一种 smart beta 策略。权重小于 0 的股票被剔除之后,最终实际股票数量大概在 100 至 200 之间,但都属于沪深 300 成分股。量化选股的优势在于广度,它能够多维度批量处理数据并发现一些变量之间的关联,缺点在于深度,它对个股层面无法量化的指标无能为力。既然在个股逻辑上,量化选股的细致程度比不上主动选股,那么在统计规律的挖掘上就要做到尽量严格,本文就是基于这一思想对传统多因子模型的常用指标 IC 系数做了统计学上更加严密的解读。这样在组合跑输基准的时间段,我们知道它是因为模型假设不再成立或者纯粹的随机事件导致,而不是模型本身的逻辑不够严密。11 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 分析师介绍分析师介绍 丁鲁明:丁鲁明:同济大学金融数学硕士,中国准精算师,现任中信建投证券研究发展部金融工程方向负责人,首席分析师。10 年证券从业,历任海通证券研究所金融工程高级研究员、量化资产配置方向负责人;先后从事转债、选股、高频交易、行业配置、大类资产配置等领域的量化策略研究,对大类资产配置、资产择时领域研究深入,创立国内“量化基本面”投研体系。多次荣获团队荣誉:新财富最佳分析师 2009 第 4、2012第 4、2013 第 1、2014 第 3 等;水晶球最佳分析师 2009 第 1、2013 第 1 等。研究服务研究服务 社保基金销售经理社保基金销售经理 姜东亚 010- 机构销售负责人机构销售负责人 赵海兰 010- 保险组保险组 张博 010- 周瑞 010- 张勇 010- 北京公募组北京公募组 黄玮 010- 朱燕 任师蕙 010-8515- 黄杉 010- 王健 010- 私募业务组私募业务组 李静 010- 赵倩 010- 上海地区销售经理上海地区销售经理 黄方禅 021- 戴悦放 021- 李祉瑶 010- 翁起帆 李星星 范亚楠 李绮绮 薛姣 王罡 深广地区销售经理深广地区销售经理 胡倩 0755- 许舒枫 0755- 程一天 曹莹 张苗苗 020- 廖成涛 0755- 陈培楷 020- 12 金融工程金融工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 评级说明评级说明 以上证指数或者深证综指的涨跌幅为基准。买入:未来 6 个月内相对超出市场表现 15以上;增持:未来 6 个月内相对超出市场表现 515;中性:未来 6 个月内相对市场表现在-55之间;减持:未来 6 个月内相对弱于市场表现 515;卖出:未来 6 个月内相对弱于市场表现 15以上。重要声明重要声明 本报告仅供本公司的客户使用,本公司不会仅因接收人收到本报告而视其为客户。本报告的信息均来源于本公司认为可信的公开资料,但本公司及研究人员对这些信息的准确性和完整性不作任何保证,也不保证本报告所包含的信息或建议在本报告发出后不会发生任何变更,且本报告中的资料、意见和预测均仅反映本报告发布时的资料、意见和预测,可能在随后会作出调整。我们已力求报告内容的客观、公正,但文中的观点、结论和建议仅供参考,不构成投资者在投资、法律、会计或税务等方面的最终操作建议。本公司不就报告中的内容对投资者作出的最终操作建议做任何担保,没有任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺。投资者应自主作出投资决策并自行承担投资风险,据本报告做出的任何决策与本公司和本报告作者无关。在法律允许的情况下,本公司及其关联机构可能会持有本报告中提到的公司所发行的证券并进行交易,也可能为这些公司提供或者争取提供投资银行、财务顾问或类似的金融服务。本报告版权仅为本公司所有。未经本公司书面许可,任何机构和/或个人不得以任何形式翻版、复制和发布本报告。任何机构和个人如引用、刊发本报告,须同时注明出处为中信建投证券研究发展部,且不得对本报告进行任何有悖原意的引用、删节和/或修改。本公司具备证券投资咨询业务资格,且本文作者为在中国证券业协会登记注册的证券分析师,以勤勉尽责的职业态度,独立、客观地出具本报告。本报告清晰准确地反映了作者的研究观点。本文作者不曾也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。股市有风险,入市需谨慎。中信建投证券中信建投证券研究发展部研究发展部 北京北京 上海上海 深圳深圳 东城区朝内大街 2号凯恒中心B座 12 层(邮编:100010)浦东新区浦东南路 528 号上海证券大厦北塔 22 楼 2201 室(邮编:200120)福田区益田路 6003 号荣超商务中心B 座 22 层(邮编:518035)电话:(8610)8513-0588 电话:(8621)6882-1612 电话:(0755)8