温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
提升
概率
模型
及其
有效性
分析
量化
视角
衡量
个股
的确
定性
20190321
中信
23
HTTP:/RESEARCH.CSC.COM.CN 请参阅最后一页的重要声明 证券研究报告金融工程深度证券研究报告金融工程深度 量化视角衡量个股估值提升的确定性 量化视角衡量个股估值提升的确定性 估值提升概率模型及其有效性分析 估值提升概率模型及其有效性分析 主要结论 主要结论 股价的变动和估值的变动密切相关股价的变动和估值的变动密切相关 我们可以把股价的涨跌幅近似拆分成两部分,一部分是估值变动的部分,另一部分是基本面变动的部分。其中,基本面数据的更新频率相对较低,市场预期在一段时期内通常波动不会太大,股价的变动中很大一部分可以归因为估值的变动。相比于因子与股价涨跌幅的关系,估值逻辑持续时间更长相比于因子与股价涨跌幅的关系,估值逻辑持续时间更长 传统因子模型在评价因子是否有效时多以 IC 和 IC 信息比率为依据,但是我们观察到很多因子的 IC 具有趋势性有效和无效的特点,原因是 IC 系数本身不包含股票估值的信息,当因子信息被充分pricein 时,其有效性就会打一定的折扣。这意味着单因子的有效期相对是比较短的。短期股价的涨跌反映的是市场的风格偏好,而市场整体估值逻辑的有效性相对来讲持续时间更长。建立模型分解因子与估值的建立模型分解因子与估值的 kendall 相关系数相关系数 我们将因子与估值的 kendall 相关系数进行拆分,并引入一个概率函数,用来衡量已知两只股票基本面存在差异时,它们之间估值相对大小的概率。从这一角度看,高相关系数意味着高概率,当某个事件的概率足够大时,我们可以从那些不符合普遍规律的小概率样本上挖掘套利机会。在概率模型的基础上估计股票未来估值的提升幅度在概率模型的基础上估计股票未来估值的提升幅度 我们对估值概率函数的形式做出假设,然后利用统计学方法进行参数估计,由此得到每两只股票之间估值相对大小概率的估计值。接下来可以计算样本中每只股票未来估值排序的期望,再与当前它实际估值序数相减得到其未来估值提升的预期幅度。我们认为估值提升幅度越大,股票未来上涨空间越大,alpha 越大。新因子在市值前新因子在市值前 1/3 样本中效果较好样本中效果较好 从全市场测试结果来看,PB|ROE 因子相对于简单 PB 因子在 IC 绝对值上没有提升,仅在净资产中性的情况下 IR 有一定的改善,但又不及 ROE 和 PB 的等权因子。而在市值排名前 1/3 的样本中,新因子的边际贡献是十分显著的。净资产中性下 PB|ROE 因子相对 PB因子的月均 IC 从 0.038 提升至 0.044,IR 从 1.08 提升至 2.356,加入净利润增速和毛利率因子后,IC 进一步提升至 0.053,IR 提升至3.255。年化多空收益差相比于简单 PB 因子从 10.81%提升至16.45%。金融工程研究 金融工程研究。丁鲁明丁鲁明 021-68821623 执业证书编号:S1440515020001 陈元骅陈元骅 021-68821600-826 执业证书编号:S1440518090004 发布日期:2019 年 3 月 21 日 市场表现市场表现 相关研究报告相关研究报告 table_report 18.08.06 从相关关系到指数增强谈 IC 系数与股票权重的联系 18.01.02 香港股市的有效 alpha 选股因子探索与分析 17.11.13 如何正确理解近期热度极高的低波动率因子 17.09.21 股东数量变化因子的有效性分析 17.07.14 市场风格切换下的因子有效性探索2017 年上半年因子表现回顾 1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 1 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 目录目录 一、引言.3 二、重新理解估值因子.3 2.1 估值因子的纽带作用.4 2.2 常用估值思想.5 2.3 和估值因子相关的量化策略.5 2.3.1 因子模型中的估值因子.5 2.3.2 估值解释模型.6 2.3.3 因子择时模型.7 2.4 从信息和概率的角度理解估值因子.7 2.5 估值排序的规律足球彩票策略的启发.7 三、估值提升概率模型.8 3.1 相关系数中的统计规律.8 3.2 理解因子与估值的相关性.8 3.3 从 kendall 相关系数谈起.9 3.4 建立相对估值概率模型.9 3.5 计算股票的合理估值排位.10 3.6 概率函数的参数估计.11 3.7 模型延伸.12 四、模型应用与实证检验.13 4.1 数据处理.13 4.2 lift 曲线极值的预测能力.13 4.3 因子与估值在不同行业的 kendall 相关系数.15 4.4 估值提升因子的 IC 系数.16 4.5 估值提升因子的多空收益差.18 4.6 估值提升因子多头相对基准的超额收益.18 五、总结.20 图表图表目录目录 图 1:估值因子连接了基本面与市场情绪.4 图 2:估值因子表现市值分层.6 图 3:线性概率函数.11 图 4:因子计算步骤.12 图 5:logit 函数图像.13 图 6:lift 曲线高估值样本的预测.14 图 7:lift 曲线高估值样本的预测(全市场市值前 1/3 样本).15 图 8:各行业净资产与 ROE 中位数.17 图 9:估值提升因子的多空收益差.18 图 10:估值提升因子多头、空头分别相对基准.19 1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 2 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 表 1:因子与估值的相关系数(行业内).16 表 2:因子 IC 对比(全市场).17 表 3:因子 IC 对比(市值前 1/3).17 1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 3 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 一、一、引言引言 量化投资与主动基本面投资之间的相对优劣是一直被争论不休的话题。对于股票多头策略而言,量化投资偏向于自下而上寻找一般规律,例如当观察到一只个股或一些股票样本存在某种涨跌逻辑之后,量化方法通常会对该逻辑进行更一般地统计检验,试图将其推广成一般的投资因子,然后利用有效因子池选取一篮子股票作为最终的投资组合。相对地,主动投资方法则更偏向于自上而下地将一般规律转化为投资标的,即从宏观和行业的逻辑出发寻找被低估的个股。股票的估值通常依赖于对其未来的盈利预测,因此主动方法对于投资组合中单只股票的信息掌握程度相比量化方法更加深入,但是通常无法兼顾市场上所有的股票,持股数量相对较少。经过时间的检验,无论是量化产品还是主动投资产品都不乏长期业绩稳定的佼佼者,这说明虽然二者从方法论和投资决策依据上存在差异,但仍然是可以在市场上共存的,这就引发我们去探讨二者背后的共性、差异以及可能的互相借鉴之处。当决定是否将一只股票纳入组合时,量化多因子模型会通过一系列因子对股票进行综合打分,根据股票分值的高低决定其在组合中的权重。这其中至关重要的环节是如何选取评价因子。最直接的可能也是目前最广泛使用的方法是计算因子的 IC 系数,即股票因子与未来(通常 1 个月)一段时间涨跌幅之间的相关系数,以及 IC的 IR(信息比率)。它的特点是投资决策完全依赖于历史数据得到的一般规律,一个策略的成功与否很大程度上取决于历史数据上的规律在未来有多大概率是延续的。对主动基本面投资者来说,一只股票纳入与否的关键因素是估值的合理性。行业研究员在评价股票时会对股票未来的基本面作出预测,然后通过折现模型得到公司的合理价格,再与当前公司实际的股价进行比较得出投资建议。通过比较发现,两种方法的共性在于都借鉴了股票的估值。在量化多因子模型中,估值因子是给股票打分的一个维度,除此之外还可能有其它维度,数据来源往往基于公开数据,计算规则也很明确。对基本面投资者来说,其主要投资依据是公司的估值,在对估值进行判断时通常有一定的前瞻性,其估值模型中会包含一些行业或公司特有的数据,对于公司未来利润的来源有更加清晰的逻辑,但缺点是模型中的一些参数需要估算且不易推广到其它公司。在对估值因子和其它基本面因子的处理上,主动基本面方法的逻辑对于量化方法是有一定借鉴意义的。首先,在选取基本面因子对股票进行量化打分时,一个重要的课题是如何确定不同因子的权重,主动投资的基本面估值模型提供了一个较好的“因子降维”的思路,且相对纯粹的数据驱动方法有更好的降噪效果。其次,量化模型中在选取因子时也应该考虑“因子的估值”,即该因子是否已经被完全 pricein 了。通常情况下,一只股票的估值是与基本面正相关的,即基本面越好的股票估值越高。当某个基本面因子对应的股票多头在连续一段时间有效之后必然伴随着估值的提升(假设短期基本面数据变化不大),此时低估值因子选出的是基本面较差的股票,而基本面因子选出的是估值较高的股票,这就导致模型的稳定性会打一定的折扣。我们需要的是通过基本面因子对估值因子进行预测建模,在给定基本面因子的分布之下计算估值的合理概率分布,然后选出未来估值提升确定性最高的股票。这就引出了本文需要解决的核心问题:如何估计未来股票估值的概率分布,从而找到估值预期提升幅度最大的股票。以下的章节中,我们将建立模型对此进行测算。二二、重新理解估值因子、重新理解估值因子 1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 4 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 2.1 估值因子的纽带估值因子的纽带作用作用 股票的估值是连接公司基本面与市值的纽带,它反映了单位财务指标投资人愿意支付的均衡价格。通常情况下,当我们考虑是否投资一家公司时,会分析多个维度,例如盈利能力、成长空间、资本结构、市场占有率、行业壁垒等影响公司未来现金流的直接因素,亦或是短期股价涨跌幅、成交量变化、短期事件以及分析师评级等情绪因素。这些因素其实都可以看作是股票估值的影响或解释变量。图图 1 1:估值因子连接了基本面与市场情绪:估值因子连接了基本面与市场情绪 数据来源:wind、中信建投证券研究发展部 同时,我们可以把股价的涨跌幅近似拆分成两部分,一部分是估值变动的部分,另一部分是基本面变动的部分。以市盈率指标 PE 为例,可以得到:其中,基本面数据的更新频率相对较低,例如公司的财务报表一般是季频公布,因而盈利预期的波动在一段时期内不会太大,股价的变动在很大一部分可以归因为估值的变动。从另一个角度来看,如果一个策略的换手率高于基本面预期数据的更新频率,那么该策略可以看作是在对股票的估值进行择时。策略的关键是能够对持有股票估值的概率分布有一个合理估算。1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 5 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 2.2 常用常用估值估值思想思想 资本市场本身存在不确定性,这导致股票的估值很难通过历史数据和一个特定的公式进行计算。在对股票估值波动区间进行建模之前,我们首先回顾一些常用的估值思想。首先是绝对估值法,它主要根据公司当前的基本面情况对未来的现金流做出预测,然后将未来的预期值进行折现,用来估计股票当前的合理价格。这种方法的特点是只参考和本公司有关的基本面数据,不考虑公司实际的股价以及其它可比公司的估值数据。第二种思想是相对估值法,它的主要思想是从当前市场交易的均衡结果出发,拟合出一套普适的定价规律,然后在该规律之下给新的股票估值。最简单的相对估值法是找到和待估值公司主营业务相近的其它上市公司,用已有公司的估值作为参考,这有些类似于机器学习重的 KNN 算法。我们首先找出一系列能够描述公司画像的因子,例如行业、市值、资本结构、资产回报率、净利率等等,将其作为 KNN 算法中的解释变量(即高维空间点中的各个维度),然后将公司的估值作为因变量,那么待测公司的估值就是在整个样本空间中距离它最近的 k只股票估值的平均值。虽然 KNN 在实际应用中可能存在“维度灾难”的问题(随着解释因子数量的增加,空间中的点的分布会越来越稀疏),但这一例子说明我们可以构建简单的统计学习模型对估值进行建模。本文后面介绍的估值提升概率模型主要借鉴这种相对估值的思想。2.3 和估值因子相关的量化策略和估值因子相关的量化策略 已有量化选股模型对估值因子的应用大致可以罗列为三类,第一类是将估值指标作为一个完整多因子模型中的某一细分因子,联合其它因子对股票进行综合评价。第二类是以估值指标为核心,利用其它因子对它进行解释,寻找相对价值被低估的股票。第三类是从估值的维度进行因子择时或因子加权,它的思想是超配被低估的因子。我们对这三类策略做一个简要的回顾。2.3.1 因子模型中的估值因子 首先是估值因子在多因子模型中的应用。第一种方法是市值分层法。我们将全市场的股票按照市值大小排序,之后等分为 20 个市值组,然后在每个市值组中选取估值最低的前 20%的股票作为多头,选取估值最高的前 20%的股票作为空头,构造一个等权重的多空组合。从图中可以看出,即使是单因子得到的多空收益差在长期也是平稳增长的,在加入其它低相关性因子的多空组合之后,整个策略 alpha 的稳定性会得到进一步的提升。因子多空组合配置的方法在 A 股历史上的实证效果非常理想,2006 年以来至 2018 年底月最大回撤仅 0.23%,但是由于 A 股市场对做空个股的限制,实际收益很难实现。相对容易实现的对冲途径是空股指期货。因此,构造一个能够战胜指数的多头组合在当前 A 股更具备实用价值。1,.),(1)()(:,.),(:03210321PfffBFPPErEfffFBPii测试集训练模型1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 6 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 图图 2 2:估值因子表现:估值因子表现市值分层市值分层 数据来源:wind、中信建投证券研究发展部 第二种方法便是结合风险因子模型的指数增强策略。相比因子多空收益差而言,单因子多头想要在长期相对基准产生稳定超额收益是十分困难的,相比纯粹的因子空头组合而言,等权基准中所包含的股票数量更多,其收益受其它因子的影响更大,因此需要建立一个完整的模型优化超额收益和跟踪误差。其中需要对因子进行风险中性处理,最常见的方法是控制行业和市值,取回归的残差项作为中性化后的因子:在构建估值因子时,还有一个常用的方法是将不同维度的单个因子进行线性组合得到复合因子。这样构造的原因一是为了降低不同因子之间的相关性,另一方面多个维度评估的结果相对单因子也更加稳健,例如一只PB 低于 1 的亏损股票从 PE 的角度来看估值并不算低。2.3.2 估值解释模型 这一类模型的核心是对当前的市场估值进行解释,然后寻找偏离当前估值逻辑程度最大的股票。这里举两个例子。第一个例子是 PB-ROE 模型。它认为 ROE 高的股票应当具备更高的估值,如果只看低估值因子,通常只会选出一些基本面不太好公司,需要将 ROE 解释的部分剔除掉,方法是对估值因子进行线性回归,这也是一种常见的分解因子的方法。)log(210SizeIndustryPBbROEaBP 1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 7 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 第二个例子是次新股选股模型。次新股天生具有流通市值小、高波动的特点,且业绩历史数据较短,因此同行业、同市值组股票的估值中位数是一个重要的参照标杆,我们可以根据其实际估值偏离标杆的程度选取短期上涨空间更大的标的,构建一个相对次新股指数的增强组合。2.3.3 因子择时模型 估值指标可以帮助进行因子筛选。具体地,对每个因子选出的多空组合,我们可以计算其多头减空头的估值差,认为差值越小的因子是相对便宜的。之后在每一期配置因子时,都选取相对被低估的因子。但不是所有因子都适合用估值进行筛选,与此相对应的一个统计量是估值因子在因子因子集合集合上的 IC:下标 i 遍历因子集合中每一个因子,只有当 IC 系数显著为正的因子集合适合用估值因子进行择时。除此之外,我们也可以在因子组合的层面进行估值的筛选,即在多头组合中进一步选取估值最低的前 50%。在空头组合中选取估值最高的后 50%,通过适当的统计检验看是否相对于初始的多空组合有显著的 alpha 提升。与此对应的统计量是多头组合或空头组合内估值因子的 IC:下标 i 遍历多头组合中的每一只股票,衡量因子多头是否再适合用估值因子做进一步的筛选。2.4 从信息和概率的角度理解估值因子从信息和概率的角度理解估值因子 在传统量化因子模型中,我们对估值因子的应用方法是选取一篮子低估值的股票,认为它们未来的预期收益是最高的,这一选择背后隐含的假设是估值因子本身具有均值回归效应。选股模型的本质是根据已知因子信息做出买卖决策,假设我们现在能够看到的和公司相关的信息只有估值,那么在均值回归的模型假设之下,买入低估值的股票是完全合理的,因为所有股票未来估值的期望都相同,可以认为其期望排序都是样本中位数。进一步地,如果我们能够拿到的数据信息逐渐增加,那么可以将问题推广为:给定已知信息,如何测算未来股票估值排序提升的幅度,以 PB 为例,即:这就引导我们对股票未来估值排序这一随机变量的概率分布进行建模估计。2.5 估值排序的规律估值排序的规律足球彩票策略的启发足球彩票策略的启发 如何建立模型对给定样本中股票的估值进行排序呢?我们可以类比足球彩票问题。假设在小组赛阶段每个小组中有四只球队,两两之间进行比赛,通过总积分排序决定出现名额。我们在对积分排序进行预测时大体有两个思路,第一个思路是从多个维度对球队实力进行总体打分,例如计算每个球队主力球员的平均身价,然后用打分值的排序来预测比赛积分结果的排序。这有些类似于绝对价值的思想。第二个思路是对每一场对阵的胜负概率进行建模,由概率估算得到每一只球队未来积分的期望,将期望的排序值作),(,ishortlongishortlongEPrcorr),(longiiirEPcorr)(,.),(021PBffPBEPB1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 8 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 为实际排序结果的预测值。球队之间的实力差异可以用净胜球的个数进行定量地衡量,例如让球盘的发明就是为了使两边下注的数量尽量平衡。在对输赢概率进行建模时也有不同的方法,最直接的方法是使用历史交锋记录来估算未来比赛结果的分布,也可以间接地建立因子模型进行估计,例如对前锋、中场、后卫、门将、教练和主客场等因素进行更细致的建模。得到了未来排序的概率分布之后,我们寻找理论出现概率与盘口隐含出现概率差最大球队作为最优的策略。上述第二个思路可以类比到估值排序模型中去,估值排序是股票之间对资金竞争形成的结果,我们通过基本面数据预测两只股票之间相对估值大小的概率,对概率进行加总可以得到每只股票未来在样本中排序的期望,进而计算出股票未来估值排序的提升空间。以下将针对这一模型做具体的展开。三三、估、估值提升概率模型值提升概率模型 3.1 相关系数中的统计规律相关系数中的统计规律 传统多因子模型在评价因子是否有效时多以 IC(因子与下期股价涨跌幅之间的相关系数)和 IC 信息比率为依据:但是我们观察到很多因子的 IC 具有趋势性有效和无效的特点,例如 ROE 因子在 2018 年 4 月至 6 月的表现在所有基本面因子里面排名十分靠前,但是在下半年出现连续多个月的反向。究其原因是 IC 系数本身不包含股票估值的信息。当 ROE 选出的一篮子股票经过一段时间的连续上涨之后,因子的估值会得到显著抬升,这时 ROE的信息很可能已经被充分 pricein 了,其有效性就会打一定的折扣。这也就意味着单因子的有效期相对是比较短的。短期股价的涨跌反映的是市场的风格偏好,而市场整体估值逻辑的有效性相对来讲持续时间更长,虽然 ROE因子的短期会有回撤,但整个市场仍然会给高 ROE 的公司以更高的估值。因而我们考虑一个相对更稳定的统计量:因子与估值之间的相关系数:因子与估值相关系数的高低对我们做因子投资有什么影响呢?3.2 理解因子与估值的相关性理解因子与估值的相关性 我们分三种情况讨论因子与估值的相关性,简单起见,我们认为相关系数总是非负的(否则可将因子值取负值)。1.因子与估值的相关系数为 0。这意味着平均意义来看,该因子对现有估值逻辑影响有限,因此我们在做因子投资时可将其剔除,直接选取低 PB 股票即可。)(),(ICstdICIRrfcorrICii)(),(BPBPBPiiBPICstdICIRBPfcorrIC1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 9 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 2.因子与估值的相关系数为 1。此时因子的排序完全解释了估值的排序,可以认为估值因子本身没有提供增量信息,因此是一个失效因子。3.因子与估值的相关系数介于 0 和 1 之间。这种情况下我们认为因子解释了部分的估值逻辑,但仍有部分样本的估值结果受到其它因素影响或者存在定价偏差,这时我们找出不符合整体估值逻辑的股票对,从中构建低估值组合。针对第三种情况,我们举一个数值例子予以说明。假设当前有一个样本量为 100 的股票池,计算得出 ROE与 PB 的相关性高达 0.99,是否存在统计上的套利机会?答案是肯定的,我们可以随意列举不同的可能,例如以下情况:总结起来,我们的核心思想有两点,首先是找出有解释能力但没有被完全 pricein 的因子,然后找出因子组合中没有完全被 pricein 的股票。可能现实中不存在上例中那样明显的套利机会,因此我们以下用量化模型将其思想一般化。3.3 从从 kendall 相关系数谈起相关系数谈起 事实上在上一节的例子中,可以考虑 100 只股票中所有可能的两两股票对,然后在样本上计算这样一个事件的概率:“ROE 高的公司估值更高”。当这一事件的概率足够大时,我们可以从那些不符合这一规律的小概率样本上挖掘套利机会。这启发我们用 kendall 相关系数衡量因子与估值的关系。kendall 相关系数的一般定义如下:当观察到样本股在两个因子之间的实际值之后,我们想要推断出其背后的生成机制,即建立概率模型对观察结果进行刻画。具体地,我们关心这样一个问题:已知两只股票在第一个属性之间的关系,对它们第二个属性之间的关系能做出什么判断?即估算:3.4 建立相对估值概率模型建立相对估值概率模型 延续上述思路,我们将需要做出推断的第二个属性设置为股票的估值,第一个属性设置为与基本面相关的其它因子,不妨先假设为公司过去三年的平均 ROE。为了保证量纲的统一,我们模型输入和输出全部是建立在排序值基础上的。现在我们的横截面样本中一共有 n 只股票,首先将每只股票的 ROE 转化为分为数值:70 100 99.0.1007071100692110021卖空股票,股票应该买入按照统计规律,则估值排序:支股票的因子排序:假设rankICPBPBPBPBPBPBfff22211221121-,0)(,0)(,NjijijijiCkendallNffffffffjiff逆序对个数正序对个数秩相关系数为:的样本,定义量为则称为逆序的。对于数则称为正序的,反之若若,、个样本的两个属性),对于两是两个随机变量(样本假设)()(0()(),0(11221122dfqfqffPdffffPjijijiji或1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 10 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 1,1,.2,1.21nnnnROEROEROEn 假设股票之间的相对估值关系主要与因子分为数差有关,定义如下概率函数:0)0()(1,01,0:dROEROEPBPBPdjiji 直观地,我们认为如果 ROE 是一个与估值正相关的变量,那么任取两个公司,高 ROE 公司的估值大概率高于低 ROE 公司,且这个概率的大小随着两个公司 ROE 差的拉大而逐渐增加。为了讨论方便,我们这里假设概率值的大小只依赖于两只公司在 ROE 分为数上的差值。那么容易看出,概率函数应当满足性质:)()()()3)25.0)0()12121dddd单调递增 3.5 计算股票的合理估值排位计算股票的合理估值排位 假设我们已经估算出了上述概率函数,那么对于股票池中的任何一直股票,接下来计算其在该概率分布下的估值排序期望。对任意两只股票,定义事件:jijiijPBPBPBPB若若 1 0 我们仍然假设 ROE 已经全部转换成了分为数值,那么根据期望的线性性质可以得到:)(1)()(1)()()()(1()()()()()(111ikkiikkikikikiikknkjkjkiikkikikiikkiikkROEROEROEROEPBPBPPBPBPVarRVarROEROEROEROEPBPBPEERE 其中,R 代表股票的实际排序,计算出每只股票的估值排序期望之后,与真实估值排序做差就得到每只股票未来估值变化的期望:)()()(PBqnREdE 1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 11 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 其中 q 代表对 PB 取分位数值。上述差值越大,认为股票越被低估,未来预期 alpha 越大,第四部分我们将对该因子的效果做实证检验。3.6 概率函数的参数估计概率函数的参数估计 上一节中我们说明在已知相对估值概率分布的前提下,可以计算每只股票的合理估值排位,最后剩下的问题就是如何对之前定义的概率函数进行估计。直观来看,对于每个自变量 d,我们可以找出所有在 ROE 上相差 d 的股票对,然后统计其中高 ROE 股票估值大于低 ROE 股票估值的对数,之后计算它占整个样本的比例作为函数因变量的一个估计值。这种以样本概率估算实际概率方法的理论基础是最大似然估计。它来源于一个经典问题:假设有一批产品,其中有 p 的概率为次品,如何抽样对 p 进行估计?容易证明 p 的最大似然估计就是其中样本中的次品率。但是前提条件是抽样的个体样本之间互相独立。回到我们的例子中,如果近似假设股票对之间的估值关系是独立的,那么可以用样本比例估计实际概率。但是这种方法存在两个问题。其一是当 d 特别大的时候,样本量非常少,估算的结果很不精确。其二是估算的概率函数没有一个直观的显式表达,仍然存在一定的噪声。我们以下对概率函数的形式做出一定的假设,然后在样本上整体估算其参数,为了讨论方便,假设其是线性的,即:0),1,5.0min()(vvdd 该函数隐含的假设是 ROE 因子与估值的相关性是非负的。需要做出估计是参数是 v,其含义是当两只股票ROE 差值拉大时,它们相对估值大小概率提升的速率。图图 3 3:线性概率函数线性概率函数 数据来源:wind、中信建投证券研究发展部 首先联想到可以将样本拆分成 n(n-1)/2 个股票对,但是这些股票对之间的估值相对大小关系不是独立的。例如当 A 的估值小于 B 且 B 的估值小于 C 时,必有 A 的估值小于 C,因而 n 只股票估值排序关系的联合分布不是边缘分布的简单相乘。我们仍然用样本概率估计实际概率,考虑所有可能股票对之间的正序对数:?(n-i)j(ini=1n-1)=n(n-1)4(1+t)1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 12 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 其中右边与 Kendall 相关系数有关,反映了整个样本中正序对的个数。只不过其统计学上的解读类似于“加权的”最大似然估计。所有 ROE 间隔为 d=i/n 的股票对之间我们认为是近似独立的,因此可以用样本概率估计实际概率,不同间隔 d 的股票对集合的权重按照实际的样本个数(n-i)进行了加权。将之前的线性函数带入可以解出参数 v 的估计值,其表达式如下:nkknvknnnkkkknknnnnnv00000000,2)1(221,)11(31 )123)(1(2)1)()1(3)11(31 )11(23 这就完成了整个模型的建立,上述例子中的 ROE 因子可以替换成任何其它与估值正相关的基本面因子。此外当我们在 ROE 因子上计算出估值提升概率因子之后,可以将新的因子(取负值)看作是包含 ROE 信息之后的估值因子,代替之前的 PB 因子,用第二个解释因子(如净利润增速)代替 ROE 因子,对估值做一个增量的解释,第二步加工之后的因子相对先前的稳定性有显著提升。我们将整个因子计算的流程总结如下:图图 4 4:因子计算步骤因子计算步骤 数据来源:wind、中信建投证券研究发展部 3.7 模型延伸模型延伸 本节的最后,我们对该模型做几点延伸,可以作为后续研究的方向。首先是统计学上的显著性检验。在样本上估计出概率 v 之后,我们可以计算其显著性,即当真实的 v=0 时,观察到不小于当前 v 值的概率(第一类错误),可以证明此时正序对数量的方差约为 n(3/2)数量级。第二是解释因子为离散变量的情形,例如事件类因子。此时概率函数不再是线性的,而是简单的 0-1 分布,即含义给定其它信息之下,该事件对估值概率的影响。1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 13 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 最后是概率函数的形式,之前我们假设是线性的,除此之外还可以用其它形式,但是参数的估计往往没有显示解,需要借助数值方法,例如 logit 函数:0,11)(vedvd 图图 5 5:logit 函数图像函数图像 数据来源:wind、中信建投证券研究发展部 四四、模型应用与实证检验、模型应用与实证检验 4.1 数据处理数据处理 我们的测试数据为全体 A 股 2008 年至 2018 年的价格数据和基本面数据,为了保证可交易性,首先剔除停牌和涨停的股票。对于因子缺失的情况,用当期同行业中位数进行填充,行业的划分按照中信一级行业分类。在估值因子的处理方面,我们将 PB 为负值的股票直接剔除,而不是像一些文献中的做法取为倒数,原因在于取倒数在某种意义并不能保证负值的单调性,例如公司 A 的 P/B=1000/-1000,公司 B 的 P/B=2000/-2000,此时二者从 BP 或者 PB 的计算结果都是-1,估值相同,但事实上 A 公司亏损程度更轻且股价更低,理应估值更便宜。此外我们对所有因子进行行业中性化,即因子值反映的是其在行业内的分位数值。以下,我们主要以过去三年平均扣非 ROE 因子为例测试本文模型因子的表现效果,简记为 ROE。4.2 lift 曲线曲线极值的预测能力极值的预测能力 市值分层法是一种常见的测试因子有效性的方法,其做法是首先将股票全体按照市值大小进行排序,然后等分为 20 个市值组,每个市值组内取因子排名前 20%的股票作为多头,后 20%的股票作为空头,考察多头组合相对空头组合超额收益的稳定性。为什么先对市值进行分层?原因是如果直接从全体样本中选取因子前 20%的股票和后 20%的股票,两个组合的收益差可能是由它们在股票市值上的差异导致的,无法解释超额收益是否来源与因子本身。反之,如果多头组合相对空头组合或基准的市值偏离不大,则可以不做市值分层,问题是如何1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 14 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 衡量市值的偏离?风险因子模型的做法是将组合中个股的市值因子按照持仓权重线性合成作为组合整体的市值,这种方法不精确的地方在于默认了 1 只大盘股+1 只小盘股近似等于 2 只中盘股,只有当市值因子的方向是线性单调时才是合理的。理想状态下,应该是在每个市值组,两个组合的持股比例都大致相同,才能说明它们的市值偏差不大。我们以下引入 lift 曲线的度量方法。具体地,我们的目标集为估值处在全市场最高的前 20%的股票样本,希望考察具有哪些特征的股票有更高的概率落在这个集合里面。当一个因子与“高估值”这个事件完全独立时,无论怎样依照这个因子切分子集,子集里面都差不多有 20%的部分是落在高估值的集合中的。反之如果某个因子与高估值是高度相关的,那么以该因子极值切分出的子集会有显著高于 20%或显著低于 20%的比例的股票处于估值最高的集合当中。下图中我们对 ROE、市值和净资产这三个因子进行了实证检验:图图 6 6:lift 曲线曲线高估值样本的预测高估值样本的预测 数据来源:wind、中信建投证券研究发展部 图中所有因子均为从小到达排列,以市值因子为例,左图中横坐标为 1000 的点,其纵坐标的含义为市值最小的 1000 只股票中估值落在全市场前 20%的个数。作为比较基准,当因子与高估值样本独立时,其 lift 曲线应该接近一条斜率为 0.2 的直线。右图中的纵坐标以比例值代替个数。从结果来看,高估值样本的市值分布是非常均匀的,表现在市值因子的 lift 曲线更靠近基准,ROE 和净资产对高估值的预示作用相对较强,其中净资产少的公司有明显高于 20%的比例落在高估值样本,ROE 在极大值和极小值两端均出现了高于 20%的比例(lift 曲线先高于基准,后低于基准,最后与基准在终点重合),即高 ROE与低 ROE 样本均有较大可能被高估。一个可以解释的原因是低 ROE 或净资产较少的公司可能有潜在的转型空间或壳价值,因此随着基本面数据的变差,市值的减少速率是下降的。为了剔除掉小市值公司的干扰,我们在全市场市值排名前 1/3 的样本上重新进行了测试,结果如下:1 9 9 6 4 1 2 3/3 6 1 3 9/2 0 1 9 0 3 2 1 1 6:2 5 15 HTTP:/RESEARCH.CSC.COM.CN 金融金融工程工程研究研究 金融工程深度报告 请参阅最后一页的重要声明 图图 7 7:lift 曲线曲线高估值样本的预测(全市场市值前高估值样本的预测(全市场市值前 1/3 样本)样本)数据来源:wind、中信建投证券研究发展部 在大市值样本上,市值因子的作用进一步减弱,但净资产效应依然明显,此外高 ROE 的作用相比之前全样本更明显了(偏离基准更多),且低 ROE 效应几乎消失。鉴于以上分析,我们认为选取市值前 1/3 的样本更有助于发挥 ROE 因子的作用,且分析因子时用净资产分层相比市值分层更有意义。4.3 因子与估值在不同行业的因子与估值在不同行业的 ke