免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1证券研究报告金工人工智能57:文本FADT选股华泰研究研究员林晓明SACNo.S0570516010001SFCNo.BPY421linxiaoming@htsc.com+(86)75582080134研究员李子钰SACNo.S0570519110003SFCNo.BRV743liziyu@htsc.com+(86)75523987436研究员何康,PhDSACNo.S0570520080004SFCNo.BRB318hekang@htsc.com+(86)2128972039联系人陈伟SACNo.S0570121070169chenwei018440@htsc.com+(86)2128972228FADT选股组合回测净值资料来源:Wind,朝阳永续,华泰研究,回测期:20090123-20220630FADT选股组合相对中证500超额净值资料来源:Wind,朝阳永续,华泰研究,回测期:20090123-202206302022年7月01日│中国内地深度研究对分析师盈利预测调整研报文本进行挖掘,构建FADT选股组合本文对分析师盈利预测及评级调整中的文本数据进行挖掘,构建的forecast_adj_txt因子表现较为优秀:从因子视角来看,该因子分十层回测严格单调,多头端收益显著,且与传统的forecast_adj因子相关性低;从主动选股的视角来看,以该因子多头第一层为基础池进行进一步股票精选,构建出的主动量化FADT选股组合在回测期20090123~20220630内年化收益达到44.13%,夏普比率1.48,年化双边换手16倍。参数稳健性测试结果表明,模型受各组参数影响较小,文本因子过拟合程度较低。盈利预测调整是“催化剂”事件的间接表达,使用机器学习识别相关文本本文的初衷是找出对股价有重要影响的“催化剂”事件,通过分析师盈利预测及评级调整等间接的方式可以对“催化剂”事件进行分析,因此我们的目标转换为对盈利预测调整的文本进行识别,找出分析师情感偏正向的调整事件。在构建模型时,输入特征为分析师研报文本转换成的词频矩阵,预测标签为研报发布前后两天对应个股的超额收益。在样本外根据模型预测得分构建forecast_adj_txt因子。测试结果表明该因子多头收益显著,分层效果严格单调,同时与传统方法构建的forecast_adj因子相关性低。对各参数进行稳健性测试,模型大概率不存在过度调参导致的过拟合问题对模型中的各组参数进行稳健性测试,主要讨论了以下参数:训练使用的非线性模型、研报标题和摘要采用的词数、样本内窗口长度、样本标签的时间区间、标签分类数量等。测试结果表明,文本因子对各组参数均不敏感,不同参数下forecast_adj_txt因子均具有较为稳定的分层效果,多头端绝对年化收益在21%~23%之间,模型大概率不存在人为过度调参导致...