分享
兴业证券_20180409_基于雪球网负面情绪比因子的择时研究.pdf
下载文档

ID:3077202

大小:1.04MB

页数:19页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
兴业 证券 _20180409_ 基于 雪球 负面 情绪 因子 研究
请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 定定量量研研究究 专专题题报报告告 证券研究报告证券研究报告 分析师:徐寅 S0190514070004 团队成员:郑兆磊 S0190517070008 报告关键点报告关键点 通过机器学习对雪球网用户发帖行为的情绪进行判断,构建周度负面情绪比择时指标。并用该指标对主流指数构建择时策略:当该指标下穿过去一年的周负面情绪比高三分位时,满仓操作,否则空仓。测试结果显示,对主流指数择时效果显著。相关报告相关报告 雪球知股乎系列之一:和关注度因子有个约定 2017-05-08 雪球知股乎系列之二:百万投资组合里的宝贝 2017-06-19 雪球知股乎系列三:情绪因子选股正当时 2017-10-14 投资要点投资要点 作为“猎金系列二十一猎金系列二十一”,我们研究雪球网负面情绪指标在择时方面的效用。研究的时间窗为 2014 年 1 月至 2018 年 2 月底,期间雪球网共计有3,500 万左右的帖子,涵盖 425 万用户的行为。通过机器学习的方式对帖子进行情绪判断,进一步构建周度情绪择时因子,并用该因子对主流指数进行择时,效果显著。构建相应指数的周度负面情绪比因子,观察当前负面情绪比因子与过去一年历史三分位数的位置关系,如果当前负面情绪比因子下穿历史上三分位点或者下三分位点(分别对应两种策略),那么满仓操作,否则空仓操作。对上证 50 指数、中证 100 指数、沪深 300 指数、中证 500 指数、中证 800指数、国证 1000 指数分别进行择时,时间窗:2015 年 1 月-2017 年 7 月。测试结果发现:1)两种择时策略都显著有效。以基于沪深 300 指数的择时策略为例,两种策略的年化收益率分别为 13.7%,17.0%,夏普率达到0.63,0.69,盈亏比分别为 2.93,9.68;2)整体来看,当前周度负面情绪比下穿历史高三分位点满仓的策略效果更好。图表、图表、基于沪深基于沪深 300300 择时的净值曲线走势择时的净值曲线走势 风险提示:本报告模型及结论全部基于对历史数据的分析,当市场环境变化时,风险提示:本报告模型及结论全部基于对历史数据的分析,当市场环境变化时,存在模型失效风险。存在模型失效风险。风险提示风险提示:title 基于雪球网基于雪球网负面情绪比因子的择时研究负面情绪比因子的择时研究 2018 年年 4 月月 9 日日 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -2-定量研究专题报告定量研究专题报告 目目 录录 1、情绪因子在择时方面的学术研究.-3-1.1、情绪判断理论回顾.-3-1.2、情绪分析在量化选股择时方面的应用.-3-2、雪球网研究回顾.-5-2.1、数据获取回顾.-5-2.2、情绪因子构建的方式.-5-3、基于负面情绪比因子在不同指数的择时表现.-6-3.1、基于上证 50 指数的择时表现.-8-3.2、基于中证 100 指数的择时表现.-8-3.3、基于沪深 300 指数的择时表现.-9-3.4、基于中证 500 指数的择时表现.-10-3.5、基于中证 800 指数的择时表现.-11-3.6、基于国证 1000 指数的择时表现.-11-3.5、样本外有效性测试.-13-4、小结.-15-5、参考文献.-16-图表、基于沪深 300 择时的净值曲线走势.-1-图表 1、雪球网用户行为分类明细.-5-图表 2、测试集合上模型表现.-5-图表 3、不同类别情绪因子的定义.-5-图表 4、不同区间对应的情绪、持仓含义.-6-图表 5、择时策略示意图.-7-图表 6、基于不同指数的负面情绪比周度趋势.-7-图表 7、基于不同指数的负面情绪比相关性.-7-图表 8、负面情绪比因子在上证 50 的择时表现.-8-图表 9、基于上证 50 择时的净值曲线走势.-8-图表 10、负面情绪比因子在中证 100 的择时表现.-9-图表 11、基于中证 100 择时的净值曲线走势.-9-图表 12、负面情绪比因子在沪深 300 的择时表现.-9-图表 13、基于沪深 300 择时的净值曲线走势.-9-图表 14、负面情绪比因子在中证 500 的择时表现.-10-图表 15、基于中证 500 择时的净值曲线走势.-10-图表 16、负面情绪比因子在中证 800 的择时表现.-11-图表 17、基于中证 800 择时的净值曲线走势.-11-图表 18、负面情绪比因子在国证 1000 的择时表现.-11-图表 19、基于国证 1000 择时的净值曲线走势.-12-图表 20、两种择时策略在不同指数择时的有效性.-12-图表 21、择时策略一和策略二整体表现(一).-12-图表 22、择时策略一和策略二整体表现(二).-13-图表 23、不同指数的样本外择时效果(上证 50&中证 100).-13-图表 24、不同指数的样本外择时效果(沪深 300&中证 500).-14-图表 25、不同指数的样本外择时效果(中证 800&国证 1000).-14-图表 26、目前基于雪球网的整体研究框架.错误错误!未定义书签。未定义书签。图表 27、雪球网整体总结.-15-请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -3-定量研究专题报告定量研究专题报告 报告正文 择时研究一直是市场关注的焦点。相比于选股而言,无论是在研究方法或者是数据源上都有较大的提升空间。基于雪球网,去年我们兴业定量研究团队从选股的角度分别构建了关注度、价值变动、负面情绪比这三个有效的选股因子。在后续的路演和交流过程中,许多机构投资者都和我们深入探讨了将这些另类文本数据用于择时研究的可行性。而这也导致了本文的诞生,促使我们将情绪因子应用于市场方向判断。1、情绪因子在择时方面的学术研究、情绪因子在择时方面的学术研究 1.11.1、情绪判断情绪判断理论理论回顾回顾 情绪分析通过运用 NLP、文本挖掘、计算语言学等技术实现对各种非规范化的文本语言处理,达到相应的情绪判断的目的。Stone,Philip1于 1966 年基于研究对象的言语行为去分析病人的心理问题标志着情绪分析的开始。目前主流的研究方法分成无监督的文本情感判断和有监督的情感判断。无监督的情感判断主要运用情感词的相关信息进行文本情绪的判断。Hatzivassiloglou2等的研究表明通过情绪词汇能很好的判断句子的情感倾向。Taboada3等利用情感词典中的关联度和权重信息对文本的情绪进行判断。而Turney4等则认为词组比单词更能准确的表达情感,包括对语句的情绪进行判断等。简单总结来讲,这种方法的流程是确定情绪词库,然后通过统计文本中不同情绪词库中的词出现的比例,进一步权重化,进而得到最终的情绪值。该方法面临的问题是:1、需要动态维护情绪库;2、忽略了文本的结构问题,导致部分关键信息的丢失。有监督学习的文本情感分析主要运用贝叶斯模型、支持向量机(SVM,Support Vector Machine)、神经网络等模型进行情感分类。Pang、Lee、Vaithyanathan5最早将该方法用于对电影评论文本分类,分为褒义和贬义两类。其他不同的学者也对机器学习在情绪分析方面的研究进行了不同的尝试和改进。Ye6等比较了贝叶斯、支持向量机在旅行博客上的情绪判断,实验表明支持向量机的效果要优于贝叶斯的方式。1.21.2、情绪分析在情绪分析在量化量化选股选股择时方面的应用择时方面的应用 文本情绪在量化投资方面的应用由来已久。Antweiler 和 Frank7在 2004 年就通过对雅虎财经的新闻情绪进行判断,研究其对股市的预测作用。Tetlock8通过运用哈佛心理词典对华尔街日报的新闻进行情绪判断,进一步研究对股市的 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -4-定量研究专题报告定量研究专题报告 预测作用。发现悲观情绪越大,股市未来会大幅下跌;同时市场情绪越极端,成交量也越大。而 Tetlock9在 2008 年的研究表明:公司新闻公告中的负面词汇越多,公司季度盈利就越差。Loughran 和 McDonald10认为哈佛心理词典不太适合用于金融方面的分析,他们从金融维度出发构建了一个正向词库和负向词库,并进一步研究其与市场波动、涨跌幅、成交量的关系。Chouliaras 和 Grammatikos11的研究表明在经济危机期间,情绪越悲观,股市表现越差。Feldman 12的研究表明在管理层讨论板块,如果透露着乐观情绪,那么未来股价将会向好,否则将有跌的可能。Doran 和 McKay Price13选取 20042007 年间美国上市公司季度盈利披露电话会议文本信息,运用 Harvard 字典和 Henry 字典来衡量文本的情绪倾向。研究发现在问答环节中透露出积极情绪越多的公司,其未来三天或两个月的股票收益会更高,而在电话会议中透露出的情绪越消极的公司,其超额收益为负。Heston和R.Sinha14通过Thomson Reuters获取2003-2010年期间900754条新闻,应用三层神经网络作为分类器对新闻的情绪进行判别,并对新闻发布后一段时间的收益情况进行预测。研究发现发布中性新闻的公司比不发布任何新闻的公司股票收益高,而新闻中体现更多积极情绪的公司将在一周内有更高的股票收益,公司新闻中消极情绪较多的将在未来的一个季度内有较低的股票收益。在择时方面的研究和应用相对较少,Feuerriegel 和 Prendinger15将德国上市公司发布的临时公告作为数据来源,以基于词典的方法计算公告的情绪值。针对交易信号的生成,作者尝试了多种不同的方法。第一种是基于简单规则的新闻情绪策略,当正面(负面)情绪值大于(小于)正(负)阈值时发出买入/卖空的交易信号。第二种是将简单规则的新闻情绪与股价动量相结合的策略,只有情绪信号与动量信号方向一致时才进行买卖操作。第三种是基于机器学习算法的新闻情绪策略。第四种是基于强化学习算法的新闻情绪策略。最后,以 CDAX 指数(德国股票市场指数)和简单的动量策略作为基准,对这 6 大类策略进行回测。作者发现将新闻情绪数据用于生成交易信号可以增强策略表现,而基于策略学习(机器学习与强化学习)的方法可以更进一步提升策略表现。W.Uhl 和 Pedersen 获取Thomson Reuters NewsAnalytics16发布的公司层面和宏观层面的新闻数据,用于计算股权市场周度的情绪指标。之后,利用 CUSUM Filter 方法对噪音新闻数据进行过滤,避免交易信号频繁出现。然后,将新闻情绪指标发出的信号应用于 TAA(战术型资产配置),即新闻情绪指标发出积极信号时配置股权类资产,消极信号时配置债权类资产,中性信号时两类资产各配置 50%。最终,作者发现基于新闻情绪的 TAA 策略在年化收益、夏普比率和最大回撤等方面均明显优于基准策略(50%MSCI 与 50%3-5Y 美国政府债券)。综合各位学者的研究经验,结合雪球网的数据特点,我们将利用雪球知股 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -5-定量研究专题报告定量研究专题报告 乎系列三:情绪因子选股正当时中生成的负面情绪比因子构建择时策略。2、雪球网研究回顾、雪球网研究回顾 首先,我们简单回顾一下雪球网数据结构、以及情绪因子构建的流程。2 2.1.1、数据获取回顾数据获取回顾 雪球网有很多功能界面,从行为上进行分类,共计有三种:关注行为、发帖行为、投资组合调仓行为。另外,发帖行为是一种非格式化文本,可以据此通过特定的方式分析文本的情绪构建情绪选股指标。数据的时间窗口为 2010 年 12 月16 日至 2018 年 2 月 28 日,在此期间共获得 4,254,659 个用户、57,320,982 条基本行为。具体参见图表-1。图表图表 1 1、雪球网用户行为分类明细、雪球网用户行为分类明细 关注关注 发帖发帖 创建投资组合创建投资组合 总计总计 数量 21,672,536 34,658,560 989,886 57,320,982 占比 38.3%59.7%1.9%100.0%因子构建 关注度因子 情绪因子(本篇报告重点)价值变动因子 资料来源:雪球网,兴业证券经济与金融研究院整理 2 2.2.2、情绪因子构建的方式情绪因子构建的方式 根据前面的文献综述,我们得知情绪分析的方法大体上包括无监督的情绪判断和有监督的情绪判断方式。我们选择监督学习的方式,通过分层随机抽样的方式选择 27,654 篇帖子作为训练语料,进一步选择 70%作为训练集、30%作为测试集。对比分析了 SVM 和贝叶斯模型,最终选择了 SVM 模型作为训练模型。模型的精准度为 70.16%。而从召回率的角度来看,正向、负向、中性文本的召回率分别为 76.9%、68.2%、58.3%。图表图表 2 2、测试集合上模型表现、测试集合上模型表现 例句例句 样本数目样本数目 召回率召回率 正向集合 3,998 76.9%负向集合 2,472 68.2%中性集合 1,852 58.3%资料来源:雪球网,兴业证券经济与金融研究院整理 将模型泛化到样本外,从而得到所有帖子的情绪,进一步构建情绪因子。每篇帖子的情绪有三种可能:正向情绪、负向情绪、中性情绪。那么,我们分别定义了以下几种类别的情绪因子。图表图表 3 3、不同类别情绪因子的定义、不同类别情绪因子的定义 因子因子 因子因子/英文英文 因子定义因子定义 负面情绪比 Neg_ratio 截面负面情绪帖子占截面总量帖子比例 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -6-定量研究专题报告定量研究专题报告 正面情绪比 Pos_ratio 截面正面情绪帖子占截面总量帖子比例 综合情绪比 Pos_Neg_ratio(截面负面情绪帖子数-截面正面情绪帖子数)/截面总量帖子数 资料来源:兴业证券经济与金融研究院整理 具体的流程和细节参见我们雪球知股乎系列三:情绪因子选股正当时。我们从负面情绪的角度出发,构建周度负面情绪比作为择时因子,以沪深 300为例,基于沪深 300 指数的周度负面情绪比因子的定义为:某周沪深 300 股票的负面帖子数/这一周沪深 300 股票的帖子总数,并用该因子对主流指数进行择时研究。3、基于负面基于负面情绪情绪比比因子因子在不同指数的在不同指数的择时择时表现表现 在雪球知股乎系列三:情绪因子选股正当时中我们验证了负面情绪比的逻辑:如果市场负面情绪较为严重,那么接下来大概率可能会下跌,如果市场负面情绪相对较弱,那么市场下跌的可能性就会较小。基于此,我们构建择时策略。时间窗:2014 年 1 月-2017 年 7 月底,该窗口也是训练模型的时间窗口。择时标的:上证 50、中证 100、沪深 300、中证 500、中证 800、国证 1000。这里之所以选择成分股市值规模较大的指数是因为根据我们的统计,这些指数的成分股在雪球上的关注度较高,市场情绪能充分反映出来,负面情绪比因子也可能更加有效。调仓频率:周度调仓。择时策略:在每周的最后一个交易日,观察过去一年周度负面情绪比因子的上三分位以及下三分位的值,如果当前时点周负面情绪比因子下穿上三分位(或者下三分位),那么满仓操作,否则空仓,以下穿上三分位点为策略一、下穿下三分位点为策略二,具体操作参见图表-4。我们以示意图 5 为例,假设当前时点为 T0 时刻,那么分别计算 T0 时刻基于过去一年得到的上三分位和下三分位趋势线,观察周度负面情绪比与上下三分位趋势线的关系。策略一是下穿上三分位满仓,那么此次建仓直至下次空仓的时段为 S1+S2 面积对应的T0,T3时间窗口,这意味着我们建仓的标准是在市场没那么悲观的情况下可以建仓。策略二是下穿下三分位满仓,那么此次建仓直至下次空仓的时段为 S2 面积对应的T1,T2时间窗口,这意味着我们建仓的标准是在市场最不悲观的时候建仓。图表图表 4 4、不同区间对应的情绪、持仓含义不同区间对应的情绪、持仓含义 区间相应的情绪状态区间相应的情绪状态 策略一持仓信号策略一持仓信号 策略二持仓信号策略二持仓信号 0,下三分位 市场最不悲观 满仓 满仓 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -7-定量研究专题报告定量研究专题报告 下三分位,上三分位 市场相对不悲观 满仓 空仓 上三分位,1 市场最悲观 空仓 空仓 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 图表图表 5 5、择时策略示意图择时策略示意图 资料来源:兴业证券经济与金融研究院整理 鉴于情绪因子的时间窗口自 2014 年 1 月开始-2017 年 7 月结束,而计算分为点需要至少一年的数据,因此我们实际构建的策略自 2015 年 1 月开始。我们是在上证 50、中证 100、沪深 300、中证 500、中证 800、国证 1000 中分别进行择时研究,进而分析了六个指数相应的周度负面情绪比的趋势,具体参见图表 6-7。我们发现六个指数相应的周度负面情绪比具有相同的趋势,相关性也较高。图表图表 6 6、基于不同指数的负面情绪比周度趋势基于不同指数的负面情绪比周度趋势 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 图表图表 7 7、基于不同指数的负面情绪比相关性基于不同指数的负面情绪比相关性 上证上证 50 中证中证 100 沪深沪深 300 中证中证 500 中证中证 800 国证国证 1000 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -8-定量研究专题报告定量研究专题报告 上证 50 1 0.798 0.739 0.471 0.699 0.671 中证 100 1 0.895 0.539 0.828 0.765 沪深 300 1 0.585 0.920 0.865 中证 500 1 0.854 0.866 中证 800 1 0.972 国证 1000 1 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 3 3.1.1、基于上证基于上证 5050 指数的择时表现指数的择时表现 从择时的效果来看,采用策略一时(下穿上三分位点满仓,否则空仓),策略年化收益率达到 11.7%,夏普率达到 0.64;而当我们收紧条件采用策略二时(下穿下三分位点,即市场最不悲观时满仓,否则空仓),基于上证 50 的择时策略年化收益率为3.3%,夏普比率为0.37,最大回撤17.2%。而策略二的盈亏比高达5.82,远高于策略一的相应表现。无论那种策略,其相应的表现均优于上证 50 在该时间段内的表现。图表图表 8 8、负面情绪比因子在上证负面情绪比因子在上证 5050 的择时表现的择时表现 总收益率总收益率 年化收益率年化收益率 波动率波动率 夏普率夏普率 最大回撤最大回撤 换手率换手率 胜率胜率 盈亏比盈亏比 策略一 32.7%11.7%18.4%0.64 23.7%28.0 36.1%2.40 策略二 8.7%3.3%8.9%0.37 17.2%26.5 17.3%5.82 基准表现 2.3%0.9%18.5%0.05 41.6%资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 图表图表 9 9、基于上证基于上证 5050 择时的净值曲线走势择时的净值曲线走势 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 3.23.2、基于中证基于中证 100100 指数的择时表现指数的择时表现 从择时的效果来看,采用策略一时(下穿上三分位点满仓,否则空仓),策略年化收益率 4.6%,夏普比率 0.42;而当我们收紧条件采用策略二时(下穿下三分 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -9-定量研究专题报告定量研究专题报告 位点,即市场最不悲观时满仓,否则空仓),基于中证 100 的择时策略年化收益率达到 10.0%,夏普比率 0.64,最大回撤 12.78%。而策略二的盈亏比高达 6.61,远高于策略一的相应表现。无论那种策略,其相应的表现均优于中证 100 在该时间段内的表现。图表图表 1010、负面情绪比因子在中证负面情绪比因子在中证 10100 0 的择时表现的择时表现 总收益率总收益率 年化收益率年化收益率 波动率波动率 夏普率夏普率 最大回撤最大回撤 换手率换手率 胜率胜率 盈亏比盈亏比 策略一 106.1%4.6%10.9%0.42 22.84%26.5 33.1%2.36 策略二 127.5%10.0%15.6%0.64 12.78%25.4 19.5%6.61 基准表现 112.1%2.3%18.3%0.13 40.83%资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 图表图表 1111、基于基于中证中证 10100 0 择时的净值曲线走势择时的净值曲线走势 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 3.33.3、基于沪深基于沪深 300300 指数的择时表现指数的择时表现 从择时的效果来看,采用策略一择时时(下穿上三分位点满仓,否则空仓),策略年化收益率 17.0%,夏普比率 0.69;而当我们收紧条件采用策略二择时时(下穿下三分位点,即市场最不悲观时满仓,否则空仓),基于沪深 300 的择时策略年化收益率 13.7%,夏普比率 0.63,最大回撤 5.89%。而策略二的盈亏比高达 9.68,远高于策略一的相应表现。无论那种策略,其相应的表现均优于沪深 300 在该时间段内的表现。图表图表 1212、负面情绪比因子在沪深负面情绪比因子在沪深 300300 的择时表现的择时表现 总收益率总收益率 年化收益率年化收益率 波动率波动率 夏普率夏普率 最大回撤最大回撤 换手率换手率 胜率胜率 盈亏比盈亏比 策略一 149.3%17.0%24.5%0.69 12.80%25.0 35.3%2.93 策略二 138.7%13.7%21.7%0.63 5.89%25.0 19.5%9.68 基准表现 104.5%1.7%20.8%0.08 45.77%资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 图表图表 1313、基于基于沪深沪深 3 30000 择时的净值曲线走势择时的净值曲线走势 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -10-定量研究专题报告定量研究专题报告 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 3.43.4、基于中证基于中证 500500 指数的择时表现指数的择时表现 从择时的效果来看,采用策略一时(下穿上三分位点满仓,否则空仓),策略年化收益率-4.2%,择时策略基本无效;而当我们收紧条件采用策略二时(下穿下三分位点,即市场最不悲观时满仓,否则空仓),基于中证 500 的择时策略年化收益率达到 9.7%,夏普比率 0.54,最大回撤 15.17%。后面我们会横向对比择时策略在不同指数的胜率以及盈亏比,我们发现择时策略之所以在中证 500 失效的原因是因为该择时策略在中证 500 的盈亏比相对较低。图表图表 1 14 4、负面情绪比因子在中证负面情绪比因子在中证 500500 的择时表现的择时表现 总收益率总收益率 年化收益率年化收益率 波动率波动率 夏普率夏普率 最大回撤最大回撤 换手率换手率 胜率胜率 盈亏比盈亏比 策略一 89.6%-4.2%19.4%-0.22 40.28%26.5 36.8%1.70 策略二 126.8%9.7%17.9%0.54 15.17%23.5 20.3%5.84 基准表现 115.1%5.6%32.0%0.18 52.63%资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 图表图表 1515、基于中证基于中证 500500 择时的净值曲线走势择时的净值曲线走势 资料来源:雪球,Wind,兴业证券经济与金融研究院整理 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -11-定量研究专题报告定量研究专题报告 3.53.5、基于中证基于中证 800800 指数的择时表现指数的择时表现 从择时的效果来看,采用策略一时(下穿上三分位点满仓,否则空仓),策略年化收益率 15.4%,夏普比率 0.71;当收紧条件采用策略二时(下穿下三分位点,即市场最不悲观时满仓,否则空仓),基于中证800的择时策略年化收益率11.1%,夏普比率 0.63,最大回撤 11.48%;而策略二的盈亏比高达 7.30,远高于策略一的相应表现。无论那种策略,其相应的表现均优于中证 800 在该时间段内的表现。图表图表 1 16 6、负面情绪比因子在中证负面情绪比因子在中证 8 80000 的择时表现的择时表现 总收益率总收益率 年化收益率年化收益率 波动率波动率 夏普率夏普率 最大回撤最大回撤 换手率换手率 胜率胜率 盈亏比盈亏比 策略一 144.2%15.4%21.8%0.71 13.83%24.2 34.6%2.95 策略二 130.8%11.1%17.5%0.63 11.48%25.8 19.5%7.30 基准表现 107.1%2.7%23.0%0.12 47.25%资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 图表图表 1717、基于中证基于中证 8 80000 择时的净值曲线走势择时的净值曲线走势 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 3.63.6、基于国证基于国证 10001000 指数的择时表现指数的择时表现 从择时的效果来看,采用策略一时(下穿上三分位点满仓,否则空仓),策略年化收益率 17.2%,夏普比率 0.67;而当我们收紧条件采用策略二时(下穿下三分位点,即市场最不悲观时满仓,否则空仓),基于国证 1000 的择时策略年化收益率 9.7%,夏普比率 0.62,最大回撤 12.78%;而策略二的盈亏比高达 6.23,远高于策略一相应表现。无论那种策略,其相应的表现均优于国证 1000 在该时间段内的表现。图表图表 1 18 8、负面情绪比因子在国证负面情绪比因子在国证 10001000 的择时表现的择时表现 总收益率总收益率 年化收益率年化收益率 波动率波动率 夏普率夏普率 最大回撤最大回撤 换手率换手率 胜率胜率 盈亏比盈亏比 策略一 150.0%17.2%25.7%0.67 10.10%24.2 36.8%2.66 策略二 126.7%9.7%15.7%0.62 12.78%28.8 20.3%6.23 基准表现 105.1%2.0%24.3%0.08 48.19%资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -12-定量研究专题报告定量研究专题报告 图表图表 1919、基于基于国证国证 10100000 择时的净值曲线走势择时的净值曲线走势 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 我们分别测试了基于上证 50、中证 100、沪深 300、中证 500、中证 800、国证 1000 指数相应的择时表现。从结果来看,除在中证 500 里面择时策略效果相对较弱以外,在其他指数上的择时均能取得显著的择时效果。即便在中证 500 里面,当周度负面情绪比下穿低三分位点建仓的策略仍然有显著的择时表现。而之所以在中证 500 里面,无论是择时策略一抑或是择时策略二在盈亏比方面都低于两个策略在其他指数上的择时表现,这也是择时策略在中证 500 里面相对失效的原因。图表图表 2020、两种择时策略在不同指数择时的有效性两种择时策略在不同指数择时的有效性 上证上证 50 中证中证 100 沪深沪深 300 中中证证 500 中证中证 800 国证国证 1000 策略一 有效 有效 有效 无效 有效 有效 策略二 有效 有效 有效 有效 有效 有效 资料来源:兴业证券经济与金融研究院整理 图表图表 2121、择时策略一和策略二整体表现择时策略一和策略二整体表现(一)(一)策略一择时表现策略一择时表现 策略二择时表现策略二择时表现 年化收益年化收益 波动率波动率 夏普率夏普率 最大回撤最大回撤 年化收益年化收益 波动率波动率 夏普率夏普率 最大回撤最大回撤 上证 50 11.7%18.4%0.64 23.7%3.3%8.9%0.37 17.2%中证 100 4.6%10.9%0.42 22.84%10.0%15.6%0.64 12.78%沪深 300 17.0%24.5%0.69 12.80%13.7%21.7%0.63 5.89%中证 500-4.2%19.4%-0.22 40.28%9.7%17.9%0.54 15.17%中证 800 15.4%21.8%0.71 13.83%11.1%17.5%0.63 11.48%国证 1000 17.2%25.7%0.67 10.10%9.7%15.7%0.62 12.78%资料来源:兴业证券经济与金融研究院整理 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -13-定量研究专题报告定量研究专题报告 图表图表 2222、择时策略一和策略二整体表现(二)择时策略一和策略二整体表现(二)策略一择时表现策略一择时表现 策略二择时表现策略二择时表现 胜率胜率 盈亏比盈亏比 胜率胜率 盈亏比盈亏比 上证 50 36.1%2.40 17.3%5.82 中证 100 33.1%2.36 19.5%6.61 沪深 300 35.3%2.93 19.5%9.68 中证 500 36.8%1.70 20.3%5.84 中证 800 34.6%2.95 19.5%7.30 国证 1000 36.8%2.66 20.3%6.23 资料来源:兴业证券经济与金融研究院整理 3.53.5、样本外有效性测试样本外有效性测试 前面的研究时间窗口为 2015 年 1 月-2017 年 7 月底,这也是我们模型的训练窗口。进一步,我们将模型泛化到样本外,得到 2017 年 8 月-2018 年 2 月底的所有帖子的情绪,然后计算相应指数周度负面情绪比,进一步验证择时策略有效性。从结果上来看,样本外的模型在上证 50、中证 100、沪深 300 有效性更强,在中证 800、国证 1000 上的效果相对较弱。图表图表 2323、不同指数的样本外择时效果(上证不同指数的样本外择时效果(上证 50&50&中证中证 100100)基于上证基于上证 50 择时的样本外净值曲线走势择时的样本外净值曲线走势 基于基于中证中证 100 择时的样本外净值曲线走势择时的样本外净值曲线走势 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -14-定量研究专题报告定量研究专题报告 图表图表 2 24 4、不同指数的样本外择时效果(沪深不同指数的样本外择时效果(沪深 300&300&中证中证 500500)基于基于沪深沪深 300 择时的样本外净值曲线走势择时的样本外净值曲线走势 基于基于中证中证 500 择时的样本外净值曲线走势择时的样本外净值曲线走势 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 图表图表 2 25 5、不同指数的样本外择时效果(中证不同指数的样本外择时效果(中证 800&800&国证国证 10001000)基于基于中证中证 800 择时的样本外净值曲线走势择时的样本外净值曲线走势 基于基于国证国证 1000 择时的样本外净值曲线走势择时的样本外净值曲线走势 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -15-定量研究专题报告定量研究专题报告 4、小结小结 基于雪球网的研究告一段落,期间完成了网络构架的研究、构建了三个选股因子、一个择时策略,撰写了 4 篇深度报告。而选股因子的大致表现参见图表-26。图表图表 2626、雪球网整体总结雪球网整体总结 定义(以月度为定义(以月度为例)例)优化优化 因子表现因子表现 和传统因子的相和传统因子的相关性关性 关 注 度 因子 月度某只股票被关注的次数 换手率较高,利用过去 3个月的值等权平均合成 行业市值中性化后,IC 达到 0.079,多空组 合 年 化 收 益 率24.6%,夏普率 2.03 和成交量相关性较高,剥离后有一定的效果 价 值 变 动因子 月度买入股票的价值变动 和动量因子相关性较高,剥离 剥离后 IC 为 0.04,多空组合年化收益率25.34%,夏普率 3.34 和传统的大类因子相关性较低 负 面 情 绪比因子 月度负面的帖子数目占股票总帖子数目比例 行业市值中性化后 IC 为0.037,分位数严格单调 和传统的大类因子相关性较低 负面情绪比因子 资料来源:雪球网,Wind,兴业证券经济与金融研究院整理 对整体的研究成果做一个总结,在此和大家分享一些浅见,如能起绵薄作用,将倍感荣幸。1、互联网文本下的大数据研究难点有二:1)、原始数据的获取,国内大数据的兴起和积累大致是从 2013 年左右开始有一个突破点,但数据壁垒较高,获取成本很大;2)、如何从海量信息中抽茧剥丝在有效降噪的情况下,聚焦有效信息,研发有效的选股策略。虽然道阻其长,投入产出比低,但这是一个试错过程,尝试过、尽力过、我们才能知道效果。2、充分利用已有的文本数据,切忌“未来函数”现象的出现。在文本数据的研究过程之中会有很多的研究维度和视角,一不留神就会踩到坑里,还欣喜若狂,以为发现了新大陆,比如雪球网用户的粉丝数、比如投资组合里面的关注人数等。我们能得到这些维度在某个时点的数据,但是没办法回溯历史上某一时刻这些指标数值大小。3、大数据文本下的类关注度因子(和关注度因子相仿的因子,如点击率等)都有很高的同质性。我们兴业定量团队也获得了一些主流的财经媒体网站以及热门股吧等数据,这些数据源构建的关注度因子的秩相关性均在 0.7-0.8 之间。根据我们 雪球知股乎系列一 对关注度因子的研究,这些因子也都具有反转效应。4、情绪因子真的很“情绪”。情绪分析一直是文本挖掘的一个难题,综合利用到 NLP、机器学习等学科。而中文方面的研究更是难上加难,我们汉语的独有魅力在这一刻又得到彰显。在对汉语进行情绪分析时,首先需要切词,切词的依 请务必阅读正文之后的信息披露和重要声明请务必阅读正文之后的信息披露和重要声明 -16-定量研究专题报告定量研究专题报告 据是有效的词库。而我们没有一个权威的、成熟的、得到广泛认可的词库,但这一步是基础,是起步。另外,无论是国内亦或是国外基于情绪构建的选股因子的选股并不是特别显著(相对于传统的选股因子而言)。这也不能算是坏消息,至少意味着未来的研究空间很大。回到研究期初,我们希望相应的研究能给大家的日常投研带来一定的启发作用,“取知”、“取悦”。目前研究已经落地,希望完成我们预期的构想。风险提示:本报告模型及结论全部基于对历史数据的分析,当市场环境变化风险提示:本报告模型及结论全部基于对历史数据的分析,当市场环境变化时,存在模型失效风险。时,存在模型失效风险。5、参考文献、参考文献 1.Stone,Philip J.,Dexter C.Dunphy,and Marshall S.Smith.The general inquirer:A computer approach to content analysis.MIT Press,Cambridge,MA(1966).2.Hatzivassiloglou,V.and K.R.McKeown.Predicting the sematic orientation of adjectives,in Proceedings of the 35th annual meeting of the association for

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开