温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
广发
证券
_20181115_
互联网
数据
挖掘
系列
研究
十四
基于
新闻
舆情
策略
1基于新闻舆情的选股策略研究互联网大数据挖掘系列研究之(十四)金融工程|专题报告2018年11月15日证券研究报告罗 军 S0260511010004020-87579006邮箱:安宁宁:S02605120200030755-23948352邮箱:陈原文 S0260517080003邮箱:0755-82797057广发证券金融工程2018年11月15日CONTENTS目录2策略构建02策略实证结果03研究背景01结论0401|研究背景|3010203044研究背景互联网新闻数据随着计算机科学技术的快速发展,媒体新闻的传递从过去的只有电视、报纸、杂志几种渠道,发展到今天以互联网媒体为主流媒体进行信息传递。在金融投资领域,人们投资决策所需的各种资讯很大部分是通过各种互联网媒体获得的,而媒体的新闻和报道往往引导着投资者的注意力。纵观海内外,学术界关于新闻媒体对资本市场的研究,有着一系列丰富的研究成果。数据来源:广发证券发展研究中心5研究背景海外相关研究2008年,Tetlock首次利用情感分析法对华尔街日报、道琼斯新闻等媒体新闻内容进行情感分析,判定新闻内容信息为积极还是消极,实证结果表明消极信息会带来向下的价格压力。数据来源:TETLOCK等More Than Words:Quantifying Language to Measure Firms Fundamentals,广发证券发展研究中心6研究背景海外相关研究2009年,Fang 和 Peress 利用几大主流报纸的文章数量,作为媒体覆盖率的衡量指标。通过分析1993年至2002年期间,NASDAQ 成分股的媒体覆盖率和股票回报率之间的关系,得出结论:在不区分正负面新闻的情况下,受到广泛报道的股票收益显著低于无报道股票。数据来源:LILY FANG,JOEL PERESS等Media Coverage and the Cross-section of Stock Returns,广发证券发展研究中心7研究背景海外相关研究2011年,Joseph等利用谷歌提供的谷歌搜索量指数(SVI)来衡量投资者关注度并对Russell 3000 指数样本股票在2004年至2008年的数据进行研究,发现谷歌搜索量指数与投资者关注度有正相关性,可以作为个人投资者关注度的衡量。该指数的上升能够预测股票收益在两周内的上涨和一年内价格的反转。数据来源:JOSEPH等In Search of Attention,广发证券发展研究中心8研究背景媒体效应的解释媒体效应行为金融理论-过度弱势假说传统金融理论-风险补偿假说受到媒体报道比较多的股票更为投资者所熟知,所面临的信息风险更小未被媒体报道的股票具有较低的信息透明度和较高的信息不对称风险,因此需要正的风险溢价进行补偿投资者注意力容易受到新闻媒体的影响,形成对某些市场热点的“过度关注”,买入那些“抓住他们注意力的股票”,这种因为过度关注所带来的短期内对新信息的过度反映和股票价值的高估,导致随后收益的长期反转,形成“过度关注弱势”数据来源:广发证券发展研究中心9研究背景国内部分互联网大数据基金产品名称代码跟踪指数上市时间公司开放/封闭主动/被动类型博时中证银联智惠大数据100指数型证券投资基金002588.OF中证银联智惠大数据1002016/5/20博时基金开放式被动指数型基金广发中证百度百发策略100A指数型证券投资基金000826.OF中证百度百发策略100指数2014/10/30广发基金开放式被动指数型基金广发中证百度百发策略100E指数型证券投资基金000827.OF中证百度百发策略100指数2014/10/30广发基金开放式被动指数型基金泰达宏利同顺大数据量化优选灵活配置混合型证券投资基金002263.OF2016/2/23泰达宏利基金开放式主动灵活配置型基金南方大数据300A指数证券投资基金001420.OF大数据3002015/6/24南方基金开放式被动指数型基金东兴证券众智优选基金002465.OF2016/6/13东兴证券股份有限公司开放式主动灵活配置型基金大成中证360互联网+大数据100指数型证券投资基金002236.OF中证360互联网+大数据100指数2016/2/3大成基金开放式被动指数型基金广发百发大数据策略精选灵活配置混合型证券投资基金001741.OF2015/9/14广发基金开放式主动灵活配置型基金广发百发大数据策略精选灵活配置混合型证券投资基金001742.OF2015/9/14广发基金开放式主动灵活配置型基金数据来源:公司官网、广发证券发展研究中心,数据截止至2018年11月14日10研究背景互联网大数据抓取体系数据来源:广发证券发展研究中心获取网页抓取规则获取反监控规则、异常 规则、设置代理 IP通用可扩展集群抓取线程池连接池可视化配置智能化配置网页规则识别监控系统抓取任务调度分发器常规抓取临时抓取反监控管理反监控规则异常规则恢复策略监控异常、调整反监控规则带优先级抓取消息分配调度服务器批量存储11研究背景互联网大数据挖掘体系大数据挖掘搜索引擎网络舆情概念轮动搜索舆情下的行业轮动网络舆情下的大类资产配置网络媒体个股新闻热度财经门户选股热点题材动向关联个股投资机会股吧、社交股吧情绪挖掘微信热度挖掘雪球热度挖掘网络搜索热度挖掘研究报告研报热点挖掘汇丰PMI前沿挖掘公告、财报公告抓取公告分类监测A股调研信息挖掘特定公告内容挖掘数据来源:广发证券发展研究中心研究背景专题策略报告基于网络新闻热度的择时策略-互联网大数据挖掘系列专题(一)那些年一起追过的财经小编选股策略-互联网财经频道文本挖掘策略基于互联网挖掘的热点选股策略-互联网大数据挖掘系列专题之(五)基于大数据挖掘的关联个股投资机会-互联网大数据挖掘系列专题之(六)基于大数据挖掘的Smart Beta策略-互联网大数据挖掘系列专题之(七)多维数据下的大数据择时策略研究-互联网大数据挖掘系列专题之(八)基于大数据挖掘的概念轮动策略-互联网大数据挖掘系列专题之(九)基于舆情的大类资产配置策略-互联网大数据挖掘系列专题之(十)基于大数据挖掘的行业轮动策略-互联网大数据挖掘系列专题之(十一)基于网络舆情的指数轮动策略研究-互联网大数据挖掘系列专题之(十二)基于网络舆情再探指数轮动策略研究-互联网大数据挖掘系列研究之(十三)互联网文本挖掘工具1、A股新闻热度搜索工具;3、上市公司信息变更抓取;5、汇丰PMI实时监测工具;7、特定公告实时监测工具;9、百度指数搜索工具;2、A股上市工具公告抓取工具;4、文本信息批量识别及处理;6、个股研报热点监测工具;8、财经小编选股工具;10、A股上市公司调研信息文本挖掘工具;大数据研究现状1202|策略构建|1301020304策略构建-数据来源互联网新闻数据可预测性分析14行为金融学&非理性行为:金融市场上有许多异常现象是传统金融理论和模型所无法解释,比如规模效应、日历效应等。行为金融学从投资者非理性心理和行为等方面对这些现象给予一定的理论支撑。有限关注一直是行为金融学中研究的热门话题,当投资者面对诸多信息时,极易受到外界信息的干扰,进而导致个性化的选择注意差别,最终反映在股票价格上面。有限关注的存在在一定程度上限制了投资者学习和决策的过程。我国大部分投资者为散户投资者,由于缺乏专业的知识,容易受到外界信息的干扰,从而造成投资损失。策略构建-数据来源15投资者关注度的衡量目前学术上一般用引起投资者注意的事件或信息作为投资者关注度间接的代理变量。传统关注度的代理变量有超额收益、异常交易量、换手率、涨跌停板等,但这些指标都是金融资产本身的交易特性和价格行为,并不能直接反映投资者对股票市场的关注程度。在现实股票市场中,互联网成为广大股民获取信息最主要的渠道。互联网搜索引擎提供的相关数据,准确刻画投资者的心理活动。因此,我们可以使用个股的新闻数量作为投资者关注度的衡量指标,探究投资者关注度和股票收益之间的关系。策略构建-数据来源16投资者关注度的衡量为了尽可能地获取个股在所有热门新闻网站上的新闻数量,有以下两种思路:1.分别获取各个热门财经新闻网站有关个股的新闻信息,这种方法的缺点是效率极低,需对不同网站的网页源码进行解析,导致抓取的工作量大,耗费时间长。2.借助搜索引擎的相关新闻搜索功能,通过搜索引擎我们即可获得个股在各个热门财经网站上的新闻信息。这既增加了效率也增加了数据量。目前具有新闻搜索功能的搜索引擎主要有新浪财经新闻搜索、百度新闻搜索、360新闻搜索等。本文采用第二种搜索引擎采集新闻来构建投资者关注度指标。17策略构建-数据来源个股新闻数量描述性统计对个股从2010年至2018年6月的新闻量数据进行统计。其中,新闻数量最多的来自华夏幸福(8832条)、中国动力(8259条)、科大讯飞(5714条);新闻数量最少的来自中迪投资(43条)、圣济堂(41条)、华创阳安(34条)。指标数值(单位:条)股票个数1117平均数706.56标准差790.76最小值3425%分位数36450%分位数51875%分位数736最大值8832数据来源:广发证券发展研究中心18策略构建-数据来源新闻数量分年度统计随着移动互联网的普及和快速发展,关于个股的财经新闻数量显著增长,2018年上半年个股新闻数据总量高达12万条,占2017年年度新闻总量的80%。数据来源:广发证券发展研究中心-10%0%10%20%30%40%50%60%0200004000060000800001000001200001400001600002010年2011年2012年2013年2014年2015年2016年2017年2018年Q2新闻数量分年度统计(单位:条)新闻数量同比增速19策略构建-数据来源新闻数量分行业统计行业分布上,新闻量多的行业主要集中在医药生物、化工、房地产、计算机等行业。数据来源:广发证券发展研究中心01000020000300004000050000600007000080000医药生物化工房地产计算机电气设备电子交通运输传媒公用事业商业贸易机械设备有色金属采掘汽车农林牧渔食品饮料轻工制造纺织服装建筑装饰家用电器钢铁建筑材料通信综合国防军工非银金融休闲服务银行交运设备建筑建材行业新闻数量一览(单位:条)20策略构建-数据来源个股新闻数量与股票价格走势图020406080100010203040506070赣锋锂业新闻数量(单位:条)与股票价格(单位:元)走势图新闻数量股票价格(右轴)0102030405060708005101520小天鹅A新闻数量(单位:条)与股票价格(单位:元)走势图新闻数量股票价格(右轴)051015200510152025303540中化国际新闻数量(单位:条)与股票价格(单位:元)走势图新闻数量股票价格(右轴)0510152025303502468101214贵航股份新闻数量(单位:条)与股票价格(单位:元)走势图新闻数量股票价格(右轴)数据来源:Wind,广发证券发展研究中心21策略构建数据:中证500指数成分股月度的新闻数量;中证500指数日频数据股票池:N只股票回测区间:2010年01月01日 2018年07月02日策略参数:周期根据个股当月的新闻数量,构造投资者关注度指标:ttentio,=,-(,1,2,)在每个月的第一个交易日进行调仓,做多上个月关注度较低的股票策略构建22策略构建-数据来源投资者关注度与股票价格走势图数据来源:Wind,广发证券发展研究中心0102030405060708090100-2.5-2-1.5-1-0.500.511.52010-09-012011-01-042011-05-032011-09-012012-01-042012-05-022012-09-032013-01-042013-05-022013-09-022014-01-022014-05-052014-09-012015-01-052015-05-042015-09-012016-01-042016-05-032016-09-012017-01-032017-05-022017-09-012018-01-022018-05-02赣锋锂业投资者关注度与股票价格(单位:元)走势图Attention股票价格(右轴)01020304050607080-2-101232010-01-042010-06-012010-11-012011-04-012011-09-012012-02-012012-07-022012-12-032013-05-022013-10-082014-03-032014-08-012015-01-052015-06-012015-11-022016-04-012016-09-012017-02-032017-07-032017-12-012018-05-02小天鹅A投资者关注度与股票价格(单位:元)走势图Attention股票价格(右轴)可以看出,投资者关注度和股票价格在一定程度上存在负向关系。23策略构建投资者关注度策略构建 举例月份新闻数量中位数Attention2010-0605-1.791762010-07850.4054652010-0847-0.472010-09650.1541512010-1036-0.55962股票代码Attention002332.SZ-2.30259002353.SZ-2.19722600850.SH-1.50408002362.SZ-1.47331股票代码Attention002332.SZ-2.30259002353.SZ-2.19722300058.SZ-2.19722002244.SZ-2.07944000988.SZ-1.94591600664.SH2.079442000903.SZ2.351375600624.SH2.484907600151.SH2.525729002399.SZ2.538974000418.SZ2010-06多头组合升序排列数据来源:广发证券发展研究中心03|策略实证结果|240102030425策略实证结果策略表现-中证500选股(等权)0.81.31.82.300.511.522.533.544.5策略表现中证500净值多头净值多-中证500净值(右轴)26策略实证结果策略分年度对冲表现年份累积对冲收益率对冲年化收益率最大回撤多头累计收益率基准累计收益率信息比率2010-2.40%-5.70%-4.80%36.00%39.2%-0.92201112.10%12.10%-1.20%-13.50%-22.9%2.2720129.40%9.40%-2.30%-21.70%-28.2%1.4552013-3.20%-3.20%-8.50%32.80%37.4%-0.542201413.30%13.30%-3.10%53.40%35.6%1.552201521.80%21.80%-3.00%72.00%41.1%2.591201623.00%23.00%-2.60%9.40%-10.9%3.51320173.60%3.60%-3.30%-1.40%-5.1%0.68520185.40%9.50%-0.90%-12.10%-16.7%1.21827策略实证结果策略分年度换手率统计年份平均值最大值最小值标准差201054.00%74.10%35.70%16.00%201161.30%100.00%34.50%21.60%201277.60%100.00%51.90%19.20%201352.50%87.50%36.70%15.20%201462.40%100.00%40.00%21.40%201559.30%100.00%36.70%18.60%201679.70%100.00%50.00%20.90%201769.60%90.00%35.70%19.10%201887.20%90.00%83.30%2.80%All66.50%100.00%34.50%20.90%28策略实证结果策略表现-中证500选股(流通市值加权)0.811.21.41.61.8200.511.522.533.542010/7/12011/7/12012/7/12013/7/12014/7/12015/7/12016/7/12017/7/12018/7/1策略表现中证500净值多头净值多-中证500净值(右轴)29策略实证结果策略分年度对冲表现年份累积对冲收益率对冲年化收益率最大回撤多头累计收益率基准累计收益率信息比率2010-5.10%-11.80%-5.60%32.70%39.2%-1.682201113.20%13.20%-2.10%-13.10%-22.9%1.80720121.80%1.80%-6.20%-27.10%-28.2%0.27120132.00%2.00%-5.10%39.80%37.4%0.394201412.80%12.80%-4.80%52.90%35.6%1.27201511.00%11.00%-3.90%57.60%41.1%1.254201621.20%21.20%-3.30%8.90%-10.9%2.69720176.30%6.30%-2.80%1.10%-5.1%0.88620184.80%8.30%-2.60%-12.50%-16.7%1.08730策略实证结果策略分年度换手率统计年份平均值最大值最小值标准差201054.00%74.10%35.70%16.00%201161.30%100.00%34.50%21.60%201277.60%100.00%51.90%19.20%201352.50%87.50%36.70%15.20%201462.40%100.00%40.00%21.40%201559.30%100.00%36.70%18.60%201679.70%100.00%50.00%20.90%201769.60%90.00%35.70%19.10%201887.20%90.00%83.30%2.80%All66.50%100.00%34.50%20.90%04|结论|3101020304基于新闻数量的选股策略根据新闻数量和股票价格之间存在联动关系构造投资者关注度指标,并通过投资者关注度指标构建策略。实证结果表明,在中证500成分股中,利用个股新闻数量可以取得超额收益。策略要点主要有:1.通过网络爬虫抓取中证500从2010年至今的新闻量数据,以该数据构造投资者关注度指标。2.策略基于投资者关注度的高低,对中证500成分股进行分档,在每个月第一个交易日做多关注度低的股票,策略表现优异。32总结风险提示本文旨在对所研究问题的主要关注点进行分析,因此对市场及相关交易做了一些合理假设,但这样会导致建立的模型以及基于模型所得出的结论并不能完全准确地刻画现实环境。而且由于分析时采用的相关数据都是过去的时间序列,因此可能会与未来真实的情况出现偏差。本文内容并不是适合所有的投资者,客户在制定投资策略时,必须结合自身的环境和投资理念。33免责声明免责声明广发证券股份有限公司(以下简称“广发证券”)具备证券投资咨询业务资格。本报告只发送给广发证券重点客户,不对外公开发布,只有接收客户才可以使用,且对于接收客户而言具有相关保密义务。广发证券并不因相关人员通过其他途径收到或阅读本报告而视其为广发证券的客户。本报告的内容、观点或建议并未考虑个别客户的特定状况,不应被视为对特定客户关于特定证券或金融工具的投资建议。本报告发送给某客户是基于该客户被认为有能力独立评估投资风险、独立行使投资决策并独立承担相应风险。本报告所载资料的来源及观点的出处皆被广发证券股份有限公司认为可靠,但广发证券不对其准确性或完整性做出任何保证。报告内容仅供参考,报告中的信息或所表达观点不构成所涉证券买卖的出价或询价。广发证券不对因使用本报告的内容而引致的损失承担任何责任,除非法律法规有明确规定。客户不应以本报告取代其独立判断或仅根据本报告做出决策。广发证券可发出其它与本报告所载信息不一致及有不同结论的报告。本报告反映研究人员的不同观点、见解及分析方法,并不代表广发证券或其附属机构的立场。报告所载资料、意见及推测仅反映研究人员于发出本报告当日的判断,可随时更改且不予通告。本报告旨在发送给广发证券的特定客户及其它专业人士。未经广发证券事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。34THANKS谢谢Thanks!谢谢地址:广州市天河北路183号大都会广场P.C.510075 电话:020-87555888 传真:020-87553600 WWW.GF.COM.CN35