温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
大数据在选股分析中的应用
金融学专业
数据
股分
中的
应用
金融学
专业
大数据在选股分析中的应用
中文摘要
在科技不断发展、网络覆盖率持续扩张的今天,大数据时代早已悄然而至,每个行业都会形成海量、繁杂的数据。对于如何有效地采集信息、如何挖掘出数据内部的规律,学者们一直在不遗余力地研究并不断提供各种新型的技术。
对于国内的私募基金而言,大数据的价值及其所蕴含的新商机并未充分体现出来,不过可以肯定的是,大数据在私募基金决策的过程中起着越来越重要的作用。基金行业是一个大数据市场,股市每天交易频繁,由此形成了大量的数据,大数据分析技术在这一行业不断走向成熟的过程中,也在不断地更新。
笔者在本课题中,以金融市场中存在的主要问题为切入点,以上市企业为对象,探讨如何对基本面数据以及股票交易展开挖掘分析,并且详细阐述了K-means算法的基本原理、神经网络在选股的作用原理;在现有股票预测原理的基础上,提出的多聚类分析股票数据的方法,结合分类算法对股票数据进行训练,形成基于聚类分析的智能选股算法。
然后对算法进行验证,对整体方案框架进行设计,通过MATLAB进行聚类实现,最后得出最优参数下的聚类结果。最后结合聚类分析出来的选股算法,利用HADOOP技术设计一个简单,稳定高性能的智能选股系统。实验结果显示,开发出的模型分析选股系统可以对股票数据进行多维的分析预测,作为投资者的投资决策的辅助工具,是利用数据挖掘技术结合多聚类分析股票数据的方法,分析大量与股票相关数据,并做出未来走势预测,具有一定的实用意义。
关键词: 私募基金;数据挖掘;证券分析;互联网大数据;交易数据
Abstract
With the continuous development of technology and the continuous expansion of network coverage, the era of big data has long been quietly emerging and there is massive and complicated data in every industry. Researchers have been sparing no effort in researching and constantly providing various new technologies for how to effectively collect information and how to find out the internal laws of data.
For domestic private equity funds, the value of big data and the new business opportunities big data contains are not fully demonstrated, but it is certain that big data plays an increasingly important role in the decision-making process of private equity funds. The fund industry is a big data market. Daily trades in the stock market result in a large amount of data. Analysis technology of big data is constantly updated with the industry being mature.
In this subject, takeing the main problems existing in the financial market as the starting point and the listed companies as the object, the author explores how to excavate and analyze the fundamental data and stock transactions, and elaborates the basic principle of K-means algorithm. Based on the existing stock forecasting theory, this paper proposes a multi-clustering method to analyze stock data and a combination of classification algorithms to train stock data to form an intelligent stock selection algorithm based on clustering analysis.
Then the algorithm is verified, the overall program framework is designed, and the clustering is realized by MATLAB. Finally, the clustering results under the optimal parameters are obtained. At last combining with the stock selection algorithm based on clustering analysis, a simple stable and high-performance intelligent stock selection system is designed by using HADOOP technology. The experimental results show that the model stock picking system can make multi-dimensional analysis and forecasting of stock data. As a supporting tool for investors' investment decision-making, it has certain practical significance, which uses the method of data mining combined with multi-cluster analysis of stock data, Stock-related data, and make the future trend forecast.
Key Words:private fund; data mining; securities analysis; Internet big data
VIII
目 录
中文摘要 I
ABSTRACT II
目 录 III
图表目录 V
1 绪论 1
1.1 论文选题研究的背景及意义 1
1.2 国内外现状分析 2
1.2.1 国外大数据在金融领域发展现状 2
1.2.2 国内大数据在金融领域发展现状 4
1.3 论文的组织结构 5
2 相关理论技术基础及可行性分析 6
2.1 股票二级市场的状况 6
2.2 数据挖掘工作原理 9
2.2.1 聚类算法概述 9
2.2.2 K-means算法原理 10
2.2.3 分类算法 14
2.2.4 分类算法的类型 15
2.3 神经网络在选股中的作用 18
2.3.1 神经网络进行股票预测的原理 18
2.4 本章小结 19
3 智能数据挖掘选股算法 20
3.1 现状分析 20
3.2 基本概念 21
3.2.1 算法研究 21
3.2.2 多聚类分析股票数据 23
3.2.3 多聚类方法描述 24
3.3 本章小结 25
4 算法模型验证 26
4.1 实验方案 26
4.2 数据准备 26
4.3 Matlab中聚类的实现 26
4.4 聚类结果 28
4.4.1 采样/持有周期对聚类结果的影响 28
4.4.2 分类数/滞后期对聚类结果的影响 30
4.4.3 最优参数下的聚类结果 30
4.5 本章小结 31
5 选股系统的设计 32
5.1 系统的详细架构 32
5.2 并行数据挖掘算法实现 33
5.3 数据库设计 34
5.3.1 数据表索引 34
5.3.2 数据表详细设计 35
5.4 详细设计 37
5.4.1 数据结构设计 37
5.4.2 离线交易数据入库 38
5.4.3 主要指标数据计算 38
5.5 系统实施 43
5.5.1 日线数据入库 43
5.5.2 指标计算 43
5.5.3 智能选股 43
5.6 应用 45
5.7 系统测试 45
5.8 本章小结 46
6 总结与不足 47
参考文献 49
致 谢 50
图表目录
图 21 K均值聚类算法的流程图 11
图 22 数据挖掘的流程图 15
图 23 数据文本分类的流程图 15
图 31 行业收益率序列聚类分析方法 21
图 32 分类数据产生过程 22
图 33 分类模型的建立 22
图 34 多重分类模型建立 23
图 51 系统架构图 32
图 52 并决策树算法流程图 33
图 53 离线交易数据入库流程图 38
图 54 日线数据入库界面 43
图 55 指标计算界面 43
图 56 股票预测数据 45
表 21 行业分类表 8
表 31 股票资产定价的技术发展表 20
表 41 不同采样/持有周期对聚类结果的影响 29
表 42 不同采样/持有周期对聚类结果的影响(反转效应) 29
表 43 分类个数/滞后期对聚类结果的影响 30
表 44 聚类模型下的收益对比 30
表 51 数据库索引 35
表 52 日常交易数据表 35
表 53 股票指标数据 36
表 54 指标基本信息表 36
1 绪论
1.1 论文选题研究的背景及意义
在过去短短几十年间,IT行业经历了多次历史性的革命,比如云计算、物联网等,而这一行业最新的突破性成果即为大数据。随着计算机和网络的普及,大数据时代已经降临,在这样的背景下,私募基金行业也迎来了新的机遇和挑战。无论是从投资者还是创业者的角度来看,大数据都是非常受关注的融资标签。
大数据的首要特点是数据体量非常大,通常至少应该达到10TB,然而在现实中,很多企业将自身的数据集全部集中起来,最终汇聚成达到PB级的数据量。另外,其所包含的数据从类型上来看是多种多样的,数据来源丰富多样,数据格式明显不统一,完全超出了以往人们所说的结构化数据范畴,还包含了半结构化数据以及非结构化数据。大数据的数据处理速率非常快,即便它涉及到庞大的体量,但依旧能够满足数据处理的实时性要求。最后,其数据具有很强的真实性,近些年间,社交数据、企业内容、交易等方面的信息不断涌现,这些数据都来自新的数据源,在这样的背景下,企业需要更加有效的信息,才能确保其真实性和安全性,为企业的决策提供准确、及时的依据。
作为一种信息资产,大数据表现出大量、快速增长、多样化的特点,其在决策、洞察、流程优化方面有着明显的优势,但这些优势能够在多大程度上体现出来,主要由处理模式所决定。从数据类型角度而言,“大数据”是指超出以往的流程和方法的处理范围的信息。它对所有突破正常处理范围、必须使用非传统方法进行处理的数据集进行了定义。亚马逊网络服务(AWS)、大数据领域的学者John R