分享
基于KNN和神经网络算法的数据挖掘与预测模型研究.pdf
下载文档

ID:3075899

大小:1.18MB

页数:6页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 KNN 神经网络 算法 数据 挖掘 预测 模型 研究
第 卷第期 年月太 原 师 范 学 院 学 报(自然科学版)J OUR NA LO FT A I YUANN O RMA LUN I V E R S I T Y(N a t u r a lS c i e n c eE d i t i o n)V o l N o J u n 收稿日期:基金项目:安徽省高校质量工程项目(j x t d ,s j j d )作者简介:张迪(),男,汉,安徽霍邱人,硕士,安徽工业经济职业技术学院副教授,主要从事嵌入式技术、物联网技术研究通信作者:张迪,副教授,E m a i l:s a n d y c o m基于K N N和神经网络算法的数据挖掘与预测模型研究张迪(安徽工业经济职业技术学院,安徽 合肥 )摘要数据挖掘是运用统计学、机器学习和数据库理论等多方面学科知识来对数据进行提炼获取的多学科领域为了从大量的数据中提炼出有效的信息,拓宽数据挖掘技术在现实生活中的应用范围利用数据挖掘中的最近邻法、支持向量机法、卷积神经网络法和C NN L S TM混合神经网络法分别对股价数据进行分析建模和预测,并对所建立模型进行检验结果表明,运用KNN法对股票价格的涨跌趋势进行短期预测是可行的,而在股票价格实时预测方面,按算法预测的准确度由小到大排序为:S VM法C NN法C NN L S TM法 关键词数据挖掘;股票价格;实时价格;涨跌趋势;预测 文章编号 ()中图分类号T P ,F 文献标识码A 引言股票市场作为金融系统中的一块军事重地,是各国重点监控领域在我国,随着改革开放后的经济飞速发展,股票市场一直蓬勃发展然而总体相较于国际水平而言,无论发展健康状况,还是市场监控状况,都相距尚远现如今,随着炒股的兴起,越来越多的人们想要对股价的波动趋势进行预测,但是,股票价格的走势,受很多因素的影响,比如市场的自我调节,比如政策的宏观调节,又比如生活中的很多因素对企业公司的影响所以,如果想要预测得更为精准,需要处理的数据量是非常大的,并且数据非常复杂而数据挖掘技术,就可以帮我们运用高能电子设备,对这些数据进行非常轻松的处理因为数据挖掘就是一个从大量数据中提取有价值的信息的过程近年来,作为汇集了数据库、统计学、人工智能等多领域的学科,数据挖掘以其强大的功能被广泛应用于金融、医疗、制造等领域将此技术应用于股价的分析与研究,可以及时有效地提炼出股价原始数据中的各种信息,从微观层面上,可以对投资者的决策做出指导意义因此,选择数据挖掘处理股价原始数据十分合适大量实验数据表明,股票市场可以做出短期的趋势预测比如,董清将股票预测系统进行了联网处理,并在系统中加入了一定的规则,凭此预测出恒生指数变化势张立在预测台湾本地股票市场时,运用A p r i o r i算法的关联规则,归纳股票与股票之间的联系后,再运用k均值对整体数据进行聚类分析,尝试挖掘出存在的投资信息,并在基础上提出了几种针对台湾股市的投资组合徐颢华和顾海峰选取了沪深 指数,运行B P神经网络进行尝试,在经过上万数据的比对后,证实B P神经网络对沪深 指数的股价收益预期拟合效果较好,并由此得出结论,认为运用B P神经网络对高频金融时间序列进行预测可行而数据挖掘技术在股票大数据预测的关键就在于能否找到合适的模型,并以此建立相应的方法本文采用上证指数 年至 年的数据,运用M a t l a b软件,分别用最近邻法(KNN,k N e a r e s tN e i g h b o r s)、支持向量机算法(S VM,S u p p o r tV e c t o rM a c h i n e)、卷积神经网络法(C NN,C o n v o l u t i o n a lN e u r a lN e t w o r k)和C NN L S TM混合神经网络法对股票数据进行分析建模,并对所建立模型进行检验,为股票数据挖掘与应用提供理论支撑 理论模型概述 预测模型概述 KNN法近邻法是一种模式识别分类法,它可以根据样本所提供的特征信息,避开概率和概率密度函数的估计进行直接决策作为非参数模式识别决策分类方法最重要的方法之一,虽然具有训练样本的条件,但不进行训练,反而是根据最近距离的原则对识别模式进行分类效果较好其中“K 近邻法”即KNN(k N e a r e s tN e i g h b o r s)法可以看作是运用最大后验概率规则的判别方法 KNN法基本规则是:在所有的N个样本中,找到与测试样本的K个最近邻者,其中各类别所占个数表示成Ki,il,C,则决策规则是Kj(X)m a xKi(X),()决策Xi,一般采用k为奇数,这一点可以类比我们日常的投票原理,为了避免因两种票数相等而难以进行决策 S VM支持向量机支持向量机(S VM,S u p p o r tV e c t o rM a c h i n e)法是由V a p n i k首先提出的对给定的数据样本,支持向量机能够克服“维数灾难”等传统困难,从而实现数据样本结构风险最小化 S VM中的分类法是一种二类分类模型,即在模型中建立一个最优决策超平面,使得该平面的两侧距平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力假设一个训练样本集X(xi,yi),i,n,对于线性回归f x(),有f x()xb()b为偏置量对于非线性回归,就是通过非线性映射将X映射到D维的特征空间F,将低维非线性转化为高维线性,在高维空间进行线性回归,即f x()(,x)b()其中,X即为特征向量根据C o v e r定理,低维映射至高样本确实有较大概率线性可分,算法的计算并不会变复杂,这也是为什么核函数能够克服“维数灾难”而核函数主要有下列几种线性函数:K x,y()xy()阶多项式核:K xi,xj()(xixj)p()高斯函数核:K xi,xj()e x p(xixj),()S i g m o i d内积函数:K xi,xj()t a n hcxixj()c()()C NN神经网络卷积神经网络(C NN)的特点就是层级结构,C NN网络在用与时间序列预测时采用的是一维卷积,其层级结构有数据输入层(I n p u t l a y e r)、卷积计算层(C ONVl a y e r)、池化层(P o o l i n gl a y e r)和全连接层(F Cl a y e r),如图所示图卷积神经网络结构太 原 师 范 学 院 学 报(自然科学版)第 卷C NN预测模型所体现的是序列的联合概率分布,采用的是离散序列的卷积和,即aa,a,a,am,bb,b,b,bk,其中L(a)m,L(b)k,用ab表示a和b卷积后得到的一个新序列本文的C NN模型通过卷积核减一维数据转化为三维数据,使用激活函数A P R e L U将小于的数据去除,最终在全连接层形成一维数据,采用线性回归对一维数据进行拟合的得到最终的预测值 C NN L S TM混合神经网络YYYYSTTTPPPPTSXXXX图L S TM数据输入示意图C NN L S TM是融合C NN和长短期记忆(L S TM)算法的一种考虑多种因素的混合神经网络 不仅能够在多维序列的提取特征,还能在时间序列上进行相关性分析首先,定义数据序列Xrmx,x,x,xr,xr,其中x,x,x,xr,xr均为m维的向量通过C NN对数据序列进行特征提取,获得一段具有时间依赖的性的序列输出结果将时间序列作为L S TM的输入Oi,同时与一层权重加权求和并通过S o f t m a x进行输出,最后通过全连接层进行输出得到预测值,如图所示 评价模型对于KNN法,可以只计算准确率来进行评价对S VM法、C NN法和C NN L S TM法,可以采用平均相对误差(M)、均方误差(R)和决定系数(R)来评价:MNNiy iyiyi ,i,N()RNNiy iyiyi,i,N()RNi(y iy)Ni(yiy)()式中,y i是预测值;yi是数据的真实值;y 是数据真实值的平均值 结果分析 数据来源与处理 数据来源本文主要针对中短期预测,因此选取 年月日至 年 月 日,中信证券 股票日交易数据作为研究对象,总共 个交易日数据其中前 个数据作为训练集,后 个数据作为测试集其收盘价走势如图所示本文选取个特征指标,分别取最高价、最低价、开盘价、收盘价、成交量及成交金额,特征值描述统计如表所示 图中信证券()交易日收盘价走势图第期张迪:基于KNN和神经网络算法的数据挖掘与预测模型研究表特征值描述统计类别最高价最低价开盘价收盘价成交量成交金额平均值 标准偏差 标准差 方差 本文的预测阶段分为两部分,第一部分是股票价格涨幅趋势预测,即KNN法的分类,第二部分是股票价格实时预测,包括S VM法、C NN法和C NN L S TM法在KNN法的分类过程中,预测的是股价的涨幅趋势,即第t天收盘价相对第t天的变化情况,xtxt时记为,xtxt时记为而在股票价格实时预测回归预测过程中,预测的是具体的目标交易日的值全文的计算过程均通过M a t l a b软件完成计算机配置为:I n t e rC o r e i 处理器,内存D D R G,显卡C T M G,W i n d o w s操作系统 数据预处理由图可以看出,股票价格的数据是一种并不平稳,无论涨幅跌幅,变化幅度都非常大,最小值和最大值之差也就较大,这样的数据并不利于股票价格预测模型速度,所以为消除这种不利因素,需要对股票价格历史数据进行预处理,而为了同时方便两种方法,在S VM法中核函数有要求,输入样本一般正规化至,因此将样本范围缩放到,即样本均差为,标准差为:x xNxixm a xxm i n()式中:x表示原始股票价格序列,x 表示预处理后股票价格序列,xm a x和xm i n分别表示股票价格最大值和最小值 股票价格预测结果 股票价格涨幅趋势预测模型首先需要生成每一样本股票在样本时段的样本模式特征向量xm,对这些原始数据实施一次变换,从而得到最能反映所需分类本质的特征,并据此建立特征空间在所选取的样本中,设y,y,yn为收盘价原始数据,t为整数,将yi中第t交易日作为预测点,这个预测点以前的t个交易日的收盘价的t个数据记为P(p,p,pt),那么,这个特征点xm的维数n就等于样本区间的最长长度除以t,选取t,则 /,xm的维数n 其次选取前 D的收盘价作为一个未知分类的待识别模式向量x,分别计算k和所有xm的欧氏距离d丨xmxi丨,比较各个距离的大小,选取最近的d个样本,查看上步中k个样本的分类标记并采用多数表决的方式确定待分类股票的类别表不同k值在数据集上表现结果k 精度 在k值选取上,利用 折交叉验证(K C V)法,将k,分别带入计算,并将每次训练集中的份做训练,份做验证,进行 折交叉验证 次的结果取均值作为对算法精度的估计,在多次代入比较计算后,结果如表所示最终得出k,k时数值较好因为k值越小,算法的稳定性越强,因此k取当k时检验结果与原数据对比如表所示表k时测试集与训练集情况取值数据集比例/准确率/值 值 股票价格实时预测模型将数据进行归一处理,确定了最大集和最小集后,接着需预先确定平衡系数C和核函数参数g同样采用交叉验证法(K C V)来确定最佳回归参数,即:在对给定的(C,g)中,利用交叉验证法得到相应的准确率结果,并最终在所有准确率最高的参数对中,选取C最小的一对(C,g)作为最佳回归参数代入计算利用VM 太 原 师 范 学 院 学 报(自然科学版)第 卷c g F o r R e g r e s s()函数工具辅助,最终得出(C,g)的取值范围均在,一般交叉验证参数设置为,结果如表所示,最终求得最佳回归参数C、g表(C,g)回归交叉验证表C值ggggg 对几个核函数依次进行回归分析:多项式函数阶参数p,回归结果均方误差M ,高斯核函数回归结果均方误差M M越小,模型的推广能力越强,因此可以得出最优解核函数为高斯函数核K xi,xj()e x p(xixj),最后将()式核函数代入,得f x()kiii()K xi,x()b()为了验证各个模型的通用性,使用训练集建立各个算法的训练模型并对测试集进行预测,预测结果与原数据对比如图所示B47.C$/D$/-45.U U U图预测数据结果与原始数据对比从图可以看出,各个模型的在 个测试数据中的预测值实时变化趋势与真实值变化趋势基本一致从预测曲线来看,C NN L S TM模型的预测结果比S VM和C NN模型的预测结果好,其中S VM的预测结果在部分阶段与真实值相差较大为了量化各个预测模型的预测性能,将测试结果代入式()(),计算预测值与实际值的相对误差、均方误差和决定系数,结果如表所示表各个模型的预测结果模型MRRS VM C NN C NN L S TM 从表可以看出,各个算法模型对于股价预测的结果都较好,决定系数R均大于 按算法预测的准确度由小到大排序为:S VM法C NN法C NN L S TM法因此,可以得出结论种模型均可在短期内对股价变化趋势进行预测 结论本文建立了股价走势预测的预测模型,根据股票一段时间内的走势能够较准确地预测股票其后某一段时间的大致走势从文中的模型看,无论是在整体上,还是在对个股股价的预测上,模型都产生了较好的效果因此,数据挖掘技术在股票价格走势的预测中是值得推广的,特别是可以通过KNN法建立股票价格涨幅趋势预测模型快速预测股票的价格涨跌情况;利用神经网络算法能够对实时股价走势的进行准确预测,对股票的预测技术发展具有积极的推动作用第期张迪:基于KNN和神经网络算法的数据挖掘与预测模型研究参考文献:袁如意基于深度学习的股票预测分析J中国集体经济,():徐浩然,许波,徐可文机器学习在股票预测中的应用综述J计算机工程与应用,():陈俏,梁利利,谢丽娟股票预测的研究进展J商业文化(下半月),():王浩中国证券市场股票价格预测模型综述J四川教育学院学报,():董清基于C/S的股票预测系统设计J吉林工程技术师范学院学报,():张立台湾地区多层次股票市场及其效率:基于J e f r e y W u r g l e r模型的分析J金融理论与实践,():徐颢华,顾海峰股指期货短期价格预测模型研究:基于差分B P神经网络模型J金融教学与研究,():王波,程福云 KNN算法在股票预测中的应用J科技创业月刊,():李嘉浩基于支持向量机的股票预测与分析J经济研究导刊,():张倩倩,林天华,祁旭阳,等基于机器学习的股票预测研究综述J河北省科学院学报,():蒙懿,徐庆娟基于C NN B i L S TM和注意力机制的股票预测J南宁师范大学学报(自然科学版),():R e s e a r c ho nD a t aM i n i n ga n dP r e d i c t i o nM o d e lB a s e do nK N Na n dN e u r a lN e t w o r kA l g o r i t h mZ H A N GD i(A n h u iV o c a t i o n a l a n dT e c h n i c a lC o l l e g eo f I n d u s t r i a lE c o n o m i c s,H e f e i ,C h i n a)A b s t r a c tD a t am i n i n g i sam u l t i d i s c i p l i n a r y f i e l dt h a tu s e s s t a t i s t i c s,m a c h i n e l e a r n i n ga n dd a t a b a s e t h e o r y t oe x t r a c t a n do b t a i nd a t a I no r d e r t oe x t r a c t e f f e c t i v e i n f o r m a t i o n f r o ma l a r g e a m o u n to fd a t a,t h ea p p l i c a t i o ns c o p eo fd a t am i n i n gt e c h n o l o g y i nr e a l l i f e i sb r o a d e n e d U s i n gt h en e a r e s tn e i g h b o rm e t h o d,s u p p o r tv e c t o rm a c h i n em e t h o d,c o n v o l u t i o n a ln e u r a ln e t w o r km e t h o da n dC NN L S TMh y b r i dn e u r a ln e t w o r km e t h o di nd a t am i n i n gt oa n a l y z e,m o d e l a n dp r e d i c t t h es t o c kp r i c ed a t a,a n dt e s tt h ee s t a b l i s h e dm o d e l T h er e s u l t ss h o wt h a t i t i sf e a s i b l et ou s et h eKNN m e t h o dt om a k es h o r t t e r mp r e d i c t i o n so nt h er i s i n ga n df a l l i n gt r e n d so fs t o c kp r i c e s I nt e r m so f r e a l t i m ef o r e c a s t i n go fs t o c kp r i c e s,t h ea c c u r a c yo ft h ea l g o r i t h mp r e d i c t i o ni ss o r t e df r o ms m a l l t o l a r g e:S VM m e t h o d C NN m e t h o d C NN L S TM L a wK e yw o r d sd a t am i n i n g;s t o c kp r i c e s;r e a l t i m ep r i c e s;r i s i n ga n d f a l l i n gt r e n d s;f o r e c a s t i n g太 原 师 范 学 院 学 报(自然科学版)第 卷

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开