温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
机器
学习
算法
万家寨
水库
预测
研究
颜小飞
第 卷第期 年月水电能源科学 :基于机器学习算法的万家寨水库排沙预测研究颜小飞,郭秀吉,孙龙飞,(黄河水利委员会黄河水利科学研究院,河南 郑州 ;水利部黄河下游河道与河口治理重点实验室,河南 郑州 )摘要:为克服水库排沙多因素、非线性复杂关系建立难题,实现水库排沙准确预测,利用万家寨水库 年水沙系列数据,基于 、四种机器学习算法分别预测分析水库出库含沙量。结果表明,利用机器学习算法可有效预测综合考虑不同影响因素的水库排沙;不同机器学习算法在水库排沙预测的适用性有所不同,对比之下,基于 算法建立的水库排沙预测模型的决定系数最高为 ,平均绝对误差及均方根误差均最小,分别为 、,其预测效果更优于其他三种算法。研究成果可为水库排沙精确预测及调度方案优化提供参考。关键词:水库排沙;含沙量;机器学习算法;预测模型中图分类号:文献标志码:文章编号:()收稿日期:,修回日期:基金项目:国家重点研发计划();黄河水利科学研究院科技发展基金专项项目(黄科发 );黄河水利科学研究院基本科研业务费专项()作者简介:颜小飞(),男,硕士、工程师,研究方向为测绘物探仪器应用,:通讯作者:孙 龙 飞(),男,博 士、工 程 师,研 究 方 向 为 水 工 结 构 数 值 模 拟 与 施 工 质 量 实 时 控 制,:1概况黄河万家寨水利枢纽位于黄河中游上段托克托至龙口峡谷河段内(图)。万家寨水库于 年 月下闸蓄水,水库总库容为 ,调节 库 容 为 ,死 库 容 为 ,设计调洪库容为 ;最高蓄水位为 ,正常蓄水位为 ,校核洪水位为 ,汛期限制水位为 ,最低发电水位为 。枢纽主要任务是供水结合发电调峰,同时兼有防洪、防凌作用,干流入图万家寨水库区域位置示意图 库站头道拐水文站归属黄河水利委员会,出库站万家寨水文站为水库专用站。为准确预测万家寨水库排沙量,考虑到水库排沙的影响因素较多,非线性复杂关系较难建立,拟采用机器学习方法预测水库排沙,并对比分析不同机器学习算法的预测效果,以期为水库调度及安全运行提供参考。2研究方法研究方法为:给出不同机器学习算法的基本原理;确定水库排沙过程的主要影响因素,并构建综合考虑不同影响因素的水库排沙预测模型;提出基于不同机器学习算法的水库排沙预测流程;通过万家寨水库实例分析,对比不同算法模型的预测准确性,并最终确定优选的机器学习算法水库排沙预测模型。2.1机器学习算法基本原理2.1.1 算法 算法是在梯度提升决策树 算法基础上,在目标函数中引入正则项以约束损失函数的下降和模型整体的复杂度,防止模型过拟合,同时对损失函数使用二阶泰勒展开,直接利用了损失函数的一、二阶导数值,进一步优化了模型效率与精度。算法的目标函数为:(,?)()()式中,为样本真实值;?为样本的预测值;为反映与?差异的损失函数;为样本数;()为正则项,用于控制模型复杂度,避免过拟合;为第个树的模型;为分类回归树个数。2.1.2算法算法的基本思想是将当前新数据的每个特征与具有相似特征的样本数据值相匹配,然后输出样本数据中最相似的个数据的属性值。其定义为:(,)()()式中,(,)为、之间距离,用以衡量样本间的相似程度;为样本的第个特征;为样本的第个特征;为距离计算方式,当时为曼哈顿距离,当时为欧拉距离。2.1.3 算法 算法是在支持向量机 分类的基础上,引入核函数和损失函数,通过非线性映射将数据映射至高维特征空间,找到最优拟合超平面,使所有训练样本与该面的总偏差最小,以解决非线性回归问题的方法。给定训练样本集(,),的目标是找到一个回归函数(),使其与实际输出尽可能接近:()()()式中,为法向量;()为非线性映射函数;为偏移量。引入松弛变量、,则最优化问题转化为:(,)()(),()()式中,为惩罚因子;为不敏感损失函数。2.1.4 算法 算法是一种包含多个决策树的算法,其利用随机方式生成每棵决策树的每个节点,再由不同节点分叉形成多个决策树,每棵决策树之间无关联,进而构成一个“随机森林”,并最终通过汇总决策树的结果,进行因变量的回归和分类。其基本步骤如下。步骤从原始样本集中随机抽取个训练样本,有放回的进行轮抽取,得到个相互独立的训练集,用选择好的训练集训练一个决策树。步骤对于不同的训练集,可建立不同的训练模型,且决策树的每个节点根据具体问题进行分裂。每棵树遵循分枝优度准则,一直到不能再分裂为止。步骤取不同模型预测结果的平均值作为最后的预测结果。2.1.5不同机器学习算法使用范围及优缺点对比对比 、四种机器学习算法的使用范围及优缺点,结果见表。表不同机器学习算法使用范围及优缺点对比 算法类型使用范围优点缺点 分类和回归灵活性强、正则化防止过拟合需遍历数据集、预排序过程复杂、消耗内存 分类和回归思想简单、训练时间复杂度低、准确度较高计算量大、预测速度相比逻辑回归算法较慢 回归计算复杂度较低、可解决高维问题及非线性问题对参数和核函数的选择较敏感 分类和回归对大样本训练速度快、模型方差小、泛化能力强模型效果会受划分较多的特征影响2.2水库排沙预测模型构建水库排沙过程的主要影响因素包括入库流量、入库含沙量、出库流量、坝前水位、坝前水位差、累计淤积量共个输入变量。其中需要说明的是“坝前水位差”为考虑坝前水位变化对排沙影响的时效性,即计算前一天的水位与当天水位的差值,对于当天排沙的影响所引入的变量。此外,以出库含沙量作为唯一输出变量,建立各影响因素与水库出库含沙量的综合预测模型,所建立的模型为:(,)()式中,为现有数据中出库含沙量;()为回归函数。2.3基于机器学习算法的水库排沙预测流程利用机器学习算法综合考虑各影响因素的水库排沙预测步骤如下。步骤选择合适的样本数据,并对数据进行归一化预处理。步骤进行数据分割,确定训练样本和测试样本,其中输入、输出变量见式()。步骤将训练样本代入不同机器学习算法程序中进行训练,同时调整优化算法参数组合,最水电能源科学 年第 卷第期颜小飞等:基于机器学习算法的万家寨水库排沙预测研究终得到综合考虑各影响因素的水库排沙预测模型。步骤将测试数据的输入变量代入模型进行计算,得到预测出库含沙量,并与实际出库含沙量作比较,以评估不同模型预测精度,以平均绝对误差、均方根误差 、决定系数作为评估指标。步骤确定优选的机器学习算法的水库排沙预测模型。3万家寨水库排沙预测3.1原始数据统计处理以万家寨水库 年水沙系列数据为基础数据,统计数据的输入、输出变量。为排除闸门开闭这一未知情况的影响,剔除出库含沙量在 以下的数据(认为是由闸门关闭引起)。部分原始数据输入输出变量统计见表。表部分原始数据输入输出变量统计 入库流量入库含沙量出库流量坝前水位坝前水位差累计淤积量 出库含沙量 注:入库流量、出库流量单位为;入库含沙量、出库含沙量单位为。将所有原始数据中 个()样本数据用于训练,剩余 个()样本数据用于预测。此外,考虑各变量之间的量纲差异,为消除不同变量之间量纲差异带来的影响,对所有数据进行归一化无量纲预处理,方法为:(?)()式中,为归一化后数据;为原始数据;?为原始数据平均值;为原始数据标准差。3.2不同机器学习算法模型预测结果对比分析将所有数据代入 、四种算法中建立预测模型,得到不同机器学习算法模型预测得到的出库含沙量与实际出库含沙量对比结果见图。由图可知,整体上不同机器学习算法所建立模型得到的预测出库含沙量与实际出库含沙量的分布情况基本一致,且除个别点外,绝大部分数据点结果均接近,表明了机器学习算法应用于综合考虑各影响因素的水库排沙预测的有 效 性。同 时,相 比 较 之 下,、三 种 算 法 特 征 点(出 库 含 沙 量 大 于 的样本点)预测结果的准确性优于 图不同机器学习算法模型预测值与实际值对比结果 算法预测结果的准确性。统计预测出库含沙量与实际出库含沙量之间相关性见图。由图可见,不同机器学习算法模型所得预测出库含沙量与实际出库含沙量之间均满足线性关系,其关系表达式的斜率均在 以上,接近;同时各模型决定系数均在 以上(表),表明两者间相关性良好。相比较之下,算法与算法模型分别为 、,两者预测结果相近;而 算法模型最高为 ,算法模型最低为 。进一步统计不同模型预测值与实际值两者间的平均绝对误差 及均方根误差 ,结果见表。图不同机器学习算法模型预测值与实际值相关性分析 表不同机器学习算法模型预测结果统计 算法类型决定系数平均绝对误差 均方根误差 由表可知,各模型下预测值与实际值之间误差均相对较小,表明机器学习算法应用于水库排沙预测有效,在一定程度上可实现综合考虑不同影响因素的水库排沙预测。其中,算法模型的平均绝对误差 为 ,均方根误差 为 均最小,同时结合其决定系数最高,表明针对万家寨水库排沙预测过程,在现有数据条件下,算法模型预测精度优于其他三种算法模型。4结论 利用万家寨水沙系列数据,基于不同机器学习算法,建立综合考虑入库流量、入库含沙量、出库流量、坝前水位、坝前水位差、累计淤积量影响的水库排沙预测模型。不同机器学习算法模型得到的预测出库含沙量与实际出库含沙量的分布情况基本一致,预测出库含沙量与实际出库含沙量之间相关性良好,各模型决定系数均在 以上。基于 算法所建立模型决定系数最高为 ,且平均绝对误差 为 ,均方根误差 为 均最小,表明相对于其他模型,算法模型在水库排沙预测方面具有更高的准确性和精度。参考文献:王梦雅,刘丽冰,熊桂龙,等面向袋式除尘器的大数据挖掘 优化算法研究 电子测量与仪器学报,():周鑫,谢晖,付山,等基于 算法的中心带孔圆板拉深翻孔变形方式的研究 锻压技 术,():刘泉声,王栋,朱元广,等支持向量回归算法在地应力场反演中的应用岩土力学,(增刊):吴芳,李映雪,张缘园,等基于机器学习算法的冬小麦不同生育时期生物量高光谱估算 麦类作物学报,():,(,;,):,:;(上接第 页),(,;,):,;,;(),:;水电能源科学 年