温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
机器
学习
回归
模型
三峡
大坝
混凝土
强度
预测
徐潇航
,.,.基金项目:国家自然科学基金联合基金项目();高性能土木工程材料国家重点实验室开放基金项目()()():.基于机器学习回归模型的三峡大坝混凝土强度预测徐潇航,胡张莉,刘加平,李文伟,刘建忠 东南大学材料科学与工程学院,南京 中国长江三峡集团有限公司,北京 江苏苏博特新材料股份有限公司,南京 人工神经网络、决策树与支持向量机为目前混凝土强度预测的常用机器学习算法。为实现三峡大坝大体积混凝土原材料筛选以及配比经验的学习与应用,并对大坝维护以及其他水利工程的建设提供指导,本研究基于三峡大坝主体工程混凝土 抗压强度数据,构建了原材料性能及配合比与混凝土强度之间的关系,并结合随机森林特征权重排序与统计分析的方法,确定了水泥用量、混凝土温度、水灰比为影响三峡大坝混凝土抗压强度的关键特征参数。探讨了常用机器学习算法对三峡大坝 混凝土强度预测效果,依据固定特征参数、通用参数与超参数综合调优后的多种算法的预测结果对比可知,经体系化综合调优的 支持向量回归()算法在预测中更优。关键词 混凝土 三峡工程 抗压强度 机器学习 模型调优中图分类号:;文献标识码:,(),引言随着工程建设发展,混凝土使用环境日益复杂,基于传统配合比设计方法的混凝土制备技术因受限于人工经验与大量试验批次等问题,已与现代混凝土的发展脱节。为满足新型建筑材料高品质开发、混凝土性能有效预测以及多方位性能优化等需求,亟需探索和建立科学智能、通用高效的配合比设计技术体系。机器学习方法因具有广泛学习数据集中蕴含的规律或判断规则并辅以人工经验调整构建模型的特征,是突破传统配合比设计中经验回归模型局限、预测混凝土配合比与性能间关系的新兴路径。该方法目前在土木工程领域的高层建筑抗震、城市智能规划、结构智能设计、工程健康监测、生产质量管控、材料强度预测与耐久性多目标配合比优化等方面得到关注与应用,采用的算法主要有人工神经网络、支持向量机、决策树等。其中,人工神经网络通过改变激励函数与提升隐藏层层数引入非线性,通常选取交叉熵等作为损失函数,算法具有强适应性但需要大量数据训练且难以解释内部机制;支持向量机通过核函数引入非线性,通常选取合页损失函数并以最大化边界为目标,具有较优异的非线性可分性能,但核函数较敏感且训练难度大;决策树通过构建树结构并循环特征分割的过程,具有强泛化能力但易过拟合。各算法需结合不同数据情况与所需解决的具体问题综合选择与使用。抗压强度是混凝土最基础、最重要的力学性能,也是混凝土结构设计中需考虑的关键因素。其公开数据全、标准规范中也有相应经验预测模型,可为基于原材料及配合比的预测提供基础。目前国内外学者在采用机器学习方法预测混凝土抗压强度方面已展开了一定的探索,等针对实际工程的大型数据集与 的实验室数据集,应用主要的三大类机器学习方法预测普通混凝土 抗压强度并评估了数据集模型应用的基本性能;等、樊磊等、方涛 等、曹斐等采用灵敏度分析法、灰色关联分析法、神经网络权重重要度分析法、马氏距离法等从单一角度确定不同强度影响因素对混凝土抗压强度的影响;曹斐等应用支持向量机模型与基于决策树的随机森林模型并将二者同人工神经网络模型对比,综合分析加州大学欧文分校实验混凝土、再生骨料混凝土以及公路混凝土 抗压强度的预测精度。此外,部分学者也在算法模型上做了进一步的工作,例如:人工神经网络模型与模糊推理模型()结合的自适应神经模糊推理系统()能够在人工神经网络的基础上利用 提供专家知识。等、等针对 的性能在预测加州大学欧文分校实验混凝土以及含高炉矿渣、粉煤灰混凝土的抗压强度时得到了有效检验;结合元启发式算法的优化神经网络模型同样被广泛应用,等、等分别在人工神经网络的基础上结合多目标灰狼优化算法与改进的萤火虫算法,预测含硅灰的混凝土与高性能混凝土的抗压强度;而 等、等针对高性能混凝土抗压强度的预测则采用了基于支持向量机的 混合模型与 混合模型,其具有更高的预测精度与更强的鲁棒性;等则采用在传统树梯度提升方法上发展的 模型,针对 提供的混凝土实验室数据集预测抗压强度,而 显示出较强的结构化数据集的能力。综上,目前的研究均取得一定成果,但依旧存在数据集普遍量少单一、未有效结合数据集本身特征进行多角度探究特征参数对抗压强度的影响、缺乏系统性研究模型调参对预测结果的影响等问题。本研究针对上述问题,基于时间跨度超过 年的 条三峡大坝主体工程实测混凝土抗压强度数据,通过特征量优化、异常数据点检测、数据分类等数据预处理建立了包含 个特征参数与 抗压强度的结构化数据集;提出了基于随机森林的强度影响因素权重综合判定方法;建立了包含通用参数、超参数调整以及大坝混凝土抗压强度预测性能综合评估的三种优化的机器学习回归算法。三峡大坝主体工程数据集作为现阶段包含原材料配合比及特性、力学性能与耐久性能并通过工程持续监测得到的具有高度完整性的数据集,可为大坝混凝土抗压强度预测与后续可展开的各项力学、耐久性能预测研究提供体量充足、来源可靠的数据支持。本研究对大坝等水利工程的混凝土原材料筛选、配合比设计具有指导意义,可为多类机器学习算法集成调优的发展提供新思路,并为大坝混凝土的各性能单项预测与多性能预测提供借鉴。本工作中处理后的结构化数据集所包含的混凝土原材料性能及其配合比的特征量为粉煤灰种类依据来源地的不同划分种类(,)、粉煤灰掺量(,)、骨料级配()、水灰比(,)、水泥品种()、水泥强度()、水泥用量()、砂率()、减水剂种类(,)、减水剂掺量(,)、引气剂种类(,)、引气剂掺量(,)与混凝土温度()。模型原理本工作采用人工神经网络中的多层感知机回归(,)模型、支持向量机中的 支持向量回归(,)模型与决策树中的随机森林回归(,)模型预测三峡大坝混凝土强度,其中输入特征量对于输出量 抗压强度的影响程度采用随机森林中的分类模型(,)进行判断。多层感知机回归()多层感知机是一种监督学习算法,其结构中具有多层、前馈、误差反馈的特点,对于给定的输入量和输出量,多层感知机能够通过分类或者回归学习一个非线性函数,其与传统逻辑回归不同之处在于输入与输出层之间存在一个 层的非线性隐藏层,在各层中神经元为数据单元,其包含的信息与前一层中的所有神经元相关。图 为基于结构化数据集所建立的具有 个输入量神经元、个(未确定)隐藏层和以 抗压强度()为输出量神经元的多层感知机拓扑结构图。图 多层感知机的拓扑结构 本工作中采用的多层感知机算法包括正向传播、反向调整、误差迭代三个过程。()正向传播()()()()式中:代表将第 个样本输入多层感知机;()为第 层第 个神经元的输出;()为前一层的第 个神经元指向 层第 个神经元的权重值;()为第 层第 个神经元的输出;为第 层第 个神经元的阈值;()为激励函数,隐藏层的激励函数一般为非线性函数,输出层的激励函数则既可能为线性也可能为非线性函数,由输入、输出的映射关系决定。()反向调整()()()()()()式中:()为第 个样本时前一层的第 个神经元指向层第个神经元的权重值;()同式()中一致;为学习率;为动量因子,;()为权重调整值,利用梯度下降算法可得。()误差迭代依次输入样本,待 个样本输入完毕后,计算网络总误材料导报,():差,如式()所示:()()()式中:为多层感知机输出神经元的个数;()为系统实际理想输出值;()为系统实际真实输出值。循环输入样本,直到 足够小时,可认为网络达到收敛,训练完毕。多层感知机回归()先通过数据正向传播实现多层感知机的构建,再根据反向传播方式实现各层之间神经元的权重调整,并以网格误差的收敛确定算法迭代次数。该模型中输出层的激励函数采用恒等函数,损失函数为平方误差。影响其结果拟合情况的主要超参数有激励函数、隐藏层层数、隐藏层单元数、权重优化求解器等。支持向量回归()支持向量回归()是解决线性与非线性回归问题时主要使用的支持向量机类算法模型,其思想是采用核函数代替线性方程中的线性项以达到数据升维的目的,并在二维或高维空间通过逼近结构风险函数的最小值实现最优回归直线或超平面的确定。该算法包括线性映射、拟合优化与高维映射三个过程。将总体 个样本数据进行集合排布(,),(,)(,),(实数域的 维向量空间,),应用于本工作中时,为包含 个特征的输入量,为待预测量即。()线性映射()()式中:()为预测值;为权重向量,即决定回归直线与超平面的法向量;为决定回归直线或超平面与原点距离的偏置项。()拟合优化该过程一般通过 正则化防止模型的过度拟合,通过允许误差宽度 的规定与非负松弛因子 和 的引入避免欠拟合。优化目标如下:(,)()约束条件:()(),()式中:为误差项惩罚系数;是正则化项,为 中各分量平方和的,代表模型复杂程度;()为松弛引入项以避免模型的欠拟合。采用拉格朗日乘子法,针对每个约束条件引入、,并依据对偶理论,将优化目标式()转为式():,(,)()先求解转化后优化目标中 函数的最小值,分别对、求导并使结果等于,得到 函数取值最小时的四个等式,接着将其代入式()并利用二次规划求解式()整体取值最大时的拉格朗日乘子、。()高维映射拟合优化过程中 函数极小值求解所得的四个等式经关系代换,可获得 的代换式(式(),只同、中各个元素有关:()()在此基础上引入核函数(,),将原数据映射到高维空间,得到式(),即变换后的回归函数():()()(,)()影响 模型结果拟合情况的主要超参数有核函数与误差项惩罚系数 等。随机森林回归()随机森林是基于决策树方法的集成算法,算法思想为先用随机的方式建立一个森林,森林由没有相互关联的决策树组成,而所有样本均在决策树的根部,分裂时依据信息增益、基尼指数或均方差,选择最优的特征分类进行分裂以形成新的决策树,后续分叉的节点采用相同准则循环往复形成一片完整的随机森林。随机森林回归模型的每棵二叉树采用回归树,在分裂时采用最小均方差原则,输出的预测结果为所有决策树结果的平均值。该算法包括节点与切分特征选择、选择评价与训练以及结果平均三个过程。()节点与切分特征选择该过程中 模型采用穷举法,遍历每个特征与特征取值,再从中找到最合适节点与切分特征选择。()选择评价与训练该过程以切分分裂后子节点的不纯度加权和(,)进行评价衡量,公式如下:(,)()()()()()()式中:为某一切分变量;为切分变量的一个切分值;、分别为切分后左、右边子节点的训练样本数与当前节点总训练样本数。、分别为左右子节点的训练样本集合。()为衡量节点不纯度的函数,在本研究中采用的是均方误差,其中为当前节点样本目标变量的平均值。决策树中某一节点训练过程等价于寻找 最小时的节点与切分特征量问题,如式()所示:(,),(,)()()结果平均()()()依据所设定模型的最大深度形成完整的随机森林模型。式中:()为组合的随机森林模型,()为单决策树模型,为目标特征变量,为完整随机森林中决策树棵树。影响随机森林回归模型 的结果拟合情况的主要超参数有学习迭代次数与最大深度。随机森林分类()在特征量重要性探究时采用随机森林分类 模型,使基于机器学习回归模型的三峡大坝混凝土强度预测 徐潇航等 用基尼不纯度进行特征量权重排序,节点基尼不纯度的计算方法如下:()式中:为 具体节点的基尼不纯度;表示某一特征具体列中的类别数量;为节点 中类别 所占的比例。任一特征 的总重要性为总决策树中含有特征 的各节点重要性加和后归一化,其中 在各节点的重要性为分裂前后新旧节点的基尼不纯度差值。模型建立与预测评估 数据预处理在 条三峡大坝主体工程混凝土数据的基础上,首先针对包含编号、工程部位、起止高程、施工单位等全部信息的 个特征量进行优化。根据研究目的实现时间、地点、单位等无效特征量的排除与原材料性能、配合比、环境因素等有效特征量的初步筛选优化;根据 等针对 年前以机器学习方法预测混凝土力学性能各项研究的汇总综述工作,综合分析各机器学习模型在预测抗压强度时所主选的特征量,实现特征量的拆分或合并;同时,根据中国水利水电科学研究院与长江水利委员会长江科学院针对三峡大坝主体工程混凝土配合比试验研究的报告,在前两步