温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
GA
机器
学习
模型
污水处理
BOD
测量
研究
苗露
第 卷第期 青 岛 理 工 大 学 学 报 基于 机器学习模型的污水处理厂 软测量研究苗露,姚怡帆,王黎佳,王丽艳,黄黎明,刘长青(青岛市团岛污水处理厂,青岛 ;青岛理工大学 环境与市政工程学院,青岛 ;青岛张村河水务有限公司,青岛 )摘要:生化需氧量()是污水处理厂水质监测的重要指标。污水处理厂进水 指标的传统检测方法存在测试时间长、实际操作复杂等局限性,无法为污水处理厂根据进水水质波动进行工艺参数调整提供及时和准确的指导。为此,研究了使用支持向量机回归(,)及极端梯度提升(,)两种机器学习模型算法对进水 进行软测量的可行性,同时辅以遗传算法(,)进行参数优化。结果表明,采用进行参数优化能够提升 模型与 模型的预测精度,均方根误差(,)分别降低 与 。相比较 模型,使用 方法进行预测的结果更准确,拟合度()可达 。研究结果可为污水处理厂进水 指标软测量方法的工程应用提供数据支撑。关键词:生化需氧量();软测量;遗传算法;机器学习中图分类号:文献标志码:文章编号:()收稿日期:基金项目:国家重点研发计划()作者简介:苗露(),女,山东青岛人。工程师,主要从事污水处理及资源化方面的研究。:。,(,;,;,):(),()(),(),(),青 岛理工大学学报第 卷 :();生物化学需氧量(,)反映水质中可生化降解的有机物质的含量,是水质净化过程中必不可少的监测指标。污水处理厂常用 (生化需氧量)表示可被微生物分解代谢的有机污染物含量,检测所得到的数值直接影响生化处理部分的药剂投加与鼓风曝气。因此,及时准确地获取进水 对污水处理厂评价进水有机污染物的水平、进行对应的工艺参数调整具有重要意义。目前,常用稀释测定法与微生物电极法检测 ,因其检测数值重复性较好,准确度和精密度高,所以得到了广泛的使用。但这两种测定方法在指导污水处理厂工艺运行方面仍存在一定不足,例如稀释测定法的检测周期长、操作专业度较高;微生物电极法虽可快速、便捷地获得大批量水质分析数据,但是其仪器的使用存在局限性,且微生物电极法的检出限也普遍高于稀释测定法。因此随着污水处理厂工艺的提升,需要构建一种更高效、简便、精准的 检测方式。随着计算机及大数据相关技术的迅猛发展,机器学习作为模拟人类学习活动的一门人工智能学科应运而生。在环境领域,善于挖掘数据之间关系的机器学习进入科研工作者的视野,通过建立准确的数学模型对水质中某些重要的参数进行科学的软测量与预测,取得了一定的成果。等提出了一种集经验模态分解、深度学习和长短期记忆神经网络于一体的混合模型,通过此模型对养殖水质中的溶解氧、浊度、三项指标进行预测,数据展现了较高的预测精度,优于其他同类水质参数预测模型。等利用极端梯度提升(,)与麻雀搜索算法优化的 模型进行长期与短期的溶解氧软测量,能够满足池塘溶解氧准确预测的实际需求。等在无线监测的基础上,采用支持向量算法预测总氮、总磷、氨氮等水质指标,并能够自动、实时地对流域水质进行监测。如今,已有多种水质软测量的机器学习方法。等利用顺序特征选择方法进行特征选择,采用了多种机器学习方法预测湖泊水样 值,最终选择预测结果稳定的多层感知器用于湖泊水质预警。以上软测量方法打破了实验操作误差的壁垒,突破了检测设备性能的局限。但是基础的模型预测效果各有差异,因此部分研究人员把方向聚焦在模型的参数优化上,仿生算法可有效解决参数组合优化问题,常见的仿生算法有遗传算法(,)、粒子群算法(,)、蚁群算法(,)等。遗传算法借鉴了达尔文的进化论和孟德尔的遗传学说,在预先设置的参数区间内随机选取数据以形成初始种群,计算种群的适应度并对未达到理想适应度的种群数据进行选择、交叉、变异的操作,最终获得满足优化目标下适应度最高的参数组合。等 利用反向传播(,)神经网络模型预测厌氧膜生物反应器的膜过滤性能,引入 对仿真过程进行优化,克服 局部极小化问题,使得预测相对误差进一步降低。乔俊飞等 采用基于 对神经网络输出权重进行调整训练,加强了对污水关键水质参数 预测的有效性,能够有效实现污水处理闭环控制。因此,本研究立足于利用机器学习模型进行 指标的快速预测,选取支持向量机回归(,)和 两种机器学习进行比对分析,并且引入 进一步提升预测准确性,力求寻找一个快速并且准确的预测模型。软测量模型构建数据集本研究所用数据来源为山东青岛某污水处理厂 年月日至 年 月 日的运行参数监测报表,数据以天为单位,包括个水质指标(进水流量、和氨氮)的 条记录。通过使用污水处理厂实时自动检测的个水质数据组成五维输入数据作为模型的输入变量。第期苗露,等:基于机器学习模型的污水处理厂 软测量研究数据预处理对存在数据不完整的天数进行整条数据删除,排除原始数据中包含的波动较大的干扰数据和不完整数据,并对数据进行无量纲化和数据降维。)剔除异常值。利用准则(拉依达准则),以倍测量列的标准偏差为极限取舍标准,假设数据只含有随机误差,计算数据的均值与标准差,筛选出于(,)范围外的误差数据,以排除污水处理厂在受气候、人口、经济等因素影响下出现的进水波动情况。)数据无量纲化。按照式()进行数据归一化处理,可令数据服从正态分布并且收敛至,。由于不同辅助变量的数据大小、分布和单位各有差异,而该步骤可以削弱这类数据产生的影响,加快模型求解速度。()式中:为辅助变量样本值进行无量纲化后所得数值;为辅助变量样本值;为辅助变量中的最大值;为辅助变量中的最小值。)数据降维。通过主成分分析(,),利用矩阵分解等一系列数学操作在数据总信息量不损失太多的条件下,将原始特征数据压缩到少数特征上,从而得出方便计算的新特征向量。丢弃信息量很少的特征向量噪音来达到减轻模型冗余计算的目的。数据经过预处理之后,原有数据集的 条数据被剔除,构成新数据集。训练集与测试集由新数据集按的比例随机划分而成。模型选择及参数优化)支持向量机。支持向量机(,)是一类基于统计学习理论的机器学习算法,既可以用于分类预测也可以用于回归预测。支持向量机回归(,)是用于回归预测的一个强学习器,其原理是通过核函数()将原始数据映射至特征空间,寻求一个令原始数据在同一容许误差下距离最近的超平面,该超平面特征向量与输出向量()满足回归方程()(),其中为截距向量。本文使用的核函数类型为高斯径向基函数“”,表达式为(,)()式中:为原始数据向量;为映射至特征空间的向量;为核函数次数。假设容许误差为,则超平面存在于()()所形成的容错空间内。容错空间大,对数据拟合的包容性大;容错空间小,存在数据无法拟合的情况。为了权衡容错空间的大小,引入惩罚因子,进一步保证所选取超平面的合理性。)极限梯度提升算法。是由 于 年所设计的一种集成学习模型。其核心思想是梯度提升算法,构建多个弱评估器并汇总建模结果,组合弱评估器,不断迭代预测结果直到损失函数最小,从而构成一个强评估器。相比普通梯度提升算法,运算更加快速,近年来被普遍认为是在分类与回归上都具有超高性能的先进评估器。其中,弱评估器数量和提升树最大深度决定评估器的个数与深度;学习率决定迭代过程中误差减小的方向步长;正则项参数与互相影响,共同调整弱评估器的权重以防止最终的模型过拟合或欠拟合。)参数优化。为了使模型获得更好的预测效果,本文利用如下种方法寻找 模型和 模型最优参数组合,其中两类模型的参数类型、性质和取值范围见表。方法:利用网格搜索法对单一参数在设置的参数取值范围内进行穷举,首先使用较广的搜索范围和较大的步长,观察全局最优参数可能存在的位置;然后逐渐缩小搜索范围和步长,获得循环遍历后表现最优的参数作为最终的结果。方法:利用 在全局范围进行搜索,对需优化的参数进行编码,令编码在一定的概率下进行交叉和突变的遗传操作,计算每组编码的适应度,最终在参数取值范围内求得适应度最高的参数取值。青 岛理工大学学报第 卷表各模型的参数类型、性质和取值范围模型参数类型性质取值范围惩罚因子(,)浮点数 核函数系数(,)浮点数容错度(,)浮点数弱评估器数量 (,)整数提升树最大深度 (,)整数 学习率(,)浮点数正则项参数 (,)浮点数正则项参数 (,)浮点数模型搭建平台与模型评价指标本文采用 语言在 平台进行编译,利用 于 年针对机器学习应用而开发的 项目库所提供的 接口对模型进行开发。如式()、式()所示,采用均方误差 和均根方误差 函数来检测模型的预测值和实测值之间的偏差。如式()所示,采用决定系数()评价回归模型的拟合度,观察模型拟合效果,确定是否适用于模型预测。(预测)()(预测)()(预测)(?)()式中:为实测值;预测为对应的预测值;?为的平均值。结果与讨论支持向量机回归模型的参数优化采用穷举方式进行网格搜索,依次对 模型中的惩罚因子、核函数参数和容错度进行训练,采用交叉验证方法对结果进行评价,从而得到最优的参数,继而可据此利用,和 进行模型评估。对于惩罚因子,取值越大模型越易过拟合,因此令取值范围为 ,假设步长为,则值有 种取值方式,作折交叉验证下拟合度()随的变化趋势曲线,其中取。由图()可以看出,最佳取值为 ,模型得最大为 。同理,核函数参数和容错度取值范围分别为,和,对应步长为 和 。将与对的影响进行可视化分析,如图()()所示,经比较后选择最高对应的参数,分别是 ,。因为模型参数较多且参数之间互相影响,若参数选择不当,会影响模型的精度与复杂程度,模型太简单或太复杂都会导致预测结果欠拟合或过拟合,故使用 对 模型进行参数优化。其中,种群个数设为,最大进化迭代次数设为 ,交叉率为 ,突变率为 。,和的取值范围与网格搜索法一致。最终得到最优参数 ,。极限梯度提升模型的参数优化采用网格搜索法依次对 模型中的弱评估器数量、提升树最大深度、学习率、正则项参数、正则项参数项参数进行最优选择,采取与 模型相同的方式进行模型训练与评估。和作第期苗露,等:基于机器学习模型的污水处理厂 软测量研究单独参数调整时,模型波动并不明显,因此和取默认值,即,。图 模型下随不同参数取值的变化趋势设置参数,和的取值范围分别为,和,步长分别为,和 。由图可以看出,随着值的增加,先逐渐增加后趋于平缓,当取 时,取得最大值 。同理最大下值取值为 。与前两者趋势相反,随值的增加显著降低,因此最优参数。图 模型下随不同参数取值的变化趋势研究 对 模型参数的影响时,设置最大进化迭代次数、突变率分别为 和 ,种群个数与交叉率同 模型。各个参数的取值范围与网格搜索法一致,最终得到最优参数 ,。表模型运行结果评价指标 网格搜索法 网格搜索法 模型评估表为使用网格搜索法、网格搜索法 和 种模型运行结果评估。可以看出,进行参数优化模型的预测效果优于网格搜索法参数调优,且 的模型的预测效果更优于 ,可达 。令预测值与实测值之差的绝对值为模型的绝对误差,经计算,模型的最小绝对误差为 ,最大绝对误差为 。相对于 模型,模型利用提升模型预测准确度效果更加显著。与网格搜索法 模型相比,使用 模型预测 ,预测值的拟合度由 提高至 ,由 降低至 ;与网格搜索法 模型相比,使用 模型预测 ,预测值由 提高至 ,由 降低至 。比较不同类型模型之间的区别,可以发现从模型角度分析,类模型的 与 均小于 类模型,且预测精度更高。但从优化角度分析,经遗传算法优化后,青 岛理工大学学报第 卷类模型的 与 分别降低了 ,;类模型的 与 分别降低了 ,可见 类模型受遗传算法影响优化效果更加显著。使用以上种模型对污水处理厂进水水质参数 进行软测量预测,在测试集中选取任意 组运行结果通过作图进行对比,由图、图可以看出经过优化的模型更加逼近 实测值。根据以上实验结果分析可知,经过优化过的模型在 数值的预测精度优于网格搜索法模型,其中()(网格搜索法);()(网格搜索法 ),等 研究也证明了 更有利于 模型获得最优参数从而提高预测性能。结果表明,模型的预测效果优于 模型,因此,模型具有较好的模型预测性能和泛化性能,可以满足污水处理厂进水 实时监测的需求。从模型优化效果角度分析,模型比 模型受参数优化影响更大。这可能是因为 模型的原理相较于 模型的原理更加简单,能影响