基于
因素
煤矿
事故
预测
随机
森林
模型
基于多因素的煤矿突水事故预测随机森林模型胡文博,孙延辉,马红林(新上海一号煤矿,内蒙古 鄂尔多斯市 0 1 6 2 0 0)摘 要:高效、准确、快速地提高突水水源类型预测精度,是防治煤矿发生突水事故的重要手段。以真实矿井数据为例,提出一种简单快速预测煤矿突水水源类型的预测方法。以C a2+、M g2+、N a+K+、C l-、S O2-4、H C O-36类离子实测浓度作为突水水源类型输入参数,建立一种考虑多因素的有监督随机森林突水水源类型预测模型。研究结果表明,模型预测值准确,部分测试集和预测集相关性系数R2为0.9 9;M S E(均方误差)为0.0 0 4 7,R S S(残差平方和)为0.0 4 2 5,预测精度(P A)为9 5%,相较于F i s h e r判别法精度更高。整体预测相关性系数、均方误差和残差平方和分别为0.9 9 9,0.0 0 0 5,0.0 0 4 9,预测精度为9 0%以上,最大误差范围在1 0%以内,预测效果较好。关键词:矿井突水;随机森林;预测模型0 引言矿井水害作为煤矿事故的五大灾害之一12,严重制约着煤矿安全高效生产。据统计,2 0 0 12 0 2 0年3,煤矿事故水害发生起数总体呈现递减的趋势,但仍有发生,如图1所示。这就说明,找到简单、快速、高效及准确率高的煤矿突水水源识别方法对防治煤矿水害事故发生有着极其重要的意义。图1 2 0 0 12 0 2 0年我国煤矿水害发生起数目前,已有大量学者通过不同的方法对矿井突水水源判断进行研究,取得了丰富的研究成果。黄敏等4通过改进的随机森林模型预测了矿井突水水源识别,通过主成分分析降维提高了模型的预测精度。成小雨等5使用支持向量机和随机森林对回采工作面瓦斯涌出量进行了预测,通过交叉验证降维筛选出权重较高的因素作为输入特征,降低了预测模型的绝对、相对误差,提高了预测精度。吴奉亮等6基于随机森林回归,预测煤矿瓦斯涌出量,提取累计影响权重为9 0%的特征变量作为输入变量,奖励模型特征变量维度,从而增加了模型的准确度。刘翔等7基于改进随机森林算法的岩石爆破块度预测,通过随机森林预测了岩石爆破块度。此外,其他学者利用改进的方法或随机森林方法对岩爆等级8、露天煤矿粉尘质量浓度进行预测9、岩性预测1 0,以及通过神经网络1 1、支持向量机1 2、F i s h e r判别法1 3对突水水源识别进行预测。然而,上述方法在预测过程中,当影响因素较多时,大多学者往往利用主成分分析或者粒子群等方法对影响因素进行筛选,剔除掉权重较小的因素,在提高预测准确度的同时,忽略了权重值低的因素影响,使得预测结果不能完全反映现场实际。鉴于此,本文提出了一种基于多因素考虑的随机森林预测方法,综合考虑各个突水水样离子浓度的影响,建立了随机森林矿井突水水源类型预测模型,以期为提高矿井突水水源识别和防治煤矿突水事故提供一定的理论支撑。1 随机森林模型随机森林算法是一种集成算法,其本质是建立多个决策树,然后将他们合并在一起,从而获得稳定且准确的预测结果。随机森林方法的关键是随机性,通过随机抽样训练的决策树,随机选取属性做节点分裂属性。每次有放回地抽取N次用来做样本形成一个决策树。随机森林模型预测流程如图2所示。I S S N1 6 7 1 2 9 0 0C N4 3 1 3 4 7/T D采矿技术 第2 3卷 第3期M i n i n gT e c h n o l o g y,V o l.2 3,N o.32 0 2 3年5月M a y.2 0 2 3图2 随机森林预测模型流程2 随机森林模型的应用2.1 数据集根据文献1 4 研究可以发现,矿区突水水源类型主要有4类,突水水源类别指标主要有6类,具体数据见表1。文献1 4 在进行预测时,对已经获得的数据进行预测,通过预测结果和新监测的数据进行对比验证,从而预测突水类型。然而,在实际生产过程中,水样的粒子浓度是动态变化的,对于不符合高斯分布的样本,F i s h e r算法预测效果不佳。表1 矿区水样数据序号水样实测离子浓度/(m gL-1)C a2+M g2+N a+K+C l-S O2-4H C O-3类型11 8 3.99 4.5 63 0 0.6 62 3 7.88 1 7.2 3 8 2.3 522 0 6.89 0.9 31 8 7.0 13 8 4.85 3 0.6 2 6 6.9 931 1 7.42 3.9 74 7 1.59 0 5.82 3.6 33 9.6 645 5.7 39 2.3 33 8 1.6 67 6 3.32 3 0.52 8.7 452.5 39.4 91 8 3.9 11 0 0.4 78.6 41 3 9.7 665.0 58.9 14 5 1.8 42 4 0.3 6 5 6.3 9 7 0 2.0 471 6.8 81 1.8 27 5 9.5 76 3 1.59 6.8 9 6 5 8.1 987.0 13.8 98 6 7.4 16 8 5.41 6.8 1 1 0 2 8.292 0 2.78 9.8 76 5 5.3 41 7 0.8 91 7 5 92 7 6.9 81 01 0.6 26.87 8 8.3 27 3 9.72 4.4 7 7 6 2.1 31 18.4 24.8 68 6 0.2 54 9 6.31 1.5 3 1 1 3 9.21 25.9 72.5 29 6 7.9 55 8 0.91 1.3 8 1 3 8 4.41 31 3.3 52.5 27 1 0.3 55 5 9.24 8.0 3 8 5 4.4 61 41 3 2.86 7.6 58 7 7.22 6 31 8 3 22 8 1.9 51 54.0 50.9 87 5 5.2 73 9 5.53.6 51 2 1 3.41 61.2 94.3 35 2 6.0 32 6 7.75.7 69 1 8.0 3 续表序号水样实测离子浓度/(m gL-1)C a2+M g2+N a+K+C l-S O2-4H C O-3类型1 71 1.3 62 4.5 68 1 2.2 25 7 2.51 3 51 1 2 9.81 83.6 84.3 36 9 9.5 25 9 6.42.8 88 1 8.4 61 92.8 64.3 36 5 5.25 1 4.94.1 28 3 5.4 62 05 5.3 12 7.5 19 2 7.59 7.9 91 8 5 52 4 1.5 92 13 2 1.61 6 2.86 5 3.32 7 2.51 9 6 13 2 3.1 82 24 0 41 8 5.34 2 4.7 22 6 62 0 3 62 4 2.8 62 31 1 0.66 2.3 82 4 2.5 13 5 5.12 4 7.43 6 7.72 42 5 5.41 5 0.94 3 1.0 91 6 5.41 6 8 42 5 6.4 62 53 4 19 7.1 65 0 5.6 61 0 1 96 2 1.43 2 4.92 63 7 4.96 6.5 23 2 3.0 19 7 8.32 7 3.8 3 0 1.4 42 73 3 5.77 6.8 54 5 1.0 61 0 9 63 3 0.9 2 5 0.1 32 83 7 88 1.2 33 4 0.4 81 0 7 92 6 2.2 2 7 1.5 42 93 5 25 9.0 71 8 4.47 3 22 0 3.7 1 9 8.3 23 02 9 6.81 1 6.52 7 8.1 89 7 2 1.4 2 9 3.9 1 6 9.6 43 13 2 1.61 1 4.65 2 3.0 89 5 2.55 5 8.1 2 4 3.6 23 23 2 4.27 7.3 44 6 7.6 29 0 8.35 9 42 9 8.3 33 33 6 9.58 1.3 53 6 3.71 0 8 93 1 82 2 0.2 83 42 9 7.41 2 2.53 5 7.62 7 6.52 1 5.23 0 5.13 52 7 4.38 6.85 6 3.7 11 0 2 65 3 8.3 3 1 7.5 53 62 9 7.21 1 3.93 6 6.6 78 9 7.44 8 8.4 2 3 8.4 73 72 6 8.59 2.2 45 3 1.69 8 1.15 9 8.92 4 4.33 82 7 7.41 2 0.95 1 4.8 21 0 7 95 3 1.9 2 7 0.3 23 92 3 1.41 4 0.53 8 0.97 2 9.84 4 7.5 3 0 8.0 94 02.8 61 1.3 41 5 4.3 41 7 93 02 6.6 64 16.8 18.5 11 5 4.7 51 7 1.92 9.7 81 0 7.44 21.8 20.6 11 7 4.8 81 9 3.38.53 4.4 84 33.0 33 0.8 31 3 3.7 91 6 9.21 1.1 1 1 0 3.8 24 41 4 3.23.9 94 4 9.9 89 1 2.26.0 57 2.3 14 51.4 83.0 76 0 8.8 12 3 5.89.0 61 1 4 6.84 61.9 14.3 36 3 5.4 24 4 2.16.5 98 9 7.6 34 73.1 94.3 78 4 5.1 86 8 2.51 9.2 1 1 0 7 5.84 85.6 52.6 88 5 1.1 16 2 1.53 1 1.1 7 5 4.3 34 96.2 72.1 87 3 2.1 66 1 3.41 2.5 4 7 8 8.9 95 04 0 2.66 4.7 55 1 6.5 31 0 5 06 3 8.7 3 0 5.1 25 12 3 5.19 8.8 44 6 09 9 6.22 2 53 3 4.3 93 1 1.78 2.9 45 1 8.7 79 1 5.26 8 82 9 6.2 55 32 9 2.79 3.6 14 6 4.69 3 3.15 9 3.8 2 0 5.0 95 47 7.82 1 0.54 0 6.8 96 9 7.84 4 0.8 3 4 9.7 35 58 4.7 82 9 0.74 8 5.5 88 9 9.45 6 8.4 3 2 8.3 55 61 4.8 33.6 56.51.7 79.86 4.0 75 72 2.2 65.8 93 2.7 31 3.8 12 6.91 2 6.2 55 86.5 71 7.57 3.5 75 1.2 84.1 31 5 6.8 8811采矿技术2 0 2 3,2 3(3)2.2 相关性热力图图3显示了水样离子浓度的相关性。从图3可以看出,M g2+离子浓度和H C O-3离子浓度相关性最高为0.6 2,其余离子浓度相关性都较低,最低为0.2。这说明,各离子浓度的大小相互间影响较小,并不是某一个水离子浓度影响到整体的突水水源类型,同时也可以说明突水水源类型是各离子浓度影响综合作用的结果,这就说明在预测时综合考虑水样各个离子浓度才能够准确预测突水水源类型结果。图3 水样离子浓度相关性热力图2.3 评价指标相关性系数(R2)描述了回归方程解释因变量变化的程度,以及方程与观测值的匹配程度,可表示为:R2=1-ni=1yi-yi 2ni=1yi-yi 2,0,1(1)均方误差值越小表明预测结果有更好的精确度,表达式为:MM S E=1nni=1yi-yi 2(2)残差平方和为预测值和实际值间差的平方之和,残差平方和越小,拟合程度越好,计算表达式为:SS S R=ni=1yi-yi 2(3)突水水源类型预测精度(P A)可表示为:P A=1-(实际值-预测值)/实际值(4)2.4 随机森林预测结果2.4.1 部分预测选取表1数据前4 2行为训练集,4 3 5 1行为测试集,5 2 5 8为预测值,特征数为7,使用的决策树为2 0。利用P