温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
Hash
倒排项集
海上
钻井平台
隐患
分析
易军
书书书文章编号:1009-6094(2023)04-0981-08基于 Hash 和倒排项集的海上钻井平台隐患关.联分析*易军1,陈凯1,蔡昆1,车承志1,周伟1,刘洪2(1 重庆科技学院智能技术与工程学院,重庆 401331;2 重庆科技学院安全工程学院,重庆 401331)摘要:为了充分挖掘海上平台隐患案例中隐患属性与致因之间的关联性,提高对平台隐患风险预测的准确性和时效性,提出了一种基于 Hash 技术和倒排项集的关联规则挖掘模式。首先针对 292 条平台结构现场数据的每个隐患属性进行分析提取;其次在多支持度下,按照多维、多层关联规则挖掘模式挖掘隐患设备、隐患位置、隐患现象等属性的关联规则;然后提出用信息增益来衡量关联规则的有效性;最后,根据挖掘结果分析并总结海上钻井平台隐患特征。结果表明:春季油水分离器常出现缺少保养的隐患,护管常出现未封堵的隐患;一般腐蚀和锈蚀的致因为操作维保不当、防护层剥落,以及防护装置锈蚀严重、脱焊、不符合规范,提高海上平台管理水平可减小现场隐患的发生概率。关键词:安全工程;海上钻井;多维关联规则;Apriori 算法;Hash 技术中图分类号:X937文献标志码:ADOI:10.13637/j issn 1009-6094.2021.2150*收稿日期:2021 11 29作者简介:易军,教授,博士,从事智慧安全与智能诊断研究,laoyifrcq ;周伟(通信作者),教授,博士,从事机器学习、深度学习、智能油气田等研究,。基金项目:油气生产安全与风险控制重庆市重点实验室开放基金项目(cqsrc202106,cqsrc202115);重庆市教育委员会科学技术研究基金项目(KJZD K202001501)0引言近年来我国海上油田开采力度加大,海上作业越来越多。钻井平台在油气田的开采中起着决定性的作用,平台结构相关设备及部件的可靠性和管理效率影响着海洋油气田的开采及安全保障。海上钻井平台结构发生损坏或坍塌不仅会对工作人员的生命安全和财产安全造成损失,还会给海洋环境造成巨大污染1。例如,我国“渤海 2 号”钻井平台因为通风筒设计不完善,螺丝大小不匹配发生了沉没事故2,导致 72 人遇难,直接经济损失 3 735 万元。因此,深入研究平台结构现场隐患关联性,为安全管理人员提供有效决策依据,对降低平台结构和设备的安全风险具有重要意义。关联规则挖掘3 5 是数据挖掘中的一种典型方法,能有效地挖掘出数据之间潜在的关联关系,其中典型的代表如 Apriori 算法,在安全领域有较为广泛的应用。1994 年,Agrawal 等6 首次提出 Apriori 关联规则算法,但该算法会多次扫描数据集,在产生候选项集和频繁项集过程中消耗大量时间。Chen等7 使用多维关联规则算法探究了船舶航行事故中人为因素的作用机制。2020 年,Cai8 从特定属性的层和维度出发,使用 Apriori 算法挖掘交通事故风险因素之间的关联关系,为海上钻井平台隐患分析引入了运用层和维度分析特征属性的思想。胡瑾秋等9 使用 Apriori 算法结合词向量算法挖掘企业生产事故隐患,为企业安全管理及整改提供依据。2021 年,陈述等10 使用 Apriori 算法结合基于互信息和左右信息熵的短语提取技术挖掘水电工程隐患,找到隐患重点,为隐患排查和治理提供参考,为自然语言处理(Natural Language Processing,NLP)技术在海上钻井平台的应用奠定了基础。张兆宁等11 使用关联规则算法挖掘飞机快速存取记录器(Quick Access ecorder,QA)参数与侧向位置误差间的关联规则,得出对侧向位置误差影响较大的因素。况宇琦等12 使用关联规则算法挖掘塔式起重机事故案例,从而找到事故致因事故属性之间的关联关系。目前改进的 Apriori 算法都是单一通过减少数据集扫描次数13 或减少冗余项集14 来减少算法耗时,且不能输出有效、可靠的关联规则结果15。这些研究主要利用单支持度的传统或单一改进的Apriori 算法进行关联规则挖掘,难以挖掘到小概率但重要的隐患信息,时效性不高,且海上平台结构复杂,隐患种类较多,需要设计专门的关联规则用于安全隐患分析和挖掘。因此,本文对收集到的 292 条海上平台结构的现场隐患数据,使用 Hash 技术和倒排项集改进Apriori 算法,在多支持度下进行多维、多层的隐患数据关联规则挖掘,深入挖掘隐患数据信息,使用评价指标筛选得到可靠有效的隐患关联规则,从而为减小海上平台隐患风险提供有效的决策依据。1平台安全隐患关联规则挖掘1.1关联规则挖掘步骤首先,扫描事务数据集得到候选项集,将满足最小支持度的项集构成频繁项集,然后构建规则,将满189第 23 卷第 4 期2023 年 4 月安全 与 环 境 学 报Journal of Safety and EnvironmentVol 23No 4Apr,2023足最小置信度要求的规则构成强关联规则,并对事务之间的相关性进行评价。1.2Apriori 算法简介Apriori 算法 16 17 作为一个经典的关联规则算法,其应用领域非常广泛。该算法通过不断迭代生成候选项集和频繁项集,然后用满足最小支持度和最小置信度的项集来生成强关联规则,再根据得到的规则来评价事务之间的关联程度。本文引用支持度(S)和置信度(C)两个参数,并利用 K 度量(Kulczynski)和不平衡率(Imbalance ratio,I)两个评价指标进行海上钻井平台隐患强关联规则挖掘,其定义如下。1)事务:每一条隐患记录称为一个事务(ti),所有的事务组成总事务集 T t1,t2,tn,其中每一个下标分别为对应隐患记录的唯一标志号,称为Tid,如t1表示第一条隐患记录,t1,t2,t3表示一个 Tid集。2)支持度:表示项集 X 和项集 Y 同时出现的事务数占总事务数的比重,反映其在总事务中出现的频率。计算公式如下。S(X,Y)=P(XY)=N(XY)N(T)(1)式中P(XY)表示项集 X 和项集 Y 同时出现的事务数占总事务数的比重,N(XY)表示项集 X 和项集Y 同时出现的次数,N(T)表示总的事务数量。3)置信度:表示项集 X 出现后,项集 Y 出现的概率,也就是条件概率。计算公式如下。C(Y|X)=P(XY)P(X)(2)式中C(Y|X)表示项集 X 出现后,项集 Y 出现的概率,P(XY)表示项集 X 和项集 Y 同时出现的概率,P(X)表示项集 X 出现的概率。4)K 度量(Kulczynski):表示项集 X=项集 Y和项集 Y=项集 X 置信度的平均值,也就是两个条件概率的平均值,其值越大表示两个项集联系越大。计算公式如下。K(X,Y)=12(C(X|Y)+C(Y|X)(3)式中C(X|Y)表示项集 Y=项集 X 的置信度,C(Y|X)表示项集 X=项集 Y 的置信度。5)不平衡率(Imbalance ratio,I):表示项集 X 和项集 Y 的不平衡程度,其值越小表示两个项集越平衡。计算公式如下。I(X,Y)=|S(X)S(Y)|S(X)+S(Y)S(X Y)(4)式中S(X)表示项集 X 的支持度,S(Y)表示项集Y 的支持度,S(X Y)表示项集 X 和项集 Y 交集的支持度。Apriori 算法的迭代步骤如下:首先,设置最小支持度(Smin)和最小置信度(Cmin),通过扫描事务数据集生成候选项集 A1,然后对 A1进行剪枝,扫描 A1并且满足最小支持度的项集构成频繁项集 L1,将 L1与 L1自身连接得到候选项集 A2,同样对 A2进行剪枝操作,扫描 A2,取满足最小支持度的项集构成频繁项集 L2,重复迭代以上过程,通过 Lk1与 Lk1自身连接产生候选项集 Ak,进行剪枝后,将满足最小支持度的项集构成频繁项集 Lk,直到候选项集为空,得到所有频繁项集,再根据频繁项集子集和频繁项集通过公式计算是否满足置信度要求,若满足则添加到规则,算法结束。算法流程图见图 1。Apriori 算法在连接和剪枝过程中产生了大量的候选项集,并且在之后与最小支持度的比对中,还需要对整个数据集重复扫描比对,即在连接步和剪枝步,在重复扫描数据集的过程中消耗了大量的时间,为此,本文提出了改进的 Apriori 算法。图 1Apriori 关联规则算法流程图Fig 1Association rule flowchart of Apriori1.3基于 Hash 技术与倒排集的算法改进本文提出了结合 Hash 技术和倒排项集的关联289Vol 23No4安全 与 环 境 学 报第 23 卷第 4 期规则算法。其中 Hash 技术可以在由候选 1 项集(A1)生成频繁 1 项集(L1)时,对其每一个事务生成其所有的候选 2 项集,然后将它们散列到表结构的不同桶(Bucket)中并且增加对应的桶计数(Bucket counter)。根据 Apriori 算法性质,在散列表中,对应桶计数低于最小支持度阈值的候选 2 项集不可能是频繁 2 项集,因此可以从候选项集中删除。以此类推,这样可以很大程度压缩候选 k 项集。为了减少遍历事务数据集的次数,采用倒排思想18,利用每一个事务的唯一标志 Tid,只需要在算法开始使用 Hash 技术遍历一次事务数据集,在产生频繁 k 1 项集的同时,记录下每一个频繁 k 1 项集对应的 Tid集。之后计算候选 k 项集时,只需要计算频繁 k 1 项集的 Tid集的交集。为了减少计算交集的运行时间,采用 Hash 表19 进行求交运算,然后将低于最小支持度阈值的候选 k 项集删除,得到最终的频繁项集。在本文提出的方法中,针对传统 Apriori 算法在连接和剪枝步过程中产生大量冗余的候选项集,提出基于 Hash 技术的改进以减少候选项集和求交集计数的时间;针对传统 Apriori 算法在产生频繁项集过程中会重复扫描数据集,提出基于倒排项集的改进以减少数据集扫描的次数,整个算法只需扫描 1 次数据集。具体算法流程如图2 所示:首先,扫描1 次事务数据集,然后,使用 Hash 技术连接1 项集产生候选2 项集并进行剪枝,根据先验性质,统计候选2 项集在散列表中的桶计数,将桶计数大于最小支持度的项集作为频繁 2 项集。同时统计频繁 2 项集包含的Tid集,之后求频繁 k 项集只需要对频繁 k 1 项集的 Tid集用散列表求交集并计数,删除计数低于最小支持度的项集,得到频繁 k 项集,直到没有频繁项集产生,再根据频繁项集子集和频繁项集通过公式计算是否满足置信度要求,若满足则添加到规则,算法结束。2隐患关联规则挖掘结果与分析2.1平台结构现场隐患数据分析本文试验数据来源于中海油渤海秦皇岛 32 6油田,所有平台结构现场隐患数据均来自该海上平台安全管理人员的采集,通过对收集到的 292 条现场隐患数据进行分析,将提取的平台结构隐患数据分为隐患属性信息和隐患致因两大类。其中隐患属性信息包括隐患基本信息、隐患描述,隐患风险等级三部分内容,具体信息见表 1。上方虚线框是对冗余项集的改进;下方虚线框是对多次遍历数据集的改进。图 2改进关联规则算法流程图Fig 2Flowchart of improved association rule algorithm根据隐患来源可以将隐患致因划分为人的因素、物的因素、环境因素、管理因素 4 个方面,归纳分类后结果见表 2。2.2平台结构现场隐患数据预处理数据预处理是为了更好地进行关联规则挖掘,现场隐患数据包含数值型、字符型和布尔型数据,本文用布尔型变量表示“隐患风险等级”的严重程度,将月份信息从数字型转换为布尔型数据来表示季节性,将描述属性进行字符串拆分,提取出隐患设备、隐患位置、隐患现象等信息。最终选取季节、隐患设备、隐患位置、隐患现象、隐患风险等级作为关联规则分析的对象。具体见表 3。通过数据预处理可以得到,隐患位置中护栏、围堰、护管等地方出现隐患的次数较多,隐患现象中锈蚀、未封堵、无标志警示出现的次数较多,其词云可视化见图 3