温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据
标准化
技术
电大
应用
方法
谭建鑫
,研究与设计微型电脑应用 年第 卷第期作者简介:谭建鑫(),男,硕士,高级工程师,研究方向为智慧风电场;谢前(),男,硕士,助理工程师,研究方向为智慧风电场建设;井延伟(),男,硕士,助理工程师,研究方向为风电场信息化建设;赵晓楠(),男,本科,助理工程师,研究方向为风电场信息化建设;李鹏飞(),男,本科,助理工程师,研究方向为风电生产信息化建设。文章编号:()风电数据标准化技术及风电大数据应用方法谭建鑫,谢前,井延伟,赵晓楠,李鹏飞(河北建投新能源有限公司,河北,石家庄 ;北京金风慧能技术有限公司,北京 ;河北新天科创新能源技术有限公司,河北,张家口 )摘要:为了解决风电系统中多源异构数据类型不一致的问题,研究建立企业仓库和大数据平台系统,基于分布式架构实现并行查询和分析引擎,实现海量风电数据分布式存储和计算。大数据平台提供基于 、等技术的多种大数据计算引擎,支持 、等多种语言,应内嵌常用算法库。采用 建模工具建立风电数据标准化模型,建立具有层级关系的风电数据类的结构。使用 的信息模型与不同的业务系统数据通讯及系统整合,基于数据库的频繁项集挖掘和关联规则学习的 算法完成频繁项集挖掘任务。实验结果显示,本研究数据处理加速度可达到,数据标准化效率较高。关键词:数据标准化体系;大数据平台系统;标准化模型;信息模型;频繁项集挖掘中图分类号:文献标志码:,(,;,;,):,:;引言当前我国风电装机容量达到 以上,风力发电厂比核电厂产生的能量更多,仍在开发具有兆瓦和数百兆瓦级大功率风电场的大型风力发电机。风力发电机的多种传感器安装在风电机组的各个部分,产生了数据量较大、多源、异构的风电机组监测数据。由于风电机组传感器的型号不一致,风电场各业务子系统使用的软件运行环境不一致,导致各业务产生的数据不统一,甚至出现了数据语义相同而数据名称和标准不一致的现象,对数据标准和规格不一致的数据进行挖掘和分析存在一定难度。针对上述存在的问题,文献 建立数据标准化体系,以数据项为基本对象从底层逐一规范信息采集的数据项。但这种方法容易导致带有特殊语境的数据项出现,数据定义和 ,研究与设计微型电脑应用 年第 卷第期表达格式不连贯。文献 构建信息概念数据标准模型,采用 技术,定义类的属性,规范数据类型和属性取值。但由于数据标准体系不完善,标准模型不稳定难以实现有序性。企业仓库及大数据平台系统本研究建立数据标准化体系并支持大数据发展和高级应用的开发,完成风电场数据和风电机组数据的统计分析和管理。按照数据标准体系中的点表采集规范及全量的标准化二维点表,按照要求使不同类型的传感器设备采集系统需要的测点数据。按照数据标准化规范对风电场 系统进行标准化,统一制定点表标准、通讯规约标准和传输报文标准。企业仓库及大数据平台系统能够接收物联网平台的时序、对象、业务等多源异构数据,提供多种数据接口满足接入数据不同的需求。大数据平台内置大数据整理工具,按照数据分类和存储标准统一存储在企业仓库及大数据平台系统。大数据平台基于分布式架构实现并行查询和分析引擎,实现海量风电数据分布式存储和计算,同时能够对外提供统一标准的 接口服务。企业仓库及大数据平台系统架构如图所示。图企业仓库及大数据平台系统架构本研究企业仓库及大数据平台系统由基础软硬件环境、数据源、物联网平台、大数据平台、基础应用、接入系统和功能模块组成。系统应用数据处理工具和大数据技术框架,具有提供高负载和海量数据处理能力。基于相应的实时计算技术提供风电数据的实时处理和计算能力,对风电系统中各业务数据实时查看和统计,针对各类情况快速做出决策和响应。针对风电大数据的特点,提供集多种存储引擎于一体的存储服务,对于不同的业务数据、对象数据和时序数据的特性提供不同的存储方式,使数据质量得到提高发挥最大价值。大数据平台提供基于 、等技术的多种大数据计算引擎,能够进行大规模并行计算、数据查询和统计分析等操作,支持 、等多种语言,内嵌针对新能源行业的常用算法库,支持各类统计、查询、机器学习算法的大规模计算。系统在大数据模块中对风电数据的获取、使用和处理过程进行全方位监管,通过数据质量管理方法保证主数据精确、及时和一致,通过对元数据的管理提供数据流视图、影响分析的执行能力,最终实现对数据流向、数据质量和数据操作等方面的审计跟踪。在系统大数据计算能力的 基 础 上 构 建 预 警 模 型,加 入 、等 常 见 指 标,指 标 和 模 型 由 平 台 统 一 进 行 配 置 和调度。风电数据标准化技术本研究采用 建模工具,以当前企业仓及数据平台系统的数据项为基础,对风电数据的描述对象划分类,形成风电数据的层次结构,定义类的属性,规范属性的数据类型和表示形式,从而建立风电数据标准化模型。数据类型用来说明一个数据类的某个属性值所属的种类和取值的限定。数据类型包括:基础数据类型,主要是风电方面用来构建核心结构数据类型;基本数据类型,用来构成信息模型的基本模块;数量数据类型,由风电机组的物理参量构成。数据类型如表所示。表 数据类型序号数据名称数据标识数据值压缩数据 字符串 等价代码 概念描述 唯一标识 整数型 实数型 集合 对象标识 本研究首先定义实体,然后提出实体的属性,再定义每个数据属性的值和数据元,在不同的层次上定义数据类的属性。通过分类整理当前系统中现有的风电数据,抽象出对象类,建立风电数据标准化模型。风电数据标准化流程如图所示。风电数据标准化模型使用了元数据注册技术,用来管理风电数据的语义,对任何业务系统、任何类型、任何结构的风电数据都适用。风电数据标准化模型包括:()风电数据元风电数据源的描述分为语义和表示两个方面,语义有 和 两种类型。其中 由数据元概念()描述。()风电数据元概念模型 ,研究与设计微型电脑应用 年第 卷第期图风电数据标准化流程概念模型描述了风电数据元的概念、表示以及数据元存在的环境,数据元作为数据库、数据文件的一部分或作为机构之间传输数据的一个交易集的情况。风电数据元概念模型如图所示。图数据元概念模型()注册元模型注册元模型包含数据元的基本属性,注册元模型如图所示。图注册元模型本研究建立的数据标准化体系能够根据不同设备不同部件建立多级标准化规范,充分考虑后期点位扩展、技改等特殊情况,更新采集点表原则上不影响数据转发。制定点位标准化规范及标准化点表,为数据深度应用提供必要支持。设备电位标准化如表所示。风电大数据信息模型的应用本研究风电大数据使用的信息模型为 的信息模型,方便多厂家和多不同的业务系统数据通讯及系统整合。本研究使用基于数据库的频繁项集挖掘和关联规则学习的 算法。算法使用迭代的方法逐层搜索规则生成层,利用找到的项目集生成其他项目集的集合,直到项目集为空无法继续查找。设 ,是所有风电数据项的集合,关联规则表示,其中、都是数据项集合中的子集,关联规则的支持度为表设备点位标准化设备名称标准化名称风机风速 风机风机有功功率 风机风机无功功率 风机理论有功功率 风机风机状态 风机能量控制模式 风机限功率标志 ,风机准许生成功率曲线 ,风机风机发电量 风机风机故障 风机主故障 ()()()其中()表示包含集合和的并的概率。在风电数据挖掘中,基本数据采用实例集合的形式,频繁项集挖掘算法的任务是找到所有常见的项目集。算法流程如图所示。图 算法流程基于 算法的关联关系规则挖掘分为连接和剪枝两个操作步骤。()连接。层 连 接本身,生成一组新的候选项 集,其中还包括所有的频繁项集。()剪枝。连接中产生的候选项集为的超集,填满支持的的子集需要确定多少子集是属于它的。通过扫描风电数据库对候选项集进行检查,对于 的每个非空子集,如果 ()(),则输出()。风电大数据信息模型利用监测到的风机的运行参数,找出故障特征对风机故障进行预警。本研究应用随机森模型,通过对树预测因子进行组合,实现对风机故障的预警,对于风电数据中某个类的信息可定义为()()()其中,()表示风机不确定变量的信息,()表示风机故障的概率。随 机 森 林 模 型以及每棵树 的 生 成 规 则 如 图所示。,研究与设计微型电脑应用 年第 卷第期图随机森林模型随机森林模型有个输入变量,从中随机选择个变量集,在森林模型生长过程中重个变量集中选择最优的特征量。随机森林模型的精度较高对于风电数据的精度要求不高,即使在输入的风电数据中缺失一部分数据的情况下,模型也能够保证对预测结果的准确性。应用测试为验证本研究企业仓库及大数据平台系统的性能,分别使用文献 系统、文献 系统和本研究系统进行实验,对比三种系统的数据标准化速度。实验环境如表所示。表实验环境类型参数大数据引擎 、时序数据库 、流计算框架 、关系型数据库 、大数据平台 、编程文件 、数据抓取工具 、数据提取、为测试风电大数据标准化处理过程,本研究实验模拟多个并发请求,验证系统多任务处理的并行加速度比,实验样本如表所示。表实验样本参数名称说明参数类型 索引维度输入 单元维度输入 温度单位输入 角度单位输入 电流单位输入 容量单位输入 物理量元素类型输入本研究实验模拟 个并发处理请求,测试并记录各节点分别运行多个并发处理请求完成数据标准化所需的加工时间,得到三种系统的并发性能的加速度比如图所示。图加速度比对比三种系统的加速度比可知,在节点数量相同的情况下,本研究系统的加速度比随着并行处理任务增长近似于线性增加,本研究系统具有较好的并行处理能力,系统在节点数量增加到时,加速度可达到,对风电大数据进行标准化处理的效率更高。为验证温度预测模型的准确度,通过温度预测模型对正常工况下的风电机组温度进行预测和分析,得到的风电机组温度预测结果如图所示。图预测结果将得到的预测结果与实际温度进行对比,得到预测值与实际值的残差如图所示。图残差分布根据残差分布可知本研究系统模型得到的预测结果和实际值得大部分残差在 以下,只有极少一部分残 差 以上但不超过 ,说明本研究信息模型的预测精度较高。通过故障预警的方式能够更快地处理风电机组可能发送的故障,降低故障带来的影响和危害,加快了故障运维速度,保证了风电系统的温度运行。总结本研究建立企业仓库及大数据平台系统,实现风电各业务子系统的数据交互,支持数据资产中心功能对各阶段已经(下转第 页),研究与设计微型电脑应用 年第 卷第期 实验结果分析将图中的监测记录数据与设置的实际客户能源消费数据进行比对,从而得出量化的实验测试结果,如表所示。表监测精度测试对比结果监测时间设置消费数据元文献方法元文献 中提出监测方法的输出结果数据元设计监测结果数据元 通过对表中数据的统计可以看出,文献 和文献方法的平均监测误差分别为 元和 元,而设计监测方法的平均误差为 元,即设计的基于客户画像的多元化能源消费侧数据安全实时监测方法在监测精度方面更加具有优势,这是因为本文以能源消费侧数据为基础,结合用户行为数据,预先处理了计算数据中的缺失数、缺失率等,提高监测精度。总结基于客户画像进行客户标签统计分析,生成客户多维画像,实现数据安全实时监测,完成多样化的能耗侧数据安全实时监控方法的设计并应用,有效地完成数据安全监控,在一定程度上保证了能耗侧数据的安全运行和存储。参考文献索晓阳,王伟基于社交网络数据的用户群体画像构建方法研究网络空间安全,():谢康,吴记,肖静华基于大数据平台的用户画像与用户行为分析中国信息化,():寇爱青,周伟,胡巧珍(,)模型对我国能源消费量的预测及分析中国市场,():王喆 移动终端数据安全检测方法研究网络安全技术与应用,():王军,黄娟移动网络中心云计算存储数据访问安全自动监测系统设计自动化与仪器仪表,():何蕾基于需求侧综合响应的热电联供型微网运行优化电测与仪表,():窦迅,王俊,王湘艳,等基于演化博弈的区域电气互联综合能源系统用户需求侧响应行为分析中国电机工程学报,():程光剑,王传美,贺素香基于面板数据的经济增长与能源消耗循环效应分析中国科技论文,():周四军,孔晓琳能源消费结构影响能源效率的面板分位回 归 研 究 工 业 技 术 经 济,():(收稿日期:)(上接第 页)完成数据治理和相应标准化