分享
基于MapReduce物联网大数据处理框架设计.pdf
下载文档

ID:3075046

大小:1.68MB

页数:6页

格式:PDF

时间:2024-01-19

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于 MapReduce 联网 数据处理 框架 设计
信息技术 年第 期基于 物联网大数据处理框架设计李 红 邱 凯(贵州电子商务职业技术学院 贵阳)摘 要:针对传统方法处理物联网中大数据时缺乏可扩展性提出了基于 的物联网大数据处理框架用于实现对各种形式的数据资源包括结构化、半结构化和非结构化数据的处理该框架为基于物联网的大数据智能应用提供了技术支持 使用 最近邻技术来清除噪声数据使用奇异值分解来降低数据的维数使用模糊 均值和基于密度的空间聚类的混合技术来处理噪声数据 实验结果表明所提出的框架具有较好的可扩展性和拟合精度在 活动数据集上的准确率为 关键词:物联网 大数据 奇异值分解 中图分类号:文献标识码:文章编号:():./.作者简介:李红()女本科高级讲师研究方向为计算机网络及应用教学 ():.:引 言物联网是通过各种视图信息设备将物品连接到互联网的巨大网络其中所有可以单独寻址的对象都可以相互交换信息最终实现透视识别、定位、跟踪、监督和管理的目标 物联网的基本思想是将所有事物都连接到网络上事物间可以自动识别相互对话甚至可以在无人为干扰的情况下做出选择 从物联网的本质上看数据是从各种类型传感器收集的物联网上数据的特点为:规模巨大:物联网中包括大量的识别设备这些设备持续不断地收集数据使信息规模不断扩大互操作性:目前大多数物联网应用程序处于离线状态物联网需要完成数据分发以完成不同应用之间的数据共享多维性:多维性被认为是物联网的重要特征传感器可以显示各种指针如温度、湿度、光线、重量等多维样本基于 物联网大数据处理框架设计 李红 等信息 当标准数据库框架无法处理非结构化数据时大数据应运而生 本文提出了基于 的物联网大数据处理框架 该框架能够在短时间内存储和检索大量数据 先从数据中清除噪声再使用 抽样和 作为数据约简技术在不丢失数据的情况下约减物联网中的大数据 此外还使用互信息算法检测属性之间的关系并预测语义聚类 最后使用基于 的 进行数据聚类以实现海量数据的存储和检索 方法论.是在独立系统上处理海量数据的编程模板 用户识别 函数后该函数处理一对键值以生成一组中间键值集 此外 模型还创建了一个 函数用于连接与同一中间键相关的所有中间值 架构如图 所示图 架构 框架主要包括大数据集、函数、函数 函数接收大数据并生成中间结果 函数读取中间结果并发出最终结果 读取大数据集如图 所示使用具有 扩展的数据集存储数据 数据存储显示数据的存储对象 然后从数据集中选择特定变量的名称 所选变量的名称允许使用用户指定的变量用户可以使用预览命令检索数据 函数图 为 函数框图首先获取一个数据表其 中 的 变 量 由 数 据 存 储 模 块 中 图 读取数据框图 标记 然后 函数提取数据集的子集用于验证所选密钥的条件值图 函数框图 函数图 为 函数接收从 函数获得的子集结果并合并到一个表中 返回一个键和一个值图 函数框图.算法 算法是一种依赖于密度的聚类技术 算法的工作原理如下:首先选取两个参数一个正数 和一个特征数 从数据集中选取一个点 如果 附基于 物联网大数据处理框架设计 李红 等近点的数量大于或等于 则 与其附近的点看作是一个“簇”然后以同样的方式通过检查新点来扩展这个簇 最后将点添加到聚类中.模糊 均值聚类()算法 算法是一种数据聚类方法 数据集被分类为 个聚类数据集中的每个数据点都与一个聚类高度相关距离聚类中心较远的数据点与该聚类的关联程度较低 该技术通常用于模式识别 模糊 均值聚类的算法步骤如下:首先计算聚类中心:()()然后根据隶属度矩阵计算目标函数:()最后更新隶属值:()()()其中 是大于 的实数为 在聚类 中的隶属度为第 个 维测量数据为聚类的 维中心为质心是测量数据与聚类中心之间的相似性度量 按顺序将聚类中心移动到数据集中的右侧区域 聚类策略依赖于模糊行为特征转换的性质但不具有概率性.最近邻()算法在 算法中结果是对项目的估计该值是其 近邻估计的正常值 从查询示例到标记示例的欧氏距离为:()()()选择 的理想值最好首先查看数据较大的 值可以降低总体噪声根据最大距离对标记的示例进行排序并找到前 个相邻邻居在数据中搜索最可能的实例并比较每个训练样本得出预测值.奇异值分解()奇异值分解()接收定义为 的矩形矩阵其中 是 矩阵 表示数据 表示实验属性 奇异值分解定理为:()()()的列是左奇异向量 的维数与 的维数相同 包含奇异值的行是右奇异向量 表示原始数据在矩阵为对角线的坐标系中的轮廓计算过程为:()()式中标量 为 的特征值 是 与 相关的特征向量 是 个特征向量所张成的 维矩阵奇异值分解的计算包括求 或 的特征值和特征向量 的特征向量表示 的列的特征向量表示 的列 中的奇异值是 或 特征值的平方根 奇异值是 矩阵的对角项并按降序排列 奇异值总是实数如果矩阵 是实矩阵那么 和 也是实矩阵 通过将小奇异值置零可以得到秩满足突出奇异值个数的矩阵估计 物联网大数据处理架构设计提出的方法包括两个主要阶段:数据预处理和数据处理阶段如图 所示 数据预处理阶段 首先进行数据采集即从不同传感器收集数据集然后通过离群点检测和噪声去除进行数据清理再进行数据约简即使用 算法降低数据的维数从而减少数据处理的执行时间利用 抽样从数据集中选择一个随机样本以节省运行时间最后集成相关性和互信息的数据旨在确定属性之间的关系并检测语义聚类 处理阶段 使用基于 的 方法对数据进行聚类这是一种用于数据分发的标准编程模型可以在较长时间内提升大数据的性能.数据预处理数据预处理是将原始数据转换为合理信息的一种数据挖掘方法 在具体实践中真实信息经常是不充分的、相互冲突的、易泄露的并且包含许多错误 数据预处理通过数据清理、数据约简和数据集成来解决这些问题基于 物联网大数据处理框架设计 李红 等图 海量异构传感器数据处理方法数据清理:清理数据的过程并不容易因为混淆数据可能会占全部数据的 以上 需要利用一些程序进行清理例如填充缺失值、平滑噪声数据或解决数据中的不一致性等数据约简:数据清理后进入数据约简阶段数据约简分为数值约简和维数约简可以使用回归法或抽样法进行数值约简 数据降维可以使用多种算法如、和 算法 本文使用 进行降维因为该方法适用于大维数据的降维且比其他算法运行时间短数据集成:数据集成可处理不同来源的组合数据该方法将数据集成在一起以供最终用户访问.数据处理来自物联网的海量数据需要进行数据存储处理而巨大的物联网信息具有较高的重复率因此使用基于 和 混合的 算法作为聚类算法在基于 的 函数中首先初始化每个聚类中最小值的点、聚类中心和点之间距离的 值以及隶属度矩阵然后计算数据集中每个点的聚类中心 使用公式 计算点与聚类中心之间的距离 若 大于或等于 值则该点标记为聚类的相邻点 然后根据 值计算每个聚类中心的相邻点 如果任何聚类的相邻点小于最小点则将该点标记为噪声点否则将该点标记为聚类点 可以确定密钥并创建一个新聚类重复该过程直到达到收敛状态在 的 函数中输入最小点、值、聚类和键 对于每个 聚类除了当前聚类点之外最后的聚类点除等于当前聚类点外还等于前一个聚类点 计算相邻点并与最小点进行比较如果相邻点大于或等于最小点则相邻点为聚类点 最后输出一组数据聚类如图 所示原始数据是从不同的传感器收集的数据中存在噪声、异构的问题 为解决这些问题首先收集并存储原始数据然后对这些数据进行预处理再使用 对数据进行回归去除噪声 下一步利用 算法对清除后的数据进行约简 非常适合于高维数据的降维和验证数据的显著可视性 使用 样本对数据进行采样 基于相关性、协方差矩阵整合来自异构数据源的数据使用互信息矩阵检测数据集中元素之间的关系并预测语义聚类在数据处理步骤中采用的模型是基于 聚类技术的 模型从大量的数据中发现不同形式和大小的聚类不必在一开始就检测聚类 结果与讨论.数据集描述数据集来自日常 家政活动用 传感器与 记录 标签 数据集包括 条记录的估计值 使用、和 在()、处理器和 构建框架.处理结果视图经过数据预处理后从 中读取数据观察到 数据集的一组结果属性视图(图)其中 是数据集中的数据 表示离群值数据 图 为经过 函数的结果数据 数据集开始时没有 和 最后 变为 变为 然后从 中读取数据结果基于 物联网大数据处理框架设计 李红 等图 读取数据集代码的结果属性图 函数执行并读取实现后的结果数据.效果评估评估主要包括数据预处理的时间和精度评价指标包括准确率、精度、灵敏性、特异性计算如式()():()()()()其中(真阳性)表示被模型预测为正类的正样本(真阴性)表示被模型预测为负类的负样本(假阳性)表示被模型预测为正类的负样本(假阴性)表示被模型预测为负类的正样本表 为使用、等不同聚类算法与基于 模型的 算法之间的比较本研究使用了不同的数据约简算法(如 、和)对聚类算法进行测试将数据集划分为训练数据和测试数据然后在测试数据上评估所提方法的性能 如表 所示本文框架的精度值为 灵敏性值为 特异性值为 准确率为 具有较好的性能 不同算法的耗时比较如图 所示表 算法比较算法 准确率/时间/准确率/时间/准确率/时间/准确率/时间/从表 和图 中可以发现 算法具有较高的准确率可在较短的时间内检索到数据 算法和 算法的耗时较长 具有较高的准确率但其缺点同样是耗时较长基于 物联网大数据处理框架设计 李红 等表 提出框架的性能度量评价指标数值精度 灵敏性 特异性 准确率 值 图 不同算法的耗时比较 结束语为提升物联网对大数据的处理效率本文重点研究了基于 模型的聚类方法来存储数据同时构建了一个在物联网中处理海量异构数据的框架从多个角度阐述了物联网中的大数据 体系结构包括两个阶段:数据预处理和数据处理 使用 来清除噪声数据并替换丢失的数据使用 减少数据以节省时间 通过互信息来检测数据之间的关系并检测语义聚类以达到较高的准确率和运行速度 基于 的 模型在数据聚类前使用约简技术可以在很短的时间内通过 实现数据聚类和约简功能 该系统的处理时间为 准确率为 参 考 文 献:谢明山.物联网传感器的受限部署与数据采集关键技术研究.海口:海南大学.徐玉峰.基于物联网的多传感器数据采集系统设计与实现.网络安全技术与应用():.杨鹏林俊晖.一种基于 和 的海量非结构化物联网数据处理方案.微电子学与计算机():.崔英杰.云雾网络架构的大数据分析平台研究.电子设计工程():.胡赢双.基于 的位置大数据聚类算法的研究.杭州:浙江工业大学.张文杰蒋烈辉.基于 并行化计算的大数据聚类算法.计算机应用研究():.李洪涛郭俐君郭锋等.基于 模型的城市大数据采集隐私保护方案.通信学报():.刘拨杰.基于模型驱动的 大数据变换软件开发方法研究.南京:南京大学.蒋华韩飞王鑫等.基于 改进 的大数据分类算法研究.微电子学与计算机():.宋人杰余通陈宇红等.基于 模型的大数据相似重复记录检测算法.上海交通大学学报():.():.刘丹段建民王昶人.一种基于聚类分组的快速联合兼容 数据关联算法.机器人():.朱斌斌.基于改进聚类算法的新聚类有效性指标的研究.合肥:安徽大学.闫婷.基于模糊 均值粒化的多标签分类算法研究.沈阳:辽宁工程技术大学.窦慧晶高立菁朱子云.基于加权 范数稀疏信号表示的 估计.北京工业大学学报():.蒋海军谢钧段国仑等.基于奇异值分解和隐 模型的动态手势识别.信息技术与网络安全():.周琴.矩阵的奇异值正交分解及其实现.高师理科学刊():.黄哲学何玉林魏丞昊等.大数据随机样本划分模型及相关分析计算技术.数据采集与处理():.黎敏讷.分布式数据分层抽样技术及其在目标检测领域的应用研究.长沙:国防科学技术大学.张占峰耿珊珊.框架下常用聚类算法比较研究.河北省科学院学报():.(责任编辑:丁晓清)

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开