欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟欟收稿日期:20220527作者简介:马兆辉(1997),男,在读研究生。研究方向:大数据和信息处理。通信作者:温秀梅(1972),女,教授。研究方向:大数据和信息处理。犱狅犻:10.3969/j.issn.10084185.2023.02.038Spark平台下的RDD研究与应用马兆辉1赵睿哲1温秀梅1,2(1.河北建筑工程学院,河北张家口075000;2.张家口市大数据技术创新中心,河北张家口075000)摘要:大数据时代下,计算海量数据的需求日益加剧,Spark是专门用于计算大规模数据量的并行计算框架,但在实际应用中使用较少。首先对Spark平台下RDD(ResilientDistributedDataset)的基本概念进行介绍;其次对Spark与RDD的关系进行描述:Spark的核心是建立在抽象的弹性分布数据集RDD之上的,Spark可以将数据处理成为弹性分布数据集RDD,再通过RDD的转换接口和动作操作得到最终数据;最后在Spark平台实现电商用户页面单跳转化率统计实验和电商热门品类中Top10活跃Session统计实验,实现在实际生活中的应用,达到更快处理大规模数据的目的。关键词:大数据;Spark;RDD;电商中图分类号:犜犘3文献标识码:犃0引言Spark基于RDD实现了一体化、多元化的大数据处理体系,强大的计算能力以及高度集成化的特点使得Spark在大数据计算领域具有得天独厚的优势.在Spark出现之前,Hadoop平台下的MapReduce框架是最热门的大数据计算框架,但是MapReduce框架仍暴露出很多缺点,其中最主要的是迭代计算的中间结果会不停写入磁盘,造成了数据复制严重、磁盘开销大等问题.同Spark框架相比,MapReduce框架表达能力有限,不得不借助第三方工具去完成更为复杂的任务.Spark框架是为了解决这些问题而设计的,Spark框架不仅拥有更丰富的函数,可以对更为复杂的海量数据进行快速操作,而且可以将中间结果存入内存,通过RDD之间存在的依赖关系形成DAG图进行转换操作,实现流水线进程,使用户不必再担心底层数据的特性,减少了磁盘的开销,提升了运行速度,提高了容错性,同时还开发出完整的Sp...