温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
Spark大数据处理:
原理、算法与实例
Spark
数据处理
原理
算法
实例
前言自2012年回归校园开始电信与互联网大数据分析科研生涯,我与Hadoop那头黄色小象就结下了不解之缘。感谢Google的论文、Yahoo的资助、Doug Cutting无与伦比的聪明才智,以及Hadoop开源社区无私奉献的参与者,让成千上万跟我们一样的中小开发者团队拥有了低成本处理大规模数据的能力。HDFS、MapReduce、Pig、Hive、HBase这些技术组件,帮助我们完成了一个又一个TB甚至PB级数据集的分析任务。那头可爱的黄色小象,陪伴我度过了一个又一个美好的日子。多么希望这种只用一个技术族就能解决各种大数据处理问题的美好日子能一直持续下去,相信这也是很多开发者梦寐以求的理想国度。然而,梦想终归是梦想。在两年前的某一天,无意中从网络上的一篇技术文章中看到了Spark这一新兴技术,文中宣称Spark性能和功能均优于Hadoop。将信将疑的我按照文章中的线索找到了Spark官网,下载解压后经过短暂试用,我就被Spark的简洁、高效、灵活的特性彻底迷住了。从那时起我就知道,Hadoop,我心目中大数据处理王者技术上的真正挑战者到来了。Spak以分布式内存对象架构为基础,以RDD转换模式为核心,并辅以丰富的RDD算子,不仅解决了大数据处理迭代任务的性能问题,还将开发者从简陋的Map/Reduce编程模式中解放出来,以更加灵活的方式控制数据的计算过程,并激发无穷的创意。因此,我们的团队逐渐将数据处理技术栈由Hadoop转向Spark。在这个过程中,我们发现目前已有的Spark相关书籍大多集中在介绍Spark技术的基础原理以及Spark相关工具(例如SparkSQL、SparkR等)的基本使用方法上。而要学习如何使用Spak中提供的丰富算子进行算法设计时,只能以大浪淘沙的方式从网络中零散的资料中寻找参考。因此,我们觉得如果有一本能以丰富示例介绍Spak程序和数据挖掘算法设计的书籍,应当能更好地帮助Spark开发者提高学习效率,这也就是我们撰写本书的原动力。基于这一原动力,本书突出以实例的方式介绍和展示Spak程序和算法设计的方法。第1章以科技史上最为著名的6个失败预言引出了大数据时代以及Hadoop技术出现的必然性,然后通过Hadoop与Spark的对比揭示了Hadoop的局限性和Spark的优势。第2章以简洁明了的方式说明了如何以最快的方式搭建一个Spark运行环境,并通过Shell环境体验Spark的强大功能。第3章以图文并茂的形式讲解了Spark的工作原理、架构与运行机制,并着重介绍了Spark的核心RDD的变换过程。第4章以大量示例代码的形式详细说明了Spk丰富的算子,包括创建算子、变换算子、行动算子