温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
Spark大数据商业实战三部曲:内核解密
商业案例
性能调优
Spark
数据
商业
实战
三部曲
内核
解密
案例
性能
Spok大数据商业实战三部曲内核解密商业案例性能调优王家林段智华夏阳编著清莱大学出版社北京前言大数据像当年的石油、人工智能(Artificial Intelligence)像当年的电力一样,正以前所未有的广度和深度影响所有的行业,现在及未来公司的核心壁垒是数据,核心竞争力来自基于大数据的人工智能的竞争。Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台,2009年诞生于美国加州大学伯克利分校AMP实验室,2010年正式开源,2013年成为Apache基金项目,20l4年成为Apache基金的顶级项目。基于RDD,Spark成功构建起了一体化、多元化的大数据处理体系。在任何规模的数据计算中,Spak在性能和扩展性上都更具优势。(l)Hadoop之父Doug Cutting指出:Use of MapReduce engine for Big Data projects willdecline,replaced by Apache Spark(大数据项目的MapReduce引擎的使用将下降,由ApacheSpark取代。)(2)Hadoop商业发行版本的市场领导者Cloudera、Horton Works、MapR纷纷转投Spark,并把Spak作为大数据解决方案的首选和核心计算引擎。20l4年的Sort Benchmark测试中,Spark秒杀Hadoop,在使用十分之一计算资源的情况下,相同数据的排序上,Spark比MapReduce快3倍!在没有官方PB排序对比的情况下,首次将Spak推到了1PB数据(十万亿条记录)的排序,在使用190个节点的情况下,工作负载在4小时内完成,同样远超雅虎之前使用3800台主机耗时16个小时的记录。2015年6月,Spark最大的集群来自腾讯一8000个节点,单个Job最大分别是阿里巴巴和Databricks-一lPB,震撼人心!同时,Spark的Contributor比2014年涨了3倍,达到730人;总代码行数也比2014年涨了2倍多,达到40万行。BM于2015年6月承诺大力推进Apache Spark项目,并称该项目为:以数据为主导的,未来十年最重要的新的开源项目。这一承诺的核心是将Spark嵌入BM业内领先的分析和商务平台,并将Spark作为一项服务,在BMBluemix平台上提供给客户。BM还将投入超过3500名研究和开发人员在全球10余个实验室开展与Spark相关的项目,并将为Spark开源生态系统无偿提供突破性的机器学习技术一IBM SystemML。同时,BM还将培养超过IO0万名Spark数据科学家和数据工程师。2016年,在有“计算界奥运会”之称的国际著名Sort Benchmark全球数据排序大赛中,由南京大学计算机科学与技术系PASA大数据实验室、阿里巴巴和Databricks公司组成的参赛团队NADSort,以144美元的成本完成100TB标准数据集的排序处理,创下了每TB数据排序1.44美元成本的最新世界纪录,比2014年夺得冠军的加州大学圣地亚哥分校TritonSort团队每TB数据4.51美元的成本降低了近70%,而这次比赛依I旧使用Apache Spark大数据计算平台,在大规模并行排序算法以及Spk系统底层进行了大量的优化,以尽可能提高排序计算性能并降低存储资源开销,确保最终赢得比赛。在Full Stack理想的指引下,Spark中的Spark SQL、SparkStreaming、MLLib、GraphX、R五大子框架和库之间可以无缝地共享数据和操作,这不仅打造了Spk在当今大数据计算领域其他计算框架都无可匹敌的优势,而且使得Spk正在加速成为大数据处理中心首选通