温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据库
高级大数据人才培养丛书 大 数 据 库 主 编:主 编:刘 鹏 副主编:副主编:张 燕 内 容 简 介 本书是全国高校标准教材大数据的姊妹篇,是中国大数据专家委员会刘鹏教授联合国内多位专家历时两年的心血之作。本书系统地介绍了大数据库的理论知识和实战应用,包括大数据库概述、分布式数据库 HBase、数据仓库工具 Hive、大数据查询系统 Impala、内存数据库 Spark、Spark SQL、键值数据库、流式数据库和大数据应用托管平台 Docker 等。本书紧跟大数据的发展前沿,既有理论深度,又有实践价值。刘鹏教授创办的网站中国大数据()、中国云计算()和微信公众号刘鹏看未来(lpoutlook)将免费提供 PPT 和其他资料,为本书的学习提供技术支撑。“让学习变得轻松”是本书的初衷。本书适合作为相关专业本科和研究生教材,高职高专学校也可以选用部分内容开展教学,同时也可作为大数据研发人员和爱好者的学习和参考资料。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 大数据库/刘鹏主编.北京:电子工业出版社,2017.6(高级大数据人才培养丛书)ISBN 978-7-121-31619-7.大 .刘 .数据库系统 .TP311.13 中国版本图书馆 CIP 数据核字(2017)第 107715 号 策划编辑:董亚峰 责任编辑:董亚峰 特约编辑:刘广钦 刘红涛 印 刷:装 订:出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编:100036 开 本:7871 092 1/16 印张:18.25 字数:427 千字 版 次:2017 年 6 月第 1 版 印 次:2017 年 6 月第 1 次印刷 定 价:49.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。本书咨询联系方式:(010)88254694。编 写 组 主 编:刘 鹏 副主编:张 燕 编 委:陈留锁 潘永东 张 鑫 翟洪军 武郑浩 叶晓江 桂文明 张志立 张晓民 郭东恩 于继明 周 端 张佩云 杨震宇 顾才东 张重生 程 浩 邓 鹏 基金支持:国家自然科学基金(61472005)资助 2015 年度江苏高校优秀科技创新团队“大数据智能挖掘信息技术研究”金陵科技学院高层次人才科研启动基金资助,项目编号:40610186 江苏省高校软件工程品牌专业建设项目系列教材 总 序 短短几年间,大数据就以一日千里的发展速度,快速实现了从概念到落地,直接带动了相关产业井喷式发展。全球多家研究机构统计数据显示,大数据产业将迎来发展黄金期:IDC 预计,大数据和分析市场将从 2016 年的 1300 亿美元增长到 2020 年的 2030亿美元以上;中国报告大厅发布的大数据行业报告数据也说明,自 2017 年起,我国大数据产业将迎来发展黄金期,未来 23 年的市场规模增长率将保持在 35%左右。数据采集、数据存储、数据挖掘、数据分析等大数据技术在越来越多的行业中得到应用,随之而来的就是大数据人才问题的凸显。麦肯锡预测,每年数据科学专业的应届毕业生将增加 7%,然而仅高质量项目对于专业数据科学家的需求每年就会增加 12%,完全供不应求。根据人民日报的报道,未来 35 年,中国需要 180 万数据人才,但目前只有约 30 万人,人才缺口达到 150 万之多。以贵州大学为例,其首届大数据专业研究生就业率就达到 100%,可以说“一抢而空”。急切的人才需求直接催热了大数据专业,国家教育部正式设立“数据科学与大数据技术”本科新专业。目前已经有两批共计 35 所大学获批,包括北京大学、中南大学、对外经济贸易大学、中国人民大学、北京邮电大学、复旦大学等。估计 2018 年会有几百所高校获批。不过,就目前而言,在大数据人才培养和大数据课程建设方面,大部分高校仍然处于起步阶段,需要探索的还有很多。首先,大数据是个新生事物,懂大数据的老师少之又少,院校缺“人”;其次,尚未形成完善的大数据人才培养和课程体系,院校缺“机制”;再次,大数据实验需要为每位学生提供集群计算机,院校缺“机器”;最后,院校没有海量数据,开展大数据教学科研工作缺“原材料”。其实,早在网格计算和云计算兴起时,我国科技工作者就曾遇到过类似的挑战,我有幸参与了这些问题的解决过程。为了解决网格计算问题,我在清华大学读博期间,于2001 年创办了中国网格信息中转站网站,每天花几个小时收集和分享有价值的资料给学术界,此后我也多次筹办和主持全国性的网格计算学术会议,进行信息传递与知识分享。2002 年,我与其他专家合作的网格计算教材也正式面世。大数据库 VI 2008 年,当云计算开始萌芽之时,我创办了中国云计算网站()(在各大搜索引擎“云计算”关键词中排名第一),2010 年出版了云计算(第一版)、2011年出版了云计算(第二版)、2015 年出版了云计算(第三版),每一版都花费了大量成本制作并免费分享对应的几十个教学 PPT。目前,这些 PPT 的下载总量达到了几百万次之多。同时,云计算教材也成为国内高校的首选教材,在 CNKI 公布的高被引图书名单中,对于 2010 年以来出版的所有图书,云计算(第一版)在自动化和计算机领域排名全国第一。除了资料分享,在 2010 年,我也在南京组织了全国高校云计算师资培训班,培养了国内第一批云计算老师,并通过与华为、中兴、360 等知名企业合作,输出云计算技术,培养云计算研发人才。这些工作获得了大家的认可与好评,此后我接连担任了工信部云计算研究中心专家、中国云计算专家委员会云存储组组长等职位。近几年,面对日益突出的大数据发展难题,我也正在尝试使用此前类似的办法去应对这些挑战。为了解决大数据技术资料缺乏和交流不够通透的问题,我于 2013 年创办了中国大数据网站(),投入大量的人力进行日常维护,该网站目前已经在各大搜索引擎的“大数据”关键词排名中位居第一;为了解决大数据师资匮乏的问题,我面向全国院校陆续举办多期大数据师资培训班。2016 年末至今,在南京多次举办全国高校/高职/中职大数据免费培训班,基于大数据 大数据实验手册以及云创大数据提供的大数据实验平台,帮助到场老师们跑通了 Hadoop、Spark 等多个大数据实验,使他们跨过了“从理论到实践,从知道到用过”的门槛。2017 年 5 月,还举办了全国千所高校大数据师资免费讲习班,盛况空前。其中,为了解决大数据实验难的问题而开发的大数据实验平台,正在为越来越多高校的教学科研带去方便:2016 年,我带领云创大数据(,股票代码:835305)的科研人员,应用 Docker 容器技术,成功开发了 BDRack 大数据实验一体机,它打破虚拟化技术的性能瓶颈,可以为每一位参加实验的人员虚拟出 Hadoop 集群、Spark 集群、Storm 集群等,自带实验所需数据,并准备了详细的实验手册(包含 42 个大数据实验)、PPT 和实验过程视频,可以开展大数据管理、大数据挖掘等各类实验,并可进行精确营销、信用分析等多种实战演练。目前,大数据实验平台已经在郑州大学、西京学院、郑州升达经贸管理学院、镇江高等职业技术学校等多所院校成功应用,并广受校方好评。该平台也以云服务的方式在线提供(大数据实验平台,https:/),帮助师生通过自学,用一个月左右成为大数据动手的高手。同时,为了解决缺乏权威大数据教材的问题,我所负责的南京大数据研究院,联合金陵科技学院、河南大学、云创大数据、中国地震局等多家单位,历时两年,编著出版了适合本科教学的大数据 大数据库 大数据实验手册等教材。另外,数据挖掘虚拟化与容器 大数据可视化 深度学习等本科教材也将于近期出版。在大数据教学中,本科院校的实践教学应更加系统性,偏向新技术的应用,且对工程实践能力要求总序 VII 更高。而高职、高专院校则更偏向于技术性和技能训练,理论以够用为主,学生将主要从事数据清洗和运维方面的工作。基于此,我们还联合多家高职院校专家准备了云计算基础 大数据基础 数据挖掘基础 R 语言 数据清洗 大数据系统运维 大数据实践系列教材,目前也已经陆续进入定稿出版阶段。此外,我们也将继续在中国大数据()和中国云计算()等网站免费提供配套 PPT 和其他资料。同时,持续开放大数据实验平台(https:/)、免费的物联网大数据托管平台万物云()和环境大数据免费分享平台环境云(),使资源与数据随手可得,让大数据学习变得更加轻松。在此,特别感谢我的硕士导师谢希仁教授和博士导师李三立院士。谢希仁教授所著的计算机网络已经更新到第 7 版,与时俱进且日臻完美,时时提醒学生要以这样的标准来写书。李三立院士是留苏博士,为我国计算机事业做出了杰出贡献,曾任国家攀登计划项目首席科学家。他的严谨治学带出了一大批杰出的学生。本丛书是集体智慧的结晶,在此谨向付出辛勤劳动的各位作者致敬!书中难免会有不当之处,请读者不吝赐教。我的邮箱:,微信公众号:刘鹏看未来(lpoutlook)。刘鹏 教授 于南京大数据研究院 大数据库 VIII 前 言 面对大数据时代产生的海量数据,传统的关系型数据库和数据处理技术在使用中遇到了前所未有的难题,如海量数据快速访问能力受到束缚,海量数据访问缺乏灵活性,对非结构化数据处理能力薄弱,海量数据导致存储成本、维护管理成本不断增加等。如何对海量数据进行查询分析已成为所有数据库研发人员亟待解决的问题,大数据库因此应运而生。所谓的大数据库是针对传统数据库在存储、管理海量数据时显现的不足,逐渐衍生出能存储管理多种数据类型,并适用于海量数据处理的数据库技术。大数据这本书于 2017 年 1 月出版,承蒙大家的喜爱,自出版以来受到广大读者的关注和好评。由于大数据技术发展迅猛,我们的大数据研发团队经过长期的研究和紧密跟踪,及时推出了大数据库这本教材。大数据库是全国高校标准教材大数据的姊妹篇,在内容上进行了全面互补,以确保能够更准确地反映大数据技术的最新面貌。正如在小数据时代我们应该学习数据库一样,在大数据时代我们应该学习大数据库。本书系统地介绍了目前业界主流的四种大数据库技术,分别是列式数据库、内存数据库、键值数据库以及流式数据库。列式数据库通常用来应对海量数据的分布式存储,典型列式数据库有 HBase;内存数据库是指将全部内容存放在内存中,而非像传统数据库那样存放在外部存储器中的数据库,这种数据库的读写性能很高,主要用在对性能要求极高的环境中,典型内存数据库有 Spark;键值数据库主要使用一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据,该模型对于 IT 系统的优势在于简单、易部署、高并发,典型键值数据库有 Memcached、Redis;流式数据库的处理模式是将源源不断的数据视为数据流,它总是尽可能快速地分析最新的数据,并给出分析结果,也就是尽可能实现实时计算,典型流式数据库有 Spark Streaming、Storm。大数据库技术可以对海量数据进行分析处理,采用不同的技术手段挖掘价值信息并投入到应用中。因此,期望读者可以从本书中学会主流大数据库技术的理论知识和实战应用;也期望本书为大数据“创新人才”培养目标提供新思路。本书是集体智慧的结晶,在此谨向付出辛勤劳动的各位作者致敬!书中难免会有不当之处,请读者不吝赐教。我的邮箱:,微信公众号:刘鹏看未来(lpoutlook)。刘鹏 教授 于南京大数据研究院 2017 年 6 月 6 日 目 录 第 1 章 大数据库概述 1 1.1 传统关系型数据库面临的问题 1 1.2 大数据库技术 2 1.2.1 列式数据库 2 1.2.2 内存数据库 2 1.2.3 键值数据库 3 1.2.4 流式数据库 3 1.3 大数据 SQL 3 1.4 当前主流大数据 SQL 简介 4 1.4.1 Hive 4 1.4.2 Impala 5 1.4.3 Shark 6 1