温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据
技术
应用
实践
指南
内 容 简 介 大数据是互联网、移动应用、社交网络和物联网等技术发展的必然趋势,大数据应用成为当前最为热门的信息技术应用领域。本书由浅入深,首先概述性地分析了大数据的发展背景、基本概念,从业务的角度分析了大数据应用的主要业务价值和业务需求,在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。最后,对大数据面临的挑战和未来的趋势进行了展望。本书既具有技术深度,又具有很强的可操作性,提供了一个系统性、架构性的大数据应用实践指南,纲要性地指导大数据应用实践,推动大数据技术在各个行业的广泛应用。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 大数据:技术与应用实践指南/赵刚著.北京:电子工业出版社,2013.10 ISBN 978-7-121-21560-5 .大.赵.数据处理指南.TP274-62 中国版本图书馆 CIP 数据核字(2013)第 228258 号 策划编辑:董 英 责任编辑:付 睿 印 刷:北京中新伟业印刷有限公司 装 订:北京中新伟业印刷有限公司 出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编:100036 开 本:787980 1/16 印张:18.25 字数:366 千字 印 次:2013 年 10 月第 1 次印刷 印 数:4000 册 定价:59.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。服务热线:(010)88258888。序 随着新一代信息技术的发展和应用,尤其是互联网、物联网、移动互联网、社交网络等技术的发展,我们正在进入一个大数据的时代。从大数据的理念到 Hadoop 开发技术,介绍大数据的书刊纷纷出现,但很多读者看了后可能仍感到不解渴,究其原因是这些书刊没有为读者构建一座连接宏观的理念和深奥的技术细节之间的桥梁,而有关大数据系统性应用实践的书籍则更是凤毛麟角。为此,我向大家推荐这本书,它从大数据技术应用的角度切入,建立了大数据业务价值与技术架构之间的映射关系,内容丰富,条理清晰,深入浅出,繁简适度,使读者能够系统地了解大数据的技术应用体系。大数据从数据挖掘、商业智能发展而来,是信息技术发展的必然产物。国家“十二五”规划要大力发展包括新一代信息技术在内的战略性新兴产业,大数据就是新一代信息技术的重要领域。它不仅是一次技术领域的革新,因此不仅技术人员必须了解它、研究它、运用它,而且它还将推动企业创新和社会变革,因此各行各业的人员都必须重视它、发展它、推动它。大数据应用不能一蹴而就,必须遵循科学的方法循序渐进。无论是从业务的角度还是从技术的角度,要将大数据应用讲清楚都不大容易,尤其是要使非本领域的专家能对大数据有一个全面的了解更非易事。为了帮助读者建立起对大数据应用全面、系统的认识,而不只是知道一些零散的技术或服务术语,作者站在系统论的高度对大数据应用做了高度的概括,涵盖大数据的基本概念、业务需求、技术架构、应用集成、实践方法、产业链和制度保障等七个方面,也构成了本书的七个章节。这种结构化、系统化的思想贯穿全书,成为本书的一大特色。这不仅对一般读者,而且对与大数据有关的管理人员和技术人员,都有帮助,使他们可以全面深刻地理解和把握复杂的大数据。作者提出了大数据应用的业务流程,分析了行业共性业务需求和个性业务需求,并且详细阐述了满足这些业务需求的大数据技术,也介绍了新的大数据技术和现有技术架构的整合。大数据在一些互联网公司有了很好的应用,其他行业也在关注大数据。本书列举出一些实例,给出了大数据应用的流程和方法论,强调了大数据对商业社会的巨大的变革力 量。虽然大数据还是一个新事物,开始时人们难免对其有所怀疑,不敢贸然使用,但越来越多的“吃螃蟹者”已经证明大数据能创造重大的社会效益和经济效益。在当前这场大数据引领的变革浪潮面前,我们应当直面挑战、勇于创新,大胆地应用大数据技术。实际上,在激烈的市场竞争中,不创新的风险往往比创新的风险更大。本书对大数据的写作高屋建瓴、深入浅出,这与作者的背景是分不开的。赵刚博士一直在中国电子信息产业发展研究院从事信息技术应用研究、咨询和实践工作,承担了多项信息技术战略规划和应用实施项目,有丰富的企业级信息架构的规划和建设经验。2013年,又创办了北京赛智时代信息技术咨询公司,致力于企业级大数据技术的应用咨询和实施工作,发布了银行、保险、电子商务等行业大数据应用研究报告,在大数据应用领域做了很多工作。作者从事产业研究、信息化咨询和信息系统集成的多重背景和学术造诣,使作者能把大数据的业务需求、技术架构和产业链分析在一本书中上下呼应、融会贯通地阐述清晰。作者在本书最后提出,大数据是中国国内企业迎头赶上的大好机会。我们相信,越来越多的中国大数据公司将会用自己的创新实践证明这一点,中国完全有可能乘大数据的变革之机实现中国信息产业的跨越式发展。综上所述,本书可以为一切想了解大数据技术应用、建设大数据企业级应用架构、享受大数据分析之美的读者提供一把开启大数据世界的钥匙,即使是对大数据有所研究的人士,本书系统性的视角也可以使他们了解全局、开阔思路,本书具有很高的参考价值。中国工程院院士 倪光南 v前 言 随着互联网、移动互联网、社交网络、物联网、云计算等新一代信息技术的应用和推广,人类产生的数据成倍增长,数据种类繁多,数据在宽带网络中高速流动,数据的待开发价值越来越大,我们已经进入了大数据时代!短短两三年,大数据的理念已经深入人心,大数据的技术也层出不穷,但大数据技术的应用才刚刚开始。本书把阐述的视角放在了大数据的技术应用上,通过分析大数据应用的关键成功因素,希望为政府、行业和企业的大数据技术开发和应用人员提供一本框架性和系统性的技术与应用实践指南。全书共分为 7 章。第 1 章是大数据的概念和发展背景,回顾大数据理念和技术的发展历程,梳理大数据发展脉络,并从大数据的体量、数据类型、速度和潜在价值等 4 个特征定义大数据。大数据的技术应用是为了实现业务的价值,所以第 2 章分析大数据应用的业务需求,梳理企业级大数据应用的业务流程,剖析大数据应用对于组织的业务价值,并深入分析互联网、零售、金融、电信、能源等 9 个行业的大数据应用需求,总结企业级大数据应用的客户分析、绩效分析和风险分析等共性需求。第 3 章阐述大数据应用的总体架构和关键技术。总体架构分析基于 Apache 开源的大数据平台总体架构参考模型,涵盖了大数据处理、大数据存储、大数据访问、大数据调度、大数据分析展现、大数据与传统数据库连接、大数据管理、安全和备份恢复框架等技术,它能够为企业建设大数据应用平台提供框架参考。基于这一架构,本章进一步详细介绍了大数据存储和处理、大数据查询分析、大数据高级分析和可视化等 3 个方面的关键技术。Hadoop 是大数据技术的内核,本章详细介绍了 Hadoop 三大核心技术,即分布式文件系统HDFS、分布式计算框架 MapReduce、分布式数据库 HBase 的技术原理、技术构成和应用示例,也介绍了 Hadoop 之外的内存计算、流计算等框架。大数据查询和分析技术介绍了SQL on Hadoop 技术,包括 Hive、Impala 等技术。大数据高级分析和可视化技术也是大数据的关键技术,本章总体阐述了大数据挖掘与高级分析的算法和技术,对非结构化复杂数据分析、预测分析和开源的 R 语言进行了重点介绍,并介绍了大数据可视化的一些工具。第 4 章阐述大数据技术应用与企业级应用系统的整合策略。现有企业级数据分析是以关系型数据库为基础的,建立了涵盖网络、存储、服务器、虚拟化、云计算和信息安全等 方面的企业 IT 架构,大数据技术的企业级应用需要实现与这些技术的高效整合,构建新一代的企业级应用架构。本章分别介绍了大数据传输、集成和流程化管理,大数据与存储架构的整合,大数据对网络架构的发展,大数据与虚拟化技术的整合,云计算平台上的大数据云,以及大数据与信息安全等 6 个方面的内容。第 5 章介绍了大数据企业级应用的实践方法论和应用案例。大数据应用的实践方法论阐述了业务需求定义、现状分析、架构规划和设计、技术切入与实施,以及试用、评估和推广等大数据应用的开发流程。对亚马逊、雅虎、淘宝等互联网企业应用案例的分析,则试图给大数据技术应用实践提供技术细节和实施规模的参考。第 6章介绍了大数据应用的主流商业解决方案,首先介绍大数据产业链上的主要厂商,并进一步介绍了 9 家主流厂商的解决方案。第 7 章是对大数据应用中未来挑战和发展趋势的分析。主要讨论了隐私保护、技术标准、大数据治理等应用发展中的关键挑战和应对策略,最后预测了大数据应用下商业生活的发展趋势。全书以某商业银行基于大数据的客户分析为案例,便于读者根据案例所阐述的应用场景,结合自身需求学习和掌握大数据技术的应用。本书的写作最大程度地得益于从事大数据技术研发、应用和研究的社区、业界同仁和爱好者。作者起的作用仅仅是穿针引线,将大数据技术应用开拓者们分享的研究和应用心得总结起来,希望有助于更多技术研发、应用人员和爱好者系统地学习和应用大数据,本书也提供了这些成果的链接,读者可以更加深入地去学习和研究。当然,本书基于作者在信息化领域多年的研究、咨询和系统集成的实践经验,也基于作者所创立的北京赛智时代信息技术咨询有限公司(www.CIOM)在大数据领域的研究成果。本书引用了CIOManage(赛智时代)的2013 年中国大数据应用价值研究报告的很多研究成果。感谢所有为大数据技术应用而努力的同仁们!本书付梓之际,作者诚惶诚恐,大数据技术远未成熟,大数据技术应用也刚刚拉开帷幕,这样一本技术应用实践指南一定存在诸多问题。但技术应用本来就是一个不断改进和优化的过程,希望我和读者在共同学习和应用的过程,逐步总结出更为精确和实用的经验。欢迎读者与我交流,联系信息如下。微博:http:/ 博士博客:http:/ 邮箱: 赵刚 2013 年 7 月 29 日于北京嘉铭园 vii目 录 第 1 章 大数据的概念和发展背景.1 1.1 大数据的发展背景.1 1.2 大数据的概念和特征.4 1.2.1 大数据的概念.4 1.2.2 大数据的特征.4 1.3 大数据的产生.5 1.3.1 数据产生由企业内部向企业外部扩展.5 1.3.2 数据产生从 Web 1.0 向 Web 2.0、从互联网向移动互联网扩展.6 1.3.3 数据产生从计算机/互联网(IT)向物联网(IOT)扩展.7 1.4 数据的量级.7 1.4.1 数据大小的量级.7 1.4.2 大数据的量级.8 1.5 大量不同的数据类型.8 1.5.1 按照数据结构分类.9 1.5.2 按照产生主体分类.12 1.5.3 按照数据作用方式分类.13 1.6 大数据的速度.14 1.7 大数据的潜在价值.14 1.8 大数据的挑战.15 1.8.1 业务视角不同带来的挑战.15 1.8.2 技术架构不同带来的挑战.15 1.8.3 管理策略不同带来的挑战.16 第 2 章 大数据应用的业务需求.17 2.1 大数据应用的业务流程.17 2.1.1 产生数据.17 2.1.2 聚集数据.18 2.1.3 分析数据.19 2.1.4 利用数据.19 2.2 大数据应用的业务价值.19 2.2.1 发现大数据的潜在价值.20 2.2.2 实现大数据整合创新的价值.20 2.2.3 新领域再利用的价值.21 2.3 各行业大数据应用的个性需求.21 2.3.1 互联网与电子商务行业.21 2.3.2 零售业.27 2.3.3 金融业.28 2.3.4 政府.32 2.3.5 医疗业.34 2.3.6 能源业.36 2.3.7 制造业.37 2.3.8 电信运营业.39 2.3.9 交通物流业.41