温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
Python
绝技
运用
成为
顶级
数据
工程师
CMYCMMYCYCMYKPython技:运用Python成数据工程fy.pdf 1 2018/5/11 14:52:17 内 容 简 介 Python 已成为广受数据科学领域欢迎的开发语言。本书契合这一趋势,结合具体的业务场景,从数据思维的角度出发,剖析各业务环节中数据处理的策略、算法,并运用 Python 代码呈现翔实的案例,构建出一个完整的数据分析体系。在内容的组织和安排上,本书层次分明、详略得当:针对简单的数据分析工作,读者可以先浏览第 1 章至第 3 章;专职从事数据分析的工程师可以通篇阅读本书,以构建数据处理工程的完整知识框架;本书的最后一章针对从事大数据分析的工程师提供了一些常见问题的解决思路和方法。本书既适合刚接触数据工程的从业人员作为入门参考,也可以帮助具有一定经验的数据工程师搭建知识体系,洞悉业务场景中的数据奥秘,得心应手地运用数据指导业务。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 Python 绝技:运用 Python 成为顶级数据工程师/黄文青编著.北京:电子工业出版社,2018.6 ISBN 978-7-121-33654-6.P.黄.软件工具程序设计.TP311.561 中国版本图书馆 CIP 数据核字(2018)第 024601 号 责任编辑:刘 皎 印 刷:三河市华成印务有限公司 装 订:三河市华成印务有限公司 出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编 100036 开 本:7201000 1/16 印张:13.5 字数:232 千字 版 次:2018 年 6 月第 1 版 印 次:2018 年 6 月第 1 次印刷 定 价:79.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。本书咨询联系方式:010-51260888-819,。好评袭来 数据工程师必备三大技能:数据工程能力、数据分析能力、业务能力,三者相辅相承,缺一不可。本书从这三个方面出发,以简单易懂的 Python 为基础工具,介绍了很多基础知识和工程案例,读起来非常痛快!路人甲,公众号“一个程序员的日常”基于开源的第三方库和活跃的社区支持,Python 数据科学生态体系得到了快速的发展,越来越多的数据工程师选择 Python 作为开发语言。然而,在实际工作中,许多工程师往往侧重于需求实现而忽视对业务的理解。本书针对这一盲区,根据不同的业务场景,从数据的角度梳理、思考问题,并有针对性地阐述了不同的策略、算法和案例。在跟随本书学习的过程中,我们可以从全局上深入理解数据分析的精髓,并融会贯通这对于初学者和初级数据工程师的能力提升尤为重要。阿橙,“Python 中文社区”公众号主编 Python 绝技:运用 Python 成为顶级数据工程师 IV数据分析是近年来的热点。几乎所有的互联网公司在产品上都告别了“拍脑袋”做决定的方式,而选择“用数据说话”。因此,也有越来越多的人投入到相关领域当中。Python 作为数据分析的重要语言,受到了广泛关注。然而,对于想要成为数据工程师的人来说,仅完成编程语言的学习是远远不够的。本书恰恰为这一阶段的学习者提供了很好的帮助:从数据分析的基本理论,到业内实践中的分析流程和常用工具,本书均做了较为完整的梳理。除了理论讲解外,书中还附带了不少分析实例,便于读者理解和演练;此外,作者的行业经验保证了本书的实用性,为入行者指出了清晰的学习路径。Crossin,公众号“Crossin 的编程教室”作者、码课创始人 Python 语言继在 Web 大潮之下成为网站快速开发、服务端运维的明星语言之后,随着人工智能技术的飞速发展又迎来了新的一波高潮,成为人工智能领域的首选编程语言。Python 语言易学易用,有丰富的数据处理包,社区也相当成熟,在数据工程师群体中是非常流行的语言。作为中国最早一批使用 Python 的人之一,看见 Python 逐步从一门小众语言变成推动技术进步的主流语言,很是欣慰。希望此书能够帮助有志于成为顶级数据工程师的朋友更好地掌握这门优秀的语言。洪强宁,爱因互动创始人兼 CTO 人工智能是当下最热门的技术领域之一,各大厂商紧锣密鼓进行战略布局:自动驾驶、个人助手、医疗健康、电商零售、金融、教育如果把人工智能比喻成火箭,那么数据就是燃料。不管你是从事人工智能、机器学习,还是数据分析,都离不开数据,由此诞生了数据工程师的职业。本书从数据分析、数据挖掘、深度学习等方面介绍了一名数据工程师应该掌握的数据工程的方法和数据分析的思路,书中总结的数学公式和代码实践让原来枯燥的概念变得有滋有味。有志于成为数据工程师的你,细细“品尝”本书,必有收获!刘志军,公众号“Python 之禅”好评袭来 V本书内容由浅入深,分别介绍了数据分析的常用工具、Python 在数据分析方面常用的包、如何运用 Python 做基础的统计分析和如何运用 Python 做数据建模读完以后令人有一种从侏罗纪时代穿梭到未来时代的感觉,信息量很大。更难得的是作者拥有工业界的背景,这使他可以从实践操作的角度,手把手教您打造一把数据分析的利剑。一言以概之,本书没有繁杂的数学公式,只有挤不出水的干货。挖数,公众号“Washu66”Python 绝技:运用 Python 成为顶级数据工程师 VI 前言 数据分析、数据挖掘、深度学习及云计算,是当前最热门的技术领域。1830年前后,Gauss、Legendre 等数学家奠基了数据分析的基础理论;1943 年,心理学家 Warren McCulloch 和数理逻辑学家 Walter Pitts 首次提出神经网络;19 世纪80 年代,Hinton、Yann LeCun 等人提出 BP 算法及卷积神经网络;2006 年,深度置信网络研究成果发表。至此,数据建模理论研究的宏观大厦已初见雏形。历史是如此的巧合,正当需要海量数据集和工程技术方案来处理数据时,云计算应运而生。2003 年,谷歌发表关于 Google File System、Google Bigtable 及MapReduce 三篇论文,让大数据处理技术风靡全球。以此为基础,2010 年前后,整个云计算的概念及技术体系已经非常完善了。数据理论的完善、工程技术的发展与无数创意的结合,使得 2010 年以后,整个人类社会进入了“数据时代”。无论是精细化运营,还是人工智能产品,对数据的应用无处不在;无论是政府机构,还是私有的大、中、小型企业,使用数据的热情都达到空前的高度。2014 年,我加入百度公司,从事大数据处理及数据建模等相关工作。回首过 前言 VII往,在该领域的几年中,我经历了云计算从雾里看花到如今的方兴未艾;人工智能的初现端倪到如今的高潮迭起。作为一名前线的数据工程师,我深刻认识到,对我及大多数工程师而言,既无法像Jeff Dean等一样提出经典的大数据计算模型;也无法像Hinton、Yann LeCun一样提出具有深远影响的建模算法。我们所要做的,就是学习与汲取当前的理论与技术,结合应用领域,实现工程应用。这也是我写本书的初衷,希望能从宏观框架上梳理已有的数据分析理论与工程实施技术,并搭建相对系统的知识体系;同时,阐述工作实践中遇到的问题及解决的思路。Python 简洁易懂的语法、丰富的类库、与大数据组件的无缝集成等诸多特点,使其成为数据工程师的首选编程语言。当然,只是掌握 Python 还完全不足以成为顶级数据工程师,因此,本书介绍数据处理知识体系,并以 Python 实现相关代码示例,力求让读者能使用 Python 完成数据处理的各个环节。本书的第 1 章和第 2 章,简要说明了数据处理领域的基本概念,旨在让读者对数据处理工作有宏观的了解。第 3 章第 5 章,主要讲述数据分析理论。笔者按照难易程度,将其划分成三个部分,即基础分析、数据挖掘和深度学习。第 6章针对大数据分析,介绍了在工程实施过程中需要用到的工程组件和架构模式,并以一个具体的案例说明整个数据工程的实施流程。本书适合以下读者阅读:对人工智能和云计算感兴趣的读者;刚进入数据处理领域的 IT 工程师;希望从宏观上梳理数据处理知识体系的读者;用 Excel、SPSS、Python 做过数据分析的数据分析师;应用过 HDFS、Kafka等大数据组件的 IT 工程师。本书能够完稿,得益于外界诸多的帮助与指导。感谢数据领域的先驱者Geoffrey Hinton、Yann LeCun、Jeff Dean 等,他们的著作是数据时代最重要的理论依据;感谢在百度工作中遇到杨振宇、李华青、王珉然、陈合等许多优秀的同事和领导,在和他们一起试错、交流的过程中,让我取得巨大的进步;感谢本书的编辑刘皎,在她不厌其烦地督促下,本书才从凌乱的只言片语中编辑成书;特别感谢女友孙万兴,在本书的撰写过程中给予的谅解与支持。Python 绝技:运用 Python 成为顶级数据工程师 VIII 目录 1 概述.1 1.1 何为数据工程师.1 1.2 数据分析的流程.3 1.3 数据分析的工具.11 1.4 大数据的思与辨.14 2 关于 Python.17 2.1 为什么是 Python.17 2.2 常用基础库.19 2.2.1 Numpy.19 2.2.2 Pandas.26 2.2.3 Scipy.37 2.2.4 Matplotlib.38 3 基础分析.43 3.1 场景分析与建模策略.43 3.1.1 统计量.43 3.1.2 概率分布.48 目录 IX3.2 实例讲解.55 3.2.1 谁的成绩更优秀.55 3.2.2 应该库存多少水果.57 4 数据挖掘.60 4.1 场景分析与建模策略.60 4.1.1 分类.61 4.1.2 聚类.76 4.1.3 回归.86 4.1.4 关联规则.90 4.2 数据挖掘的重要概念.93 4.2.1 数据预处理.93 4.2.2 评估与验证.97 4.2.3 Bagging 与 Adaboost.99 4.2.4 梯度下降与牛顿法.102 4.3 实例讲解.105 4.3.1 信用卡欺诈监测.105 4.3.2 员工离职预判.110 5 深度学习.114 5.1 场景分析与建模策略.115 5.1.1 感知机.115 5.1.2 自编码器.119 5.1.3 限制玻尔兹曼机.123 5.1.4 深度信念神经网络.127 5.1.5 卷积神经网络.129 5.2 人工智能应用概况.137 5.2.1 深度学习的历史.137 5.2.2 人工智能的杰作.140 5.3 实例讲解.146 5.3.1 学习识别手写数字.146 5.3.2 让机器认识一只猫.151 Python 绝技:运用 Python 成为顶级数据工程师 X6 大数据分析.160 6.1 常用组件介绍.160 6.1.1 数据传输.160 6.1.2 数据存储.165 6.1.3 数据计算.174 6.1.4 数据展示.180 6.2 大数据处理架构.188 6.2.1 Lambda 架构.189 6.2.2 Kappa 架构.192 6.2.3 ELK 架构.193 6.3 项目设计.194 参考文献.202 1 概述 首先,我们会从“软实力”与“硬实力”两个方面,介绍一名数据工程师应该具备的能力,并以“能力图谱”的方式列出数据工程领域的知识体系。本书正是围绕这些知识点,逐层细化讲解的。其次,本书会总结数据处理的一般流程:明确目标、确定方案、数据整理、建模分析、结果验证、总结展现,继而对各环节的具体工作进行详尽说明;并从易用性、适用领域等多个维度,介绍工作中常用的数据处理工具。最后,阐述笔者做大数据处理与分析中的一些思考,旨在让读者对大数据有更进一步的认识。1.1 何为数据工程师 数据工程师无疑是大数据时代最热的名词之一。只要是从事数据相关工作的人员,