温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
数据
全栈数据之门任柳江著内 容 简 介本书以数据分析领域最热的Python语言为主要线索,介绍了数据分析库numpy、Pandas与机器学习库scikit-learn,使用了可视化环境Orange 3来理解算法的一些细节。对于机器学习,既有常用算法kNN与Kmeans的应用,决策树与随机森林的实战,还涉及常用特征工程与深度学习中的自动编程器。在大数据Hadoop与Hive环境的基础之上,使用Spark的ML/MLlib库集成了前面的各部分内容,让分布式机器学习更容易。大量的工具与技能实战的介绍将各部分融合成一个全栈的数据科学内容。本书不是从入门到精通地介绍某一种技术,可以把本书当成一本技术文集,内容定位于数据科学的全栈基础入门,全部内容来自当前业界最实用的技能,有非常基础的,也有比较深入的,有些甚至需要深入领悟才能理解。本书适用于任何想在数据领域有所作为的人,包括学生、爱好者、在职人员与科研工作者。无论想从事数据分析、数据工程、数据挖掘或者机器学习,或许都能在书中找到一些之前没有接触过的内容。图书在版编目(CIP)数据全栈数据之门/任柳江著.北京:电子工业出版社,2017.4ISBN 978-7-121-30905-2.全.任.软件工具程序设计.TP311.561中国版本图书馆CIP数据核字(2017)第022361号策划编辑:张春雨责任编辑:刘舫印刷:北京季蜂印刷厂装订:北京季蜂印刷厂出版发行:电子工业出版社北京市海淀区万寿路173信箱 邮编:100036开本:72010001/16 印张:24.75字数:445千字版次:2017年4月第1版印次:2017年4月第1次印刷定价:79.00元凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888质量投诉请发邮件至,盗版侵权举报请发邮件至。本书咨询联系方式:010-51260888-。0 x00自序慈悲为怀大数据,云中仙游戒为师。这是自己从几年前一直沿用到现在的签名,几年之后的今天,再来体会这句话,不一样的处境,不一样的心境,却依然有着同样的追求。曾想出世修行,渴望每日有高山流水相伴,能过着青灯古佛的生活。终因现实残酷只得入世而求存,在多少次碌碌无为中坚定了技术这条路。技术之路,注定会一波三折。在下也经历了从安全测试、安全分析,到大数据分析,再到 APP 后端开发,直至数据分析、机器学习与深度学习之后,技术之栈才得以完全确立。技术之路漫长而曲折,需要不断修行,目前我也仅仅是入得门内,自此方有机会窥探神秘数据世界之一二而已。少年不识愁滋味,为赋新词强说愁。而今识尽愁滋味,却道天凉好个秋。学无止境。曾经以为学会 Linux 便够了,殊不知,这仅仅是系统的基础;后来学了Python,以为这便是编程的全部;殊不知,Python最强大的领域在数据科学;直到接触大数据与机器学习,才发现,原来种种际遇,都只是为数据科学而铺设的“套路”。本书并非从入门到精通的讲解,只是想通过浅显易懂的语言让读者了解全栈数据的全貌。阅读本书时,如果其中某个知识点,让你入了门,我甚感欣慰;如果其中某节内容,让你得到了提高,我备受鼓舞。另外,入门之路千千万,用时下流行的话来说,只希望本书不会导致你“从入门到放弃”。全栈数据,主要想尽可能多地涉及数据科学中的主题。任何复杂的技术,都全栈数据之门IV是一点点积累起来的,数据科学也不例外。如果能将本书中涉及的全栈数据技术,如 Linux、Python、SQL、Hadoop、Hive、Spark、数据挖掘、机器学习与深度学习进行系统性整合,则全栈数据之技可成也。诗词歌赋,是诗人与词人对人生的情感寄托;技术写作,也是技术人员对技术的情感寄托。然术业有专攻,每个人的知识都是有限的,写书的目的,并非要证明自己,而是把自己所知所想记录下来,让读者能有哪怕一小点的收获即可。全栈并非全能,钱都不是万能的,何况技术乎?在数据领域,都懂一点,生活会更美好。全栈是一种修行,数据技术如此,人生亦如是:哲人的智慧,诗人的优雅,佛徒的慈悲;开源的思想,安全的思路,数据的思维;程序员的逻辑,测试员的严谨,分析员的远见。阅读本书,不能让你立刻走上人生巅峰、出任 CEO但至少可以达到以下几点:使用 Linux 工具或者 MySQL 进行数据统计分析。使用 Orange 进行机器学习实验。使用 Python 或者 PySpark 进行项目实战。使用 Hadoop 环境,如 HDP2 的集成环境,进行大数据研究。使用 scikit-learn,并且可以阅读 Spark 的机器学习库文档。熟练构建自己的数据科学技能。从事数据领域相关的职位。本书是一本无固定主题的技术文集合体,围绕“数据”这个主线,进行了大量的展开,从不同的侧面去靠近全栈数据技能,去靠近数据科学这个大主题。因内容宽泛,且作者水平有限,不足之处甚多,若读者发现书中的问题,还望不吝指正。可以通过我的微信公众号 yunjie-talk 反馈问题,我将不胜感激。最后,本书得以成册出版,必须要感谢电子工业出版社计算机出版分社的张春雨老师,伯乐张老师于杂乱文字中,发现了闪光之处,促成了本书的问世。世人皆说本书体裁太乱,无章法可言,唯张伯乐以无招胜有招接下,众皆信服。本书在写作过程中,得益于爱妻梁玉霞女士的大力支持,常于深夜端茶倒水,0 x00自序V询问进度,并且照顾家庭与小孩,让我可以抽出大量时间来书写,感激之情在心,在此道谢。与此同时,也感谢全力支持我写作的父母,他们帮忙照顾小孩与生活,对我学业、事业与写作的支持,让我感恩。另外,本书在写作过程中,得到好友司旭鹏的很多支持与建议,在初稿审校过程中,得到好友尹高峰、卢西、彭玺锦的很多建议与修改,在此一并感谢。因为你们的付出,让本书质量得到了提升,非常感谢。在写作本书的约一年时间之内,还得到了其他很多朋友、同事的大量建议,在此虽不一一提名,但必须要感谢你们的支持。云戒2016.11.11 于成都目录前言自强不息,厚德载物 /XIX0 x1Linux,自由之光 /0010 x10Linux,你是我的眼 /0010 x11Linux 基础,从零开始 /00301 Linux 之门 /00302 文件操作 /00403 权限管理 /00604 软件安装 /00805 实战经验 /0100 x12Sed 与 Grep,文本处理 /01001 文本工具 /01002 grep 的使用 /01103 grep 家族 /01304 sed 的使用 /01405 综合案例 /0160 x13数据工程,必备 Shell /01801 Shell 分析 /01802 文件探索 /01903 内容探索 /02004 交差并补 /020全栈数据之门VIII05 其他常用的命令 /02106 批量操作 /02207 结语 /0250 x14Shell 快捷键,Emacs 之门 /02501 提高效率 /02502 光标移动 /02603 文本编辑 /02704 命令搜索 /02805 Emacs 入门 /02906 Emacs 思维 /0310 x15缘起 Linux,一入 Mac 误终身 /03201 开源生万物 /03202 有钱就换 Mac /03203 程序员需求 /03304 非程序员需求 /03405 一入 Mac 误终身 /0350 x16大成就者,集群安装 /03601 离线安装 /03602 Host 与 SSH 配置 /03703 sudo 与 JDK 环境 /03904 准备 Hadoop 包 /04005 开启 HTTP 与配置源 /04106 安装 ambari-server /04107 后续服务安装 /04208 结语 /0440 x2Python,道法自然 /0450 x20Python,灵犀一指 /0450 x21Python 基础,兴趣为王 /04701 第一语言 /04702 数据结构 /04703 文件读写 /04904 使用模块 /050目录IX05 函数式编程 /05206 一道面试题 /05307 兴趣驱动 /0550 x22喜新厌旧,2 迁移 3 /05601 新旧交替 /05602 基础变化 /05703 编码问题 /05804 其他变化 /05805 2to3 脚本 /06006 PySpark 配置 /06107 喜新厌旧 /0620 x23Anaconda,IPython /06201 Anaconda /06202 安装与配置 /06303 pip 与源 /06404 IPython 与 Jupyter /06505 结语 /0670 x24美不胜收,Python 工具 /06701 缘起 /06702 调试与开发 /06803 排版与格式化 /07004 辅助工具 /07205 实用推荐 /0740 x25numpy 基础,线性代数 /07501 numpy 的使用 /07502 索引与切片 /07603 变形与统计 /07804 矩阵运算 /08005 实用方法 /08306 结语 /0850 x26numpy 实战,PCA 降维 /08501 PCA 介绍 /08502 数据均值化 /086全栈数据之门X03 协方差矩阵 /08704 特征值与向量 /08805 数据映射降维 /08906 sklearn 实现 /0900 x3大数据,其大无外 /0930 x30太大数据,极生两仪 /0930 x31神象住世,Hadoop /09501 Hadoop /09502 HDFS /09603 角色与管理 /09704 文件操作 /09805 结语 /1000 x32分治之美,MapReduce /10001 map 与 reduce 函数 /10002 分而治之 /10203 Hello,World /10304 Streaming 接口 /1050 x33Hive 基础,蜂巢与仓库 /10601 引言 /10602 Hive 接口 /10703 分区建表 /10804 分区机制 /11005 数据导入/导出 /11106 Hive-QL /11207 结语 /1140 x34Hive 深入,实战经验 /11501 排序与分布式 /11502 多表插入与 mapjoin /11603 加载 map-reduce 脚本 /11704 使用第三方 UDF /11905 实战经验 /12006 生成唯一 ID /121目录XI0 x35HBase 库,实时业务 /12201 理论基础 /12202 Shell 操作 /12303 关联 Hive 表 /12604 数据导入 /12805 实用经验 /1300 x36SQL 与 NoSQL,Sqoop 为媒 /13001 SQL 与 NOSQL /13002 从 MySQL 导入 HDFS /13103 增量导入 /13404 映射到 Hive /13505 导入 Hive 表 /13606 从 HDFS 导出到 MySQL /13707 从 Hive 导出到 MySQL /1380 x4数据分析,见微知著 /1410 x40大数据分析,鲁班为祖师 /1410 x41SQL 技能,必备 MySQL /14301 SQL 工具 /14302 基础操作 /14403 查询套路 /14504 join 查询 /14605 union 与 exists /14906 实战经验 /1510 x42快刀 awk,斩乱数据 /15201 快刀 /15202 一二三要点 /15203 一个示例 /15404 应用与统计 /15405 斩乱麻 /1560 x43Pandas,数据之框 /15701 数据为框 /157全栈数据之门XII02 加载数据 /15803 行列索引 /15904 行列操作 /16105 合并聚合 /16306 迭代数据 /16407 结语 /1650 x44Zeppelin,一统江湖 /16601 心潮澎湃 /16602 基