分享
Python+Spark 2.0+Hadoop机器学习与大数据实战_2017.pdf
下载文档

ID:2351554

大小:73.25MB

页数:540页

格式:PDF

时间:2023-05-08

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
Python+Spark 2.0+Hadoop机器学习与大数据实战_2017 Python Spark 2.0 Hadoop 机器 学习 数据 实战 _2017
范例程序下载浅显易懂的原理介绍Step by Step实机操作、范例程序详细解说。降低机器学习与大数据技术的学习门槛Python+Spark 2.0+Hadoop机器学习与大数据实找林大贵著轻松快速学会机器学习与大数据热门技术清苇大学出版社内容简介本书从浅显易懂的“大数据和机器学习”原理说明入手,讲述大数据和机器学习的基本概念,如分类、分析、训练、建模、预测、机器学习(推荐引擎)、机器学习(二元分类)、机器学习(多元分类)、机器学习(回归分析)和数据可视化应用等。书中不仅加入了新近的大数据技术,还丰富了“机器学习”内容。为降低读者学习大数据技术的门槛,书中提供了丰富的上机实践操作和范例程序详解,展示了如何在单机Vindows系统上通过Virtual Box虚拟机安装多机Linux虚拟机,如何建立Hadoop集群,再建立Spark开发环境.书中介绍搭建的上机实践平台并不限制于单台实体计算机。对于有条件的公司和学校,参照书中介绍的搭建过程,同样可以实现将自己的平台搭建在多台实体计算机上,以便更加接近于大数据和机器学习真实的运行环境。本书非常适合于学习大数据基础知识的初学者阅读,更适合正在学习大数据理论和技术的人员作为上机实践用的教材。本书为博硕文化股份有限公司授权出版发行的中文简体字版本北京市版权局著作权合同登记号:图字01-2017-2317本书封面贴有清华大学出版社防伪标签,无标签者不得销售版权所有,侵权必究。侵权举报电话:010-6278298913701121933图书在版编目(CP)数据Python-+Spak2.0+Hadoop机器学习与大数据实战/林大贵著.一北京:清华大学出版社,2018ISBN978-7-302-49073-9I.P.林.软件工具一程序设计数据处理软件IV.TP311.561TP274中国版本图书馆CIP数据核字(2017)第296017号责任编辑:夏毓彦封面设计:王翔责任校对:闫秀华责任印制:李红英出版发行:清华大学出版社网址:htp:,http:/地址:北京清华大学学研大厦A座邮编:100084社总机:010-62770175邮购:010-62786544投稿与读者服务:010-62776969,c-质量反馈:010-62772015,hiliangtup.tsinghua.edu.cm印装者:清华大学印刷厂经销:全国新华书店开本:190mm260mm印张:33.75字数:864千字次:2018年1月第1版印次:2018年1月第1次印刷印数:13000价:99.00元产品编号:073908-01序本书将方兴未艾的“机器学习”和热门的“大数据分析”技术与应用在一本书中融会贯通地娓娓道来,体现了作者深厚的技术功底和丰富的经验。和己经出版的Hadoop+Spark大数据巨量分析与机器学习整合开发实战一书相比,本书不是简单的更新和升级,而是在原有的基础上增加了大数据技术,还丰富了其中略显薄弱的“机器学习”内容,增加了4章都和机器学习有关的内容。另外,作者还用流行的“胶水语言”Python重新改写了另一本书中的范例程序,并添加了“机器学习”+“大数据”章节的范例程序,所以将书名改为“Python+Spak2.0+Hadoop机器学习与大数据实战”,更加突出“机器学习”,并且强调范例程序是运用更加流行的Python语言来编写的。在因特网、社交媒体、电子商务等交叉发展和呼应下,“网络”这个巨人己经拥有了难以计数的海量数据,虽有传统结构化的数据、半结构化的数据,但更多的是非结构化的数据。这些貌以杂乱无章、毫无意义的海量数据是一座等待发掘的巨大“金和”。这些海量数据中蕴含着极为丰富的人类知识库,是一笔巨大的信息资产。随着云计算时代的来临,对这些原本很难收集整理的大数据进行及时甚至是实时分析和处理并加以有效利用就不再是“海市蜃楼”了。与大数据相关的内容不外乎三方面:大数据理论,大数据分析和处理的技术(机器学习为核心技术),大数据的实践应用。在与大数据有关的出版物中,偏重于理论教学和技术介绍类的比较多,而偏重于上机实践和自学的书比较少见。因此,本书非常适合“机器学习和大数据分析”的初学者和正在学习这个领域技术的人员作为学习和上机实践用的教材。本书不是对原理进行纯理论的阐述,而是提供了丰富的上机实践操作和范例程序,从而降低了读者学习“机器学习和大数据分析”的门槛。对于需要直接上机实践的学习者而言,本书更像是一本学习实践和实战开发的上机手册。书中首先展示了如何在单台Windows系统上通过Virtual Box虚拟机安装多台Linux虚拟机,而后建立Hadoop集群,再建立Spark开发环境。搭建这个上机实践的平台并不限制于单台实体计算机,主要是考虑个人读者上机实践的实际条件和环境。对于有条件的公司和学校,参照这个搭建过程,同样可以将实践平台搭建在多台实体计算机上。另外,现在很多大专院校都开设了Pyho程序设计语言的课程,所以本书的所有范例程序都用Python语言重新改写了,非常接“地气”。在搭建好“机器学习和大数据分析”上机实践的软硬件环境之后,就可以在各章节的学习中结合本书提供的范例程序逐一设置、修改、调试和运行,从中学到“机器学习和大数据分析”

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开