温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
Python
数据
挖掘
方法
应用
数据科学与大数据技术系列 统计分析教材 Python 数据挖掘方法及应用 王斌会 王 术 编著 内 容 简 介 本书重点介绍 Python 语言在数据处理与数据挖掘方面的应用技巧,主要包括数据分析基础知识(数据收集与分析软件、数据挖掘的分析基础、简单数据的统计分析),数据分析高级方法(多元数据的综合分析、时序数据的模型分析),大数据基本处理方法(大数据分析基础应用、文献计量与科研评价、社会网络分析方法、数据分析编程平台)等内容。附录中还提供了 Python 数据分析相关方法和函数等,方便读者随时查看。本书内容丰富,图文并茂,可操作性强且便于查阅,主要面向数据分析的读者,能有效帮助读者提高数据处理与分析的水平,提升工作效率。书中的例子数据、习题数据及相关代码都可在作者的学习博客 http:/ 下载使用,也可登录华信教育资源网 http:/ 免费下载。本书适合各层次的数据分析用户,既可作为初学者的入门指南,又可作为中高级用户的参考手册,同时也可作为各大中专院校和培训班的数据分析教材。未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。版权所有,侵权必究。图书在版编目(CIP)数据 Python 数据挖掘方法及应用/王斌会,王术编著.北京:电子工业出版社,2019.3(数据科学与大数据技术系列)ISBN 978-7-121-34495-4.P .王 王 .软件工具程序设计高等学校教材 .TP311.561 中国版本图书馆 CIP 数据核字(2018)第 125853 号 策划编辑:秦淑灵 责任编辑:秦淑灵 印 刷:装 订:出版发行:电子工业出版社 北京市海淀区万寿路 173 信箱 邮编:100036 开 本:7871092 1/16 印张:13.5 字数:340 千字 版 次:2019 年 3 月第 1 版 印 次:2019 年 3 月第 1 次印刷 定 价:49.00 元 凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888,88258888。质量投诉请发邮件至 ,盗版侵权举报请发邮件至 。本书咨询联系方式:。III 前 言 人类从农耕社会进入工业社会用了上千年时间,从工业社会进入信息社会用了一百多年时间,而从信息时代进入数据时代仅用了不到十年时间。随着互联网、物联网、云计算的不断深入应用,产生了大量的数据,这些数据的挖掘和分析应用,需要人们掌握数据分析技术。人类正全面进入大数据分析时代。需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是,存在大量的数据,可以被广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以应用于各种领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等。“人生苦短,我要用 Python”,这是网上对 Python 评价最多的一句话,说明 Python作为一种新兴的编程语言,已深入人心。现在我国许多地区高考试卷中都加入了 Python编程的内容,一些中小学也开始开设 Python 编程课程。本书重点介绍 Python 语言在数据处理与数据分析方面的应用技巧,涉及数据的整理、数据的输入和输出、探索性数据分析、基本数据分析、多元数据分析、时间序列数据分析、网络爬虫技术、社会网络分析、知识图谱和文献计量研究等数据分析方面的内容。附录中还提供了 Python 数据分析相关方法和函数等,方便读者随时查看。全书分三部分,共 9 章内容。第一部分主要讲解数据分析基础知识,包括第 1、2、3 章,重点介绍数据收集与分析软件、数据挖掘的分析基础,以及简单数据的统计分析;第二部分讲解数据分析高级方法,包括第 4、5 章,主要介绍多元数据的综合分析和时序数据的模型分析;第三部分讲解大数据基本处理方法,包括第 6、7、8 章,重点介绍大数据分析基础应用、文献计量与科研评价、社会网络分析方法和数据分析编程平台。最后对 Python 的一些编程环境做了进一步介绍。本书内容丰富,图文并茂,可操作性强且便于查阅,主要面向进行数据分析的读者,能有效地帮助读者提高数据处理与分析水平,提升工作效率。本书适合各层次的数据分析用户,既可作为初学者的入门指南,又可作为中高级用户的参考手册,同时也可作为各大中专院校和培训班的数据分析教材。本书具有以下三大优点:(1)使用 Python 科学计算发行版 Anaconda,方便数据分析者使用。IV 读者可从 https:/ 下载安装并直接使用。(2)公开本书自定义函数的源代码,使用者可以深入理解 Python 函数的编程技巧,用这些函数建立自己的开发包;并建立了本书的学习博客(http:/ 的基础版缺少一个面向一般人群的菜单界面,这对那些只想用其进行数据分析的使用者而言是一大困难,本书采用流行的 Python 网络分析平台 Jupyter(https:/jupyter.org),该平台可作为数据分析教学软件使用。书中软件输出的坐标图多数没有标出横、纵坐标的量,目的是与软件界面保持一致。本书在写作过程中得到了广东恒电信息科技股份有限公司的大力支持,该公司将为本书的实战操作提供可靠的实训环境支持,读者可以使用恒华大数据实训管理系统完成本书的实验操作。本书由王斌会、王术共同完成,其中第 15 章由王斌会撰写,第 69 章由王术撰写,王斌会负责全书统稿。由于作者知识和水平有限,书中难免有错误和不足之处,欢迎读者批评指正!作 者 2019 年 1 月于暨南园 V 目 录 第一部分 数据分析基础知识 第 1 章 数据收集与分析软件 2 1.1 数据收集过程 2 1.1.1 数据的类型 2 1.1.2 数据的收集 3 1.1.3 数据的管理 8 1.2 数据分析软件 9 1.2.1 数据分析软件简介 9 1.2.2 Python 语言介绍 10 1.2.3 Python 在线平台 13 1.3 Python 编程基础 18 1.3.1 Python 编程入门 18 1.3.2 Python 数据类型 20 1.3.3 数值分析包 numpy 24 1.3.4 数据分析包 pandas 25 1.3.5 Python 编程运算 34 数据及练习 1 38 第 2 章 数据挖掘的分析基础 41 2.1 数据的描述分析 41 2.1.1 基本统计量 41 2.1.2 基本绘图函数 46 2.2 数据的透视分析 55 2.2.1 一维频数分析 56 2.2.2 二维集聚分析 57 2.2.3 多维透视分析 60 数据及练习 2 62 VI 第 3 章 简单数据的统计分析 64 3.1 随机变量及其分布 64 3.1.1 均匀分布 64 3.1.2 正态分布 65 3.2 随机模拟及其应用 67 3.2.1 随机模拟方法 67 3.2.2 模拟大数定律 68 3.2.3 模拟方法求积分 69 3.3 单变量统计分析模型 70 3.3.1 单变量线性相关模型 71 3.3.2 单变量线性回归模型 73 数据及练习 3 75 第二部分 数据分析高级方法 第 4 章 多元数据的综合分析 78 4.1 多元线性相关与回归 79 4.1.1 多元线性相关 79 4.1.2 多元线性回归模型 81 4.2 综合评价方法 91 4.2.1 综合评价指标体系 91 4.2.2 综合评价分析方法 93 4.3 数据压缩方法 99 4.3.1 主成分分析的基本思想 99 4.3.2 主成分的基本分析 101 4.4 聚类分析方法 105 4.4.1 聚类分析的概念 105 4.4.2 系统聚类方法 108 数据与练习 4 113 第 5 章 时序数据的模型分析 116 5.1 时间序列简介 116 5.1.1 时间序列的概念 116 5.1.2 时间序列的模拟 116 5.1.3 时间序列的读取 118 5.2 时间序列分析模型 119 VII 5.2.1 AR 模型 120 5.2.2 MR 模型 120 5.2.3 ARMA 模型 121 5.2.4 ARIMA 模型 122 5.3 ARMA 模型的构建 124 5.3.1 序列的相关性检验 124 5.3.2 ARMA 模型的建立与检验 127 5.3.3 序列的平稳性检验 131 5.4 股票指数预测模型的构建 133 5.4.1 模型的预处理 134 5.4.2 参数的估计与检验 135 5.4.3 模型的预测 136 数据与练习 5 137 第三部分 大数据基本处理方法 第 6 章 大数据分析基础应用 140 6.1 大数据的概念 140 6.1.1 大数据的含义 140 6.1.2 大数据应用举例 141 6.1.3 大数据分析方法 142 6.2 Python 文本预处理 144 6.2.1 字符串的基本操作 144 6.2.2 字符串查询与替换 146 6.3 网络爬虫及应用 146 6.3.1 网页的基础知识 147 6.3.2 Python 爬虫步骤 148 6.3.3 爬虫方法的应用 149 6.4 数据库技术及应用 154 6.4.1 Python 中数据库的使用 154 6.4.2 数据库的建立与使用 155 数据及练习 6 156 第 7 章 文献计量与科研评价 159 7.1 文献计量研究的框架 159 VIII 7.2 文献数据的获取与分析 161 7.2.1 文献数据的获取 161 7.2.2 文献数据的分析 163 7.3 科研数据的管理与评价 166 7.3.1 科研单位与项目分析 167 7.3.2 科研期刊与作者分析 169 数据及练习 7 171 第 8 章 社会网络分析方法 172 8.1 社会网络的初步印象 172 8.1.1 社会网络分析概念 172 8.1.2 社会网络分析包 174 8.2 社会网络图的构建 174 8.2.1 社会网络数据形式 174 8.2.2 社会网络统计量 177 8.2.3 网络图之知识图谱 180 数据及练习 8 183 第 9 章 数据分析编程平台 185 9.1 Anaconda 科学计算发行包 185 9.1.1 Anaconda 下载与安装 185 9.1.2 Anaconda 启动与运行 186 9.2 Jupyter 编辑平台 188 9.2.1 Jupyter Notebook 188 9.2.2 Jupyter Lab 193 9.2.3 在 Jupyter 中使用 R 语言 196 9.3 Spyder 分析平台 197 9.3.1 Spyder 平台简介 197 9.3.2 Spyder 平台使用 198 附录 A 本书的学习网站 200 附录 B 书中的例子数据 201 附录 C 书中自定义函数 202 参考文献 205 1 第一部分 第一部分 数据分析基础知识 数据分析基础知识 2 第 1 章 数据收集与分析软件 1.1 数据收集过程 1.1.1 数据的类型 数据是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度会得到不同类型的数据。通常按数据的收集途径可将数据进行如下分类:1.1.1.1 按度量尺度分(1)定性数据(也称计数数据,qualitative data)定性数据是对度量事物进行分类的结果。数据表现为类别,用文字来表述,如性别、区域、产品分类等。假如某班学生按性别分为男、女两类,那么性别就构成了一个定性变量。性别:女,男,男,女,男,男,女,男,女,男,女,男,女,女,男,男,女,男,女 具体见 1.1.2 节例 1.1。(2)定量数据(也称计量数据,quantitative data)定量数据是对度量事物的精确测度。结果表现为具体的数值,如身高、体重、家庭收入、成绩等。假如测量某班每个学生的身高,这样身高就构成了一个定量变量。身高:167,171,175,169,154,183,169,166,165,173,164,169,166,175,166,159,169,165 具体见 1.1.2 节例 1.1。这类数据的详细分析