温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
语言
统计分析
汤银才
R语言与统计分析汤 银 才 主编高等教育出版社二八年五月内容介绍本书以数据的常用统计分析方法为基础,在简明扼要地阐述统计学基本概念、基本思想与基本方法的基础上,讲述与之相对应的R函数的实现,并通过具体的例子说明统计问题求解的过程.本书注重思想性、实用性和可操作性.在内容的安排上不仅包含了基础统计分析中的探索性数据分析、参数的估计与假设检验,还包括的非参数统计分析的常用方法、多元统计分析方法及贝叶斯统计分析方法.每一部分都通过具体例子重点讲述解决问题的思想、方法和在R中的实现过程.通过本书读者不仅可以快速学会R的基本原理与核心内容,而且根据提供的例子与相应的R程序学会解决问题的统计计算方法与基本的编程技术,为解决更为复杂的统计问题奠定扎实的基础.本书可作为各专业本科生、研究生数理统计或应用统计课程的基础教材或实验教材,也可作为从事数据统计分析研究人员、工程技术人员的工具书或参考读物.?I?前言统计学的任务是研究有关收集、整理、分析数据,从而对所考察的问题作出一定的结论的方法与理论.作为一门科学,统计学有其坚实的理论基础,研究统计学方法的理论基础问题的那一部分,构成了所谓数理统计学的内容。其次,统计学就其本质来讲,是一门实用性很强的科学,它在人类活动的各个领域有着广泛的应用。因此数理统计的理论与方法应该与实际相结合,解决社会、经济、工农业生产、生物制药、航空航天、质量管理、环境资源等领域中的各种问题。最后,统计学又是一门技术性很强的科学,由于所研究问题越来越复杂、变量之间关联性越越强、数据的规模越来越大,使得原有的计算方法无法实现.现在,随着计算机的不断发展与普及,特别是近20年来统计计算的突破性进展及统计软件的不断完善和成熟,使得解决这些问题不仅成为可能,而且越来越容易、快速.目前许多大学几乎所有的理工科,甚至文科的许多专业都开设了数理统计或应用统计之类的课程,有的还编写了相应的教材,这是令人可喜的.这些课程与教材的共同特点是以较大的篇幅介绍数理统计的理论、方法与实际背景,并配有一定数量的例子和习题.部分学校还为有统计专业和应用数学专业的学生开设SAS或Matlab统计软件,为经济统计专业的学生开设SPSS或EViews统计软件,但这还远远不够.作者长期从事概率论与数理统计、统计计算及统计软件的教学工作,我们发现目前的统计教学普遍存在的问题有:一、关于教学内容:在有限的课时下,对于非统计专业的学生采用统计专业学生的教学方式,过多强调理论的重要性,从而忽视了统计思想和数据处理能力的培养;有的因为仅用一学期(54课时或更少)讲授概率论与数理统计,面面俱到的概率论教学使学生无法学到诸如回归分析与方差分析的重要内容.二、关于软件教学:由于没有软件支持,使用传统的教学方法和教材,无论是老师讲解例题,还是学生完成习题都要花费大量的时间进行手工计算,且错误率高.使用软件可使数据分析更具?II?第零章内容介绍直观性、灵活性和可重复性,可起到举一反三的作用,提高学生的学习兴趣和动手(操作或编程)能力.三、关于统计教学与软件教学是否分开:统计教学与软件教学分开教学会产生一定的重复性,从而浪费有限教学课时,降低学习的效率.分开的教学会使大部分非统计专业的学生不能得到统计软件操作和数据分析能力的培养.有了统计软件,可大大增加教学的信息量、节省时间用于培养学生统计软件的上机操作能力;有了统计软件,使得大规模或海量数据分析和精确计算成为可能,也使教材中的许多附表(如常用分布的分位数表)失去其必要性.四、关于R软件:本书之所以采用R软件,主要原因是其强大的数据的图形展示和统计分析功能、免费使用和更新及大量可随时加载的有针对性的软件包.而SAS、Matlab、SPSS、EViews却都是收费软件,与R功能几乎相同的S-PLUS也是收费的.R高效的代码、简洁的输出和强大的帮助系统使统计软件辅助的统计教学成为可能.基于R开发的菜单式驱动的图形界面工具RCommander和PMG(见附录B)使得基础统计分析像SPSS一样容易实现.本书介绍了R的基本功能、常用的数据处理与分析方法及它们在R中的实现.全书共分十一章及三个附录:第一章,R 介绍.介绍了R软件的功能与安装.第二章,R的基本原理与核心.简明扼要地介绍了R软件的使用方法,主要侧重于不同类型的数据的操作与函数的使用.第三章,概率与分布.介绍了常用的离散与连续型分布及R中有关的四类函数:分布函数、概率函数、分位数函数和随机数生存函数.第四章,探索性数据分析.介绍了单组和多组数据中特征量的提取方法及数据的图形展示方法.第五章,参数估计.主要介绍了单总体与两总体正态及二项分布参数的点估计与区间估计.第六章,参数的假设检验.主要介绍了单总体与两总体正态及二项分布参数的假设检验.第七章,非参数的假设检验.主要介绍了常用的几个非参数检验方法.第八章,方差分析.主要介绍了多组数据比较的单因子与双因子方差分析及协方差分析方法.第九章,回归分析与相关分析.介绍了随机变量之间关系的度量与回归分析及诊断方法.第十章,多元统计分析介绍.介绍了多元分析中常用的主成分分析、因子分析、判别分析、聚类分析、典型相关分析及对应分析方法.第十一章,贝叶斯统计分析.介绍了贝叶斯分析中单参数与多参数模型、分层模型及回归模型的分析方法.最后是附录,附录B介绍了基于R开发的基础统计分析的菜单式工具R Commander和PMG,附录C介绍了R的3个编程环境:RWinEdt、Tinn-R及SciViews-R.全书在所有程序都在R的2.6.0版本上调试通过,原则上在其它版本上也可以运行.本书的特点是:注重统计思想、实用性和可操作性.我们在内容的设计上尽可能简化统计理论与方法的推导过程,对于主要的统计知识都通过一个具体例子展开、讲清要解决问题的思想、方法和具体的实现过程.所有方法的实现都有相应的R函数的调用格式,而例子讲解的R程序都全部嵌入在正文中,便于读者举一反三,解答习题或进行其它类似的数据分析.本书可作为各专业本科生、研究生数理统计或应用统计课程的基础教材或实验教材,也可作为从事数据统计分析研究人员、工程技术人员的工具书或参考读物.本书整个教材的教学安排可考虑以1:3的比例安排上机时间.具体教学内容可根据需要进行取舍,具体可参考下表的安排课时:教学内容选取章节课时安排R语言入门第一章,第二章,附录B12探索性数据分析第三章,第四章12数据统计分析第五章,第六章,第八章,第九章24第七章8选讲内容第十章8第十一章8本书编写过程中,参考了大量的资料文献.得到了华东师范大学金融与统计学院全体老师,特别是终生教授茆诗松老师的支持.我的学生巍晓玲参与了本书第四和第五章初稿的编写工作,徐安察参与了本书第六和第七章初稿的编写工作,于巧丽参与了本书第八和第九章初稿的编写工作,岳昳婕参与了本书第十一章初稿的编写工作,上海师范大学的朱杰老师参与了本书第十章的编写工作和全书的校对工作.在全书的编写过程中,得到了高等教育出版社领导和研究生教育与学术著作分社王丽萍女士的关心和帮助,在此一并提示感谢.由于编者水平有限,书中一定存在不足甚至错误之处,欢迎读者不吝指正.作者2008 年 5 月?IV?目录目录内容介绍II前言I第一章R介绍11.1 S语言与R.11.2 R的特点.21.3 R的资源.31.4 R的安装与运行.31.4.1R软件的安装、启动与关闭.31.4.2R程序包的安装与使用.4第一章习题.6第二章R的基本原理与核心82.1 R的基本原理.82.2 R的在线帮助.102.3 一个简短的R会话.132.4 R的数据结构.192.4.1R的对象与属性.192.4.2浏览对象的信息.22目录?V?2.4.3向量的建立.242.4.4数组与矩阵的建立.342.4.5数据框(data frame)的建立.422.4.6列表(list)的建立.482.4.7时间序列(ts)的建立.492.5 数据的存储与读取.512.5.1数据的存储.512.5.2数据的读取.522.6 R 的图形功能.572.6.1绘图函数.582.6.2低级绘图命令.602.6.3绘图参数.622.6.4一个实例.642.7 R 编程.722.7.1循环和向量化.732.7.2用R写程序.742.7.3编写你自己的函数.752.7.4养成良好的编程习惯.78第二章习题.79第三章概率与分布813.1 随机抽样.813.2 排列组合与概率的计算.823.3 概率分布.833.3.1离散分布的分布律.833.3.2连续分布的密度函数.85?VI?目录3.4 R中内嵌的分布.913.5 应用:中心极限定理.933.5.1中心极限定理.933.5.2渐近正态性的图形检验.933.5.3举例.95第三章习题.99第四章探索性数据分析1014.1 常用分布的概率函数图.1014.2 直方图与密度函数的估计.1104.2.1直方图.1104.2.2核密度估计.1104.3 单组数据的描述性统计分析.1124.3.1单组数据的图形描述.1124.3.2单组数据的描述性统计.1174.4 多组数据的描述性统计分析.1204.4.1两组数据的图形概括.1204.4.2多组数据的图形描述.1264.4.3多组数据的描述性统计.1294.4.4分组数据的图形概括.1334.5 分类数据的描述性统计分析.1404.5.1列联表的制作.1404.5.2列联表的图形描述.144第四章习题.147第五章参数估计1505.1 矩法估计和极大似然估计.150目录?VII?5.1.1矩法估计.1505.1.2极大似然估计.1535.2 单正态总体参数的区间估计.1565.2.1均值的区间估计.1565.2.2方差2的区间估计.1615.3 两正态总体参数的区间估计.1625.3.1均值差1?2的置信区间.1625.3.2两方差比21?22的置信区间.1665.4 单总体比率p的区间估计.1685.5 两总体比率差p1?p2的区间估计.1715.6 样本容量的确定.1735.6.1估计正态总体均值时样本容量的确定.1735.6.2估计比例p时样本容量的确定.176第四章习题.177第六章参数的假设检验1796.1 假设检验与检验的p值.1796.1.1假设检验的概念与步骤.1796.1.2检验的p值.1826.2 单正态总体参数的检验.1826.2.1均值的假设检验.1826.2.2方差2的检验:2检验.1866.3 两正态总体参数的检验.1876.3.1均值的比较:t检验.1876.3.2方差的比较:F检验.1896.4 成对数据的t检验.190?VIII?目录6.5 单样本比率的检验.1936.5.1比率p的精确检验.1936.5.2比率p的近似检验.1946.6 两样本比率的检验.196第六章习题.199第七章非参数的假设检验2007.1 单总体位置参数的检验.2007.1.1中位数的符号检验.2017.1.2Wilcoxon符号秩检验.2037.2 分布的一致性检验:2检验.2057.3 两总体的比较与检验.2097.3.12独立性检验.2097.3.2Fisher精确检验.2117.3.3Wilcoxon秩和检验法和Mann-Whitney U检验.2137.3.4Mood检验.2157.4 多总体的比较与检验.2187.4.1位置参数的Kruskal-Wallis秩和检验.2187.4.2尺度参数的Ansari-Bradley检验.2207.4.3尺度参数的Fligner-Killeen检验.221第七章习题.223第八章方差分析2268.1 单因子方差分析.2268.1.1数学模型.2268.1.2均值的多重比较.2298.1.3同时置信区间:Tukey法.233目录?IX?8.1.4方差齐性检验.2368.2 双因子方差分析.2398.2.1无交互作用的方差分析.2398.2.2有交互作用的方差分析.2438.3 协方差分析.248第八章习题.254第九章回归分析与相关分析2609.1 相关性及其度量.2609.