分享
IBM SPSS Statistics Base 19.pdf
下载文档

ID:3631018

大小:4.24MB

页数:302页

格式:PDF

时间:2024-06-26

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
IBM SPSS Statistics Base 19
iIBM SPSS Statistics Base 19Note:Before using this information and the product it supports,read the generalinformation under Notices第 272 页码.This document contains proprietary information of SPSS Inc,an IBM Company.Itis provided under a license agreement and is protected by copyright law.Theinformation contained in this publication does not include any product warranties,and any statements provided in this manual should not be interpreted as such.When you send information to IBM or SPSS,you grant IBM and SPSS a nonexclusiveright to use or distribute the information in any way it believes appropriatewithout incurring any obligation to you.Copyright SPSS Inc.1989,2010.Copyright SPSS Inc.1989,2010.前言前言IBM SPSS Statistics 是一种用于分析数据的综合系统。Base 可选附加模块提供本手册中描述的其他分析方法。此 Base 附加模块必须与 SPSS Statistics Core 系统一起使用,并已完全集成到了该系统中。关于 SPSS Inc.,IBM 下属公司关于 SPSS Inc.,IBM 下属公司SPSS Inc.是一家 IBM 下属公司,它也是全球领先的预测分析软件和解决方案提供商。该公司拥有全面的产品系列,涵盖数据收集、统计量、建模和部署,通过在业务流程中嵌入分析技术,收集人们的态度与看法,预测未来客户交互结果,然后针对这些深入见解采取相应行动。SPSS Inc.解决方案着眼于整合分析技术、IT 基础设施和业务流程,以帮助达成整个企业内相互关联的业务目标。全球各地的众多企业、政府和学术机构客户依靠 SPSS Inc.技术在吸引、留住和发展客户方面取得竞争优势,同时减少欺诈并缓解风险。SPSS Inc.在 2009 年 10 月被 IBM 并购。有关更多信息,请访问http:/。技术支持技术支持我们提供有“技术支持”以维护客户。客户可就 SPSS Inc.产品使用或某一受支持硬件环境的安装帮助寻求技术支持。要获得“技术支持”,请访问 SPSS Inc.网站 http:/,或通过网站http:/ 找到当地办事处。在请求协助时,请准备好您和您组织的 ID 以及支持协议。客户服务客户服务如果对发货或帐户存在任何问题,请联系您当地的办事处,联系方式列在 Web 站点中,网址为 http:/ Inc.提供公开的以及现场的培训讲座。所有讲座都是以实践小组为特色的。讲座将定期在各大城市开展。关于这些讲座的更多信息,请联系您本地的办事处,联系方式列在 Web 站点上,网址为 http:/ SPSS Inc.1989,2010iii附加出版物附加出版物SPSS Statistics:数据分析指南、SPSS Statistics:Statistical Procedures Companion和 SPSS Statistics:Advanced Statistical Procedures Companion(由 Marija Noruis编写,并已由 Prentice Hall 出版)作为建议的补充材料提供。这些出版物涵盖 SPSSStatistics Base 模块、Advanced Statistics 模块和 回归模块中的统计过程。无论您是刚开始从事数据分析工作,还是已准备好使用高级应用程序,这些书籍都将帮助您最有效地利用在 IBM SPSS Statistics 产品中找到的功能。有关其他信息,包括出版物的内容和示例章节,请参阅作者的网站:http:/iv内容内容1代码本11代码本1“码本输出”选项卡.2“码本统计量”选项卡.42频率62频率6频率统计量.7频率图.9频率格式.93描述性103描述性10描述:选项.11DESCRIPTIVES 命令的附加功能.124探索134探索13探索:统计量.14探索:图.15探索:幂转换.16探索:选项.16EXAMINE 命令的附加功能.165交叉表185交叉表18交叉表:层.19交叉表复式条形图.19在表层中显示层变量的交叉表.20交叉表统计量.21v交叉表:单元显示.23交叉表:格式.246摘要256摘要25摘要选项.26摘要统计量.277均值297均值29均值:选项.308OLAP 立方体328OLAP 立方体32OLAP 立方:统计量.33OLAP 立方差.35OLAP 立方:标题.369t 检验379t 检验37独立样本 T 检验.37独立样本 T 检验:定义组.38独立样本 T 检验:选项.39配对样本 T 检验.39配对样本 T 检验:选项.40单样本 T 检验.41单样本 T 检验:选项.42T-TEST 命令的附加功能.4210 单因素方差分析4310 单因素方差分析43单因素 ANOVA:对比.44单因素 ANOVA:两两比较检验.45vi单因素 ANOVA:选项.47ONEWAY 命令的附加功能.4711 GLM 单变量分析4911 GLM 单变量分析49GLM 模型.51构建项.51平方和.52GLM 对比.53对比类型.53GLM 轮廓图.54GLM 两两比较.55GLM:保存.56GLM:选项.58UNIANOVA 命令的附加功能.5912 双变量相关6012 双变量相关60双变量相关选项.62CORRELATIONS 和 NONPAR CORR 命令的附加功能.6213 偏相关6313 偏相关63偏相关:选项.64PARTIAL CORR 命令的附加功能.6414 距离6614 距离66距离:非相似性测量.67距离:相似性测量.68PROXIMITIES 命令的附加功能.69vii15 线性模型7015 线性模型70要获取线性模型.70目标.71基本.72模型选择.73整体.74高级.75模型选项.75模型摘要.76自动数据准备.77预测变量重要性.78按已观测进行预测.79残差.80离群值.81效应.82系数.83估计平均值.84模型构建摘要.8516 线性回归8616 线性回归86线性回归变量选择方法.87线性回归:设置规则.88线性回归:图.89线性回归:保存新变量.90线性回归:统计量.92线性回归:选项.93REGRESSION 命令的附加功能.9417 Ordinal 回归9517 Ordinal 回归95序数回归:选项.96序数回归输出.97序数回归:位置模型.98构建项.99viii序数回归:尺度模型.99构建项.99PLUM 命令的附加功能.10018 曲线估计10118 曲线估计101曲线估计:模型.102曲线估计:保存.10319 部分最小平方回归10419 部分最小平方回归104模型.106选项.10720 最近邻元素分析10820 最近邻元素分析108邻元素.112特征.113分区.114保存.116输出.117选项.118模型视图.119特征空间.120变量重要性.123对等.124最近邻元素距离.124象限图.125特征选择误差日志.126K 选择误差日志.127k 和特征选择误差日志.128分类表.128误差摘要.129ix21 判别分析13021 判别分析130判别分析:定义范围.131判别分析:选择个案.132判别分析:统计量.132判别分析:步进法.133判别分析:分类.134判别分析:保存.135DISCRIMINANT 命令的附加功能.13522 因子分析13722 因子分析137因子分析:选择个案.138因子分析:描述.139因子分析:抽取.140因子分析:旋转.141因子分析:得分.142因子分析:选项.143FACTOR 命令的附加功能.14323 选择聚类过程14424 二阶聚类分析14523 选择聚类过程14424 二阶聚类分析145二阶聚类分析:选项.147二阶聚类分析:输出.149聚类浏览器.150聚类浏览器.150浏览聚类浏览器.158过滤记录.15925 系统聚类分析16025 系统聚类分析160系统聚类分析方法.161系统聚类分析统计量.162x系统聚类分析:图.163系统聚类分析:保存新变量.163CLUSTER 命令语法的其他功能.16426 K 均值聚类分析16526 K 均值聚类分析165K 均值聚类分析有效性.166K 均值聚类分析:迭代.167K 均值聚类分析:保存.167K 均值聚类分析:选项.168QUICK CLUSTER 命令的附加功能.16827 非参数检验16927 非参数检验169单样本非参数检验.169获取单样本非参数检验.170“字段”选项卡.170“设置”选项卡.170独立样本非参数检验.175获取独立样本非参数检验.176“字段”选项卡.177“设置”选项卡.177相关样本非参数检验.180获取相关样本非参数检验.181“字段”选项卡.182“设置”选项卡.182模型视图.186假设摘要.187置信区间摘要.188单样本检验.188相关样本检验.193独立样本检验.200分类字段信息.208连续字段信息.209成对比较.210均一子集.211NPTESTS 命令的附加功能.211Legacy 对话框.211卡方检验.212xi二项式检验.227游程检验.229单样本 Kolmogorov-Smirnov 检验.230两个独立样本检验.232两个关联样本检验.234多个独立样本检验.236多个关联样本检验.238二项式检验.227游程检验.229单样本 Kolmogorov-Smirnov 检验.230两个独立样本检验.232两个关联样本检验.234多个独立样本检验.236多个关联样本检验.23828 多重响应分析24128 多重响应分析241多重响应定义集.241多重响应频率.242多重响应交叉表.244多重响应交叉表:定义范围.245多重响应交叉表:选项.246MULT RESPONSE 命令附加功能.24629 报告结果24729 报告结果247按行汇总.247获取摘要报告:按行汇总.247报告数据列/中断格式.248报告:摘要行/最终摘要行.249报告:中断选项.249报告:选项.250报告:布局.250报告:标题.251按列汇总.252获取摘要报告:列中的摘要.253数据列摘要函数.253总计列的数据列摘要.254报告:列格式.255按列汇总:中断选项.255xii按列汇总:选项.255列摘要的报告布局.256REPORT 命令的附加功能.25630 可靠性分析25730 可靠性分析257可靠性分析统计量.258RELIABILITY 命令的附加功能.26031 Multidimensional Scaling26131 Multidimensional Scaling261多维尺度:数据形状.262多维尺度:创建度量.263多维尺度:模型.264多维尺度:选项.265ALSCAL 命令附加功能.26532 比值统计量26632 比值统计量266比值统计量.26733 ROC 曲线26933 ROC 曲线269ROC 曲线:选项.270附录ANotices272索引275附录ANotices272索引275xiii章1 1代码本代码本码本报告活动数据集中所有或指定变量和多重响应集的字典信息(如变量名称、变量标签、值标签、缺失值)和摘要统计。对于名义和有序变量以及多重响应集,摘要统计包括计数和百分比。对于刻度变量,摘要统计包括均值、标准差和四分位数。注意:码本忽略拆分文件状态。这包括为缺失值的多重插补创建的拆分文件组(在缺失值附加选项中可用)。要获取码本要获取码本E从菜单中选择:分析 报告 代码本E单击“变量”选项卡。图片 1-1“码本”对话框,“变量”选项卡E选择一个或多个变量和/或多重响应集。Copyright SPSS Inc.1989,201012章 1根据需要,您可以:?控制显示的变量信息。?控制显示的统计(或排除所有摘要统计)。?控制变量和多重响应集显示的顺序。?更改源列表中任何变量的测量级别以更改显示的摘要统计。更改测量级别更改测量级别您可以暂时更改变量的测量级别。(您不能更改多重响应集的测量级别。它们总是被视为名义变量。)E右键单击源列表中的变量。E从弹出的上下文菜单中选择测量级别。这将暂时更改测量级别。在实际情况下,这仅对数值变量有用。字符串变量的测量级别被限制为名义或有序,二者在“码本”过程中的处理方式相同。“码本输出”选项卡“码本输出”选项卡“输出”选项卡控制每个变量和多重响应集包括的变量信息、变量和多重响应集的显示顺序以及可选文件信息表的内容。图片 1-2“码本”对话框,“输出”选项卡3代码本变量信息变量信息这控制每个变量显示的字典信息。位置。位置。代表变量在文件顺序中的位置的整数。这对于多重响应集不可用。标签。标签。与变量或多重响应集相关联的描述性标签。类型。类型。基本数据类型。这可以是数值、字符串或多重响应集。格式。格式。变量的显示格式,如 A4、F8.2 或 DATE11。这对于多重响应集不可用。测量级别。测量级别。可能的值是名义、有序、刻度和未知。显示的值是字典中存储的测量级别,不受由更改“变量”选项卡上源变量列表中测量级别所指定的任何临时测量级别覆盖的影响。这对于多重响应集不可用。注意:当测量级别未明确设置时,数值变量的测量级别在第一次数据传输之前可能是“未知”,例如从外部源或新建变量读取的数据。角色。角色。某些对话框支持基于定义的角色预先选择分析变量的功能。值标签。值标签。与特定数据值相关联的描述性标签。?如果在“统计量”选项卡上选择了计数或百分比,则即使您未在此处选择值标签,输出中仍包括定义的值标签。?对于多二分集,“值标签”是集中基本变量的变量标签还是已计算值的标签,这取决于集的定义方式。缺失值。缺失值。用户定义的缺失值。如果在“统计量”选项卡上选择了计数或百分比,则即使您未在此处选择缺失值,输出中仍包括定义的值标签。这对于多重响应集不可用。定制属性。定制属性。用户定义的定制变量属性。对于任何与每个变量相关联的定制变量属性,输出都包括名称和值。这对于多重响应集不可用。保留属性。保留属性。保留系统变量属性。您可以显示系统属性,但是您不得改变这些属性。系统属性名称以美元符号($)开头。不包括名称以揁对于任何与每个变量相关联的系统属性,输出都包括名称和值。这对于多重响应集不可用。文件信息文件信息可选文件信息表可以包括任何以下文件属性:文件名。文件名。IBM SPSS Statistics 数据文件的名称。如果数据集从未以 SPSS Statistics格式保存,那么就没有数据文件名。(如果在“数据编辑器”窗口的标题栏中没有显示文件名,则活动数据集没有文件名。)位置。位置。SPSS Statistics 数据文件的目录(文件夹)位置。如果数据集从未以 SPSSStatistics 格式保存,那么就没有位置。个案数。个案数。活动数据集中的个案个数。这是个案的总数,包括任何由于过滤条件而从摘要统计中排除的个案。标签。标签。这是由FILE LABEL命令定义的文件标签(如有)。文档。文档。数据文件文档文本。权重状态。权重状态。如果采用加权,则显示加权变量的名称。4章 1定制属性。定制属性。用户定义的定制数据文件属性。使用DATAFILE ATTRIBUTE命令定义的数据文件属性。保留属性。保留属性。保留系统数据文件属性。您可以显示系统属性,但是您不得改变这些属性。系统属性名称以美元符号($)开头。不包括名称以揁对于任何系统数据文件属性,输出都包括名称和值。变量显示顺序变量显示顺序可使用以下选项来控制变量和多重响应集的显示顺序。依字母顺序排列。依字母顺序排列。依变量名称的字母顺序。文件。文件。变量在数据集中的显示顺序(变量在数据编辑器中的显示顺序)。在升序方式中,多重响应集最后显示(在所有选定变量之后)。测量级别。测量级别。按测量级别排序。这将创建四个排序组:名义、有序、刻度和未知。多重响应集被视为名义。注意:当测量级别未明确设置时,数值变量的测量级别在第一次数据传输之前可能是“未知”,例如从外部源或新建变量读取的数据。变量列表。变量列表。变量和多重响应集在“变量”选项卡上的选定变量列表中显示的顺序。定制属性名称。定制属性名称。排序顺序选项列表同时还包括任何用户定义的定制变量属性的名称。在升序方式中,没有属性的变量排在顶端,接着是有属性但尚未定义值的变量,然后是已为属性定义值的变量,这些都按值的字母顺序排列。最大类别数最大类别数如果输出包括每个唯一值的值标签、计数或百分比,那么如果值的数量超过指定的值,您可以在表中不显示此信息。缺省情况下,如果变量唯一值的数量超过 200,则不显示此信息。“码本统计量”选项卡“码本统计量”选项卡“统计量”选项卡允许您控制输出中包括的摘要统计量,或不显示整个摘要统计量。5代码本图片 1-3“码本”对话框,“统计量”选项卡计数和百分比计数和百分比对于名义和有序变量、多重响应集以及刻度变量的标签值,可用的统计量是:计数.计数.有变量的每个值(或值范围)的个案的计数或个数。百分比.百分比.具有特定值的个案的百分比。集中趋势和离散集中趋势和离散对于刻度变量,可用的统计量是:均值.均值.集中趋势的测量。算术平均,总和除以个案个数。标准差.标准差.对围绕均值的离差的测量。在正态分布中,68%的个案在均值的一倍标准差范围内,95%的个案在均值的两倍标准差范围内。例如,在正态分布中,如果平均年龄为45,标准差为 10,则 95%的个案将处于 25 到 65 之间。四分位数.四分位数.显示对应于第 25 个、第 50 个和第 75 个百分位的值。注意:您可以在“变量”选项卡上源变量列表中临时更改与变量相关联的测量级别(从而更改该变量显示的摘要统计量)。章2 2频率频率频率过程提供有助于描述多种类型的变量的统计量和图形显示。频率过程是查看数据理想的开始位置。对于频率报告和条形图,可以用升序或降序排列不同的值,也可以按其频率对类别进行排序。当变量具有许多不相同的值时,可提取频率报告。您可以使用频率(缺省值)或百分比标记图表。示例。示例。按行业类型划分的公司客户的分布是什么?从输出中可以了解到客户的 37.5%来自政府机构,24.9%来自公司,28.1%来自学术机构,9.4%来自保健行业。对于连续的定量数据(例如,销售收入),您会了解到平均产品销售额为 3,576 美元,标准差为 1,078 美元。统计量和图。统计量和图。频率计数、百分比、累计百分比、均值、中位数、众数、和、标准差、方差、范围、最小值和最大值、均值标准误、偏度和峰度(两者都带有标准误)、四分位数、用户指定的百分位数、条形图、饼图和直方图。数据。数据。使用数值代码或字符串以对分类变量进行编码(名义或序数级别度量)。假设。假设。特别对于已排序或未排序的类别的变量,表格和百分比可以提供对所有分布中的数据都有用的描述。大多数可选摘要统计量(如均值和标准差)是基于正态理论的,它们适用于对称分布的定量变量。稳健统计量(如中位数、四分位数和百分位数)适合于可能符合或可能不符合正态假设的定量变量。获取频率表获取频率表E从菜单中选择:分析 描述统计 频率.Copyright SPSS Inc.1989,201067频率图片 2-1“频率”主对话框E选择一个或多个分类变量或定量变量。根据需要,您可以:?单击统计量以获得定量变量的描述统计。?单击图表以获得条形图、饼图和直方图。?单击结果显示顺序的格式。频率统计量频率统计量图片 2-2“频率:统计量”对话框8章 2百分位值。百分位值。一个定量变量的值,其将排序过的数据分组,以使某个百分比在上而另外一个百分比在下。四分位数(第 25、50、75 个百分位数)将观察值分为四个大小相等的组。如果您想让组数不等于 4,请选择n 个相等组的割点。您也可指定单个百分位数(例如,第 95 个百分点,有 95%的观察值大于该值)。集中趋势。集中趋势。描述分布位置的统计量,包括均值、中位数、众数和所有值的总和。?均值.均值.集中趋势的测量。算术平均,总和除以个案个数。?中位数.中位数.第 50 个百分位,大于该值和小于该值的个案数各占一半。如果个案个数为偶数,则中位数是个案在以升序或降序排列的情况下最中间的两个个案的平均。中位数是集中趋势的测量,但对于远离中心的值不敏感(这与均值不同,均值容易受到少数多个非常大或非常小的值的影响)。?众数.众数.最频繁出现的值。如果出现频率最高的值不止一个,则每一个都是一个众数。“频率”过程仅报告此类多个众数中最小的那个。?总和.总和.所有带有非缺失值的个案的值的合计或总计。离散程度。离散程度。测量数据中变异和展开的统计量,包括标准差、方差、范围、最小值、最大值和均值标准误。?标准差.标准差.对围绕均值的离差的测量。在正态分布中,68%的个案在均值的一倍标准差范围内,95%的个案在均值的两倍标准差范围内。例如,在正态分布中,如果平均年龄为 45,标准差为 10,则 95%的个案将处于 25 到 65 之间。?方差.方差.对围绕均值的离差的测量,值等于与均值的差的平方和除以个案数减一。度量方差的单位是变量本身的单位的平方。?全距.全距.数值变量最大值和最小值之间的差;最大值减去最小值。?最小值.最小值.数值变量的最小值。?最大值.最大值.数值变量的最大值。?均值的标准误.均值的标准误.取自同一分布的样本与样本之间的均值之差的测量。它可以用来粗略地将观察到的均值与假设值进行比较(即,如果差与标准误的比值小于-2 或大于+2,则可以断定两个值不同)。分布。分布。偏度和峰度是描述分布形状和对称性的统计量。这些统计量与其标准误一起显示。?偏度.偏度.分布的不对称性度量。正态分布是对称的,偏度值为 0。具有显著正偏度值的分布有很长的右尾。具有显著的负偏度的分布有很长的左尾。作为一个指导,当偏度值超过标准误的两倍时,则认为不具有对称性。?峰度.峰度.观察值聚集在中点周围的程度的测量。对于正态分布,峰度统计量的值为 0。正峰度值表示相对于正态分布,观察值在分布中心的聚集更多,同时尾部更薄,直到分布极值。在这一点,leptokurtic 分布的尾部比正态分布的尾部要厚。负峰度值表示相对于正态分布,观察值聚集得少并且尾部较厚,直到分布极值。在这一点,platykurtic 分布的尾部比正态分布的尾部要薄。值是组中点。值是组中点。如果您的数据中的值是组中点(例如,所有年龄在 30 多岁的人都被编码为35),则选择此选项以估计原始未分组的数据的中位数和百分位数。9频率频率图频率图图片 2-3“频率:图表”对话框图表类型。图表类型。饼图显示各部分对整体的贡献。饼图的每个分区对应于由单个分组变量定义的组。条形图将不同值或不同类别的计数作为单独的条显示,使您可以直观地比较各个类别。直方图也有条,但它们沿着相等的区间刻度进行绘制。每个条的高度是定量变量在该区间内的值的计数。直方图显示分布的形状、中心和分布。叠加在直方图上的正态曲线有助于您判断数据是否为正态分布。图表值。图表值。对于条形图,可以按频率计数或百分比标记刻度轴。频率格式频率格式图片 2-4“频率格式”对话框排序方式。排序方式。可根据数据中的实际值或根据这些值的计数(出现的频率)以升序或降序排列频率表。但是,如果您请求直方图或百分位数,则频率假定变量是定量数据并以升序显示其值。多个变量。多个变量。如果您生成多个变量的统计表,您可在单个表中显示所有变量(比较变量),或显示每个变量的独立统计量表(按变量组织输出)。排除超过 n 个类别的表。排除超过 n 个类别的表。此选项防止显示具有超过指定数目的值的表。章3 3描述性描述性“描述”过程为单个表中的若干变量显示单变量摘要统计量,并计算标准化值(z 得分)。变量可以按其均值(升序或降序)大小、按字母顺序或按您选择变量的顺序(缺省值)进行排序。当 z 得分被保存时,它们将被添加到数据编辑器的数据中并可为图表、数据列表和分析所用。如果变量以不同的单位(例如,人均国内生产总值和受教育人口百分比)记录的,z 得分转换会将变量置于更易于直观比较的常用标度中。示例。示例。如果您的数据中每个个案都包含数月中每天采集的每个销售人员的日销售总额(例如,Bob、Kim、Brian 各有一个条目),则“描述”过程可以计算每个职员的平均日销售额,并从高到低排列结果。统计量。统计量。样本大小、均值、最小值、最大值、标准差、方差、范围、合计、均值标准误、峰度和偏度及两者的标准误。数据。数据。以图形方式显示数值变量中的记录错误、离群值和分布异常之后使用这些数值变量。“描述”过程对大文件(数千个案)特别有效。假设。假设。大多数可用统计量(包括 z 得分)都基于正态理论,并适合于对称分布的定量变量(定距或者定比测量级别)。避免类别未排序或偏斜分布的变量。z 得分的分布与原数据具有相同的形状,因此,计算 z 得分并不是排除问题数据的方法。获取描述统计获取描述统计E从菜单中选择:分析 描述统计 描述.图片 3-1“描述”对话框 Copyright SPSS Inc.1989,20101011描述性E选择一个或多个变量。根据需要,您可以:?选择将标准化得分另存为变量以将 z 得分保存为新变量。?单击选项选择可选统计量和显示顺序。描述:选项描述:选项图片 3-2“描述:选项”对话框均值与总和。均值与总和。缺省情况下显示均值(或算术平均数)。离散程度。离散程度。测量数据中的分布或变动的统计量包括标准差、方差、范围、最小值、最大值和均值标准误。?标准差(T).标准差(T).对围绕均值的离差的测量。在正态分布中,68%的个案在均值的一倍标准差范围内,95%的个案在均值的两倍标准差范围内。例如,在正态分布中,如果平均年龄为 45,标准差为 10,则 95%的个案将处于 25 到 65 之间。?方差.方差.对围绕均值的离差的测量,值等于与均值的差的平方和除以个案数减一。度量方差的单位是变量本身的单位的平方。?全距.全距.数值变量最大值和最小值之间的差;最大值减去最小值。?最小值.最小值.数值变量的最小值。?最大值.最大值.数值变量的最大值。?均值的标准误(E).均值的标准误(E).取自同一分布的样本与样本之间的均值之差的测量。它可以用来粗略地将观察到的均值与假设值进行比较(即,如果差与标准误的比值小于-2 或大于+2,则可以断定两个值不同)。分布。分布。峰度和偏度是描绘分布形状和对称情况的统计量。这些统计量与其标准误一起显示。12章 3?峰度.峰度.观察值聚集在中点周围的程度的测量。对于正态分布,峰度统计量的值为 0。正峰度值表示相对于正态分布,观察值在分布中心的聚集更多,同时尾部更薄,直到分布极值。在这一点,leptokurtic 分布的尾部比正态分布的尾部要厚。负峰度值表示相对于正态分布,观察值聚集得少并且尾部较厚,直到分布极值。在这一点,platykurtic 分布的尾部比正态分布的尾部要薄。?偏度.偏度.分布的不对称性度量。正态分布是对称的,偏度值为 0。具有显著正偏度值的分布有很长的右尾。具有显著的负偏度的分布有很长的左尾。作为一个指导,当偏度值超过标准误的两倍时,则认为不具有对称性。显示顺序。显示顺序。缺省情况下,将按您选择变量的顺序显示变量。(可选)您可以按字母顺序升序或降序显示变量。DESCRIPTIVES 命令的附加功能DESCRIPTIVES 命令的附加功能使用命令语法语言还可以:?保存某些变量而不是所有变量的标准化得分(z 得分)(使用VARIABLES子命令)。?指定包含标准化得分的新变量的名称(使用VARIABLES子命令)。?从分析中排除任意变量含缺失值的个案(使用MISSING子命令)。?按照任何统计量的值,而不仅是均值对显示中的变量进行排序(使用SORT子命令)。请参见命令语法参考以获取完整的语法信息。章4 4探索探索“探索”过程既可以为所有个案也可以分别为个案组生成摘要统计量和图形显示。使用“探索”过程有很多原因:数据筛选、离群值识别、描述、假设检验以及描述子总体(个案组)之间差异的特征。通过数据筛选可以得知您具有异常值、极值、数据中的缺口或其他特性。探索数据可以帮助确定您正考虑用于数据分析的统计方法是否合适。如果该方法要求数据呈正态分布,您可能通过探索得知需要进行转换数据。或者,您可能认为需要进行非参数检验。示例。示例。看一下老鼠在四种不同强化时制下的迷宫学习时间的分布。对于四个组中的每一个,可以发现时间是否近似呈正态分布,以及四个方差是否相等。您也可以标识具有 5 个最长时间和 5 个最短时间的个案。箱图和茎叶图以图形方式汇总每个组的学习时间的分布。统计量和图。统计量和图。均值、中位数、5%切尾均值、标准误、方差、标准差、最小值、最大值、范围、内距、偏度和峰度及它们的标准误、均值的置信区间(和指定的置信度)、百分位、Huber 的 M 估计、Andrews 波估计、Hampel 的重新下降 M 估计和 Tukey 的双权重估计、五个最大值和五个最小值、带用于检验正态性的 Lilliefors 显著性水平的Kolmogorov-Smirnov 统计量和 Shapiro-Wilk 统计量。箱图、茎叶图、直方图、正态图、带 Levene 检验和转换的分布-水平图。数据。数据。“探索”过程可用于定量变量(定距或者定比水平度量)。因子变量(用于将数据分为个案组)应具有合理数量的不相同的值(类别)。这些值可以是短字符串或数值。用于在箱图中标记离群值的个案标签变量可以是短字符串、长字符串(前 15个字节)或数值。假设。假设。数据不必呈对称或正态分布。探索数据探索数据E从菜单中选择:分析 描述统计 探索.Copyright SPSS Inc.1989,20101314章 4图片 4-1“探索”对话框E选择一个或多个因变量。根据需要,您可以:?选择一个或多个因子变量,其值将定义个案组。?选择标识变量用于标记个案。?单击统计量以获得稳健估计、离群值、百分位和频率表。?单击图以获得直方图、正态概率图和检验以及带 Levene 统计量的分布-水平图。?单击选项以处理缺失值。探索:统计量探索:统计量图片 4-2“探索:统计量”对话框描述性。描述性。缺省情况下显示集中趋势度量和离差测量。集中趋势的测量表示分布的位置;包括均值、中位数、5%切尾均值。离差测量显示值的不相似性;包括标准误、方差、标准差、最小值、最大值、范围、内距。描述统计还包括分布形状的测量;偏度和峰度与它们的误差一起显示。还显示均值的 95%水平置信区间;您可指定其他置信水平。15探索M 估计量。M 估计量。样本均值和中位数的稳健替代值,用于估计位置。计算出的估计应用到个案的权重不同。显示 Huber 的 M 估计、Andrews 波估计、Hampel 的重新下降 M 估计和Tukey 的双权重估计。离群值。离群值。显示五个最大值和五个最小值(带个案标签)。百分位数。百分位数。显示第 5 个、第 10 个、第 25 个、第 50 个、第 75 个、第 90 个和第 95 个百分位的值。探索:图探索:图图片 4-3“探索:图”对话框箱图。箱图。当您具有一个或多个因变量时,这些选项控制箱图的显示。按因子水平分组为每个因变量生成单独的显示。在一个显示中,将为因子变量定义的每个组显示箱图。不分组为因子变量定义的每个组生成单独的显示。在一个显示中,为每个因变量并排显示箱图。当不同的变量代表在不同的时间度量的同一个特征时,此显示尤其有用。描述性。描述性。使用“描述”组可以选择茎叶图和直方图。带检验的正态图。带检验的正态图。显示正态概率和反趋势正态概率图。显示带用于检验正态性的Lilliefors 显著性水平的 Kolmogorov-Smirnov 统计量。如果指定的是非整数权重,则在加权样本大小位于 3 和 50 之间时,计算 Shapiro-Wilk 统计量。对于无权重或整数权重,在加权样本大小位于 3 和 5,000 之间时,计算该统计量。带 Levene 检验的分布-水平图。带 Levene 检验的分布-水平图。控制分布-水平图的数据转换。对于所有分布-水平图,显示回归线的斜率和 Levene 的稳健的方差齐性检验。如果选择转换,则 Levene 检验基于转换后的数据。如果未选择因子变量,则不生成分布-水平图。幂估计针对所有单元的中位数的自然对数以及幂转换的估计值生成内距的自然对数图,以在各单元中得到相等的方差。分布-水平图协助确定稳定(使之更相等)组之间方差所需的转换的幂。使用已变换可以选择幂替代值之一(可能按幂估计中的推荐),并生成转换数据图。绘制转换数据的内距和中位数。未变换生成原始数据的图。这等于幂为 1 的转换。16章 4探索:幂转换探索:幂转换这些是分布-水平图的幂转换。要转换数据,您必须选择转换的幂。您可以选择以下选项之一:?自然对数。自然对数。自然对数转换。这是缺省值。?1/平方根。1/平方根。对于每个数据值,计算平方根的倒数。?倒数。倒数。计算每个数据值的倒数。?平方根。平方根。计算每个数据值的平方根。?平方。平方。每个数据值的平方。?立方。立方。每个数据值的立方。探索:选项探索:选项图片 4-4“探索:选项”对话框缺失值。缺失值。控制对缺失值的处理。?按列表排除个案。按列表排除个案。从所有分析中排除任何因变量或因子变量具有缺失值的个案。这是缺省值。?按对排除个案。按对排除个案。在该组的分析中包含组(单元)中变量不具有缺失值的个案。该个案可能在其他组中使用的变量中有缺失值。?报告值。报告值。因子变量的缺失值被视为单独的类别。为此附加类别生成所有输出。频率表包含缺失值的类别。因子变量的缺失值包含在内,但被标记为缺失。EXAMINE 命令的附加功能EXAMINE 命令的附加功能“探索”过程使用EXAMINE命令语法。使用命令语法语言还可以:?除由因子变量定义(用TOTAL子命令)的组的输出和图之外,还请求合计输出和图。?指定一组箱图的常用尺度(用SCALE子命令)。?指定因子变量的交互作用(用VARIABLES子命令)。?指定缺省值以外的百分位(用PERCENTILES子命令)。?根据五种方法中的任意一种计算百分位(用PERCENTILES子命令)。?指定分布-水平图的任意幂转换(用PLOT子命令)。17探索?指定要显示的极值的数量(用STATISTICS子命令)。?指定位置的 M 估计和稳健估计的参数(用MESTIMATORS子命令)。请参见命令语法参考以获取完整的语法信息。章5 5交叉表交叉表交叉表过程形成二阶和多阶表,并提供了各种二阶表关联检验和度量。表的结构以及类别是否排序决定了要使用的检验或度量。仅对二阶表计算交叉表关联统计量和度量。如果指定一行、一列和一个层因子(控制变量),交叉表过程将为层因子(或两个或更多控制变量的值组合)的每个值形成一个关联统计量和量度面板。例如,如果性别是一个已婚(是、否)与生活(生活充满激情、循规蹈矩或索然无味)相对照的表的层因子,则女性的二阶表结果将与男性的二阶表结果分开计算,并打印成互相接续的面板格式。示例。示例。在进行服务(例如:培训和咨询)销售时,小公司的客户与来自较大公司的客户相比,是否可能更具盈利性?您可能从交叉制表中发现,大多数小公司(员工少于 50

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开