温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
基于
软件
医学
研究
选题
数据
清洗
分析
婷婷
东南大学学报(医学版)(),;():,:,:,():,:,:,():收稿日期 修回日期 基金项目 江苏省卫生健康发展研究中心开放项目()作者简介 张婷婷(),女,江苏新沂人,统计师,医学硕士。:通信作者 郝晓艳:引文格式 张婷婷,李伟,郝晓艳 基于 软件对医学研究中多选题的数据清洗与分析 东南大学学报(医学版),():论著 基于 软件对医学研究中多选题的数据清洗与分析张婷婷,李伟,郝晓艳(南京医科大学附属儿童医院 医务处病案统计室,江苏 南京;南京医科大学附属儿童医院质量管理办公室,江苏 南京)摘要 目的:提供较为简便的多选题数据清洗与统计分析方法。方法:基于 语言“”“”和“”等软件包实现对多选题资料的数据清洗和统计分析。结果:以江苏省高校新生健康素养调查问卷(年)中的多选题作为实例,给出了 软件进行多选题数据清洗、编码转换及具体统计分析的方法。结论:本研究提供的多选题的数据清洗及编码转换方法更加便捷,简化了多选题分析的难度。关键词 语言;多选题;数据清洗中图分类号 文献标志码 文章编号():多项选择题是同一道问题含有两个及两个以上的选项,也称多重应答题。多项选择题的设置常用于流行病学研究中。常见的多选题数据编码方式有二分法编码、分类法编码和原始编码 种。现有文献提及当多选题备选项数目超过 时,转换中使用的语句或软件会发生混乱,给分析带来不便从而限制了研究问卷的设计。目前,基于 软件对多选题进行描述性分析(包括频数分析和列联分析)和假设检验(常用卡方检验)较少,常使用 软件。软件统计编程环境是开源的,统计分析功能较之 更为强大和灵活,且能使用、等软件包。作者主要以某次健康素养调查问卷为例,基于 软件介绍一组多选题原始编码数据转换为二分法编码。材料与方法 数据来源 年江苏省大学一年级学生健康素养调查问卷共包含 题。其中判断题 题,单选题 题,多选题 题(不包含情景题中多选题),情景题 题(含单选题 题、多选题 题);每道多选题均设立 个备选项(、)。调查对象所选答案以字符串形式依次录入 文件中。多选题数据转换在多选题原始编码中,设置多选题为变量,按调查对象的选择顺序连续录入被选中的编码,以“,”分开编码,如,。将多选题的每个备选项对应转换为新变量,。在原始编码变量 中,调查对象所选答案所对应的新变量值记为“”,未选中的值记为“”,即多选题所有备选项均转化成“是”与“否”的二分类问题。统计学处理软件使用与下载:使用 和 。使用 ()函数将原始数据导入 软件,建立数据对象表。主要运用 等软件包进行数据转换和分析,转换多选题编码方式的操作语法更为灵活。多项选择题数据经转换后,即可对新变量进行统计描述和统计推断。结 果 数据预处理在多选题编码转换前,先检查数据框中缺失值信息,并对其进行恰当的处理。简易处理缺失值的办法通常包括缺失值删除、缺失值填补。本数据共有 个缺失数据,对其类别及产生原因进行识别和判断。语句“()”识别缺失数据的模式。使用(,)对缺失数据进行可视化处理。本案例属于随机缺失模式,可以删除含缺失值样本所在的行,“()”即可实现此功能。多选题编码转换本研究以“”题为例进行转换,使得“”题最终转换为二分法编码数据。第一步,生成一组新变量。将“”列分列生成“”“”“”列,调查对象所选选项按顺序依次分入各列,例如 为 的调查对象的选项为“,”,该对象第 个填写答案为“”,则“”的值记为“”,第 个填写的答案为“”,则“”下记为“”,再无其他选项,“”缺失,缺失值记为“”,见图。对应的语法:(,(“”,),)第二步,实现新变量行列互换。创建一个新变量“”,将“”列变量换至新变量“”下;另创建新变量“”,每个 在“”“”的值随之对应入“”变量中,将列数据回归到行中。同时删除第一步“”变量中产生的缺失数据所在的整条记录,最终保图 ()函数对变量“”分列后结果张婷婷,等 基于 软件对医学研究中多选题的数据清洗与分析留每个样本选择的答案详见图。语句为:(,)()第三步,对所选答案赋值为“”。为方便区分,将“”的每个字符串前加上“”,并对变量“”重新赋值为“”,此步骤可实现调查对象所选答案赋值为“”。对“”变量进行分列,变量“”的值随之对应入各列。种答案将按顺序分为 个变量,所选答案下为“”,未选择的答案下记为“”。该步语句为:(“”,),)(,)第四步,填充缺失值。使用()函数对缺失值赋值为“”,最终转换后效果见图。此时,所选答案记为“”,未选答案记为“”,完成原始编码向二分法编码的转换。句法结构:(:),(,(),)至此完成对“”多选题原始编码数据向二分法编码数据的转换。在进行转换前需下载及加载“”“”“”软件包。利用 包的管道函数“”简化过程,管道函数的作用是将左件的值发送给右件的表达式,并作为右件表达式函数的第一个参数,省略中间的赋值步骤,大量减少内存中的对象。原始编码向二分法编码转化过程代码如下(为注释):读取文件 (“:”,“,”):为文件所属路径。安装软件包(“”)(“”)(“”)加载包(“”)(“”)(“”)编码方式转换 (,(“”,:),)(,)图 ()函数对“”列数据回归行数据后的结果东南大学学报(医学版)年 月,()图 ()函数对缺失值重新赋值 ()(“”,),)(,)(:),(,(),)多选题数据初步分析完成编码转化后,使用“()”“()”语句进行描述性分析,结果见表。例样本,共选择了 个答案。被选择的频数最多,占 ();最少,占 ()。可以发现频数差异较大,查看列联系数和卡方检验确定选项独立性。值为 ,列联系数为 。因此选项间具有相关性,可进一步挖掘选项间相关关系。讨 论本研究以江苏省高校新生健康素养调查问卷(年)为例,介绍了基于 软件进行多选题的数据清洗、编码方式转换和初步分析方法。调查问卷中设计多项选择题的目的是为了获取准确、全面的信息。由于其复杂性,难免存在缺失数据,采用本研究所叙述表 的频数分析变 量频 数样本百分数频数百分数 合 计 的多选题编码转换代码前,需对数据中缺失值进行有效处理。本研究选择删除含有缺失数据的样本,是因为经过判断,缺失类型属于完全随机缺失,即使删除也不会造成偏倚。针对缺失数据的处理需要谨慎对待,本研究尚未提出针对缺失数据新的处理办法,这是本研究的缺陷所在,仅依据判断缺失机制及方法的简便性而选择处理手段;若遇到缺失数据较多或经判断不可轻易对其删除,并且删除会造成信息缺失的情况下,可根据选项比例或者选项组合模式进行填补,亦或是采取其他填补方式。但是无论采取何种处理方式,都要保证转换前不包含缺失数据。不同的编码形式和数据转换是为了高效、准确地张婷婷,等 基于 软件对医学研究中多选题的数据清洗与分析分析数据,挖掘更多的信息。本研究采用的软件包解决了多选题数据编码之间的转换问题,与使用基本 函数处理的方法相比,句法结构更简便。此外,先前的研究,中,无论是采用 软件亦或是 软件对多选题编码方式转换中,条件限制较为苛刻,备选项数目不能超过,显示当多选题备选项数目超过 时,使用其他语句或软件会发生混乱,比如“”与“”产生的新变量都会转换成“”;封永昌等使用基本 函数进行转换时,是将“”及“”以上的选项转换成单字母“”“”,替代原始编号,虽然使得超过 个选项的多选题也能被转换为二分法编码,无论是录入方式,还是基本 函数代码都比较复杂,处理难度较大;而本研究代码则无需作特殊转换,录入原始编码时直接输入相应编码,如“”“”等,均以“,”分隔即可,如选择“”“”“”个选项,原始编码输入“,”。此外,在原始编码录入时,原始编码数据需要严格依从小到大的顺序录入,且代码循环复杂程度较高,而本研究中所使用的方法,即使录入时没有按从小到大的顺序输入,对转换过程也没有影响,克服了先前研究的多种复杂问题。综合来看,本研究使用的方法实用性更强、更加简洁,且利用了 个功能强大的软件包,数据操作的运行时间尤其是分组计算的时间更短。在大样本调查中,往往需运行的数据样本量及变量数庞大。样本含量越大时占用内存越多,采用本研究介绍的 软件包可大大提高计算效率。“”“”和“”这 个软件包联合使用有强大的数据清洗能力,在行列互换、计算和字符串的拼接方面的贡献不容小觑。文献中常将各选项作为二分类变量进行统计描述和假设检验,较少有文献研究选项间相互影响。某些选项的特殊组合是否会导致另一个选项不被选择,也是值得探讨的问题。因此,不去挖掘多选题选项间的信息,造成了信息的浪费。有文献提示二分法编码后每个选项可用来构建回归模型、广义线性模型等。本研究不足之处:未能提出多选题二分法编码转后系统的分析思路与步骤,只提出是否应探讨多选题各选项间影响关系的假设,需更深层次地挖掘多选题后续分析方式,提出更加系统且全面的多选题处理方案。参考文献 夏兰芳,孟郁洁,李迎迎,等 多选题数据统计分析方法及 实现 中国卫生统计,():王春枝,王娟 多选题数据深度分析及其在 中的实现 内蒙古财经学院学报(综合版),():董寒青 多选题的统计分析及其 实现 统计与决策,():刘少鹏,华中昌,邓璐璐 和 软件联合使用在处理多选题录入和统计分析中的方法探讨 中国实用护理杂志,():陈超,潘海燕 基于 软件的医学统计学案例教学 以 检验为例 高教学刊,():,():,:王锋,吴秋云,邵继红,等 调查问卷中多选题数据转换的 程序设计 中国卫生统计,():,刘红伟,邓晓伟,段同庆,等 和 软件包在数据操作方面效率的评价 中国卫生统计,():程豪 大数据背景下缺失数据问题及对策 中国统计,():李璐 基于 语言的缺失值填补方法 统计与决策,():,():宋亮,万建洲 缺失数据插补方法的比较研究 统计与决策,():封永昌,刘阿玲,丁梦秋 基于 软件的一组多选题判分与数据编码转换 中国卫生统计,():,():胡跃华,匡翔宇,金承刚,等 复杂抽样 回归分析方法及应用 中国卫生统计,():东南大学学报(医学版)年 月,()