分享
2022年医学专题—流行病学数据统计分析策略.ppt
下载文档

ID:2511114

大小:2.51MB

页数:41页

格式:PPT

时间:2023-06-27

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
2022 医学 专题 流行病学 数据 统计分析 策略
流行病学数据(shj)统计分析策略,中南大学湘雅公共卫生学院(xuyun)谭红专 教授,第一页,共四十一页。,2023/6/27,2,主要(zhyo)内容,概述专题研究的数据分析常规收集(shuj)的流行病学数据的分析,第二页,共四十一页。,2023/6/27,3,第一节 概述(i sh),流行病学研究(ynji)与流行病学数据流行病学数据分析的目的流行病学数据中的变量分类流行病学数据分析的内容,第三页,共四十一页。,2023/6/27,4,一、流行病学研究(ynji)与流行病学数据,狭义的流行病学数据(epidemiological data)指任何来自针对明确研究目的而开展特定流行病学研究所收集的资料。广义的流行病学数据还包括出于其他目的和用途而收集的、可以用来(yn li)定量地探索疾病健康或医疗卫生服务其他问题的资料。即一切可为流行病学所用的数据。目前的临床大数据是个宝库。,第四页,共四十一页。,2023/6/27,5,二、流行病学(li xn bn xu)数据分析的目的,流行病学数据分析是针对明确研究问题、具有明确目的、采用特定方法(fngf)对流行病学数据进行统计整理、统计描述、统计推断和总结。流行病学研究的问题涉及疾病分布、病因与危险因素、诊断、预防和治疗效果评价等。数据分析的根本是正确地回答有意义的问题,而不是统计学数字游戏。,第五页,共四十一页。,2023/6/27,6,流行病学数据分析的目的估计有关统计学指标,如相对危险度;估计该统计学指标的可信区间;控制可能的混杂因素;分析剂量反应关系;分析可能的效应修饰因子;分析可能存在(cnzi)的偏倚。,第六页,共四十一页。,2023/6/27,7,三、流行病学(li xn bn xu)数据中的变量分类,典型的流行病学研究中变量可根据其用途分为五类:暴露变量:因,自变量,可以有多个结局变量:果,因变量,是数据分析的核心混杂因素:需要控制效应(xioyng)修饰因素:需要描述其他变量:,第七页,共四十一页。,2023/6/27,8,按统计学分类(fn li),定性:二分类和多分类(无序多分类)定量:在多数流行病学研究中被转化为分类变量半定量(分级,有序多分类)同一个研究中,因变量和自变量的关系应该(ynggi)是固定的、不能互换。但在不同的研究中,一个变量在这个研究中可能是果,在另一个研究中也可能是因。例如,高血压可能是遗传的结果,血压也可能是心脑血管事件的原因。,第八页,共四十一页。,2023/6/27,9,四、流行病学(li xn bn xu)数据分析的内容,描述研究对象的数量变动;变量分类和数据整理;描述和比较组间基线资料;估计结局事件发生频率;估计效应大小及其可信区间;识别和控制混杂;识别和测量效应修饰作用(zuyng);识别和测量剂量反应关系;其他分析。,第九页,共四十一页。,2023/6/27,10,第二节 流行病学(li xn bn xu)专题研究的数据分析,一、描述研究对象的数量变动 数据分析的第一步须对研究对象数量随时间的变动进行描述,这是判断选择偏倚是否存在及其大小的主要依据;对选样、抽样和筛选(shixun)都应交代原则和方法;对退出和失访都应记录数量和原因。,第十页,共四十一页。,2023/6/27,11,第十一页,共四十一页。,2023/6/27,12,二、流行病学变量(binling)的分类与数据转换,转换目的:习惯、专业考量、模型限制转换类型:定量转定性或分级,定性转定量转换常用原则:借鉴既往(j wn)同类研究的分级方法;按照通用的分级标准,如年龄可按国际通用的婴儿、幼儿、青少年、青年、中年、老年的年龄切点来分级;把研究人群分成每组人数均等的35组等。,第十二页,共四十一页。,2023/6/27,13,三、描述(mio sh)基线资料,基线资料就是有关研究对象代表性和混杂(hnz)因素的信息资料。基线资料描述的基本目的:一是交待研究对象的特征,提供其代表人群的信息,据此判断结果的外推人群和外推性;二是评估暴露组和非暴露组之间混杂因素的可比性,检查存在混杂的可能性。描述基线资料时,通常在总体描述基础上,对暴露组和非暴露组还要分别进行描述。,第十三页,共四十一页。,2023/6/27,14,四、结局事件发生(fshng)的频率,一般要求用率表示,如发病率。发病率由三个因素决定:观察时间、可能发病的总人数和实际发病人数。一般情况下,发病率的分子是在一定时间内发病的总人数。分母则因研究设计不同而异。当发病率较低,且每个人的观察时间长短基本一致,可用研究开始时该组人数作分母计算发病率,叫做累积发病率(cumulative incidence)。当结局事件发生率较高(如晚期癌症治疗试验中的死亡)或每个人的观察时间相差(xin ch)较大时,这时可用人时数(如人年数,person-years)做分母计算发病率,称作人时发病率(person-time incidence rate或发病密度(incidence density),,第十四页,共四十一页。,2023/6/27,15,五、估计(gj)效应值,效应就是暴露或治疗对结局(jij)作用或影响的大小,多用暴露组与非暴露组或治疗组与对照组间发病率的差别来表达。,第十五页,共四十一页。,2023/6/27,16,第十六页,共四十一页。,2023/6/27,17,六、估计效应(xioyng)可信区间,由于随机误差,各效应指标的点估计不能代表效应的真实值,可信区间(Confidence Interval,CI)可用来表达由随机误差引起的效应估计值的不确定性。实践中一般采用(ciyng)95%可信区间,可以将其理解为真实效应值有95%的可能在这个区间之内。若效应指标的点估计值为X,标准误为SE,该效应指标的95可信区间:95CI X1.96SE,其中,(X1.96SE)为其下限,(X1.96SE)为其上限。,第十七页,共四十一页。,2023/6/27,18,七、识别(shbi)和控制混杂,混杂是由于同一个研究(ynji)里暴露对某疾病的作用与其他病因的作用交织在一起导致暴露效应估计上的误差。混杂必须同时具备三个条件:其一,是疾病确定的病因或危险因素;其二,不是暴露和疾病间的中间因素;其三,可疑的混杂因素在暴露组和非暴露组的分布不均衡。如性别可能就是吸烟与肺癌关系中的一个混杂因素。,第十八页,共四十一页。,2023/6/27,19,混杂的控制就是控制混杂的第三个条件,办法有:设计阶段有三种方法:限制(xinzh)、匹配和随机分组;数据分析阶段也有三种方法:直接标化法、分层分析和多元回归分析。,第十九页,共四十一页。,2023/6/27,20,八、交互作用,交互作用不同于混杂。混杂是粗效应值估计时的一种偏倚,需要控制和消除;交互作用是效应大小(dxio)随第三因素暴露强度或剂量变化而变化的现象。区别交互作用和混杂的方法是一致性检验。如果层间差异无显著性(P0.05),说明不存在交互作用,这时可按混杂处理,可以用一个加权平均效应值来表达,如果平均效应值与粗效应值一致,说明无混杂。,第二十页,共四十一页。,2023/6/27,21,交互作用模型及其相对性 决策(juc)应基于相加模型,第二十一页,共四十一页。,2023/6/27,22,九、识别和测量剂量反应(fnyng)关系,识别和测量(cling)剂量反应关系的分析方法主要有分层分析和回归分析。,第二十二页,共四十一页。,2023/6/27,23,第三节 常规收集的 流行病学(li xn bn xu)数据的分析,常规数据分析的特殊性有三点:第一,对研究问题的设定和对分析结果真实性的评估;第二,由于没有预先设定研究问题,可研究的问题取决于资料内容和性质;第三,设计框架(kun ji)不清楚或不完善,存在多种偏倚,结果真实性较差或不确定。本节将以医院的病人资料为例,说明常规数据分析的目的、方法、步骤和注意事项。,第二十三页,共四十一页。,2023/6/27,24,一、常规(chnggu)数据的特征,(一)数据的时间框架和分类时间框架指数据的时间特征,主要分为随访数据(队列数据)和非随访数据(现况数据)。现况数据主要探索病人(bngrn)现况、服务状况和诊断准确性,偶尔用于初步探索病因、疗效和不良反应。队列数据可用于大多数临床问题的探索。,第二十四页,共四十一页。,2023/6/27,25,(二)变量(binling)的特征和分类,按照临床(ln chun)特征可将常规数据中的变量分为治疗措施、诊断结果、病因/危险因素、预后因素、结局、服务相关因素(如药价、医疗保险等)。变量决定可能的研究问题。例如,数据中无治疗信息,则无法研究疗效和副作用;无诊断结果,则无从研究诊断准确性。无结局信息,则不能研究疗效、预后因素、危险因素。,第二十五页,共四十一页。,2023/6/27,26,二、形成(xngchng)研究问题,根据数据的变量特征,可以(ky)初步形成可研究问题的范围。欲进行诊断准确性研究,数据库里必须有检查结果和疾病诊断信息。研究副作用,基线资料中必须有治疗信息,随访资料中须有副作用的信息。评估疗效,基线资料中须有治疗的信息,随访资料中须有结局信息。研究危险因素,基线资料中须有可疑病因的信息,随访资料中须有有关疾病的信息。对研究者最大的挑战不是如何进行分析,而是如何形成研究问题?,第二十六页,共四十一页。,2023/6/27,27,三、常规(chnggu)数据“研究设计”的缺陷,第二十七页,共四十一页。,2023/6/27,28,研究设计最重要的三个因素是时间、人群和变量。时间因素包括时点还是时间段,如何定义起始时间、时间走向、变量间的时间关系;人群因素包括人群特征,选择(xunz)过程,及比较组的形成;变量因素包括测量指标、何时测量、测量的准确性。通过比较常规数据收集的“设计框架”和最佳研究设计,可以发现常规数据的设计缺陷,判断可能引起的偏倚。在时间、人群和变量特征上与最佳设计的差异,就是常规数据的缺陷所在,也是偏倚可能出现的地方。主要缺陷是非随机,失访或变量缺失。,第二十八页,共四十一页。,2023/6/27,29,四、估计(gj)相应的指标,根据研究目的以及(yj)最佳研究设计,就能够确定需要估计的指标。现况研究中,只需要估计有关变量的均数和百分数;评估治疗效果时,主要估计治疗对结局作用的大小;评估诊断的准确性,主要估计灵敏度和特异度;研究副作用,主要估计治疗对不良结局的作用大小值。,第二十九页,共四十一页。,2023/6/27,30,常规(chnggu)数据分析的具体步骤,分析数据的时间框架和变量的特征;提出可探索的问题,确定最终研究的问题;与最佳研究设计比较,检查数据的“研究设计”缺陷;估计必要的指标及其可信区间与其它必要的分析;分析数据中可能存在的其他偏倚,例如选择偏倚、信息偏倚和混杂偏倚;综合(zngh)设计缺陷、偏倚和结果,对研究问题做出结论。,第三十页,共四十一页。,2023/6/27,31,五、评估数据(shj)中的偏倚,分析常规数据时,针对偏倚需考虑以下问题:设计框架中,是否具有病因(或治疗)、结局和混杂(hnz)因素的信息,结局的测量是否发生在病因或治疗发生后的一段时间内;是否存在选择偏倚:数据代表性及失访率等;是否存在信息偏倚;是否存在混杂偏倚:有关混杂因素的基线信息是否完整。,第三十一页,共四十一页。,2023/6/27,32,(一)评估数据中的选择(xunz)偏倚,很多数据的代表性很差或总体不明。病人还经过了检验检查的选择。最严重的选择偏倚是选择性随访和失访。大多数病人缺乏结局资料可能是我国医院(yyun)常规数据中最大的问题之一。,第三十二页,共四十一页。,2023/6/27,33,(二)评估数据中的信息(xnx)偏倚,数据的准确性和可靠性取决于医疗机构水平的高低;另一个常见问题是数据质量不一致,原因包括同一个医院不同时期使用的检查仪器、试剂(shj)、方法和标准不同,检验员的水平不同;随访时间不足也可能造成测量误差。,

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开