温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
贝叶斯
因子
及其
应用
Psychology:Techniques and Applications心理技术与应用2023,Vol.11,No.9,514-5275141 引言零假设显著性检验是当前心理学数据分析的传统方法。然而近二十年来,基于p值的零假设显著性检验受到了广泛的批评(王珺等,2019;温忠麟等,2022;钟建军等,2017;Hoijtink et al.,2019;Masson,2011;Wagenmakers,2007)。首先,显著性检验是在假定零假设为真的情况下进行的,因此无法获得支持零假设的证据(许岳培等,2022;Wagenmakers et al.,2018)。其次,研究者将p值与预先设置的显著性水平作比较,推断是否拒绝零假设。二分的统计推断可能导致发表偏差和研究不可重复的问题,获得显著性结果的心理学实证研究论文更容易被发表(胡传鹏等,2016;Open Science Collaboration,2015)。例如,同一研究问题的十项研究可能仅一项结果显著并被发表,其余九项得到非显著性结果的研究被忽略。此外,显著性检验结果无法简单地进行数据证据的更新,多重假设检验需要校正显著性水平(Rouder,2014)。零假设显著性检验的缺点使得研究者重新思考它的使用和替代方法。比如,Wasserstein和Lazar(2016)强调何时、何故以及如何正确地使用p值。Benjamin等(2017)提出将常用的显著性水平从0.05改为0.005。但是,更严格的显著性水平无法解决发表偏差的问题,甚至可能使更多的非显著性结果被忽略。Trafimow和Marks(2015)则建议研究者不使用统计推断决策,仅考虑描述统计来呈现数据分析结果。但是,描述统计通常无法直接回答研究问题。零假设显著性检验的另一种替代方法是贝 叶 斯 因 子 检 验(吴 凡 等,2018;Heck et al.,贝叶斯因子及其应用摘 要 贝叶斯因子检验是零假设显著性检验的替代方法,心理学研究者可使用贝叶斯因子评估数据支持或反对理论模型的证据。但是,贝叶斯因子的原理较为复杂,在实践中正确使用和解释贝叶斯因子存在一定难度。为此,本文介绍贝叶斯因子的定义、用法和解释,结合案例展示贝叶斯因子在评估零假设、区间假设、信息假设时的具体应用,并讨论贝叶斯因子在统计模型和实证研究中的应用进展。研究者在使用贝叶斯因子时应重点关注先验分布的设置、贝叶斯因子的解释、后验模型概率。关键词 贝叶斯因子;先验分布;后验模型概率;发表偏差分类号 B841DOI:10.16842/ki.issn2095-5588.2023.09.001朱训1 顾昕1(1华东师范大学教育心理学系,上海 200062)基金项目:国家自然科学基金青年项目(32100894)。通讯作者:顾昕,E-mail:朱 训 顾 昕:贝叶斯因子及其应用5159 期2023)。首先,贝叶斯因子量化了数据支持零假设或备择假设的证据,这为统计推断提供了更多信息。为了控制发表偏差问题,贝叶斯因子可不作二分统计推断,仅报告研究假设得到的数据证据(Hoijtink et al.,2019)。其次,贝叶斯因子可以同时评估多个假设或模型,且无需多重检验调整。原因是贝叶斯因子不预先控制I类错误,不需要调整显著性水平。最后,贝叶斯因子可以通过数据的不断收集更新支持或反对假设的证据,即贝叶斯更新。尽管贝叶斯因子不控制I类和II类错误率,但研究者仍可以通过先验分布的设置调整贝叶斯因子检验的I类和II类错误率(Gu et al.,2016)。此外,研究发现贝叶斯更新使得贝叶斯因子检验相比零假设显著性检验有相同或更小的I类和II类错误率,意味着相同的统计功效,贝叶斯因子检验的样本容量要求更低(Schnbrodt et al.,2017)。贝叶斯因子检验需要设定假设模型下的参数先验分布,不同的先验分布会影响贝叶斯因子的统计推断结果。Rouder等(2009)使用Jeffreys-Zellner-Siow先验,开发了R软件包BayesFactor用于t检验、方差分析和回归分析等模型的零假设和备择假设评估。Mulder等(2012)使用最小训练样本定义先验,开发了BIEMS软件用于假设检验和模型评估。Gu等(2018)使用部分样本似然函数设置先验,开发了R软件包bain用于零假设、区间假设、次序假设等的评估与比较。该软件的适用模型广泛,包括多元正态线性模型、广义线性模型、随机效应模型、结构方程模型等(Hoijtink et al.,2019;Van Lissa et al.,2021)。当然,能够计算贝叶斯因子评估假设或模型的软件工具还有很多(JASP Team,2020)。目前,已有许多文献从不同视角介绍贝叶斯因子,推广了其在心理学研究中的应用(Hoijtink et al.,2019;Schmalz et al.,2023;Wagenmakers et al.,2010)。在国内心理学研究中,胡传鹏等(2018)介绍了贝叶斯因子的原理、解释及其在特定软件JASP中的实现。吴凡等(2018)重点阐释了贝叶斯因子的原理、优势和计算。但是,以往研究未涉及贝叶斯因子在零假设、区间假设、次序假设检验中的具体应用,也没有讨论贝叶斯因子在具体统计模型中的研究进展。为此,本研究结合数据分析实例,阐述贝叶斯因子的基本方法和实际应用,并讨论贝叶斯因子在统计模型和实证应用中的进展。2 贝叶斯因子本节将借助一个简单的例子介绍贝叶斯因子的相关概念,关于贝叶斯因子更详细的理论介绍可参考Kass和Raftery(1995)。样例数据来自Bem(2011)提出的关于超感知觉(ESP)是否存在的实验。实验共有n=40名被试,每人先看两张卡片,一张正面有数字,另一张正面有特殊图片,然后猜测哪张卡片上有特殊图片。实验得到x=26人选择了正面为图片的卡片。根据研究问题,构建零假设表示被试猜对的概率为50%,即ESP不存在;备择假设表示被试猜对的概率不等于50%,即ESP存在。更具体地,在零假设下可建立模型 M1:xBinomial(n=40,=0.5)模型假设成功的次数服从二项分布,并且猜测正确的概率为=0.5;在备择假设下可建立模型 M2:xBinomial(n=40,0.5)该模型表示正确选择的概率不等于0.5。频率统计通常通过估计参数,并计算p值或置信区间进行推断。比如在上述例子中参数估计值为=26/40=0.65,95%置信区间为0.48,0.79,p值为0.096,因此在=0.05的显著性水平下,模型M1不能被拒绝。此时,由于显著性检验无法接受零假设,研究者无法得到任何结论。贝叶斯统计推断使用贝叶斯因子量化数据对两个竞争假设或模型的支持程度,计算贝叶斯因子需要指定各模型下参数的先验分布。先51611 卷心 理 技 术 与 应 用验分布反映了观测数据之前各模型下参数的可能取值及概率。模型M1指定恰好等于0.5,相应的先验分布也指定=0.5是唯一的取值。然而,模型M2并没有指定,参数0.5需要设定先验分布量化预期效应大小的不确定性。先验分布的设定是贝叶斯统计的重点和难点。研究者既可以指定主观的先验分布,也可以设置默认的先验分布(Heck et al.,2023)。主观先验反映研究者的主观信念,比如相信ESP的研究者可以指定均匀分布Uniform(0.5,0.6),表示的取值在0.5,0.6之间且可能性相等。该先验反映了如果ESP存在,正确选择卡片的概率略大于随机选择的概率0.5。一般来说,主观先验分布是模型的扩展,将M1与M2的比较变为=0.5与Uniform(0.5,0.6)的比较。默认先验分布通常在先验信息不存在时使用,研究者将得到客观的、完全基于数据的贝叶斯推断。比如,当研究者不知道的可能取值时,可设定Uniform(0,1),即概率在0到1区间内取任何值的概率相等。在指定先验分布后,贝叶斯因子需要计算每个模型下数据的边缘似然函数(marginal likelihood,ML)。比如,边缘似然ML(x=26|M)是给定特定模型的情况下,在n=40次试验中观测到x=26次正确猜测的概率。边缘似然值越大,模型结合先验对数据的预测效果越好。在计算两个模型的边缘似然函数后,其贝叶斯因子可由下式计算:因此,贝叶斯因子直观地比较了两个模型对数据的预测能力。贝叶斯因子可以解释为数据支持两个模型的相对程度。如果贝叶斯因子等于1,说明数据对模型M1和M2的支持程度相等;如果贝叶斯因子等于5,表明数据对模型M1的支持程度是M2的5倍;如果贝叶斯因子等于0.2,意味着数据对模型M2的支持程度是M1的5倍。已有研究给出解释贝叶斯因子的一般准则(胡传鹏等,2018;Kass&Raftery,1995),并推荐使用3或1/3作为阈值推断模型是否得到数据的支持。若BF123,则存在证据表明数据支持模型M1;若BF121/3,则数据支持模型M2;若1/3BF123的研究结果更有可能被发表。为此,统计学者提倡不使用贝叶斯因子作二分推断,仅呈现贝叶斯因子量化数据支持模型的程度(Hoijtink et al.,2019)。与显著性检验不同的是,贝叶斯因子相比于p值有更具体的含义,故不需要形式上的阈值。如果BF12=2.5,研究者仅需报告M1得到的数据支持程度是M2的2.5倍。当然,如果BF12=100,那么研究者自然地认为数据支持M1的证据是可信的。如果BF12在1附近,则通常认为贝叶斯因子不偏向任何模型。贝叶斯因子的另一种表达是后验模型概率比与先验模型概率比的比值:因此,贝叶斯因子可以随着数据的收集不断更新研究者对模型的信念。在没有先验信念时,研究者可以设置相等的模型先验概率,即P(M1)=P(M2)=0.5。这时,贝叶斯因子等于模型后验概率的比值。后验模型概率表示在观测数据后,研究者对模型选择的信念。比如P(M1|x=26)=0.6表示M1是最佳模型的概率为60%。另外,后验模型概率也可表示贝叶斯错误概率(Bayesian error probability)。与频率统计的I类和II类错误率不同,贝叶斯错误概率是在真实模型未知的情况下,分析数据后选择模型的错误率。若P(M1|x=26)=0.6,则表示选择模型M1可能出错的概率为朱 训 顾 昕:贝叶斯因子及其应用5179 期1-0.6=0.4。因此,后验模型概率评估了贝叶斯因子检验的不确定性。3 贝叶斯假设检验3.1 应用案例贝叶斯因子可用于检验零假设、区间假设、信息假设等。本节引入应用案例,并在之后的3.2、3.3、3.4节结合案例展示贝叶斯因子在以上假设检验中的具体应用。案例采用儿童教育电视节目芝麻街(Sesame Street)数据(Pituch&Stevens,2016)。芝麻街 是教授35岁儿童学前技能的动画片,该数据包含N=240名年龄在34到69个月的儿童,其中男孩115名,占比47.9%。变量包括儿童观看节目后的数字测验得分(均值M=29.45,标准差SD=12.59)、观看节目前的数字测验得分(均值M=20.76,标准差SD=(10.62)、词汇测验得分(均值M=46.80,标准差SD=16.08)、年龄(均值M=51.01,标准差SD=6.29)等。该数据集可在R软件包bain中找到。图1给出了变量的相关系数矩阵热图。研究假设包括:(1)男孩和女孩的数字测验后测平均得分不存在差异。(2)儿童在观看芝麻街 后的数字测验平均得分高于前测平均得分。(3)儿童数字测验前测得分对数字测验后测得分的影响比词汇测验得分大,而词汇测验得分的影响又比年龄大。3.2 贝叶斯零假设检验研究者通常通过证伪零假设获得支持研究理论的证据。零假设是对总体参数的精确表述,比如零假设H01=2表示实验组与对照组的均值完全相等。检验零假设需要将其与备择假设相比,备择假设与零假设对立互斥,比如备择假设H112表示实验组与对照组的均值不相等。这里的一个问题是,零假设是具体的,可使用1-2=0的先验分布定义,但是备择假设非常模糊,我们并不知道均值的具体差异是多少。频率统计推断常以概率的