温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
简单
随机
抽样
特征
比例
估计
精确
数值
比较
研究探索 RESEARCH AND EXPLORE 41简单随机抽样与逆抽样下 0-1 总体稀少特征比例估计的精确数值比较 文/张 丽一、引言社会经济抽样调查实践中,经常需要估计稀有事件在总体中占比,即估计小概率事件的概率。实施常用的简单随机抽样方案,会出现样本中零稀有事件数的情况,导致产生大的估计偏差。Haldane(1945)1开创性地提出一种控制相对方差的抽样方法,称为逆抽样方法(Inverse sampling)。之后,该抽样方案被应用于不同领域的实际中。例如,对艾滋病毒感染率进行调查,阳性率 P 是万分之一,十万分之一。2007 年中国农业部对北方布鲁氏杆菌病高发区的 10 个省区进行了抽样检查,内蒙古土左旗布病阳性率 0.104,黑龙社会经济活动中,对于稀有项目在总体中所占比例的调查是个困难的问题。实施经典的简单随机抽样方案容易出现零特征样本导致推断精度差,通常采用逆抽样方案。但是该方案精度的得益理论上不易确定。本文利用蒙特卡洛方法给出了目标量比例的估计值,使用方差公式精确地计算了估计量的方差,比较了两种方案的优劣。江杜尔伯特县阳性率 0.084。流行病学研究的重要任务之一就是较为精确地估计出疾病的流行程度。田茂再等(2008)2对 1983 年希腊西北部的 Epirus 州所爆发的肾脏综合症出血热的发病率的调查,在逆抽样方案下探究 7 种流行病发病率的逼近与渐近的置信区间估计。陈光慧等(2022)3对搜集到的 2013 年我国工业企业调查数据中,采用广义逆抽样方法获得样本,进而对总体工业总产值总值进行各种不同评估。古丽斯坦库尔班尼牙孜等(2022)4利用独立逆抽样设计抽取样本,验证某种因素对特定罕见疾病的风险,并且基于五种方法构造似然比检验统计量,通过蒙特卡洛模拟从第一类错误的控制能力和检验功效来评价,DOI:10.19454/15-1170/c.2023.02.014RESEARCH AND EXPLORE RESEARCH AND EXPLORE 43从数值模拟结果可以得到:如果基于相同容量的比较,逆抽样方案没有精度上得益的优良性,而恰恰是简单随机抽样抽样的精度最高。随着逆抽样设计参数 m 的增加,逆抽样的精度得益优势快速提升。不放回逆抽样总是优于放回逆抽样方案。对于文献6给出的放回逆抽样精度的近似误差与本文精确精度比较有比较明显的差别,如表 1 中当 m=6,精确相对标准差为 0.4967,近似相对标准差为 0.4849,近似计算低估了抽样误差。另外,实践中 0-1 稀疏特征总体实施简单随机抽样,只有非常少量关心事件出现或者没有关心事件出现的样本,因数据信息不够充分,导致评估准确性降低是不能克服的困难,但是逆抽样样本能够巧妙地避开零特征样本的现象发生,有效地解决数据信息不够充分的问题,这正是逆抽样的优势所在。本文四种抽样方案下估计量的相对标准差精确计算结果表明:设置合适的预定参数值 m,不放回逆抽样下,四、结论本文通过仿真构造了稀疏特征总体,在放回和不放回两种情形下,采用相对标准差作为估计精度的测度,精确比较了简单随机抽样方案和逆抽样方案下占比率的估计量的优劣性,为在实践中权衡调查费用和调查精度的折衷时,选择抽样方案提供了获得定量精度得益测度的思想和算法。作者单位:内蒙古自治区工业节能监察保障中心图 1 四种方案下总体特性比例估计精度表 1 四种抽样设计下 P 估计的相对标准差(变异系数)Cv(p1)NMPnp1Cv(p1)p2Cv(p1)p3mCv(p3)p4mCv(p4)1000400.04550.04040.66050.03960.64250.040730.84850.040430.87520.039940.67060.040140.64570.040050.55520.040050.52722000400.02550.01990.94390.01980.93100.019821.72960.019521.71110.020230.93690.019830.91410.019940.68780.019940.66195000400.0082000.00810.78740.00810.77150.007621.96650.007921.94470.008040.69900.008040.67250.008060.49670.008060.464610000400.0043000.003940.91100.003950.89730.0040722.13160.0040222.10750.0040060.49830.0040060.46620.0040080.40710.0040080.3698稀少特征比例 P 的估计精度最高,其次是放回逆抽样,第三是不放回简单随抽样,第四是放回简单随机抽样。结果如图 1 和表 1 所示。参考文献1HaldaneJ.Onamethodofestimatingfrequencies.Biometrika,1945,33(3):222-225.2 田茂再,吴喜之,李远,周朋朋.逆抽样下流行病发病率的逼近与渐近置信区间 J.系统科学与数学,2008,28(5):513-5233 陈光慧,解婷婷.考虑虚拟变量的逆抽样估计方法及其应用研究 J.统计研究,2022,39(11):133-146.4 古丽斯坦库尔班尼牙孜,田茂再.独立逆抽样下优势比检验统计量的构造 J.统计与决策,2022,38(5):5-10.5KikuchiDA.InverseSamplinginCaseControlStudiesInvolvingaRareExposureJ.BiometricalJournal,1987,29(2):243-246.6冯士雍,施锡铨,邹国华.抽样调查-理论、方法与实践 M.上海:上海科技出版社,1996.7樊鸿康.关于逆抽样的相关理论与方法J.南开大学学报:自然科学版,2003,36(4):43-49.8RuizEspejoM,SinghHP,SaxenaS.Oninversesamplingwithoutreplacement.StatisticalPapers,2008,49,133-137.9PathakPK,SatheYS.ANewVarianceFormulaforUnbiasedEstimationinInverseSampling.TheIndianJournalofStatistics,SeriesB,1984,46(3):301-305.