分享
第3章 抽样实务及问题.doc
下载文档

ID:3315261

大小:441KB

页数:16页

格式:DOC

时间:2024-03-01

收藏 分享赚钱
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,汇文网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
网站客服:3074922707
第3章 抽样实务及问题 抽样 实务 问题
第三章 抽样实务及问题 基本抽样方法是一种理想设计,实际抽样通常会与理想设计有一定的偏离。根据实际环境来设计抽样方案,正是抽样实务要解决的问题。本章首先介绍的是区域抽样方法,包括按户籍资料和按地图进行的区域抽样;然后介绍电话访问中的随机数字拨号技术;最后将讨论抽样中的非抽样误差问题,特别是针对流动人口的抽样提出一些解决方案。 第一节区域抽样 区域抽样是一种实用的抽样方法,它能为抽选居民住户提供很好的抽样方法。以往的常用区域抽样方法,通常是按户籍资料进行PPS抽样。而按居民居住地的地图进行的抽样,则是近年流行起来的一种区域抽样方法。下面将分别介绍这两种方法。 一、按户籍资料PPs抽样① 多阶段抽样能以多种形式实施,在实践中,分层多阶段区域抽样是应用范围比较广泛的多阶段抽样方法。只要能以区域划分总体,就能够采用多阶段区域抽样,例如,利用街区划分一个城市,利用各级行政单位划分一个国家。以下是一个按行政区划和户籍资料,利用PPS方法进行分层多阶段区域抽样的实例。假设某省一个调查研究中心计划进行一次全省范围的抽样调查,希望利用调查数据进行社会结构变迁研究。根据最近的普查,该省共有家庭户17699115户,计划用PPS方法从中抽取4000户作为样本。步骤如下: (一)计算总的抽样比 即在全省范围内从每4425户中抽取一户。 (二)确定各级抽样单位和计划样本规模 设此次抽样为4级抽样,各级抽样单位依次为:县(PSU)、乡、村、户。计划在全省共抽取40个县,每个县抽取2个乡,每个乡抽取2个村,每个村计划抽取25户,即a=40,b=2,c=2,d=25,b×C × d=100(每个县计划抽取l00户),由此产生类似表3—1的结果: 表3—1各级抽样单位计划抽取的数目 (三)对PSU分层和确定层内计划样本规模 由于全省社会经济发展水平由南至北逐渐下降,故结合各县的地理位置,由南至北将所有PSU划分为四个层。假设某一层的规模为l 935851户,采用按比例分配样本,因此层抽样比fb等于总抽样比f,层内计划样本规模可由fb=f求出: ①该实例的数据取自郭志刚、郝虹生等编著:《社会调查研究的量化方法》,l31~137页,北京,中国人民大学出版社,l989。 1935851×0.000226≈437.5(户) 不难看出,按此方式进行分层后,各层内子样本规模不一定是100的整数倍,即不同层的PSU内的子样本规模并不一定是完全相等的,而是大致为100户。在这种情况下,可取层内PSU数日ah值,使每个内子样本规模接近l00即可。这样在此层可取ah=4,则此层的每个PSU内计划子样本户数为109.4户,同样可以得出乡、村的子样本数目,由此产生类似表3—2的结果: 表3—2各级抽样单位计划抽取的户数 (四)在层内抽取PSU 第一,从普查资料或其他资料取得PSU的规模测量值Mha,将层内PSU排列起来。可采用以下方式排列PSU:一是在获得PSU的某个与调查变量相关的变量资料的基础上,将PSU按该变量值排序,以取得隐含分层效果,例如,将各PSU按各个县的人均收入值大小进行排列。另一种方式是在地图上将各个 PSU用一条蛇形线串起来,然后将各个PSU按此线穿过的先后顺序排列,这样可以使样本PSU在空间上较为分散,参见表3—3第二列。 第二,按层内PSU的排列顺序,将规模测量值Mha累加,参见下表第三列 第三,采用系统抽样,先计算抽样间距 在此例中, (k很大,故四舍五入影响不大) 然后,在1~k范围内抽取一个随机数r作为起点,设从随机数表中查得一个8位数字26804292,则r=268042.92。最后,抽出ah个PSU,抽中号码分别为: r,r+k,…,r+(ah-l)k 在此例中,抽中的号码分别为:268042.92,752005.67,1235968.42,1719931.17。这4个号码分别落在第2、5、7、10号PSU的号码范围,因此这四个县被抽中,由此产生类似表3—3的结果: 慕峁? 表3—3 PPS方法抽取PSU(县) (五)在PSU内抽次级抽样单位 第二、第三级抽样分别用PPS方法,从每个样本县中抽选出b一2个样本乡,从每个样本乡中抽选出c=2个样本村,抽取方法与上述抽取PSU的步骤类似,不再赘述。 第四级抽样,从每个样本村内抽取样本户。计划样本户数为d“,这里 d*=27.35(户)。这样,第四级抽样的抽样比为d*/Mhaβγ,其中Mhaβγ为第a县内第β乡的第γ村的规模测量值。第四级抽样的期望样本户数由该抽样比乘实际村规模(户数)得到,即d=(d*/Mhaβγ)×Nhaβγ。设某样本村的规模测量值为Mhaβγ=374(户),而调查时的实际规模测量值Nhaβγ=397(户),则从该村 实际应抽户数为 (户)。抽户可按线性系统抽样进 行,即先算出抽样间距,然后将户名单随机排列进行等距抽取。 (六)对PPS抽样过程的说明 第一,在确定各级抽样单位数目时,需要考虑两方面的因素。一方面,需要考虑各阶段抽样总体的异质性程度,异质性越高,样本规模就越大,反之,则越小。另一方面,要考虑所需要的人力和经费。一般说来,在其他条件不变的情况下,样本的覆盖面越大,代表性也越好,这意味着PSU越多,代表性也越好。但PSU越多,调查员需要走访的范围也越大,所需的时间和经费也越多。 第二,除了例子中列出的分层方法外,还可以使用另一种分层方法,即将总体A个PSU划分为a/2个大小相近似的层,每层抽取两个PSU,这种分层方法由于划分得较细,因此可以较大地降低总体异质性程度。不过这种分层需要较多的分层信息,工作量也比较大。 第三,可能有些抽样单位的规模会大于抽样间距。这样无论随机起点落在何处,该抽样单位都会被选中,而且很可能会被选中两次。有两种处理方法,一是将该抽样单位与其他抽样单位同样看待,如果它被选中两次,就将其视为两个抽样单位,从中抽取两倍的次一级抽样单位。另一种方法是将所有大于抽样间距的单位挑出来,单独组成一个层;在该层内用总抽样比求出该层样本规模,然后直接抽取次一级单位。具体抽样时更经常使用后一种方法,需要注意的是重新分层后,要重新计算每个层的抽样间距。 第四,可能有些最后一级群的规模测度值小于计划从中抽取的样本数。在上面例子中,有些村子的规模测度值Mhaβγ可能小于计划从每个样本村中抽选的户 数d*,即Mhaβγ<d*=27.35,这样就会使最后一级的抽样比 解决 这个问题的方法是事先规定村的Mhaβγ下限为2d*,或3d*,不要以d*为下限,因为即使村的Mhaβγ>d*,村实际规模仍有可能小于d*。如果某村的Mhaβγ小于下限值,就将其与邻近的村子合并成一个村子。如果需要合并的村子太多,也可将这些小村子单独组成一个层,对层内的村子规定较小的d*值。 二、从住户中抽取被访者 一般说来,多阶段抽样设计的最后一级抽样单位往往是居民住户,但所抽到的居民住户大多是由多名成员构成的。在实际调查中,通常需要从这些成员中按一定规则抽取一位成年人作为调查对象,这就是所谓的户内抽样。可采用多种方法进行户内抽样,这里介绍当前抽样调查中比较常用的Kish表抽样方法~。 Kish表抽样方法是通过附在问卷的第一页上的一份抽样页来进行的,抽样①参见[美]基什(L Kish):《抽样调杏》,447~451页,jE京,中国统计出版社,l997。 页内包括被访住户的地址、住户家庭成员情况登录表和抽样表等项内容。访问员在住户同意被采访后,即可以通过以下步骤来抽取被访对象。 (一)填写住户成员情况 访问员先要询问住户成员的基本情况,包括性别、年龄和与户主关系。然后,将成员进行排序并对符合被访问条件的成员编号,之后依次填入住户家庭成员情况登录表中。排序遵循的原则是:男性在前,女性在后;年龄大的在前,年龄小的在后。也就是说,要把年龄最大的男性排在第一位,次年长的男性排第二位,以此类推;年龄最大的女性排在年龄最小的男性后面,其他女性也按年龄从大到小依次排列。例如,某项调查将被调查对象的年龄限定为16~69岁之l司。某住户共有7位成员:户主、妻子、户主的父亲、户主的母亲、儿子、大女儿和小女儿。其基本情况如表3—4所示。 亮1—4住户家庭成员情况登录表 性别 年龄 与户主关系 编号 被访 男 65 户主的父亲 1 男 42 户主 2 男 6 儿子 女 61 户主的母亲 3 女 40 妻子 4 女 16 大女儿 5 女 6 小女儿 (二)根据抽样表抽取被访者 每份问卷抽样页中的抽样表包括以下内容:抽样表的编号、住户中成年成员数目和抽取成年住户成员的号码。其中抽样表的编号分为Al、Bl、B2、,C、D、 E1、E2和F等8种,即共有8种抽样表。每种抽样表占抽样表总数的比例分别为:l/6、1112、1/12、1/6、1/6、1/12、1/12和1/6。每一份问卷的抽样也都有一种抽样表,问卷也因此被分为8类。问卷抽样页上的抽样表格式如表3—5所示。 表3--5抽样表 访问员访问时就是根据问卷抽样页上的抽样表,从住户家庭成员情况登录表上抽取访问对象的。实际使用抽样表时,要事先用荧光笔按一定顺序将抽样表的某一横行画上记号,也就是在某一份问卷上选定某一种抽样表。例如访问员在访问上例中的住户时,问卷上的抽样表已被事先标记为编号D,如表3—5所示。由于符合调查要求的住户成员人数为5,抽样表中标记5这一列与标记D这一行的相交处的数字是4,则编号第4位的住户成员——户主的妻子便成为被访的对象。 使用Kish表抽样方法的关键是一定要事先将访问地址和抽样表种类分配给问卷,尽量不要让访问员根据地址决定抽样表的种类,否则很容易产生较大误差。关于这点将在非抽样误差中进一步讨论。在实际抽样中,如果无法事先确定访问地址,可以将与问卷配套的抽样表密封在信封中,由访问员在排列好住户成员顺序后打开。另外,要注意在A、B和C类抽样表中一般容易抽中较小编号,而被分配给这些抽样表的地址,主要是男性被访者,因此,晚上访问比较合适,特别是在农村调查更是如此。相反,访问员可利用白天时间访问分配给D、E和 F类抽样表的地址。 最后提醒访问员应将住户所有成员的情况,尽可能准确地填入住户家庭成员情况登录表中。因为这些资料不仅可以用来抽取被访者,也可以使研究者搜集到这些住户成员的个人样本的资料。利用这种资料可以很方便地描述抽样区域居民总体情况,因为按这种方法抽出的样本,在年龄、性别、文化程度等方面的分布与总体的分布往往十分接近。 三、按居住地地图法抽样 在区域抽样中,抽取居民户仍需要一份详细的居民户名单抽样框,通常这是根据户籍资料编制的。在没有现成的户籍资料,或已有的户籍资料不完备、过时了的情况下,可以采用地图法直接从居住地抽取居民户。地图法既可以在PPS抽样的基础上,在一个相对较小的区域内使用,例如,利用PPS抽样先抽出某城区、街道、乡镇等,然后用地图法抽取居民户;也可在较大范围内使用,例如,在某个大城市直接用地图法抽取居民户。采用地图法抽样的具体步骤如下:(一)对抽样区域分层 对将要进行抽样的各城镇乡村等行政区域按适当的准则进行分层,分层数目可根据需求而定,然后在各个层内抽取实际进行抽样的行政区域。 (二)选定进行抽样的地图 选择地图要考虑以下因素:一是地图出版的时间。由于国内社会经济的迅速发展,地图更新得非常快,特别是一些大城市,因此,抽样时最好能找到最新出版的地图。另外,还要注意到地图的比例尺,原则上,地图与实地的比例较小的地图比较精密。但精密的地图一般都是专业部门在使用,不太容易找到。在一项使用地图法进行的抽样中,经过训练的访问员从一份两万五千分之一地图上的坐标点,去确认“实地目标”,误差不超出五户。 (三)选出地图上的坐标点 先在选定的地图上绘制二维网格,然后从地图上按照某种概率规则抽取出一些二维坐标点。例如,可以用电脑随机产生一些二维的坐标点。这些坐标点不一定落在地图上某个特定的行政区域内,然而给定某个特定的行政区域,落在这个行政区域内的坐标点的概率是可以推算出来的。在地图上确定坐标点后,还需要再到户外对这些坐标点进行实地考察,并根据真实的地貌状况,按照一定的规则,对地图上的坐标点进行适当的修正,以弥补地图过时产生的偏差。 (四)训练访问员 先让访问员通过地图熟悉他将要访问的坐标点及其周围的标志性建筑,然后借助地图比例尺,帮助访问员建立起坐标点与周围标志性建筑之间距离的初步印象。另外,要对访问员进行“步测训练”。具体做法是让访问员在200米长的直 线道路上来回行走几趟,记下每趟所需的步数和时间,计算出每个访问员的平均“步距”。这样在交通流量大或人流拥挤的道路上,无法使用尺来测量距离时,访问员就可以用自己的步伐数测出实地的距离。 (五)访问员实地确定坐标点 实地坐标点的访问顺序,应由电脑或其他方法随机决定,访问员必须按事先确定的顺序依次访问。访问员到了实地坐标点后,应将实地坐标点附近200米范围内的建筑物和其他地貌状况记录下来。如果放弃该坐标点,必须详细列出放弃的理由。这样督导人员可根据访问员描述的地貌情况,进行实地核查。 (六)抽取居民住户 每个坐标点对应一个“样本户”,如果位于坐标点实地上的是一栋楼房,则用随机数法确定该楼的某一住户为坐标点所对应的“样本户”。需要指出的是这里定义的“户”并非户籍单位所指的户,而是以邮差送信的“地址”为单位的户,凡使用这个地址收信的人都视为该户的一个成员。例如,几个从外地来工作的朋友合租一间房屋,共用一个邮政地址,被视为同住在一“户”内的成员。又如在一栋居民楼内,凡独立拥有一个供邮差投递信件的信箱的“人家”,就是一户。而在某个四合院内可能住着好几个“人家”,但却只有一个地址供邮差投递信件,那这些“人家”也都视为同一户的成员。也就是说,地图法的调查总体是由那些有人居住的各个地址所形成的“户”组成的。 除了对坐标点对应的每一“户”进行调查外,还可以采用整群抽样,这时各坐标点所对应的户称为群的首户。从首户开始,按门牌号码自然排列顺序,将相邻的若干户一同列为一个群。例如,设定l5户为一个群,这15户最好是在首户周围方圆200米的一个完整地理区域内,没有河川或较大的街道分隔。访问员找到首户后,应马上抄录下包括首户在内的l5户地址,并将近日即将前来调查的通知邮寄或直接放入各户的信箱内。 第二节 随机数字拨号抽样 由于采用当面访问员访谈的费用很高,加上入户调查越来越困难,因此,除了一些有特殊目的的调查外,电话访谈正越来越普遍地取代访问员访谈。与其他形式的调查一样,电话访问也需要先进行随机抽样,但是获得一份完整的电话号码资料是很困难的,有时几乎是不可能的。这主要是因为有很多人出于安全、保 护隐私等方面的考虑,不愿意将自己的家用电话登录在公共电话号码簿中,尤其是居住在城市中心区的居民更是如此。通常抽样总体离中心城市越远,则拥有未登录电话号码的家庭比例就会越低。这种未登录的问题,在调查中很可能会提高未涵盖范围所产生的误差,降低样本的代表性。而随机数字拨号(random digit dialin9,RDD)可以减低未登录产生的样本代表性问题。 随机数字拨号是一组几率抽样的技术,它最大的优点就是在抽样时,并不一定非要具备一个描述完整的抽样框;而它最大的缺点则是会遗漏未装电话的家户单位。随机数字拨号可以使用人工或电脑的方式来完成,虽然电脑方式使用起来更加快捷方便,但理论上,借助电脑进行随机数字拨号的任何一种方法,都可以通过人工来完成,只是工作量大了很多。另外,随机数字拨号既可采用简单随机数字拨号抽样法,也可使用多阶段随机数字拨号抽样法。 一、搜集相关信息 在进行随机数字拨号抽样时,首先要搜集与电话号码相关的一些信息,包括中心电话局的编码、每个编码下面所涵盖的电话线路数量,并确认无效号码的范围。这些信息能最大限度地减少无效拨打电话的数量,提高抽样效率。 (一)搜集电话局编码大多数随机数字拨号抽样的第一步,就是要在抽样区域的地理范围内(例如,一个城市、省或国家),无遗漏地搜集电话号码字冠(prefixes)(例如,北京的8位数电话号码的前4个数字)的清单,这种字冠叫做中心电话局编码(central office code,COC),简称电话局编码。搜集电话局编码的最简单方法,奠过于花钱或通过在电话公司中任职的熟人,从电话公司索取。如果电话公司拒绝提供帮助的话,就只能通过电话号码簿来搜集电话局编码了。 利用与抽样区域有关联的电话号码簿来搜集电话局编码,通常的做法是:先从电话号码簿中找出与电话局编码对应的地址,然后以所有能找到的地址为依据,在地图上将每个电话局编码所界定的范围标示出来。需要说明的是,除非调查是在某个相当小的抽样区域内进行,否则的话,这个电话局编码的确认过程可能会相当耗时,有时甚至不得不放弃。因此,在计算调查抽样成本时,应考虑到搜集电话局编码的费用。 无论电话局编码是从电话公司获得的,还是以人工方式自己搜集的,都需要特别注意一个问题:抽样区域的范围与电话局编码所界定的范围是否一致。有时两个区域的地理界线密切符合;但某些时候,电话局编码所界定的范围并不见得 会与抽样区域的范围完全一致。如果二者相差太大,由于成本过高,就有可能放弃随机数字拨号抽样。但如果两个区域的范围相当接近,或许就能够利用地理上的筛选性问题,把那些居住在抽样区域之外的人排除掉,或者也可以考虑缩小或扩大抽样区域,使其与电话局编码所界定的范围相互匹配。 (二)确定电话局编码的线路数量 除了电话局编码外,最好还能从电话公司获得抽样区域内每个电话局编码所涵盖的,可以正常运作的家用电话线路的数量,因为这样就可以针对每个电话局编码所占的线路比例来产生电话号码。在此情形下,最终样本会以电话局编码为依据,呈现出分层化的状态。例如,某市共有8个属于家用电话的电话局,通过电话公司了解到其中的3个局——6864、6866、6869几乎占了该市8000条家用电话线路的四分之三。其中,6864局共有3000个有效的家用电话号码,6866和6869局分别有2000个和l 000个。不难算出,3个局的电话线路比例分别为37.5%,25.0%和l2.5%。这时,如果需要随机拨出的电话号码样本规模为1000个,那在样本中就应包含375个以6864开始、250个以6866开始、125个以6869开始的电话号码。另外,如果无法从电话公司获得该信息,也可从电话簿中抽取几页有代表性的家用号码,对电话局编码与家用电话线路的比例进行估计。注意,进行估计的前提是各个电话局编码所涵盖的未登录电话号码的比例大致相等,否则就不能进行估计了。 (三)确认无效号码的范围 从理论上讲,调查人员只要能知道抽样范围内的电话局编码,就可以利用各种不同的技术在这些编码后面再加入几位随机数字,形成一系列将要拨出的电话号码。但是,这些号码可能有效,即号码恰好对应家用电话;也可能是无效的,即号码不与家用电话相对应。无效号码可能是非家用电话号码或电话公司未分配的号码。如果能事先将这些无效号码去除掉,无疑会大大提高随机数字拨号的效率。例如,假设已经知道了在6864、6866和6869字冠范围内,属于家用电话号码的范围分别在2000~3999、5000~7999、0000~0999和4000~4999之间,那么产生出来的随机数就应该是3位数,也就是说,应将一系列3位随机数添加在6864—2、6864—3、6866—5、6866—6、6866—7、6869—0和6869—4的后面。假设某地区电话局编码后有4位号码,在形成电话号码前,最好能从电话公司获取有关这后4位号码中的无效范围的信息。如果无法由电话公司取得此类信息的话,可以从一般的电话号码簿中估计出此类信息,但是此种情况是一件极为耗时的工作。另外,调查人员还可以根据实际情况,决定是否要针对每个电话局编码来搜集无效范围的信息。例如,如果访谈人员的劳务费是按工时决定的,而且筛选无效号码所需成本较低,那通过搜集无效号码的范围来提高拨号抽样的效率就是一项值得努力的目标。另外,对于那些在同样的地理区域中进行周期性调查的研究人员而言,尽可能搜集该区域中与电话局编码有关的大量信息,以供后续研究反复使用,即使需要花费一些原始成本,通常来说也是值得的。不过此时要特别注意的是,由于抽样区域中住户的流动性,以及伴随区域经济发展电话用户的增长,要及时对该区域的电话局编码、每个编码中所分配到的用户比例和未被使用的号码范围等有关信息进行周期性更新(例如每年更新一次)。 二、随机数字拨号的技术 在搜集到相关的电话号码信息后,便可以利用一些随机数字技术进行随机数字拨号抽样了。这些技术包括随机数表方法、数字添加技术和电脑辅助电话访谈方法。另外,还可以采用二阶段随机数字拨号方法,来减少简单随机数字拨号中无效电话号码的数量。 (一)随机数表 利用随机数表,以人工方式进行简单随机数字拨号抽样,是随机数字拨号最基本的技术。具体做法是,在确定电话局编码的基础上,先利用随机数表生成一系列随机数,并将随机数字加在电话局编码后面,形成一系列将要拨出的电话号码。通常有必要抽出比预期样本规模多一些的电话号码,因为用这种方法抽出的电话号码经常是无效的。在抽出一定号码后,让访问员实际拨打号码,如果被拨打的号码不是一个正在使用的家用电话号码,就将其过滤掉,再接着拨打另一个被随机抽中的电话号码。继续这个过程直至产生足够多的有效电话号码为止。例如,抽样区域内的电话局编码为6864,6866,6869,被选出的随机数是5471,9635,3826,…,则将要拨出的电话号码就是6864—5471,6866—9635,6869—3826,…。接下来从电话号码6864—5471开始,拨打和筛选这些随机电话号码,形成抽样群体。如果在抽样区域内,以6864,6866,6869开头的电话线路比例分别为20%,40%和400/o0,则抽样人员就应该以下列顺序,将一连串四位随机数添加到所选择的局码后面:6864,6866,6866,6869,6869,6864,6866,6866,6869,6869,…,以此类推;以便反映各电话局的电话比例(2:424)。 ? (二)数字添加技术 另外,在已有电话号码的基础上,还可利用数字添加技术来产生新的电话号码。具体做法是,先从电话号码簿中抽取一些“种子”(seed)号码,然后再将某个(也可以是两个或三个)定数或随机数,添加在每个种子号码上。“往上加1”就是一种添加数字技术。例如,已通过简单随机抽样或系统抽样方法,从电话号码簿中抽出一个电话号码6869—5642,在这个号码的后4位的最后一位数字上再添加1,产生出一个新的号码6869—5643。另外,也可以加ll或其他数字,来产生新号码。、使用添加技术时,需要特别注意,如果电话公司在分配未登录电话号码时,将它们集中于某个特定的后四位号码范围内的话,就可能导致这种添加数字技术产生严重偏差。因为此时由于依赖电话号码簿产生的“种子”号码,无法涵盖这些未登录号码,就会有相当数量的电话号码无法被抽入调查总体。 (三)电脑辅助电话访谈 随机数字拨号也可由电脑来完成,这时随机电话号码是由计算机程序产生的。需要说明的是,无论是人工拨号方法还是电脑辅助电话访谈(Computer- Assisted Telephone Interviewin9,CATI),都需要事先搜集一份抽样区域内电话局编码。二者不同之处在于,电脑辅助电话访谈中,可以直接将有关电话局编码线路数量和无效号码范围的信息,直接编人产生随机号码的程序中。二者之间另一项重要的区别是:在电脑辅助电话访谈的情况下,可以一次只产生一个电话号码,供访谈人员进行拨号访谈使用。也就是说,借助电脑就可以不像人工拨号时必须在访谈前就产生一个足够大的随机电话号码抽样群体。这是因为借助电脑可以随时产生随机电话号码,而人工拨号时,要求每次只产生一个随机电话号码供访谈人员使用,根本就是不切实际的做法。再有,在利用电脑或乱数表产生随机数字时,都有可能会在同一组电话局编码中产生重复的随机数字,这时就难免会产生完全相同的电话号码,虽然出现这种情况的概率不大,但还是存在这种可能性。在采用人工拨号方式产生样本时,很难核对出这种重复的号码,但借助电脑却可以轻而易举地查出重复的号码。 (四)二阶段随机数字拨号 简单随机数字拨号抽样最不方便的地方,莫过于会产生出大量无效的电话号码。除通过事先确定无效号码范围外,二阶段随机数字拨号也是有效减少无效号码的抽样方式,尤其是当抽样区域过于庞大时这种方法更加有效。但这种方法所带来的便利性与有效性背后,是会略为提高该项调查的抽样误差。下面通过一项电话访问作为例子,具体介绍二阶段拨号抽样的具体实施方法。 (1).取得涵盖抽样区域所有家用电话的电话局编码的目录。如果调查的区域面积过大(如全国),可以从全部编码目录中随机抽出一些电话局编码来。 (2)利用简单随机数字拨号的原则,在抽样区域内确定一个相对较小的家用电话号码群体,作为第二阶段中的种子号码,通常可抽取50~100个。与此l司时,还要根据可联系上的电话的比例,抽选一些备用的种子号码。例如,若抽取了100个种子号码,可联系上的电话号码比例为25%,则需要准备400个种子号码。 (3)让所有的访谈人员拨打这400个种子号码,以判定哪些是可以联系上的家用电话,预计约有100个号码可以成功。有时依据一个简短的过滤性问题,便可做出判断;但在另一些情况下,可能必须对每一户联络上的家庭进行真正无所遗漏的访谈。不管如何,对于这些种子号码,都必须依据是否为家用电话而加以分类。从实际调查看,仅通过电话访谈是无法达成这个目标的,通常还是需要花时间与金钱与电话公司联系,以判定那些从未被接听的电话号码究竟是否属于家用电话。 (4)第一阶段确定的100个左右种子号码,代表了抽样区域内所有家用电话的一个简单随机样本。如果计划样本规模为1100个住户,那么在第二阶段中每个种子号码就必须派生出11次电话访谈。具体做法是针对每个第一阶段抽取出的家用电话号码,以随机方式将其后4码中的最后两位数加以替换,每个号码都至少进行ll次替换,直到产生l l00个各不相同的电话号码为止。另外,如果某些种子号码没有产生出预计应完成的电话号码数量,就需要在抽样后以加权的方式,将每个种子号码中所完成的不相等电话号码数量加以调整,以满足等概率抽样原则。 除了以上介绍的通过替换后两位数字来派生电话号码的方法外,第二阶段的抽样还可通过以下过程来完成。 假设某个选定的种子号码为6864—5347;如果它不是一个正在使用的家用电话号码,就接着拨打6864范围内下一组被随机抽中的电话号码。如果6864—5347是正在使用的家用电话号码,那就拨打在6864—5300到6864—5399之I司100个号码中另外的号码(这100个号码被称为群)。这些被拨打的号码叫做“第二级号码”,第二级号码的个数取决于想要的样本规模。这里我们假定将要拨打的是11个第二级号码。如果11个第二级号码中没有一个号码正在使用,那就 接着拨打这100个号码中的其他号码,直到最后拨到ll个正在使用的第二级号码为止。上述步骤完成后,再针对其他的种子号码,继续这个过程。 第三节 非抽样误差 在调查研究中除了抽样误差外,还广泛存在着各种非抽样误差,它们主要是由于不完备抽样框、无回答和计量问题而产生的误差。不像抽样误差是纯粹的随机误差,非抽样误差中既有由于疏忽导致无回答而产生的随机误差,也有抽样框不完备引起的系统误差。相比之下,系统误差会产生严重的估计偏倚。非抽样误差成因复杂,又难以识别和测量,因此抽样中需要给予特别的关注,下面将结合实例来探讨其类型和消除办法。 一、抽样框误差 抽样设计中,由于不完备抽样框引起的非抽样误差,通常被称为抽样框误差。在实际抽样中,造成抽样框误差的原因是多方面的,包括目标总体单元的丢失或增添、抽样框与目标总体存在复合连接等。大量流动人口产生的抽样框误差,就是由于目标总体单元的丢失。而追踪调查中的样本轮换,如果处理不当,也可能由于目标总体单元的丢失或增添,出现抽样框误差。 (一)误差类型及消除办法 具体说来,在抽样设计中,经常会出现具体的抽样总体与目标总体不一致的情况,这时编制出来的抽样框就是不完备的。一般说来,抽样框误差包括以下几种情况: 首先,抽样框丢失了本该列入的目标总体单元,即在编制抽样框时,没有将所有总体单元都编进抽样框。这样在抽样时有些符合条件的总体单元,由于不在抽样框内就不可能被选人样。丢失总体单元不仅会低估总体单元的数量,而且在估计总体参数时也会出现偏差。解决总体单元丢失的办法之一是在编制抽样框时,事先针对丢失单元确定一些人样规则,这样一旦发现并找到丢失单元,便按照入样规则将其与抽样框单元连接起来。指定丢失单元人样规则必须满足等概率原则。另一个解决总体单元丢失的办法是使用多个抽样框,也就是针对不同的总体对象,编制不同的抽样框进行抽样。不过使用多个抽样框,一是要注意不要出现抽样框重叠现象,即要将那些同时出现在不同抽样框中的总体单元,从某一个样本框中剔除掉;实践中剔除总体单元往往很困难,有时只能通过统计估算来消 除样本框重叠引起的偏差。二是要考虑到对由不同样本框抽出的样本单元进行加权,以保证样本单元的等概率性。调查实践中流动人口经常引起单元丢失,关于这个问题将在下面详细讨论。 其次,抽样框包含了不应该列入的目标总体单元,即在编制抽样框时,将一些本来不符合调查条件的单元编进了抽样框。例如,在根据住址对居民户进行抽样时,将一些公司、机关单位的地址编进了抽样框;或将一些已经搬迁了的居民户住址编进了抽样框。这样在实际调查中,就会使得抽样总体的单元数量大于目标总体的单元数量,产生估计偏差。相对于单元丢失而言,发现非目标总体单元要容易一些,因此可以在编制抽样框时通过一定程序将不符合条件的单元筛选出去。 最后,抽样框与目标总体存在着复合连接,即抽样框中的单元与抽样总体中的单元不是一一对应关系,一个抽样框中的单元可能与多个总体单元相连接,或反过来,一个总体单元连接多个抽样框中的单元。抽样框在前一种情况中“小”,在后一种情况中“大”。例如,在根据住址对居民户进行抽样时,如果抽样框是按居民居住的门牌号码编制的,那么一个门牌号内居住两户或多户人家,就属于一个抽样框中的单元可能与多个总体单元相连接,相反,一个住户若有两处或多处住房,便属于一个总体单元连接多个抽样框中的单元的情况。解决复合连接的方法是指定样本框单元与总体单元唯一连接的规则,如前面地图法抽样中就针对一个地址多户人家的情况,规定将一个邮政地址内的所有人家视为一户,这些人家的成员也都视为一户的成员,从而保证样本框单元与总体单元的唯一连接。而对于一户多处住房的情况,事先剔除掉是最好的,如果无法做到而且这种情况又很多,则可以对这部分样本的调查结果进行加权处理。 (二)流动人口的抽样 从目前国内开展的调查实例看,流动人口引起的抽样框误差问题比较突出。流动人口引起的抽样框误差是指抽样框丢失了本该列入的调查对象而引起的误差。由于目前中国正处在一个经济快速增长、城市化进程不断加快的过程中,大量的流动人口使得原有的社会人员管理制度,特别是户籍制度受到了冲击。大多数流动人El由于其流动特性,在某一行政区划内居住的时间相对短暂,加之变化中的社会管理体制的不完善性,许多流动人员并不向管理部门申报登记,有的即使申报登记了,但很快又由于流走而使得登记资料报废。这样,目前建立在政府行政管理体系[省、市、区(县)、街道(乡镇)、居委会(村)]基础上,频繁使用的PPS抽样设计,就无法获得一个能涵盖某一行政区划内全部常住和流动 人口的完备的抽样框。而得不到完备抽样框,由此产生的非抽样误差就会使样本的代表眭产生致命的缺陷。例如,截至2001年8月底,北京市户籍的人口是1000万多一点,1100万不到,可是流动人口却有300多万。如果把流动人口这一块去掉,那北京就是残缺的北京;可找到这一块却是相当困难的工作。 解决由于流动人口引起的抽样框缺失问题的第一步是想办法获得流动人El资料。从流动人口的管理现状看,目前流动人口是两块管理,一块是集体户管理,另一块是居委会登记暂住人口。集体户的管理资料由公安局掌握。人口的平均年龄、教育程度等变量都是可以知道的。另外,乡镇或街道下面的村也好,居委会也好,则比较容易清楚自己辖区有多少暂住人口。 流动人口的集体户抽样①的具体操作步骤如下:首先,从市公安局②拿到有关的流动人口资料,包括(1)全市流动人口集体户的总数,以及这些集体户所包括的流动人口总数;(2)全市管辖流动人口集体户的派出所数目;(3)每个派出所管辖的流动人口集体户数、每个集体户的流动人口数。其次,确定管辖流动人口的派出所为初级抽样单位,使用PPS方法抽出集体户。最后,在每个抽中的集体户中用等距抽样的方法,抽取流动人员样本。 流动人口除集体户外,相当一部分属于暂住人口,他们的绝大多数(以白领层居多)不住集体户,而是租用别人家的房屋居住。这些人是在居委会登记暂住人口,办理暂住证。这样集体户抽样就无法抽到他们。在实际抽样中暂住人口的抽样问题是通过按照门牌号码抽样的方法解决的。这里暂住人口的概念是相对于拥有常住户口的居民而言,是户籍制度的产物。如果从居住地看,不管房屋里面住什么人,也许是常住居民,也许是外地来打工的,暂住人口和常住人口差别不大。这样就可以将进入居委会管辖的暂住人口,从居住地的角度与常住人口一视同仁,然后,在居委会范围内按照门牌号码抽样。 除了以上集体户和暂住人口的具体抽样外,由于两块抽样所依据的是不同的抽样框,需要解决如何将两块抽样得到的样本合并在一起的问题。从理论上讲,概率抽样首先应做到的是要保证样本中的所有单位有相等的概率被抽中。由此可见,如果将集体户样本与一般居民样本合并在一起分析,需要保证集体户中的流 ①本方案主要参考了1998年国家科委(现科技部)与挪威社会科学研究所在北京、无锡、珠海三个城市进行的劳动力市场调查,此项调查对样本中500户流动民工采用了集体户抽样方法。 ②严格讲,全国抽样应从公安部获得全国所有流动人口的集体户资料,全省抽样就应获得某一省(自治区)的资料,但这在实际操作上困难太大。故在较大范围内抽样,对流动人口应局限于市(县)范围内。 动人El被抽中的概率(抽样比),与一般居民被抽中的概率是相等的。如果为了分析流动人口方便起见(流动人口比例较小),加大了流动人口样本量,那么合并在一起分析时,需要对流动人口或一般居民样本进行加权处理。 另外,由于使用了两个抽样框,就必须处理抽样框之间的样本重叠问题。也就是说,流动人口在工作地点是流动的,但在自己户籍所在地却是常住的。这样利用两个抽样框抽样时,实际上流动人口是抽了两次。从理论上讲,对于流动人El中的集体户,特别是那些集体外出打工的施工队,可以考虑在这些人常住户口所在地将其删除掉。当然,这只是理论上的考虑,实际操作存在很大的困难。而对于流动人口中的暂住人口,则可近似认为他们在自己常住户El所在地的分布是零散的,相对于那些地方的常住人口而言数量较少,因此可以考虑忽略不记。 解决流动人口抽样除了采用上面的按集体户和门牌号码抽样外,分层调查并加权抽样和区域抽样也是可行的解决方案。 (三)追踪调查中的样本轮换 追踪调查通常需要确定一个相对固定的样本,然后根据研究需要连续追踪调查这个样本中的个体,这些个体至少被调查两次。通过固定样本对个体进行常规的追踪,不仅可以连续地获得信息,而且还不要求个体对过去的事情进行回忆,这无疑可以减少观察误差。当前中国社会处于快速变动之中,追踪调查是一项经常被研究者采用的观察技术,特别是那些针对特殊人群或企业的研究,更是经常采用此项技术来观察某些变量或参数随时间变化的情况。例如,始于l991年的全国私营企业主调查,就是在中央统战部和全国工商联的协助下,每两年一次在全国31个省、市、自治区

此文档下载收益归作者所有

下载文档
你可能关注的文档
收起
展开