搜索

您现在的位置：圣才考研网 > 【笔记讲义】

应用统计学笔记——资料搜集与整理

圣才考研网
2016-01-25 16:57:58
阅读1098次

扫码手机阅读

用圣才电子书APP或微信扫一扫，在手机上阅读本文，也可分享给你的朋友。

使用统计方法的目的，是为了了解母体的某些特性，据以预测或判断某些事件将来发生的可能性或机率，作为决策的参考或依据。资料指的是将这些特性以简单的文字或数据（data）表示出来，每一种特性称为一种变项（variable），所以数据是由一种以上的变项所组成的。如果是文字变项的数据，通常称为质性资料（qualitative data），指的是从不同的角度，用不同的简短文字来描述某一种特性，所以质性研究通常包含许多不同文字描述的内容，例如满意度和支持度等。如果是数字变项的数据，通常称为量性数据（quantitative data），指的是使用相同的单位，用不同的量度数据来描述某一种特性，所以量性数据通常包含许多不同单位的数据，例如身高和所得等。总而言之，数据报含质性数据和量性数据，通常为了处理上的方便，会将质性数据量化成量性数据，所以数据通常是数量化的大量数据。

使用统计方法得到的结果，用以预测或判断某些事件将来发生的可能性或机率的准确性，取决于所搜集资料的准确性，所以资料搜集过程就很重要。资料就其搜集所得来源的不同，或是经过整理分，分为以下：

原始资料（primary data）：直接由样本或原始来源处搜集得到，而且没有经过整理的资料，又称初级数据或直接数据，通常是一堆杂乱无章的答案或数据。例如由受访者直接填写的问卷调查表，或某公司人事档案里每一位员工个人的基本数据等。

原始数据的量度层次（测量尺度）：原始数据的搜集，不论使用何种方法，都必须经过量度的过程。所谓量度，指的是按照所需数据的特性，使用恰当的工具或仪器，对样本进行观测，把观测到的结果记录下来的过程。所以如何得到适当而合用的数据，必须考虑各种不同的变项的量度层次（level）或尺度（scale）问题，也就是数据的繁简程度问题，才能使用适当的工具或仪器对样本搜集数据。为了让使用者有所依循，一般而言，任何一种变项在量度前，都必须考虑是搜集到类别（nominal）、序位（ordinal）、等距（interval）或等比（ratio）等四种量度层次中的那一种层次，这四个层次（尺度）依序有?迭床架屋?的情形【也就是说后面的量度层次（测量尺度）具有前面的那个特性】，再加上一些额外的特性。变项的量度层次又称为变项的测量尺度（scale of measurement）。

类别层次（名目尺度）：变项的内容是文字型态，属于质性数据。将样本依性质分成不同的类型，类型之间有明显的差别，而且彼此之间可能没有关联，每一个样本只能属于其中一种类型，称为类别层次，是最基本和最低层次的量度方式。例如，搭乘公交车依据门上的画线高度分成要买票和不要买票，将性别分别男性和女性，将血型分成A型、B型、O型及AB型，将职业分成军、公、教、工、商、农、医和其他等。有时候为了方便数据的整理，尤其是使用计算机整理数据，通常会将质性数据转换成量性数据，转换的过程是将各种不同的类型，各给予一个任意不同的代号或数据，例如：

用01代表A型、

02代表B型、

03代表O型、

04代表AB型等，代号或数量可以随实际需要而设定。

序位层次（顺序尺度）：变项的内容是文字型态，通常是属于质性数据。样本除了可以依性质分成明显不同的类型外，类型之间还能够分出等级或排出顺序，但不容易以数字确实表达出等级或顺序之间的差距，或能以数字确实表达出等级或顺序之间的差距，但并没有实用上的价值，也就是不能或没有必要量出其差距，称为序位层次，是次低层次的量度方式。一般问卷设计常用李克特量表（Likert scale）或偏好排序；例如，对顾客满意度调查通常分为很满意、满意、普通、不满意和很不满意等五种等级，但等级之间的差距，因人而异，并没有一定的标准，因此不能以确定的数字来表示等级间的差距；举行赛跑时，最先到达的称为第1名，第二到达的称为第2名，第三到达的称为第3名，与到达时间差距无关，皆可以得到预设的奖励，类似这样的问题，只要得到序位层次的量度结果就可以了。有时候为了方便数据整理，尤其是使用计算机整理数据时，通常会将质性数据转换成量性数据，转换的过程是将各种不同的等级或顺序，各给予一个任意不同的数值，例如，

用5分代表很满意。

用4分代表满意。

用3分代表普通。

用2分代表不满意。

用1分代表很不满意。

又如运动会拿到

第1名得5分。

第2名得3分。

第3名得1分。

总分最高分可以得到总锦标。

等距层次（区间尺度）：变项的内容是数字型态，属于量性数据。样本除了可以依性质或数据分成明显不同的类型外，类型之间还能够分出等级或排出顺序，而且有必要能够以数字确实表达出等级或顺序间的差距，称为等距层次，是次高层次的量度方式。这层次的量度结果通常包含数字和单位，例如：

日夜的温差是5℃，

学业成绩第1名与第2名相差2．5分，

赛跑第1名与第2名相差1．3秒等。

等比层次（比率尺度）：变项的内容是数字型态，属于量性数据。样本除了可以依性质或数据分成明显不同的类型外，类型之间还能够分出等级或排出顺序，能够以数字确实表达出等级或顺序之间的差距，而且有必要且能够以数字确实表达出等级或顺序之间的比例，称为等比层次，是最高层次的量度方式。这层次的量度结果因为是比值，所以通常只有数字没有单位，例如：

这颗树的高度是那颗树高度的2倍，

他的钱只有他的1/10，

他的得票数是他的1/2等。

层次间的关系：

类别和序位层次的数据通常用文字表达其结果，属于质性数据，例如：

用男人比女人多，

他是第1高票，他是第2高票，他是第3高票

等来表达，而不用或不能用数字来表达的数据皆属之。通常序位层次量度的结果，可以化简成类别层次的数据，但是类别层次量度的结果，则很不容易推展成序位层次的数据，例如，可以把满意度里的很满意、满意和普通合并成满意，把不满意和很不满意合并成不满意，就是把序位层次量度化简成类别层次的数据，反之，则行不通。

等距和等比层次的数据通常用数字表达其结果，属于量性数据，例如：

中午的气温比早上高3℃，

讲桌的高度是课桌高度的2倍

等，可以用数字来表达差距或比率的数据皆属之。通常等比层次量度的结果，可以化简成序位或类别层次的数据。但是类别、序位或等距层次量度的结果，也很不容易推展成等距层次的数据。例如高度可以算出比值或差距，可以排出高度顺序，或分出高与矮；如果只知道上公交车要不要买票的高与矮，则很难对顾客身高排出高度顺序，算出比值或差距。

等距和等比层次的量度，有其实质上的限制，换句话说，有些变项只能得到等距的量度层次，主要的分别在量度起点?0?值的真实意义，如果量度工具起点?0?值是真正表示?没有?，才能作等比层次的度量，例如高度是0cm表示没有高度，重量是0kg表示没有重量，所以身高和体重可以作等比层次的量度；如果量度工具起点的?0?值是随需要指定的，不是也不能用来表示?没有?，则只能作等距层次的量度，例如摄氏0度和华氏0度的?0?值，是分别视实际需要订定的，而且0度也不是表示没有温度，所以温度只能量到等距的层次。

总而言之，

等比包含等距、序位和类别层次的数据，所以包含的讯息（information）最多，在等比层次时，可以作加、减、乘或除的运算；

等距包含序位和类别层次的数据，所以包含的讯息是次多，在等距层次时，只能作加或减的运算。

序位层次只包含类别层次的数据，所以包含的讯息是次少，在序位层次时，只能排出高低或大小。

类别层次包含的讯息是最少，只能分出同或异。

当等比或等距的数字数据，转换成序位或类别的文字数据时，通常可以顺利转换。

当序位或类别的文字数据，转换成等比或等距的数字数据时，必须设定成数值，如果设定值不同，可能得到不同的结果，这是作转换时必须特别注意的地方。

原始资料的搜集方法：抽出样本，确定了变项及其量度层次之后，就要考虑用什么方法搜集资料了。通常使用调查（survey）或实验（experiment）的方法搜集资料，调查通常是在最自然的情况下进行，而实验是在控制某些因素下进行，依实际需要选择使用方法，必要时也可能同时进行。

调查：使用调查方法搜集的目的，是为了得到最自然和最真实的原始数据，所以在搜集数据的过程中，必须对样本不产生任何控制或干扰，使其在最自然的状况下，提拱所需的数据。例如私家侦探的暗中调查或者在闲聊中取得某些资料等。调查通常使用访问（interview）或观察（observa－tion）二种方法搜集资料。

访问：如果调查的对象是人，通常会利用访问的方法。访问前必须根据样本和变项的特性，设计一份问卷调查表，如果只有问题而没有指定答案，称为开放式（open ended）或非限制式问卷；如果所有问题皆指定答案，称为封闭式（close ended）或限制性问卷。开放性问卷较容易搜集到完整的数据，但整理数据的过程较为复杂，而且有可能得不到具体的结论；封闭式问卷搜集到确定答案的数据，整理数据的过程较为简单，但有可能得不到真实的答案。为了实际上的需要，可能同时采用部分开放和封闭式的混合式问卷。新设计的问卷应该符合简单、明了、容易回答、容易使用和容易处理为原则，而且必须经过预测的过程，做适当的修订，以确定问卷的适用性和准确性。访问因为采用问卷以问答方式进行，通常称为问卷调查。访问方式有当面访问、电话访问和邮寄（派人分发）问卷访问。

观察：如果样本不能回答问题或不必回答问题，通常会使用观察的方法搜集资料，换句话说，所搜集的是有关样本行为或现象的数据。例如，暗中观察偷窃者的动作或表情，恐布电影观众的表情等。观察项目（变项）、观察方法、量度方法和记录方法，均须事先设定，并据以设计标准化的表格。表格并没有一定的格式，以观察人员容易填写不会产生偏差，以及事后容易处理为原则。观察法通常是在最自然的情况下进行

但仍然有让被观察者知道的正面观察法，

不让观察者知道的暗中观察法，

行为或现象发生时的直接观察法，

以现在行为或现象推测过去行为或现象的间接观察法，

用观察员进行的人为观察法，

以及使用特定仪器的仪器观察法等。

观察法不受样本是否有被调查意愿的影响，所以较能客观和正确的记录各种外在行为或现象，而且适合使用于人以外的样本上。但观察法通常会受时间和地点的限制，观察时间长且成本高，而且不能观察内在的和过去的行为或现象。

实验：如果想知道统计结果会受那些因素的影响?通常会针对这些因素，经过特别设计，然后对样本进行观察或量度（measurement），这种方法称为实验。这些因素通常会被分为：

自变项（independent variable）又称为实验变项（experimental variable）、因（cause）或处理（treatment）。

应变项（dependent variable）又称为标准变项（ criterion variable）、果（effect）或后测（posttest）。

实验的目的是为了了解二者之间的因果关系，在实验过程中，是操控自变项，然后记录应变项的结果。实验法通常会受样本参加意愿，样本是否会受伤害，有些自变项可能不容易加以操控，以及不能大规模或长期实验等因素的影响。

原始数据的完整性：设计问卷调查表、观察表或实验表时，必须考虑其周延性（inclusion）（收敛效度探讨的问题）和互斥性（exclusion）（区别效度探讨的问题）。以利后续的资料整理和统计推论。

周延性：就是任何依据变项搜集的数据，都必须包含所有可能出现的答案。例如，使用?其他?、?180公分以上?或?2000元以下?等，以概括不容易划分清楚或可能很少出现的答案。

互斥性：就是变项与变项之间要有明显的区隔或差异，而答案与答案之间也要有明显的区隔或差异，不能模糊不清或重复出现，也就是任何数据只能有唯一的归属。例如不要在问卷同一题中同时出现?普通?、?差不多?和?还可以?的答案，以免难以决择，并造成统计推论的困扰，所以变项或答案之间要有互斥性。

原始资料的正确度（信度）和精度（效度）：在搜集数据的过程中，可能会产生两种类型的误差，影响数据的正确度（accuracy）和精度（precision）：

抽样误差（sampling error）：属于随机性误差（random errors），其出现是随机的，没有一定的规律或方向，只要使用随机抽样，就一定出现这类误差，所以是不可避免的误差，但可以用统计方法估计其大小，也可以用增加样本数来降低误差值。随机误差出现的机率愈高，量度结果的正确度愈低。正确度是指重复抽样后（样本可能不同），量度结果的一致性或偏差程度，可以用统计量和母数的差异程度来表示，又称为信度（reliability）。

非抽样误差（non－sampling error）：是由于人为或测量仪器不准确所造成的误差，通常会有一定的规律或方向，所以又称为系统性误差（systematic error）。人为误差包含调查（实验）员和被调查（实验）者所引起的误差。测量仪器的误差可以经由提高测量仪器的精密度而改善。非抽样误差出现的机会愈高，量度结果的精度愈低。精度是指对相同样本重复量度时，结果的差异程度，也就能得到正确量测答案的程度，又称为效度（validity）。

原始资料的整理：整理的方法有二种，分别是人工整理法和计算机整理法。

原始资料的分类：数据报含文字数据和数字数据，而且数据通常与时间、地区或空间有关，因此，整理数据时，必须依据简单化和系统化的原则，按照数据的特性，分别依序排列成一串数字，称为统计数列。换句话说，就是将原始资料整理成统计数列。常用的统计数列有下列四种：

性质数列（series of attributes）：类别或序列层次量度得到的文字数据，属于分类变项（categorical variable）、定性变项（qualitative variable）或性质变项，这类变项量度的结果不能用数量表示，只能用文字描述特性。但通常为了方便计算机处理，会将量度的结果加以数量化。将相同时间、相同地区所量得的性质变项，按数量化后的特定顺序或重要性排列的数据或统计量，称为性质数列或属性数列，例如八月份台北市民对交通状况的满意度数列。

数量数列（series of variates）：等距或等比层资量度得到的数字数据，属于数值变项（numerical variable）、计量变项（quantitative variable）或定量变项，这类变项量度的结果使用数量来表示，其数量可能是得自量度仪器的读数，或者是由量度者依据主客观条件自行设定的值。数值变项依其数字表现方式，又分为以下两种：

间断变项（discrete variable）：得自可以一个一个数出来的点计（conting或enumerating）结果，二个点计之间不可能再出现任何数值，点计值数量是有限个体数的，所以又称为有限变项，例如，消费次数、投票人数、搭乘公交车次数和转车次数等。

连续变项（continuous variable）：得自测量（measurement）的结果，二个测量值之间可能再出现其他测量值，测量值数量是无限个数的，所以又称为无限变项，例如，身高、体重、得票率和人口密度等。

时间数列（time series）：相同地区相同特性的性质变项或数值变项，按发生时间的先后顺序排列的数据或统计量，称为时间数列或历史数列，例如，民国80年至89年，某公司在台北市的营业额。

空间数列（spatial series）：相同时间相同特性的性质变项或数值变项，按不同地区的特定顺序排列的数据或统计量，称为空间数列或地理数列，例如民国88年，台湾地区各县市的交通事故件数。

次级资料（secondary data）：他人搜集的原始资料，经过整理分析或简化后，得到明确、简单而具体的答案或数据，称为次级数据、现成数据、二手数据或间接数据。通常次级资料是得自内部报告或已刊登文献的结果，例如侯选人经常利用整理后的民调或传播媒体刊登的民调，了解支持度或满意度；经销商告知顾客各厂牌小客车每公里的平均耗油量等。搜集次级资料的过程，通常是先确定所需的数据，然后寻找数据的可能来源，再着手搜集数据，最后是判断数据的适用性。次级数据的应用也称为文件（documents）或文献的应用。

次级数据通常可以免费取得，可以节省再度搜集类似原始资料的时间和金钱。而某些原始数据不可能或不易搜集，经由次级数据，仍然可以得到答案。例如政府公布的户口普查结果，是属于不可能得到的原始数据的次级数据。

次级数据是为了其他目的而整理出来的数据，其使用单位、整理方法和数据时间，是否适合使用，是值得考虑的问题，而次级数据的正确性往往难以评估，更使得次级数据的价值受到限制。但次级数据可由其来源，发表目的或过程的细节是否清楚，判断其正确性与适用性。

补充说明：李克特量表为一种量表设计方法，其利用陈述性语句，配合衡量受测量态度或意见的选项及分数，来衡量属质变量。其步骤如下：

针对研究命题搜集大量的论点。（例如：开放三通将有利于台湾经济发展）。

针对每一个论点设定其反映的类别及分数（由同意至不同意可以设定几点尺度，尺度的数目依研究目的及变数性质而定。

将论点随机排列。

由研究对象中选取小样本，建立基本的数据组，将样本依总分数由大至小排列、分组，计算各组、各论点的平均值。

选择组间平均值差异大的论点为问卷题目。

最新推荐：2016年考研成绩查询时间汇总（含34所高校）

2017年考研报考指南专题

相关推荐：

点击查看 >>>2016年考研复试调剂指导专题