现代心理与教育统计学 第3版

> 现代心理与教育统计学 第3版

张厚粲,徐建平
北京师范大学出版社2009/1

48.00

第二节次数分布表

  次数分布(frequency distribution)显示初步整理后一组数据的分布情况,如:同一个观测值出现的次数,或者是每一个分数区间内包含的观测分数的个数。它主要表示数据在各个分组区间内的散布情况。依据它所显示的次数如何产生,次数分布可区分为简单次数分布、分组次数分布、相对次数分布、累积次数分布等。次数分布表和次数分布图就是各种次数分布的列表形式和图示形式。

编制次数分布表、图,是对数据进行初步整理的结果,它有助于了解一组数据的分布情况,不仅是用少量数字有效地概括了大量原始数据,揭示它们的意义,还可以节约呈现数据的时间。编制良好适用的次数分布表可以为做好统计计算奠定重要的基础。

一、简单次数分布表

简单次数分布表(simple frequency table)就是依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。举例如下:

【例2‐1】某公司人力资源部为了评估本公司某一部门主管人员的绩效,使用调查问卷对该部门员工实施民意调查。其中有一道选择题是:“你认为本部门现任主管尽职尽责的程度如何? ①非常不尽职;②不尽职;③不置可否;④尽职;⑤非常尽职。”要求参加调查的80名员工从选项中做出选择。总的结果依选项顺序分别为9、30、10、25、6,试制作一个简单次数分布表。

解:下面的表2‐1就是根据这些员工在这道题目上的意见统计结果制作的一个简单次数分布表。

表 2‐  80名员工对部门主管尽职程度调查结果

员工对主管尽职情况的评定 人数

①非常不尽职 9

②不尽职 30

③不置可否 10

④尽职 25

⑤非常尽职 6

总计 80

  在心理与教育研究中,许多态度、兴趣、偏好等测验或调查的结果,都能制作成这种简单次数分布表。另外,不管是按类别分的计数数据,还是连续性的测量数据资料,它们都适合编制这种统计表。当然,当一列连续性测量数据的数据个数很多,分数的分布范围又比较大的时候,就更适合于使用下面的分组次数分布表了。

二、分组次数分布表

当数据量很大时,应该把所有的数据先划分为若干分组区间,然后将数据按其数值大小划归到相应的组别内,分别统计各个组别中包括的数据个数,再用列表形式呈现出来,就构成了分组次数分布表(grouped frequency table)。

(一)编制分组次数分布表的步骤

1畅求全距

全距(range)指最大数与最小数两个数据值之间的差距。从被分组的数据中找出最大数与最小数,二者相减所得差数就是全距。

2畅决定组距与组数

组距(interval)是指任意一组的起点和终点之间的距离,用符号 i表示。决定组距的大小,需要以全距为参考。全距大,则组距可大一些;全距小,则组距可小一些。组距经常取2、3、5、10、20等数值,这样便于分组,便于计算分组区间和组中值。如果先确定了组数,就可以用全距除以组数后,取整数表示组距。

组数(分组数目)的多少要根据数据的多少来定。如果数据个数在100以上,习惯上一般分10~20组,经常取12~16组。数据个数较少时,一般分为7~9组。如果数据的总体分布为正态,可用下面的经验公式计算组数

(K),这样可使分组满足渐近最优关系。 K=1畅87( N-1)25(N为数据个数,K取近似整数)

用这个公式计算出的组数,只是一个近似数。因为究竟能分多少组,与分组全距

时最低组的下限值和组距 i有关,因为 i=K。有关研究指出,经验和理论

都证明,如果任一组观测数值被分为10~15组,全部信息就都被保留下来了。一般说来,分组数目或组距小有变化时,对次数分布表作用的显示和计算的准确性,不产生很大影响。因此对组数与组距并不要求严格界定。

那么,应该如何掌握分组的标准呢?一般说,分组数目多,则组距小,计算精确,但它要求总的数据量大,否则会出现有的组距内无次数分布的现象,那将使整个数据的分布规律显示不明显,也就不能发挥次数分布表的作

用了。如果分组少,组距就大,计算简单,但引进计算误差较大。因此,要做到既不增加搜集数据的工作量,又能使分组后的计算精确到最大限度,使用上述公式分组是一个较好的方法。

3畅列出分组区间

分组区间即一个组的起点值和终点值之间的距离,又叫组限。起点值称组下限,终点值称组上限,组限有表述组限和精确组限两种。例如,一组组距为10的分组数据,它们的表述组限为10~19,20~29,30~39,40~49等,实际上它们的精确组限(或称实际组限)分别为9畅5~19畅499,19畅5~29畅499,29畅5~39畅499,39畅5~49畅499等。这种做法是为了简便也易于计算。在写分组区间时要注意这样几点:在列出的分组区间内,最高组区间应包含最大的数据,最低组区间应包含最小的数据。最高组或最低组的下限最好是组距 i的整数倍。各分组区间一般在纵坐标上按顺序排列,数值大的分组区间排在上面,数值小的分组区间排在下面。在呈现表格时,各分组区间使用表述组限,并且为了书写方便,通常只用整数写下限值,然后在右侧画一横线。例如,前面组距为10的一列数据的分组区间可写为10~,20~,30~,40~等。不过在登记次数时必须明确,一定要按精确组限将数据归类划分到相应的组别中。

4畅登记次数

依次将数据登记到各个相应的组别内,一般用画线记数(揣)或写 “正”字的方法。为确保登记准确,第一次登记后需再核实。

5畅计算次数

根据登记的结果计算各组的次数,计算各组次数的总和即总次数。并核对各组次数总和与数据的总个数是否相等。

然后,取消画线登记次数一栏,重新制表。新表包括的栏目有:第一列为分组区间,第二列为各分组区间的组中值。组中值是每组精确下限加上组距的二分之一,或精确下限与精确上限之和的一半。第三列为次数(f)。这样整理的统计表就是次数分布表,见表2‐3。表2‐3中第四列和第五列为相对次数,分别用频数比率(f/N)和百分次数表示,这两列有时可不用列出。

为了进一步熟悉并掌握编制分组次数分布表的具体方法,下面是一个具体实例。

【例2‐2】下面是100名学生在某项测验中的成绩分数,试将它制成一个次数分布表。

76畅077畅582畅090畅581畅085畅571畅080畅592畅577畅088畅081畅076畅567畅083畅084畅084畅062畅079畅072畅089畅078畅078畅080畅078畅576畅575畅079畅586畅081畅575畅084畅090畅080畅086畅084畅568畅571畅086畅081畅579畅580畅573畅093畅083畅072畅068畅071畅087畅078畅066畅083畅087畅082畅579畅580畅082畅081畅086畅583畅571畅583畅091畅096畅075畅589畅087畅569畅074畅070畅077畅575畅079畅079畅080畅574畅577畅082畅572畅573畅573畅576畅088畅585畅089畅578畅576畅074畅098畅073畅094畅079畅080畅075畅583畅582畅065畅074畅580畅070畅5

  这一组学生成绩分数的分布范围在62~98之间,测验分数属于连续性

随机变量,编制分组次数分布表的方法步骤如下:第一步,找出最大值与最小值分别为98畅0、62畅0,全距为98-62=36。第二步,确定组数与组距。一般测验成绩的总体分布为正态分布,故将 

N=100代入公式 K=1畅87( N-1)25计算得到 K=11畅75。由于受组距及分组区间下限取值的影响,因此,使用公式计算组数并不能得到一个确切的值。在此例中将组数确定为12,定组距为3畅0。也可使用其他方式来确定组数。

第三步,列分组区间。因为这组数据最小值为62畅0,组距定为3畅0,因此,最低组的下限取为60畅0,既可将最小值62畅0包含在最低组内,其值又是3畅0的整数倍,这样比较好。各组区间可写为:60畅0~,63畅0~,66畅0~,69畅0~72畅0~75畅0~,78畅0~81畅0~84畅0~87畅0~90畅0~93畅0~,96畅0~,

最高,组96畅0,~99畅0,也可将最,高分9,8畅0包括,进去。,为书写,方便,这里各分组区间用整数表示。在对数据进行分组时,按各组的精确组限归类,如:59畅5~62畅499,62畅5~65畅499,以下类推。第四步,登记与计算次数。登记次数时要特别注意处于分组区间分界点(breakpoint)上的几个值。如:62畅5,65畅5,68畅5,71畅5,74畅5,77畅5,80畅5,83畅5,86畅5,89畅5,92畅5,95畅5,都应登记到上一组。表2‐2是登记结果。登记完毕后应再核实一次,确保无误后,计算次数。表中 ∑ f是指所有各组的次数和。

表 2‐ 次数分布表的登记表

分组区间 登记次数 次  数

96~ |

     2

93~ |

90~ |

87~ 揣|

84~ 揣揣| 11

81~ 揣揣揣|

17

78~ 揣揣揣|

19

75~ 揣揣|

14

72~ 揣揣 10

69~ 揣|

66~ |

63~ | 1

60~ | 1

合计100

  第五步,编制次数分布表。这一步要注意组中值的计算。表2‐3是一个综合的次数分布表,其中的第一、二、三列共同组成了一个分组次数分布表,主要包括分组区间、组中值(midpoint of interval)和频数。第四、五列为相对次数,这两列可根据需要决定是否列出。

表 2‐ 次数分布表

分组区间 组中值(Xc) 次数(f) 频率(P) 百分次数(%)

96~ 97    2 0畅02    2

93~ 94 3 0畅03 3

90~ 91 4 0畅04 4

87~ 88 8 0畅08 8

84~ 85 11 0畅11 11

81~ 82 17 0畅17 17

78~ 79 19 0畅19 19

75~ 76 14 0畅14 14

72~ 73 10 0畅10 10

69~ 70 7 0畅07 7

66~ 67 3 0畅03 3

63~ 64 1 0畅01 1

60~ 61 1 0畅01 1

合计 100 1畅00 100

(二)分组次数分布表的意义与缺点

编制分组次数分布表,可将一堆杂乱无序的数据排列成序。从表中可以发现各个数据的出现次数是多少,其分布的状况如何。如表2‐3告诉我们77畅5~80畅5这一组人数最多,90分以上及70分以下的人数较少。同时,次数分布表还可显示这一组数据的集中情况(平均值大约在78~80之间)及差异情况等。

分组次数分布表也有缺点。从表2‐3看,原始数据不见了,只见到各分组区间及各组的次数,所有的分组次数分布表都是这样。根据这样的统计表提供的数据资料计算得到的平均值,会与用原数据计算的值有一定的出入。这是由于用分组数据编制次数分布表时,假设各区间的数据均匀分布,并用各组的组中值代表各原始数据,而不管数据原来的情况所造成的误差,这个误差称归组效应。同一组数据,随着分组组距的加大,分组数目减少,引进的误差就会变大,反之则变小。不过根据次数分布表的编制要求,分组区间不能无约束变大。因此,就一组数据而言,组距的变化引进的计算误差也不会很大,对以后的进一步统计分析,一般不会带来需要注意的影响。从另一个角度讲,将不规则的数据按一定的规律加以调整,对以后进一步统计分析也有利。

三、相对次数分布表

将次数分布表中各组的实际次数转化为相对次数,即用频数比率(Nf )或百分比(Nf ·100%)来表示次数,就可制成相对次数分布表。表2‐3中,由第一、二、三列和第四列或者第五列组成的表,就是一个相对次数分布表。

四、累加次数分布表

在一般的分组次数分布表中,只标出各分组区间的数据次数。如果想知道某个数值以下或以上的数据的数目,就要用累加次数。累加次数(cu-mulative frequency)是把各组的次数由下而上,或由上而下累加在一起。最后一组的累加次数应等于数据的总次数。用累加次数表示的次数分布称为累加次数分布(cumulative frequency distribution)。累加次数的方法有两种。一种是从分布表的小数值端,逐区间进行次数累加,这种累加次数可回答次数分布表某一分组区间上限以下的次数是多少。另一种是从分布表的大数端逐区间累加次数,这种累加次数可回答某一分组区间下限以上的次数是多少。在心理实验中对感知阈限的测定、各种心理量表的编制、心理测验中的项目分析、教育管理及成绩比较(如百分位数与百分等级)等,经常会用到这种累加次数分布表。根据表2‐4中的次数分布,可整理成下面这样一个累加次数分布表。

表 2‐ 累加次数分布表

次数向上累加次数向下累加次数

分组区间

(f)实际累加次数(cf)相对累加次数实际累加次数(cf)相对累加次数

96~ 2   100  1畅00   20畅0293~3980畅9850畅0590~4950畅9590畅0987~8910畅91170畅1784~11830畅83280畅2881~17720畅72450畅4578~19550畅55640畅6475~14360畅36780畅7872~10220畅22880畅8869~7120畅12950畅9566~350畅05980畅9863~120畅02990畅9960~110畅011001畅00

  在表2‐4中,所列的累加次数有向上累加次数和向下累加次数,实际累加次数和相对累加次数几种情况,可根据需要选用,不必一一列出。有了这个累加次数表,就可比较方便地了解到某一分组区间上限以下的数据总数,或下限以上的数据总数。

五、双列次数分布表

双列次数分布表又称相关次数分布表,是对有联系的两列变量用同一个表表示其次数分布。所谓有联系的两列变量,是指同一组被试中每个被试两门学业成绩分数,或两种能力分数或两种心理特点的指标,或同一组被试在两种实验条件下获得的结果等。再如,各方面基本相同(如孪生子或智商相同)的两个被试进行同一测量所得到的结果也是有联系的。如果有多个这样的被试,他们的测试数据也构成有联系的两列变量。

编制双列次数分布表,首先按照分组次数分布表的编制方法,分别列出各变量的分组区间,将一列变量的分组区间竖列,将另一变量横列。竖列的小数端在下,大数端在上,横列的小数端在左而大数端在右。登记时,每次同一对变量(有联系的两个变量)同时登记在相应的格内,例如有 X为50, Y为60两个变量,那就在横列包含50的分组区间、竖列包含60的分组区间这两者相交处的方格内登记一次。表2‐5中的数据是分别测查得到的每一个被试的视觉及听觉反应时间:

表 2‐  31人的视、听反应时(单位:毫秒)

被试 听 视 被试 听 视 被试 听 视

1 174畅1 177畅5 12 128畅0 138畅0 23 211畅5 242畅2

2 136畅4 167畅4 13 168畅0 191畅0 24 141畅9 212畅8

3 118畅3 116畅7 14 143畅0 171畅5 25 130畅6 171畅0

4 178畅1 130畅9 15 154畅5 147畅0 26 150畅0 241畅0

5 186畅3 199畅1 16 171畅0 172畅0 27 140畅0 176畅1

6 135畅2 198畅3 17 205畅5 195畅5 28 166畅8 165畅4

7 203畅0 225畅0 18 161畅1 190畅0 29 164畅5 201畅0

8 229畅0 212畅0 19 179畅5 206畅7 30 133畅4 145畅5

9 163畅0 180畅0 20 140畅1 153畅2 31 147畅0 163畅0

10 146畅5 171畅0 21 195畅6 217畅0

11 144畅5 144畅0 22 181畅3 179畅2

  根据表2‐5结果,确定听反应时组距为20毫秒,将其横列;视反应时的组距也为20毫秒,将其竖列。编制双列次数分布表如表2‐6。

表 2‐ 双列次数分布表

视听 100~ 120~ 140~ 160~ 180~ 200~ 220~ Yf

230~ | | 2

210~ | | | | 4

190~ | ||| || | 7

170~ | ||| ||| | 8

150~ | || | 4

130~ || || | 5

110~ | 1

Xf 1 5 9 8 4 3 1 31

  注:正式表要将格内次数用数字表示

六、不等距次数分布表

一般次数分布表都是等距的。但实际研究中常遇到不等距的情况,如工资级别、年龄分组等,若按等距分组不能确切地反映实际情况,这时可采取不等距分组的方法。