张厚粲，徐建平
北京师范大学出版社2009/1

48.00

在线试读 - 现代心理与教育统计学第3版

第二节次数分布表

　　次数分布（frequency distribution）显示初步整理后一组数据的分布情况，如：同一个观测值出现的次数，或者是每一个分数区间内包含的观测分数的个数。它主要表示数据在各个分组区间内的散布情况。依据它所显示的次数如何产生，次数分布可区分为简单次数分布、分组次数分布、相对次数分布、累积次数分布等。次数分布表和次数分布图就是各种次数分布的列表形式和图示形式。

编制次数分布表、图，是对数据进行初步整理的结果，它有助于了解一组数据的分布情况，不仅是用少量数字有效地概括了大量原始数据，揭示它们的意义，还可以节约呈现数据的时间。编制良好适用的次数分布表可以为做好统计计算奠定重要的基础。

一、简单次数分布表

简单次数分布表（simple frequency table）就是依据每一个分数值在一列数据中出现的次数或总计数资料编制成的统计表。举例如下：

【例２‐１】某公司人力资源部为了评估本公司某一部门主管人员的绩效，使用调查问卷对该部门员工实施民意调查。其中有一道选择题是：“你认为本部门现任主管尽职尽责的程度如何？ ①非常不尽职；②不尽职；③不置可否；④尽职；⑤非常尽职。”要求参加调查的８０名员工从选项中做出选择。总的结果依选项顺序分别为９、３０、１０、２５、６，试制作一个简单次数分布表。

解：下面的表２‐１就是根据这些员工在这道题目上的意见统计结果制作的一个简单次数分布表。

表 2‐　 80名员工对部门主管尽职程度调查结果

员工对主管尽职情况的评定人数

①非常不尽职９

②不尽职３０

③不置可否１０

④尽职２５

⑤非常尽职６

总计８０

　　在心理与教育研究中，许多态度、兴趣、偏好等测验或调查的结果，都能制作成这种简单次数分布表。另外，不管是按类别分的计数数据，还是连续性的测量数据资料，它们都适合编制这种统计表。当然，当一列连续性测量数据的数据个数很多，分数的分布范围又比较大的时候，就更适合于使用下面的分组次数分布表了。

二、分组次数分布表

当数据量很大时，应该把所有的数据先划分为若干分组区间，然后将数据按其数值大小划归到相应的组别内，分别统计各个组别中包括的数据个数，再用列表形式呈现出来，就构成了分组次数分布表（grouped frequency table）。

（一）编制分组次数分布表的步骤

１畅求全距

全距（range）指最大数与最小数两个数据值之间的差距。从被分组的数据中找出最大数与最小数，二者相减所得差数就是全距。

２畅决定组距与组数

组距（interval）是指任意一组的起点和终点之间的距离，用符号 i表示。决定组距的大小，需要以全距为参考。全距大，则组距可大一些；全距小，则组距可小一些。组距经常取２、３、５、１０、２０等数值，这样便于分组，便于计算分组区间和组中值。如果先确定了组数，就可以用全距除以组数后，取整数表示组距。

组数（分组数目）的多少要根据数据的多少来定。如果数据个数在１００以上，习惯上一般分１０～２０组，经常取１２～１６组。数据个数较少时，一般分为７～９组。如果数据的总体分布为正态，可用下面的经验公式计算组数

（K），这样可使分组满足渐近最优关系。 K＝１畅８７（ N－１）２５（N为数据个数，K取近似整数）

用这个公式计算出的组数，只是一个近似数。因为究竟能分多少组，与分组全距

时最低组的下限值和组距 i有关，因为 i＝K。有关研究指出，经验和理论

都证明，如果任一组观测数值被分为１０～１５组，全部信息就都被保留下来了。一般说来，分组数目或组距小有变化时，对次数分布表作用的显示和计算的准确性，不产生很大影响。因此对组数与组距并不要求严格界定。

那么，应该如何掌握分组的标准呢？一般说，分组数目多，则组距小，计算精确，但它要求总的数据量大，否则会出现有的组距内无次数分布的现象，那将使整个数据的分布规律显示不明显，也就不能发挥次数分布表的作

用了。如果分组少，组距就大，计算简单，但引进计算误差较大。因此，要做到既不增加搜集数据的工作量，又能使分组后的计算精确到最大限度，使用上述公式分组是一个较好的方法。

３畅列出分组区间

分组区间即一个组的起点值和终点值之间的距离，又叫组限。起点值称组下限，终点值称组上限，组限有表述组限和精确组限两种。例如，一组组距为１０的分组数据，它们的表述组限为１０～１９，２０～２９，３０～３９，４０～４９等，实际上它们的精确组限（或称实际组限）分别为９畅５～１９畅４９９，１９畅５～２９畅４９９，２９畅５～３９畅４９９，３９畅５～４９畅４９９等。这种做法是为了简便也易于计算。在写分组区间时要注意这样几点：在列出的分组区间内，最高组区间应包含最大的数据，最低组区间应包含最小的数据。最高组或最低组的下限最好是组距 i的整数倍。各分组区间一般在纵坐标上按顺序排列，数值大的分组区间排在上面，数值小的分组区间排在下面。在呈现表格时，各分组区间使用表述组限，并且为了书写方便，通常只用整数写下限值，然后在右侧画一横线。例如，前面组距为１０的一列数据的分组区间可写为１０～，２０～，３０～，４０～等。不过在登记次数时必须明确，一定要按精确组限将数据归类划分到相应的组别中。

４畅登记次数

依次将数据登记到各个相应的组别内，一般用画线记数（揣）或写 “正”字的方法。为确保登记准确，第一次登记后需再核实。

５畅计算次数

根据登记的结果计算各组的次数，计算各组次数的总和即总次数。并核对各组次数总和与数据的总个数是否相等。

然后，取消画线登记次数一栏，重新制表。新表包括的栏目有：第一列为分组区间，第二列为各分组区间的组中值。组中值是每组精确下限加上组距的二分之一，或精确下限与精确上限之和的一半。第三列为次数（f）。这样整理的统计表就是次数分布表，见表２‐３。表２‐３中第四列和第五列为相对次数，分别用频数比率（f／N）和百分次数表示，这两列有时可不用列出。

为了进一步熟悉并掌握编制分组次数分布表的具体方法，下面是一个具体实例。

【例２‐２】下面是１００名学生在某项测验中的成绩分数，试将它制成一个次数分布表。

７６畅０７７畅５８２畅０９０畅５８１畅０８５畅５７１畅０８０畅５９２畅５７７畅０８８畅０８１畅０７６畅５６７畅０８３畅０８４畅０８４畅０６２畅０７９畅０７２畅０８９畅０７８畅０７８畅０８０畅０７８畅５７６畅５７５畅０７９畅５８６畅０８１畅５７５畅０８４畅０９０畅０８０畅０８６畅０８４畅５６８畅５７１畅０８６畅０８１畅５７９畅５８０畅５７３畅０９３畅０８３畅０７２畅０６８畅０７１畅０８７畅０７８畅０６６畅０８３畅０８７畅０８２畅５７９畅５８０畅０８２畅０８１畅０８６畅５８３畅５７１畅５８３畅０９１畅０９６畅０７５畅５８９畅０８７畅５６９畅０７４畅０７０畅０７７畅５７５畅０７９畅０７９畅０８０畅５７４畅５７７畅０８２畅５７２畅５７３畅５７３畅５７６畅０８８畅５８５畅０８９畅５７８畅５７６畅０７４畅０９８畅０７３畅０９４畅０７９畅０８０畅０７５畅５８３畅５８２畅０６５畅０７４畅５８０畅０７０畅５

　　这一组学生成绩分数的分布范围在６２～９８之间，测验分数属于连续性

随机变量，编制分组次数分布表的方法步骤如下：第一步，找出最大值与最小值分别为９８畅０、６２畅０，全距为９８－６２＝３６。第二步，确定组数与组距。一般测验成绩的总体分布为正态分布，故将

N＝１００代入公式 K＝１畅８７（ N－１）２５计算得到 K＝１１畅７５。由于受组距及分组区间下限取值的影响，因此，使用公式计算组数并不能得到一个确切的值。在此例中将组数确定为１２，定组距为３畅０。也可使用其他方式来确定组数。

第三步，列分组区间。因为这组数据最小值为６２畅０，组距定为３畅０，因此，最低组的下限取为６０畅０，既可将最小值６２畅０包含在最低组内，其值又是３畅０的整数倍，这样比较好。各组区间可写为：６０畅０～，６３畅０～，６６畅０～，６９畅０～７２畅０～７５畅０～，７８畅０～８１畅０～８４畅０～８７畅０～９０畅０～９３畅０～，９６畅０～，

最高，组９６畅０，～９９畅０，也可将最，高分９，８畅０包括，进去。，为书写，方便，这里各分组区间用整数表示。在对数据进行分组时，按各组的精确组限归类，如：５９畅５～６２畅４９９，６２畅５～６５畅４９９，以下类推。第四步，登记与计算次数。登记次数时要特别注意处于分组区间分界点（breakpoint）上的几个值。如：６２畅５，６５畅５，６８畅５，７１畅５，７４畅５，７７畅５，８０畅５，８３畅５，８６畅５，８９畅５，９２畅５，９５畅５，都应登记到上一组。表２‐２是登记结果。登记完毕后应再核实一次，确保无误后，计算次数。表中 ∑ f是指所有各组的次数和。

表 2‐　次数分布表的登记表

分组区间登记次数次　　数

９６～｜

　　　　　２

９３～｜

３

９０～｜

４

８７～揣｜

８

８４～揣揣｜１１

８１～揣揣揣｜

１７

７８～揣揣揣｜

１９

７５～揣揣｜

１４

７２～揣揣１０

６９～揣｜

７

６６～｜

３

６３～｜１

６０～｜１

合计１００

　　第五步，编制次数分布表。这一步要注意组中值的计算。表２‐３是一个综合的次数分布表，其中的第一、二、三列共同组成了一个分组次数分布表，主要包括分组区间、组中值（midpoint of interval）和频数。第四、五列为相对次数，这两列可根据需要决定是否列出。

表 2‐　次数分布表

分组区间组中值（Xc）次数（f）频率（P）百分次数（％）

９６～９７　　　２０畅０２　　　２

９３～９４３０畅０３３

９０～９１４０畅０４４

８７～８８８０畅０８８

８４～８５１１０畅１１１１

８１～８２１７０畅１７１７

７８～７９１９０畅１９１９

７５～７６１４０畅１４１４

７２～７３１００畅１０１０

６９～７０７０畅０７７

６６～６７３０畅０３３

６３～６４１０畅０１１

６０～６１１０畅０１１

合计１００１畅００１００

（二）分组次数分布表的意义与缺点

编制分组次数分布表，可将一堆杂乱无序的数据排列成序。从表中可以发现各个数据的出现次数是多少，其分布的状况如何。如表２‐３告诉我们７７畅５～８０畅５这一组人数最多，９０分以上及７０分以下的人数较少。同时，次数分布表还可显示这一组数据的集中情况（平均值大约在７８～８０之间）及差异情况等。

分组次数分布表也有缺点。从表２‐３看，原始数据不见了，只见到各分组区间及各组的次数，所有的分组次数分布表都是这样。根据这样的统计表提供的数据资料计算得到的平均值，会与用原数据计算的值有一定的出入。这是由于用分组数据编制次数分布表时，假设各区间的数据均匀分布，并用各组的组中值代表各原始数据，而不管数据原来的情况所造成的误差，这个误差称归组效应。同一组数据，随着分组组距的加大，分组数目减少，引进的误差就会变大，反之则变小。不过根据次数分布表的编制要求，分组区间不能无约束变大。因此，就一组数据而言，组距的变化引进的计算误差也不会很大，对以后的进一步统计分析，一般不会带来需要注意的影响。从另一个角度讲，将不规则的数据按一定的规律加以调整，对以后进一步统计分析也有利。

三、相对次数分布表

将次数分布表中各组的实际次数转化为相对次数，即用频数比率（Nf ）或百分比（Nf ·１００％）来表示次数，就可制成相对次数分布表。表２‐３中，由第一、二、三列和第四列或者第五列组成的表，就是一个相对次数分布表。

四、累加次数分布表

在一般的分组次数分布表中，只标出各分组区间的数据次数。如果想知道某个数值以下或以上的数据的数目，就要用累加次数。累加次数（cu-mulative frequency）是把各组的次数由下而上，或由上而下累加在一起。最后一组的累加次数应等于数据的总次数。用累加次数表示的次数分布称为累加次数分布（cumulative frequency distribution）。累加次数的方法有两种。一种是从分布表的小数值端，逐区间进行次数累加，这种累加次数可回答次数分布表某一分组区间上限以下的次数是多少。另一种是从分布表的大数端逐区间累加次数，这种累加次数可回答某一分组区间下限以上的次数是多少。在心理实验中对感知阈限的测定、各种心理量表的编制、心理测验中的项目分析、教育管理及成绩比较（如百分位数与百分等级）等，经常会用到这种累加次数分布表。根据表２‐４中的次数分布，可整理成下面这样一个累加次数分布表。

表 2‐　累加次数分布表

次数向上累加次数向下累加次数

分组区间

（f）实际累加次数（cf）相对累加次数实际累加次数（cf）相对累加次数

９６～　２　　　１００　　１畅００　　　２０畅０２９３～３９８０畅９８５０畅０５９０～４９５０畅９５９０畅０９８７～８９１０畅９１１７０畅１７８４～１１８３０畅８３２８０畅２８８１～１７７２０畅７２４５０畅４５７８～１９５５０畅５５６４０畅６４７５～１４３６０畅３６７８０畅７８７２～１０２２０畅２２８８０畅８８６９～７１２０畅１２９５０畅９５６６～３５０畅０５９８０畅９８６３～１２０畅０２９９０畅９９６０～１１０畅０１１００１畅００

　　在表２‐４中，所列的累加次数有向上累加次数和向下累加次数，实际累加次数和相对累加次数几种情况，可根据需要选用，不必一一列出。有了这个累加次数表，就可比较方便地了解到某一分组区间上限以下的数据总数，或下限以上的数据总数。

五、双列次数分布表

双列次数分布表又称相关次数分布表，是对有联系的两列变量用同一个表表示其次数分布。所谓有联系的两列变量，是指同一组被试中每个被试两门学业成绩分数，或两种能力分数或两种心理特点的指标，或同一组被试在两种实验条件下获得的结果等。再如，各方面基本相同（如孪生子或智商相同）的两个被试进行同一测量所得到的结果也是有联系的。如果有多个这样的被试，他们的测试数据也构成有联系的两列变量。

编制双列次数分布表，首先按照分组次数分布表的编制方法，分别列出各变量的分组区间，将一列变量的分组区间竖列，将另一变量横列。竖列的小数端在下，大数端在上，横列的小数端在左而大数端在右。登记时，每次同一对变量（有联系的两个变量）同时登记在相应的格内，例如有 X为５０， Y为６０两个变量，那就在横列包含５０的分组区间、竖列包含６０的分组区间这两者相交处的方格内登记一次。表２‐５中的数据是分别测查得到的每一个被试的视觉及听觉反应时间：

表 2‐　 31人的视、听反应时（单位：毫秒）

被试听视被试听视被试听视

１１７４畅１１７７畅５１２１２８畅０１３８畅０２３２１１畅５２４２畅２

２１３６畅４１６７畅４１３１６８畅０１９１畅０２４１４１畅９２１２畅８

３１１８畅３１１６畅７１４１４３畅０１７１畅５２５１３０畅６１７１畅０

４１７８畅１１３０畅９１５１５４畅５１４７畅０２６１５０畅０２４１畅０

５１８６畅３１９９畅１１６１７１畅０１７２畅０２７１４０畅０１７６畅１

６１３５畅２１９８畅３１７２０５畅５１９５畅５２８１６６畅８１６５畅４

７２０３畅０２２５畅０１８１６１畅１１９０畅０２９１６４畅５２０１畅０

８２２９畅０２１２畅０１９１７９畅５２０６畅７３０１３３畅４１４５畅５

９１６３畅０１８０畅０２０１４０畅１１５３畅２３１１４７畅０１６３畅０

１０１４６畅５１７１畅０２１１９５畅６２１７畅０

１１１４４畅５１４４畅０２２１８１畅３１７９畅２

　　根据表２‐５结果，确定听反应时组距为２０毫秒，将其横列；视反应时的组距也为２０毫秒，将其竖列。编制双列次数分布表如表２‐６。

表 2‐　双列次数分布表

视听１００～１２０～１４０～１６０～１８０～２００～２２０～ Yf

２３０～｜｜２

２１０～｜｜｜｜４

１９０～｜｜｜｜｜｜｜７

１７０～｜｜｜｜｜｜｜｜８

１５０～｜｜｜｜４

１３０～｜｜｜｜｜５

１１０～｜１

Xf １５９８４３１３１

　　注：正式表要将格内次数用数字表示

六、不等距次数分布表

一般次数分布表都是等距的。但实际研究中常遇到不等距的情况，如工资级别、年龄分组等，若按等距分组不能确切地反映实际情况，这时可采取不等距分组的方法。

1...上一页 2 3 4 5 6 7 8910 11 下一页

在线试读 - 现代心理与教育统计学 第3版

在线试读 - 现代心理与教育统计学第3版