现代心理与教育统计学 第3版

> 现代心理与教育统计学 第3版

张厚粲,徐建平
北京师范大学出版社2009/1

48.00

第四节心理与教育统计基础概念

一、数据类型

对研究数据进行分类,了解数据类型和水平,对选用恰当的统计方法至关重要。因为不同类型的数据,适用的统计方法不同,也就是说各种统计方法各有其适宜的数据水平。根据不同的分类标准,心理与教育科学研究中的数据可以区分为不同的类型。

(一)从数据的观测方法和来源划分,研究数据可区分为计数数据和测量数据两大类

所谓计数数据(count data),是指计算个数的数据,一般属性的调查获得的是此类数据,它具有独立的分类单位,如人口数、学校数、男女数等等,一般都取整数形式。测量数据(measurement data)是指借助于一定的测量工具或一定的测量标准而获得的数据,如身高、体重、考试分数、智力测验分数、各种感觉阈,等等。

(二)根据数据反映的测量水平,可把数据区分为称名数据、顺序数据、等距数据和比率数据四种类型

称名数据(nominal data)只说明某一事物与其他事物在属性上的不同或类别上的差异,它具有独立的分类单位,其数值一般都取整数形式,只计算个数,并不说明事物之间差异的大小,比如性别、颜色类别、人口数、学校数、被试对某一事物的态度(赞成、反对、没有意见)等等,它们只能用具有相同属性的个体数目来统计。在教育和心理类调查研究中,有关被试属性的调查资料,大多属于这类数据。

顺序数据(ordinal data)是指既无相等单位,也无绝对零的数据,是按事物某种属性的多少或大小,按次序将各个事物加以排列后获得的数据资料。如学生的等级评定、喜爱程度、品质等级、能力等级、兴趣等。这种数据不具有相等单位,也没有绝对零点,只能排出一个顺序,不能指出相互间的差别大小。如五名学生的身高分别为1畅81 m、1畅79 m、1畅75 m、1畅70 m、1畅69 m,由高到低对应的排名次序为1、2、3、4、5。在这个例子中,身高排名第1的学生与排名第2的学生,身高差距并不等于身高排名第2的学生与第3名学生之间的差距。也就是说,这类数据不能进行加减乘除运算。

等距数据(interval data)是有相等单位,但无绝对零的数据,如温度、各种能力分数、智商等。只能使用加减运算,不能使用乘除运算。例如在某一能力测验中,学生 A得了80分,学生 B得了75分,学生 C得70分。鉴于这类数据的特点,在这个例子中,比较三个学生之间的能力分数时,可以说学生 A分数高于学生 B,学生 B高于学生 C,而且还可以说学生 A分数与学生 B分数之差等于学生 B与学生 C分数之差,因为等距数据在某个区间里具有相等单位。但由于这类数据不是从绝对零点算起的,所以不能认为在该能力测验中得零分的学生,他在这方面的知识、能力就为零。比较时只能用加减法,不能使用乘除法。在这个例子中,也就不能说学生 A知识、能力是学生 B的多少倍。

比率数据(ratio data)既表明量的大小,也有相等的单位,同时还具有绝对零点,如身高、体重、反应时、各种感觉阈值的物理量等都属于这种数据类型。例如,在一个家庭中,父亲的身高是1畅80 m,母亲的身高是1畅65 m,5岁儿子的身高是0畅90 m。在这个例子中,可以说父亲的身高是他儿子身高的两倍。

(三)按照数据是否具有连续性,把数据划分为离散数据和连续数据

离散数据(discrete data)又称为不连续数据,如从事某一职业的人数、球赛比分、班级个数等。这类数据在任何两个数据点之间所取的数值的个数是有限的。连续数据(continuous data)指任意两个数据点之间都可以细分出无限多个大小不同的数值。如年龄、长度、重量、自信心分数等,至少在理论上从最高到最低之间都可以进一步细分。对于连续性数据的进一步细分,一是取决于测量技术所允许的精确程度,二是取决于测量值所需要的精确程度。而离散数据一般是取整数,两个单位之间不能再划分细小单位。在心理和教育调查研究、问卷研究、访谈研究等质性研究的实践操作中,这两种数据的区分非常明显。这两种数据的分布规律不同,相应的制表作图方法也不同,所使用的统计方法也有区别。另外,一般情况下计数数据大都是离散数据。

二、变量、观测值、随机变量

所谓变量(variables),就是指心理与教育实验、观察、调查中想要获得的数据。数据获得前用 “X”表示,即为一个可以取不同数值的物体的属性或事件,其数值具有不确定性,因而称它为变量。比如,头发的颜色,它是头发的一个属性,可以取棕色、黄色、红色、灰色等不同的值。在心理学研究中,像自信心、社会支持度、个人自控力等都能成为研究的变量。一旦确定了某个值,就称这个值为某一变量的观测值(observation),也就是具体数据(data)。

由于变量在测查之前,不能准确地预料会获得什么样的值。在统计学上,把取值之前不能预料取到什么值的变量,就称为随机变量。与变量相反的是常数(constant),它在一定范围内其数值不会随意改变。如圆周率为3畅1415926。

一般用大写的 X或 Y ..表示随机变量。为了表示区分不同实验或不同测量方法得到的随机变量,有时用 X1,..,Xn或 Xi表示一列随机变量,而用 Yi表示另一列随机变量,或简写为 X,Y。

由于变量的变异性,测量时数据不是绝对精确,特别是连续变量,其数值只是表示连续变量的中央点值,在数轴上表示的是一段距离,或一个区间。因此,一个随机变量不管是写成整数或小数,实际上是用一个单位的中央点表示在它以上和以下各有一段距离,这牵涉到数的上、下实限问题。在心理与教育统计中也有特殊的情况。如年龄的表示,一般5岁是指5岁开始到5岁11个月又30天,即从4周岁到5周岁生日纪念之间,年龄的数值不是代表中间点,而是指开始点。另外,计数数据属于离散的随机变量,用来描述离散变量的数据值表示的也只是一个点值。

三、总体、样本与个体

总体(population),又称母全体、全域,指具有某种特征的一类事物的全体。总体是所欲研究的某一类对象的全体,总体的大小随研究的问题而改变。构成总体的每个基本单元称为个体(individual)。在心理与教育研究中,有时是指 “人”,有时是指某种实验条件下的某一个反应,或指每一个实验结果、每一个数据等等。从总体中抽取的一部分个体,称为总体的一个样本(sample)。样本是由总体的一部分构成的。有时个体又叫做一个随机事件或样本点。这样,总体就被称做样本空间,样本也就被称做样本点的某个集合。在心理与教育研究中,样本可以是实验中所选取的一组被试的实验结果,或一个被试的多次结果等等。实验中被试的数目,或一个观测重复的次数,称做样本大小(sample size)或样本容量(capacity of sample),通常用 n来表示。一般情况下,在心理与教育统计学中,把样本容量超过30的样本称为大样本,等于或小于30的样本称为小样本。样本越大,对总体的代表性就越强。样本小时,个别数值的变化会对整个统计结果发生重大影响。因此,样本容量数目不同,统计方法也不同。

总体中包含的个体有时是有限的,有时是无限的。有限个体的数目通常用 N来表示。构成总体的个体不限于人或物,也可指某种心理活动,例如反应时、推理能力、学习方法、对人面部特征的识记能力、解决问题的能力、对幸福的体验等等。如果研究的对象是某区域某些人的某种心理特点,这时总体所包含的个体是有限的,如果只是研究某种心理特点,则这一总体就是无限的。因为某种心理特点,测查这个区域的人可以得到,测查另外区域的人也能得到,因而这个总体就是无限的。总体本身的大小,有限还是无限,要依据研究问题的推论范围而定。

同时,总体与样本也可以互相转换变化。例如某校三年级学生,可作为该校学生的一个样本,同时也可当做本校现在三年级的总体。同时也是该校所有三年级学生的一个样本(所有的三年级包括过去的、现在的、以及未来的)。总体的性质由组成总体的各个个体的性质而定,要了解总体的性质,就必须对构成总体的个体进行观测。一般情况下,心理与教育研究中的总体常为无限总体,若对总体中所有的个体加以观测是不可能的。因此,在心理与教育科学研究中,当面对无限多个个体时,只有采用随机取样,通过样本来进行研究,然后通过样本对总体加以推论。样本的代表性越强,就能更准确地反映总体的情况。另外,在一定情况下样本亦可转变为总体,这需要依实际研究而定。

四、次数、比率、频率与概率

在一项研究中,我们对随机现象进行观察试验,在一定条件下,本质不同的事情可能出现,也可能不出现,这种事情称为随机事件,简称为事件。次数是指某一事件在某一类别中出现的数目,又称为频数(frequency),用 f表示。如在某一反应时实验中,其中反应时为180毫秒这一事件在整个反应时测定中出现的数目就称为它的次数。再例如一个班通过某测验时,成绩为90分的共有几个,这便是90分这一事件出现的次数。

两个数的比称为比率。当所比的两个数中,分子所表示的事物是做分母的那个数(基数)所表示事物的一部分时,比率又称为比例,百分数或百分率是比例的另一种表示形式。

频率,又称相对次数,即某一事件发生的次数被总的事件数目除,亦即某一数据出现的次数被这一组数据总个数去除。频率通常用比例(propor-tion)或百分数(percent)表示。

概率又称机率、或然率(probablity),用符号 P表示,指某一事件在无限的观测中所能预料的相对出现的次数,也就是某一事物或某种情况在某一总体中出现的比率。概率通常用比例表示。概率有的可知,有的不可知,但可用有限观察得到的某事件的频率作为估计值。如果知道了某事件的概率,就可知道该事件在实验中出现的可能性,因此概率又是反映某一事件发生可能性大小的量。

五、参数和统计量

在科学研究中,我们探寻的是关于所有事物总体的说明和解释。总体的那些特性称为参数(parameter),又称总体参数,是描述一个总体情况的统计指标。与此相对,样本的那些特征值叫做统计量(statistics),又称特征值。一个参数是从整个总体中计算得到的量数,通常是通过样本特征值来预测得到。统计量是从一个样本中计算出来的一些量数,它可以描述一组数据的情况。参数代表总体的特性,它是一个常数。统计量代表样本的特性,它是一个变量,随着样本的变化而变化。

参数和统计量之间最明显的区别是参数常用希腊字母表示,而样本统计量则用英文字母表示。如反映总体集中情况的统计指标,即总体平均数或期望值通常用小写希腊字母 μ(读作 mu)表示,与此对应的样本平均数的表示符号是 X或 Y。反映总体分散情况的统计指标标准差用小写希腊字母σ(读作 sigma)表示,方差常用 σ2表示,对应的样本符号是 s(或 SD)和 s2。表示某一事物两个特性总体之间关系的统计指标相关系数用小写希腊字母 ρ(读作 rho)表示,对应的样本符号为 r。表示两个特性总体之间数量关系的回归系数用小写希腊字母 β(读作 beta)表示,样本用符号 bXY或 bYX表示,等等。从上面所述可见,统计量是描述一组数据情况的统计指标,二者所用名称基本相同,但符号不一样,学习时要注意区别。在统计分析中,还要注意大、小写字母的区别。如“t检验 ”中的字母要用小写字母 t,不能用大写字母。另外,n与 N之间也有一定的差异。

当已知某一总体参数时,该总体所有数据 ———随机变量的分布特点,也意味着已知。总体分布常用分布函数表示,决定这个分布函数的主要参变量就是总体参数。总体参数与统计量之间还有一定的关系。从数值计算上讲,当总体大小已知并与实验观察的总次数相同时,它们是同一统计指标。当总体无限时,统计量与总体参数不同,但统计量可在某种程度上作为总体参数的估计值。通过样本统计量,对总体参数能够做出预测和估计。究竟如何估计,公式有何不同,这是心理与教育统计学所要讲述的内容之一。

小  结

本章介绍了心理与教育统计的基本概论性的知识,包括发展历史、研究内容、基本概念等。

(1)心理与教育统计是心理教育科学研究中一种重要的定量研究工具。它处理的数据具有随机性、变异性、规律性等特点。

(2)心理与教育统计是统计学的一个应用分支,它随着数理统计学的发展而发展;同时,心理与教育研究实践活动也进一步促进了数理统计学的发展。

(3)心理与教育统计的研究内容包括描述性统计、推论性统计、实验设计三个部分。

(4)心理与教育统计数据可分为不同类型,如计数数据和测量数据;称名数据、顺序数据、等距数据和比率数据;离散数据和连续数据。它们之间既有区别,又相互联系。不同类型的数据,相适应的统计处理方法也不同。

(5)变量、观测值与随机变量,总体、样本与个体,次数、比率、频率和概率,统计量与参数,这些概念是心理与教育统计学的基本概念,正确地理解它们,有利于更好地学习有关的统计方法。

进一步阅读资料

1畅教育研究的定量分析法,姜风华,中国教育学刊(京),1997年第5期第56~58页。

2畅教育研究中定量方法的局限性,谢小庆,心理发展与教育(京),1998年第1期第53~56页。

3畅统计陷阱,达莱尔 ·哈夫著,廖颖林译,上海财经大学出版社,2002年。

计算机统计技巧提示

本书介绍的统计软件为 EXCEL2000和 SPSS for Win11畅0。学习使用它们有五种方法:(1)使用软件的 “帮助 ”功能。(2)使用电子 “教程”。如 SPSS软件中的 “Tutorials”。(3)直接登录该软件的官方网站。 EXCEL的英文网站为: http:// www畅 microsoft畅 com/,中文网站为: http:// www畅 microsoft畅 com/china/。 SPSS的英文网址为 http:// www畅 spss畅com/,中文网址为:http:// www畅 spssgz畅 com畅 cn/和 http:// www畅 spssbj畅 com畅 cn/index畅 html。(4)利用互联网查找该软件的在线资源。(5)阅读软件用户手册或相关书籍。

在线资源

在 http:// www畅 statsoft畅 com/textbook/stathome畅 html这个网址,提供了一个电子版统计学教程(Electronic Statistics Textbook,EST)和一个统

计术语表(STATISTICS GLOSSARY),可免费下载,该资料也可在 “医学统计之星 ”网站(http:// medstatstar畅 myetang畅 com/)的“教材中心 ”下载。该网址另有一个电子统计指导员(Statistical Advisor),根据用户的统计任务要求,会一步步引导用户选择使用统计方法,同时还提供了一个进一步学习的参考文献列表。

在 http:// medstatstar畅 myetang畅 com/coach/stat/index畅 htm这个网址,有一个中文电子版 “统计学基础教程”。

思考与练习题

1.

名词概念

随机变量  总体  样本  个体  次数

频率    概率  统计量 参数  观测值

2.何谓心理与教育统计学?学习它有何意义?

3.选用统计方法有哪几个步骤?

4.什么叫随机变量?心理与教育科学实验所获得的数据是否属于随机变量?

5.怎样理解总体、样本与个体?

6.何谓次数、频率及概率?

7.统计量与参数之间有何区别和关系?

8.试举例说明各种数据类型之间的区别。

9.下述一些数据,哪些是测量数据?哪些是计数数据?其数值意味什么?

(1)17.0千克    (2)89畅85厘米   (3)199畅2秒(4)17人(5)25本(6)93畅5分

10.

说明下面符号代表的意义。 μ   X   ρ   r  σ   s   β   N   n

11.结合所学心理学知识,谈谈你对心理统计思想的初步理解。

12.熟悉 EXCEL软件,初步了解计算机在统计工作中的应用情况。