华师大心理测量和量表操作

心理测量和量表操作

大概的介绍。
凡是客观存在的事物都是有数量的。
――桑代克
凡是有数量的东西都是可以测量的。
――麦克尔
心理用间接测量。测量行为，来推测心理。
心理测量的结果不绝对。

I. 心理测量的发展史
一．中国古代的心理测量思想与实践
1905 法国――科学心理测量.
孔子――心理测量的思想
“中人以上，可以语上也；中人以下，不可以语上也。”
孟子“权，然后知轻重；度，然后知长短；物皆然，心为甚。”
刘劭《人物志》，“观其感变，以审常度。”
翻译后，名为《人类能力之研究》
韩非一手画圆，一手画方。到现在，用于测注意力
民间，周岁试儿到现在，婴幼儿的动作测量
古代的问答法到现在，临床谈话法，问卷法
庄子：九征到现在，情景法
博弈（棋）、九连环、七巧板――古代测智力水平的器具
八阵图。
二．心理测量早期探索及尝试
英国高尔顿最早想通过测量人的证明他的“遗传论”。
美国卞特尔心理学只有立足于实验与测量之上，才会有自然科学的准确度。
德国冯特心理测量的思想。
三．科学心理测量的诞生与发展
1905 法国比纳（Binet）
1895创办第一本心理学杂志《心理学年报》
心理测量的原理：把结果与他人比较，以求概括。
1905：比纳－西蒙量表（的标志）－标志着科学心理测量的诞生。
30题，从易到难。
1908、1911两次修订，制订了“智龄”之后，有斯坦福”－比纳量表（推孟修订，1916）[现在的所谓“比纳量表]引入了斯腾（德国）的心理商数概念，变化为：
智龄
IQ=_____ *100使不同年龄层次间儿童的智力水平比较成为可能。也叫比率智商
实龄
后来量表的特点
I. 操作性量表（比纳的量表是语言性量表）
II. 团体测验（比纳的量表是个别的测验）
III. 教育测验（学习测验，eg桑代克，斯坦福成就测验）
IV. 人格的测验
V. 特殊能力测验（eg音乐，绘画能力etc）
四．心理测验在中国的发展
1916 樊炳清介绍比纳的量表
1920 南京高等师范学校（现南大），廖世承、陈鹤琴开设心理测量课。之后，制定量表，开创杂志…
抗日战争开始一度中断。
1979后，心理测量在中国走进辉煌。智力测验方面，陆志韦，吴天敏；人格测验方面，肖孝嵘；艾伟，学业成就方面。－中国国内著名心理测量方面的学者。

第二章心理测量的性质
测量最基本的特征：对事物进行区分
一．测量的基本问题。
1.定义：利用一定的法则[现在，心理学中的法则还不完善，所以结果不精确]。
用数字对事物[心理学中，是对事物的特征及属性]加以区分（描述）。
“数字”的特性：
I. 区分性
II. 等级性/序列性
III. 等距性
IV. 可加性
2.要素
绝对的零点（没有此特性）－理想的参照点，加减乘除都可以
I. 参照点{
人为参照点只能加减，不能乘除。
确定的意义
II. 单位应有{
相等的价值
心理测量中的单位，不具有上面的特点，所以单位不够理想
eg“年龄”不具有相等的价值
∵4岁-5岁的1年比44-45的1年发展快得多。
3.种类
I. 名称测量/类别特征：仅区分功能，符号意义使用数学统计方法――次数、百分比、X2 、列联相关
II. 等级（代表符号－大于号，小于号）特~_ 分等性
使~ 中位数、百分位数、等级相关，秩次相关
III. 等距测量特~ 分等且等距
使~加减，均数，标准差，t检验F检验
IV. 比率测量（最好的一种测量水平）特~具有绝对零点
使~几何均数、等比量数，加减乘除
4.直接与间接测量
直接测量：准确
间接测量：需中介，可能失真

二．测量的特征
1. 定义：依据一定的心理学理论，使用一定的操作程序，给人的行为定出数量化的价值。
2. 可行性
3. 性质
I. 间接性（测外显行为，推测大脑中的活动）
II. 相对性
III. 客观性（测量要做到标准化）
4. 心理测量的水平
智力、价格测验等：等级测量
∵无绝对零点无等距的单位但，可转化为标准分数，则可使用等距测量的方法。

三．心理测验的基本概念
1. 定义心理测验是对行为样组的和标准化的测量
（eg题目代表全域，则题目是↑，数据结果也域，则数据也是↑）测量的编制实施，评分，解释都有一致性
四．心理测验的种类功能
I. 按功能分1.能力测验智力、潜力（eg职业能力）特殊能力
2.学习成就测验各科目的学习能力、技能掌握情况
3.人格测验态度、性格、情绪、气质
II. 按人数分1.个别测验
2.团体测验比较特点
III. 按材料分1.器具测验一类 (不绝对)
2.文字测验（纸笔测验）另一类
IV. 按目的分1.诊断测验（具体）
2.筛选测验（大致）[使用对象的不同]
功能
I. 人才选拔
II. 心理问题的预防与诊断
III. 对一个人能力等的评价
五．怎样正确对待心理测验
编制量表示合理使心理测验有偏差的原因
实施测验有问题
1.测验保密（内容保密、结果保密）
2.心理测验的资格（接受过培训、有考核）
3.测验常模的使用范围
4.不能“测定终身”。（过几个月可再测几次）
5.对测验本身的认识。（参照其他各方面情况，得出适当的结果）
6.测验结果不能作为歧视人的依据，操作规范。

第三章智力测验
1. 概述
1.定义：
智力――对问题的理解与推理的一般能力。
――具有正相关的特殊能力的总和。
――产抽象思维为核心的多种能力的总和。
↗ (国内较认同)
2.智力测验：
在一定条件下，使用特定的标准化测验量表，对被试施加测验，从被试的一定反应中测量共智力高低。
3.智龄与智商
I. 智龄
比率智商＝实龄 *100
推孟 10岁前 10-18
具体年龄点有
贝雷、韦克斯勒：13岁前 13-25
II. 离差智商
＝ X
同龄人-x
4.智商的稳定性和可变性
稳定性。时间间隔越短，相关越大；
第一次做，年龄小时做，与产后结果的相关越小（5岁后做较好）
可变性。
5.智商的分布和分类
分类：推孟的分类
IQ 140以上 120-140 110-120 90-110 80-90 70-80 50-70 25-50 25以下
类别天才上智聪颖中材迟钝近愚低能无能白痴
韦克斯勒的分类
IQ 类别理论（百分比）实际样组
130以上极优秀 2.2 2.3
120-129 优秀 6.7 7.4
110-119 中上 16.1 16.5
90-109 中等 50 49.4 }82%
80-89 中下 16.1 16.2
70-79 边缘 6.7 6.0
70以下智力缺陷 2.2 2.2
55-69轻度，可学习
40-55中度，可训练
25-39重度，需护理，训练后可处理
25以下极重度，全护理。
6.智力的性别差异
总体上，没有。
发展上，女性先快后慢；男性先慢后快。
女性在语言，记忆上强。男性在数理、空间上强。
女性分布集中，男性分布广。
7.遗传，环境对智力的影响
同卵双生子同一环境 .88（智力相关）
同卵双生子不同环境 .75
异生双生子相同环境同性别 .60
{
不同性别 .50
同胞兄弟姐妹相同环境 .50
不同环境 .35
无血缘关系，但自幼在同一环境下长大 .20
无血缘关系，但自幼在不同环境下长大 .00
另：亲生父母与子女的智力相关 .50
养父母与子女的智力相关 .30

&2.智力理论

斯腾伯格《超越智商》
智力非一个单一结构，是一个综合的有整体的结构
1.因素说，（英）斯皮尔曼
一般因素（G因素）
特殊因素（S因素）
2.多因素说，（美）桑代克－凯利。
反对二因素说（尤其是G因素）。
认为――智力是各种特殊能力的综合
3.群因素（美）瑟斯顿
智力可以分为各种组群，每一组群都有一共同的G因素。分为七种组群（语文理解，语词流畅，数字运算，空间关系，机械记忆、知觉速度、一般推理）
由于七个组群仍有较高相关，所以修改后的该理论加入了“次组因素”的说法。后来该理论被称为“群因―一般因素，理论”。
4.卡特尔流体智力与晶体智力。
流体~随神经系统成熟该能力自然发展开。是先天的。发展早衰退也早。
Eg.机械记忆，图形分辨（反应）知觉速度。
晶体~：受后天环境。教育的影响。
发展晚，后来会加快。Eg.语词.常识.词汇
5.智力的三维结构（吉尔福特美）
三维度内容操作成果
视听图形认知单元
符号记忆（短时长时）类别
语义发散性思维关系
行为会聚性思维系统
评价转换
蕴涵
4 * 5 * 6＝120
细分有5 * 6 * 6＝180（已找出105种因素）
6.三重结构论斯腾伯格
（认为：传统的智商是静态的。）
情境理论
三重：{经验理论
成分理论――核心内容
最基本的信息加工单元。元成分对其他成分进行计划、评价、加工等。另，操作成分执行元成分的指令，同时，有反馈；知识获得成分，选择问解解决的策略。
元成分：

操作成分知识获得成分
前两种理论，从外部世界、经验角度来看。
情境理论指出智力是主体对环境的适应、选择、改造。
经验理论指导测验编制中应运用大多数人都有（或无）的经验。或新异或熟悉。
7.智力的PASS模型
（DSA 戴斯）：要产全新的理论取代传统的。同时性
三个方面（三级认知功能）计划－注意－加工
↓ 继时性
这一状态决定是两步的基础。
生理基础：三级机能联合区。（鲁利亚）
DAS编制的智力测验：DN认知评价系统。分四个分量表：
I. 第一分量表（计划性功能系统）
视觉搜索，计划连接，数字匹配。
II. 第二分量表（注意－唤醒系统）
III. 同时性加工
图形记忆、矩阵问题，同时性言语加工。表现的注意，找数字，听觉选择注意。
IV. 继时性加工
句子重复、句子问题、字词测验

&3.智力测验
一．福－比纳量表（S－B量表）
1.19.6推孟第一次修订首次用“智商概念”（第一版）
1937推孟第一次修订采用复本的形式。（L版、M版）
1960推孟第三次修订删除过时的题目，对题目重新排版，两个版本合二为一，题量增加。（第三版）
1972在第三版上，对常模进行修改
1986第四次修订版（桑代克Hagen）对S-B量表大规模修改（第四版）
↑现在使用的版本。
2.理论框架与构成
引八卡特尔的“流体”“晶体”理论，及桑代克与Hagan的认知理论：∴理论框架是认知能力测验。
构成：3层次，15分测验
一般推理/理解能力

晶体智力流体智力/分析能力短时记忆
获取、运用语文、 I珠子记忆
数字的知识来解决抽象/视觉能力 II语句记忆
问题与学校教育有关 I对图形或形态的分析 III数字记忆
II仿造/仿画 IV物品记忆
III矩阵
IV折纸和剪纸
语文推理数量推理
I词汇 I算术
（小年龄，7岁上） II数列关系
II理解 III等式
III谬误
IV语文关系共15个分测验
3.S-B测验的特点
I. 内容上含概了更广的知识能力与信息加工的能力。
II. 采取分量表的形式（而前之版为年龄量表），框架有很大变化。对能力的各个方面进行评价。
III. 保留了传统的适应性测验
IV. 除了给总智商外，还有四个方面的分数及更多分支详细。
使用范围：2岁半~成人适于找出弱智或超常儿的人。
4.测验的实施与评分
先测词汇分测验，以其成绩及年龄决定起测点。停测点因卷而易。采取一边操作一边评分。评分多是“0/1计分”。每个分测验的分数相加（即：原始分数，转换成标准量表分把分测检量表分相加），查常模，得四个量表分。再把四个分相加得总智商。
二．麦卡锡幼儿智能量表（2岁半~8岁半）
（1972编）
1. 特点：
I. 测验材料起点低，近似玩具。
II. 不受民族、地域文化差异的影响。
III. 年龄范围侧重于学龄期儿童。弱智儿童可用到14岁。
2. 构成
五个分量表。十八个分测验
总智商
语言知觉操作数量记忆运动
I.图画记忆 I.积木 I.数的问题（把其他四部分（眼、手
II.语词知识 II.拼图 II.数字记忆与记忆有关的的动作）
III.语词记忆 III.连续敲击 III.计数和数的区分测验组合在一起）
IV.词语流畅性 IV.左右方向
V.反义类推 V.图形临摹
VI．画人
VII.概括归类
3. 评分
原始分数。查表，每分量表的分数相加，得合成粗分。
智商把前三部分的合成粗分相加得智商。还可评判“一侧性”（或叫“单侧化”）单侧化的完成也意味着智力的发展。
三．瑞文测验（Rowen）
渐进矩阵 A B C D E 60题标准型
A B C D36题彩色型－用于幼儿及弱智儿童
I
高级型
II
标准型+彩色型→联合型 5岁~75岁
A套：简单类比、直接辨别
B套：简单推理
8岁以前只做A.Ab.B三套即可。
C套：单维推理（数量、位移、组合）
D套：二维推理
E套：套合、互换
特点：无文化差别的问题，可用于大规模筛选。
四．韦克斯勒智力量表。
1. 发展：纽约贝勒维精神病院中，雏形，因为韦克斯勒认为：
比纳量表的常模不适于成人。
智商术法不适于成人。
智商并不能完全反映智力。
韦克斯勒提出离差智商
儿童量表：WISC,WISC-R（修订版）
WISC-Ⅲ
成人量表：WAIS,WAIS-R
学龄前及学龄初儿童量表(4.5岁-6.5岁)WPPSI,WPPSI-R
2. WISC-R简介
全量表

语言量表操作量表
语言量表
分测验：
I. 常识（生活常识－检查对日常事物的认知能力一般知识）
II. 类同
III. 算术
IV. 词汇
V. 理解
VI. 数字广度[备用替代]（智力有问题，顺背不超过5个，倒背不到3个）
操作量表
I. 填图
II. 图片排列
III. 积木
IV. 拼图
V. 译码
VI. 迷津←（备用/替代）
原始分查表，相加得分量表分，再相加，得全量表分。
1991年修订版

总智商

言语理解知觉组织注意集中加工速度
（常识，类同、（填图，图克服分心（译码、符号搜索）
词汇、理解）画排列，积（算术，
木，拼配）背数）
另配：
成绩测验：用于学力能力、策略上有困难的学生（智商不低）
五．考夫曼儿童成套评估测验（2 1/2岁~12 1/2岁）
Kanfman Assessment Battery for Children(K-ABC)
以Das的PASS模型为依据
设想效果：从认知心理学与神经心理学角度测量智力，不仅测量已有知识水平，而且测量解决新问题的能力。所得分数便于教育安排上的采用。
另，也有非语言量表

总量表

继时性加工同时性加工成就量表智力（－设想为解决
I.动作模仿 I.图形辨认 I.词汇表达新问题的能力
II.数字背诵 II.人物辨认 II.人地辨认流体智力（先天）
III.系列记忆 III.完形测验 III.数字运用智力量表分＝
IV.图形组合 IV.物体猜迷继时性加工的组分
V.图形类推 V.阅读发音 +同时性加工的得分
VI.位置记忆 VI.阅读理解（+非语言量表）
VII.照片系列晶体智力（后天）

§4对智力测验的反思的评价
1. 存在价值
2. 智力测验的优点
有标准化的过程――最大的优点
比通过学业成就来评价智力要科学得多。――
I. 评价人的各种能力
II. 评价范围广
III. 快速、有效
3. 存在的问题与局限性
局限性表现在
I. 智商只提供量的数据，而无质的分析
II. 只测当时的智力，而不能考虑到以后的发展速度和趋势
III. 标准答案有利于聚合思维、抽象思维和推理，而无利于发散思维
IV. 与文化教育有关，只能部分反映一个人的智力水平。（受理论局限）适应性行为也是智力的一部分。
V. 作智力测验受很多因素影响（Eg：情绪、动机、疲劳etc）
4. 智力测验的新理论与新方法。
I. 皮亚杰的发生认识论
重要的不在于对与错，而在于怎么推理得到了结果。方法：综合了观察、测量、访谈etc，组合成了――临床法。
II. 生态文化理论：
强调重视现时的环境、情景中人的智力活动。从各种社会环境中对智力进行评价。

第四章学业成就测验
（学绩测验、教育测验）*特征与智力测验相比的异用
旨在对学生在某一科目、某一知识中掌握的程度进行评价。
心理测验中的学业成就测验是标准化了的。
§1概述
一．发展
1.1894，Rice的拼字测验揭开了标准化测验的序幕
桑代克――教育测验之父
（学生）Stune的算术测验――最早的标准化的学科测验
桑代克的书法测验――第一个用科学方法编制的教育测量工具。
2. 性质：
学生对某一科目的学习效果，无预测功能。
3. 标准化测验与白编测验的不同之处。
I. 教师自编的测验因教师的进展，班级的情况的不同而不同，易反映所在学校现行的具体的教育目标；标准化中含有的教育目标更普遍。得到很多教育家的共识。
II. 标准化测验重于理解、思维过程；自编的测验重于具体知识。
二．成就测验的类型。
1.（综合）成套测验
斯坦福成就测验（幼级）
学术能力成就测验
基础教育及基本技能最低限度测验
2.单科测验
3.品质量表
4. 教师自编测验eg:作文（优缺点）
要求：
I. 量多，范围广，覆盖面大
II. 学生的回答形式越易越好
III. 要有客观标准的评分方法
IV. 测验形式多样化
V. 尽量用要推理思考的题目，避免机械记忆
第五章人格测验（个性）
Eysenck Personality Questionnaive (EPQ)
艾森克个性问卷。
1752年产生N分量表（神经质）
1959年 E分量表（外倾性）
1964年 L分量表（说谎）
1975年 P分量表（精神质）
L量表值超过一定值之后，表明这份测量无效。
克雷普林，荣格。“联想法”
武德沃斯
人格测验的四种形式
一．自陈测验--基本假设：人对自己最了解。忽略了：了解的正确性，报告的真实性
非自我描述，而是测验，一般是纸笔测验
采用是非题或选择题
1．内容消毒人格测验（早期采用）
根据某一种人格理论，来确定要测量的一个特质。
缺点：特质与试题的联系，过于明显，容易使结果失真。
2．因素分析人格测验
因素间相关较小。一个因素测一种特质
eg:Y~G人格测验
3．经验效标人格测验
根据不同的人的反应来编制
eg:MMTI(明尼苏达。。。)
用词要尽量中性化
一般加入测慌题目
《卡特尔16种人格因素量表》
（一）根据“特质理论“。特质比习惯更一般化。
整个人格体系所包含的行为都可用语词表现出来。通过因素分析，找到了15个因素：第二项B是从智力理论而来的。为第16个因素。
有ABC三个英文版，各187题。
（二）特点：1。客观，明确，中性化的词语
表面效度低，看不出测什么
编排
2．标准化。经过三次抽样，准确性高。测验程序，抽样都符合标准化。有部面图
3．非单一功能，是多功能的
十六个因素组合，得次级得一些人格因素
4．广普性。
用来评价正常人。16岁以上到老。
8岁到14岁用14P下（或CPQ）
5岁到8岁。还有一个量表。
5．多元性
信息量大。
（三）要求。1。每题都要选一个答案。
2．全部要回答
3．尽量做得快
4．少选折中得答案
《明尼苏达多项人格文卷》
根据经验效标来测验。
（一）编制思路和过程
1930～1940
收集1000多个题目，在效标组（异常人）和对照组（正常人）做实验。为了测多项，要有许多效标组
10个临床量表和4个效度量表（Q量表无专门题目）
13个分量表共654题。（有重叠得题目）。不重复，共550题，其中有16题可用两次。
1至399题是测验用，其他供研究用
（二）施测和评分。约45分钟，一般不超过90分钟
有：卡片式；问卷式
男女分开；把重叠的题的答案比较，不同的在6题以上，作废；这些题与无法回答的题在30题以上，作废。
疑病症： T>60 不愉快，敌意，需求，同情
抑郁症： T>70 表现：易怒，胆小，自责
癔病： T>70 歇斯底里，天真，缺少自知力。用否认，压抑来处理事情。
精神病态高分很难接受社会价值观和社会道德规范易接受反社会行为。
外露，善交际，爱享受，不成熟，家庭关系处理不好，虚伪。
男子气好气。（非病）T越高，越远离自己的性别男：敏感，被动，爱美。（高分）
好攻击，粗鲁（低分）
女：（与男相反）
妄想症： T>70 明显精神病行为：认为自己受欺负--障碍
>80(极端) --精神病
∈[60,70] --倾向
精神衰弱强迫行为，恐怖，刻板，自责，不安。
精神分裂分裂的生活方式，退缩，胆小，心情易变，紧张，有奇怪的思想，判断力差。
70～80 有幻想，幻觉
轻躁狂 T∈[70,75] 外露，乐观，精力过分充沛，易怒，纵酒，轻浮，夸张，过高估计自己
>75 情绪反复无常
社会内向（非病）高分内向倾向严重
胆小，退缩，屈服，过于谨慎，反应慢
低份外向，冲动，任性，做作，不太真诚
注：要根据双高分的原则。高：>60或70
（三）优缺点
优点：
（I）客观；与医学诊断一致性高
（II）首次把效度量表引入测验
（III）既可作医学诊断，也可以作正常人的人格诊断
（IV）丰富的题库
缺点：
（i）人格测验信度不够
（ii）易受被试的年龄，性别，学历，社会环境的影响
（iii）对人格特质的描述多用病理学解释
（iv）题目多，时间过长易引起烦躁。
二．投射测验
投射：个体把自己的思想，态度，愿望，情绪，性格等人格特质不自觉地反映于外界事物或他人身上的心理作用。
特点：刺激本身没有意义。
强调无意识，否认自陈测验。
投射测验的类型：
1．联想法
词的联想（荣格）
罗夏墨迹图 Rorschach Ink-Blot Test
2.构造法
根据被试看到的图片，构造一个故事（有过去，现在，将来）。
主题统觉测验 TAT
儿童主题统觉测验：(i)动物版 (ii)人物版
3．完成法
提供残缺不全的图片或句子，要求补充完整
语句完成测验（SSCT）60题（类：家庭，性，人际关系，自我观念--
4．排选造
给予几张照片，按（任何方法）某种顺序排列
5．表露法
让被试利用某种媒介自由表露心理状态
画树测验
20个标准
投射测验优缺点
优：（I）不受题目限制，可测出题目以外的线索，对人格做出综合探索
缺：(I)评分缺乏标准，无常模，信效度不够，不易量化理论深奥，对主试要求高，不易普及
三．评定量表（他评量表）
类型：
1．数字评定量表
2．图标评定
3．标准评定
4．强迫选择评定量表
四．情境测验
1．品格教育测验
主要用来测儿童的品格发展
（1）诚实测验。Eg:不肯能成绩
（2）自控测验
（3）公正测验（多用于幼儿）
2．情境压力测验
eg:无领袖团体情境测验
3．优缺点：
优：在实际情境中做测验，表现出来的人格特征较真实，准确。
缺：实施起来较困难，主试需经过严格培训。但仍有误差。
四种人格测验的缺陷
（i）人格的定义还不一致。测验内容也不一致。所测的人格特质也不相同。
（ii）人格测验的信度。效度较低。原因在于：人格受情境和个人当时心态的影响；人格测验很难找到准确的效标。
（iii）人格测验编测题很难
（iv）测验结果的解释有多样性。答案无对错之分。
（v）测验中有伪装和社会赞许的反应。
（vi）人格测验关系隐私问题。
第六章态度测验法
社会心理学领域多用此测验法。
一．态度的性质及态度量表的公用。
1．基本性质。
斯宾塞(Spencen)第一次用此词。
Combell:态度是针对一组社会事物而产生的具有一致性的反应群。
三个层面：1.认知（尤其是评价性认知）
2．情感性。
3．行为倾向。
态度有方向性；也有强弱之分；有多面性；有三层面一致性。
2．态度量表：由一组相互有关联的陈述句组成，一组态度语或项目。陈述句的方向，强度是有区别的。
明确的目的,测题质量.数量是好的态度量表的决定因素.
3.功用
(1) 衡量一宣传工具影响人们态度的程度.(或政治预测,市场调查,偏好)
(2) 评估教育的成果
二.等距量表法
1.根据研究主题,搜集符合的态度语100~200句.其中反对及赞成的比例1:1.(或1/3反对,1/3中立,1/3赞成).按反对到赞成份5~7组.
主义:语句通顺,简单;没有歧义,每句句子对主体有清晰的态度.
公认的事实不要放在测验中,无鉴别力.
2.请50~60人对反对至赞成的句子分组,至少7组(客观,对主体明确的人)
3.对每名态度语做次数分布表和累积百分比表
4.画累积百分比图
5.找出(又值小的句子,并且在0~11组的分布合理.
1~4→3,5~7→4,8~11→3
三.利克特量表法(Likert)
1.针对一个研究主体,收集有关资料,编制成态度语(包括肯定的态度和否定的态度语).回答分五或六等题目及答案由肯定至否定得5,4,3,2,1分.
总加量表
特点:(1)假定每一题都有相同得量值(因为题目要求同质性)
(2)被试对题目得态度强度可以尽量分出等级.
2.编制方法
(1)项目的制订题目性质相同
(若对不同质题目的态度与对研究内容的态度一致,则也可选用)
不少于20个
(2)预测和评分选一样组做预测,看题目是否编得理想
(预先测验) (a值:内在一致性)
(3)项目分析分析题目的鉴别力
被试题目得分由高到低排列,取前后各25%人.
一个题目:(高分中)(同意人数/高分组人数)－（低分组中）（同意人数）/低分组人数）＝鉴别指数
鉴别指数：0.2以下淘汰，0.3以上通过.0.2~0.3修改
四.哥特曼量表法
1.构造原理
项目少(不超过10个),效果较好的一种量表,结构复杂.
每一题程度上有不同
eg:--战场中的柑桔
经常(a) 有时(b) 只有一次(c) 从来没有(d) 不予回答(e)
(1) 心脏脉搏跳动很快
(2) 胃有下沉感
(3) 感到虚弱或晕眩
(4) 胃感到不适
(5) 出冷汗
(6) 呕吐
(7) 全身颤抖
(8) 尿撒在身上
(9) 膀胱失去控制
(10) 有僵硬感觉
(2),(3)题中 a.b.c 一分 ;d.e 零分
其它题中 a.b零分 ;c.d.e 一分
去掉第(5)题
恐惧程度由弱到强:1～2～7～4～10～3～～6～9～8
一道题目：（理论上）
表（略）
2．步骤
（1）设计句子，及五或六种反应态度
（2）选一个代表性样组进行预测
（3）把题目按分数由上到下（从最赞成到最不赞成）排列
3．缺点。
只注重单向性，不注意设计项目。题目。
第七章兴趣测验
一．1915．迈纳（Miner） -- 不标准化的
1927 斯特朗（Strong）
1939 库德（Kuder）
高中，高中以后。职业兴趣才稳定下来
（15岁～18岁）因为找被试有年龄限制。
可通过(i)兴趣表达，(ii)对行为进行观察，(iii)进行能力测验(iv)兴趣问卷，四个方法来了解个体的兴趣。
（综合以上三种方法，是最常用的）
只能说明有兴趣，未必胜任。
二．《斯特朗～坎贝尔兴趣问卷》
1．评卷（I）浏览
(II)一般职业框架（转换成七分）
低于34，此方面兴趣很低
35～42 低
43～57 平均
58～65 高
高于66 极高
（III）对照常模
（IV）做一般解释，也可再进行特殊分析
2．信度0.80
效度极好
三．库德职业兴趣调查表
强迫选择
有48个大学专业量表
信度0.90
另外还有“个人匹配”。可以深入了解一个人的兴趣
四．自我指导问卷
职业类型测验～人格特点
职业搜索表
先测兴趣特征，再根据人格特点查找兴趣
再写职业码。查指南。
现实型（R）,研究型（I）,艺术型（A）
社会型（S）,企业型（E）,传统型（C）
eg:心理 AIC
图（略）

第八章测量的误差
稳定性（一致性）
准确性
一．误差形式
(i) 随机误差
(ii) 常定误差（系统误差）--只影响准确性，而不影响稳定性
(iii) 抽样误差
二．误差的来源
1．测验内部引起的误差（编制过程种，测题本身存在的误差。）
题目取样时，题量少，或无代表性
其他编制过程。Eg:句子意义不明确，题目太难，测验时间设定不对
2．测验过程中引起的误差
a. 物理环境
b. 主试的情况（尤其对儿童会有影响）
步骤，说明被试是否清楚
儿童，或有情绪障碍的人需先交流
c. 意外干扰eg:团体测量中。
d. 计分过程中eg:不客观，尺寸掌握不同
3．来自于被试本身的误差
图（略）

能力高的人不太会产生焦虑;能力不自信
求胜心切的人会产生较高；缺乏自信，适应性不强，情绪不稳定的人易高焦虑
很少参加测验的人，对程序不熟悉易高焦虑
测验成绩对被试而言很重要。易高焦虑
第九章.测量的信度
信度与随机误差的关系：信度大，误差小
一．信度的定义
实测分数＝真分数＋误差
X＝T＋E
信度：真分数/实测分数（真分数不可能测得，只能通过对误差的推测来估计）
判断信度系数的高低：（能力测验，信度需0.90，人格（态度）测验，0.80）
一．估计信度的方法
1．稳定系数（重测信度）成人隔2，3月至半年
皮尔逊积分相关公式儿童隔1，2周至半个月
r=(∑X1X2/N-#*#)/S1*S2 跨时间的一致性
2．复本信度（等值系数）
跨形式的一致性。时间间隔不要太长。
3．内在一致性。
跨题目的一致性
克伦巴赫a系数：
(i) 分半信度：以奇偶数分半
r校正=(2*r分半)/(1+r分半
(ii) 库德--理查逊估计法
K-R 20公式
Rkk=(k/(k-1))*((1-∑PiGi)/Sx2) --适用于二极性的答案
（iii） a=k/(k-1)*(1-∑Si2 /Sx2) --适用于二级以上的答案
内在一致性优点：只须做一次测验，信度比以前两种方式高。注：测验是同质性的或有分量表才可用。
4．因素分析。
5．评分者信度（主观题）
三．影响信度的因素。
1．不同测验范围与信度
分数分布越大（误差越小），信度高
eg:6~12岁，信度0.95，其中，10岁，信度<0.95
所以被试年龄多，信度易高。
2．测验长度与信度
题目多，信度高
n=rnn(1-r11)/r11(1-rnn)
r11 原信度 rnn 目标信度
斯皮尔曼--布朗公式 K:改变以后的长度与原长度之比
rxx:原长度
r=Krxx /1+(k-1)rxx
3.测验难度和信度
分数分散的分布越广，信度越高
四．测量的标准误差
尤其适用于解释个人分数
标准误差，误差分数分布的标准差。
实践中，以一组被试两次测验的得分代替一个被试多次测量的得分。
Se=St*(1-rtt)1/2
Eg:韦式测验 Se=St*(1-rtt)1/2 =3.35
在95％的置信水平上，被试的区间。
3.35*1.96=6.6
若得分100，在[100-6.6,00+6.6]区间1概率为95％，也可用标准误差判断一名被试两个测验的差异
第十章效度
信度只从测量角度评定测验
效度：测测验的特性的程度，测测验是测什么特性。
&1.效度的概述
一．什么是效度
一个测验的结果必须符合测验的目的。有效性效度相对信度更重要。
实测分数＝真分数＋误差（随机）必要条件：信度，效度
效度：实测分数中与目的有关的真分数占实测分数的比例
二．信度与效度的联系
三．影响效度的误差来源
1．测题本身（最主要的来源）
测题长度，编排方式
2．实施过程中
3．被试的反应
四．效度的性质
对效度的评价高，中，低
效度通过推测得到
&2.准则关联效度或效标效度
eg:智力水平的效标可以是：学习成绩，教师评语，以后的成就
效标：相对的，
受时间的考验
分：同时性
继时性 eg:将来的工作成就
效度系数（测验分数与准则的相关程度）
1．相关法
a. 积差相关法两分数要求连续
图（略）

b.二列相关法（一组分数连续，另一组不连续）
c.多元相关法（有多等级）
2．区分法（小规模不易看出有差异，大规模易看出有差异）
3．命中率
图（略）

注意：以上三种方法都要求效标的可靠性
&3.内容效度
一．包含主要方面
各方面的题目要有比例，有一定难度
学业成就测验尤其注重内容效度
二．考验内容效度的方法
1．专家判断
缺陷 (i)无量化指标
(ii)判断不一致
(iii)由于教育思想不同，所以判断内容范围时不一致）
2．统计分析法（克伦巴赫提出）
根据相同的内容范围，编两套测题，对被试测试，再进行相关处理（类似复本心信度）
3．再测法
两次测验，后一次测验分数明显提高，则内容效度高（中间有教学）
4．经验法
测验分数随年龄增长而提高，内容效度高
三．内容效度和表面效度的关系
被试或外行人从题目看出要测的内容。两者之间不要求同步。表面效度不是一种客观指标，但会影响被试动机，从而影响内容效度。学习成就，职业测验，兴趣测验的表面效度高，人格测验表面效度要低。表面效度降低只要改变措词。
四．提高内容效度的方法
编制命题双向细目表
图（略）
&4.结构效度
一．概述
1954念提出
按一定理论编制测验，测验结果证明了理论，则有结构效度
二．考验结构效度的方法
1．测验内方法
研究测验的内部结构，来界定测验的结构范围
(i) 借用内容效度（结构效度与之有直接关系）
(ii) 考察测验的同质性
一个因素中的应是同质性的，不同因素，之间不能是同质性的。
(iii) 分析被试对题目的反应过程外来影响因素越小，结构效度越高
2．测验间方法
研究几个测验（同类）间的相关，来考察是否测同一特质。
(i) 相容效度
求一个新测验与一已有测验的相关（若无已有测验，用部分有关系的测验代替）
(ii) 会聚效度和区分效度（1960坎贝尔提出）
要求：测同一特质的变量有很高相关，并且，测不同特质的变量有很低相关，特别适合于人格测验。多种特质--多种方法矩阵
3．准则关联效度研究
对准则的预测水平越高，效度越高，主要看测验分数可否区别不同的人。
Eg:Barron巴龙，自我强度量表
4．其他变它证据
随自然事件的发生，测验结果应有所变化
5．实验操作
看是否受训练的影响。Eg:学业成就--训练有影响。智商-- 训练无影响。非训练测题。
证明了预期，则有效度
对效度的总结
(i) 任何测验，都二要效度证据。不同测验，偏重于不同种类的效度，实际运用中，多用准则关联效度，内容效度只需说明。
(ii) 三种效度有不同作用。
结构～：帮助我们运用分数去解释人的不同心理特质。
准则关联～：了解分数是否可以有效估计某种行为表现
内容～：帮助决定分数是否代表测验结果。
(iii) 效度分析通常是编完测验后做，但效度的思想已知影响编制过程。效度比信度更重要
第十一章测验的实施与计分
&1.测验的准备
一．测验者的准备
主试的准备。经过严格的训练与考核，熟悉指导语。
二．测验环境的准备
1．房间的选择；2。桌椅安排。（不能太大，易分散主义；不能太小，不易施展开来。一般的光线，温度，对儿童，引起注意分散的物品拿走）。位置远离喧闹，不准有人进出。（主试与被试中不可有一方站着，椅子太高或太低影响视线，桌子太小，倾斜都不能做测验。不要坐沙发，转椅，应是直靠椅背的高度适中，桌面足够大，不要太宽）
3．测验材料的准备
4．参加测验的人员
父母，班主任不可做主试
三．被试的准备。
放在被试最佳心理，生理状态
1．选择的时间（无吸引他们的活动的时间，心理情绪稳定，生理状态良好的时候）
2．生理的准备（在测验时无急迫的生理需要）
3．心理的准备，亲密关系的建立
(i) 先介绍自己（姓名，职业）
(ii) 问一些一般的信息，使他高兴
(iii) 不直接地讲一些“目的”。（避免提“作业”）
(iv) 对大致的一些任务作介绍（所需时间，将有的活动，测验的难度，鼓励他们对不明确的地方立即提一些问题）
&2.测验的实施
一．作记录
1．记录要隐蔽
2．记录要真是
二．如何对待被试的要求
1．如果被试没有听清题意，要求重复，一般允许，但记忆测验不能重复
2．如果被试要求修改回答，一般允许，但若规定只记第一时间的反应，则不允许更正。
三．对主试的要求。
1．主试必须集中注意力
2．不能对被试的回答有所暗示
3．适当强化被试的行为（适当鼓励）
4．鼓励被试的回答
5．对磨棱两可的答案，主试先重复回答，再让被试解释。若这类答案无论如何理解都错，则不需追问。
6．对计时题，题目说完就按下表
7．计分严格按照手册要求
&3.测验的计分
一．年龄的计算法
测验日期--出生年月
注:借位。有30日，12个月。。。
二．原始分计算法
1．0，1（对，错）计分法
2．多级计分法
三．原始分换算为标准分数（以年龄分，以年级分，以百分位。。。来表示）
第十二章。测验的项目分析
可以分：质的分析。专家对项目内容，形式进行分析
量的分析。采用统计方法来测定项目的品质。
包括难度分析与鉴别力分析。
&1.项目的难度
一．难度：测题的难易程度
难度分析在能力测验中，指：对测题难易程度作标定
在非能力测验中，指：对内容通俗性和流行性程度作分析在题目范围之内，做回答的人的估计难度的指标。
1．通过率--通过的百分比越高，题目越容易
(i) 二值记分测题：0，1计分
P=R/N（R:通过人数，N:总人数）
(ii) 非二值记分的测题
P=＃/#max ＃实际的平均分 # max若都得满分，所得得平均分。
但，先要做修正以排除“猜”得机率
即：再用校正公式 CP=(KP-1)/(K-1)(K代表“K择一)
选项数目不一样，不可直接比较两题难度，要做校正。
（iii）分组法
当被试样本很大，把分数从高到低排列取高分组，上限27％人；低分组：下限27％ P=(PH+Pz)/2(PH,Pz可用P=R/N 或P=＃/#max 等得)
2．项目难度的等距量表
（通过率反映出的难度不等距）
二．测验难度的确定和分数的分布
通过率越接近0或1，就无鉴别力；越接近0.5，越有区分力。
但每道题都是50％，一方面不太可能做到；另一方面，题目间的相关会很高。所以一般，把测验的平均难度控制在0.5，而每道题可在0.3~0.7中波动
若选择的人数少，参选的人多，则P可以很小，难度高一些，eg:P可在0.05,当从100人中取5人时）
分数分布是常态的，测题难度就恰当。
反之，图（略）

&2.项目的鉴别力（区分度）
1．鉴别力：测题对于不同水平的被试反应的区分程度和鉴别能力。
2．鉴别力估计方式：
（1）项目效度分析：主要依据效标，来考察测验中的反应与效标的相关
(i) 可用相关系数
(ii) 用鉴别指数：分数从高到低排列，对半分，分高分组，低分组。
小样本时，D= PH - Pz 指数越高，鉴别力好。
大样本时，用两端来挑高分组，低分组 27％为最佳
（2）有的测量效标难找，就用总分做效标，将每道题的分数与总分做相关
相关高；鉴别力也高；相关低，鉴别力不够
计算方法：(i)点二列相关系数
rpbi=#p－#g/St(pg)1/2
#p答对的人的总分平均数（g=1-p）
#g 答错的。。。。。。。。。。。。。
St标准差
P为难度值
条件：测题0；1记分，总分连续
(ii)二列相关
条件：测题与总分都是连续的值，测验又认为分成两类
rb=#p-#q/St(pg/y)1/2
(iii)积差相关
(3) 方差法 --看离散程度
一道题目，离散程度大，有区分度。
3.难度与鉴别力的关系
通过率为1或0，无鉴别力
通过率为0.5，鉴别力为1。
通过率为0.7,鉴别力最大值为0.6（书P124）
&3.项目分析实例
一．步骤
1．选取有代表性的样组，按规定程序预测
2．批出分数。按总分高到低排序，高分组，低分组各27％
3．同一测题，高分组，低分组通过人数比率PH ，Pz
4．分别求出难度，鉴别力
5．比较高分组，低分组在每题答案上的反应。
6．根据统计结果修改测题
二．实例
题号组别选答人数正确答案难度鉴别力
A B C D 未答 p rb D
1 高分组 5 92 1 2 0 B .71 .52 .42
低分组 22 50 12 16 0
2 高 58 10 15 16 1 A .42 .33 .32
低 26 21 15 36 2
3 高 17 15 28 28 12 D .31 .-.04 -.06
低 25 11 19 34 11
4 高 1 44 14 36 5 C .12 .08 .04
低 1 56 10 28 5
1. 首先看鉴别力
1， 2题号，3，4题淘汰或修改
2．难度（0.35～0.65之间最好，总难度要居中）
就难度而言，4个题都可使用
3．选答人数
异常：
(i) 正确答案无人或很少有人选，选的人数少于其他答案选的人；选错的人过多
(ii) 高分组选正确答案的人少于低分组的，高分组选错人多
(iii) 某一选项无人选择
(iv) 未答人数较多
4．修改
&4.准则参照测验的项目分析
以上的项目分析都是针对常模参照（与常模对照）测验的。
1．准则参照测验是测接受训练/教育的与不接受的人或接受前后一个人的差别。无常模，但有人为制定的标准。
准则参照测验的难度取决于作为准则的东西。如果准则要求不高，难度可降低；标准高，难度就大。鉴别力同样看准则，准则要求的内容，鉴别力即使低，也要。
具体方法：
按成绩分组，达到标准的一组，未达到的一组；计算两族人对每题的差异。
差异：P=(PH + Pz )/N
鉴别力:D=RH/NH-Rz/Nz N人数。R达到标准
2．教育效果敏感指数（训练效果）

实例：
学生试题
1 2 3 4 5
前后前后前后前后前后
A ＋－－＋＋＋ ―― ＋－
B ＋＋－＋＋＋ ―― ＋－
C －＋－＋＋＋ ―― ＋－
D －＋－＋＋＋ ―― ＋－
E ＋＋－＋＋＋ ―― ＋－
F ―― －＋＋＋ ―― ＋－
S1=0.5 S2=1 S3=0 S4=0 S5=-1
S∈[-1,1]大于0就有鉴别力，越大越好
&5速度测验的项目分析
有人以答完此题的人数为指标，不考虑此题为做的人
也有人延长时间，但这忽略了速度因素的影响。
至今，未有很好的分析方法。
第十三章量表和常模
&1.标准化样组
预测的样本可以较好地代表全域，则其为“标准化样组”抽样：
1．选样本时，要考虑到与测量有关地变量。Eg:智力测验时，年龄要注意；地域；性别；父母学历；家庭经济状况
若全域中的小团体差异较大，则要分别制定常模
eg:人格测验分男，女
2．样组规模要适当，有条件的化，越大越好。
3．为了克服误差，抽样方法很重要
根据性质和任务决定。
不能像调查一样“愿者上钩”
以“概率抽样”将系统误差减小到最小，误差大小事无就可知。
(i) 简单随机抽样
(ii) 分层抽样。优点:(1)抽样的分布反映总体的分布(2)分层抽样误差比(i)小；或误差一样，但花费较(i)少。
(iii) 整群抽样。
随机抽几个整体（单位团体），其中的每个人都要进入调查得到的均数离整体较(i)更远，所以为了避免此缺陷。样本要大一些。一般，采取分层抽样的方法（再在每一层，可用整群抽样或简单随机抽样。
&2.测验的原始分数和导出分数
一．原始分数(p136)
分数可以是任意的，没有意义
修正 Xc=R+O/K
R:正确答对的题数
O:被忽略的
K:选项数
二．量表分数
既有一定的参照，又有一定的单位。转换后的分数称为：“导出分数”。
1．百分量表
注：(i)原始分数转换成量表分时，非线性。
原始分布成正态，百分量表分呈长方形。
(ii)百分量表是等级量表，不能作加减运算。
2．标准分数（Z分数）
要做运算时可用。是等距量表，把原始分与平均分的差以标准差来表示。
Z=(x-#)/S 注：原始分数的分布必须是常态的。是一种线性转换
优点：
(i) 可以做进一步统计分析，加减等运算
(ii) 可以对两个以上的分数作比较
缺点：
(i) 计算，统计原理较复杂，不易使外行看懂，不能普及
(ii) 有负值，运用起来不方便；单位可能过大
(iii) 若原始分有问题，无法校正
3．常态化
原始分数～百分比数～Z分数
三．标准分数的变化
1．7分数
以50为均数，10为标准差。T=50+10Z
2．标准九
1，2，3，4，5，6，7，8，9
分为九个等级，5为均数，2为标准差
相应百分比：4％，7％，12％，17％，20％，17％，12％，7％，4％
3．发展量表
年龄量表，年级量表
a.智龄。
三．剖面图
使人们对测验结果一目了然。
第十四章编制测验的方法
&1.测验目的的确立和材料的选择
一．测验目的的确立
1．把目标具体化
2．测验的对象确立（团体/个体）
3．测验的用途（善查/诊断。。。）
4．类型（常模参照/标准参照）
5．被试的文化背景
二．制定编制计划（蓝图）
考虑测验内容，技能，重要程度（比重）
三．测验材料的选择
原则：1.取样材料丰富，函概各放面
2．材料有普遍性，对全部被试公平
不同测验还有不同原则。材料有趣（尤其对幼儿）
四．测验形式的选择
&2.测题编制技术
一．命题的一般原则
1．测题内容有代表性
2．测题难度有一定的分布范围
3．测题的文字简明，避免用深奥的词（避免双重否定）
4．各测题之间要相互独立
5．正确答案只有一个（人格，创造力测验除外）
6．测题内容不能超出被试的团体水平
7．所提问题避免社会禁忌或个人隐私
策略:
(1) 先假定被试采取肯定态度，编题
(2) 假定问题，无所谓好坏
(3) 指出该行为不是异常的，而是普遍的
8．测题数目比正式题目要多一倍，便于筛选
二．测题格式的种类
1．自由反应型
（1）是非题
猜对的可能大，因为标准化测验中不用
注：
(i) 不能包含暗示，“所有”“都”。。。有否定暗示
(ii) 一题只能包含一个概念
(iii) 题目表述简洁，用正面陈述，不要用反面陈述或双重否定
(iv) 选择“是”“否”数量差不多
(v) 测题不能太少，至少30～50题
（2）选择题
包含：词干（词句或不完整的陈述句），选项（4～5各）每题数目一致。可考查，记忆，鉴别，推理。。。
缺点：编几个选项有难度，其间有关联
注：
(i) 选项4～5各，且每题的数目一致
(ii) 错误选项不要太明显，错误选项，高分组很少有人选，低分组有较多人选，错误选项被选到的概率要差不多。
(iii) 不要把选项放在词干当中
(iv) 各选项在形式上要已知（eg:都是图形，或数字符号。。。）
(v) 选项间不应相互重叠。
(vi) 选项中相同的词可放在词干中。
(vii) 选项中正确答案的位置随机排列。
（3）匹配题
(i) 几个题目内容形式上一致
(ii) 知道语中讲明匹配的依据
(iii) 配对项目不要太多，最多十对。
(iv) 同一项目不要印得分开来。用于测概念或事实间的盥洗1
（4）排列题
依据大小，时间。。。，将项目重新排列
（5）最好理由题
（6）联想型
评判难把握。
&3.预测和测题分析
一．预测
目的：为了对测题进行修正
注：
(i) 预测对象即以后正式测验要测的被试。人数不宜太多，也不能太少。一般，智力测验要30人以上，学业成就测验要370人左右。
(ii) 预测与正式测验的程序是一样的
(iii) 预测的时间可以放长（速度测验例外）
(iv) 详细记下被试的反应，记下完成的时间。记下可能产生误解的题目。
二．测题分析（项目分析）
难度
鉴别力。区分等级越多越好
聚类分析。
把相似的内容归为一类。
因素分析
&4.测题的选择，编排和测验的标准化
步骤：
1．确定取舍标准
原则：(1)根据鉴别力 (2)再选难度适中的题目，特别难与特别容易的也要选一些（人格测验等降低难度要求） (3)测验长度也有要求1小时左右，测验长度也取决于被试的年龄
2．编排原则与方法：
一般在开头有非常容易的题目
题目从容易到难，在测题最后放最难的题目。
编排形式：(i)并列直进式 -- 有分测验
(ii)混合螺旋式 -- 无分测验，纯粹按难度（优点，被试不感到枯燥）
3．测题性能的复核
再做一次预测
4．编制复本为了增加实用性
在难度上不能与原来有差别
“蛇”形排列。把所有题目按难度排好，标题号。
Eg: A版 1 3 5 …
B 版 2 4 6…
复本再做预测及分析。
5．标准化
（i）内容方面的标准化 eg:A,B版题目等值。
（ii）实施上标准化：规定统一指导语及时间限定。
（iii）评分时标准化
&5.测验基本特征的鉴定
信度，效度，量表，常模及指导手册
第十五章总结
心理测量的不足（失真）
1．编制者依据的理论是否可以解释所要测量的心理特性
2．确定反应心理结构的行为样组有局限，不够全面
3．预测的鉴定建立在概率论与统计上
4．实施过程中的客观影响不能反映被试的真是水平或态度。