内容
效度又称逻辑效度,是指项目对预测的内容或行为范围取样的适当程度,即测量内容的适当性和相符性。
成就测验和熟练测验特别注重这种效度。由于这种衡量效度的方法必须针对课程的目标和内容,以系统的
逻辑方法详细分析题目的性能,故又称课程效度或逻辑效度。
概念
内容效度又称逻辑
效度,是指项目对预测的内容或行为范围取样的适当程度。如,教师为了了解学生在某一学科或某一课题上对知识的掌握情况,若时间许可,可以进行一个全面的考试,包含所有有关的内容,这显然行不通。于是,就从这一范围总体中选一样本,也就是从可能的题目中取样来编测验,根据测验分数推论学生在该范围总体的知识。若测验题目是这个范围的好样本,则推论将有效;若选题有偏差,则推论将无效。由于这种测验的效度主要与测验内容有关,所以叫内容效度。
一个测验要有内容效度必须具备的条件
1. 要有定义得完好的内容范围。所谓内容范围,可以是一个明确而有限的题目总体(如20以内的加减法),也可以是具体的知识和技能,也可以是复杂的行为,如中小学生的心理健康的特点和表现。成就测验主要目的是测量学生在某一学科中学习的效果,此种测验的内容范围容易确定,但
人格测验、兴趣测验等,测验的内容范围较难确定。
2.测验项目应是已界定的内容范围的代表性样本。如果把所有的内容视为一个总体,那么测验项目可以视为一个样本,这个样本要具有代表性,这个样本能够代表总体的程度就是内容效度。在正式编制测验时,要做到这一点非常不容易。成就测验好像较能够做到这一点,但光是从形式上做到这一点还是不行,因为学生对知识的掌握程度不仅取决于对学习内容的记忆,还有理解和应用等,因此,如果只从对知识的记忆上去取样,那就是有偏的样本,还得考虑理解、应用等方面。对于智力测验、人格测验、兴趣测验等就更难解决。如,
智力测验,智力结构十分复杂,内容异常丰富,要用若干题目来代表全部智力,确实难度较大。着名的斯坦福-比奈量表经过了5年潜心研究和大规模的测试,才编制了这个测验。另外,由于智力和知识的密切的关系,有的智力测验的题目不能代表智力内容,实际上测量的是人的知识水平,这样的项目就不具有代表性。
验证程序
验证测验内容效度的一般程序
以教育测验为例
1、确定所要测量的全部内容范围;
2、将测验目的具体化为不同层次的测验目标;
3、确定每一层测验目标在整个测验中的比重;
3、编制双向细目表;
4、确定每一小格中的测题数量;
5、按比例随机抽取测验题目;
6、请专家对测题的代表性、适合性进行分析,并作必要的修改,直到大多数专家满意为止。
验证方法
专家判断法
确定测验内容效度常用的方法是由专家对测验项目与所涉及的内容范围进行符合性判断,这是一种
定性分析的方法。对于成就测验来说,学科专家要先对教学大纲或教材有全面了解,然后与测验题目进行系统比较,看题目是否能代表所规定的内容。具体方法步骤如下:
①定义好内容总体,并描绘出有关知识与技能的轮廓;
②划分细纲目,并根据重要性规划好各个纲目的加权比例,作出尽可能详细的描述;
③确定每道题所测的知识与技能,将自己的分类与测验编制者的纲目作比较;
复本法
克伦巴赫认为,内容效度可由一组
被试在取自同样内容范围的两个测验
复本上得分的相关来作数量上的估计。如果相关低则说明两个测验中至少有一个缺乏内容效度,但无法确定究竟哪一个缺乏内容效度。当相关高时,一般推论测验具有内容效度,但也可能出现两个测验有相同偏差的情况。
再测法
先将测验施测于
被试,由于被试对测验内容了解甚少,因而得分较低,然后对他们进行教学训练,结束时再测一次,如果成绩提高很大,则说明测验对于教学具有较高的内容效度。
经验法
不同的
被试团体在测验上的得分和对每题的反应存在较大差异,一般说,高年级比低年级的水平要高,如果总分和题目的通过率随着年级而增高,则说明测验对于教学具有内容效度
应用
作为一种方法,内容效度较为适合于评价教育成就测验和职业选拔测验。在这种测验中,测验内容应是知识、技能和实际工作的代表性样本。内容效度不仅是评价教育成就测验和职业选拔测验的较好方法,而且也是编制任何测验都应加以考虑的基本方面。内容效度对
标准参照测验更为重要,因为在标准参照测验中我们主要关心的是
被试对一定范围内的知识、技能掌握得如何。
内容效度对
能力倾向测验和
人格测验不是很合适,因为它们要测量的往往是较抽象的特质,其范围难以明确界定,没有明确的内容范围,就无法考证测验项目是否具有代表性。缺点:缺乏理想的数量指标,因而妨碍了信息交流和各测验的相互比较。
在实际应用中,内容效度容易与
表面效度相混淆。所谓表面效度指的是外行人从表面上看测验是否有效。表面效度不是
效度的
客观指标,它不能真正反映测量的有效程度,但是它能影响被试的动机,从而影响测验的效果。所以在编制测验时,表面效度是一个必须考虑的问题。
内容效度既具有一定的优点,也有一定的局限。它的主要缺点是缺乏可靠的数量指标,因而妨碍了各测验间的相互比较。
与表面效度的区别
表面效度(Face Validity):指外行人从表面上看测验是否有效,测验题目与测验目的是否一致。表面效度不是真正的
效度指标,但它容易和内容效度搞混。
表面效度是外行对测验作表面上的检查确定的,而内容效度是专家对测验进行详尽的、系统的评价建立的。
虽然两者都是对测验内容作出的主观判断,但判断的标准不同。前者只考虑测验项目与测验目的之间的明显的、直接的关系,后者则同时考虑到测验项目与测验目的和总体内容之间的逻辑的本质的联系。
表面效度高的题目内容效度不一定高,表面效度低的项目内容效度也不一定低。如,明尼苏达个性调查表中有这样的题目:“我的喉咙里总好像有一块东西堵着似的。”表面上看来这种题目似乎与个性无关,但在临床上,回答“是”的人很可能是癔病或
神经衰弱患者。
表面效度不是
效度的
客观指标,不能保证测验的正确性,但能对受测者的动机产生影响,因而也会影响到测验的效度。如,
智力测验、成就测验,受测者看出测验题目反应自己的智力、能力,受测者会尽力去完成这些题目,最大限度地表现自己的能力和水平,对于某些
人格测验、态度测验,
被试如果看出这些项目与自己的
人格缺陷、品德有关,被试会有意地掩盖自己的缺点,从而产生虚假反应,如,:“我偷过东西。”让被试判断是否,被试即使偷过也会说否。
因此,编制测验时应根据编制测验的要求提高或降低
表面效度,如人格测验,表面效度应该低,使被试看不出来,从而让被试作出真实的反应,能力测验应该提高表面效度,以激发被试的答题动机。