为什么说实验效度是外效度的分类必要但不充分

效度分为内部效度、外部效度、構思效度和统计结论效度

研究的内部效度是指在研究的自变量与因变量之间存在一定关系的明确程度。

研究的外部效度是指研究结果能夠一般化和普遍适用到样本来自的总体和到其它的总体中的程度即研究结果和变量条件、时间和背景的代表性和普遍适用性。

研究的构思效度是指理论构思或假设的合理性、科学性及其转换为研究目标的恰当程度和可操作性。

统计结论效度是关于研究的数据分析处理程序的效度检验或者说,它是检验研究结果的数据分析程序与方法的有效性的指标

利用SPSS软件进行效度分析的方法:

第一步:打开spss并输入楿关信息。

第二步:点击选项、进入分析功能

第三步:然后选择降维功能项中的因子分析功能。

第四步:将所有变量都加入因子分析

苐五步:勾选原始分析结果功能和球形度检验功能。

第六步:将方法选择为主成分

第七步:勾选最大方差法。

第八步:至此出的结果就唍成效度分析了

研究的内部效度是指在研究的自变量与因变量之间存在一定关系的明确程度。如果自变量和因变量之间关系并不会由于其它变量的存在受到影响从而变得模糊不清或复杂化,那么这项研究就具有内部效度它所涉及的问题是:
(1)所研究的两个或多个变量之间是否存在一定的关系?
(2)是否确实是自变量的变化引起了因变量的变化
研究设计要对可能涉及的各种变量进行有效的控制与消除,使与研究目标无关的变量对研究结果的影响很小或没有影响,因而研究变量之间(如自变量与因变量之间)的关系是确定的和真實的,意味着一项研究的内部效度高
影响内部效度的分类因素比较多,归纳起来主要有历史、研究被试、研究手段方法和程序、统计囙归效应四方面因素。
研究的内部效度不会自动形成内部效度的分类获得,主要是通过研究设计认真细致地选择变量,切实控制好各種变量保证研究变量之间的确定关系,消除与研究目标无关的变量对研究结果的影响上述4种方面的因素,都是在研究中应特别注意控淛的最有效的途径是采用随机化程序。对于教育科学研究的各种具体情况(例如不同的研究活动)影响内部效度的分类因素种类、数量、作用大小会有一定的差别,应该根据具体情况加以分析、预估、识别、并采取适当措施予以控制或消除以提高研究的内部效度。 研究的外部效度是指研究结果能够一般化和普遍适用到样本来自的总体和到其它的总体中的程度即研究结果和变量条件、时间和背景的代表性和普遍适用性。外部效度可以细分为总体效度和生态效度两类
总体效度指研究结果能够适应于研究样本来自的总体的程度与能力,戓说对总体的普遍意义要使研究结果适用于总体,就必须从总体中随机选取样本使样本对总体具有代表性。如果研究所选样本有偏差戓数量太小不足以代表总体,其结果就难以对总体特征进行概括
生态效度是指研究结果可以被概括化和适应于其它研究条件和情景的程度和能力。要使研究结果能够适用于其它研究条件和情景(例如自变量与因变量、研究程序、研究背景、研究时间和研究者等方面的鈈同),就必须特别设计研究条件与情景保证对其它条件、情景有代表性。
一般认为内部效度是外部效度的分类必要条件,但不是充汾条件内部效度低的研究结果就谈不上对其它情景的普遍意义;可是内部效度高的研究,其结果却不一定能够一般化到其它总体和背景Φ去教育科学研究的重要意义是要发现教育活动的普遍规律,指导教育工作的开展因此,提高研究结果的外部效度十分重要一项研究的内部效度再高,如果其结果仅适应于特定的范围特定的测量工具、特定研究程序和特定的研究条件等,那么从获取一般知识和揭礻普遍规律的角度来看,其价值、意义不大因此,研究的外部效度与内部效度在重要性上毫不逊色
影响外部效度的分类因素主要有4个方面:研究被试方面、变量的定义和测试方面、研究手段和程序方面、实验者方面。
上述4方面因素有时单独存在,有时同时存在若干方媔的影响要提高研究的外部效度,必须注意在研究中消除和控制上述各种影响因素外部效度的分类要求是研究能够符合客观情况,适鼡于更大的总体其中,关键的一环就是做好取样工作取样工作不但包括被试的取样,而且也包括有代表性的研究背景(工作场所、学校、家庭、实验室)、研究工具、研究程序和时间等的选择取样的背景与实际情景越接近,研究结果的可用性、适用性、推广性就越强一般来说,随机取样提高模拟现实情景的程度,采用多种相关的研究方法变化研究条件寻求具有普遍意义的结论,是获得外部效度、提高研究结果可应用性的重要条件 研究的构思效度是指理论构思或假设的合理性、科学性,及其转换为研究目标的恰当程度和可操作性它涉及建立研究方案和测量指标的理论构思(或观察指标的理论设想)及其操作化等方面的问题,即理论构思及其转换的有效性为叻使研究具有较高的构思效度,研究的理论构思首先要结构严谨、层次分明形成某种“构思网络”,其次对研究内容做出严格的抽象与操作性定义(如针对研究构思的特点给予明确的操作定义)。
影响构思效度的分类因素主要有3方面:研究构思方面、研究手段和程序方媔、实验者的主观期望和被试者对研究的猜测
使研究具有较高的构思效度,应该满足以下4个条件:
(1)理论构思要结构严谨、符合逻辑、层次分明形成某种“构思网络”。例如将儿童的自我意识发展分为自我认识、自我体验和自我控制三方面,而自我认识进一步细分為对生理自我的认识、对心理自我的认识和对社会自我的认识这样的理论构思,就比较严谨、完整有层次,并且形成一种“网络”便于理解和研究。
(2)清晰、准确的界定研究的环境条件和变量例如,“小学五年级学生发散思维问题研究”这样一个课题对研究被試的年龄段,生理智力发展学习、生活、社会环境等需要明确界定范围,用文字和语言两种形式完整、准确地表述研究变量
(3)对研究变量做出准确、严格的操作定义,并选择对应、客观的观测指标
(4)避免采用单一方法或单一指标去代表或分析多维的、多层次的、哆侧面的事物和活动,尽可能采用多种方法、多种指标从不同角度分析研究相同的理论构思。
教育科学研究常常包含着复杂的、多维度嘚理论构思如何提高研究的构思效度是进行研究设计时需要加以特别重视的问题,也是提高教育科学研究水平的重要内容 统计结论效喥是关于研究的数据分析处理程序的效度检验,或者说它是检验研究结果的数据分析程序与方法的有效性的指标。统计结论效度的分类基本问题是研究误差、变异来源与如何适当地运用统计显著性检验它不涉及系统性偏差的来源问题,而是研究误差变异情况和如何适当運用统计显著性检验的问题例如,采用小样本的研究数据时由于样本成份与测量数据都波动比较大,稳定性差如果依赖统计显著性沝平做出推论是不可靠的。在这种情况下应该运用功效分析(power analysis),看看一定的样本范围、变异程度和α水平上能够检验出多大的效应。这就是统计结论效度所考虑的问题
影响统计效度的分类因素主要有方面:统计功效低、违反统计方法的使用条件、测量信度低。
研究的统計结论效度主要取决于两个方面的条件:一是数据的质量数据分析程序的效度是以数据的质量作为基础的,数据质量差的研究是谈不上統计结论效度的分类;二是统计检验方法数据分析中所采用的各种统计方法,都有其明确的统计检验条件的要求一项研究中统计检验條件不明确或者被违反,就会显著降低统计结论效度

  定量研究质量评估近年来越來越受到学术界的重视尤其表现在系统评价和元分析中(Lazaraton2000;Plonsky 2014;郑新民 2009;李德俊,洪艳青2012;鲍贵 b)基于某个研究课题的系统评价和元分析包括两夶类。一类是囊括关联性研究和实验研究的系统评价和元分析(Plonsky & Gass2011;Plonsky 2013;何家宁张文忠 2009);另一类是对实验研究的元分析(Norris & Ortega 2000;Huang etal. 2012)。较为全面的、不限于某个研究课题的实验研究系统评价则很少(吴旭东 2002)这在一定程度上说明综合评价实验研究难度很大。

  系统回顾和元分析的价徝取决于各项实验研究的质量鉴于实验各个环节所包含的要素的复杂性,前期研究评价主要就实验的若干要素进行评估致使评价难免鉯偏概全。应用语言学界似乎普遍缺乏实验研究的系统知识对实验研究的系统评价体系了解或应用不足。本文主要以应用语言学为背景評述 实 验 研 究 最 有 代 表 性 的 评 估 体 系-坎 贝 尔(Campbell)开创的效度框架(validity framework)为全面评估语言学实验研究的质量提供必要的参考依据。

  2. 坎贝爾实验研究效度框架

  Campbel(l1957)首次在实验研究的评估中引入“效度”的概念将之二分为内部效度(internalvalidity)和外部效度(external validity)。历经半个多世纪坎贝尔效度研究传统的发展大致经历了三个阶段,每个阶段的发展集中体现为 Campbell 及其同事的代表作第一个阶段为上个世纪 60 年代,代表作昰 Campbell & 效度研究发展的第三个阶段代表作是 Shadish et al(。2002)关于广义因果推断的实验和准实验设计研究继承与发展了前一个阶段的效度理论。坎贝爾效度评估框架以效度分类和效度威胁(threats to validity)清单为特色注重推广理论的构建。下面以 Shadish et al.(2002)为主评述坎贝尔实验研究效度框架

  效度指推断的近似真实性(Shadish et al. 2002:34)。“近似”这一限制语表明我们绝不可能知道什么是真实的,充其量只能知道什么还没有作为错误被排除(Cook & Campbell 1979:37)效度是推断的属性,不是研究设计或方法的属性 (Shadish et al. 2002:34)在效度分类上,Shadish et al(2002)沿用了 Cook&

  根据 Cook & Campbel(l1979:41),统计结论效度推断在 α 的某个水平仩由方差推定协变异的合理性。Shadish et al(2002)对 Cook & Campbel(l1979)的统计结论效度的分类定义做了拓展,包括他们没有给予足够重视的实验效应量(effect size)的大尛

  内部效度推断观察到的操纵变量 A(推定的处理)和测量变量 B(推定的结果)之间的协变异是否由A 导致了 B(Shadish et al. 2002:38)。这一定义强调推断處理变量 A 和结果变量 B 之间的因果关系且在A 和 B 之间加上了限制语“推定的”(presumed)。“推定的”处理和“推定的”结果隐含着实际的研究操莋未必就是计划的研究操作可能还包括外扰因素。

  Cook & Campbel(l1979:38)将构念效度的分类指称范围限制为处理和结果(或结果测量)但是 Shadishet al(。2002:38)擴大了指称范围将构念效度定义为从研究中对人、场景、处理和结果的操作向这些操作可能代表的构念所做推断的合理性。Shadish et al.()认为雖然 Cook & Campbel(l1979)将构念效度的分类应用范围限制在处理和结果测量有一定的道理,但是这种对因果构念效度的分类重视有时让人觉得对人和场景總体的概括不重要构念效度理应包括这两个层面。

  Cook & Campbell()将外部效度的分类指称范围限制为人、场景和时间Shadish et al。(2002:38)则不将时间维度單列将外部效度定义为在人、场景、处理和结果测量发生变化时推断因果关系成立的有效性。Shadish et al(2002)定义中的外部效度指称范围等同于構念效度的分类指称范围,包括 Cook &Campbel(l1979)提到的两类推广---向总体的推广和在子总体之间推广

  2.2 效度威胁种类

  效度威胁是使推断失效的洇素。效度威胁可以从不同角度去理解它们是合理的对立假 设(plausible rival hypotheses),即与实验处理有效应假设相对立的假设也是混淆变量(confounds),或是無效度的分类来源(sources of invalidity)

  2.2.1 统计结论效度威胁Shadish et al。()列出九个统计结论效度威胁这些威胁及其描述如表 1 所示。表 1 中第一、二个威胁涉及处理变量操作和结果变量测量的信度问题。信度是效度的分类前提条件没有信度,就谈不上效度第三至第五个威胁是统计分析存茬的问题,如错误使用统计分析和效应量估计方法或没有对异常值进行必要的诊断与处理统计效力低不仅与处理和结果测量的信度有关,而且可能是第七至第九个威胁的直接结果

  2.2.2 内部效度威胁Shadish et al。()也列出九个内部效度威胁这些威胁及其描述如表 2 所示。原因变量茬前结果变量在后,这是推断因果关系的必要条件之一在实验研究中,处理变量的操纵发生在因变量的测量之前研究者不必担心模糊的时序性威胁。表 2 中的第二至第五个威胁与被试特征有关第六至第八个威胁与实验程序有关。

  第九个威胁反映不同威胁的交互作鼡譬如,在包括两个非对等(nonequivalent)组的准实验中如果一个组的前测成绩不仅明显好于另一个组,而且成绩随时间提升的速度也更快那麼选择和成熟就有可能会加倍提升其后测成绩,产生选择与成熟叠加效应

  2.2.3 构念效度威胁Shadish et al。()列出十四个构念效度威胁表 3 概括了┿一个构念效度威胁。表 3 中前五个威胁既适用于处理和结果变量,又适用于人和场景其他威胁主要针对结果变量的构念效度问题,尤其针对处理变量的构念效度问题Shadish et al。(2002:73)列出的最后四个威胁(补偿性平等、补偿性竞争、怨恨性怠工和处理扩散)在表中被统称为污染威胁这样做的目的是减少读者的记忆负荷。当实验处理向处理组提供合意的物品或服务时管理者或相关人员或许认为控制组受到不平等待遇,于是向控制组提供一些物品或服务作为补偿这些补偿就会成为实际的处理构念的一部分,由此产生(目标)处理的构念效度威脅

  补偿性竞争威胁指没有接受处理的参与者通过努力试图证明自己的表现不亚于接受处理的参与者。

  这种补偿性竞争包括在实際的处理过程中对(目标)处理构念的效度构成威胁。参与者的行为结果被公开表现不佳会产生不良后果,通常都会引发补偿性竞争怨恨性怠工在某些方面与补偿性竞争相反。处于不利的条件可能激发控制组加倍努力赶上或超过处理组也可能使控制组产生怨气,消極怠工削弱行为表现的结果。在外语教学实验研究中处于不利条件中的控制组意识到隔壁班级的学生得到有利的处理时可能会垂头丧氣,对教学产生对立情绪故意表现不佳或捣乱。这些因素有可能导致实验组和控制组后测的差异如果把后测差异仅归因于(目标)处悝,那就大错特错了当处理组和控制组距离很近,而且能够与控制组交流处理的信息时就有可能产生处理扩散威胁。出现处理扩散时实验结果就会无效,因为处理扩散与(目标)处理构念相混淆

  表 3 列出的威胁中,不好理解的威胁可能是单一操作偏差、单一方法偏差和对处理敏感的因子结构

  单一操作偏差和单一方法偏差是由不充分的构念操作引起的效度威胁。单一操作可能不足以代表构念且包含无关因素。假设你认为男性学生更愿意向女性教师求教外语学习方法于是将一批男生随机分成两组被试,检验假设的合理性┅组被试阅读关于一位女性教师的文字描述(包括女性化姓名),并附上照片另一组被试则阅读关于一位男性教师的文字描述(包括男性化姓名),并附上照片被试随后填写问卷,表明他们向男性或女性教师求教的意愿性程度由于该例对性别的操作只限于一次描述、┅个姓名和一张照片,因而性别的操作定义偏窄研究发现也许只适合于这一特殊的操作范例。一个更好的操作方法是使用多个描述、多個姓名和多张照片使用多个范例有助于发现范例的变化是否对测量结果产生影响。实际研究中自变量的多元操作常常很难实施。相比の下对因变量进行多个测量则较为容易。

效度(Validity)即有效性它是指测量笁具或手段能够准确测出所需测量的事物的程度。效度是指所测量到的结果反映所想要考察内容的程度测量结果与要考察的内容越吻合,则效度越高;反之则效度越低。效度分为三种类型:

的有效性程度即测量工具确能测出其所要测量特质的程度,或者简单地说是指┅个测验的准确性、有用性效度是科学的测量工具所必须具备的最重要的条件。在

中对作为测量工具的问卷或

的效度要求较高。鉴别效度须明确测量的目的与范围考虑所要测量的内容并分析其性质与特征,检查测量的内容是否与测量的目的相符进而判断测量结果是否反映了所要测量的特质的程度;

任何测验的效度是对一定的目标来说的,或者说测验只有用于与测验目标一致的目的和场合才会有效 所以,在评价测验的效度时必须考虑效度测验的目的与功能。

测验效度通常用相关系数表示它只有程度上的不同,而没有“全有”或“全无”的区别效度是针对测验结果的。

效度系数的实际意义常常以决定性系数来表示意旨相关系数的平方,它表示测验正确预测或解释的效标的方差占总方差的比例

(从预测分数预测效标成绩)如果X与Y两变量呈直线相关,只要确定出二者间的回归方程就可以从一個变量推估出另一个变量。

(比盲目预测减少的误差)

是指在研究的自变量与因变量之间存在一定关系的明确程度如果自变量和因变量の间关系并不会由于其它变量的存在受到影响,从而变得模糊不清或复杂化那么这项研究就具有内部效度。它所涉及的问题是:

(1)所研究的两个或多个变量之间是否存在一定的关系

(2)是否确实是自变量的变化引起了因变量的变化?

研究设计要对可能涉及的各种变量進行有效的控制与消除使与研究目标无关的变量对研究结果的影响很小或没有影响,因而,研究变量之间(如自变量与因变量之间)嘚关系是确定的和真实的意味着一项研究的内部效度高。

影响内部效度的分类因素比较多归纳起来,主要有历史、研究被试、研究手段方法和程序、

研究的内部效度不会自动形成内部效度的分类获得,主要是通过研究设计认真细致地选择变量,切实控制好各种变量保证研究变量之间的确定关系,消除与研究目标无关的变量对研究结果的影响上述4种方面的因素,都是在研究中应特别注意控制的朂有效的途径是采用随机化程序。对于

的各种具体情况(例如不同的研究活动)影响内部效度的分类因素种类、数量、作用大小会有一萣的差别,应该根据具体情况加以分析、预估、识别、并采取适当措施予以控制或消除以提高研究的内部效度。

是指研究结果能够一般囮和普遍适用到样本来自的总体和到其它的总体中的程度即研究结果和变量条件、时间和背景的代表性和普遍适用性。外部效度可以细汾为总体效度和

总体效度指研究结果能够适应于研究样本来自的总体的程度与能力或说对总体的普遍意义。要使研究结果适用于总体僦必须从总体中随机选取样本,使样本对总体具有代表性如果研究所选样本有偏差或数量太小,不足以代表总体其结果就难以对总体特征进行概括。

生态效度是指研究结果可以被概括化和适应于其它研究条件和情景的程度和能力要使研究结果能够适用于其它研究条件囷情景(例如,自变量与因变量、研究程序、研究背景、研究时间和研究者等方面的不同)就必须特别设计研究条件与情景,保证对其咜条件、情景有代表性

一般认为,内部效度是外部效度的分类必要条件但不是充分条件。内部效度低的研究结果就谈不上对其它情景嘚普遍意义;可是内部效度高的研究其结果却不一定能够一般化到其它总体和背景中去。教育科学研究的重要意义是要发现教育活动的普遍规律指导教育工作的开展。因此提高研究结果的外部效度十分重要。一项研究的内部效度再高如果其结果仅适应于特定的范围,特定的测量工具、特定研究程序和特定的研究条件等那么,从获取一般知识和揭示普遍规律的角度来看其价值、意义不大。因此研究的外部效度与内部效度在重要性上毫不逊色。

影响外部效度的分类因素主要有4个方面:研究被试方面、变量的定义和测试方面、研究掱段和程序方面、实验者方面

上述4方面因素,有时单独存在有时同时存在若干方面的影响。要提高研究的外部效度必须注意在研究Φ消除和控制上述各种影响因素。外部效度的分类要求是研究能够符合客观情况适用于更大的总体。其中关键的一环就是做好取样工莋。取样工作不但包括被试的取样而且也包括有代表性的研究背景(工作场所、学校、家庭、实验室)、研究工具、研究程序和时间等嘚选择。取样的背景与实际情景越接近研究结果的可用性、适用性、推广性就越强。一般来说随机取样,提高模拟现实情景的程度采用多种相关的研究方法,变化研究条件寻求具有普遍意义的结论是获得外部效度、提高研究结果可应用性的重要条件。

或假设的合理性、科学性及其转换为研究目标的恰当程度和可操作性。它涉及建立研究方案和测量指标的理论构思(或观察指标的理论设想)及其操莋化等方面的问题即理论构思及其转换的有效性。为了使研究具有较高的构思效度研究的理论构思首先要结构严谨、层次分明,形成某种“构思网络”其次对研究内容做出严格的抽象与操作性定义(如针对研究构思的特点,给予明确的操作定义)

影响构思效度的分類因素主要有3方面:研究构思方面、研究手段和程序方面、实验者的主观期望和被试者对研究的猜测。

使研究具有较高的构思效度应该滿足以下4个条件:

(1)理论构思要结构严谨、符合逻辑、层次分明,形成某种“构思网络”例如,将儿童的自我意识发展分为自我认识、自我体验和自我控制三方面而自我认识进一步细分为对生理自我的认识、对心理自我的认识和对社会自我的认识。这样的理论构思僦比较严谨、完整,有层次并且形成一种“网络”,便于理解和研究

(2)清晰、准确的界定研究的环境条件和变量。例如“小学五姩级学生发散思维问题研究”这样一个课题,对研究被试的年龄段生理智力发展,学习、生活、社会环境等需要明确界定范围用文字囷语言两种形式完整、准确地表述研究变量。

(3)对研究变量做出准确、严格的操作定义并选择对应、客观的观测指标。

(4)避免采用單一方法或单一指标去代表或分析多维的、多层次的、多侧面的事物和活动尽可能采用多种方法、多种指标,从不同角度分析研究相同嘚理论构思

教育科学研究常常包含着复杂的、多维度的理论构思,如何提高研究的构思效度是进行研究设计时需要加以特别重视的问题也是提高教育科学研究水平的重要内容。

是关于研究的数据分析处理程序的效度检验或者说,它是检验研究结果的数据分析程序与方法的有效性的指标统计结论效度的分类基本问题是研究误差、变异来源与如何适当地运用统计显著性检验,它不涉及系统性偏差的来源問题而是研究误差变异情况和如何适当运用统计显著性检验的问题。例如采用小样本的研究数据时,由于样本成份与测量数据都波动仳较大稳定性差,如果依赖统计显著性水平做出推论是不可靠的在这种情况下,应该运用功效分析(power analysis)看看一定的样本范围、变异程度和α水平上能够检验出多大的效应。这就是统计结论效度所考虑的问题。

的因素主要有方面:统计功效低、违反统计方法的使用条件、測量信度低

研究的统计结论效度主要取决于两个方面的条件:一是数据的质量,数据分析程序的效度是以数据的质量作为基础的数据質量差的研究是谈不上统计结论效度的分类;二是统计检验方法,数据分析中所采用的各种统计方法都有其明确的统计检验条件的要求,一项研究中统计检验条件不明确或者被违反就会显著降低统计结论效度。

内容效度指的是测验题目对有关内容或行为取样的适用性從而确定测验是否是所欲测量的行为领域的代表性取样。

1.专家判断法; 2.统计分析法(评分者信度\复本信度\折半信度\再测法); 3.经验推测法 (实验检验)

內容效度经常与表面效度(face validity)混淆表面效度是由外行对测验作表面上的检查确定的,它不反映测验实际测量的东西只是指测验表面上看来好像是测量所要测的东西;内容效度是由够资格的判断者(专家)详尽地、系统地对测验作评价而建立的。

指测验能够测量到理论上嘚构想或特质的程度即测验的结果是否能证实或解释某一理论的假设、术语或构想,解释的程度如何

1.对测验本身的分析(用内容效度來验证构想效度)

2.测验间的相互比较:相容效度(与已成熟的相同测验间的比较)、区分效度(与近似或应区分测验间的比较)、因素分析法

3.效标效度的分类研究证明

4.实验法和观察法证实

效标,即衡量测验有效性的参照标准指的是可以直接而且独立测量的我们感兴趣的行為。我们感兴趣的行为就是要预测的行为,这是一个总的观念故必须以可操作的测量来确定才有实际意义。因此有必要把效标细分为兩个层次其一是理论水平的“观念效标”,其二是操作定义水平的“效标测量”

效标效度又称实证效度,反映的是测验预测个体在某種情境下行为表现的有效性程度

根据效标资料是否与测验分数同时获得,又可分为同时效度(实际士气高和士气低的人在士气测验中的得汾一致性)和预测效度两类。

1、学业成就:如在校成绩、学历、有关的奖励和荣誉、教师对学生智力的评定等常作为智力测验的效标,吔可作为某些多重能力倾向测验和人格测验的效标;

2、实际工作表现:是最满意的效标测量为一般智力测验、人格测验和一些能力倾向測验的效标;

5、等级评定:是观察者根据测验欲测量的心理特质在被试身上的表现而作出的一种个人判断;

6、效标团体的比较:即找出两個在效标表现上有差别的团体,比较他们在测验分数上的差别;

7、先前有效的测验:一个新测验与先前有效的测验的相关也经常作为效度檢验的证据

一个好的效标必须具备以下条件:

①效标必须能最有效地反映测验的目标,即效标测量本身必须有效;

②效标必须具有较高嘚信度稳定可靠,不随时间等因素而变化;

③效标可以客观地加以测量可用数据或等级来表示;

④效标测量的方法简单,省时省力經济实用。

1.相关法:效度系数是最常用的效度指标尤其是效标效度。它是以皮尔逊积差相关系数来表示的主要反映测验分数与效标测量的相关。当测验成绩是连续变量而效标资料是二分变量时,计算效度系数可用点二列相关公式或二列相关公式;当测验分数为连续变量效标资料为等级评定时,可用贾斯朋多系列相关公式计算

2.区分法:是检验测验分数能否有效地区分由效标所定义的团体的一种方法。算出t值后便可知道分数的差异是否显著。若差异显著说明该测验能够有效地区分由效标定义的团体,否则测验是无效的。重叠百汾比可以通过计算每一组内得分超过(或低于)另一组平均数的人数百分比得出;另外还可以计算两组分布的共同区的百分比。重叠量樾大说明两组分数差异越小,即测验的效度越差

3.命中率法:是当测验用来做取舍的依据时,用其正确决定的比例作为效度指标的一种方法命中率的计算有两种方法,一是计算总命中率另一种是计算正命中率。

4、预期表法:是一种双向表格预测分数排在表的左边,效标排在表的顶端从左下至右上对角线上各百分数字越大,而其它的百分数字越小表示测验的效标效度越高 ;反之,数字越分散则效度越低。

﹐再到构念效度﹐可视为一种累进﹐即构念效度需要比准则效度更多的信息﹐准则效度需要比内容效度更多的信息

有更高的偠求﹐信度是效度的分类必要条件﹐没有信度的测量工具就谈不上具有效度﹐但信度高的测量工具未必具有高的效度。

测验取材的代表性、测验长度、试题类型、难度、区分度以及编排方式等都会影响效度

二、测验实施中的干扰因素

二干涉变量:样本团体的性质包括包括姩龄、性别、教育水平、智力、动机、兴趣、职业和任何有关的特征,由于这些特征的影响使得测验对于不同具有不同的测验能力。

吉賽利提出的如何找出干涉变量的一套方法:

①用回归方程求得每个人的预测效标分数将该分数与实际效标分数想比较,获得差异分数D.洳果D的绝对值很大说明测验中可能存在干涉变量。

②根据样本团体的组成分析找出对照组,分别计算效度从而象上述关于出租汽车司机的例子一样,找出干涉变量

③对于欲测团体,根据某些易见的干涉变量将其区分为预测性高和预测性低的两个亚团体对于预测性高的团体,获得的测验效度会有所提高

一个好的效标必须具备以下条件:

①效标必须能最有效地反映测验的目标,即效标测量本身必须囿效;

②效标必须具有较高的信度稳定可靠,不随时间等因素而变化;

③效标可以客观地加以测量可用数据或等级来表示;

④效标测量的方法简单,省时省力经济实用。

(face validity)指测试应达到的卷面标准,即一套测试题从表面看来是否是合适的例如,若一次阅读理解仂的测试包括许多受试者没有学过的方言词汇则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素

2)內容效度(content validity)。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求即测试的代表性和覆盖面的程度。唎如如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能,如只考单一音素的发音而不考查重读、语调或音素在词语中的發音,那么该测试的内容效度就很低。

3)编制效度(construct validity)指一套测试题的诸项目对编制该测试所依据的理论的各个基本方面的反映程度。例如以结构主义语言理论为基础,认为系统的语言习惯是通过句型而获得的那么,强调词汇和语法环境的测试题目就失去了编制效喥

4)经验效度(empirical validity)。经验效度是一种衡量测试有效性的量度通过把一次测试与一个或多个标准尺度相对照而得出。经验效度可分为两種:一是共时效度(concurrent validity)即将一次测试的结果同另一次时间相近的有效测试的结果相比较,或同教师的鉴定相比较而得出的

;二是预测效喥(predictive validity)即将一次测试的结果同后来的语言能力相比较,或是同教师后来对学生的鉴定相比较而得出的系数

一般来说,对某次测试的效喥进行检验时除了要根据教学大纲的要求和观念有效性的理论对试卷的内容进行考查以外,还须采用计算相关系数的定量方法即计算絀本次试卷与另一份已被确定能正确反映受试者水平的试卷之间的相关系数。系数高则有效性大课堂测试的效度应在0.4-0.7之间,规模较大的測试其效度应在0.7以上

效度分析有多种方法,其测量结果反映效度的分类不同方面常用于调查问卷效度分析的方法主要有以下几种。

单項与总和相关效度分析

表面效度(Face Validity)也称为内容效度或逻辑效度,指的是测量的内容与测量目标之间是否适合也可以说是指测量所选擇的项目是否“看起来”符合测量的目的和要求。主要依据调查设计人员的主观判断

这种方法用于测量量表的内容效度。内容效度又称表面效度或逻辑效度它是指所设计的题项能否代表所要测量的内容或主题。对内容效度常采用逻辑分析与统计分析相结合的方法进行评價逻辑分析一般由研究者或专家评判所选题项是否“看上去”符合测量的目的和要求。统计分析主要采用单项与总和相关分析法获得评價结果即计算每个题项得分与题项总分的相关系数,根据相关是否显著判断是否有效若量表中有反意题项,应将其逆向处理后再计算總分

或预测效度。准则效度是指量表所得到的数据和其他被选择的变量(准则变量)的值相比是否有意义根据时间跨度的不同,准则效度可分为同时效度和预测效度准则效度分析是根据已经得到确定的某种理论,选择一种指标或测量工具作为准则(效标)分析问卷題项与准则的联系,若二者相关显著或者问卷题项对准则的不同取值、特性表现出显著差异,则为有效的题项评价准则效度的分类方法是相关分析或差异显著性检验。在调查问卷的效度分析中选择一个合适的准则往往十分困难,使这种方法的应用受到一定限制

(Construct Validity)。是指测量结果体现出来的某种结构与测值之间的对应程度

分析所采用的方法是因子分析。最关心的问题是:量表实际测量的是哪些特征在评价建构效度时,调研人员要试图解释“量表为什么有效”这一理论问题以及考虑从这一理论问题中能得出什么推论结构效度包括同质效度、异质效度和语意逻辑效度。有的学者认为效度分析最理想的方法是利用因子分析测量量表或整个问卷的结构效度。因子分析的主要功能是从量表全部变量(题项)中提取一些公因子各公因子分别与某一群特定变量高度关联,这些公因子即代表了量表的基本結构通过因子分析可以考察问卷是否能够测量出研究者设计问卷时假设的某种结构。在因子分析的结果中用于评价结构效度的分类主偠指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因子对量表或问卷的累积有效程度共同度反映由公因子解释原变量的有效程度,因子负荷反映原变量与某个公因子的相关程度

我要回帖

更多关于 效度 的文章

 

随机推荐