当前位置:首页 -> 招考研究 -> 他山之石
国内外概化理论的研究成果与现状
(发布时间:2003年09月01日 )
     
 

 

      李伟明

、从经典测量理论(CTT)到概化理论(GT)

    概化理论( Generalizability TheoryGT)作为现代测量理论之一,是对经典测量理论(Classical Test TheoryCTT)的扬弃。概化理论以其独特的概念体系和理论构想,对测验信度进行了崭新的诠释。

    众所周知,传统的CTT对测验误差的分析是粗糙的,CTT的真分数线性模型为X=T+E(观察分数X等于真分数T与误差E之和),该模型最突出的弱点是无法区分复杂的测验情境中的各类误差,在误差E中包含了类似评定者、测题、测验环境等影响实际测量目标的各种因素;也由于CTT对随机误差的笼统界定,CTT只能获得单一测验条件下的真分数方差在观察分数方差中所占的比例,即一种测量情境下的信度;其次,CTT的测验信度是建立在严格平行测验假设基础上的,即两测验是以相同的程度测量同一心理特质。该平行性可用下列代数式来表示:

X=T+E

X'=T+E'

E(X) = E(X')

σ2 (X)= σ2 (X')

其中,XX'是假设的严格平行测验,两测验观察分数的期望(E)相同,方差(σ2 )也相同。然而,这一理论假设在实际的测验情境中却难以满足。上述弱点限制了经典测量理论的应用。

    鉴于CTT存在的不足,测量的理论界和实践领域都呼唤一个全新的测量理论。正是在这样的理论背景之下,20世纪60年代在Cronbach等学者的研究下( Cronbach Gleser& Rajaratnam 1963 Cronbach Gleser Nanda& Rajaratnam 1972),概化理论应运而生,开拓出测量理论的一片新天地。

    概化理论针对CTT混淆误差的缺点,借鉴试验设计和分析、方差分量模型的统计工具将测验情境中的各类误差进行分解,相对于CTTGT最大的改进为:辨明测量情境中的不同误差来源,并实施分解和控制( Shavelson & Webb,1991),因此概化理论又称为方差分量模型(variance component model)(Brennan, 2000b)GT中将测量情境关系分为测量目标(object of measurement)和测量侧面(facet of measurement)。前者是测量所希望描述的研究特质,如衡量学生的阅读理解能力的测验得分;后者是影响和制约测量目标的各种因素和条件(胡显勇,1994),即具体剖析各种误差构成,例如我们常把测题和评定者作为被试某能力水平的测量侧面。各测量侧面又可细分为许多不同的状态,GT称为侧面的水平(condition),例如每道测题和每位评定者都对应于相应侧面的一个水平。所有这些测量侧面水平的全体称之为观察全域(universe of admissible observations)。测量侧面分为随机侧面(random facet)和固定侧面(fixed facet)两种,随机侧面指该侧面各水平是从所有可能的水平中随机选取的;而固定侧面的各水平是固定不变的。只有随机侧面才可以推广或概化,为此概化理论模型中至少要含有一个随机侧面。正因为GT模型最显著的特征就是含有随机侧面,所以概化理论的数学模型属于随机效应模型(random effect model)(Brennan,2000b)

    概化理论的理论构架包括G研究( generalizability study)D研究( decision study )两个阶段。G研究首先确定测量情境关系,提出收集数据的初始测量研究设计,设计类型与方差分析ANOVA(analysis of variance)的设计类型相类似,有交叉设计(cross design)、嵌套设计(nest design)和混合设计(mixed design)。然后,在ANOVA分解误差的思想下,借助ANOVA等方法为观察全域提供方差分量(variance component)估计,即获得测量目标效应、各测量侧面效应以及测量侧面和测量目标的交互效应等的方差。D研究在G研究的基础上,计算初始测量设计下的类信度系数(相对决策下的概化系数Eρ2 ,或绝对决策下的可靠性指标Ø 系数)。更为重要的是,D研究可以在G研究的测量情境关系范围内,通过改进测量侧面结构、测量模式或样本容量,用方差分量来估计各种改进的测量设计条件下概化系数或Ø 系数的变化,即提供各种测量设计方案下全域分、误差的估计和设计优劣的信度指标,可探求有效控制误差、提高信度的最佳设计方案,提出最可行的实际测验决策。通常在D研究中修改测量设计方案的途径有三种:变随机侧面为固定侧面(但至少保留一个随机侧面);变交叉设计为嵌套设计;变更随机侧面的水平数( Shavelson& Webb,1991)D研究中将修改设计方案后所形成的新的全域称为概化全域(universe of generalization),它区别于G研究的观察全域,把G研究初始设计中代表性样本的统计结果推广或概化(generalize)到了新的全域。这就是概化理论之概化的真正内涵。

    GT中类似CTT真分数的概念是全域分(universe scores),全域分引入了“随机平行测验”(randomly-parallel-tests)的思想,即严格意义上,一个被试的全域分是测量过程中所有重复测量的期望分数( Brenna2000b)。与CTT“严格平行测验”的假设相比,这是一个弱假设,对分布的要求低,更切合实际。

    由于D研究是在G研究的测量情境范围之内,改变测量设计,将G研究的结果推广或概化到新的全域上,为此GT的全域分是依据概化全域定义的,而概化全域是研究者按照自己的研究目的和在D研究中所期望得到的信度估计来确定的。同样,理解和确定GT中的误差也是需要考虑测量目标、概化全域、数据采集设计等多方面的因素。例如测量侧面和测量目标的转变:D研究的特性和结构(如侧面水平数和侧面设计类型)在很大程度上也决定测量误差的量。可见,GT的真分数和误差不是有待发现的事实,而是一种研究者所指定的研究建构(Brennan, 2000b)。因此,具体的测量情境不同,测量的真分数和误差方差也必定发生变化,相应的就有多种信度系数。研究者可依据实际测验信度的要求和实现的测量设计、误差控制等因素来探寻最优的测量决策。这一理论有别于CTT的单一信度,使信度具有多维性、可变性、相对性和可改进性。多维可变的信度观也正是概化理论的独特之处。

 

、从单变量概化理论(UGT)到多元概化理论(MGT)

    概化理论以其动态性、预测性的信度研究视角,借用试验设计和分析、方差分量模型等统计工具,为复杂、现实的多维度测量提供了可靠的信度分析。秉承这一思想,为了适应实际教育、心理测量中复杂的多变量测量信度的要求,Cronbach( Cronbachetc., 1972)在有关多元概化分析的阐述中详尽地讨论了方差协方差分量(Variance and Covariance Components)的估计方法和在GT中的作用,其后在1976JoeWoodward首次将一元的概化系数推广为多元概化系数(Multivariate Generalizability Coefficient),从此开始了多元概化理论(Multivariate Generalizability Theory, MGT)的深入研究。相应地,研究者将以往的一元概化研究称之为单变量概化理论(Univariate Generalizability Theory, UGT)

    多元概化理论MGT与单变量概化理论有着相同的理论构架,是对UGT的推广和发展,它适用于多变量的测量情境。MGT的测量目标是由多个变量组成,它可表示为一个多维的分数向量,不同的测评变量(或维度)上的得分是相互关联的,多维分数构成一个向量,向量的期望观察分数方差、全域分方差和误差方差不仅有赖于各测评变量的方差,还包括测评变量之间的协方差。则向量的观察分数方差可用方差协方差矩阵来表示。

    在单变量的概化分析中,期望的观察分数方差可分解为全域分数方差和误差方差,与此相似,MGT期望的观察分数之方差协方差矩阵也可分解为各效应的方差协方差分量矩阵。单变量概化分析使用ANOVA等方法为观察全域提供方差分量,作为单变量的拓展,多元概化研究可借助多元方差分析(MANOVA)等方法计算方差协方差分量。多元概化理论中,方差协方差分量矩阵的对角线元素值即等于单变量概化分析时对应的各测评维度的方差分量值,这表明多元概化研究的结果包含了单变量概比分析的信息;更为关键的是,通过各效应的协方差分量,可获得单变量方差分量模型中没有的信息,MGT提供了多变量测评中协方差构成的相关信息,为多维度测量的测评结构关联、组合测验分信度提供了更全面的剖析(Shavelson & Webb, 1981)

    多元概比理论中的信度指标是多元概化系数,同样有相对决策和绝对决策两种多元概化系数,多元概化系数为多变量测量提供了综合的整体信度指标,例如MGT早期在美国教育发展评估中的应用(Webb, & Shavelson 1981)20世纪80年代初美国劳工部使用一般教育发展量表(GED)评估各类职业所需的推理、算术和语言能力。研究中由来自全美11个地区的71名评定者(rater)对所抽样的职业(job)在两个情境(occasion)中分别评估其所要求的三方面教育发展水平,测量设计为双侧面完全交叉设计r´j´o,其中各类职业在推理、算术、语言三方面的教育发展评估构成的分数向量用于随机效应的多元方差分析(MANOVA)中进行多元概化研究。与此同时,研究者也将三方面组成的教育发展水平作为固定侧面,分别对该侧面的每个水平进行单变量的概化分析。多元概化研究的结果不仅获得了单变量概化分析的方差分量,还借助固定侧面不同水平间的协方差分量提供了诸如评定者在GED各分量上的不一致性等信息。对于该双侧面完全交叉设计,JoeWoodward(1976)的多元概化系数为

 

 

上例中V是由MANOVA中的均方矩阵(Mean square Matrix)估计出的各方差协方差分量矩阵,其中Vj是各类职业所需的推理、算术和语言能力所对应的方差协方差分量矩阵,Vjr是各类职业的三方面教育发展评估与评定者交互效应的方差协方差分量;Vjo是各类职业的三方面教育发展评估与情境交互效应的方差协方差分量;Ve是各类职业的三方面教育发展评估与评定者、情境三者的交互效应,以及残差效应混杂的方差协方差分量;nr为评定者人数,no为测验情境种类数;α是最大化信度系数的典范系数向量。α作为一种权重确定测量分数的一种组合,可用于估计总体的概化系数。

    典范系数向量是MGT的重要概念,多元概化系数中α是应用统计技术为获得最大概化系数而设定的各测评维度的权重,是数据驱动的结果,并不是由研究者决定的,因此在得出权重后,应从理论上阐释其实际含义,即测评维度某种组合的概化性 (Lynn,  Shavelson, Webb,1986)。由于这种权重大小往往与理论不吻合,因此大多数研究倾向于依据理论(如心理学的智力结构理论)或实践应用来确定权重(Marcoulides, 1994)。例如,请专家来判断各个分测验中的内容相对于测验目的的重要程度,以此确定权重系数;更为简易的方法是直接把n个分测验中的题目数占总题数的比重作为权系数(杨志明,张雷,2002)实际上,多元概化系数中权重的确定是测量效度领域的研究内容,多元概化理论MGT的发展将测验信度和效度两大研究范畴融合,以崭新的视角成为现代测量理论发展的里程碑。

 

三、国内外概化理论研究现状

    概化理论在诞生早期并没有得到迅速的推广,直到20世纪80年代后期GT才逐步发展起来并与项目反应理论(Item Response Theory, IRT)CTT形成三足鼎立的局面(Webb,etc.,1988 Hambleton& Zaal,1991),到1992年,在ERIC(Educational Resource Information Center)检索中,每一万篇教育科研的杂志类论文中专门研究GTIRT的文章各有20多篇(Dany Laveaultetc., 1994)。查阅19961999年三年间美国心理学会(APA)PsycINFO提供的文献检索信息,有关GT的理论研究和实践应用的文章有70多篇,内容涉及心理咨询、教育测验、行为科学、人事评估、神经医学等实践研究领域(Webb Rowley, & Shavelson  1988; Atkinson, & Violato1994; Linn, etc., 1996; Lee, & Frisbie 1999;  Anderson, Freeman, & Scotti,1999)

    国外有关概化理论的一项新进展是潜在特质GT模型。Marcoulides1997年提出将GT拓广为一种特殊类型的IRT模型,可用来估计潜在特质,如被试能力估计、评定者严格程度、项目难度(Embretson& Hershberger,1999),通过与Racsh模型IRT结果比较已获得实证支持,潜在特质GT模型的诞生加深了教育心理测量学界对GT研究重要性的认识。随着GT的理论内涵更加丰富,其应用的情景也更为复杂。在各种误差研究中,不仅是对评分误差,而且对于各类组合测验( Testlets )的信度研究和标准参照测验(Criterion Reference Test)界定分数(cut-off score)的误差研究(Lee, & Frisbie 1999; Yen,1997; Brennan,2000a) 概化理论都得以大显身手。此外,GT还用来确定实证评价(Performance Assessment)中的任务个数(ShavelsonBaxter, & Gao,1993; McBee & Barnes,1998),以及提供收敛效度(Convergent Validity)的证据(Brennan& Johnson1995; Gao Shavelson Brennan, & Baxter,1996)等,正如Marcoulides (1999) 在《测量的新规则》(The New Rules of Measurement)中所指出的,GT模型对于实际应用中所涉及到的所有类型的测量设计都是适用的。可见,概化理论作为一种可设计、评估和改善测验过程的、可靠的、综合性的方法正描绘着现代测量理论的新图景。

    概化理论的迅猛发展不仅基于测量实践的需要,而且也得益于相应软件包的问世,各种软件的使用使概化分析中方差分量的估计变得更为简单易行。

    概化理论发展早期,通常采用方差分析估计方差分量,但研究者发现该方法会产生方差分量的负估计;且在应用AN0VA估计部分平衡不完全区组设计(Partial Balanced Incomplete Block Design)的方差分量时出现问题,各部分平方和的不可加性导致了混合模型中的偏差估计,相应的期望均方的推导运算也发生变化。为解决这一问题,Rao s最小范数二次无偏估计(Minimum Norm Quadratic Unbiased Estimation, MINQUE)方法应运而生,此外还产生了极大似然估计(Maximum Likelihood, ML)、有限极大似然估计(Restricted Maximum Likelihood, REML)和贝叶斯估计(Bayes)等多种方差分量的估计方法(Shavelson, & Webb, 1989; Brennan,1994)。目前,可用于估计方差分量的统计软件有SPSSSASBMDPGENOVA(Brennan1994),其中GENOVA是概化理论的专用软件,此外Marcoulides(Marcoulides,1996)还推荐使用结构方程建模(Structural Equation Models,SEM)的软件(LISRELEQSAmos)估计方差分量。

     由于多元概化理论数理推理复杂、运算烦琐,有关MGT的应用研究在21世纪80年代初作了一些尝试(Webb,& Shavelson,& Maddahian, 1983)之后,一度受到冷落。直到1995年,Brennan等较详尽地探讨了单变量概化理论和多元概化理论在ACT(American College Test)听力和写作测试中的应用(Brennan,1995),但结论并没有体现出多元概化理论的优点。此后的MGT应用论文极少(Gao,Shavelson,Brennan & Baxter,1996; WebbSchlackman, & Sugrue,2000)。然而可喜的是,Brennan近期在单变量概化分析软件GENOVA的基础上编制出进行多元概化分析的专用软件mGENOVA(Brennan2001),这将极大地简化了多元概化理论估计方差协方差分量的计算,为MGT的广泛应用开拓了美好前景。

    当前随着心理与教育理论发展的深入,诸多心理与教育测评都是复杂的多特质多维度的测量,研究者也逐渐意识到多元概化理论的应用前景。国际测量理论界有一种观点,将概化理论界定为多元随机效应模型。当GT中出现固定侧面时,该侧面就成为测量目标的一部分,它的方差可以看成是真方差的一部分,这时将固定侧面各水平作为一个向量来进行多元概化分析是恰当的,从这个意义上说,GT最好视为一个多元理论,其中每个固定侧面的每个水平和固定的各水平间的关联都对应的是一个随机效应模型(Brennan2000b)。正如统计中的多元分析不能由若干个一元分析来代替一样,Brennan提出,并不是所有的多元概化研究都可以用单变量的混合模型分析来简化的。仅仅当研究者对协方差蕴涵的侧面信息不感兴趣,并且在定义和评估一个全域分的组合时,所有固定侧面的水平都是根据测量中所用样本容量来加权的情况下,单变量的简化分析才有效。即使在固有的多变量情境下单变量混合模型分析可以进行,它也掩盖了方差分量和协方差分量之间潜在的重要差异(Brennan2000b)

     我国对GT的引进是21世纪80年代,在我国高考改革的推动下,对于教育测量理论中信度问题,国内测量学家引入了国外现代测量理论对信度的新观念。早在1985年,当时的广州外语学院院长外语测试专家桂诗春的研究生曾应用概化理论研究高考中的作文评分误差,但遗憾的是,由于概化理论模型复杂、计算多样,以及国内测量界的忽视,以后关于GT的理论介绍和实践应用的文章寥若星辰,20世纪90年代国内的文章多为概述GT的产生思路,比较基本模型和计量方法上与CTT的异同(戴海崎,1995;杨志明,1996;漆书青,戴海崎,丁树良,1998),实际应用的例子主要是初探性、尝试性的测验信度估计,如作文或面试评分中误差控制(胡显勇,1994;刘远我,张厚粲,1998;刘远我,张厚粲,1999;张雷,侯杰泰,文剑冰,王渝光,2001),采用的均为单变量概化设计。然而值得一提的是,近期国内测量理论界已展开了对GT的较深入的理论讨论(李伟明,严芳,2001;刘远我,2001)。最近,香港的测量学研究者发表了一篇多元概化理论的应用研究论文(杨志明,张雷,2002),而有关多元概化理论的模型、设计和技术方法上的研究仍是空白,多元概化理论在国内测量界仍鲜为人知。

                                                       (作者单位  华东师范大学)