欢迎使用 德赛公园。
这个人可能是个大骗子
邓明昱(Miller Mingyu Deng)
资料:
http://baike.baidu.com/view/1032146.htm?reforce=%B5%CB%C3%F7%EA%C5
http://www.hudong.com/wiki/%E9%82%93%E6%98%8E%E6%98%B1
构念效度
术语的翻译
“Construct Validity”常见的译法有“建构效度”、“结构效度”、“构想效度”、“构思效度”、“构念效度”等。哪一种最为贴切呢?
先来说说“construct”在这里的涵义。“construct”可作为动词或者名词,在这里应当是名词。按照 Merriam-Webster 在线词典,当“construct”作为名词时有两种解释:
- 1: something constructed by the mind: as
- a: a theoretical entity
<the deductive study of abstract constructs — D. J. Boorstin>- b: a working hypothesis or concept
<the unconscious was a construct that came from the daily effort to understand patients>- 2: a product of ideology, history, or social circumstances
<privacy is more than a social construct or an idea; it is a condition of the body — Sallie Tisdale>
这里应当取其中的第1种下的b,即“something constructed by the mind as a working hypothesis or concept”,翻译成中文大概是“头脑中构造出来的指导性的假设或概念”,可简称为“构念”。“构想”和“构思”与其含义比较接近,但是“构想”和“ 构思”不明确地具备“concept”之意,因此并不完全妥帖。
如果翻译为“建构效度”,那就是在使用其中的第2种解释,但这是不正确的。心理测量和教育测量中涉及的概念的确也是社会建构的产物,但是这里在讨论其效度的时候,并没有这层含义。翻译为“建构效度”会导致严重的误解。
“结构效度”也是不恰当的翻译,这里的“construct”完全没有“结构”的意思。“结构”对应的英文单词应该是“structure”而不是 “construct”。另外,效度理论里面有个术语叫“Internal Structure Validity”,即内部结构效度,把“Construct Validity”翻译为“结构效度”会导致概念的混淆。
综上所述,“构念效度”应当是最恰当的翻译。“构念”这个词隐含有“构造出来的概念”的意思,我认为这非常恰当地反映了“construct”在这里的本意。
内容效度、校标效度、构念效度
内容效度、校标效度、构念效度,这三个词对应的英文原文分别是:Content Validity, Criterion Validity, Construct Validity。我最初学习的时候,我们使用的教材把 Construct Validity 和 Criterion Validity 都归类于“Evidence Based on Relations to Other Variables”。这样的归类虽然有一定的道理,但是既然构念效度和校标效度都和其他变量有关,那么它们的区别到底何在?书中并没有把其中的道理讲清 楚。为了把这个问题弄明白我查阅了不少资料,最终 APA(1954) 解决了我的疑问。
内容效度最容易理解,它关心的是测量的内容。比如历史知识的单元考试,内容效度就会考察试卷是不是把这个单元该考的知识都考全面了。
校标效度稍微复杂些,它关心的是测量结果和另外一个校标(criterion)的符合程度,它并不关心测量本身的内容。比如,据说微软公司招人的时 候会考一些类似脑筋急转弯的问题,像”纽约有多少个水井盖”之类。考察者并不真的关心答题者是不是真的知道纽约有多少个水井盖,他关心的是答题者以后的工 作业绩(相当于校标)。那么考题到底能在多大程度上预测工作业绩呢,或者说这些考题和工作业绩的相关程度到底如何呢,这就是校标效度。
构念效度最为复杂,它关心的是测量工具和构念的符合程度。这里的构念(construct)可以理解为理论化的概念(theoretical concept),比如智力、学习动机、学习态度、学习兴趣等等,可以说绝大多数心理测量和教育测量都涉及到这种理论化的概念,也就是构念。在衡量构念效 度的时候,也会使用其他的测量结果来作为参照。比如考察学生的逻辑推理能力,可以看看和数学成绩的相关性如何,这有点类似于校标了。但是它和校标效度是有 本质区别的,因为考察者并不把数学成绩当作逻辑推理能力的校标,数学成绩只不过是一个参照而已。
下面我们就来讨论它们的区别到底何在。首先是调查者(investigator)的观察的取向(orientation)不同。使用内容效度的调查 者,关心的是测量的得分。比如教师对学生进行历史知识测验,那么学生在这张试卷上的得分正是教师所关心的。使用校标效度的调查者,并不关心测量本身的得 分,他关心的是校标的得分。比如上面举的招聘的例子,公司并不真正在乎你在招聘试题上的得分,他在乎的是你以后的工作业绩(相当于校标)。而使用构念效度 的调查者,他既不关心测量本身的得分,也不关心其它参照量上的得分。比如测量被试者的逻辑推理能力时,被试者在那些特定的试题上的得分并不是测试者真正关 心的,其他参照量上的得分(比如数学成绩等等)也不是测试者真正关心的。那么调查者真正关心的是什么呢?是被试者隐藏在这些得分底下的特征(trait) 或特质(quality)。
上面说的是三种效度在观察重心上的区别,另一个明显的区别就是推论(inference)的程度的不同。对使用内容效度的测量者的来说,基本上不存 在推论。还以历史知识测验为例,考得好就说明这部分知识掌握得好,教师不需要进行什么推论,考试得分直接说明问题(如果要引申到学生的学习态度那就是在进 行推论了)。在校标效度的例子里,推论是很明显的。招聘试题上的得分真的能预测将来的工作业绩吗,这时候推论的意味已经很强烈了,实际上校标效度就是用来 衡量这种推论的可靠性的。在构念效度的例子里,测试者所进行的推论就更强了。一张考卷真的能可靠地反映出被试者的逻辑推理能力吗?这是极其复杂的问题,而 且,是个无法被实证直接检验的问题。在校标效度的例子里,将来的工作业绩是一个具体而直接的判定依据(至于如何衡量工作业绩那是另外的问题了)。而构念效 度所要追求的理论化概念本身是抽象的,就比如逻辑推理能力,它不是一个具体的量度,不可能被实证直接检验(更深入的讨论见后文)。
说到这里可以对三者的区别进行一个小结。测量者关心的是测量得分时用内容效度,测量者关心的是校标得分时用校标效度,测量者关心的是被试的某种特征或特质时用构念效度。这里要再次强调的是,测量得分和校标得分都是具体的,而构念是抽象的,是人为构造出来的理论化的概念。
也许还需要解释一下,三种效度并非只能用于不同的测量工具,而是取决于测量者如何使用测量工具。比如,同样是一张数学试卷,三种效度都可以用来考核 它,这取决于施测者如何使用这份试卷。如果施测者只想从中知道学生对特定的数学知识的掌握情况,那么他应该关心这张试卷的内容效度如何;如果施测者想以此 推断学生将来高考时的数学成绩,那么他应该关心这张试卷的校标效度如何;如果施测者想以此判断学生的逻辑推理能力,那么他就应该关心这张试卷的构念效度如 何。
构念效度是把“大伞”
前文根据 APA (1954) 所述介绍了构念效度和内容效度、校标效度的区别。然而,现代对构念效度的理解已有所不同。在 APA (1954) 中,这三种效度是并列关系。但是现在有的书中把构念效度作为一个大的概念,而把内容效度和校标效度归于其下。比如在 Domino & Domino (2006) 中就这么说:
“Construct validity is an umbrella term that encompasses many information about a particular test; both content and criterion validity can be subsumed under this broader term.” (p. 55)
在另外一本教材 Trochim & Donnelly (2006) 里,对这几个效度也进行了相似的归类(p. 66)。为什么会这样呢?
构念效度总的意思很简单,它其实就是问测量工具所测的到底是不是研究者想要测的。比如智力测量问卷,测出来的到底是不是智力。可以看出来,构念效度 只是一个非常笼统的目标,并不涉及具体的操作或者说实现的方法。而内容效度和校标效度可以看作是实现构念效度的某种途径。这两种途径的区别是,内容效度是 直接的检查,而校标效度是间接的检查。
但是内容效度和校标效度是怎么被归类到构念效度下去的呢?其实仔细想想就会发现并不奇怪。任何心理或教育测量都会牵涉到构念。比如,对学生进行历史 单元知识的考察,那么“学生对历史单元知识的掌握”其实也是一个构念,只不过是比较容易被具体化/操作化的构念(相对于智力、动机这些心理特质来说)。而 在上文校标效度的例子,公司招聘人员的时候,招聘考官其实也是有“构念”的,比如应聘者的工作能力、团队精神等等。使用校标效度只是表面上避开了构念,但 是要把校标和测量联系起来,不通过构念是不可能的。可见构念在测量中真的是无处不在,把其它效度罩于构念效度这把大伞之下也的确不无道理。
另,关于这些效度的概念的具体变化请参看 Goodwin(2002)。
构念效度是把“巨伞”
上面说到构念效度是把“大伞”,把内容效度和校标效度都笼罩就去了。如果我们再深入的想一想,构念真的只在测量中存在吗?Trochim & Donnelly (2006) 一书中把构念这一概念引申到了研究的每个环节。
首先,当我们在进行某种实验操作,或者说对试验对象施加某种影响的时候,也是由构念在指导着我们。比如,我们要试验某种教学方法的时候,那么这个教 学方法就是我们头脑中的一个构念。在我们进行到试验的实际操作环节的时候,一个不可回避的问题就摆在了面前,我们所进行的教学操作真正贯彻了我们心中所想 的那个教学方法吗?如果我们要开展儿童中心的探究式教学活动,我们能保证在实践中做到了这些吗?以及我们有什么证据能够证明它呢?这其实也是构念效度的问 题。
另外,Trochim & Donnelly 还把构念效度引申到抽样中来,我们所采用的样本和我们心中所想的实验对象一致吗?这也是构念效度的问题。
总之,只要涉及从理论层面到操作层面的转化就有构念效度的问题。在研究的各个环节中我们应当不断地提醒和检验自己,我所做的真的符合我所想的吗?从抽样到测量到实验,每一处都不能疏漏。
单刀直入还是旁敲侧击
Trochim & Donnelly (2006, pp.69-71) 一书中指出对待构念效度有两种倾向,一种被作者称为定义主义者(definitionalist),另一种被称为关系主义者 (relationalist)。前者是从所测量的构念本身的定义入手,看测量是不是实现了或符合了对构念的操作化定义,这是一种单刀直入的方法。后者是 从所测量的构念和其他构念的关系入手,看是不是符合和其他构念应有的联系或者是应有的区别,这是一种旁敲侧击的方法。
单刀直入法首先要面对的问题就是,很多构念目前还没有操作化定义或者说很难对其操作化,造成单刀直入法根本无用武之地。这是很明显的事,我就不细说了。我下面要着重解释的是,即便是在比较容易实现对构念的操作化定义的场景下,单刀直入法也并不可靠。
比如我们要考察一份数学单元知识检测试卷的构念效度。单刀直入的方法就是,列出这部分数学单元知识应该有哪些,然后在试卷上逐一检查,是不是都有 了。但是这种方法是不全面的,因为测量工具不但要测量该测量的,还要回避不该测量的。如果你要保证这份数学单元知识检测试卷只反映学生对这部分单元知识的 掌握情况,你就必须还要保证:没有考察其它不相关的数学知识、没有考察学生的数学能力、没有考察学生的阅读能力、等等。具体来说,如果是解析几何的考试, 假设其中某题的解答必须用到一种代数方程求解的知识——当然不是说不能用到这个知识——但是出题者应当知晓至少绝大多数(最好是全部)学生已经掌握了那种 方程的解法,否则你就无法从测试结果中知道学生不能解答该题是因为解析几何的知识没有掌握还是代数方程求解的知识没有掌握,那么这个考卷的效度就可疑了。 再往深里说,你怎么保证这份试卷不考察学生的数学能力呢?这就需要把数学知识和数学能力区分清楚。解题方法的应用可能是在考核数学知识(因为解题方法也是 一种知识),也可能是在考核数学能力(对解题方法在不同场景中灵活应用)。这取决于:1)学生对这种解题方法是不是充分训练过,2)解题方法的应用的情景 是不是训练中类似的情景。如果这两个问题的答案都是肯定的,那么就是考核数学知识,如果有一个否定的,就是考核数学能力。实践中我们还会遇到一种情况,学 生考完过来抱怨说某条应用题完全看不懂,因而无法解答。“看不懂”其实有不同层面的含义,可能是字面上看不懂,那就是阅读能力的缺陷;也可能是字面上看懂 了,但是无法理解它的数学内涵,或者说就是不能把日常语言转化为数学语言,这就是数学能力的缺陷。
那么如何解决上述的诸多问题呢?要保证这份数学单元知识检测试卷没有考察不相关的数学知识,最好的办法就是再用其他不相关的数学知识考一下,得到的 考试结果和原试卷的考试结果的相关程度应该足够的低。要保证这份数学单元知识检测试卷没有考察学生的数学能力,最好的办法就是再用数学能力检测试卷考一 下,得到的考试结果和原试卷的考试结果的相关程度应该足够的低。要保证这份数学单元知识检测试卷没有考察学生的阅读能力,最好的办法就是再用语文阅读能力 检测试卷考一下,得到的考试结果和原试卷的考试结果的相关程度也应该足够的低。我当然知道这些是非常理想化的建议,实践中不可能完全做到。这里讨论的目的 是要表明单刀直入的方法是有严重局限的,要建立理想的构念效度必须要从全局来考虑,也就是关系主义者的方法。
法则网络
虽然在 APA (1954) 中已经提出了构念效度,但是并没有给出具体的实现方法。在其后的一篇文章中 Cronbach & Meehl (1955) 提出了 “nomological network”。其中“nomological”的意思是“法理的/法则的”,因此 nomological network 可以译为“法理网络”或“法则网络”。我偏向于采用后者,因为前一种容易让人误解为法律词汇。
法则网络其实也不是一种具体的方法,而是一种方法论。其中心思想就是把构念和测量工具放到由各种法则建立的理论框架(theoretical framework)和经验框架(empirical framework)的网络中去评价其效度。为什么要这样呢?这是不是在把简单的事情搞复杂呢?前面的讨论已经说明了单刀直入法是不充分的,旁敲侧击是必 要的。但是我们要在这里说明的是,单刀直入法不仅仅是不充分,而是根本不可能的。因为任何概念的定义从来都不会是孤立的,而是通过和其他概念的联系建立起 来的。任何概念的定义必然会用到其他概念,如果意识到这一点,就会知道通过法则网络来评价构念效度其实是不可避免的。
除此以外,在这篇经典文献中 Cronbach & Meehl 非常明智地指出,由于我们所知的那些法则是不完善的,因此我们对构念的理解也必然是模糊的(p.294)。随着研究的逐步深入,我们对构念的理解才更为清 晰。在深入理解的基础上,可能我们需要向整个网络中加入新的构念,也可能把已有的某个构念一拆为二,也可能把已有的某些构念合而为一。也就是说整个网络也 是不断更新的。故而构念效度是不可能一步达成的,而是需要不断去完善的。这些论述颇有科学哲学的意味,不错, Cronbach & Meehl 在其文献中明确地引用了多位科学哲学家(Hempel、Kaplan等)的著作。
这个思想是如此的重要,我这里必须进一步加以阐述。有一种流行的观念,认为在研究中必须先把概念定义清楚,然后才能继续探讨。也就是说把明晰的概念 当作研究的前提,这甚至被当作学术研究的起码要求。这种观念很可能来自于自然科学的影响。我在这里并不是要强调社会科学和自然科学的区别,我要指出的是, 即便社会科学和自然科学从共通的科学属性(假使有的话)上来说没有根本的区别,我们也必须注意到两者处于不同的历史发展时期,因而不能对学术规范进行强行 移植。事实上,社会科学的很多学科都是刚刚起步,大多数作为正式学科的登台只有将近一百年的时间,有的甚至是近五十年的事情。而自然科学的发展显然要成熟 得多,物理学从伽利略算起也已有四百多年的历史。把成熟学科的规范向新生学科进行生搬硬套是不合理的。如果我们现在回头看自然科学的发展历史, 也存在着概念混淆不清的时期。比如物理学上一些极重要的基本概念,力、能量、质量等等(更不用说时间、空间这样的概念了),在很长的历史时期里都没有清晰 的定义。在牛顿时代这些概念都是相当混淆的,物理概念的循环定义也不罕见(比如牛顿的密度和质量的循环定义、力和加速度的循环定义),但这并不妨碍物理学 整体的进步。事实上,正是在整个物理学进步的过程中,当联系物理概念的物理规律被逐步挖掘出来的时候,这些概念才被认识得越来越清晰、越来越深刻。先把概 念定义好再开始进行科学研究,这种想当然的理想化的看法是不符合科学发展的历史事实的。可以说现代自然科学的法则网络已相当成熟而处于比较稳定的时期(但 不是不在变动),但是社会科学的的法则网络还非常稚嫩,按照自然科学的现状来要求社会科学就如同按照成人来要求儿童,这显然是不合理的。
举个具体的例子。我们对逻辑推理能力这个构念的理解本身就不精确,因此要对逻辑推理能力的测量工具建立完美的构念效度其实是不可能的。而这一现状是 可以容忍的,为什么呢?因为我们对和逻辑推理能力相关的规律了解得很少,因此逻辑推理能力这个构念对我们来说必然是模糊的。我们不清楚它到底是怎么回事, 我们如何能定义它?有的人会说,“逻辑推理能力”这个概念也许根本就是没有根据的捏造,或者说很可能就是个没意义的伪概念,那我们的所有研究岂不是都在浪 费时间?非也。首先逻辑推理能力这个概念是基于日常观察而提出的,绝不是无中生有。也许有一天,我们通过研究发现对类似的现象可以有更好的解释,从而导致 “逻辑推理能力”这个概念要被抛弃掉。这种情况完全有可能发生,但是这并不意味着以前的研究都是白费力气。如果没有之前研究的积累,我们怎么可能发现对类 似的现象的更好的解释呢?你当然可以说我们在研究这个问题时走了弯路,但是这种后见之明毫无意义。其实在自然科学的发展史上旧概念被淘汰的例子也屡见不 鲜,比如 “活力”被“能量”替代,最著名的可能要属“以太”的概念被淘汰。如果一定要先给出概念的明确定义,然后才允许开展与之相关的研究,那么相关的研究就永远 不会起步,大家都只能从早到晚坐在办公桌前琢磨定义了。如果我们要跳出闭门造车的尴尬局面,我们就必须接受已有的还不太可靠的法则网络(包括其中模糊的概 念),在其基础上开展研究,并通过研究逐步完善它。
前文讨论了评估构念效度的方法论,下面说说评估构念效度的具体方法。
Face Validity
即表面效度,通俗点说就是看面相,看起来像不像那么回事。这个“看”当然最好不是自己看,而是找到特定领域的专家来看。很显然表面效度是很主观的判 断,或许有人会怀疑这也能用在研究中吗。那要看研究的目的了。如果你要建立一份标准化的测量工具,光靠表面效度肯定不行。但如果是一位数学教师想大致了解 学生的数学能力,他很可能需要编制一份自己的测试卷,因为其它的测试卷未必适合他的学生的实际情况。在这种情况下,找个研究数学能力的专家来帮这位教师看 看这份测试卷提提意见,也许是实现构念效度的最佳选择。其它的方法既耗力又费时,也没有太大的必要,而表面效度却可以帮助部分研究者比较便捷地得到有意义 的结果,何乐而不为呢?
Content Validity
即内容效度,看测量工具的内容是否能完全地反映相应的领域应当涉及的内容。检查内容效度最好的办法就是使用清单(checklist)。把相应的领 域应当涉及的内容列成一个清单,然后对着测量工具里的题目一个个检查过去。如果某个题目能够对应到清单中某个项目,就在那个项目前面打个勾。如果所有的题 目都检查完后所有的项目都打了勾,那么内容效度就合格了。
在这个检查的过程中有两个问题值得注意。一个问题是清单怎么来?有两种方法,一是根据标准文献,比如教学大纲等等;还有一个是专家意见。如果使用专 家意见的话,最好是同时请教多个专家的看法。当然不同的人意见会不一样,研究者可以根据自己的研究目标权衡一下,至于比较严格的定量方法可以参看 Lawshe (1975) 。还有一个问题就是谁来检查?把测试题对应到清单中的项目也是个主观判断,最好不要让研究者本人来做,因为本人的主观意愿很可能会影响检查结果(过于严格 或者过于宽松都是有可能的)。最好是让其他同行来检查,而且是多个人各自独立地检查。如果这两个问题都处理好了,那么内容效度就比较可靠了。
Internal Structure Validity
即内部结构效度,它检查的是测量工具的内在一致性,也就是说测量工具内的各个题目应该是测量的同一个构念。最简单的方法是检查各测试题上的得分和总 得分的相关系数,如果样本在某个题目上的得分和(去除该题以外的)总得分的相关系数过低,那么该测试题应当被删除。内部结构效度还有一个层面是针对各分量 表的,各分量表上的得分和总得分的相关系数也应当足够的高。另外,理论上来说各分量表相互之间的相关系数不应当太低也不应当太高,应当低于和总得分的相关 系数。如果某两个分量表之间的相关系数太高,说明分量表的划分不够清晰。如果分量表之间的相关系数太低,那么说明各分量表不能归于同一个构念之下。
Concurrent Validity & Predictive Validity
Concurrent Validity 一般译为同时效度,Predictive Validity 一般译为预测效度。通常把这两种归类于 Criterion Validity,即前文所述的校标效度。它们都是把要检验的测量工具的测量结果和一个作为校标的测量工具的测量结果来比照,看相关系数是否足够高。它们 的区别是时间上的不同,同时效度的校标和原测量工具是同时施测的,而预测效度的校标是在原测量工具之后施测的。
前文已经说到,校标效度的使用者真正关心的是校标上的结果,因而待检验的测量工具其实是作为校标的替代物出现的。为什么要使用替代物呢?其理由在预 测效度这里很明显,校标是作用于将来的,我现在要知道结果就必须使用替代物。比如要知道员工将来的工作业绩,那么企业在招聘时应该使用有较高的预测性的考 题;又或者比如要知道学生在将来正式高考时的可能成绩,那么我们需要使用有较高的预测效度的模拟试卷。这两个例子里的招聘考题和模拟试卷都是为了实现预测 的目的而必须使用的替代性的测量工具。
那么同时效度为什么也需要那个替代物呢?直接用校标不就行了吗?这里可能有多种原因。可能是因为校标不适宜被广泛使用。我们知道同一种测量工具如果 被反复使用就会导致被测者对测量工具的熟悉,这不是我们希望的,因此我们需要一些替代性的测量工具,但是它们必须具有很高的校标效度才行。也可能是施测对 象发生了变化。比如一份作为校标的测量工具可能是为成年人制作的,而我们希望对儿童施测,尽管所涉及的构念和年龄基本无关,但是文字表述需要进行调整,我 们也要制作替代性的测量工具。也可能是测量方法的原因导致校标在某些场合不适用。比如一份作为校标的测量工具可能是开放式问卷,而在某次研究中我们需要里 克特量表式的问卷,这可能是为了节省答题的时间(比如在汽车站向乘客收集数据),也可能为了数据处理的方便(样本很大),总之我们就需要制作替代性的测量 工具。需要替代物的可能原因很多, 关键在于使用了替代性的测量工具后,我们要证明它和校标有很高的一致性,也就是具有很好的校标效度。
Convergent Validity & Discriminate Validity
Convergent Validity 的译法比较多,有会聚效度、汇聚效度、聚敛效度、聚合效度,意思都差不多,我这里就用会聚效度好了。会聚效度的意思很简单,就是理论上应该相关的构念对同 一批对象施测的结果的相关系数应该很高。比如学习态度和学习兴趣、学习动机应该有很高的相关性,那么如果我们要检验一份学习态度测试卷的构念效度可以通过 和学习兴趣、学习动机的测试卷的测量结果进行比照,看相关系数是不是很高。
在学习中会产生一个疑问,这里的会聚效度和上面所说的校标效度,特别是其中的同时效度,有什么区别呢?虽然它们都是检查原测量工具和其他测量工具的 一致性,但是在会聚效度这里各测量工具的地位是平等的,不存在谁向谁看齐的问题;而校标效度那里是有个校标存在的,原测量工具必须向校标看齐。另外,会聚 效度中涉及的测量工具一般都是测量不同的构念,而校标效度中就不一定了。
Discriminate Validity 的译法有区分效度和判别效度,前者比较容易和“区分度”相混淆,我这里采用后一种。判别效度的意思和会聚效度类似,就是理论上应该不相关的构念对同一批对 象施测的结果的相关系数应该很低。比如从理论上来说学习态度和学习能力不应该具有太高的相关性,如果一份学习态度测试卷和学习能力测试卷的测量结果的相关 系数太高的话,那么其构念效度就有问题了。这里要特别注意“不相关”不是“负相关”。
会聚效度和判别效度存在一个缺陷,就是不知道相关系数太高或太低的判断标准到底在哪里。学习态度和学习兴趣的测量结果的相关系数要多少才是足够高 呢?0.5还是0.6还是0.7?学习态度和学习能力的测量结果的相关系数要多少才是足够低呢?0.5还是0.4还是0.3?这些都没有可靠的定量标准。 但是,如果我们把两者结合到一起,我们就容易判断了。我不知道学习态度和学习兴趣的测量结果的相关系数要多少才是足够高,也不知道学习态度和学习能力的测 量结果的相关系数要多少才是足够低,但是我知道学习态度和学习兴趣的测量结果的相关系数应该高于学习态度和学习能力的测量结果的相关系数,这就是一个相当 可靠的评判依据了。因此会聚效度和判别效度时通常应该结合使用,下面的MMTM就是对两者结合使用的一个扩充。
Multitrait-Multimethod Matrix
Campbell & Fiske (1959) 在法则网络的基础上提出了一种具体的构念效度的实现方法:Multitrait-Multimethod Matrix,简写为MMTM。其大意就是把一个构念,抑或称为特质(trait),和应该相关或应该不相关的其他特质放到一起,比如数学知识、数学能 力、 语文阅读能力,这叫Multitrait;然后各分别用至少三种方法加以测量,比如问卷、访谈、观察,这叫Multimethod;最后计算所有的结果的 相关系数,排成矩阵。如果是3个变量各3个测量方法的话,那就是9套测量结果,得到共36个相关系数组成的矩阵。显然理论上来说,每个特质自己的3种测量 方法得到的相关系数应该最高,然后相关的特质的测量结果之间的相关系数要比较高,而不相关的特质的测量结果之间的相关系数应比较低。
MMTM得到的不是一个定量结果而是一个矩阵,这个矩阵的解读也比较复杂,这导致它不容易被研究者接受。更重要的是,这个MMTM其实是很理想化的 东西,要得到9套测量结果所需的工作量不是一般的研究能够承受的。因此实际上很少有研究真正使用完整版的MMTM。于是有人搞出了MMTM的精简版,就是 去掉了 Multimethod,只搞Multitrait。但是这样一来就不是MMTM了,就成了普通的会聚效度和判别效度了。
Pattern Matching
Trochim (1985, 1989) 提出了一种新的方法:Pattern Matching, 可译为模式匹配。我感觉这个想法很不错,但是估计实践中也不太容易普及。写不动了。感兴趣的话可以看看,Trochim & Donnelly (2006, pp.86-88) 中有简介。
直接证据和间接证据
上文罗列了构念效度的七种检验办法。我把它们划分为两类,其中前三种是直接证据,后四种是间接证据。所谓直接证据就是对构念的操作化的直接检查,也就是前文说的单刀直入;所谓间接证据就是通过和其它测量工具的比照来检查,也就是前文说的旁敲侧击。
间接证据和直接证据最大的区别就是,间接证据并不能自动证明测量工具所测的就是我们所想要测的构念。以会聚效度为例,一份测试卷和学习兴趣、学习动 机的测试卷的测量结果高度相关,这并不能证明那份试卷就是学习态度的测试卷。即便研究者再加上其它应该相关的构念的测量结果进行检验并得到阳性结果,比如 学习成绩等,仍然无法证明原来的那份试卷就是学习态度的测试卷。那么间接证据有什么用呢?首先,如果得到了阴性结果,可以直接得到对于构念效度的否定判 断。一份学习态度的测试卷如果和学习兴趣、学习动机的测试卷的测量结果相关度很低,那么这份测试卷肯定是有问题的。另外,如果得到了阳性结果,虽然不能直 接得到对于构念效度的肯定判断,但是可以用于支持对于构念效度的肯定判断。这是什么意思?一份测试卷和学习兴趣、学习动机的测试卷的测量结果高度相关,这 并不能证明那份试卷就是学习态度的测试卷,但是这在一定程度上增加了那份试卷是学习态度测试卷这一结论的说服力。如果又得到和学习成绩的测量结果的高度相 关,那么说服力又增加了。如果又得到和学习习惯的高度相关,那么说服力再次增加了。可见,虽然间接证据不能直接得到结论,但是我们可以通过积累间接证据不 断地加强我们结论的说服力。
在实践中间接证据的使用并不容易,它需要研究者投入更多的时间和精力,这通常很难达成。因为绝大多数研究者并不是专门从事测量工具的开发,测量工具 的编制往往只是整个研究项目的一部分,而且不是最重要的一部分,因此很难要求普通的研究者在测量工具上投入太多的时间和精力。但是从理论上来说,间接证据 的使用却又是必须的,因为构念的确立必须放在法则网络里来实现,这一点前文已经解释过了。
实践中的原则应该是,首先尽可能把直接证据处理好,然后如果有可能的话再来收集间接证据。能做到什么程度,那就要看研究本身的需要、以及能够提供的 资源(时间、财物、人力)了。如果某个研究者只能做到表面效度,那也没有办法,如果他已经尽力了的话。但是作为研究者来说,必须知道构念效度的重要性。总 而言之,要在基于对构念效度的充分理解及其重要性的充分认识的基础上尽力而为。
上面说了先尽可能把直接证据处理好再来收集间接证据,并不是说一定要直接证据处理好了才能去收集间接证据。事实上,有的时候直接证据的收集会比间接 证据要困难,这时候就需要灵活机动了。最明显的就是内容效度的使用是有相当局限的。它有个前提,那就是相应领域的具体内容要有比较详细的描述,只有这样才 能产生那个内容清单。比如数学单元知识检测,一般来说这种内容清单是很容易得到的。可是对于某些构念来说,比如逻辑推理能力、学习兴趣、自信程度等等,就 不容易得到详细的内容清单。在没有清单的情况下就不能进行内容效度的检查。这种时候我们就不能把自己卡在那个位置,而是要绕道而走,去收集间接证据了。
题外话
打个岔,说个好玩的。构念效度本身也是一个构念,是吧?因此构念效度的检查也存在一个构念效度的问题,对不?也就是说,我们怎么保证检查出了测量工 具的构念效度呢?如果“构念效度的检查”本身不具备充分的构念效度,它怎么能检查出测量工具的构念效度呢?问题是,即便我们建立了“构念效度的检查”的构 念效度,我们是不是还得面对“检查‘构念效度的检查’的构念效度”的构念效度呢?……
参考文献:
APA. (1954). Technical recommendations for psychological tests and diagnostic techniques. Psychological Bulletin Supplement, 51, 2, Part 2, 1-38. ※
Campbell, D. T., & Fiske, D. W. (1959). Convergent and discriminant validation by the multitrait-multimethod matrix. Psychological Bulletin, 56(2), 81-105. ※
Cronbach, L. J., & Meehl, P. E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52(4), 281-302. ※
Domino, G., & Domino, M. L. (2006). Psychological Testing: An Introduction. Cambridge University Press.
Goodwin, L. D. (2002). Changing Conceptions of Measurement Validity: An Update on the New Standards. Journal of Nursing Education, 41(3). ※
Lawshe., C. H. (1975). A quantitative approach to content validity. Personnel Psychology, 28(4), 563-575. ※
Trochim, W. M. K. (1985). Pattern Matching, Validity, and Conceptualization in Program Evaluation. Evaluation Review, 9(5), 575-604. ※
Trochim, W. M. K. (1989). Outcome pattern matching and program theory. Evaluation and Program Planning, 12(4), 355-366. ※
Trochim, W. M. K., & Donnelly, J. P. (2006). Research methods knowledge base. Cincinnati, OH: Atomic Dog Publishing. ※
为什么月亮不是地球的伴行者
我们在很小的时候就学到了这样的知识:月亮是围绕地球转的,而地球又是围绕太阳转的。
由此,我们很容易想象出月球在太阳系内的轨道大致应该是怎样的:
![]()
可惜的是,这只是我们根据所知道的知识做出的大致的推想,它并不正确。其实月亮的轨道是这样的:
![]()
它看起来很像一个圆,但其实是磨圆了的多边形。具体的解释可以参看寻正的文章:月亮针对太阳的轨道、月亮针对太阳的轨道只凸不凹!。
关于月亮轨道的这一结论会让有些人产生一种疑问:会不会月亮是在自己绕着太阳转,而没有围着地球转呢?也就是说,有没有可能月亮是陪着地球一起围着太阳转(简称伴行),就好象一个人陪着另一个人一起绕操场跑步呢?
答案是否定的。 月亮不是地球的伴行者。在月亮和地球这两者之间,月亮是围绕地球转动的。我们从小学到的科学常识并没有错,理由如下:
1、月球在太阳系内的轨迹看起来像圆,但并不是圆,也不是椭圆。如果月亮是在自己绕着太阳转,那么它的轨道应该是圆(或者椭圆)。当然,你可以质疑说这是因为地球的影响造成的。别急,我们还有其他的理由。
2、月球和地球之间存在万有引力。如果月球不围绕地球不停地转动,那么它就不可能一直与地球不离不弃,因为两者相互之间的万有引力会让它俩吸到一起。如果你觉得这有点费解,别急,我们还有个很好很易懂的理由。
3、月相盈亏无法解释。我们知道月相有盈缺的变化,这是月球绕地球运行时,被太阳照亮的部分在不断变化而造成的。假设月球总是在伴着地球运行,那就不会出现这种盈亏的周期性变化,月相就应该是恒定的。下面还有个与之类似的理由。
4、日食和月食无法解释。我们知道日食是月球运行到地球前方时挡住了阳光而造成的,而月食是月球运行到地球后方时被挡住了阳光而造成的。假设月球总是在伴着地球运行,而不承认月球围绕地球的转动,那么日食、月食的这些天文现象也要重新解释了。
其实月球的运动比我们想象的要复杂得多。如果你找一本专门的天文学书籍,或者在网络上检索一下就会知道,月球对地球公转的准确描述其实是很复杂的。它有轨道偏心率的变化、轨道拱线的变化、轨道倾角的变化,而其中一些现象古人(包括中国的古代天文学家)就已经有了较为精确的记载。另外月球还有自转,自转和公转的周期相同,使得总是同一面对着地球。
现代科学对自然现象的描述和理解远远超过了普通人的想象。如果你在思考科学问题时产生了疑问,这是很好的事情,因为你给自己创造了学习的机会。通过查资料、问网友,也许可以解答你的疑问。就算暂时无法解决你最终的疑问,在寻找答案的过程中你也是能够有所收获的。要注意的是,即便某些问题你无法理解,也不要轻率地以为是发现了科学的漏洞。因为科学上对每个自然现象的解释都往往牵涉到方方面面的问题,科学家在工作的过程中其实已经对各种问题进行了千百次的检验。至于说外行能够思考到的问题,那更是最最基本的问题,可以说经过了科学家们亿万次的检验都不为过。科学理论不是完美的,但是在科学研究高度专业化的今天,外行发现科学漏洞基本是不可能的。所谓发现了科学的漏洞,其实是自己没有能正确理解,这时候应该想到的是自己哪里出了错,而不是科学常识哪里出了错。
(附:公转这件事其实并非谁绕着谁转那么简单,下次写。)
应试教育与SEO
应试教育大家都知道。而 SEO 是 IT 词汇,可能不是所有人都知道,我先介绍下 SEO。SEO 是 Search Engine Optimization 的缩写,即搜索引擎优化,它是指网站为了在搜索引擎中获得更高的排名而专门优化自己的技术。现在大家在网上找资料的一个最主要的途径就是通过谷歌 (Google)、百度(Baidu)这样的搜索引擎。虽然搜索引擎会返回几万甚至十万、上百万条搜索结果,但是一般人通常只会翻看搜索结果的前几页。因 此对于网站来说,如果要提高浏览量的话,提升自己在搜索引擎的排名就非常重要。
那么搜索引擎是怎么决定搜索结果的排序的呢。理想的情况下应该是最好的内容排在最前面,但是搜索引擎其实是没办法评价每条搜索结果的好坏的。因此谷 歌采用了变通的做法:按照网页的重要程度来排序。那么重要程度又如何确定呢?我们不知道谷歌的详细算法,但是知道它大致的思路。在谷歌看来,一个网页的重 要程度表现为其它网站对它的链接数。这个思路有一定的道理,一个网页被广泛链接肯定有它的理由,最起码说明它在网上有一定的影响力。按照被链接数来对搜索 结果排序显然是有一定的合理性的。
作为网站的制作者来说,如果要提升网站的影响力应该提高网站内容的质量。一个内容优质的网站,再配合宣传,其影响力必然会提高。而内容低劣的网站, 即便通过宣传获得了短期的影响力,也必然不会长久,因为它在和内容优质的网站的长期竞争中必然会败下阵来。当然,网站在面向用户的同时也需要面向搜索引擎 进行一定的优化。比如改进网站的结构、改善页面的HTML源代码,这里涉及到很多技术细节,我就不具体说了,这也不是本文的目的。总之,通过这些技术上的 调整可以让网站更好地被搜索引擎索引,这就叫 SEO, 我这里把它称为“常规SEO”。但是 SEO 显然不能代替网站的内容建设,内容的质量才是一个网站的根本。
以上说的是正常的思路,但是我们知道人心叵测,总有人会想尽办法钻空子。搜索引擎不是看链接数吗?那帮人就去通过各种方法制造链接数。比如到别人的 留言簿、博客、论坛上到处贴自己网站的链接,这就是发垃圾广告。还有专门做垃圾站点,一个人或者一帮人制造大量的垃圾网站,在这些垃圾网站之间相互链接。 这些做法的就是让搜索引擎无法分辨哪些链接是真正的反映网站影响力的链接,哪些链接是垃圾广告或者垃圾站点专门制造出来的链接。其根本目的就是要使得搜索 引擎的排序方法失效,要让劣质网站也获得好的排名。这也叫做 SEO, 我这里把它称为“垃圾SEO”。
说到这里,我们就知道对网站来说提升在搜索引擎中的排名可以大致有三种办法:内容建设、常规 SEO、垃圾 SEO。要提高网站的内容毕竟不是那么容易的事,常规 SEO 效果也不是那么明显,因此就有很多网站采用了垃圾 SEO。垃圾 SEO 的效果可以非常显著,有段时间在谷歌上返回的搜索结果的前几页充斥了大量的垃圾站点。后来谷歌改进了算法,增强了对垃圾站点的识别能力,搜索结果中的垃圾 站点减少了很多。在其英文版也就是Google中,搜索结果基本已经看不到垃圾站点。但是在中文版也就是谷歌中,搜索结果里垃圾站点还是很多,具体原因和 本文主旨无关,这里就不展开讨论了。
下面开始说应试教育。应试教育和SEO有什么关系呢?在我看来,现在的应试培训就是垃圾 SEO。我们知道应试培训是为了应付高考而产生的。高考是一种选拔性的考试,高校希望可以通过高考挑选出学习好的学生。就如同搜索引擎对网站的排名,高考 是对考生的排名。搜索引擎排名的依据是它的算法,比如链接数;而高考的排名依据就是那份考卷上的得分。垃圾SEO通过伪造链接数来改善网站的排名,应试培 训通过伪造得分来改善考生的排名。
为什么说应试培训是伪造得分呢?因为高考的本意是评价考生对知识的掌握以及学习方面的能力,而应试培训就是要通过对考生的反复训练来使得学习能力差 的考生获得较高的得分。我们都知道,应试培训其实并不能改善考生的能力,但是它可以直接提高考分,这样高校就无法分辨考分是通过反复训练获得的还是通过学 生自己的真实能力获得的。这就如同垃圾 SEO 并不提高网站真实的影响力,但是它可以直接提高链接数,使得搜索引擎无法分辨链接数是通过垃圾广告获得的还是通过真实的影响力获得的。
高考和应试培训的战争,就如同搜索引擎和垃圾 SEO 的战争,战争的双方都在不断改进自身。但是这两场战争的战况有所不同。在搜索引擎和垃圾 SEO 的战争中,搜索引擎占有绝对的主动权,它的算法不必公开,它即便重新采用完全不同的算法也不需要向其他人负责。垃圾 SEO 要知道搜索引擎的真实算法已经很难,更别谈跟上搜索引擎算法的变化了,搜索引擎将最终占得上风。而在高考和应试培训的战争中,应试培训终将获胜。考前如有 较大调整必须事先通知,而考卷事后又必然完全公开,应试培训因而可以很快地调整自己。几十年过去了,新题必然越来越少,应试培训的资料越来越完善,高考随 着每年一次的战争进程终将黔驴技穷,应试培训占得上风是无法避免的。
在搜索引擎和垃圾 SEO 的战争中如果垃圾SEO获胜,我们作为搜索引擎的用户我们可以一方面责备搜索引擎没有改进算法,我们也可以同时憎恶垃圾SEO。在高考和应试培训的战争 中,如果你是应试培训中的一员你是没资格责备高考的,就如同垃圾SEO者没资格责备搜索引擎。如果你是不愿意参与应试培训的考生,你也没理由去责备高考, 因为它只能做到这个地步。也许你应该去责备应试培训的考生,但那也是徒劳。
现在应试培训蔓延到了整个教育体系,这就形成了应试教育,就如同所有的网站都在进行垃圾SEO,真是实在糟糕的局面。但是把这一局面的形成怪罪于高考是没有道理的。
———
补充:百度有个竞价排名,就是网站出钱就能在搜索结果中得到好的名次。这要是放在高考里相当于出钱就可以买分数。
还原论
还原论(Reductionism)是一种哲学思想,是认为高级运动形式都可以还原为低级运动形式的一种哲学观点。举个和教育有关的例子,还原论的观点会大 致认为课堂教学可以还原为师生的心理活动、心理活动可以还原为大脑和神经系统的生理活动、生理活动可以还原为体内的化学反应、化学反应可以还原为分子的物 理运动。或者从学科的角度来说就是:社会学科可以还原为心理学、心理学可以还原为生物学、生物学可以还原为化学、化学可以还原为物理学。
必须强调的是,还原论虽然和科学有关,但是它本身并不是科学。只有对某个具体问题的还原性的解释才是科学,而还原论是把这种还原性解释的可能性推广 到所有问题上的企图。还原论当然有一定的科学依据(某些问题可以通过科学获得还原性的解释),但是还原论是永远无法通过科学获得充分证明的(因为未知领域是永远存在的)。另一方面,还原论又似乎是无法通过科学进行否证的,因为如果要否定还原论,就必须证明某些高级运动形式不能还原为低级运动形式。而“不能 ”似乎是无法得到证明的,因为科学在不断进步,解释能力在不断增强,今天不能的,也许明天就能了。
还原论既无法被科学证明,也似乎无法被科学推翻。或者说还原论既无法被证实,亦无法被证否。还原论本身并非科学,还原论是一种哲学观念,或者说是很 多科学家所持的一种信念。但是,还原论的这种把一切现象最终还原为物理现象的论调,对很多人来说会感觉受到了冒犯。容易理解,对一个艺术家宣称他/她的艺 术创作活动归根结底只不过是大脑里的物理-化学反应这是很难令人接受的。在科学研究领域贯彻自己的还原论立场是一回事,在公共领域宣扬还原论又是另一回 事。但是始终不要忘记还原论本身并非科学,宣扬还原论也不符合实证的科学精神。对于某些人非理性地大肆宣扬还原论的立场,并从冒犯他人的过程中获得满足, 这种现象只能从他的个体心理的角度(比如通过表演获得关注)进行解释,和科学社群并无什么关系。
其实即便是在科学研究领域,还原论也从来不是科学界的共识。历史上对还原论的挑战出现过很多,还原论自己也在不断调整。目前对还原论的最大挑战是来 自复杂系统研究的 Emergence。Emergence 当前最流行的译法是“突现”,也有译为“涌现”、“层现”的。它的意思是当个体聚集为相当大的群体时,在复杂系统中会出现原来的个体所不具备的特性,或者 说群体行为的特性并不能完全用个体行为的特性获得解释。当然,还原论者会说这只不过是我们现在还无法解释罢了。
还原论者把希望寄托于未来科学的进步,这似乎是不败的立场。但是这种希望或许早已破产,只不过是还原论者不愿接受罢了。即便是在物理学的内部,还原论也已经失败。在这里转引凝聚态物理学家文小刚的一段讨论:
“20年前,我们可以计算含11个相互作用电子的系统;20年后,计算能力提高了100倍,可计算含13个相互作用电子的系统。计算1023数量级粒子组成系统是不可能的,一台由宇宙所有原子制造的传统计算机连这种宏观系统的一个量子态矢量也储存不下。”
这段话的意思是,因为单个粒子的运动规律已经是如此复杂,要建立对大量粒子运动的解析描述其实是不可能的。引文中的1023是阿佛加德罗常数的数量级,18克水中就已经含有这一数量级的水分子。复杂系统的规律并不总是能从个体的规律推导出来,这已经是一个客观事实,但是要让某些还原论者理性地接受这一事实似乎并非易事。下面再转引两段物理学家对层现现象的论述:
“由大量基本粒子构成的巨大的和复杂的的集聚体的行为并不能依据少数粒子的性质作简单外推就能理解。正好相反,在复杂性的每一个层次之中会呈现全新的性质,而要理解这些新行为所需要作的研究,就其基础性而言,与其他研究相比毫不逊色。”——凝聚态物理学家P.W.安德森
“在每一层次中总有新的而且激动人心的有效普遍原则,却并不能由更加基础的科学自然而然地推导出来。我们可以一一列举这些科学中的具有代表性和重要 性的结论,诸如:遗传律、双螺旋、量子力学、核裂变,谁最根本?谁最基本?谁推导了谁?从这些例子可以看出,将科学知识分等级是十分愚蠢的,宁可说在每一 层次的普遍原则中都会呈现宏伟的概念。”——统计物理学家卡达诺夫
事实上,反对还原论并不是反对科学,把还原论和科学捆绑在一起才是反对科学。科学从来是通过对具体问题的研究来获得进步,也许某些科学家需要还原论 (来坚定信念?),但是科学并不需要还原论,科学的进步也从来不依赖于还原论。与之相反,还原论是一种形而上学,抛弃掉还原论的科学才是更为纯粹的科学。
另外,高级运动和低级运动的关系到底如何,这本身可以成为科学研究的课题。而还原论是对这一问题的一种朴素的看法。随着科学研究在这一问题上的深入,我相信,我们对这一问题的理解会比还原论要复杂得多。就如同科学研究已经颠覆了人类在各种问题上的朴素理解,还原论也必将被抛弃。
参考文献
层展现象,http://www.zhihere.com/bbs/dispbbs.asp?boardID=24&ID=1264&page=1。
延伸阅读
Emergence, http://en.wikipedia.org/wiki/Emergence
Emergentism, http://en.wikipedia.org/wiki/Emergentism
Reductionism, http://en.wikipedia.org/wiki/Reductionism

