考试分数主要有常模参照和标准参照两种表达方式,美国新版高考SAT-I成绩报告单中的6种常模参照分数和3种标准参照分数对此提供了具体案例.在设计和使用分数时,需要警惕来自测评信度、效度、公平性、原始分使用、标准分或等级分的设计与使用条件、常模与等值的结合,以及量表"漂移"等7个方面的潜在风险.规避这些风险的办法主要有加大科普力度、设立行业标准、成立考试政策与技术咨询委员会、发掘考试大数据的价值、促进考试工作的专业化发展等.  相似文献   

汪英 《中国考试》2004,(2):26-36
根据分数解释的不同,考试分为常模参照考试和标准参照考试。  相似文献   

罗莲 《中国考试》2007,(6):18-22
本文据美国教育研究协会等机构编写的《教育与心理测试标准》,探讨了“常模参照”和“标准参照”两术语的内涵、使用及其关系。该《测试标准》认为,从同一个测验得到的分数,可做出常模参照和标准参照两种解释。两者是从分数解释的意义上划分的,并非两种不同的测验。因此,以前将测验割裂为“常模参照测验”和“标准参照测验”的二元划分是不恰当的。  相似文献   

高考分数的解释通常基于常模参照,尚少进行标准参照解释。本文以2014年高考(天津卷)数学(文史类)试卷为例,探索高考分数的标准参照解释,阐述基于考生水平表现标准的评价结果对于改进教与学的效用,提出大处着眼、小处着手、普遍联系、有的放矢等教学建议。  相似文献   

本文从标准参照考试与常模参照考试的比较中,指出了标准参照考试的特点,以及标准参照考试的题目编制和题目分析方法,并对标准参照考试的应用提出了若干建议。  相似文献   

一、考试性质,根据分数解释的不同,考试分为常模参照考试和标准参照考试。  相似文献   

职业资格认证考试属于标准参照考试,它是以国家职业标准作为参照系进行解释的考试。因此,参照考试的成绩只有相对性,以便好  相似文献   

测验的常模   总被引:1,自引:0,他引:1  
在教育测量学中,我们要想正确地解释、评价和使用测验的分数,必须借助于某项参照标准。常模就是这样一种参照标准。  相似文献   

本文从国内外一些重大的标准参照测验的分数体系出发,探讨其共同点和不同点,为以后的标准参照测验分数体系提供参考。  相似文献   

本文运用考试学原理分析普通话水平测试,认为普通话水平测试既符合考试学之水平测试的规律,但同时又具有诊断考试的特点;其性质属标准参照考试;测试覆盖面和测试重点的配置符合水平测试二者并重的原则;在体现考试学之质量指标-效度、信度、区分度、难度、实用度诸方面基本原理,但有待改进。  相似文献   

常见的工具书对“媵”的解释不尽相同,尤其是解释其名词性义项时存在一定的差异。而工具书的释义须遵循准确贴切的原则,释义不妥容易引起误解、造成混乱。  相似文献   

语言能力测试如何适应语言教学方式的发展   总被引:1,自引:0,他引:1  
当前,语言教学观念和语言教学方式正在发生着深刻的变化,正在从“知识传授”转向“能力培养”,从“教师主导”转向“学生自主”,从“班级教学”转向“个性化教学”。为了适应语言教学观念的这些变化,应致力于开发新的基于任务的语言测验。为此,需要建立语言测试的评价标准,提供学习者“能做什么”的能力水平描述,并根据标准对测验分数作出解释。同时,还应运用规则空间模型、统一模型、融合模型等测量工具对语言测验进行认知诊断分析,并在此基础上向学习者、教师和家长提供描述性、诊断性的成绩报告。  相似文献   

张军 《考试研究》2013,(4):68-75
对外汉语课程测验属于标准参照性测验,应使用标准参照性测验理论体系下的技术指标对测验进行项目分析和评价,传统的分析方法(如区分度)不完全适用于课程测验的项目分析。本文使用该理论对北京语言大学汉语进修学院某次考试试卷进行分析,希冀为对外汉语教学提供一些有益的经验。实验结果表明:对“掌握者”和“未掌握者”来说,题目难度总体上可接受,大部分题目的区分性能良好,虽然有的题目略有“瑕疵”,但值得保留,以提高教学内容的测试覆盖面及测验信度。有7个题目过难或过易,几乎不具备区分性能,需要删除或修改。  相似文献   

最高人民法院发布的大量司法解释,已经不止停留在"审判过程中"和"具体应用法律、法令"的层面,某种程度上是以解释之名制定一般规范性文件,通过司法解释这一方式来分担立法机关的立法职能,并且受到了权力机关的默许。只有清晰地认识司法解释的立法化性质,并基于此进行考量,进而明确司法解释的范围,拓宽其立项来源,加大公示公开力度,同时进一步完善审查备案制度,才能使司法解释权得到规范与监督,从而构建更为完善的司法解释体系。  相似文献   

随着国内外教育测量理念的转变,传统的常模参照测验所提供的相对性评价信息已无法满足考试用户和考生的需求,标准参照测验(CriterionReferenced Test,CRT)的社会价值越来越受到重视。在对被试掌握程度进行分类决策的CRT测验中,如何确定恰当的测验长度和合格分数是影响测验分类误差的重要因素。本文在对CRT测验研究的现状、原理和用途进行考察的基础上,专门介绍了二项式概率模型在CRT测验长度决策研究中的理论和过程,并以误差控制为原则,对二项式模型在综合性标准参照语言测验长度和合格分数决策中的应用过程进行了研究。  相似文献   

天津市初等信息技术考试是面向社会测试应试者计算机应用能力的评测系统,作为一种标准参照考试,从2004年开始实施以来,一直以60分作为合格标准,但实践证明,60分并不能作为判断考生是否合格的永恒标准。该考试系统是上机考试,社会考生自愿报名参加,考试对象年龄差异较大,覆盖小学2-6年级,且每个级别会有不同年龄学生参加,60分的划界分数忽略了每次参加测试的被试者的平均能力不同这一事实,也忽略了同一次考试不同考生抽到的题目不完全一致的事实。这样可能会产生一个问题,即我们只能了解考生的相对能力和相对位置。如果不能正确地将考生归入恰当的等级类别中,这种等级考试的价值就会受很大影响。因此,本文对该考试系统的"合格"标准分数的设定进行研究,利用Angoff法设定划界分数,客观地应用到被试群体中,在提高考试信度、效度的研究与应用方面进行了有益的探索。  相似文献   

Standard setting is defined as the identification of certain points on a mark scale with particular performance standards, with the intention of enhancing the inferences that are warranted from the test scores. It is argued that the selection of both the points on the mark‐scales and the performance standards with which they are equated are arbitrary and are driven by a set of values (which are often implicit). In ‘high‐stakes’ settings, it is shown how the values implicit in the standard can come to dominate the values inherent in the domain they represent. The validation of standards must therefore include consideration of their consequences as well as their meanings. It is then argued that standards, where they exist, cannot be accounted for purely in terms of norm‐referenced or criterion‐referenced interpretations, but exist rather by virtue of a shared construct in a community of practice. These theoretical positions are then developed to classify standard‐setting methods along two dimensions, the first relating to the role of performance data in the setting of standards and the second relating to the extent to which the meanings or the consequences of the assessment are emphasised in the process.  相似文献   

In criterion‐referenced tests (CRTs), the traditional measures of reliability used in norm‐referenced tests (NRTs) have often proved problematic because of NRT assumptions of one underlying ability or competency and of variance in the distribution of scores. CRTs, by contrast, are likely to be created when mastery of the skill or knowledge by all or most all test takers is expected and thus little variation in the scores is expected. A comprehensive CRT often measures a number of discrete tasks that may not represent a single unifying ability or competence. Hence, CRTs theoretically violate the two most essential assumptions of classic NRT re liability theory and they have traditionally required the logistical problems of multiple test administrations to the same test takers to estimate reliability. A review of the literature categorizes approaches to reliability for CRTs into two classes: estimates sensitive to all measures of error and estimates of consistency in test outcome. For single test administration of CRTs Livingston's k2is recommended for estimating all measures of error, Sc is proposed for estimates of consistency in test outcome. Both approaches compared using data from a CRT exam and recommendations for interpretation and use are proposed.  相似文献   

1985年《教育与心理测验标准》(第5版)出版之前,效度研究的核心概念是"效标(criterion)",效度研究被视为一种用"效标"对测验的效度进行证明(verify)、对测验分数做出有效(valid)解释的过程。1985年以后,效度研究的核心概念是"证据(evidence)",效度研究被视为一种通过积累证据对测验的效度进行支持(support)、对测验分数做出合理(reasonable)解释的过程。关于效度的这种理解,突出体现在1999年出版的《教育与心理测验标准》(第6版)中。美国教育协会和美国国家教育测量学会共同组织编写的《教育测量》在业内被称为"教育测量领域的《圣经》"。2006年《教育测量》(第4版)出版以后,效度研究的核心概念演变为"理由(warrant)",效度研究被视为一种通过构造"理由系统"和"理由网络"对效度进行"论证(argument)"、对测验分数做出可接受的(plausible)解释的过程。本文结合笔者的考试实践,介绍了效度概念的新发展。  相似文献   

A misconception exists that validity may refer only to the interpretation of test scores and not to the uses of those scores. The development and evolution of validity theory illustrate test score interpretation was a primary focus in the earliest days of modern testing, and that validating interpretations derived from test scores remains essential today. However, test scores are not interpreted and then ignored; rather, their interpretations lead to actions. Thus, a modern definition of validity needs to describe the validation of test score interpretations as a necessary, but insufficient, step en route to validating the uses of test scores for their intended purposes. To ignore test use in defining validity is tantamount to defining validity for ‘useless’ tests. The current definition of validity stipulated in the 2014 version of the Standards for Educational and Psychological Testing properly describes validity in terms of both interpretations and uses, and provides a sufficient starting point for validation.  相似文献   

