期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

欧东明《中国考试》1996,(1)

一、批判与初衷现行的测验项目分析方法基本上是以经典测量理论为依据对项目的难度与区分度加以考查。而且,无论对二点式评分项目还是多级评分项目都只分析出一个难度值和一个区分度值退一步说,现行的项目分析方法的局限若是对二点式评分题目还不明显的话,那么在多级评分题目中却是显而易见的。因为多级评分题目中的各个作答步骤(或评分级别)都各有其特征,用一个指标来衡量它们势必掩盖或抹杀了许多有用信息,很大程度上丧失了多级评分题目所应提供的功效。由于IRT(项目反应理论)系统的严谨与手段的灵活,它比经典测量理论更好地表现了被试能力(潜在特质)与其在项目作答中的动态联系。IRT多级反应模型相似文献

2.

命题者：影响阅读理解测试效度的一个因素

李雪曾用强《考试研究》2012,(4):49-60

本研究应用项目反应理论,从被试的阅读能力值和题目的难度值这两个方面,分析阅读理解测试中多项选择题命题者对考试效度的影响。实验设计中,将两组被试同时施测于一项“阅读水平测试”,根据测试结果估计出的两组被试能力值之间无显著性差异。再次将这两组被试分别施测于两位不同命题者所命制的题目,尽管这些题目均产生于相同的阅读材料,且题目的难度值之间并没有显著性差异,被试的表现却显著不同。Rasch模型认为,被试表现由被试能力和试题难度共同决定。因此,可以推测,这是由于不同命题者所命制的题目影响了被试的表现,并进而影响了使用多项选择题进行阅读理解测试的效度。相似文献

3.

项目反应理论在考试系统试题库中的应用

龚利《十堰职业技术学院学报》2015,(2):103-104,107

介绍了在网络考试系统中,经典测试理论(CCT)和项目反应理论(IRT)的优缺点,项目反应理论(IRT)理论模型及其应用,可以实现网络考试系统在组合试卷题目时,全面解决考试等值问题及参数估计更为准确等问题,使得考试系统能更科学地挑选试题。相似文献

4.

Rasch模型及其参数的近似估计

陈富国李伟明《江西师范大学学报(哲学社会科学版)》1987,(2)

七十年代以来,项目反应理论(ItemResponse Theory,IRT)成了测量专家关心的主要课题之一。IRT中单参数Log-istic模型常称为Rasch模型,它是由丹麦数学家Georg Rasch沿着与其他项目反应模型非常不同的路线推导出来的本文旨在介绍Rasch模型在实际中的一些应用和一种模型参数的估计方法。这种方法可以借助于手算完成,从而使普通中学老师也可以作一些IRT的题目分析工作。一、模型及其应用IRT理论认为,潜在能力测量模型至少应该包括被测对象(考生)的行为反应与潜在能力的度量。前者是可观察的,后者是待估计的。Rasch模型可以表示为相似文献

5.

项目反应理论测验信度及其研究述评

陈士奇戴海琦《考试研究》2013,(6):65-72

项目反应理论下的测验信度能够评价潜在特质估计的可靠性与稳定性,由于具有宏观性的特点,项目反应理论信度的作用并不能被测验信息函数所取代,是IRT测验的一个重要指标。本文参考国内外文献,首先介绍国内外学者关于IRT信度作用的观点,并介绍和评价了多种IRT信度估计方法,然后简要介绍IRT信度的影响因素,最后展望了IRT信度领域后续研究尚可着力之处。相似文献

6.

CTT和IRT在项目编制中的参数比较

李映红《教育测量与评价(理论版)》2009,(4):8-10

目的：比较CTT和IRT项目参数的相关性及各自的特点。方法：选取200个项目、480名被试,分别求出CTT的难度和区分度,用ANOTE软件求出IRT的三参数逻辑斯蒂克模型中的a、b、c参数以及能力值为-0．475的信息量,对CTT和IRT的参数值分别进行spearman相关分析。结论：CTT中的难度和区分度分别与IRT中的b参数和a参数有较高的一致性,CTT中的难度与IRT中的C参数有显著的负相关;IRT中的信息量受参数a、b、c三者的影响。相似文献

7.

基于WEB的计算机自适应考试系统的设计与实现

刘发明《赣南师范学院学报》2005,26(6):64-66

介绍了项目反应理论(IRT)的基本理论和计算机化自适应测试(CAT)的实现过程。并在Visual Stu-dio.net2003的环境下,以SQL作为后台数据库,以三参数Logistic模型为项目反应模型,开发了一个基于WEB的CAT系统。相似文献

8.

非参数高斯核平滑法估计能力值的精度

《中国考试》2015,(5)

单维非参数项目反应理论(NIRT)假设数据满足单维性、单调性和局部独立性三个假设,不要求数据拟合某种特殊的函数形态。非参数高斯核平滑法能根据数据本身的特点,构拟NIRT的项目反应函数,估计被试的潜在能力值。实验模拟了42套拟合单维双参数逻辑斯蒂模型的数据,比较了非参数高斯核平滑法在题量和被试样本数2个因素不同水平下估计被试能力值的精度。结果表明:样本数对方法的估计精度没有显著影响;题量的增加能较好改善估计的精度。在测试实践中,应采用不同的题量设计,以满足估计精度的要求。相似文献

9.

项目反应理论研究的新进展 总被引：8，自引：0，他引：8

辛涛《中国考试》2005,(7):18-21

近20年以来，以项目反应理论(Item Response Theory．IRT)为代表的考试理论(Testing Theories)的研究取得了长足进展．这种进展表现在3个方面．即出现了多维度项目反应理论(Multi—dimensional IRT)、非参数项目反应理论(Non—parametric IRT)以及认知诊断理论(Cognitively Diagnostic Theory)等。这些新的理论的出现加深了人们对项目反应理论的理解．也会对考试的实践产生了深远的影响。相似文献

10.

基于IRT理论的CAT系统设计

肖艳群《扬州职业大学学报》2004,8(4):36-38

随着多媒体计算机及网络技术的发展，一种将计算机技术与项目反应理论(IRT)相结合的计算机适应性测试(CAT)技术已引起人们的重视。本介绍了IRT的基本理论，并在此基础上研究了CAT系统的实现模型和利用JSP实现CAT系统的关键技术。相似文献

11.

Multidimensional Equating

Thomas M. Hirsch 《Journal of Educational Measurement》1989,26(4):337-349

Equatings were performed on both simulated and real data sets using the common-examinee design and two abilities for each examinee (i.e., two dimensions). Item and ability parameter estimates were found by using the Multidimensional Item Response Theory Estimation (MIRTE) program. The amount of equating error was evaluated by a comparison of the mean difference and the mean absolute difference between the true scores and ability estimates found on both tests for the common examinees used in the equating. The results indicated that effective equating, as measured by comparability o f true scores, was possible with the techniques used in this study. When the stability o f the ability estimates was examined, unsatisfactory results were found. 相似文献

12.

Estimating Average Domain Scores

Mary Pommerich W. Alan Nicewander Bradley A. Hanson 《Journal of Educational Measurement》1999,36(3):199-216

A simulation study was performed to determine whether a group's average percent correct in a content domain could be accurately estimated for groups taking a single test form and not the entire domain of items. Six Item Response Theory based domain score estimation methods were evaluated, under conditions of few items per content area perform taken, small domains, and small group sizes. The methods used item responses to a single form taken to estimate examinee or group ability; domain scores were then computed using the ability estimates and domain item characteristics. The IRT-based domain score estimates typically showed greater accuracy and greater consistency across forms taken than observed performance on the form taken. For the smallest group size and least number of items taken, the accuracy of most IRT-based estimates was questionable; however, a procedure that operates on an estimated distribution of group ability showed promise under most conditions. 相似文献

13.

Relating Unidimensional IRT Parameters to a Multidimensional Response Space: A Review of Two Alternative Projection IRT Models for Scoring Subscales

Nilufer Kahraman Tony Thompson 《Journal of Educational Measurement》2011,48(2):146-164

A practical concern for many existing tests is that subscore test lengths are too short to provide reliable and meaningful measurement. A possible method of improving the subscale reliability and validity would be to make use of collateral information provided by items from other subscales of the same test. To this end, the purpose of this article is to compare two different formulations of an alternative Item Response Theory (IRT) model developed to parameterize unidimensional projections of multidimensional test items: Analytical and Empirical formulations. Two real data applications are provided to illustrate how the projection IRT model can be used in practice, as well as to further examine how ability estimates from the projection IRT model compare to external examinee measures. The results suggest that collateral information extracted by a projection IRT model can be used to improve reliability and validity of subscale scores, which in turn can be used to provide diagnostic information about strength and weaknesses of examinees helping stakeholders to link instruction or curriculum to assessment results. 相似文献

14.

基于题目反应理论的网络自适应考试

苏婕《天津职业院校联合学报》2007,9(5):106-109

随着计算机的普及、网络的发展、教学和考试测评理论的更新,一种基于题目反应理论的计算机自适应考试已经越来越普及,它以其题目适应不同能力学生水平自动变化的特点,已经被越来越多的考试所采用,针对题目反应理论,需要对自适应考试实现等问题加以论述。相似文献

15.

天津市学科基本能力测试实践与思考

高凤萍《天津师范大学学报(基础教育版)》2014,(4):59-63

天津市学科基本能力测试在追求甄别的准确性同时,突出强调评价的诊断、激励、反馈、调整等功能,强调评价促进学生发展、改进教师教学和提高管理决策的服务理念。在实施技术方面,以国家颁布的课程标准为依据建立测试内容框架,使课程标准转化为测试标准;规范试题命制,创设真实性较高的情境,有效地提高测试的信度和效度;对测试结果,结合使用项目反应理论（Item Response Theory,IRT）和经典测量理论（Classical Test Theory,CTT）对学生作答状况进行数据分析,对考试结果进行全面报告。建议今后创设更加灵活的考试形式,建立科学的题库系统,不断地扩大考试规模,进一步增强为基础教育服务的力度。相似文献

16.

基本电路理论测试系统的开发和诊断算法研究

张靓陈洪亮《实验室研究与探索》2006,25(5):572-575

对基于实验室机房的在线习题考试系统功能和相关学习成效诊断算法进行了初步的介绍。在说明算法时介绍了现代考试理论中的试题反映理论和知识地图的概念。相似文献

17.

应用项目反应理论等值含有多种题型考试的一个实例 总被引：2，自引：2，他引：2

HAN Ning 《中国考试》2008,(7)

本文以美国一个州的高中统考为例介绍应用项目反应理论来对含有多种题型的考试进行等值处理的具体做法,同时也对考试的其他技术环节进行了一些探讨。相似文献

18.

Educational Testing in America: What's Right,What's Wrong? A Criterion-Referenced Perspective 总被引：1，自引：0，他引：1

W. James Popham 《Educational Measurement》1993,12(1):11-14

What is a criterion-referenced test? What are the good and bad points of authentic assessment, criterion-referenced testing, and Item Response Theory? 相似文献

19.

新型评价体系下的专业英语语言学题库建设与应用的探索

曾令忠《黔南民族师范学院学报》2008,28(2):74-78

学、教、考在教育活动中三为一体,缺一不可。三者之间相互作用、相互促进,共同促进人的全面发展。语言教学及测试理论经历了几百年的发展,经过了以不同体系为主的三个阶段。从二十世纪末发展起来的新型评价体系要求以学生为中心,以促进学生的学习,发展能力为目的。同时,随着计算机科学的发展,以计算机网络为工具的多媒体试题库也有了很快的发展,计算机自适应测试理论在新型教学体系中得以应用。本文通过在经典测试理论、计算机自适应测试理论的指导下,以高校英语专业“英语语言学”课程为内容的题库的建设与应用。相似文献

20.

Item Response Theory analysis and Differential Item Functioning across age,gender and country of a short form of the Advanced Progressive Matrices

Francesca Chiesi Matteo Ciancaleoni Silvia Galli Kinga Morsanyi Caterina Primi 《Learning and individual differences》2012,22(3):390-396

Item Response Theory (IRT) models were applied to investigate the psychometric properties of the Arthur and Day's Advanced Progressive Matrices-Short Form (APM-SF; 1994) [Arthur and Day (1994). Development of a short form for the Raven Advanced Progressive Matrices test. Educational and Psychological Measurement, 54, 395–403] in order to test if the scale is a reliable and valid tool to assess general fluid ability in a short time frame. The APM-SF was administered to 2264 high-school and university students. Once attested the one-factor structure of the scale, unidimensional IRT analyses for dichotomous data were applied to investigate the increases in item difficulty levels, Test Information Function, and Differential Item Functioning across age, gender, and country (comparing Italian and British respondents). Additionally, validity measures were reported. Findings attest that the Arthur and Day's APM-SF is a sound instrument for assessing fluid ability within a short time frame. 相似文献