首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
用项目反应理论编制标准化考试题库系统,旨在探究教育测量的新理论应用,为学科教育评价提供辅助工具。题库以四年级数学为测验内容,按标准化编制项目施测、评分、分析,其中选用三参数的逻辑斯蒂克模型,并用贝佳法检验了测验的单纬性,利用ANOTE软件估计项目参数,用基于题目分类下的经验判断法建立一个划界分数,接合项目信息量组成题库,最后讨论了能力估计方法、抽题策略、结束控制等题库编制的关键技术。  相似文献   

2.
由于诸多因素的影响,大规模教育考试始终未能建立题库,只能在考后对考试数据进行分析的基础上,对命题质量进行综合评价.项目反应理论能够对试题进行深入细致的分析,对测验的编制也提出了相应的指标和方法.本文应用项目反应理论对大规模教育考试命题质量进行分析,并以<高等数学>课程为例,探讨命题质量分析的程序和方法.希望以考后命题质量的评价作为切入点,为大规模教育考试命题建立题库,积累基础项目和数据.  相似文献   

3.
一种新的测验形式——计算机自适应测验   总被引:1,自引:0,他引:1  
计算机自适应测验(Computerized Adaptive Testing,简称CAT)是近年来发展起来的一种新的测验形式。这种测验以项目反应理论为基础,以计算机技术为手段,在题库建设、选题策略等方面形成了一套理论和方法。本文将简单介绍计算机自适应测验的原理和方法。  相似文献   

4.
1984年下半年起,我们开始接触和研究项目反应理论(IRT)。到1986年7月,已经正式成功地编制了“高中数学水平自适应测验”。在实际测验的编制过程中,比较全面地应用了项目反应理论的原则和方法。我们感到,为了更好地实现考试方法和测验理论研究的现代化,有必要深入研究项目反应理论,并努力作出改进和创新。一、崭新的项目反应理论项目反应理论(Item Response Theory),是六十年代才得到迅速发展的一种崭新的测验理论。大家知道,根据经典方法所编制的测验,其难度、区分度和信度等技术质量指标,是严重依赖于样本的。也就是说,这样编出的测验,只适应于跟原先试测过程中所采用的样本非常类似的考生组。否则,测验结果就难以作出正确的解释。  相似文献   

5.
基于项目反应理论,以高中化学平衡测验的编制为例,探索了化学测验的编制方法。首先,基于高中化学课程标准、考试大纲、高考试题等文本材料,构建了化学平衡内容的属性模型;其次,编制了3份化学平衡的预测卷,利用项目反应理论软件——BILOG-MG3.0,估算每个项目的难度、区分度、信息量等参数和被试的能力值(θ);最后,基于信息函数的测验编制法,组建了一份效度较好、信度较高的测验卷。  相似文献   

6.
题库是现代计算机技术的产物,是计算机化测验的基础。无论是计算机智能化组卷测验,还是计算机自适应测验,都离不开题库。题库对心理与教育测验进一步科学化、现代化起到了较大的推动作用。在项目反应理论指导下的题库建设一般可分为题库总体设计、命题与参数设计、设计题库的生成系统、设计评分和解释等。  相似文献   

7.
目的:尝试在项目反应理论的指导下,编制四年级数学成就测验,为学科评价提供辅助工具.方法:用贝佳访法检验试测数据的单维性,利用ANOTE软件估计项目参数,用基于题目分类下的经验判断法建立一个划界分数,再接合项目信息量和双向细目表编制成卷.结果:四套试卷均符合单维性要求,基本拟合三参数逻辑斯蒂克模型,项目拟合度都在85%左右,最终选取141个信息量高的项目组成正式题库,精选50个项目组成四年级数学标准参照测验.  相似文献   

8.
《现代教育技术》2019,(10):41-47
题库是考试实践中不可或缺的要素,如何构建具有良好试题内容和试题参数的题库一直是教育评价领域关注的焦点。文章以师范生的"现代教育技术"公共课为例,通过探讨基于项目反应理论的题库构建,论述了试题编制的原则、试题的等值设计、试题参数的估计方法以及如何利用信息函数进行题库质量的评价。最后,文章指出了题库构建中尚存的不足和未来研究方向。  相似文献   

9.
加强标准化题库建设是检测教学效果的必然要求,也是大学物理课程建设和教学改革的需要。运用项目反应理论开发题库,可以弥补基于经典测试理论的题库的不足,提高测量精度,缩短测验长度,使试题系数更加规范,保证试题的科学性和有效性。  相似文献   

10.
测验等值设计新探讨:ETP设计   总被引:1,自引:1,他引:0  
项目反应理论框架下新的基于题库的大型测验的等值设计:等值到题库设计(ETP设计),与其他传统等值设计相比,可以避免传统共同组设计和共同题设计的一些缺点,并能够在保证等值精度的情况下对测验进行等值。在目前许多大型考试已有题库的情况下,ETP设计具有较大的发展空间。  相似文献   

11.
为保证语言测试题目的质量和加强题库建设,本文基于经典测试理论,使用Gitest Ⅲ对一份高考试卷(阅读部分)题目进行项目分析,结果显示:该阅读题目的难度、区分度较理想,但难度分布并不理想。建议在使用题库中的组合试卷前先进行试测,以改进试题的难度分布以及部分题目选项的质量,从而提高试题的信度和效度。  相似文献   

12.
Pupil monitoring systems support the teacher in tailoring teaching to the individual level of a student and in comparing the progress and results of teaching with national standards. The systems are based on the availability of an item bank calibrated using item response theory. The assessment of the students’ progress and results can be further supported by using computerized adaptive testing where the items selected from the item bank are targeted at the specific ability level of the student. The present article discusses psychometric issues of pupil monitoring systems, such as ability estimation, the optimal construction of tests from the item bank and monitoring of progress.  相似文献   

13.
In test development, item response theory (IRT) is a method to determine the amount of information that each item (i.e., item information function) and combination of items (i.e., test information function) provide in the estimation of an examinee's ability. Studies investigating the effects of item parameter estimation errors over a range of ability have demonstrated an overestimation of information when the most discriminating items are selected (i.e., item selection based on maximum information). In the present study, the authors examined the influence of item parameter estimation errors across 3 item selection methods—maximum no target, maximum target, and theta maximum—using the 2- and 3-parameter logistic IRT models. Tests created with the maximum no target and maximum target item selection procedures consistently overestimated the test information function. Conversely, tests created using the theta maximum item selection procedure yielded more consistent estimates of the test information function and, at times, underestimated the test information function. Implications for test development are discussed.  相似文献   

14.
在总结目前考试测评系统不足的基础上提出科学有效的考试质量评价方法,并在该方法的指导下运用经典测试理论和项目反应理论设计考试质量在线测评系统。系统具有创建新表、成绩统计、质量分析以及基于经典测试理论下的信度和效度分析等功能,能够满足广大教师对考试质量分析的需求。  相似文献   

15.
设计了一种适合于在线考试系统的通用试题数据库,根据规范数据库设计的要求,设计了试题库的关系模型。在经典测试理论的基础上,提出了一种约束试卷生成的参数模型,并根据该模型设计了一种自动试卷生成的递归算法。  相似文献   

16.
学生的数学素养具有多维结构,素养导向的数学学业成就测评需要提供被试在各维度上的表现信息,而不仅是一个单一的总分。以PISA数学素养结构为理论模型,以多维项目反应理论(MIRT)为测量模型,利用R语言的MIRT程序包处理和分析某地区8年级数学素养测评题目数据,研究数学素养的多维测量方法。结果表明:MIRT兼具单维项目反应理论和因子分析的优点,利用其可对测试的结构效度和测试题目质量进行分析,以及对被试进行多维能力认知诊断。  相似文献   

17.
This article uses data from a large‐scale assessment program to illustrate the potential issue of range restriction with the Bookmark method in the context of trying to set cut scores to closely align with a set of college and career readiness benchmarks. Analyses indicated that range restriction issues existed across different response probability (RP) values and item response theory (IRT) models if one were to apply the Bookmark procedure using intact test forms. Results also suggested that range restriction may still be present if one had access to additional data from an item bank. This demonstration critically highlights challenges that may exist in some practical applications of the Bookmark method due items not being designed to cover the full range of examinee abilities.  相似文献   

18.
Item analysis is an integral part of operational test development and is typically conducted within two popular statistical frameworks: classical test theory (CTT) and item response theory (IRT). In this digital ITEMS module, Hanwook Yoo and Ronald K. Hambleton provide an accessible overview of operational item analysis approaches within these frameworks. They review the different stages of test development and associated item analyses to identify poorly performing items and effective item selection. Moreover, they walk through the computational and interpretational steps for CTT‐ and IRT‐based evaluation statistics using simulated data examples and review various graphical displays such as distractor response curves, item characteristic curves, and item information curves. The digital module contains sample data, Excel sheets with various templates and examples, diagnostic quiz questions, data‐based activities, curated resources, and a glossary.  相似文献   

19.
主客观题实际上是一个连续体,"主观题客观化"和"客观题主观化"在这个连续体上向对方无限趋近,"客观题主观化"在教育考试中有借鉴意义。文章以我国高考和研究生入学考试的试卷为例,探讨了主观题与客观题比例设置问题。主观题与客观题的有机结合反映了各国考试理念的融合。题型的设计不仅与考查目标有关,还与学科特点有关,并随着认识的深入而发展。  相似文献   

20.
This article addresses the issue of how to detect item preknowledge using item response time data in two computer‐based large‐scale licensure examinations. Item preknowledge is indicated by an unexpected short response time and a correct response. Two samples were used for detecting item preknowledge for each examination. The first sample was from the early stage of the operational test and was used for item calibration. The second sample was from the late stage of the operational test, which may feature item preknowledge. The purpose of this research was to explore whether there was evidence of item preknowledge and compromised items in the second sample using the parameters estimated from the first sample. The results showed that for one nonadaptive operational examination, two items (of 111) were potentially exposed, and two candidates (of 1,172) showed some indications of preknowledge on multiple items. For another licensure examination that featured computerized adaptive testing, there was no indication of item preknowledge or compromised items. Implications for detected aberrant examinees and compromised items are discussed in the article.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号