共查询到20条相似文献,搜索用时 15 毫秒
1.
一帆 《教育测量与评价(理论版)》2014,(4):14-14
项目功能差异(Differential Item Functioning,简称DIF)的研究最早始于20世纪60年代美国关于测验的“项目偏差”研究。当时的民权运动、少数民族的平等问题特别受到关注,测验偏差逐渐成为测验评价中的一个标准部分,DIF的研究目标就是为了区分出对少数民族学生存在偏差并使之在测验中偏离的项目。 相似文献
2.
国际教育成效评价协会儿童认知发展状况测验项目功能差异分析 总被引:3,自引:0,他引:3
本研究旨在从一维和多维的角度检测国际教育成效评价协会(IEA)儿童认知发展状况测验中中译英考题的项目功能差异(DIF)。我们分析的数据由871名中国儿童和557名美国儿童的测试数据组成。结果显示,有一半以上的题目存在实质的DIF,意味着这个测验对于中美儿童而言,并没有功能等值。使用者应谨慎使用该跨语言翻译的比较测试结果来比较中美两国考生的认知能力水平。所幸约有半数的DIF题目偏向中国,半数偏向美国,因此利用测验总分所建立的量尺,应该不至于有太大的偏误。此外,题目拟合度统计量并不能足够地检测到存在DIF的题目,还是应该进行特定的DIF分析。我们探讨了三种可能导致DIF的原因,尚需更多学科专业知识和实验来真正解释DIF的形成。 相似文献
3.
本文系统梳理了我国成就测验的项目功能差异研究,主要包括介绍国外的项目功能差异研究的综合介绍性研究、利用我国的成就测验进行DIF检测方法的比较研究和影响因素研究、对我国的各种成就测验进行项目功能差异分析的应用性研究。在此基础上,指出了我国成就测验的项目功能差异研究存在的问题。 相似文献
4.
5.
本文通过对PISA2000阅读素养测验的不同语言组的DIF检测,发现中文版出现DIF标记的项目较之其他语种版本而言,数量较多,在反思评价认知过程中尤其突出。日语与英语、芬兰语版本的DIF项目数量只有中文版本的二分之一左右。本文最后对DIF产生原因与检测方法的局限性进行了讨论。 相似文献
6.
第二语言学习者专业背景对HSK阅读成绩影响的项目功能差异检验 总被引:1,自引:0,他引:1
本文旨在考察HSK应试者的专业背景是否会对他们的阅读成绩产生影响。运用MH方法和SIBTEST方法对2009年HSK(初中等)考试阅读题目进行DIF筛查,把专业背景为自然科学的HSK考生设为目标组,专业背景为人文社会科学的HSK考生设为参照组。MH方法的结果是没有找到含有DIF的题目;SIBTEST方法的结果如下:第一轮DIF筛查检测到一个题目,第二轮DBF筛查检测到一组题目。这组题目有利于人文社会学科专业背景的被试。就检测DIF的方法而言,本研究认为SIBTEST方法更加敏感,DBF检验更加适合像阅读理解测验这样的一组或多组相互关联的题目。 相似文献
7.
提出检测连续协变量条件下项目功能差异的正则化方法,并将其与Logistic回归方法进行比较。模拟数据分析结果表明:1)在所有条件下,正则化方法的一类错误率比Logistic回归方法低。在DIF项目比例为20%时,正则化方法的检测效果优于Logistic回归方法。2)正则化方法对0.3的DIF值不敏感,检验力低。3)两种方法的一类错误率随着样本量增加、DIF值增加而增加,检验力随着样本量增加、DIF值增加、DIF项目比例减小而增加。将正则化方法应用于PISA2012数学测验数据,进行连续协变量下的DIF检测及正则化方法的实际应用,结果也发现正则化方法相比于Logistic方法可以更好地控制一类错误率。 相似文献
8.
任何一种测试都要公平、公正,否则就失去了它存在的价值和意义。对语言测试的公平性问题的研究是测验开发者不可推卸的责任和义务。汉语水平考试(HSK)是专门为汉语作为第二语言的学习者而设计的语言测试。经过二十多年的发展,HSK在公平性问题研究方面已经取得了长足进展。针对HSK特有的考生构成特点,本文将考生数量较少的非亚裔考生当作研究对象,将其设为目标组,考察HSK是否会对这个亚群体考生不公平。本文运用3种传统的DIF检验方法——MH方法、SIBTEST方法和Logistic regression方法,对HSK【初中等】一套试卷的听力理解测验进行DIF检验,比较目标组(非亚裔考生)和参照组(亚裔考生)在同一组项目上的表现。 相似文献
9.
在认知诊断模型中进行题目功能差异(DIF)的检测,目的在于保证测验的质量与效果。在以往研究的基础上,本研究重点探索在CDMs框架下,MH、LR、CSIBTEST、WObs、WSw、WXPD 6种DIF检测方法在Q矩阵是否正确设定以及有关DIF影响因素等条件下的表现。结果表明:在Q矩阵正确设定时,WObs、WSw和WXPD统计量表现要好于MH、LR和CSIBTEST方法;在Q矩阵错误设定时,6种方法都会出现Ⅰ类错误率膨胀和统计检验力较低的现象。相对而言,MH、LR和CSIBTEST方法的表现比较稳定,WObs、WSw和WXPD统计量的表现变化较大,WObs、WSw和WXPD统计量的Ⅰ类错误率和统计检验力的结果依然好于MH、LR、CSIBTEST方法。 相似文献
10.
DIF分析实际应用中的常见问题及其研究新进展 总被引:1,自引:0,他引:1
多等级计分题、小样本、匹配变量不纯以及DIF检验后的原因分析是DIF检验面临的常见问题,对多等级计分题目进行DSF分析,小样本情况下DIF检测的平滑方法,匹配变量不纯情况下采用MIMIC法,以及运用Logistic模型进行DIF检验后的原因分析是DIF研究中的一些新进展。对这些进展的分析使我们相信,多种检验方法的配合使用、运用DIF研究进行多维IRT框架下的潜在变量探究等,都有可能使DIF研究成为测量学未来的基础研究领域之一。 相似文献
11.
一帆 《教育测量与评价(理论版)》2014,(4):64-64
测量学者们对DIF的定义以及所依据的理论基础不同,衍生了许多验证DIF的方法,其可以笼统地分为一般或传统的方法和项目反应理论(itemresponse theory,简称IRT)方法。 相似文献
12.
和基于实测数据的DIF研究相比,基于模拟数据的DIF研究不仅可以自由操纵实验条件,而且可以给出检验力和I型错误指标。本文详细阐述了二级计分DIF模拟数据的产生原理,其产生过程包括四个阶段:选择DIF产生思路,选择项目反应理论模型,确定考生特征、题目特征和复本数,计算考生在题目上的正确作答概率并转化为二级计分数据。并且分别利用常用软件Excel和专业软件WinGen3展示了二级计分DIF模拟数据的产生过程。 相似文献
13.
14.
本模拟研究的目标组与参照组的项目作答反应数据是通过Rasch模型产生的,模拟研究探讨了LRDIF检测方法在不同DIF比例和纯化方式下的检测效果。研究结果表明:LRDIF方法的检测结果在DIF比例≤40%时是可信的;当采用LRDIF方法进行DIF检测时,有必要对匹配变量进行纯化,最好是能够进行迭代纯化。 相似文献
15.
16.
《中国考试》2019,(9)
随着多级计分在心理和教育领域中日益广泛的应用,对检验项目功能差异(DIF)的方法提出新的挑战。已有研究表明,在检验DIF的方法中,MIMIC是一种经济有效的检验方法,然而还没有研究系统地分析MIMIC方法在多级计分项目中的有效性。本研究通过蒙特卡洛实验,探讨参照组与目标组的样本容量、DIF类别、项目区分度、组间能力差异和在锚题中存在的DIF题量5个因素,并在这些因素不同情况的组合中分析MIMIC方法的第一类错误率和检验力。研究发现:1)MIMIC是一种能够灵敏地检验一致性DIF的方法,即使在目标组样本容量较小或明显小于参照组的情况下,它仍然能很好地控制第一类错误率;2)纯化步骤对MIMIC方法控制第一类错误率、提高检验力是有必要的,但MIMIC方法对污染程度又有一定的容忍性;3)检验力受到低区分度的严重影响,但太高的区分度又会导致第一类错误率的增加;4)MIMIC方法对一致性DIF的检验力随着样本容量的增大而增大。 相似文献
17.
本文使用SIBTEST方法,分析情绪智力量表中文版的项目功能差异。结果表明:(1)在性别变量上,EIS中文版四个项目存在DIF,其中两个是一致性DIF,另两个则是非一致性DIF。(2)在地域变量上,EIS中文版五个项目存在DIF,其中三个是一致性DIF,另两个则是非一致性DIF。 相似文献
18.
19.
关于青少年团体人格投射测验编制的构想 总被引:1,自引:0,他引:1
目前,随着对青少年心理健康问题、特别是人格健全问题重视程度的提高,国内外相关学采用各种研究工具对青少年的心理健康状况、人格完善等问题进行了大量的研究、国内外同类研究所使用的工具大多是一些自陈量表。在国外发展起来的代表投射测验发展方向的客观性投射测验结合了自陈量表和一般投射测验的优点,在人格的测量与评估方面具有独特的优势和实用价值。然而。国内有关客观性投射测验的编制研究还十分缺乏。有鉴于此.研究拟在以往研究的基础上。根据中国化的传统与特点,自主开发编制客观性投射测验——青少年团体人格投射测验。 相似文献
20.
本文使用SIBTEST方法,分析情绪智力量表中文版的项目功能差异.结果表明:(1)在性别变量上,EIS中文版四个项目存在DIF,其中两个是一致性DIF,另两个则是非一致性DIF.(2)在地域变量上,EIS中文版五个项目存在DIF,其中三个是一致性DIF,另两个则是非一致性DIF. 相似文献