共查询到10条相似文献,搜索用时 31 毫秒
1.
此研究以网上阅卷环境下多个评分者同时评阅翻译和作文为例,建立多个评分者完成多个任务的结构方程模型,对数据进行拟合,实现评分者信度的量化分析。通过五个结构方程模型比较,选择拟合效果较好的相关任务相关特性模型,计算多评分者多任务的评分者信度,并对同一评分者完成不同任务时评分者信度和同一评分任务下不同评分者的评分信度进行比较,实现对评分效果的评价,从而对评分者的选拔和有针对性培训提供科学支持。 相似文献
2.
目前电大系统英语考试的口试和作文部分多采用语言运用测试的方式.语言运用测试由于引入评分者而使评分的主观性变大.如何控制评分者差异对考生分数的影响成为保证语言运用测试评分质量的重要环节.本文在比较了行为测试中评分质量控制方面常用的三种理论的基础上,着重介绍了多面Rasch模型在提高评分质量方面的贡献,并探讨了在电大系统如何采用该模型对英语运用测试中的评分者进行培训,以控制评分质量和提高考试信度. 相似文献
3.
国家公务员考试面试评分者信度的研究 总被引:2,自引:0,他引:2
黄石卫 《安徽教育学院学报》1998,(3)
本文分析了安徽省省级机关招考国家公务员面试的“评分者信度”,发现考官之间的评分具有较高的一致性。这说明考官的评分主要取决于考生答题的因素,而非考官本人的无关因素,即考试具有客观性。 相似文献
4.
研究生招生面试评分信度模型分析 总被引:1,自引:0,他引:1
在研究生招生面试中,考官评分是否客观、公正,是决定面试结果是否公平、合理的最主要因素.通过采用肯德尔和谐系数W值和方差差异性分析方法对某高校2008年教育经济与管理专业研究生面试的考官评分信度进行分析.总体上来说,考官的评分具有较高的一致性,但考官的面试技能、考生的面试表现以及评分的维度对考官的评分一致性有不同程度的影响. 相似文献
5.
6.
本文以某届国际奥林匹克运动会女子跳水决赛为例,综合应用CTT、GT和IRT三大测量理论进行评分者信度分析,从不同角度揭示评分者之间和评分者内部的差异情况。结果表明:CTT的评分者信度分别为0.981和078;GT的概化系数和可靠性指数分别为0.8279和0.8271,比赛中所采用的7名评委分别对选手在5轮上的跳水表现进行评定的决策是比较适宜的决策;在IRT中,相对而言,评委5在7名评委中最为严厉,评委2最为宽松,但评委之间在宽严程度上的差异不显著,评委1和评委4在自身一致性上存在问题,不同评委在评定不同选手、不同难度系数动作和不同轮数上存在偏差,但未达到显著性水平。基于本文的分析,可以了解三种评分者信度分析方法的特点及各自优势,为评分者培训和提高评分信度提供有用信息。 相似文献
7.
多面Rasch模型在主观题评分培训中的应用 总被引:7,自引:2,他引:7
主观题的评分受到很多因素的影响,如评分者的知识水平、综合能力和个人偏好等。这些评分者偏差不仅会导致不同评分者之间存在主观差异,也会到导致同一评分者在不同的时间也具有主观不稳定性,最终导致主观题评分信度的降低。本研究将多面Rasch模型运用到某国家级考试论述题的评分培训中。通过分析6名有经验评分者对58份试卷的试评数据,鉴别出四种评分者偏差,然后据此对每个评分者进行个别反馈,从而提高评分的客观性和精确性。 相似文献
8.
9.
我们通常采用Friedman双向秩次方差分析和Kendall和谐系数检验法来进行评分者信度检验.在绝大多数书籍中,此检验的零假设都被设置成"H0m个评分者对n个被评对象的评分是一致的".但是,这一零假设是错误的,本文将列举反例并给出正确假设的理论依据. 相似文献