期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

柴省三《考试研究》2014,(1):48-55

测验长度(test length)是影响语言测试信度和效度的重要因素之一。本文借助概化理论(Generalizability Theory,GT)的固定侧面s×(i:p)嵌套设计和边际效用递减法则(the Law of Diminishing Marginal Utility),对中国汉语水平考试(HSK[中级])的测验长度进行了实证研究。研究结果显示:由130题构成的HSK[中级]测验具有相当高的测验信度,概化系数(Eρ2)可达0.8890,即使将测验的题目数量减少至120题或110题,测验的概化系数仍可以达到0.8856和0.8816(分别降低了0.38%和0.83%),这种测验长度的缩减不仅明显地降低了研发成本,而且提高了测试效率,完全能够满足标准化考试在误差控制方面的较高要求,并确保测验结果和分数解释具有较高的信度和效度。相似文献

2.

告别“标准参照测验”和“常模参照测验”的二元划分

罗莲《中国考试》2007,(6):18-22

本文据美国教育研究协会等机构编写的《教育与心理测试标准》,探讨了“常模参照”和“标准参照”两术语的内涵、使用及其关系。该《测试标准》认为,从同一个测验得到的分数,可做出常模参照和标准参照两种解释。两者是从分数解释的意义上划分的,并非两种不同的测验。因此,以前将测验割裂为“常模参照测验”和“标准参照测验”的二元划分是不恰当的。相似文献

3.

教学管理与评价的测量技术：测验等值的理论、方法及应用

张敏强黎光明刘晓瑜焦璨《教育研究与实验》2009,(2)

测验等值不是无条件的分数转换,需要满足公平性、横跨群体的不变性、对称性和测验的一维性等条件。测验等值可以解决诸如不同学年度学生成绩比较、不同学校不同地区学生成绩比较、不同班级教师教学水平比较等问题。进行测验等值需做好等值设计,锚测验设计是等值设计中常用的一种,不同的锚测验设计有不同的要求。结合某实例,本研究介绍了测验等值在实际中的应用。相似文献

4.

标准分制度在教学实践中的运用 总被引：1，自引：0，他引：1

丁晓燕《考试周刊》2008,(38)

在教育教学中,我们总是需要通过一定的测试来检测学生的学习状况,通过测验所直接得到的分数,叫原始分数.如下图,采用原始分数的排名. 原始分数本身意义甚小,因为仅从个别学生的原始分数,我们无法了解他学习成绩的好坏,知识能力的高低,也无法与其他学生相互比较.由于各个测验的难度不同,各原始分数的价值也不相同,不同测验的原始分数不能进行直接比较,也就是说,考生无法根据原始分成绩,判断自己在考生团体中所处的位置.为了使原始分数本身具有意义,使不同测验的原始分数可以相互比较,就必须把它们转换成导出分数.所谓导出分数就是经过统计处理过的,具有一定参照点和单位的、可以比较的分数.在教育测验中常用的导出分数有百分等级分数和标准分数. 相似文献

5.

美国托福ITP考试特点及其对我国英语测评的启示

《考试研究》2019,(6)

介绍美国托福ITP考试。首先阐述考试的主要特点,然后从现代语言测试学视角,分析其考试体系的优势和局限性。基于此,讨论托福ITP考试对我国英语测评的启示,旨在为我国英语考试的设计、施测及分数报告提供参考依据。相似文献

6.

汉语水平考试(HSK)复本测验稳定程度的历时性研究

柴省三《现代语文》2011,(2)

在大规模、标准化语言测验中,如何确保复本测验分数之间具有等价性和稳定性的问题,是测验分数信度高低的重要标志之一,也是测验结果解释和分数使用效度高低的重要证据之一.本文在对汉语水平考试(HSK)标准化开发程序和等值处理技术进行考察的基础上,重点对国内最近两年HSK考试使用的8份复本测验分数之间的稳定进行了统计分析.结果表明,HSK测验的复本分数之间具有较高横向稳定性,所有测验试卷的分数与标准卷均具有历时一致性. 相似文献

7.

二项式模型在标准参照性语言测验长度研究中的应用

柴省三《考试研究》2013,(4):51-59

随着国内外教育测量理念的转变,传统的常模参照测验所提供的相对性评价信息已无法满足考试用户和考生的需求,标准参照测验(CriterionReferenced Test,CRT)的社会价值越来越受到重视。在对被试掌握程度进行分类决策的CRT测验中,如何确定恰当的测验长度和合格分数是影响测验分类误差的重要因素。本文在对CRT测验研究的现状、原理和用途进行考察的基础上,专门介绍了二项式概率模型在CRT测验长度决策研究中的理论和过程,并以误差控制为原则,对二项式模型在综合性标准参照语言测验长度和合格分数决策中的应用过程进行了研究。相似文献

8.

从交际语言测试理论看英语听力测试中的真实性问题

朱莉《安康学院学报》2009,21(4):107-109

交际语言测试理论的出现,使语言测试的重点从语言知识转向语言交际运用能力,对语言测试的发展带来了深远影响.交际语言测试理论中的真实性原则,对于英语听力测试的材料运用、任务设计、评价体系构建等具有重要的指导性作用. 相似文献

9.

语言测试信度计算及其在外语教学中的应用

薛荣《扬州大学学报(高教研究版)》2007,11(4):88-90

信度是指测验结果的一致性程度或者可靠性程度,主要有重测信度、折半信度、复本信度、评分员信度等。计算方法常用的有Spearman-Brown Prophecy计算法、克朗巴赫α系数估算法、Kuder-Richardson20和Kuder-Richardson21计算法等。分析和研究信度计算方法,理解信度含义,正确运用信度概念,对改进语言测试设计、提高语言测试质量十分重要。相似文献

10.

语言测试信度计算在高职英语教学中的应用

朴明华《辽宁高职学报》2008,10(4):42-44

信度是指测验结果的一致性程度或者可靠性程度,主要有重测信度、折半信度、复本信度、评分员信度等。计算方法常用的有Spearman Brown Prophecy计算法、克朗巴赫α系数估算法、Kuder Richardson20和Kudcr Richardson21计算法等。分析和研究信度计算方法,理解信度含义,正确运用信度概念,对改进语言测试设计,提高语言测试质量有十分重要的意义。相似文献

11.

Keeping your audience in mind: applying audience analysis to the design of interactive score reports

Juan Diego Zapata-Rivera 《Assessment in Education: Principles, Policy & Practice》2014,21(4):442-463

Score reports have one or more intended audiences: the people who use the reports to make decisions about test takers, including teachers, administrators, parents and test takers. Attention to audience when designing a score report supports assessment validity by increasing the likelihood that score users will interpret and use assessment results appropriately. Although most design guidelines focus on making score reports understandable to people who are not testing professionals, audiences should be defined by more than just their lack of statistical knowledge. This paper introduces an approach to identifying important audience characteristics for designing computer-based, interactive score reports. Through three examples, we demonstrate how an audience analysis suggests a design pattern, which guides the overall design of a report, as well as design details, such as data representations and scaffolding. We conclude with a research agenda for furthering the use of audience analysis in the design of interactive score reports. 相似文献

12.

谈PETS笔试成绩报告单的设计

刘庆思赵祖华莫春晖《中国考试》2008,(4)

为了向PETS考生提供更为优质的服务,研究人员根据考生的实际需要,设计了PETS考生笔试成绩报告单。该文介绍了报告单设计所遵循的基本原则和报告单所呈现的主要内容。相似文献

13.

多项选择测试的新模式

周胜《湖北招生考试》2006,(4)

为了使测试结果接近或等于真分数,根据语言测试发展的“个人化、真实化和过程化”的新要求,以及目前多项选择测试的不足,新型的多项选择测试应该具有动态题目设计、合理分值计算和电脑辅助测试等特征。相似文献

14.

试后试题全公开背景下分数分布的跨年度比较——日本全国性测验与地方性测验的链接

石井秀宗《考试研究》2012,(5):3-11

本研究的目的有三：（1）提出试后试题全公开背景下分数分布的跨年度比较方案,即通过组合日本的全国性测验与地区性测验的设计,应用测验理论中的链接原理提出跨年度比较分数分布的方法;（2）讨论实现该方案的可行性,具体讨论了使用测验数据的可能性、地区性协作的方式以及对于被试群体的要求;（3）进行实际数据的证实,即呈现2006年度与2009年度初中三年级学生国语测验分数的跨年度比较结果,发现无论哪个测验的分数分布都基本上没有变化。相似文献

15.

论外语教学的可理解输出假设及其运用原则

田茂松《凯里学院学报》2003,21(2):109-111

“高分低能,费时低效”是我国外语教学中一个突出的问题。就此对国外可理解输出理论的介绍,并强调输出在外语学习中的非常重要性和教师在输出活动设计中应遵循的一些原则。相似文献

16.

用VB设计全国计算机等级考试模拟软件

许旻鸿黄柳红《广东技术师范学院学报》2005,(4):73-76

针对全国计算机等级考试特点,结合计算机语言教学,为帮助学生备考和适应新的考试环境,协助教师教学,开发了此软件.本软件主要是根据全国(二级)C语言考试的要求,结合各个考点的实际情况,成功将笔试和机试整合在一个系统,实现考试的统一管理和智能化改卷,方便考生练习.本软件以VB为设计工具,并结合SQL语言. 相似文献

17.

语言能力测试如何适应语言教学方式的发展 总被引：1，自引：0，他引：1

谢小庆《考试研究》2010,(4):29-40

当前,语言教学观念和语言教学方式正在发生着深刻的变化,正在从“知识传授”转向“能力培养”,从“教师主导”转向“学生自主”,从“班级教学”转向“个性化教学”。为了适应语言教学观念的这些变化,应致力于开发新的基于任务的语言测验。为此,需要建立语言测试的评价标准,提供学习者“能做什么”的能力水平描述,并根据标准对测验分数作出解释。同时,还应运用规则空间模型、统一模型、融合模型等测量工具对语言测验进行认知诊断分析,并在此基础上向学习者、教师和家长提供描述性、诊断性的成绩报告。相似文献

18.

基于SVM的智能统分自学习系统设计与实现

赵晟然伍常亮《教育技术导刊》2019,18(8):127-130

为了解决传统纸质试卷人工统分过程存在工作量大、错误率高、统分效率低等问题,设计开发一款基于SVM的智能统分自学习系统。该系统由前端用户界面、后台手写分数识别子系统和自学习子系统构成。系统采用C#编程语言和Microsoft Visual Studio软件设计前端用户界面;使用Matlab作为系统运算后台,并构建SVM多分类器识别手写分数;使用C#编程语言设置定时器,在系统空闲时间定时启动Matlab执行自学习程序。经过MNIST数据集的训练和测试,SVM多分类器的测试精度达到97.74%。完成系统设计开发后,使用试卷统分栏图片测试系统。测试结果表明,该系统可以有效实现智能识别、统分栏内手写分数汇总以及自学习功能,并将运行结果清晰准确地显示在前端用户界面上。相似文献

19.

State Assessment Policies,Practices, and Language Minority Students

《Educational Assessment》2013,18(3):213-255

State assessment policies define the context for local school districts to identify language minority students who need language-based instructional services and to follow the performance of these students in school. This survey of state education agencies (SEAs) in the eastern half of the United States addressed two questions: What assessment policies are states using to identify and reclassify English language learning (ELL) students from special language programs, and what assessment policies are states using to determine the participation of ELL students in statewide testing programs? Results indicated that fewer than one third of the SEAs required assessment for identification or placement of ELL students through state law or policy, leaving most of the states without procedures that would prevent mislabeling and inaccurate student counts. Almost half the states required a minimum score on a statewide test for students to be eligible for a high school diploma, yet less than one fifth of these had some kind of alternative plan for students not obtaining the minimum score. Recommendations offered to states for designing accurate and equitable assessment practices for language minority students are (a) use uniform requirements for identification and reclassification, (b) monitor district-level assessment practices, (c) select ELL students for inclusion in statewide testing based on English language proficiency, (d) use statewide testing programs to monitor the progress of former ELL students, (e) use multiple assessment procedures in statewide testing, and (f) provide alternative procedures for ELL students to meet stare test requirements for high school graduation. 相似文献

20.

第二语言测试分数解释体系的比较研究

李桂梅 ;张晋军《考试研究》2014,(6):61-68

对托福、托业、雅思、大学英语考试、新汉语水平考试等大规模第二语言测试的分数解释体系进行比较研究,提出单标准参照与多标准参照、精度标准参照与跨度标准参照等概念。大规模的第二语言测试应当同时提供标准参照和常模参照,使考试用户获得更为丰富的分数解释信息;对于标准参照而言,"单标准参照"的"完成能力标准的百分比"这一分数解释体系更为可取。相似文献