首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
在信息爆炸和人工智能技术飞速发展的21世纪,批判性思维作为个体生存和发展的重要素养,正受到越来越广泛的关注。精准而有效的测评是批判性思维教育的重要基础,传统的批判性思维测验主要采用抽象的客观题形式,存在生态效度不高和缺乏整体性评估等问题。近年来,研究者尝试以现实问题作为测验情境并且采用基于材料的论证写作形式,通过学生在真实问题情境中的表现预测其批判性思维水平。这一新型测评突破了传统测验的局限,将批判性阅读与论证写作相结合,保证测评维度更加全面。为了进一步实现新型测评的大规模应用,研究者需要完善测验信效度检验、借助自然语言处理技术实现论证自动化评分、获取多元的过程性数据并实现过程性评估、以智能化测评促进个性化培养。为此,需要心理测量技术与人工智能技术深度融合。  相似文献   

2.
当前学校心理健康教育工作中,心理测评的重要性日渐凸显。在具体的测验选择环节,存在测验的量程不合适、测验的参照过时、测验作答真实性难以保证等现实问题。针对学校心理测评中的不足,提出规范测评工具的选择流程,开发本土化、信息化测评工具,他评与自评相结合等建议,以期为心理测评在学校中的应用提供更为科学的理论指导和方法指引。  相似文献   

3.
大规模学业测评是衡量中小学生学业质量的重要手段,对学生发展和教学活动具有重大影响。论坛嘉宾围绕如何构建科学的测评理论和使用适切的测评技术,相互交流了各自的最新研究成果。一、促进教学的大规模学业测评体系就大规模学业测评如何促进教学的问题,论坛上交流了4C评价体系、绿色指标评价体系、高中学业水平考试系统和SBAC评价体系的研究与进展。  相似文献   

4.
李潇  陈平 《中国考试》2023,(9):52-59
问卷法作为主流的实证研究方法被广泛应用于教育评价领域,其使用的变量合成与分数切分点计算方法直接关系到测评结果的科学性和解释力。目前,PISA、TIMSS和PIRLS等国际大规模测评项目主要采用基于项目反应理论的量尺化方法合成变量,应用分数链接技术将趋势量表分数转换到基准量尺,实现不同测验周期的测评结果可比。另外,TIMSS 2019在充分运用Rasch簇模型性质的基础上,根据专家评定的反应类别组合来确定分数切分点,而PISA 2018则基于被试在群体中的相对位置确定切分点。  相似文献   

5.
从上世纪五六十年代开始,由于一些大型国际教育测评项目的推动,矩阵取样技术因其较好地解决了广泛的测试内容和有限的测试时间之间的矛盾,而在大尺度教育测评中逐渐得到普遍运用。它通过将测验题目的随机平行等份分配给随机选取的学生来估计测验总分,是用来估计矩阵参数的一般统计方法。在实际测评的过程中,与传统经典测验用同一张试卷测验所有学生的做法不同,矩阵取样通过限制每个学生所接受的测验题目数量来减少必须的测验时间,但同时仍然在学生之间保持了对测试内容的广泛覆盖范围。从基本类型上看,它可分为完全矩阵取样和不完全矩阵取样两大类,两者都定位于对群体水平的测查,但后者通过"公用题目"的设计帮助解决个体间结果比较的问题。采用恰当的矩阵取样技术,在对广泛的测评内容进行梳理和结构化整理的基础上,可以在不增加测验管理成本的前提下,实现对群体水平的准确、全面考察,这对我国教育质量监测工作的开展具有重大的方法学意义。  相似文献   

6.
遵循经典测量理论中教育测验编制的方法与技术,开发了数学教师核心素养测试题目,具体编制程序为:构建测评框架——明晰测验目的——制定测验蓝本——编制测验试题——修订测试题项——形成测试问卷——完成试卷检验,以此编制的高中数学教师核心素养测试试卷有良好的信度和效度,可以作为我国高中数学教师核心素养的测评工具。  相似文献   

7.
测评效度是衡量一个测评项目质量高低的重要指标.但我国很少有测评项目报告测评效度,其可能的原因或者是缺乏效度意识,或者是对效度概念和效度验证流程存在一些误解.因此,很有必要梳理测评效度的定义和效度验证的基本步骤.重点讨论以证据为中心的测验设计方法,并以某次英语原著阅读测试的研发为例,具体展示基于效度证据的测验研发流程和要求,对于确保测评效度具有参考意义.  相似文献   

8.
测评效度是衡量一个测评项目质量高低的重要指标.但我国很少有测评项目报告测评效度,其可能的原因或者是缺乏效度意识,或者是对效度概念和效度验证流程存在一些误解.因此,很有必要梳理测评效度的定义和效度验证的基本步骤.重点讨论以证据为中心的测验设计方法,并以某次英语原著阅读测试的研发为例,具体展示基于效度证据的测验研发流程和要求,对于确保测评效度具有参考意义.  相似文献   

9.
从"测验文件"的编撰规范和技术角度来看,PISA、NAEP和PIRLS三个国际阅读水平测评项目的《测评框架/说明》有如下共同的特征:科学的内容体系、清晰的表达方式、可靠的理论依据。透过这些显性的技术和策略,我们可以感受到国际阅读水平测试中追求的三个一致:追求测评框架与实际命题结果的内在一致性;追求测评结果与学生实际语文素养水平的内在一致性;追求生活中的阅读和测试情境中的阅读的内在一致性。  相似文献   

10.
核心素养已成为全球范围内教育实践与研究领域的重要议题,但其复杂性使得传统的教育测验方法难以直接应用,需要教育测量理念、方法和技术的系统性革新。近年来,信息技术的进步为以复杂问题解决能力为代表的核心素养测评提供了全新的测评模式——过程性测评。首先,简述过程性测评的缘起、特点以及测验设计的核心;其次,介绍过程性测评和真实问题情境下测量理论的进展,其中重点阐述计算心理测量理论在复杂问题解决能力测评过程中的应用;再次,系统地介绍复杂问题解决过程数据的分析与测量模型建构的发展情况;最后,结合过程测评的发展趋势,展望数据挖掘方法与测量模型结合的前景。  相似文献   

11.
标准曲线绘制是临床生物化学检验工作中进行物质定量检测的基本要求。绘制标准曲线的方法很多,本文介绍了采用平均K值法绘制标准曲线的方法,并同其它方法比较。提示本方法具有灵敏准确、快速简便的特点。  相似文献   

12.
美国大学入学考试SAT深度剖析   总被引:4,自引:0,他引:4  
SAT是美国历史上使用最为广泛、研究最为深入的大学入学考试,至今已有80年的历史。SAT分为推理考试(SAT Reasoning Test)和学科考试(SAT Subject Tests)两类,一般人们常说的SAT指的是SAT推理考试。SAT考试全美统一,SAT推理考试每年举行7次。SAT不是智力测验,也不是学业测验,但近年来,SAT试题的设计与学生们在高中课堂里学习的内容越来越密切地相关起来。  相似文献   

13.
标准听写一直是英语专业学生的弱项,听写平均得分普遍偏低。通过分析发现,考试焦虑是影响听写不容忽视的因素,焦虑对第一个意群影响最大,也影响听力策略的使用。  相似文献   

14.
詹颖 《考试研究》2012,(3):88-94
关于英语考试与中国学生的论述只是零散见诸学术期刊,从未被集中讨论。English Language Assessment and the Chinese Learner(《英语测试与中国学生》)一书弥补了这一缺憾。该书借用语言测试专家Bachman的评估,使用论证理论框架对考试效度和考试使用进行了全面细致的讨论。为英语测试与中国学生研究提供了重要的参考资料。  相似文献   

15.
关于汉语水平考试等值设计的新思考   总被引:2,自引:0,他引:2  
汉语水平考试(HSK)实施多年来,一直坚持等值。在实际等值过程中,HSK遇到了一些新情况,旧的等值设计暴露出一些局限,变得难以适应。本文有针对性地提出了预测等值和跨国等值等新设计,以期应对新问题。  相似文献   

16.
为了向PETS考生提供更为优质的服务,研究人员根据考生的实际需要,设计了PETS考生笔试成绩报告单。该文介绍了报告单设计所遵循的基本原则和报告单所呈现的主要内容。  相似文献   

17.
在文理大综合的基础上,2000年在广东率先执行综合能力测试.而后在河南、江苏、辽宁、广西等省市推行,随着试行范围的扩大.来自各方面的意见也日显突出.笔者经过多年的实践认为综合能力测试利大于弊。  相似文献   

18.
高校教师教育技术培训是高等教育现代化的重要内容。本文从厦门大学教师教育技术等级培训工作的特点和需求出发,结合实践,介绍了高校教师教育技术等级考试系统的设计思路及实现功能,同时也对该考试系统在应用过程中尚需完善的方面做了探讨。  相似文献   

19.
验证性因素分析是依据一定的理论对潜在变量与观察变量间关系做出合理的假设并对这种假设进行统计检验的现代统计方法。本研究采用LISREL软件对某次数学考试的结构进行了检验,试卷设计方案基本得到了验证,显示了较好的结构效度。  相似文献   

20.
实行分级教学应当是大学英语教学的核心,它体现了因地制宜、因材施教的教学原则和理念。但近年来由于人们对于四、六级考试成绩的误用,使得四、六级考试的通过率成了学校用来衡量教师教学能力,以及某些权威机构用来衡量学校教学质量的依据。也正是四、六级考试的这种指挥棒作用,使得分级教学成了许多学校力求提高他们四、六级通过率的一种手段,因而他们所采用的这种分级教学是否真的可取又成了人们争论的话题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号