P量表:他们的工作状况如何?
Francis Ndaji and Peter Tymms
摘要:1988年的“国家课程”为英格兰,威尔士和北爱尔兰国立学校的所有小学和中学提供了一个共同的课程,并确保所有地方学校的学校有一个共同的课程。 不过,有特殊教育需要的学生的成绩远低于国家课程计划的成绩。 直到1998年发表的P量表,英格兰的学校才有可能衡量学业成绩达不到国家课程标准的学生的成绩和进步。 来自达勒姆大学评估与监测中心的Francis Ndaji和Peter Tymms的这项研究考察了P量表数据有效性的许多方面。 结果在许多方面令人放心。 老师的评分对水平进行了区分,显示出每个水平都比下面的水平难以达到。 然而,由于他们测量相同的属性,因此受试者的辨别力不是很好。 P量表不显示任何性别偏见,表明教师以同样的方式将水平描述应用于男孩和女孩。然而,它们似乎以不同方式适用于不同类别学习困难的学生。研究还发现,一个学科领域的达到水平可以等同于另一个学科领域的相同水平。尽管教师提出了建议,但没有证据表明P8的瓶颈,甚至P量表的任何级别都没有。一般来说,P量表正在工作。
关键词:国家课程;特殊教育需求;水平描述;实现
介绍
由1988年“教育改革法案”设立的国家课程为英格兰,威尔士和北爱尔兰国立学校的所有小学和中学提供了国家课程,并确保所有地方学校的学校都有共同课程。课程与国家法定测试相关。 然而,一些有特殊教育需求的学生的成绩低于国家课程标准。在1998年发布P量表之前,学校在收集关键阶段测试/任务结果的法定结束期间使用代码W(努力达到1级)来描述这些学生的成绩。代码W不允许在该类别的学生的成绩或进展方面有任何歧视,因为W不会告诉学生已达到第一级以下的程度。 另外,使用W代码不能让学校达到制定1998年生效目标的法定要求,作为提高教育水平的一部分(Ndaji&Tymms,2009)。 因此,需要一套新的评估体系,使教师能够衡量在国家课程一级以下学生的学业成就和进步。
由DfEE / QCA(教育与就业部/质量与课程管理局)于1998年首次公布的P量表(表现量表)标准包括对学生预期要达到的目标的描述在不同科目给定的水平。这些量表于2001年3月进行了修订,并以题为支持目标设定过程:为有特殊教育需求的学生制定有效目标的指导(DfEE / QCA,2001)的小册子出版。(P1,P2,P3)分为六个等级,分别是P1(i),P1(ii),P2(i),P2(ii),P3(i)和P3(ii)。P1,P2和P3的这一细分旨在提高在这些最低水平的成就和进步中对量表的敏感性。P量表目前在国家课程的所有科目包括英语(五项:口语,听力,口语和听力,阅读,写作),数学(三项:使用和应用数学;数量,形状,空间和测量),科学(四项:科学探究,生命过程和生物,物质及其性质,物理过程),信息与通信技术(ICT)和PSHE等。目前这些标准发布在QCDA网站上。 在Ndaji和Tymms(2009)中可以找到更全面的P量表和他们的工作。
从1999年到2004年,QCDA通过杜伦大学评估和监测中心(CEM)组织年度收集和分析P级评估数据。年度数据收集的目标是:(a)收集足够的数据,以便全面了解年龄相关预期以下学生的表现情况;和(b)从结果数据集中为学校准备反馈,以帮助他们进行自我评估和目标设定。目前P量表数据收集项目正在达勒姆大学作为CEM项目运行,学校支付年费。
虽然P规模的数据收集和分析是成功的,因为每年许多学校参与其中,并且他们的意见表明了批准,但是关于数据的质量也存在一些问题。例如,在第一年(1999年)指出,不同学科领域的评级之间存在非常高的相关性,表明不同领域的成绩没有差异,并且有教师提出P量表的P8与国家课程一级之间存在瓶颈。这项研究受到这些问题以及更广泛需要仔细研究P量表有效性的许多方面的动机驱使。
多年来,有效性的概念发生了很大的变化。处理有效性的第一位主要理论家是Cronbach(1971),他的观点可以概括为四个部分。他认为应该有表面效度;也就是说,测试本身应该包含可以被认为是合适的材料,即通常意义上的观点。第二种测试应该具有内容的有效性;测试者应该从可能材料的大范围中抽取项目以包含在测试中。这将由该领域的专家确定,以确保测试代表了需要评估的较大领域。其次,评估应该有标准有效性;也就是说,测试应该预测其他相关领域的性能。举例来说,这可能会说作为教育绩效指标的测试应该是教育被认为会影响的事情的预测指标。最后,最困难的是测试背后的理论结构,即所谓的结构效度。
多年来,这种效度概念已经发生转变,因为诸如Moss(1994)和Mislevy(2004)等各种理论家增加了贡献。然而,近期最有影响力的人是Messick(1995,1998),他认为有效性不是测试的单个孤立属性,而应该被解释为测试得分的含义。他将定义扩展到测试成绩被使用的方式。这并非没有批评,但它是重要的,而且评估的有效性可以被看作是内容,测试的实质意义,结构性质,它的普遍性以及外部和后果的有效性的整体组合。
在这篇文章中,我们不能希望处理所有这些问题,但是我们确实将它们定位在Messick发展的这个总体结构中,建立在Cronbach的工作基础之上,并且在这样做的时候,我们将看到如何进一步发展P量表,随着时间的推移,有效性已经形成。
文章解决了以下问题:
bull;每个课程范围内的P水平是否满意地进行区分?例如,P量表是否表明在一个给定的学科中,P4与P5不同,比如说它们的相对难度?
bull;P量表是否区分课程领域?例如,对于不同的科目,例如阅读,写作,数量,科学探究等,P是否测量了不同的属性?
bull;对于某个科目的P级,难度与另一个科目的相同水平相当吗?例如,Reading中的P4等于P4中的Number?
bull;有没有证据显示性别和学习困难领域有偏见? 男孩比女孩是否达到更高的水平?
bull;有没有证据表明P8或其他任何级别存在瓶颈?例如,学生在任何科目上都被困在P8上; 也就是说,他们是否觉得难以在任何科目上超越P8?
数据
在研究中使用数据的学生是5岁至16岁的儿童,他们被分为一种或多种特殊教育需求。特殊教育需求类别(DfES,2005)如下:
认知和学习需求
深度和多元学习差异(PMLD)严重学习差异(SLD)中等学习差异(MLD)特定学习差异(SpLD)
行为,情感和社会发展需求
行为,情绪和社会方面(BESD)
沟通和互动需求
言语,语言和交流需求(SLCN)自闭症谱系障碍(ASD)
感官和/或身体需求
视觉障碍(VI)听力障碍(HI)多感官损伤(MSI)身体残疾(PD)其他(OTH)
预计学校应该很少使用“其他”类别(DfES,2005)
毫无疑问,从一个地方当局向另一个地方当局分配儿童到特殊教育需要类别方面存在不一致之处。 其中一个后果就是,在一个地方当局中被分配到一个类别(比如SLD)的孩子可能会被分配到一个不同的类别,也许在另一个类别中可能是PMLD或MLD。换句话说,类别之间可能存在灰色区域。但是,为了报告目的,CEM假定每个孩子的特殊教育需求分类是正确的,遵循了SEN行为准则(DfES,2001)中规定的程序和有关数据收集的指导(DfES,2005)。
从特殊学校和有特殊单位的主流学校以及主流学校收集基于P级标准的绩效数据。 在分析之前,数据被重新编码为1-16比例,其中P1(i)被赋值为1,而L4的值为16.有22,506名学生来自已经选择作为项目一部分的学校。换句话说,样本是机会主义的。
P量表的主题领域数据收集的主题领域如下:
bull;英语 - 口语,听力,口语和听力,阅读,写作;
bull;数学 - 使用和应用; 数; 形状,空间和测量;
bull;科学 - 科学研究,生命过程和生物,物质及其性质,物理过程
数据分析方法
大部分的数据分析是使用传统的程序进行的,但为了回答一些研究问题,使用了现代评估理论(更具体地说是Rasch模型)。
Rasch模型是项目反应理论(IRT)的特例,由丹麦数学家George Rasch(Rasch,1960)提出。Rasch允许将个体的能力和测试项目的难度置于相同的等间隔范围内。该模型最初是为了正确或错误的问题而设计的(Wilmott&Fowles,1974),但是它已经扩展到使用所谓的偏信用模型(Masters,1982)给出分数的问题。该模型有严格的要求(例如参见Bond&Fox,2001),第一阶段的分析是确定P量表数据是否符合Rasch模型。
P量表数据是否适合Rasch模型?
Rasch模型要求评估测量单个属性(即单维),并且有统计数据可以用来确定数据对Rasch模型的适应性。这些经常被研究人员使用(例如参见Wilmott&Fowles,1974; Bond&Fox,2001; RM Smith,1996; EV Smith,2002;和Coe,2008)。 应用于P量表数据的单向性测试和拟合统计结果都表明数据符合Rasch模型。因此Rasch模型可以用于P量表的研究。
拉希分析
使用部分信用模型进行P量表数据的Rasch分析。 该课程由11个与英语11个科目相对应的项目组成,数学和科学P量表。 每个项目,除了Speaking和Listening,都有19个可用的标记。 结果可以在项目特征曲线(ICC)中显示,其显示了P量表的水平与个体学生为了获得它们而必须具有的能力之间的关系。项目特征曲线也可以描述P级别与达到每个级别难度之间的关系。
结果与讨论
小学生的表现根据主要需要
在表1中显示了达到阅读中每个P级量表的每个主要需求的学生百分比。应该注意的是,在查看表格时,PMLD,SLD和MLD是互斥的,并且PMLD是最严重的,然后是SLD,然后是MLD。 学生可以有任何两个或两个以上的其他特殊教育需求组合或只包含PMLD,SLD和MLD之一的组合。
表1显示,在阅读中,大约90%被分类为PMLD的学生从P1(i)到P4。另一方面,被分类为SLD的学生中有85%从P4达到国家课程等级2b,而被归类为MLD的学生中有93%达到了国家课程的P6至4级。其他课程领域也有类似的趋势。鉴于学习难度类别的严重程度,预计观察到的趋势。
没有比较其他主要需求在学生分布在P水平分数方面的需求,但重要的是要注意到,大约94%的学生被定义为BESD得分在P4和国家课程4级之间,大约90%的学生MSI从P1(i)到阅读的P6。
P量表是否在每个课程范围内提供令人满意的差异? 例如,P量表是否显示在给定的科目中,P4和P5是不同的成绩水平?
表2列出了2004年和2005年在MLD阅读中学生P级成绩的交叉制表.2004年阅读时,如何获得特定级别的学生分布在2005年的P级水平。可以看出,2004年有145名MLD分数为P5的小学生,其中P7占23%,P7占6.7%,P8占6.7%,3.4% 2005年的国家课程等。换句话说,其中约71%进入了更高的水平。 还可以看出,2005年有25.5%的学生在2005年重复了P5的得分。其他课程领域的相应数据表现出相似的模式。这些表明P量表能够显示学生在一段时间内的进步。
图1显示了一些科目的数据在Rasch分析中获得的P级成绩水平的相对困难。
表1:2005年阅读中阅读P级每个级别的学生的百分比
P级别 |
分类为PMLD的记分员的百分比 |
分类为SLD的记分员的百分比 |
被划分为MLD的评分者的百分比 |
被划分为SpLD的得分者的百分比 |
被分类为BESD的记分员的百分比 |
分类为PD的记分员的百分比 |
被划分为VI的得分者的百分比 |
分类为HI的记分员的百分比 |
分类为MSI的得分者的百分比 |
分类为ASD的记分员的百分比 |
分类为SLCN的得分者的百分比 |
被分类为其他的得分者的百分比 |
P1(i) |
5.0 |
0.1 |
0.6 |
0.1 |
1.4 |
3.7 |
3.6 |
6.6 |
0.2 |
0.6<!-- 剩余内容已隐藏,支付完成后下载完整资料
英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料 资料编号:[281667],资料为PDF文档或Word文档,PDF文档可免费转换为Word |
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。