通过形成性评估改变教学方式
——研究与实践国际医学奥斯威尔评估项目
原文作者 Paul Black Dylan Wiliam 单位 伦敦国王学院
摘要:这篇论文是一个发展的故事。首先回顾了关于形成性评价的研究,描述该评论的工作,其成果促进了教师的发展工作,来探索从研究中获得的想法如何转化为实践。在第二部分对这项工作的描述之后,对第三部分的结果和影响进行了反思。第四部分列出了关于这一经验如何将研究成果转化为实践的任务的更多思考。
关键词:评价;形成性评价;教师评价;教学方式
研究综述
这个故事始于我们对形成性评估的长期兴趣。这导致我们决定重新审视文献以寻找改进形成性评估提高标准的证据,似乎也有必要同时寻找关于现行做法是否留有改进余地的证据以及如何改进形成性评估的指导。
我们对研究文献的调查涉及通过检查许多书籍,通过超过 1 60 种期刊的问题,为期 9 年,并研究早期的研究评论(Crooks , 1988 ; Natriello , 1987)。这个过程产生了约 580 篇文童或章节进行研究。除此之外,我们准备了一份冗长的评论,其中使用了来自这些来源的250个材料。审查发表(Black and wi llam , 1998)以及来自五个不同国家的专家对我们工作的评论。
宙查的第一部分调查了证据。一个例子是 1986 年发表的一项研究,该研究集中(但并非专门)针对轻度残疾儿童的课堂评估工作,并对大量形成性创新进行了调查,其中23个被选中(Fuchs and Fuchs , 1986)。通过比较实验组的数据和来自对照组的类似数据,该组中的所有人都显示了学习收益的量化证据。自那以后,我们发表了更多论文,描述了类似的严格定量实验。我们自己的审查报告了大约 20 多个这样的研究,所有这些研究都表明,包括加强形成性评估实践的创新产生了显著的,并且往往是实质性的学习收益。这些研究涵盖了多个年龄段(从5岁到大学本科生),跨越多个学校科目以及多个国家。
事实上,这种收益已经通过多种方法实现了,作为共同特征,增强的形成性评估表明它是这种特征这至少部分地说明了成功。然而,这并不意味着在普通教室中大规模实现这种收益将是一件容易的事情。
第二部分介绍了当前教师实践的研究。出现的情况令人沮丧。关于有效的学习,似乎教师的问题和考试鼓励了顽强的和肤浅的学习,即使教师说他们想要发展理解。还有证据表明注重比较学生与其他人的差异,强调竞争而不是个人改进。此外,教师对学生的反馈往往似乎为社会和管理职能服务,往往以牺牲学习功能为代价。总的来说,形成性评估以乎在实践中很薄弱,而且它的实施,要求教师对自己在学生和他们的课堂实践中的角色的看法发生相当深刻的变化。
第三部分着重砰究学生参与形成性评沽的情况。学生对学习目标,以各种方式回应所涉及的风险以及学习工作应该是什么样的风险的信念,都被证明会影响他们采取行动的动机,他们选择行动方式和性质他们对此的承诺。其他研究探讨了采取积极行动的不同方式,包括学习方法、学习技巧、同伴和自我评估等主题。
第四部分研究可以从关于可能对教师有效的策略的研究中收集到的想法。出现的一个特征是由教师设计的学习任务的潜力,用于探索学生的学习。另一个是课堂话语的重要性,由教师的提问和处理学生的回答来指导。
第五部分将注意力转向研究综合系统的教学和学习,其中形成性评估起了一部分作用。一个例子是掌握学习计划。在这些研究中,值得注意的是,学生们在某些预期的成就水平(即“掌握”水平)上获得了有关他们当前成绩的反馈,这种反馈得到了迅速的反馈,并且让学生有机会与同伴讨论如何弧补任何弱点。
第六部分更详细地探讨了有关反馈的文献。一个值得注意的例子是 Kluger 和DeNISi ( 1996)对经验证据的广泛回顾,它表明只有在反馈被制定并用作改进指南的情况下,反馈才能产生积极影响。同样重要的是概念分析,它将反馈定义为“ hellip;hellip;有关实际水平与使用的系统参数的参考水平之间的差距的信息以改变差距“ ( Roaprasad , 1983)以及萨德勒(Sadler , 1989)的发展来强调学习者必须理解“参考水平”即他们学习的目标以及他们理解的实际水平。
同样重要的是,来自归因理论研究的明确信息(例如,由 vispoel 和 Austin , 1995 ) ,教师必须旨在向学生灌输成功是由于内在的,不稳定的特定因素如努力而产生的想法,而不是关于稳定的一般因素如能力(内部)或教师是否积极地看待(外部)。
总的来说,似乎表征许多研究的特征是:
- 形成性工作涉及新的方法来加强教师和教师之间的反馈,需要新的教学模式和课堂实践中的重大变化。
- 各种方法的基础是关于什么使得有效学习的假设——特别是学生必须积极参与。
- 为了形成评估功能,结果必须用于调整教学和学习——因此任何课程的重要方面将是教师如何做到这一点。
- 评估能够影响学生的动机和自尊的方式以及让学生参与自我评沽的好处都值得引起足够的重视。
解释研究
综合研究不可能是一个客观的过程——它将不可避免地保持主观。上述六个部分的结构并未自动出现:这是我们选择的重新构思,组织和集中相关文献的方式。随着我们的发展,我们对“相关性”的定义有所扩展。因此我门必须找到组织扩大研究领域的方法,并创建新的概念联系,以便能够将各种发现结合成尽可能连贯的图像。这就是为什么我们的审查产生了这一领域工作势头的一个原因:它提供了一个难以以任何其他方式创建的新框架。审查研究不仅仅是一种奖学金的衍生形式。
公开
尽管我们在进行和撰写评论时试图严格遵守传统的社会科学奖学金标准,但在探索小册子中的政策含义时,我们并没有这样做,题为“黑盒子里面” ( Black and Willam , 1998)我们在学术评审的同时出版并广泛宣传。这引起了很大的兴趣,并为我们的项目和随后的传播创造了一些动力。虽然我们在进行审查时采用的证据标准可能被描述为“学术理性”,但黑箱内幕的标准更接近于Stephen Toulmin提出的社会调查的“合理性”标准(Toulmin , 2001)。在某些方面,黑箱内部尽可能多地代表了我们的观点和偏见,尽管我们希望认为这些是有证据支持的,并且与我们之间在这个领域 50 年的经验是一致的。同样重要的是要指出,黑盒子内部的成功与它的修辞力量和其证据基础一样。这会让很多学者感到不安——因为它似乎模糊了事实和价值之间的界线,但Flyvbjerg (2001))认为,社会探究失败的原因,恰恰在于它侧重于分析理性而不是价值理性(另见 wiliam , 2003)。
转入行动
建立一个项目
我们故事的第二阶段几乎不可避免地遵循了第一阶段:鉴于我们的审查表明,形成性评估的创新可以提高学生成绩的标准,考虑如何帮助学校获得这些好处是很自然的。我们自己的教师专业发展经验告诉我们,在教室里实施新的做法不可能是为教师制定配方的直接问题。出于一个原因,考虑到创新的不同性质以及他们尝试过的不同背景,我们不能认为他们可以简单地被“复制”到其他背景中。第二个原因是,通过阅读研究人员的报告,人们无法在详细程度上描述他们的工作,以便就如何复制它们提出建议。第三个原因,即使没有头两个也是决定性的,这是我们将研究转化为实践的方法。我们相信,只有在特定情况下才能使新教学理念发挥作用,对于(初期)英国中学教师来说,如果教师能够对其进行改造并创建与其任务相关的新实用知识。
所以我们获得了来自英国Nuffield基金会的资助,用于两年的开发项目。六所教授11至18岁年龄段学生的学校同意与我们合作:每个选择两名科学和两名数学教师愿意承担风险和涉及的额外工作。在项目的第二年,我们从每所同一所学校增加了两名英语老师,另外还增加了一名数学和科学老师,所有48名老师都参与其中。他们得到当地(地区)教育当局的工作人员的支持,该项目被称为 Kingrsquo;s-Medway-Oxfordshire形成性评估(KMOFAP),以突出我们与所有其他合作伙伴(Black and Willam , 2003)的紧密合作。
老师和研究人员每两局会见一次,每五周举行一次会议。此外,两位研究人员能够访问学校,观察教室里的老师,向他们提供反馈,收集有关他们看法的访谈数据,并在全天会议上提出关于讨论问题的想法。我们调查结果的详细报告(Black 等人,2 002 , 2003)是基于这些会议的记录,King团队访问课堂的观察和记录,以及教师自己的访谈和写作,以及与学生小组进行几次讨论。
在这个项目之后,匡王团队的成员已经响应了许多邀请与其他团体交谈:超过三年他们已经完成200个这样的贡献。这些范围涵盖了所有主题,包括主要阶段和次要阶段。此外,还与四组小学继续合作。国王的团队还曾在英国的几个地方政府地区,苏格兰和泽西岛的教育部门以及最近对旨在改善政府计划的课程成果进行的探索中作为大型发展企业的顾问教学和学习实践。
量化的证据表明,形成性评沽确实提高了成绩标准,这是项目开始时教师的强大动力。 KMOFAP 项目的一个方面是,匡王团队与每位教师一起收集参与创新的学生的测试成绩的数据,以及没有参与的类似课程的可比数据(Wiliam . etal ,2004)。该项目没有引入任何自己的测试一所使用的成绩数据来自学校为所有学生使用的测试,无论他们是否参与了该项目。对这些数据的分析显示,总体而言重要的是成就结果的增加。因此,研究评佑的证据现在可以得到英国国民和学校自己考试成绩提高的证据作为补充。
开发的做法
这些练习将在下面四个标题中进行描述:课堂对话中的口头反馈,通过标记反馈,同伴和自我评沽以及总结性测试的形成性使用。给出的帐户将很简短一更详细的帐户已在其他地方发布(Blaok等,2003)。
对于课堂对话来说,目的是改善对形成性评佑至关重要的互动反馈。研究等待时间的记录(Rowe , 1974)激励教师在提出问题后允许更长的时间,以便学生有时间思考答案,并且可以期望所有人都积极参与问题和答案的讨论,并且做出更长的回复。增加参与的一个特别方法是要求学生在老师要求捐款之前两到三分钟集思广益,也许成对的。然后,所有的答案,无论是对还是错,都必须得到认真对待,目的是培养周到的改进,而不是唤起预期的答案。这种变化的后果是,教师更多地了解了学生的先知知识,以及该知识中的任何空白和错误概念,以便他们的下一步行动可以解决学习者的实际需求。
当他们尝试开发这种方法时,教师意识到必须花费更多的精力来构思值得提问的问题,即探究对学生理解发展至关重要的问题的问题。他们还必须密切关注后续活动,制定有意义的回应和挑战,帮助学生扩大理解。
开发互动式课堂对话的任务要求许多教师对教学风格进行根本性改变,他们发现具有挑战性,尤其是因为它起初感觉好像失去了控制。在这样的改变实现之前,一些人进入项目已经一年多了。与其他学校的后续工作表明,教师最不可能成功实施的是形成性工作的这一方面。
为了通过标记来解决反馈问题,教师们首先给出了研究报告的叙述,这些研究已经证实,虽然学生的学习可以通过评论的反馈来推进,但是给予分数或分数会产生负面影响,因为学生在分数时也会忽略评论(Butler , 1988)。这些结果令老师们感到惊讶和担心,因为担心回学生的工作带有意见但没有标记的效果。然而,与学校政策的潜在冲突已经得到解决,因为经验表明提供意见让学生及其家长就如何改进提出建议。它还将重点放在学习问题上,币不是试图解释商标或等级。为了充分利用书面作业反馈所产生的学习机会,需要学生跟踪评论的程序必须作为整个学习过程的一部分进行规划。
这种变化的一个后果是,教师们必须更仔细地考虑对书面工作进行评论,因为现在很明显该些工作必须确定哪些工作做得很好,哪些工作仍需要改进,并就如何实现这一目标提供指导改进。随着制定和使用这种反馈的技巧得到了发展。更加清楚的是,为书面作业或课堂作业设置的任务的质量至关重要:除口头提问之外,这些任务必须旨在鼓励学生发展和表达他们对所了解的关键特征的理解。
对于同伴和自我评估,起点是Sadler ( 1989)的论点,即自我评估对学习至关重要.因为如果学生了解目标并能评估他们需要做什么来达到目标,他们只能达到学习目标。因此评估任何学习成果的标准必须对学生透明,使他们能够清楚地了解他们的工作目标以及成功完成任务的意义。只要他们这样做,他们就开始对这项工作进行概述,以便他们能够管理和控制它:换句话说,他们培养了元认知思维的能力。White和 Frederiksen ( 1998)的研究成功的一个值得注意的例子就是这种工作的成功。
为了培养自我评估技能,首要也是最困难的任务是让学生根据一系列目标来思考自己的工作。在实践中,同伴评估结果是目我评估的重要刺激因素。同济工作是独一无二的,因为学生可能会相互接受对他们的工作的批评,如果他们的老师做出了他们不认真对待的批评。同济工作也很有价值,因为交流的语言是学生自己会自然使用的,并且因为学生通过担任其他教师和考官的角色而学习(Sadler , 1998 )。尤其是,学生似乎发现,比其他学生的工作更容易理解他们的工作标准,而不是看他们自己的工作。
然而,对于这样的同侪小组工作要取得成功,很多学生需要关于如何在团队中表现的指导,例如相互倾听,轮流做出肯定以及对彼此的工作提出建设性的批评。一个典型的练习将是作业的标记。学生被要求用“交通信号灯”来标记他们的工作,例如,如
剩余内容已隐藏,支付完成后下载完整资料
CHANGING TEACHING THROUGH FORMATIVE
ASSESSMENT: RESEARCH AND PRACTICE THE KINGrsquo;SMEDWAY-OXFORDSHIRE FORMATIVE ASSESSMENT
PROJECT
By
Paul Black and Dylan Wiliam, Kingrsquo;s College, London
Introduction
This paper is the story of a development which started with a review of what research had to say about formative assessment. The work of this review is first described. Its results led to development work with teachers to explore how ideas taken from the research could be turned into practice. A description of this work in a second section is followed by reflections on outcomes and implications in a third section. Broader reflections on how this experience throws light on the task ofturning research results into practice are set out in a fourth section.
The research review
The story starts with our long-standing interest in formative assessment, which led us to decide that it was essential to review the literature in order to look for evidence that improving formative assessment raises standards. It also seemed necessary to look both for evidence about whether or not present practice left room for improvement, and for guidance about how to improve formative assessment. Our survey of the research literature involved checking through many books, through the issues of over 160 journals for a period of nine years, and studying earlier reviews of research (Crooks, 1988; Natriello, 1987). This process yielded about 580 articles or chapters to study. Out of this we have prepared a lengthy review, which used material from 250 of these sources. The review was published (Black and Wiliam, 1998a) together with comments on our work by experts from five different countries.
A first section of the review surveyed the evidence. An example was a study published in 1986, which concentrated – but not exclusively – on classroom assessment work for children with mild handicaps, and surveyed a large number of formative innovations from which 23 were selected (Fuchs and Fuchs, 1986). All in this group showed quantitative evidence of learning gains by comparing data for an experimental group with similar data from a control group. Since then, many more papers have been published describing similarly rigorous quantitative experiments. Our own review reported about 20 more such studies all of which showed that innovations which include strengthening the practice of formative assessment produced significant, and often substantial, learning gains. These studies ranged over ages (from 5-year olds to university undergraduates), across several school subjects, and over several countries.
The fact that such gains had been achieved by a variety of methods which had, as a common feature, enhanced formative assessment indicated that it is this feature which accounted, at least in part, for the successes. However, it did not follow that it would be an easy matter to achieve such gains on a wide scale in normal classrooms.
A second section covered research into current practices of teachers. The picture that emerged was depressing. In relation to effective learning it seemed that teachersrsquo; questions and tests encouraged rote and superficial learning, even where teachers said that they wanted to develop understanding. There was also evidence of the negative impact of a focus on comparing students with one another, so emphasising competition rather than personal improvement. Furthermore, teachersrsquo; feedback to students often seemed to serve social and managerial functions, often at the expense of the learning functions. Overall it seemed that formative assessment was weak in practice and that its implementation calls for rather deep changes both in teachersrsquo; perceptions of their own role in relation to their students and in their
classroom practice.
A third section focused on research into the involvement of students in formative assessment. Studentsrsquo; beliefs about the goals of learning, about the risks involved in responding in various ways, and about what learning work should be like, were all shown to affect their motivation to take action, their selection of a line of action and the nature of their commitment to it. Other research explored the different ways in which positive action could be taken, covering such topics as study methods, study skills, and peer- and self-assessment.
A fourth section looked at ideas that could be gleaned from the research about strategies that might be productive for teachers. One feature that emerged was the potential of the learning task, as designed by a teacher, for exploring studentsrsquo; learning. Another was the importance of the classroom discourse, as steered by teachersrsquo; questions and by their handling of studentsrsquo; responses.
A fifth section shifted attention to research into comprehensive systems of teaching and learning in which formative assessment played a part. One example was mastery learning programmes. In these it was notable that students were given feedback on their current achievement against some expected level of achievement (ie the lsquo;masteryrsquo; level), that such feedback was given rapidly; and that students were given the opportunity to discuss with their peers how to remedy any weaknesses.
A sixth section explored in more detail the literature on feedback. A notable example was the extensive review of empirical evidence by Kluger and DeNisi (1996) which showed that feedback can have positive effects only if the feedback is formulated and used as a guide to improvement. Of equal importance was the conceptual analysis which defined feedback as “hellip; information about the gap between the actual level and the reference level of a system parameter which is used to alter the gap in some way” (Ramaprasad, 198
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[281696],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。