是时候改变教师评分的方式了

导读多年来,学生成绩的形成完全取决于学习者在某些作业和标准上的表现。在某些科目中,例如数学,学生的能力可能非常明显。他们要么能够正确回...

多年来,学生成绩的形成完全取决于学习者在某些作业和标准上的表现。在某些科目中,例如数学,学生的能力可能非常明显。他们要么能够正确回答给定的问题,要么不能。但在其他领域,它更模糊,更主观。年级和班级之间的不一致是不可避免的。在比较好的情况下,这些不一致是由人为错误或个人连接引起的。在最坏的情况下,社会偏见会在年轻一代中蔓延并强化现有的刻板印象。荷兰乌得勒支大学的两名研究人员认为他们有一个解决方案:专家启发。

专家征集

正如作者 Kimberley Lek 和 Rens Van De Schoot 所写,“有时,专家拥有独特的知识,这是使用传统数据收集方法不可能或不切实际的。在这些情况下,可以使用专家启发来“获得”这些知识。具体来说,专家启发的目的是“构建一个能够正确表示专家知识/不确定性的概率分布”(O'Hagan 等人,2006 年,第 9 页),这样该专家知识可以用于——例如——研究、工程项目和决策。”

专家启发涉及收集大量专家意见,对其进行量化,然后根据这些分布式数据得出结论。该方法目前广泛应用于健康、环境研究和风险评估等领域。

在教学中,隐性偏见是一种公认​​的现象。一个2015年的研究提出16000名高中教师来预测他们的每一个10年级学生未来的教育成就。当所讨论的学生是黑人时,与黑人教师相比,教师预测他们获得大学学位的可能性要低 30%。

正如作者之一赛斯·格申森 (Seth Gershenson) 在随后为布鲁金斯学会 (Brookings Institution)撰写的一篇文章中写道:“这些结果并不意味着也不应该妖魔化或牵连教师。期望中的偏差通常是无意的,是人类如何对复杂信息进行分类的产物。”

对偏见的数字保护

Lek 和 Schoot 认为专家引出是解决这个问题的一种方式,但他们也看到了许多其他潜在的好处。

“明确做出这些判断的一个好处是,启发工具可以作为教师的反馈工具,”他们写道。“例如,当多次使用时,教师可以看到他对孩子发展的看法发生了怎样的变化,并且他可以评估是什么(理性和/或非理性)事件导致了这种变化。另一个好处是:当多位教师在同一堂课上授课时,可以将这些教师的判断进行定量比较,使判断的差异直接显现并开放讨论。此外,完成启发工具的过程也可以提供有用的反馈。例如,当老师发现某个学生的启发困难时,他知道他对这个学生的发展的看法还有些模糊。”

为了研究专家启发的使用,他们开发了一种软件,可以记录学生在数学课程中的能力。为了判断学生在特定领域的能力,24 名教师被要求将他们 504 名学生的集体能力放在 1-5、1-10、1-25 或 1-50 的范围内,使用木偶为单位。如果一个孩子被评估为 5 个木偶中的 4 个,他们将在班级中大致排在第 80 个百分位。

正如作者所写,“为了获得 每个学生的 分布,我们还需要了解教师在所选职位方面的不确定性(即教师的判断信心)。获得这样的不确定性估计是一件微妙的事情,因为众所周知,人们通常会低估他们的不确定性(Lichtenstein 等人,1982 年;另见 Bier,2004 年; Speirs-Bridge 等人,2010 年)。此外,大多数启发式程序要求专家使用精确的概率(例如,“90% 确定”)来陈述他们的不确定性,这对于统计外行的人来说很难。使用图1 中的刻度 然而,获得不确定性的指示是相当直观和简单的。教师只需选择他们觉得足以确定学生位置的尺度(图 1A-D)。例如,5 个“傀儡”的量表比 25 个“傀儡”的量表粗糙,因此选择后一个量表的老师天生就比选择 1-5 量表的老师更确定。通过使用这种方法来引发教师的不确定性,我们避免了要求精确概率的必要性。”

然后作者使用他们创建的软件来绘制教师的评估图表。“一眼,”他们写道,“老师可以看到他或她的判断(分布的峰值),他/她对这些判断的信心(分布的宽度)以及他/她的判断和判断如何学生的信心不同。现在它被可视化了,这些判断可以很容易地与其他人分享,比如同事老师、校长、父母等。”