对教育评估的一些思考

在中国，通过正规考试选拔人才已有两千多年的历史。至今，基于不同目的开发的标准化考试依旧层出不穷，它们一方面具有高效、经济、容易操作、结果可量化等优点。另一方面，这些好处也是其本身的缺点。这类标准化考试过于注重考查人的单一能力，在编制时往往围绕那些适合采用标准化考试的内容，而忽略其他同样重要的方面，其考试的目的即为得到结果，并根据结果对所有人进行标准化的统一界定、区分和排序。

在某些情形下，标准化考试可能是相对较优的方案，比如中国高考、雅思、托福等。然而，在更多时候，人们需要的是类似“病人求医，医生给出诊疗方案来帮助病人恢复健康”的评估方式，这种评估方式重视融入现实社会需求，强调反馈、帮助人认识和改进弱项，促进人的成长和发展。

加德纳研究发现，人类存在许多不同的、各自独立的智能，不同的人具有不同的智能强项和对应的智能风格。这些不同的智能拥有各自不同的生物学依据，每种智能都有一组可以辨别的独特的核心运作方式，它们都具有跨文化背景共通的属性，并且要么能够具体化，如解决具体的问题，要么能够符号化，如通过语言、绘画、数学等人类通用的符号系统表现。最初，他提出了七类智能，分别是：音乐智能（Musical Intelligence）、身体-动觉智能（Bodily Kinesthetic Intelligence）、逻辑-数学智能（Logical Mathematical Intelligence）、语言智能（Linguistic Intelligence）、空间智能（Spatial Intelligence）、人际智能（Interpersonal Intelligence）、自我认知智能（Intrapersonal Intelligence）。在多年后，又加上了辨识智能（naturalist intelligence）。在多元智力理论中，加德纳表明不同的智能存在明确的生理学差异、以及显著不同的内部运作机制和外化表现。这意味着，对人的教育评估应该具有多元性，需要从不同的角度来进行和综合考量，要真正考虑到人与人的差异。

另一方面，尽管加德纳认为人的各类智能是多样化的、相对独立的，但他同时强调，这些智能总是以组合的方式运作。智能的独立性意味着即使一个人有很高的某种智能，如逻辑-数学智能，在其他智能上也可能很低。智能的独立性特点也为标准化测验结果的信效度提供了一定的依据。然而，在面对复杂的世界，几乎所有人都需要综合运用多种智能组合来解决问题。一个人即使在任何一种智能上都没有特殊的天赋，却可以通过学习将各类智能组合在一起发挥作用。同样，由于智能间存在相互弥补和相互促进的效应，在许多领域中，人可以通过发挥自己的强项智能来弥补或改进弱项，从而有所成就。因此，在对人进行评估时，单项的智能评估结果不能具有推导性，而在标准化考试中，常常存在过度推论的误导性结论。

不同的个体、学段、学科之间的差异是巨大的，基础教育和高等教育无论是从学生的身心发展、认知能力，还是具体的教育内容和目标都截然不同。同样，对于普通群体和特殊群体（天才人群、超常人群、学习困难人群、残疾人群等）也是如此。不能使用同样的教育评估方式覆盖一切，重要的是明确相应的对象、目标和内容来设计和实施教育评估。

目前教育评估中普遍存在的以下五个问题。第一，过于重视人的逻辑-数学智能和语言智能，目前大量的测评方式均是围绕这两大能力开发而来，在这两项上表现出色的人往往能获得更高的评价和更多的发展机会。然而，无论对于人还是整个社会来说，它们不是唯二重要的。第二，测评方式单一化，重视可以测量出来的能力、有着给定问题答案的测试及相关的考试方法，而综合性、多元化和个性化的测评方式较为缺少。第三，测评结果的应用主要是将人进行分类或排序，忽视测评结果的反馈作用，不重视应用反馈来帮助人们发展和成长。第四，大量存在教育内容、教育目标、教育测评与个人实际能力、个人现实生活、社会需求分离的情况，测评结果缺乏现实意义和对教育的反哺作用。第五，教育测评优先地位低，教师的测评专业素养参差不齐，相关培训不受重视，专业的测评研究员数量不足。

2000年，中国参加高考人数仅约为375万，最终录取约221万。至2020年，参加高考人数约1071万，预计录取人数将超过900万。过去二十年，中国接受高等教育的人数增长超过了400%。近似的，在2010年，约有140万人报名参加研究生考试，而至2020年，该数字变为了341万。随着经济的蓬勃发展、科学技术的进步、教育普及化政策的展开，刺激着更多的人去接受和追求高等教育。此外，由于人类寿命普遍延长，进一步促使人们愿意接受和选择更长的受教育年限。随着接受高等教育的人数越来越多，指向个人的高等教育评估存在的各种问题亟需解决和优化。

大学的核心作用之一是为受教育者提供信息、知识，教授学生有益于未来社会生活和职业发展的技能。指向个人的教育评估设计应该聚焦于人与社会的密切联系，要综合考虑人在学校中所学的内容与个人现实生活、以及社会需求的联系。教育内容与评估要作为整体来进行设计，并且应以教育评估目的来反推教育目标、内容和方式的设置。由于人与人之间性格、智能、认知方式等的差异，任何类型的评估方式都必然会有利于一部分人，而不利于一部分人。因此，对学生的评估方式应该综合多种类型，并给予学生自由选择的权利。

帮助学生做出适合的专业选择是有效教育评估的前奏。如果一个大学生连对自己所学的专业都不擅长或是没有兴趣，那么，无论什么样的评估也是枉然。大多数专业无法像数学、外语那样，容易通过标准化测试帮助学生了解自己的能力。在应试教育环境中成长的学生即使进入了大学，可能仍旧不知道自己擅长什么，甚至对自己所选择的专业也是知之甚少。因此，指向个人的教育评估的第一步应是：向个人提供详尽的、有反馈意义的信息，帮助他们进行自我评价，了解自己的强项和弱项。

大学教育有义务向学生提供有关“什么样的人或什么样的智能组合适合什么学科或专业”的信息，帮助他们将自我认知中的强项智能与相应的学科或专业联系起来，从而使他们初步了解自己更适合什么样的专业，并选择适合自身智能组合模式的专业。这点对于大学生未来的发展至关重要，而大学管理者也应该为学生提供专业再选择的机会。

指向个人的教育评估应由四种方式共同组成，分别是：标准化测试、情境化测试、实践测试和团体评估。

尽管标准化测试有很多缺点，但确实有其适宜的情形。现有很多成熟的标准化的逻辑-数学测试、语言测试、体育测试、音乐测试、空间类测试等有助于对大多数人的相关能力进行初步客观的评判。虽然人际智能和自我认知智能因其本身隐晦而主观的性质，难以通过标准化测试进行客观评价，但人却比较容易对自身的这两种能力有较为清楚的自我判断，并且通过相关的标准化的心理测量量表，也有助于人们在这两方面上进行自我评估。

现在越来越多的教育者意识到情境化评估的价值和重要性，各类各样有效的情境化评估也被不断开发出来。情境化测试的重要作用之一是考察学生能否灵活的将书本上学到的理论知识与实际应用结合起来。一些学生在标准化测试上表现不佳，但却能在情境化评估中获得成功。美国康奈尔大学的罗伯特·弗兰克教授曾经设计了一种著名的情境化评估方式，他要求学生：“探讨身边观察到的事件或行为模式中的经济学原理，并用不多于500字的叙述向完全不懂经济学的人阐释清楚相关的经济学理论”。这类情境化评估对学生来说具有重要的社会意义，在一个社会工作团体中，不同的人往往是术业有专攻，用通俗易懂的方式将专业化的内容让外行的其他团队成员明白，是团体有效沟通的重要前提。在以上这个例子中，“500字的短文”、“向外行清楚阐释经济学原理”、“与人的生活密切相关”等可以说是评估设计过程中所需要的标准界定，这有助于建立统一、可外推、可连续的情景化评估方式。

有相当一部分数量的人极为擅长通过动手操作、实际行为等方式来进行学习和工作，他们喜欢接触那些鲜活的、具体的、能够直接表达和体现的内容或知识，比如，编写程序代码、绘画、辩论、讲课、体育活动、实验、手工制造、设计活动等等。一个人可能在标准化的逻辑-数学测试中表现平平，但在实践测试中的产出却能体现很高的逻辑-数学能力水平。类似于标准化测试，实践测试具有明确的产出成果，教师可以对实践成果进行结构性的标准评价。

团体评估的过程本身也是一种教育过程，它具有重要的现实教育意义。通过设定有效的团体评估任务，置身其中的人必须全力配合协作，共同完成任务。在这个过程中，团队内部成员可以学会如何有效的与他人进行交流、合作，以及如何在团体中获得成功。从这点来看，团体评估过程的价值和意义要远大于其结果。教师可以通过团体任务最终完成的质量、个人被分配任务的完成效果、团队内部人员的自评和互评等对人进行综合性评判。

在整个评估体系中，四类评估方式的内容和具体实施需要基于相应专业或学科的教育目标、教育内容、重点要考察的关键能力和知识、以及相关的智能组合来设置。四类评估在课程开始之初就需要设计完成，并且要由教师和专业的测评研究员共同承担。教师要基于社会需求和有益于学生未来现实生活的教育指向，确立严格的教育评估过程和结果的评价反馈标准，并明确教育评价质量的依据。然后，再基于教育评估来反推并制定相应的教学内容和方法。专业的测评研究员则为整个评估方案的具体化、可实施性、科学反馈性等提供专业的保障和支持。遵照严格的标准实施教育评估是其有效性的保障。

在评估框架中，另一个重要的方面是，每个人都要拥有一定自主的权利选择和决定哪种评估方式的优先级高，以及在生成最终反馈评价时各类评估所占的权重比例。一个擅长应对标准化测试的人可以选择标准化测试结果占总成绩的40%，情景化评估、实践测试和团体评估各占20%。而一个擅长动手操作的学生则可以选择实践测试和情景化评估结果各占40%和30%，而标准化测试和团体评估各占15%。自主选择的评估方式一方面体现了人对自身的强项和兴趣的认知，另一方面，自主性选择将促使人在评估过程中有更多的投入，并对自己的评估反馈有更积极的反应和更深的思考。这不但有助于人们加深对自我的认知，通过评估反馈，他们还能了解到自我认知中哪些是准确的，哪些是有偏差的，这对人的未来发展意义重大。

综上，本文粗略描绘了一种综合性的教育评估框架。笔者认为，无论是教育目标、教育内容还是教育评估，都应坚定地与人的社会生活、工作联系在一起。评估的重要作用之一在于帮助学生发现他们在学校所学的和未来在社会上要做（或想做）的之间的差别，从而有的放矢。此外，教育评估应与教育过程联系在一起，形成性评估和终结性评估要并重。考虑到无论针对何种学科或是专业，学习的途径和方法都不是唯一的，那么，评估方式也应该具有多样性，并且需要结合多方面的评估证据来做出反馈或进行评价。最后，在这个评估框架中，需要教师间、教师与专业的测评研究员间密切交流合作，对教师的专业性和教育评估素养有着较高的要求。而让学生拥有一定自主选择评估方式的自由，是整个评估框架的重要理念，它体现了评估的人性化和多元化。

随着科技的发展，很多过去似是异想天开的教育构想在如今已变为现实。通过强有力计算机的支持，人工智能算法的进步，使得大规模的推广多元化、个性化的教育评估成为可能。针对同样的教学内容，在过去，绞尽脑汁的教师可能有两三种教育方法，而如今，在科技力量的支持下，教学方法可能有20种甚至更多。此外，更多的学生数据可以被采集和分析，这些都将促使对人的评估走向更多元化和更人性化。

在大学中，一方面不同的学生被分到不同的专业接受不同的教育；另一方面，在相应的专业内，学生所学到的内容是该专业基础的、一般性的知识和技能。可以说，大学教育是更加专业化的通识教育。这意味着，如果引导得当，身在其中的大学生能较容易地收获个人专业知识与社会需求能力的平衡。加德纳认为，一旦超越了乏味的世俗，就很难说清什么是真正的、可以实现的教育目标了。如果学生在大学中所学到的知识和技能对自身未来的社会生活、工作益处不大，那么大学教育也就失去了其本身的价值和意义。

在连接大学教育和社会需求的过程中，有效的教育评估体系具有重要的作用和价值。基于社会需求和个人现实生活设计的指向个人的教育评估可以帮助学生了解真实的社会需要什么，以及如何能在社会中更好的生活和工作。教育评估的作用和意义不仅仅是提供考核、评判和分类。本文更愿意强调的是，评估的主要目的是为人提供有益的参照、反馈和信息，使他们能够有机会思考自己过去的经验，认识并培育自己的兴趣和强项，提升自我的能力，帮助学生更好的适应社会和更好的生活。

参考文献

Gardner, H. (2008). Multiple intelligences: New horizons in theory and practice. Basic Books NY.

Beneplot

参考文献

《对教育评估的一些思考》有1个想法

发表评论取消回复

参考文献

《对教育评估的一些思考》有1个想法

发表评论 取消回复

发表评论取消回复