새로운 전체론적 평가방법: 평가 프로그램(FEM, 2016)

A new holistic way of assessment: programmatic assessment

Cees P.M. van der Vleuten, Sylvia Heeneman




도입

Introduction


각 요소의 정당성

justification of its components


평가와 합격-불합격 결정의 분리

Decoupling of assessment and pass/fail decisions


단일 평가가 어떻게 왜곡되는지 보여주는 것은 매우 쉽다. 예를 들어, 실제 실행에서 대부분의 테스트는 신뢰성이 충분하지 않으며 우리는 그 결과로 상당한 잘못된 긍정적이고 부정적인 결정을 내린다.

It is very easy to demonstrate how any single assessment is fl awed. For example, Most of our tests in actual practice have insufficient reliability and we make substantial false positive and negative decisions as a result of that.


어떤 방법이든 측정할 수 있는 것에 한계가 있고 그 타당성은 제한될 것이다. 이것의 실질적 함의는 한 번의 측정은 측정이 아니며, 가능한 한 많은 정보를 결합할 필요가 있다는 것이다. 프로그램적 평가에서는 모든 단일 평가를 데이터 포인트라고 합니다. 데이터 포인트는 은유적으로 사진의 픽셀과 유사합니다. 단일 픽셀은 이 사진이 무엇에 관한 것인지 알려주지 않습니다.

any method has limitations in what it may measure and its validity will be limited. Th e practical implication is that one measure is really no measure and that we need to combine information as much as possible. In programmatic assessment any single assessment is called a data point. A data point is metaphorically similar to a pixel in a picture. A single pixel will not tell you what the picture is about.



개별 데이터포인트는 정보를 준다

Individual data points are informative


대부분의 평가 관행은 상대적으로 정보가 부족하다.

Most assessment practices are relatively information poor.


등급은 매우 형편없는 정보 전달자입니다. 그리고 이는 사람이 얻을 수 있는 가장 낮은 수준의 피드백이다. [5]. 특히 복잡한 기술을 평가할 때 그렇습니다.

A grade is a very poor information carrier and kind of represents the poorest feedback one may get [5]. Th is is particularly true when complex skills are being assessed


이러한 복잡한 기술들로 인해, 점수는 사실상 무의미하며 추가적인 개선에 대한 단서를 제공하지 않는다.

With these complex skills, grades are virtually meaningless and provide no cues for further improvement.


프로그램적 평가에서 모든 데이터 포인트는 정보가 풍부하고 피드백 지향적입니다. 피드백이 없는 평가가 있어서는 안 됩니다.

In programmatic assessment every data point is information rich and feedback oriented. Th ere should be no assessment without feedback.


평가 커뮤니티는 이를 발견하고 있으며 우리는 점수에서 단어로 전환하고 있습니다 [8]. [개별 데이터 포인트에 대해서는 의사결정이 필요하지 않다는 사실]은 [평가자가 주관성이나 신뢰성의 문제에 대해 걱정하지 않아도 된다는 것]을 의미한다. 오직 관심사는 풍부한 정보를 제공하였냐는 것이다.

The assessment community is discovering this and we are shifting from scores to words [8]. Th e fact that decision making is not needed in individual data points allows the assessor not to worry about issues of subjectivity or reliability. Th e only concern is to provide rich information.


다방면에 걸친 방법 선택

Eclectic choice of methods


프로그램적 평가에서 건설적 정렬은 모든 데이터 포인트의 핵심이다. 평가방법은 가능한 한 커리큘럼의 교육 목표의 의도를 반영해야 한다[9]. 평가방법의 선택은 그것을 사용하는 순간에, 그리고 평가 프로그램 전체 [10]와 관련하여 그것을 사용하는 정당성에 의해 정의된다. 무슨 방법이든 괜찮다. 전통적인 방법, 진정한 방법, 주관적인 방법, 개인화된 방법 또는 팀 지향적인 방법. 바람직한 교육 효과를 달성하기 위해 평가 방법을 다양하게 하는 것이 현명하다.

In programmatic assessment constructive alignment is key to any data point: the method should reflect the intent of the instruction goals of the curriculum as closely as possible [9]. Th e choice of method will be defined by your justification for using it at that moment in time and in relationship to the programme of assessment as a whole [10]. Any method may go: traditional, authentic, subjective, individualized or team oriented. It is wise to vary methods of assessment to achieve desirable educational effects.


최대한의 건설적 정렬을 달성하기 위해 교육 과제가 곧 평가 과제일 수 있다. 예를 들어, 임상 문제의 증거 기반 의학(EBM) 합성을 작성하기 위해 학습 프로그램에서 예정된 과제이지만 동시에 이 과제의 퀄리티를 평가할 수 있다.

To achieve maximal constructive alignment the educational task may also be the assessment task. For example, to be able to write an evidence-based medicine (EBM) synthesis of a clinical problem, a task scheduled in a learning program, but at the same time the quality of this task may be assessed.


전형적으로 우리의 평가 방법은 매우 모듈적이다. 그러나 종단적 평가도 생각하라. CanMEDS 또는 기타 프레임워크와 같은 현대의 역량 프레임워크는 일반적으로 프로그램 전체에 걸쳐 커리큘럼을 가져야 한다. 평가는 또한 본질적으로 종단적일 수 있다.

Classically our assessment methods are very modular. Th ink also of longitudinal assessment. Modern competency frameworks, such as the CanMEDS or any other framework, typically require curricula to have longitudinal strands throughout the program. Th e assessment may also be longitudinal in nature.



피드백, 성찰, 자기주도학습에는 도움이 필요하다

Feedback, reflection and self-directed learning needs support


피드백의 제공만으로는 그 피드백을 이용하기에 충분하지 않습니다 [11]. 마찬가지로, 자기 주도적 학습의 기초로서 성찰을 하기 위해서는 외부 지원이 필요하다[12]. 그래서 우리는 학생들이 그들의 훈련 프로그램을 통해 지도받는 멘토링 시스템을 도입했다. 멘토링은 학습자의 성공과 발전을 위한 매우 강력한 도구인 것으로 나타났습니다 [13].

The provision of feedback is not enough for feedback to be used [11]. Similarly, reflection as a basis for self-directed learning needs external support [12]. Therefore we have introduced a mentoring system where students are being coached through their training program. Mentoring has been shown to be a very powerful instrument for learner success and development [13].


멘토는 e-포트폴리오에 접근할 수 있다. 멘토와 학습자는 일년 내내 또는 그들이 중요하다고 생각하는만큼 각자 다른 빈도로 여러 번 만난다. 멘토 미팅은 학습자가 준비합니다. 그들은 포트폴리오의 정보를 성찰하고 자가 진단하며 잠재적인 교정조치를 제안해야 한다. 학습자와 멘토 모두 그들의 관계를 높이 평가한다. (크고 도전적인 과정에 있는) 학습자는 익명의 누군가가 아니며 멘토들은 학습자들과의 긴밀한 상호작용을 소중히 여긴다. 

The mentor has access to the e-portfolio. Mentor and learner meet a number of times throughout the year or in any other frequency that they deem important. Mentor meetings are prepared by learners. They are required to reflect on the information in the portfolio, to self-diagnose and to suggest potential remediation. Both learners and mentors appreciate their relationship. Learners are not anonymous persons in a big and challenging course and mentors cherish the close interaction with learners. 


학문적이든 개인적이든 학습자들의 문제점이 조기에 발견된다. 학습자들은 지지를 받고 있다고 느끼고 그들은 수월성을 위해 위해 도전한다. 최소 성능 또는 해제disengagement는 절대 용인되지 않습니다. 멘토들은 그들의 역할에 대해 훈련을 받긴 하지만, 더 중요한 것은 멘토 네트워크의 중요성이며, 이러한 훈련동안 동안 정보를 교환하고 스스로 배우기 위해 정기적으로 만나는 것이 더 중요하다.

Problems with learners, academic or personal, are spotted early on. Learners feel supported and they are challenged to excel. Minimum performance or disengagement is simply not tolerated. Mentors are being trained for their role, but more importantly they meet on a regular basis to exchange information and learn themselves during these meetings, stressing the importance of a mentor-network.


의사결정의 부담이 높아지면, 그에 따라 사용하는 데이터포인트도 늘어나야 한다.

Stakes of decision-making and number of data points are proportionally related


프로그램적 평가에서 형성평가 대 총괄평가의 개념은 연속적인 stakes로 대체된다. 모든 개별 데이터 포인트는 저부담이다. 그러나 무부담은 아니며, 왜냐하면 어떤 정보라도 전체 과정에 사용될 수 있기 때문이다. 일단 사진을 이해하기에 충분한 픽셀이 있다면, 고부담의 결정을 내릴 수 있다.

In programmatic assessment the notion of formative versus summative assessment is replaced by a continuum of stakes. Any individual data point is low stake. It is not of no stake, because any piece of information may be used in the whole process. Once there are sufficient pixels to understand the picture, high stake decisions can be taken.


고부담 결정 결과에 학습자가 놀라서는 안 된다. 따라서 중간 결정도 내려져야 한다.

High stake decisions should be of no surprise to the learner. Th erefore, intermediate decisions should be given as well.


평가정보를 의미있게 합산해야 한다

Meaningful aggregation of assessment information


결정을 내리기 위해서는, 모든 평가 정보를 종합해야 합니다. 합산은 일반적으로 같은 방법 내에서 이루어집니다. 예를 들어, OSCE에서 심폐재활 스테이션의 점수는 병력수집 및 의사소통 스테이션의 점수와 합산된다. 그러나 이 스테이션들은 개념적으로 공통점이 거의 없다. 프로그래밍 방식에서 평가 정보는 의미 있는 범주 내에서 여러 방법에 걸쳐 집계됩니다. 예를 들어, OSCE의 의사소통에 대한 정보는 (동일한 것에 대한) 다중 소스 피드백 평가의 정보와 함께 통합될 수 있다. 또한 의미 있는 집계가 이루어질 수 있는 방식으로 모든 평가수단을 설계하는 것이 중요하다. 실제로 이는 (대부분의) 평가가 역량에 따라 구조화됨을 의미한다.


In arriving at a decision, all assessment information needs to be aggregated. Conventionally aggregation is done within a method to a total. For example, in an OSCE it is common aggregate information on a resuscitation station with a history taking and communication station. Yet these stations have conceptually little in common. In programmatic assessment information is aggregated across methods within meaningful categories. For example, the information on communication in the OSCE may be aggregated with information from a multisource feedback assessment. Th is also reveals the importance of structuring all assessment instruments in such a way that meaningful aggregation can be done. In practice this means that (most) assessments are structured according to competencies.


고부담결정의 절차는 강건해야 한다.

High stake decision-making is procedurally robust


모든 데이터 포인트를 객관적으로 만들려고 노력하기보다, 데이터 포인트의 집합이 객관적이어야 한다.

Instead of trying to make every data point objective, the collective of data points should be objective.


예를 들어, 엄격한 체크리스트를 사용하는 것으로 달성할 수 있지 않으며, 그보다는 고부담 판단에 신뢰성을 가져다줄 적절한 절차에 대한 절차적 조치를 취해야 한다[14].

not achieved by for example strict use of checklists, but rather by taking procedural measures of due process that will bring credibility to the highstake judgment [14].


몇 가지 예가 도움이 될 수 있다. 고부담 결정은 개인이 아닌 전문가 위원회가 내린다. 위원회는 멘토들과 독립적이며 멘토는 할 말이 없다no say. 또한 멘토와 학습자 간의 관계를 보호합니다. 학습자는 멘토에게 솔직해질 수 있습니다. 위원회는 포트폴리오를 판단하기 위해 서술 기준을 사용한다. 기준은 서술적 정보이지 체크리스트가 아니다. 체크리스트는 프로세스를 사소한 것으로 만들trivialize 수 있습니다. 서술은 해석의 여지를 남기고 유연성을 제공한다.

A few examples may help. The decision is made by a committee of experts, not by an individual. Th e committee has independence to the mentors and the mentor has no say. Th is also protects the relationship between mentor and learner. Th e learner can be frank to the mentor. Th e committee uses narrative criteria to judge the portfolio. The criteria are narratives not checks. Checks would invite the process to trivialize. Th e narratives leave room for interpretation and provide flexibility.


예상과는 달리, 이 평가 절차는 그다지 비싸지 않다. 95%의 학습자는 정보가 명확하고 결정은 명확합니다.

Contrary to what might be expected, this assessment procedure is not very expensive. For 95% of learners the information is clear and the decision clear-cut.



Discussion


프로그램적 평가는 평가에 대한 기존의 접근 방식에 따라 크게 다릅니다. 평가에 대한 우리의 전통적인 접근 방식은 교육에 대한 전통적인 관점과 일치한다. 교육은 모듈식이고 모든 모듈에 대한 숙달이 곧 역량의 증거이다. 모듈 테스트 종료 시 숙달 상태를 보여주는 것으로 충분하며, 정보를 바로 잊어버려도 된다. 지식 통합이나 실무로의 이전은 학습자에게 맡겨진다. 그것은 학습에 대한 숙달된 학습 접근법이나 행동주의 관점과 일치한다. 교사 중심의 소모적이고 비활동적인 학습은 이러한 교육적 관점과 일치한다.

Programmatic assessment differs dramatically with our traditional approach to assessment. Our traditional approach to assessment matches a traditional view on education: education is modular and mastery of every module is evidence of being competent. Showing mastery at the end of module test is sufficient and information may be quickly forgotten. Th e integration of knowledge or transfer to practice is left to the learner. Th is matches a mastery oriented learning approach or a behaviourist perspective on learning. Teacher-centred consumptive and inactive learning matches this education view.


현대 교육 프로그램은 더 구성주의적이다. 지식과 기술은 학습자들에 의해 만들어진다. 학습자 중심의 능동적인 학습이 주된 접근법이다. Authentic 학습 과제를 소개하고 임상 실무에 조기에 노출함으로써 실무에 대한 지식을 이전transfer하는 데 많은 관심이 있다. 지식 구성 요소 외에 복잡한 기술도 다루어지고 있습니다. 배움은 발달적인 것으로, 구획적인 것이 아니다.

Modern education programmes are more constructivist. Knowledge and skills are constructed by learners. Learner-centred and active learning is the predominant approach. Much attention is given to transfer of knowledge to practice by introducing authentic learning task and early exposure to clinical practice. Complex skills are being addressed beyond the knowledge component. Learning is developmental, not compartmentalized.


프로그램적 평가는 기존의 부록 'assessment drives learning'을 'learning drives assessment'로 되돌리기 위한 시도였다. 동시에, 근본적으로 다른 접근법은 시행하는 것이 어렵다는 것은 분명하다. 그것은 관련된 이해당사자들의 상당한 참여와 이해를 필요로 한다. 이것은 쉬운 일이 아니다.

Programmatic assessment has been an attempt to reverse the traditional adagium ‘assessment drives learning’ towards ‘learning drives assessment’. At the same time, it is clear that the radical different approach is difficult to implement. It requires quite some buy-in and understanding from the stakeholders involved. Th is is not an easy task.


프로그래밍 방식 평가의 구현은 앞서 말한 바와 같이 도전이다. 그것은 많은 이해관계자들이 납득할 필요가 있는 평가 프로그램을 대대적으로 정비해야 한다. 다른 주요 교육적 변화와 마찬가지로 이것은 강력한 변화 관리 전략을 필요로 한다.

The implementation of programmatic assessment is a challenge as said before. It requires a major overhaul of the assessment program in which many stakeholders need to be convinced. Just like any other major educational change this requires an intensive change management strategy.


평가 과정에서 좋은 피드백을 얻는 것은 두 번째 과제입니다. 고품질의 피드백을 주는 기술도 개발되어야 한다. 교수진의 훈련은 필수적이다. 또한 'less is more'이라는 mantra는 여기에도 들어맞는다. 낮은 품질의 피드백을 자주 하는 것보다는 높은 품질의 피드백을 덜 자주 사용하는 것이 좋습니다. 실제로 낮은 품질의 피드백은 신뢰성이 떨어지며, 학습자는 믿을 수 없는 피드백을 무시합니다 [23].

Getting good feedback in the assessment process is a second challenge. Giving high quality feedback is a skill that needs to be developed. Faculty training is imperative. Th e mantra ‘less is more’ also holds here: less frequent high quality feedback is preferred over frequent low quality feedback. Actually poor quality feedback is less credible and incredible feedback is ignored by the learner [23].


흥미롭게도, 프로그램 평가에서 의사결정 요소는 그렇게 문제가 되지 않는다. 그 절차는 실제 연습에서는 정말로 잘 작동하며 항소는 거의 일어나지 않는다.

Interestingly, the decision-making element in programmatic assessment is not so problematic. Th e procedures really works well in actual practice and appeals hardly occur.


비용은 프로그램적 평가에서 또 다른 문제일 수 있다. 멘토링, 개별화된 피드백 및 위원회 기반 결정에는 필요한 리소스가 필요합니다. 개선 전략은 자원의 방향을 신중하게 바꾸는 것이다. 우리의 현재 평가관행도 비싸긴 마찬가지다. 프로그램적 평가에는 평가 비용의 재분배가 필요하며, 이는 현재의 실무에서 어떤 것을 중단할 것인지에 대한 몇 가지 날카로운 선택이 필요할 수 있습니다 [24].

Cost might be another issue in programmatic assessment. Mentoring, individualized feedback and committee-based decisions requires the necessary resources. Th e challenge is to carefully re-orientate resources. Our current assessment practices are expensive as well. Programmatic assessment requires a redistribution of assessment costs and this may require some sharp choices in what to discontinue in our current practice [24].


마지막으로, 문제 기반 학습과 마찬가지로 하이브리드 구현도 가능할 수 있습니다. school-based 구현보다 workplace에 프로그램적 평가를 도입하는 것이 다소 쉬워 보인다. 예를 들어, 평가 프로그램에 더 많은 피드백을 도입하거나 학생 또는 멘토링 시스템에 대한 종방향 모니터링을 도입함으로써 부분적인 구현이 가능할 수도 있다. 그러나 문제 기반 학습[25]에서와 마찬가지로 하이브리드 구현은 하이브리드 결과를 제공할 것이며, 완전한 구현이 성공할 가능성이 가장 높습니다.

Finally, just like in problem-based learning hybrid implementations might be possible. Introducing programmatic assessment in the workplace seems somewhat easier than in school-based implementations. Partial implementations may also be possible for example by introducing more feedback into an assessment program, or to introduce longitudinal monitoring of students or a mentoring system. Just like in problem-based learning [25], hybrid implementations will provide hybrid outcomes; full implementations will have the best chance of success.


프로그램적 평가는 평가의 학습적 기능과 의사결정적 기능을 모두 최적화한다. 픽셀의 풍부함은 학습 과정에 도움이 되며 픽셀을 수집하면 학습자 진행에 대한 강력한 의사결정이 가능합니다. 프로그램적 평가는 평가에 현대적인 구성론적 학습 접근 방식을 조화시킬 수 있는 잠재력을 가지고 있다.

Programmatic assessment optimizes both the learning function of assessment and the decision-making function. Th e richness of the pixels will be beneficial to the learning process and the collection of pixels will allow robust decision-making on learner progress. Programmatic assessment has the potential to harmonize assessment with modern constructivist approaches to learning.





+ Recent posts