공정하게 만들기: 학습자와 평가자의 공정한 평가에 대한 관점 (Med Educ, 2021)

Making it fair: Learners’ and assessors’ perspectives of the attributes of fair judgement
Nyoli Valentine1 | Ernst Michael Shanahan1 | Steven J. Durning2 | Lambert Schuwirth1

 

1 도입
1 INTRODUCTION

교육에서의 평가가 공정해야 한다는 데는 폭넓은 합의가 있다.1 전통적으로 평가의 공정성을 수호하기 위해 구인 타당도와 신뢰도 증거가 중심적이었다.2-4 그러나 타당도와 의대 교육의 개념 자체는 패러다임 변화를 겪었다. 역량 기반 의대 교육은 전통적인 목표, 측정 기반 평가와 점점 상충되는 것으로 보인다.3, 6-14 이러한 인식된 불일치는 평가에서 [인간의 판단을 수용하고 주관적인 성격을 수용]하기 위해 문헌 내에서 점점 더 큰 반향을 불러일으켰다.3, 4, 8-12, 14-19, 그러나 수용에 있어 평가에서 인간의 판단, '무엇이 인간의 판단을 "공정하게" 만드는가?'라는 중요한 질문이 제기되었다. 이것에 대한 통찰력이 없다면 인간의 판단은 계속해서 너무 '주관적이고' 불공평한 것으로 여겨질 것이다.
There is broad agreement that assessment in education should be fair.1 Traditionally, evidence of construct validity and reliability has been central to defend fairness of assessment.2-4 However, both the notion of validity5 and medical education itself have undergone a paradigm shift. Competency-based medical education is increasingly seen as being at odds with traditional objective, measurement-based assessments.3, 6-14 This perceived misalignment has led to an increasingly resounding push within the literature to embrace human judgement in assessment and accept its subjective nature.3, 4, 8-12, 14-19, 13 However, in embracing human judgement in assessment, an important question has arisen: ‘What makes human judgement “fair”?’. Without insight into this, human judgement will continue to be viewed as too ‘subjective’ and unfair.

평가의 필수 요소이기는 하지만, 공정성에 대해 만장일치로 합의된 이해는 없으며, '공정'은 이해관계자마다 다른 것을 의미한다.20 이 구조의 모호한elusiveness 특성 때문에 정의하기가 어렵다.6 단순한 정의를 갖는다는 것은 [복잡한, 다차원적, 맥락 의존적 구조]의 간단한 규칙으로 환원가능하다는 이야기이며, 이것은 현재 상황의 복잡성을 대변하지 못할 것이기에, '정의내리기 어렵다는 것'이 어쩌면 좋은 일이라고 주장할 수 있다. 간단한 정의로 합의되지 않고, 정의가 잠재적으로 유용하지 않다는 점을 고려할 때, 전략을 바꾸고 공정성의 구성 요소에 집중하는 것이 더 효과적일 수 있다
Despite being an essential element of assessment, there is no unanimous agreed understanding of fairness, with ‘fair’ meaning different things to different stakeholders.20 The elusiveness of this construct makes it difficult to simply define.6 One could argue this is perhaps a good thing, as having a simple definition may suggest a complex, diverse, multi-dimensional, context-dependent construct can be reduced to a straightforward rule which is likely to not represent the complexity of the situation. Given that a simple definition will not likely be agreed upon20 and is potentially not useful, then perhaps changing tack and focussing on the building blocks of fairness may be more fruitful.

최근의 문헌 검토는 이러한 추론과 토대를 함께 모아 이론적으로 구성된 개념 모델을 만들었다. 이 모델은 공정성이 유지되는 가치(신뢰성, 목적에 대한 적합성, 투명성 및 방어성)를 통해 개념화될 수 있음을 확인하였다. 이 가치들은 개인 및 시스템 수준에서 유지되며, 이는 평가에서 인간 판단의 공정성을 개념에서 실제 구성요소로 변환하는 데 도움이 된다.

  • [공정한 인간 판단의 특성]에 의한 개인의 수준(기술, 경계, 전문성, 정신적 민첩성 및 증거)
  • [절차]에 의한 시스템 수준(구조적 공정성, 문서화, 여러 기회, 다중 심사원 및 유효성 증거)

A recent literature review has brought these inferences and underpinnings together to create a theoretically constructed conceptual model.7 This model identified that fairness could be conceptualised through values (credibility, fitness for purpose, transparency and defensibility) which are upheld

  • at an individual level by characteristics of fair human judgement (narrative, boundaries, expertise, mental agility and evidence) and
  • at a systems level by procedures (procedural fairness, documentation, multiple opportunities, multiple assessors and validity evidence)

    ...which help translate fairness in human judgement from concepts into practical components.

 

본 연구의 목적은 일련의 경험을 통해 학습자와 평가자의 관점에서 공정한 인간의 판단에 대한 이해를 탐구하는 것이다. 
The purpose of this study is to explore the understanding of fair human judgement from the perspectives of learners and assessors across a continuum of experiences. 

 

2 방법 2 METHODS

본 연구는 실제적인 타당성에 초점을 맞췄기 때문에 주제 분석 접근방식을 사용했다. 주제 분석은 데이터 세트 전체의 의미에 초점을 맞추고 연구자들이 집합적 또는 공유된 의미와 경험을 이해할 수 있도록 한다. 21 주제 분석은 유연하고 다양한 방식으로 수행할 수 있다.21 본 연구에서는 복잡하고 유연하지 않은 것을 이해하는 데 도움을 주기 위해 [공정한 판단에 대한 복잡하고 균일하지 않은 인식과 경험]을 이해하기 위하여 귀납적이고, 창발적이며, 지속적인 비교 접근법을 사용했다. 

As this study focussed on practical plausibility, we used a thematic analysis approach. Thematic analysis focuses on meanings across a data set and allows researchers to make sense of collective or shared meanings and experiences.21 Thematic analysis is flexible and able to conduct in many different ways.21 In this study, we used an inductive, emergent and constant comparative approach to assist in understanding the complex and non-uniform perceptions and experiences of fair judgement.

이전 개념 모델의 개발자로서, 우리는 [주제에 대한 사전 지식이 없는 것은 아니라는 것]을 알았습니다. 따라서, 우리는 참가자들의 인식이 원하는 방향으로 해석되지 않도록 하기 위해 [주제 접근법]과 보다 [귀납적 접근법] 사이의 접근 방식을 균형 있게 조정했다. 기존 모델에 매핑하기 전에 개방형 코딩에 착수했습니다. Mapping은 [참가자의 인식]과 [기존 모델] 사이의 불일치dissent를 밝히려는 의도적인 의도가 있었다. 따라서 다음과 같은 네 가지 유형의 결과를 탐색하고자 했다.

As developers of the previous conceptual model, we were aware that we were not without prior knowledge of the topic. Therefore, we balanced our approach between a thematic approach and a more inductive approach to ensure the perceptions of the participants were not interpreted in a desired direction. We undertook open coding prior to mapping to the existing model. Mapping involved a deliberate intent to uncover dissent between the participants’ perception and the existing model. As such, we sought to explore four types of outcomes:

  • 모델에 없는 음성 인식
  • 데이터에 반영되지 않은 모델의 측면
  • 모델에 존재하지만 다른 또는 추가 함축적 의미를 지닌 음성 인식
  • 모델에 맞는 음성 인식

 

  • perceptions voiced that were not in the model
  • aspects of the model that were not reflected in the data
  • perceptions voiced that existed in the model but with different or additional connotations
  • perceptions voiced which aligned with the model

참여에 대한 인센티브는 제공되지 않았다. (대유행으로 인한) Zoom을 통한 반구조적 인터뷰는 최대 60분 동안 진행되었습니다. 인터뷰는 식별된 데이터 없이 기록되고 말로 기록되었다. 
No incentive was provided to participate. Semi-structured interviews occurred via Zoom (due to the pandemic) lasting up to 60 minutes. Interviews were recorded and transcribed verbatim without any identifying data. 

[Vignett]는 구체적인 현실적 맥락에 포함된 다원적 표현이기 때문에 인터뷰의 출발점으로 선택되었다.22 Vignette은 개념의 추상적인 본질을 환원시키지만, 요인이 무엇이며 요인 간 관계가 무엇인지를 동시에 조사할 수 있게 해줍니다.
Vignettes were chosen as the starting points for the interviews as these are multivalent representations embedded in concrete realistic context.22 This reduces the abstract nature of the concept, in our case of fairness, but still allows for simultaneous investigation of factors and their relationships.22 

인터뷰에는 세 가지 Vignette이 제시되었다(부록 S1 참조). 실제 평가 시나리오를 반영할 수 있도록 저자들의 경험을 토대로 6개의 Vignete를 처음 개발했습니다. 이는 이론적으로 파생된 개념 모델에 대해 지도를 작성했으며, 따라서 개인 및 시스템 수준을 포함하여 공정한 판단과 관련된 광범위한 현안에 대한 논의를 자극했다. 
Three vignettes were presented during the interview (see Appendix S1). To ensure the vignettes reflected realistic assessment scenarios, we drew on the experience of the authors to initially develop 6 vignettes. These were mapped against the theoretically derived conceptual model, and therefore, they stimulated discussion on a broad range of issues related to fair judgement, including at an individual and system level. 

저자들과의 논의를 통해, 그 삽화는 의도적으로 학부, 대학원, 그리고 펠로우십의 다양한 교육 단계를 나타내면서 3개로 축소되었다. vignets는 또한 높은 이해도의 판단을 나타내기 위해 선택되었다. 이는 더 많은 논의를 촉진하고 실질적인 적용 가능성을 가질 것으로 예상되었기 때문이다.
Through discussion with the authors, the vignettes were reduced to three, deliberately representing different stages of training, under-graduate, post-graduate and post fellowship. The vignettes were also chosen to represent high-stakes judgements, as this was anticipated to promote more discussion and also have more practical applicability. 

이 연구의 목적은 공정한 판단의 특성에 대한 참가자들의 인식을 이해하는 것이었기 때문에, 면담자가 지나치게 영향을 받지 않도록 하기 위해 연구자들이 공정성이 의미하는 바에 대한 어떠한 정보나 소개도 제공되지 않았다.
As the aim of the study was to understand the participants’ perceptions of the characteristics of fair judgement, no information or introduction was given about what the researchers meant by fairness, to ensure interviewees were not unduly influenced.

이 연구는 2020년 7월부터 2020년 12월까지 실시되었다. 데이터의 수집, 분석 및 코딩은 동시에 반복적인 방식으로 발생하며, 서로에 정보를 제공한다. 처음에는 데이터를 읽어 데이터에 익숙해지도록 했으며, 조사 과정 전반에 걸쳐 데이터의 몰입도와 참여도를 높이고 의사결정을 문서화하기 위해 반사적 메모가 사용되었습니다. 초기 코드가 생성되었고, 데이터셋 전반에서 지속적인 비교를 위해 각 추가 인터뷰 완료 후 이전 성적표를 반복적으로 다시 검토했다. 코드북은 저자들 사이에 코드에 대한 토론을 위해 만들어졌다.
The study was undertaken from July 2020 until December 2020. Collection, analysis and coding of the data occurred simultaneously in an iterative manner, each informing the other. Initially, the data were read to ensure familiarisation with the data, and reflective memoing was used to improve immersion and engagement with of data and to document decision-making throughout the research process. Initial codes were generated, and earlier transcripts were repeatedly re-examined following the completion of each further interview to allow for ongoing comparisons across the dataset. A code book was created to allow for discussion between authors about the codes.

 

3 결과
3 RESULTS

20명의 인터뷰, 12명의 심사원과 8명의 대학원생들을 인터뷰했다. 다양한 전공의 여성 11명과 남성 9명이 있었다(일반 진료과, n = 10, 내과, n = 5, 수술, n = 4, 산부인과, n = 1). 대학원 이후 교육생은 1학년부터 마지막 학년까지, 심사원은 5년에서 28년의 경력까지 다양했다. 
Twenty interviews were undertaken, 12 assessors and 8 post-graduate trainees. There were 11 females and 9 males from a variety of specialties (General Practice, n = 10, internal medicine, n = 5, surgery, n = 4, obstetrics and gynaecology, n = 1). The post-graduate trainees ranged from first to final year of training, and assessors ranged from 5 to 28 years of experience. 

19번의 인터뷰 끝에 포화상태에 도달했다. 처음에 115개 코드로 코드화된 후, 참가자의 공정한 판단에 대한 인식은 3가지 주요 주제와 9가지 하위 주제로 특징지어진다. 

Saturation was reached after 19 interviews. After initially being coded into 115 codes, the participants’ perceptions of fair judgement are characterised by 3 main themes, with 9 sub-themes.

  • individual (evidence, narrative, boundaries, agility and expertise),
  • system (multiple assessors, multiple opportunities, documentation and procedural fairness) and
  • environmental factors 

 

3.1 개인별 특성
3.1 Individual characteristics

3.1.1 공정한 판단 결정은 의미 있고 건설적인 서술문을 포함할 필요가 있다.
3.1.1 Fair judgement decisions need to contain meaningful and constructive narratives

내러티브는 공정한 판단을 위해 필수적인 것으로 보였다. 내러티브는 피드백을 통해 학습자의 성찰과 개선을 허용하기 때문이다. 판단은 학습자가 성과를 개선할 수 있는 방법에 대한 명확하고 의미 있는 피드백 내러티브가 있는 경우에만 공정한 것으로 간주되었다. 학습자가 가장 관심을 가질 수 있다는 것을 자동으로 알려줍니다.
A narrative was seen to be essential for a judgement to be fair; as narratives allow for learner reflection and improvement through feedback. A judgement was only considered fair if there was a clear, meaningful feedback narrative about how a learner could improve their performance. And as such it automatically signals that the learner's best interest is at the centre.

또한 내러티브는 학습자의 성과에 대한 [학습자와 평가자의 관점을 일치시키기 위해서] 필요합니다. 평가자는 학습자에게 기대와 달리 어떻게 수행하는지 알려주어야 할 책임이 있습니다. 기습적인surprise 판단은 불공평한 것으로 간주된다.
Furthermore, a narrative is needed to align the learner and assessor's perspectives on how the learner is performing. It is the responsibility of the assessor to ensure they have attempted to inform the learner of how they are performing against expectations. A surprise judgement is considered unfair.

또한, 어려움을 겪고 있는 학생뿐 아니라, 모든 학습자에게 진정으로 판단받고 피드백을 제공할 수 있는 기회를 제공한다는 점에서 공정한 판단이 필요하다.
Furthermore, fair judgements need to be equitable in that all learners have the opportunity to be genuinely judged and provided with feedback, not just those who are struggling.

 

3.1.2 공정한 판단은 경계 안에 포함된다.
3.1.2 Fair judgements fall within boundaries

공정한 판단 결정은 '범위에 포함되는within scope' 증거와 '범위 밖의out of scope' 증거에 기초한다. 즉, 범위를 벗어나거나 범위를 벗어나는 것에 기초한다. 평가판정에 임상 성과 이외의 요소를 사용하는 경우, '대리에 의해by proxy 유능하거나 무능한' 것으로 평가되는 것은 불공정한 것으로 간주된다. 공정한 판단의 경계는 '메시지' 판단의 신뢰성이 메시지 자체와 '보낸 사람' 모두의 함수로 간주되기 때문에 심사원의 신뢰성을 결정하는 데에도 도움이 된다. 이 연구는 경계와 관련된 몇 가지 하위 주제를 강조했다.
Fair judgement decisions are based on evidence which is ‘within scope’ and what is ‘out of scope’; or in other words what is in or out of bounds.. It is considered unfair to be assessed as ‘competent or incompetent by proxy’; when factors other than clinical performance are used in making assessment judgements. The boundaries of fair judgement also help determine the credibility of the assessors because the credibility of the judgement ‘message’ is seen as a function of both the message itself and the ‘sender’. This study highlighted several sub-themes related to boundaries.

첫째, 판단 결정은 경계를 벗어나지 않기 위해 관련성이relevant 있어야 한다. 문헌 검토에서 뒷받침하는 바와 같이, [성별, 인종, 가족, 호감도와 사회적 연줄과 같은 요소]는 역량과 관련이 없는 것으로 간주되고 불공평한 것으로 간주된다.
Firstly, judgement decisions need to be relevant to remain within boundaries. As supported by the literature review, factors such as gender, race, family, likability and social connections are not considered relevant to competence and are considered unfair.

둘째, [목적 잘못된 판단 결정]은 학습자 또는 환자에게 최선의 이익이 되지 않는 경우 공정한 것의 범위를 벗어난 것으로 간주되었다. 학습자에게 높은 기대를 걸고 필요한 경우 불합격하는 것이 합리적이었지만, [뛰어난 의료 서비스를 제공할 수 있도록 [학습자가 개선되고 성공하기를 바라는 진정성 있는 목표]를 가지고 있다는 관점]에서 판단을 내려야 합니다. 사적 판단 결정을 공유하지 않으려 하거나, 학습자에 대해 험담을 하거나, 자신의 안건을 밀어붙이거나, 심사원 역할을 남용하는 등 심사원의 사리사욕과 같은 다른 모든 목표는 공정한 판단의 테두리를 벗어난 것으로 간주한다.
Secondly, judgement decisions which had a misplaced purpose, where the decision was not made in the best interests of the learner or patients, were considered outside of the boundaries of what is fair. It was considered reasonable to have high expectations of a learner and to fail if needed, but judgements need to be made in the light of having an authentic, genuine aim of wanting learners to improve and succeed, to ensure they are able to provide excellent health care. Any other aim, such as assessor self-interest including an unwillingness to share their private judgement decisions, gossiping about learners, pushing their own agenda or abusing their role as an assessor is considered out of the boundaries of a fair judgement.

만약 당신이 그 하급 의사가 더 나은 의사가 될 수 있도록 도와주는 데 관심이 있고 실제로 개입하고 싶어하는 사람이 있다면, 그들은 누군가를 찢어 놓는 것에 관심이 있기 때문이 아니라, 그들이 잘되기 때문에… 만약 당신이 그들을 도울 수 있다면, 우리는 마지막에 더 나은 의사를 얻는다.

If you’ve got somebody who is interested in helping that junior doctor become a better doctor and who actually wants to intervene not because they’re interested in tearing someone apart, but because they go okay… if you can help them then we get a better doctor at the end of it

 

3.1.3 공정한 판단 결정은 뒷받침하는 증거에 의해 뒷받침된다.
3.1.3 Fair judgement decisions are supported by supporting evidence

문헌 리뷰는 증거가 판단을 뒷받침하는 수단이라고 언급했고 복수의 근거 출처를 갖는 것이 공정성에 대한 인식을 개선했다고 제안했다. 본 연구에서는 참가자들이 이러한 전제에 동의하고 이것이 실제로 무엇을 의미하는지 상세하게 설명하였다. 이러한 맥락에서 증거는 논리, 인공물 또는 관찰과 같은 것들을 포함하는 것으로 고려되었다.
The literature review noted evidence was a means of supporting judgements and suggested that having multiple sources of evidence improved the perception of fairness. In this study, participants agreed with these premises and provided detail about what this means in practice. Evidence in this context was considered to include such things as rationale, artefacts or observation.


판단 결정judgement decision이 공정하기 위해서는 [증거의 포괄성]이 있어야 한다. 유능한 임상의가 되기 위해서는 여러 역량이 필요하며 공정한 판단 결정은 [지식뿐만 아니라 이러한 모든 역량을 고려]한다.

For judgement decisions to be fair, there needs to be comprehensiveness of evidence. Multiple competencies are needed to be a competent clinician and fair judgement decisions consider all of these competences, not just knowledge.

증거는 종단적이야 하며, 수행능력의 패턴을 고려해야 공정하다고 여겨졌다. 증거를 여러 개 가지고 있으면 삼각측정을 할 수 있다.

Evidence was expected to be longitudinal and consider patterns of performance to be considered fair. Having multiple pieces of evidence allows for triangulation.

중요한 것은 증거가 공정하다고 간주되기 위해서는 맥락이 있어야 한다는 것이다. 심사원의 중요한 역할은 맥락을 고려하여 증거를 해석하는 것이다. 전문성과 민첩성을 고려할 때 이 점을 더욱 자세히 살펴볼 수 있습니다.
mportantly, evidence needs to be contextual to be considered fair. An important role of an assessor is to interpret evidence in light of the context. This is explored further when considering expertise and agility.


마지막으로, 판단 의사결정에 대한 증거는 [전문지식의 특수성]을 허용해야 한다. 임상의사마다 개별적인 실천 방법이 다르며, 이러한 variation이 반드시 무능력인 것은 아니므로, 누군가를 그렇게 판단하는 것은 불공평한 것으로 간주된다.
Finally, evidence for judgement decisions should allow for expertise idiosyncrasy. Different clinicians will have different individual ways of practising and this variation is not necessarily incompetence, so to judge someone as such is considered unfair.

3.1.4 판단 결정을 내리는 심사원은 민첩성, 내용 및 평가 전문지식이 필요하다.
3.1.4 Assessors making judgement decisions need agility, and content and assessment expertise

모든 참가자들은 평가관의 전문성과 민첩성이 필요하다고 강조했다. 롬바르도와 아이친저는 사람들이 문제를 새로운 관점에서 생각하는 정도를 묘사하기 위해 [정신적 민첩성mental agility]이라는 용어를 만들었다. 그것은 복잡성과 모호함에 편안하고 그들의 생각을 다른 사람들에게 설명하는 것이다. 
All participants highlighted the need for assessor expertise and agility. Lombardo and Eichinger coined the phrase mental agility to describe the degree to which individuals think through problems from fresh points of views are comfortable with complexity, ambiguity and explaining their thinking to others23 

인터뷰에 응한 사람들은 공정한 판단을 하기 위해 심사원들이 여러 가지 작업을 수행해야 하는데, 이를 위해서는 민첩성과 전문지식이 필요하다고 지적했습니다. 여기에는 

  • 상황의 복잡성을 수용하는 것,
  • 수치적으로 합산할 수 없는 근거의 조각들을 잘 해석하여 유의미하게 모으고 삼각측량하는 것
  • 제시된 증거의 가중치를 고려하는 것
  • 식별된 애매한 경계 내에서 근거의 품질과 맥락을 고려하는 것이 포함된다. 

Interviewees noted that to make fair judgements, assessors have multiple tasks for which they need agility and expertise to complete. These include

  • embracing the complexity of the situation and
  • meaningfully collating and triangulating pieces of evidence that cannot be added numerically through interpreting and
  • weighing up evidence presented and
  • considering the quality and context of the evidence, within identified fuzzy boundaries. 


이런 것들이 평가자의 주요 역할로 간주되었고, 그렇지 않은 경우, 판단 결정이 불공정하다고 간주되었다. 이는 평가가 대개 실제 생활에서 이루어지기 때문에 종종 시간 압박과 함께 발생하며, 환자 안전을 보장하기 위해 실시간으로 판단을 내려야 한다.
This was considered a key role of an assessor, and if this was not done, the judgement decision was considered unfair. This also often occurs with time pressures as assessment usually occurs in real life, and judgement is needed to be made in real time to ensure patient safety.

때때로 훈련생들은 전문직업성이 부족한데, 환자들은 그들을 사랑한다. 그래서 그것은 종합적인 평가를 해석하는 문제이다.
Sometimes the trainees are not very good in terms of professionalism but then the patients love them. So it is a matter of interpreting that comprehensive assessment

 

공정한 방식으로 제시된 증거를 적절하게 해석, 심문 및 결합할 수 있으려면 [조사 과정]이 필요하다. 여기에는 [더 많은 증거를 수집]하거나 [제시된 증거에 대한 더 많은 정보를 확인하는 것]이 포함될 수 있다.
To be able to adequately interpret, interrogate and combine the evidence presented in a fair way, an investigative process is needed. This may involve collecting more evidence, or identifying more information about the evidence presented.

컨설턴트들을 좀 더 추궁하고 근본적인 문제를 파악하여 시나리오, 상황, 사건, 참석자 등을 설명하게 합니다. 그냥 가서 그 상황에 있는 사람들과 수다를 떨고… 사람들이 어떤 식으로 사건을 해석하는지 알아본다.
I grill the consultants a bit more and find out what’s the underlying issue and I get them to try and describe the scenario, what was the situation, what happened and who was there… I just go and chat to the people in that situation… and find out what people’s version of events were

 

또한 평가자는 개선을 허용할 수 있는 서술적 피드백을 제공할 수 있는지 확인하기 위한 [교육적 전문성]이 필요하다.
Furthermore, assessors need educational expertise to ensure they are able to provide narrative feedback which can allow for improvement.

 

3.2 시스템 요인
3.2 System factors

3.2.1 공정한 판단 결정이 여러 기회를 허용했다.
3.2.1 Fair judgement decisions have allowed for multiple opportunities

교육 프로그램의 진행에 대한 공정한 판단을 내리기 위해서는 학습자의 수행능력 패턴을 파악하기 위하여 여러 데이터 포인트를 수집할 수 있도록 [일정 기간 동안 역량을 입증할 수 있는 다수의 기회]를 제공해야 한다. 즉, 역량 입증 능력에 영향을 미치는 외부 요소(즉, 평가 당일에 몸이 좋지 않음)의 가능성을 줄이는 것이다. 특히, 본 연구에서는 학습자가 서술적 피드백에 응답하고 다음 평가 또는 학기 말 이전에 개선을 보여줄 시간과 작업 기회도 있어야 한다고 강조했습니다.

Fair judgments about progression in training programmes need to have provided multiple opportunities for learners to demonstrate competence over a period of time to allow for multiple data points to be collected, patterns of performance to be recognised and to reduce the chance of an external factor (ie unwell on the day of an assessment) influencing their ability to demonstrate competence. Specifically, this study emphasised that learners need to also have a time and work opportunity to respond to narrative feedback and demonstrate improvement before the next assessment or the end of term.

또한 결정을 뒷받침할 [여러 데이터 지점과 체크포인트]가 있었기 때문에 여러 번의 기회를 갖는 것이 후보자의 실패를 더 쉽게 만들어 줄 수 있다고 판단되었습니다.
Having multiple opportunities also was seen as possibly making the task of failing a candidate easier, because there were multiple data points and check points to support the decision.

작업 부하, 감정적 부하와 같은 측면에서 누군가를 failing시키는 것은 passing시키는 것보다 훨씬 더 어렵습니다. 문서화해야 할 것이나 나눠야 할 대화가 훨씬 많아진다. 만약 모든 사람에게 걸쳐서 이뤄지는, 훨씬 더 작은 체크포인트와 프로세스가 구축되어 있었다면, (지금처럼) 누군가를 실패시키는 건 기념비적인 일이 아니게 될지도 모른다.
Failing someone is much harder than passing them in terms of actually the workload… the cognitive load, the emotional load, but actually the documentation and the conversations and those sorts of things are much bigger and I guess if there were more perhaps slightly smaller check points and processes built in all the way through for everybody then perhaps it’s not as big of a monumental job to fail someone.

3.2.2 공정한 판단 결정에 복수의 심사원을 사용할 것
3.2.2 Multiple assessors are used in fair judgement decisions

이 연구는 [여러 명의 평가자를 사용하는 것]이 공정성에 기여하는 것으로 인식된다는 문헌 검토의 결과를 확인하였다. 이는 삼각측정과 광범위한 역량 평가를 가능하게 하는 더 많은 데이터를 수집할 수 있기 때문이다.
This study confirmed the findings of the literature review that using multiple assessors is perceived to contribute to fairness, because it enables more data to be collected which allows for triangulation and for a broader range of competencies to be assessed.

사실, 의료진보다 더 중요한 것은 비의료진이다. 따라서 간호 인력, 협력 의료 직원, 환자 등이 의료진보다 개인의 성과를 훨씬 더 사실적으로 보여 줄 것입니다.
In fact, even more important than medical staff is non-medical staff. So, it’s often nursing staff, allied health staff, patients, that will give a much more true [sic] picture of an individual’s performance rather than medial staff.

 

다수의 평가자는 또한 다양한 관점을 허용하고 한 명의 개별 평가자의 단일 관점을 희석시킨다.  이것은 개별 심사원의 판단을 반드시 무시하는 것이 아니라 다른 심사 결정에 비추어 고려하기 위한 것이다. 따라서, 위에서 설명한 바와 같이 전문지식의 특수성을 허용하는 문제와 관련이 있다.
Multiple assessors also allow for diverging perspectives and dilutes any one individual assessor's single perspective. This is not to necessarily ignore the judgement of any individual assessor but rather to consider this in the light of other judgement decisions. As such, it relates to the issue of allowing for expertise idiosyncrasy as described above.

여러 명의 심사원을 보유하는 것은 판단 결정, 특히 어려운 결정을 내릴 때 그룹 지원을 가능하게 한다.
Having multiple assessors also allows for group support in making judgement decisions, particularly difficult decisions.

내 생각에 그건 정말 팀 차원의 결정이었다… 우리 모두는 우리가 그에게 제공할 수 있는 것의 한계에 도달했다고 느꼈다.
I think it was very much a team decision… we all felt that we’d reached the limit of what we could offer him

 

3.2.3 문서화
3.2.3 Documentation

투명성을 보장하기 위해 판단의 모든 측면을 문서화해야 한다. 문서화에 대한 참가자들의 논의는 거의 없었으므로, 문서화가 무엇을 어떻게 수행되어야 하는지에 대한 세부 사항은 불확실하다.
To ensure transparency, all facets of the judgement need to be documented. There was minimal discussion by participants on documentation, so details of what and how documentation should occur are uncertain.

3.2.4 공정한 판단 결정을 지원하는 절차적 공정성
3.2.4 Procedural fairness supports fair judgement decisions

절차적 공정성의 중요한 요소는 [학습자에 대한 기대의 투명성]이다. 투명성은 정보의 명확성과 포괄성에 의존합니다. 정보가 부족하면 학습자가 예상하는 바를 추측해야 하고 이전의 경험을 지침으로 활용할 수 있습니다. 따라서, 학습자를 [문서화되지 않았거나 또는 전달되지 않은 기대치로 판단하는 것]은 물론이며, 기대치의 일부만 명시적으로 전달된 경우에도 불공평한 것으로 간주됩니다.
An important component of procedural fairness is transparency of expectations of the learner. Transparency relies on the information to be explicit and comprehensive; a lack of information can mean learners are required to guess what is expected of them and may use their previous experience as a guide. Judging a learner on unwritten or uncommunicated expectations is therefore seen as unfair, even when only part of the expectations were not explicitly communicated.

절차적 공정성에는 [판단이 목적에 적합한지 확인하는 것]이 포함된다. 의미 있는 근거가 결여된 [임의적인 규칙이나 판단]은 절차적으로 불공평한 것으로 간주된다. 평가자의 민첩성과 전문지식을 허용하지 않는, 엄격하고 미리 결정된 평가 양식 또는 더 나은 실무자가 되는 데 직관적으로 기여하지 않는 요소에 대한 판단이 그 예입니다. 전형적으로, 그러한 불공평은 평가의 게임으로 이어질 수 있으며, 학습자들은 가능한 최고의 의료 전문가가 되기 보다는 평가 통과에 집중해야 한다는 부담을 느낄 수 있습니다. 이는 공정하다고 볼 수 없습니다.
Procedural fairness includes ensuring judgements are fit-for-purpose. Arbitrary rules or judgements lacking a meaningful rationale are seen as procedurally unfair. Examples are rigid, predetermined assessment forms which do not allow for assessor agility and expertise or judgements about elements that do not intuitively contribute to becoming a better practitioner. Typically, such unfairness can lead to gaming of the assessment and learners feeling forced to focus on passing the assessment rather than becoming the best possible healthcare professional, which is not seen as fair.

중요한 것은, 공정한 판단은 결정의 이해 관계와 그 근거가 되는 정보의 풍부함에 비례해야 한다는 것이다.
Importantly, fair judgements have to be proportional, with alignment of the stakes of the decisions and the richness of the information on which they are based.

…왜 한 시험을 fail한 결과로 1년을 버려야 하나요?…올해는 누군가의 인생 전체입니다… 이건 큰 위험인데, 시험을 한 번 통과하지 못해서 1년 내내 해야 하는 게 공평할까요? 이 특정 시험 영역이 미래의 전문 역량 또는 역량에 대한 중요한 예측 변수와 함께 포함되는 이유에는 몇 가지 근거가 있어야 합니다.
…why would one exam constitute a failure in the whole year?… this is the whole year of somebody’s life… This is high stakes, is it fair that somebody has to do a whole year because they failed one exam?… There has to be some rationale behind why does this particular segment of the exam carry with it such an important predictor of future professional competence or capability.

 

절차적 공정성은 학습자가 상황에 대해 말하고 관점을 제공할 수 있도록 하는 것을 포함했다. 공정한 판단을 위해 심사원은 이러한 대화와 관점을 고려할 필요가 있다. 즉, 학습자는 자신이 학습한 내용에 대한 agency를 가정할 수 있으며, 대화가 이를 가능하게 하는 한 가지 방법이라고 생각합니다.
Procedural fairness importantly included allowing learners to speak and provide their perspective to the situation. This dialogue and perspective need to be considered by assessors to make fair judgements. Or in other words, the learner feels that they can assume agency over their own learning and a dialogue is a way to enable this.

…그러면 공정한 재판의 일환으로 피고인은 자신을 방어하고 불만을 제기하고 후배 컨설턴트의 이야기를 들을 기회를 가져야 합니다.

…then, as part of any kind of fair trial the accused should have an opportunity to defend themselves… present the complaints… and hear the junior consultant’s side of the story

 

절차적 공정성은 위계적 권력 격차가 학습자에게 정보, 판단 또는 피드백을 제공하는 데 방해가 되지 않도록 해야 하며, 학습자가 부당한 것으로 간주되어 응답할 수 없는 경우에도 마찬가지입니다. 이러한 권력의 차이는 평가자에서 학습자로 또는 학습자에서 평가자로 흐를 수 있습니다. 또한 절차적 공정성의 중요한 딜레마는 [피평가자에 대한 사전 지식을 갖는 것]이 한편으로는 보다 [균형 잡힌 판단을 위해 유용한 정보]를 제공할 수 있지만, 다른 한편으로는 [(아직 달성하지 못한) 남아있는 목표에 대한 생각]을 하는 것이기도 하다.
Procedural fairness needs to ensure hierarchical power differentials do not hinder the provision of information, judgement or feedback to the learner, or if the learner is unable to respond as this is seen as unfair. Such power differential could flow from the assessor to the learner or from learner to assessor. Furthermore, an important dilemma in procedural fairness is deciding between assessors having prior knowledge about a candidate which may provide useful information for a more balanced judgement on the one hand and the notion of remaining objective on the other.

공정성의 관점에서 판단은 두 가지 상황 모두에서 공정할 수 있다. 평가자는 [지속적인 관리 관점에서 학습자를 논의해야 할 진정한 필요성]을 가질 수 있지만, 이는 [향후 판단을 편향시킬 수 있는 학습자의 '명성'을 형성할 위험]과 균형을 이루어야 합니다. 학습자에 대한 편견이 이미 존재하고, 그들의 평가가 임상 성과보다는 인계 요인hand-over factor에 의해 고려되는 것은 불공평한 것으로 간주되었다. 이는 공정한 평가의 범위를 벗어난 것이기 때문이다.

From a perspective of fairness, judgements can be fair in both circumstances. Whilst assessors may have a genuine need to discuss learners from a continuity of care perspective, this clearly needs to be balanced with the risk of creating a ‘reputation’ for the learner that may bias future judgements. It was seen as unfair if a learner was prejudged and their assessment considered on hand-over factors rather than their clinical performance as this was outside the boundaries of fair assessment.

그들이 당신을 잘 안다면 어떤 면에서 도움이 될 수 있다고 생각합니다. 그들은 당신에게 건설적인 피드백과 당신의 강점에 대한 건설적인 관점을 줄 수 있습니다. 하지만 감독을 받는 사람으로서, 당신이 어려움을 겪고 있는 것들에 대해 상사에게 말할 수 있어야 한다고 생각해서, 만약 당신이 상사의 도움과 지원을 구했기 때문에 상사가 당신을 나쁘게 평가할 것 같다면, 그것은 부당하다고 생각합니다.

컨설턴트 중 한두 명에게 좋지 않은 인상을 주고 입소문이 퍼진 동료가 있는데, 저는 많은 다른 팀들이 이 사람을 매우 주의 깊게 지켜보고 그들을 조사한다고 생각합니다. 왜냐하면 부서 전체가 이 특정 수련생에 대해 편견을 가지고 있기 때문에 다소 전문적이지 않고 불공평하기 때문입니다.
I think in some ways it can be helpful if they know you well, they can give you constructive feedback and constructive views of your strengths. But I think also as the person being supervised, you need to feel like you can talk to your supervisor about things that you’re struggling with and so if you then feel like the supervisor is going to flip it back on you and assess you poorly because you’ve sought their help and support, I think that’s unfair.

There’s a colleague… who has made a very bad impression to one or two of the consultants and word of mouth has spread and I think a lot of the other teams are then very very carefully watching this person and putting them under scrutiny… it’s a bit unprofessional and unfair because… the whole division is biased against this particular trainee.

 

절차적 공정성에는 [평가자의 자기성찰 능력]도 포함된다. 여기에는 편견에 대한 그들 자신의 민감성과 성격 특성이 판단 결정에 어떻게 영향을 미칠 수 있는지를 인식하는 것이 포함될 수 있다. 이는 공정하지 못한 영향력이지만, 평가자가 심사숙고를 할 경우 완화될 수 있다고 보았다.
Procedural fairness also includes assessor self-reflectivity. This might include being aware of their own susceptibility to biases and how personality characteristics can impact judgement decisions. This is seen as an unfair influence that can be mitigated if the assessor makes the effort of reflection.

제가 평가를 할 때, 저는 자신에게 엄격해지는 경향이 있기 때문에, 다른 사람들로부터도 그것을 기대하기 때문에 그들에게 너무 가혹하게 대하고 있는 것인지 스스로 생각해 보아야 합니다. 다른 사람들을 공평하게 평가하려면 세상에 대한 자신의 해석을 이해해야 한다고 생각한다.
when I’m doing an assessment I have to think to myself… am I being too hard on them because I have a tendency to be hard on myself and therefore I expect it from others too. I think you have to have an understanding of your own interpretation of the world to be a fair assessor of others

 

마지막으로, [평가에 약간만 참여하는 평가자의 판단 결정]은 불공정한 것으로 간주된다. 참여에는 평가에 충분한 시간을 할애하고, 평가 과정에서 학습자를 관찰하기 위해 노력하고, 학습자에 대한 평가에 대한 책임을 지는 것이 포함됩니다. 또한 평가 시스템 내의 모든 직원은 평가 책임뿐만 아니라, 성과와 관련된 문제가 있을 경우 학습자와 의사소통할 책임이 있습니다.
Finally, judgement decisions from assessors only marginally engaged in assessment are considered unfair. Engagement includes spending sufficient time on the assessment, making the effort to observe learners in the assessment process and taking responsibility for a learner's assessment, having their best interest at heart. Furthermore, all staff within the assessment system, not just those directly responsible for assessment, have a responsibility to communicate with the learner if they have any concerns with their performance.

 

3.3 환경 및 문화
3.3 The environment and culture

 

이 연구는 공정한 판단에 대한 또 다른 구성 요소인 판단 결정이 이루어지는 [환경]을 강조하였다. 학습자는 미래의 건강 전문가이며, 잘 교육된 커뮤니티의 기대가 있습니다. 따라서 판단 결정은 환자 치료와 지역사회(작업 커뮤니티 포함)에 미치는 영향을 고려하는 경우에 공정한 것으로 간주한다. 환자에게 공정하게 대하기 위해 학습자는 기대치를 충족하거나 추가 기회를 얻을 수 있어야 합니다. [환자에 대한 공정성]과 [학습자에 대한 공정성] 사이에 긴장이 있다면 환자에 대한 공정성이 더 중요하다고 판단되었다.

This study highlighted another component to fair judgement that is the environment in which the judgement decisions are made. Learners are future health professionals, and there is community expectation they are well trained. Judgement decisions are, therefore, seen as fair if they consider the impact on patient care and the community, including their working community. To be fair to patients, learners need to meet expectations or earn the right to further opportunities. If there was a tension between fairness to the patient and fairness to the learner, fairness to the patient was seen as more important.

…결국 이 문제의 중심에 있는 사람은 환자입니다… 그래서 나는 이 모든 것을 실제로 그렇게 바라볼 것이다.
…but ultimately the person at the centre of this is the patients… So that’s how I would actually view this whole thing.

 

게다가, [어려운 판단을 내리지 않는 것]은 학습자들이 조금이라도 덜 부담스러운less high stake 상황을 바탕으로 훈련과정을 통해 더 일찍 개선할 기회를 박탈할 수 있기 때문에 불공평한 것으로 보였다. 또한 정체불명의 어려움을 겪고 있는 학습자와 함께 일해야 하는 동료와 중대한 결과를 초래하는 훨씬 더 큰 이해관계가 걸린 결정을 내려야 하는 미래의 심사원들에게도 불필요한 부담으로 이어질 수 있다.
Furthermore, not making difficult judgements was seen as unfair as it may deny learners opportunities to improve earlier in training with less high-stakes consequences. It also may lead to unnecessary burdens for colleagues who are required to work with an unidentified struggling learner, and future assessors who have to make even higher stakes decisions with graver ramifications.

 

학습자에 대한 판단은 [학습 환경이 학습을 허용]하고 [환자 치료와 학습자 자신을 위해 학습자가 개선되기를 바라는 문화]가 있는 경우에만 공정한 것으로 간주된다. 여기에는 관련 기술과 지식을 교육하는 것, 적절한 작업 부하, 학습 요구 사항 및 피드백 문화를 표현할 수 있는 기회 등이 포함됩니다.
Judgement of learners is only considered fair if the learning environment allows for learning and has a culture of wanting the learner to improve for the sake of patient care and the learner themselves. This includes ensuring relevant skills and knowledge are taught, an appropriate workload, an opportunity to express learning needs and a culture of feedback.

…주니어 컨설턴트는 매우 유능하고 업무 능력이 뛰어나지만, 단지 환경이 그것을 달성가능하게 만들어주지 못하는 것일 수도 있습니다
.…that junior consultant might be very competent and very good at their job and just not in an environment that makes that possible for them to achieve.


공정한 판단은 특히 학습자가 기대에 미치지 못할 때 [학습자의 고유한 환경을 고려]하는 환경에서만 가능합니다.
Fair judgements can only occur in an environment which considers learners’ personal unique circumstances, particularly when learners are not meeting expectations.

나는 우리가 어려움을 겪고 있는 전공의에 대해 해야 할 일은, 그들의 진행 상황을 [아주 뛰어난 전공의와 비교하는 것이 공정한지]를 결정하는 것이라고 생각한다. 그런 다음 고객에게 더 많은 교육이 필요한지 여부와 개선할 수 있는 기회를 더 많이 제공해야 합니다.
What I think we should do with the struggling registrar is decide whether it’s fair to compare their progress… with the registrar who is flying, I think that’s probably unfair. Then what we’ve got to decide is whether they need more training, and we need to give them more opportunities to improve.

4 고찰
4 DISCUSSION

 

판단 결정은 항상 [평가 시스템과 교육 시스템] 내에서 내려지며, 시스템은 인프라, 시간, 자원, 규칙, 문화 및 규정과 같은 공정한 판단 결정을 가능하게 하고 제한할 수 있다. 본 연구에서 공정한 판단에 대한 [시스템 요인]의 영향을 고려함에 있어, 문헌 검토 결과와 비교하여 다양한 요소 사이의 관계도 개선되었다. 공정한 판단 결정을 위해 복수의 심사원, 복수의 기회문서가 필요하고 절차적 공정성이 이러한 시스템 구성 요소가 발생할 수 있는 프레임워크를 제공한다는 것을 확인하였다. 
Judgement decisions are always made within assessment and educational systems, and systems can both enable and restrict fair judgement decisions such as through infrastructure, time, resources, rules, cultures and regulations. In considering the impact of system factors on fair judgement in this study, the relationship between the different components was also refined compared to the outcome of the literature review. We identified that multiple assessors, multiple opportunities and documentation are needed for fair judgement decisions and procedural fairness provides the framework to allow these system components to occur. 

이 연구는 또한 판단 결정에서 [환경의 역할]을 더 명확하게 강조했다. 보건 전문가 교육은 공백 상태에서 수행되지 않으며 공정한 판단 결정은 환자, 동료 및 더 넓은 지역사회에 미치는 영향을 고려해야 한다.
This study also highlighted more clearly the role of the environment in judgement decisions. Training of health professionals does not occur in a vacuum and fair judgement decisions must consider the impact on patients, colleagues and the wider community. 

우리의 연구결과는 평가에 대한 현대적 생각의 관점에서 관련성이 있다. 작업장 기반 평가는 많은 저자들에 의해 복잡한 시스템으로 인식되어 왔다.11, 26 시스템이 복잡한 경우, 해결책은 문제 자체만큼 복잡해야 할 가능성이 높고27 복잡한 시스템의 동적 및 예측 불가능한 특성으로 인해 환원주의와 가치와 방법을 효과적으로 사용하는 것은 논리적으로 불가능하다. 그러나 비선형적 현상에도 불구하고 복잡한 시스템의 역학, 여전히 경계, 내재화된 규칙 및 시스템 내 변화에 대한 지속적인 적응에 대한 요구 사항이 존재합니다.29 장기적인 관찰을 통해 패턴과 네트워크가 여전히 드러날 수 있다.24, 29 
Our findings have relevance in the perspective of modern ideas about assessment. Workplace-based assessment has been recognised by many authors as a complex system.11, 26 Where the system is complex, the solution likely needs to be as complex as the problem itself27 and the dynamic and unpredictable nature of complex systems logically precludes the effective use of reductionist values and methods.28 But despite the non-linear dynamics of complex systems, there are still boundaries, internalised rules and a requirement for constant adaption to the changes within the system.29 With prolonged observation, patterns and networks can still be revealed.24, 29 

이것은 의학 교육의 또 다른 지배적인 생각인 [프로그램 평가]와 연결되어 있다. 이것은 의학 교육의 또 다른 지배적인 생각인 프로그램 평가와 연결되어 있다. 프로그램 평가 원칙에는 복수의 데이터 사용, 종방향 평가, 비례성 및 의미 있는 데이터 삼각측정이 포함되며, 이를 통해 풍부한 정보 기반 의사 결정과 학습자에게 의미 있는 피드백을 제공할 수 있다. 이 연구의 데이터는 이러한 모든 전제를 뒷받침한다. 여러 명의 평가자와 평가자가 있으면 더 많은 데이터와 관점을 수집하고, 패턴을 식별하고, 구성원 확인과 삼각측정을 수행하고, 더 광범위한 역량을 평가할 수 있다. 
This links to another predominant idea in medical education; programmatic assessment. Programmatic assessment principles include the use of multiple pieces of data, longitudinal assessment, proportionality and meaningful triangulation of data allowing for rich information-based decision-making and meaningful feedback to the learner.30 This study's data supports all of these premises. Having multiple assessments and assessors allows for more data and perspectives to be collected, patterns to be identified, member checking and triangulation to take place, and to allow for a broader range of competencies to be assessed.31-33 

프로그래밍 방식 평가에서는 데이터가 단순히 수치적으로 수집될 수 없고, 심지어 맥락적으로 유사하지 않을 수도 있으며, 평가 구성요소를 쉽게 추가하는 것은 복잡한 역량 평가에 유효하지 않다는 것이 인정된다. 반대로 데이터가 이질적이기 때문에 판단의 맥락을 고려하여 의미 있는 삼각측정이 필요하다. 문헌에서는 데이터 조합의 맥락을 고려하기 위해 특정 전문지식이 필요하다는 것이 인정되었다. 이를 위해서는 서술, 경계, 평가자 민첩성 등의 추가 도구가 필요합니다(모델 참조).

In programmatic assessment, it is acknowledged that data cannot be simply numerically collated or even that it will be contextually similar, and that easy addition of assessment components is not valid for the assessment of complex competence. On the contrary, data which are heterogenous need to be meaningfully triangulated, considering the context of the judgement. Within the literature, it has been recognised that specific expertise is needed to consider context in the combination of data.24, 34-36 Additional tools such as narrative, boundaries and assessor agility are needed to do this, as noted in the model.

이 연구는 특히 공정한 판단은 일률적인 것이 아니며, [특정 상황 특성과 맥락을 포함해야만 목적에 적합한 것]으로 간주할 수 있다는 점을 강조했다. 전문가와 민첩한 평가자는 애매한 경계와 상황 맥락 내에서 증거를 수집, 심문, 상호작용 및 해석해야 한다. 이것은 이 연구에서 가장 두드러진 코드 중 하나였으며 20개 인터뷰 모두에서 목소리를 높였다. 놀랍게도, 이것은 표준화된 측정 기반 평가의 개념과 매우 근본적으로 상반된다. 인식론적으로도 마찬가지이다. Van der Vleuten은 평가자들 사이의 완벽한 신뢰성을 위해 노력하기 보다는, 더 적절한 목표는 평가 프로그램에서 [평가 데이터를 수집하고 합성하는 엄격한 방법을 개발하는 것]이라고 언급했다. 아마도 이 연구의 결과는 이해 당사자들이 이를 인식하고 workplace의 performance rating이 '측정'에 관한 것이라는 생각에서 벗어나, 역동적 시스템 환경에서 이뤄지는 전문가 '판단'에 더 근접함을 인식해야 함을 시사한다. 이것의 결론은 각 평가자judge가 공정하고 가치 있는 관점을 추가할 수 있는 충분한 전문지식을 가지고 있는 한, 평가자 간의 의견 차이가 반드시 불공평한 것은 아니라는 것이다.
This study particularly emphasised that fair judgement is not a one-size-fits-all; the specific situational characteristics and the context must be included for it to be considered fit-for-purpose. Expert and agile assessors are required to collate, interrogate, interact with and interpret the evidence within fuzzy boundaries and context of the situation. This was one of the most prominent codes present in this study and voiced in all 20 interviews. Surprisingly, this is so fundamentally—one would say epistemologically—at odds though with the idea of a standardised, measurement-based assessment. Van der Vleuten noted that rather than striving for perfect reliability among raters, a more appropriate goal would be to develop rigorous methods of collecting and synthesising assessment data in a program of assessment.30 Perhaps, this study's finding suggests stakeholders recognise this and the need to move forward from the idea that performance rating in the workplace is not as much about measurement as it is about expert ‘judgement’ in a dynamic system environment.11, 34 The corollary of this is that inter-judge disagreement is not necessarily unfair as long as each judge has sufficient expertise to add a fair and valuable perspective.15

[의미 있고 실행 가능한 피드백]과 [평가자와 학습자 사이의 합의의 필요성]은 학습 철학을 위한 평가에서 중요한 측면이다.37-40 Lee는 특정 서술과 상황별 코멘트를 사용하는 것이 판단 자체보다 연습생에게 더 많은 정보를 제공할 수 있다고 주장한다.41 우리의 연구는 이러한 아이디어를 뒷받침했다. 학습자와 평가자 모두 학습자가 개선할 수 있는 방법에 대한 피드백을 제공하여 학습이 허용되는 경우에만 판단이 공정하다고 판단했습니다. 학습 평가는 학습자가 의도적으로 연습할 수 있는 학습 및 작업 문화에서만 수행될 수 있으며, 오류는 일반적으로 학습 기회가 된다.42, 43 본 연구는 또한 그러한 환경이 판단 결정이 공정한 것으로 받아들여지기 위해 필수적이었다고 지적했다.
The need for meaningful and actionable feedback and agreement between the assessor and learner is an important aspect in an assessment for learning philosophy.37-40 Lee argues that the use of specific narratives and contextual comments may be more informative for trainees than the judgement itself.41 Our study supported these ideas. Both learners and assessors perceived judgements to be only fair if they allowed for learning, through the provision of feedback about how the learner could improve. Assessment for learning can only occur in a learning and working culture, where learners can practice purposefully, and errors typically become learning opportunities.42, 43 This study also noted such an environment was essential for judgement decisions to be accepted as fair.

우리의 데이터에 따르면 공정하고 주관적인 판단을 수용하는 것은 문제를 제기할 수 있습니다. 많은 기관의 경우, 이것은 문화적 변화 일 수 있으며, 새로운 인식론적 평가 방법에 적응하는 데 있어 교수진의 기술 격차와 어려움이 있을 수 있다.41, 44 그러나, 이 문헌 검토에 의해 확인된 공정한 인간 판단에 포함된 많은 구성요소가 반드시 새로운 것은 아니다.

  • 복수의 평가자 사용, 종단적 평가 및 복수의 근거 수집은 많은 기관에서 공통적이다.46
  • 투명한 기대, 방향, 절차 및 문서 또한 대부분의 교육 프로그램에서 공통적이다.
  • 많은 사람들이 숫자만으로는 학습에 충분하지 않다고 인정함에 따라 피드백의 중요성이 평가에서 점점 더 부각되고 있다.47-51
  • 그리고 마지막으로, 학습 환경은 의대 교육 문헌에서 점점 더 주목을 받고 있다.42

Our data suggest that embracing fair, subjective judgements can present challenges. For many institutions, this may be a cultural change44, 45 and there may be faculty skill gaps and difficulty in making adaption to new and epistemological unfamiliar methods of assessment.41, 44 This being said, however, many of the components of fair human judgement identified by this literature review are not necessarily new.

  • The use of multiple assessors, longitudinal assessments and collection of multiple pieces of evidence is common in many institutions.46 
  • Transparent expectations, orientations, procedures and documentation are also common in most training programmes.
  • The importance of feedback is increasingly recognised in assessment and the role of narrative has become more prominent as many acknowledge that numbers alone are not sufficient for learning.47-51 
  • And finally, the learning environment has been gaining increasing attention in the medical education literature.42 

실질적인 관점에서, 특히 평가 프로그램이 아래를 갖추게 한다면 심판 결정이 '공정한' 것으로 간주되도록 하는 데 도움이 될 것이다. 

  • 결정의 정당화로써 맥락적 근거를 요구하고,
  • 프로그램 전체에 피드백 서술에 대한 조항을 갖추고,
  • 판단 결정을 위한 'within scope'로 간주되는 것이 무엇인지 식별하며,
  • 전문 평가자를 참여시켜 정보를 의미 있게 수집하고 삼각측량한다.

From a practical point of view, specifically ensuring assessment programmes

  • require contextual evidence as justification for decisions,
  • have provision for feedback narrative throughout the programme,
  • identify what is considered to be ‘within scope’ for judgement decisions and
  • engage expert assessors to meaningfully collate and triangulate information will help to ensure judgement decisions are considered ‘fair’.

 

또한, 기관은 다음을 보장해야 한다.

  • 다수의 평가자가 평가 프로그램에 사용되고, 
  • 의사 결정이 잘 문서화되며, 
  • 피평가자에 대한 기대가 투명하고,
  • 의사 결정이 이루어지는 환경이 환자의 요구와 학습자 환경을 고려하도록

Furthermore, institutions can ensure

  • multiple assessors are used in assessment programmes,
  • decisions are well documented,
  • expectations of candidates are transparent and
  • the environment in which the decisions is made considers patient needs and learner circumstances.

 

5 결론
5 CONCLUSION

Woodruff는 의학교육연구원의 과제는 ['해결책'에 의해 산만해지는 것]이 아니라 [문제를 더 깊이 바라보는 것]이라고 지적했다.28 공정성의 정의에 대해 보편적으로 합의된 단순하고 일반적인 정의가 바람직해 보일 수 있지만, [공정한 판단의 기초가 무엇인지 더 잘 이해하기 위해 더 깊이 탐구하는 것]이 교육 기관이 실제로 공정한 판단이 무엇인지 협상하는 데 보다 유용한 설명을 가능하게 할 수 있다. 
Woodruff noted that the challenge for medical education researchers is to not be distracted by ‘solutions’ but to look at problems more deeply.28 Whilst a simple, universally agreed upon definition of fairness may at first glance appear to be desirable, delving deeper to better understand what the foundations of fair judgement are may allow for a more useable narrative for training institutions to negotiate what fair judgement actually is. 

 

 


Med Educ. 2021 Jun 1.

 doi: 10.1111/medu.14574. Online ahead of print.

Making it fair: Learners' and assessors' perspectives of the attributes of fair judgement

Nyoli Valentine 1Ernst Michael Shanahan 1Steven J Durning 2Lambert Schuwirth 1

Affiliations collapse

Affiliations

  • 1Prideaux Discipline of Clinical Education, Flinders University, SA, Australia.
  • 2Center for Health Professions Education, Uniformed Services University of the Health Sciences, Bethesda, MD, USA.
  • PMID: 34060124
  • DOI: 10.1111/medu.14574Abstract
  • Introduction: Optimising the use of subjective human judgement in assessment requires understanding what makes judgement fair. Whilst fairness cannot be simplistically defined, the underpinnings of fair judgement within the literature have been previously combined to create a theoretically-constructed conceptual model. However understanding assessors' and learners' perceptions of what is fair human judgement is also necessary. The aim of this study is to explore assessors' and learners' perceptions of fair human judgement, and to compare these to the conceptual model.Results: This study supported the literature-derived conceptual model suggesting fairness is a multi-dimensional construct with components at individual, system and environmental levels. At an individual level, contextual, longitudinally-collected evidence, which is supported by narrative, and falls within ill-defined boundaries is essential for fair judgement. Assessor agility and expertise are needed to interpret and interrogate evidence, identify boundaries and provide narrative feedback to allow for improvement. At a system level, factors such as multiple opportunities to demonstrate competence and improvement, multiple assessors to allow for different perspectives to be triangulated, and documentation are needed for fair judgement. These system features can be optimized through procedural fairness. Finally, appropriate learning and working environments which considers patient needs and learners personal circumstances are needed for fair judgments.
  • Discussion: This study builds on the theory-derived conceptual model demonstrating the components of fair judgement can be explicitly articulated whilst embracing the complexity and contextual nature of health-professions assessment. Thus it provides a narrative to support dialogue between learner, assessor and institutions about ensuring fair judgements in assessment.
  • Methods: A thematic analysis approach was used. A purposive sample of twelve assessors and eight post-graduate trainees undertook semi-structured interviews using vignettes. Themes were identified using the process of constant comparison. Collection, analysis and coding of the data occurred simultaneously in an iterative manner until saturation was reached.

+ Recent posts