평가에서 인간판단의 공정성: 해석적 문헌 고찰과 개념 프레임워크(Adv Health Sci Educ Theory Pract, 2020)

Fairness in human judgement in assessment: a hermeneutic literature review and conceptual framework

Nyoli Valentine1 · Steven Durning2 · Ernst Michael Shanahan1 · Lambert Schuwirth1





도입 Introduction


공정성은 건강직종 평가의 기본적인 자질이며 일반적으로 학생의 권리로 받아들여진다(Robinson 2002). 전통적으로 객관성은 평가의 공정성을 보장하기 위한 지배적인 방법으로 여겨져 왔으며, 평가의 구성 타당성과 신뢰성에 초점을 맞춘 20세기 보건 전문직 교육 연구 개발의 상당부분을 대상으로 한다(Valentine and Schuwirth 2019; Van der Vleuten et al. 1991; Cate and Regehr 2019). 지난 몇 십 년 동안, 학습에 대한 진화하는 생각, 사회적 이상 이동, 그리고 높은 이해도 시험의 한계에 대한 이해는 우리 분야 내에서 많은 변화를 가져왔다. 역량 기반 교육은 많은 국가에서 의료 교육에 대한 지배적인 접근 방식이 되었다. (10 Cate 2017). 이를 통해 임상의의 역할은 [이전에 강조되지 않았던 특징]과 [투입input보다는 결과에 대해 인증된 학습자]를 포함하도록 재정의되었다(10 Cate and Billett 2014). 역량은 학습자가 독립적으로 완료하도록 위임된 전문적인 과업으로 정의되었다(10 Cate and Schele 2007). 임상 역량의 평가는 서면 평가에서 다시 작업장의 실제 맥락으로 이동했고, 개별 평가에서는 평가 프로그램을 위한 길을 열었다(Daupine 1995; Van Der Vleuten and Schuwirth 2005; Valentine and Schuwirth 2019). 

Fairness is a fundamental quality of health professions assessment and is commonly accepted as a student’s right (Robinson 2002). Traditionally, objectivity has been seen as the predominant way to ensure fairness in assessment and for much of the twentieth century health professions education research and development focussed on construct validity and reliability in assessment (Valentine and Schuwirth 2019; van der Vleuten et al. 1991; ten Cate and Regehr 2019). Over the last few decades, evolving ideas about learning, shifting social ideals and understandings of the limitations of high stakes tests led to many changes within our field. Competency-based education became the dominant approach to medical education in many countries (ten Cate 2017). With this, the role of the clinician has been redefined to include features previously not been emphasised, and learners certified on outcome rather than input (ten Cate and Billett 2014). Competencies have been defined into professional tasks which a learner is entrusted to complete independently (ten Cate and Scheele 2007). Assessment of clinical competence moved from written assessments back into the authentic context of the workplace, and individual assessments made way for programmes of assessment (Dauphinee 1995; van der Vleuten and Schuwirth 2005; Valentine and Schuwirth 2019). 


이러한 변화에도 불구하고, 객관적 접근방식은 평가에서 지배적인 담론으로 남아있으며, 많은 사람들이 객관성을 평가를 평가해야 하는 'gold standard'로 보고 있다(Valentine and Schuwirth 2019; Van der Vleuten et al. 1991; Govaerts and van der Vleuten 2013; 10 Cate and Regehrer 2019). 심리측정적 모델은 측정과 양적 관점에서 공정성을 정의하려고 노력해왔다. 인간의 판단을 활용하고 진정한 성과를 평가하기 위해 고안된 작업장 기반 평가는 정량적 프레임워크를 사용하여 평가되었으며, 따라서 타당성과 신뢰성 기준을 충족하지 못한다는 비판을 받았다(Govaerts and van der Vleuten 2013). 이러한 객관적 관점에 기반하여, 많은 사람들은 인간의 판단을 너무 과실하고 주관적인 것으로 간주하여 고부담 평가에 사용할 수 없다고 본다(Valentine and Schuwirth 2019). 그러나 전통적인 정신측정학 접근법에만 배타적으로 초점을 두게 되면 복잡한 직장 환경에서 역량, 성과 및 평가의 주요 이슈를 놓칠 수 있다(Govaerts and van der Vleuten 2013; Govaerts et al. 2007). 이는 학문적 환경에서 역량을 획득하기에 충분하지 않다고 생각되어 왔다(Boud 1990).

Despite these changes, objective approaches have remained a dominant discourse in assessment, with many seeing objectivity as the ‘gold standard’ to which assessments should be judged (Valentine and Schuwirth 2019; van der Vleuten et al. 1991; Govaerts and van der Vleuten 2013; ten Cate and Regehr 2019). Psychometric models have sought to define fairness from a measurement and quantitative perspective. Workplace based assessments, which utilise human judgement and are designed to assess authentic performance, have been judged using a quantitative framework and therefore criticised for not meeting validity and reliability criteria (Govaerts and van der Vleuten 2013). Using this objective perspective, human judgement is seen by many as too fallible and subjective to be used in high stakes assessment (Valentine and Schuwirth 2019). However an exclusive focus on traditional psychometric approaches can disregard key issues of competence, performance and assessment in complex workplace settings (Govaerts and van der Vleuten 2013; Govaerts et al. 2007), has been thought not be sufficient to capture competence in an academic setting (Boud 1990).


문헌을 통해, 많은 저자들은 객관성에 대한 이러한 지속적인 초점을 의문을 제기하여, [평가에서 주관적인 인간의 판단]을 [심리측정적으로 교정될 '문제']가 아니라 [성과에 대한 정당한 인식]으로 수용하고자 하는 욕구를 표현하였다(Jones 1999; Rotthoff 2018; Hodges 2013; Cate and Regehr 2019; Bacon et). 2015년, Govaerts and van der Vleuten 2013, Schuwirth and van der Vleeuten 2006, Gingerich et al. 2014, Gipps and Stobart 2009). 가장 최근인 2020년에 오타와 컨센서스 성명보고서는 특별히 평가 프로그램에서 '전문가 판단을 재임명re-instate'(Boursicot 2020)하도록 요구했다.

Throughout the literature, many authors have questioned this continued sole focus on objectivity, expressing a desire to better embrace subjective human judgement in assessment not as a ‘problem’ to be corrected psychometrically but as legitimate perceptions of performance (Jones 1999; Rotthoff 2018; Hodges 2013; ten Cate and Regehr 2019; Bacon et al. 2015; Govaerts and van der Vleuten 2013; Schuwirth and van der Vleuten 2006; Gingerich et al. 2014; Gipps and Stobart 2009). Most recently, in 2020, the Ottawa consensus statement report for performance in assessment specifically called for assessment programs to ‘re-instate expert judgement’ (Boursicot 2020).


한 걸음 물러서서 평가에서 공정성의 근본적인 기본 가치에 초점을 맞추기 위해 관점을 바꾸는 것은 전통적인 객관적 접근법을 다시 설정하고, 평가에서 주관적인 인간 판단의 적절성을 판단하는 더 적절한 방법을 제공하는 데 도움이 될 수 있다. 평가에서 ['객관적'인 인간의 판단]이 아니라, 평가에서 ['공정fair'한 인간의 판단]이 무엇인지 살펴보는 것으로 초점을 바꾸는 것은 많은 다른 관점을 수용하도록 하며, 평가에서 인간의 판단의 정당화를 허용한다. 그러나 이를 위해서는 건강직업 평가에서 무엇이 인간의 판단을 공정하게 만드는가라는 질문을 다룰 필요가 있다. 이것은 모호하지 않게 '정답'한 단 하나의 대답이 있는 솔직한 질문이 아니다. 건강직종 평가는 복잡하고 예측할 수 없는 상황별 건강관리와 교육 환경에 내재되어 있다; 그것은 환자, 기관, 감독자 및 학습자를 포함한다; 그리고 때로는 인간의 판단과 공정성 모두에 여러 가지 그리고 때로는 모순되는 면이 있다.

Taking a step back and changing perspectives to focus on the fundamental underlying value of fairness in assessment may help re-set the traditional objective approach and provide a more appropriate way to determine the appropriateness of subjective human judgements made in assessment. Changing focus to look at what is ‘fair’ human judgement in assessment, rather than what is ‘objective’ human judgement in assessment allows for the embracing of many different perspectives, and allows for the legitimising of human judgement in assessment. However, to do this requires addressing the question: what makes human judgements fair in health professions assessment? This is not a straightforward question with a single unambiguously ‘correct’ answer. Health professions assessment is embedded in complex, unpredictable, contextual health care and education environments; it involves patients, institutions, supervisors and learners; and there are multiple, and at times conflicting, facets to both human judgement and fairness.


단순한 정의 없이 다차원적이고 복잡한 구조에 직면했을 때, 공유된 언어와 이해가 도움이 될 수 있다. 하이페츠 외 연구진(Heifetz et al.)은 "같은 의미를 지닌 동일한 단어를 사용하기 시작하면, 이슈에 대한 유의미한 차이점을 고심하면서도 더 효과적으로 의사소통하고 오해를 최소화하며 같은 페이지에 있다는 느낌을 얻게 된다"고 지적했다. 2009년). 본 문헌 검토의 목적은 의료 전문직 평가에서 인간 판단의 공정성과 관련된 요소, 정의 및 핵심 질문에 대한 학문적 지식 종합과 이해를 도출하는 데 있었으며, 공정한 인간 판단에 대한 아이디어를 명시적으로 제시하려고 시도했다.

When faced with a multi-dimensional, complex construct without a simple definition, a shared language and understanding can be helpful. Heifetz noted “When people begin to use the same words with the same meaning, they communicate more effectively, minimize misunderstandings, and gain the sense of being on the same page, even while grappling with significant differences on the issues” (Heifetz et al. 2009). The aim of this literature review was to produce a scholarly knowledge synthesis and understanding of the factors, definitions and key questions associated with fairness in human judgement in health professions assessment, attempting to make ideas about fair human judgement explicit.


이러한 복잡한 구조, 범주 및 결과 개념적 프레임워크를 추가로 관리하는데 도움을 주기 위해, 추가적인 연구를 알리고, 공정한 인간 판단에 대한 커뮤니케이션과 토론을 강화하며, 평가 프로그램의 전문가 판단의 재제시에 도움을 주기 위해 개발되었다.

To further help manage this complex construct, categories and a resulting conceptual framework was developed, with a view to informing further research, enhancing communication and discussions about fair human judgement and provide assistance in the re-instatement of expert judgement in assessment programs.


방법 Methods

설계 Design


이 리뷰의 목적을 달성하기 위해, 우리는 해석적hermeneutic 문학 리뷰를 실시했다. 인간의 판단의 공정성을 이해하려면 서로 다른 분야와 관점의 증거를 검토하고 취합하며, 고유한 맥락과 복잡성을 고려하고, 많은 다른 이해당사자들에 대한 함의를 검토해야 한다. 놀랄 것도 없이, 이 문헌은 방대하고, 이질적이며, 무작위적으로 통제된 실험에서 나온 일치된 답변이 없다. 헤르메뉴틱 접근법은 선형 프레임워크가 아닌 주기적 프레임워크로 사용하며 해석적 이해를 생성하는 과정과 관련이 있다. 논문은 문헌에서 나온 다른 논문의 맥락에서 해석되며, 새로운 논문이 읽힐 때마다 이해에 영향을 받는다(Boell and Ccez-Kecmanovic 2010). 체계적 검토 방법론을 통해 합성할 수 없는 이질적 문헌으로부터 통찰력을 창출하는 가치가 있고 그렇지 않으면 결론에 도달하지 않는 결과를 산출할 수 있기 때문에 헤르메뉴틱 리뷰의 인기가 높아지고 있다(Greenhalgh and Shaw 2017).

To achieve the aim of this review, we undertook a hermeneutic literature review. Understanding fairness in human judgement requires reviewing and compiling evidence from different disciplines and perspectives, considering unique contexts and complexity, and reviewing implications for many different stakeholders. Not surprisingly, this literature is vast, heterogeneous and without consensus answers from randomised controlled trials. A hermeneutic approach uses as cyclical rather than linear framework, and is concerned with the process of creating interpretive understanding. Papers are interpreted in the context of other papers from the literature and understanding is influenced by each new paper read (Boell and Cecez-Kecmanovic 2010). The popularity of a hermeneutic review is increasing as it has value in generating insights from heterogenous literatures which cannot be synthesised through systematic review methodology, and would otherwise produce inconclusive findings (Greenhalgh and Shaw 2017).


검토에는 두 가지 주요한 연속적인 순환 과정이 있었다. 즉, 그림 1(Boell and Cecez-Kecmanovic 2014)에서 입증된 주장을 전개하기 위해 입수한 기사의 검색 및 획득과 분석과 해석이다. 검토 내내 기존 문헌을 의미 있게 종합하고 비평하기 위해 해석적 접근법을 사용했다(Boell and Ccez-Kecmanovic 2014). 이러한 접근방식과 일관되게, 우리의 문헌 검색은 엄격했지만 유연하고 반복적이었으며, 아이디어가 지도화, 분류, 비판적으로 평가되고 증거의 성격이 더욱 명백해짐에 따라, 연구 질문의 추가적인 정교화가 이루어졌다(Boell과 Cecz-Kecmanovic 2010).

There were two main continuous cyclical processes in the review: the search and acquisition of articles and the analysis and interpretation of the articles obtained to develop an argument as demonstrated in Fig. 1 (Boell and Cecez-Kecmanovic 2014). Throughout the review an interpretive approach was used to meaningfully synthesize and critique the existing literature (Boell and Cecez-Kecmanovic 2014). Consistent with this approach, our literature search was rigorous but flexible and iterative, and as ideas were mapped, classified and critically assessed and the nature of the evidence became more apparent, there was further refinement of the research question (Boell and Cecez-Kecmanovic 2010).


그림 1 문헌 검토를 위한 프레임워크로서의 헤르메뉴틱 서클 (Boell and Ccez-Kecmanovic 2014)

Fig. 1 The hermeneutic circle as a framework for the literature review (Boell and Cecez-Kecmanovic 2014)


리뷰의 초점

Focus of the review

그림 1에서 서술한 단계들을 헤르메뉴틱 리뷰의 모범 사례로 따라, 우리의 문학 리뷰는 초기 아이디어에서 시작되었다. 이것들이 우리의 초기 질문들을 형성했다:

Following the steps outlined in Fig. 1 as best practice for a hermeneutic review, our literature review started with initial ideas. These formed our initial questions:



검토 단계 Stages of the review

1단계: 증거 검색 및 획득 

Stage 1: search and acquisition of evidence

2019년 7월 NV는 그림 2에 요약된 검색 전략으로 시작했다. 

In July 2019 NV began with the search strategy outlined in Fig. 2. 





2단계: 데이터 추출, 분석 및 해석

Stage 2: Data extraction, analysis and interpretation


3단계: 개념 모델 개발

Stage 3: Development of a conceptual model

문헌 검토 과정에서, 건강 전문직 평가에서 인간 판단의 공정성에 대한 정의의 개념적 모델이 문헌 검토를 기반으로 개발되었다(그림 3). 

During the literature review process, a conceptual model of the definition of fairness in human judgement in health professions assessment was developed based on the literature review (Fig. 3). 


결과 Results

우리의 모든 질문에 대한 '숙성' 과정은 90개의 논문이 포함된 후에 이루어졌다. 이것들은 표 1에 요약되어 있다. 

The process ‘saturation’ on all our questions was reached after the inclusion of 90 papers. These are summarised in Table 1. 




개요: 평가 시 인간 판단의 공정성

Overview: fairness in human judgement in assessment

공정성은 복수의 정의를 가진 복잡한 구인이다(Tierney 2012). 평가 문헌 내에서는 "편향과 차별이 없고 모든 학생에게 적합성 규칙과 표준을 요구하는 판단의 질"(Harden et al. 2015) 또는 "시험에서 측정하고자 의도한 구인을 보여주는demonstrate 것에 대하여, 모든 응시자에게 동등한 기회를 주도록 시험이나 평가 과정 내 편향이 부재한 것"등과 같이 공정성을 단순화하려는 시도가 있었다. (American Research Association et al. 1999) 또는 "기술적 정신측정학 용어가 아님"(Tierney 2012)에 대한 그들의 입장을 입증한다. 그러나 공정성은 또한 공정성, 일관성, 균형, 유용성 및 윤리적으로 실현 가능한 것과 같은 광범위한 평가 관련 품질과 연관되어 있다. 이러한 폭breath는 평가의 공정성이 다면적이며, 이분법적으로 결정되거나 단순한 정의(Tierney 2012)로 축소될 수 있는 것이 아님을 보여준다.

Fairness is a complex construct with multiple definitions (Tierney 2012). Within the assessment literature, there have been attempts to simplify fairness to “the quality of making judgements that are free from bias and discrimination and requires conformity rules and standards for all students” (Harden et al. 2015), or “absence of bias within the test or assessment processes that give all candidates an equal opportunity to demonstrate their standing on the construct the test is intended to measure” (American Research Association et al. 1999) or as “not a technical psychometric term” (Tierney 2012). However, fairness has also been associated with a wide range of assessment related qualities such as equitable, consistent, balanced, useful and ethically feasible. This breath demonstrates that fairness in assessment is multifaceted and not something which can be reduced to a number, determined dichotomously or a simple definition (Tierney 2012).


인간 판단의 공정성의 특성을 이해하는 데 도움을 주기 위해, 문헌 검토의 결과로부터 개념적 프레임워크(그림 3)를 도출했다. 공정한 인간 판단의 복잡한 구조는 

  • 공정한 인간 판단의 특성(해외, 경계, 전문성, 민첩성 및 증거)

에 의해 개념화되며, 이는 실제 구성요소로 인간 판단의 공정성을 변환하는 데 있어서, 

  • 개개인의 수준에서 실제 구성요소로 지원되고 번역되는 가치(확실성, 목적에 적합성, 투명성 및 방어성)와 

  • 시스템 수준에서 도움이 되는 절차 및 환경(일반적인 공정성, 문서화, 다중 기회, 복수의 평가자, 타당성 증거)

To assist in understanding the characteristics of fairness in human judgement, a conceptual framework was derived (Fig. 3) from the results of the literature review. The complex construct of fair human judgement could be conceptualised through 

  • values (credibility, fit for purpose, transparency and defensibility) 

which are supported and translated into practical components 

  • at an individual level by characteristics of fair human judgement (narrative, boundaries, expertise, agility and evidence) and 

  • at a systems level by procedures and environments (procedural fairness, documentation, multiple opportunities, multiple assessors, validity evidence) which help translate fairness in human judgement from concepts into practical components.



평가에서 공정한 인간 판단의 가치

Values of fair human judgement in assessment

문헌 검토에서 평가에서 공정한 인간 판단의 네 가지 가치, 즉 신뢰도, 목적에 대한 적합성, 방어성 및 투명성을 확인했다. 이 값들은 모두 겹쳐서 서로 관련된다. 때로는 값이 상충하는 것처럼 보여서 관리해야 할 긴장을 고조시킨다. 이것들은 아래에 더 자세히 설명되어 있다.

The literature review identified four values of fair human judgement in assessment: credibility, fitness for purpose, defensibility and transparency. These values all overlap and relate to each other. At times the values appear to be conflicting, raising tensions which need to be managed. These are described in more detail below.


신뢰도 Credibility

[믿을 만하다고 여겨지는 인간]의 판단은 공정하다고 보여진다. 학습자들에게는 특히 불확실한 시기에는, 공정성이나 정의감이 [결정의 신뢰성]에 열쇠가 된다(Van den Bos and Medema 2000; Lind and Van den Bos 2002). 신뢰성에 대한 명확한 정의는 없지만, 정의 전반에 걸친 중요한 관점이 신뢰성believability, 그리고 조사 결과의 '진실성'에 대한 자신감 또는 신뢰감(Govaerts and van der Vleuten 2013)으로 나타나고 있다

Human judgements which are seen as credible, are seen as fair. For learners, a sense of fairness or justice is key to the credibility of the decision, especially in times of uncertainty (Van den Bos and Miedema 2000; Lind and Van den Bos 2002). There is no clear definition of credibility however an overarching view across definitions appears to believability (Hilligoss and Young Rich 2008), and confidence or trustability in the ‘truthfulness’ of the findings (Govaerts and van der Vleuten 2013).


신뢰도 평가는 이분법적이지도 않고, 단 한 번에 일어나는 것도 아니다. 오히려, 정보 구상의 종단적 과정 전반에 걸쳐 이루어진 고려사항이다(Rieh와 Hilligoss 2008). 신빙성은 판단 자체뿐만 아니라 판단 당사자와도 관련이 있다(Chory 2007). [판단 그 자체의 신뢰성]과 그 [판단의 발단이 되는 사람] 사이의 상호작용이 된다(Chory 2007). [과거의 경험]은 신뢰도 판단에 영향을 미친다. 예를 들어, 학습자가 출처의 신뢰성에 의문을 제기하는 경우, 해당 출처의 모든 정보는 해당 시점(Rieh 및 Hilligoss 2008)에서 "두 번째 추측"된다.

Credibility assessment is a not dichotomous, nor does it occur at just one point in time. Rather, it is a consideration made throughout the longitudinal process of information seeking (Rieh and Hilligoss 2008). Credibility is related not only to the judgement itself but also to the person making the judgement (Chory 2007). It is an interplay between the credibility of the judgement itself and the person from whom it originates (Chory 2007). Past experience impacts credibility judgements. For example, if a learner questions the credibility of the source, all information from that source is “second guessed” from that point forward (Rieh and Hilligoss 2008).


[대인관계 또는 상호작용적 공정성]은 신뢰성과 공정성의 중요한 구성요소다(Rodabaugh 1996; Patterson et al. 2011). 대부분의 학습자들은 그들의 선생님을 존경하고 또한 존경받는 대우를 받기를 원했다(Rodabaugh 1996). 의료 교육에서 여러 연구의 주요 주제는 학습자의 신뢰성 판단에 있어 평가자 참여의 중요성이다. 연구에 따르면 학습자는 [평가자의 명백한 열정, 헌신, 가르치는 동기, 신뢰, 존중 및 호감]과 관련하여 학습자에 대한 분명한 느낌에 대해 신뢰성 있게 판단한다(Telio et al. 2016; Watling et al. 2008; Ginsburg et al. 2017a). [장기간의 관찰, 긍정적인 학습 문화, 증거를 수집할 다수의 기회]는 이러한 신뢰성 판단의 발달을 지원한다(Watling et al. 2008; Watling 2014).

Interpersonal or interactional fairness, is an important component of credibility and fairness (Rodabaugh 1996; Patterson et al. 2011). Most learners respect their teachers and wanted to be treated with respect also (Rodabaugh 1996). A dominant theme of several studies in medical education is the importance of assessor engagement in learner’s credibility judgements. Studies have noted learners make credibility judgements regarding the assessors’ apparent enthusiasm, dedication and motivation for teaching, and their apparent feelings towards the learner in regards to trust, respect and fondness (Telio et al. 2016; Watling et al. 2008; Ginsburg et al. 2017a). Prolonged observation, a positive learning culture, and multiple opportunities for evidence support development of this credibility judgement (Watling et al. 2008; Watling 2014).


방어성 Defensibility

평가에서 판단 결정은 [학습자가 종종 주장claims의 기초를 형성하는 공정성의 개념으로 법적 보상을 요구할 수 있기 때문에] (법적으로) 방어할 수 있어야 한다(Colbert et al. 2017). 법적 용어로 판단judgement이란 어떤 증거를 가지고 또는 정당한 이유로 한 주장이다(reid 1850). 의료교육과 같이 복잡하고 불확실한 환경의 판단은 참 또는 거짓으로 분류하기 어렵고 확실성보다는 [신뢰성 또는 수용성]에 더 의존한다(Upshur and Colak 2003; Groarke 2019). 의학 교육 내에서는 평가가 어떻든 항상 불확실성이 있을 것이다. 어떤 평가 방법도 연습생이 모든 상황에서 의사라는 기대를 충족시킬 수 있다는 결정적인 증거는 결코 아니다. [절차적 공정성, 문서화, 전문성 및 경계]와 같은 개별적 특성과 시스템 절차는 판단의 방어성을 구축한다.

Judgement decisions in assessment need to be (legally) defendable as learners may seek legal redress with the concept of fairness often forming the basis of claims (Colbert et al. 2017). In legal terms, a judgement is an assertion made with some evidence or for good reason (Reid 1850). Judgements in complex, uncertain environments such as medical education are difficult to categorise as true or false and rest more on plausibility, or acceptability rather than certainty (Upshur and Colak 2003; Groarke 2019). Within medical education, no matter the assessment, there will always be uncertainty. No assessment method is ever conclusive proof that a trainee will be able to fulfil the expectations of being a doctor in all circumstances. Individual characteristics and system procedures such as procedural fairness, documentation, expertise and boundaries build the defensibility of judgements.


목적 적합성

Fitness for purpose

많은 저자들은 공정성이 사회적 구인이라고 주장해왔다(Stobart 2005; Ståhl et al. 2019; Wolf 1978; Eva 2015; Gipps and Stobart 2009). 지프스 외 연구진은 평가가 기술적 특성(Gipps 및 Stobart 2009; Stobart 2005)과 함께, 그것이 운영되는 사회문화적 맥락을 고려해야만 완전히 이해할 수 있는 [사회적으로 내재된 활동]이라고 주장한다. 의학 교육은 다양한 임상적 맥락에서 이루어지며, 진정한authentic 건강 관리 실천이라는 예측 불가능한 과제에 참여함으로써 생성되고 고유한 물리적, 사회적, 조직적 맥락에 의해 형성된다(Govaerts and van der Vleuten 2013). 

Many authors have argued that fairness is a social construct (Stobart 2005; Ståhl et al. 2019; Wolf 1978; Eva 2015; Gipps and Stobart 2009). Gipps et al. argue that assessment is a socially embedded activity that can only be fully understood by taking account of the social and cultural contexts within which it operates, alongside the technical characteristics (Gipps and Stobart 2009; Stobart 2005). Medical education occurs in diverse, clinical contexts, with learning produced by engagement in unpredictable tasks of authentic health care practice and shaped by unique physical, social and organisational contexts (Govaerts and van der Vleuten 2013). 


따라서 판단에서 무엇이 공정하고 신뢰할 수 있는지는 임상적 만남의 맥락과 환경 및 문화에 의해 결정되어야 하며, (다른) 증거의 존재만으로 결정되지 않아야 한다. 미국의 법률 시스템 내에서 처벌, 행정 편의 또는 자원의 예산 제약/이용 가능성과 같이 의도가 부적절할 경우 전문적 판단을 무시한다(Stefan 1993).

Therefore, what is fair and credible in a judgement must be determined by the context of the clinical encounter, and the environment and culture, not just by the existence of other evidence (Upshur and Colak 2003). Within the US legal system there is general consensus if the intent is inappropriate, such as punishment, administrative convenience, or budgetary constraints/availability of resources then the professional judgement is disregarded (Stefan 1993).


또한 공정한 판단 결정은 [의료전문가의 업무]와 [환자의 요구]와도 관련이 있어야 한다. 연구는 학습자들이 무엇보다도 임상적 관련성이 있다는 평가를 인지했다는 점에 주목했다(더필드와 스펜서 2002; 비니 외 2017). 맥락에 의존하고 목적에 맞는 공정한 판단은 총체적이다. 환자들은 측정 가능한 단위로 깔끔하게 분해되지 않으며 건강 전문가의 작업 또한 그렇지 않다. 통합 또는 전체론적 역량은 선별적으로 접근 가능한 증거를 옹호하며, 이는 역량이 추론되는 직장 및 환자 상황의 맥락에 민감하다(Beckett 2008).

Fair judgement decisions also need to relate to the work of a health care professional and the needs of the patient. Studies have noted that learners perceived assessment that, among other things, had clinical relevance was fair (Duffield and Spencer 2002; Viney et al. 2017). Context dependent and fit for purpose fair judgements are holistic. Patients are not neatly broken down into measurable units and neither can the work of a health professional. Integrated or holistic competence advocates a selective accessibly of evidence, which is sensitive the to the context of the workplace and patient situation, from which competence is inferred (Beckett 2008).


투명성 Transparency

문헌 전체에 걸쳐, 학습자와 공유된 이해를 구축하기 위해 개방성을 입증하는 공정한 평가를 강조한다(Dijksterhuis et al. 2009; Colbert et al. 2017; Van der Vleuten et al. 2015; Hays et al. 2015; Schuwirth et al. 2002), 일부 저자들은 투명성이 불공정한 평가에 대한 최선의 방어라고 주장한다(Gipps and Stobart 2009). 여기에는 [어떤 판단을 내릴 것인지, 누가 판단을 내릴 것인지, 판단의 목적, 기준 및 결과에 대한 명시적 의사소통]이 포함된다(Tierney 2012). 투명성을 개선하기 위한 의사소통 개입이 전체 공정성에 대한 candidate의 인식을 개선할 수 있다는 연구 결과가 나왔다(Patterson et al. 2011). 투명성은 판단 과정의 가치와 편견을 공개하고 이에 대한 영향에 대해 토론할 기회를 제공한다(Gipps와 Stobart 2009).

Throughout the literature, there is an emphasis on fair assessments demonstrating openness to build a shared understanding with learners (Dijksterhuis et al. 2009; Colbert et al. 2017; van der Vleuten et al. 2015; Hays et al. 2015; Schuwirth et al. 2002), with some authors arguing transparency is the best defence against unfair assessment (Gipps and Stobart 2009). This includes explicit communication about what judgements will be made, who will make them, the purpose, criteria, and results of the judgement decisions (Tierney 2012). Research has demonstrated communication interventions to improve transparency can improve candidate perceptions of overall fairness (Patterson et al. 2011). Transparency brings out into the open the values and biases of the judgement process and provides an opportunity for debate about the influences on this (Gipps and Stobart 2009).


투명성에는 수행능력 향상과 피드백에 초점을 맞춘 서술도 포함된다(Rodabaugh 1996; Colbert et al. 2017). 한 연구는 의대생을 대상으로 한 조사에서 '더 많은 피드백'이 공정성에 대한 일반적인 반응이라고 지적했다. 몇몇 의견제출자들은 적절한 피드백이 없다면, 미래에 계속해서 같은 실수를 저지를 수 있으며, 이는 불공평한 것으로 간주된다고 언급하였다(더필드와 스펜서 2002). 피드백을 제공하는 성과에 대한 고품질의 적절한 판단은 판단 결정의 신뢰성, 투명성 및 공정성을 구축한다(Tavares and Eva 2013; Govaerts and Van der Vleuten 2013).

Transparency also includes a narrative which focuses on performance improvement and feedback (Rodabaugh 1996; Colbert et al. 2017). One study noted ‘more feedback’ as a common response in a survey of medical students about fairness. Several respondents noted that without adequate feedback, they could continue to make the same mistakes in the future, and this was considered unfair (Duffield and Spencer 2002). High quality, appropriate judgements about a performance which provide feedback build the credibility, transparency and thus fairness of a judgement decisions (Tavares and Eva 2013; Govaerts and van der Vleuten 2013).


그러나 가치로서의 투명성은 공정성의 다른 가치와 상충될 수 있다(Tierney 2012). 예를 들어, 투명성은 학습자에게 프레임워크와 기대치에 대한 이해를 제공하지만, 이것은 더 신뢰할 수 있고 목적에 적합하며 방어할 수 있는 개별화된 [맥락적 평가의 기회를 제한]할 수 있다. 투명성은 컨텍스트-독립성을 목표로 하는 체크리스트, 루브릭 및 판단 보조 도구로 이어질 수 있기 때문이다

However, transparency as a value can conflict with other values of fairness (Tierney 2012). For example, transparency provides learners with a framework and an understanding of expectations, but this can restrict opportunities for individualised, contextual assessment which is more credible, fit for purpose and defensible. Transparency can lead to checklists, rubrics and judgement aids which aim to be context independent. 


와틀링(2014년)은 사전 결정된 평가 양식을 주목했는데, 평가자가 관찰되지 않거나 임상 상황의 맥락에서 광범위한 역량에 대해 판단하도록 강요받으면 평가자와 프로세스에 대한 학습자의 신뢰도가 떨어지고, 의미 없는 상투적인 산더미에서 잠재적으로 [신뢰할 수 있는 결정]을 숨길hide 수 있다. 게다가, 분명하게 표현할 수 없는 판단을 내릴 때 작용하는 많은 개별화된, 암묵적인 가치관과 개인적 특성이 있다. 투명성이 신뢰도, 방어성 및 인간 판단의 공정성에 [합목적적인 공생] 속에서 이뤄질 수 있도록 하기 위해서는 그림 3과 같이 전문가의 능력, 경계, 서술성, 평가자의 민첩성 등 많은 특성이 필요하다.

Watling (2014) noted predetermined assessment forms, where assessors are forced to make judgements on a wide range of competencies not observed or in context of the clinical situation can diminishes the learners’ trust in the assessor and process, and hides potentially credible decisions in a mountain of meaningless platitudes. Furthermore, there are many individualised, tacit values and personal characteristics which come into play when making judgements which cannot be explicitly expressed. To ensure transparency can occur in symbiosis with credibility, defensibility and fit for purpose in fairness in human judgement, many characteristics such as expert abilities, boundaries, narrative and agility of assessors are needed as demonstrated in Fig. 3.


개인 차원의 평가에서 인간 판단의 공정성을 창출하기 위해 필요한 것은 무엇인가?

What is needed to create fairness in human judgement in assessment at an individual level?

판단 결정이 평가에서 인간 판단의 공정성의 가치에 내재된 경우, 이러한 결정은 내러티브, 증거, 경계, 전문지식 및 민첩성을 포함한 개별적 수준의 구성요소에 의해 뒷받침되어야 할 것이다.

If judgement decisions are embedded in the values of fairness in human judgement in assessment, then these will need to be supported by components at an individual level, including narrative, evidence, boundaries, expertise and agility.


내러티브 Narratives

내러티브는 인간의 판단에 투명성, 신뢰성, 방어성, 맥락, 경계 및 관점을 제공한다. 내러티브는 의도적으로 수행능력의 맥락 특이적 측면을 잡아내기 때문에, 학습자가 어떠한 방식과 이유와 방법으로 평가받았는지를 정의할 수 있게 된다. 이로서, 비선형적non-linear 평가를 캡처할 수 있으며, 의미 구성을 허용하고 성찰을 장려하여, 평가의 방어성을 개선하고 판정이 목적에 적합하도록 보장할 수 있다.

Narratives provide transparency, credibility, defensibility, context, boundaries and perspective to human judgement. It intentionally captures context-specific aspects of performance (Govaerts and van der Vleuten 2013; Bacon et al. 2017; Ginsburg et al. 2015), allows for capturing of non-linear assessment by defining how, why and in what way a learner has been judged, allows for the construction of meaning and encourages reflection (Greenhalgh and Hurwitz 1999a, b) which can improve defensibility and ensure the judgements remain fit for purpose.


일부 저자들은 전문가의 주관적 내러티브 논평은 '총괄적 평가에서 신뢰할 수 있는 의사결정을 하는데 필수적'이며, 따라서 판단의 신뢰도에 필수불가결하다고 제안한다. 평가자가 자신의 생각을 명확히 표현할 수 있도록 허용하는 것은 평가가 평가자의 사고를 가리는 [수치적 점수에 의존할 때 발생하는 환원주의]보다 더 신뢰할 수 있고 방어할 수 있다(Govaerts and van der Vleuten 2013; McCready 2007). 평가에 서술적 내러티브를 사용하는 것은 위험 학습자를 조기에 식별하는 것으로 나타났다(Cohen et al. 1993; Durning et al. 2010; Ginsburg et al.2017b; Ginsburg et al. 2013). 내러티브는 또한 평가자들을 보다 전체적인 판단으로 이끌며(Bacon et al. 2017), [학습자들이 공정한 판단에 필요하다고 보는] 피드백을 허용한다(Rodabaugh 1996; Colbert et al. 2017; Duffield and Spencer 2002; Govaerts and van der Vleuten 2013; Tavares와 Eva 2013; Watling et al. 2008). 더욱이, return-to-work 문헌에서, 판단의 공정성에 대한 인식은 적어도 부분적으로 관련 전문가의 의사소통 능력에 의존했다(Sthl et al. 2019).

Some authors propose that expert subjective narrative comments are ‘indispensable for trustworthy decision making in summative assessments’, and thus credibility of judgements (Ginsburg et al. 2015; Marjan Govaerts and van der Vleuten 2013). Allowing assessors to articulate their thinking, may be more credible and defensible than reductionism which occurs when assessments rely on numerical scores which mask assessors’ thinking (Govaerts and van der Vleuten 2013; McCready 2007). The use of descriptive narratives in assessment has been shown to identify at-risk learners earlier (Cohen et al. 1993; Durning et al. 2010; Ginsburg et al. 2017b; Ginsburg et al. 2013) and contributes to predicting future performance or need for remediation (Cohen et al. 1993). Narratives also lead assessors to more holistic judgements (Bacon et al. 2017) and allow for feedback which learners see as essential for a fair judgement (Rodabaugh 1996; Colbert et al. 2017; Duffield and Spencer 2002; Govaerts and van der Vleuten 2013; Tavares and Eva 2013; Watling et al. 2008). Furthermore, within the return-to-work literature, perceptions of the fairness of the judgements was at least partly dependent on the communication skills of the professionals involved (Ståhl et al. 2019).


내러티브는 또한 [그룹 의사결정을 용이하게 하고, 평가자가 가정을 명확히 하고, 견해의 확정을 논하고, 다른 사람의 관찰로부터 배울 수 있도록 함]으로써 [시스템 수준]에서 방어성을 더한다(Bacon et al. 2017). 어떤 사람이 자신의 결정에 대한 이유를 명확하게 설명하기 위해 내러티브를 사용해야 할 때, 그들은 그들이 목적에 적합하도록 확실히 하기 위해 의사 결정에 더 집중하게 된다. (Daniels and Sabin 1997).

Narratives also add to defensibility at a systems level by facilitating group decision making, allowing assessors to articulate assumptions, discuss disconfirming views and learn from the observations of others (Bacon et al. 2017). When a person is required to use narratives to articulate the reasons for their decisions they become more focused in their decision making ensuring they remain fit for purpose (Daniels and Sabin 1997).


평가자의 언어는 모호하고 간접적일 수 있으며, 교직원과 학습자가 자신의 코멘트에 의해 의도된 평가자의 의도를 추측하도록 요구하는 경우('숨겨진 코드'를 찾음) 이 코드를 해석하는 데 있어 교직원과 학습자들 사이에 놀라운 일관성이 있다(Ginsburg et al. 2015, 2016, 2017a). 그러나, 체면 유지를 위한 '헷징'을 포함한 여러 요소들로 인해, 내러티브는 종종 학습자가 얼마나 열심히 일하느냐에 초점을 맞추는데, 이는 학습자가 노력의 이러한 인식을 공정하다고 보는 경우가 많지만, 성과 판단에 도움이 되지 않을 수 있다. 게다가, 일부 평가자들은 부정적인 메시지를 효과적으로 전달하기 위한 훈련과 내러티브가 부족하다고 느낀다. (Cleland et al. 2008) 

Whilst assessors’ language may be vague and indirect, requiring faculty and learners to guess what assessors intended by their comments (finding a ‘hidden code’) there is surprising consistency amongst faculty and learners in interpreting this code (Ginsburg et al. 2015, 2016, 2017a). However, due to multiple factors, including ‘hedging’ to save face, narrative often focuses on how hard a learner works which can be unhelpful in judging performance (Ginsburg et al. 2016, 2017a), although learners often see this recognition of effort as fair (Rodabaugh 1996). Furthermore, some assessors feel they lack the training and narrative to give negative messages effectively (Cleland et al. 2008). 


이러한 한계를 극복하기 위해 많은 사람들은 평가자에게 판단을 요청할 때 임상 실무에 적합한 서술법을 사용할 것을 요구하였다(Kogan et al. 2014; Crossley and Jolly 2012). 평가 척도를 임상적 독립성 또는 위임 구성에 맞춰 조정하면 점수 신뢰도와 평가자 차별성이 개선되는 것으로 나타났다(Crossley and Jolly 2012; Weller et al. 2014). 이것은 또한 임상적 증거가 [판단의 내러티브]의 기초가 될 수 있도록 하여 신뢰성을 향상시킨다 (Watling et al. 2012). 더욱이, (이러한) 판단은 평가 척도보다 고품질 임상 치료에 집중되기 때문에, 환자들에게도 더 공평하다(Kogan et al. 2014).

To overcome these limitations, many have called for narratives which fit clinical practice to be used when asking assessors to make judgement (Kogan et al. 2014; Crossley and Jolly 2012). Aligning rating scales to the construct of clinical independence or entrustment has been shown to improve score reliability and assessor discrimination (Crossley and Jolly 2012; Weller et al. 2014). This also allows for clinical evidence to be form the basis of the narrative of the judgement which improves credibility (Watling et al. 2012). Furthermore, it also is fairer to patients, as the judgements are focused on high quality clinical care rather than rating scales (Kogan et al. 2014).


근거 Evidence

근거는 판단을 뒷받침하는 수단으로 제공되며(Upshur와 Colak 2003), 타당성 논쟁을 일으키는데 필수적이다(Govaerts and van der Vleuten 2013). 근거가 없으면 판단이 아니라 추측이다(Downie and Macnaughton 2009). 근거 그 자체는 종종 주관적이다. 각 맥락에서 적용할 수 있는 증거를 판단하는 보편적 표준은 없으며, 따라서 필요한 근거의 유형은 그에 따라 달라질 것이다(Upshur와 Colak 2003). 또한 고부담 평가에서 [데이터 수집 단계와 수집된 증거]가 실제 판단 자체보다 더 자주 어려운 것임이 입증되었다(Southgate et al. 2001).

Evidence is offered as a means of supporting judgements (Upshur and Colak 2003), and is essential for creating a validity argument (Govaerts and van der Vleuten 2013). Without evidence, it is not a judgement but a guess (Downie and Macnaughton 2009). Evidence itself is often subjective. There is no universal standard to adjudicate evidence that can be applied in each context, and the type of evidence needed will therefore vary accordingly (Upshur and Colak 2003). It has also been demonstrated that in high stakes assessment, the data gathering phase and evidence collected is more often challenged than actual judgement itself (Southgate et al. 2001).


Watling 외 연구진(2012)은 [환자의 임상 결과 및 환자로부터의 피드백]과 같이, 학습자는 [의사의 실제 작업에 내재된 판단에 관한 근거]를  본질적으로 신뢰할 수 있는 것으로 보았다. 평가자로부터 [직접 관찰을 받음]으로서 판단 결정을 받는 것은 평가의 공정성에 대한 신뢰도와 인식에 기본적이며, 이러한 공정성에 대한 인식은 관찰이 장기간에 걸쳐 이루어질 경우 더욱 강화된다(Duffield 및 Spencer 2002; Bul).잠금 등 2019). 다양한 임상 환경에서 복수의 증거 출처를 갖는 것(삼각측량), 증거의 지속적인 수집 및 삼자 회의(피어 디브리핑 및 멤버 체크)와 같은 시스템 절차도 증거의 공정성에 대한 인식을 개선하기 위해 보인다(Webb et al. 2003; Bacon et al. 2017; Watling et al. 2013a).

Watling et al. (2012) noted evidence for judgements that were embedded into the actual work of a doctor, such as patient clinical outcomes and feedback from patients was seen by learners as being intrinsically credible. Having the opportunity to be directly observed by the assessor making judgement decisions is fundamental to the trustworthiness and perception of fairness of the assessment (Watling and Ginsburg 2019; Watling et al. 2013a; Watling et al. 2008), and this perception of the fairness is enhanced by prolonged observation (Duffield and Spencer 2002; Bullock et al. 2019). System procedures such as having multiple sources of evidence in a variety of clinical settings (triangulation), continuous collection of evidence and tripartite meetings (peer debriefing and member checks) is also seen to improve the perception of fairness of evidence (Webb et al. 2003; Bacon et al. 2017; Watling et al. 2013a).


경계 Boundaries

공정한 판단 결정은 경계가 있다고 볼 수 있다. 이것들은 판단에 도달하고, 판단 결과를 소통하는 과정에서 

    • 허용 가능한/허용되지 않는 것

    • 관련성이 있거나 없는 것, 

    • 목적에 적합한 것/부적합하지 않은 것 사이의 경계선이다

Fair judgement decisions can be seen as having boundaries. These are boundaries between 

    • what is acceptable/not acceptable, 

    • what is relevant/not relevant or 

    • what is fit for purpose/not fit for purpose in the process of arriving at and communicating a judgement. 

경계는 사회적 구인으로서, [가치와 연결되고, 따라서 평가자는 서로 다른 장소마다 경계를 구성]한다. 본질적으로, [경계]는 모호하다. 학습자들은 경계가 어디에 있는지, 그리고 무엇이 "평가가능한지"에 대해 걱정한다. [지속적인 관찰]은 학습자에게 [모든 관찰은 체면을 잃거나 평가 결과에 영향을 줄 수 있는 기회]라는 것을 의미할 수 있다. 한 연구에 따르면 학생들은 인종, 성별, 연령에 기초하여 일부 학생에 대한 교수진의 편파성이 불공평하다고 느꼈으며, 많은 국가에서 이 또한 불법이라고 한다. 암묵적으로 공유된 가치, 표준 문서는 판단 결정을 위한 증거가 될 수 있는 것의 경계를 만드는 데 도움을 준다. 극단적인 관점을 갖는 것은 또한 그들이 내리는 사람과 판단의 신뢰성을 떨어뜨리는 경향이 있다(Kirkland 2012).

Such boundaries are social constructs, connected with values and thus assessors construct boundaries in different places (Houston 2002). By their very nature, boundaries are fuzzy. Learners are concerned about where boundaries lie, and what is “assessable” (Rees and Shepherd 2005). Continuous observation may mean every observation is an opportunity for learners to lose face and impact their assessment outcome (Watling and Ginsburg 2019). One study noted students felt a faculty member’s partiality to some students on the basis of race, gender or age was unfair, (Rodabaugh 1996) and in many countries this is also illegal. Implicit shared values, standard documents assist in creating boundaries of what is able to be evidence for judgement decisions. Holding extreme views, at the edge of boundaries also tends to lower the credibility of the person and the judgements they make (Kirkland 2012).


전문성 Expertise

의학 교육에는 임상 및 교육이라는 두 가지 유형의 전문지식이 있다(Jones 1999). 평가자는 평가자로서의 신뢰성을 갖추려면 전문 임상의로서의 신뢰성이 필요하다고 본다(Watling et al. 2012, 2013b; Telio et al. 2016; Berendonk et al. 2013). 의사결정 위원회는 또한 전문성을 중시하며, 공정성과 신뢰성을 확보하기 위해 교수의 [전문가로서 인지된 지위]에 의존한다(Hauer et al. 2016).

Within medical education, there are two types of expertise, clinical and educational (Jones 1999). Assessors perceive that credibility as an expert clinician is required if one is to have credibility as an assessor (Watling et al. 2012, 2013b; Telio et al. 2016; Berendonk et al. 2013). Decision making committees also value expertise, relying on faculty members’ qualifications via their perceived status as expert to help ensure fairness and credibility (Hauer et al. 2016).


학습자는 교육적 전문지식보다 임상적 전문지식을 중시한다(Watling et al. 2013b). 그러나 의료 교육 전문가들은 일반적으로 정보 및 정보 집합을 가지고 추론할 때 의미 있는 패턴 및 추상화를 더 많이 사용한다(Govaerts et al. 2011). 그들은 잘 발달된 개인 스키마를 가지고 있으며, 그들이 평가하고 있는 특정한 문제나 상황에 근거하여 사용하는 스키마를 선택할 수 있으며, 이것은 예측할 수 없는 맥락에서 판단을 용이하게 하는데 효과적이다(Watling et al. 2012; Govaerts et al. 2013; Marewski et al. 2010). 또한 그들은 다양한 맥락의 특정 정보를 의미 있는 패턴으로 결합하여 평가판단을 내릴 가능성이 더 높으며, 주로 그들이 본 것에 대한 문자적이고 피상적인 설명을 제공하는 초보자에 비해 연습생 성과에 대한 보다 풍부하고 해석적인 설명을 제공한다(Govaerts et al. 2011).

Learners value clinical expertise over educational expertise (Watling et al. 2013b). However, experts in medical education in general make more inferences on information, cluster sets of information into meaningful patterns and abstractions (Govaerts et al. 2011). They have a well-developed set of personal schemas, and are able to choose a schema used based on the specific problem or context they are assessing, which is effective for facilitating judgement in unpredictable contexts (Watling et al. 2012; Govaerts et al. 2013; Marewski et al. 2010). They also are more likely to make evaluative judgements, combining various context specific information into meaningful patterns, providing richer and more interpretive descriptions of trainee performance as compared to novices who mostly provide literal, superficial descriptions of what they had seen (Govaerts et al. 2011).


민첩성 Agility


Govaerts 외 연구진(2013년)은 평가자가 수행능력을 평가할 때 다양한 수행능력의 측면을 고려한다는 점에 주목했다. 예를 들어, 병력청취, 신체검사, 환자관리 중 성과를 평가할 때, 측정자들은 문제의 '의학-기술적' 측면을 적절히 다루는 학생들의 능력뿐만 아니라 의사소통, 대인관계, 시간관리 능력도 평가했다. 이와는 대조적으로 많은 평가 양식은 [맥락에 무관하게 독립적이며 임상 상황에 관계없이 모두 완료해야 하는] 별개의 독립된 실체로 성과 차원을 열거한다. 비록 이러한 방식은 투명하지만, 신뢰도가 낮거나 목적에 적합하지 않으며(Watling 2014; McCready 2007) [맥락적으로 적절하고, 전체론적이며 개별화된 판단 결정을 내릴 수 있는] 평가자의 민첩성을 인식하지 못한다(Govaerts et al. 2013). [지침이나 프로토콜을 엄격히 준수하는 것]과 [높은 "품질"]을 동일시하는 것은 보다 정교한 [전문성의 프로세스]에 대한 증거를 간과하는 것이다(Greenhalg et al. 2014). 

Govaerts et al. (2013) noted that assessors consider multiple performance dimensions when assessing performance. For example, when assessing performance during history taking, physical examination or patient management, raters assessed not only students’ ability to adequately handle the ‘medico-technical’ aspects of the problem, but also communication, interpersonal and time management skills. In contrast, many assessment forms aim to be context independent and list performance dimensions as separate distinct entities which all need to completed regardless of the clinical situation. Although this is transparent, it is not credible or fit for purpose (Watling 2014; McCready 2007) and does not recognise assessors’ agility to make contextually appropriate, holistic and individualised judgement decisions (Govaerts et al. 2013). Equating “quality” with someone who strictly adheres to guidelines or protocols, is to overlook the evidence on the more sophisticated process of expertise (Greenhalgh et al. 2014). 


공정성의 관점에서, 이러한 목적 적합하고 개별화된 전체론적 판단은 [여러 항목으로 된 체크리스트보다 더 낫지는 않더라도] 평가자 합의와 수행능력의 변별력을 입증하며, 사회적으로 더 공평하다왜냐하면 환자들은 상담의 '부분parts'를 할 수 있는 사람이 아니라, 심리학적으로 그들의 심리학적 환경에서 자신들에게 다가갈 수 있는 [전인적인whole person] 사람으로서 건강 전문가가 필요하기 때문이다. 

From a fairness perspective, these fit-for-purpose, individualised holistic judgements demonstrate at least as much, if not more, assessor agreement and performance discrimination than checklists of actual items (Crossley and Jolly 2012; MacRae 1998; Sadler 2009) and are fairer to society because patients need a health professional who can approach them as a whole person, in their psychosocial environment, not one who can do ‘parts’ of an consultation. 


법률적 관점에서, 의학에서는 [맥락]은 논쟁적합성의 판단에 강하게 영향을 미친다는 인식이 증가하고 있으며, 임상적 판단이 개별화되지 않은 경우에는 전문적 판단에서 벗어나는 것으로 간주된다(Stefan 1993).

From a legal perspective, in medicine there is increasing recognition that the context strongly influences the adjudication of argument adequacy and if a clinical judgement is not made on an individualised basis, it constitutes a departure from professional judgement (Stefan 1993).


나아가, [상담이 실시간으로 진화할 때만 문제가 드러나는] 불확실한 상황인 실생활real life에서 평가가 자주 일어나기 때문에, 평가자는 환자의 공정성과 안전을 보장하기 위해 실시간으로 판단해야 한다. 상황을 평가하고, 적절한 조치를 취하고, 결과를 재평가하기 위한 지속적인 모니터링 사이클이 필요하다. 이것은 민첩성을 필요로 한다. 이러한 민첩성과 전문지식이 결합되면, 연습생이 직장에 기반한 학습에 종사할 수 있게 되므로, 실제 환자들에 대한 임상 경험을 획득하여 환자 안전을 보장하면서도 학습을 극대화할 수 있다.

Furthermore, because assessment often occurs in real life, uncertain situations where issues only become apparent as the consult evolves in real time, assessors need to make judgements in real time to ensure patient fairness and safety (Katerndahl et al. 2010; Plsek and Greenhalgh 2001; Kaldjian 2010; Berendonk et al. 2013; Lipshitz et al. 2001; Flin et al. 2007; Epstein 2013). A continuous cycle of monitoring to assess the situation, taking appropriate actions and re‐evaluating the results is required (Flin et al. 2007). This requires agility. This agility, combined with expertise allows for trainees to engage in workplace based learning, gaining clinical experiences on real life patients to maximise learning whilst still ensuring patient safety (Flin et al. 2007).


시스템 수준에서 평가에서 인간 판단의 공정성을 창출하기 위해 필요한 것은 무엇인가?

What is needed to create fairness in human judgement in assessment at a systems level?

개별적인 평가판단은 독립적이지 않고 오히려 평가 시스템의 일부분이다. 시스템 사고의 관점을 활용하면 단순히 개별적인 수준의 공정성을 검사하는 것 보다 공정한 인간 판단의 개인 특성과 가치에 대한 보다 풍부한 검사가 가능하다(Colbert et al. 2015). 시스템 수준에서 공정성의 가치와 개별 특성을 지원할 수 있는 시스템과 환경에는 절차적 공정성, 문서화, 다중 기회, 복수의 평가자 및 타당성 증거가 포함된다.

Individual assessment judgements are not independent, rather they are part of an assessment system. Utilising a systems thinking lens enables a richer examination of individual characteristics and values of fair human judgement than would be possible from simply examining fairness at an individual level alone (Colbert et al. 2015). At a systems level, systems and environments which are able to support the values and individual characteristics of fairness include procedural fairness, documentation, multiple opportunities, multiple assessors and validity evidence.


절차적 공정성 Procedural fairness


절차적 공정성은 무정형의 개념이다. 교육 내에서는 절차적 공정성에 대한 명확한 정의가 없다. 그러나 이 비정형 개념의 중요성은 분명하다. 사람들은 결과를 결정하는 데 공정한 절차가 있다고 생각한다면 당국이 자발적으로 제공하는 결과를 받아들이고자 한다(Van den Bos et al. 1998; Van der Vleuten et al. 1991). 이는 실험실 실험, 조사 연구 및 실제 환경에서 발견되는 사회 심리학에서 가장 자주 복제되는 발견 중 하나이다(Van den Bos et al. 1997). 절차적 공정성은 후보자와 기관 모두에 대한 선발과 평가와 같은 고부담결정의 신뢰성에 중요한 역할을 한다(Burgess et al. 2014; Colbert et al. 2017).

Procedural fairness is an amorphous concept. There is no clear definition of procedural fairness within education. However, the importance of this amorphous concept is clear. People are more willing to voluntarily accept outcomes given to them by an authority if they perceive there is fair procedures in deciding the outcomes (Van den Bos et al. 1998; van der Vleuten et al. 1991). This is one of the most frequently replicated findings in social psychology, found in in laboratory experiments, survey studies and real world environments (Van den Bos et al. 1997). Procedural fairness plays an important role in the credibility of high stakes decisions such as selection and assessment, for both candidates and institutions (Burgess et al. 2014; Colbert et al. 2017).


절차적 공정성에 대한 인식에 긍정적인 영향을 미치는 것으로 보여지는 몇 가지가 있는데, 여기에는 판정이 이루어지는 과정을 명시적으로 기술하는 것(린드와 타일러 1988), 공식적이고 정기적인 판정 과정에 대한 포괄적 검토, 항소 절차의 제공(Hayes et al. 2015) 등이 있다. 또한 절차적 공정성을 위해 중요한 것은 학습자가 자신의 기대치와 이러한 [기대를 충족하지 못할 경우 요구되는 사항을 명시적으로 알려주도록] 하는 것이다(Colbert et al. 2017). 학습자에게 가능한 일찍 정보를 제공하는 것은 학습자가 자신의 의견을 말할 수 있게 해 주듯이 공정성에 대한 인식에 긍정적인 영향을 미치는 것으로 나타났다(Van den Bos et al. 1997). 평가 시기는 또 다른 관련 측면이다. 학습자가 자신의 행동을 바꿔볼 수 있는 기회가 없어 불공평하게 보이기 때문에 로테이션이 끝날 때 제공되는 판단은 잘 받아들여지지 않는다(Ramani et al. 2017; Watling et al. 2008).

There are several things which have been shown to positively influence the perception of procedural fairness which such as explicitly describing the process by which judgements are made (Lind and Tyler 1988), by formal, regular inclusive reviews of the judgement process, and provision of an appeals process (Hays et al. 2015). Also important for procedural fairness is to ensure the learner is explicitly told of their expectations and what else is required if they did not meet these expectations (Colbert et al. 2017). Providing learners with information as early as possible has been shown to positively impact perceptions of fairness, as has allowing learners to voice their opinion (Van den Bos et al. 1997). The timing of assessment is another relevant aspect; judgements provided at the end of a rotation are less well received, as there is no opportunity for learners to modify their behaviour which is seen as unfair (Ramani et al. 2017; Watling et al. 2008).


문서화 Documentation


[내려진 판단에 대한 풍부하고 의미 있는 정보의 문서화][예상되는 가치와 표준의 문서화]는 외부 감사, 재구성, 평가 및 품질 보증과 투명성, 신뢰성 및 방어성을 허용한다(Govaerts and van der Vleeuten 2013; Webb et al. 2003; McCready 2007). 또한 위에서 설명한 절차적 공정성은 평가 정책과 절차를 요약한 명확하고 포괄적인 문서가 필요하다(Hays et al. 2015).

Documentation of rich, meaningful information about judgements made, and documentation of values and standards expected allows for external audit, reconstruction, evaluation and quality assurance and thus transparency, credibility and defensibility (Govaerts and van der Vleuten 2013; Webb et al. 2003; McCready 2007). Furthermore, procedural fairness as described above needs clear and comprehensive documentation outlining assessment policies and procedures (Hays et al. 2015).


필요한 문서의 세부사항은 상황에 따라 달라진다. 한 연구는 평가자가 글로벌 역량 등급만 제공했기 때문에 학습자가 판단의 신뢰성에 의문을 제기했다고 지적했다. 평가자가 의미 없이 체크박스를 하지 않았기 때문에 이것이 잠재적으로 더 신뢰할 수 있는 것으로 보일 수 있지만, 완전한 문서화의 결여는 반대의 효과로 이어졌다(Rees and Shepherd 2005).

The detail of the documentation required depends on the context. One study noted a learner questioned the credibility of a judgement because the assessor only provided a global competency grade. Although this could potentially be seen as more credible because the assessor did not meaninglessly tick boxes, the lack of complete documentation led to the opposite effect (Rees and Shepherd 2005).


다수의 기회 Multiple opportunities


질병은 [사물]이 아니라 [의사들이 징후, 증상, 진행을 해석하도록 요구하는 그림plots]으로 보여질 때 가장 유용하다(Hunter 1996). 마찬가지로, 단일 시점의 시간 평가 판단이 미래의 성과를 예측하기에 적절하지 않다고 제안되었으며, 지식, 기술 및 태도를 보다 지속적으로 평가할 수 있도록 종적 평가가 필요하다(Boulet and Durning 2019). 역량은 주어진 상황에 적용되는 일반적이고 안정적인 특성이 아니기 때문에, 다양한 직무 요구사항에 적응할 수 있는 개인의 성과와 능력을 심층적으로 이해하려면 광범위한 직무, 맥락 및 평가자가 필요하다(Govaerts and van der Vleuten 2013; Schuwirth et al. 2002; Van der Vleuten and Schuwirth 2005). 몇몇 저자들은 인간의 판단을 활용하는 공정하고 방어 가능한 평가 프로그램은 [종합적이고, 복합적이며, 사실에 입각한 지식, 직접 관찰의 충분히 큰 표본, MSF, 포트폴리오 등을 포함함으로써 학습 진행 상황을 모니터링하고 학습 계획과 자기 성찰을 개발할 수 있어야 한다]고 제안한다(Dijksterhuis et al. 2009년). 그러나 일부 교육 프로그램에서는 훈련생 평가에 대한 낮은 return rate가 드물지 않기 때문에 여러 가지 증거를 확보하는 것은 문제가 될 수 있다(Colbert et al. 2017).

Diseases are most useful when they are thought of not as objects but instead seen as plots that unravel over time requiring physicians to interpret signs, symptoms and progression (Hunter 1996). Similarly, it has been suggested a single point in time assessment judgement is not adequate to predict future performance, and longitudinal assessment is needed to allow for a more continuous evaluation of knowledge, skills and attitudes (Boulet and Durning 2019). Because competencies are not generic and stable traits that apply in any given situation, a broad range of tasks, contexts, and assessors are needed to gain an in-depth understanding of a person’s performance and capability to adapt to various task requirements (Govaerts and van der Vleuten 2013; Schuwirth et al. 2002; van der Vleuten and Schuwirth 2005). Several authors suggest that a fair and defensible assessment program utilising human judgement should be comprehensive, multimodal, incorporate factual knowledge, sufficiently large samples of direct observation, multisource feedback, and a portfolio to monitor progress and to develop learning plans and self-reflection (Dijksterhuis et al. 2009). However, obtaining multiple pieces of evidence can be problematic as in some training programs a low return rate for trainee assessment is not uncommon (Colbert et al. 2017).


평가에서 공정한 인간의 판단은 [기회 접근의 공정성]과 불가분의 관계에 있다(Stobart 2005). 감독자는 신체적 기회를 통해서 또는 학생 학습에 대해 한결같이 낮은 기대를 가질 때 학습자의 학습 기회 품질에 영향을 미칠 수 있다(Tierney 2012). 학생들의 공정감각은 [성적 상승 효과가 있는 점수의 수정 또는 조작]보다 [리뷰 세션이 학습지도요령 등 교육행동teaching practice으로 주어진 기회]와 더 밀접한 관계가 있는 것으로 나타났다(Rodabaugh 1996).

Fair human judgement in assessment is inseparable from fairness in access to opportunities (Stobart 2005). Supervisors are able to influence the quality of the learner’s opportunities to learn, both through physical opportunities, or when uniformly low expectations are held for student learning (Tierney 2012). Students’ sense of fairness has been found to be more closely related to opportunities afforded to them by teaching practices such as review sessions and study guides, than scoring modifications or manipulations that have the effect of raising grades (Rodabaugh 1996). 


문헌에 따르면 모든 학습자는 주요 평가에 앞서 모든 평가 유형을 경험할 수 있는 기회를 가져야 하며, 특히 한 가지 평가 유형에서 불이익을 받는 사람에게는 전문성의 증거를 보여줄 수 있는 대체 기회를 주는 것이 특히 중요하다고 제안한다.9. 더욱이, 학습자들은 자신이 받은 피드백을 이해하고 통합했음을 증명할 기회를 가치 있게 여긴다(Watling et al. 2013a, 2008).

The medical literature suggests all learners should have opportunities to experience all assessment types prior to major assessments (Hays et al. 2015), and to allow learners alternative opportunities to demonstrate evidence of expertise, which is especially important for those who are disadvantaged on one type of assessment (Gipps and Stobart 2009). Furthermore, learners value opportunities to demonstrate they have understood and incorporated feedback they have received (Watling et al. 2013a, 2008).


공정성은 종종 '평등한' 대우나 관행으로 여겨져 왔다(Colbert et al. 2017). 그러나, 수많은 철학자와 수학자들은 평등한 대우를 한다고 해서 항상 공정성이 보장되는 것은 아니라고 주장해왔다(Eva 2015; Stobart 2005). 예를 들어, 에바는 '한 명은 편두통 때문에 결석한 반면 다른 한 명은 숙취로 인해 결석했을 때 의무 교육을 받지 못한 두 명의 의대생에게 동등한 치료를 주는 것이 공평한가'라고 묻는다. '중립성, 일관성, 편애 회피는 공정하지만, 모든 학습자를 사용하는 방법이나 피드백을 동일하게 취급하는 것은 다른 한편으로 불공평하다. 왜냐하면 그것은 일부 학생들의 학습 기회를 감소시키고 있기 때문이다(Tierney 2012). 

Fairness has often been viewed as ‘equal’ treatment or practice (Colbert et al. 2017). However, countless philosophers and mathematicians have argued that equal treatment does not always ensure fairness (Eva 2015; Stobart 2005). For example, Eva asks: ‘is it fair to give two medical students equal remediation for missing a mandatory education session when one was absent because he had a migraine headache, whereas the other had a hangover (Eva 2015)?' Neutrality, consistency and avoidance of favoritism is one on hand fair, however, treating all learners the same be it in terms of the methods used, or the feedback given, is on another hand unfair because it is reducing the opportunity of some students to learn (Tierney 2012). 


'중립성'은 맥락-독립적이며, 이런 의미에서 불공평하다. 예를 들어 병동 회진 중에 목소리를 내지 않는 조용한 학습자는 의료지식에 결함이 있는 것으로 잘못 추정될 수 있다(Colbert et al. 2017). 이는 보통 학습자들은 스스로 [공정성을 노력과 관련된 것]으로 본다는 점에서 더욱 상충된다. 예를 들어, 그들은 대부분의 학생들은 [투입과 성과는 반드시 일치하지 않고, [열심히 공부한 학생과 그렇지 않은 학생이 구별되지 않기 때문]에 모든 학생이 높은 점수를 받는 것은  불공평하다고 생각한다또는 판단이 학생들이 가져오는 입력과 일치하지 않기 때문이다(Wycliffe-Jones et al. 2018).

Neutrality is often context independent, and in this sense is unfair. For example, a quiet learner who does not speak up during ward rounds could be incorrectly inferred as having deficits in medical knowledge (Colbert et al. 2017). This is further conflicted by the fact that learners themselves see fairness as related to effort. For example they consider it unfair if most students receive high grades because input does not match output and no distinction is made between those who worked hard and those who did not (Rodabaugh 1996) or if judgements are not aligned with the inputs that the students brings (Wycliffe-Jones et al. 2018).


복수의 평가자가 평가하는 판단

Judgements assessed by multiple assessors


그룹 의사결정은 현재 전 세계 많은 국가에서 평가 결정을 위한 표준 메커니즘이 되었다(Hauer et al. 2016; Bacon et al. 2015; Govaerts and van der Vleuten 2013). 공개 숙의와 비판적 대화를 통해 증거를 비판적으로 검토하기 위한 그룹을 만드는 것은 [학습자에 대한 공유된 주관성shared subjectivity]의 개념을 통하여, 학습자와 평가자 모두에게 방어 가능하고, 신뢰할 수 있으며, 공정하다고 여겨진다. 2009; Hauer et al. 2015; Bacon et al. 2015; Govaerts and van der Vleuten 2013; Krefting 1991; Webb et al. 2003; Ham 1999). 

Group decision making is now a standard mechanism for assessment decisions in many countries around the world (Hauer et al. 2016; Bacon et al. 2015; Govaerts and van der Vleuten 2013). Creating groups to critically review evidence through open deliberative and critical dialogue is seen as defensible, credible and fair by both learners and assessors because there is a concept of shared subjectivity about learners (Tochel et al. 2009; Hauer et al. 2015; Bacon et al. 2015; Govaerts and van der Vleuten 2013; Krefting 1991; Webb et al. 2003; Ham 1999). 


대화는 다음의 것들을 가능하게 한다. 

    • 멤버 체크, 

    • 2차 평가자를 통한 검증, 

    • 검토 및 토론을 통한 평가 프로세스의 장기간 참여 

    • 서로 다른 해석이나 가정들의 표현, 

    • 증거와 분석의 삼각 측량 

    • 상충하는 증거와 판단의 조화

이 모든 것은 합의 이전에 다양성을 허용하며, 이는 전문적 판단의 방어가능성을 향상시키는 데 사용될 수 있다. 또한 이러한 정성적 증거 평가 방법은 [전문직업적 가치]와 같은 덜 유형적인tangible 학습 성과를 포착할 수 있게 한다.

Dialogue allows for member checking, verification with secondary assessors, prolonged engagement in the assessment process through review and discussion, articulation of different interpretations or assumptions, triangulation of evidence and analysis and reconciliation of disconfirming evidence and judgements. All of these things allow for diversity prior to agreement, which can be used to improve the defensibility of the professional judgements (Bacon et al. 2015; Govaerts and van der Vleuten 2013; Krefting 1991; Webb et al. 2003; Ham 1999). These qualitative methods of assessing evidence also allow for less tangible learning outcomes such as professional values to be captured (McCready 2007).


[그룹 구성원의 다양성]은 그룹 구성원이 고려하는 관점의 수를 증가시킴으로써 그룹 기능에 긍정적인 영향을 미칠 수 있다(Hauer et al. 2016). 이는 정보 공유를 촉진하고, 더 많은 그룹 구성원이나 가장 먼저 공유되는 정보에 우선 순위를 매기는 그룹의 경향을 극복하기 위한 전략과 연계될 필요가 있다(Hauer et al. 2016).

Diversity of group members can positively influence group functioning by increasing the number of perspectives considered by group members (Hauer et al. 2016). This needs to be coupled with strategies to facilitate information sharing, to overcome tendances of the group to prioritise information known to more group members or information shared first (Hauer et al. 2016).


그러나 여러 가지 다른 평가 도구에서 복수의 데이터 포인트를 광범위하게 사용할 수 있음에도 불구하고 평가 패널의 판단 결정은 소수의 근거 출처에만 초점을 맞출 수 있다는 점에 주목하였다(Hauer et al. 2015). 더욱이 일부 패널 결정의 검토에서, [우려의 부재]가 마치 [진급할 준비]처럼 해석되어서, 대다수 레지던트에 관한 데이터는 논의되지 않았다(Hauer et al. 2015).

However, it has been noted that judgement decisions from assessment panels may focus on only a few sources of evidence despite the widespread availability of multiple data points from multiple different assessment tools (Hauer et al. 2015). Furthermore, an absence of concern was taken to imply readiness for advancement in a review of some panel decisions, and often the data regarding a majority of residents wasn’t discussed (Hauer et al. 2015).


판단의 타당성 증거 Validity evidence for judgments


타당성 주장을 하려면 증거가 필요하다. 여러 출처와 맥락에서 광범위한 증거를 사용하는 것은 성능 평가의 타당성을 보장할 필요가 있다(Colbert et al. 2015). 판단 결정judgement decision은 관찰된 성과에서 결론과 결정에 이르는 일련의 추론과 가정을 포함한다. 본질적으로 타당성은 근거나 이론적 합리성에 의해 정당화될 수 있는, 해석이 적절하고 적절한 정도를 가리킨다(Govaerts and van der Vleuten 2013). 타당성 주장을 작성하기 위해 적절한 증거를 사용하여 평가자가 작성한 추론과 가정에 대한 타당성 평가가 필요하다(Govaerts and van der Vleuten 2013). 따라서 타당성 추론은 절차적인 측면에서 이루어지는 것이 아니라 판단과 의사결정의 전체 시스템에서 역할을 해야 한다.

Evidence is needed to create validity argument. Using a wide range of evidence from multiple sources and contexts is need to ensure the validity of performance appraisals (Colbert et al. 2015). Judgement decisions involve a series of inferences and assumptions leading from the observed performances to conclusions and decisions. In essence, validity refers to the degree to which the interpretations are adequate and appropriate, as justified by evidence or theoretical rationales (Govaerts and van der Vleuten 2013). Evaluation of the plausibility of the inferences and assumptions made by assessors using appropriate evidence is needed to create a validity argument (Govaerts and van der Vleuten 2013). Validity inferences are therefore not procedural per se, but must play a role in the whole system of judgement and decision-making.


고찰 Discussion


결과 요약 Summary of findings


평가에 인간의 판단을 계속 활용하기 위해서는 이러한 전문가 판단의 공정성을 고려할 필요가 있다. 이 문헌 검토는 공정성이 단순하게 정의될 수 없는 복잡한 구조임을 입증했다. 더욱이, '맥락'은 공정성을 결정하는 데 필수적이며, 어떤 하나의 정의도 여러 환경에 걸쳐 적합하지 않을 것이다. 전문성 문헌을 통해 배웠듯, 공정성이란 [체크리스트를 통해 해결할 수 있는 기술적 또는 단순한 문제]가 아니라 [복잡한 문제]로 프레임을 짜는 것이 중요하다. 전문성 평가에 대한 Ottawa 권고안은 복잡성을 수용했고, 전문성을 개인, 대인관계 및 거시사회(공용) 주제와 함께 다차원적인 것으로 간주했다(Hodges et al. 2011).

To continue to utilise human judgement in assessment, the fairness of these expert judgements needs to be considered. This literature review has demonstrated that fairness is a complex construct which cannot be simplistically defined. Furthermore, context is essential in determining fairness and no one definition will fit across different environments. Learning from the professionalism literature, it is important to frame the problem as the complex problem it is, rather than as a technical or simple problem which can be addressed through checklists (Lucey and Souba 2010). The Ottawa recommendations for the assessment of professionalism embraced complexity and considered professionalism to be multi-dimensional with intrapersonal, interpersonal and macro-societal (public) themes, and interactions between these themes (Hodges et al. 2011). 


Greenhalgh와 Papoutsi (2018)는 보건전문직교육에는 역동적 상호작용과 내러티브를 예측하는 연구 설계와 방법이 필요하며, 시스템 전체가 어떻게 조합되는지에 주목해야 한다고 언급하면서, 이러한 [전체적인holistic 시스템 접근법]을 지지했다. 평가에서 공정한 인간 판단의 단순한 정의는 없지만, 공정성의 기초는 의학교육과 폭넓은 교육 문헌에서 유추된다. 이 검토에서 우리는 이러한 추론, 연구 및 관점을 종합하여 인간 판단의 공정성에 대한 추가 논의를 돕고 이 분야에서 연구와 탐구를 지도하는 데 도움이 되는 개념 모델을 만들려고 시도했다. 이 개념 모델은 복잡성을 수용하는 것을 목표로 하며, 평가에서 가치, 개별 특성 및 시스템 절차를 갖춘 다차원적 인간 판단을 제시한다. 이 모델은 공동 서술과 이해를 제공함으로써 평가에서 공정한 인간의 판단에 대한 기관과 학자들의 내외부 대화를 촉진하는 것을 목표로 한다. 무어는 [문제에 대한 이해당사자들 간에 공통된 이해를 만드는 것]이 핵심이라고 언급했다. 이는 반드시 완전한 합의여야 하는 것이 아니라, "문제에 대한 서로 다른 해석에 대해 지적인 대화를 할 수 있을 정도로 이해 당사자들이 서로의 입장을 잘 이해하고 있으며, 이를 어떻게 해결할 것인가에 대해 집단지성을 발휘하는"(Moore 2011) 것이다.

Greenhalgh and Papoutsi (2018) supported this holistic, systems approach, noting that health professions education needed research designs and methods which foreground dynamic interactions and narratives which paid attention to how systems come together as a whole from different perspectives. Whilst there is no simple definition of fair human judgement in assessment, the underpinning foundations of fairness are inferred in the medical education and broader education literature. In this review we have attempted to bring these inferences, studies and perspectives together to create a conceptual model which can be used as a guide to help further discussions of fairness in human judgement and guide research and exploration in this area. This conceptual model aims to embrace complexity, and present fair human judgement in assessment as multi-dimensional with values, individual characteristics and system procedures. The model aims to facilitate internal and external conversations by institutions and academics about fair human judgement in assessment by providing a shared narrative and understanding. Moore noted that creating shared understanding between stakeholders about the problem was key. This is not necessarily complete agreement, but that “the stakeholders understand each other’s positions well enough to have intelligent dialogue about the different interpretations of the problem, and to exercise collective intelligence about how to solve it” (Moore 2011).


긴장 Tensions


우리는 공정성의 복잡성을 가중시키는 이 개념 모델의 개발에서 몇 가지 긴장감을 드러냈다. 예를 들어, 공정성의 가치로서의 투명성은 신뢰도, 방어성, 목적에의 적합성과 같은 다른 가치와 충돌할 수 있다(Tierney 2012). 투명성은 평가를 학습자에게 알리고 미리 문서화해야 하지만 임상 작업은 예측이 불가능하고 완전한 투명성이란 어려운 일이다. 평가가 목적에 맞으려면, 변화하는 임상 상황에 대처하기 위해 민첩하고 유연하게 대처해야 하지만, 이는 투명성을 제한할 수 있다.

We have revealed several tensions in the development of this conceptual model which add to the complexity of fairness. For example, transparency as a value of fairness can conflict with other values such as credibility, defensibility and fitness for purpose (Tierney 2012). Transparency requires assessment to be known to learners and documented in advance, but clinical work is never predictable and so complete transparency is challenging. If assessment is fit for purpose, it needs to be agile and flexible to respond to the changing clinical situation, however this can limit transparency.


긴장감의 또 다른 예는 모든 학습자에게 '평등한' 치료를 제공하는 것이다. 중립성, 일관성 및 모든 학습자에게 동일한 기회를 제공하는 것은 한 편으로 공정하지만 중립성은 맥락에 따라 독립적이며 이러한 감각은 불공평하다(Eva 2015; Stobart 2005; Tierney 2012). 모든 학습자는 평가에서 동일한 퀄리티의 판단과 의사결정을 받을 권리가 있어야 하지만, 이것이 동일한 과정을 의미하는 것이어서는 안 된다.

Another example of a tension is providing ‘equal’ treatment to all learners. Neutrality, consistency and the providing the same opportunities to all learners is on one hand fair, however neutrality is context independent, and this sense is unfair (Eva 2015; Stobart 2005; Tierney 2012). Every learner is entitled to the same quality of judgement and decision making in their assessment, but this should not mean the same process.


추가적인 긴장은 여러 증거의 필요성과 전문가적이고 전체적인 판단의 균형을 맞추고 있다. 전문 평가인은 일반적으로 맥락적으로 적절하고, 총체적이며 개별화된 판단 결정(Govaerts et al. 2013)을 내리는데, 이는 공정성 관점에서 목적에 적합하다. 그러나 이러한 [총체적 판단]은 학습자의 진행에 대한 결정을 내리는 위원회에 제공할 수 있는 증거의 수가 줄어들 수 있으며, 이는 다른 한편으로는 불공평함을 의미한다.

A further tension is balancing the need for multiple pieces of evidence with expert, holistic judgements. Expert assessors typically make contextually appropriate, holistic and individualised judgement decisions (Govaerts et al. 2013) which from a fairness perspective are fit for purpose. However, these holistic judgements may provide fewer pieces evidence to a committee who are making decisions on a learner’s progression, which on the other hand is unfair.


때로는 환자에게 공평한 것과 학습자에게 공평한 것 사이에 긴장감이 감돌기도 한다. 인간 판단의 공정성에 관한 거의 모든 개인 및 시스템 구성요소는, 평가자, 특히 초보 평가자에게 시간과 훈련을 요구한다. 대부분의 평가자는 바쁜 임상의사여서 환자를 치료하는 데 시간이 걸릴 수 있다. 평가인을 위한 교육의 전문적 발전은 환자에게 영향을 미칠 가능성이 있는 임상적 전문성 개발에도 비용을 들일 수 있다.

At times, there is also a tension between what is fair to patients and what is fair to learners. Almost all individual and system components of fairness in human judgement require time and training for assessors, especially for novice assessors. As most assessors are busy clinicians, this can take time away from treating patients. Professional development in education for assessors can also come at a cost to clinical professional development which has the potential to impact patients.


이러한 긴장과 겉보기에 상충되는 가치나 구성요소를 관리할 필요가 있다. 고버트와 동료들은 평가 시스템이 긴장으로 가득 차 있고 평가에서 인간판단의 공정성도 다르지 않다고 지적한다. 그들은 이러한 긴장이 전통적인 '문제 해결 또는 해결책'에서 관리될 것이 아니라, 긴장을 이해하고 이에 관여하며 최대한 유리하게 활용할 수 있는 양극성polarities으로 볼 것을 제안한다(Govaerts et al. 2019).

These tensions and seemingly conflicting values or components need to be managed. Govaerts and colleagues note that assessment systems are rife with tensions, and fairness in human judgement in assessment is no different. They suggest that these tensions need to managed not in a traditional ‘fix the problem, either-or solutions’ but suggest understanding and engaging with the tensions and seeing them as polarities to be leveraged to maximum advantage (Govaerts et al. 2019).


기존 문헌과의 비교

Comparison with existing literature


우리는 문헌 검색에서 인간의 판단의 공정성에 대한 심층적인 조사를 찾지 못했다. 본 논문 전체에서 우리는 평가, 그 역할, 유익성 및 한계를 고려한 여러 연구와 관점을 인용했다. 우리는 광범위한 문헌을 통합한 리뷰를 만들기 위해 형식적이고 허황된 방법론을 사용하여 이 작품에 추가했다고 믿는다.

We found no in-depth examination of fairness in human judgement in our literature search. Throughout this paper we have cited multiple studies and perspectives which have considered human judgement in assessment, its role, benefits and limitations. We believe we have added to this work by using formal, hermeneutic methodology to create a review which incorporates a wide range of literature.


검토의 답변되지 않은 질문과 제한 사항

Unanswered questions and limitations of the review


이것은 철저한 문헌 검토가 아니라, 복잡한 구조의 패러디한 합성을 생산하려는 시도다. 또한 우리의 주제는 평가의 공정성이 아니라 평가에서 인간의 판단의 공정성에 국한되었다는 점에도 주목할 필요가 있다. 어떤 문헌 리뷰도 편견으로부터 자유롭지 못하다(Eva 2008). 그리고 우리는 이 리뷰도 마찬가지라고 주장하지 않는다. 실제로, 이 리뷰에는 리뷰 적용가능성을 제한할 수 있는 영어 논문만 포함되었다. 또한 이 문헌 검토는 문헌의 복잡성을 줄이는 것을 목표로 하는 것이 아니라, 우리가 수행하는 방식을 지속적으로 개선하고 평가에서 인간의 판단을 활용하려는 공동의 목표를 향해 전진하는 방법을 제공하는 데 도움이 된다. 

This is not an exhaustive literature review, but rather an attempt to produce a parsimonious synthesis of a complex construct. It is also important to note that our topic was confined to fairness in human judgment in assessment not fairness in assessment in general. No literature review is free from bias (Eva 2008) and we do not claim this review is either. Indeed, this review only included English language papers which may limit the reviews applicability. This literature review also does not aim to reduce the complexity of the literature but rather help provide a way forward in our common aim of continuing to improve the way we undertake and utilise human judgement in assessment. 


그는 "적절하게 복잡한 정책 문제에 필요한 모든 증거가 단일 학문으로부터 나오는 것은 드문 일이고, 단일 연구로부터 오는 것은 더 드물다"고 지적하며, 학자들이 정책 입안자와 기관에 제공할 수 있는 가장 유용한 제공물 중 하나는 기존 양적, 질적 정보에 대한 간결하고 통합적인 종합을 생산하여 주제 영역을 이해하도록 돕는 것이다 (Whitty 2015; Greenhalgh and Shaw 2017). 이것이 우리가 여기서 우리의 개념적 모델로 시도했던 것이다.

Whittly noted “it is rare that all the evidence needed for a moderately complex policy problem comes from a single discipline, and rarer still that it comes from a single study” and suggested one of the most useful offerings academics can make to policy makers and institutions is to produce a succinct and integrative synthesis of existing information, incorporating quantitative and qualitative, and make sense of the topic area (Whitty 2015; Greenhalgh and Shaw 2017). This is what we have attempted to do here with our conceptual model.


예상대로, 이 광범위한 검토에도 불구하고, 여전히 답하지 않은 많은 질문들이 있다. 첫째로, 이 분야의 이해당사자들은 문헌과 다른 관점을 가지고 있는가? 전문 평가자, 대학 학자들 그리고 다른 사람들은 현재 전 세계의 많은 평가 프로그램에서 인간의 판단력을 이용하는 방법을 모색하고 있다. 평가에서 문서화되거나 발표되지 않은 인간 판단에 대한 무언의 암묵적 지식이 있는가? 평가 프로그램 내에서 공정한 인간 판단의 실질적인 의미는 무엇인가? 그것은 문헌과 일치하고 그렇지 않다면 왜 안 되는가?

As is to be expected, despite this extensive review, there are still many unanswered questions. Firstly, do the stakeholders in this area hold a different perspective to that of the literature? Expert assessors, university academics and others are currently navigating the use of human judgement in many assessment programs round the world. Is there unspoken tacit knowledge about human judgement in assessment which is not documented or published? What are the practical implications of fair human judgement within their assessment program? Does it match the literature and if not, why not?


둘째, 직장에 기반한 평가의 복잡성을 감안할 때 어떻게 이 개념적 프레임워크를 실용적인 방법으로 사용할 수 있는가? 평가 프로그램이 평가에 인간의 판단을 더 많이 이용하는 경우, 이 개념적 프레임워크를 지침으로 사용할 수 있는가? 학습자, 기관 및 감독자에게 미치는 영향은 무엇인가?

Secondly, how can this conceptual framework be used in a practical manner given the complexity of workplace-based assessment? If assessment programs further utilise human judgement in assessment, then can this conceptual framework be used as a guide? What are the implications for learners, institutions and supervisors?


셋째, 서로 다른 가치들 사이의 긴장을 어떻게 조화시킬 수 있을까? 이러한 가치의 공생, 최대의 이익을 보장하기 위해 무엇이 필요한가? 학습자의 공정성을 달성하려고 노력하는 동시에 환자에게 공정성을 보장하는 방법은 무엇인가?

Thirdly, how can we reconcile the tensions between different values? What is needed to achieve symbiosis of these values, to ensure maximal benefit? How can we also ensure fairness to patients, whilst trying to achieve fairness for learners?


결론 Conclusion


2009년 Gipps와 Stobart는 이렇게 말하였다.

21세기 평가의 도전은 공정성에 대한 우리의 관점을 넓혀 사회문화적 맥락을 보다 충분히 고려하는 것이다. 그러나, 더 큰 사회적 문제들에서 한 발 물러나는 것은 어려운 일이고, 평가 그 자체에 집중하려는 유혹은 편향과 관련되어 있다.

In 2009 Gipps and Stobart said: 

“The challenge for twenty-first-century assessment is to broaden our views of fairness to take fuller account of social and cultural contexts. The temptation, however, is to back away from the larger social issues because they are difficult, and to concentrate on the assessment itself, for example, in relation to bias” (Gipps and Stobart 2009). 


공평성에 대한 우리의 관점을 학습자와 환자 둘 다에 관련되는 것처럼, 단지 객관성을 넘어, 평가에서 인간 판단의 모든 측면과 복잡성을 고려하도록 넓히는 것은 평가 프로그램에서 인간 판단의 지속적인 사용에 도움이 될 수 있다. 본 문헌 검토에서 우리는 [공정한 인간의 판단]을 가치, 개별적 특성 및 시스템 절차를 갖춘 다차원적 복합 개념으로 강조하였다. 이 모델은 이 분야에서 평가와 추가 연구에서 인간의 판단력을 구현하는 데 도움을 주기 위해 사용될 수 있다.

Broadening our view of fairness to consider fairness as it relates to both the learner and to the patient, to look beyond just objectivity and consider all facets and complexity of fairness in human judgement in assessment is likely to be beneficial in our ongoing use of human judgement in assessment programs. In this literature review we have highlighted fair human judgement as a multi-dimensional complex concept with values, individual characteristics and system procedures. This model can be used to help the implementation of human judgement in assessment and further research in this area.








Review

 

. 2020 Oct 29.
 doi: 10.1007/s10459-020-10002-1. Online ahead of print.

Fairness in human judgement in assessment: a hermeneutic literature review and conceptual framework

Affiliations 

Abstract

Human judgement is widely used in workplace-based assessment despite criticism that it does not meet standards of objectivity. There is an ongoing push within the literature to better embrace subjective human judgement in assessment not as a 'problem' to be corrected psychometrically but as legitimate perceptions of performance. Taking a step back and changing perspectives to focus on the fundamental underlying value of fairness in assessment may help re-set the traditional objective approach and provide a more relevant way to determine the appropriateness of subjective human judgements. Changing focus to look at what is 'fair' human judgement in assessment, rather than what is 'objective' human judgement in assessment allows for the embracing of many different perspectives, and the legitimising of human judgement in assessment. However, this requires addressing the question: what makes human judgements fair in health professions assessment? This is not a straightforward question with a single unambiguously 'correct' answer. In this hermeneutic literature review we aimed to produce a scholarly knowledge synthesis and understanding of the factors, definitions and key questions associated with fairness in human judgement in assessment and a resulting conceptual framework, with a view to informing ongoing further research. The complex construct of fair human judgement could be conceptualised through values (credibility, fitness for purpose, transparency and defensibility) which are upheld at an individual level by characteristics of fair human judgement (narrative, boundaries, expertise, agility and evidence) and at a systems level by procedures (procedural fairness, documentation, multiple opportunities, multiple assessors, validity evidence) which help translate fairness in human judgement from concepts into practical components.

Keywords: Assessment; Fairness; Health professions education; Judgement; Subjective.


+ Recent posts