수행 평가: 2020 오타와 컨퍼런스의 합의문과 권고(Med Teach, 2020)

Performance assessment: Consensus statement and recommendations from the 2020 Ottawa Conference

Katharine Boursicot , Sandra Kemp , Tim Wilkinson , Ardi Findyartini , Claire

Canning , Francois Cilliers & Richard Fuller



도입 Introduction


본 논문은 2010년 오타와 콘퍼런스(이센베르크 2011)에 따른 컨센서스 성명 시리즈의 일환으로 AMEE(유럽의료교육협회)가 의뢰한 2011년 의료교사 성과평가 컨센서스 성명(Boursicot et al. 2011)부터 계속 업데이트하고 있다.

This paper continues from, and updates, the 2011 Performance Assessment Consensus Statement in Medical Teacher (Boursicot et al. 2011) which was commissioned by AMEE (Association for Medical Education in Europe), as part of the series of Consensus Statements following the 2010 Ottawa Conference (Issenberg 2011).


우리는 [학업 및 직장 환경 모두에서 기술과 행동에 대한 평가]로 정의되는 수행 평가를 다룰 것이며, Miller의 임상 역량 수준의 '어떻게 하는지'와 '어떻게 하는지' 수준에서 모범 사례를 다룰 것이다(Miller 1990).

we will address performance assessment, defined as the assessment of skills and behaviours, both in academic and workplace settings, and will address best practice in the ‘shows how’ and ‘does’ levels of Miller’s levels of clinical competence (Miller 1990).


2011년 이후 성과 평가와 관련된 개발 동향 개요

Overview of trends in developments related to performance assessment since 2011


평가 시스템

Systems of assessment


국제적으로, 단순히 개별 도구에만 초점을 맞추는 것이 아니라 평가 시스템을 설계하는 경향이 있었다(Eva et al. 2016; Norcini et al. 2018). 이러한 경향은 [학습 성과에 매핑된 평가 시스템]에 따라 연구 프로그램에 대한 명확한 학습 목표가 일치하면서 역량 또는 결과 기반 의료 교육으로의 세계적global 움직임과 병행되었다(Dijkstra et al. 2010; Lockyer et al. 2017).

There has been a trend internationally to design systems of assessment, rather than just focusing on individual tools (Eva et al. 2016; Norcini et al. 2018). This trend has paralleled the global move to competency or outcomes-based medical education, with clear learning goals for a programme of study being matched by a system of assessment mapped to the learning outcomes (Dijkstra et al. 2010; Lockyer et al. 2017).


지식 응용과 임상 및 의사소통 능력을 시험하기 위한 평가 시스템을 설계하는 것은 비교적 간단하지만, 밀러의 피라미드(Miller 1990)의 'Does' 수준을 시험하기 위한 시스템을 설계하는 것은 더욱 어려웠다. WBA의 사용은 여러 변수가 관련된 복잡한 사업(L€orwald et al. 2019)이다.

While designing a system of assessment for testing knowledge application and clinical and communication skills is relatively straightforward, it has been more challenging to design systems for testing the ‘does’ level of Miller’s pyramid (Miller 1990). The use of WBAs is a complex undertaking (L€orwald et al. 2019) with multiple variables involved.


평가를 위한 유효성 기준

Validity standards for assessment


'타당성 증거의 출처'가 정의된 케인 타당성 프레임워크(Kane 2013a)는 테스트/검사(예: OSCE)에 적용되었을 때 가장 유용하지만 WBA 세계에서도 영향력을 획득했다(Cook et al. 2016; Oudkerk Pool et al. 2018). 이는 특히 WBA에 관한 많은 문헌이 [수치 점수]에서 [학습 지원에 대한 피드백을 중심으로 질적 및 서술적 '점수']로 이동했기 때문에 가치가 높다(Yeates et al. 2015).

The Kane validity framework (Kane 2013a) with its defined ‘sources of validity evidence’ is most useful when applied to tests/examinations (e.g. OSCEs) but has also gained traction in the world of WBAs (Cook et al. 2016; Oudkerk Pool et al. 2018). This is particularly valuable as much of the literature on WBAs has moved from numerical scoring to qualitative and narrative ‘scoring’ with emphasis on feedback for supporting learning (Yeates et al. 2015).


평가자 인식 

Rater cognition


역사적으로, '평가자 오류'와 '평가자 합의'의 결여에 대한 관점은 (비록 약간의 성공이 있었지만) 평가자의 판단이 좀 더 일관되도록 훈련하는 데 초점을 맞추는 결과를 가져왔다(Hodges and McIlroy 2003; Whlan et al. 2005). 지난 10년 동안, 연구는 OSCE 심사원들뿐만 아니라 WBA에서도 격차의 차이를 이해하려고 노력하고, 그러한 차이가 첫 번째 생각만큼 중요한지에 대해 의문을 제기하는 데 있어 더욱 미묘한 차이를 보이고 있다. 최근의 연구는 평가자 분산rater variance이 의미 있고 그러한 차이점을 통제하기 보다는 수용해야 한다고 제시한다(Gingerich et al., 2017; Govaerts et al., 2013; Chahine et al. 2016).

Historically, perspectives of ‘rater error’ and lack of rater agreement have resulted in a focus on training examiners to be more consistent in their judgements albeit with variable success (Hodges and McIlroy 2003; Whelan et al. 2005). In the last 10years, research has become more nuanced in trying to understand rater differences, not only for OSCE examiners but also in WBA, and questioning whether such differences are as important as first thought. Recent work suggests that rater variance is meaningful and such differences should be embraced rather than controlled (Gingerich et al. 2011, 2017; Govaerts et al. 2011, 2013; Chahine et al. 2016).


피드백 Feedback


피드백을 대화형 과정, 대화 또는 학습 대화로 보는 것은 이제 일반적이다(Ossenberg et al. 2019). 이 작품은 피드백 제공의 역학에서 벗어나, 관계(Ramani와 Krackov 2012)에 중점을 두고 피드백을 활용하여 학습을 촉진(Eva et al. 2016)했다. 피드백에 대한 학습자 행동learner action 확보(Hattie 및 Clarke 2018)과 교육, 평가 및 피드백 간의 연결의 중요성은 계속적으로 필수적이다(van der Lew et al. 2018; Watling and Ginsburg 2019). 이제 학습 문화와 피드백으로부터의 학습 사이의 연관성에 대한 관심이 높아지고 있다(Watling et al. 2014; Ramani et al. 2019). 대화를 통한 질적 피드백 기회(Tekian et al. 2017)와 (학습자에게) 의미 있는 피드백에 집중하는 기회가 강조된다(Voyer et al. 2016; LaDonna et al. 2018).

Viewing feedback as an interactive process, a dialogue, or a learning conversation is now common (Ossenberg et al. 2019). This work has shifted emphasis towards relationships (Ramani and Krackov 2012) and harnessing feedback to promote learning (Eva et al. 2016), away from the mechanics of providing feedback. Ensuring learner action on feedback (Hattie and Clarke 2018) and the importance of the connection between teaching, assessment, and feedback continue to be integral (van der Leeuw et al. 2018; Watling and Ginsburg 2019). There is now increased attention to the links between the learning culture and learning from feedback (Watling et al. 2014; Ramani et al. 2019). Opportunities for qualitative feedback through conversation (Tekian et al. 2017) and focus on meaningful (to the learner) feedback are emphasised (Voyer et al. 2016; LaDonna et al. 2018).


객관적 구조화 임상 검사(OSCE)

Objective structured clinical examinations (OSCEs)


세계적으로 OSCE는 검사 환경에서 임상 및 통신 기술을 테스트하기 위한 평가 방법이 되었다(Khan et al. 2013; Harden 2016; Boursicot et al. 2018).

Globally, OSCEs have become the assessment method of choice for testing clinical and communication skills in an examination setting (Khan et al. 2013; Harden 2016; Boursicot et al. 2018).


섹션 1: OSCE의 의도된 용도 또는 목적에 대한 명확한 설명.

섹션 2: OSCE의 결과에 기초하여 이루어진 추론과 결정을 뒷받침하고 정당화할 수 있는 의미 있는 증거.

제3장: 내린 결정을 변호하기 위한 '논의' 또는 정당성.

Section 1: a clear statement of intended use or purpose for the OSCE.

Section 2: meaningful evidence to support and justify the inferences and decisions made on the basis of the outcomes of the OSCE.

Section 3: the ‘argument’ or justification for defending the decisions made.


섹션 1: 용도

Section 1: Intended use


OSCE는 임상 및 의사소통 기술을 시험하는데 사용되어야 한다. 이는 원래 설계 의도(Harden 및 Gleeson 1979년)였으며, 여전히 이 평가 형식(Harden 2016)의 사용에 기초하는 핵심 원리로 남아 있다.

OSCEs should be used to test clinical and communication skills. This was the original design intention (Harden and Gleeson 1979) and still remains a key principle underlying the use of this assessment format (Harden 2016).


OSCE의 목적 진술문purpose statement은 [설계와 전달에서 데이터와 결과의 분석까지] OSCE 프로세스의 모든 단계를 뒷받침해야 한다(Daniels and Pugh 2018). 어떤 평가 방법과 마찬가지로, OSCE의 목적은 예를 들어, 교수진, 후보자, 심사원, 고용주, 규제 기관 및 대중 등 모든 이해관계자에게 명시되어야 한다.

The purpose statement for the OSCE should underpin all stages of the OSCE process, from design and delivery, to analysis of the data and outcomes (Daniels and Pugh 2018). As with any assessment method, the purpose of the OSCE should be made explicit to all stakeholders: for example, faculty, candidates, examiners, employers, regulatory bodies, and the public.


제2장: 유효성 증거의 출처

Section 2: Sources of validity evidence


내용 Content


OSCE의 내용에 대해 명시적으로 설명해야 하며, 테스트의 내용이 테스트해야 할 내용을 적절하게 테스트할 수 있도록 해야 한다(Downing 2003). OSCE를 학습 목표/결과로 설계하는 것은 모든 시험을 계획하는 데 있어 필수적인 단계다(Coderre et al. 2009; Sales et al. 2010; Raymond and Grande 2019). 시험 대상과 학습 목표/결과 사이에 명확한 관계가 있어야 하며, 적절한 매핑(건설적 정렬)을 입증해야 한다(Biggs 1996). 블루프린팅은 코스 내용 영역이 적절히 테스트된다는 것을 증명할 뿐만 아니라 서로 다른 영역에 걸쳐 테스트되는 기술의 균형을 상세하게 설명해야 한다.

There should be an explicitly stated explanation for the content of the OSCE, to ensure that the content of the test does test appropriately what it is supposed to be testing (Downing 2003). Blueprinting an OSCE to learning objectives/outcomes is an essential step in the planning of any examination (Coderre et al. 2009; Sales et al. 2010; Raymond and Grande 2019). There should be a clear relationship between what is being tested and the learning objectives/outcomes, demonstrating appropriate mapping (constructive alignment) (Biggs 1996). Blueprinting should detail the balance of skills being tested across different domains as well as demonstrate that the course content areas are appropriately tested.


OSCE에서 시험해야 하는 일반적인 역량은 다음과 같다.

The typical competencies which should be tested in an OSCE are:

        •    병력청취 기술

        •    신체검사 기술.

        •    설명/자문/협의형 커뮤니케이션 기술

        •    실용적/테크니컬 스킬.

        •    임상적 추론 기술(보여지는 환자와 관련됨)

   History taking skills.  

   Physical examination skills.

   Explanation/advice/consent type communication skills.

   Practical/technical skills.

   Clinical reasoning skills (related to the patient being seen).


OSCE에 (구조화된) 구두 토론, 객관식 질문(MCQ) 또는 단답형 질문(SAQ)을 포함시키는 것은 부적절하며 OSCE의 타당성에 심각한 위협을 가한다. 이는 임상 기술을 입증해야 하는 활동이 아니기 때문이다(Downing and Haladyna 2004).

The inclusion of (structured) oral discussions, Multiple Choice Questions (MCQs), or Short Answer Questions (SAQs) in an OSCE is inappropriate and poses a serious threat to the validity of an OSCE, as these are not activities which require the demonstration of clinical skills (Downing and Haladyna 2004)


내부구조

Internal structure


OSCE를 구성할 때는 충분한 샘플링 계획(스테이션 수, 스테이션 길이, 검사자)에 주의를 기울여야 한다. 이는 OSCE 블루프린트에서 입증되어야 한다. 불충분한 샘플링은 방어할 수 있는 합격/불합격 결정을 내리는 데 충분한 데이터를 제공하지 못할 것이다. 12개 스테이션 이하 및/또는 150분 미만의 테스트 시간으로 구성된 OSCE는 신뢰할 수 있는 결과를 산출하지 못할 것이다(Sandson 등 1999년).

When constructing the OSCE, attention should be paid to planning sufficient sampling (numbers of stations, length of stations, examiners). This should be demonstrated in the OSCE blueprint. Insufficient sampling will not provide sufficient data on which to make defensible pass/fail decisions. OSCEs consisting of less than 12 stations and/or less than 150min of testing time will not yield reliable results (Swanson et al. 1999).


적절한 표시/점수 체계를 선택해야 한다. OSCE가 처음 개발되었을 때는 체크리스트에 의해 점수가 매겨졌지만, 시간이 지남에 따라 [등급 척도rating scale]가 더 진보된 임상 학습자를 평가하는데 더 적합한 것으로 나타났다(Hodges et al. 1999; Ilgen et al. 2015). 그러나 일부 논쟁은 여전히 계속되고 있으며(Yudkowsky et al. 2014; Pugh et al. 2016; Wood and Pugh 2020) 적절한 경우 등급 척도와 체크리스트를 신중하게 결합할 수 있다(특히 기술력 테스트의 경우).

An appropriate marking/scoring scheme should be chosen. When OSCEs were first developed, the scoring was by checklists, but over time rating scales were shown to be more appropriate in assessing more advanced clinical learners (Hodges et al. 1999; Ilgen et al. 2015). However, some debate still continues (Yudkowsky et al. 2014; Pugh et al. 2016; Wood and Pugh 2020) and it is possible to carefully combine rating scales and checklists where appropriate, particularly for technical skills testing.


표준 설정의 경우, 2011년 컨센서스 성명(Boursicot et al. 2011)에서 논의한 바와 같이, 보더라인 회귀 분석 방법은 현재 OSCE의 표준 설정 방법(Hejri et al. 2013; McKinley and Norcini 2014; Yousuf et al. 2015)으로 간주되고 있다. 지원자의 수가 적을 경우 오류 발생원에 대한 보다 세심한 검토가 필요하다(Homer et al. 2016, 2020).

For standard setting, as discussed in the 2011 Consensus Statement (Boursicot et al. 2011), the Borderline Regression Method is currently regarded as the standard setting method of choice for OSCEs (Hejri et al. 2013; McKinley and Norcini 2014; Yousuf et al. 2015). With small cohorts of candidates, more careful consideration of sources of error are required (Homer et al. 2016, 2020).


적절한 정신측정학 분석을 수행해야 한다. OSCE에 대한 품질보증의 중요한 부분은 신뢰성과 스테이션 레벨 문제를 검사하기 위한 심리측정학 분석 수행이다(Pell et al. 2010; Fuller et al. 2013).

Appropriate psychometric analyses should be conducted. A crucial part of the quality assurance for OSCEs is the conduct of psychometric analyses to examine reliability and station level issues (Pell et al. 2010; Fuller et al. 2013).


응답 프로세스 Response process


채점 체계(또는 채점 일정)는 [평가하려는 임상 과제의 특성 측면]과 [평가자의 사고]에 맞춰야 한다(Daniels and Pugh 2018). 이 두 가지 측면 모두 세심한 배려가 필요하다. [체크리스트의 남용은 과제를 trivialize시킬 위험]을 유발할 수 있는 반면, [등급 척도의 남용은 신뢰도 저하로 이어질 수 있다는 우려]가 있었다(Wood and Pugh 2020). 후자의 우려는 위에서 설명한 바와 같이, 실제로 문제가 되는 것 같지는 않다. 채점 스킴을 구성하려면 다음 두 가지 측면을 고려해야 한다. 

      • (1) 채점 체계 언어를 임상 사고에 맞추어 조정한다(Weller et al. 2009) 

      • (2) 임상적 의사결정에 도달하기 위한 핵심 단계를 설명하고 채점 체계와의 정렬을 보장하는 핵심 기능을 사용한다(Pugh et al. 2016).

두 경우 모두 좋은 교육 설계는 [시험관 인지 부하를 줄일 수 있고, 단지 일상적인 행동으로 응시자에게 점수를 주지 않기 때문에] 진정성을 도울 수 있다.

Marking schemes (or scoring schedules) need to align to the aspects of the clinical task under scrutiny and to examiner thinking (Daniels and Pugh 2018). Both these aspects require careful consideration. Overuse of checklists can risk trivializing the task, while there has been concern that overuse of rating scales leads to poorer reliability (Wood and Pugh 2020). The latter concern, as outlined above, does not seem to be borne out in practice. Constructing marking schemes involves considering two aspects: 

      • (1) aligning the marking scheme language to clinical thinking (Weller et al. 2009) and 

      • (2) using key features whereby the key steps to reach a clinical decision are elucidated and then ensuring alignment with the marking scheme (Pugh et al. 2016). 

In both cases, good instructional design can reduce examiner cognitive load, and help authenticity through avoidance of giving marks to candidates for just routine actions.


평가자 교육은 OSCE 구현의 중요한 부분으로 간주되어 왔다. 평가자 훈련이 효과적이라는 증거는 혼합되어 있으며(Hodges and McIlroy 2003; Pell et al. 2008; Schurouttpelz-Brauns et al. 2019; Yeates et al. 2019) '표준화된 평가자'의 생산을 시도하는 것은 아무런 결실도 없어 보인다. 대신에, 다수의 관측자가 다수의 관측을 하게 만듦으로써 더 큰 신뢰성이 발생할 수 있다. 이는 충분한 샘플링이 있는 경우 OSCE가 신뢰할 수 있는 이유 중 하나로 인식된다. 이제 시험관 다양성을 수용하는 것이 유리할 수 있으며, 평가자 가변성은 종종 스테이션 설계 문제와 채점 체계(Fuller et al. 2017)의 결과일 수 있다는 견해도 있다. 이러한 주장은 임상 작업이 복잡하고 다차원적이라는 인식에 근거한다. 이것은 서로 다른 평가자들은 서로 다른 차원을 잘 볼 수 있고, detractor가 아니라 타당성에 기여하는 것으로 보일 수 있다는 것을 의미한다. 평가자 훈련은 점점 더 심사관의 행동, 행동 및 의식과 무의식적인 편견의 인식에 초점을 맞추고 있다.

Examiner training has been considered an important part of OSCE implementation. The evidence that examiner training is effective is mixed (Hodges and McIlroy 2003; Pell et al. 2008; Sch€uttpelz-Brauns et al. 2019; Yeates et al. 2019) and it seems fruitless to attempt to produce ‘standardised examiners’. Instead, greater reliability can arise from using multiple observations by multiple observers. This is now recognized as one of the reasons that OSCEs are reliable, if there is sufficient sampling. There is now also a view that embracing examiner diversity could be an advantage, and that apparent examiner variability can often be the result of design issues in station and marking schemes (Fuller et al. 2017). This argument is based on the realization that clinical tasks are complex and multidimensional. This means that different examiners may well look at different dimensions from each other and can be seen as contributor to validity rather than a detractor. Examiner training increasingly focuses on examiner conduct, behaviours, and recognition of conscious and unconscious bias.


OSCE에 대한 시험 보안은 논쟁의 대상이 되어왔다. 임상 기술에 대한 평가는 지원자가 자신이 알고 있는 것에 기반하여 자신이 할 수 있는 것을 증명해야 한다. 기술을 수행하는 능력은 연습과 경험이 필요하다. 그러므로 그 일을 미리 알고 있는 것이 얼마나 후보자에게 실질적인 이점을 제공하는지 의문이다. 예를 들어, 24시간 전에 과제가 나쁜 소식을 전하는 것과 관련이 있다는 것을 아는 것은 후보자가 짧은 시간 내에 이 분야에서 그들의 기술을 향상시킬 수 있다는 것을 의미하지 않는다. 이는 OSCE에서 엄격한 시험 보안(예: '시퀀시스터' 또는 장기간 격리)의 필요성에 의문을 제기한다. 보고서는 상반된 결과를 주장하고 다른 제안을 제공한다(Cohen et al. 1993; Niehaus et al. 1996; Gotzmann et al. 2017). 그러나 보안이 위태로워졌을 때 그 영향은 미미해 보인다. 후보들에 대한 공정성 대책에는 모든 후보가 더 짧은 시간 내에 일련의 스테이션을 통과하도록 하는 스테이션 그룹화와 세션에 걸친 피평가자의 무작위 할당, 체계적 편차variation에 대한 데이터 분석 등이 포함될 수 있다(Ghouri et al. 2018).

Test security for OSCEs has been subject to debate. Assessment of clinical skills requires a candidate to demonstrate what they can do, underpinned by what they know. The ability to perform a skill requires practice and experience. It is therefore questionable the extent to which knowing the task in advance offers any substantial advantage to a candidate. For example, knowing 24h in advance that the task relates to breaking bad news is unlikely to mean a candidate could improve their skills in this area in a short time frame. This questions the necessity for stringent exam security in an OSCE (such as ‘sequestering’ or quarantining for long periods). Reports argue conflicting outcomes and offer different suggestions (Cohen et al. 1993; Niehaus et al. 1996; Gotzmann et al. 2017). However, when security has been compromised the effect seems minimal. Measures for fairness to candidates can involve grouping stations so all candidates pass through a set of stations in a shorter time frame, random allocation of candidates across sessions, and analysis of data for systematic variations (Ghouri et al. 2018).


다른 변수에 대한 관계

Relationship to other variables


OSCE의 수행 결과가 의대생(Wilkinson 및 Frampton 2004)의 임상 성과뿐만 아니라 국가 수준의 임상 시험 성과(Simon et al. 2002;)와 잘 상관관계가 있다는 증거가 증가하고 있다.

There is increasing evidence that the outcomes of performance in OSCEs correlate well with clinical performance of medical students (Wilkinson and Frampton 2004) as well as performance in national level clinical examinations (Simon et al. 2002;Pughetal.2016; Tannenbaum and Kane 2019).


평가에 대한 프로그램적 접근법을 취하는 것의 원칙 중 하나는 모든 개별 평가 에피소드 후에 반드시 판단을 내리는 것이 아니라, [body of evidence에 대해서 결정이 이루어져야 한다]는 것이다. 이는 평가방식별 의사결정이 아니라, 영역별 의사결정의 가능성도 열어준다. 예를 들어, 학습자가 병력청취 학습에 필요한 표준에 도달했는지 판단하는 것은 OSCE의 구성요소로서 병력청취, Mini-CEX의 구성요소에서의 병력청취 및 환자 의견 조사에서의 병력청취 등으로부터 가져올 수 있다. 의사결정에 정보를 활용할 때 이러한 데이터의 삼각측량을 [강력한 의사결정의 중요한 구성요소]로 본다.

One of the tenets of taking a programmatic approach to assessment is that decisions should be made on a body of evidence, not necessarily after every assessment episode. This also opens up the possibility of making decisions by domain rather than by assessment method. For example, determining if a learner has reached the required standard for history taking might draw on the history taking components of an OSCE, together with the history taking components of a Mini-CEX, and alongside the history taking components of a patient opinion survey. We see this triangulation of data in informing decisions as an important component of robust decision making (Torre et al. 2020).


결과들

Consequences


OSCE를 종합적 목적으로 사용할 경우, 합격/불합격 결정은 입증된 최선의 방법(Yousf et al. 2015)을 사용하여 표준 설정에 기초하여 결정이 견고하고 공정하며 방어할 수 있도록 하는 것이 중요하다. OSCE를 오로지 형성적 목적으로만 사용하는 경우에도 타당성 기준을 충족해야 생산되는 정보가 의미가 있다(Tannenbaum과 Kane 2019). OSCE를 실시할 때 중요한 측면은 이 평가 방법을 사용할 경우의 교육적 영향(즉, 학생들은 임상, 의사소통, 실무/기술적 기술을 수행하는 학습에 초점을 맞추게 된다)을 고려하는 것이다.(Pugh et al. 2018).

When OSCEs are used for summative purposes, it is important that pass/fail decisions are based on standard setting using the best evidenced method (Yousuf et al. 2015), to ensure that decisions are robust, fair, and defensible. Even when OSCEs are used solely for formative purposes, they should fulfil validity criteria so the information produced is meaningful (Tannenbaum and Kane 2019). An important aspect of conducting OSCEs is to consider the educational impact of using this assessment method: students will focus on the learning to perform clinical, communication, and practical/technical skills (Pugh et al. 2018).


궤적을 학습하고 수험생에게 의미 있는 피드백을 제공하는 데 중요한 동기 요소로 피드백의 효과를 과소평가할 수 없다(Humphrey-Murto et al. 2016; Tekian et al. 2017; Ossenberg et al. 2019).

The effect of feedback cannot be underestimated as a critical motivating factor in learning trajectories and producing meaningful feedback for test-takers should be routine (Humphrey-Murto et al. 2016; Tekian et al. 2017; Ossenberg et al. 2019).


제3장: '논의/명분'

Section 3: The ‘argument/justification’


모든 유효성 근거의 출처를 취합하여 시험 점수의 결과에 기초하여 내린 결정을 정당화해야 한다(Downing and Haladyna 2004; Kane 2013b). 이러한 분석에서 나타나는 취약 영역은 품질 개선을 알릴 수 있다. 시험 점수에 기초한 결정을 정당화하기 위한 점수-일반화-외삽-함의(Cook et al. 2015)의 적용은 OSCE의 품질 보증의 중요한 척도다.

All sources of validity evidence should be gathered to justify any decisions made based on the results of the test scores (Downing and Haladyna 2004; Kane 2013b). Areas of weakness which emerge from such analyses can inform quality improvement. Application of the scoring–generalisation–extrapolation–implications to justify the decisions based on the test scores (Cook et al. 2015) is an important measure of quality assurance for an OSCE.


OSCE에 대한 권장 사항

Recommendations for OSCEs


OSCE에 대한 권고사항은 표 1에 요약되어 있다. 2011 Consensus Statement에서 여전히 유효한 중요한 메시지에는 다음에 대한 권고사항:

The recommendations for OSCEs are summarised in Table 1. Important messages that are still valid from the 2011 Consensus Statement include recommendations for:

  • [시험의 목적을 정의]하고 OSCE를 사용하여 [임상 상호작용을 테스트]한다.

  • OSCE를 학습 목표/성과를 블루프린팅

  • OSCE에 (잘 인정받는) 준거참조 기준설정 방법 – Borderline Regression Method을 사용

  • OSCE의 콘텐츠가 충분한 스테이션과 테스트 시간을 통해 적절하게 샘플링되도록 보장한다.

Defining the purpose of testing and using an OSCE to test clinical interactions.

Blueprinting the OSCE to learning objectives/outcomes.

Using a recognized criterion referenced standard setting method appropriate for OSCEs – Borderline Regression Method.

Ensuring content in the OSCE is adequately sampled through sufficient stations and testing time.


2011년 이후 문헌에서 나타난 새로운 측면에는 다음과 같은 권고사항이 있다.

New aspects that have emerged from the literature since 2011 include recommendations to:

  • OSCE가 평가 시스템의 일부로 설계되었는지 확인하십시오.

  • 타당성 프레임워크 기준을 준수하고 OSCE 점수 해석을 위한 증거를 수집하십시오.

  • 등급 척도 대 체크리스트의 사용을 고려하여 적절한 표시 방식을 설계하고 채점 방식을 임상의 언어에 맞게 조정하십시오.

  • 심사관의 판단을 표준화하기보다는 평가자의 수를 충분히 보장함으로써 평가자의 가변성을 수용한다.

  • 그룹 스테이션에 대한 작업 설계 및 OSCE 회로 설계를 통해 테스트 보안을 처리한다.

  • OSCE는 MCQ를 사용한 테스트와 같은 다른 평가 방법과 비교하여 메트릭에 대한 다른 접근 방식을 요구하므로 적절한 메트릭스를 생성하십시오.

  • OSCE 데이터를 다른 평가와 삼각측량하여 중요도가 높은 의사 결정을 통보한다.

Ensure OSCEs are designed as part of a system of assessment.

Adhere to validity framework criteria and gather evidence for the interpretation of the OSCE scores.

Design an appropriate marking scheme by considering the use of rating scales versus checklists and align marking scheme to the language of clinicians.

Embrace examiner variability by ensuring sufficient numbers of examiners, rather than trying to standardize their judgements.

Handle test security through task design and OSCE circuit design to group stations.

Generate appropriate metrics given that OSCEs require a different approach to metrics compared to other assessment methods such as tests using MCQs.

Triangulate OSCE data with other assessments to inform high-stakes decision making.



Workplace-based assessments (WBAs)


WBA 도구 사용 

Uses of WBA tools


WBA 도구 사용 방법은 중요하며 성공에 필수적이다. WBA 도구 또는 도구 세트의 '의도한 사용'과 WBA 데이터에서 이루어진 결정은 타당성 증거의 중요한 원천이다(Kane 2013a). 타당성이 도구 자체의 특성이 아니라는 점을 고려할 때(AERA et al. 2014), 단일 WBA 도구 안에서의 variation 간 비교보다는 도구가 사용되는 방법이 더 중요하다.

How WBA tools are used is important and integral to success. The ‘intended use’ of the WBA tool, or set of tools, and decisions made from WBA data are important, essential sources of validity evidence (Kane 2013a). Given that validity is not a property of the instrument itself (AERA et al. 2014), comparisons between variations in a single WBA tool design are not as critical as how the tool is used.


각 단일 WBA 도구는 통합되고 일관성 있는 WBA 세트의 일부로 설계 및 구현되어야 한다. WBA 세트는 더 넓은 평가 시스템에 내장되거나 그 자체로 평가 시스템으로 볼 수 있다. 따라서 좋은 평가 시스템의 기준에 주의를 기울여야 한다. 그런 다음 WBA를 하나의 시스템(또는 시스템의 일부)으로 설계하면 평가의 프로그램적 접근방법에 따라 학습의 종적 측면, 도구들의 신중한 조합(Govaerts and Van der Vleuten 2013), 훈련 단계의 정렬에 대한 주의를 유발한다(Schuwirth and Van der Vleuten 2011).

Each single WBA tool should be designed and implemented as part of an integrated, coherent set of WBAs. The set of WBAs can be embedded in a wider system of assessment or seen as an assessment system in itself. Therefore, attention should be given to the criteria for et good systems of assessment (Norcini al. 2018). Designing WBAs as a system (or part of system) then triggers attention to the longitudinal aspects of learning, careful combination of tools (Govaerts and van der Vleuten 2013), and alignment to the stage of training, in keeping with theories of programmatic approaches to assessment (Schuwirth and Van der Vleuten 2011).


WBA의 목적 

Purposes of WBAs


(시스템 또는 시스템의 일부로서) WBA 세트를 설계하는 것이 목적에 부합한다. 목적은 WBA 평가 시스템 내에서 서로 다른 단계에서 다를 수 있다. 

    • 예를 들어, 통합된 WBA 세트는 주로 [형성적 목적]을 위해 설계될 수 있다(학습 강화). 이 목적은 학습자가 피드백에 대해 조치를 취할 수 있는 서술적 피드백과 기회를 미리 파악한다. 

    • 이와 달리 [총괄적 목적]을 위해 설계된 WBA 세트(예: 다음 단계의 훈련 준비 상태에 대한 판단)도 있다. 이 목적은 충분한 데이터 지점의 생성(즉, 다중 관측), 심리학적 특성(평가의 의도된 사용에 적절한 경우), 사전 정의된 표준을 충족하기 위한 성과에 대한 방어 가능한 해석을 중요시한다. 

프로그램적 접근방식은 학습 향상에 초점을 맞춘 일련의 낮은 이해도 WBA와 함께 연속적으로 설계된다. 종방향으로 수행되는 복수의 저위험 WBA는 궁극적으로 종합판정에 사용되는 정보를 제공할 수 있다(Schuwirth and van der Vleuten 2012; Torre et al. 2020).

The design of the set of WBAs (as a system or part of a system) will align with the purpose/s. Purposes may differ at different stages within the WBA system of assessment. 

    • For example, an integrated set of WBAs might be designed primarily for formative purposes (to enhance learning). This purpose foregrounds narrative feedback and opportunities for learners to take action on feedback. 

    • This is in contrast to a set of WBAs designed primarily for summative purposes (e.g. to make judgements about readiness for next stage of training). This purpose foregrounds the generation of sufficient data points (i.e. multiple observations), attention to psychometric properties (where appropriate for the intended use of the assessment), and a defensible interpretation of achievement to meet pre-defined standards. 

Programmatic approaches are designed on a continuum, with a series of low stakes WBAs that focus on enhancing learning. Multiple low stakes WBAs conducted longitudinally can ultimately provide information used for a summative judgment (Schuwirth and van der Vleuten 2012; Torre et al. 2020).


학습 및 학습 행동에 미치는 영향

Effects on learning and learning behaviours


WBA의 피드백은 작업 방법(임상 기술), 학습 방법(학습에 대한 계정성) 및 느낌 방법(감정적 웰빙)에 따른 영향을 준다는 증거가 있으며, 교육생에게 다양한 영향을 미친다(Voyer et al. 2016). WBA는 감독자(Sabey and Harris 2011; Barrett et al. 2016)와의 접촉 시간을 늘리거나 보호하는 데 유용하고 피드백의 빈도나 품질을 개선하는 것을 포함하여 학습 과정에 바람직한 영향을 미친다(Weller et al.). 2009; Barrett 등 2016). 이러한 현상이 발생하는 학습 환경은 피드백과의 연관성에 상당한 영향을 미친다(BingYou et al. 2019). 연습자 기관, 소속 또는 존중에 [부정적인 영향을 미치는 분위기]는 피드백 효능을 저해할 가능성이 더 높다(Sargeant et al. 2009. 궁극적으로 피드백은 근무지에서의 학습과 관련된 것에 초점을 맞출 필요가 있다(van der Lew et al. 2018). 이것은 일반적으로 숫자/점수의 등급 척도를 포함하는 WBA가 학습자에게 직장에서 개선 방법을 알려주기에는 한계가 있는 부분이다(Hattie and Timperley 2007; Bing-You et al. 2017). 기술이 변화함에 따라 피드백에 대한 빅데이터 및 학습 분석(Tekian et al. 2017; Van der Schaaf et al. 2017)을 포함한 기술 사용 사례(Joynes Fuller 2016)가 점점 늘어나고 있다.

Feedback from WBAs has a range of effects on trainees, with some evidence of benefits accruing to ways of working (clinical skills), ways of learning (accountability for learning), and ways of feeling (emotional wellbeing) (Voyer et al. 2016). WBAs have desirable effects on the process of learning including being useful for increasing (or protecting) contact time with supervisors (Sabey and Harris 2011; Barrett et al. 2016) and improving the frequency or quality of feedback (Weller et al. 2009; Barrett et al. 2016). The learning climate within which this takes place significantly influences the nature of engagement with feedback (BingYou et al. 2019). A climate that negatively influences trainee agency, affiliation or esteem is more likely to undermine feedback efficacy (Sargeant et al. 2009). Ultimately, feedback needs to focus on what is relevant to the learning in the workplace (van der Leeuw et al. 2018). This is where WBAs that commonly include a rating scale with numbers/ scores have limitations for informing learners about how to improve (Hattie and Timperley 2007; Bing-You et al. 2017) in the workplace. As technologies change, there are of and increasing examples uses of technology (Joynes Fuller 2016) including big data and learning analytics for feedback (Tekian et al. 2017; van der Schaaf et al. 2017).


또한 WBA는 바람직하지 않은 학습 효과를 유발할 수 있다. WBA를 학습의 메커니즘이라기 보다는 [체크박스 연습에 지나지 않는다]고 보는 교육생들의 시각은 지난 10년 동안 지속적인 관심사로 남아 있다(Bindal et al. 2011; Barrettt et al. 2017). WBA에서 척도/숫자의 유행이 한 가지 원인이 되며, 등급 척도를 사용할 때 설계는 진정한 임상 성과를 반영하는 descriptor의 문구에 주의를 기울여야 한다(Crossley and Jolly 2012). 또 다른 요인은 WBA가 총괄적 목적으로 사용될 때 [관대한 평가자를 찾는 학습자의 전략적이고 바람직하지 않은 행동]을 유발하는 방식으로 사용되는 점이다. 예를 들어, 결과가 좋지 않거나 복잡도가 높은 환자 사례에 대한 논의를 회피하고, 필요한 최소 수의 WBA만 수행하고, 단계별 성과를 창출하며, 더 긍정적인 점수를 기대하면서 '널널한' 평가자를 찾는 학생/수련생이 이에 해당한다(빈달 외 2011; 매시 앤 알리 2016; 바렛 외 2017).). 이는 학습자 분석에서 병행되는 작업에 의해 반영되며, 단순한 '계측 및 측정counting and measuring'에만 초점을 맞추면 불안, 주의 산만 및 실패가 증가하면서 학습자 참여에 해로운 영향을 미칠 수 있다(Foster and Francis 2019; Archer and Prinsloo 2020).

WBAs can also induce undesirable learning effects. Trainees’ perspectives of WBAs as being no more than a tick-box exercise, rather than a mechanism for learning, has remained an ongoing issue of concern for the past decade (Bindal et al. 2011; Barrett et al. 2017). The prevalence of scales/numbers on WBAs is one contributing factor and when rating scales are used, design should pay attention to wording of descriptors that reflect authentic clinical performance (Crossley and Jolly 2012). Another factor is where WBAs are used primarily for a summative purpose in a way that encourages strategic, and undesirable, behaviours from learners who seek lenient assessors. These include, for example, students/trainees avoiding discussion of patient cases with poor outcomes or a high degree of complexity, undertaking only the minimum number of WBAs required, generating a staged performance, and seeking ‘friendly’ assessors, hoping for a more positive score (Bindal et al. 2011; Massie and Ali 2016; Barrett et al. 2017). This is mirrored by parallel work in learner analytics, where a focus on simply ‘counting and measuring’ assessment may also lead to detrimental effects on learner engagement, with increased anxiety, distraction and failure (Foster and Francis 2019; Archer and Prinsloo 2020).


다른 상황에서는, [평가자와의 권력 관계의 특성]이 피드백 획득에 대한 학습자의 신뢰도와 평가자의 성과 향상 약속에 대한 신뢰에 영향을 미친다(Yang and Carless 2013). 이를 통해 학습자가 자신보다 더 박식하다는 인상을 주려고 노력하는 '수행능력을 연기하는staging a performance'(LaDonna et al. 2017) 현상이 나타날 수 있는데, 이는 종합평가에서 자신들에게 불리할 수 있는 약점을 감추기 위한 것이다. 학습자가 encounter의 

    • 부담stakes이 낮다고 인식하는 경우, 더욱 '이 encounter에서 무엇을 배울 수 있는가'를 묻는 방식으로 접근할 수 있다. 

    • 부담이 높다고 인식되는 경우, '인상 관리'는 응답, 확립된 문헌 판단의 미러링 및 '인상 형성'에 대해 학습자 평가자가 더 가능성이 높다.

In other settings, the nature of a power relationship with an assessor influences learner confidence in obtaining feedback and their trust in the assessor’s commitment to enhancing their performance (Yang and Carless 2013). This can lead to the phenomenon of ‘staging a performance’ (LaDonna et al. 2017) where learners try to give the impression that they are more knowledgeable than they are, driven to hide weaknesses that may count against them in summative assessment. 

    • Where learners perceive the stakes in an encounter to be low/none, they are more likely to approach the encounter asking ‘what can I learn from this encounter’. 

    • If the stakes are perceived to be high, ‘impression management’ is the more likely learner assessor about response, mirroring established literature judgements and ‘impression formation’.


WBA 시스템의 설계는 학습 과정을 강조하고 학습자의 행동을 최소화하거나 제거하여 학습 비용을 절감하는 학습자 행동을 촉진해야 한다. 다양한 맥락에서, 그리고 평가되는 각 개인에 대해 풍부한 데이터를 제공하기 위해 복수의 평가자와 함께 WBA를 사용하는 것이 중요하다. 단일 WBA 인스턴스는 의미를 제공하지 않으며 성능 패턴에 대한 데이터를 생성하는 것이 목표여야 한다(Govaerts and van der Vleuten 2013; Hodges 2013). 전문적 판단의 주관적 성격을 맥락에서 회피하고, 이를 문제점으로 보기보다는 맥락을 설명하는 만큼 강점이 된다(Kogan et al. 2011).

Designs of WBA systems need to drive learner behaviours which emphasise the process of learning and minimise, or eliminate, learner behaviours to gain a performance outcome, at the expense of learning. It is valuable to use WBAs for range of tasks, in a variety of contexts, and with multiple assessors to provide rich data for and about each individual being assessed. Single WBA instances do not provide meaning and generating data about patterns of performance should be the aim (Govaerts and van der Vleuten 2013; Hodges 2013). Rather than avoid the subjective nature of professional judgement in context, and view it as problematic, it is a strength as it accounts for context (Kogan et al. 2011).


WBA의 평가/진행 결정

Assessment/progression decisions from WBAs


WBA는 진행과 같은 결과적 의사결정을 위한 WBA 집합으로 간주되어야 한다. 세트는 동일한 WBA 도구 또는 [필요한 도메인 전체에 걸쳐 샘플링]을 보장하기 위해 다양한 WBA 도구를 결합한 세트일 수 있다.

WBAs should be viewed as a set of WBAs for consequential decisions, such as progression. The set could be a number of the same WBA tool, or a set which combines a variety of WBA tools to ensure sampling across required domains.


다양한 설정과 다음을 포함한 다양한 컨텍스트를 관찰하기 위해 서로 다른 WBA 도구가 개발되었다.

Different WBA tools have been developed for different settings and for observing different contexts including:

    • 1. 단일 환자 접점: 학습자와 환자 간의 임상적 상호작용이 관찰되는 경우: 예: Mini-CEX(Mini-Cleinical Evaluation Action, Mini-CEX) 또는 Direct(DOPS(절대 절차적 기술의 관찰) 외. 2011).

    • 2. 다중 환자 접촉: 리더십 및 복잡성 관리에 초점을 맞춘 경우: OCAT(Ottawa Clinic Assessment Tool) (Kelleher et al. 2020).

    • 3. 간접 환자 접점: 환자와 관련된 임상 활동에 초점을 맞추고 있지만 환자 상호작용이 관찰되지 않는 경우: 예: 사례 기반 토론(CBD) 또는 인도 도구(HAT) (RCGP 2020)

1. A single patient encounter: where a clinical interaction between learner and patient is observed: e.g. MiniClinical Evaluation Exercise (Mini-CEX) or Direct Observation of Procedural Skills (DOPS) (Pelgrim et al. 2011).

2. Multiple patient encounters: where the focus is on e.g. leadership and management of complexity: Ottawa Clinic Assessment Tool (OCAT) (Kelleher et al. 2020).

3. An indirect patient encounter: where the focus is on clinical activities that relate to a patient but the patient interaction is not observed: e.g. Case-based Discussion (CBD) or Handover Tool (HAT) (RCGP 2020).


다른 유형의 WBA에는 위탁 가능한 프로페셔널 활동(EPAs)이 포함된다(10 Cate 2005). EPA의 경우, 임상 감리자는 훈련자의 성과에 대해 특정 업무를 '위임'할 수 있는지에 대해 판단을 내린다(Hatala et al. 2019). 위임 결정에는 일반적으로 다음의 것들을 고려한다.

    • 학생/교습자의 특성, 

    • 이전 감독 경험, 

    • 과거 평가 및 현재 역량에 대한 증거, 

    • 환자 및 사례 복잡성과 같은 맥락

    • 연습생의 겸손과 성실성과 같은 속성을 포함한다(Duijn et al. 2018). 

Another type of WBA includes Entrustable Professional Activities (EPAs) (ten Cate 2005). In EPAs, clinical supervisors make judgments on trainees’ performance about whether they can ‘entrust’ the trainee with specific tasks (Hatala et al. 2019). The entrustment usually requires several considerations: 

    • characteristics of the student/trainee, 

    • previous supervision experience, 

    • past assessment and evidence of current competencies, and 

    • context such as the patient and case complexity (Cianciolo and Kegg 2013). 

    • Entrustment decision making also involves attributes such as humility and integrity of the trainee (Duijn et al. 2018). 


WBA의 한 유형으로서 EPA의 핵심 요소는 [감독자의 일상적인 임상 작업 활동과 적절한 수준의 감독]에 맞춰 구성된 [위임가능도 평가 척도] 개발을 포함한다(Reckman et al. 2016). 이는 위탁 규모에 따라 임상 감독자들이 이상적인 훈련생 성과에 대한 추상적인 모델이 아닌 실제적인 판단을 하도록 장려하기 때문에 WBA의 형태로서 EPA의 의미를 강화한다(Reckman et al. 2016). [위임가능도 평가 척도 사용]에서 위탁을 결정하는 감독자의 역할인 위탁에 대한 상이한 이해로 인해 긴장이 발생하며, 위임이라는 것이 임상업무 학습의 종단적 성격과 감독자-연수자 관계로 인해 [discrete, point-in-time assessment가 아니라는 점]에서 발생한다.

A key element of EPAs as a type of WBA involves the development of entrustment scales which are construct-aligned with the day-to-day activities of clinical work of supervisors and the appropriate level of supervision (Rekman et al. 2016). This reinforces the meaning of EPAs as a form of WBA because the entrustment scales encourage clinical supervisors to make real-world judgments rather than an abstract model of ideal trainee performance (Rekman et al. 2016). Tensions in using entrustment scales arise from different understandings of entrustment, the role of supervisor in determining the entrustment, and that the entrustment is not a discrete, point-in-time assessment due to longitudinal nature of learning clinical tasks and supervisor–trainee relationships (ten Cate 2020).


WBA 유형에 관계없이, WBA의 단일 인스턴스는 성능 표준에 대한 방어적 판단에 불충분하다. 의학교육의 일부 관행은 consequence에 부합하지 않거나, 하나의 시험이 갖는 부담stakes의 복잡성을 과소평가한다(Tannenbaum and Kannenbaum, kane 2019). 한 예로 단일 WBA 인스턴스(또는 소수의 인스턴스)가 통과/실패 결정에 연결되는 경우를 들 수 있다. 요컨대, '개별 데이터 포인트는 높은 수준의 의사결정에 적합하지 않다'(van der Vleuten 2016 2016)는 것이다. 또 다른 하나는 작은 퍼센트가 단일 WBA에 첨부되고(지분이 낮다는 것을 의미함) 나중에 여러 인스턴스를 합산하여 종합 평가에 사용되는 비율을 형성하는 것이다. 이는 일련의 WBA(Tannenbaum and Kane 2019) 또는 정신측정학 문제에 걸친 결과의 프로파일을 설명하지 않는다. 서술적 데이터를 취합하고 해석하는 것은 방어할 수 있는 판단을 뒷받침할 수 있다(Oudkerk Pool et al. 2018). 의사결정에 위원회가 필요하다는 것이 보고된 바 있다.(Soleas et al. 2020; Thoma et al. 2020).

Regardless of the type of WBA, single instances of a WBA are insufficient for defensible judgements about standards of performance. Some practices in medical education are not consonant with consequences or underestimate the complexity of stakes in testing (Tannenbaum and Kane 2019). One example is where a single WBA instance (or a small number of instances) links to a pass/fail decision. In short, ‘individual data points are not very suitable for high-stakes decisions’ (van der Vleuten 2016). Another is where a small percentage is attached to a single WBA (to imply low stakes) and multiple instances are then later summed to form a percentage used for summative assessment. This does not account for the profile of consequences across a set of WBAs (Tannenbaum and Kane 2019)or psychometric issues. Aggregating and interpreting narrative data can support defensible judgements (Oudkerk Pool et al. 2018). The use of committees for decision making have been documented (Soleas et al. 2020; Thoma et al. 2020).


심리측정적 이슈

Psychometric issues


고부담 판단과 관련하여 WBA를 사용함으로써 여러 임상 현장에서 다양한 WBA 도구, 서로 다른 평가자를 사용한 판단의 신뢰성 또는 재현성에 대한 논쟁을 불러일으켰다WBA 데이터를 사용한 일반적 타당성 분석의 경우 데이터에 적합한 모델은 시간이 지남에 따라 성장 가능성(연습생 기술 향상)을 허용할 필요가 있다. 그렇지 않으면 일반화 분석에서 측정 오차의 원인이 된다. 서로 다른 사이트의 데이터를 결합할 때 '연결성connectedness'에 주목하지 않는 한 심각한 정신측정학 문제가 발생할 수 있다. 연결성은 OSCE 문헌의 작업에서 등장햇는데, WBA분석에도 적용되어야 한다여러 유형의 WBA 도구를 결합할 때 신뢰성이 향상되었다는 증거가 있다(Moon-van Loon et al. 2013). WBA의 목적이 학습을 강조할 때 낮은 신뢰성은 문제가 되지 않는데, 그 이유는 타당성 증거가 학습 효과에 더 초점을 맞출 것이기 때문이다. 그러나 WBA를 종합적 목적 또는 높은 평가를 위해 사용할 경우, 심리측정적 특성에 대한 관심이 더욱 중요해진다(Norcini et al. 2018; Pearce 2020).

The use of WBAs in connection with high-stakes judgements has generated debate about reliability (in psychometric terms), or reproducibility, of judgements with various WBA tools, different assessors, in different clinical sites. For generalisability analyses using WBA data, the model fit to the data needs to allow for possibility of growth (improvement in trainees’ skills) over time. Otherwise, this will contribute to measurement error in generalizability analyses. Combining data from different sites generates serious psychometric issues unless there is attention to ‘connectedness’, a design requirement arising from work in the OSCE literature that should also be applied to WBA analyses (Swanson et al. 1999; Swanson and van der Vleuten 2013). There is evidence of gains in reliability when different types of WBA tools are combined (Moonen-van Loon et al. 2013). Low reliability is not a concern when the purpose of WBAs emphasises learning, as validity evidence will then focus more on learning effectiveness. However, when WBAs are used for summative purposes, or highstakes judgements, attention to psychometric properties becomes more critical (Norcini et al. 2018; Pearce 2020).


평가자 관점 

Rater perspectives


WBA가 해결해야 할 과제 중 하나는 평가자들이 underperformance을 나타내는 정보 제공을 꺼리는 '실패-실패' 현상이다(Yepes-Rios et al. 2016). 이 문제는 특히 모든 WBA 에피소드 후에 종합판단을 하는 것과 관련이 있다. 일반적으로 평가자가 WBA에서 후보자의 성과를 확신하지 못할 때, 그 의심을 핑계로, 후보자를 '통과pass'시키는 경향이 있다. 이는 일련의 marginal performance들을 패스로 넘김으로써, 이들의 합성에 기초하여 높은 점수를 주는 결정을 내리게 할 수 있다. 가능한 경우, 각 WBA 종료 시 결정을 합격/불합격 결정이 아닌 서술적 논평(학습에 도움이 되는 의견)으로 제한하는 것이 도움이 될 수 있다(Cook et al. 2016; Oudkerk Pool et al. 2018).

One of the challenges for WBAs that remains is the ‘failure to fail’ phenomenon whereby assessors are reluctant to provide information that indicates underperformance (Yepes-Rios et al. 2016). This problem is particularly linked to making a summative judgement after every WBA episode. In general, when an assessor is unsure about a candidate’s performance on a WBA, they tend to give the benefit of the doubt and ‘pass’ the candidate. This can lead to a series of marginal performances all being conveyed as passes which then makes high-stakes decision based on the synthesis of such observations less robust. Where possible, restricting the decision at the end of each WBA to narrative comments (which aid learning) rather than a pass/fail decision can help (Cook et al. 2016; Oudkerk Pool et al. 2018).


저성능underperformance 에 대한 평가자 응답에는 불쾌한 메시지에 대해 침묵하는 것(Scarff et al. 2019), '헷징'(Ginsburg et al. 2017) 또는 예의를 지키는 것(BingYou et al. 2019)이 포함된다. 평가자는 훈련 초기에 학습자를 낙제시키는 것을 꺼리거나(개선할 시간이 있다고 가정해서), 다음 단계로 넘겨버린다(학습자와 공감하기 때문에). (다른 직업과 대조적으로) 의료계 내에서 비평, 피드백 및 감독자 역할에 대한 규범이 이러한 평가자 행동을 뒷받침하는 것으로 보인다. WBA의 BEME 리뷰에서 저성능underperformance 을 식별하거나 교정하기 위한 최적의 구현 조건에 대한 혼합된 증거를 발견한 것은 여전히 우려로 남아 있다(Barrett et al. 2016).

Assessor/rater responses to underperformance include keeping quiet about unpleasant messages (Scarff et al. 2019), ‘hedging’ (Ginsburg et al. 2017), or being polite (BingYou et al. 2019). Assessors are reluctant to fail learners early in training (on an assumption there is time to improve) and advanced in training (due to sympathising with the learner). Norms for critique, feedback, and the supervisor role within the medical profession (in contrast with other professions) (Watling et al. 2014;Ginsburgetal.2017;Scarffetal.2019) appear to underpin these assessor behaviours in the workplace. It remains a concern that a Best Evidence in Medical Education (BEME) review of WBAs found mixed evidence about the optimal implementation conditions for identifying or remediating underperformance (Barrett et al. 2016).


해결되지 않은 이슈

Unresolved issues for WBAs


    • WBA 시스템 자체는 학습자와 평가자 사이의 만남에 어떤 영향을 미칩니까? (단일 만남의 피드백 학습자에게 미치는 영향과 대조적으로)?

    • 모든 WBA 도구가 다른 수준의 교육에서 동등하게 효과적인가?

    • WBA를 가치있지만 복잡한 결과와 역량을 육성하는데 사용할 수 있는가?

    • WBA에 대한 프로그램적 접근이 WBA의 학습 효과를 개선할 수 있는가?

    • 학습을 촉진하면서 강력한 의사 결정을 알리기 위해 WBA의 결과를 종합하는 가장 좋은 방법은 무엇인가?

What impact does a WBA system itself have on an encounter between learner and assessor (in contrast with the impact on the learner of feedback from a single encounter)?

Are all WBA tools equally effective at different levels of training?

Can or should WBAs be used to foster valued but complex outcomes and competencies?

Can a programmatic approach to WBAs improve the learning effects of WBAs?

What is the best way to synthesise results of WBAs to inform robust decisions, while still promoting learning?


WBA에 대한 권고 Recommendations for WBAs


WBA에 대한 권고사항은 표 2에 요약되어 있다.

Recommendations for WBAs are summarised in Table 2.

  • WBA와 학습의 통합.

  • WBA와 종단적으로 정기적으로 engagement

  • WBA의 목적을 명확하게 표현한다.

  • 환자, 평가자 및 도구 전반에 걸친 광범위한 샘플링

Integration of WBA with learning.

Regular engagement with WBAs longitudinally.

Clear articulation of purpose of WBAs.

Broad sampling across patients, assessors, and tools.


2011년 이후 문헌에서 나타난 새로운 측면에는 다음과 같은 권고사항이 있다.

New aspects that have emerged from the literature since 2011 include recommendations to:


  • WBA를 통합되고 일관성 있는 WBA 집합으로 설계하고 평가 시스템 또는 시스템의 일부로 설계한다.

  • 바람직한 학습 행동과 효과를 창출하기 위한 설계: 피드백에 초점을 맞추고, 학습 과정을 강조하고, '실패' 현상을 설명하십시오.

  • 판단의 방어가능성을 뒷받침할 수 있는 타당성 증거를 확보. 다음 단계의 훈련으로 진행하기 위한 것과 단일 기술의 숙달 여부를 확인하는 것.

  • 전체론적이고 직장에서의 여러 관찰로부터 데이터를 해석하여 판단을 내리십시오.

  • 임상 실무에 대한 실제 description에 포함된 언어를 채택하는 채점 체계를 사용하십시오.

Design WBAs as an integrated, coherent set of WBAs, and as an assessment system or part of a system.

Design to generate desirable learning behaviours and effects: focus on feedback, emphasise process of learning, and account for ‘failure to fail’ phenomenon.

Ensure validity evidence to support the defensibility of judgements: progression to next stage of training versus identifying mastery of a single skill.

Make judgements that are holistic and require interpretation of data from multiple observations in the workplace.

Use marking schemes that adopt language framed in authentic descriptions of clinical practice.


결론 Conclusion


일반적으로 성과 평가에 대한 다음과 같은 권고사항으로 결론을 내린다.

We conclude with the following recommendations about performance assessment in general:

  • 바람직한 학습 행동을 유도하고 바람직하지 않은/전략적 행동을 억제하는 시스템으로 설계 성과 평가

  • 수행 평가에서 (i) 시간 경과에 따른 기술 증가, (ii) 복수 사이트 및/또는 (iii) 다른 수준의 훈련을 포함하는 경우 정신측정학 영향을 고려한다.

  • 학습과 개선이 바람직한 곳에 서술적 피드백을 포함시키고 해석한다.

Design performance assessment as a system which drives desirable learning behaviours (and discourages undesirable/strategic behaviours).

Account for psychometric implications when performance assessment involves: (i) growth in skills over time; (ii) multiple sites; and/or (iii) different levels of training.

Include, and interpret, narrative feedback where learning and improvement is desirable.







Ghouri A, Boachie C, McDowall S, Parle J, Ditchfield CA, McConnachie A, Walters MR, Ghouri N. 2018. Gaining an advantage by sitting an OSCE after your peers: a retrospective study. Med Teach. 40(11): 1136–1142.


Daniels VJ, Pugh D. 2018. Twelve tips for developing an OSCE that measures what you want. Med Teach. 40(12):1208–1213.


Oudkerk Pool A, Govaerts MJ, Jaarsma D, Driessen EW. 2018. From aggregation to interpretation: how assessors judge complex data in a competency-based portfolio. Adv Health Sci Educ Theory Pract. 23(2):275–287.


Raymond MR, Grande JP. 2019. A practical guide to test blueprinting. Med Teach. 41(8):854–861.


Ossenberg C, Henderson A, Mitchell M. 2019. What attributes guide best practice for effective feedback? A scoping review. Adv Health Sci Educ Theory Pract. 24(2):383–401.


Tannenbaum RJ, Kane MT. 2019. Stakes in testing: not a simple dichotomy but a profile of consequences that guides needed evidence of measurement quality. ETS Res Rep Ser. 2019(1):1–16.


Wood TJ, Pugh D. 2020. Are rating scales really better than checklists for measuring increasing levels of expertise? Med Teach. 42(1): 46–51.






. 2020 Oct 14;1-10.
 doi: 10.1080/0142159X.2020.1830052. Online ahead of print.

Performance assessment: Consensus statement and recommendations from the 2020 Ottawa Conference

Affiliations 

Affiliations

  • 1Department of Assessment and Progression, Duke-National University of Singapore, Singapore, Singapore.
  • 2Curtin Medical School, Curtin University, Perth, Australia.
  • 3Dean's Department, University of Otago, Christchurch, New Zealand.
  • 4Department of Medical Education, Universitas Indonesia, Jakarta, Indonesia.
  • 5Department of Health Sciences Education, University of Cape Town, Cape Town, South Africa.
  • 6School of Medicine, Liverpool University, Liverpool, UK.

Abstract

Introduction: In 2011 the Consensus Statement on Performance Assessment was published in Medical Teacher. That paper was commissioned by AMEE (Association for Medical Education in Europe) as part of the series of Consensus Statements following the 2010 Ottawa Conference. In 2019, it was recommended that a working group be reconvened to review and consider developments in performance assessment since the 2011 publication.

Methods: Following review of the original recommendations in the 2011 paper and shifts in the field across the past 10 years, the group identified areas of consensus and yet to be resolved issues for performance assessment.

Results and discussion: This paper addresses developments in performance assessment since 2011, reiterates relevant aspects of the 2011 paper, and summarises contemporary best practice recommendations for OSCEs and WBAs, fit-for-purpose methods for performance assessment in the health professions.

Keywords: OSCE; Ottawa consensus; Performance assessment; WBA; assessment; validity.


+ Recent posts