의학교육에서 평가의 신뢰(Credibility)인식에 영향을 미치는 요인(Adv Health Sci Educ Theory Pract2021)
Factors affecting perceived credibility of assessment in medical education: A scoping review (Adv Health Sci Educ Theory Pract2021)
Stephanie Long1 · Charo Rodriguez1 · Christina St‑Onge2 · Pierre‑Paul Tellier1 · Nazi Torabi3 · Meredith Young4,5

 

 

 

도입 Introduction

[평가]는 일반적으로 [학습자의 특정 학습 목표, 목표 또는 역량 달성에 대한 판단]을 내리기 위해, 정보를 [시험, 측정, 수집 및 결합]하는 전략을 포함한다(Harlen, 2007; Norcini et al., 2011). 평가는 일반적으로 의학교육에서 네 가지 방법으로 사용된다(엡스타인, 2007).

Assessments are broadly described as any strategy involving testing, measuring, collecting, and combining information to make judgments about learners’ achievement of specific learning objectives, goals, or competencies (Harlen, 2007; Norcini et al., 2011). Assessments are commonly used in four ways in medical education (Epstein, 2007):

  • (i) Practice에 입문하는 사람들이 [역량있음을 보장함으로써 대중을 보호]해야 한다.
  • (ii) 고등교육 [지원자 선발의 근거]를 제공하기 위해
  • (iii) 교육기관(품질보증)을 위하여 [Trainee의 성과에 대한 피드백] 제공
  • (iv) 미래 학습을 지원하고, 방향을 제시한다(엡스타인, 2007; Norcini 등, 2011).
  • (i) to protect the public by ensuring those entering practice are competent,
  • (ii) to provide a basis for selecting applicants for advanced training,
  • (iii) to provide feedback on trainee performance for the institution (i.e., quality assurance), and
  • (iv) to support and provide direction for future learning (Epstein, 2007; Norcini et al., 2011).

[미래 학습을 가이드하는 평가]라는 개념은 평가의 [촉매 효과]로 설명되었으며, 이러한 촉매 효과가 달성되려면 학습자가 평가-생성 피드백(즉, 점수, 서술 코멘트)에 참여함으로써, 학습자가 평가 과정에 능동적으로 참여해야 한다(Norcini 등, 2011). 학습자가 향후 성과를 개선하기 위해 평가에서 생성된 피드백에 참여하지 않을 경우 평가의 잠재적인 교육적 이점은 무효화됩니다. 따라서 평가의 교육적, 수행적 이점을 극대화하기 위해서는, 학습자가 평가에서 생성된 피드백에 참여하도록 장려하거나 저해하는 요소를 이해하는 것이 중요합니다.
The notion of assessment guiding future learning has been described as the catalytic effect of assessment, and for this catalytic effect to be achieved, a learner must be an active participant in the assessment process by engaging with assessment-generated feedback (i.e., scores, narrative comments) (Norcini et al., 2011). If learners fail to engage with assessment-generated feedback to improve future performance, the potential educational benefit of assessment is negated. Therefore, it is critical to understand the factors that encourage or discourage, learners from engaging with assessment-generated feedback in order to maximize the educational and performance benefits of assessment.

의료 학습자(학생, 레지던트 또는 동료)가 [평가 과정에 참여]하고 [평가에서 생성된 피드백을 통합]하여 이후 [성과를 개선하는지 여부]에 몇 가지 요소가 기여할 수 있다. 학생의 평가 참여에 기여하는 한 가지 핵심 요소는 특히 평가인에 의존하는 평가 상황에서 [학습자가 평가와 평가자에 대해 인식하는 신뢰도credibility]이다(Bing-You 등, 1997; Watling, 2014; Watling 등, 2013). 여기서, 현재 증거는 신뢰할 수 있다고 간주되는 피드백이 이후의 관행 개선을 지원하는 데 사용될 가능성이 더 높다는 것을 지적한다. 신뢰할 수 없다고 판단된 피드백은 무시될 가능성이 높으므로 교육적 가치가 거의 없다(Watling, 2014; Watling & Lingard, 2012; Watling 등, 2013). 이 작업의 초점은 평가 순간에 수반되는 [피드백 대화]에 맞춰져 있다는 점에 유의해야 합니다. 따라서, 신뢰성 판단은 평가 과정과 평가자 자체에 의해 영향을 받았습니다. [Supervisor의 피드백 중에서 학습자가 신뢰할 수 있다고 판단한 것]만이 학습 형성에 영향을 미칠 수 있다는 얘기다. 
Several factors may contribute to whether medical learners (students, residents, or fellows) engage with the assessment process and integrate assessment-generated feedback to improve later performance. One key contributing factor to student engagement with assessment is the learner’s perceived credibility of the assessment and of their assessor, particularly in assessor-dependent assessment contexts (Bing-You et al., 1997; Watling, 2014; Watling et al., 2013). Here, current evidence points out that feedback deemed credible is more likely to be used to support later practice improvement. Feedback judged to be not credible is likely to be ignored, and therefore, be of little educational value (Watling, 2014; Watling & Lingard, 2012; Watling et al., 2013). It is important to note that the focus of this work was on the feedback conversation that accompanied an assessment moment. Hence, judgments of credibility were influenced by both the assessment process and the assessor themselves. In other words, only supervisor-provided feedback judged as credible by learners will be influential in shaping learning.

와틀링 외 연구진(2012)에 따르면, 신뢰도 판단은 학습자가 [학습에 통합되어야 할 정보]와 [무시해야 할 정보]를 정리하고, 평가하고, 학습 단서에 가치를 부여할 때 발생한다. Bing-You 외 연구진(1997)에 따르면, Supervisor가 제공한 피드백의 신뢰성에 대한 학습자의 판단은 다음으로부터 영향을 받습니다.
According to Watling et al., (2012), credibility judgments occur when learners organize, weigh, and allocate value to the learning cues presented to them, deciding which information should be integrated into their learning and which should be dismissed. According to Bing-You et al., (1997), learners’ judgments of the credibility of feedback provided by a supervisor are influenced by:

  • (i) Supervisor의 특성에 대한 전공의의 인식(예: 신뢰와 존중, 임상 경험)
  • (ii) Supervisor의 행동에 대한 전공의의 관찰(예: 대인관계 기술 부족, 관찰 부족),
  • (iii) 피드백의 내용(예: 비특정, 자기 표현과 불일치),
  • (iv) 피드백 전달 방법(예: 판단적인 것, 그룹 설정에서 발생한 것) (Bing-You 등, 1997).

  • (i) residents’ perceptions of supervisor characteristics (e.g., trust and respect, clinical experience),
  • (ii) residents’ observations of supervisor behaviour (e.g., lack of interpersonal skills, lack of observation),
  • (iii) content of feedback (e.g., non-specific, incongruent with self-perceptions), and
  • (iv) method of delivering feedback (e.g., judgmental, occurs in group setting) (Bing-You et al., 1997).

따라서 이 지식 본문은 피드백의 개념을 평가자와 학습자 사이의 대화 또는 토론으로 간주한다(Ajjawi & Regehr, 2019). 
This body of knowledge therefore conceives the notion of feedback as a conversation or discussion between an assessor and a learner (Ajjawi & Regehr, 2019).

우리는 교육 동맹의 중요성과 피드백 대화를 신중하게 구성해야 할 필요성을 인정한다(Telio et al., 2015). 하지만 동시에 우리는 평가자 또는 감독자와의 대면 대화(예: 시험 점수, 교육 중 성과 평가, OSCE 점수)와 별개로 학습자는 다양한 출처로부터 자신의 성과에 대한 데이터 또는 정보를 제공받는다고 주장한다. 이 평가 데이터는 학습자에게 피드백을 제공하기 위한 목적으로 작성된 경우가 많습니다 – 컨텐츠의 숙달도를 측정하고, 더 많은 주의나 집중이 필요한 영역을 제안하거나, 학습자가 커리큘럼을 통해 자신의 진행 상황을 추적하도록 지원합니다.

While we acknowledge the importance of the educational alliance (Telio et al., 2015) and the need to carefully construct feedback conversations (Henderson et al., 2019; Watling, 2014), we argue that learners receive data or information about their performance from a variety of sources that are disconnected from face-to-face conversations with an assessor or supervisor (e.g., examination scores, in-training performance evaluations, OSCE scores). This assessment-generated data is often intended to function as feedback to the learners – to gauge mastery of content, to suggest areas that require more attention or focus, or to help a learner track their progress through a curriculum.

이러한 평가-생성 피드백assessment-generated feedback의 교육적 가치를 지원하기 위해 평가(평가 데이터를 생성하는 대상) 및 평가-생성 피드백(평가로 생성된 데이터 및 학습자와 공유되는 데이터)의 인식된 신뢰도perceived credibility에 영향을 미치는 요인을 조사하기 시작했다. 

To support the educational value of this assessment-generated feedback, we set out to explore the factors that influence the perceived credibility of assessment (the objects that generate assessment data) and assessment-generated feedback (the data generated by assessments and shared with learners). 

방법 Methods

의학 교육에서 평가 및 평가-생성 데이터의 신뢰성에 대한 학습자 인식에 대한 현재 문헌은 이질적이고 방법론과 집중도가 매우 다양한 논문으로 구성되어 있다. 이러한 가변성은 우리의 초점 영역이 의학 교육 내에서 새로운 연구 영역이라는 인식과 결합하여 범위 검토 방법론을 우리의 연구 맥락에서 현재 연구에 가장 적합한 접근방식으로 만든다. Scoping review에 대한 몇 가지 접근방식이 있지만, 우리는 Arcsey와 O'Malley(2005) 5단계 프레임워크에 의존했다. 범위 지정 검토에는 선택 사항인 6단계( 이해관계자와의 협의)가 포함될 수 있지만(Arcsey & O'Malley, 2005) 포함되지 않았다.
Current literature on learner perceptions of credibility of assessment and assessment-generated data in medical education is disparate and comprised of articles that are highly variable in methodology and focus. This variability, in combination with the recognition that our area of focus is an emerging area of research within medical education, makes a scoping review methodology the most appropriate approach for the present study in our research context. While there are several approaches to scoping reviews (Arksey & O'Malley, 2005; Levac et al., 2010), we relied on the Arksey and O'Malley (2005) 5-stage framework. Scoping reviews can include an optional 6th step (consultation with stakeholders) (Arksey & O'Malley, 2005), which was not included.

1단계: 연구 질문 식별
Step one: Identify research question

이 검토는 "의학교육 문헌에 문서화된 평가 및 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 요인은 무엇인가?"라는 연구 질문에 의해 유도되었다.
This review was guided by the research question, What are the factors that affect the perceived credibility of assessment and assessment-generated feedback documented in the medical education literature?”.

2단계: 관련 연구 확인
Step two: Identifying relevant studies

의료 사서(NT)와 협력하여 통제된 어휘(예: MeSH)와 키워드를 사용하여 관련 문헌을 식별하기 위한 검색 전략을 개발하고 실행했다. 검색 전략은 MEDLINE(Ovid), PsycInfo(Ovid), Scopus, EMBASE(Ovid), EBSCO(EBSCO)에서 채택 및 구현되었다. 검색을 2000년에서 2020년 11월 16일 사이에 발표된 연구로 제한했다.(2017년 6월 17일에 처음 실행되어 2020년에 업데이트됨) 이것이 보건 직업 교육에서 [평가의 교육적 가치에 대해 논의하는 쪽]으로 문헌의 변화를 나타냈기 때문에 우리는 2000년에 닻을 내렸다(Frank 등, 2010). 보다 구체적으로, 이것은 학습과 평가의 성과(즉, 역량)에 초점을 맞춘 의료 교육 개혁으로 향하는 전환점을 나타냈다(Frank et al., 2010). 

In collaboration with a medical librarian (NT), a search strategy was developed and executed to identify relevant literature, using controlled vocabularies (e.g., MeSHs) and keywords. The search strategy was adapted and implemented in: MEDLINE (Ovid), PsycInfo (Ovid), Scopus, EMBASE (Ovid), and ERIC (EBSCO). We limited the search to studies published between 2000 to November 16, 2020 (search first executed June 17, 2017 and updated in 2020). We chose to anchor to 2000 as this represented a shift in the literature towards discussing the educational value of assessment in health professions education (Frank et al., 2010). More specifically, this represented a turning point towards reforms in medical education focused on outcomes (i.e., competency) of learning and assessment (Frank et al., 2010). 

3단계: 스터디 선택
Step three: Study selection

포함된 논문: (1) 의학 학습자를 초점 모집단으로 두고, (2) 프로그램이나 환자가 아닌 개별 학습자에 대한 평가를 포함하고, (3) 평가 또는 평가-생성 피드백과 관련하여 신뢰성을 논의했으며, (4) 주요 연구 연구였으며, (5) 영어 또는 프랑스어(연구팀의 언어 역량)였다.
Included papers: (1) had medical learners as the focal population, (2) contained assessment of individual learners (rather than programs or patients), (3) discussed credibility as related to assessment or assessment-generated feedback, (4) were primary research studies, and (5) were in English or French (linguistic competencies of the research team).

두 명의 저자(SL, MY)는 웹 기반 선별 애플리케이션 Rayyan을 사용하여 모든 제목과 추상(Peters 등, 2015)을 독립적으로 심사했다. 의견이 일치하지 않는 경우, 세 번째 검토자(CSO)는 불일치를 해결했다. 원시 백분율 합의는 평가자 간 신뢰도의 척도로 사용되었다(Kastner 등, 2012). 전체 텍스트 검토를 위해 포함된 문서는 EndNote X8.0.2로 내보내졌다(EndNote Team, 2013). SL은 모든 전체 텍스트 기사를 독립적으로 심사했으며, MY는 포함을 위해 전체 텍스트 문서의 10%를 검증했다.

Two authors (SL, MY) independently screened all titles and abstracts (Peters et al., 2015) using the web-based screening application Rayyan (http://rayyan.qcri.org) (Ouzzani et al., 2016). In cases of a disagreement, a third reviewer (CSO) resolved discrepancies. Raw percent agreement was used as a measure of inter-rater reliability (Kastner et al., 2012). Articles included for full-text review were exported to EndNote X8.0.2 (The EndNote Team, 2013). SL independently screened all full-text articles, with MY verifying 10% of full-text articles for inclusion.

4단계: 데이터 차트 작성
Step four: Charting the data

추출된 데이터: 저널, 발행 연도, 대륙, 연구 설계, 방법론, 인구 특성, 평가 유형, 평가 제공자, 제공된 피드백 유형, "타당성"이 사용되지 않은 경우, "타당성"이라는 용어는 구조를 지칭하는 데 사용되었다., 신뢰성의 정의 , 신뢰도에 영향을 미치는 요인.
Data extracted: journal; year of publication; continent; study design; methodology; study population characteristics; types of assessment; who provided the assessment; type of feedback provided; use of term “credibility”, if “credibility” was not used which term was used to refer to the construct; definition of credibility; factors that affect credibility.

평가 유형, 평가 제공자, 피드백 유형은 원본 기사에 사용된 정확한 언어에 따라 코딩되었습니다.
Assessment type, provider of assessment, and feedback type were coded relying on the exact language used in the original articles.

5단계: 결과 수집, 요약 및 보고
Step five: Collating, summarizing, and reporting the results

데이터 합성은 서지학적 설명과 주제 분석에 초점을 맞췄다. 우리는 PRISMA-ScR에 따라 결과를 보고했다.
The data synthesis focused on bibliometric description and thematic analysis. We reported our results according to the PRISMA extension for Scoping Reviews (PRISMA-ScR) (Peters et al., 2020; Tricco et al., 2018).

데이터 분석
Data analysis

정량분석
Quantitative analysis

연구의 특성 및 분포(예: 연구 설계, 출판 연도, 연구 인구)를 설명하기 위해 서지학 특성에 대한 기술 분석이 사용되었다.
Descriptive analyses of bibliometric characteristics were used to describe the nature and distribution of the studies (e.g., study design, year of publication, study population).

정성적 주제 분석
Qualitative thematic analysis

우리는 토마스와 하든(2008)이 설명한 주제 분석을 위한 방법론적 프레임워크를 적용했다. 
We applied the methodological framework for thematic analysis described by Thomas and Harden (2008). 

결과Results

검색 결과 Search results

80개의 문헌이 포함 기준을 충족하여 합성에 포함되었다(그림 1 "보완 디지털 부록 2" 참조).
Eighty articles met the inclusion criteria and were included in the synthesis (Fig. 1, see "Supplemental Digital Appendix 2" for a list of all included articles).

Fig. 1

포함된 문서의 특성
Characteristics of included articles

포함된 연구는 2000년 1월 1일부터 2020년 11월 16일 사이에 발표되었으며, 시간 경과에 따른 출판물 수가 분명히 증가했다(보완 디지털 부록 3).

  • 연구는 48개 저널에 걸쳐 발표되었다.
  • 다양한 지리적 지역에서 수집되었지만, 대다수는 유럽(n=38, 38.8%)과 북미(n=31, 31.6%)였다.
  • 참여자는 의대생(n = 60, 61%), 레지던트(n = 17%, 17%), 펠로우(n = 2, 2.0%), 전문 교육생(n = 17%, 17%), 전공의(n = 2, 2.0%) 등이다.
  • 대부분의 평가는 감독관 또는 심사원(n=43%, 38%)이 실시했으며, 평가-생성 피드백은 주로 점수 또는 등급(n=32, 23%)으로 제시되었으며, 주로 서면(n=29,20%) 또는 구두(n=29,21%) 형식으로 제공되었다.
  • 포함된 논문은 광범위한 연구 접근법에서 나왔으며, 반구조화 인터뷰(n = 20%, 10%), 포커스 그룹(n = 31, 23%), 설문지(n = 37, 28%), 설문조사(n = 18, 13%), 설문지 또는 설문지의 자유 텍스트 논평(n = 13, 9.7%)에서 생성된 데이터에 의존했다. (n = 14, 10%).

Studies included were published between January 1, 2000 and November 16, 2020, with an apparent increase in the number of publications across time (Supplemental Digital Appendix 3).

  • Studies were published across 48 journals.
  • Literature was drawn from a variety of geographic regions, but the majority were from Europe (n = 38, 38.8%) and North America (n = 31, 31.6%).
  • Participants included: medical students (n = 60, 61%), residents (n = 17, 17%), fellows (n = 2, 2.0%), specialist trainees (n = 17, 17%), and registrars (n = 2, 2.0%).
  • Most assessments were provided by a supervisor or an assessor (n = 43, 38%), and assessment-generated feedback was primarily presented as scores or ratings (n = 32, 23%), usually provided in written (n = 29, 20%) or verbal form (n = 29, 21%).
  • Included papers were from a breadth of research approaches, relying on data generated from semi-structured interviews (n = 20, 10%), focus groups (n = 31, 23%), questionnaires (n = 37, 28%), surveys (n = 18, 13%), free-text comments from surveys or questionnaires (n = 13, 9.7%), a pile-sorting activity, and psychometric analysis of assessment data (n = 14, 10%).

표 1 본 검토에 포함된 간행물의 서지학적 세부 정보
Table 1 Bibliometric details of publications included in this review

 

신뢰성의 개념화
Conceptualization of credibility

80개 출판물 중 34개 논문만이 '신뢰성credibility'이라는 특정 용어를 사용했으며, 명시적인 정의를 제공한 것은 없었다. 동일한 현상(즉, 평가 또는 평가-생성 피드백의 인식된 신뢰성)을 반영하는 것으로 간주되는 27개의 다른 용어를 식별했다. 가장 자주 사용되는 용어는 유용한(n = 23), 공정한(n = 17), 가치있는(n = 10)이었다("보완 디지털 부록 5"에서 식별된 전체 용어 목록).
Of the 80 publications included in the synthesis, only 34 articles used the specific term ‘credibility’, and none provided an explicit definition. We identified 27 other terms that were considered to reflect the same phenomenon (i.e., perceived credibility of assessment or assessment-generated feedback). The most frequently used terms were useful (n = 23), fair (n = 17), and valuable (n = 10) (full list of terms identified in "Supplemental Digital Appendix 5").

평가의 교육적 가치
Educational value of assessment


여러 논문(Malau-Aduli 등, 2019; Ricci 등, 2018; Ryan 등, 2017; Yielder 등, 2017)은 평가의 교육적 가치와 관련된 결과를 명시적으로 설명하고 포함시켰다. 교육적으로 가치 있는 것으로 인식되는 평가는 (Rici 등, 2018)에서 인용한 "우리가 남은 경력 동안 사용할 지식을 최대로 유지할 수 있는 황금 같은 기회"(참여자 73, 페이지 358)로 간주되었다. 교육적으로 가치 있는 평가로부터 기대되는 긍정적 결과는 [학습자가 자신의 약점을 성찰할 수 있도록 한다는 것]이었다. "…내가 잘하지 못하는 분야를 식별하게 한 것은 질문 그 자체였다." (참가자 14CP, 페이지 967)는 (라이언 외, 2017)에서 인용했다.

Several papers (Malau-Aduli et al., 2019; Ricci et al., 2018; Ryan et al., 2017; Yielder et al., 2017) explicitly described and included findings pertaining to the educational value of assessment. Assessments perceived as educationally valuable were viewed as “…golden opportunit[ies] to stay on top of the knowledge we will be using for the rest of our careers” (Participant 73, p. 358) quoted from (Ricci et al., 2018). A promising outcome of educationally valuable assessment was that it allowed learners to reflect on their weaknesses: “…what made me identify the areas I wasn’t good at was the questions themselves” (Participant 14CP, p. 967) quoted from (Ryan et al., 2017).

인식된 신뢰도에 영향을 미치는 요인
Factors that affect perceived credibility

학습자의 평가 및 평가-생성 피드백에 대한 인식 신뢰도에 영향을 미치는 세 가지 요소를 확인했습니다.
We identified three sets of factors that affect learners’ perceived credibility of assessment and assessment-generated feedback:

  • (i) 평가 프로세스의 요소
  • (ii) 학습자의 교육 수준 및
  • (iii) 의학교육의 맥락
  • (i) elements of the assessment process,
  • (ii) learners’ level of training, and
  • (iii) context of medical education

(모든 테마와 하위 테마의 개요는 표 2를 참조하고, 각 테마를 지원하는 예시 인용문은 "보완 디지털 부록 6"을 참조한다.)
(see Table 2 for an overview of all themes and subthemes; and "Supplemental Digital Appendix 6" for exemplary quotes supporting each theme).

표 2 평가의 인식된 신뢰도에 영향을 미치는 요소
Table 2 Factors that affect the perceived credibility of assessment

 

요인 1: 평가 프로세스의 요소
Factor 1: Elements of an assessment process

우리는 학습자의 신뢰도에 대한 인식에 영향을 미치는 평가 프로세스의 다섯 가지 요소를 확인했습니다.
We identified five elements of the assessment process that influenced learners’ perceptions of credibility:

  • (A) 평가자 또는 피드백 제공자,
  • (B) 평가 절차,
  • (C) 인식된 평가 점수의 품질
  • (D) 평가점수의 형식 및
  • (E) Suboptimal performance에 따르는 결과.
  • (A) assessor or feedback provider,
  • (B) procedures of assessment,
  • (C) perceived quality of assessment scores,
  • (D) format of assessment scores, and
  • (E) consequences of suboptimal performance.

A.평가자 또는 피드백 제공자 
A.Assessor or feedback provider 

여기에는 다음이 포함된다.
which included:

  • (i) 평가자와의 신뢰 관계 (i) trusting relationship with assessor,
  • (ii) 장기 훈련생 진행 상황에 대한 관심 인식 (ii) perceived interest in long-term trainee progress,
  • (iii) 평가에 대한 경험/훈련 부족, (iii) lack of experience/training with assessment, and
  • (iv) 존경 (iv) respect.

(i)평가자와의 신뢰관계 
(i)Trusting relationship with assessor 

대부분의 학습자는 피드백을 제공한 개인(동료를 포함)과 강력하고 신뢰할 수 있는 관계가 있는 경우 평가 및 평가-생성 피드백을 신뢰할 수 있는 것으로 인식했다. 이 결과는 모든 평가 형태에 걸쳐 일관되었으며, 자신의 성과를 평가하는 개인과 신뢰 관계가 있다면 긍정적이든 부정적이든 의학 학습자들이 평가에서 생성된 피드백을 수용하고 반응한다는 것을 나타낸다. 

Most learners perceived an assessment and assessment-generated feedback as credible if they had a strong and trusting relationship with the individual who provided it (Bogetz et al., 2018; Bowen et al., 2017; Duijn et al., 2017; Feller & Berendonk, 2020; LaDonna et al., 2017; Lefroy et al., 2015; MacNeil et al., 2020; Mukhtar et al., 2018; Ramani et al., 2020; Watling et al., 2008), including peers (Rees et al., 2002). This finding was consistent across forms of assessment and indicates that medical learners were accepting and responsive to assessment-generated feedback, be it positive or negative, if there was a trusting relationship with the individual assessing their performance:

"그녀는 저를 잘 알고 있기 때문에 그 피드백은 믿을 만하다고 생각합니다. 당신을 잘 알고 좋아하는 사람에게서 끔찍한 말을 듣기는 힘들 것 같아요. 하지만, 이것이 당신이 더 잘할 수 있는 것이라고 말하고 실행 가능한 조언을 주는 것에 있어서, 저는 당신이 많은 것을 하는 것을 보고 당신이 어떻게 일을 잘하는지 아는 사람에게서 오는 것이 좋다고 생각합니다." (R6, 페이지 1076) (라마니 외, 2020)에서 인용했습니다. 
“She knows me well, so I think the feedback is reliable. I think it might be hard to get something horrible coming from someone who knows you well and who you like. But, in terms of saying this is what you could do better, and giving actionable pointers, I think that it’s nice coming from someone who’s seen you do a lot of stuff and knows how you work very well.” (R6, p. 1076) quoted from (Ramani et al., 2020).

그 반대도 사실이었다. 즉, 학습자는 꾸준히 자신이나 자신의 기술에 덜 익숙한 개인의 피드백을 무시하고 평가절하했다.
The inverse was also true, learners regularly ignored and discounted feedback from individuals who were less familiar with them or their skills (Beaulieu et al., 2019; Bogetz et al., 2018; Cho et al., 2014; Duijn et al., 2017; Levine et al., 2015; McKavanagh et al., 2012).


(ii)연수생 장기진도에 대한 관심도 인식 
(ii)
Perceived interest in trainee long-term progress 

학습자를 적극적으로 관찰하지 않거나 불충분한 관찰을 바탕으로 수행에 대한 판단을 내린 평가자에 의해 완료된 평가는 신뢰할 수 있는 것으로 인식되지 않았다. 평가-생성 피드백을 개인화하고, 구체적이고, 행동가능하게 주기 위하여 시간과 공간을 제공한 평가자를 가치있게 여겼다.
Assessments completed by assessors who did not actively observe their learners or made judgments about performance based on insufficient observations were not perceived as credible (Areemit et al., 2020; Bowen et al., 2017; Cho et al., 2014; Duijn et al., 2017; Eady & Moreau, 2018; Ingram et al., 2013; MacNeil et al., 2020; McKavanagh et al., 2012; Ramani et al., 2020). Assessors who provided time and space for

  • personalized (Bleasel et al., 2016; Bowen et al., 2017; Duijn et al., 2017; Harrison et al., 2015),
  • specific (Beaulieu et al., 2019; Brown et al., 2014; Duijn et al., 2017; Green et al., 2007; Gulbas et al., 2016; Harrison et al., 2015; Ramani et al., 2020), and
  • actionable assessment-generated feedback (Areemit et al., 2020; Bleasel et al., 2016; MacNeil et al., 2020; Murdoch-Eaton & Sargeant, 2012; Perron et al., 2016; Ramani et al., 2020) were valued:

 

(iii)평가에 대한 경험/훈련 부족 
(iii)
Lack of experience/training with assessment 

평가자가 교육 및 평가 프로세스에 대한 경험이 부족한 경우, 학습자는 평가 또는 평가에서 생성된 피드백을 신뢰할 수 있는 것으로 인식할 가능성이 적습니다. 평가자가 다음과 같은 경우 믿을 만한 것으로 보이지 않았다.

  • 평가 프로세스를 구현하는 방법에 익숙하지 않은 경우,
  • 역량을 적절하게 평가하는 방법에 대해 확신이 없는 경우
  • "절차를 따르지 않는 것" 

When an assessor lacked training and/or experience with the assessment process, learners were less likely to perceive the assessment or assessment-generated feedback as credible (Brits et al., 2020; Gaunt et al., 2017; Mohanaruban et al., 2018). If an assessor was

  • unfamiliar with how to implement the assessment process (Bleasel et al., 2016; Mukhtar et al., 2018),
  • unsure about how to properly evaluate competence (Johnson et al., 2008), or
  • “w[as] not buying into the process” (p. 592) quoted from (Braund et al., 2019), it was not seen as credible.

이는 수행능력-중심 평가, 직장-기반 평가 및 포트폴리오에서 가장 두드러졌다.
This was most apparent in performance-based assessment (Green et al., 2007), workplace-based assessment (Brown et al., 2014; Gaunt et al., 2017; Johnson et al., 2008; McKavanagh et al., 2012; Ringsted et al., 2004; Weller et al., 2009), and portfolios (Johnson et al., 2008; Kalet et al., 2007; Sabey & Harris, 2011).

(iv)존중 
(iv)
Respect 

학습자는 자신이 존경하는 의사의 평가 피드백을 가치있게 여기고, 선호한다고 보고했다. 그리고 그러한 존경은 의사의 임상 기술과 교육 능력 모두에서 생성되었다.

Learners reported valuing and preferring assessment-generated feedback from physicians they respected– where respect arose from both the physician’s clinical skills (Bello et al., 2018; Bleasel et al., 2016; Feller & Berendonk, 2020; Ramani et al., 2020) and teaching abilities (Bowen et al., 2017; Dijksterhuis et al., 2013; Sharma et al., 2015):

"내가 정말 존경하는 사람으로부터 긍정적인 피드백을 받으니 내 일에 대한 자신감이 높아지고 목적의식이 높아졌다.". 학습자들은 또한 자신의 교수 능력을 향상시키길 원하는 지도자들의 중요성을 강조했다(Dijksterhuis 등, 2013; 샤르마 등, 2015).

“Getting positive feedback from someone I really admired boosted my confidence and increased my sense of purpose in my work.” (Unspecified resident, p. 509) quoted from (Beaulieu et al., 2019). Learners also stressed the importance of supervisors who wanted to improve their own teaching skills (Dijksterhuis et al., 2013; Sharma et al., 2015).

요약하자면, 이러한 발견들은 아래와 같은 특징을 보이는 평가자 또는 슈퍼바이저와 신뢰할 수 있는 관계에 있을 때, 평가 또는 평가에서 생성된 피드백도 신뢰할 수 있는 것으로 인식될 가능성이 더 높다는 것을 시사한다.

  • 주어진 평가에 대한 경험이 있다.
  • 학습자의 장기적 성공에 대한 관심을 보여준다.
  • 자신의 교육 능력을 향상시키길 원하는 사람으로 인식된다.
  • 믿을 만 하다.

In summary, these findings suggest that an assessment or assessment-generated feedback is more likely to be perceived as credible if there is a trusting relationship with an assessor or supervisor who

  • has experience with a given assessment,
  • shows an interest in the long-term success of a learner,
  • is perceived as someone who wants to improve their teaching skills, and
  • is seen as trustworthy.

B.평가 절차 
B.Procedures of an assessment 

평가 절차의 신뢰성에 대한 교육생의 인식에 영향을 미친 주요 요인은 다음과 같다.
The major factors that affected trainee perceptions of the credibility of the procedures of an assessment were:

  • (i) 평가 접근법의 표준화, (i) standardization of assessment approach
  • (ii) 명확한 목적 (ii) clear purpose
  • (iii) 임상 관련성, (iii) clinical relevance
  • (iv) 타이밍 (iv) timing.

(i)평가 접근법의 표준화 
(i)
Standardization of assessment approach 

학습자는 [표준화된 평가와 평가-생성 피드백]을 [비표준화된 양식]보다 더 신뢰할 수 있는 것으로 인식했다(Harrison et al., 2016). 학습자들은 직장 기반 평가(Khairy, 2004) 또는 성과 기반 평가(Jawaid et al., 2014)와 같은 평가 방법의 표준화 및 구조 부족에 대해 우려를 제기했다. 예를 들어, 학습자는 일관된 방식으로 평가(제프리 외, 2011; 프레스턴 외, 2020)되고 성과를 명시적 표준에 대해 평가하는 것이 중요하다고 강조했다(벨로 외, 2018; 해리슨 외, 2016; 리스 외, 2002; 샤르마 외, 2015; 수호요 외, 2017; 웰러). 학습자는 비구조화된 평가가 불공정하고(Nesbitt 등, 2013) 자신의 수행 정도를 덜 대표한다고 느꼈다(Brits 등, 2020).

Learners perceived standardized assessment and assessment-generated feedback as more credible than non-standardized forms (Harrison et al., 2016). Learners raised concerns regarding the lack of standardization and structure of assessment methods such as workplace-based assessments (Khairy, 2004) or performance-based assessments (Jawaid et al., 2014). For instance, learners stressed the importance of being assessed in a uniform manner (Jefferies et al., 2011; Preston et al., 2020) and having their performance evaluated against explicit standards (Bello et al., 2018; Harrison et al., 2016; Rees et al., 2002; Sharma et al., 2015; Suhoyo et al., 2017; Weller et al., 2009). Learners felt that unstructured assessments were unfair (Nesbitt et al., 2013) and less representative of their performance (Brits et al., 2020).

(ii)명확한 목적 
(ii)
Clear purpose 

학습자는 그 목적을 이해했을 때 평가가 더 의미 있다고 인식했으며(Gaunt 등, 2017년; Given 등, 2016년; Green 등, 2007년; LaDonna 등, 2017년; MacNeil 등, 2020년) 평가 프로세스에 더 많이 참여하도록 이끌었다(Eenman 등, 2015년). 그러나 학습자가 평가의 목적에 대해 혼란스럽거나 불분명할 때 평가의 가치를 무시하는 경향이 있었다(Cho 등, 2014). 
Learners perceived assessments to be more meaningful when they understood its purpose (Gaunt et al., 2017; Given et al., 2016; Green et al., 2007; Kalet et al., 2007; LaDonna et al., 2017; MacNeil et al., 2020), which lead them to engage more with the assessment process (Heeneman et al., 2015). However, when learners were confused or unclear about the purpose of an assessment, they tended to dismiss its value (Cho et al., 2014): 

(iii)임상 관련성 
(iii)
Clinical relevance 

학습자는 실제 시나리오에서 임상 기술을 실습할 기회를 제공하는 것으로 보이는 것과 같이 [실제 임상진료를 복제replicated한, 임상적으로 관련이 있다고 인식한 평가]를 가치 있게 평가했다. 이러한 평가는 임상 역량을 입증할 수 있는 기회로 간주되었다. 
Learners valued assessments they perceived as clinically relevant because they were seen to provide opportunities for practicing clinical skills in authentic scenarios (Barsoumian & Yun, 2018; Bogetz et al., 2018; Foley et al., 2018; Hagiwara et al., 2017; Jawaid et al., 2014; Khorashad et al., 2014; Malau-Aduli et al., 2019; Olsson et al., 2018; Pierre et al., 2004; Preston et al., 2020; Shafi et al., 2010; Yielder et al., 2017) that replicated real-life clinical care (Bleasel et al., 2016; Craig et al., 2010; McLay et al., 2002; Moreau et al., 2019). These assessments were viewed as opportunities to demonstrate clinical competence.

(iv)평가 타이밍
(iv)Timing of assessment 

마지막으로, [평가의 타이밍]은 교육생이 평가의 신뢰성을 인식하는 방식, 특히 훈련 중에 평가를 해야 하는 시점에 영향을 미쳤다. 평가가 커리큘럼과 수련 단계에 적합하고 적절하다고 판단될 때 평가에 대한 인식의 신뢰도가 증가하였다. Kalet 등은 [학습자들이 아직 노출되지 않은 역량에 대해 평가하는 것]은 시간 활용이란 점에서 부적절하다고 느꼈다고 보고했다. 또한 학습 잠재력을 최적화하고 개선할 영역을 식별하기 위해 훈련 초기에 특정 성과 기반 평가(예: OSCE, 시뮬레이션 임상 검사)가 요청되었다.

Lastly, the timing of an assessment also affected how a trainee perceived its credibility, specifically at which point during training an assessment should be given. Perceived credibility of assessment increased when the assessment was believed to be relevant and appropriate to the curriculum (Brits et al., 2020; Labaf et al., 2014; McLaughlin et al., 2005; Papinczak et al., 2007; Pierre et al., 2004; Vishwakarma et al., 2016) and level of training (Kalet et al., 2007; Pierre et al., 2004; Wiener-Ogilvie & Begg, 2012). Kalet et al. (2007) reported that learners felt it was a poor use of time to be assessed on competencies to which they had not yet been exposed. In addition, certain performance-based assessments (e.g., OSCE, simulated clinical examination) (Wiener-Ogilvie & Begg, 2012) were requested earlier in training to optimize learning potential and identify areas for improvement.

요약하면, 우리의 연구 결과는 학습자가 평가 또는 평가에서 생성된 피드백은 그것이 [표준화된 경우], [명확하게 전달되는 목적이 있고], [임상적 관련성을 보유]하고 있으며, [교육 중에 적절한 시점에 제공받는 경우]에 신뢰할 수 있는 것으로 인식할 가능성이 더 높다는 것을 보여준다.
In sum, our findings show that learners are more likely to perceive assessments or assessment-generated feedback as credible if they are standardized, have a clearly communicated purpose, hold clinical relevance, and are given at an appropriate time during their training.

C.평가점수의 인정된 품질
C.Perceived quality of assessment scores

학습자는 [점수의 퀄리티가 높다고 인식했을 경우]에 가장 호의적으로 반응했고, 이는 (점수가) 자신의 수행능력을 가장 잘 대표한다고 믿었을 때를 의미한다. 동등한 점수의 부족은 [수행능력-기반 평가]나 [직장 기반 평가]에서 주로 제기되었다. 그러나 한 연구는 [서면 시험(훈련 중 검사)]에 대해서도 유사한 우려를 식별했다(Kim 등, 2016; Ryan 등, 2017). 성과 기반 및 직장 기반 평가의 경우, 이러한 우려는 학습자가 자신의 평가자를 선택함으로써 도입된 인식 편향과 강하게 연결되었다(Brown et al., 2014; Curran et al., 2018; Feller & Berendonk, 2020).

Learners responded most favourably to scores they perceived to be of high quality, as they were believed to be most representative of their performance (Brits et al., 2020; Jawaid et al., 2014; Pierre et al., 2004). Lack of comparable scoring was an issue primarily raised with performance-based (Jawaid et al., 2014; Pierre et al., 2004) and workplace-based assessments (Kim et al., 2016; Nesbitt et al., 2013; Weller et al., 2009). One study, however, identified similar concerns on a written assessment (in-training examination) (Kim et al., 2016; Ryan et al., 2017). For performance-based and workplace-based assessments, this concern was strongly linked to perceived bias introduced by learners selecting their own assessors (Brown et al., 2014; Curran et al., 2018; Feller & Berendonk, 2020).

D.평가 점수 형식
D.Format of assessment scores

[평가 점수의 형식]은 훈련생이 그 신뢰도를 인식하는 방식에도 영향을 미쳤다. 학습자는 수행 평가 척도(Braund et al., 2019; Castonguay et al., 2018) 또는 양식(Curran et al., 2018)과 같은 [특정한 수행능력 채점 방법]은 "다양한 수준의 훈련과 실제 기술의 뉘앙스를 파악할 수 없었다"며 "학습 목표를 해석하고 해석하는데 어려움을 겪었다"고 느꼈음을 밝혔다. 이들은 평점이 '의미를 상실했다'고 느꼈고, 주어진 항목에서 '좋은 것good에서 우수한 것excellent으로' 나아가는 데 필요한 구체적인 기술을 찾아내기 위해 고군분투했다.

The format of assessment scores also affected how a trainee perceived its credibility. Learners felt certain assessment scoring methods such as performance rating scales (Braund et al., 2019; Castonguay et al., 2019) or forms (Curran et al., 2018) were unable to “catch the nuances of different levels of training and actual skills.” (Unspecified SR resident, p. 1500) quoted from (Bello et al., 2018) and were “difficult to interpret and translate into learning goals. They felt ratings ‘lacked meaning’ and struggled to identify specific skills to improve on to ‘move from good to excellent’ on a given item.” (Results, p. 178) quoted from (Bogetz et al., 2018).

E.최적이 아닌 성능의 결과
E.Consequences of suboptimal performance

평가자의 인식된 신뢰성이 [평가자 및 피드백 제공자], [평가 절차], [표준화된 채점], [평가 점수 형식] 및 [부족한 성과에 따르는 결과]를 포함한 [평가 프로세스의 여러 요소]에 의해 영향을 받는다는 것을 시사한다.

Our results suggest that the perceived credibility of an assessment is influenced by multiple elements of the assessment process including the assessor and feedback provider, procedures of an assessment, standardized scoring, format of assessment scores, and consequences of suboptimal performance.

평가는 부족한 성과에 따른 결과가 명확할 때 더 신뢰할 수 있는 것으로 인식되었다(Arnold 등, 2005). 즉 "과정 중은 물론 심지어 졸업에서도 동료의 성적에 영향을 미쳐야 한다"라는 생각과 같다.

  • 일부 학습자는 감독자 기반 평가와 동료 평가를 모두 포함하여, [수반되는 결과가 없는 평가]는 학습에 미치는 영향이 제한적이라고 느꼈다(Arnold 등, 2005).
  • 그러나 일부 학습자는 반대로 특정 평가(예: 지식 테스트 또는 수행 기반 평가)의 결과는 "그런 테스트가 실제로 가져야 할 결과보다 훨씬 더 크다"고 느꼈다.

Assessments were perceived to be more credible when there were clear consequences of suboptimal performance, i.e., “it should affect the peer’s grades in courses and even in graduation” (p. 821) (Arnold et al., 2005). Some learners felt assessments with no consequences limited potential for learning (Dijksterhuis et al., 2013; Schut et al., 2018)—including both supervisor-based and peer assessment (Arnold et al., 2005). However, some learners felt the consequences of certain assessments e.g., knowledge tests or performance-based assessment were “much bigger than the consequences such a test should actually have.” (Participant B1, p. 660) quoted from (Schut et al., 2018).

요인 2: 학습자의 교육 수준
Factor 2: Learners’ level of training

[학습자의 수련 단계]는 평가에 대한 인식된 신뢰성과 평가-생성 피드백에 대한 후속 수용성에 영향을 미쳤다(Bello 등, 2018; Bowen 등, 2017; Murdoch-Eaton & Sargeant, 2012; Wade 등, 2012). 학습자가 주니어 학습자에서 시니어 학습자로 발전함에 따라 수동적인 피드백 수신(예: 평가자가 기준을 충족하는지 알려 주기를 기대함)에서 성과 향상을 위한 학습 전략을 조정하기 위한 보다 적극적인 피드백 탐색으로 발전적 전환이 일어날 수 있습니다(Dijsterhuis 등, 2013; Murdoch-Eaton & Sargeant)., 2012).

  • 주니어 학습자는 자신의 성과를 긍정하기 위해 긍정적인 피드백을 원했고, 부정적인 피드백으로 인해 사기가 저하되었습니다(Murdoch-Eaton & Sargeant, 2012).
  • 반대로 상급 학습자는 성과 향상에 사용될 수 있기 때문에 부정적인 피드백에서 더 큰 가치를 보았다(Bleasel et al., 2016; Chaffinch et al., 2016; Murdoch-Eaton & Sargeant, 2012; Sabey & Harris, 2011). 상급 학습자들은 긍정적인 피드백이 "자신을 현실에 안주하게 할 수 있다"(Trainee A3a, 페이지 718)는 것과 항상 실천 가능한 개선 단계를 제공하는 것은 아니기 때문에 의미가 적다고 느꼈습니다(Harrison et al., 2016).

A learner’s level of training influenced their perceived credibility of an assessment and their subsequent receptivity to assessment-generated feedback (Bello et al., 2018; Bowen et al., 2017; Murdoch-Eaton & Sargeant, 2012; Wade et al., 2012). As learners progressed from being junior to senior learners, a developmental shift may occur from passive reception of feedback (e.g., expecting assessors to inform them if they are meeting standards) to more active seeking of feedback in order to adapt learning strategies to improve performance (Dijksterhuis et al., 2013; Murdoch-Eaton & Sargeant, 2012).

  • Junior learners wanted positive feedback to affirm their performance and were demoralized by negative feedback (Murdoch-Eaton & Sargeant, 2012).
  • On the contrary, senior learners saw greater value in negative feedback as it could be used to improve performance (Bleasel et al., 2016; Chaffinch et al., 2016; Murdoch-Eaton & Sargeant, 2012; Sabey & Harris, 2011). Senior learners felt that positive feedback was less meaningful because it “can make you complacent” (Trainee A3a, p. 718) quoted from (Murdoch-Eaton & Sargeant, 2012) and it did not always provide actionable steps for improvement (Harrison et al., 2016).

주니어 학습자는 동료의 피드백이 관리자의 피드백보다 신뢰성이 떨어진다고 느꼈습니다. (Burgess & Mellis, 2015)에서 인용한 "[학술]들이 준 피드백은 반 친구의 피드백이라기보다는 내가 가져간 것이다." (의대생 12, 페이지 205) 또한, 주니어 학습자들은 동료들이 자신의 기술을 평가할 때 객관적으로 생각하는 데 어려움을 겪을 수 있다고 느꼈다(Murdoch-Eaton & Sargeant, 2012). 
Junior learners felt peer feedback was less reliable than feedback from a supervisor: “…the feedback they [academic] gave was what I took away rather than my class mate’s” (Medical student 12, p. 205) as quoted from (Burgess & Mellis, 2015). Additionally, junior learners felt their peers may have difficulty being truly objective when evaluating their skills (Murdoch-Eaton & Sargeant, 2012).

그러나 상급 학습자는 도움이 되는 것으로 인식되어 동료 평가에서 더 자주 가치를 발견했다(McKavanagh 등, 2012; Lees 등, 2002). 상급 학습자들은 또한 동료 평가의 신속성과 심도 있는 토론으로 후속 조치를 취할 수 있는 능력에 대해 높이 평가했다(Murdoch-Eaton & Sargeant, 2012). 

Senior learners, however, more often found value in peer assessment as it was perceived to be helpful (McKavanagh et al., 2012; Rees et al., 2002). Senior learners also appreciated peer assessment for its immediacy and the ability to follow-up with in-depth discussion (Murdoch-Eaton & Sargeant, 2012).

간단히 말해서, 우리의 연구 결과는 주니어 학습자와 시니어 학습자가 피드백의 제공자와 극성에 따라 피드백의 효용성에 대해 서로 다른 관점을 가지고 있음을 시사한다.

In brief, our findings suggest that junior and senior learners have different perspectives on the utility of feedback which depend on the provider and polarity of the feedback.

요소 3: 의료 교육의 맥락
Factor 3: Context of medical education

우리는 의료 교육의 맥락과 관련된 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 두 가지 요인을 식별했다.
We identified two factors that influence the perceived credibility of assessment-generated feedback related to the context of medical education: 

  • (i) 안전한 학습 환경 및
  • (ii) 평가-생성 피드백의 일관성.
  • (i) safe learning environment and
  • (ii) consistency of assessment-generated feedback.

이러한 요소들은 프로그램이나 기관의 수준에서 문제를 반영하기 때문에 이전에 확인된 요소들과 다릅니다. 따라서 이러한 요소들은 [이전 섹션에서 논의한 평가의 과정이나 실천과 관련된 요소에 비해 평가-생성 피드백의 인지된 신뢰성을 지원하도록] 수정 또는 조정하기가 더 어려울 수 있다.
These factors differ from those previously identified because they reflect issues at the level of the program or institution. These factors may therefore be more difficult to amend, adapt, or adjust to support the perceived credibility of assessment-generated feedback compared to factors related to the process or practice of assessment discussed in previous sections.

(1)안전한 학습환경 
(1)Safe learning environment 

학습자는 [안전한 학습 환경에서 발생하는 평가]가 학습(Duijn et al., 2017; Sargeant et al., 2011), 자기 성찰(Nikendei et al., 2007)을 촉진하고 평가 및 평가-생성 피드백에 대한 참여를 촉진했기 때문에 신뢰할 수 있는 것으로 인식했다. 그러나 "[f]필수 순환과 더 짧은 배치가 있는 임상 학습 환경은 의미 있는 교육 관계를 개발하기 위해 사용 가능한 시간에 영향을 미쳤다." (결과, 페이지 1306) (Bowen 등, 2017) 안전한 학습 환경은 학습자가 도움을 구하고, 지식 격차를 인정하며, 실수를 공개적으로 토론하는 학습 풍토라고 설명하였다(상사 등, 2011).

Learners perceived assessment occurring in a safe learning environment as credible as it fostered learning (Duijn et al., 2017; Sargeant et al., 2011), self-reflection (Nikendei et al., 2007), and facilitated engagement with assessment and assessment-generated feedback. However, clinical learning environments with “[f]requent rotations and shorter placements affected time available to develop meaningful educational relationships.” (Results, p. 1306) (Bowen et al., 2017). A safe learning environment was described as a learning climate in which learners felt comfortable to seek help, admit knowledge gaps, and openly discuss mistakes (Sargeant et al., 2011).

(2)평가 결과 피드백의 일관성 
(2)Consistency of assessment-generated feedback 

일부 학습자는 [간헐적인 피드백이 신뢰도에 대한 인식을 저하시켰다]고 보고했다(Brits et al., 2020; Korszun et al., 2005; Murdoch-Eaton & Sargeant, 2012; Perera et al., 2008; Weller et al., 2009). "전반적으로 의료 훈련에서 완전히 부족한 것은 피드백이며, 동료들과 당신이 어디에 있는지, 그리고 당신의 전문가가 실제로 어떻게 생각하는지 아는 것이다." (미확인 훈련생, 페이지 527). 제공된 산발적인 피드백 중 대부분은 지나치게 일반적이고(MacNeil 등, 2020; Mohanaruban 등, 2018; Moreau 등, 2019; Preston 등, 2020), 일방적으로 지시적인 것(Dijksterhuis 등, 2013)으로 보여 도움이 되지 않는 것으로 판단되었다. 반면 어떤 학습자들은 피드백 내용과 제공이 개선되어 보다 구체적인 초과 근무 및 임상적 집중이 되고 있다고 느꼈다(Murdoch-Eaton & Sargeant, 2012). 이러한 일관되지 않은 연구 결과는 각 기관이 임상 교육 사이트마다 어느 정도 차이가 있지만, 학습자의 평가-생성 피드백 제공과 후속 수용성에 영향을 미치는 [고유한 문화]를 가지고 있을 수 있음을 시사한다(Craig 등, 2010). 평가에서 생성된 피드백은 교육 과정, 순환, 연도별로 차이가 있어 향후 교육에는 해당되지 않을 수 있으므로 추가 개발에 통합 및 활용하기 어렵다. 이러한 피드백 불일치는 학습자가 의료 교육 내에서 제한된 피드백 문화를 나타내는 것으로 확인되었다(Weller 등, 2009). 

Some learners reported infrequent feedback decreased perceived credibility (Brits et al., 2020; Korszun et al., 2005; Murdoch-Eaton & Sargeant, 2012; Perera et al., 2008; Weller et al., 2009): “[o]ne thing that’s totally lacking in medical training across the board is feedback, and knowing where you are in relation to your colleagues and also what your specialist actually really [thinks]” (Unidentified trainee, p. 527) quoted from (Weller et al., 2009). Of the sporadic feedback provided, most was judged as unhelpful as it was seen as overly general (MacNeil et al., 2020; Mohanaruban et al., 2018; Moreau et al., 2019; Preston et al., 2020) and primarily directive (Dijksterhuis et al., 2013). Other learners felt feedback content and provision was improving, becoming more specific overtime and clinically focused (Murdoch-Eaton & Sargeant, 2012). These inconsistent findings suggest that each institution may have its own culture that influences the provision of assessment-generated feedback and subsequent receptivity by learners, with some variability across clinical education sites (Craig et al., 2010). Assessment-generated feedback appears to vary by course, rotation, and year of training, making it difficult to integrate and use for further development as it may not be applicable in future training. These feedback inconsistencies have been identified by learners as indicative of a limited feedback culture within medical education (Weller et al., 2009).

요약하자면, 우리의 검토는 [안전한 학습 환경]에서 이루어지고 [일관된 피드백을 제공]하는 평가가 신뢰할 수 있는 것으로 인식될 가능성이 더 높다는 것을 시사한다.

In summary, our review suggests that assessments that take place in a safe learning environment and provide consistent feedback are more likely to be perceived as credible.

여러 평가 유형에 걸쳐 평가의 인식된 신뢰성에 영향을 미치는 요인
Factors that influence the perceived credibility of assessment across assessment types

위에 보고된 평가 및 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 요소는 학생의 훈련 수준을 통해 주어진 평가를 받은 평가자의 경험에서 학습 환경에 이르기까지 다양하다. 표 3에 포함된 요소를 고려하면 평가에 대한 인식 신뢰도와 평가-생성 피드백 및 학습에 대한 지원 평가가 증가해야 한다.
The factors that influence the perceived credibility of assessment and assessment-generated feedback reported above span from assessor experience with a given assessment through student’s level of training to the learning environment. In Table 3, we summarize the evidence regarding design-related factors (i.e., assessment process and scoring) that influence the perceived credibility of assessment in order to better support the development of credible assessment practices. We organized the evidence according to three common assessment approaches (written assessment, performance-based assessment, workplace-based assessment) whether these factors increase or decrease perceived credibility and provide supportive evidence. Consideration of the factors included in Table 3 should increase perceived credibility of assessments and assessment-generated feedback and support assessment for learning. 

표 3 평가의 인식 신뢰도에 영향을 미치는 설계 관련 요인
Table 3 Design-related factors that affect the perceived credibility of assessment

고찰 Discussion

이 범위 지정 검토는 의료 교육 문헌에서 평가 및 평가-생성 피드백의 인식된 신뢰성의 개념에 초점을 맞췄다. 1차 문헌에서 추출한 우리의 연구 결과는 의료 학습자가 평가의 신뢰성과 관련 평가에서 생성된 피드백을 인식하는 방법에 영향을 미칠 수 있는 요인의 집합이 있음을 시사한다. 점점 더 관련성이 있는 개념임에도 불구하고, 검토에 포함된 매우 적은 수의 연구만이 '신뢰성credibility'이라는 용어를 정확히 사용했으며, 명시적 정의를 포함하는 연구는 없었다. 용어 사용 빈도가 낮음에도 불구하고, 신뢰성credibility의 개념은 문헌에서 공정성, 타당성, 유용성, 가치성 등의 측면에서 반영되었다. 하나의 개념을 설명하는 데 여러 용어가 사용되고 명시적인 정의가 없기 때문에, 우리의 연구 결과는 인식된 신뢰성이 다음과 밀접하게 관련된 새로운 개념임을 시사한다. 

  • 방어 가능(Norcini 등, 2011),
  • 교육적으로 가치 있는(Holmboe 등, 2010) 및
  • 학생 지향 평가 실천 (Epsein 등, 2011)

This scoping review focused on the concept of perceived credibility of assessment and assessment-generated feedback in the medical education literature. Drawn from primary literature, our findings suggest there is a constellation of factors that can influence how medical learners perceive the credibility of assessment and associated assessment-generated feedback. Despite being an increasingly relevant concept, very few studies included in our review used the exact term ‘credibility’, and none included an explicit definition. Despite the low frequency of the term, the concept of credibility was present in the literature—reflected in terms such as fair, valid, helpful, useful, and valuable. With several terms being used to describe one concept, and no explicit definitions, our finding suggests that perceived credibility is an emerging concept tightly related to

  • defensible (Norcini et al., 2011),
  • educationally-valuable (Holmboe et al., 2010), and
  • student-oriented assessment practices (Epstein, 2007; Norcini et al., 2011).

 

검토 과정을 통해 신뢰성과 타당성credibility and validity 이 평가 품질 보장을 위한 유사한 고려사항을 반영할 수 있다는 것이 분명해졌다. 현대의 타당성 개념화는 합격/실패 결정 또는 역량의 판단(일반적으로 평가 관리자의 책임) 측면에서 점수의 해석을 뒷받침하는 증거를 고려한다(Messick, 1995). 관리자는 주어진 점수 해석을 뒷받침하는 타당성 근거에 무게를 두고 해당 점수 해석이 타당한지 여부를 판단한 후 평가 결과를 교육기록부에 입력한다. 평가의 교육적 가치를 고려할 때, [점수 해석의 '책임감'은 학습자 개인의 몫]입니다. 각 학습자는 자신의 점수나 평가 결과를 자신의 성과나 순위를 나타내는 지표로 해석하고, 추가 학습이나 성과 개선 영역을 식별하기 위해 이러한 해석을 바탕으로 할 책임이 있습니다. 
Through the review process, it became apparent that the terms credibility and validity may reflect similar considerations for ensuring assessment quality. Modern conceptualizations of validity consider the evidence supporting the interpretation of scores in terms of pass/fail decisions or judgments of competence—typically the responsibility of assessment administrators (Messick, 1995). An administrator weights the validity evidence supporting a given score interpretation, decides whether or not that score interpretation is sound, and then the results of the assessment are entered into an educational record. When considering the educational value of assessment, the ‘responsibility’ of score interpretation rests in the hands of individual learners. Each learner is responsible for interpreting their scores or assessment results as indicators of their own performance or standing, and to build on those interpretations in order to identify areas of further study or performance improvement.

[점수 해석을 지지하는 데 사용할 수 있는 타당성 증거를 평가하는 관리자]와 병행하여 [학습자는 성과 개선을 위해 피드백에 의존해야 하는지 결정하기 위해, 평가 또는 평가-생성 피드백의 신뢰성에 대한 증거를 평가]하는 것으로 보입니다. 이 두 명의 서로 다른 교육 이해 당사자들은(즉 교육 관리자 및 학습자), 공식적인 교육 평가를 위해서든 또는 비공식 수행 능력 향상을 위해서든, 점수 해석의 적절성에 대한 결정에 참여하고 평가 데이터의 정당한 사용(또는 비사용)을 결정한다
In parallel to an administrator weighing validity evidence available in support of a score interpretation, learners appear to weigh evidence of the credibility of an assessment or assessment-generated feedback to determine whether to rely on the feedback for performance improvement. These two different educational stakeholders—assessment administrators and learners—both engage in decisions about the appropriateness of a score interpretation and decide on the legitimate use (or not) of the assessment data, either for formal educational assessment or informal performance improvement.

생성한 평가 데이터에 대한 [학습자의 참여와 해석]은 [평가의 교육적 가치]를 뒷받침한다. 이 검토의 결과는 학습자가 평가 점수에 어떻게 참여하는지engage with는, 최소한 부분적으로 [해당 점수에 대한 신뢰도]에 달려 있음을 시사한다.

  • 평가 또는 평가에서 생성된 피드백이 신뢰할 수 있는 것으로 인식되면 학습자는 향후 성과를 개선할 수 있는 기회로 해당 피드백에 참여할 가능성이 높아집니다(Watling et al., 2012).
  • 신뢰할 수 없는 것으로 인식되면 무시, 무시 또는 기각됩니다.

This engagement with, and interpretation of, assessment-generated data by a learner underpins the educational value of assessment. The findings of this review suggest that how learners engage with assessment scores is at least partially dependent on how credible those scores are perceived to be. When an assessment or assessment-generated feedback is perceived as credible, learners are more likely to engage with it as an opportunity to improve future performance (Watling et al., 2012). When it is not perceived as credible, it is discounted, ignored, or dismissed. 

어떤 면에서 평가 데이터에 참석할지 또는 무시할지 결정할 때, 학습자는 평가 또는 평가-생성 피드백의 타당성 또는 신뢰성에 의문을 제기하는 것으로 보인다. 학습자가 평가 설계, 구현 및 채점을 신뢰할 수 있는 것으로 인식하지 않을 경우 평가 과정이 평가의 교육적 가치를 훼손할 가능성이 있기 때문에, [평가 과정에서 학생을 행위자actor 또는 이해관계자]로 고려해야 한다.(Harrison 등, 2016; Ricci 등, 2018). 이러한 관점은 평가 데이터가 향후 개선에 기여할 수 있도록 학생 중심의 평가 실천을 지원하고, 평가에 대한 잠재적인 방법을 개별 학습자의 요구와 관심사에 더 잘 맞출 것을 제안한다(Looney, 2009).
In a way, learners appear to be questioning the validity (Ricci et al., 2018), or credibility of assessments or assessment-generated feedback when deciding whether to attend to, or ignore, assessment data. These findings contribute to a consideration of students as actors or stakeholders in the assessment process (Harrison et al., 2016; Ricci et al., 2018) because if learners do not perceive the assessment design, implementation and scoring as credible, the assessment process will likely undermine the educational value of assessment. This perspective supports more student-centred assessment practices to ensure assessment data can contribute to later improvement, and suggests potential avenues for assessments to be more tailored to individual learner's needs and interests (Looney, 2009).

평가 또는 평가-생성 피드백이 신뢰할 수 있는 것으로 인식될 가능성을 높이는 몇 가지 요인을 식별했다.
We identified several factors that increase the likelihood of an assessment or assessment-generated feedback being perceived as credible

첫째, 평가의 인식된 신뢰성과 관련 피드백은 [평가자나 피드백 제공자]에 대한 훈련생의 인식에 크게 영향을 받았다. 예를 들어, 학습자는 다음과 같은 경우 평가를 신뢰할 수 있는 것으로 인식할 가능성이 더 높다.
First, perceived credibility of an assessment and its associated feedback was greatly influenced by a trainee’s perception of their assessor or feedback provider. For instance, a learner was more likely to perceive an assessment as credible if they

  • 평가자와 신뢰관계가 있었다
  • 존경했다. 
  • 장기적 발달에 관심이 있는 것으로 인식되었다
  • had a trusting relationship with their assessor (Bogetz et al., 2018; Bowen et al., 2017; Duijn et al., 2017; Feller & Berendonk, 2020; LaDonna et al., 2017; Lefroy et al., 2015; MacNeil et al., 2020; Mukhtar et al., 2018; Ramani et al., 2020; Watling et al., 2008),
  • respected them (Beaulieu et al., 2019; Bello et al., 2018; Bleasel et al., 2016; Bowen et al., 2017; Dijksterhuis et al., 2013; Feller & Berendonk, 2020; Ramani et al., 2020; Sharma et al., 2015), and
  • perceived them to be interested in their long-term progress (Areemit et al., 2020; Bleasel et al., 2016; Bowen et al., 2017; Duijn et al., 2017; Eady & Moreau, 2018; Harrison et al., 2015; MacNeil et al., 2020; Ramani et al., 2020).

둘째, [평가 자체]의 몇 가지 측면은 신뢰성의 인식 가능성으로 이어졌으며, 이러한 요소들은 다음을 포함한다.
Second, several aspects of an assessment itself led to greater likelihood of perceived credibility, these factors included

  • 표준화된 접근방식 
  • 명확한 목적 
  • 임상 관련성 및 진정성
  • 훈련 중 적절한 시간에 평가를 제공한다
  • standardized approach (Harrison et al., 2016; Jawaid et al., 2014; Jefferies et al., 2011; Khairy, 2004; Nesbitt et al., 2013; Rees et al., 2002; Sharma et al., 2015; Suhoyo et al., 2017; Weller et al., 2009),
  • clear purpose (Cho et al., 2014; Green et al., 2007; Heeneman et al., 2015; Kalet et al., 2007),
  • clinical relevance and authenticity (Bleasel et al., 2016; Craig et al., 2010; Given et al., 2016; Jawaid et al., 2014; Khorashad et al., 2014; McLay et al., 2002; Pierre et al., 2004; Shafi et al., 2010), and
  • provision of the assessment at an appropriate time during their training (Curran et al., 2007; Kalet et al., 2007; Labaf et al., 2014; McLaughlin et al., 2005; Papinczak et al., 2007; Pierre et al., 2004; Vishwakarma et al., 2016; Wiener-Ogilvie & Begg, 2012).

셋째, [평가점수의 품질]에 대한 인식은 신뢰도 인식에 필수적이었다(Brown 등, 2014년; Jawaid 등, 2014년; Kim 등, 2016년; Nesbitt 등, 2013년; Pierre 등, 2004년; Weller 등, 2009년). 학습자가 점수가 임의적이라고 느낄 때 신뢰도에 대한 인식이 감소했다.

Third, perceived quality of assessment scoring was imperative to perceived credibility (Brown et al., 2014; Jawaid et al., 2014; Kim et al., 2016; Nesbitt et al., 2013; Pierre et al., 2004; Weller et al., 2009), when learners felt scoring was arbitrary, perceptions of credibility decreased.

마지막으로 학습자는 평가 중 [부적절한 성과에 대한 명확한 후속결과]를 원했으며(Arnold et al., 2005; Dijksterhuis et al., 2013) 평가 없이는 평가가 학습을 진척시킬 수 없다고 느꼈기 때문에 신뢰할 수 없었다. 
Lastly, learners wanted clear consequences for suboptimal performance during an assessment (Arnold et al., 2005; Dijksterhuis et al., 2013), without it, learners felt the assessment could not drive learning forward and thus was not as credible.

우리의 연구 결과는 [학습자가 평가의 많은 상황적, 과정적, 형식적(평가자, 평가 자체, 그리고 평가에서 생성된 피드백) 측면을 기반으로, 평가의 신뢰성에 대해 판단하여, 무시할 정보와 향후 성과 개선을 위해 통합하고 사용할 정보를 결정한다]는 결론을 뒷받침한다. 따라서 향후 학습을 지원할 목적으로 평가를 설계할 때는 평가 절차, 학습자와 평가자 간 신뢰 관계, 적절한 채점 접근법 등을 고려해야 한다.

Our findings support the conclusion that medical learners make judgments about the credibility of assessment based on many contextual, process, and format aspects of assessment – including assessors, the assessment itself, and the assessment-generated feedback – to determine what information they will dismiss and what they will integrate and use for future performance improvement. Therefore, when designing an assessment with the intention to support future learning, considerations of assessment procedures, trusting relationships between learners and assessors, and appropriate scoring approaches should be made.

또한 평가의 인식된 신뢰성을 훼손하는 몇 가지 요인을 확인했으며, 따라서 아래의 것들은 평가 또는 평가 프로그램을 설계할 때 피해야 한다. 일부는 평가자와 관련이 있다.

  • 평가 프로세스에 익숙하지 않은 평가자
  • 평가자를 스스로 선택할 수 있는 권한  
  • 평가자에 의해 점수가 학습자에 대해 설명되거나 상황에 맞게 조정되지 않은 경우

We also identified several factors that undermined the perceived credibility of assessment; and therefore, should be avoided when designing an assessment or assessment program. Some are related to the assessor;

  • assessors who are unfamiliar with assessment process (Bleasel et al., 2016; Brown et al., 2014; Green et al., 2007; Johnson et al., 2008; Kalet et al., 2007; McKavanagh et al., 2012; Ringsted et al., 2004; Sabey & Harris, 2011; Weller et al., 2009),
  • the ability to self-select an assessor (Brown et al., 2014), and
  • when scores are not explained or contextualized for the learner by the assessor (Bello et al., 2018; Bogetz et al., 2018; Braund et al., 2019; Castonguay et al., 2019; Curran et al., 2018).

예를 들어, 학습자가 평가 과정에 익숙하지 않고 훈련이 부족한 평가자를 만났을 때, 그 평가는 신뢰할 만한 것으로 인식될 가능성이 낮았다. 또한 학습자는 [자신의 점수를 이해하는 것]의 중요성과 [점수를 향상시킬 수 있는 방법]을 강조했습니다. 이러한 요소가 없다면, 학습자는 평가에서 생성된 피드백을 신뢰할 수 있는 것으로 인식하지 못할 가능성이 더 높습니다. 이러한 결과는 평가에서 생성된 피드백이 향후 학습을 지원할 수 있는 가능성을 높이는 데 평가자의 중요성을 강조한다. 평가 자체의 질과 상관없이, 평가자가 신뢰할 수 있는 것으로 인식되지 않는 경우, 학습자는 평가를 배움의 기회가 아닌 "후프 투 스쳐 지나가기"로 볼 수 있습니다. 학습자가 자신의 평가를 이러한 관점에서 인식하면 결과 점수 해석의 타당성이 훼손됩니다. 좀 더 구체적으로 말하면, 학습자는 이 평가에 교육의 기회로 참여하지 않을 것이며, 따라서 평가가 좋은 데이터의 수집으로 이어지지는 않을 것이다. 이 때, 이 평가에 근거한 학습자의 성과에 대한 판단은 타당하지 않을 수 있습니다. 

For instance, when learners encountered an assessor who was unfamiliar and lacked training with the assessment process, the assessment was less likely to be perceived as credible. Additionally, learners highlighted the importance of understanding their scores and how they could improve them, without this piece, they were more likely to not perceive the assessment-generated feedback as credible. These findings highlight the importance of the assessor in increasing the likelihood that assessment-generated feedback can support future learning. Regardless of the quality of the assessment itself, if an assessor is not perceived as credible, learners may view the assessment as a “hoop to jump through” rather than an opportunity for learning. When learners perceive their assessments in this light, the validity of resulting score interpretations are undermined. More specifically, the learner will not engage with this assessment as an educational opportunity, and thus, the assessment will not lead to the collection of good data. When this occurs, any judgments made regarding the learner’s performance based on this assessment may not be valid.

마지막으로, 우리는 평가 또는 평가-생성 피드백의 인식된 신뢰성에 부정적인 영향을 미치는 [평가 문화를 둘러싼 상황적 요인(즉, 안전한 학습 환경, 피드백 불일치)]을 식별했다. 평가와 피드백 문화를 바꾸기는 어려운 반면, 식별된 많은 요소들은 관련 설계, 구현 및 피드백 관행을 신중하게 고려하여 수정할 수 있다. 역량 기반 의료 교육의 맥락에서 훈련생 성과 평가는 학습자의 발달 궤적을 지원하는 종적 및 프로그램적 평가에 의존한다(Frank et al., 2010). 본 리뷰에 포함된 문헌에 따르면, 주니어 학습자와 시니어 학습자가 원하는 피드백 유형의 차이를 문서화하였다. 상급 학습자가 비판적 피드백을 선호하는 경향이 있는 경우, 이는 향후 성과를 개선하는 데 더 유용한 것으로 인식된다. 반면 하급 학습자들은 사기를 꺾는다고 느꼈습니다.

Finally, we identified contextual factors surrounding the culture of assessment (i.e., safe learning environment, Duijn et al., 2017; Nikendei et al., 2007; Sargeant et al., 2011), feedback inconsistencies (Craig et al., 2010; Korszun et al., 2005; Murdoch-Eaton & Sargeant, 2012; Perera et al., 2008; Weller et al., 2009)) that negatively impact the perceived credibility of assessment or assessment-generated feedback. While the culture of assessment and feedback remains challenging to influence, many of the factors identified are possible to amend with careful consideration of the associated design, implementation, and feedback practices. In the context of competency-based medical education (Frank et al., 2010), the evaluation of trainee performance is dependent on longitudinal and programmatic assessment which supports the developmental trajectory of learners (Frank et al., 2010). Literature included in this review documented a difference in the type of feedback desired by junior versus senior learners; where senior learners tended to prefer critical feedback as it was perceived as more useful in improving future performance (Chaffinch et al., 2016; Murdoch-Eaton & Sargeant, 2012; Sabey & Harris, 2011), whereas junior learners felt it was demoralizing. 

요약하자면, 이 범위 지정 검토는 교육생이 평가의 신뢰성과 그에 관련된 피드백에 참여, 사용 및 지각하는 방법에 영향을 미치는 다양한 요소를 식별했다. 과거의 의료 교육 실천 권고안과는 달리, 우리의 연구 결과는, 학습자 관점에서 유용성과 신뢰성을 개선하기 위해 동원될 수 있는 평가 및 피드백 프로세스의 측면을 강조함으로써, [학습자를 학습 프로세스의 중심에 배치]한다(Spenzer & Jordan, 1999). (체크리스트, 점수, 등급 척도 등) 특정 형태의 평가-생성 피드백은 해석이 어렵고 의미가 부족한 것으로 인식됐다. 성과 또는 직장 기반 피드백과 같은 다른 형태는 교육생들에게 드물고 특정적이지 않으며 도움이 되지 않는 것으로 인식되어 왔다. 

In sum, this scoping review has identified a variety of factors that influence how trainees engage, use, and perceive the credibility of an assessment and its associated feedback. Distinct from past medical education practice recommendations (Telio et al., 2015), our findings place the learner at the centre of the learning process (Spencer & Jordan, 1999) by highlighting aspects of the assessment and feedback process that can be mobilized to improve its utility and credibility from the learner perspective. Certain forms of assessment-generated feedback such as checklists, scores, rating scales were perceived as difficult to interpret and lacking meaning. Other forms such as performance- or workplace-based feedback have been perceived by trainees as infrequent, non-specific, and unhelpful. 

이러한 결과는 교육생과 평가자 간의 "교육적 동맹"의 중요성을 나타낸다. 이러한 개념 하에서, 평가와 피드백 프로세스는 [일방적인 정보 전송(평가자에서 수습사원으로)]에서 [실제로 피드백을 사용하여, 학문적 목표를 달성하기 위해 협력할 목적을 가지고, 학습 목표, 성과 및 표준에 대한 공유된 이해를 갖고있는, 진정한 교육적 관계]재구성되어야 한다. 평가자-학습자 대화 이외의 평가-생성 피드백의 역할을 고려할 경우, 평가와 평가-생성 피드백이 효과적인 학습에 기여하도록 보장하기 위해 학습자와 기관 또는 프로그램 간에 교육적 동맹을 형성하는 방법을 고려하는 것이 가치가 있을 수 있음을 시사한다.
These findings point to the importance of an “educational alliance” between trainees and assessors, whereby the assessment and feedback processes are reframed from one-way information transmission (from assessor to trainee) to an authentic educational relationship with a shared understanding of learning objectives, performance, and standards with the aim of working together to achieve academic goals using feedback in practice (Molloy et al., 2019; Telio et al., 2015). If we consider the role of assessment-generated feedback outside of assessor-learner conversations, it suggests that there may be value in considering how educational alliances can be formed between a learner and an institution or program in order to ensure assessment and assessment-generated feedback contribute to effective learning.

이 범위 지정 연구에는 몇 가지 제한이 있습니다. 문헌에서 신뢰도credibility 라는 용어를 상대적으로 자주 사용하지 않고, 우리의 검색 전략에서 신뢰의 구성이 운영화된 방식 때문에, 일부 관련 문헌이 누락되었을 가능성이 있다. 관련 문헌을 최대한 많이 확인하기 위해 경험이 풍부한 학계 사서를 팀에 포함시키고 검색 전략을 반복적으로 다듬었습니다. 또한 검색 전략을 보완하기 위해 주요 기사의 인용 추적에 의존했다. 연구 중인 개념이 평가 및 의료 교육 문헌 전반에 걸쳐 광범위하게 표현될 가능성이 높기 때문에 이 검토는 수작업을 수행하지 않았다(Young 등, 2018). 우리는 또한 동료 검토 저널에 발표된 주요 문헌으로 검색을 제한하여 평가 및 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 요소를 연구 증거에 의해 뒷받침되었다. 대부분의 확인된 논문들은 유럽과 북미에서 온 것이므로, 우리의 발견이 국제적으로 적용될 수 있는 가능성은 제한적일 수 있다. 국제적인 수준에서 우리의 발견의 일반화 가능성을 향상시키기 위해, 향후 연구는 이러한 발견을 국제적으로 적용하기 위해 더 잘 맥락화하기 위한 주요 국제 전문가와의 논의를 포함할 수 있다.

This scoping study has some limitations. Due to the relatively infrequent use of the term credibility in the literature, and the way in which the construct of credibility was operationalized in our search strategy, it is possible that some relevant literature was missed. To ensure we identified as much relevant literature as possible, we included an experienced academic librarian on our team and iteratively refined our search strategy. We also relied on citation tracking of key articles to supplement our search strategy. This review did not perform handsearching as the concept under study was likely to be broadly represented across the assessment and medical education literature (Young et al., 2018). We also decided to limit our search to primary literature published in peer-reviewed journals to synthesize the factors, supported by research evidence, that influenced the perceived credibility of assessment and assessment-generated feedback. Most identified articles were from Europe and North America; therefore, the international applicability of our findings may be limited. To enhance the generalizability of our findings at the international level, future research could engage discussions with key international experts to better contextualize these findings for international application.

결론 Conclusion

이 검토에 요약된 결과는 [학습을 지원하고 추진하는 수단]으로서의 평가 및 평가-생성 피드백의 가치를 뒷받침하며, 평가 개발자, 평가 관리자 및 의료 교육자가 의료 학습자를 포함하는 [학습자 중심의 평가 접근 방식]을 채택하는 것을 고려하는 것이 의미 있을 수 있다. 그 효용성을 보장하기 위해서 평가 전략이나 도구의 개발에 학습자를 포함할 수 있다.

The findings summarized in this review support the value of assessment and assessment-generated feedback as a means to support and drive learning, and it may be meaningful for assessment developers, assessment administrators, and medical educators to consider adopting a learner-centred assessment approach that includes medical learners in the development of learning assessment strategies and tools for assessment to ensure their utility.

 


Adv Health Sci Educ Theory Pract. 2021 Sep 27.

 doi: 10.1007/s10459-021-10071-w. Online ahead of print.

Factors affecting perceived credibility of assessment in medical education: A scoping review

Stephanie Long 1Charo Rodriguez 1Christina St-Onge 2Pierre-Paul Tellier 1Nazi Torabi 3Meredith Young 4 5

Affiliations expand

  • PMID: 34570298
  • DOI: 10.1007/s10459-021-10071-wAbstractKeywords: Assessment; Credibility; Feedback; Learner engagement; Medical education.
  • Assessment is more educationally effective when learners engage with assessment processes and perceive the feedback received as credible. With the goal of optimizing the educational value of assessment in medical education, we mapped the primary literature to identify factors that may affect a learner's perceptions of the credibility of assessment and assessment-generated feedback (i.e., scores or narrative comments). For this scoping review, search strategies were developed and executed in five databases. Eligible articles were primary research studies with medical learners (i.e., medical students to post-graduate fellows) as the focal population, discussed assessment of individual learners, and reported on perceived credibility in the context of assessment or assessment-generated feedback. We identified 4705 articles published between 2000 and November 16, 2020. Abstracts were screened by two reviewers; disagreements were adjudicated by a third reviewer. Full-text review resulted in 80 articles included in this synthesis. We identified three sets of intertwined factors that affect learners' perceived credibility of assessment and assessment-generated feedback: (i) elements of an assessment process, (ii) learners' level of training, and (iii) context of medical education. Medical learners make judgments regarding the credibility of assessments and assessment-generated feedback, which are influenced by a variety of individual, process, and contextual factors. Judgments of credibility appear to influence what information will or will not be used to improve later performance. For assessment to be educationally valuable, design and use of assessment-generated feedback should consider how learners interpret, use, or discount assessment-generated feedback.

"일단 척도가 과녁이 되면, 좋은 척도로서는 끝이다" (J Grad Med Educ, 2021)
‘‘When a Measure Becomes a Target, It Ceases to be a Good Measure’’
Christopher Mattson, MD Reamer L. Bushardt, PharmD, PA-C, DFAAPA Anthony R. Artino Jr, PhD

 

여러분이 대형 학술 의료 센터에서 레지던트 프로그램을 이끌고 있으며, 이 프로그램은 매년 열리는 ACGME(Arcreditation Council for Graduate Medical Education) 레지던트/동료 설문 조사를 준비하고 있다고 상상해 보십시오. 최근 주 80시간 근무 위반이 발생하여 ACGME에 보고될 것을 우려하여, 설문조사 1개월 전에 전공의들에게 이메일을 보내 현재 작업량을 줄이기 위한 일정 변경 사항을 공지합니다. 또한 근무 시간 위반에 대한 ACME 인용은 프로그램과 채용 노력에 중대한 부정적인 결과를 초래할 수 있다고 언급했습니다. 조사 당일, 대부분의 전공의들은 근무시간 위반 빈도를 묻는 질문에 "절대" 또는 "거의 절대"라고 대답한다. 
Imagine you are leading a residency program at a large academic medical center, and the program is preparing for the annual Accreditation Council for Graduate Medical Education (ACGME) Resident/Fellow Survey. You are concerned that 80-hour workweek violations have recently occurred and will be reported to the ACGME. You email the residents one month before the survey to announce forthcoming schedule changes to decrease residents’ current workload. You also mention that an ACGME citation for work hour violations could have major negative consequences for the program and recruitment efforts. On the day of the survey, most residents respond by answering ‘‘never’’ or ‘‘almost never’’ when asked about the frequency of work hour violations.

1970년대 영국 경제학자 찰스 굿하트는 통화 성장 목표를 토대로 재정 정책의 효과를 측정하는 함정을 설명했다. 현재 [굿하트의 법칙]으로 알려진 것은 인류학자 마릴린 스트라던의 인용문에서 가장 자주 일반화된다. "어떤 조치가 목표가 되면, 그것은 좋은 척도가 되는 것을 중단한다."1 Goodhart의 법칙은 최초 형태에서 "[관찰된 통계 규칙성]은 통제 목적으로 압력이 가해지면 붕괴되는 경향이 있습니다."라고 언급했습니다. 처음에는 우스꽝스럽던 것이 널리 퍼지고 보편적으로 적용할 수 있는 아이디어가 되었다. 
In the 1970s, British economist Charles Goodhart described the pitfalls of measuring the effectiveness of fiscal policy based on monetary growth targets. What is now known as Goodhart’s law is most often generalized in a quote from anthropologist Marilyn Strathern, ‘‘When a measure becomes a target, it ceases to be a good measure.’’1 In its original form, Goodhart’s law stated, ‘‘Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes.’’2,3 What was initially a jocular aside has become a widely disseminated and universally applicable idea.4 

학습자, 교사, 임상의 및 학자들에게 Goodhart의 법칙은 보건 직업 교육의 근본적인 진리를 말해줍니다. 특히, 조치를 대상으로 한 후 학습자를 평가하고 프로그램을 평가하는 데 사용하는 관행이 대학원 의학 교육(GME)에 상당히 만연해 있다. 

For learners, teachers, clinicians, and scholars, Goodhart’s law speaks to a fundamental truth in health professions education. In particular, the practice of targeting measures and then using them to assess learners and evaluate programs, even when the measures are no longer credible, is quite pervasive in graduate medical education (GME). 

관련 아이디어 및 GME 예제
Related Ideas and GME Examples

Goodhart의 법칙의 근간이 되는 원칙은 경제학에만 국한되지 않는다.
The principle underlying Goodhart’s law is not limited to economics.

실험적이고 준실험적인 연구 설계 방법의 선구자인 캠벨은 "어떤 양적인 사회적 지표가 사회적 의사결정에 더 많이 사용될수록, 부패 압력corruption pressures에 더 취약해질more subject 것이며, 감시하고자 하는 사회적 과정을 왜곡하고 부패시키는 방향으로 적응할more apt 것"이라고 말했다.
A pioneer of experimental and quasi-experimental study design methods, Campbell noted, ‘‘The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.’’5

첫 번째 예에서 프로그램 책임자는 전공의의 대응 방식이 어떻게 사용되는지 알고 있으며, 이에 따라 최선의 대응 방법에 대해 전공의를 지도해야 한다는 압박감이 생깁니다. 결과적으로 [근무시간 규정을 준수하지 않은 사례]가 탐지되지 않을 수 있습니다. ACME는 이 조치measure를 목표targeting로 함으로써, 프로그램 책임자와 전공의의 행동에 조치 자체를 왜곡할 수 있는 방식으로 영향을 미치고 있으며, 이로 인해 조치measure가 의도된 목적intended purpose에 덜 유용하게 됩니다. 
In the opening example, Program directors are aware of how their residents’ responses are used, which creates pressure to coach residents on how best to respond. As a result, noncompliance with work hour regulations may go undetected. By targeting this measure, the ACGME is influencing program director and resident behavior in a way that may distort the measure itself, which renders the measure less useful for its intended purpose. 

USMLE(United States Medical Licensing Examination) Step 1 점수는 레지던트 프로그램 책임자들이 전공의 신청서를 심사하고 전공의 순위를 매길 때 사용하는 경우가 많습니다. 1단계 점수는 의학적 지식을 평가하고 전체 지원자 품질의 대체물로 사용됩니다. 이 실습은 USMLE 1단계 준비에 상당한 시간과 노력을 쏟는 의대생들에게 잘 알려져 있습니다. 그러면 점수는 [학습된 의학적 지식과 미래의 잠재력]이 아닌, [시험 준비에 쏟는 시간과 시험 준비 자원에 대한 액세스]를 대변하는 쪽으로 나타나기 시작한다. 이러한 초점은 또한 현지 과정 검사를 위한 공부, 소규모 그룹 및 동료 학습 활동에 적극적으로 참여하거나 임상 기술을 개발하는 등 다른 학습 활동을 희생하면서 이뤄진다.  궁극적으로 GME 교수진이 [USMLE 1단계 점수를 목표로targeting 하는 것]은 [레지던트 준비와 실습에 부정적인 영향을 미칠 수 있는 의대생 행동]에 영향을 미칩니다.

United States Medical Licensing Examination (USMLE) Step 1 scores are often used by residency program directors when screening resident applications and ranking residents. Step 1 scores assess medical knowledge and are used as a surrogate for overall applicant quality. This practice is well known to medical students, who focus a significant amount of time and effort on preparing for the USMLE Step 1. The scores then begin to represent this increased focus, including the amount of dedicated study time and access to test preparation resources, rather than learned medical knowledge and future potential. This focus also comes at the expense of other learning activities, such as studying for local course examinations, actively participating in small group and peer-learning activities, or developing clinical skills.6,7 Ultimately, the targeting of USMLE Step 1 scores by GME faculty influences medical student behaviors inways that may negatively affect their preparation for residency and practice.  


마지막으로, 학계의 '간행물 수'와 저널 임팩트 팩터에 대한 집착은 GME 연구 환경에서도 느낄 수 있다.8 부서 의장과 승진 위원회는 임명 및 승진 결정을 돕기 위해 이 숫자를 사용합니다. 이와 같이 교수진들은 논문 발표량, 저널 임팩트 요소 결함으로 잘못 측정되는 저널의 보고 품질에 초점을 맞추도록 유도된다. 이러한 대상에 집중하는 것은 차선의 연구 방법을 장려하는 것으로 널리 알려져 있습니다.9 그것은 또한 보건직 교육연구에서 흔히 볼 수 있는 "살라미 슬라이싱"10과 명예 저자honorary authorship과 같은 문제적 연구행위questionable research practice에 동참할 압력을 가하고 있다.11 

Finally, the fixation in academia on ‘‘number of publications’’ and journal impact factor is also felt in GME research environments.8 Department chairs and promotion committees use these numbers to help make appointment and promotion decisions. As such, faculty are incentivized to focus on the quantity of papers published, and the reported quality of journals, erroneously measured by the flawed journal impact factor, over the quality of the research itself. Focusing on these targets is widely known to encourage suboptimal research methods.9 It also addspressure to engage in other questionable research practices such as ‘‘salami slicing’’10 and honorary authorship, both of which are common in health professions education research.11 


의도하지 않은 결과 완화
Mitigating Unintended Consequences

GME 교수진은 구체적인 조치measure가 목표target가 될 때 부정적인 결과를 예상해야 한다. 의도하지 않은 결과를 인식하는 것이 가장 중요한 단계이며, 이는 평가 및 프로그램 평가 계획을 개발할 때 중요한 논의를 자극할 수 있습니다. 마찬가지로, 이러한 부정적 영향이 어떻게 완화될 수 있는지를 고려하는 것이 중요하다. 다른 방법으로, 우리는 현재 존재하는 시스템을 고려할 때, [어떤 행동이 보상받을 것]인지 고려해야 합니다.12 
GME faculty should anticipate negative consequences when specific measures become targets. Recognizing the unintended consequences is the most important step; this can stimulate important discussions when developing assessment and program evaluation plans. Likewise, it is vital to consider how these negative effects might be mitigated. Said another way, we should consider what behaviors will be rewarded given the system that currently exists.12 

표준 참조norm-referenced 평가 대신, 준거 참조criterion-referenced 를 선택하는 것은 Goodhart와 Campbell의 행동 법칙을 완화하기 위한 또 다른 전략이다. 예를 들어, 숙달 학습mastery learning 기법은 "교육 진행도가 [커리큘럼 시간]이 아닌 [입증된 성과]에 기초하는 교육 접근법"으로 설명되어 왔다. 따라서 "학습자는 지정된 숙달 수준에 도달할 때까지 반복적으로 연습 및 재시험을 수행한다" 14 강사 및 커리큘럼 설계자는 개인의 성공을 위해 필요한 지식, 기술 및 태도를 결정하는 데 초점을 맞추며, 서로 상대적인 순위를 매기는 데 초점을 맞추지 않습니다. 역량 기반 프레임워크는 숙달 학습을 적용한 한 가지 예이며, 역량 기반 평가 시스템은 어려움을 겪고 있는 개인을 식별하는 데 있어 가능성을 보여주었다.15 [최고 성과자를 식별하는 것]보다 학습에 초점을 두고, [고군분투하는 학습자를 찾는 것]에 초점을 맞추는 것이 GME의 주요 목표가 되어야 한다. 준거-참조 평가도 (전통적인 평가 시스템 내에서 작동하는 데 익숙한 학습자들 사이에 존재할 수 있는) 경쟁 인센티브competition incentive의 일부를 제거할 수 있도록 지원합니다.  
Selecting criterion-referenced over norm-referenced assessments is another strategy to mitigate Goodhart’sand Campbell’s laws in action. For example, mastery learning techniques have been described as ‘‘an instructional approach in which educational progress is based on demonstrated performance, not curricular time. Learners practice and retest repeatedly until they reach a designated mastery level.’’14 Instructors and curriculum designers focus on determining the knowledge, skills, and attitudes that are needed for individual success, rather than focusing on ranking individuals relative to one another. Competency-based frameworks are an example of applied mastery learning, and competency-based assessment systems have shown promise in identifying individuals who are struggling.15 The focus on learning and finding struggling learners rather than identifying the highest performers should be a primary goal in GME. Criterion-referenced assessments also help to eliminate some of the competition incentives that may exist among peers who are accustomed to functioning within more traditional assessment systems.  

추가적으로, 논란의 여지가 있지만, 규범-참조norm-referenced 성과가 아닌 준거criteria에 초점을 맞춘 전략은 의대 입학에 대해서 추첨lottery을 사용하는 것이다.16 의과대학 [입학에 필요한 구체적인 기준을 정의]하고, 이를 추첨 대상자의 입학 기준으로 활용함으로써, 신청자가 이 기준 이상으로 지표를 부풀리려 하는 압박이 줄어들 수 있다. 
An additional, albeit controversial, strategy that focuses on criteria over norm-referenced outcomes is the use of a lottery for medical school admissions.16 By defining specific criteria necessary for success in medical school and using them as entrance criteria to the lottery, there may be less pressure on applicants to attempt to inflate their metrics beyond these thresholds. 

GME 교수진은 또한 [특정 시점 성과]보다는 [학습자 및 프로그램 성장 프로세스에 초점]을 맞춰 평가 및 평가 시스템을 강화할 수 있습니다. 이러한 접근 방식은 의학 교육에서 "종방향 및 발전적 사고"라는 맥락에서 설명되었습니다. 이는 교수진으로 하여금

  • 개인 또는 프로그램이 어떻게 수행하는지(예: '''1년차 전공의가 4년차 전공의 수준으로 수행'') 를 넘어
  • 왜 개인 또는 프로그램이 그러한 방식으로 행동하는지 (예: ''초기 전공의는 개인 진료 데이터를 독립적으로 검토하고 진료실습을 개선할 수 있는 능력을 보여주며, 복잡한 환자의 의료팀 논의를 주도한다'') 로 나아가게 한다.

GME faculty can also fortify their assessment and evaluation systems with a focus on the processes of learner and program growth versus specific time-point outcomes. This approach has been described in medical education in the context of ‘‘thinking longitudinally and developmentally.’’17 It challenges faculty to move

  • beyond how an individual or program performs (eg, ‘‘the first-year resident performs at the level of a senior resident’’) and
  • towards why an individual or program performs the way they do (eg, ‘‘the first-year resident shows an ability to independently review personal practice data and improve practice, and also leads health care team discussions of complex patients’’).  

마지막으로, assessment and evaluation 에서 "숫자"에 과도하게 의존하는 것을 피하면 Goodharts와 Campbell의 법칙의 일부 영향을 완화할 수 있다. 이 아이디어는 앞서 GME의 양적 오류를 피하는 관점에서 논의된 바 있다.18 숫자는 완전히 포착할 수 있는 역량의 범위가 상당히 제한적이다. 또한 쿡 등이 지적한 바와 같이, "숫자 점수는 본질적으로 미래에 중요할 속성과 행동을 포착하는 데 제한된다." 19 반대로, [서술적 평가]는 교수들이 의도적으로 추구하거나 다른 방법으로 발견하지 않았을 수 있는 정보를 밝혀낼 수 있도록 한다. 서술적 접근법은 복잡한 행동이나 활동을 수치적 대리인으로 축소하지 않기 때문에 뉘앙스와 맥락을 식별하고 탐구할 수 있는 수단을 제공한다. 
Finally, avoiding overreliance on ‘‘the numbers’’ in assessment and evaluation can mitigate some of the effects of Goodhart’s and Campbell’s laws. This idea has been previously discussed through the lens of avoiding the quantitative fallacy in GME.18 Numbers are quite limited in the range of competencies that they can completely capture. Further, as noted by Cook, et al, ‘‘Numeric scores are inherently limited to capturing attributes and actions prospectively identified as important.’’19 In contrast, narrative assessments allow faculty to uncover information that might not have been intentionally sought or otherwise discovered. Because narrative approaches do not reduce complex behaviors or activities into a numerical surrogate, they provide a means to identify and explore nuance and context. 

숫자 평가 및 평가에서 벗어나 주관성을 인정하고 수용해야 할 필요성이 대두됩니다.20,21 이러한 접근 방식은 교수들로 하여금 서술형 평가의 복잡성과 난잡함을 환영하도록 장려합니다. 정성적 연구 접근법과 서술적 평가는 본질적으로 풍부하고 조작하기 어려우며 신뢰할 수 있는 의사결정을 내릴 수 있다.19,22 서술적 평가는 종종 완전한 구성 샘플링을 보장하기 위해 복수의 관찰을 요구한다. 정량적 측정에 여러 관측치를 사용하는 경우 측정 품질의 한 표식은 반복 측정치 간의 변동성이 없다는 것입니다. 개인이나 프로그램은 매번 같은 결과를 얻도록 행동을 바꿀 수 있습니다. 매번 달성해야 하는 "단일한 정답"의 존재는 Goodhart의 법칙과 Campbell의 법칙이 정량적 측정의 맥락에서 특히 관련이 있는 이유를 설명합니다. 그러나 서술 기반 측정에 복수의 관측치를 사용하는 경우, 측정의 품질은 서로 다른 관점을 통해 설명되는 차이에 의해 결정된다. 단 하나의 예상 결과가 없기 때문에 서술적 논평은 조작하기가 훨씬 더 어려워집니다.  
Along with the movement away from numeric assessments and evaluations comes the need to acknowledge and embrace subjectivity.20,21 This approach encourages faculty to welcome the complexity and messiness of narrative assessments. Qualitative research approaches and narrative assessments are inherently rich, are harder to manipulate, and can produce credible decisions.19,22 Narrative assessment often requires multiple observations toensure complete construct sampling. When multiple observations are used for a quantitative measure, one marker of the measure’s quality is the lack of variability between iterative measurements. Individuals or programs can change their behavior such that the same outcome is achieved every time. The existence of a single ‘‘right answer’’ to be achieved every time explains why Goodhart’s and Campbell’s laws are particularly relevant in the context of quantitative measures. However, when multiple observations are used for a narrative-based measure, the measure’s quality is determined by differences that are elucidated through different perspectives. The lack of a single expected outcome renders narrative comments much more difficult to manipulate.  

요약
Summary

Goodhart's와 Campbell의 법률은 이제 경제학과 사회과학 분야에서 그 본래의 맥락을 넘어서 인정받고 있습니다. 사회적 의사결정에 정보를 제공하기 위해 정량적 사회적 지표에 의존하는 평가 및 평가 시스템에 위험이 존재한다.5 위의 예에서 알 수 있듯이 이러한 개념은 GME와 관련이 있습니다. 
The implications of Goodhart’s and Campbell’s laws are now appreciated beyond their original contexts in economics and the social sciences. Risks exist in assessment and evaluation systems that rely on quantitative social indicators to inform social decision-making.5 These concepts are relevant to GME, as demonstrated by the above examples. 

[Goodhart 및 Campbell의 법칙]에 따른 피해를 방지하거나 최소화하기 위한 단계는 다음과 같습니다.
steps to prevent or minimize harms from Goodhart’sand Campbell’s laws include:

  • 평가 및 평가 시스템을 계획할 때, 정량적 조치의 의도하지 않은 잠재적 결과에 대해 논의합니다.
  • 학습자 평가 및 프로그램 평가 노력의 설계에 로직 모델 또는 기타 구조화된 접근 방식을 적용합니다.
  • 준거 기반 평가를 고려한다.
  • 학습자 평가 및 프로그램 평가에 대한 주관적이고 서술적인 접근 방식을 수용합니다.

 

  • discuss the potential unintended consequences of quantitative measures as you plan your assessment and evaluation system;
  • apply a logic model or other structured approach in the design of your learner assessment and program evaluation efforts;
  • consider criterion-referenced (over norm-referenced) assessments; and
  • embrace subjective, narrative approaches to learner assessment and program evaluation. 

 

 

 


J Grad Med Educ. 2021 Feb;13(1):2-5.

 doi: 10.4300/JGME-D-20-01492.1. Epub 2021 Feb 13.

"When a Measure Becomes a Target, It Ceases to be a Good Measure"

Christopher MattsonReamer L BushardtAnthony R Artino Jr

감정과 평가: 위임의 평가자-기반 판단에서 고려사항(Med Educ, 2018)
Emotions and assessment: considerations for rater-based judgements of entrustment
Carlos Gomez-Garibello & Meredith Young

 

도입
INTRODUCTION

평가는 어떤 교육적 맥락에서든 초석cornerstone을 이룬다. 엡스타인은 의학적 맥락에서 평가가 세 가지 목표에 부합한다고 말한다. 

  • 미래의 학습을 위한 동기 부여와 정보를 제공한다; 
  • 무능한 전문가를 찾아냄으로써 대중을 보호하고,
  • 지원자들을 상급 훈련에 입학시킬 수 있는 기초를 제공한다.

Assessment constitutes a cornerstone in any educational context. Epstein states that in the medical context, assessment serves three goals:

  • it provides motivation and information for future learning;
  • it protects the public by detecting incompetent professionals, and
  • it provides a basis for admitting applicants to advanced training.1 

최근에는 [학습을 위한 평가]가 [피드백 제공과 개선을 위한 영역 식별]을 통하여 [평가의 교육적 가치]를 갖는다는 것을 강조하면서 [평가의 교육적 역할]에 더욱 중점을 두고 있다. 
Recently, more emphasis has been placed on the educational role of assessment, with assessment for learning highlighting the educational value of assessment through the provision of feedback and identification of areas for improvement.2,3 

최근의 연구는 [평가자 기반rater-based 평가]에서 작용하는 인지적 기초와 과정을 조명했다. 보건직업교육(HPE)에서 평가자에 대한 광범위한 문헌의 대다수는 평가판단에 영향을 미치는 인지적 또는 상황적 요인에 초점을 맞추고 있다. 그러나 평가는 공백 상태에서 이루어지는 것이 아니라, 교육-관련 요구를 충족시키는 사회적 맥락 안에서 이루어진다. 
recent work has shed light on the cognitive underpinnings and processes at play in rater-based assessment.4–8 The majority of the broader literature on raters in health professions education (HPE) has focused on cognitive4–6 or contextual8 factors that influence rater judgements. However, assessment does not take place in a vacuum, but within a social context9 that serves to fulfil education-related demands. 

위탁 가능한 전문 활동EPA은 학습자의 [발달적 궤적]을 파악하고, 교육 맥락에서 임상 교사가 '자연적으로' 하고 있는 것과 일치시키기 위해 개념화되었다. 즉, 훈련생이 [과제를 독립적으로 완수할 준비가 되었는지] 또는 graded supervision에 대한 의사결정이 그것이다.

Entrustable professional activities were conceptualised in order to capture the developmental trajectory of learners, as well as to align with what clinical teachers were ‘naturalistically’ doing in educational contexts: making decisions regarding whether (or not) trainees were ready to complete a task independently or with graded supervision.10–12 

위탁 가능한 전문활동은 다음과 같은 활동을 말한다.

  • (i) 특정 분야의 필수 업무이다.
  • (ii) 지식, 기술 및 태도의 적절한 통합이 필요하다.
  • (iii) 관찰 가능한 결과를 초래한다.
  • (iv) 자격을 갖춘 학습자에게 위임된다.
  • (v) 독립적으로 실행할 수 있다.
  • (vi) 기간 내에 수행되어야 한다.
  • (vii) 과정과 결과에 대해서 관찰 및 평가할 수 있다.
  • (viii) 둘 이상의 역량 또는 역량 영역의 통합을 반영한다.


Entrustable professional activities refer to activities that:

  • (i) are essential tasks of a discipline;
  • (ii) require adequate integration of knowledge, skills and attitudes;
  • (iii) lead to observable outcomes;
  • (iv) are entrusted to qualified learners;
  • (v) are independently executable;
  • (vi) are performed within a timeframe;
  • (vii) are observable and assessed in process and results, and
  • (viii) reflect the integration of two or more competencies or domains of competence.10 

평가 관점에서, 평가자는 일상적으로 학습자에게 직무 환경에서 특정한 활동 수행을 위임하기 때문에 [EPA의 개념이 임상 실무에 직관적]이라고 생각한다. 학습자가 어떤 활동을 수행하는 [독립성의 수준level of independence]은 훈련생, 감독자, 과업의 성격, 상황별 상황 및 훈련생과 감독자 사이의 관계에 따라 달라집니다. 
From an assessment perspective, raters find the concept of EPAs intuitive to their clinical practice as they routinely entrust learners to perform activities in workplace settings.14–17 The level of independence at which learners perform these activities depends on factors related to the trainee, the supervisor, the nature of the task, contextual circumstances, and the relationship between the trainee and supervisor.17–19

[신뢰]는 많은 요인이 작용하기 쉬운, 사회적 판단을 나타낸다고 주장되어 왔다.9 신뢰에 근거한 평가자 기반 판단과 관련된 과제에 기여하는 것은 신뢰의 정의와 관련 평가 모델이 위임의 목적 또는 학습자에게 위임하기 위해 감독자가 이용할 수 있는 증거에 따라 다르다는 사실이다. 예를 들어, 10 Kate는 위임은 총괄적이거나 임시적이라고 제안한다.
it has been argued that trust, represents a social judgement in which many factors are likely to be at play.9 Contributing to the challenges associated with rater-based judgements grounded in trust is the fact that definitions of trust and associated models of assessment vary depending on the purpose of entrustment or the evidence available to supervisors to entrust learners.17 For example, ten Cate propose that entrustment is summative or ad hoc

또한, 10명의 케이트 외 연구진들은 훈련생과 감독자 사이의 관계에 [세 가지 임시 신뢰 모드]를 정의합니다. 

  • 추정된 신뢰: 동료의 자격 증명 및 코멘트에 기초한 것
  • 초기 신뢰: 첫인상에 따라 달라지는 것
  • 근거된 신뢰: 관측 가능한 증거를 이용할 수 있을 때 발생하는 것

Further, ten Cate et al. define three modes of ad hoc trust in the relationship between trainee and supervisor:

  • presumptive, which is based on credentials and comments from colleagues;
  • initial, which is dependent on first impressions, and
  • grounded, which occurs when observable evidence is available.17 

 

역량, 위탁가능성 또는 성과 결정에 영향을 미치는 상황별 요인의 식별을 고려할 때, 평가자-특이적 요인들이 평가에 영향을 미칠 수 있다는 점을 고려하는 것이 합리적일 수 있다. 새로운 작업이 평가자 기반 작업에 대한 인지 요인과 접근법의 역할을 식별했지만, 여기서는 CBME의 구현으로 인하여 점차 [평가자 기반 평가에 대한 의존도가 증가]하고, [평가자 내에서 요구되는 판단의 복잡성]을 고려할 때, CBME라는 패러다임에서는 [평가자 감정에 대한 신중한 조사]가 시기적절할 수 있다고 제안한다. 
Given this identification of contextual factors that influence decisions of competence, entrustability or performance, it may be reasonable to consider that rater-specific factors might influence assessment. Although emerging work has identified the roles of cognitive factors and approaches to rater-based tasks,4–6 here, we propose that a careful investigation into rater emotions may be timely given the increased reliance on rater-based assessments associated with the implementation of CBME, and the complexity of the judgements required of raters within this paradigm

[감정]은 [강렬한 생리적, 심리적 반응]으로 정의되어 왔으며, 그것을 [경험하는 개인에게 의미 있는 것]으로 인식되어 왔고, [개인이 속한 환경에서의 상황에 대한 반응]에서 비롯됩니다. 평가자(교육자/교사)와 평가 받는 훈련생 모두에 대해 평가자 기반 평가 과정 내에 감정이 존재할 수 있다고 가정하는 것은 어렵지 않을 것이다.
Emotions have been defined as intense physiological and psychological reactions, perceived as meaningful to the individual experiencing them, and resulting from a response to a situation in an individual’s environment.21–24 It would not be difficult to surmise that emotions may be present within a rater-based assessment process, for both the rater (educator/teacher) and the trainee being assessed. 

HPE 내의 연구는 [감정과 인식 사이의 연관성]을 검토하는 것이 훈련생 성과에 대한 우리의 이해를 풍부하게 할 수 있다고 주장해 왔습니다. 특히 맥코넬과 에바는 감정이 사람들이 정보를 식별하고 처리하고 행동하는 방식에 영향을 미친다고 주장한다. 의료 비상사태에 대한 팀 기반 시뮬레이션처럼, 보다 복잡한 교육 환경에서는 부정적인 감정(예: 불안)이 (고차원적 프로세스(예: 추론 및 메타인지 모니터링)보다는) 저원차적 인지 프로세스(예: 요약 또는 정보 제공)와 연관될 것을 제안한다.26 

Work within HPE has argued that examining the association between emotions and cognitions might enrich our understanding of trainee performance.25 In particular, McConnell and Eva claim that emotions influence the ways in which people identify, process and act on information.25 In more complex educational environments, such as team-based simulations of medical emergencies, it is suggested that negative emotions (e.g. anxiety) are associated with lower- order cognitive processes (e.g. summarising or providing information) rather than higher-order processes (e.g. reasoning and metacognitive monitoring).26 

교육 환경의 정서
EMOTIONS IN EDUCATIONAL SETTINGS

연구자들은 학습에서 감정의 영향을 조사하는 것이 동기 부여와 학습과 성과에 어떤 영향을 미치는지에 대한 더 나은 이해를 이끌어냈다고 제안했다. 
researchers have suggested that examining the influence of emotions in learning has resulted in better understanding of how motivation and affect influence learning and performance.24,27 

라인하르트 페크룬Reinhard Pekrun의 통제-가치 이론control–value theory은 교육적 맥락에서 감정과 성과 사이의 연관성을 조사할 수 있는 포괄적인 프레임워크를 제공합니다. 이 이론에 따르면, 감정은 감정적, 인지적, 동기적, 표현적, 생리학적 과정을 포함합니다. Pekrun은 교육 활동(예: 강의)과 결과(예: 시험의 결과)에 대한 학습자의 인지적 평가(특히, 인식된 통제와 가치)가 학습자의 다른 감정(예: 기쁨, 자부심, 수치심, 좌절)을 유도하여 수행과 과제 결과에 영향을 미칠 수 있다고 주장합니다. 그 결과, 활동 및 결과에 대한 평가된 가치appraised value와 통제력은 학습자의 동기 부여, 학습 전략, 인지 리소스, 자기 규제 및 학업 성취도에 영향을 미칩니다. 
Reinhard Pekrun’s control–value theory offers a comprehensive framework with which to examine the association between emotions and performance in educational contexts.24 According to this theory, emotions encompass affective, cognitive, motivational, expressive and physiological processes.24 Pekrun argues that learners’ cognitive appraisal (specifically, perceived control and value) of educational activities (e.g. a lecture) and outcomes (e.g. results of an examination) elicit different emotions in learners (e.g. joy, pride, shame, frustration), which, in turn, can influence performance and task outcomes.24,29 As a result, the appraised value and control of activities and outcomes elicit different emotions in learners, which, in turn, impact learners’ motivation, learning strategies, cognitive resources, self-regulation and academic achievement.29 


일부 연구는 학생 평가에서 감정의 역할을 탐구했지만, 대부분의 연구는 '시험 불안'의 인지 구성 요소를 이해하는 데 초점을 맞췄다. 저자는 [시험 불안][시험이나 과제가 완료되기 전이나 완료되고 난 후, 평가 상황이나 개인의 성과와 관련된 내부 대화internal dialogue에 대한 개인의 반응]으로 정의한다. 근거에 따르면, 수행능력을 최적화하려면 일정한 수준의 각성이 필요하다는 것을 시사하지만, 극도로 낮거나 높은 각성은 성능을 저해하는 것으로 보인다. 
Some research has explored the role of emotions in student assessment, but the majority of work has focused on understanding the cognitive components of ‘test anxiety’.30 Authors define test anxiety as an individual’s reactions to assessment situations or any internal dialogue related to the individual’s performance before, during or after the examination or task is completed.21 Evidence suggests that a certain level of arousal is necessary to optimise performance; however, extreme low or high arousal appears to impede performance.30 

다른 교육적 맥락에서와 마찬가지로 건강 직업의 학습자는 학습과 수행에 방해가 될 수 있는 감정을 경험합니다.
As in any other educational context, learners in the health professions experience emotions that may interfere with their learning and performance.

교사의 감정을 다룰 때, 문헌에서는 주로 교사의 관점에서 [분노나 좌절의 느낌]에 초점을 맞추는 경향이 있다. 작가들은 또한 교사들이 교실에서 보여주는 감정과 신념, 목표, 정체성이 어떻게 관련되어 있는지를 탐구했다. 이 연구에 따르면, 교사들은 개인적 기대(예: 목표, 신념)문화적 기대(예: 학습과 가르침에 관련된 믿음)를 교실에 가져오고, 이는 그들의 인지적 감정과 정서적 경험의 결과로서 증명되거나 반박된다corroborated or refuted.33 
When considering teachers’ emotions, the literature tends to focus primarily on feelings of anger or frustration from the perspective of the teacher.32 Authors have also explored how beliefs, goals and identity relate to emotions that teachers display in classrooms.33 According to this research, teachers bring to their classrooms a set of personal expectations (e.g. goals, beliefs) and cultural expectations (e.g. beliefs related to learning and teaching) that are corroborated or refuted as a result of their cognitive appraisal and emotional experiences.33 

감정 및 의사결정 작업
EMOTIONS AND DECISION-MAKING TASKS

일반적으로 의사결정 과정에는 다음을 포함한다. 

  • 사람들이 선택하는 옵션, 
  • 그 결정의 잠재적 결과 
  • 의사결정이 이루어진 후 다른 결과가 발생할 확률


In general, a decision-making process encompasses

  • the options among which people choose,
  • the potential outcomes of that decision, and
  • the probability of different consequences occurring after the decision has been made.34,36 

 

연구자들은 감정이 사람들이 결정을 내리는 방법에 중요한 영향을 미친다고 주장해왔다. 사실, 신경생물학 연구에서 나온 증거는 감정이 모든 의사결정 과정에서 중요한 역할을 한다는 것을 암시합니다. 저자는 세 가지 유형의 감정이 의사결정 과정에 영향을 미칠 수 있다고 강조합니다. 

  • (i) 결정을 내리는 사람의 정서적 특성 또는 기질(Mood
  • (ii) 당사자가 의사결정을 할 때 유도되는 감정(Incidental emotion
  • (iii) 가능한 결정의 결과에 대한 예상 감정(expected emotion).

researchers have argued that emotions have significant impact on how people make decisions.34,37–39 In fact, evidence from neurobiological studies suggests that emotions play a critical role in all decision-making processes.38 Authors stress that three types of emotion can influence decision-making processes:

  • (i) emotional traits or the temperament of the person who is making the decision (mood);
  • (ii) emotions elicited when the person makes the decision (incidental emotions), and
  • (iii) anticipated emotions of the outcomes of the possible decisions (expected emotions).40

 

증거는 긍정적인 감정을 경험하는 사람들은 결정을 내리기 위해 휴리스틱한 전략을 사용할 가능성이 더 높다는 것을 암시합니다; 반대로 부정적인 감정을 가진 사람들은 체계적인 접근을 사용하는 경향이 있습니다.
Evidence suggests that individuals experiencing positive emotions are more likely to use heuristic strategies to make decisions; contrarily, individuals bearing negative emotions tend to use a systematic approach.39

이 프레임워크를 HPE 내 위탁에 대한 판단 적용까지 확장하면

  • 긍정적인 감정(예: 기쁨, 자부심)을 보고하는 평가자가 전체론적holistic 관점에서 학습자를 평가할 가능성이 높아지고, 후광 효과의 결과로 학습자의 준비 상태를 잘못 나타낼misrepresentation 수 있습니다.
  • 반면 부정적인 감정(예: 불안, 두려움)을 경험하는 평가자들은 훈련생, 절차 또는 상황에 대한 세부사항에 더 집중할 가능성이 더 높으며, 마찬가지로 연습 준비 상태의 잘못된 표현으로 이어질 수 있습니다.

If we extend this framework to the application of judgements of entrustment within HPE,

  • raters who report positive emotions (e.g. joy, pride) may be more likely to appraise their learners from a holistic perspective, resulting in misrepresentations of the readiness of the learner as a result of the halo effect;
  • whereas raters who experience negative emotions (e.g. anxiety, fear) may be more likely to focus on details of the trainee, the procedure or the situation,25 also potentially leading to misrepresentations of readiness to practise. 

요약하자면, 여러 분야의 문헌을 폭넓게 검토한 결과, 학자들은 [스스로의 감정에 대한 인식 부족]이 편향된 의사결정을 초래할 수 있다는 데 동의한다는 것을 밝혀냈다.

To summarise, a broad review of the literature across several domains has revealed that scholars agree that a lack of awareness of one’s emotions may lead to biased decision making.41–43 

평가자 인식
RATER COGNITION

평가자 인식의 몇 가지 개념적 모델이 등장했고, 다른 저자들은 평가 과정의 다른 구성요소를 대상으로 삼았다. [평가자 인식]을 다룬 문헌 내에서 평가자 기반 평가는 첫 인상, 평가자의 주의력 및 인지 한계, 평가의 인지 과정, 평가자가 의미를 전달하기 위해 사용하는 '코드', 평가 결정의 사회적 특성, 즉시 평가 컨텍스트의 역할 등에 관하여 검토되었습니다. 사용되는 렌즈와 상관없이, 평가자 기반 평가는 [여러 요인에 의해 영향을 받을 수 있는 복잡한 과정]이라는 일반적인 공감대가 있다. 
Several conceptual models of rater cognition have emerged,4–6 and different authors have targeted different components of the assessment process. Within the rater cognition literature, rater-based assessment has been examined through the lenses of first impressions,7 the attentional and cognitive limits of raters,6 the cognitive processes of rating,4 the ‘codes’ that raters use to transfer meaning,44 the social nature of assessment decisions,9 and the role of the immediate rating context.8 Regardless of the lens used, there is a general consensus that rater-based assessment is a complex process that can be influenced by a multitude of factors. 

평가자는 [편향되거나 본질적으로 오류가 있는 것]으로, [오류 분산의 기여자]로서, 그리고 [전문지식이나 전문가의 판단의 원천]으로 다양하게 여겨져 왔다.

  • 평가자가 편향되거나 오류가 있는 것으로 간주되는 경우, 평가 접근법의 방어가능성은 개인이 도구를 '적절하게' 사용하고 있고 체계적인 편견 없이 사용할 수 있도록 보장하는 것을 목표로 하는 좋은 평가자 훈련의 맥락에서 증가할 것으로 예상할 수 있다.
  • 또한, 평가자가 '무작위 노이즈'를 통해 측정 오류에 기여하는 것으로 인식되는 경우, 평가 품질을 높이는 최선의 방법은 충분한 수의 평가자가 '참된' 성과를 보다 적절하게 포착하기 위해 평가를 완료하도록 보장하는 것이다.
  • 마지막으로, 평가자는 [판단을 내리기 위해] [전문지식을 통해 translate할 정보 소스를 동원할 수 있는 능력]을 갖춘 전문가 의사결정자로 포지셔닝될 수 있다. 이러한 포지셔닝에서 방어가능한 평가 시스템은 잠재적으로 유해한 영향으로부터 보호하면서 평가자의 전문성으로부터 얻을 수 있는 효익을 극대화하는 방식으로 구축될 것이다. 

Raters have variously been considered to be biased or inherently error-ridden, as contributors to error variance, and as sources of expertise or expert judgement.5,6

  • If raters are considered as biased or error-ridden, the defensibility of assessment approaches can be expected to increase in the context of good rater training that aims to ensure that individuals are using the tool ‘appropriately’ and without any systematic bias.
  • Additionally, if raters are recognised as contributing to measurement error through ‘random noise’, the best means of increasing assessment quality will be to ensure that a sufficient number of raters complete assessments in order to more appropriately capture ‘true’ performance.
  • Finally, raters may be positioned as expert decision makers, with ability to mobilise several sources of information that they will translate through their expertise in order to make a judgement. In this positioning, a defensible assessment system would be constructed in a way that maximises the benefit that can be drawn from raters’ expertise while protecting against potentially deleterious effects. 



평가 기반 평가에서의 감정
EMOTIONS IN RATER-BASED ASSESSMENT

Gingerich가 제안했듯이, 신뢰와 판단은 본질적으로 사회적이며, 사회적 판단에서 감정은 중요한 역할을 합니다.9 이러한 관계를 설명하기 위해 평가자가 [프로시져를 수행하는 전공의를 평가]하는 상황을 상상해보자. 이 평가 과정이 인지적 판단consideration에만 의존한다고 상상하기는 어렵다. 대신에 인지적, 관계적(사회적) 및 정서적 고려consideration 사이의 상호작용(즉 통제와 가치의 관점에서 평가 후 도출된 감정)이 평가 과정이 전개되는 방식을 더 잘 나타낼 수 있다. 
As suggested by Gingerich, trust and judgement are inherently social, and emotions play an important role within social judgements.9 In order to illustrate this relationship, we must imagine the ways in which a rater assesses a resident performing a procedure. It is difficult to imagine that this process relies exclusively on cognitive considerations; instead the interaction among cognitive, relational (social) and emotional considerations (i.e. emotions elicited after appraisal in terms of control and value) might better represent the ways in which the assessment process unfolds. 

간단히 말해서, 평가자 기반 평가에서 감정의 역할은 다음을 반영하는 것으로 간주될 수 있다.
In brief, the role of emotion in rater-based assessment might be considered to reflect:

  • (i) 편향된 의사결정을 초래하는 감정
  • (ii) 평가 측정에 무작위 소음을 추가하는 감정
  • (iii) 평가 결정에 기여하는 정당한 정보 소스를 나타내는 감정. 
  • (i) emotions that lead to biased decision making;
  • (ii) emotions that add random noise to assessment measurement, and
  • (iii) emotions that represent a legitimate source of information that contributes to assessment decisions. 


편향된 의사결정을 이끌어 내는 감정
Emotions that lead to biased decision making


자극arousal과 교사의 감정에 대한 문헌을 요약해보면, 감정은 평가자 기반 평가의 [체계적 편향에 대한 기여자]로 간주될 수 있다. 간단히 요약하면, 각성 상태나 감정 상태에서의 차이가 [수행의 특정 측면]으로 주의를 돌리게 하거나, [대조 효과]가 두드러지게 만들 수 있다. 평가자 기반 평가에서 감정의 역할에 대한 이러한 개념화에서, 감정의 잠재적 함의에는

  • 감정의 역할을 완화하기 위한 평가 훈련의 제안
  • 또는 잠재적인 편견을 [완화하거나 통제하기 위한 수단]으로서, 평가 작업 중 평가자의 감정 반응을 측정하는 도구 또는 과제의 개발이 포함된다. 

Given the summary of the literature on arousal25,45 and teacher emotions,24,46 emotions might be considered as contributors to systematic bias in rater-based assessment. To briefly summarise, it is possible that differences in arousal or emotional states could shift rater attention to particular aspects of performance, or perhaps even highlight contrast effects.8 In this conceptualisation of the role of emotion in rater-based assessment, potential implications of emotion include

  • suggestions of either rater training in order to mitigate the role of emotion, or
  • perhaps the development of tools or tasks with which to measure the emotional responses of raters during assessment tasks as a means of mitigating or controlling for potential bias. 

평가 측정에 무작위 노이즈를 추가하는 감정
Emotions that add random noise to assessment measurement

단일 평가자 기반 평가 판단에서 감정의 역할은 맥락에 관련되어 있으며, ten Cate 외 연구진과 고바어트가 요약한 바와 같이 여러 상호 연관된 요인(학습자 요인, 교사 요인, 상황적 요인 등)에서 비롯될 가능성이 높다. 감정이 평가 시스템에 '소음'을 추가한다는 제안은 위에서 언급한 것과 유사한 해결책으로 귀결됩니다. 즉, 특정 후보자의 수행을 평정rating하는 수를 늘리는 것이다. 특히 EPA의 이해도가 낮은 영역에 비추어 볼 때, 우리는 관찰과 수행능력의 평정 숫자를 늘리는 것이 잠재적인 해로운 영향이 거의 없다고 느낀다. 

The role of emotions in a single rater-based assessment judgement is likely to be contextually related and to result from several interconnected factors (learner factors, teacher factors, contextual factors, etc.) as summarised by ten Cate et al.17 and Govaerts.47 The suggestion that emotions add ‘noise’ to the assessment system results in a similar solution to that mentioned above: an increase in the number of ratings of performance for a given candidate. Particularly in view of the little- understood area of EPAs, we feel there are few potential detrimental effects to considering an increased number of observations and ratings of performance.  

평가 결정에 기여하는 정당한 정보 소스를 나타내는 감정
Emotions that represent a legitimate source of information that contributes to assessment decisions

감정은 모든 의사결정 과정의 본질적인 구성 요소를 구성합니다. 여러 분야의 문헌에서, 결정을 내릴 때 인지적, 정서적, 상황적 요인의 얽힘을 강조한다. 그런 의미에서 평가에서 감정의 역할을 무시하거나 소홀히 하면 이 과정에 대한 이해가 줄어들 것이다. 우리의 관점에서는 감정을 엄격하게 통제하거나(개념화 A) 무의미한 교란으로 간주하는 방식(개념화 B)으로 감정을 개념화하는 것은 최적의 옵션이 아니다. 오히려, 우리는 평가 과정에서 [감정의 중요성을 인정하는 틀을 만드는 것]을 지지합니다. 평가자를 감정 상태에 따라 선정해서는 안 되지만, 평가자가 자신의 감정에 대한 [자기 인식]과 [자기 조절]을 촉진하는 데 초점을 맞춘 전략의 잠재적인 이익을 고려해야 할 것이다.48 

Emotions constitute an inherent component of any decision-making process.23,34,45 Literature from different fields highlights the intertwining of cognitive, emotional and contextual factors when it comes to making decisions. In this sense, disregarding or neglecting the role of emotions in assessment will reduce understanding of this process. From our perspective, conceptualising emotion by tightly controlling for it (Conceptualisation A) or counting it as meaningless disturbance (Conceptualisation B) are not optimal options. Rather, we advocate for generating frameworks that acknowledge the importance of emotions in assessment processes. Raters should not be selected on the basis of their emotional states, but perhaps we should consider the potential benefit of strategies focused on facilitating self- awareness and self-regulation of raters’ emotions.48 

향후 연구를 위한 영역
AREAS FOR FUTURE RESEARCH



평가 시 평가자의 감정 이해
Understanding raters’ emotions in assessment

위탁 이해
Understanding entrustment

평가 및 사회적 요인
Assessment and social factors

학습자 평가에서 감정의 역할을 탐구할 수 있는 잠재적 지향 프레임워크 중 하나는 평가 도구 설계, 평가 수행 및 평가 생성 점수 해석 과정에 관련된 세 가지 요소를 식별하는 펠레그리노 외 연구진(49)의 평가 삼각망입니다. 특히, 이러한 요소에는 다음이 포함됩니다.

  • 인지: 평가자의 정신 모델 및 학습 인지 이론으로 정의되는 인지,
  • 관찰: 학습자의 반응과 해석을 이끌어내기 위해 사용할 과제의 특성을 구성하는 관찰
  • 해석: 관찰로부터 추론의 규칙과 가정을 정의(그림 1).


One potential orienting framework with which to explore the role of emotions in the assessment of learners is Pellegrino et al.’s assessment triangle,49 which identifies three elements involved in the process of designing assessment tools, performing assessment, and interpreting assessment-generated scores. Specifically, these elements include:

  • cognition, defined as assessors’ mental models and cognitive theories of learning;
  • observation, comprising the characteristics of the tasks to be used to elicit learners’ responses, and
  • interpretation, or defining the set of rules and assumptions of reasoning from observations (Fig. 1).49,50

 

이 세 가지 측면은 [임상 절차를 수행하는 학습자가 직접 관찰]되는 가상의 사례를 사용하여 설명할 수 있습니다. 이 전형적인 평가 시나리오에서 

  • [인지]는 임상 프로시져에서 역량의 입증을 위해 평가자가 필요하다고 생각하는 지식, 기술, 태도의 집합을 말한다. 
  • [관찰]은 반드시 관심을 기울여야attended to 하는 임상 수행능력의 측면을 의미하며, 
  • [해석]은 이러한 관찰을 바탕으로 학습자의 역량에 대해 가정하는 것을 의미합니다.49 

These three facets may be illustrated using a hypothetical case in which a learner performing a clinical procedure is directly observed. In this typical assessment scenario,

  • cognition refers to the set of knowledge, skills and attitudes that the assessor considers necessary to demonstrate competence during the clinical procedure.
  • Observation would refer to aspects of the clinical performance that must be attended to, and
  • interpretation refers to the assumptions made about the learner’s competence based on these observations.49 

 

우리는 평가 프로세스가 인식, 관찰, 해석 및 감정 등 4가지 차별화 요소들로 구성된 테트라드로 더 잘 정의될 것을 제안한다(그림 2). 
we suggest that the assessment process is better defined as a tetrad comprised of four differentiated, yet related, elements – cognition, observation, interpretation and emotions – and that these elements are intertwined throughout the act of assessing (Fig. 2). 

 



결론
CONCLUSIONS

감정을 [평가와 의사결정 과정의 핵심 구성요소]로 인식하는 것은 감정을 단순히 비인지적 변동의 원천으로 개념화하지 않게 해준다. 오히려, 이러한 인식은 감정이 [평가 생성 데이터의 설계, 실행 및 해석에 있어 근본적인 역할]을 할 수 있음을 시사합니다. 
Recognising emotions as a key component of assessment and decision-making processes moves us away from conceptualising emotions as merely non-cognitive sources of variation in developing assessment judgements. Rather, this recognition suggests that emotions can, and should, play a fundamental role in the design, execution and interpretation of assessment- generated data. 

결론적으로 [평가]는 [평가자가 학습자의 지식, 기술 및 태도에 대한 판단을 내리는 의사결정 과정으로 정의]할 수 있습니다. 
In conclusion, assessment can be defined as a decision-making process in which raters generate judgements regarding learners’ knowledge, skills and attitudes. 

우리는 평가자의 감정에 대한 고려가 평가의 설계, 개념화, 구현 및 사용, 그리고 평가자가 생성하는 점수 해석에 중심적이어야 한다고 주장한다. 감정을 평가 과정에 포함하는 것은 평가자를 '측정 도구'로 보는 개념에서 벗어나, 사회적, 정서적 맥락 안에 평가 프로세스를 포함한다는 것을 시사합니다. CBME 프레임워크 내의 평가가 학습을 지원하고 촉진하는 목표를 달성할 수 있도록 보장하기 위해서는 감정적 요소와 관련된 평가 기반 평가에 기여하는 프로세스에 대한 이해를 확대해야 합니다.
We argue that consideration for raters’ emotions should be central to the design, conceptualisation, implementation and use of assessments, and to the interpretation of the scores they generate. The inclusion of emotions as an element within the assessment process suggests a move away from the idea of a rater as a ‘measurement instrument’ and instead embeds the assessment process within a social and emotional context. Expanding our understanding of the processes that contribute to rater-based assessment, including those related to emotional elements, is necessary to ensuring that assessment within a CBME framework can achieve the goals of supporting and facilitating learning. 

 

 


Med Educ. 2018 Mar;52(3):254-262.

 doi: 10.1111/medu.13476. Epub 2017 Nov 9.

Emotions and assessment: considerations for rater-based judgements of entrustment

Carlos Gomez-Garibello 1Meredith Young 1

Affiliations collapse

Affiliation

  • 1Centre for Medical Education, Faculty of Medicine, McGill University, Montreal, Quebec, Canada.
  • PMID: 29119582
  • DOI: 10.1111/medu.13476Abstract
  • Context: Assessment is subject to increasing scrutiny as medical education transitions towards a competency-based medical education (CBME) model. Traditional perspectives on the roles of assessment emphasise high-stakes, summative assessment, whereas CBME argues for formative assessment. Revisiting conceptualisations about the roles and formats of assessment in medical education provides opportunities to examine understandings and expectations of the assessment of learners. The act of the rater generating scores might be considered as an exclusively cognitive exercise; however, current literature has drawn attention to the notion of raters as measurement instruments, thereby attributing additional factors to their decision-making processes, such as social considerations and intuition. However, the literature has not comprehensively examined the influence of raters' emotions during assessment. In this narrative review, we explore the influence of raters' emotions in the assessment of learners.Conclusions: We identify and discuss three different interpretations of the influence of raters' emotions during assessments: (i) emotions lead to biased decision making; (ii) emotions contribute random noise to assessment, and (iii) emotions constitute legitimate sources of information that contribute to assessment decisions. We discuss these three interpretations in terms of areas for future research and implications for assessment.
  • Methods: We summarise existing literature that describes the role of emotions in assessment broadly, and rater-based assessment specifically, across a variety of fields. The literature related to emotions and assessment is examined from different perspectives, including those of educational context, decision making and rater cognition. We use the concept of entrustable professional activities (EPAs) to contextualise a discussion of the ways in which raters' emotions may have meaningful impacts on the decisions they make in clinical settings. This review summarises findings from different perspectives and identifies areas for consideration for the role of emotion in rater-based assessment, and areas for future research.

글로벌 평정척도가 체크리스트보다 전문성의 상승단계 측정에 더 나은가? (Med Teach, 2019)
Are rating scales really better than checklists for measuring increasing levels of expertise?
Timothy J. Wooda and Debra Pughb

 

 

도입
Introduction


객관적 구조화 임상검사(OSCE)에서 성과를 평가할 때 평정 척도rating scale는 학습자의 전문성 증가에 민감하지만, 체크리스트는 그렇지 않다는 것이 원칙이 되었다. 이에 대한 일반적인 설명은, 초보자들이 익숙하지 않은 문제에 직면했을 때 상세한 접근법을 사용할 가능성이 높은 반면, 더 경험이 많은 임상의들은 진단에 도달하기 위해 지름길을 사용할 수 있기 때문에 체크리스트를 사용하여 평가할 때 실제로 낮은 점수를 받을 수 있다는 주장과 관련된다(Regehr et al. 1998; Hawkins and Bullet 2008). 이와 같이, 체크리스트(조치 수행 여부를 평가하는 것)는 [철저성과 데이터 수집 능력을 보상한다]는 비판을 자주 받는 반면, 평정 척도rating scale(평가자가 조치가 얼마나 잘 수행되었는지 판단할 수 있게 하는 것)는 임상적 추론과 같이 전문가에게 보이는 고차적 기술을 평가하는 데 더 낫다는 평을 받는다.
It has become a doctrine that, when assessing performance in an objective structured clinical examination (OSCE), rating scales are sensitive to the increasing expertise of learners, whereas checklists are not. A common explanation for this relates to the assertion that novices are likely to use a detailed approach when encountering an unfamiliar problem while more experienced clinicians are able to use shortcuts to arrive at a diagnosis and, thus, may actually get lower scores when assessed using a checklist (Regehr et al. 1998; Hawkins and Boulet 2008). As such, checklists (which assess whether or not an action was performed) are often criticized for rewarding thoroughness and data-gathering ability, while rating scales (which allow raters to judge how well an action was performed) are touted as being better for assessing the higher-order skills seen in experts, such as clinical reasoning (Hodges and McIlroy 2003; Yudkowsky 2009). 


이론적인 관점에서 볼 때, 증가하는 전문성을 포착하는 데 있어서 등급 척도가 체크리스트보다 낫다는 주장이 타당하다. 이중 프로세스 이론은 문제에 직면했을 때 자동, 비분석 프로세스(유형 1) 또는 노력이 드는, 분석적 프로세스(유형 2)를 사용할 수 있다고 제안합니다. 따라서 OSCE 환경에서,

  • 전문 임상의가 사례에 접근할 때 무의식적(유형 1) 프로세스를 더 강조하여 실제로 일부 체크리스트 항목을 누락할 것으로 예상할 수 있다.
  • 반대로, 같은 경우에 접근하는 초보자는 보다 체계적(유형 2) 접근법에 더 큰 중점을 둘 수 있으며, 결과적으로 체크리스트 과제를 더 많이 수행하기 때문에 더 높은 점수로 보상받을 수 있다.

From a theoretical perspective, the assertion that rating scales are better than checklists at capturing increasing levels of expertise makes sense. Dual-process theory suggests that when faced with a problem we may use automatic, non-analytic processes (i.e. Type 1) or effortful, analytic processes (i.e. Type 2) (Evans 2008, 2018; Kahneman 2011).

  • In an OSCE setting, therefore, one might expect an expert clinician to place greater emphasis on unconscious (i.e. Type 1) processes when approaching a case and therefore actually miss some checklist items.
  • In contrast, a novice approaching the same case may place greater emphasis on a more systematic (i.e. Type 2) approach and, consequently be rewarded with a higher score because they perform more of the checklist tasks. 



연구 결과를 설명할 수 있는 또 다른 접근방식은, 전문가가 될수록 전문가는 다른 개발 단계를 거쳐 발전한다는 것이다(Dreyfus and Dreyfus 1986). [초보 단계]는 대량의 데이터 수집을 강조하는 반면, [전문가]들은 집중된 데이터를 보다 효율적으로 수집할 수 있으며 주어진 문제를 해결하도록 이끈 모든 단계를 파악하기 위해 어려움을 겪을 수 있습니다. 마찬가지로, 전문가들은 임상 데이터를 신속하게 해석할 수 있는 질병 스크립트를 개발하여 초보자가 수행할 수 있는 모든 단계를 따르지 않고도 문제를 해결할 수 있도록 할 수 있다(Schmidt et al. 1990). 
Another approach that could account for the findings is that professionals progress through different developmental stages as they become experts (Dreyfus and Dreyfus 1986). The novice stage isc haracterized by an emphasis on the gathering of large amounts of data, while experts are able to gather focused data more efficiently and may struggle to identify all the steps that led them to solve a given problem. Similarly,experts may capitalize on their experience to develop illness scripts that allow them to quickly interpret clinical data, allowing them to solve problems without following all the steps that a novice might (Schmidt et al. 1990).  

이러한 세 가지 이론을 고려할 때, 전문성이 높은 수험생을 평가할 때 평가 척도가 체크리스트보다 더 나은 도구가 될 것으로 예상할 수 있다.
Given these three theories, one would expect rating scales to be a better tool than checklists when assessing examinees with increasing levels of expertise. 

그러나, 이러한 등급 척도 우위에 대한 주장은 정당한가? 가장 자주 인용되는 연구에서 가정의사는 글로벌 등급 점수(5점 만점 기준)에서 전공의나 임상실습생보다 높은 점수를 받았지만, 2개 스테이션 정신의학 OSCE(Hodges et al. 1999)에 대한 체크리스트로 평가했을 때 두 그룹보다 더 나쁜 점수를 받았다. 

But, is this claim of rating scale superiority warranted? In the most frequently cited study, family physicians scored higher than residents and clinical clerks on a global rating score (derived from five 5-point rating scales), but worse than both groups when assessed with a checklist on a two-station psychiatry OSCE (Hodges et al. 1999). 

호지스 외 연구진(1998)은 8개 스테이션의 정신의학 OSCE에서 전공의와 임상실습생을 비교했다. 전공의들은 임상실습생보다 Rating scale 등급이 높았지만 체크리스트 점수는 비슷했다. 더 많은 스테이션이 있음에도 불구하고, 이러한 결과 패턴이 서로 다른 도메인을 평가하는 OSCE로 일반화 될지는 완전히 명확하지 않다. 저자들이 지적하듯이, 정신의학은 중요한 면에서 다른 학문과 다를 수 있다. 
study by Hodges et al. (1998) compared residents and clerks on an 8-station psychiatry OSCE. Residents had higher global ratings than clerks but similar checklist scores. Despite having more stations, it is not entirely clear if this pattern of results would generalize to OSCEs assessing different domains. As the authors point out, psychiatry may differ fromother disciplines in important ways. 

체크리스트의 한계에도 불구하고, 성과 평가 시 많은 장점을 제공한다. 즉, 체크리스트는 비교적 사용하기 직관적이고, 균일한 등급 기준을 제공하고, 높은 신뢰성을 가질 수 있으며, 취약 영역에 대한 특정 피드백을 제공할 수 있다(Harden et al. 2016; Norcini 2016). 실제로 잘 구성된 체크리스트와 등급 척도가 종종 다른 교육 수준을 구별하는 유사한 결과를 낳는다는 것을 보여주는 문헌 기구가 증가하고 있다. 예를 들어, 최근의 체계적인 검토(Ilgen et al. 2015)는 시뮬레이션 기반 평가에서 체크리스트와 등급 척도의 사용에 대한 타당성 증거를 탐색했다. 그 중 7개는 등급 척도 사용을 선호했고, 2개는 체크리스트 사용을 선호했으며, 대다수는 도구에서 차이를 발견하지 못했다. 그러나 이 체계적인 검토는 시뮬레이션 기반simulation-based 평가에만 초점이 맞춰져 있다는 점에 유의해야 한다. 시뮬레이션과 직접 관련되지 않은 수행능력 기반performance-based 평가에 대한 점검 목록과 등급 척도의 비교에는 제한된 증거만 있을 뿐이다. 

Despite the purported limitations of checklists, they offer many advantages when assessing performance, namely: checklists are relatively intuitive to use; provide uniform rating criteria; can have high reliability; and allow for the provision of specific feedback on areas of weakness to residents (Harden et al. 2016; Norcini 2016). In fact, there is a growing body of literature demonstrating that wellconstructed checklists and rating scales often produce similar results in discriminating between different levels of training. For example, a recent systematic review (Ilgen et al. 2015) explored validity evidence for the use of checklists and rating scales in simulation-based assessment. Of those, seven favored the use of rating scales, two favored the use of checklists, and the vast majority (n¼25) found no difference in the tools. However, it is important to note that this systematic review focused only on simulation-based assessments. There is only limited evidence in the comparison of checklists and rating scales for performance-based assessments not directly related to simulation. 

방법
Methods


참여자 Participants

Internal Medicine 진행률 검사 OSCE(IM-OSCE)는 Ottawa University(PGY1–PGY4)의 모든 Internal Medicine 레지던트에게 필수적이지만 형식적인 연례 검사로 시행됩니다. 
The Internal Medicine progress test OSCE, or IM-OSCE, is administered as a mandatory, but formative, annual examination for all Internal Medicine residents at the University of Ottawa (PGY1–PGY4). 


설계 Design

IM-OSCE는 지식, 임상 의사 결정, 신체 검사 기술 및 커뮤니케이션 기술을 평가하도록 설계된 9개 스테이션으로 구성되었습니다. 시험의 각 행정의 청사진은 캐나다 왕립의과대학 외과의가 정한 내과 교육 목표(RCPSC 2011)에 기초했다. 각 행정부마다 다양한 신체 시스템과 분야를 대표하는 사례가 선정되었습니다. 각 IM-OSCE의 내용은 사례 반복 없이 매년 달랐다. 
The IM-OSCE consisted of nine stations that were designed to assess knowledge, clinical decision making, physical examination skills, and communication skills. The blueprint for each administration of the exam was based on the Objectives of Training for Internal Medicine set by the Surgeons of Royal College of Physicians and Canada (RCPSC 2011). For each administration, cases were selected to represent a variety of different body systems and disciplines. The content on each IM-OSCE was different every year, with no repetition of cases. 


내과 전문의들은 각 스테이션마다 고유한 평가자 한 명씩을 두고 각 역마다 전공의들의 성과를 평가했다. 그러나 IM-OSCE의 설계 때문에 평가자는 분석에 포함되지 않았다. 각 IM-OSCE는 하나의 관리에서 두 개의 좌석이 있었고 각 좌석에 여러 개의 트랙이 있었습니다. 이 설계는 평가자와 표준화된 환자가 교락 요인이 되고 트랙과 좌석에 내포된다는 것을 의미합니다. 전공의는 이러한 선로에 무작위로 할당되고 PGY 레벨에 의해 체계적으로 할당되지 않았기 때문에 설계가 더욱 복잡했으며, 따라서 정격자 또는 선로와 같은 요소를 포함하면 상당한 데이터 누락과 전력 상실로 이어질 수 있었다. 따라서 우리는 스테이션 수준에서 데이터를 분석하기로 결정했으며, 분석에 트랙이나 레이터를 포함하지 않았습니다. 
Internal Medicine specialists assessed the residents’ performance on each station with a single, unique examiner at each station. Raters were not included in the analysis, however, because of the design of the IM-OSCE. Each IM-OSCE had two sittings in one administration and multiple tracks within each sitting. This design would mean that raters and standardized patients would be confounded factors and would be nested within track and sitting. The design was further complicated because residents were randomly allocated to these tracks and not systematically assigned by PGY level, therefore including factors like rater or track would have led to considerable missing data and a loss of power. We decided therefore to analyze data at the station level and did not include track or rater in the analysis. 

Pugh 외 연구진(2014)에 기술된 바와 같이, 전공의들은 스테이션-특이적 체크리스트와 작업-특이적 평정 척도(MeanGR)를 조합하여 평가받았다. 또한 표준 설정에 사용되는 단일 글로벌 등급 척도(GRS)를 사용하여 평가했으며, 응시자의 성과를 의대생 수준 또는 PGY 1~4의 연수생 수준으로 평가하기 위해 개발된 교육 수준 평가 척도traning level rating scale도 사용했다. 이 시험의 경우, 스테이션 점수는 표준 설정의 수정된 경계선 방법(McKinley 및 Norcini 2014)을 적용하는 데 사용되는 GRS와 체크리스트와 MeanGR(위원회가 결정한 각 가중치)의 조합을 사용하여 도출되었다. PGY1-4 척도는 피드백용으로만 사용되었으며 스테이션 점수에 반영되지 않았습니다. 각 스테이션별 점수를 합산해 총점을 만들어 수험생에게 보고했다. 

As described in Pugh et al. (2014), residents were scored using a combination of station-specific checklists and task-specific rating scales (MeanGR). They were also assessed using a single global rating scale (GRS) used for standard setting, as well as a training level rating scale developed to rate candidate performance as being at the level of a medical students or at the level of a trainee in PGYs 1 to 4. For this examination, station scores were derived using a combination of the checklist and the MeanGR (weightings for each determined by a committee) with the GRS used to apply the modified borderline method of standard setting (McKinley and Norcini 2014). The PGY1–4 scale was used only for feedback and did not factor into the station score. A total score was created by summing the scores on each station and were reported to examinees. 

분석 Analysis

시험 연도 내의 각 스테이션에 대해 체크리스트와 MeanGR 점수를 먼저 z-점수로 변환하여 두 측정치의 점수와 등급이 동일한지 확인했습니다. 음수를 제거하기 위해 각 측도의 z-점수는 평균 100, 표준 편차는 10으로 표준화되었습니다. 
For each station within an exam year, the Checklist and MeanGR scores were first converted to z-scores to ensure scores and ratings on both measures were on the same scale. To remove the negative numbers, the z-scores for each measure were standardized to have a mean of 100 and a standard deviation of 10. 

시험 연도별 각 스테이션마다 주 요인subject factor으로 취급되는 전공의의 PGY 수준(PGY1–4)과 반복 측정 요인repeated measure factor으로 취급되는 측정(즉, 체크리스트 및 평균GR 점수)을 사용하여 혼합 분산 분석을 수행하였다. 주된 관심은 다음과 같다.

  • (1) PGY 수준의 주요 효과가 있었던 비교: 훈련 증가의 함수에 따라 점수가 변경되었음을 나타낼 수 있기 때문
  • (2) PGY 수준과 두 측정값 사이에 교호작용 비교: 이는 한 측정값에서 점수가 다른 측정값과 다르게 증가했음을 나타내기 때문

For each station by exam year, a mixed ANOVA was conducted with PGY level of the resident (PGY1–4) treated as a between subject factor and the measure (i.e. Checklist and MeanGR scores) treated as a repeated measures factor. Of most interest were:

  • (1) comparisons in which there was a main effect of PGY level, because this would indicate that scores changed as a function of increases in training; and
  • (2) comparisons producing an interaction between PGY level and the two measures, because this would indicate that scores increased differently for one measure compared to the other.

스테이션에서 교호작용이 발견되면 교호작용의 근원을 탐색하기 위해 후속 분석이 수행되었습니다. 해당 스테이션에 대한 각 측도에 대해 PGY 수준을 과목 간 인자로 처리한 상태에서 과목 간 분산 분석을 별도로 수행했습니다.
If an interaction was found on a station, a subsequent analysis was conducted to explore the source of the interaction. For each measure on that station, a separate between subjects ANOVA was conducted with PGY level treated as a between subject factor.

윤리 Ethics review


결과
Results

2014년 총 73명, 2015년 85명, 2016년 86명의 전공의가 시험에 응시했다. 그림 1-3은 주어진 관리 연도의 각 스테이션 별 체크리스트와 평균 GR 점수를 나타낸 막대 그래프를 보여준다.
There was a total of 73 residents attempting the examination in 2014, 85 in 2015 and 86 in 2016. Figures 1–3 display bar graphs depicting Checklist and Mean GR scores by PGY for each station in a given administration year.

즉, 27개 스테이션에 걸쳐 총 13개 스테이션에서 체크리스트 점수와 평균 GR 점수에 대해 동등하게 교육 수준 상승 함수로 점수가 증가했음을 입증했으며, 한 스테이션만 체크리스트 점수가 증가하지 않고 등급 척도가 증가했음을 입증했다. 
In other words, across 27 stations, a total of 13 stations demonstrated that scores increased as a function of increase in training level equally for both Checklist and Mean GR scores and only one station demonstrated that checklist scores did not increase but rating scale did. 


고찰
Discussion

본 연구의 목적은 OSCE 내에서 전문지식의 증가와 채점 도구 사이의 관계를 재검토하여 [평정 척도rating scales]가 [체크리스트]보다 전문지식의 증가에 실제로 더 민감한지를 판단하는 것이었다. 체크리스트는 그렇지 않지만, 평정 척도는 전문지식 수준에 민감하다는 일반적인 견해를 고려할 때, 평정 척도 점수는 PGY 수준의 함수로 증가해야 하는 반면, 점검표 점수는 증가해서는 안 된다고 예상할 수 있다. 우리의 결과는 전문성 증가를 측정할 때 체크리스트에 비해 종종 인용되는 등급 척도 우위에 대한 주장에 반대challenge한다. 우리가 조사한 27개 스테이션 중 rating scale에서만 PGY 수준별 차이가 나타난 것은 1개뿐이었다. 
The purpose of this study was to reexamine the relationship between increases in expertise and scoring instruments within an OSCE in order to determine if ratings scales are indeed more sensitive to increases in expertise than checklists. Given the prevailing view that rating scales are sensitive to levels of expertise whereas checklists are not, one would expect that rating scale scores should increase as a function of PGY levels whereas checklist scores should not. Our results challenge the oft-cited claim of rating scale superiority over checklists when measuring increases in expertise. Of the 27 stations we examined, there was only one in which rating scales but not checklists demonstrated a difference by PGY level. 

우리의 결과는 시뮬레이션과 관련된 여러 논문에서 보고된 결과를 복제하지만(Ilgen et al. 2015) 왜 우리의 연구 결과가 [등급 척도의 우월성]에 대한 일반적인 가정에 도전하는지 의문을 제기한다. 여러 가지 이유가 있을 수 있습니다. 첫째, 체크리스트 설계는 초기 Hodges 등 연구 이후 발전해 왔다. 즉, 체크리스트는 요청되거나 [수행될 수 있는 모든 단계의 전체 목록]을 나타내지 않으며, 사례의 주요 기능key feature에 초점을 맞출 가능성이 더 높아졌습니다(Daniels et al. 2014; Yudkowsky et al. 2014). 확실히, 이것은 본 연구에 포함된 OSCE가 주요 특징key features에 초점을 두고 개발된 사례이다. 
Our results replicate findings reported in several papers related to simulation (Ilgen et al. 2015) but raise the question as to why our findings challenge the common assumption of rating scale superiority. A number of reasons might exist. First, the design of checklists has evolved since the initial Hodges et al. study. That is, checklists are now less likely to represent an exhaustive list of all steps that could be asked or done, and more likely to focus on the key features of the case (Daniels et al. 2014; Yudkowsky et al. 2014). Certainly, this is the case with the OSCEs included in the present study which were developed with a focus on key features. 

세 번째 가능성은 스테이션들의 난이도와 관련이 있을 수 있다. Hodges 등의 연구에서 스테이션은 임상 실습생 수준으로 설계되었지만 전공의와 수련후 의사를 테스트했다. 본 연구의 관측소는 PGY-4 수준의 성능을 테스트하기 위해 만들어졌기 때문에 상당히 어려웠다. 
A third possibility could be related to the difficulty of the stations. The Hodges et al. stations were designed to be at the level of clinical clerks but tested residents and practicing physicians. The stations in this study were considerably more difficult, having been created to test ability at the level of a PGY-4. 

연구 대상 27개 스테이션 중 13개 스테이션만only이 사용하는 채점도구와 무관하게 PGY 수준별 차이를 보인 것은 다소 놀라운 일이었다. PGY-4 수준에서 설정된 난이도 시험이지만 모든 수련 연차의 전공의가 시도한 진도 시험임을 감안할 때, 모든 스테이션에 적어도 하나의 도구instrument에서 변화가 있을 것으로 예상할 수 있다. 그러나 이는 적어도 부분적으로는 스테이션 유형의 함수일 수 있습니다. 주목할 점은 의사소통 스테이션 (0/3) 중 단 한 곳도 없었고, 단지 신체검진 스테이션에서 3/12에서만 두 척도 중 하나 이상에서 PGY level에 따른 차이가 나타났다.
It was somewhat surprising that only 13 of the 27 studied stations demonstrated a difference by PGY level regardless of the scoring instrument used. Given that this is a progress test with a difficulty set at a PGY-4 level but attempted by residents of all training years, one would have expected changes with at least one of the instruments in all stations. However, this may be again, at least in part, a function of station type. It is noteworthy that none of the communication stations (0/3) and only 3/12 physical examination stations examined demonstrated a difference by PGY level for either of the measures. 

세 번째 신체 검사 스테이션은 상호작용이 있었고, 평정 척도만이 PGY 수준이 증가를 보였다. 신체 검사 스테이션과 관련된 이러한 발견은 많은 신체검사 기술(예: 관절 검사 또는 신경 검사 수행 능력)이 수련 초기에 획득되었을 것으로 예상되고 레지던트 기간 동안 크게 발전하지 않았을 수 있기 때문에 발생했을 수 있습니다. 의사소통 스테이션에 대한 PGY 수준의 차이가 없는 것과 관련하여, 이는 수련기간 증가에 따른 내과 레지던트 의사소통 능력 개발의 진전이 없음을 입증하는 이전에 발표된 연구와 일치한다(Pugh et al. 2016). 
A third physical examination station had an interaction with only the rating scale producing increases in PGY level. This finding related to physical examination stations may have occurred because many of the skills tested (e.g. ability to perform a joint or neurologic exam) might be expected to have been acquired early in training and may not have evolved much during residency. With regards to the lack of differences seen by PGY-level on the communication stations, this is in keeping with a previously published study which also demonstrated no progression in the development of Internal Medicine residents’ communication skills over time (Pugh et al. 2016). 

이론의 여지없이, (수험생이 효율적인 데이터 수집하고, 진단을 내리고, 관리 계획을 수립하는 과정에서 문제에 대한 접근 방식을 입증해야 하는) [구조화된 구술structured oral]은 더 복잡하며, 따라서 주니어 훈련생과 시니어 훈련생 사이의 차이를 입증할 가능성이 더 높을 수 있다. (10/12 structured oral station는 PGY-수준별 차이를 보였다.)
Arguably, structured orals, which require an examinee to demonstrate an approach to a problem that includes efficient data gathering, diagnosis and formulation of a management plan, are more complicated and therefore may be more likely to demonstrate a difference between junior and senior trainees (10/12 structured oral stations demonstrated a difference by PGY-level). 

본 연구의 가장 큰 한계는 동일한 평가자가 체크리스트와 평가 척도를 모두 완료했기 때문에 두 측정이 서로 영향을 미쳤을 가능성이 매우 크다는 것이다. 즉, 체크리스트가 역량 증가를 측정할 수 없다는 가정이 얼마나 일반적인지를 고려할 때, 두 측정이 서로 교란되어 있더라도 우리의 결과는 최소한 주의를 시사해야 합니다.
A major limitation to our study is that the same rater completed both the checklist and the rating scales and therefore it is quite possible that the two measures influenced each other. That said, considering how common the assumption is that checklists cannot measure increases in competency, our results should at the least suggest caution even with both measures being confounded with each other.

결론적으로, 우리는 체크리스트가 등급 척도보다 낫거나 나쁘다고 주장하는 것이 아니다 – 둘 다 특정한 상황에서 장점이 있다.

In conclusion, we are not arguing that checklists are better or worse than rating scales – both have merits under particular circumstances. 

 

 

 


Med Teach. 2020 Jan;42(1):46-51.

 doi: 10.1080/0142159X.2019.1652260. Epub 2019 Aug 20.

Are rating scales really better than checklists for measuring increasing levels of expertise?

Timothy J Wood 1Debra Pugh 2

Affiliations collapse

Affiliations

  • 1Department of Innovation in Medical Education, University of Ottawa, Ottawa, Canada.
  • 2Department of Medicine, University of Ottawa, Ottawa, Canada.
  • PMID: 31429366
  • DOI: 10.1080/0142159X.2019.1652260Abstract
  • Background: It is a doctrine that OSCE checklists are not sensitive to increasing levels of expertise whereas rating scales are. This claim is based primarily on a study that used two psychiatry stations and it is not clear to what degree the finding generalizes to other clinical contexts. The purpose of our study was to reexamine the relationship between increasing training and scoring instruments within an OSCE.Approach: A 9-station OSCE progress test was administered to Internal Medicine residents in post-graduate years (PGY) 1-4. Residents were scored using checklists and rating scales. Standard scores from three administrations (27 stations) were analyzed.Findings: Only one station produced a result in which checklist scores did not increase as a function of training level, but the rating scales did. For 13 stations, scores increased as a function of PGY equally for both checklists and rating scales.Conclusion: Checklist scores were as sensitive to the level of training as rating scales for most stations, suggesting that checklists can capture increasing levels of expertise. The choice of which measure is used should be based on the purpose of the examination and not on a belief that one measure can better capture increases in expertise.

친구 다음에 OSCE를 볼 때의 이득: 후향적 연구(Med Teach, 2018)
Gaining an advantage by sitting an OSCE after your peers: A retrospective study
Asim Ghouria, Charles Boachieb, Suzanne McDowalla, Jim Parlec, Carol A. Ditchfielda, Alex McConnachieb, Matthew R. Waltersa and Nazim Ghouria 

 

도입
Introduction


OSCE는 임상 관행을 반영하기 위한 "실제" 시나리오를 시뮬레이션하는 여러 스테이션으로 구성됩니다. 따라서 OSCE 검사를 통해 학생의 임상 기술을 평가할 수 있습니다. Miller의 피라미드(Gormley 2011)의 "Shows how"를 보여줍니다. 
The OSCE consists of multiple stations simulating “real life” scenarios, which are intended to reflect clinical practice. Hence the OSCE examination allows assessment of a student’s clinical skills: the “shows how” of Miller’s pyramid (Gormley 2011).

조직적인 이유로 OSCE 전달의 현재 구성은 종종 연속적인 날짜에 스테이션의 재사용을 수반합니다. 그러나 이는 응시자들이 시험 내용에 대해 결탁할 수 있는 잠재적 기회(즉, 부정행위)를 주며, 나중에 시험을 치르는 학생들에게 잠재적으로 유리할 수 있다(Park et al. 2006). 궁극적으로 [담합 의혹]은 시험성적의 타당성에 대한 의구심을 불러일으킬 수 있고, 이러한 행위에 연루된 것으로 의심되는 학생들의 정직성integrity에 의문을 제기할 수 있으며, 이로 인해 의료계에 대한 국민의 신뢰가 훼손될 수 있다. 게다가 이러한 유착은 weaker student에게 더 이득이 되어서, 결과적으로는 합격하지 않았어야 할 학생이 합격하는 결과를 낳는다.
For organizational reasons the current configuration of OSCE delivery often involves the re-use of stations on consecutive days. This however gives candidates a potential opportunity to collude over the contents of the examination (i.e. cheat), potentially conferring an advantage to students undertaking the examination on later sittings (Parks et al. 2006). Ultimately, the suspicion of collusion can raise doubts over the validity of the examination grades and draw into question the integrity of students suspected of participation in this behavior, with consequent risk to the trust of the public in the medical profession (Smith 2000). In addition such collusion may advantage the weaker who students more and result in some passing should not. 

OSCE 결과에 대한 이전의 연구는 [시간이 지남에 따라 반복되는 스테이션]에서 학생 점수가 크게 향상되지 않았다. 이 연구들은 미국, 영국, 한국의 3학년과 4학년 학생들을 대상으로 실시되었다.  
Previous studies of OSCE results have not shown a significant improvement in student scores for stations repeated over time . These studies have been performed using third year and fourth year students in USA, UK and South Korea.  

현재까지 가장 많은 학생을 대상으로 한 연구는 Parks 등이 수행했다. (2006년), 2일 동안 의대 3학년생 255명의 OSCE 점수를 분석했습니다. 학생 담합은 의과대학이 설치한 온라인 토론 게시판을 통해 확인됐다. 그러나 OSCE의 1일차 총점에서는 2일차 대비 유의한 차이가 관찰되지 않았다. 슬라이드가 바뀌었음에도 불구하고 1일차에 적용된 진단을 2일차에 82명이 잘못 적어낸 병리학 스테이션의 한 하위 항목에서만 담합 효과를 명확히 알 수 있었다. 
The study with the largest number of students to date was performed by Parks et al. (2006), who analyzed the OSCE marks of 255 third year undergraduate medical students over a 2-day period. Student collusion was confirmed via an online discussion board set up by the medical school. However, no significant difference was observed in the total mark for the OSCE on day 1 compared with day 2. A clear indication of the effects of collusion could only be obtained from a single subsection of a pathology station, where 82 students on day 2 incorrectly gave the diagnosis which had applied on day 1 despite the slide having been changed. 

방법
Methods

학생 그룹Student population

영국 글래스고 대학(University of Glasgow, UK, Scotland)에서 의대생 OSCE 최종학년의 시험 성적이 분석되었다. 이 연구의 목적상, 최종 연도 코호트 6개(2009-2010~2014-2015 포함)가 연속 포함되었다. 1505명의 학생들의 데이터가 포함되었습니다(n→238, 262, 226, 261, 259, 259). 모든 학생은 OSCE에 응시하기 전에 최종 종료 전까지 다른 서킷 또는 장소에서 OSCE를 보게 될 학생과 OSCE 내용을 논의해서는 안 된다는 안내를 받는다.

  • (1) 형형성 문제 및 동료에 대한 존중 문제
  • (2) 개인적으로 GMP의 표준을 충족하지 못하는 문제
  • (3) 대학 시험 규정 위반

Examination performance of final year medical students OSCE at (Year 5) undertaking their the University of Glasgow, Scotland, UK, was analyzed. For the purpose of this study, 6 consecutive final year cohorts were included (2009–2010 to 2014–2015 inclusive). Data from 1505 students was included (n¼238, 262, 226, 261, 259, 259 in consecutive years). All students are given instructions prior to sitting the OSCE advising that they must not discuss the content of the OSCE with candidates sitting the OSCE at other sites or circuits until the final completion of the examination due to

  • (1) issue of equity and respect to colleagues;
  • (2) issue of failure to personally meet standards of Good Medical Practice; and
  • (3) breach of University examination rules.

또한 시험이 진행되는 동안 [어떤 방법으로든 OSCE의 내용에 대해 논의한 것]으로 판명될 경우 상원에 회부하고 공식적인 실무 적합성 절차를 밟는 등의 징계 조치를 취할 것을 권고합니다. 

They are also advised that if they are found to be discussing the content of the OSCE by any means while the examination is running, they will be subject to disciplinary action in the form of referral to Senate and formal Fitness to Practice procedures. 


OSCE 형식
OSCE format


매년 최종 학부 의학 커리큘럼의 임상 구성요소에 기여하는 OSCE 스테이션이 32개에서 50개 사이였다. 시험은 A~D의 네 부분으로 나뉘었다. 각 파트는 서로 다른 필드를 평가했습니다. 

  • A – 산부인과 및 정신의학, 
  • B – 의학 및 수술, 
  • C – 소아과, 
  • D – 기타 전문 분야.

For each year, there were between 32 and 50 OSCE stations that contributed to the clinical component of the final year undergraduate medical curriculum. The examination was divided into four parts: A–D. Each part assessed different fields:

  • A – Obstetrics and Gynaecology and Psychiatry,
  • B – Medicine and Surgery,
  • C – Paediatrics,
  • D – Other specialties.


모든 SP들은 그 역할을 위해 훈련을 받는 훈련된 배우들이다. 또한 대다수의 SP들은 커뮤니케이션 기술 교육에 참여하기 때문에 SP의 역할에 경험이 많습니다. 
All SPs are trained actors who undergo training for the role. The majority of the SPs also take part in the teaching of communication skills so are highly experienced in the role of SP. 

각 스테이션에는 회로 중에만 평가자examiner가 한 명씩 있었습니다. 모든 examiner은 선임 임상의사였고 모두 OSCE 평가에 대한 교육을 받았다. 평사자는 같은 날 또는 다른 날에 두 개 이상의 회로에 대해 동일한 스테이션을 표시할 수 있지만, 어떤 평가자도 동일한 스테이션을 전체 4-5일 동안 채점하지examined 않았습니다. 또한, 평가자는 같은 날 또는 다른 날에 다른 서킷의 다른 스테이션을 평가했을 수 있습니다. 
Each station had one examiner only during a circuit. All examiners were senior clinicians and all were trained in OSCE assessment. While an examiner could mark the same station for more than one circuit on the same day or on different days, no individual examined the same station for the full 4–5 days. In addition, examiners may have assessed a different station during another circuit on the same or different days. 

각 스테이션에 대해 학생은 객관적인 항목 목록에 대해 20점 만점으로 채점되었다. 또한, 평가자는 학생의 성적을 글로벌하게 판단하여 "합격", "실패", "경계선"으로 분류하였다. 그런 다음, 각 스테이션의 합격점수는 경계선 등급을 받은 모든 응시자의 숫자 점수를 취하여 이 점수의 평균을 계산하여 계산하였다. 학생들의 합격/불합격은 score로만 결정되었고, 이러한 점에서 전반적global 판단은 어떠한 가중치도 부여되지 않는다. 
For each station, the student was marked out of 20 against an objective list of items. In addition, the examiner made a second, global judgment of the student’s performance and categorized it as a “Pass”, “Fail” or “Borderline”. The pass mark for each station was then calculated by taking the numerical scores for all candidates who were rated as borderline and calculating the mean of these scores. Students passed or failed by their scores alone; the global judgment is not given any weighting in this regard. 

데이터 보호 및 윤리 승인
Data protection and ethical approval

통계 분석 및 데이터 표시
Statistical analysis and data presentation

각 연도 그룹에 대해 매일 통과된 스테이션 비율이 그래픽으로 표시됩니다. 혼합 효과 로지스틱 회귀 분석을 사용하여 각 개별 측점을 통과할 확률과 관련된 요인을 모형화했습니다. 모형에는 학생과 회로에 대한 랜덤 효과가 포함되었습니다. 고정 효과는 검사일(1~5일), 시간(오전/오후), 성별 및 연도와의 연관성을 평가하기 위해 포함되었다.

The percentage of stations passed on each day are presented graphically for each year group. Mixed effects logistic regression was used to model factors associated with the probability of passing each individual station. Models included random effects for students and circuits. Fixed effects were included to assess the association with day of examination (1–5), time of day (am/pm), gender and year. 

우리는 OSCE에 합격한 각 학생의 예상 확률을 추정하기 위해 우리의 모델을 사용했습니다. 그런 다음, 각 학생에 대해 각 역이 사용된 날짜와 시간의 조합을 같은 학년 그룹에서 서로 주어진 해당 조합으로 대체했습니다. 이러한 방식으로 우리는 같은 해 학생에게 스테이션이 할당되는 방식의 제약 내에서 각 학생에 대한 OSCE 합격 확률에 대한 요일별 및 시간별 합격률 변동의 잠재적 영향을 평가할 수 있었습니다. 

We used our model to estimate the predicted probability of each student passing the OSCE overall. Then, for each student, we replaced the combination of days and times that each station was taken, with the corresponding combinations that each other student was given in the same year group. In this way, we were able to assess the potential impact of variation in pass rates by day and time on the overall probability of passing the OSCE, for each student, within the constraints of the way that stations were allocated to students in the same year. 

 

결과
Results

인구통계학적 변수 및 일반 OSCE 성능
Demographic variables and general OSCE performance


표 1은 학생들의 인구통계학적 특성을 요약한 것이다.
Table 1 summarizes the students’ demographic characteristics;

 

OSCE 측점을 통과할 가능성에 영향을 미치는 변수의 유의성
Significance of influencing variables on likelihood of passing OSCE stations


표 2는 혼합 효과 로지스틱 회귀 분석에서 도출된 학년도, 성별, 일, 시간 간의 추정 연관성 및 스테이션 합격 확률을 보여줍니다. 6년 동안 스테이션를 합격할 확률에는 유의한 차이가 없었습니다. 여학생보다 남학생이 각 스테이션을 합격할 확률이 낮았습니다(p<0.001). 하루가 지날 때마다 스테이션 통과 확률이 20%씩 증가하는 추세가 있었습니다. 이러한 연관성은 그림 1에서도 확인할 수 있습니다. 전체적으로 학생 한 명이 통과하는 평균 역 수가 5일 동안 증가했습니다. 
Table 2 shows the estimated associations between academic year, gender, day, and time, and the probability of passing a station, derived from the mixed effects logistic regression analysis. There were no significant differences in the probability of passing stations across the six year groups. Male students were less likely to pass each station than female students (p<0.001). There was a trend across days, with the odds of passing a station increasing by 20% for each additional day. This association can also be seen in Figure 1. Overall, the mean number of stations being passed by each student rose over the 5 days. 

 

OSCE 합격 확률 예측
Predicted probability of passing the OSCE


그림 2는 각 학생이 OSCE 시험을 전체적으로 통과하는 데 필요한 최소 스테이션 수를 통과할 수 있는 예측 확률을 보여줍니다. 이는 각 학생이 할당된 날짜와 시간의 실제 조합과 같은 연도 그룹의 다른 학생으로부터 얻은 가능한 모든 대체 조합에 기초한 혼합 효과 로지스틱 회귀 분석 모형에서 파생되었습니다.
Figure 2 shows the predicted probability of each student passing the minimum number of stations needed to pass the OSCE examination overall. This was derived from the mixed effects logistic regression model, based on the actual combination of days and times that each student was allocated, and under all possible alternative combinations, taken from the other students in the same year group. 

혼합 효과 로지스틱 회귀 분석 모형에는 학생에 대한 랜덤 효과가 포함됩니다. 즉, 학생의 능력이 모형에 기본 제공되는 것으로 가정된 분포가 있습니다. 이 분포의 맨 아래에 있는 학생만 전체 예측 합격 확률이 100% 미만으로 유의하게 떨어집니다. 이러한 학생의 경우 각 측점을 사용하는 요일과 시간을 변경하면 전체 합격 확률에 더 큰 영향을 미칩니다. 이 모델에 따르면 이러한 효과는 클 수 있습니다. 일부 학생의 경우 합격 확률은 자신이 소속된 요일과 시간에 따라 10%~90% 정도 달라질 수 있습니다. 그러나 이러한 예측은 모형의 극단적 가장자리에서 이루어지는 것이므로, 이러한 학생들이 관측소를 선택한 시기의 영향을 정확하게 나타내지 못할 수 있습니다. 
The mixed effects logistic regression model includes a random effect for students; in other words, there is an assumed distribution of students’ abilities built in to the model. Only for those students at the lower end of this distribution does the overall predicted probability of passing dip noticeably below 100%; for these students, varying the days and times on which each station is taken has a greater effect upon overall probability of passing the examination. According to the model, this effect can be large: for some students, the probability of passing could vary between 10% and 90%, depending on the days and times on which they take their stations. Note, however, that these are predictions being made at the extreme fringes of the model and may not be an accurate representation of the impact of when stations were taken for these students. 

 

학생 성과별 일수 및 시간 분포
Distribution of days and times by student performance


표 3은 학생들이 매년 자신의 역에 앉아 최종 학점에 따라 나눈 평균 날을 보여줍니다.
Table 3 shows the mean day on which students sat their stations each year, divided according to the final grade achieved. 

 

고찰
Discussion

우리의 연구에 따르면 최종 학년 의대생들은 시험 기간 [초기]에 같은 OSCE 스테이션을 수강하는 학생들에 비해 [나중]에 응시할 경우 OSCE의 스테이션을 통과할 가능성이 상당히 높았으며, 특히 이러한 효과는 [약체 학생weaker student]들에게 두드러졌다. 이는 학생 담합이 OSCE 합격의 기회를 증가시키는 데 기여 가능한 요소임을 시사한다. 가장 가능성이 높긴 하지만 담합만이 가능한 설명은 아니다. 시간이 지날수록 수험 적응도가 높아지고, 담합이 없는 상황에서도 성적이 좋아질 수 있다. 시험관은 시간이 지남에 따라 점수를 매기는 경향이 일정하게 변화했을 수 있습니다. 예를 들어, 대부분의 시험관은 반나절 이상 수업을 하지 않기 때문에 이는 가능성이 낮지만, 이것이 발생할 것으로 예상할 이유는 없습니다. 메커니즘과 상관없이, 우리의 데이터는 시험을 보는 날이 시험 성과에 영향을 줄 수 있음을 시사합니다. 
Our study suggests that final year medical students were significantly more likely to pass a station in the OSCE if undertaken on a later day compared to students undertaking the same OSCE station on earlier days of the examination period and that this effect was particularly marked for weaker students. This suggests that student collusion is a possible contributory factor in increasing the chances of passing an OSCE station. Although most probable, collusion is not the only potential explanation. Students may become more attuned to the examination process over time and show improved performance even in the absence of collusion. Examiners may demonstrate trends in their marking over time, for example, becoming more lenient on later days, though this is unlikely since the vast majority of all our examiners do not do more than one half-day session and there is no reason to expect this to occur. Regardless of the mechanism, our data suggests that the day on which an exam is taken may influence examination performance. 

그림 1에서 볼 수 있듯이 최소 3일 후 시험을 치르는 학생들을 비교할 때 유의미한 이점이 나타나기 시작하는데, 이는 담합 효과가 점차 발생함을 시사한다. 본 연구에서 사용된 대규모 데이터 집합은 특정 스테이션에서 합격할 가능성과 관련된 요인에 대한 강력한 평가를 가능하게 했으며 따라서 일 및 오후와의 연관성을 더 정확하게 추정할 수 있게 되었다. 
As indicated in Figure 1, significant advantages start to appear when comparing students doing examinations at least three days later, suggesting that any effect of collusion accrues gradually. The large dataset used in our study has made possible a robust assessment of factors associated with the likelihood of passing a station and therefore allowed for estimation of the associations with day and am/pm with greater precision. 

분석 결과에 대응하여, (연구자의 소속기관에서는) 이후의 회로later circuit에 있는 후보자에게 어떠한 내용도 알려지지 않도록 하고, (모든 사이트와 회로에 걸쳐 모든 후보자에 대한 공정한 검사를 보장하기 위해) OSCE 기간 동안 모든 후보자가 격리됩니다. 여기에는 학생들이 완전히 전자적으로 격리되지 않은 상태가 포함됩니다. 다만 이 상태는 감독자invigilator가 감시한다. 또한, 모든 MBChB 신입생들은 이제 학생 협약에 서명합니다. 이 협약은 소셜 미디어와 관련하여 다음과 같은 내용을 담고 있습니다.

"전문적으로 커뮤니케이션해야 할 책임이 디지털 미디어까지 확대된다는 것을 알고 있습니다. 나는 의대생이나 의사가 기대하는 개인적인 특성에 따라 개인에게 걱정이나 고통을 줄 수 있는 이미지나 문자를 온라인에 올리지 않을 것이다. Placement 중에는 NHS 리소스를 통해 소셜 미디어에 액세스하지 않을 것입니다." 

In response to the outcomes from our analysis, to ensure that no content becomes known to candidates sitting in later circuits and to ensure a fair examination for all candidates across all sites and circuits, all candidates are now quarantined during the OSCE. This involves the students not having full electronic isolation – supervised by invigilators. Further, all new MBChB students also now sign a student agreement, which notes the following with regards to social media –

“I am aware that my responsibility to communicate professionally extends to digital media. I will not post images or text online which may cause concern or distress to any individual, in keeping with the personal attributes expected of a medical student or doctor. I will not access social media through NHS resources while on placement”. 




마지막으로, 일반적인 조치의 일환으로, 학교 전체의 학부생들이 디지털 능력 향상 프로젝트에 참여했습니다. 학생들은 디지털 아이덴티티 설문조사에 참여하도록 초대되었다. 조사 결과로부터 학생들이 더 많은 지침을 원하는 주요 주제를 파악했다.

  • 디지털 아이덴티티 관리,
  • 온라인 환경에서의 전문성,
  • 디지털 웰빙,
  • 생산성 기술(디지털 산만distraction 관리 포함),
  • 온라인 커뮤니케이션 및 협업 기회 등 

40명의 학생 파트너는 이러한 분야의 잠재적인 과제, 해결책 및 커리큘럼 개발 기회에 초점을 맞춰 직원들과 협업했습니다. 
Finally, as part of general measures, undergraduate students from across the school have engaged in a digital skills enhancement project. Students were invited to participate in the Digital Identity survey. The results identified key topics on which students want more guidance, including

  • digital identity management,
  • professionalism in an online environment,
  • digital well-being,
  • productivity skills (including management of digital distractions), and
  • opportunities for communication and collaboration online.

Forty student partners worked in collaboration with staff, focusing on potential challenges, solutions, and opportunities for curriculum developments in these areas. 


결론적으로, 우리의 증거는 나중에 같은 OSCE 스테이션을 받는 학생들이 시험 기간 초반의 학생들에 비해 더 나은 합격 기회를 가지고 있으며, 이는 특히 능력이 떨어지는 학생들에게서 두드러진다. 이것이 학생 간의 담합을 반영하는 것인지, 시험관 평가의 동향인지, 아니면 일부 다른 편견의 원천을 반영하는 것인지 결정할 수 없다. 우리는 우리의 연구가 특히 약한 학생들을 대상으로 한 첫 번째 연구라고 믿는다. 우리가 설명하고 있는 효과는 성적이 더 높은 학생들 사이에서 덜 명백할 것으로 보인다. 그리고 환자의 관점에서 볼 때, 의사들이 그렇지 않을 경우 자격을 얻을 수 있는 이러한 가능한 효과는 매우 중요합니다. 
In conclusion, our evidence suggests that students undertaking the same OSCE stations later on in an examination period have a better chance of passing compared to students earlier in an exam period, and this is particularly evident for the less able students. Whether this reflects collusion between students, trends in examiner assessments, or some other source(s) of bias, cannot be determined. We believe ours is the first study to look particularly at weaker students; it seems likely that any effects we are describing would be less apparent among the higher-performing students. And, from the point of view of the patient, this possible effect, which could result in doctors qualifying who would not otherwise do so, is of key significance. 



담합: 종종 비밀스럽고 신중한 시험 내용을 학생들 간에 고의적이고 용납할 수 없는 공유는 부정행위나 다름없다.

Collusion: The intentional and impermissible sharing of exam contents between students, which is often secret and discreet, and is tantamount to cheating.



 


Med Teach. 2018 Nov;40(11):1136-1142.

 doi: 10.1080/0142159X.2018.1458085. Epub 2018 Apr 24.

Gaining an advantage by sitting an OSCE after your peers: A retrospective study

Asim Ghouri 1Charles Boachie 2Suzanne McDowall 1Jim Parle 3Carol A Ditchfield 1Alex McConnachie 2Matthew R Walters 1Nazim Ghouri 1

Affiliations collapse

Affiliations

  • 1a School of Medicine, Dentistry and Nursing, College of Medical, Veterinary and Life Sciences , University of Glasgow , Glasgow , UK.
  • 2b Robertson Centre for Biostatistics, Institute of Health and Wellbeing , University of Glasgow , Glasgow , UK.
  • 3c Institute of Clinical Sciences, College of Medical and Dental Sciences , University of Birmingham , Birmingham , UK.
  • PMID: 29687736
  • DOI: 10.1080/0142159X.2018.1458085Abstract
  • Purpose: To investigate if final year medical students undertaking an OSCE station at a later stage during examination diet were advantaged over their peers who undertook the same station at an earlier stage, and whether any such effect varies by the student's relative academic standing. Methods: OSCE data from six consecutive final year cohorts totaling 1505 students was analyzed. Mixed effects logistic regression was used to model factors associated with the probability of passing each individual station (random effects for students and circuits; and fixed effects to assess the association with day of examination, time of day, gender and year). Results: Weaker students were more likely to pass if they took their OSCE later in the examination period. The odds of passing a station increased daily by 20%. Overall, the mean number of stations passed by each student increased over the 5 days. Conclusions: Students undertaking the same OSCE stations later in examination period statistically had higher chances of passing compared to their peers, and the weaker students appear to be particularly advantaged. These findings have major implications for OSCE design, to ensure students are not advantaged by examination timing, and weaker students are not "passing in error".

 

의학교육에서 기준선 설정: 고부담 평가(Understanding Medical Education 3rd Ed, Ch 24)
24
Standard Setting Methods in Medical Education: High
stakes Assessment

Andre F. De Champlain

Research and Development, Medical Council of Canada, Ottawa, Ontario, Canada  

의사 결정의 필요성
The Need to Make D
ecisions

사람, 객체, 사물을 '분류classification'하는 의사결정의 필요성은 일상적인 것에서 가장 중요한 것에 이르기까지 일상생활의 모든 측면에 스며 있다. 예를 들어 운전면허 취득을 위한 시험에 합격하려면 교통법규 및 성과(합격, 평행주차 등)에 관한 일정 수준의 숙련도를 갖추어야 한다. 이러한 분류의 목적은 안전하지 않은 운전자들이 차량의 운전대를 잡지 못하게 하는 것이다. 마찬가지로, 형사 재판에서 판결을 내리는 배심원단은 사건의 증거(즉, 관련 자료 분석)를 신중하게 검토한 후 피고를 '유죄' 또는 '무죄'로 '분류'하는 혐의를 받는다. 배심원단은 여러 측면에서 평가에서 표준 설정과 유사하다.

The need to make decisions that assign people, objects, or things into ‘classifications’ permeates all aspects of daily life, from the mundane to the most significant. For instance, passing an examination to obtain a driver’s licence requires meeting a certain level of proficiency with regard to knowledge of traffic laws and performance (passing, parallel parking, etc.). The aim of such a classification is to keep unsafe drivers from getting behind the wheel of a vehicle. Similarly, a jury that renders a verdict in a criminal trial is charged with ‘classifying’ a defendant as ‘guilty’ or ‘not guilty’, after carefully weighing the evidence of a case, i.e. analysing relevant data. The jury analogy seems particularly relevant to standard setting in assessment on a number of counts:

• 두 활동 모두 모집단에서 충분히 크고 대표적인 참가자 집단이 필요하다(시민권 또는 직업권).
• Both activities require a sufficiently large and representative participant group from the population (whether a citizenry or a profession).

• 두 활동 모두 분류 목적으로 사용할 결정이 필요하다(판결 제출 또는 통과/실패 기준 설정).
• Both activities necessitate a decision that will be used for classification purposes (rendering a verdict or setting a pass/fail standard).

• 정보의 의도된 사용은 각 사례에서 매우 유사하다(형사 재판에서의 수용 및/또는 갱생과 그에 상응하는 공공의 보호 및 표준 설정에서의 교정조치 고려사항).
• The intended use of the information is very similar in each instance (incapacitation and/or rehabilitation in a criminal trial and the corresponding protection of the public and remediation considerations in standard setting).
 

의사 결정의 필요성 또한 학부 의학 교육에서 재검증까지 의사 생활의 모든 단계에서 중요한 부분입니다. 주요 결정은 의과대학 수준[8–12]뿐만 아니라 의과대학 수준[1]에서 자격증을 부여하거나 보유할 때, 또는 보유할 때, 또는 자격증은 [3–5] 또는 전문기관[6, 7]에 대한 진입을 허용하거나 거부할 때 발생한다. 이러한 결정은 기준선 설정standard setting이라고 하는 프로세스를 통해 이루어집니다. Cizek [13]은 기준선 설정을 '[두 개 이상의 상태 또는 성과 정도를 구별]하기 위하여 [숫자의 할당]을 초래하는 [규정되고 합리적인 규칙 또는 절차의 적절한 추종]'(예: 통과/실패)으로 설명한다. 졸업자뿐 아니라 자격증 및 면허 소지자가 안전한 임상 실습을 허용하는 지식과 기술을 보유하고 있는지 확인해야 한다는 점을 감안할 때, 보건 전문가 내에서 이 활동은 특히 중요합니다 [14, 15]. 그럼에도 불구하고 용어 컷 점수 및 합격 기준에 대한 기본적인 오해는 여전히 지속되고 있습니다(박스 24.1 참조).

The need to make a decision is also part‐and‐parcel of all phases of a physician’s professional life, from undergraduate medical education to revalidation. Key decisions occur when awarding or denying an unrestricted licence to practise medicine [1, 2], granting or withholding a credential [3–5], or granting or denying entry into a professional body [6, 7], as well as at the medical school level [8–12]. These decisions are arrived at through a process that is referred to as standard setting. Cizek [13] describes standard setting as ‘the proper following of a prescribed, rational system of rules or procedures resulting in the assignment of a number to differentiate between two or more states or degrees of performance’ (e.g. pass/fail). This activity is especially critical within the health professions, given the need to ensure the public that graduates as well as holders of certificates and licences possess the knowledge and skill sets that permit safe clinical practice [14, 15]. In spite of this, a basic misconception still persists regarding the terms cutscore and passing standard (see Box 24.1).

BOX 24.1 정의
BOX 24.1 Definitions


표준(기준선)은 성과 수준에 대한 질적 설명이며, 역량의 개념적 정의로 볼 수 있다.


컷점수 또는 합격점수는 이 표준을 반영하는 숫자에 해당하며, 역량의 조작적 정의로 볼 수 있다.  

  A 
standard is a qualitative description of a level of performance and can be viewed as a conceptual definition of competence.

 A cutscore or passing score corresponds to a number that reflects this standard and can be viewed as an operational definition of competence  

 

표준 대 절단→점수
Standard Versus Cut‐
score

기준과 참조 설정에서 시험 점수를 주로 사용하는 것은, 응시자가 [시험의 기초가 되는 것으로 추정되는 역량의 집합]을 숙달했는지 여부를 결정하는 것이다. 학교 수준이든, 면허 또는 인증 결정이든, 기준 설정은 합격 기준을 식별하기 위해 정기적으로 수행되며, 이는 중요하다고 간주되고 시험에 의해 측정되는 기술 영역의 숙달 또는 역량의 지표로 취급됩니다.
The primary use of any test score in a criterion‐referenced setting is to determine whether a candidate has mastered a set of competencies presumed to underlie performance on the examination. Whether at the school level or for licensure and/or certification decisions, standard setting exercises are routinely carried out to identify a passing standard, which is treated as an indicator of mastery or competency in the skill areas deemed important and measured by an examination.
 

케인[16]은 [합격기준passing standard]을 [실무에서 요구되는 허용 가능한 수준의 성과와 지식에 대한 질적 설명]으로 정의한다. 이와 같이 통과기준은 역량의 개념적 정의 또는 질적 정의로 볼 수 있다. 예를 들어, 최종 1년간의 학부 OSCE에서는 경계선 후보가 [감독된 의료에 진입하는 데 필요한 데이터 수집, 신체 검사 및 의사소통 기술을 입증]하도록 규정할 수 있다.

Kane [16] defines a passing standard as a qualitative description of an acceptable level of performance and knowledge required in practice. As such, the passing standard can be viewed as a conceptual or qualitative definition of competence. For example, in a final‐year undergraduate OSCE, a standard might stipulate that the borderline candidate demonstrate the data gathering, physical examination, and communication skills necessary for entry into supervised practice. 

반면 [컷(cut) 점수]표준을 반영하는 점수 척도를 따르는 [숫자]입니다. 이것은 역량에 대한 조작적 정의입니다. 이전 예에서 전문가 패널리스트는 [65% 이상의 점수]를 받은 응시자가 최종 1년제 학부 OSE의 성과 표준을 충족했다고 판단할 수 있습니다.

The cut‐score, on the other hand, is a number along the score scale that reflects the standard. It is an operational definition of competence. In our previous example, expert panellists might decide that a candidate who scores at or above 65% has met the performance standard for the final‐year undergraduate OSCE.

 

표준 설정의 주요 고려 사항
Key Considerations in Standard Setting

[표준 설정standard setting]은 [점수 척도를 두 개 이상의 범주로 분할할 수 있도록 합리적이고 방어 가능한 방법으로 인간의 판단을 종합할 수 있는 과정]이다. [전문가의 판단]에 중점을 둔다는 점에서, 모든 [표준은 본질적으로 주관적]이라는 점을 강조하는 것이 중요합니다. 따라서 시험에서 컷-점수를 정할 때는 'gold standard'가 없다. 컷(cut) 점수는 표준과 참여 심판 패널 설정을 위해 선택한 방법을 포함하여 여러 요인의 함수로 달라질 수 있으며 이에 국한되지 않는다[17–21]. 
Standard setting is a process that allows human judgements to be synthesised in a rational and defensible way to facilitate the partitioning of a score scale into two or more categories. Given the emphasis on expert judgement, it is important to underscore that all standards are intrinsically subjective in nature. Consequently, there is no ‘gold standard’ when it comes to setting a cut‐score on an examination. Cut‐scores can and will vary as a function of several factors, including, but not limited to, the method selected to set the standard and the panel of participating judges [17–21].

Jaeger[18]는 '판단을 제공하는 사람들의 마음을 뺀다면, 아마도, (기준 설정에서의) 정답이 존재하지 않을 것이다'고 언급함으로써 이 점을 가장 잘 요약하였다. 적절한 경험적 증거로 뒷받침되는 체계적인 과정을 따르는 것은 표준 설정 패널이 (정책 기반) 판단을 방어 가능한 방식으로 점수 척도로 해석하는 데 도움이 될 수 있지만, 숙련자를 비숙련자로부터, 또는 통과자를 실패자로부터 완벽하게 구분하는 어떤 '참true' cutscore를 추정하는 데 사용할 수 있는 방법은 없다.

Jaeger [18] best summarised this point by stating that ‘a right answer (in standard setting) does not exist, except, perhaps, in the minds of those providing judgement’. Following a systematic process that is supported with appropriate empirical evidence can help standard setting panels translate (policy‐based) judgement onto a score scale in a defensible manner, but no method can be used to estimate some ‘true’ cut‐score that perfectly separates masters from non‐masters or passers from failers.

모든 표준 설정 프로세스의 [내재적 주관성]을 고려하여, 모범 사례는 배경 및 교육 특성과 관련하여 대상 시험 모집단을 광범위하게 대표하는 심판 패널의 선발을 필요로dictate 한다[22, 23]. 표준 설정 패널 구성은 의료 교육에서 평가가 복잡하다는 점을 감안할 때 훨씬 더 관련이 깊어집니다. 그들의 연공서열과 전문지식 수준에도 불구하고, 평가의 목적을 감안할 때 결과적인 컷(cut) 점수가 합리적인지 확인하기 위해서는 패널리스트에 대한 광범위한 교육이 필수적입니다 [24]. 적어도, 평가의 목표, 표준 설정의 목적, 완료를 요구하는 과제, 최소한의 숙련도 또는 경계선 성과를 구성하는 일반적인 정의 등과 관련하여 [모든 패널리스트가 서로 조화를 이루도록 보장하기 위한 교육]이 필요하다[25]. 

In view of the inherent subjectivity of any standard setting process, best practice dictates selection of a panel of judges that broadly represents the target examination population, with respect to background and educational characteristics [22, 23]. The composition of the standard setting panel becomes even more relevant given the complexity of assessments in medical education. Despite their seniority and level of expertise, extensive training of panellists is essential to ensure that the resulting cut‐score is reasonable given the objectives of the assessment [24]. If nothing else, training is necessary to ensure that all panellists are in harmony with one another in regard to the goal of the assessment, the purpose of the standard setting exercise, the task that they are asked to complete, and a general definition of what constitutes minimal proficiency or a borderline performance [25]. 

일반적인 표준 설정 교육 세션에는 다음과 같은 여러 단계가 필요합니다. 

  • (i) 패널리스트에 대한 검체 검사 자료의 제공
  • (ii) 참가자에게 완료를 요구하는 과제의 명확한 표시
  • (iii) 경계선 후보의 정의에 할당된 토론 기간
  • (iv) 예시 세트에 대한 판단
  • (v) 참가자 간의 오해를 명확히 하기 위한 토론 기간
  • (vi) 훈련의 모든 측면에 대한 사후 조사[22].

A typical standard setting training session requires a number of steps including:

  • (i) the provision of sample examination materials to panellists;
  • (ii) a clear presentation of the task that participants are being asked to complete;
  • (iii) a period of discussion allocated to the definition of the borderline candidate;
  • (iv) judgements on a set of exemplars;
  • (v) a discussion period to clarify any misconceptions amongst participants; and
  • (vi) a post‐exercise survey on all aspects of training [22].


이러한 주의사항에도 불구하고, 이 장에 설명된 방법들은 결과적인 cut-score가 변덕스러운 판단보다는 정보에 입각한 판단에 근거하도록 보장하기 위해 따를 수 있는 체계적인 단계를 제공한다. 우선 검사의 절단 점수 결정을 위한 일반적인 방법의 개요(박스 24.2 참조)를 살펴보고, [표준 참조 표준]과 [기준 참조 표준]의 차이를 알아볼 것이다.  

Despite these caveats, the methods outlined in this chapter will provide systematic steps that can be followed to ensure that the resulting cut‐score is defensible and based on informed, rather than capricious, judgements on the part of the expert panel. The difference between a normreferenced standard and a criterion‐referenced standard will first be reviewed prior to an overview of common methods for determining a cut‐score on an examination (see Box 24.2).  

BOX 24.2 주요 고려 사항
BOX 24.2 Key considerations


• 표준 설정에는 'gold standard'가 없습니다.


• 표준 및 그에 수반되는 감점 점수는 [역량을 구성하는 것에 대한 전문가의 판단]을 반영해야 하며, 몇 가지 근거 출처에 의해 뒷받침되어야 한다.

• 표준 설정 패널은 성별, 연령, 전문 분야, 지리적 영역 등과 관련하여 모든 핵심 검사 이해 당사자를 폭넓게 대표하는 전문가로 구성되어야 한다.

• 표준설정행위의 모든 측면에 대해 패널리스트를 철저히 교육하는 것은 채택된 방법에 관계없이 모든 표준 설정 연습의 성공에 필수적인 작업이다.  

 There is no gold standard in standard setting.
 A standard and accompanying cutscore should reflect expert judgement as to what constitutes competence, supported by several sources of evidence.
 A standard setting panel should be composed of experts who broadly represent all key examination stakeholders with respect to gender, age, specialty, geographical area, etc.
 Thoroughly training panellists on all aspects of the exercise is a task critical to the success of any standard setting exercise, regardless of the method adopted.  

 

Norm → 참조 대 기준 → 참조
Norm‐ referenced Versus Criterion‐
referenced Standards

아주 넓게 본다면, 표준은 성격상 [규범-참조] 또는 [준거-참조]로 분류될 수 있다[26].
At a very high level, standards can be classified as either norm‐referenced or criterion‐referenced in nature [26]. 

[규범 참조 표준]은 비교 후보 그룹의 성과에서 절단 점수가 도출된다는 점에서 [상대적인 표준]이다. 절단 점수를 클래스 평균보다 높은 표준 편차로 설정하거나 절단 점수를 분포의 90번째 백분위수 순위에서 고정하는 등, 표준 참조 표준의 예는 많습니다. 기본적인 개념은 컷아웃 점수가 비교 집단의 상대적 성과의 함수로만 설정된다는 것이다. 우리는 순전히 다른 응시자들이 얼마나 잘(또는 못) 시험을 잘 보느냐에 따라 응시자를 합격시키거나 불합격시킵니다.
A norm‐referenced standard is a relativestandard in that the cut‐score is derived from the performances of a comparative group of candidates. There are many examples of norm‐referenced standards, such as setting the cut‐score at one standard deviation above the mean of the class or fixing the cut‐score at the 90th percentile rank of a distribution. The fundamental notion is that the cut‐score is set solely as a function of the relative performances of a comparative group. We pass or fail a candidate on an examination purely based on how well (or badly) other test takers performed.

반면에, [준거 참조 프레임워크] 내에서, 표준은 일반적으로 그룹 성과에 관계없이 후보자가 입증해야 하는 영역의 지식의 함수로 설정된다. 따라서 이것은 절대적인 기준입니다. 예를 들어, 의료 전문가 패널은 전문적 판단과 검사의 목적에 따라 지원자가 최소의 역량을 갖춘 것으로 간주되려면 해당 영역의 70%를 마스터해야 한다고 결정할 수 있다.
On the other hand, within a criterion‐referenced framework, the standard is typically set as a function of the amount of knowledge of the domain that the candidate needs to demonstrate, irrespective of group performance. As such, it is an absolute standard. For example, a panel of medical experts might determine that a candidate needs to master 70% of the domain to be deemed minimally competent, based on their professional judgement and the objectives of an examination.


전문적 검사의 경우, 일반적으로 여러 가지 이유로 [준거 참조 표준criterion‐referenced standards]이 선호된다.

  • 첫째, 규범 참조 표준은 그룹의 상대적 성과에 전적으로 기초하기 때문에 주어진 후보가 알고 있거나 모르는 것에 대해 거의 또는 전혀 언급하지 않는다.
  • 둘째, 더 중요한 것은, 규범 참조 표쥰에서의 컷(cut) 점수는 [그룹의 능력 수준]에 따라 다양하다는 것이다.

For professional examinations, criterion‐referenced standards are generally preferred for a number of reasons.

  • First, a norm‐referenced standard tells little to nothing about what a given candidate knows or does not know, since it is entirely based on the relative performance of the group.
  • Second, and more importantly, the cut‐score selected in a norm‐referenced standard setting exercise will vary as a function of the ability level of the group.

응시자의 수준이 낮으면 낮은 cut-score를 낳을 것이며, 더 능력이 뛰어난 응시자들의 cut score는 더 높아질 것이다. 이는 결국 능력 수준에 따라 다양한 후보군을 배출합니다. 예를 들어, 평균보다 1-표준 편차(1SD)로 컷(cut) 점수를 설정하면 [응시자(집단)의 지식수준에 관계없이 코호트의 약 16%가 실패]합니다. 그러나, 이 그룹들은 도메인에 대한 지식에 있어 큰 차이가 있을 수 있습니다. 만약 그 수업이 능력 있는 학생 대 능력 없는 학생으로 구성되어 있다면 분포의 '평균에 가까운' 점수는 상당히 다른 의미를 가질 수 있다. 즉, [합격 수행능력(즉, '최소한의 역량')]의 의미는 후보자가 언제, 누구와 합격했는지에 따라서 달라질 수 있다.

Lower cut‐scores will result from the performances of less proficient candidates, whereas higher cut‐scores will be set with more able cohorts. This, in turn, produces cohorts of candidates who vary in regard to their level of competence. For example, setting a cut‐score at one standard deviation below the mean will result in failing about 16% of any cohort, irrespective of what candidates may or may not know. However, it is conceivable that these groups could differ drastically in their knowledge of the domains. Scoring ‘near the average’ of a distribution can have quite a different meaning if the class is composed of high ability candidates versus less able students. That is, the meaning of a passing performance (and consequently ‘minimal competence’) can vary as a function of when and with whom the candidate passed.

따라서, 통과 기준을 설정하는 norm‐referenced 접근법은 정치적 및 직업적 관점 모두에서 방어할 수 없다untenable. 표준 참고 표준을 사용할 수 있는 유일한 상황은 [소수의 지원자를 선발해야 할 때]입니다(예: 제한된 수의 대학원 연수 시간).
Consequently, a norm‐referenced approach to setting a passing standard is untenable from both political and professional perspectives. The only instance in which it may be acceptable to use a norm‐referenced standard is when the selection of a small number of candidates is necessary (e.g. for a restricted number of postgraduate training slots).


기준을 설정하는 Criterion‐referenced 방법은 이러한 많은 한계를 극복하기 때문에 매력적이다. Criterion‐referenced
방법을 사용하여 설정한 컷(cut) 점수는 특정 직업의 광범위한 분야를 대표하는 전문가들이 안전 실천에 필요한 기술과 지식을 보유한 후보자를 나타내는 숙련도 수준을 반영한다. 이러한 이유로, 의료 면허 분야뿐만 아니라 다른 보건 전문가 검사 프로그램에서도 몇 년 동안 Criterion‐referenced 설정 방법이 성공적으로 채택되고 옹호되어 왔다[1, 2, 27–29]. 다음 두 절에서는 가장 일반적으로 사용되는 기준 기준 설정 방법을 간략하게 설명합니다(박스 24.3 참조).

Criterionreferenced methods for setting a standard are appealing because they overcome many of these limitations. A cutscore that is set using a criterionreferenced method reflects a level of proficiency that experts representing wide sectors of a given profession agree is indicative of a candidate who possesses the skills and knowledge required for safe practice. For this reason, criterionreferenced methods for setting cutscores have been successfully employed and defended for several years in the medical licensing arena as well as with other health profession examination programmes [1, 2, 2729]. The following two sections briefly describe the criterionreferenced standard setting methods in most common use (see Box 24.3).

 

BOX 24.3 표준 대 기준 → 기준
BOX 24.3 Norm‐referencing versus criterion‐
referencing


• 표준 참조 표준norm‐referenced standard 은 상대적 표준이며 임의의 후보 그룹 성과 함수로 설정됩니다.


• 준거 참조 표준criterion‐referenced standard 은 절대적인 표준이며, 후보 그룹의 전체 성과에 관계없이 전문가가 역량을 반영한다고 생각하는 함수로 설정됩니다.

• 의학 교육에서의 시험의 경우, 표준 참조 표준은 선발 목적으로만 적합하다. 대다수의 결정(졸업, 사무직 합격 등)에 대해서는 criterion‐referenced standard 이 적절합니다.     

 A norm
referenced standard is a relative standard and set as a function of the performance of an arbitrary group of candidates.

 A criterionreferenced standard is an absolute standard and set as a function of what experts believe reflects competence, regardless of the overall performance of any group of candidates.
 With medical education examinations, normreferenced standards are only appropriate for selection purposes. For the vast majority of decisions (e.g. graduation, passing a clerkship, etc.), criterionreferenced standards are appropriate.     

 

테스트 중심 방법
Test‐
centred Methods

[준거-참조 테스트-중심 방법Criterion‐referenced test‐centred methods]은 객관식 검사와 같은 지식 평가에 대한 합격 점수를 설정하는 데 호소하고 있다. 이러한 표준 설정 형식에서, 전문가들은 시험 또는 과제의 각 항목에 요구되는 성능 수준을 판단하도록 요청받는다(예: 최소한의 숙련도). 자주 사용되는 일반적인 테스트 중심 방법에는 Angoff, Ebel, Nedelsky 및 Bookmark 절차[30]가 포함됩니다(상자 24.4 참조).

Criterionreferenced testcentred methods are appealing for setting a pass mark on knowledge assessments, such as multiplechoice examinations. In this form of standard setting, experts are asked to judge the level of performance required on each item of the test or task to meet the standard (e.g. minimal proficiency). Common and frequently used testcentred methods include the Angoff, Ebel, Nedelsky, and Bookmark procedures [30] (see Box 24.4).

BOX 24.4 FOCUS ON: 시험 중심 방법
BOX 24.4 FOCUS ON: Test‐
centred methods


• MCQ의 경우, 표준은 일반적으로 테스트 중심test‐centred 방법을 사용하여 설정됩니다. 널리 사용되는 테스트 중심 방법에는 Angoff, Ebel, Nedelsky 및 Bookmark 방법이 포함됩니다.


• 패널리스트가 시험 중심의 표준 설정 연습에서 최소한의 숙련도 있는 후보자에 대해 각 항목의 특성을 추정해야 하는 경우, 즉 Angoff 및 Bookmark 방법의 어려움, Ebel 방법과의 관련성, 그리고 추가로 Nedelsky 접근법으로 '추측'을 해야 하는 경우, 논의 훈련 단계에서 경계선 후보를 구성하는 것에 대한 폭넓은 합의가 매우 중요합니다.

• Angoff 및 Bookmark 방법은 고유의 단순성으로 인해 MCQ 검사에 대한 표준을 설정하는 데 가장 일반적으로 사용됩니다.

• Ebel과 Nedelsky 방법은 패널에게 더 강력한 인지 요건을 부과하는데, 이 요건들이 많은 시험에서 충족이 어려울 수 있다. 각각 관련성을 결정하고 경계선 후보가 주의 산만 요소를 제거할 가능성을 결정한다.

 For MCQs, standards are typically set using a test
centred method. Popular testcentred methods include the Angoff, Ebel, Nedelsky, and Bookmark methods.

 Given that panellists are essentially asked to estimate characteristics of each individual item for the minimally proficient candidate in a testcentred standard setting exercise, i.e. difficulty with the Angoff and Bookmark methods, difficulty and relevance with the Ebel method, and additionally guessing with the Nedelsky approach, discussion and broad agreement as to what constitutes a borderline candidate in the training phase is of critical importance.

 The Angoff and Bookmark methods are most commonly used to set a standard on MCQ examinations due to their inherent simplicity.

 The Ebel and Nedelsky methods impose stronger cognitive requirements on the part of panellists that may be difficult to meet with many examinations; respectively determining relevance as well as the likelihood that a borderline candidate will eliminate distractors.    

 

 

앙고프 방법
Angoff Method

Angoff 절차에서 패널리스트는 항목별로 각 항목에 정확하게 답변할 수 있는 [최소 숙련도 후보자의 비율]을 추정해야 한다[31]. 사실상 이것은 전문가의 판단에 근거하여 테스트의 각 구성 요소 부분의 [난이도를 평가]하는 것이다. 그런 다음 이러한 비율은 각 전문가 심판에게 합산됩니다. 일반적으로 심판의 항목 비율의 평균 또는 중위합은 검사에서 컷-점수로 처리됩니다. 상자 24.5는 세 개의 패널 목록을 사용한 5가지 항목 검사에 기초한 Anoff 절차에 대한 간단한 그림을 제공합니다. 이 예제에서 패널 목록 절단 점수는 1.35(또는 1/5)에서 2.65(또는 3/5) 사이였습니다. 따라서 전체 컷 점수가 1.97/5(또는 2/5)와 같으므로 최종 컷 점수를 선택할 수 있습니다.
In the Angoff procedure, panellists are asked to estimate, on an item‐by‐item level, the proportion of minimally proficient candidates that would answer each item correctly [31]. Effectively this constitutes an assessment of the degree of difficulty of each component part of the test based on expert judgement. These proportions are then summed for each expert judge. Typically, the mean or median sum of item proportions across judges is treated as the cut‐score on the examination. Box 24.5 provides a simple illustration of the Angoff procedure based on a five‐item examination with three panellists. In this example, panellist cut‐scores ranged from 1.35 (or 1/5) to 2.65 (or 3/5). An overall cutscore equal to 1.97/5 (or 2/5) could therefore be selected as the final cut‐score.

 


[수정된 Angoff 방법] 또한 표준의 결정을 위해 제안되었습니다 [9, 32–35]. 한 가지 수정방식으로는 패널리스트에게 일반적인 논의 후에 판단을 수정할 수 있도록 하는 것이다 [36]. 다른 수정방식으로는 패널리스트에게 [최종 라운드]에서  '현실 성과 점검reality performance check'을 제공함으로써, 최초 판단을 측정하고guage, 원하는 경우 수정할 수 있도록, 최초 등급 라운드 후에 규범적normative 데이터(예: 문항 난이도 및 변별도)를 제공하는 것이다[37]. 
Modified Angoff methods have also been proposed for determining a standard [9, 3235]. One adaptation of the Angoff method allows panellists to modify their judgements following a general discussion [36]. Other revisions entail providing normative data (e.g. item difficulty and discrimination indices) following the initial round of ratings in order to provide panellists with a reality performance check against which to gauge their initial judgements and modify them, if so desired, in a final round [37].

 

장점 및 제한 사항
Advantages and Limitations

Angoff 방법군의 주요 장점 중 하나는 MCQ 및 성능 기반 평가를 포함하여 다수의 검사와 함께 광범위하게 사용됐다는 것이다 [34]. 따라서, 그러한 연습을 수행하고자 하는 모든 연구자는 풍부한 증거와 정보를 이용할 수 있다. 또한 앙고프 방식은 패널리스트가 테스트 항목을 검토하고 재료 및 후보자에 대한 전문 지식을 바탕으로 판단을 내려야 한다는 점에서 어느 정도 직관적이라는 매력을 가지고 있다. 마지막으로 Angoff 방법은 '예/아니오' 방법을 통해 능률화할 수 있으며 [38] 방법은 작업을 더욱 단순화할 수 있습니다.
One main advantage of the Angoff family of methods is that they have been used extensively with a host of examinations, including both MCQ and performance‐based assessments [34]. As such, a wealth of evidence and information is available to any researcher interested in carrying out such an exercise. Also, the Angoff method holds a certain amount of intuitive appeal in that panellists are required to review test items and offer judgements based on their expert knowledge of the material and candidates. Finally, the Angoff method is amenable to streamlining such as through the ‘Yes/No’ method [38], which can simplify the task even more.


한편, Angoff 방법은 패널리스트가 완료해야 하는 두 가지 주요 과제의 본질적인 특성, 즉, [무엇이 최소한의 숙련도를 구성하는지]를 명확히 하고, 각 테스트 항목에 정답을 맞출 수 있는 [최소 숙련도 응시자의 비율을 일관되게 추정]하는 것 때문에 많은 비판을 받았다[35].

  • Shepard [39]는 패널리스트에게 제시된 과제가 너무 인지적으로 어려우며 아마도 대부분의 참가자가 감당할 수 없을 것이라고 주장했다. 그러나 다른 이들은 이러한 주장을 반박하고 이러한 어려움을 패널리스트의 불충분한 교육이나 판단을 유도할 성능 데이터의 부재 때문이라고 지적했습니다 [40].
  • Plake 외 연구진[41]에 의해 수행된 조사에서도 문항 성능 추정치item performance estimate는 패널 내부와 패널 간뿐만 아니라, 당해 및 수년 간에 걸쳐 고부담의 인증 검사를 위한 것으로 나타났다. 이러한 발견은 표준 설정 연습에 적합한 심판 패널 선택의 중요성을 다시 한 번 강조하고, 더 중요한 것은 당면 과제의 성격에 대한 오해를 없애기 위해 모든 전문가에게 광범위한 교육을 제공한다는 것이다.

On the downside, the Angoff methods have come under heavy criticism due to the inherent nature of the two main tasks that panellists are required to complete, namely to articulate what constitutes minimal proficiency and then consistently estimate proportions of minimally proficient candidates who would correctly answer each test item [35].

  • Shepard [39] argued that the task presented to panellists was too cognitively challenging and probably beyond the capability of most participants. Others, however, have refuted this claim and ascribed these difficulties to insufficient training of panellists or the absence of performance data to guide judgements [40].
  • Research conducted by Plake et al. [41] also showed that item performance estimates were consistent within and across panels, as well as within and across years for a high‐stakes certification examination. These findings once more underscore the importance of selecting appropriate panels of judges for standard setting exercises and, more importantly, offering extensive training to all experts to eliminate any misconceptions regarding the nature of the task at hand.

이러한 한계에도 불구하고, Angoff 방법군은 검사에 대한 컷☆스코어를 설정하기 위한 가장 보편적이고, 오래 지속되며, 잘 연구된 일련의 절차들 중 하나입니다 [30].

Despite these limitations, the Angoff family of methods continues to be one of the most prevalent, longstanding, and well researched set of procedures for setting a cutscore on an examination [30].

 

에벨 방법
Ebel Method

에벨이 개괄적으로 설명한 절차는 패널리스트에게 각 항목에 대한 난이도 추정치뿐만 아니라, 검토의 기초가 될 것으로 추정되는 영역을 고려하여 내용 관련성까지 제공하도록 요청함으로써 Angoff의 방법을 확장한다[42]. 컷(cut) 점수는 [난이도]와 [관련성 판단]의 [곱셈값cross-products]을 추가하여 계산한다. 

The procedure outlined by Ebel extends Angoffs method by asking panellists not only to provide difficulty estimates for each item but also content relevance, given the domains that are presumed to underlie the examination [42]. The cutscore is computed by adding the crossproducts of the difficulty and relevance judgements.

상자 24.6은 2차원 Ebel 그리드의 간단한 예를 제공합니다. 이 예에서 심사위원들은 50개 항목 중 5개가 내용에 필수적이며 난이도가 '쉬운' 수준이라고 느꼈다. 비슷한 맥락에서 패널리스트에게도 최소한으로 숙달된 후보자가 올바르게 답할 수 있는 각 내용 관련성/난이도 셀 항목의 비율을 추정하도록 요청받았다. 그 결과로 나온 절단 점수는 관련성/난이도 셀 교차성 제품의 합계입니다. 이 예에서 응시자는 시험에 합격하려면 25/50 항목(50%)을 올바르게 답해야 합니다.

Box 24.6 provides a simple example of a twodimensional Ebel grid. In this example, judges felt that 5 of 50 items were essential to the content and easy level of difficulty. In a similar vein, panellists were asked to estimate the proportion of items, in each content relevance/difficulty cell, that the minimally proficient candidate would correctly answer. The resulting cutscore is the sum of the relevance/ difficulty cell crossproducts. In this example, candidates would need to correctly answer 25/50 items (50%) to pass the examination.

 

장점 및 제한 사항
Advantages and Limitations

아이러니하게도, 기준 제정을 위한 Ebel 방법의 장점 중 하나인 [난이도] 외에 [항목 관련성]이 패널리스트의 판단에 반영될 수 있다는 것이 Ebel 방법의 약점이기도 하다. 예를 들어, Berk[43]는 패널리스트가 연습 중에 내용(난이도)과 목적적합성 판단을 [분리할 수 있는지]에 의문을 제기한다. 이 두 차원이 많은 경우 상당히 높은 상관관계를 갖는다고 주장한다. 시험 개발의 관점에서, 시험에는 애초에 [관련성이 낮은 항목]을 포함시키는 것이 더 나은 것이 아닌가라는 의문을 제기할 수 있다. 대부분의 맥락에서, 총점은 (상호 관계가 있는) 여러 도메인에서 후보자들의 역량을 전반적으로 반영하는 것으로 해석됩니다. 따라서 (Ebel 방법에서) [관련성이 낮다고 여겨지는 항목]은 전체적인 역량(예: 합격/불합격)이나 순위에 대한 추론에 거의 기여하지 않는다.

Ironically, one advantage of the Ebel method for setting a standard, namely that item relevance, in addition to difficulty, can be factored into panellists judgements, is also its chief weakness. Berk [43], for example, questions the ease with which panellists can separate content (difficulty) and relevance judgements during an exercise, largely based on the argument that these two dimensions are often correlated quite highly. From a test development standpoint, one could also question the merits of including test items that are not relevant in an examination. In most contexts, the total score is interpreted as an overall reflection of candidates competencies on a composite of (interrelated) domains. Consequently, items that are deemed irrelevant contribute little to nothing in informing inferences about overall competency (e.g. pass/fail) or standing.

 

네델스키 방법
Nedelsky Method

네델스키[44]는 [(응시자가) MCQ에 답할 때, 최소한 숙련도 있는 후보들이 먼저 재료에 대한 지식을 바탕으로 부정확하다고 식별한 옵션을 제거한 다음 나머지 선택 항목 중에서 무작위로 추측한다는 전제] 하에 이뤄지는 표준 설정 방법이다. 실제 컷(cut) 점수는 나머지 대안 수의 역수 항목 전체의 합에 해당합니다. 예를 들면, 패널리스트 그룹은 5가지 항목, [5개 문항 MCQ 시험]에서 [최소한 숙달된 후보자]가 각 항목에 걸쳐 2, 1, 3, 4개의 옵션을 각각 제거할 것으로 추정한다. 따라서 네델스키 절단 점수는 1/3 + 1/4 + 1/2 + 1/2 + 1/1 = 2.58/5 또는 3/5 60%에 해당합니다.

Nedelsky [44] outlined a standard setting method based on the premise that when answering MCQs, minimally proficient candidates first eliminate options that they identify as incorrect based on their knowledge of the material, and then randomly guess amongst remaining choices. The actual cutscore corresponds to the sum across items of the reciprocal of the remaining number of alternatives. To illustrate; assume that a group of panellists estimates that the following number of options would be eliminated, respectively, by the minimally proficient candidate on a fiveitem, fiveoption MCQ examination: 2, 1, 3, 3, 4, across each of the items. The Nedelsky cutscore would therefore correspond to: 1/3 + 1/ 4 + 1/2 + 1/2 + 1/1 = 2.58/5 or 3/5 60%

장점 및 제한 사항
Advantages and Limitations

네델스키 방법의 주요 장점은 패널리스트가 판단을 내릴 때 [보기distractors 요소의 품질], 즉 MCQ에 대답할 때 최소한의 숙달된 후보자가 가질 수 있는 부분적 지식을 고려할 수 있다는 것이다. 그러나 이 절차의 여러 단점들로 인해 어려움을 겪는다는 것이 잘 문서화되어있다. 첫째, 패널리스트에 부과된 과제는 Angoff 또는 Ebel 연습에서 예상되는 것보다 훨씬 더 부담스럽다. 패널리스트는 최소한의 숙련도 있는 응시자의 정확한 응답 확률을 추정해야 할 뿐만 아니라, 후자의 시험 응시자가 distractor가 부족하거나 부분적인 지식으로 인해 제거할 수 있다고 믿는 옵션에 비추어 그렇게 해야 합니다.

The main advantage of the Nedelsky method is that it allows panellists to factor in the quality of the distractors when making their judgements, that is, any partial knowledge that the minimally proficient candidate may possess when answering an MCQ. However, the procedure also suffers from a number of well‐documented shortcomings. First, the task imposed on panellists is much more onerous that what is expected in either an Angoff or Ebel exercise. Panellists must not only estimate the probability of a correct response on the part of the minimally proficient candidate, but they must do so in light of options they believe the latter test taker can eliminate either due to poor distractors or partial knowledge. 

또한 절차의 특성으로 인해 패널리스트가 제공할 수 있는 확률 값이 사실상 제한된다. 예를 들어, MCQ 옵션이 5개인 경우 판사가 제공할 수 있는 타당한 추정치는 0.20, 0.25, 0.33, 0.50 및 1.00 [43]뿐입니다. 즉, 최소 숙련도 응시자는 신뢰할 수 없는 경우 0, 1, 2, 3 또는 4 옵션을 제거할 수 있습니다.

Additionally, probability values that are provided by panellists are de facto restricted due to the nature of the procedure. For example, with a five‐option MCQ, the only plausible estimates that judges can provide are: 0.20, 0.25, 0.33, 0.50, and 1.00 [43]. That is, the minimally proficient candidate can eliminate either 0, 1, 2, 3, or 4 options as non‐plausible. 

마지막으로, 가장 중요한 것은 네델스키 방법에서 [최소한의 숙련도 응시자의 시험 응시 행동이 동일하다고 가정한다]는 것이다. 즉, 그러한 대안에서 타당성이 없는 것으로 제거되지 않은 것과 동일한 방식으로 추측한다는 것이다. 위험 행동, 차등 부분 지식 및 기타 요소를 고려할 때 이러한 가정에 대한 의문이 심각하게 제기되었다[45, 46]. 이러한 한계를 다루기 위해 절차의 수정이 제안되었지만[47], 네델스키 방법은 그 내재적 복잡성과 더 많이 사용되는 방법에 비해 실질적인 효익이 거의 없기 때문에 지난 수십 년간 인기가 떨어졌다.

Finally, and most importantly, the Nedelsky method assumes that the testtaking behaviour of minimally proficient candidates is identical, i.e. they guess in the same fashion from those alternatives not eliminated as implausible. This assumption has been seriously called into question given risk behaviours, differential partial knowledge, and other factors [45, 46]. Though modifications of the procedure have been proposed to address these limitations [47], the Nedelsky method has waned in popularity over the past few decades due to its inherent complexity and few practical benefits over more popular methods.

 

책갈피 방법
Bookmark Method

또한 책갈피 방법은 [본질적 단순성]으로 인해 절단 점수를 설정하는 데 상당히 정기적으로 사용됩니다[48]. 이 접근방식으로 [시험 문항이 가장 쉬운 것부터 어려워지는 순서로 패널리스트에 제시]됩니다(책자 한 페이지당 한 항목). 이 방법의 원래 의도는 항목 대응 이론(IRT) 기반 난이도 추정의 함수로 항목의 순서를 정하는 것이었지만, 방법을 조정하고 간단한 p-값(정확한 응답의 비율)으로 MCQ를 정렬하는 것도 가능하다. 각 패널 목록은 최소한 숙달된 후보자가 나머지 항목에 올바르게 답변하지 못할 것으로 예상되는 지점에 책갈피(정지 규칙stopping rule)를 배치해야 합니다. 
The Bookmark method is also used quite regularly to set a cutscore due to its intrinsic simplicity [48]. With this approach, test items are presented to panellists by order of difficulty from least to most difficult (one item per page in a booklet). Though the original intent of the method was to sequence the items as a function of item response theory (IRT)based difficulty estimates, it is also possible to adapt the method and order the MCQs by simple pvalues (proportion of correct responses). Each panellist is required to place a bookmark (a stopping rule) beyond which a minimally proficient candidate would not be expected to correctly answer remaining items. Note that the

책갈피 방법은 여러 단계로 구분해야 하는 경우(예: 초급, 중급, 고급 수준의 결정)에 자주 사용된다. 가장 간단한 애플리케이션에서 최종 절단 점수는 여러 패널 목록에서 책갈피 항목 중 [중위수]에 해당합니다. 원래의 책갈피 절차에서도 이 절단 점수를 기본 IRT 가능성 측정 기준[48]으로 변환했다는 점을 지적하는 것이 중요합니다. 성능 벤치마크를 추가하는 방법의 확장도 제안되었습니다 [49, 50]. 이러한 개정에 대한 자세한 내용을 얻고자 하는 독자는 이 참고 자료를 참조할 것을 권장합니다.

Bookmark method is also frequently employed for multiple judgements (e.g. determining levels of basic, proficient, and advanced). The final cutscore, in its simplest application, would correspond to the median number of items at the bookmark across panellists. It is important to point out that the original Bookmark procedure also translated this cutscore to the underlying IRT ability metric [48]. Extensions of the method that entail adding the use of performance benchmarks have also been proposed [49, 50]. Readers wishing to obtain more details on these revisions are encouraged to consult these references.

 

장점 및 제한 사항
Advantages and Limitations

Bookmark 방법의 주요 장점은 [단순성]과 패널 목록에 부과되는 비교적 [낮은 인지 부하]입니다. 적어도 다른 테스트 중심 방법과 비교됩니다. 시험 항목은 난이도(참가자에게 알려지지 않음)에 따라 정렬되며, 패널리스트는 둘 이상의 숙련도 범주를 설명하기 위해 하나 또는 여러 개의 북마크를 배치해야 합니다. 책갈피 방법의 또 다른 매력적인 특징은 혼합 형식mixed-format 평가뿐만 아니라 객관식 및 수행능력 검사에 쉽게 적용할 수 있다는 점이다. 마지막으로, IRT 숙련도 메트릭스에 대한 전통적인 연계는 대부분의 대규모 테스트 프로그램이 시험 구축, 채점, 규모 조정 및 등식을 포함한 다수의 활동에 [IRT 기반 방법을 구현]한다는 점에서 큰 매력을 가지고 있다. 따라서 북마크 표준 설정 방법은 unified IRT 프레임워크에 쉽게 통합될 수 있습니다.
The main advantage of the Bookmark method is its simplicity and the relatively light cognitive load that is imposed on panellists, at least in comparison to other testcentred methods. Test items are ordered according to difficulty (again, unbeknownst to participants) and panellists are required to place one or several bookmarks to delineate two or more proficiency categories. Another attractive feature of the Bookmark method is that it can be readily applied to multiple‐choice and performance examinations as well as mixed‐format assessments. Finally, its traditional link to an IRT proficiency metric also holds great appeal given that the majority of large‐scale testing programmes implement IRT‐based methods for a host of activities, including test construction, scoring, scaling, and equating. As such, the Bookmark standard setting method can easily be integrated into a unified IRT framework.


이러한 장점에도 불구하고 책갈피 표준 설정 방법에는 실무자가 알아야 할 여러 가지 제한이 있습니다.

  • 첫째, 책갈피 표준 설정 연습의 컷(cut) 점수는 시험 양식의 난이도와 불가분의 관계에 있다. 예를 들면, 응시자의 숙련도 대비 매우 '쉬운' 시험을 떠올려 볼 수 있다. 이는 최초 응시자의 90% 이상이 전형적으로 합격하는 의료 면허 및 인증 시험의 경우에 해당됩니다 [27]. 이 'mis-targeting'으로 인해 패널 목록이 적절한 책갈피를 설정하지 못할 수 있습니다. 경우에 따라서는 응시자군의 능력이 높을 때에는 책자의 마지막(=가장 어려운) 문항조차도 너무 쉬워서 숙련자와 비숙련 구분할 수 없다고 보는 것이 타당하다. 다른 사람들이 [30]을 언급했듯이, 이 문제는 다른 테스트 중심 방법과도 함께 발생할 수 있습니다. 책갈피 접근법은 품목의 난이도 때문에 이러한 문제를 명백하게 만듭니다.
  • 또 다른 실질적인 한계는 일부 문항의 퍼포먼스가 낮아서 삭제할 경우 소책자(즉, 페이지당 하나의 항목이 있는 경우 테스트 항목)를 재주문해야 한다는 것이다.
  • 마지막으로 문항이 테스트 양식 전체에 걸쳐 난이도가 낮음에서 높음으로 일정하게 배치되지 않을 수 있으며, 실제로도 문항의 난이도가 그렇지 않을 수도 있다는 것입니다. 따라서 패널리스트가 마스터와 비 마스터를 가장 잘 구별하는 척도를 따라 실제 포인트를 식별하기가 어려울 수 있다. 즉, 문항 난이도에 gap이 있을 경우 책갈피를 식별할 수 없을 수 있다. 

Despite these advantages, the Bookmark standard setting method does possess a number of limitations that the practitioner should be aware of.

  • First and foremost, the cut‐score in a Bookmark standard setting exercise is inextricably linked to the difficulty of the test form. To illustrate, consider a test that is very ‘easy’ in relation to the proficiency level of candidates. This is often the case with medical licensing and certification examinations where over 90% of first‐time test takers typically pass [27]. This ‘mis‐targeting’ can make it impossible for panellists to set an appropriate bookmark. In certain instances, it is plausible that even the last item in a booklet is too easy to distinguish between masters and non‐masters when the candidate sample is highly able. As others have mentioned [30], this problem could also crop up with other test‐centred methods. The Bookmark approach, by virtue of item difficulty ordering, makes any such problems glaringly obvious.
  • Another practical limitation of this standard setting method is that booklets (i.e. test items if there is one item per page) need to be re‐ordered if some items are deleted due to poor performance.
  • A final limitation is that items may not, and in fact are probably not, evenly spaced in terms of differences in difficulty from low to high throughout a test form. Thus, it might be difficult for panellists to identify an actual point along the scale that best discriminates between masters and non‐masters, i.e. the bookmark might not be identifiable given gaps in item difficulty.

 

이러한 제약이 책갈피 방법을 무효화하지는 않지만 실무자는 이러한 잠재적 이슈를 인식하고 실제 기준 설정 연습 전에 그에 따라 계획을 수립해야 한다.
While these limitations do not invalidate the Bookmark method, practitioners should be aware of these potential issues and plan accordingly prior to the actual standard setting exercise.

 

수험생 중심 방법
Examinee‐
centred Methods

반면에 [준거(Criteria)-참조, 응시자-중심 방법examinee‐centred methods]에는 자격을 갖춘 전문가 패널 그룹의 글로벌 성과 판단에 근거한 표준 설정이 포함된다. 의학교육에서 성과 평가의 통합된 다차원적 특성을 고려할 때, 후자의 방법은 OSCE에 대한 컷(cut) 점수를 설정하는 데 특히 적합하다[51]. 두 가지 일반적인 검사자 중심 표준 설정 방법은 대조군 방법경계선 그룹 방법이다[52, 53]. (박스 24.7 참조).
Criterionreferenced examineecentred methods, on the other hand, involve setting a standard based on global judgements of performance by a group of qualified expert panellists. Given the integrated, multidimensional nature of performance assessments in medical education, the latter methods are particularly well suited for setting a cutscore on OSCEs, for example [51]. Two popular examineecentred standard setting methods are the contrasting groups method and the borderline group method [52, 53]. (see Box 24.7).

BOX 24.7 FOCUS ON: 수행능력 평가를 위한 표준 설정
BOX 24.7 FOCUS ON: Standard setting for performance assessments


• OSCE 및 작업장 기반 평가와 같은 [수행능력 시험]의 경우 일반적으로 검사자 중심의 방법을 사용하여 표준을 설정합니다. 일반적인 검사자 중심 표준 설정 방법에는 대조 그룹 및 경계선 그룹 방법이 포함됩니다.


• 이러한 방법은 패널리스트가 전반적으로overall holistic 수행능력을 판단할 수 있도록 하기 때문에 수행능력 평가에 매우 적합하고 매력적이다. 패널리스트는 두 개 이상의 숙련도 범주(예: 마스터/비매스터, 허용되지 않음, 허용 경계선, 명확하게 허용 가능 등)에 후보를 배정할 것을 요구합니다.

• 매력적이지만, 이러한 방법은 본질적으로 패널을 'gold standard'로 취급합니다. 따라서 경계선 성능의 정의뿐만 아니라 작업이 잘 이해되도록 충분한 교육이 필요합니다.

• 검사자 중심의 표준 설정 방법을 구현할 때 다음을 포함한 여러 가지 기술적 문제를 고려해야 합니다.
(i) 위양성 및 위음성 분류와 관련된 비용을 결정해야 한다.
(ii) 경계선 허용 집단borderline acceptable group에 할당된 응시자 수가 충분히 크게 구성되도록 보장해야 한다.
(iii) 대조 그룹 방법의 경우, 패널리스트가 두 가지 카테고리 중 하나에 후보를 할당할 능력이 있어야 한다.

 For performance examinations, such as OSCEs and workplace
 based assessments, examineecentred methods are generally used to set a standard. Common examineecentred standard setting methods include the contrasting groups and borderline group methods.


 These methods are appealing and well
suited to performance assessment as they allow panellists to provide overall holistic judgements of performance. They require panellists to assign candidates to two or more proficiency categories (e.g. master/nonmaster, unacceptable, borderline acceptable, clearly acceptable, etc.).


 While appealing, these methods inherently treat the panel as the gold standard. Ample training is therefore necessary to ensure that the task is well understood as well as the definition of borderline performance.


 A number of technical issues need to be considered when implementing any examinee
centred standard setting method, including:
(i) determining the costs associated with false
positive and falsenegative classifications;
(ii) ensuring that the borderline acceptable group is composed of a sufficiently large number of candidates; and
(iii) for the contrasting groups method, assuring that panellists are able to assign candidates to one of two categories.    

 

 

대조 그룹 방법
Contrasting Groups Method

대조 그룹 방법에서 패널리스트는 각 후보자에게 수행능력 프로파일(예: OSCE 스테이션의 검사 목록 및 등급 척도)을 검토하고 테스트 응시자가 시험에 합격할 자격이 있는지 여부를 판단하도록 요청받습니다. 그런 다음 두 후보 그룹(무자격 및 자격)에 대한 OSCE 측점 점수가 그래프에 표시됩니다. 일반적으로 두 그룹의 테스트 응시자를 가장 잘 구별하는 점수는 컷★점수로 선택됩니다[52–54]. 

In the contrasting groups method, panellists are asked, for each candidate, to review a performance profile (e.g. checklists and rating scales on an OSCE station) and determine whether the test taker is qualified or unqualified to pass the examination. OSCE station scores for both groups of candidates (unqualified and qualified) are then plotted on a graph. The score that best discriminates between both groups of test takers is typically selected as the cutscore [5254].

예시를 위한 대조 그룹 그림은 그림 24.1에 나와 있습니다. 이 예에서, 위양성과 위음성 결정이 동등하게 중요할 경우, 교차 구역의 중간점을 절단 점수 값으로 선택할 수 있다. 단, 검사의 목적이 부정행위로부터 환자를 보호하는 것이라면 교차구역 상부의 값을 선택할 것이다(위양성 결정 최소화, 즉 합격을 위해 필요한 임상 기술을 보유하지 않은 합격자의 수 최소화).

A sample contrastinggroups plot is shown in Figure 24.1. In this example, the midpoint of the intersection zone could be selected as the cutscore value if false-positive and falsenegative decisions were of equal importance. However, if the intent of the exam is to protect patients from malfeasance, a value in the upper part of the intersection zone would be chosen (minimising falsepositive decisions, i.e. minimising the number of passing candidates who do not possess the clinical skills necessary to pass).

 

경계선 그룹 방법
Borderline Group Method

경계선 그룹 방법에서 패널리스트는 각 후보자에 대한 성능 프로파일을 검토하고 [허용가능한 수행능력]과 [허용불가능한 수행능력]을 식별하라는 요청도 받습니다. 또한 패널리스트는 허용 가능한 성과 수준에 불과하다고 판단되는 후보자를 지정해야 합니다. 그런 다음 합격자의 점수가 그래프에 표시됩니다. 일반적으로 [중위수median 점수 값]이 검사의 cut score로 선택됩니다[1, 53]. 이 접근법의 한 가지 한계는 borderline acceptable group의 크기가 상당히 작기 때문에 [매우 불안정한 절단 점수(예: 중위수) 값]을 낳을 수도 있다는 것이다.

In the borderline group method, panellists are also asked to review a performance profile for each candidate and identify unacceptable as well as acceptable performances. Additionally, panellists must designate those candidates that are deemed to lie just at a borderline acceptable performance level. The scores of these borderline acceptable examinees are then plotted on a graph. Typically, the median score value is chosen as the cut‐score on the examination [1, 53]. One limitation that has been raised with this approach is that the size of the borderline acceptable group might be quite small, thus contributing to a very unstable cut‐score (e.g. median) value.

이러한 단점을 해결하기 위한 수단으로 [경계 회귀법borderline regression method]이 대안적인 관련 표준 설정 방법으로 제안되었다. 이 절차에서는 선형 회귀 모델링을 사용하여 점수 척도의 절단 점수를 등급 범주(예: 허용되지 않음, 허용 가능, 허용 가능)의 함수로 예측합니다. 즉, 특정 OSCE 스테이션의 합격 점수는 후보 점수(예: 체크리스트 점수)를 글로벌 등급으로 회귀시켜 획득합니다. 기존의 경계선 그룹 방법과는 달리, (borderline acceptable candidate의 점수 뿐만 아니라) [모든 데이터 포인트]가 컷 점수를 결정하는 데 사용됩니다 [55].

As a means of addressing this shortcoming, the borderline regression method was proposed as an alternative, related standard setting method. As it implies, this procedure uses linear regression modelling to predict the cutscore on the score scale as a function of the rating categories (e.g. unacceptable, borderline acceptable, acceptable). That is, the pass mark for a given OSCE station is obtained by regressing candidate scores (e.g. checklist scores) onto the global ratings. Unlike the more traditional borderline group method, all data points are used in determining the cutscore, not only those associated with borderline acceptable candidates [55].

 

장점 및 제한 사항
Advantages and Limitations

대조집단 및 경계집단 방법은 패널리스트에게 [응시자의 전반적인 성과를 두 가지(또는 그 이상) 범주로 분류]하는 방식으로 전반적 판단holistic judgement하도록 요구한다]는 점에서 매우 유사하다. 실제로 경계집단법을 전문가들이 성과에 대한 허용여부를 판단할 필요가 있을 뿐만 아니라 '가장자리(on the cusp)' 즉, 허용가능한 경계에 대한 접근방식의 일반화로 생각할 수 있다. 두 방법 간의 유사성이 높다는 점을 감안할 때, 이 방법들이 동일한 장점과 한계를 가지고 있다는 것은 별로 놀랄 일이 아니다.

The contrasting groups and borderline group methods are very similar in that they require panellists to make holistic judgements on the overall performance of candidates by classifying them into two (or more) categories. In fact, one could conceive of the borderline group method as a generalisation of the contrasting groups approach where experts not only need to determine whether a performance is acceptable or unacceptable, but also ‘on the cusp’, i.e. borderline acceptable. Given the high degree of similarity between the methods, it should come as little surprise that they carry the same advantages and limitations.

한편, 두 가지 방법 모두 패널리스트가 보다 '직관적'인 작업을 완료하도록 요구하기 때문에, [OSCE 및 작업장 기반 평가와 같은 수행능력 평가]에서 종종 선호됩니다. 즉, 후보자를 unacceptable, acceptable 또는 borderline acceptable로 분류합니다. 또한 분류 판단을 내리는 차원들dimensions이 종종 높은 관련성을 갖는다는 점을 고려할 때, 이러한 복잡한 평가에 매우 적합하다. 따라서 이러한 방법은 [후보자에 대한 분류 결정을 내릴 때] [패널리스트가 모든 고려사항을 통합할 수 있는 관용성]을 제공한다. 

On the plus side, both methods are often preferred for performance assessment such as OSCEs and workplacebased assessments as they require panellists to complete a task that is more ‘intuitive’, i.e. classify candidates as either unacceptable, acceptable, or borderline acceptable. They are also well suited to these complex assessments given that dimensions on which to make classification judgements are often highly related. As such, these methods provide panellists with the latitude to incorporate all of their considerations when arriving at a classification decision with a candidate.

(두 가지 접근법 모두) 패널리스트에게 높은 수준의 유연성을 제공한다는 점이 주된 한계가 된다. 두 방법 모두 패널리스트 판단을 [본질적으로 신뢰할 수 있고 타당한 것]으로 간주합니다. 즉, gold standard으로 간주합니다. 패널리스트가 이러한 판단을 내릴 수 있는 능력을 손상시킬 수 있는 요소는 예측하기 어려운 방식으로 최종 컷(cut)-점수 가치를 편향시킴으로써, [일부 후보군에 명백히 불공정한 표준]으로 이어질 수 있습니다. 따라서 주최자는 패널리스트에게 적절히 교육을 제공하여, 이러한 영향을 최소화하고, 궁극적으로 모든 이해관계자에게 방어 가능한 프로세스를 보장할 수 있도록 하는 것이 중요하다. 심사 대상자에게 매우 친숙할 수 있는 패널리스트가 판단을 제공할 때 [construct‐irrelevant factors] 에 의해 영향을 받는 시나리오를 쉽게 예상할 수 있다. 이러한 construct‐irrelevant factors 에는 성별, 민족성, 복장, 성격, 작업 습관 및 광범위하게 정의된 바와 같이 '능력'과 무관한 무수한 기타 외부 특성이 포함될 수 있다.

The greater level of flexibility that is afforded by both approaches also potentially constitutes their chief limitation. Both methods treat panellist judgements as intrinsically reliable and valid, i.e. as thegold standard. Any factor that can detract from the panellists’ ability to provide such judgements will bias the ultimate cut‐score value in a way that is difficult to predict and will lead to a standard that is most certainly unfair to subgroups of candidates. Consequently, the moderator plays a critical role in ensuring that the training offered to panellists can at least minimise this effect to ultimately assure a defensible process for all stakeholders. It is easy to envisage a scenario where panellists, who might very well be familiar with the candidates who they are evaluating, are affected by construct‐irrelevant factors when providing their judgements. Such construct‐irrelevant factors might include gender, ethnicity, dress, personality, work habits, and a myriad of other extraneous features that are unrelated to ‘competency’, as broadly defined by the examination.

대조 그룹과 경계선 그룹 방법 모두 [cut score 설정을 위해, 현장에서 충분히 많은 대표 전문가 그룹을 식별할 수 있으며, 이들이 지시에 따라 과제를 완료하도록 훈련할 수 있다]는 기본적인 전제에 의존한다. [부적절한 훈련]은 (borderline acceptable 에 불균형적으로 많은 수의 후보자를 할당하는 것과 같은) 다수의 바람직하지 않은 결과를 초래할 수 있다[56, 57]. 
Both the contrasting groups and borderline group methods also rest on the central premise that a sufficiently large group of representative professionals in the field can be identified for an exercise and also trained to complete the task at hand as instructed. Inadequate training can lead to a number of undesirable outcomes, including the propensity to assign disproportionally large number of candidates to the borderline acceptable group [56, 57]. 

이는 후자 그룹의 실적에서 점수가 나온다는 점에서 매력적으로 들릴 수 있지만, 거의 모든 응시자를 허용 가능한 경계선으로 분류하는 것은 시험, 교육 및 기타 요인에 대한 심각한 문제를 제기한다. 또한 확인하기 어려운 방식으로 다시 편향된 컷 스코어를 산출합니다.

While this may sound appealing, given that the cut‐score is derived from the performances of the latter group, classifying nearly all candidates as borderline acceptable seriously raises questions about the quality of the examination, instruction, and other factors, while yielding a cut‐score that is again biased in ways that are difficult to ascertain.


이 점과 관련하여, 경계선 그룹 방법은 후자 그룹이 충분히 큰 숫자로 구성되어야 합니다. 그렇지 않으면 그 결과로 얻어진 cut-score는, (가장 단순한 경우의 중위수 점수 또는 보다 복잡한 통계 모델링에 기초한 예측 값(예: 로지스틱 회귀 분석, 잠재 클래스 분석 등)이든), 불안정하고 '역량'을 부적절하게 반영할 것이다. 전통적인 대조집단 표준 연습에서 요구되는 과제의 이분법적 성격을 고려할 때, 패널리스트는 borderline acceptable performance라는 선택지가 없을 때, 허용가능과 허용불가능으로 나누기 어려울 수 있다. Plake와 Hambleton[56]은 의사결정 척도의 세밀한 축척을 허용하는 방법의 확장을 제안했다. 
Related to this point, the borderline group method does require that the latter group be composed of a sufficiently large number or the resulting cut‐score, whether the median score in the simplest case or a predicted value based on more complex statistical modelling (e.g. logistic regression, latent class analysis, etc.), will be unstable and inappropriately reflect ‘minimal competency’. Given the dichotomous nature of the task that is required in a traditional contrasting groups standard exercise, it might also be difficult for panellists to classify candidates as either unacceptable or unacceptable, with no option for a borderline acceptable performance. Plake and Hambleton [56], amongst others, proposed an extension of the method that does allow for a finer gradation of the decision scale.

마지막으로, 두 가지 방법 모두 의료 교육자가 응시자를 잘못 분류했을 때의 결과를 요약하는 정책을 명확히 수립하는 것이 중요합니다. [국민의 보호가 최우선 고려 대상]인 경우 위양성(불합격해야 할 응시생의 합격)과 위음성(합격해야 하는 응시생의 불합격) 결정을 동등하게 다루는 것은 바람직하지 않을 수 있다. 이 경우, 위양성 분류를 최소화하는 것이 더 큰 관심사이다. 반대로 부담이 낮은lower stake 설정에서는 거짓 음성 오류를 최소화하는 정책도 완전히 수용가능하다.
Finally, it is critical, for both methods, that the medical educator clearly set a policy that outlines the consequences of misclassifying a candidate. Treating both false‐positive (passing a candidate who should have failed) and false‐negative (failing a candidate who should have passed) decisions equally might be quite undesirable in instances where protection of the public is of prime consideration. Under the latter scenario, minimising false‐positive classifications is of greater concern. Conversely, in lower‐stakes settings, minimising false‐negative errors could be perfectly acceptable as a policy. 

패널리스트에 전달된 엄청난 책임을 감안할 때 대조 그룹 및 경계선 회귀 방법과 관련된 모든 잠재적 제한은 그러한 표준 설정 연습에서 사회자moderator가 수행해야 하는 역할이 중요함을 다시 강조한다. 실제로 사회자moderator가 경계선 그룹 또는 대조 그룹 표준 설정을 '좌지우지make or break' 할 수 있다고 해도 과언이 아니다.
All of the potential limitations associated with the contrasting groups and borderline regression methods, given the immense responsibility that is conveyed upon panellists, again underscore the critical role that the moderator needs to play in such standard setting exercises. Indeed, it is not an exaggeration to state that the moderator can ‘make or break’ a borderline group or contrasting groups standard setting exercise.

 

호프스티 방법
Hofstee Method

기준 설정을 위한 준거 참조 접근법을 사용할 때, [의사결정과 관련된 정치적 고려]를 전혀 하지 않는다면, 수용할 수 없는 결과를 초래할 수 있다. 즉, 표준 설정의 결과로 얻어진 컷(cut) 점수는 지나치게 크거나 작은 비율의 후보를 합격하시키거나 불합격시키지 말아야 한다. 예를 들어, 특정 의료 전문 검사가 지속적으로 15%의 응시자 중 불합격시켜왔다고 가정해 보십시오. 또한 이 모집단은 매년 매우 유사하고 능력 면에서 우수하다고 가정한다. Angoff 연습 후 설정한 컷(cut) 점수가 후보자의 50%를 낙제시키는 결과를 가져온다면, 그 표준은 비현실적이며 정책적 관점에서 매우 받아들일 수 없을 것이다.

The use of criterion‐referenced approaches for setting a standard can lead to unacceptable outcomes in the absence of political considerations associated with the decision. That is, the cut‐score arrived at following a standard setting exercise should not result in failing or passing an unacceptably large or small proportion of candidates. To illustrate, assume that a given medical specialty examination has consistently failed around 15% of candidates. Further assume that this population is very comparable, ability wise, from year to year. If the cut‐score set after an Angoff exercise results in failing 50% of candidates, the standard is unrealistic and might very well be unacceptable from a policy standpoint.

Hofstee [58]는 '현실 확인reality check'을 제공하는 수단으로 패널 목록에 다음 질문을 하고 그에 대한 답을 (Hofstee) 플롯에 표시함으로써 '타협compromise'하는 방법을 제안했다.
As a means of providing a ‘reality check’, Hofstee [58] proposed a ‘compromise’ method that involves asking panellists the following questions, the answers to which are subsequently graphed in a (Hofstee) plot:


• 내용 전체를 고려할 때 최대 및 최소 허용 컷 점수는 얼마입니까? 이러한 값은 일반적으로 Hofstee 그림에서 Cmin 및 Cmax로 표시됩니다.
• Considering the content as a whole, what are the maximum and minimum tolerable cut‐scores? These are typically labelledCminandCmaxon the Hofstee plot.

• 최대 및 최소 허용 불합격률은 얼마입니까? 이러한 값은 일반적으로 Hofstee 플롯에 Fmax 및 Fmin으로 나열됩니다.
 What are maximum and minimum tolerable failure rates? These are usually listed as Fmax and Fmin on the Hofstee plot.

Hofstee 그림의 예는 그림 24.2에 나와 있습니다.
An example of a Hofstee plot is provided in Figure 24.2.

 

이 그림을 생성하려면 먼저 정확한 누적 백분율 분포를 계산해야 합니다. 이 분포는 점수 척도에 따라 각 지점에서 불합격할 후보자의 누적 비율을 요약합니다. 그런 다음 좌표(Cmin, Fmax)와 (Cmax, Fmin)를 그림 24.2와 같이 직선으로 표시하고 결합합니다. 이 직선과 분포곡선 사이의 교차점이 [Hofstee cut-score]에 해당합니다. 절단 점수는 x축에 표시된 'cut' value로 표시됩니다.
In order to create this plot, a cumulative percentagecorrect score distribution needs to first be computed. This distribution outlines the cumulative percentage of candidates who would fail at each point along the score scale. Then, the coordinates (Cmin, Fmax) and (Cmax, Fmin) are plotted and joined by a straight line, as illustrated in Figure 24.2. The point of intersection between this line and the frequency distribution corresponds to the Hofstee cut‐score. The cut‐score is illustrated by the ‘cut’ value shown on the x‐axis. 

그림 24.2에 설명된 예에서 패널리스트는 컷☆스코어가 55(Cmin) 이하, 85(Cmax) 이하가 되어야 한다고 생각했습니다. 마찬가지로, 고장률은 최소 10%(Fmin)여야 하지만 50%(Fmax)보다 높으면 안 된다는 것을 나타내었습니다. 두 좌표 세트를 모두 연결하고 x축에 선을 그리면 Hofstee 컷스코어 값 65가 생성되어 후보 코호트의 약 35%가 불합격합니다. Hofstee 방법의 목적은 일반적으로 기준 기준 표준이 Hofstee 기반 값의 근처에 속하는지 여부, 즉 기준 표준이 절단 점수 값과 고장률의 정치적 고려사항 및 전역적 인상과 일관되는지 여부를 결정하는 것이다[59].

In the example outlined in Figure 24.2, panellists felt that the cutscore should be no lower than 55 (Cmin) and no higher than 85 (Cmax). Similarly, they indicated that the failure rate should be at least 10% (Fmin) but not higher than 50% (Fmax). Linking both sets of coordinates and drawing a line down to the xaxis yields a Hofstee cutscore value of 65, which would result in failing about 35% of the candidate cohort. The aim of the Hofstee method is generally to determine whether criterionreferenced standards fall within the vicinity of the Hofsteebased value, i.e. whether they are consistent with political considerations and global impressions of cutscore values and failure rates [59].

 

장점 및 제한 사항
Advantages and Limitations

Hofstee 방법의 주요 장점은 패널리스트가 [거의 또는 아무런 제한 없이 컷-점수 값과 불합격률에 대한 전체적인 판단]을 제공할 수 있다는 것입니다. 패널리스트는 경험, 테스트 내용에 대한 지식 및 검사 목표에 따라 성능 매개변수 한계를 정의해야 합니다. Hofstee 방법을 구현할 수 있는 유연성과 용이성 또한 주요 한계입니다. 즉, 이 방법은 일반적으로 [1차 기준 설정 방법이 아니라], 시험자 중심의 다른 접근방식을 보완하기 위한 ['reality check' 또는 대체 방법]으로 간주된다.

The primary advantage of the Hofstee method is that it allows panellists to offer holistic judgements on cut‐score values and failure rates with few to no constraints. Based on their experience, knowledge of the test content, and objective of the examination, panellists must define performance parameter limits. The flexibility and ease with which one can implement the Hofstee method also constitutes its chief limitation. That is, it is not generally viewed as a primary standard setting method but rather as a ‘reality check’ or fall‐back method meant to complement other approaches, whether test‐ or examinee‐centred. 

이처럼 Hofstee 방법은 supportive한 역할을 한다고 했을 때, 실무자가 패널 리스트의 일반적인 기대치에 따라 더 전통적인 방법으로 설정된 컷-스코어가 사라지는지를 판단하는 데 도움이 되는 귀중한 정보를 제공할 수 있습니다. 그러나 그러한 특수성을 고려할 때 일반적으로 개별 측정치로 사용해서는 안 된다. 의료 교육 분야에서 점점 더 많이 사용되는 표준 설정의 또 다른 방법은 박스 24.8에서 논의된다. 
 

Within this supporting context, the Hofstee method can provide valuable information that can help the practitioner gauge whether a cutscore set with a more traditional method gibes with the general expectations of panellists. However, it should generally not be used as a standalone measure given its ad hoc nature. Another more controversial method of standard setting increasingly used in the medical education arena is discussed in the Box 24.8. 

 

BOX 24.8 FOCUS ON: Cohen 방법
BOX 24.8 FOCUS ON: The Cohen method


Anoff와 같은 표준 설정 방법은 리소스를 많이 소모하고 시간이 많이 소요됩니다. 직원 수가 적고 재원이 제한된 교수진은 신뢰할 수 있고 유효한 방법에 필요한 충분한 수의 전문가를 모으기 위해 애쓸 수 있습니다.


Cohen 방법은 '최우수' 학생(95번째 백분위 또는 P95에서의 학생 점수)이 기준점으로 사용되는 의료 교육에서 점점 더 많이 사용되는 표준 설정의 대안 형태입니다[10]. 의료 교육자는 이 높은 성과를 내는 그룹 점수 중 어느 비율이 컷 점수로 허용되는지 결정합니다(예: 60% × P95). 수정된 Cohen은 프로그램 내에서 여러 기준과 참조 시험의 과거 데이터가 전문가 패널이 예상하는 합격 점수를 더 잘 반영하도록 이 Cohen 합계를 개인화할 수 있다고 제안합니다. 

따라서 수정된 Cohen은 절단 점수를 생성할 때 criterion-referenced 데이터와 norm-referenced 데이터를 모두 결합한 혼합 방법입니다 [60]. 이 방법의 사용자는 모든 학생이 시험에 합격할 수 있고 시험 난이도에 따라 점수가 변경된다는 점에서 코헨 점수를 깎는 것이 시간 효율적이고 자원 집약적이지 않으며 학생들에게 공정하다고 생각한다. 그러나 Cohen 방법을 비판하는 사람들은 이 절단 점수가 원하는 criterion-참조가 아닌 norm-참조로 인식되는데, 이는 절단 점수를 생성하기 위해 실제 코호트 성능의 사전 결정되고 상대적으로 임의적인 비율에 의존하기 때문이다.  


Standard setting methods such as Angoff are resource intensive and time
consuming. Faculty with small staff numbers and limited financial resources can struggle to collect a sufficient number of experts required for reliable and valid methods.


The Cohen method is an alternative form of standard setting increasingly used in medical education where the 
best performing students (student score at the 95th percentile or P95) are used as a reference point [10]. Medical educators determine what proportion of this highperforming group score is acceptable as a cut score, e.g. 60% × P95. The modified Cohen takes this further proposing that historical data from multiple criterionreferenced exams, within the programme, can personalise this Cohen sum to better reflect the pass mark expected by panels of experts.

The modified Cohen is therefore a mixed method, combining both criterion
referenced and normreferenced data in the creation of the cut score [60]. Users of the method think the Cohen cut score is time efficient and less resource intensive and fair to students in that all students can pass the exam and the cutscore changes with the level of difficulty of the exam. Critics of the Cohen method, however, perceive this cutscore to be normreferenced, rather than the desired criterionreferenced, as it relies on a predetermined and relatively arbitrary proportion of the actual cohort performance to create the cutscore.  

 

기준 참조 표준 설정 방법 선택
Selecting a Criterion‐
referenced Standard Setting Method

미국교육연구협회 '교육 및 심리검사를 위한 표준'[61, 페이지 53]은 '모든 시험 또는 모든 목적에 대해 cut-score를 결정하는 유일한 방법은 있을 수 없으며, 어떤 단일한 절차도 방어성을 완전히 확립할 수는 없다'고 분명히 명시하고 있다. 이러한 노선을 따라 Angoff[61]는 '컷(cut) 점수 설정 문제와 관련하여, 서로 일치하는 결과를 산출하지 못할 뿐만 아니라 반복 적용 시에도 동일한 결과를 산출하지 못하는 몇 가지 판단 방법을 관찰했다'고 언급했다.

The American Educational Research Association ‘Standards for Educational and Psychological Testing’ [61, p. 53] clearly state that ‘there can be no single method for determining cut‐scores for all tests or for all purposes, nor can there be any single set of procedures for establishing their defensibility’. Along these lines, Angoff [61] also noted that ‘regarding the problem of setting cut‐scores, we have observed that the several judgemental methods not only fail to yield results that agree with one another, they even fail to yield the same results on repeated application’.

어떤 하나의 방법으로도 '최적' 절단 점수 값을 식별할 수 없음에도 불구하고, 후자는 항상 전문적인 판단에 포함되기 때문에, 의학 교육자가 표준 설정 접근방식을 선택할 때 고려하고자 하는 여러 요소가 있다. 다음은 이러한 요인에 대한 개요입니다.

Despite the fact that no single method can lead to the identification of an ‘optimal’ cut‐score value, as the latter is always embedded in professional judgement, there are nonetheless a number of factors that the medical educator might wish to consider when selecting a standard setting approach. An overview of these factors is presented next.

[명확한 표준 설정 프로세스를 준수하는 정도]가 cut-score에 가장 큰 영향을 미칩니다. 무슨 방법을 쓰든지, 표준 설정 과정에는 [표준 설정 연습 및 시험의 목표에 대한 명확한 정의, 잘못된 인식을 최소화하기 위한 패널리스트의 광범위한 교육, 그리고 최소한의 숙련도 또는 허용 가능한 성과를 구성하는 것이 무엇인지에 대한 명확한 개요]가 포함되어야 한다. 그러나 시험 목표와 시험 점수 사용자가 원하는 관련 결정을 고려하여 가장 적합한 표준 설정 방법을 선택하는 것은 여러 요인을 고려할 수 있다.

The extent to which a clear standard setting process is adhered to has the greatest impact on the cut‐score. This process, regardless of the method adopted, should include a clear definition of the objective of the examination as well as the standard setting exercise, extensive training of panellists to minimise any misconceptions, as well as a clear outline of what constitutes minimal proficiency or a borderline acceptable performance. However, a number of factors can be considered to select a standard setting method that might be most suitable given the intended aims of the examination and the associated decision that the test score user wishes to make.

첫 번째 질문 중 하나는 [시험 형식]이 어떻게 되는지이다.

  • 지식 기반 검사(예: MCQ)의 경우 패널리스트가 완료해야 하는 과제를 감안할 때, 즉 실제 테스트 항목의 검토에 근거하여 컷(cut) 점수를 추정하는 것이 가장 적절하다.
  • 반대로 OSCE 및 작업 공간 기반 작업과 같은 성능 평가의 경우 복잡한 다차원 성능 특성을 고려할 때 검사 중심 방법이 표준을 설정하기에 더 적합합니다. 후자는 일반적으로 성과에 대한 전체론적 판단을 수반한다.

One of the first questions to ask is what is the format of the examination?

  • For knowledge‐based examinations (e.g. MCQs), test‐centred methods are most appropriate given the task that panellists are asked to complete, i.e. estimate a cut‐score based on a review of the actual test items.
  • Conversely, for performance assessments, such as OSCEs and workplace‐based tasks, examineecentred methods are more suitable for setting a standard given the complex, multi‐dimensional nature of performance. The latter typically entail holistic judgements of performance.


둘째, 사용자는 시험 형식을 고려할 수도 있습니다. 예를 들어, 일부 표준 설정 방법(예: Nedelsky 방법)은 MCQ와 함께 사용하기 위해 개발되었습니다. 일부 방법은 서로 다른 형식(예: Angoff 방법)으로 사용할 수 있지만, 기대치를 충족할 수도 있고 충족하지 못할 수도 있는 특정 가정이 이루어진다. 예를 들어, Angoff 방법과 그 파생물offshoot들은 본질적으로 수행능력이 보상적compensatory이라고 가정한다. 즉, 응시자들은 다른 섹션에서 잘함으로써 시험의 특정 부분에서 잘 하지 못한 것을 보상할 수 있다. 따라서 이러한 방법들은 서로 다른 요소들이 성공적으로 독립적으로 완성되어야 하는 결합적 환경에서는 적절하지 않을 것이다. 다른 방법(Hofstee, 대조군)은 테스트 형식에 무관하도록test-format invariant 개발되었습니다.
Second, the user may also wish to consider the format of the examination. For example, some standard setting methods (e.g. the Nedelsky method) were developed exclusively for use with MCQs. While some methods can be used with different formats (e.g. Angoff methods), certain assumptions are made that may or may not meet expectations. For example, the Angoff method and its offshoots assume that performance is compensatory in nature, i.e. candidates can compensate for doing poorly in certain parts of the examination by doing well in other sections. These methods would therefore be inappropriate in a conjunctive setting, where different components need to be successfully and independently completed. Other methods (Hofstee, contrasting groups) were developed as test‐format invariant.
 

종종 공표되는 한 가지 잘못된 믿음은 표준을 설정할 때 [다수의 방법을 결합하면 '더 나은 컷 스코어'를 제공한다는 것]이다. 표준 설정과 삭감 점수 선택은 정보에 입각한 판단에서 도출되기는 하지만, 궁극적으로는 [정책 결정]이라는 점을 반복적으로 강조할 수 밖에 없다. 복수의 방법을 결합하면 '더 나은' 표준이 될 것이라는 증거는 거의 없다[57]. '올바른correct' cut-score가 없는데, 어떻게 여러 접근방식의 결과를 종합할 수 있는가? 또한 이 전략에는 훨씬 더 많은 리소스가 필요합니다. 몇 가지(부실하게) 구현된 접근법의 결과를 제공하기보다는 항상 하나의 표준 설정 방법을 체계적으로 구현하는 것이 더 낫다

One erroneous belief that is often promulgated is the one that suggests that combining a multitude of methods when setting a standard will provide a better cutscore. It is important to reiterate that standard setting and the selection of a cutscore are ultimately policy decisions, albeit derived from informed judgement. There is little evidence to suggest that combining multiple methods will lead to a better standard [57]. Since there is no correct cutscore, how can policy makers synthesise results from multiple approaches? This strategy also requires significantly more resources. It is always better to systematically implement one standard setting method rather than provide results from several (poorly) implemented approaches.

다시 말하지만, [cut-score에 뒤따르는 프로세스]가 궁극적으로 방어해야 할 사항입니다. 후자는 기준 설정 연습의 [모든 단계를 적절히 문서화]하여, 패널리스트의 [선발과 훈련을 명확히 기술]하고, cut-score의 사용을 [뒷받침하는 경험적 증거]를 제공하는 것을 포함한다. 이러한 데이터에는 일반적으로 컷-점수 값에 대한 변동성 소스(판단, 패널 등)의 영향뿐만 아니라 컷-점수 구현 결과(예: 과거 추세에 비추어 합격/불합격률의 적절성)가 포함된다. 절단 점수 확인의 중요성은 다음 섹션에서 강조합니다(상자 24.9 참조).

Again, the process that is followed when arriving at a cutscore is ultimately what needs to be defended. The latter includes properly documenting all phases of a standard setting exercise, clearly describing the selection and training of panellists, as well as providing empirical evidence to support the use of a cutscore. These data typically include the impact of sources of variability (judges, panels, etc.) on the cutscore value as well as the consequences of implementing a cutscore (e.g. the appropriateness of pass/fail rates in light of historical trends). The importance of validating any cutscore is underscored in the next section (see Box 24.9).

상자 24.9 방법: 표준 설정 방법 선택
BOX 24.9 HOW TO: Choose a standard setting method


• 모든 표준 설정 방식은 '무엇이 역량을 구성하는가'에 대한 전문가의 내적 구조internal construction에 기초하기 때문에, (어떤 방식으로도) '최적optimal' 절단점수 값은 산출할 수 없다.


[프로세스가 체계적으로 구현되고 적절한 근거 출처로 뒷받침되는 것]이 어떤 표준 설정 방법을 선택하느냐보다 훨씬 더 중요하다.

• 그러나 표준 설정 방법의 선택에는 (MCQ 대 성능 평가) 몇 가지 요소를 고려할 수 있다.

• 몇 가지 방법을 결합해도 결국 여러 가지 고려사항에 기초한 정책 결정이기 때문에 '더 나은' 표준이 만들어지지는 않을 것이다.


 No standard setting method can yield an optimal cut
score value as this is based on experts internal construction of what constitutes competence.

 The extent to which a process is systematically implemented and supported with appropriate sources of evidence is much more important than the selection of any standard setting method.

 However, several factors can be considered in the choice of a standard setting method, including the format of the examination (MCQ versus performance assessment). 

 Combining several methods will not yield a better standard as the choice of any cut
score is ultimately a policy decision based on a number of considerations.

 

컷-점수를 지원하기 위한 유효성 증거 수집
Gathering Validity Evidence to Support a Cut‐
score

어떤 표준 설정 방법을 채택하였든, [얻어진 표준을 검증하기 위한 증거를 수집하는 것]은 중요한 단계입니다 [62, 63]. 이 장에서 언급한 바와 같이, 모든 표준 설정 연습에서 궁극적으로 중요한 것은 프로세스가 체계적으로 준수되고 여러 증거 소스를 사용하여 방어될 수 있는 범위입니다. 
Regardless of the standard setting method adopted, gathering evidence to validate the resulting standard is a critical step [62, 63]. As stated throughout this chapter, what is ultimately of importance with any standard setting exercise is the extent to which a process is systematically adhered to and can be defended using a number of evidential sources.

[절차적 타당성procedural validity을 뒷받침하는 근거]는 표준 설정 보고서에 명확히 기록될 필요가 있다. 이것은 일반적으로 모든 표준 설정 보고서의 첫 부분으로 구성되며, 다음을 포함하여 연습의 각 단계에 대한 철저한 설명을 수반한다.
The evidence to support procedural validity needs to be clearly documented in the standard setting report. This usually comprises the first part of any standard setting report and entails a thorough account of each step of the exercise including:
 

  • • 대상 시험의 개요 및 목적
  • • 근거 근거와 함께 구현된 선택된 표준 설정 방법에 대한 명확한 설명.
  • • 전문가 심판단 선정 과정, 심사위원의 자격 설명, 전문직 전체를 대표하는 정도 설명
  • • 훈련 과정, 성과 표준의 정의 및 데이터 수집 방법을 포함한 연습의 모든 단계에 대한 개요

 An overview of the targeted examination and its purpose.

 A clear articulation of the selected standard setting method implemented with a supporting rationale.

 The process used to select the panel of expert judges, as well as a description of their qualifications and the extent to which they represent the profession as a whole.

 An outline of all phases of the exercise, including the training process, definition of the performance standard, and how data were collected.


표준 설정 연습의 다양한 측면에 대한 조사 패널 목록은 절차적 타당성 증거를 뒷받침하는 마지막 중요한 부분을 구성합니다. 패널 리스트가 공정에서 얼마나 신뢰하며, 더 중요한 것은 컷-스코어 결과에서 얼마나 신뢰합니까? 훈련 단계에 대한 심판의 인상과 점수를 평가하는 것은 모든 표준 설정 연습에 대한 강력한 확인을 제공할 수 있다.
Surveying panellists on various aspects of the standard setting exercise constitutes a final important piece of supporting procedural validity evidence. How confident are the panellists in the process and, more importantly, in the resulting cut‐score? Evaluating judges’ impressions of the training phase as well as the cut‐score can provide strong confirmation for any standard setting exercise.
 

대부분의 기준 참조 검사의 높은 위험 특성을 고려할 때 cut-score의 내부 타당도를 뒷받침하는 증거도 매우 중요하다. 즉, 절단 점수의 추정은 얼마나 정확하며 관심 있는 모든 측면에서 얼마나 재현 가능합니까? 정밀도와 관련하여, 항목 응답 능력 지표와 관련된 항목 응답 능력 지표의 경우, 절단 점수와 관련된 숙련도 추정치의 (조건부) 표준 오차는 후자 값의 안정성을 직접적으로 나타낼 수 있다. 관측된 점수 척도(예: 숫자 , 오른쪽, 백분율 correct 정확 등)를 사용하여, 실무자는 복합 이항 모델을 사용하여 절단 점수와 관련된 오차의 양을 추정할 수도 있다[64].
Evidence to support the internal validity of the cut‐score is also of great importance given the high‐stakes nature of most criterion‐referenced examinations. That is, how precise is the estimate of the cut‐score and how reproducible is it across any facet of interest? With regard to precision, if the cut‐score is relatable to an item response theory ability metric, the (conditional) standard error of the proficiency estimate associated with a cut‐score can provide a straightforward indication of the stability of the latter value. With an observed score scale (e.g. number‐right, percentage‐correct, etc.), the practitioner can also estimate the amount of error associated with a cut‐score using a compound binomial model [64].
 

또한, 표준 설정에 참여하는 심판, 심판 패널(여러 그룹이 참여하는 경우), 선택한 항목/스테이션 등의 기능으로 절단 점수가 영향을 받는 정도는 [일반화가능도 이론]을 사용하여 쉽게 평가할 수 있다[8, 65]. 이 프레임워크를 통해 의료 교육자는 위에 열거된 측정 오류의 측면 또는 잠재적 원천에 기인할 수 있는 점수(컷☆스코어 포함)의 변동성을 추정할 수 있다. 이와 유사하게, IRT 기반 등급 척도 모델[66]은 또한 후보자의 능력 분포, 항목/역의 어려움 및 등급의 엄격성과 관련하여 유용한 정보를 제공할 수 있다. 내부 타당도 의 증거를 수집하기 위해 사용하는 모델의 복잡성에 관계없이, 이 중요한 정보의 출처는 절단 점수가 추정되는 안정성이나 정밀도에 대한 지표를 제공하는 데 있으며, 주로 오용을 최소화하기 위해 실무자에게 일부 경계를 제공하는 데 있다.
Additionally, the extent to which the cut‐score is impacted as a function of the judges participating in an exercise, the panel of judges (if multiple groups are involved), the items/stations selected, etc. can be readily assessed using generalisability theory [8, 65]. This framework allows the medical educator to estimate the amount of variability in scores (including the cut‐score) that can be ascribed to any facet or potential source of measurement error as listed above. Similarly, IRT‐based rating scale models [66] can also provide useful information with respect to the ability distribution of candidates, difficulty of items/stations, as well as stringency of raters. Regardless of the complexity of the models utilised to gather evidence of internal validity, the aim of this critical source of information is to provide an indication of the stability or precision with which a cut‐score is estimated, primarily to provide some boundaries to the practitioner in order to minimise its misuse.
 

[절단 점수의 외부 타당도external validity을 뒷받침하는 증거]도 표준 설정 노력의 일부가 되어야 한다. 이는 표준 구현의 영향과 직접 관련이 있기 때문이다. (과거의) 불합격률에 미치는 영향에 비추어 절단 점수의 합리성을 평가하는 것은 일반적으로 외부 검증 노력의 핵심이다. 예를 들어, 일반적으로 졸업 OSCE에서 한 학년의 10~12% 사이에서 불합격해왔다고 가정해보자. 표준 설정 연습에 따른 55%의 불합격률이 나왔다면, 코호트가 과거 그룹 및 유사한 난이도의 OSCE와 비교할 수 있는 능력을 가졌다고 가정할 때 컷(cut) 점수 및 그 적정성에 대한 상당한 정밀 조사를 보증할 것이다.
Evidence to support the external validity of a cut‐score should also be part of any standard setting effort as this relates directly to the impact of implementing a standard. Assessing the reasonableness of the cut‐score in light of its impact on failure rates is generally at the core of external validation efforts. For example, assume that a graduation OSCE has typically failed between 10 and 12% of a class. A failure rate of 55%, following a standard setting exercise, would warrant considerable scrutiny of the cut‐score and its appropriateness, assuming that the cohort is of comparable ability to past groups and the OSCE of a similar difficulty level.
 

(표준 설정의) 결과를 [다른 평가와 비교하는 것]은 제안된 모든 절단 점수에 대한 외부 타당도의 또 다른 중요한 원천을 구성한다. 예를 들어, 유사한 구조(예: 이전 OSCE)를 측정하는 다른 시험에서의 합격/불합격률 또는 학생 현황과 얼마나 비교가 됩니까? 두 번의 검사가 정확히 동일한 도메인 조합을 측정할 것이라고 기대하지는 않지만, 그럼에도 불구하고 대부분의 응시자들에게 동등한 지위를 줄 것입니다.

A comparison of results to other assessments constitutes another important source of external validity for any proposed cutscore. For example, how comparable are pass/ fail rates to grades or the status of students on other examinations measuring similar constructs (e.g. a prior OSCE)? Though we would not expect two examinations to measure exactly the same combination of domains, they should nonetheless yield a comparable standing for most candidates.

 

결론
Conclusions

표준 설정은 학부 교육에서 의사 재검증 노력에 이르기까지 의료 교육의 모든 평가 활동에서 필수적인 부분입니다. 응시자가 시험의 기초가 되는 역량을 습득했는지 여부를 결정하는 것은 개별적인 판단뿐만 아니라 프로그램 효과성, 교육 효과성 등을 평가하는 데 사용되는 핵심 결과이다. [67, 68].
Standard setting is an intrinsic part of all assessment activities in medical education, from undergraduate training to physician revalidation efforts. Determining whether a candidate has mastered any number of competencies underlying an examination is a key outcome used not only to render individual judgements but also to evaluate programme effectiveness, teaching efficacy, etc. [67, 68].

무엇보다도, gold standard가 없으며, 모든 cut-score는 궁극적으로 ['역량'을 구성하는 수준]에 대해서 [내용전문가 집단이 내린 정보에 입각한 판단]을 반영한다는 점을 다시 한 번 강조해야 한다. 따라서 표준 설정 프로세스를 체계적으로 따르고 적절한 경험적 증거를 사용하여 이를 사용하는 것이 그러한 연습의 핵심이다.
First and foremost, it is important to reiterate that there is no gold standard and that all cut‐scores ultimately reflect informed judgement from a group of content experts on what level of performance constitutes ‘competency’. Systematically following a standard setting process and supporting its use with appropriate empirical evidence is therefore central to any such exercise.

시험에 대한 cut-score 결정에 어떤 방법을 사용하든, 표준 설정 연습을 수행하기 전에 몇 가지 문제를 해결해야 한다.
Irrespective of the method selected to arrive at a cutscore on an examination, several issues need to be addressed prior to undertaking a standard setting exercise. 

첫째, 심사 위원단은 모든 시험 이해관계자의 축소판으로 보아야 하며, 따라서 지리적 영역, 의과대학 위치, 전문성, 성별 또는 민족성이 직업에 의해 중요하다고 간주되는 특성을 반영해야 한다. 그러한 광범위한 패널을 소집하는 것은 대부분의 전문직 종사자들의 견해가 실무에 통합되고 궁극적으로 표준이 되도록 보장할 것이다.
First, the panel of judges should be viewed as a microcosm of all exam stakeholders and as such should mirror any characteristic deemed important by the profession, be that geographical area, medical school location, specialty, gender, or ethnicity. Convening such a broad panel will ensure that views from most members of the profession are incorporated in the exercise, and ultimately, the standard.
 

모든 표준 설정 패널에 적합한 수의 패널 목록을 결정하는 것도 중요합니다. 너무 적은 수의 패널리스트를 초대하는 것은 바람직하지 않다. 한 명의 반대 심판의 판단이 최종 컷-점수의 가치에 과도한 영향을 미칠 수 있기 때문이다. 반면에 지나치게 대형 패널을 구성하는 것은 비용 효율적이지 않을 수 있습니다. 따라서 위에서 설명한 바와 같이 패널집단에게 원하는 특성을 명확하게 식별하면, 패널의 최적 크기를 결정하는 데 귀중한 정보를 제공할 수 있다.

Determining a suitable number of panellists for any standard setting panel is also critical. Inviting too few panellists is ill‐advised, as the judgements of a single dissenting judge could have an undue impact on the value of the final cut‐score. On the other hand, assembling a large panel may not be cost‐effective. Consequently, clearly identifying the desired characteristics of the group, as outlined above, can provide valuable information for determining the panel’s optimal size. 

일단 cut-score가 설정되면, 정치적 또는 내용적 성격에 기반하여 직업에서 발생할 수 있는 모든 변화에 비추어 지속적인 적합성을 보장하기 위해 모든 검사의 컷(cut) 점수를 주기적으로 재검토하는 것도 중요하다. 마지막으로, 표준 설정 방법이 다르면 컷-점수 값이 달라진다는 점을 다시 언급하는 것이 중요합니다. 

Once set, it is also important that the cutscore for any examination be periodically revisited to ensure its continued appropriateness in light of any changes that may have occurred in the profession, whether political or contentbased in nature. Finally, it is important to restate that different standard setting methods will produce different cutscore values.

모든 표준 설정 연습의 중심 목표는 다음과 같아야 한다.

  • (i) 특정 방법의 선택을 방어한다.
  • (ii) 연습 내내 따르는 모든 단계를 꼼꼼하게 문서화해야 한다.
  • (iii) 기준의 선택은 가능한 한 많은 경험적 증거에 기초하며, 주어진 cut-score 채택의 결과뿐만 아니라, 전체적 인상을 고려한다

The central aim in any standard setting exercise should be to:

  • (i) defend the choice of a particular method,
  • (ii) meticulously document all steps followed throughout the exercise, and
  • (iii) base the selection of the standard on as much empirical evidence as possible, factoring in global impressions as well as the consequences of adopting a given cut‐score.

 

형성적 OSCE가 어떻게 학습을 유도하는가? 전공의 인식 분석 (Med Teach, 2017)
How do formative objective structured clinical examinations drive learning? Analysis of residents’ perceptions
Debra Pugh, Isabelle Desjardins & Kevin Eva

 

 

배경
Background


평가가 학습을 촉진한다는 데는 의학 교육자들 사이에 이견이 거의 없습니다(Newble 2016). 그러나 평가의 역할에 대한 강조가 순전히 더 나은 학습의 평가(AOL)에서 교육자가 학습을 위한 평가(AFL)를 사용할 수 있는 방법에 대한 사고 방식으로 변화함에 따라, 다양한 형태의 평가가 교육적 가치를 갖는 방법과 시기를 결정하는 자극이 있다. 
There is little disagreement among medical educators that assessment drives learning (Newble 2016). However, as the emphasis for the role of assessment shifts purely from better assessment of learning (AOL) toward thinking in ways about how educators can use assessment for learning (AFL), there is an impetus to determine how and when assessments of various forms have educational value. 

평가가 학습자에게 직접적 및 간접적 영향을 미칠 수 있다는 것을 알게 되었습니다(Larsen et al. 2008). [직접적인 효과]는 평가 자체가 학습을 촉진할 때 발생합니다. 예를 들어, [테스트 효과]는 동일한 시간을 할애했을 때, 그냥 공부보다 테스트가 학습에 더 강력한 영향을 미칠 수 있다는 잘 확립된 현상을 말한다(Larsen et al. 2008, 2009; Kromann et al. 2009; Larsen 2013). 반면 [간접적인 효과]는 학습자에게 평가를 받을 것임을 알려 학습 동기를 제공하는 데서 발생합니다. 또한, 시험이 끝난 후 학습자에게 제공되는 피드백은 학습자가 평가가 끝난 후에도 주제를 계속 탐색하도록 동기를 부여할 수 있는 장점과 단점을 강조하여 학습 방향을 안내하는 데 도움이 될 수 있습니다(Agrawal et al. 2012). 
It has become understood that assessment can have both direct and indirect influences on learners (Larsen et al. 2008). Direct effects arise when the assessment itself prompts learning. For example, the testing effect refers to a well-established phenomenon that testing can have a more powerful influence on learning than when an equal amount of time is devoted to studying (Larsen et al. 2008, 2009; Kromann et al. 2009; Larsen 2013). Indirect effects, in contrast, arise from providing an incentive to study by informing learners that they will be assessed. In addition, the feedback provided to learners after a test can help to guide their learning by highlighting areas of strength and weakness that may, in turn, motivate learners to continue exploring the topic after the assessment is over (Agrawal et al. 2012). 

이러한 명확한 평가의 이점에도 불구하고, 시험이 학습에 해로울 수도 있습니다. 예를 들어, 시험 이벤트로 인한 스트레스는 학습자들이 장기적인 이득을 위해 자료를 보다 철저히 이해할 수 있도록 노력을 기울이기보다는, 단기적으로(즉, 시험에서) 성공할 가능성을 극대화하는 피상적인 학습 전략(예: 암기, 주입식, 공부)을 채택하도록 유도할 수 있습니다. (Pashler et al. 2007) 또한 학습자는 테스트의 단서cue를 사용하여 시도하지 않았을 질문에 올바르게 (찍어서) 답할 수 있으며, 이는 자신의 능력에 대한 인상을 부풀릴 수 있습니다(Desjardins et al. 2014). 마지막으로, 수험생들은 점수를 높이기 위해 담합과 부정행위에 의존해야 한다는 압박감을 느낄 수 있으며, 다시 실제 학습과 관련된 노력을 저하시킬 수 있습니다(Henning et al. 2013). 
Despite these clear benefits of assessment, testing can also be detrimental to learning. For example, the stress caused by a testing event may lead learners to adopt superficial learning strategies (e.g. rote memorization, cramming, studying to the test) that maximize their chances of success in the short term (i.e. on an examination) rather than devoting their efforts to truly understanding the material in a way more likely to yield long-term gain (Pashler et al. 2007). Learners may also use cues on the examination to correctly answer questions they would not otherwise have attempted, which may create an inflated impression of their own abilities (Desjardins et al. 2014). And, finally, examinees may feel pressure to resort to collusion and cheating in an attempt to improve their scores, again detracting from efforts related to actually learning the material (Henning et al. 2013). 

시험을 교육학적 개입으로 채택employ하려고 노력하는 사람들에게 이러한 어려움은 평가가 [학습자가 자신의 스킬을 보여주는 상황]을 지켜보는 관찰자가 있는 수행능력-기반performance-based 평가일 때 더욱 복잡해질 가능성이 있다. 
These challenges for those striving to employ tests as pedagogical interventions are likely to be compounded when the assessment in question is performance based with observers watching a learner demonstrate their skills. 

비록 지식은 기초로서 필요하지만, 학습자가 임상 문제에 직면했을 때 그 지식을 통합하고 적용하는 방법을 평가하기 위해 잘 설계된 OSCE를 사용한다(Harden et al. 1975). OSCE는 일반적으로 (임상 기술과 환자와의 관계를 확립하는 능력 등) 서면 테스트의 대상과 다른 구조를 평가하는 데 사용된다(Jefferies et al. 2007). 이 두 가지 요인 모두 OSCE에서 이루어지는 학습이 단순한 [선언적 지식]을 반영할 가능성이 낮으며, 다양한 방식으로 해석가능한 상호작용을 수반하는 [복잡한complex 행동]을 반영할 가능성이 높다는 것을 시사한다. 
Although they require a foundation of knowledge, well-designed OSCEs are used to assess how learners integrate and apply that knowledge when faced with a clinical problem (Harden et al. 1975). OSCEs are generally used to assess different constructs than those that are targeted by written tests, such as clinical skills and the ability to establish rapport with a patient (Jefferies et al. 2007). Both of these factors suggest that the learning that takes place in OSCEs is less likely to reflect simple declarative knowledge and more likely to reflect complex behaviors that will interact in variably interpreted ways. 

따라서 OSCE를 둘러싸고 이뤄지는 학습은 (서면 테스트와 비교했을 때) 의사가 공식 교육을 완료한 후 경험하게 될 평가 모멘트의 영향에 대한 더 나은 근사치better approximation를 제공할 수 있습니다. 그러나 수행능력-기반 평가에서 따라오는 관찰은 학습자가 자연스럽게 무엇을 할 것인지를 보여주기보다는 '연기play a role'을 해야 한다고 느끼게 만듦으로써 '연출적staging' 행동으로 이어진다는 점을 명심해야 한다(Gormley et al. 2016; Shea and Norcini 2017). 이는 학습자, 특히 상급advanced 교육 단계에 있는 학습자의 경우 [잘 설계된 OSCE조차 비현실적인 것으로 간주]한다면 교육적 가치에 대한 냉소를 유발할 수도 있다. 이 모든 내용을 종합하여 대학원(전공의) 교육 환경에서 형성적목적을 위해 표면적으로 운영되는 OSCE가 학습을 장려하기 위해 평가를 설계할 때 고려해야 하는 긴장을 더 잘 이해할 수 있는 특히 강력한 컨텍스트를 제공할 것임을 시사한다. 

As such, learning that takes place around an OSCE could provide a better approximation (relative to written tests) of the influence of assessment moments that physicians will experience after their formal training is completed. It is important to keep in mind, however, that the observation required for performance-based assessment leads to “staging” behaviors as learners can feel compelled to “play a role” rather than demonstrate what they would naturally do (Gormley et al. 2016; Shea and Norcini 2017). This creates the potential that learners, especially those operating at an advanced stage of training, will view even a well-designed OSCE as inauthentic, thus engendering cynicism regarding its educational value. All of this sums together to suggest that an OSCE that is ostensibly run for formative purposes in a postgraduate (residency) training context would provide a particularly powerful context within which to better understand the tensions that need to be taken into account when designing assessments to encourage learning. 

방법
Methods


형성적 OSCE는 오타와 대학에서 대학원 과정(PGY) 1~4학년 레지던트에게 Progress test(즉, 여러 단계의 교육에서 학습자에게 시행되는 종합 검사)로 시행되었습니다. 같은 날 저녁, [9개 스테이션]의 [5개 동시회로]가 2차례 운행돼 모든 전공의가 이용할 수 있었다. 

A formative OSCE was administered to Internal Medicine (IM) residents in postgraduate years (PGY) 1–4 at the University of Ottawa as a progress test (i.e. a comprehensive examination administered to learners at different stages of training). Five simultaneous circuits of nine stations were run twice in the same evening to accommodate all residents. 

OSCE 진행률 테스트 형식
OSCE progress test format



스테이션의 길이는 12분, 구두 피드백은 1분이었다. 1분이 긴 시간은 아닌 것으로 보일 수 있지만, 이 맥락에서 우리의 이전 연구는 심사관들이 1분 안에 평균 16명의 전공의 피드백 포인트를 제공하는 것으로 입증했다(Humphrey-Murto et al. 2016). 전공의는 스테이션 유형에 따라 선택된 스테이션별 체크리스트와 다수의 5점 평가 척도(예: 조직 기술, 환자와의 관계)를 사용하여 의사 검사자에 의해 채점되었다.
Stations were 12min in length, accompanied by 1min of verbal feedback. While a single minute may not seem like a long time, our previous research in this context has demonstrated that examiners provide an average of 16 residents feedback points to in 1 min (Humphrey-Murto et al. 2016). Residents were scored by physician examiners using a combination of station-specific checklists and a number of five-point rating scales (e.g. organizational skills, rapport with patient) that were selected based on station type.

참여자 Participants

설문 Surveys

참가자들은 검사 전(사전 검사), 검사 직후(사후 검사), 검사 후 결과(사후 결과)의 세 가지 설문조사를 완료해야 했습니다. 자세한 내용은 보충 부록을 참조하십시오. 
Participants were asked to complete three surveys: before the examination (pre-examination), immediately following the examination (postexamination), and after the examination, results were made available (postresults); see Supplementary Appendix. 

운영 Administration

온라인 설문조사 서비스(Fluid Survey VR)를 사용하여 설문조사를 배포했으며 선택된 응답(즉, 라이커트 등급 척도)과 구성된 응답(즉, 서술형 논평) 질문을 모두 포함했다.
Surveys were distributed using an online survey service (Fluid Surveys VR ) and included both selected-response (i.e., Likert-like rating scales) and constructed response (i.e. narrative comments) questions.

분석 Analyses

상위 성과자와 하위 성과자 간의 차이는 총 OSCE 점수의 [중위 분할median splits]을 사용하여 조사되었으며, 전공의는 특정 대학원 연도에 상위 성과자 또는 하위 성과자로 분류되었다. 우리는 성취도가 낮은 사람이 성취도가 높은 사람과 비교했을 때 다른 학습 전략을 채택할 것이라는 가설을 세웠습니다. 혼합 설계 분산 분석을 사용하여 검사 주기 동안 낮은 성과자와 높은 성과자의 등급의 차이뿐만 아니라 그러한 등급의 변화(즉, OSCE 이후 및/또는 결과를 받은 후 참가자의 인식이 변경되었는지 확인)를 조사했습니다. 구면성에 대한 가정을 위반한 경우, Greenhouse–Geisser corrections을 사용했다. 
Differences between high and low performers were explored using median splits on total OSCE score with residents classified as either high or low performers within their particular postgraduate year. We hypothesized that low achievers would adopt different learning strategies when compared to high achievers. A mixed design ANOVA was used to examine differences in low and high performers’ ratings as well as changes in those ratings over the examination cycle (i.e. to see if participants’ perceptions changed after the OSCE and/or after they received their results). Where assumptions of sphericity were violated, Greenhouse–Geisser corrections were used. 

결과
Results


참가자는 OSCE에 등록된 거주자의 분포에 근거하여 예상대로 모든 교육 수준에 걸쳐 비교적 고르게 분포되었다(표 1). 
Participants were relatively evenly distributed across all levels of training, as expected based on the distribution of residents enrolled in the OSCE; (Table 1). 



선택한 응답 질문에 대한 테마 생성
Theme generation for selected response questions


참가자들에게 OSCE의 목표에 대해 묻는 질문에서는 세 가지 주제를 파악했습니다. 

  • 성과 지향 목표(즉, 참가자가 점수를 잘 받기를 원했음을 나타내는 목표) 
  • 숙달 지향 목표(즉, 참가자가 임상 기술 향상을 원했음을 나타내는 목표) 및 
  • 피드백을 받는 것(즉, 참가자가 OSCE로부터 성과에 대한 지침을 구하고 있었다는 것을 나타내는 목표)

For the question asking participants about their goals for the OSCE, three themes were identified:

  • performance-oriented goals (i.e. goals indicating the participant wanted to score well),
  • mastery-oriented goals (i.e. goals indicating the participant wanted to improve their clinical skills) and
  • receiving feedback (i.e. goals indicating the participant was seeking guidance about their performance from the OSCE). 


OSCE의 가치에 대한 참가자의 인식과 관련된 항목은 [타당한 평가 수단]과 [교육적 가치]라는 주제로 코드화되었다. 
Items related to participants’ perceptions about thevalue of the OSCE were coded into the themes of:

  • valid means of assessment and
  • educational value. 



OSCE를 준비하는 데 사용된 학습 활동의 유형에 대한 질문과 OSCE에서 점수를 잘 받는 방법에 대한 참가자의 인식에 대한 질문은 [내용 중심 전략]과 [시험 전략]의 두 가지 주제로 나뉘었다. 
Items associated with both the question about the types of study activities used to prepare for the OSCE and the question about participant perceptions of how to score well on the OSCE were divided into two themes:

  • content-focused and
  • test-taking strategies. 




OSCE 목표
Goals for the OSCE

성능 지향 목표: 연습 OSCE는 처음이기 때문에, 로얄 칼리지 OSCE의 형식을 익히고 다음에 시험을 볼 때 나아지기를 바라는 것이 저의 주된 목표입니다. (C3Q; PGY-2) 
Performance-oriented goals: Since it will be my first time doing the practice OSCE, my main goal is to familiarize myself with the format of a Royal College OSCE and hopefully improve the next time I take the exam. (C3Q; PGY-2) 

숙달 지향 목표: OSCE는 로얄 칼리지에 대비하여 PGY4급으로 설계되어 있기 때문에, 저는 R1로서 이 경험을 통해 (이 시험에 합격할 것이라고 기대보다는) 배우는 것이 목표입니다. (A1P; PGY-1) 
Mastery-oriented goals: Since the OSCE is designed for the PGY4 level in preparation for the Royal College, my goal is to learn from this experience as an R1 and not expecting (sic) to pass the exam. (A1P; PGY-1) 

피드백 요청: 내용만 있는 것이 아니라, 그런 관점에서 저의 '시험정신exammanship'과 로얄 칼리지 준비에 대한 피드백을 원합니다. (A1E; PGY-3) 
Desire for feedback: I would like feedback on my ‘exammanship’ (sic) and Royal College preparation from that point of view, rather than just content alone. (A1E; PGY-3) 

표 2에서 볼 수 있듯이, 고성능 전공의와 저성능 전공의 모두 좋은 성과를 거두기를 원했다. 시간에 따라 변하기는 했지만 [성과 지향적 진술]과 관련된 평균 등급은 일반적으로 높았다(F→4.1 p→0.03). 사후 검사(평균 4.2, SE→0.15)와 사후 결과(평균 4.3, SE→0.10) 조사와 비교했을 때 사전 검사(평균 →4.6, SE→0.11)에서 평균 등급이 더 높았다. 높은 성과 대 낮은 성과자의 주효과는 관찰되지 않았으며(F→0.52, p→0.48), 상황(즉 사전 검사, 사후 검사, 사후 결과)은 성과 그룹과 상호작용하지 않았다(F→3.2, p→0.07).
As shown in Table 2, both high- and low-performing residents wanted to perform well. Mean ratings related to performance-oriented statements were generally high, although they changed over time (F¼4.1 p¼0.03). Post hoc tests indicated that mean ratings were higher in the pre-examination survey (mean¼4.6, SE¼0.11) when compared to the postexamination (mean¼4.2, SE¼0.15) and postresults (mean¼4.3, SE¼0.10) surveys. No main effect of high versus low performers was observed (F¼0.52, p¼0.48) and occasion (i.e. pre-examination, postexamination, postresults) did not interact with performance group (F¼3.2, p¼0.07).

OSCE를 사용하여 임상 기술을 개선하고자 하는 참가자의 욕구를 나타내는 [숙련 중심의 진술]에 대한 평점은 OSCE 직후 내려갔으나, 참가자가 결과를 받은 후 상승하였다(F§123, p<0.001). 수행능력 수준별 차이는 없었으며(F→0.01p→0.91) 경우에 따라 성능 수준(F→0.64, p→0.53)과 상호 작용하지 않았습니다. 
Ratings for mastery-oriented statements, indicating participants’ desire to use the OSCE to improve their clinical skills, went down immediately after the OSCE but then increased after participants received their results (F¼123, p<0.001). There was no difference by performance level (F¼0.01 p¼0.91) and, again, occasion did not interact with performance level (F¼0.64, p¼0.53). 

[피드백 수신]과 관련된 진술의 등급은 OSCE를 예상하여 피드백을 받는 것의 중요성과 관련된 진술에 대한 평점이 가장 높았습니다. 이러한 등급이 사전 조사와 후속 조사(F→8.7, p→0.001) 사이에 감소하였고, 성능 수준(F→1.3, p→0.26)과 상호작용(F→3.0, p→0.07)의 차이가 없었다.

Ratings for statements related to the importance of receiving feedback were greatest in anticipation of the OSCE as these ratings decreased between the pre-examination survey and subsequent surveys (F¼8.7, p¼0.001), with no difference between performance level (F¼1.3, p¼0.26) and no interaction (F¼3.0, p¼0.07).



OSCE에 대한 인식
Perceptions of the OSCE


시간에 따라 설정한 목표에 대한 참가자의 반응이 동적으로 변화했음에도 불구하고, OSCE의 타당성과 관련된 참가자의 평점은 표 3에 예시된 바와 같이 OSCE의 교육적 가치에 대한 평점(F of0.56, p570.57)과 마찬가지로 안정적이었다(F33.4, p)0.05) 다시 말하지만, 이러한 등급은 성능 수준에 따라 차이가 없었으며, 발생 및 성과 수준(두 주제 모두 F<2.0, p>0.15)은 상호 작용하지 않았다.
Despite the dynamic changes in participants’ responses regarding the goals they set over time, their ratings related to the validity of the OSCE were stable (F¼3.4, p¼0.05) as were their ratings of the educational value of the OSCE (F¼0.56, p¼0.57), as illustrated in Table 3. Again, these ratings did not differ by performance level (F<0.50, and p>0.45 for both themes) and occasion and performance level did not interact (F<2.0, p>0.15 for both themes).

OSCE 직후에 설문조사를 했을 때, 거의 모든 참가자(n=34, 97%)가 무언가를 배웠다고 보고했다. 사후 평가 설문 조사에 대한 대부분의 논평은 시험 전략 개선과 관련하여 무엇을 배웠는지에 초점을 맞췄다. 
When surveyed immediately following the OSCE, almost all participants (n¼34, 97%) reported that they had learned something. Most of the comments on the postexamination survey focused on what was learned in relation to improving test-taking strategies: 

반면, 결과가 발표된 후 OSCE로부터 무엇을 배웠는지에 대한 질문을 받았을 때, 참가자들의 서술적 논평은 OSCE가 지식의 상당한 gap를 식별하도록 했다는 사실을 강조하였다.
In contrast, when asked about what they had learned from the OSCE following the release of the results, participants’ narrative comments highlighted the fact that the OSCE had allowed them to identify significant gaps in their knowledge:

학습을 안내하는 데 유용한 요소를 물었을 때, 참가자의 평점은 시험자 피드백에 대해 상대적으로 중립적이었다(평균 §3.4, SD00.79). 서술적 논평은 일부 참가자가 심사자 피드백의 타당성의 가치를 떨어뜨리는 이분법dichotomy을 언급되었고, 다른 참가자는 더 많은 피드백을 요구하였다.  
When asked what factors were useful in guiding their learning, participants’ ratings were relatively neutral regarding examiner feedback (mean¼3.4, SD¼0.79). Narrative comments reflected a dichotomy in which some participants discounted the validity of examiner feedback, while others called for more feedback:  

스터디 활동에 소요된 시간
Time spent on study activities


비록 이것이 형성시험이었지만, 약 절반의 참가자(n¼18, 51%)는 OSCE를 위해 특별히 준비하는 데 시간을 보낸다고 보고했다. 
Although this was a formative examination, about half theparticipants (n¼18, 51%) reported spending time specific-ally preparing for the OSCE. 

표 4에 예시된 점수는 연구 활동에 소요된 시간과 관련하여 참가자의 의도와 경험 간에 차이가 존재했음을 시사한다. [시험 전 설문]에서 교육생들에게 연구 활동에 얼마나 많은 시간을 할애할 것으로 예상했는지를 물었을 때, 후보자들에게 다양한 학습 활동에 실제로 얼마나 많은 시간을 소비했는지를 보고하도록 요청했을 때(평균 2.2, SE→0.20) [시험 후 설문]보다 반응이 유의미하게 높았다(평균 1.1, SE→0.22) [시험 결과 후]에서는, 참가자들에게 미래 OSCE 연구에 얼마나 많은 시간을 할애할 계획이냐는 질문을 받았을 때, 그들의 추정치는 다시 사전 심사 수준(평균 § 2.3, SE se 0.25)으로 올라갔다. 이러한 등급은 성능 수준(두 주제 모두 F<0.6, p>0.4)에 따라 다르지 않았으며, 성능 수준과 경우가 상호 작용하지 않았다(두 주제 모두 F<0.6, p>0.5).
The scores illustrated in Table 4 suggest that, with regards to time spent on study activities, differences existed between participants’ intentions and their experience. Preexamination, when trainees were asked how much time they anticipated they would spend on study activities, responses were significantly higher (mean¼2.2, SE¼0.20) than they were postexamination, when candidates were asked to report how much time they had actually spent on various study activities (mean¼1.1, SE¼0.22). Postresults, when participants were asked how much time they would plan to devote to studying for future OSCEs, their estimates came up again to the pre-examination level (mean¼2.3, SE¼0.25). These ratings did not differ by performance level (F<0.6, p>0.4 for both themes) nor did performance level and occasion interact (F<0.6, p>0.5 for both themes).

 

OSCE에서 점수를 잘 받는 방법
How to score well on the OSCE


OSCE에서 점수를 잘 받으려면 더 많은 컨텐츠 지식이 필요하다는 참가자의 인식과 관련된 등급이 시간이 지남에 따라 변경되었습니다(F¼5.0, p00.01). [시험 후 설문]은 표 5에 예시된 바와 같이 [시험 전 설문](평균 3 3.6, SE 0 0.09)와 [결과 후 설문](평균 3 3.9, SE 0 0.10) 사이에 이러한 차이가 발생한 것으로 나타났다. 성능 수준의 주효과는 없었습니다(F→0.099, p→0.75). 그러나 성능과 상황 사이에는 교호작용이 있었습니다 (F→6.5, p→0.005). 사후 테스트 결과 사전 심사 후 콘텐츠 지식의 중요성에 대한 낮은 성과자의 인상이 높아진 반면, 높은 성과자의 평점은 OSCE 이전 낮은 성과자의 평점보다 높아 시간이 지날수록 높은 것으로 나타났다. 시간에 따른 시험 응시 전략의 중요성에 대한 참가자의 평가에는 차이가 없었다(F→0.17, p→0.81).
Ratings related to participants’ perceptions that more content knowledge is required to score well on the OSCE changed over time (F¼5.0, p¼0.01). Post hoc tests indicated that this difference arose between the pre-examination (mean¼3.6, SE¼0.09) and postresults (mean¼3.9, SE¼0.10) surveys, as illustrated in Table 5. There was no main effect of performance level (F¼0.099, p¼0.75). However, there was an interaction between performance and occasion (F¼6.5, p¼0.005). Post hoc tests indicated that low performers’ impressions of the importance of content knowledge increased after the pre-examination survey, whereas high performers’ ratings were higher than low performers’ ratings pre-OSCE and remained high over time. There was no difference in participants’ ratings of the importance of test-taking strategies over time (F¼0.17, p¼0.81).

OSCE를 어떻게 준비했는지를 물었을 때, 가장 일반적인 연구 전략에는 콘텐츠 지식 향상(n=18), 정기 임상 순환 시 환자 검사(n=13), 임상 검사 관련 비디오 시청(n=10)이 포함되었습니다. 테스트맨십과 관련된 전략은 덜 자주 표현되었다. 즉, 이전 OSCE 체크리스트(n→5)와 OSCE 준비 과정(n→1)의 검토였다. 
When asked how they had prepared for the OSCE, the most common study strategies involved improving content knowledge: reading around areas of content (n¼18), examining patients during regular clinical rotations (n¼13) and watching videos related to clinical examinations (n¼10). Strategies related to testmanship were less commonly expressed: review of old OSCE checklists (n¼5) and OSCE prep courses (n¼1). 

고찰
Discussion

시험전 효과
Pretest effects


비록 형성적 시험이었지만, OSCE는 시험 전 단계에서 공부 습관에 영향을 주었다. 참가자들은 OSCE가 [콘텐츠 지식 향상]과 [시험 점수 극대화]를 목적으로 하는 학습 행동에 참여하도록 이끌었다고 보고했습니다. 이는 필기 테스트에서 보이는 것과 유사하다(Cilliers et al. 2012). 흥미롭게도 학습자가 종종 성과 지향적 또는 숙달 지향적(Chen et al. 2016)으로 분류되지만, 참가자들은 OSCE를 극복해야 할 장애물이자 학습과 피드백을 받을 수 있는 기회로 보고 있음을 시사했다.
Although it was a formative examination, the OSCE influenced study habits in the pre-assessment phase. Participants reported that the OSCE led them to engage in study behaviors aimed at both improving content knowledge and maximizing their test scores, which parallels what is seen in written tests (Cilliers et al. 2012). Interestingly, although learners are often categorized as being either performance oriented or mastery oriented (Chen et al. 2016), participants’ responses suggested that they viewed the OSCE as both a hurdle to overcome and an opportunity to learn and receive feedback, as reflected by their goals and study strategies. 

의료계 전공의들이 성공하기 위해 학문과 높은 점수를 모두 추구하는 데 많은 시간을 보냈다는 점에서 이는 놀라운 일이 아닐 수 있다. 따라서 학습자의 마음속에서 [수행을 잘 하는 것]과 [자료를 숙달하는 것]은 [맥락에 따라서 중요도가 조금씩 달라지는 보완적 목표]로 개념화될 수 있습니다. 학습자가 OSCE를 [학습에 대한 평가]와 [학습을 위한 평가] 둘 다로 보는 것 역시, 이러한 구조 사이(AoL과 AfL)에 상당한 기능적 중복이 있으며, 평가 순간을 반드시 하나의 범주 또는 다른 범주로 분류하는 것으로 생각하는 것은 인위적일 수 있음을 시사한다. 확실히, 모든 평가가 어느 정도 극복해야 할 장애물로 간주될 수 있기 때문에 [학습자는 교육자의 방식대로 총괄적 평가와 형성적 평가를 구분하지 않는다]고 제안하는 문헌이 있다(Bok et al. 2013; Heeneman et al. 2015). 
This may not be surprising, given that medical residents have spent much of their academic career pursuing both knowledge and high marks in order to be successful. Therefore, performing well and mastering the material may more accurately be conceptualized as complementary goals that are more or less foregrounded in the minds of learners, depending on context. That learners appeared to view such a low stakes OSCE as both an assessment of their learning and an assessment for their learning suggests that there is considerable functional overlap between these constructs and that it may be artificial to think of assessment moments as necessarily falling into one category or the other. Certainly, there is literature to suggest that learners do not differentiate between formative and summative assessment the way educators do, as all assessment may be viewed as a hurdle to be overcome to some extent (Bok et al. 2013; Heeneman et al. 2015). 

순시험 효과
Pure test effects

시험 행위 자체가 필기 시험(시험 강화 학습)을 통한 학습으로 이어지는 것으로 나타났다. 필기 시험 사용에 대한 여러 연구에서는 혼자 공부하는 것에 비해 시험이 더 많은 학습과 더 나은 학습 이전으로 이어진다는 것을 발견했지만, 이것이 수행능력 기반performance-based 시험에서도 해당되는지transfer 여부는 명확하지 않다(Butler 2010; Larsen et al. 2013). [수행능력 기반 테스트를 보는 것 자체]로도 결과 유사한 효과가 발생한다는 징후가 있었지만, 그러한 현상은 잘 확립되지 않았다(Kromann et al. Kromann et al. 2009). 현재 연구에서 거의 모든 참가자는 이 Formative OSCE에 참여함으로써 무언가를 배웠다고 보고하였다. 
The act of testing itself has been shown to lead to learning with written tests (test-enhanced learning). Several studies on the use of written tests have found that testing leads to more learning and better transfer of learning when compared to studying alone, but it is not clear if this transfers to performance-based tests (Butler 2010; Larsen et al. 2013). While there have been indications that similar effects occur as a result of sitting performance-based tests, that phenomenon is less well established (Kromann et al. 2009). In the current study, almost all participants reported that they had learned something by participating in this formative OSCE. 

평가 결과가 모두 공개되고 나면, [임박한 시험으로 인한 스트레스]가 해소되었기 때문인지, 수행의 중요성에 대한 참가자들의 상대적 인식이 시간이 지날수록 줄어든 것으로 보인다. 반면 [내용 숙달]의 중요성에 대한 평가는 시험 직후 낮아졌다가 결과 발표 직후 다시 올라갔다. 
Based on their ratings, it appears that participants’ relative perceptions of the importance of performing well decreased over time, perhaps because the stress associated with the impending examination had been removed. In contrast, ratings of the importance of mastering the content decreased immediately following the examination and then bounced back up following the release of the results. 

주관식 응답에서는 [미래의 OSCE에서 성공할 수 있도록 하는 시험 전략testmanship에 대한 통찰력을 얻는 데 도움이 되었다]는 응답이 많았다. 이와는 대조적으로, 결과 발표 후 완료된 후속 조사에서 무엇을 배웠는지에 대한 질문을 받았을 때, 참가자들의 코멘트는 [내용 지식]에 초점을 맞추는 경향이 있었다. 이것은 평가의 즉각적인 위협을 제거함으로써, 참가자들이 [단순히 좋은 성과]를 내는 것을 목표로 하기보다는, [학습에 더 집중]할 수 있게 되었다는 사실을 반영할 수 있다. 또한 평가가 [성과 중심의 근시안적 태도]를 유도하는 경향은 [일시적]일 수 있음을 시사합니다.
many of the narrative comments that the reflected the perception OSCE helped them to gain insight into testmanship strategies to allow them to be successful on future OSCEs. In contrast, when asked about what they had learned in the follow-up survey completed after the release of the results, participants’ comments tended to focus on content knowledge. This may reflect the fact that removal of the immediate threat of being assessed allowed participants to better focus on their learning rather than simply aiming to perform well, while also suggesting that any tendencies assessments have toward inducing performance-focused shortsightedness may be transient.

시험 후 효과
Post-test effects


일부는 제공된 피드백의 가치를 평가절하하였고, 다른 일부는 더 많은 피드백을 추구하였다. 이는 Formatie OSCE에서 시험자 피드백이 어느정도나 학습의 중요한 modulator가 되는지에 대해 의문을 제기한다(Eva et al. 2010).
Some discounted the value of the feedback provided, while others sought more feedback. This raises questions about the extent to which examiner feedback is an important modulator of learning in a formative OSCE (Eva et al. 2010).

고성능 및 저성능
High versus low performers


놀랍게도 OSCE에 대한 목표, OSCE의 가치에 대한 인식, 연구 활동에 소요되는 시간 등에서 [낮은 성과자와 높은 성과자의 차이는 없었다]. 우리는 저성취자들이 학습에 더 성과 지향적인 접근법을 채택하거나 이러한 평가 형태에 대해 더 부정적인 견해를 가질 수 있다는 가설을 세웠으나, 이에 대한 어떠한 증거도 찾지 못했으며, assessment practice의 주된 영향이 적어도 형성적 맥락에서는 전반적 숙련도에 좌우되지 않을 수 있음을 시사했다.  
Surprisingly, there were no differences between low and high performers in terms of their goals for the OSCE, their perception of the value of the OSCE, or time spent on study activities. We had hypothesized that low performers might employ a more performance-oriented approach to learning or that they might have more negative views with regards to this form of assessment, but we did not find any evidence of this, suggesting that the leading influences of assessment practices may not be dependent on the overall proficiency of the examinee, at least in a formative context. 

다만 점수를 잘 받는 것에 대한 [콘텐츠 관련 지식]의 중요성에 대해서, 고득점자의 인식은 시험 전-후-결과후에 걸쳐 안정적인 반면, 저득점자의 인식은 OSCE 시험 이후 높아진 점이 눈에 띈다. 이는 저성취자들이 처음에는 콘텐츠 관련 지식의 가치를 충분히 인식하지 못했지만, OSCE 경험은 그들에게 그들의 약점에 대한 몇 가지 통찰력을 제공했을 수 있음을 시사할 수 있다.
However, it is notable that high performers’ recognition of the importance of content-related knowledge in order to score well was stable throughout the examination period, whereas low performers’ ratings increased after the OSCE. This may suggest that, although low performers did not fully appreciate the value of content-related knowledge initially, the OSCE experience may have provided them with some insights into their weaknesses.

한계 Limitations



결론 Conclusions

이 연구는 OSCE 관련 학습이 언제 어떻게 발생하는지 설명하는 예비 단계를 나타냅니다. 본 연구에서는 전공의들이 OSCE를 이수할 수 있는 기회를 학습경험(AFL)으로 평가한 것으로 보이지만, 이는 형성적이고 저부담 시험임에도 불구하고 성과를 잘 내고자 하는 욕구(AOL)에 의해 다소 억제되었다. 필기 시험(Cilliers et al. 2010)에서 볼 수 있듯이, OSCE는 학습 전(즉, 학습 습관의 변경) 순수(즉, 학습으로 직접 연결) 단계와 사후(즉, 학습 목표의 개발로 연결) 단계에서 양성과 음성으로 학습에 모두 영향을 미치는 것으로 보인다. 

This study represents a preliminary step in explaining when and how OSCE-related learning occurs. It would seem that the residents in this study valued the opportunity to complete an OSCE as a learning experience (AFL), but this was tempered somewhat by a desire to perform well (AOL) despite the fact that it was a formative, low stakes, examination. As has been shown with written tests (Cilliers et al. 2010), OSCEs seem to influence learning in both positive and negative ways in the pre(i.e. by changing study habits) pure(i.e. by directly leading to learning) and post-test (i.e. by leading to the development of learning goals) phases. 


형성 평가: 미래의 학습을 안내하고, 확신을 주며, 성찰을 촉진하고, 미래의 가치를 형성하는 평가의 토론 형식입니다.

Formative assessment: A discussive form of assessment that guides future learning, provides reassurance, promotes reflection, and shapes future values. 

Reference: Epstein R. (2007) Assessment in Medical Education. New England Journal of Medicine; 356:387–396. 

 

 

 

 


Med Teach. 2018 Jan;40(1):45-52.

 doi: 10.1080/0142159X.2017.1388502. Epub 2017 Oct 16.

How do formative objective structured clinical examinations drive learning? Analysis of residents' perceptions

Debra Pugh 1Isabelle Desjardins 1Kevin Eva 2

Affiliations collapse

Affiliations

  • 1a Department of Medicine , University of Ottawa , Ottawa , Canada.
  • 2b Department of Medicine , University of British Columbia and Senior Scientist at the Centre for Health Education Scholarship (CHES) , Vancouver , Canada.
  • PMID: 29037098
  • DOI: 10.1080/0142159X.2017.1388502Abstract
  • Introduction: Although several studies have explored the relationship between learning and written tests, little is understood about how performance-based examinations influence learning. The purpose of this study was to explore how a formative objective structured clinical examination (OSCE) drives learning.Results: Participants' goals for the OSCE related to performance, mastery and feedback. Almost all participants reported that they had learned something from the OSCE (94%) and most participants generated learning goals after the OSCE (71%). High performers appeared to recognize the importance of content-related knowledge for scoring well before and after the OSCE, whereas low performers may have under-estimated its importance until after the examination.
  • Discussion: Participants viewed a formative OSCE as both a hurdle to overcome (assessment of learning) and an opportunity to learn (assessment for learning). Understanding how OSCEs influence study behavior can help guide the development of assessments that promote learning.
  • Methods: We administered surveys to residents (n = 35) at three time points to determine if and how an OSCE influenced their learning: before and immediately following the OSCE, and after the distribution of their results. Differences in quantitative responses between high- and low-performing residents and across time were compared using repeated-measures ANOVA. Thematic analysis was used to analyze narrative comments.

원하는 것을 측정하기 위한 OSCE 개발을 위한 12가지 팁(Med Teach, 2017)
Twelve tips for developing an OSCE that measures what you want
Vijay John Daniels & Debra Pugh

 

도입
Introduction

OSCE(Objective Structured Clinical Examination)는 1975년(Harden et al. 1975)에 처음 도입되었으며, 그 이후 지역 기관과 국가 고위험 검사 모두에서 임상 능력 평가에 OSCE가 광범위하게 사용되고 있다(Patrício et al. 2013). 
The Objective Structured Clinical Examination (OSCE) was first introduced in 1975 (Harden et al. 1975) and, since that time, OSCEs have been used extensively (Patrıcio et al. 2013) for assessing clinical skills, both at local institutions and on national high-stakes examinations. 

타당성에 대한 우리의 이해는 여러 개별 타당성 유형(예: 기준, 내용 유효성 등)에서 타당성에 대한 주장을 뒷받침하기 위해 다양한 근거 출처를 사용하는 구성 타당성의 통일적 개념으로 발전해 왔다.

  • 첫째는 메식(Messick 1989)의 5가지 출처의 프레임워크를 통해
  • 그리고 더 최근에는 케인(Kane)의 주장argument-기반 검증 접근법(Kane 2013)이다

Our understanding of validity has evolved from several separate types of validity (e.g. criterion, content validity etc.) to a unitary concept of construct validity in which various sources of evidence are used to support an argument for validity,

  • first through Messick’s framework of the five sources (Messick 1989) and, more recently,
  • through Kane’s argument-based approach to validation (Kane 2013). 

 

쿡 외 연구진(2015)이 요약한 바와 같이, 케인의 프레임워크는 관찰에서 평가에 기초한 의사결정에 이르기까지 유효한 해석을 보장하기 위한 4가지 핵심 단계에 초점을 맞춘다.

  • 첫 번째 단계는 관찰된 성과를 점수(점수)로 변환하여 점수가 최대한 성과를 반영하도록 하는 것입니다.
  • 두 번째 단계는 특정 검사에서 테스트 성능 환경(즉, 가능한 모든 동등한 테스트일반화)에 이르는 점수를 일반화하는 것입니다.
  • 세 번째는 테스트 환경에서의 성능을 실제 삶(Extrapolation)으로 외삽하는 것입니다.
  • 마지막으로 네 번째 단계는 의사결정을 위한 정보의 해석입니다(함의implication). 

 

As summarized by Cook et al (2015), Kane’s framework involves focusing on four key steps to ensure valid interpretation from observation to making a decision based on the assessment.

  • The first step is translation of an observed performance into a score (Scoring) ensuring the score reflects the performance as best as possible.
  • The second step is generalizing the score from the specific examination to the test performance environment (i.e. all possible equivalent tests – Generalization).
  • Third is extrapolating performance in the test environment to real life (Extrapolation).
  • And finally the fourth step is the interpretation of this information for making a decision (Implications).

 

타당성에 대한 두 가지 주요 위협은 다음과 같다.

  • 구인-대표성 부족(샘플링이 너무 적거나 부적절한 표본 추출)
  • 구인-무관 분산(점수 변동을 초래하는 관심 구성과 관련이 없는 것)

The two main threats to validity are

  • construct underrepresentation (too little sampling or inappropriate sampling) and
  • construct-irrelevant variance (anything unrelated to the construct of interest that results in score variability). 

 

본 논문의 목적은 케인의 타당성 프레임워크의 렌즈를 통해 바라본 바와 같이 원하는 것을 측정하는 OSCE를 개발하기 위한 12가지 팁을 제공하는 것입니다. 12가지 팁은 OSCE를 개발할 때 사용할 수 있는 순서로 제시됩니다. 각 팁의 핵심 사항은 표 1에 요약되어 있습니다.
the purpose of this paper is to provide 12 tips for developing an OSCE that measures what you want, as viewed through the lens of Kane’s validity framework. The 12 tips are presented in the order they would be operationalized when developing an OSCE. Key points from each tip are summarized in Table 1,

팁 1 OSCE 결과의 용도를 결정합니다.
Tip 1 Decide on the intended use of the results from your OSCE

OSCE의 개발은 끝에서 시작해야 합니다. 결과를 가지고 어떤 결정을 내리게 됩니까? OSCE는 형성적입니까 아니면 총괄적입니까? 이 질문에 대한 답은 케인의 모델의 Implication 단계에 대한 증거를 제공합니다. 그리고 이 단계가 마지막이지만, 이러한 질문에 대한 답은 나머지 OSCE 개발의 틀을 만들 것이며, 따라서 이러한 질문들이 왜 먼저 이루어져야 하는지에 대한 것입니다. 예를 들어, 저부담의 시험은 학습자에게 피드백을 제공하는 데 사용되며, 이는 고부담의 임상실습후 및 국가 면허 시험과 달리, 개별적 코칭이나 재교육을 위하여 사용할 수 있다. 이러한 이유로 저부담 시험은 고부담 검사와 같은 수준의 점수 신뢰도가 필요하지 않으므로(Downing 2004) 더 짧은 검사가 가능하다
Development of an OSCE should begin with the end: What decisions will I make with the results?; Is the OSCE formative or summative? The answers to these questions provide evidence for the Implications stage of Kane’s model. And though this stage is last, the answers to these questions will frame the rest of OSCE development, and hence why they must be asked first. For example, a lower stakes exam would be used to provide feedback to learners, and could lead to individual coaching or remediation, compared to a higher stakes end-of-clerkship or national certification examination, that can result in repeating a clerkship or year of residency. For these reasons, a lower stakes exam does not require the same level of score reliability as a high stakes examination (Downing 2004), and so a shorter examination is possible. 

또 다른 참신한 디자인은 모든 응시자가 상대적으로 짧은 심사 참여가 요구되는 순차적 OSCE이다. 그런 다음, 사전에 정의된 표준이 미치지 못하는 사람만 전체 OSCE에 참여하여 기술을 평가해야 합니다.
Another novel design is the sequential OSCE in which all candidates would be required to participate in a relatively short screening examination. Then, only those who perform below a predefined standard would subsequently be required to participate in a full-length OSCE to assess their skills.

팁 2 OSE가 평가해야 할 항목 결정
Tip 2 Decide what your OSCE should assess

OSCE는 전체 컨텐츠 도메인을 평가하는 데 사용할 수 없습니다. 오히려 학습자가 습득해야 할 지식과 기술의 샘플을 평가하는 데 사용됩니다. OSCE가 교육 목표를 반영하도록 하려면 청사진을 작성하는 것이 중요합니다. 청사진blueprint 작성은 콘텐츠 전문가가 관심 구인contruct이 적절하게 대표되도록 하는 프로세스를 말합니다(Coderre 등). 2009). 
OSCEs cannot be used to assess an entire content domain. Rather, they are used to assess a sample of the knowledge and skills that learners are expected to have mastered. To ensure that an OSCE reflects educational objectives, blueprinting is key. Blueprinting refers to the process by which content experts ensure that constructs of interest are adequately represented (Coderre et al. 2009). 

따라서 한 OSCE 스테이션에서 보여준 퍼포먼스는 다른 상황에서의 병력청취 및 신체 검사 수행능력으로 일반화할 수 있습니다(Generalization). 각 스테이션의 길이는 보통 5분에서 10분 사이이다(Khan et al. 2013). 그러나 어떤 과제를 평가하느냐에 따라 더 길어질 수 있다. 
This helps to ensure that one can generalize performance on these stations to the learner’s ability to perform other history and physical examinations in an OSCE (Generalization). The length of each station is usually between five and ten minutes (Khan et al. 2013) but could be longer depending on what task is being assessed. 

시험 결과의 의도된 용도(즉, 낮은 위험 대 높은 위험)를 고려하여, 관심 구성을 적절하게 표본 추출할 수 있는 [충분한 수의 스테이션]이 있어야 한다. 국지적으로 개발된 저부담 시험은 8~10개의 스테이션도 괜찮은 반면, 고부담 OSCE는 허용 가능한 신뢰성을 달성하기 위해 14~18개의 스테이션이 필요할 수 있다(Khan et al. 2013). 
There must be enough stations to adequately sample the construct of interest, taking into account the intended use of the exam results (i.e. low versus high stakes). A lower stakes locally developed exam may have only eight to ten stations, whereas a high stakes OSCE may require 14-18 stations to achieve acceptable reliability (Khan et al. 2013). 

모든 CanMED 역할(Frank et al. 2015; Jefferies et al. 2007)을 평가하기 위해 OSCE가 사용되었지만, 본질적(즉, 비의료 전문가) 역할(예: 전문성, 협업 등)을 실제로 평가하는데 어려움이 있으며, 이는 테스트 성과가 실제 성과를 얼마나 잘 추정하는가에 영향을 미칩니다. 
Although OSCEs have been used to assess all of the CanMEDS roles (Frank et al. 2015; Jefferies et al. 2007), there are challenges in assessing the intrinsic (i.e. nonMedical Expert) roles authentically (e.g. professionalism, collaboration, etc.), which has an impact on how well the test performance extrapolates to real-world performance. 

평가에 대한 프로그램적 접근방식(Schwirth and van der Vleuten 2011)은 OSCE를 전체 평가 프레임워크의 한 부분으로 볼 것이다. 그러면 OSCE 개발을 안내할 수 있는 두 가지 질문이 제시됩니다. 

  • (1) 전체 프로그램에서 중 어디에서 해당 스킬을 평가합니까? (혹은 평가할 수 있습니까?); 
  • (2) OSCE에서 평가하기로 선택한 경우, 이를 authentic하게 평가할 수 있습니까?

A programmatic approach to assessment (Schuwirth and van der Vleuten 2011) would view an OSCE as one part of an overall assessment framework. This leads to two questions that can guide OSCE development:

  • (1) Where else are (or could) skills be assessed in my overall program?; and
  • (2) If I choose to assess this in an OSCE, can I do it authentically? 

 

팁 3 사례 개발
Tip 3 Develop the cases

OSCE에서 평가할 항목을 결정한 후에는 사례 개발을 신중하게 고려해야 합니다. 사례는 관심 임상 문제를 확실히 나타내기 위해 개발되어야 한다(Extrapolation). 후보자에 대한 지침에는 현재 문제와 관련된 정보, 과제 및 만남을 완료하기 위한 기간(Pugh 및 Smee 2013)이 포함되어야 한다.
Once you have decided what will be assessed by your OSCE, careful consideration should be given to case development. Cases should be developed to ensure that they authentically represent the clinical problem of interest (Extrapolation). Instructions to candidates should include information related to the presenting problem, a task, and a time-frame for completing the encounter (Pugh and Smee 2013).

사례는 OSCE 사례 개발 모범 사례(Pugh 및 Smee 2013)를 반영하기 위해 콘텐츠 전문가와 교육 전문가 모두의 검토를 거쳐야 합니다. 이러한 전문가는 검토 시 다음 질문을 고려해야 합니다. 

  • (1) 과제가 명확합니까? (Scoring), 
  • (2) 할당된 시간 내에 과제를 완료할 충분한 시간이 있습니까? (Extrapolation)
  • (3) 사례가 임상 문제를 실제authentically로 나타냅니까?; (Extrapolation)
  • (4) 난이도 수준이 학습자에게 적합한가? (Extrapolation)

이 단계에서 사례를 시범적으로 테스트하면 잠재적 문제를 식별하고 완화할 수 있습니다. 

Cases should undergo review by both content experts as well as educational experts to ensure that the cases reflect best practices of OSCE case development (Pugh and Smee 2013). These experts should consider the following questions in their review:

  • (1) Is the task clear? (Kane’s Scoring stage);
  • (2) Is there enough time to complete the task in the allotted time?;
  • (3) Does the case authentically represent a clinical problem?; and
  • (4) Is the level of difficulty appropriate for the learners? (the last three relate to Kane’s Extrapolation stage).

Pilot-testing of cases at this stage can help identify and mitigate potential issues. 

팁 4 OSCE가 후보자를 평가하는 방법 결정(점수 루빅)
Tip 4 Decide how your OSCE should assess candidates (the scoring rubric)

스코어링 루브릭의 개발은 OSCE 타당성에 대한 연구의 많은 부분이 집중된 분야입니다. 루브릭이 개발되거나 선택되는 방법에 대한 설명은 케인의 프레임워크에서 스코어링Scoring에 대한 중요한 타당성 증거를 제공할 수 있습니다. 
The development of scoring rubrics is an area where much of the research on OSCE validity has focused. A description for how rubrics were developed or selected can provide important validity evidence for Scoring in Kane’s framework. 

체크리스트는 관찰 가능한 행동(예: 흡연 이력에 대한 질문, JVP 식별 등)을 평가하는 데 사용됩니다. 체크리스트는 일반적으로 이분법(예: 했거나 하지 않았거나)이지만, 다분법(예: 잘 했거나 시도했지만 잘 안 했거나, 잘 안 했거나)일 수도 있다(Pugh, Halman, et al. 2016). 체크리스트는 매우 어린 의대생과 같은 목표가 아닌 한, 무작위 접근 방식rote approach을 사용하는 학습자에게 보상을 주지 않도록 주의 깊게 구성해야 합니다. 대부분의 학습자는 주제를 이해하는 학습자와 그렇지 않은 학습자를 구별하는 데 도움이 되는 항목(즉, 주요 특성 접근 방식)을 포함하려고 시도해야 합니다(Daniels et al. 2014). 
Checklists are used to assess observable behaviors (e.g. asked about smoking history, identified the JVP, etc.). Checklists are generally dichotomous (e.g. did or did not do), but they can also be polytomous (e.g. done well, attempted but not done well, not done) (Pugh, Halman, et al. 2016). Checklists should be carefully constructed to avoid rewarding learners who use a rote approach unless that is the goal, such as for very junior medical students. For most learners, there should be an attempt to include items that help to discriminate between learners who understand the subject matter and those who do not (i.e. a key features approach) (Daniels et al. 2014). 

병력이나 신체검사에서 임상적으로 구별되는 주요 특징에 초점을 맞추지 않고 [비특정 철저성nonspecific thoroughness]을 보상하는 긴 체크리스트를 사용하는 경우, 이는 사려 깊은 진단 전문가로서 의사들이 원하는 것에 대해 잘 추론하지 못할 것이다. 직관적으로 인식된 중요도에 기초하여 체크리스트 항목에 차등 가중치를 적용하는 것이 타당하지만, 가중치 항목은 전반적인 신뢰성이나 통과/실패 결정에 큰 영향을 미치지 않는 것으로 보인다(Sandilands et al. 2014). 

If one uses long checklists that reward nonspecific thoroughness as opposed to focusing on key clinically discriminating features in a history or physical examination, this will not extrapolate well to what we want in physicians as thoughtful diagnosticians. Although, intuitively, it makes sense to apply differential weights to checklist items based on their perceived importance, weighting items does not appear to affect overall reliability or pass/fail decisions significantly (Sandilands et al. 2014), 

팁 5 평가자 교육
Tip 5 Train your raters


Scoring에 대한 (타당도를) 추가적으로 지지하는 근거로는, 채점자가 의도한 대로 채점 루브릭을 해석했는지 확인하기 위해 교육받았다는 근거가 있다. 평가자에게는 OSCE의 목적, 학습자의 수준 및 학습자와 어떻게 상호작용해야 하는지에 대한 정보가 포함된 오리엔테이션을 제공해야 합니다(예: 학습자에게 프롬프트 또는 피드백을 제공할 수 있습니까?). 또한 체크리스트 항목에 대한 성공의 조작적 정의와 등급 척도에 대한 각 행동 앵커의 의미를 포함하여 채점 루브릭의 예를 제공해야 한다. 
Further support for Scoring includes evidence demonstrating raters were trained to ensure they interpreted scoring rubrics as intended. Raters should be provided with an orientation that includes information about the purpose of the OSCE, the level of the learners, and how they should interact with learners (e.g. can they provide prompts or feedback to learners?). They should also be provided with examples of the scoring rubrics, including the operational definition of success on any checklist items and the meaning of each behavioral anchor for rating scales. 

[기준 체계 훈련frame-of-reference]과 같은 보다 상세한 형태의 오리엔테이션은 때때로 평가자에게 제공되며, 여기에는

  • 수행능력 차원performance dimension를 정의하여 원하는 성과에 대한 공유된 정신모델을 만들고
  • 각 차원에 대한 행동의 예를 제공한 다음
  • 평가자가 표본 퍼포먼스를 가지고 연습한 뒤 피드백을 받을 수 있도록 한다.

A more detailed form of orientation, such as frame-of-reference training, is sometimes provided to raters, which involves

  • creating a shared mental model of the desired performance by defining performance dimensions,
  • providing examples of behaviors for each dimension, and then
  • allowing raters to practice and receive feedback on sample performances (Roch et al. 2012).

이 방법은 시간이 많이 소요될 수 있으며 일반적으로 고부담 시험에서만 주로 사용되지만, 채점에 대한 타당성Scoring 주장을 강화할 수 있습니다. 
This method can be time-consuming and is usually reserved for high-stakes examinations, but can strengthen the validity argument for scoring. 

원하지 않는 등급 점수 변동undesired variation은 [CIV construct irrelevant variance]을 초래할 수 있으므로 점수Scoring 추론의 타당성을 위협할 수 있다는 점을 명심해야 한다. 훈련에도 불구하고, 평가자들은 실수를 할 수 있다. 전통적으로 우리는 종종 일부 평가자를 다른 평가자(즉, 매와 비둘기)에 비해 지나치게 가혹하거나 관대한 것으로 생각하지만, 보다 최근의 연구는 평가자 변동성variability이 이보다 더 복잡하다는 것을 보여준다(Govaerts et al. 2013; Gingerich et al. 2014). 
It is important to remember that any undesired variation in rater scoring may introduce construct irrelevant variance and thus threaten the validity of scoring inferences made. Despite training, raters may make mistakes. Although traditionally we often think of some raters as excessively harsh or lenient compared to other raters (i.e. hawks and doves), more recent research demonstrates that rater variability is more complex than this (Govaerts et al. 2013; Gingerich et al. 2014). 


팁 6 표준화된 환자를 위한 스크립트 개발 및 교육
Tip 6 Develop scripts for and train standardized patients


대부분의 OSCE는 학습자가 임상 기술을 입증할 수 있도록 표준화된 환자(SP)를 사용합니다. [SP 교육에 대한 엄격하고 표준화된 접근 방식]은 SP 묘사portrayals 간의 차이를 줄이기 때문에 스코어링Scoring무결성integrity에 대한 추가적인 타당성 증거를 제공합니다. 
Most OSCEs employ the use of standardized patients (SPs) to allow learners to demonstrate their clinical skills. A rigorous and standardized approach to SP training provides further validity evidence for the integrity of Scoring as it reduces the variance between SP portrayals. 

SP에는 묘사portrayal를 안내하는 스크립트가 제공되어야 하며, 실제 환자에 기반한 스크립트가 진실성authenticity를 더해줄 수 있다. 병력청취의 경우, 스크립트에는 다음에 대한 세부 정보가 풍부하게 있어야 한다.

  • 제시될 임상표현(타임라인과 및 관련 양성 음성 증상 포함)
  • SP의 과거 의료 기록(의약품 사용 포함)
  • 필요한 경우 사회력(예: 흡연 및 알코올 사용)을 참조하십시오.

SPs should be provided with a script to guide their portrayal, and basing the script on a real patient adds authenticity. For history stations, the script is relatively rich in details about:

  • the presenting problem (including a timeline and pertinent positives and negatives);
  • the SP’s past medical history (including medication use); and
  • social history (e.g. smoking and alcohol use), as required.

 

최소한 모든 체크리스트 항목에 대해 스크립트로 작성된 답변이 있어야 하지만 학습자가 예상한 질문에 대한 답변이 제공되어야 합니다. 예상치 못한 질문에 대해 SP는 상황에 따라 "아니오" 또는 "잘 모르겠습니다"라고 대답하도록 교육할 수 있습니다. 반대로 신체검사 스테이션의 경우 세부사항이 적게 요구될 수 있지만, SP는 자극에 반응하도록 훈련될 수 있다(예: 복부 검사 시 경계, 관절의 움직임 범위 제한 등).

At a minimum, there should be a scripted answer for all checklist items, but there should be answers provided for any anticipated questions that learners might ask. For unanticipated questions, SPs can be trained to answer either “no” or “I’m not sure” depending on the context. In contrast, for physical examination stations, fewer details may be required, but SPs can be trained to react to stimuli (e.g. guarding during an abdominal examination, limited range of motion of a joint, etc.).

스크립트에 포함할 다른 세부 사항은 다음과 관련될 수 있습니다. 

  • 인구 통계(예: 나이와 성별), 
  • 방에서의 SP 시작 위치(예: 앉음 vs 누움), 
  • 외모(예: 불안함 vs 침착함), 
  • 행동(예: 협동함 vs 회피)

Other details to be included in the script may relate to

  • demographics (e.g. age and gender),
  • SP starting position in room (e.g. sitting vs lying down),
  • appearance (e.g. anxious vs calm), and
  • behavior (e.g. cooperative vs evasive).

평가자가 학습자의 문제 이해도를 더 잘 평가할 수 있도록 SP가 질문(예: "나에게 무슨 일이 일어나고 있는 것 같습니까?")하는 문항이나 프롬프트도 스크립트에 포함될 수 있습니다. 
The script may also include statements or prompts for the SP to ask (e.g. “What do you think is going on with me?”)to allow raters to better assess learners’ understanding of the problem. 

팁 7 데이터 수집 프로세스의 무결성 보장
Tip 7 Ensure integrity of data collection processes

데이터 수집에는 데이터 무결성을 보장하기 위한 일종의 품질 보장이 있어야 합니다. 이것은 시험 점수가 관측치를 반영한다는 추가 증거를 제공합니다(Kane의 채점Scoring 단계).
Data collection should have some sort of quality assurance to ensure data integrity. This provides further evidence that test scores reflect the observations (Kane’s Scoring stage).

OSCE를 진행하는 동안 직원은 평가자가 평가지를 올바르게 작성하는지(예: 항목을 건너뛰지 않는지) 주기적으로 확인하고, 질문이 있을 경우 이를 해결할 수 있습니다. OSCE가 끝난 후 컴퓨터에 점수를 수동으로 입력하는 경우, 정확한 데이터 입력을 위해 채점표 중 일부를 무작위로 확인해야 합니다. 스캔 가능한 점수표를 만들 수 있는 합리적인 가격의 소프트웨어 패키지가 있어 무작위 검증의 필요성을 줄이기는 하지만 없앨 수는 없습니다. 
During an OSCE, staff can periodically verify that raters are completing the rating instruments correctly (i.e. not skipping any items) and address any questions they might have. After the OSCE, if scores are manually entered into a computer, a random set of score sheets should be checked to ensure accurate data entry. There are reasonably-priced software packages that allow creating scannable score sheets which reduces, but does not eliminate, the need for random verification. 

일부 센터에서는 코멘트 작성 시간을 단축하고, 누락된 등급 척도 수를 줄여줄 수 있는 추가적인 장점이 있는 태블릿 및 eOSCE 시스템에 액세스할 수 있으며, 수량 피드백이 의 품질과 품질을 높일 수 있습니다(Daniels et al. 2016; Denison et al. 2016). 그러나 인터넷 기반 시스템에 대한 안정적인 인터넷 액세스와 태블릿 또는 eOSCE 시스템에 장애가 발생한 경우를 위한 백업 계획이 반드시 필요합니다. 
Some centers may have access to tablets and eOSCE systems that have an added advantage of reducing time to transcribe comments and number of missed rating scales, and can quantity feedback increase the and quality of (Daniels et al. 2016; Denison et al. 2016). However, having reliable internet access for internet-based systems, and back-up a plans for when tablet or the eOSCE system fails is imperative. 

결측 데이터에 대해 결정해야 합니다(예: 비어 있는 등급 척도). 
Decisions must be made about missing data (e.g. a rating scale that is left blank). 

마지막으로, 다른 평가와 마찬가지로, 테스트 보안 문제를 고려해야 합니다. 학습자의 능력을 정확하게 측정하려면 모든 학생이 평가에 대한 정보에 동등하게 액세스할 수 있어야 합니다. 시험 자료에 대한 무단 접근(예: 학생이 만든 유령 은행을 통해)은 OSCE의 점수 해석의 타당성을 위협하는 부당한 이점을 학습자에게 제공합니다. 

Finally, as with any assessment, one must consider the issue of test security. To ensure an accurate measurement of learners’ abilities, it is important that all students have equal access to information about the assessment. Unauthorized access to test materials (e.g. through student created ghost banks) provides learners with an unfair advantage that threatens the validity of the interpretation of scores from the OSCE. 

팁 8 표준 설정 접근법 선택
Tip 8 Choose a standard setting approach

표준 설정 방법(즉, cut score)의 선택도 평가의 Implication에 영향을 미치므로 점수 해석의 타당성을 뒷받침하기 위해 세심한 주의를 기울여야 한다. 부적절하게 높은 cut-score를 설정하면 실제로 능력이 있는 학습자가 낙제할 수 있고, 너무 낮은 cut-score를 설정하면, 약한 학습자가 자신의 능력에 대해 지나치게 자신감을 가질 수 있습니다. 이는 특히 합격-불합격 결정이 학습자, 교육자 및 환자에게 중요한 영향을 미치는 고부담 평가에 중요합니다.
The choice of standard-setting methods (i.e. cut score) also deserves careful attention in order to support the validity of score interpretations as this impacts the Implications of the assessment. Cut scores that are inappropriately high may result in failing learners who are actually competent, while cut scores that are too low may lead weak learners to be overly confident in their abilities. This is especially important for high-stakes assessments in which pass-fail decisions have important repercussions for learners, educators and patients.

컷 스코어를 설정할 때 gold-standard는 없지만 선택한 방법에 대한 자세한 근거를 제시해야 합니다. OSCE에 가장 일반적으로 사용되는 세 가지 기준 참조 방법은 Angoff, Borderline Group 및 Borderline Regression입니다. 
Although there is no gold standard when setting a cutscore, a detailed rationale for the method chosen should be provided. The three most common criterion-referenced methods used for OSCEs are Angoff, Borderline Group, and Borderline Regression. 

다음 결정은 전체 합격/불합격 결정이 전체 OSCE 점수만 기준으로 이루어져야 하는지, 또는 수험자가 최소 스테이션 수를 통과해야 하는지에 대한 것이다. 후자(conjunctive) 접근방식은 수험자가 광범위한 지식(즉, 여러 관측소의 낙제 성과는 다른 관측소에 대한 매우 강력한 성과로 보상될 수 없다는 것)을 입증하기 위해 일부 교육자가 선호한다(Homer et al. 2017). 
The next decision is whether the overall pass/fail determination should be based on the overall OSCE score alone, or if examinees must also pass a minimum number of stations. The latter (conjunctive) approach is favored by some educators, to ensure that examinees demonstrate a breadth of knowledge (i.e. that a failing performance on several stations cannot be compensated for by very strong performance on others) (Homer et al. 2017). 

팁 9 OSE가 가능한 모든 양식을 얼마나 잘 일반화하는지 고려합니다.
Tip 9 Consider how well the OSCE would generalize to all possible forms

또 다른 중요한 타당성 근거 출처는 결과의 일반화 가능성Generalizability과 관련이 있다. OSCE의 심리측정적 특성을 분석하여, 타당성 주장시 이 요소(generalizability)에 대한 지원을 제공할 수 있습니다.
Another important source of validity evidence relates to the Generalizability of the results. Support for this element of the validity argument can be provided by analyzing the psychometric properties of the OSCE.

점수의 신뢰성(즉, 재현성)은 타당성 증거의 중요한 요소입니다. 알파는 일반적으로 전반적인 신뢰성을 측정하고 문제가 있는 스테이션을 찾는 데 사용됩니다. 단일 스테이션의 성능에 기반하여 결정을 내리는 경우 스테이션 레벨에서 알파를 사용하여 신뢰성을 평가하고 문제가 있는 항목을 식별할 수 있습니다.    
The reliability (i.e. reproducibility) of scores is an important element of validity evidence. Alpha is usually used across stations to measure overall reliability and to look for problematic stations. If decisions are made based on the performance of a single station , then alpha can be usedat the station level to evaluate reliability and identify problematic items.    

OSCE는 본질적으로 다면적이기 때문에(예: 사람, 항목, 평가자, 트랙 등), 일반화가능도 이론(G-이론)은 종종 신뢰성을 계산하고 다양한 오류 발생원의 영향을 결정하는 데 선호된다. 그러나 G-이론은 측점당 여러 등급이 있는 경우에 가장 효과적이며, 그렇지 않은 경우에는 측점이 아닌 평점으로 인한 변동을 제거할 수 없습니다. 구문 기반 GENOVA(Crick and Brennan 1983)와 보다 사용자 친화적인 G-string IV(Bloch and Norman 2015)와 같은 G-스터디를 실행하는 데 무료로 사용할 수 있는 패키지가 있습니다. 
Because OSCEs are inherently multi-faceted (e.g. persons, items, raters, tracks, etc.), generalizability theory (G-theory) is often preferred for calculating reliability as well as determining the impact of the various sources of error. However, G-theory works best if there are multiple raters per station; otherwise, one cannot tease out the variance due to raters as opposed to due to the station. There are freely available packages for running G-studies such as the syntax-based GENOVA (Crick and Brennan 1983) and the more user friendly G-string IV (Bloch and Norman 2015). 

팁 10 검사와 다른 변수와의 상관 관계를 검토합니다.
Tip 10 Review the correlation of your examination with other variables


Tamblyn과 동료들은 라이선스 검사의 낮은 점수가 상담, 처방 및 유방 촬영 검사의 패턴으로 측정되는 낮은 임상 관행과 관련이 있음을 입증했다.
Tamblyn and colleagues demonstrated that lower scores on a licensing examination were associated with lower quality of clinical practice as measured by patterns in consultations, prescribing, and mammography screening.

이 데이터는 면허시험에서 케인의 추정Extrapolation 단계에 대한 증거를 뒷받침합니다. 
This data supports evidence along Kane’s Extrapolation stage of validity of that licensing exam. 

이 증거에서는, 일반적으로 [OSCE 점수를 다른 평가와 비교]하여 증거를 찾습니다. 예를 들어, Pugh와 동료들은 현지에서 개발된 [Internal Medicine OSCE progress test]의 성과가 높은 위험도 [내과 인증 시험의 점수]와 관련이 있음을 입증했습니다.
More commonly, evidence is sought by comparing OSCE scores to other assessments. For example, Pugh and colleagues demonstrated that performance on a locally developed Internal Medicine OSCE progress test correlated with scores on the high stakes Internal Medicine certification examination

모든 상관관계가 기관 외부의 데이터로 이루어질 필요는 없습니다. 로컬 데이터를 사용하여 OSCE 점수를 유사하거나 다른 역량을 측정하는 다른 평가와 상호 연관시킬 수 있습니다. 또 다른 분석에서는 OSCE가 더 많은 상급자 대 하급자를 차별하는지 여부를 조사할 수 있다.
Not all correlations need to be done with data external to the institution. Local data can be used to correlate OSCE scores to other assessments measuring similar and dissimilar competencies. Another analysis could examine if an OSCE discriminates more senior versus junior learners as this also provides validity evidence.

팁 11 OSE가 학습자에게 미치는 영향 평가
Tip 11 Evaluate the effects of the OSCE on learners


형성적이든 총괄적이든 평가가 학습을 촉진한다는 것을 알고 있습니다(Kane의 함의Implication 단계). 
Whether formative or summative, we know that assessment drives learning (Kane’s Implications stage). 

평가는 긍정적이고 부정적인 방식으로 학습에 영향을 미칠 수 있으며, 따라서 OSCE가 학습을 촉진하거나 방해하는 방법에 대한 증거를 찾아야 한다. 
assessment can influence learning in both positive and negative ways , and so one should seek evidence for how an OSCEis promoting or impeding learning. 

고려해야 할 질문은 다음과 같습니다. 

  • OSCE는 학습에 어떤 영향을 미칩니까?; 
  • 불합격 또는 합격한 학습자에게 수반하는 결과는 무엇입니까?
  • 불합격자에게 재교육이 제공되는 경우, 재시험에서 성과가 개선된다는 증거가 있는가?
  • OSCE는 커리큘럼의 후속 변화에 어떤 영향을 미칩니까(예: 많은 수의 후보자가 불합격할 경우), 반대로 커리큘럼의 변화는 OSCE 수행능력에 어떤 영향을 미칩니까?
  • OSCE가 환자 치료에 어떤 영향을 미칩니까? 
  • OSCE의 목적이 학습을 유도하는 것이라면, 학습자가 OSCE의 결과로 학습하고 있음을 보여주는 데이터가 있습니까? 


Questions to be considered include:

  • How does the OSCE influence learning?;
  • What are the outcomes of learners who fail versus pass?;
  • If remediation is provided to those who fail, is there evidence that performance improves on a repeat assessment?;
  • How does the OSCE influence subsequent changes in the curriculum (e.g. if a high number of candidates fail a station) and, conversely, do changes to the curriculum influence OSCE performance?; and finally,
  • how does the OSCE influence patient care? 
  • If the purpose of the OSCE is to drive learning, then is there data to show the learners are learning as a result of the OSCE? 




팁 12 전체 프로세스를 검토하여 유효성에 대한 위협을 찾습니다.
Tip 12 Review the entire process to look for threats to validity


타당성 주장은 평가의 해석과 사용을 제안한 후 유효성의 증거를 검토하는 반복적인 과정으로, 증거가 의도된 해석이나 사용을 뒷받침하지 않는 경우에는, 사용을 수정하거나 평가 과정을 개정한다. 이러한 상황은 평가가 목적에 부합하는지 확인하기 위해 [지속적으로 이뤄져야] 합니다. 이러한 [지속적인 품질 보증ongoing quality assurance]은 신뢰성과 같은 심리측정적인 면에만 초점이 맞춰지는 경우가 많지만, OSCE 개발의 모든 측면을 검토하여 케인 모델의 네 가지 단계와 관련된 문제를 찾아야 합니다. 
An argument for validity is an iterative process where one states the proposed interpretation and use of the assessment, then examines the evidence of validity, and if the evidence does not support the intended interpretation or use, either revise the use or revise the assessment process. This should continually happen to ensure the assessment is meeting its purpose. Too often this ongoing quality assurance is focused solely on psychometrics such as reliability, but all aspects of the development of an OSCE should be reviewed to look for issues related to each of the four stages of Kane’s model. 

종종 간과되는 일부 OSCE 지표로는 다음이 있다.

  • 전체 불합격 또는 특정 스테이션 불합격 학생 비율(프로그램 평가 정보일 수 있음),
  • 스테이션에서의 [(체크리스트) 합계 점수]와 [Global 등급 척도] 사이의 상관 관계(상관성이 낮으면 점수 시트 내용에 대한 우려가 높아짐) 및
  • 동일한 스테이션이지만, 평가자 또는 위치에 차이가 있는 그룹 간의 비교

Some OSCE metrics that are often overlooked are

  • the percent of students who fail overall or fail a specific station (can be program evaluation information),
  • correlation between a station’s sum score and global rating scale (lower correlation raises concern about score sheet content), and
  • comparisons between groups who same encounter the stations, but with differences such as raters or locations, (Pell et al. 2010). 



Fuller R, Homer M, Pell G, Hallam J. 2017. Managing extremes of assessor judgment within the OSCE. Med Teach. 39:58–66. 

Pugh D, Regehr G. 2016. Taking the sting out of assessment: is there a role for progress testing? Med Educ. 50:721–729. 

Yousuf N, Violato C, Zuberi RW. 2015. Standard setting methods for pass/fail decisions on high-stakes objective structured clinical examinations: a validity study. Teach Learn Med. 27:280–291. 

 

 


Med Teach. 2018 Dec;40(12):1208-1213.

 doi: 10.1080/0142159X.2017.1390214. Epub 2017 Oct 25.

Twelve tips for developing an OSCE that measures what you want

Vijay John Daniels 1Debra Pugh 2

Affiliations collapse

Affiliations

  • 1a Department of Medicine , University of Alberta , Edmonton , Canada.
  • 2b Department of Medicine , University of Ottawa , Ottawa , Canada.
  • PMID: 29069965
  • DOI: 10.1080/0142159X.2017.1390214Abstract
  • The Objective Structured Clinical Examination (OSCE) is used globally for both high and low stakes assessment. Despite its extensive use, very few published articles provide a set of best practices for developing an OSCE, and of those that do, none apply a modern understanding of validity. This article provides 12 tips for developing an OSCE guided by Kane's validity framework to ensure the OSCE is assessing what it purports to measure. The 12 tips are presented in the order they would be operationalized during OSCE development.

OSCE의 퀄리티 측정하기: 계량적 방법 검토 (AMEE Guide no. 49) (Med Teach)
How to measure the quality of the OSCE: A review of metrics – AMEE guide no. 49
GODFREY PELL, RICHARD FULLER, MATTHEW HOMER & TRUDIE ROBERTS
University of Leeds, UK

 

도입
Introduction

학문 분야에서 높은 수준의 의사결정을 지원하기 위해 사용되는 테크닉의 정밀 조사가 증가함에 따라, 준거 기반 평가(CBA)는 신뢰할 수 있고 구조화된 방법론적 접근방식을 제공한다. 역량 기반 방법론으로서, CBA는 '고부담' 종합 평가(예: 자격 수준 또는 학위 수준 검사)를 제공하고 신뢰성과 타당성을 모두 높은 수준으로 입증할 수 있도록 한다. 이러한 평가 방법론은 [절대평가적이고, 모든 지원자에 대해 신중하게 표준화되었으며, 평가가 성과 목표와 명확하게 설계되고 밀접하게 연관되어 있다는 점]에서 '전통적인' 비정형 평가(예: viva voce)에 비해 많은 주요 편익이 있다는 점에서 매력적이다. 이러한 목표는 커리큘럼 결과 및 적절한 경우 학생과 교사 모두가 이용할 수 있는 규제 및 면허 기관이 정한 표준에 대해 명확하게 매핑할 수 있다. 
With increasing scrutiny of the techniques used to support high-level decision-making in academic disciplines, criterion-based assessment (CBA) delivers a reliable and structured methodological approach. As a competency-based methodology, CBA allows the delivery of ‘high stakes’ summative assessment (e.g. qualifying level or degree level examinations), and the demonstration of high levels of both reliability and validity. This assessment methodology is attractive, with a number of key benefits over more ‘traditional’ unstructured forms of assessment (e.g. viva voce) in that it is absolutist, carefully standardised for all candidates, and assessments are clearly designed and closely linked with performance objectives. These objectives can be clearly mapped against curricular outcomes, and where appropriate, standards laid down by regulatory and licensing bodies that are available to students and teachers alike. 

OSCE(Objective Structured Clinical Examination)는 [사전 정의된 목표에 대한 '청사진' 과정 내용으로 시작]하는 복잡한 프로세스 내에서 CBA 원칙을 사용합니다(Newble 2004). 여기서의 목적은 '올바른' 표준이 평가되고 OSCE의 내용이 커리큘럼 결과에 객관적으로 매핑되도록 하는 것이다. 수행능력은

  • 스테이션 수준에서
  • 항목 체크리스트를 사용하여 개별(행위의 순서와 함께)적으로 평가되고,
  • 전반적 등급으로 평가되는데, 이 때는 평가자에 의해 덜 결정론적 전체 평가에 의존한다(Cohen et al. 1997; Regehr et al. 1998). 

The Objective Structured Clinical Examination (OSCE) uses CBA principles within a complex process that begins with ‘blueprinting’ course content against pre-defined objectives (Newble 2004). The aim here is to ensure both that the ‘correct’ standard is assessed and that the content of the OSCE is objectively mapped to curricular outcomes. Performance is scored,

  • at the station level,
  • using an item checklist, detailing individual (sequences of) behaviours, and
  • by a global grade, reliant on a less deterministic overall assessment by examiners (Cohen et al. 1997; Regehr et al. 1998). 


성공적인 CBA을 제공하려면 충분한 품질견고한 표준 설정이 보장되어야 하며, 단순히 후보 성과candidate outcome에 대한 좁은 초점이 아닌, [평가되는 수행능력을 전체적]으로 신중히 고려할 수 있는 [광범위한 메트릭]에 의해 뒷받침된다(Roberts et al. 2006). OSCE는 복잡하고 자원 집약적이며, 대개 많은 수의 검사자, 후보자, 시뮬레이터 및 환자가 참여하며, 종종 병렬 사이트에서 이루어지기 때문에 '평가에 대한 평가assessing the assessment'는 필수적입니다. 
Central to the delivery of any successful CBA is the assurance of sufficient quality and robust standard setting, supported by a range of metrics that allow thoughtful consideration of the performance of the assessment as a whole, rather than just a narrow focus on candidate outcomes (Roberts et al. 2006). ‘Assessing the assessment’ is vital, as the delivery of OSCEs are complex and resource intensive, usually involving large numbers of examiners, candidates, simulators and patients, and often taking place across parallel sites. 

학부생들의 임상 역량을 판단하는 데 있어 [어떤 하나의 평가]도 충분하지 않은 것처럼, [어떤 하나의 계량]도 그 자체로도 평가 과정의 질을 의미 있게 판단하기에 충분하지 않다.
No single metric is sufficient in itself to meaningfully judge the quality of the assessment process, just as no single assessment is sufficient in judging, for example, the clinical competence ofan undergraduate student

OSCE 평가 품질 이해: 통칙, 일반원칙
Understanding quality in OSCE assessments: General principles

OSCE 지표에 대한 검토는 OSCE 품질을 검토하는 전체 프로세스의 일부일 뿐이며, 이는 광범위한 평가 프로세스에서 모든 관계를 수용해야 한다는 것을 인식하는 것이 중요합니다(그림 1). 
It is important to recognise that a review of theOSCE metrics is only part of the overall process of reviewing OSCE quality, which needs to embrace all relationships in the wider assessment process (Figure 1). 

 



국가단위 시험에서 OSCE가 구조의 일부로 사용되는 경우 스테이션은 공통 표준에 따라 중앙에서 설계되고 일반적으로 중앙 관리부에서 제공합니다. 그러나, 특정 의과대학 내에서 설계된 평가와 같이 지역적 수준에서, 예를 들어, 일부 변동은 시험을 설정하는 기관의 중요성과 복잡성에 따라 달라질 것이다.
Where OSCEs are used as part of a national examination structure, stations are designed centrally to a common standard, and typically delivered froma central administration. However, at the local level with the assessment designed within specific medical schools, some variation, for example instation maxima will result dependant upon the importance andcomplexity of the station to those setting the exam

이 가이드는 주로 개별 의과대학 내 지역 수준에서 임상 평가에 참여하는 사람들을 대상으로 하며, 평가가 여러 분야에 걸쳐 이루어질 수 있지만 단일 투여이다. 국가 임상평가와 관련된 사람들은 다른 관점을 가질 가능성이 높다. 

This guide is aimed primarily at those involved with clinical assessment at the local level within individual medical schools, where, although the assessment may take place across multiple sights, it is a single administration. Those involved with national clinical assessments are likely to have a different perspective. 

합격선 설정 방법은 무엇입니까?
Which method of standard setting?

합격선 설정 방법에 따라 품질 평가에 사용할 수 있는 메트릭이 결정됩니다(Cizek & Bunch 2007;Strainer & Norman 2008). 
The method of standard setting will determine the metrics available for use in assessing quality (Cizek & Bunch 2007;Streiner & Norman 2008)

[합격선]이 방어가능하고 입증가능하며 수용가능해야 한다는 요구사항(Norcini 2003)이 있어서, 일반적으로 절대평가기준을 사용한다. 합격선 설정의 모든 방법은 많은 사후 측정 지표(예: 스테이션 통과율, 고정 효과(현장 간 평가 및 비교 시간) 또는 표시 분포 빈도)를 생성하지만, 추가 품질 측정치를 생성하는 합격선 설정 방법을 선택하는 것이 중요하다. 현재 많은 기관들이 경계선borderline을 선호하고 있지만, 회귀 방법regression만이 글로벌 성적과 체크리스트 점수 사이의 관계와 약자와 강자의 변별 수준을 어느 정도 알려줄 것이다.
With the requirement for standards to be defensible, evidenced and acceptable (Norcini 2003), absolute standards are generally used. Whilst all methods of standard setting will generate a number of post hoc metrics (e.g. station pass rates, fixed effects (time of assessment and comparison across sites)or frequency of mark distribution), it is important to choose a method of standard setting that generates additional quality measures. At present, a large number of institutions favour borderline, but only the regression method will give someindication of the relationship between global grade and checklist score and also the level of discrimination between weaker and stronger students.

Table 1 

 

저자들은 BLR 방법이 평가자와 후보자 간의 모든 평가 상호작용을 사용하기 때문에 선호하고, 이러한 상호작용은 '실제real'이다. 이는 많은 수의 평가자를 사용하여 사전 결정된 기준에 객관적으로 기반하며 광범위한 메트릭스를 생성합니다.  
The authors favour the BLR method because it uses all theassessment interactions between assessors and candidates, and these interactions are ‘real’. It is objectively based on pre-determined criteria, using a large number of assessors and generates a wide range of metrics.  

BLR 방법에서 평준화된 비판 중 하나는 이상치outliers에 민감하다는 것이다. 이러한 이상치는 세 가지 주요 그룹에서 발생합니다.  
One of the criticisms sometimes levelled at the BLR method is its possible sensitivity to outliers. These outliers occur in three main groups:  

. 성적이 매우 나쁘고 체크리스트 점수가 0에 가까운 학생. 
. Students who perform very badly and obtain a near zero checklist score. 

. 우수한 체크리스트 점수를 획득했지만 평가자에게 전체적으로 깊은 인상을 주지 못한 학생
. Students who achieve a creditable checklist score but whofail to impress the assessor overall. 

. 전반적 점수overall grade를 잘못 매기는 평가자.
. The assessor who gives the wrong overall grade.


스테이션 레벨 품질 메트릭을 생성하는 방법
How to generate station level quality metrics? 

표 2는 일반적인 OSCE의 측정 지표에 대한 '표준' 보고서를 자세히 설명합니다(2일 동안 20개 스테이션, 총 시험 시간 3시간, 4개 검사 센터에 분산). 
Table 2 details a ‘standard’ report of metrics from a typicalOSCE (20 stations over 2 days, total testing time  3 h, spreadover four examination centres). 




응시자는 다음으로 구성된 합격 프로필을 충족해야 합니다.

  • 전체 합격 점수
  • 통과된 스테이션의 최소 수(보상을 방지하고, 유능한 '올라운드' 의사 요건에 충실함)
  • 수용가능한 환자 평가의 최소 수

Candidates are required to meet apassing profile comprising of

  • an overall pass score,
  • minimum number of stations passed (preventing compensation, and adding the fidelity to the requirement for a competent ‘all round’ doctor) and
  • a minimum number of acceptable patient ratings.

평가자는 항목 체크리스트를 완료하고 전체 글로벌 등급(OSCE의 글로벌 등급은 0 = 클리어 실패, 1 경계선, 2단계 클리어 패스, 3단계 매우 우수한 합격 및 4단계 합격으로 숫자로 기록됨)  

Assessors complete and item checklist, and then an overall global grade (The global grades in our OSCEs arerecorded numerically as 0 = clear fail, 1¼borderline, 2¼clearpass, 3¼very good pass and 4 ¼excellent pass).  

합격선 설정에 BLR 방법이 사용되었습니다(Pell & Roberts 2006). 일반적으로 이러한 OSCE는 약 60,000개의 데이터 항목을 생성합니다. 
The BLR method was used for standard setting (Pell &Roberts 2006). Typically such an OSCE will generate roughly 60,000 data items 

체크리스트 점수와 더불어 글로벌 등급이 부여되는 합격선 설정의 경계선 방법에서는 함께 제공되는 메트릭이 평가의 품질을 측정하는 데 유용합니다. 에벨과 앙고프 처럼 전역 등급global grade이 합격선 설정 절차의 일부를 형성하지 않는 다른 유형의 합격선 설정의 경우, 등급 간 변별 및 결정 계수(R2)는 적용되지 않는다(Cusimano 1996). 

Under any of the borderline methods of standard setting, where a global grade is awarded in addition to the checklist score, accompanying metrics are useful in measuring the quality of the assessments. For other types of standard setting, where such a global grade does not form part of the standard setting procedure, e.g. Ebel and Angoff, inter-grade discrimination and coefficient of determination (R2) will not apply (Cusimano 1996). 

계량 1: 크론바흐의 알파
Metric 1: Cronbach’s alpha


이것은 내적 일관성(일반적으로 완전히 정확한 것은 아니지만 '신뢰성'으로 생각됨)의 척도이며, 좋은 평가에서는 전반적으로(즉, 각 스테이션의 체크리스트 점수에 대해) 우수한 학생이 대체로 비교적 잘 해야 한다. 두 가지 형태의 알파(비표준화 또는 표준화)를 계산할 수 있으며, 이 가이드에서는 [비표준화 양식](SPSS의 기본 설정)을 참조합니다. 이 값은 [분산에 의해 가중치가 부여된 평균 상호 상관 관계]에 대한 측도로, 후보와 교차하는 단순 항목의 G-계수와 동일한 값을 산출합니다. 표준화된 환자와 실제 환자가 사용되고 개별 스테이션 지표가 표준화되지 않은 경우, 일반적으로 이러한 유형의 고부담 평가에서 허용 가능한 것으로 간주되는 알파의 (전체) 값은 0.7 이상이다. 
This is a measure of internal consistency (commonly, though not entirely accurately, thought of as ‘reliability’), whereby in a good assessment the better students should do relatively well across the board (i.e. on the checklist scores at each station). Two forms of alpha can be calculated – non-standardised or standardised – and in this guide we refer to the nonstandardised form (this is the default setting for SPSS). This is a measure of the mean intercorrelation weighted by variances, and it yields the same value as the G-coefficient for a simple model of items crossed with candidates. The (overall) value for alpha that is usually regarded as acceptable in this type of high stakes assessments, where standardised and real patients are used, and the individual station metrics are not standardised, is 0.7 or above. 

스테이션 메트릭이 [표준화된 경우] 더 높은 알파가 예상됩니다. 이 스테이션 집합에 대한 알파는 0.754였으며, (표 2의 두 번째 열에서) 비록 스테이션 17과 20이 이 점에서 거의 기여하지 못했지만, 전체적인 '신뢰성'에서 벗어난 스테이션은 없음을 알 수 있다. 
Where station metrics are standardised, a higher alpha would be expected. Alpha for this set of stations was 0.754, and it can be seen (fromthe second column of Table 2) that no station detracted from the overall ‘reliability’, although stations 17 and 20 contributed little in this regard. 

알파는 평가 항목 수에 따라 증가하는 경향이 있으므로, 항목/스테이션이 잘 수행되었다면, 특정 항목이 삭제된 경우, 알파는 전체 알파 점수보다 모두 낮아야 합니다. 그렇지 않은 경우에는 다음과 같은 이유로 인해 발생할 수 있습니다. 
Since alpha tends to increase with the number of items in the assessment, the resulting alpha if item deleted scores should all be lower than the overall alpha score if the item/ station has performed well. Where this is not the case, this may be caused by any of the following reasons: 

. [(삭제한) 아이템]이 나머지 항목 집합과 다른 구조를 측정하는 경우
. The item is measuring a different construct to the rest of the set of items.

. [(삭제한) 아이템]의 디자인이 불량한 경우
. The item is poorly designed. 

. [교육]에 문제가 있는 경우. 시험 주제가 제대로 학습되지 않았거나 응시자 그룹 간에 다른 기준에 따라 학습한 경우
. There are teaching issues – either the topic being tested has not been well taught, or has been taught to a different standard across different groups of candidates.  

. [평가자]들이 공통의 기준에 따라 평가하지 않은 경우
. The assessors are not assessing to a common standard.

그러나 평가 품질의 척도로 알파에만 의존할 수는 없습니다. 우리가 표시했듯이, 아이템 수가 증가하면 알파도 증가하게 되고, 따라서 단순히 아이템 수에서 충분한 길이를 갖는 것만으로 실제보다 균질해 보이는 척도를 만들 수 있습니다. 즉, 구별되는 구조를 측정하는 두 척도를 결합하여 하나의 긴 척도를 형성하면 잘못된 알파가 발생할 수 있습니다. 또한 항목 집합은 높은 알파를 가질 수 있지만 다차원적일 수 있습니다. 이러한 현상은 [클러스터 자체]가 딱히 서로 상관관계가 높지 않더라도, 서로 상관관계가 높은 [항목 클러스터(즉, 개별 차원 측정)]가 있을 때 발생합니다.
However, one cannot rely on alpha alone as a measure of the quality of an assessment. As we have indicated, if the number of items increases, so will alpha, and therefore a scale can be made to look more homogenous than it really is merely by being of sufficient length in terms of the number of items it contains. This means that if two scales measuring distinct constructs are combined, to form a single long scale, this can result in a misleadingly high alpha. Furthermore, a set of items can have a high alpha and still be multidimensional. This happens when there are separate clusters of items (i.e. measuring separate dimensions) which intercorrelate highly, even though the clusters themselves particularly do not correlate with each other highly.

알파가 너무 높아(예: >0.9) 평가에서 중복성을 나타낼 수 있는 반면, 낮은 알파 점수는 때로는 잘못 설계된 스테이션의 결과라기 보다는 스테이션 평균 점수의 큰 차이로 인한 것일 수 있다.
It is also possible for alpha to be too high (e.g. 40.9), possibly indicating redundancy in the assessment, whilst low alpha scores can sometimes be attributed to large differences in station mean scores rather than being the result of poorly designed stations.

우리의 철학은 알파를 포함한 하나의 메트릭만으로는 품질을 판단하는 데 항상 불충분하며, 알파는 높지만 다른 메트릭은 낮은 OSCE의 경우에는 이것이 고품질 평가를 나타내지 않는다는 것입니다.

Our philosophy is that one metric alone, including alpha, is always insufficient in judging quality, and that in the case of an OSCE with a high alpha but other poor metrics, this would not indicate a high quality assessment.

계량 2: 결정 계수 R2
Metric 2: Coefficient of determination R2

R2 계수는 독립 변수(글로벌 등급)의 변경으로 인한 종속 변수(체크리스트 점수)의 비례적 변화입니다. 이를 통해 우리는 체크리스트 점수와 각 스테이션의 전체 글로벌 등급 사이의 (선형) 상관 관계의 정도를 결정할 수 있으며, 전반적으로 전체 등급이 높을수록 일반적으로 더 높은 체크리스트 점수와 일치할 것으로 예상합니다. 결정 계수의 제곱근은 단순 Pearsonian 상관 계수입니다. SPSS 및 기타 통계 소프트웨어 패키지는 또한 R2의 조정 값을 제공하며, R2는 표본 크기와 모델의 예측 변수 수를 고려합니다(이 경우 1개). 이상적으로 조정된 값은 조정되지 않은 값에 가까워야 합니다.  

The R2 coefficient is the proportional change in the dependent variable (checklist score) due to change in the independent variable (global grade). This allows us to determine the degree of (linear) correlation between the checklist score and the overall global rating at each station, with the expectation that higher overall global ratings should generally correspond with higher checklist scores. The square root of the coefficient of determination is the simple Pearsonian correlation coefficient. SPSS and other statistical software packages also give the adjusted value of R2, which takes into account the sample size and the number of predictors in the model (one in this case); ideally, this value should be close to the unadjusted value. 

좋은 상관관계(R2 > 0.5)는 체크리스트 점수와 전역 성적 사이의 합리적인 관계를 나타내지만, 지나치게 상세한 global description가 단순히 해당 체크리스트 점수로 자동 변환되어 R2가 인위적으로 부풀어 오르지 않도록 주의해야 한다. 표 2에서, 스테이션 14(실용 및 의료-법률적 기술 스테이션)의 R2 값은 0.697로 양호하며, 이는 학생들의 글로벌 등급 변동 중 69.7%가 체크리스트 점수의 변동에 의해 설명됨을 의미한다. 반대로 스테이션 19는 R2 값이 0.404로 만족도가 낮습니다. 환자의 안전과 바늘 부상 관리에 초점을 맞춘 새로운 스테이션이었다. R2가 낮았던 이유를 이해하려면 (예: SPSS 원곡선 추정을 사용하여) 관계를 그래픽으로 검토하여 체크리스트와 전역 등급 간 연관성의 정확한 특성을 조사하는 것이 도움이 됩니다(그림 2). 
A good correlation (R240.5) will indicate a reasonable relationship between checklist scores and global grades, but care is needed to ensure that overly detailed global descriptors are not simply translated automatically by assessors into a corresponding checklist score, thereby artificially inflating R2. In Table 2, station 14 (a practical and medico-legal skills station) has a good R2 value of 0.697, implying that 69.7% of variation in the students’ global ratings are accounted for by variation in their check list scores. In contrast, station 19 is less satisfactory with an R2 value of 0.404. This was a new station focusing on patient safety and the management of a needlestick injury. To understand why R2 was low, it is helpful to examine the relationship graphically (e.g. using SPSS Curve estimation) to investigate the precise nature of the association between checklist and global grade (Figure 2). 

 



스테이션 지표에 관계없이 항상 글로벌 등급에 대한 체크리스트 점수의 산포 그래프scatter plot를 일상적으로 표시할 것을 권장합니다. 
We would recommend always plotting a scatter graph of checklist marks against global ratings as routine good practice, regardless of station metrics. 

스테이션 19에서 우리는 두 가지 주요 문제가 있음을 알 수 있습니다. 즉, 각 글로벌 등급에 대한 광범위한 점수분포와 불합격 등급(X축에 0)이 부여된 매우 광범위한 점수분포입니다. 이는 일부 학생이 항목 체크리스트에서 많은 점수를 획득했지만, 전반적인 성과로 인해 평가자의 글로벌 낙제점수로 이어질 수 있다는 것을 나타냅니다. 
In station 19, we can see that there are two main problems – a widespread of marks for each global grade, and a very widespread of marks for which the fail grade (0 on the x-axis) has been awarded. This indicates that some students have acquired many of the marks from the item checklist, but their overall performance has raised concerns in the assessor leading to a global fail grade. 

'소개' 부분에서는 특이치outlier가 회귀법에 미치는 영향을 설명했습니다. 좋지 않은 체크리스트 점수의 예는 그림 3에서 확인할 수 있다. 다른 스테이션에서는 어떤 응시자가 체크리스트 점수에서 아주 낮은 경우를 것을 볼 수 있습니다. 이렇게 하면 [y축 회귀 절편 값을 줄이고 회귀선의 기울기를 늘리는 효과]가 있습니다. 표 2에 표시된 데이터의 경우, 특이치를 제거하고 통과 점수와 개별 스테이션 통과 점수를 재계산하면 차이가 거의 없어져 통과 점수가 0.2% 미만으로 증가합니다.
In ‘Introduction’ section, we raised the impact of outliers on the regression method. Examples of poor checklist scores but with reasonable grades can be observed in Figure 3. In other stations, we sometimes see candidates scoring very few marks on the checklist score. This has the effect of reducing the value of the regression intercept with the y-axis, and increasing the slope of the regression line. For the data indicated in Table 2, the removal of outliers and re-computation of the passing score and individual station pass marks makes very little difference, increasing the passing score by less than 0.2%.



이러한 체크리스트 점수와 전역global 등급 간의 만족스럽지 못한 관계는 첨부 표 3(SPSS에서 제작)에서 알 수 있듯이 어느 정도 비선형성을 유발하며, 여기서 최상의 적합이 분명히 cubic이라는 것이 그래픽적으로 명백하다. 수학적으로 말하면 cubit이 항상 더 나은 적합치를 생성하지만, parsimony를 중시한다면, 고차 모형을 선호하기 위해서는 두 적합치 사이의 차이가 통계적으로 유의해야 한다.
This unsatisfactory relationship between checklist marks and global ratings causes some degree of non-linearity, as demonstrated in the accompanying Table 3 (produced by SPSS), where it is clear graphically that the best fit is clearly cubic. Note that mathematically speaking, a cubic will always produce a better fit, but parsimony dictates that the difference between the two fits has to be statistically significant for a higher order model to be preferred.



중요한 점은 cubic이 기본적인 관계의 결과인지, 아니면 비정상적인 결과인지 여부이며, 이 결과가 부적절한 체크리스트 설계 또는 허용할 수 없는 평가자 채점 행동으로 인한 결과인지 여부이다. 이러한 판단을 할 때, 산란도scattergraph에 표시된 표시의 분포를 검토해야 한다. 우리 자신의 경험에 따르면 스테이션 지표가 일반적으로 품질이 양호한 경우 엄격한 선형성으로부터의 이탈은 우려의 원인이 되지 않습니다. 
The key point to note is whether the cubic expression is the result of an underlying relationship or as a result of outliers, resulting from inappropriate checklist design or unacceptable assessor behaviour in marking. In making this judgement, readers should review the distribution of marks seen on the scattergraph. Our own experience suggests that where stations metrics are generally of good quality, a departure from strict linearity is not a cause for concern. 

특정 스테이션에 [낮은 R2 값]이 존재하거나 특정 등급에 대한 점수분포가 광범위하다면, 항목 점검표 및 스테이션 설계를 검토하는 데 도움이 될 것이다. 이 특별한 경우, 스테이션에서는 안전하고 효과적인 관리에 대한 핵심적 강조가 의도되었지만, 이러한 지표에 비추어 체크리스트를 재평가한 결과 이러한 강조가 잘 표현되지 않았다. 점수가 낮은 응시자들은 '과정process'에서 많은 점수를 획득할 수 있었지만, 스테이션의 더 고차원적 기대(의사 결정의 초점)를 충족하지 못한 것이 분명하다. 이는 본 스테이션의 재작성 및 점검표를 통해 해결되었으며, 본 스테이션의 재이용 계획 및 향후 OSE 내 성과에 대한 후속 분석을 통해 해결되었습니다. 
The existence of low R2 values at certain stations and/or a widespread of marks for a given grade should prompt a review of the item checklist and station design. In this particular case, although there was intended to be a key emphasis on safe, effective management in the station, re-assessment of the checklist in light of these metrics showed that this emphasis was not well represented. It is clear that weaker candidates were able to acquire many marks for ‘process’ but did not fulfil the higher level expectations of the station (the focus on decision making). This has been resolved through a re-write of the station and the checklist, with plans for re-use of this station and subsequent analysis of performance within a future OSCE. 


계량 3: 등급 간 변별
Metric 3: Inter-grade discrimination

이 통계량은 회귀선의 기울기를 나타내며 [전역global 등급 척도에서 한 등급 상승에 해당하는 체크리스트 점수]의 평균 증가를 나타냅니다. '이상적' 값에 대한 명확한 지침은 없지만,변별지수는 이용 가능한 최대 체크리스트 마크(데이터에서 일반적으로 30–35)의 10분의 1이 되어야 한다고 권고한다. 
This statistic gives the slope of the regression line and indicates the average increase in checklist mark corresponding to an increase of one grade on the global rating scale. Although there is no clear guidance on ‘ideal’ values, we would recommend that this discrimination index should be of the order of a tenth of the maximum available checklist mark (which is typically 30–35 in our data). 

낮은 등급 간 변별은 종종 다음과 같은 관측소에 대한 다른 좋지 않은 지표와 함께 동반된다.

  • 낮은 R2 값(등급과 체크리스트 점수 사이의 전반적인 관계가 좋지 않음을 나타냄) 또는
  • 높은 수준의 평가자 오차 분산(섹션 '측정지표 5: 그룹 간 변동'): 평가자가 공통 표준을 사용하지 못한 경우 

A low value of inter-grade discrimination is often accompanied by other poor metrics for the station such as

  • low values of R2 (indicating a poor overall relationship between grade and checklist score), or
  • high levels of assessor error variance (Section ‘Metric 5: Between-group variation’) where assessors have failed to use a common standard.

[성적 간 변별intergrade discrimination 수준이 너무 높으면] 합격점이 매우 낮거나 회귀선을 가파르게 만드는 소수의 불량 학생으로 인해 선형성이 부족하다는 의미일 수 있다. 체크리스트 점수의 측면에서 매우 낮은 학생 성적이 발생할 경우, 하향으로 전체 합격 점수에 과도한 영향을 미치지 않도록 매우 낮은very low 점수를 합격선 설정에서 제외해야 하는지 고려할 필요가 있습니다

Too high levels of intergrade discrimination may indicate either a very low pass mark, or a lack of linearity caused by a small number of badly failing students who tend to steepen the regression line. Where very poor student performance in terms of the checklist score occurs, consideration needs to be given to whether these very low scores should be excluded from standard setting to avoid excessive impact on overall passing scores in a downward direction. 

표 2에 대한 변별로 돌아가면, 비록 변별 값이 5를 초과하는 세 개의 스테이션이 있지만(예: 스테이션 14) 등급 간 값은 스테이션 전체에 걸쳐 일반적으로 허용될 수 있음은 분명하다. 
Returning discrimination to Table 2, it is clear that the inter-gradevalues are generally acceptable across thestations (station maxima being in the region of 30–35 marks), although there are three stations with discrimination values inexcess of 5 (e.g. station 14 

변별도 메트릭에 기반해서 스테이션의 퍼포먼스가 의심스러운 경우, [분산 및 곡선 추정의 R2 척도]로 복귀하는 것이 유용한 경우가 많습니다. 표 2에서, 스테이션 14는 등급 간 변별이 가장 높으며, 그림 3에서 대부분의 글로벌 등급이 다시 광범위한 표시, 특히 명확한 통과 등급 값 2를 포함하지만, 이 값 중 낮은 것은 분명히 특이치임을 알 수 있습니다. 나머지 스테이션 지표가 허용 가능하기 때문에, 이 스테이션은 변경되지 않을 수 있지만 후속 평가에 사용될 때 주의 깊게 모니터링되어야 합니다. 

Where there is doubt about a station in terms of its performance based on the discrimination metric, returning to the R2 measure of variance and curve estimation is often instructive. In Table 2, station 14 has the highest inter-grade discrimination, and it can be seen in Figure 3 that most global grades again encompass a wide range of marks, especially the clear pass grade – value 2 on the x-axis, ranging from 4 to 27, but that the lower of these values are clearly outliers. As the rest of the station metrics are acceptable, this station can remain unchanged but should be monitored carefully when used in subsequent assessments. 

 

메트릭 4: 실패 횟수
Metric 4: Number of failures

[비정상적으로 높은 Failure 횟수]만을 가지고 스테이션이 너무 어렵다는 것을 나타내는 것이라고 자동으로 가정하는 것은 실수입니다. 경계선 방식의 필수 요소인 '현실 점검reality check'이 스테이션 난이도 상당 부분을 보완할 것으로 보인다. 이는(reality check은) 최소의 역량을 갖춘 학생의 예상 성과에 대한 글로벌 등급을 결정하기 위해 [훈련된 평가자가 내린 전문가의 판단]을 나타냅니다.
It would be a mistake to automatically assume that an unusually high number of failures indicate a station that is somehow too difficult. The ‘reality check’, which is an essential part of borderline methods, will to a large extent compensate for station difficulty. This represents the expert judgement made by trained assessors in determining the global rating against the expected performance of the minimally competent student. 

앞에서 설명한 것처럼, 다른 심리측정 데이터가 문제를 식별하기 위해 스테이션 설계 및 성능을 조사하는 데 사용될 수 있습니다. 불합격률은 특정 주제에 대한 teaching이 바뀐 영향을 검토하는 데 사용될 수 있으며, 그러한 비율의 높은 값은 내용 및 교수 방법에 대한 검토가 과정 설계에 도움이 될 수 있는 위치를 나타낸다. 

As previously described, other psychometric data can be used to investigate station design and performance in order to identify problems. Failure rates may be used to review the impact of a change in teaching on a particular topic, with higher values of such rates indicating where a review of content and methods of teaching can help course design. 

메트릭 5: 그룹 간 변동(평가자 효과 포함)
Metric 5: Between-group variation (including assessor effects)

OSCE와 같은 복잡한 평가 준비에서 비롯된 데이터에 대한 분석을 수행할 때, 학생들은 필요에 따라 실용적인 목적을 위해 여러 그룹으로 세분화되며, 설계가 완전히 무작위화되는 것이 필수적입니다. 그러나 (시간이 더 많이 필요하고 별도의 주기 내에 독점적으로 관리해야 하는 특수한 요구 사항 학생들을 처리하는 등) 물류 문제의 관리가 항상 가능하지 않을 때도 있다. 모든 [비랜덤 부분군non-random subgroups]은 주요 가정으로 데이터의 랜덤성에 의존하는 통계 기반 분석 유형에서 제외해야 합니다. 
When performing analysis on data resulting from complex assessment arrangements such as OSCEs, where, by necessity, the students are subdivided into groups for practical purposes, it is vital that the design is fully randomised. Sometimes, however, this is not always possible, with logistical issues including dealing with special needs students who may require more time and have to be managed exclusively within a separate cycle. Any non-random subgroups must be excluded from statistically-based types of analysis that rely on randomness in the data as a key assumption. 

[이상적인 평가 프로세스]에서 모든 점수 변동은 [학생의 수행능력 차이]로 인해 생겨야 하며, 아래와 같은 것이 원인이 되어서는 안 된다.

  • 환경(예: 배치 또는 장비의 국부적 변화),
  • 위치(예: 임상 조건 관리를 위한 지역 정책이 서로 다른 병원 기반 현장) 또는
  • 평가자 태도의 차이(즉, 매와 비둘기)

In the ideal assessment process, all the variation in marks will be due to differences in student performance, and not due to differences in

  • environment (e.g. local variations in layout or equipment),
  • location (e.g. hospital-based sites having different local policies for management of clinical conditions) or
  • differences of assessor attitude (i.e. hawks and doves).

이러한 효과를 측정하는 방법에는 측점에 대해 일원 분산 분석(예: 평가자를 고정 효과로 사용)을 수행하거나 그룹별 총 분산 비율을 계산하는 두 가지가 있습니다. 일반적으로 회로에 특정한circuit-specific 분산의 비율로 제공되지만, 후자에서는 위에서 언급한 다른 가능 요인들과 구별되는 학생 성과로 인한 체크리스트 점수의 변동 비율을 추정할 수 있습니다.

There are two ways of measuring such effects, either by performing a one-way analysis of variance (ANOVA) on the station (e.g. with the assessor as a fixed effect) or by computing the proportion of total variance which is group specific. The latter allows an estimation of the proportion of variation in checklist scores that is due to student performance as distinct from other possible factors mentioned above, although this is usually given as the proportion of variance which is circuit specific. 

분산 성분을 계산하면 그룹(즉, 회로)을 랜덤 효과로 사용하여 그룹에 특정된 분산 비율을 계산할 수 있습니다. 이는 그룹 간 평가 프로세스의 균일성을 매우 잘 나타내므로 매우 강력한 메트릭입니다. 계산도 비교적 간단하다. 이상적으로는 그룹 간 분산이 30% 미만이어야 하며 40%를 초과하는 값이 나오면 검토가 필요하다. 40% 이상의 값은 학생 성과보다는 평가자 행동 및 기타 회로 특정 특성으로 인해 발생하는 스테이션 수준에서의 잠재적인 문제를 나타냅니다.
If the variance components are computed, using group (i.e. circuit) as a random effect, then the percentage of variance specific to group can be computed. This is a very powerful metric as it gives a very good indication of the uniformity of the assessment process between groups. It is also relatively straightforward to calculate. Ideally between-group variance should be under 30%, and values over 40% should give cause for concern, indicating potential problems at the station level due to inconsistent assessor behaviour and/or other circuit specific characteristics, rather than student performance.



표 2에서 스테이션 6, 17 및 19는 그룹 간 분산 수준이 가장 높은 이 메트릭과 관련된 원인을 제공합니다. 또한 스테이션 6는 R2도 불량이며, 이 스테이션의 불량 메트릭스의 전체적인 조합은 불량 R2가 아마도 불량한 체크리스트 설계 때문일 것이라는 것을 말해줍니다. 
From Table 2, stations 6, 17 and 19 give cause for concern with regard to this metric, with the highest levels of betweengroup variance. In addition, station 6 has a poor R2, and the overall combination of poor metrics at this station tells us that the poor R2 was probably due to poor checklist design. 

(6번 스테이션의) 체크리스트는 약한 응시자들이 '과정'을 통해서만 높은 점수를 얻을 수 있는 낮은 수준의 기준들로 구성된 것으로 밝혀졌다. 따라서 스테이션을 재설계할 때 당초 의도한 대로 높은 수준의 프로세스를 쉽게 평가하기 위해 낮은 수준의 기준을 여러 개 청크 처리(즉, 상위 수준의 기준을 형성하기 위해 함께 묶음)하였다.

the checklist was found to consist of a large number of lowlevel criteria where weaker candidates could attain high scores through ‘process’ only. Hence, in redesigning the station, a number of the low-level criteria were chunked (i.e. grouped together to form a higher level criterion) in order to facilitate the assessment of higher level processes as originally intended. 

스테이션 17은 이야기가 조금 다르다. (높은) 그룹 간 변동을 양호한 R2와 결합해서 판단했을 때, 평가자들이 그룹 내에서 일관되게 표시하고 있지만 그룹 간에 뚜렷한 매와 비둘기 효과가 있음을 나타내기 때문이다. 이러한 경우에는 일원 분산 분석 분석을 통해 이것이 개별 평가자인지 또는 현장 현상인지를 파악하여 이 문제를 추가로 조사해야 합니다. 서로 다른 부지에 귀속되는 분산의 양은 위에서 설명한 것처럼 스테이션 간 분산의 간단한 계산에 포함된다. 
Station 17 tells a different story, as the good R2 coupled with the high between-group variation indicates that assessors are marking consistently within groups, but that there is a distinct hawks and doves effect between groups. In such a case, this ought to be further investigated by undertaking a one-way ANOVA analysis to determine whether this is an individual assessor or a site phenomenon. The amount of variance attributable to different sites is subsumed in the simple computation of within-station between-group variance as describe above. 

그러나 모집단이 상당히 많은 경우 분산 분석을 개별 관측소에 적용하면 많은 그룹에 걸친 다중 유의성 검정으로 인한 유형 I 오차의 결과로 인해 적어도 하나의 유의한 결과가 나타날 수 있으므로 단일 측정 기준에 근거하여 판단할 때 주의를 기울여야 합니다. 
However, care needs to be exercised in making judgements based on a single metric, since, with quite large populations, applying ANOVA to individual stations is likely to reveal at least one significant result, as a result of a type I error due to multiple significance tests across a large number of groups 

메트릭 6: 군간 분산(기타 효과)
Metric 6: Between group variance (other effects)

일원 분산 분석은 또한 [다중 사이트 평가]가 발생할 수 있는 [대규모 코호트]가 있는 일부 의과대학 및 관련 교습병원에서처럼 평가자 또는 학생 중 한 명이 랜덤하게 할당되지 않은 경우에도 사용할 수 있습니다. 이러한 복잡한 배치로 인해 임상 직원이 작업 장소를 떠나기가 종종 어렵기 때문에 평가자가 회로circuit에 무작위로 할당되지 않을 수 있습니다. 따라서 결과 분석에서 취한 적절한 조치를 통해 식별할 수 있는 '현장 효과site effects'로 인해 상당한 차이가 발생할 수 있다. 
ANOVA analysis can also be of use when there are nonrandom allocations of either assessors or students, as is the case in some medical schools with large cohorts and associated teaching hospitals where multi-site assessment may occur. Such complex arrangements can result in the nonrandom assignment of assessors to circuits since it is often difficult for clinical staff to leave their places of work. This may then lead to significant differences due to ‘site effects’ which can be identified with appropriate action taken in the analysis of results. 

다른 중요한 고정 효과도 분산 분석을 통해 확인할 수 있습니다. 예를 들어, 평가자 교육 효과, 직원/학생 성별 효과 및 관련 상호작용, 
Other important fixed effects can also be identified through use of ANOVA. For example,

  • assessor training effects,
  • staff/ student gender effects, and
  • associated interactions, 




계량 7: 표준화된 환자 등급
Metric 7: Standardised patient ratings


시뮬레이션/표준화된 환자(SP)를 사용하는 대부분의 센터는 후보자를 평가하도록 요구하며, 이는 일반적으로 집중적인 훈련 프로그램을 따른다. 우리 기관 내에서 SP는 "이 의사와 다시 상담하시겠습니까?"와 같은 질문을 받을 것입니다. 다양한 반응(동의함, 동의함, 동의함, 동의하지 않음, 동의하지 않음 또는 강하게 동의하지 않음)에서 후자의 두 반응은 불리한 것으로 간주한다. 메트릭 4(스테이션 Failure 횟수)와 마찬가지로 SP 등급에 불리한 점수를 받는 후보자의 정상 비율보다 비율(예: >10%)이 높다면, 문제라고 볼 수 있습니다. 스테이션 레벨에서 SP 등급의 '허용 가능한' 범위에 대한 사용 가능한 문헌이 없으므로 임의적으로 컷오프 수치 10%를 선택했습니다. 
Most centres that use simulated/standardised patients (SPs) require them to rate candidates, and this typically follows an intensive training programme. Within our own institution, SPs would be asked a question such as Would you like to consult again with this doctor? with a range of responses (strongly agree, agree, neither agree nor disagree, disagree or strongly disagree), the two latter responses being regarded as adverse. Akin to Metric 4 (Number of station failures), a higher than normal proportion of candidates (e.g. 410%) receiving adverse SP ratings may indicate problems. There is no available literature on what constitutes an ‘acceptable’ range of SP ratings at station level, so we have chosen an arbitrary cut off figure of 10%. 


정상보다 높은 Failure률과 결합할 경우 (스테이션에서 다루는) 주제를 제대로 가르치지 못한 결과일 수 있습니다. 
If this is coupled with a higher than normal failure rate, it could be the result of inadequate teaching of the topic. 


평가의 전반적인 신뢰성은 점검표 점수에 SP 등급을 추가하면 높아질 수 있습니다. 일반적으로 SP 등급은 총 스테이션 점수의 10-20%를 기여해야 합니다(Homer & Pell 2009). 
The overall reliability of the assessment may be increased by adding the SP rating to the checklist score; typically the SP rating should contribute 10–20% of the total station score (Homer & Pell 2009). 

OSCE 품질의 360도 그림
The 360 degree picture of OSCE quality


스테이션 8의 측정 지표(상담, 진단 및 의사결정에 초점을 맞춘)의 검토는 전체 평가 신뢰도에 긍정적인 기여를 한다(항목 삭제 시 알파 0.749). 그림 4의 곡선 추정치에서 볼 수 있듯이, R2계수는 0.4로 저조하며, 등급 내 항목 체크리스트 점수가 광범위하며, 상위 등급(통과, 신용, 구별)에 걸쳐 상당히 중복된다. 
Review of the metrics of station 8 (focusing on consultation, diagnosis and decision making) shows a positive contribution to overall assessment reliability (alpha if item deleted 0.749). As can be seen below in the curve estimation in Figure 4, the R2 coefficient is poor at 0.4 with a widespread of itemchecklist scores within grades, and significant overlap across the higher grades (pass, credit and distinction). 

 



스테이션 9는 아래 그림 5의 곡선 추정으로 표시됩니다. 여기서는 신뢰성에 대한 보다 긍정적인 기여(항목 삭제 시 알파 0.74)와 더 나은 스테이션 수준 메트릭을 확인할 수 있습니다. R2 계수는 0.5에서 허용되지만 군간 분산은 36%로 여전히 높습니다.

Station 9 is represented by the curve estimation seen below in Figure 5. Here we see a more strongly positive contribution to reliability (alpha if item deleted 0.74) and better station-level metrics. The R2 coefficient is acceptable at 0.5, but between group variance is still high at 36%.  

 

관측치에 의한 품질 관리: OSCE까지 실행 중인 문제 및 당일 탐지 
Quality control by observation: Detecting problems in the run up to OSCEs and on the day 


OSCE에 앞서, 오류 분산에 기여하는 많은 요소들을 예측하고 아래 사항들을 적용하여 수정할 수 있습니다. 
In advance of the OSCE, many of the contributing factors toerror variance can be anticipated and corrected by applying some of the points below 

. 설계가 일치도congruence를 확인하기 위해 여러 스테이션에 걸쳐across stations 검사

. 체크리스트 설계, 가중치 및 고정점 측면에서 신규(그리고 기존) 스테이션이 최신 요구 사항을 준수하는지 확인  

. 여러 병렬적 OSCE circuit의 세팅이 동일한지 검토: 예를 들어 스테이션 외부에 소독제를 배치하게 되면, 평가자는 응시자가 손 위생을 제대로 하는지 평가할 수 없다.

. 스테이션이 동일한 장비 제공(또는 학생들이 [서로 다른 장비]로 [서로 다른 접근 방식]을 배웠다면 유연성을 허용).  

. Checking across stations to ensure congruence in design.

. Ensuring that new (and older, established) stations follow up to date requirements in terms of checklist design,weighting and anchor points.  

. Reviewing the set up of parallel OSCE circuits – for example, differences in the placing of gel disinfectant outside a station may mean that the assessor may not beable to score hand hygiene approaches.  

. Ensuring that stations carry the same provision of equipment (or permit flexibility if students are taught different approaches with different equipment).  


OSCE를 전달하는 동안 오류 분산의 다른 원인이 발생할 수 있습니다.
Other sources of error variance can occur during the delivery of the OSCE:

. 평가 전 브리핑에 늦게 도착하여 지정된 방법론을 제대로 준수하지 못한 평가자.  

평가자의 무단 요청prompting(교육 및 사전 시험 브리핑에도 불구하고). 

. 평가자에 의한 부적절한 행동(예: 과도한 상호작용을 통해 스테이션의 '톤'을 바꿈). 

. 질문이 학생들에게 프롬프트 역할을 하는 지나치게 적극/유도자극적인 시뮬레이션 환자. 

. 편향된 실제 환자(예: 성별 또는 인종 편견). 시뮬레이션 환자는 후보자와 상호작용하는 방법에 대한 교육을 받지만, 실제 환자 대다수가 시뮬레이터와 동일한 수준으로 수행하는 것은 가능하지 않을 수 있다.  

. 응시자가 교대할 때, (평가자(또는 보조자)가) 장비를 출발 또는 중립 위치로 되돌리지 않는 것


. Assessors who arrive late and miss the pre-assessment briefing and who therefore fail to adhere adequately to the prescribed methodology.  

. Unauthorised prompting by assessors (despite training andpre-exam briefings). 

. Inappropriate behaviour by assessors (e.g. changing the‘tone’ of a station through excessive interaction). 

. Excessively proactive simulated patients whose questionsact as prompts to the students. 

. Biased real patients (e.g. gender or race bias). Simulated patients receive training on how to interact with the candidates, but this may not be possible with the majorityof real patients to the same level undertaken with simulators.  

. Assessors (or assistants) not returning equipment to the startor neutral position as candidates change over.

사후 교정 조치
Post hoc remedial action


장소 효과에 대한 총 점수 조정
Adjustment of total marks for site effects


가장 쉬운 방법은 모든 사이트에서 공통의 평균으로 조정하는 것입니다. 이러한 조정 후에는 예를 들어 모든 falure가 단일 사이트에 국한되지 않도록 불합격 학생의 사이트 프로파일을 확인해야 합니다. 조정 수준을 계산할 때 단일 특정 사이트 내에 위치한 특수 요구 그룹(예: 후보자에게 건강 요구의 결과로 추가 시간을 제공)의 효과를 할인해야 합니다.
The easiest method is to adjust to a common mean across allsites. After any such adjustment, the site profile of failing students should be checked to ensure that, for example, allfailures are not confined to a single site. The effect of any special needs group (e.g. candidates receiving extra time as aresult of health needs) located within a single specific site needs to be discounted when computing the adjustment level.

측점 레벨 조정
Adjustment at the station level

어떤 부작용도 서로를 취소시키는 경향이 있기 때문에 이것은 거의 필요하지 않습니다. 드문 경우지만 위의 스테이션 레벨 절차를 수행할 수 있습니다. 
This is seldom necessary because any adverse effects will tend to cancel each other out. In the rare cases where this does not happen, a station level procedure as above can be carried out. 

스테이션 제거
Removal of a station


다시 말하지만, 이는 드문 사건이며 그 기준은 일반적으로 복수의 불리한 측정 기준이며, 그 결과는 평가 결정이 항소에 대해 변명의 여지가 없을 정도로 학생들에게 불리하게 작용할 것이다. 
Again, this is a rare event and the criteria for this is usually multiple adverse metrics, the result of which would disadvantage students to such an extent that the assessment decisions are indefensible against appeal. 

결론
Conclusion


저자의 기관에서는 데이터를 분석하는 사람과 임상 평가를 설계 및 관리하고 교육을 개발/제공하는 사람이 서로 밀접하게 관계를 가지고 있다. 스테이션 레벨 메트릭에 대한 일상적이고 자세한 검토에서 체크리스트와 글로벌 등급 간의 불일치가 발견되었습니다. 분석 결과를 바탕으로 특정 OSCE 스테이션을 재설계하고 이후 측정 기준을 개선했습니다. 이러한 재설계에는 다음이 포함됩니다.
In the authors’ institution, there is a close relationship between those who analyse the data, and those who design and administer the clinical assessments and develop/deliver teaching. Routine and detailed review of station level metrics has revealed mismatches between checklists and global ratings. This has lead to the redesign of certain OSCE stations with a subsequent improvement of metrics. Some of these redesigns include: 

. 다수의 단순한 기준을 더 높은 수준의 더 적은 기준으로 청킹(묶음).

. 더 높은 수준의 기준을 허용하기 위해 청킹(Chunking)을 수행함으로써, 더 높은 수준의 프로세스 중심 성과를 평가할 수 있습니다.

. 평가자 체크리스트에 [중간 등급 기술자]를 포함.

. 체크리스트 기준에 해당하는 경우 두 개의 anchor 대신 세 개의 anchor을 두도록 보장함으로써 평가자에 의한 차별이 더 커지도록 한다.

. 서로 다른 회로의 물리적 배열arrangement 간의 획일성uniformity이 높아집니다.

. Chunking of a number of simple criteria into fewer criteria of higher level.

. Chunking to allow for higher level criteria commensurate with the stage of student progression, allowing assessment of higher level, less process-driven performance.

. The inclusion of intermediate grade descriptors on the assessor checklists.

. Ensuring that checklist criteria have three instead of two anchors where appropriate, thereby allowing greater discrimination by assessors.

. A greater degree of uniformity between the physical arrangements of the different circuits.



[평가자 간의 일치도가 좋지 않다는 징후]는 때때로 평가의 품질에 도움이 되는 여러 가지 변화로 이어집니다.
Indications of poor agreement between assessors has, on occasion, lead to a number of changes all of which have been beneficial to the quality of assessment:

. 평가자 훈련 방법 업그레이드.

. 오래전에 교육을 받은 평가자 업데이트('새로 고침')

. 평가자를 위한 보다 상세한 서포트 자료 제공.

. 평가 전 평가자 브리핑 개선

. 평가 전에 SP 브리핑 개선

. 더미는 평가자와 SP 모두에 대한 공식적인 평가 전에 실행됩니다(예: 학생 수가 상대적으로 적은 경우, 그리고 학생 수가 적은 치과 OSCE에서만 실제로 실행 가능합니다).

. Upgrading of assessor training methods.

. Updating (‘refreshing’) assessors who were trained some time ago.

. The provision of more detailed support material for assessors.

. Improved assessor briefings prior to the assessment.

. Improved SP briefings prior to the assessment.

. Dummy runs before the formal assessment for both assessors and SPs (this is only really practicable where students numbers are relatively small, e.g. resits, and in dental OSCEs with smaller cohorts of students).

 

 

 

 


Med Teach. 2010;32(10):802-11.

 doi: 10.3109/0142159X.2010.507716.

How to measure the quality of the OSCE: A review of metrics - AMEE guide no. 49

Godfrey Pell 1Richard FullerMatthew HomerTrudie RobertsInternational Association for Medical Education

Affiliations collapse

Affiliation

  • 1Leeds Institute of Medical Education, University of Leeds, Level 7, Room 7.20, Worsley Building, Clarendon Way, Leeds LS2 9NL, UK. g.pell@leeds.ac.uk

Free article

Abstract

With an increasing use of criterion-based assessment techniques in both undergraduate and postgraduate healthcare programmes, there is a consequent need to ensure the quality and rigour of these assessments. The obvious question for those responsible for delivering assessment is how is this 'quality' measured, and what mechanisms might there be that allow improvements in assessment quality over time to be demonstrated? Whilst a small base of literature exists, few papers give more than one or two metrics as measures of quality in Objective Structured Clinical Examinations (OSCEs). In this guide, aimed at assessment practitioners, the authors aim to review the metrics that are available for measuring quality and indicate how a rounded picture of OSCE assessment quality may be constructed by using a variety of such measures, and also to consider which characteristics of the OSCE are appropriately judged by which measure(s). The authors will discuss the quality issues both at the individual station level and across the complete clinical assessment as a whole, using a series of 'worked examples' drawn from OSCE data sets from the authors' institution.

 

 

 

체면을 차리기 위한 헷징: ITER의 서술형 코멘트의 언어학적 분석(Adv in Health Sci Educ, 2015)
Hedging to save face: a linguistic analysis of written comments on in-training evaluation reports
Shiphra Ginsburg1,5 • Cees van der Vleuten2 • Kevin W. Eva3 • Lorelei Lingard4

 

 

도입
Introduction

교육 내 평가 보고서(ITERs)와 같은 업무 기반 평가에 대해 교수진이 작성한 논평이 어려움에 처한 학생을 식별하고(Cohen et al. 1993), 순위/정렬 훈련생(Ginsburg et al. 2013), 성공 또는 실패를 예측하는 데 유용할 수 있다는 증거가 증가하고 있다(Guerasio et al. 2012). 그러나, 최근의 연구는 쓰여진 코멘트가 상당부분 모호하고 '습관적dispositional' 언어를 포함하고 있음을 시사한다(Ginsburg et al. 2011). 교수진은 이를 "행간 읽기"로 해독한다(Ginsburg et al. 2015). 교육생에 대한 [교수진의 모호한 논평]이 어제오늘 일이 아님에도 불구하고, 우리는 교수진이 왜 이러한 발언을 하는지, 다른 교수진이 어떻게 그러한 발언을 디코딩할 수 있는지, 교육생에게 미치는 영향이 무엇인지 아직 이해하지 못하고 있다(Watling et al. 2008). 
There is growing evidence that comments written by faculty on work-based assessments such as in-training evaluation reports (ITERs) can be useful for identifying students in difficulty (Cohen et al. 1993), for ranking/sorting trainees (Ginsburg et al. 2013) and for predicting success or failure (Guerrasio et al. 2012). However, recent work suggests that written comments contain a prevalence of vague and ‘dispositional’ language (Ginsburg et al. 2011), which faculty decode by ‘‘reading between the lines’’ (Ginsburg et al. 2015). Despite a well-established tradition of vague comments in faculty evaluation of trainees (Kiefer et al. 2010; Lye et al. 2001), we don’t yet understand why faculty do this, how other faculty are able to decode such comments, or what their implications are for trainees (Watling et al. 2008). 

[글에 막연한 언어가 있는 것]은 그 문장을 해석하려는 독자들에게 좌절의 원인이 될 수 있다. 예를 들어, '함께 일하기 좋은 사람'(Lye et al. 2001)과 같은 의견이나 전공의가 얼마나 열심히 일했는지를 반영하는 의견(Ginsburg et al. 2011)은 매우 일반적이지만, 학습자의 성과를 판단하는 데 특히 도움이 되지 않는다고 한 연구 참가자가 지적한 바 있다(Ginsburg et al.. 2015). 이러한 코멘트에 대한 한 가지 가능한 설명은 교직원들이 교육생들을 잘 알지 못할 수 있기 때문에 "누구에 대해서나 써먹을 수 있는" 코멘트에 의존한다는 것이다(Ginsburg et al. 2015). 또 다른 설명은 모호한 언어를 의도적으로 사용한다는 것이다. 예를 들어, 교수진들은 "좋은 말을 할 수 없다면 아무 말도 하지 말라"는 원칙을 준수하기 위한 실제적 결핍에 대한 언급을 회피할 수 있다(Ginsburg et al. 2015). 막연한 논평에 대한 또 다른 잠재적 이유는 (특히 수련생의 수행능력이 안 좋을 경우) 평가가 어렵고, [애매한 언어를 사용하는 것]이 ITER의 양쪽 모두에게 부정적인 영향을 끼치지 않도록 보호하는 데 도움이 된다는 현실과 관련이 있습니다(Ilott 및 Murphy 1997). 
The presence of vague language in written comments can be a source of frustration to readers who try to interpret them. For example, comments such as ‘‘pleasant to work with’’ (Lye et al. 2001), or those that reflect how hard a resident worked (Ginsburg et al. 2011), are extremely common, yet are considered particularly unhelpful for judging learners’ performance—as a participant in one study noted, ‘‘if you’re a good person you get those’’ comments (Ginsburg et al. 2015). One potential explanation for such comments is that faculty may not know their trainees very well, so they resort to comments that ‘‘you could say about anyone’’ (Ginsburg et al. 2015). Another explanation is that vague language is used deliberately. For example, faculty may avoid commenting on an actual deficiency to abide by the principle that ‘‘if you can’t say anything nice, don’t say anything at all’’ (Ginsburg et al. 2015). Another potential reason for vague comments relates to the reality that evaluation is difficult—especially when a trainee is not performing well—and that the use of vague language helps guard against negative consequences for individuals on both sides of the ITER (Ilott and Murphy 1997). 

ITER에서 모호한 언어의 현상을 체계적으로 탐구하기 위해 실용적 의사소통을 위해 언어가 어떻게 사용되는지 고민하는 실용주의라는 언어학의 한 분야로 눈을 돌렸다. [언어적 실용론Linguistic pragmatics]은 우리가 일상에서 사용하는 언어의 많은 부분이 문자 그대로 해석되는 것이 아니라고 주장한다. 아이러니, 빈정거림, 은유를 표현하는 언어는 이 전제를 쉽게 식별할 수 있는 예이다. 또한 [비문자적 표현Non-literal language]는 관습적인 간접성(Brown and Levinson 1987)의 개념을 포함하는데, 여기서 '좋은' 또는 '기대치를 충족'과 같은 단어와 구절은 (관습적으로) 평균 이하를 의미할 수 있다(Kiefer et al. 2010). 최근의 한 연구에서는 필기 ITER 코멘트에서 비문자적 표현Non-literal language 사용 사례가 많이 보고되었지만(Ginsburg et al. 2015), 교수진들은 그러한 코멘트만을 사용하여 높은 신뢰성으로 전공의의 순위를 매길 수 있는 것으로 밝혀졌다(Ginsburg et al. 2013). 서술적 평가 논평에 언어적 프레임워크linguistic frameworks를 적용하는 것은 모호해 보이는 언어가 어떻게 신뢰성 있게 해석될 수 있는지를 설명하는 데 도움이 될 수 있다. 
To systematically explore the phenomenon of vague language in ITERs in more depth we turned to the branch of linguistics called pragmatics, which is concerned with how language is used for practical communication. Linguistic pragmatics argues that much of the language we use in day to day practice is not meant to be interpreted literally. Language expressing irony, sarcasmand metaphors are readily identifiable illustrations of this premise (Akmajian et al. 2010). Non-literal language also includes the concept of conventional indirectness (Brown and Levinson 1987), whereby words and phrases such as ‘good’ or ‘meets expectations’ can—by virtue of convention—come to mean below average (Kiefer et al. 2010). A recent study reported many examples of non-literal language use in written ITER comments (Ginsburg et al. 2015), but it was also found that faculty were able to rankorder residents using such comments alone with a high degree of reliability (Ginsburg et al. 2013). The application of linguistic frameworks to narrative assessment comments may help to explain how language that seems vague can be reliably interpreted. 

실용주의 안에서, [예의 이론theory of politeness] 은 평가 맥락에 특정한 목적적합성과 적용가능성을 가지고 있다. 1970년대 브라운과 레빈슨(Brown and Levinson 1987)에 의해 처음 개발되었으나, 새로운 이론과 제안된 변경에도 불구하고 여전히 영향력이 있다(Fraser 1990; Mills 2003). 브라운과 레빈슨의 프레임워크는 사회학에서 처음 설명한 것처럼 '체면'이라는 개념에 기반을 두고 있다. '체면'의 개념이 시간이 지나면서 다른 의미를 띠었지만, 브라운과 레빈슨의 관점에서 볼 때, [체면]은 [개인이 보호하려는 공적의 자기 이미지]이다.

  • 긍정적인 체면은 사람이 자신에 대해 가지고 있는 긍정적인 이미지(자존심)입니다.
  • 부정적인 체면은 자신의 행동을 방해받지 않으려는 욕망(행동의 자유)입니다.

Within pragmatics, the theory of politeness has particular relevance and applicability to an evaluation context. Originally developed by Brown and Levinson in the 1970s (Brown and Levinson 1987), it remains influential in spite of newer theories and suggested modifications (Fraser 1990; Mills 2003). Brown and Levinson’s framework is based on the idea of ‘face’, as first described in sociology (Bakker 2007).The concept of face has taken on different meanings over time but from Brown and Levinson’s perspective, in essence, face is the public self-image that individuals try to protect.

  • Positive face is the positive image a person has of him/herself (self-esteem);
  • negative face is the desire to not have one’s actions impeded (freedom to act). 


[체면 위협 행위(FTA)]의 상황에서, 우리는 종종 [말하는 사람과 듣는 사람 모두를 위해] 체면 상실을 완화하기 위해 언어 전략을 사용한다(이론으로 사용되는 용어는 대부분 구술 언어에 근거하여 개발되었다). 체면을 위협하는 행동의 흔한 예는 동료에게 부탁을 하는 것이다. 거절당하거나, 청취자에게 은혜를 입히거나, 궁핍한 사람으로 비칠 가능성이 있기 때문이다. 따라서 [부탁을 하는 사람]은 잠재적으로 체면을 위협받을 수 있다. 그것은 또한 [부탁을 받는 사람]에게도 위협적인 면인데, 그녀가 말하는 사람을 불쾌하게 하거나 그녀의 명성에 도움이 되는 것으로 영향을 미치지 않는 방식으로 반응해야 하기 때문이다. 이런 부탁을 하기 위해 발화자speaker는 동료에게 먼저 칭찬(최근 교직상이나 보조금 대회에서의 성공)을 할 수 있는데, 이는 동료의 이미지를 높여 (동료의) 긍정적인 체면을 구제redress해주고, 도움을 청할 수 있는 이유를 설명해줌으로써 자신의 체면을 구제redress해준다.
In the setting of a face threatening act (FTA), we often invoke linguistic strategies to mitigate against potential loss of face, for both the speaker and hearer (the terminology used as the theory was developed based mostly on oral language). One common example of a face threatening act is asking a colleague for a favour. It is potentially face-threatening for the person asking as there is a possibility that he may be turned down, become indebted to the hearer, or be seen as needy. It is also face threatening to the hearer, as she is imposed upon and must respond in a way that does not offend the speaker or affect her reputation as being helpful. To make such a request, the speaker may choose to compliment his colleague on something first (her recent teaching award or success at a grant competition), which redresses her positive face by enhancing her self-image and redresses his face by explaining why one might seek her assistance. 

우리가 더 흔히 접하는 듣는이hearer의 '부정적인 체면'을 구제하는 방법은, '귀찮게 해드려서 정말 죄송합니다' 또는 '당신이 얼마나 바쁜지 알아요'와 같은 문구를 사용하는 것이다. 브라운과 레빈슨(1987)은 이러한 언어 전략이 말하는 사람과 듣는 사람에게 미치는 영향과 함께 체면을 구제하기 위해 사용되는 언어의 종류를 이해하기 위한 명확한 틀을 개발했다. 예의 전략이 사용되는 정도와 채택된 전략의 유형은 행위가 위협적인 상황에 직면해 있다고 간주되는 정도를 반영한다. 
More commonly we redress hearers’ so-called ‘negative face’ by using phrases such as ‘‘I’m so sorry to bother you’’, or ‘‘I know how busy you are’’, which addresses their desire to not be interfered with. Brown and Levinson (1987) developed an explicit framework for understanding the types of language used to redress face along with the effects that these linguistic strategies have on the speaker and hearer (or writer and reader). The degree to which politeness strategies are used—and the types of strategies employed—reflect the degree to which an act is considered to be face threatening. 

[헷징hedging]은 이러한 예의체계 안에 있는 체면상실을 완화하기 위해 사용되는 매우 일반적인 전략 중 하나이다. 브라운과 레빈슨은 헤지(hedge)를 "멤버십 정도를 수정하는 단어 또는 구절"로 정의하며, 멤버십 정도가 "일부적"이거나 특정 측면에서만 진실이라고 말한다(브라운과 레빈슨 1987, 페이지 145). 의사-의사 담론의 위험회피에 대해 연구한 Prince를 포함한 다른 연구자들은 위험회피에 대해 추가로 정의하고 분류하였다(Prince et al. 1982, 페이지 93). 
Hedging is one very common strategy used to mitigate against loss of face that sits within this politeness framework. Brown and Levinson define a hedge as a ‘‘word or phrase that modifies the degree of membership … in a set’’; it says that the membership is ‘‘partial, or true only in certain respects’’ (Brown and Levinson 1987, p. 145). Other researchers have further defined and categorized hedges, including Prince, who studied hedging in physician–physician discourse (Prince et al. 1982, p. 93). 

Prince는 두 가지 주요 유형의 헷지를 보고했다: 근사치와 방패. 

  • 근사치는 두 가지 방법 중 하나로 명제의 '진실 조건'에 영향을 미친다. 
    • 어댑터는 용어를 비전형적non-prototypical 상황(예: ''환자의 발이 약간 파랗다'')에 적응시키고, 
    • 라운더는 항이 숫자의 반올림 표현(예: ''혈압은 약 120/80'')임을 나타낸다. 

Prince reported two main types of hedges: approximators and shields.

  • Approximators affect the ‘truth conditions’ of a proposition in one of two ways:
    • adaptors adapt a term to a non-prototypical situation (e.g., ‘‘the patient’s feet were a little bit blue’’) and
    • rounders indicate that a term is a rounded-off representation of a number (e.g., ‘‘the blood pressure was about 120 over 80’’).
  • 방패는 명제의 '진실 조건'에 영향을 미치지 않는다. 오히려 발언자가 "실제로 얻어진 것affairs의 관련성 상태에 대한 믿음"에 완전히 전념하지 않는다는 것을 암시한다(Prince et al. 1982, 페이지 89).
    • 귀속 방패는 진술을 작성자가 아닌 다른 사람에게 귀속시키는 역할을 하는 반면,
    • 개연성 방패는 발표자/작가가 진술의 진실에 전적으로 헌신하지 않는다는 것을 표시함으로써 의심의 요소를 도입한다(예: 전공의와의 짧은 만남 중…).
  • Shields do not affect the ‘truth conditions’ of their propositions; rather they implicate that the speaker ‘‘is not fully committed to the belief that the relevant state of affairs actually obtains’’ (Prince et al. 1982, p. 89).
    • Attribution shields serve to attribute the statement to someone other than the writer, whereas
    • plausibility shields introduce an element of doubt, by allowing the speaker/writer to indicate that s/he is less than fully committed to the truth of the statement (e.g., ‘‘during my brief encounters with the resident…’’).

이는 보다 최근에 Fraser가 제안한 헷징 개념화와 유사하며, Fraser는 헷징이 [언어적 장치]를 사용하여 발표자가 말한 것에 대한 [약속commitment이 없음]을 표시함으로써, 체면을 세울 수 있는 수사적 전략이라고 언급한다(Fraser 2010) . 우리의 맥락에서 위험회피에 대해 이해하기 위해, 전공의의 지식 기반이 "평균보다 약간 낮은" 것처럼 보인다는 주치의의 서면 의견을 생각해보자. 브라운과 레빈슨에 따르면, Prince와 Fraser 모두에게 이 진술은 '헷징'이다.

  • '어댑터'(전공의가 평균 이하의 범주에 완전히 포함되지 않음을 나타냄)로 간주될 수도 있고
  • '방패'(전공의가 평균 미만이라는 주장을 전적으로 약속하지 않음을 나타냄)로 간주될 수 있다. 

This is similar to a more recent conceptualization of hedging by Fraser, who states that hedging is a rhetorical strategy by which a speaker, using a linguistic device, can save face (for himself or others) by signalling a lack of commitment to what is said (Fraser 2010). To understand hedging in our context, consider an attending’s written comment that a resident’s knowledge base seems ‘‘a little below average’’. According to Brown and Levinson, as well as to both Prince and Fraser, this statement is hedged.

  • It could be considered an ‘adaptor’ (indicating the resident isn’t fully in the category of below average) or
  • it could be a ‘shield’ (indicating that the attending isn’t fully committed to the assertion that the resident is below average). 

헷지는 [표현의 의미적 범주에 대한 완전한 확약을 나타내지 않는 것]을 뜻하며, 일종의, 거의, 대략 등의 문구로 나타낼 수 있다. 헷지의 또 다른 방법은 speech가 표현하는 힘에 전적으로 전념하지 않는 것입니다. 예를 들어 I suppose, maybe, 또는 I think와 같은 문구를 사용하는 것입니다.
Hedges that indicate less than full commitment to the semantic category of an expression can be represented by phrases such as sort of, almost,or like. Another way to hedge is by not commi tting fully to the force of the speech being expressed, by using phrases such as I suppose, perhaps, or I think.

요약하자면, 서면 평가는 의학 교육의 중요성이 높아질 가능성이 높지만, 종종 모호하고 해독하기 어려울 수 있습니다. 언어적 실용주의, 특히 예의 이론과 헷징은 평가 언어의 모호함을 이해하고 이해하는 데 도움이 될 수 있습니다.
To summarize, written assessments will likely take on increasing importance in medical education, yet are often vague and can be frustrating to decode. Linguistic pragmatics—in particular, politeness theory and hedging—might help us understand and make sense of some of the vagueness in assessment language.

방법 및 분석
Methods and analysis

우리는 토론토 대학교 내과과 1학년 레지던트(PGY1)의 단일 코호트에 대한 ITER 양식을 취합했습니다(n = 63). 이 프로그램의 각 전공의는 평균 9번의 로테이션을 완료하며, 이 회전을 위해 ITER가 생성됩니다. 매 로테이션이 끝날 때마다 담당의사가 평가 대상 레지던트에 대한 단일 ITER를 완료합니다. 
We compiled ITER forms for a single cohort of first year residents (PGY1’s) in Internal Medicine at the University of Toronto (n = 63). Each resident in this program completes an average of nine rotations for which ITERs are generated. The attending physician at the end of every rotation completes a single ITER for the resident being assessed. 

이 분석에서는 극단적 집단이 특이하거나 표준과 다르기 때문에 더 "정보가 풍부"할 수 있고, 비교의 유용한 근거를 제공할 수 있기 때문에 [최고 등급]과 [최저 등급]의 전공의를 포함하기로 결정했다. (Patton 2002) 
For this analysis we chose to include the highest and lowest rated residents, as extreme groups can be more ‘‘information rich’’ because they are unusual or differ from the norm, and can provide a useful basis for comparison. (Patton 2002) 

코딩은 Brown과 Levinson의 예의 프레임워크을 사용하여 (아래에 자세히 설명된 바와 같이) 각 주석 상자에 대한 한 줄씩 접근하는 것으로 시작되었습니다. 프레임워크는 이러한 목적을 위한 두 가지 관련 섹션으로 구성되어 있다: 

  • 긍정적인 체면을 다루는 전략 (작성자가 독자가 원하는 것을 표시함으로써) 
  • 부정적인 체면을 다루는 전략 (본질적으로 "[작성자]가 수취인의 행동의 자유를 방해하지 않을 것임을 보증하는 것 … 자기 만족, 격식 및 구속"  

Coding began with a line-by-line approach to each comment box (as described in more detail below) using Brown and Levinson’s politeness framework. The framework has two relevant sections for this purpose:

  • strategies addressing positive face (by indicating that the writer wants what the reader wants) and
  • strategies addressing negative face (which essentially ‘‘consist in assurances that the [writer] will not interfere with the addressee’s freedom of action …self-effacement, formality, and restraint’’ (Brown and Levinson 1987, p. 70). 

표 1은 우리의 데이터와 관련된 전략의 정의와 대표적인 인용문을 포함하고 있다. 
Table 1 contains definitions of the strategies that were relevant to our data, along with representative quotations. 


반복적인 읽기 및 분석에서 우리는 헷징이 만연하다는 것을 발견하였고, 도입부에서 간략히 언급한 Prince et al.(1982)가 제안한 보다 상세한 개념화를 사용하여 이를 코드화하였다. 저자에 따르면 헷징은 일반적으로 두 개의 부분집합을 갖는 '방패'의 형태로 표현된다. 
On iterative reading and analysis we discovered that Hedging was pervasive so we coded it further by using the more detailed conceptualization proposed by Prince et al. (1982) that was briefly mentioned in the introduction. According to the authors, hedging is commonly expressed in the form of ‘shields’, which have two subsets. 

  • [귀인 방패]는 문장을 작성자가 아닌 다른 사람에게 귀속시키는 역할을 합니다. 그들은 전달된 진술이 때로는 특정되고 때로는 그렇지 않은 다른 누군가에게 귀속되어야 한다는 것을 암시한다. 일반적인 예로는 'A의 가르침에 대해 하우스 스태프가 정말 고마워했다' 또는 'B의 수행에 대해 수많은 의견을 받았다'와 같은 문구들이 있다. '분명히 노력한다' 또는 '명백하게 뛰어난 의사소통 능력을 가지고 있다'와 같은 진술도 누구나 또는 모두가 같은 결론에 도달한다는 것을 암시하기 때문에, 이러한 진술도 반드시 작가 자신의 신념에 관한 것은 아니다. 즉, 진술서에 대한 "저자 자신의 헌신commit의 정도"는 쓰여진 내용에서 간접적으로 추론가능할 뿐이다. (Prince et al. 1982) 
    Attribution shields serve to attribute the statement to someone other than the writer. They imply that the statement conveyed is to be attributed to someone else, sometimes specified and sometimes not. Common examples are phrases such as, ‘‘the housestaff really appreciated A’s teaching’’, or ‘‘I received numerous comments about B’s performance’’. Statements such as ‘‘Clearly making an effort’’ or ‘‘Obviously has excellent communication skills’’ are also attribution shields as they imply that anyone – or everyone – would come to the same conclusion and thus these statements are not necessarily about the writer’s own beliefs. That is, the writer’s ‘‘own degree of commitment to the statement is only indirectly inferable’’ from what is written. (Prince et al. 1982) 

  • [개연성 방패]는 스피커/작성자가 자신의 진술의 진실에 완전히 충실하지 못함을 표시함으로써 의심의 요소를 유발합니다. 화자가 [그럴듯한 이유를 근거로 주장]을 하고 있기 때문에 그것들은 [개연성 방패]라고 불립니다. 일반적인 예로는 ‘‘I believe’’, ‘‘I think’’, ‘‘it is possible’’, ‘‘right now’’ 등의 구절이 있습니다. 작성자가 의식적이든 아니든 이러한 문제에 대해 자신의 의견을 해석할 수 있는 그럴듯한 근거로서 주의를 끌기 때문에, [훈련 단계 또는 연중 시기] 를 표시하는 방식으로 서술된 진술도 개연성 방패로 간주될 수 있다. 
    Plausibility shields introduce an element of doubt by allowing the speaker/writer to indicate that s/he is less than fully committed to the truth of the statement. They are called Plausibility shields because the speaker is making an assertion based on plausible reasons. Common examples are phrases such as, ‘‘I believe’’, ‘‘I think’’, ‘‘it is possible’’, ‘‘right now’’, etc. Statements that are marked by notation of stage of training or time of year may also be considered plausibility shields as the writer is – consciously or not – drawing our attention to these issues as a plausible basis on which to interpret their comments. 



일차 코딩은 SG에 의해 수행되었으며, SG와 LL은 함께 프레임워크의 새로운 이해와 적용을 논의했다. SG와 LL은 데이터의 특정 예시와 함께 문헌의 사례를 사용하여 코드의 정의에 대한 이해를 도전하고 확장하며 세분화했다. 익명이기 때문에 우리는 그들의 언어 사용 이면에 있는 작가들의 의도를 파악할 수 없었습니다. 따라서 다른 연구자들과 함께, 우리는 논평이 진심이며, 이 맥락에서 사용되는 언어가 다른 서면 또는 구어 텍스트와 같은 방식으로 해석될 수 있다는 특정한 가정을 가지고 프레임워크를 적용했다.

Primary coding was done by SG, who discussed the emerging understanding and application of the framework with LL. SGand LLworked together to challenge, expand and refine their understanding of the codes’ definitions as they apply to our narrative data using examples from the literature along with specific exemplars from our data. Because the comments were anonymized, we could not determine the writers’ intentions behind their language use. In keeping with other researchers, we therefore applied the frameworks with certain assumptions: that the comments were meant to be sincere and that the language used in this context would be interpretable in the same way as other written or spoken text.

성찰성
Reflexivity

결과
Results


브라운과 레빈슨의 예의 틀의 몇 가지 요소들은 우리의 데이터에 쉽게 적용될 수 있었습니다. 구어에도 상당 부분 적용되는 틀이 꽤 구체적이기 때문에 모든 예의 전략이 관련 있는 것은 아니다.
Several elements of the politeness framework from Brown and Levinson were easily applicable to our data. As the framework is quite detailed, with much of it applying to spoken language, not every politeness strategy was relevant. 

긍정적 체면을 다루기 위한 전략
Strategies to address positive face

브라운과 레빈슨에 따르면 긍정적 체면을 다루기 위해 사용되는 가장 일반적인 전략은 "과장적 관심"이라고 불린다(브라운과 레빈슨 1987, 페이지 104). 이 전략을 통해 작가는 그들의 관심과 찬성을 과장하기 위해 강조 강화적인 수식어를 사용한다. 여기에는 '절대 탁월함', '슈퍼스타', '매우 철저하고 꼼꼼함' 등의 문구가 포함되었습니다. 또한, "모든 면에서 우수한 레지던트!"와 같이 느낌표를 포함한 작가들이 여기에 모두 코드화 된 사례도 있다. 비록 '과장exaggerate'이라는 용어는 주치의가 레지던트를 실제 모습보다 더 나은 것처럼 보이려고 노력한다는 것을 의미할 수 있지만, 이러한 종류의 언어에서 보이는 극단적extreme인 말은 주치의 의견의 진실된 반영일 수도 있다. 고평가군의 약 3분의 1에서 exaggerated interest가 나타났지만, 저평가군의 경우는 2%에 불과했다. 
The most common strategy used to address positive face, according to Brown and Levinson, is called ‘‘exaggerate interest’’ (Brown and Levinson 1987, p. 104), by which the writer uses emphatic intensifying modifiers to exaggerate their interest and approval. This included phrases such as ‘‘Absolutely outstanding’’, ‘‘superstar’’ and ‘‘extremely thorough and meticulous’’. In addition, instances in which writers included exclamation marks were all coded here, such as, ‘‘Excellent resident in all respects!’’ Although the term ‘exaggerate’ may imply that the attending is trying to make the resident seem better than they were, it is possible that the extremes seen in this sort of language may actually be sincere reflections of an attending’s opinion. Exaggerated interest was seen in about a third of the high-rated group but only in 2 % of the low-rated. 

두 번째 전략은 "그룹 내 정체성 표식기"를 저자와 수령자(전공의) 사이의 공통점을 주장하는 방법으로 사용하는 것이다(브라운과 레빈슨 1987, 페이지 107). 레지던트, 수련생, 임상의, 컨설턴트 또는 의사, 또는 존댓말 '닥터'가 포함된 문구가 여기에 포함되었다. 비록 우리 데이터의 맥락(전공의 평가)에 따라 그룹 내 표지를 예상할 수 있지만, 이 용어들은 낮은 등급(59 대 37%; v2 = 17, p\0.001)과 비교하여 높은 등급 그룹에서 더 자주 사용되었음을 주목하는 것이 흥미롭다. 
A second strategy is to use ‘‘in-group identity markers’’ as a way to claim common ground between the writer and recipient (Brown and Levinson 1987, p. 107). Phrases that include the word resident, trainee, clinician, consultant or doctor, or the honorific ‘‘Dr.’’ were included here. Although in-group markers can be expected given the context of our data (evaluation of residents) it is interesting to note that these terms were used more often in the high-rated group compared to the low-rated (59 vs. 37 %; v2 = 17, p\0.001).

세 번째 공통 전략은 비록 상징적으로 레지던트가 ''함께 일하는 것이 정말 즐겁다'' 또는 ''훌륭한 일'' 또는 ''팀으로부터 좋은 호감을 받았다''고 써서 "선물이나 칭찬을 하는 것"이다(브와 레빈슨 1987, 페이지 129이다. 다시 말하지만, 이러한 현상은 낮은 등급(53 대 27%, v2 = 25, p\0.001)보다 높은 등급 그룹에서 더 흔했습니다. 
A third common strategy is to ‘‘Give gifts or compliments’’ (Brown and Levinson 1987, p. 129), albeit symbolically, by writing that a resident is ‘‘a real pleasure to work with’’, or did ‘‘a great job’’ or was ‘‘well-liked by the team’’. Again these were more common in the high-rated group than the low-rated (53 vs. 27 %; v2 = 25, p\0.001). 

부정적 체면을 해결하기 위한 전략
Strategies to address negative face

부정적 체면을 다루기 위해 일반적으로 사용되는 하나의 언어 전략은 '관습적 간접성'이라고 불리며, 관습상 [문자 그대로의 의미와 다른] [모호하지 않은 의미]를 띠게 된 단어나 구를 사용하는 것이다(브라운과 레빈슨 1987, 페이지 132). 보건 전문 교육 맥락에서 전형적인 예는 '좋은'이라는 단어를 사용하는 것이다. 이 단어는 '평균 미만'의 코드 단어로 이해된다(Kiefer et al. 2010). 다른 관례적인 간접 문구로는 "안정적solid"과 "기대 충족"이 있습니다. 이러한 전략은 높은 등급의 그룹(41 대 15%, v2 = 38, p\0.001)보다 낮은 등급의 그룹에서 더 일반적이었다.
One linguistic strategy commonly used to address negative face is called ‘‘conventional indirectness’’, which is the use of words or phrases that, by virtue of convention, have come to take on unambiguous meanings that are different from their literal meanings (Brown and Levinson 1987, p. 132). A classic example in the health professional education context is the use of the word ‘‘good’’, which is understood to be a code word for ‘‘below average’’ (Kiefer et al. 2010). Other conventionally indirect phrases include ‘‘solid’’ and ‘‘met expectations’’. These strategies were more common in the low-rated than the highrated group (41 vs. 15 %; v2 = 38, p\0.001).

브라운과 레빈슨이 보고한 두 번째 공통 전략은 작가가 [자신의 주장] 또는 [수신자(전공의)]로부터 거리를 두기 위해 이름과 대명사를 생략함으로써 '비인간화impersonalize'하는 것이다(브라운과 레빈슨 1987, 페이지 190). 다음 예를 고려해 보십시오.
A second common strategy, reported by Brown and Levinson, is to ‘‘impersonalize’’ by leaving out names and pronouns to distance the writer from the assertions made or from the recipient (Brown and Levinson 1987, p. 190). Consider the following example:

매우 유능한 팀 리더이자 팀 플레이어입니다. 하급 직원들이 존경했다. 좋은 선생님. 환자, 가족 및 기타 의료 전문가에 대해 매우 전문적이고 존중합니다. 매우 열심히 일하며 환자/가족과 함께 많은 시간을 할애하여 문제를 해결하고자 합니다. 철저한 평가 및 퇴원 계획. 
Very competent teamleader and teamplayer. Looked up to by junior housestaff. Great teacher. Very professional and respectful of patients, families, and other health professionals. Very hard working and willing to spend a lot of time with patients/families ensuring issues are addressed. Thorough assessments and discharge plans. 


헤징
Hedging

"약 2주 동안만 그와 교류했지만"이라는 문구 또한 데이터에서 발견한 가장 일반적인 언어 전략을 처음으로 보여줍니다. 데이터에 만연했던 헷징은 저성과 전공의의 의견 94%와 고성능 전공의의 의견 71%에 포함되었다(v2 = 27, p\ 0.001). 일반적인 헷징의 몇 가지 예로는 "진료/진료 차트를 시작하는 데 있어 좀 더 빠르게 진행될 수 있었을 것" 또는 "꽤 독립적으로 잘 작동될 것"과 같은 문구들이 있다. ''could have', ''little more', ''fairy'라는 단어는 [진술의 '진실 상태']나 저자의 [주장에 대한 헌신]에 영향을 미치기 때문에 헷지이다. 첫 번째 경우, 주치의가 ''클리닉을 시작할 때 더 빨리 시작했어야 했다"라고 썼다면 모호함의 여지가 없었을 것이다. 대부분의 위험회피는 [귀인 방패] 또는 [개연성 방패]로 추가로 분류할 수 있었다. 표 2에는 근사치와 보호막을 포함한 하위 유형의 위험회피에 대한 추가 정의와 예가 포함되어 있다. 
The phrase ‘‘Although I only interacted with himfor about 2 weeks’’ also offers a first look at the most common linguistic strategy we found in our data: Hedging, which was pervasive in our data, being present in 94 % of comments from low-performing residents and in 71 % of comments from high-performing residents (v2 = 27, p\0.001). Some examples of general hedging include phrases such as ‘‘could have been a little more rapid in starting the clinic/picking up charts to get going’’ or ‘‘works well, fairly independently’’. The words ‘‘could have’’, ‘‘a little more’’, and ‘‘fairly’’ are hedges because they affect either the ‘truth condition’ of the statement or the writer’s commitment to the assertions made—in the first instance the attending could instead have written ‘‘should have been more rapid in starting the clinic’’ which would leave no room for doubt. Most hedges were further classifiable as either Attribution or Plausibility Shields. Table 2 contains further definitions and examples of subtypes of hedging including Approximators and Shields. 



문장을 작성자가 아닌 다른 사람에게 귀속시키는 [귀인 방패]는 높은 등급의 그룹(39 대 23%, v2 = 12, p = 0.001)보다 낮은 등급의 그룹에서 더 일반적이었다. 어떤 경우는, 명시적인 대상을 포함했다(예: "하급 housestaff들에 의해" 또는 "복수의 직원이 제안하는 …"). 또는 암묵적인 경우도 있어서 (예: "관심 없음" 또는 "약점이 식별되지 않음" 등)은 어떤 사람도 구체적으로 명시하지 않았다. 종종 'X가 훌륭한 컨설턴트가 될 것이라고 확신한다' 또는 '모두가 우수 레지던트가 될 것으로 느낀다'와 같은 속성이 공유되었다. 따라서 귀속 방패는 글쓴이 자신의 주장을 숨김으로써 글쓴이를 보호하는 역할을 한다.
Attribution shields, which attribute statements to someone other than the writer, were more common in the low-rated than the high-rated group (39 vs. 23 %; v2 = 12, p\0.001) and included instances in which attribution was explicit (e.g., ‘‘looked up to by junior housestaff’’, or ‘‘comments from multiple staff suggest …’’) or implicit, such as ‘‘no concerns’’ or ‘‘no weaknesses were identified’’, without specifying by whom. Often the attribution was shared, e.g., ‘‘We are all confident that X will be an excellent consultant’’, or ‘‘Felt by all to be an outstanding resident’’. Attribution shields thus serve to protect the writer by obscuring his or her own contribution to the assertion. 

의심 요소를 도입하는 [신뢰성 방패]높은 등급의 그룹 의견 44%보다 낮은 등급 그룹의 의견 67%에서 (v2 = 20, p\0.001)에 더 흔했다. 이러한 의견의 다수는 '나는 믿는다' 또는 '나는 생각한다'와 같은 구절을 포함했는데, 이는 작가가 그럴듯한 이유, 즉 그들 자신의 신념과 관찰에 근거하고 있다는 것을 나타낸다. 
Plausibility shields, which introduce an element of doubt, were more common, being present in 67 % of comments from the low-rated group and 44 % of the high-rated group comments (v2 = 20, p\0.001). Many of these comments included phrases such as ‘‘I believe’’, or ‘‘I think’’, which indicate that the writer is basing the assertions that follow on plausible reasons—their own beliefs and observations. 

글쓴이는 '내가 관찰할 수 있는 한'이라는 오프닝 문구를 사용하여 그들이 지금 말하려는 것을 그들이 본 것 이상의 것을 알고 있다는 주장을 하지 않고 있음을 표시함으로써 회피한다. 이것은 전공의에 대해 (아마 다른 관찰에 근거하여) 다른 결론에 도달했을 수 있는 타인의 정당한 의견 불일치 또는 비판에 개방함으로써 작가와 전공의recipient의 체면을 보호합니다. 글쓴이는 자신이 주장하는 것에 대해 [그럴듯한 의심을 불러일으키기 위한 헷지]를 사용했기 때문에 정말로 "틀릴" 수 없다. 이 의견에는 귀인 방패(타인으로부터 받은 피드-포워드)도 포함되어 있습니다.  
By using the opening phrase ‘‘as far as I have been able to observe’’, the writer hedges what they are about to state by indicating that they are not making claims to know anything beyond what they’ve seen. This protects the writer’s and the recipient’s face, by leaving it open to legitimate disagreement or critique by others, who may have come to different conclusions about that resident (perhaps based on different observations). The writer can’t really be ‘‘wrong’’ because she used a hedge to create plausible doubt about what she asserted. Note that this comment also includes an attribution shield (the feed-forward received from others). 

많은 [개연성 방패]들은 전공의의 훈련 단계나 연도를 나타내는 언어로 표시되었다. 예를 들어, '훈련 단계에 비해 우수한 지식 기반 보유' 또는 '훈련 단계에 비해 판단력 우수' 또는 'PGY2 레벨에서 수행할 수 있는 최고의 성과' 등이 있습니다. 이러한 진술은 전공의의 훈련 단계에 주목함으로써 자격을 갖췄거나 '표시'되었기 때문에 [개연성 방패]이며, 따라서 주장에 대한 그럴듯한 이유가 된다. '우수한 첫 달 레지던트', 또는 '훌륭한 시작'과 같은 비슷한 진술이 일년 중 시기에 이루어졌다. 이 작가들은 아마도 무의식적으로 그들의 논평이 조심스럽게 받아들여질 것이라는 것을 암시하고 있으며 해가 갈수록 상황이 변할 가능성에 대해 스스로 열어두고 있다. 
Many of the plausibility shields were marked by language denoting a resident’s stage of training or the time of year. For example, ‘‘Has an excellent knowledge base for his level of training’’, or ‘‘good judgment for level of training’’, or ‘‘as good as you can perform at the PGY2 level’’. These statements are plausibility shields because they are qualified, or ‘marked’, by noting the resident’s stage of training, and thus serve as plausible reasons for the assertion. Similar statements were made about the time of the year, such as ‘‘excellent first month of residency’’, or ‘‘excellent start’’. These writers may be implying—perhaps unconsciously—that their comments are meant to be taken cautiously, and are leaving themselves open to the possibility that things will change as the year progresses. 


예의 전략이 없는 논평
Comments without politeness strategies


위에서 설명한 많은 예의 전략과 대조적으로, 우리는 또한 "Bald, on record (돌직구)"인 많은 논평의 예를 발견했는데, 이는 예의 언어가 전혀 포함되어 있지 않다는 것을 의미한다(브라운과 레빈슨 1987, 페이지 94). 
By contrast to the many politeness strategies described above, we also found many examples of comments that are ‘‘Bald, on record’’, meaning they include no politeness language at all (Brown and Levinson 1987, p. 94). 

이 언어는 코멘트 전체에 흩어져 있지만 전체 코멘트 상자가 "Bald" 문장만 포함하는 경우는 드물었다(총 12개). 
Although this language could be found scattered throughout the comments it was rare for an entire comment box to contain only ‘‘bald’’ statements (12 in total). 

고찰
Discussion

이러한 연구결과는 ITER 의견을 작성하는 것이 체면을 위협하는 행위라는 개념을 뒷받침한다. 다만 수신자의 체면만 위협하는 것은 아니다. 즉, '방패' 형태의 헷징의 반복적인 사용은 작성자가 자신의 체면을 보호하고 있었다는 것을 시사한다.
These findings support the notion that writing ITER comments is a face-threatening act, but not just for the recipient—the recurrent use of hedging in the form of ‘shields’ suggests that writers were also protecting their own face. 

주치의가 전공의에 대한 서면 코멘트를 하는 것이 왜 체면을 위협하는지 생각해 보는 것이 흥미롭다. 브라운과 레빈슨은 FTA의 가중치를 계산하기 위한 공식을 개발했다: 가중치 = D + P + R. 여기서

  • D는 distance로서 말하는 사람과 듣는 사람 사이의 사회적 거리(대칭 관계),
  • P는 power로서 듣는 사람이 말하는 사람에 대해 갖는 권력의 척도이다(브라운과 레빈슨 1987, 페이지 76).
  • R은 rank로서 특정 상황이나 문화에서 부담imposition의 정도 또는 '순위'이다. 

It is interesting to consider why it is face-threatening for an attending to provide written comments about residents. Brown and Levinson developed a formula for calculating the weightiness of a FTA: Weightiness = D x P x R, where

  • D is the social distance between the speaker and hearer (a symmetrical relationship) and
  • P is a measure of the power that the hearer has over the speaker (an asymmetrical relationship; Brown and Levinson 1987, p. 76).
  • R is the ‘rank’ or degree of imposition of the act in a particular context or culture. 

이 공식에서 참석자/연설자가 우월한 위치에 있기 때문에 상주자/청취자가 큰 힘을 갖지 못하고 FTA의 비중이 낮다고 가정할 수 있다. 그러나 Brown과 Levinson의 다음 예를 생각해 보십시오. 같은 회의보다 임금 인상을 원하는 직원과 은행장 회의를 하는데 직원이 총을 들고 있다. —청취자에게 갑자기 유리한 힘의 차이가 뒤집히고, 요구의 사회적 거리 및 순위가 동일하더라도 직면 위협(및 그 결과)은 매우 높아진다. 이는 극단적인 예이지만, 권력 차이power differential가 중요한 고려 사항이라는 점을 보여준다.  
From this formula one might assume that since the attending/speaker is in the superior position, the resident/hearer doesn’t have much power and the weight of the FTA is low. But consider the following example from Brown and Levinson: a bank manager meeting with an employee who wants a raise versus the same meeting but this time the employee is holding a gun—the power differential suddenly is flipped in favour of the hearer and the threat to face (and its consequences) are now very high, even with the same social distance and rank of the request. Although this is an extreme example, it illustrates the point that the power differential is an important consideration. 

ITER 시스템에서, 전공의는 [(전공의의) 교사에 대한 평가]가 이들의 승진, 미래의 교육 및 감독 기회, 재정적 보상 또는 벌금의 계산 등 중요한 결과를 초래하기 때문에 중요한 권한을 가지고 있습니다. 이것은 우리 교수들은 종종 이해의 상충의 입장에 놓이며, 따라서 건설적인 피드백을 제공할 때 조심해야 하다고 제안했다. 
And in the ITER system, residents do have important power because their assessments of their teachers carry significant consequences, including the ability to affect promotion, future educational and supervisory opportunities, and the calculation of financial rewards or penalties. This suggests that our faculty are often in a position of conflict of interest and must tread carefully when giving constructive feedback. 

헷징 및 기타 예의 전략도 일상적인 커뮤니케이션을 통해 전파된다. 인간은 사회적 존재이며 공손함은 관계를 형성하고 유지하는데 도움을 줍니다. 일렌이 예절 이론의 분석과 통합에서 설명했듯이, 브라운과 레빈슨은 예절을 "사회적 관계의 표현을 구성하고, [사회적 필요 및 지위와 상충되는 의사소통 의도에서 발생하는 대인관계 긴장을 해소]할 언어적 방법을 제공한다는 점에서, 예절은 사회생활과 사회의 구조에 매우 중요하다. "고 이야기한다.  
Hedging and other politeness strategies also pervade regular day-to-day communication. Human beings are social creatures and politeness helps build and maintain relationships. As Eelen explains in an analysis and integration of theories of politeness, Brown and Levinson consider politeness to be ‘‘fundamental to the very structure of social life and society, in that it constitutes the expression of social relationships and provides a verbal way to relieve the interpersonal tension arising fromcommunicative intentions that conflict with social needs and statuses’’ (Eelen 2014). 

교사, 코치, 멘토, 평가자, 심판 등 여러 가지 역할과 교육생과의 관계를 고려했을 때, 그리고 ITER의 여러 가지 동시 목적을 고려할 때, Elen이 설명한 갈등의 종류를 쉽게 상상할 수 있습니다. 그렇다면 피드백을 전달할 때 약간의 예의가 도움이 될 수 있고, 교수진이 덜 긍정적인 메시지를 전달해야 할 때 위험회피가 특히 흔하다는 것은 놀랄 일이 아니다. [귀인 방패]를 사용하면 특히 좋지 않은 뉴스의 요소가 있는 경우 발화자/저자가 자신의 [진술에 대한 책임을 회피]할 수 있습니다. 이러한 회피 동기는 낮은 등급low-rated의 전공의에 대한 언급을 할 때 거의 모든 곳에서 위험회피가 사용되는 원인이 될 수 있다. 
Given the multiple roles and relationships we have with our trainees—teacher, coach, mentor, assessor, judge—and the multiple,simultaneous purposes of ITERs in the first place, we can easily envision the kinds ofconflicts that Eelen describes. It should not be surprising then to see that a little politenesscan go a long way when delivering feedback, and that hedging is particularly commonwhen faculty must convey a less positive message. The use of attribution shields can allowthe speaker/writer to evade responsibility for their statements, especially if there is some element of bad news. This motive of evasion may be responsible for the near ubiquitous use of hedging when commenting on low-rated residents. 

하지만, 이것은 [왜 그것이 높은 등급의 전공의들에게 그렇게 흔한지] 설명하지 못한다. 이 연결실체에서 위험회피에 대한 잠재적 설명 중 하나는 공손함politeness이 원활하고 조화로운 관계를 보장하기 위한 [사회생활의 기본]이라는 개념과 관련된다. 이러한 관점에서 볼 때, 헷징이 필수적인 사회적 기능을 한다는 점에서, 그 자체를 근본적인 문제로 간주하여서는 안 된다. 
However, this doesn’t explain why it would be so common in high-rated residents. One potential explanation for hedging in this group relates to the notion that politeness is fundamental to social life for ensuring smooth, harmonious relationships. Considered in this light, hedging should not be deemed as fundamentally problematic as it serves an essential social function. 

앞 단락의 설명에서는 서면 의견의 [주요 수신자]가 전공의라고 가정하지만, ITER는 프로그램 책임자와 기타 참석자를 포함한 [여러 대상자]에게 [다양한 용도]로 사용됩니다. 이러한 다른 대상자들이 야기하는 표면적 위협은 다른 상황에서 위험회피의 만연성을 고려한다면 더 잘 이해할 수 있을 것이다. 예를 들어, 일부 언어학자들은 과학적 담론의 위험회피에 대해 연구하였고 특히 연구 문헌(Myers 1989; Salager-Meyer 1994)에서 위험회피가 일반적이라는 것을 발견했다. 예를 들어, 성가신 문제나 질병의 "원인"에 대한 "해답"을 찾았다고 주장하는 연구자들을 보기 힘들다. 대신에 연구자들은 "A, B 또는 C가 X, Y, Z의 원인이 될 수 있는 요인일 수 있다는 증거를 발견했다"고 진술할 가능성이 훨씬 더 높다. 
The explanations in the preceding paragraph assume that the main recipient of the written comments is the resident, yet we know that the ITER serves multiple purposes for multiple audiences, including program directors and other attendings. The face-threat created by these other audiences may be better understood by considering the pervasiveness of hedging in other situations. For example, some linguists have studied hedging in scientific discourse and have found that it is the norm especially in the research literature (Myers 1989; Salager-Meyer 1994). For example, one rarely sees authors claiming to have found ‘‘the answer’’ to a vexing problem or ‘‘the cause’’ of a disease. Instead, researchers are far more likely to state that they ‘‘have found evidence that suggests that A, B or C may be factors that could be responsible for X, Y or Z’’. 

'''제시되는 증거''', ''아마도'' 및 ''아마도''라는 문구는 [개연성 방패]이다. 이러한 종류의 위험회피의 한 가지 이유는 작성자의 주장이 후속적으로 신용이 떨어지거나 재현할 수 없는 경우에 대비하여 연구자 본인의 체면을 보호하기 위함이다. 그것은 또한 다른 결과나 의견을 발표했을 수 있는 다른 연구자들의 체면을 보호해줍니다. 이 전략은 또한 전문지식과 연공서열이 다른 (그리고 종종 알려지지 않은) 많은 독자들이 있을 수 있다는 것을 고려한다.; 헷징은 [부정적인 예의 전략]으로서, 작가를 겸손하게 묘사함으로써 넓고 다양한 독자들에게 존경을 표한다.
The phrases ‘‘evidence that suggests’’, ‘‘may be’’ and ‘‘could be’’ are plausibility shields. One reason for this sort of hedging is to protect the face of the author in case his or her claims are subsequently discredited or not reproducible. It also protects the face of other researchers who may have published differing results or opinions. This strategy also takes into account that there may be many different (and often unknown) readers with differing levels of expertise and seniority; hedging, as a negative politeness strategy, pays deference to a broad and diverse audience, by portraying the writer as humble. 

ITER 의견에도 동일한 논리가 적용된다. 작성자(즉, 담당 의사)는 작성자와 비교했을 때 전문성의 수준이나 지식의 수준이 다른 여러 유형의 독자(전공의, 프로그램 감독, 역량 또는 항소 위원회 등)가 있을 것이라고 가정한다. 한 주치의가 다른 주치의보다 특정 전공의를 다소 높거나 낮게 평가하는 것이 이상치outlier일 수도 있고, 레지던트에 대한 그들의 의견이 잘못되었을 가능성도 꽤 있다. 특히 [귀인 방패]와 [개연성 방패]를 사용하여 헷징함으로써, 작성자는 [자신이 잘못될 수 있다는 인식]과 [타당한 근거에 기초한 의견]이라는 인식을 함축imply하는 것이다. 
The same logic applies to ITER comments—writers (i.e., attending physicians) assume there will be different types of readers (residents, program directors, competency or appeals committees, etc.), with different levels of expertise and knowledge relative to the writer. It is also quite possible that an attending might be found to be an outlier, or erroneous in their opinion of a resident, having rated them more or less highly than other attendings. By hedging—especially by using attribution and plausibility shields—the writer implies their awareness that they may turn out to be wrong and that their comments are opinions based on plausible evidence. 

교육생들을 위한 헷징의 교육적 의미는 무엇입니까? 전공의들이 이 발언을 어떻게 읽거나 해석하는지는 아직 알 수 없지만, 여기에 제시된 이론적 틀을 바탕으로 예의 전략이 의도된 메시지를 모호하게 할 수 있다. [간접 언어indirect language]가 많을수록 오해를 받을 가능성이 높다(Bonnefon et al. 2011). 실제로 우리가 예의어를 사용하는 이유 중 하나는 직설성을 피하고 해석적 유연성을 만들기 위해서입니다. 
What are the educational implications of hedging for trainees? We don’t yet know how residents read or interpret these comments but, based on the theoretical frameworks presented here, it is possible that politeness strategies obscure the intended message. The more indirect language is, the more likely it is to be misunderstood (Bonnefon et al. 2011). Indeed, one reason that we use politeness language is to avoid directness and create interpretive flexibility. 

반대로, 전공의는 ITER 문맥에 정통한 사회 구성원으로서 ITER 논평에서 위험회피 및 기타 언어적 예의 전략을 식별하고 디코딩할 수 있습니다. 만약 그렇다면, 이러한 행위는 정중함 전략에도 불구하고 체면을 위협하는 특징을 여전히 유지할 것이며, 더 나아가 전공의들은 헷징을 읽어내어서, 직접 언급하지 않는 '더 나쁜' 것이 있다는 표시로 해석할 수 있다. 브라운과 레빈슨의 설명처럼, 작가가 FTA가 실제로 위험성이 높지 않을 때 고위험high-risk FTA에 적합한 전략을 쓴다면, 독자는 FTA가 예전보다 더 컸다고 추정할 것이다(브라운과 레빈슨 1987, 페이지 74). 따라서 잘못된 전략이나 너무 많은 예의 바른 언어를 사용함으로써 우리는 우리가 의도하는 것보다 받는 사람이 더 나쁘다는 인상을 줄 수 있습니다. 

It is also possible that residents, as savvy social members of the ITER context, are able to discern and decode the hedging and other linguistic politeness strategies in ITER comments. If so, these acts will retain their face-threatening quality despite the politeness strategies and, furthermore, residents may read hedging as an indication that there is something ‘worse’ that is not being said. As Brown and Levinson explain, if a writer uses a strategy appropriate to a high-risk FTA when the FTA is actually not high risk, the reader will assume the FTA was greater than it was (Brown and Levinson 1987, p. 74). Therefore, by using the wrong strategy or too much politeness language, we may give the impression that things are worse for the recipient than we really intend. 

우리 전공의 중 상당수가 영어가 모국어가 아니며, 특히 [문자 그대로의 뜻을 의미하지 않는non-literal 언어]가 오해를 살 수 있다는 문헌도 있다(Danesi 1993). 이러한 우려에도 불구하고, 컴퓨터 기반 과외에 관한 흥미로운 일련의 연구는 언어가 직접적인 것일 때보다 의도적으로 공손할 때 학생들이 실제로 더 많은 것을 배울 수 있다는 것을 시사한다. 이러한 '예절 효과'는 학생이 초보자인지 아니면 더 고급인지에 따라 달라질 수 있으며(McLaren et al. 2011), 온라인 학습 및 시뮬레이션 설정과 같은 의학교육 맥락에서 추가 탐구할 가치가 있을 수 있다. 
Another issue to consider is that for many of our residents English is not the native language, and there is literature suggesting that non-literal language can be particularly prone to misunderstanding (Danesi 1993). Despite these concerns, an intriguing line of research in computer-based tutoring suggests that students may actually learn more when language is deliberately polite than when it is direct (Wang et al. 2008). This ‘politeness effect’ may depend on whether students are novices or more advanced (McLaren et al. 2011) and may be worthy of further exploration in medical education contexts such as online learning and simulation settings. 

목적과 해석 방식에 따라 거의 모든 것을 헷지로 사용할 수 있다(Fraser 2010). 해석은 맥락, 의미적 의미, 사용된 특정 위험회피, 수취인의 신념 체계에 따라 달라진다. 본 연구에서는 익명의 기존 데이터 세트를 사용했기 때문에, 익명성 문제를 무시할 수 없으며, 의도성intentionality에 대한 주장도 할 수 없습니다. 즉, 특정 주치의가 특정 코멘트에 의해 의도된 것이 무엇인지 확실히 알 수 없으며, 우리의 분석은 (불가피하게) 이러한 맥락이 없는 코멘트의 해석을 요구한다. 그러나 이전 연구를 통해 임상 감독자는 친절하고 자신의 코멘트로 인해 다른 사람의 기분을 상하게 하지 않으려는 강한 욕구를 가지고 있다는 것을 알고 있다(Ginsburg et al. 2015; Ilott and Murphy 1997). 
Nearly anything can be used as a hedge depending on how it is intended and interpreted (Fraser 2010). Interpretation depends on the context, the semantic meaning, the particular hedge used, and the belief system of the recipient. Because we used a pre-existing and anonymized data set for this study, we are unable to tease apart these issues and nor can we make claims regarding intentionality. That is, we cannot know for certain what a particular attending intended by any particular comment, and our analyses have, by necessity, required interpretation of these decontextualized comments. However, we do know from previous research that clinical supervisors have a strong desire to be nice and to not offend anyone with their comments (Ginsburg et al. 2015; Ilott and Murphy 1997). 

게다가 밀스가 예의 이론에 대한 비판에서 지적했듯이, "예의는 [의도적이고 의식적인 언어적 선택]에서부터 [무의식적인 규칙이나 대본의 적용]에 이르기까지 모든 범위에 걸쳐 있다." (밀스 2003, 페이지 74) 
Further, as Mills points out in her critique of politeness theories, ‘‘politeness spans the full range from deliberate, conscious linguistic choices to the unconscious application of rules or scripts’’ (Mills 2003, p. 74). 

항상 의도적인 선택이라기 보다는, 일부 [공손함 언어politeness language]는 "주어진 [주어진] 문맥과 관련된 규범에 적합하게 결정될 수 있다(Mills 2003, 페이지 67)". 우리의 맥락에서 이 언어선택의 일부는 상대적으로 무의식적인 것일 수 있으며, 이는 우리의 과학출판 문화처럼 일반적으로 우리의 평가 문화가 정중하고 회피적인 언어를 선호하고 촉진한다는 것을 시사할 수 있다. 
Rather than always being a deliberate choice, some politeness language may be ‘‘determined by conformity to the norms associated with the [given] context (Mills 2003, p. 67)’’. In our context it may be that some of this language choice is relatively unconscious, which might suggest that our culture of assessment in general prefers and promotes polite, hedging language, just as our culture of scientific publishing does. 

Watling(2008)이 지적한 바와 같이, ITER 프로세스 개선을 위한 교수진 개발 노력은 실망스러웠습니다. 부분적으로는 피드백을 전달하는 데 있어 교수진의 기술을 향상시키는 데 중점을 두고 있으며, 이에 대한 전공의들의 수용성을 방치하고 있기 때문입니다. 
As Watling (2008) noted, faculty development efforts to improve the ITER process have been disappointing, in part because they focus largely on enhancing faculty skill in delivering feedback and they neglect residents’ receptivity to it. 

예를 들어, 완료된 ITER의 품질을 평가하는 두데크 외 연구진(2008)은 "Excellent하게 작성된 ITER은 어떤 모습인가"에 대한 교수진의 인식을 반영한다. 흥미롭게도, ITER 품질 체크리스트의 9개 항목 중 7개 항목이 숫자 점수가 아닌 작성된 코멘트에 초점을 맞추고 있었고, 이는 교수 감독관들은 '코멘트'가 양식에서 매우 중요한 부분이라고 느끼고 있음을 시사합니다.
For example, Dudek et al.’s (2008) work on evaluating the quality of completed ITERs reflects their faculty participants’ perceptions of how ‘‘excellent’’ completed ITERs should look. Interestingly, seven of the nine items on their ITER quality checklist focus on the written comments rather than the numeric scores, strongly suggesting that faculty supervisors feel the comments are a critically important part of the form. 

피드백의 내용에 초점을 맞춘 "더 나은" 코멘트를 작성하도록 교수진을 훈련시키려는 노력이 일어났다(Dudek et al. 2013). 예를 들면,

  • 강점과 약점을 모두 포함하는 "균형 잡힌" 코멘트를 제공한다.
  • '지지적 방식''으로 피드백을 제공한다.
  • 피드백 또는 교정조치에 대한 수습생의 반응을 문서화합니다.

Efforts have arisen to train faculty to write ‘‘better’’ comments (Dudek et al. 2013), which focus closely on the content of the feedback, including instructions for faculty

  • to provide ‘‘balanced’’ comments that include both strengths and weaknesses,
  • to provide feedback in ‘‘a supportive manner’’ and
  • to document the trainee’s response to feedback or remediation.

안타깝게도, 교수진을 훈련시키는 것은 원하는 효과를 거두지 못했다(Dudek et al. 2013).
Unfortunately, training faculty has not had the desired effect (Dudek et al. 2013). 

우리의 연구 결과가 그 이유를 설명하는 데 도움이 될 수 있습니다. 첫째, "균형 잡힌" 코멘트는 비교적 열악한 전공의 성과를 나타내는 신호로 해석되는 경우가 많다(Ginsburg et al. 2015). 아마도 평가와 피드백의 개념이 ITER에 통합되기 때문에 좋은 "피드백" 관행이 이 맥락에서 완전히 적용되지 않을 수 있기 때문일 것이다. 둘째, '지원적' 방식으로 서면 피드백을 제공하려는 시도는 역설적으로 감독자가 덜 비판적으로 보이는 방법으로 더 많은 헷징과 간접 언어를 포함하도록 유도할 수 있다
Our findings may help to explain why. First, ‘‘balanced’’ comments are often interpreted as signalling relatively poor resident performance (Ginsburg et al. 2015), perhaps because concepts of assessment and feedback are conflated on an ITER, so that good ‘‘feedback’’ practice may not fully apply in this context. Second, the attempt to provide written feedback in ‘‘a supportive manner’’ may, paradoxically, lead supervisors to include more hedging and indirect language as a way to appear less critical.

우리가 연구에서 제시한 바와 같이, 그러한 헷징은 다른 교수들에게 [희미한 칭찬을 사용한 비판]으로 인식될 수 있다. ITER에 대한 교수진의 서면 의견을 개선하기 위한 현재의 접근방식은 역설적으로 교수진의 메시지가 왜곡될 수 있다는 점을 인식하고 신중하게 고려해야 합니다. 최소한, 우리의 결과는 어떻게 그것을 고칠지는 고사하고 서면 논평에서 어떤 것이 '고정fixed'되어야 하는지가 완전히 명확하지 않다는 것을 보여준다. 
Such hedging, as we’ve suggested in our study, may be perceived by other faculty as damning by faint praise. That current approaches to improve faculty’s written comments on ITERs may, paradoxically, distort their messages should be acknowledged and considered carefully. At a minimum, our results reveal that it is not entirely clear what (if anything) needs to be ‘‘fixed’’ in written comments, let alone how to fix it. 

[예의 이론]은 서술적 평가 코멘트를 작성할 때 교수진의 모호하고 겉보기에 도움이 되지 않는 언어의 사용에 바탕을 둔 중요한 사회적 동기를 드러냅니다. 헷징과 같은 전략은 [낮은 등급의 전공의]에게 널리 사용되고, [높은 등급의 전공의]에게도 놀라운 빈도로 사용된다. 이는 교수진이 어려운 사회 평가 맥락에서 자신뿐만 아니라 전공의들을 위해 '체면 유지' 작업을 하고 있을 수 있음을 시사한다. 일반적으로 언어의 사회적 기능과 특히 예의는 필수적이고 중요하며 반드시 교정이 필요한 것으로 여겨져서는 안 된다. 어텐딩들에게 그들의 언어에 더 직접적으로 대해 달라고 부탁하는 것은 의도하지 않은 부정적인 결과를 초래할 수 있으며, 이는 코멘트 작성을 "개선"하기 위한 교수진 개발 이니셔티브에서 고려되어야 한다.
Politeness theory reveals important social motives underlying faculty’s use of vague and seemingly unhelpful language when writing narrative assessment comments. Strategies such as hedging are used pervasively in low-rated residents and with surprising frequency in high-rated residents as well. This suggests that faculty attendings may be working to ‘‘save face’’ for themselves as well as for their residents in the difficult social context of assessment. The social function of language in general and politeness in particular are essential and important and should not necessarily be viewed as something in need of remediation. Asking attendings to be more direct in their language may have unintended adverse consequences which should be considered in faculty development initiatives to ‘‘improve’’ comment writing. 

 


Adv Health Sci Educ Theory Pract. 2016 Mar;21(1):175-88.

 doi: 10.1007/s10459-015-9622-0. Epub 2015 Jul 17.

Hedging to save face: a linguistic analysis of written comments on in-training evaluation reports

Shiphra Ginsburg 1 2Cees van der Vleuten 3Kevin W Eva 4Lorelei Lingard 5

Affiliations collapse

Affiliations

  • 1Department of Medicine and Wilson Centre for Research in Education, University of Toronto, Toronto, ON, Canada. shiphra.ginsburg@utoronto.ca.
  • 2Mount Sinai Hospital, 600 University Ave, Ste. 433, Toronto, ON, M5G1X5, Canada. shiphra.ginsburg@utoronto.ca.
  • 3School for Health Professions Education, Maastricht University, Maastricht, Netherlands.
  • 4Faculty of Medicine, Centre for Health Education Scholarship, University of British Columbia, Vancouver, BC, Canada.
  • 5Centre for Education Research and Innovation, Schulich School of Medicine and Dentistry, Western University, London, ON, Canada.
  • PMID: 26184115
  • DOI: 10.1007/s10459-015-9622-0AbstractKeywords: Assessment; Competence; Linguistics; Qualitative.
  • Written comments on residents' evaluations can be useful, yet the literature suggests that the language used by assessors is often vague and indirect. The branch of linguistics called pragmatics argues that much of our day to day language is not meant to be interpreted literally. Within pragmatics, the theory of 'politeness' suggests that non-literal language and other strategies are employed in order to 'save face'. We conducted a rigorous, in-depth analysis of a set of written in-training evaluation report (ITER) comments using Brown and Levinson's influential theory of 'politeness' to shed light on the phenomenon of vague language use in assessment. We coded text from 637 comment boxes from first year residents in internal medicine at one institution according to politeness theory. Non-literal language use was common and 'hedging', a key politeness strategy, was pervasive in comments about both high and low rated residents, suggesting that faculty may be working to 'save face' for themselves and their residents. Hedging and other politeness strategies are considered essential to smooth social functioning; their prevalence in our ITERs may reflect the difficult social context in which written assessments occur. This research raises questions regarding the 'optimal' construction of written comments by faculty.

WBA이해하기: 옳은 질문을, 옳은 방식으로, 옳은 것에 대해서, 옳은 사람에게 (Med Educ, 2012)
Making sense of work-based assessment: ask the right questions, in the right way, about the right things, of the right people
Jim Crossley1 & Brian Jolly2

 


도입
INTRODUCTION

역사적으로, 평가는 종종 [중요한 것]보다는 [측정 가능한 것]을 측정해 왔다. 그러나 지난 30년 동안 우리는 가장 중요한 것을 가르치고 평가하려고 점점 더 노력했습니다.
Historically, assessments have often measured the measurable rather than the important. Over the last 30 years, however, we increasingly attempt to teach and assess what matters most.

이 개혁은 세 가지 주요 테마를 가지고 있습니다.
This reformation has had three main themes:

첫째, Biggs와 Collis의 SOLO(관측된 학습 결과의 구조) 분류 체계에 반영되어 피상적인 [지식의 테스트]에서 [이해, 구성, 해석 테스트]로의 전환은 지식 테스트 설계의 발전에 대한 정보를 제공했습니다.
First, the move from the testing of superficial knowledge towards the testing of understanding, construction and interpretation, reflected, for example, in Biggs and Collis’ SOLO (structure of observed learning outcomes) taxonomy,1 has informed developments in knowledge test design.

둘째, Bloom의 독창적인 분류법에 반영되어 기술과 태도가 지식만큼이나 중요할 수 있다는 인식이 새로운 형태의 임상 검사에 기여했습니다. 
Second, the recognition that skills and attitudes can be as important as knowledge, reflected in Bloom’s original taxonomy,2 has contributed to new formats of clinical examination. 

마지막으로, 심리측정학적 관점은 평가자의 주관성과 성과에 대한 사례 특수성을 강조하면서 객관적 구조 임상 검사(OSCE)와 동의어 미니 임상 평가 연습(mini-CEX)과 같은 많은 다른 평가 형식에 걸쳐 복수의 '미니' 테스트 샘플을 향한 움직임을 촉발했다. 
Finally, psychometric perspectives, in highlighting assessor subjectivity and the case-specificity of performance,3 have prompted a move towards multiple ‘mini’ test samples across many different assessment formats, such as the objective structured clinical examination (OSCE) and the eponymous miniclinical evaluation exercise (mini-CEX).4 

이러한 개발 중 다수는 [평가를 해체deconstructed]했으며, 일부는 결과적으로 [학습이 해체]되었다고 주장할 것이다. 즉, 평가된 행동을 하위 구성 요소로 나누거나, 그러한 방식으로 단순히 샘플링하는 것조차 학습자들이 [큰 그림]에 덜 집중하고 ['역량'을 뒷받침하는 (세부)요소]에 더 많이 집중하도록 강제mandated했습니다. 
Many of these developments have deconstructed assessments and, some would argue, consequentially deconstructed learning. That is, breaking the assessed behaviour into subcomponents, or even simply sampling it in that way, has mandated learners to focus less on the big picture and more on elements or underpinning ‘competencies’. 

하지만 흥미롭게도, 역량 운동은 완전히 대조적인 방향을 제시하기도 했다. 실제 업무상 문제를 해결하기 위해 역량의 모든 요소들이 함께 통합되어야 한다고 주장했다.5 Miller의 피라미드는 다음의 것을 암시함으로써 이 아이디어를 잘 모델링한다. 

  • [이해]에 지식은 필요하지만 충분하지 않다
  • [능력(또는 역량)]에 이해는 필요하지만 충분하지 않으며,
  • [실제 일상적 성과]에 능력은 필요하지만 충분하지 않다.6 

피라미드의 각각의 새로운 층은 분리된 것을 재구성reconstruct합니다. 
Interestingly, however, the competency movement also provided an altogether contrasting direction. It argued that, in practice, all the component parts of a competence must be marshalled together and integrated to deal with real workplace problems.5 Miller’s pyramid6 models this idea well by implying that knowledge is necessary, but not sufficient, for understanding. Understanding is necessary but not sufficient for ability (or competence), and ability is necessary but not sufficient for actual day-to-day performance.6 Each new layer of the pyramid reconstructs what had been separated. 

이는 통제된(비구축된) 환경에서 의사의 능력을 평가할 때 그들의 [실제 일상적 성과를 신뢰할 수 있게 예측하지 못한다]는 연구 결과가 입증되었기 때문에 평가에 매우 관련성이 높은 것으로 입증되었다. 
This proves to be highly relevant in assessment because studies have demonstrated that doctors’ abilities when assessed in a controlled (deconstructed) environment do not dependably predict their actual day-to-day performance.7,8 

WBA 평가 결과 참여도가 낮고 신뢰성이 떨어짐
WBA evaluations show poor engagement and disappointing reliability


WBA는 다른 어떤 평가도 할 수 없는 것을 측정하기 때문에 전 세계 대학원 평가 프로그램에 빠르게 통합되었다. 예를 들어, 영국에서는 모든 왕립 대학의 프로그램에 등장한다. 그럼에도 불구하고 상대적으로 인기가 없었다. 영국 의과대학 아카데미의 보고서는 다음과 같은 여러 가지 조사를 요약하였다.
Because WBA measures what noother assessments can, it has been rapidly incorporated into postgraduate assessment programmes around the world. In the UK, for example, it features in the programme of every Royal College.9 Nevertheless, it has been relatively unpopular. A report of the UK Academy of Medical Royal Colleges summarised a number of surveys thus:

'전문가는 전문가 행동의 복잡성을 평가하기 위한 환원적 "체크박스" 접근법의 사용을 의심하는 것이 당연하며, 개별 평가 방법의 기준, 방법 및 목표에 대해 광범위한 혼란이 존재한다… 이로 인해 현재 증가하고 있는 WBA에 대한 냉소가 확산되고 있다.'
‘The profession is rightly suspicious of the use of reductive ‘‘tick-box’’ approaches to assess the complexities of professional behaviour, and widespread confusion exists regarding the standards, methods and goals of individual assessment methods… This has resulted in widespread cynicism about WBA within the profession, which is now increasing.’9

많은 대학원 교육 프로그램에서 점수는 평가자 차이에 매우 취약한 것으로 나타났습니다.
in many postgraduate training programmes, scores are found to be very vulnerable to assessor differences,

심리 측정학적인 관점에서, 교육생들 사이에서 [재현 가능한 차별화]를 위해 매우 많은 수의 평가자와 사례가 요구됩니다.
from a psychometric perspective, very large numbers of assessors and cases are required to discriminate reproducibly among trainees.



앞으로 어떻게 하지?
Where do we go from here?


이 백서에서는 몇 가지 기본적인 평가도구 설계 문제를 살펴봄으로써 WBA를 개선하기 위한 몇 가지 제안을 제공합니다.
This paper offers some suggestions for improving WBA by looking at some basic instrument design issues.

방법
METHODS

우리는 프로세스의 끝점에서 시작합니다. 평가자들은 무엇을 측정하고 있으며 어디에 자신의 점수를 매긴다고 생각합니까? 
We start at the endpoint of the process. What do assessors think they are measuring and where do they put their mark? 

결과
RESULTS


어떤 척도가 가장 잘 작동하나요?
What scales work best?


평가자는 수행능력에는 동의할 수 있지만, 응답 척도는 다르게 해석합니다.
Assessors may agree on performance, but interpret response scales differently

평가자 훈련과 몇 가지 표준 설정 절차에는 종종 평가자가 성과 표본을 독립적으로 평가(일반적으로 비디오로부터)한 후 차이를 논의하는 '표준화norming' 또는 '보정calibration' 그룹이 포함된다. 흥미롭게도, 관찰한 내용에 대해 의견이 일치하더라도 응답 척도에 대한 해석에 동의하지 않는 경우가 많습니다. 
Assessor training, and several standard-setting procedures, frequently include ‘norming’ or ‘calibration’ groups in which assessors independently rate a sample of performance (usually fromvideo) and then discuss any differences.12 Interestingly, they often disagree over their interpretations of the response scale even when they agree about what they have observed. 

표 1은 미니 CEX, 사례 기반 논의(CBD) 및 절차 기반 평가(PBA) 도구에서 그러한 척도를 사용하는 몇 가지 예를 제공한다. 응답 척도는 다음과 같은 다양한 구성 요소 중 하나에 맞게 조정됩니다. 예를 들어,

  • 서수적ordinal 성과 수준('공로'의 정도),
  • 수련의 발달 수준,
  • '독립적 실무에 대한 준비 상태'와 같은 임상에 맞는 구조

Table 1 provides some examples of the use of such scales from the mini-CEX,4 case-based discussion (CBD)13 and procedure-based assessment (PBA)14 instruments. Response scales align themselves to one of a variety of constructs, including:

  • a trait with ordinal levels of performance (degree of ‘merit’);
  • a developmental level of training, and, rarely,
  • a clinician-aligned construct such as ‘readiness for independent practice’.  

 

 

WBA 방법에 대한 대규모 연구의 일부로 수행된 비기술적 기술력(NOTTS)과 객관적 구조화된 기술력 평가(OSATS) 도구를 사용한 PBA의 병렬 평가는 다음을 시사했다. 
[PBA 글로벌 요약 척도]를 사용할 때, 평가자들은 다른 평가도구에 비교 가능한 척도를 사용할 때보다 훨씬 더 밀접하게 서로 동의했고 훨씬 더 차별적이었다. [PBA 글로벌 척도]는 임상 평가자의 전문성과 우선순위에 매우 잘 부합한다는 점에서 이례적이다.
A parallel evaluation of PBA with the non-technical skills for surgeons (NOTTS) and objective structured assessment of technical skills (OSATS) instruments, undertaken as part of a large study of WBA methods,15 suggested that, when using the PBA global summary scale, assessors agreed with one another much more closely and were much more discriminating than they were when using comparable scales on the other instruments. The PBA global scale is unusual in being so well aligned to the expertise and priorities of clinician-assessors.

Crossley 등은 이 관찰과 관련하여 이러한 평가자 관련 정렬assessor-relevant alignment이 이 관찰이 WBA의 다른 방법으로 일반화되는지 여부를 평가하기 위해 설계된 연구에서 점수의 신뢰도를 향상시킨다는 가설을 테스트했다. 
With reference to this observation, Crossley et al.16 tested the hypothesis that such assessor-relevant alignment improved the reliability of scores in a study designed to evaluate whether this observation generalises to other methods of WBA. 

그들은 [세 가지 WBA 방법]을 취했고, 기존의 기존 척도의 성과를 다른 곳에서 '위임가능성'으로 identified된 [임상적 정교화 및 독립성 개발]의 구조에 특별히 align된 새로운 척도의 성과와 비교했다. 
They took three methods of WBA and compared the performances of their existing conventional scales with those of new scales specifically aligned to the construct of developing clinical sophistication and independence, a construct that has been identified elsewhere as ‘entrustability’.17 

[원래의 척도][규범적]이고 [발전적]이었다. 예를 들어, 미니 CEX에서 우수한 성과에 대한 개발 설명자는 '고급 훈련 중에 예상되는 수준에서 수행'이 될 수 있다. 이러한 유형의 앵커는 WBA 방법에서 매우 일반적입니다. 그러나 [새로운 척도]'임상적으로 고정'되었다. 예를 들어, '기대 수준' 발달 설명자에 대한 동등한 임상 앵커는 다음과 같다. 
'우수하고 시기적절하게 상담 능력을 입증하여 복잡하거나 어려운 상황에서 종합적인 이력 및 검사 결과를 제공합니다. 접선 후 임상적으로 판단력이 우수합니다.'

The original scales were normative and developmental. For example, on a mini-CEX a developmental descriptor for a good performance might be ‘Performed at level expected during advanced training’. This type of anchor is very common across WBA methods. However, the new scales were ‘clinically anchored’. For example, an equivalent clinical anchor for the ‘expected level’ developmental descriptor is: ‘Demonstrates excellent and timely consultation skills, resulting in a comprehensive history and⁄ or examination findings in a complex or difficult situation. Shows good clinical judgement following encounter.’

새로운 척도가 임상 평가자의 관점에서 대학원 교육을 통해 진행 상황을 보다 효과적으로 반영할 수 있다면, 우리는 [두 가지 심리 측정 결과]를 찾을 수 있을 것입니다.
If the new scale did indeed facilitate a more valid reflection of progression through postgraduate training in the eyes of clinician-assessors, we would expect to find two psychometric consequences:

1 괜찮은 성과자와 뛰어난 성과자가 광범위하게 뭉뚱그려졌음을 입증했던 이전 연구 결과와 대조적으로, 교육생은 더 광범위하게 변별discriminated되어야 한다(예: Nair et al.
1 trainees should be discriminated more widely, by contrast with the findings of previous studies, which demonstrated extensive clustering of good and high performers (e.g. Nair et al.10),

2 요구되는 표준에 대한 전반적인 인식과 특정 훈련생에 대한 응답 측면에서, 평가자들 사이에 더 나은 합의가 있어야 한다.
2 there should be better agreement among assessors, both in terms of their overall perception of the standard required and in their responses about particular trainees.

 

이것이 바로 결과가 보여주었던 것입니다. 단순히 척도를 임상 평가자의 우선순위에 맞춰 조정하는 것만으로 평가자 차별이 상당히 증가하고 평가자 불일치가 감소합니다.
This is exactly what the results showed. Simply aligning the scale with the priorities of clinicianassessors substantially increased assessor discrimination and reduced assessor disagreement.

신뢰성은 현저하게 향상되었을 뿐만 아니라, 가변적인 맥락에서 사용되는 다양한 측정 도구에서도 향상되었다. 왜 이런 일이 일어났을까? 

Not only did the reliability improve markedly, but it did so across a wide variety of measurement instruments used in variable contexts. Why did this happen? 


응답 척도는 (평가자의) 인지 구조를 반영해야 한다.
Response scales need to reflect cognitive structuring


이미 1980년에, 여러 관측자들은 [평가자의 인지 특성]이 유전적 또는 제도적으로 고정된 속성(예: 성별, 연령, 인종, 직업)보다 평가 과정에 더 큰 영향을 미친다고 언급했다. 많은 연구의 획기적인 검토에서, 예를 들어, 저자들은 [더 경험이 많고 인지적으로 복잡한 평가자]들이 후광 효과에 덜 민감하고, 또한 최소한의 서술자보다는 상세한 기준점을 선호한다고 제안했다. 
As long ago as 1980, various observers remarked that the cognitive characteristics of raters have greater influence on the rating process than more genetically or institutionally fixed attributes (e.g. sex, age, race, job). In a landmark review of many studies,19 the authors suggested, for example, that more experienced and more cognitively complex raters were less susceptible to halo effects and also preferred detailed anchors to minimal descriptors. 

그들의 주요 결론은 다음을 시사했다. 우선 평정 양식의 포멧에 대한 연구 필요성은 적고(심지어 포맷-관련 연구에 대한 모라토리엄을 제안하기도 함), 그보다는 평가자의 인지 스키마를 이해하고 적절히 활용해야 한다는 것이다.
their main conclusion suggested a lesser need to investigate the format of a rating form (and even suggested a moratorium on format-related research) than to understand, and appropriately utilise, the cognitive schema of the raters. 

다른 증거는 평가자의 인지 프레임워크의 중요성을 확인하지만, 대응 형식이 이러한 프레임워크를 양호한 정렬good alignment에 의해 어떻게 활용할 수 있는지를 보여준다. 혁신적인 연구에서, 학생 청각학자들은 평가 척도에 대한 초기 교육을 받은 후, 네 가지 유형의 척도를 사용하여 음성 제작의 품질을 평가하도록 요청받았습니다. 
Other evidence affirms the importance of raters’ cognitive frameworks, but shows how the response format might exploit these frameworks by good alignment.20 In an innovative study, student audiologists, after initial training on the rating scales, were asked to rate the quality of voice production using four types of scale,

  • 텍스트 앵커가 있는 척도는 앵커가 없는 척도에 비해 등급간 신뢰성이 높았지만 
  • 일반적으로 청각 앵커가 있는 척도에 비해 강하지 않았습니다. 
  • 텍스트 앵커와 청각 앵커의 조합은 평가자 간 신뢰도를 최대 수준으로 높였습니다. 
  • Scales with textual anchors showed better inter-rater reliability than scales with no anchors,
  • but were generally not as strong as scales with auditory anchors.
  • The combination of textual and auditory anchors resulted in the greatest degree of inter-rater reliability 

 

더 넓은 맥락에서, 이전에 식별한 바와 같이, WBA의 구조적 정렬construct alignment의 가치에 대한 연구는 주로 현장 연구로 구성된다. 저자들은 그 결과, 조사된 수행능력의 차원과 관련하여 이러한 연구를 비교하는 것은 어렵다고 강조한다. 각 분야, 전문 분야 및 전문직은 교육생을 평가하는 데 있어 무엇이 중요할 수 있는지에 대한 서로 다른 개념을 가지고 있으며, 따라서 [각 평가 수단들은 궁극적으로 고유하다]. 실제로 Crossley 등의 연구에서, 저자들은 [다양한 맥락에서 사용될 수 있는 평가]를 위한 [구체적인specific 임상적 앵커]를 작성하기 어려웠기 때문에 다양한 평가 양식에서 스케일 앵커는 '불편한 혼합uncomfortable mixture'을 나타내었다. 하지만, 그것이 요점일 수 있다: 응답 척도는 심판들의 현실 지도reality map에 맞춰져야 한다. 
In a wider context, as previously identified,19 research on the value of construct alignment in WBA is predominantly comprised of field studies. The authors stress that, as a result, it is difficult to make comparisons across these studies with respect to the dimensions of performance examined. Each discipline, specialty and profession has a different conception of what may be important in assessing its trainees; consequently, each rating instrument is ultimately unique. Indeed, in the study by Crossley et al.,16 scale anchors represented an ‘uncomfortable mixture’ of separate domains on the various assessment forms as it was difficult for the authors to write specific clinical anchors for assessments that could be used across a wide variety of contexts. However, that may be the point: the response scale needs to be aligned to the reality map of the judges. 

분명히, [문자 그 자체로literally 평가자의 경험에 공명하는 앵커]는 '기대 수준임'이나 '만족스러움'과 같은 추상적 서술자보다 더 가치있는 있는 탐색 수단이 될 수 있다. 추상적 서술자는 평가자가 훈련생을 범주에 배정할 때 무엇을 찾아야 하는지에 대해 [참조할 수 있는 점]이 전혀 없습니다. 따라서 동료, 감독자 및 자가 등급 부여에 사용할 수 있는 레시피북에 사용된 그림과 유사한 [그림 앵커](봉합 및 일부 검사 기술 등 일부 기술에 대한)를 척도scale로 사용할 여유가 있을 수 있다. 
clearly, anchors that, literally, resonate with raters’ experiences might be a more profitable avenue of exploration than abstract descriptors such as ‘at expected level’ or ‘satisfactory’. Abstract descriptors feature absolutely no points of reference as to what a rater might be looking for in assigning a trainee to a category. Hence, there may be room in some scales for pictorial anchors (for some skills, such as suturing and some examination skills) similar to the pictures used in recipe books that could be used for peer, supervisor and self-rating. 

 

객관적인 관찰보다는 [판단]을 요구해야 한다.
Ask for judgements rather than objective observations


서로 다른 WBA 평가도구들이 서로 다른 개념적 출발점의 성능에 대해 묻습니다. 표 2는 세 가지 도구의 두 가지 예(항목 줄기 및 대응 옵션)를 제공한다. 즉, 수술 능력 평가를 위한 PBA 기구 14, 임상 의뢰 대응 평가(SAIL) 25, 임상 만남 평가를 위한 mini-CEX4이다. 
Different WBA instruments ask about performance from different conceptual starting points. Table 2 provides two examples (item stem and response options) from each of three instruments: the PBA instrument14 for assessing surgical skills; the Sheffield Assessment Instrument for Letters (SAIL)25 for assessing clinical referral correspondence, and the mini-CEX4 for assessing clinical encounters. 

 

도나베디안의 분류법을 적용하면, 다음과 같이 보인다.

  • mini-CEX수행능력구조 수준(의사의 상대적으로 안정적인 특성 또는 특성)에서 다루는 것으로 보인다.
  • 'PBA PL4' 및 'SAIL 1'는 수행능력을 프로세스 레벨에서 접근한다.
  • 'PBA 글로벌 요약'과 'SAIL 글로벌 등급'은 수행능력을 성과 수준에서 묻습니다.  

If we apply Donabedian’s taxonomy,26 we see that

  • the mini-CEX seems to address performance at the structural level (the relatively stable characteristics, or traits, of the doctor),
  • ‘PBA PL4’ and ‘SAIL 1’ approach performance at the process level, and
  • the ‘PBA global summary’ and ‘SAIL global rating’ ask about performance at the outcome level. 

 

이 평가 활동에서 [성과]나 [구조 수준]을 묻는 질문은 어느 정도의 판단을 요구하며, 단순히 어떤 일이 일어났는지 여부를 규명하는 문제가 아니다. 
In this rating activity, outcome or structure-level questions require a degree of judgement; it is not simply a matter of establishing whether or not something took place. 

그러나 지난 수십 년간 주관성에 대한 우려로 인해 [심사자 합의를 높이기 위해 프로세스 수준]에 초점을 맞춘 도구의 역사가 형성되었습니다. 예를 들어 1970년대와 1980년대에 개발된 컨설팅 평가에서 도출된 공통 성과 항목으로는 '눈맞춤', '옷을 어디에 둘지 알려주기', '악수' 등이 있다. 합계 수행 점수는 일반적으로 이 (프로세스) 항목의 점수 합계를 기준으로 합니다.
However, concerns about subjectivity have, over the past few decades, led to a history of instruments focused at the process level in an attempt to increase examiner agreement. For example, ‘made visual contact’, ‘told patient where to put clothes’, and ‘shook hands’ are common performance items from consulting assessments developed during the 1970s and 1980s. The performance score is usually based on the sum of scores on the items.

그러나 서론에서 설명한 바와 같이, 아마도 수행능력은 부분의 합계보다 더 클 것입니다. 즉, 다음과 같습니다. 
However, as described in the Introduction, perhaps performance is more than the sum of its parts. In other words, perhaps: 

'손' (프로세스) + '시각적 접촉' ≠ (프로세스) '관계 구축'(프로세스) 또는 '대인관계 기술'(구조 속성)
‘shook hands’ (process) + ‘made visual contact’ ≠ (process) ‘establish rapport’ (outcome) or ‘interpersonal skill’ (structural attribute). 

[적절한 대인 관계 기술을 갖춘 의사]는 상호 작용의 고유한 성격에 따라 [프로세스 행동을 다르게 구현]하여 친밀감이나 신뢰를 얻을 수 있습니다. 
Perhaps a doctor with interpersonal skills will implement his or her process behaviours differently depending upon the unique nature of the interaction in order to achieve rapport or trust: 

공정 수준 관측치에 연결되지 않은 경우 평가자가 성능을 더 일관되고 차별적으로 판단합니다. 
Assessors judge performance more consistently and discriminatingly when they are not tied to process level observations 


[수행능력performance이 부분parts의 합계sum보다 더 복잡]하고, 좋은 수행능력이란 [적절한 경험이 있는 관찰자가 동의하는 것]이라면, 우리는 직관에 반하는 관찰을 기대할 수 있습니다. [성과 수준 성능 또는 구조-수준 속성에 대한 주관적인 판단]은 [실제로 일어난 일에 대한 객관적인 응답]보다 평가자 동의와 수행능력 변별에 더 유리할 수 있다. 
If performance is more complex than the sum of its parts and if a good performance is something upon which appropriately experienced observers agree, we might just expect a counter-intuitive observation. Subjective judgements about outcome-level performance or structure-level attributes might result in more assessor agreement and more performance discrimination than objective responses about what actually took place. 

Regehr 등,27은 OSCE 항목(표준 설정 목적에 한함)에 수반되는 글로벌 척도가 실제 항목보다 더 신뢰할 수 있는 점수를 제공한다는 것을 발견했다. 
Regehr et al.,27 discovered that the global scale that accompanied OSCE items (for standard-setting purposes only) provided more reliable scores than the actual items. 

또한 주관적 판단의 신뢰성이 최소한 객관적 점검표만큼 좋다는 것이 많은 다른 평가에서도 사실이다. 
It also holds true in many other evaluations that the reliability of subjective judgements is commonly at least as good as that of objective checklists. 

본질적으로, 업무의 [하위 구성요소의 무수한 증거 세부사항]을 긁어모으는 것은 [뒤로 물러서서 전체를 고려하는 것]만큼 좋은 그림을 보여주지 못합니다. 이(후자의) 상황에서 평가자는 체크리스트에 대한 접근방식을 일종의 [도구적 인상주의instrumental impressionism]로 취하게 된다. 즉, 글로벌한 판단을 내리지만, 그럼에도 불구하고 세부사항에 대한 전반적인, 어느 정도 통합된 인식에 결정된다는 것입니다. 이 환경에서 적절하게 경험이 풍부한(그리고 교육을 받은) 평가자는 행동을 [상황 및 조합으로 해석]합니다. 따라서 [단순한 행동의 총합에 대한 측정]보다는 [행동의 기저에 있는 비교적 안정적인 속성]을 판단할 수 있고, 이는 동의agreement와 변별력의 수준이 더 높을 수 있다.
In essence, scraping up the myriad evidential minutiae of the subcomponents of the task does not give as good a picture as standing back and considering the whole. In this situation, the assessor develops an approach to the checklist that involves a kind of instrumental impressionism, whereby he or she makes a judgement that is global but, nevertheless, is vitally dependent on an overall, somewhat merged, perception of the details. In this setting appropriately experienced (and trained) assessors interpret behaviours in context and in combination such that they are able to judge the relatively stable attributes that underpin the behaviours with greater agreement and discrimination than a measure of the sum of those behaviours. 

WBA 메서드는 얼마나 일반적입니까?
How generic are WBA methods?


대부분의 WBA 평가도구는 모든 성능 도메인에 대한 판단을 요청합니다.
Most WBA instruments ask for judgements about all performance domains

이것은 WBA 평가도구 설계에서 흥미로운 특징입니다. 평가도구instruments는 매우 광범위한 맥락(임상적 만남, 기술적 절차, 서면 대응, 사례 논의, 응급 치료 등)에서 성과를 평가하기 위해 개발되었지만, 거의 모두 동일한 수행 영역에 대해 묻는다. 왜 평가도구의 설계자가 [모든 컨텍스트]에서 [모든 도메인]을 평가할 수 있는 좋은 데이터를 제공하는 것으로 간주했는지 그 이유는 명확하지 않습니다. 
This is an interesting feature of WBA instrument design. Although the instruments were developed to assess performance in a very wide range of contexts (clinical encounters, technical procedures, written correspondence, case discussions, emergency care, etc.), they almost all ask about the same domains of performance, such as:

  • clinical method (history taking and examination);
  • clinical judgement (diagnosing and planning);
  • communication;
  • professionalism, and
  • organising or managing the clinical encounter.

It is unclear why designers consider that every context provides good data for assessing every domain. 

그러면 분명한 질문은 [모든 컨텍스트가 모든 도메인에 대해 동등하게 타당하고 신뢰할 수 있는 데이터를 제공하는지 여부]에 대한 것입니다. 만약 그렇다면, 우리는 임상적 만남이나 진료 권한 인계 시 관찰되는 것과 같은 특정 영역(예: 조직)에 대한 검사자 합의와 차별이 동일할 것이라고 예상해야 합니다. 사실, 그것은 데이터가 보여주는 것이 아니다. G 연구에서 도메인 수준 점수를 조사할 때, 일부 도메인 점수는 다른 것보다 더 나은 평가자 동의와 차별을 보인다. 결정적으로, 도메인 점수의 상대적 신뢰도는 상황에 따라 다릅니다. 
The obvious question then concerns whether every context provides equally valid and reliable data for every domain. If so, we should expect that examiner agreement and discrimination over any particular domain (e.g. organisation) will be the same whether it is observed in a clinical encounter or a handover. In fact, that is not what the data show. When G studies examine domain-level scores, some domain scores display better assessor agreement and discrimination than others. Critically, the relative reliability of domain scores varies across contexts. 

표 3은 최근 workplace에서 이러한 평가 방법에 대한 다양한 연구에서 수집된 데이터 풀을 사용하여 세 가지 다양한 도구의 도메인을 제시함으로써 이를 설명한다. 각 영역-방법 조합에 대해 10개의 관측치에 대해 표준화된 평가의 예측 신뢰성이 주어진다. 미니 CEX와 CBD 도구의 많은 영역이 신뢰성 있게 평가되지만, '조직과 효율성'은 mini-CEX에서 가장 신뢰성 있게 평가되는 반면, '의무기록 유지'는 CBD에서 가장 신뢰성 있게 평가된다. ACAT에서는 어떠한 도메인도 만족스러운 신뢰성에 도달하지 않지만, 핸드오버가 최상의 결과를 달성하고 이 세 가지 도구 내에서 다른 임상 관행 요소를 샘플링하지 않습니다. 

Table 3 illustrates this by presenting the domains from three diverse instruments,4,13,28 with a pool of data recently collected in a number of different studies of these methods of assessment in the workplace.15,16,29 For each domain–method combination, the predicted reliability of an assessment standardised to 10 observations is given. Many domains in the mini-CEX and CBD tools are reliably assessed, but ‘organisation and efficiency’ is assessed most reliably in the miniCEX, whereas ‘medical record keeping’ is most reliably assessed in the CBD. In the ACAT, no domain reaches satisfactory reliability, but handover achieves the best result and this element of clinical practice is not sampled anywhere else within these three tools. 



[관찰되는 상황이나 활동에서 명확히 입증demonstrated되는 수행능력 영역]은 보다 신뢰성 있는 판단과 관련된다. 아마도 그들이 그러한 맥락에서 도메인 구성을 더 효과적으로 샘플링하기 때문일 것이다. 요약하면, 평가자는 [특정 상황이나 활동에서 명확히 입증될 수 있는 수행능력 영역]에 대해 더 신뢰할 수 있고 더 타당한 판단을 내릴 수 있다.

arguably those domains of performance that are clearly demonstrated in the context or activity being observed are associated with more reliable judgements. Perhaps this is because they sample the domain construct more effectively in that context. In summary, assessors may make more reliable, and hence more valid, judgements about domains of performance that they can see clearly demonstrated in a particular context or activity.

어떤 평가자가 판단하기에 가장 적합한가?
Which assessors are best-placed to judge?


[서로 다른 응답자 그룹]은 [개인 대 개인 변동variation]에 덧붙여서, (평가자) 별개의 관점을 제공한다.
Different respondent groups provide discrete perspectives over and above the expected person-to-person variation


다중 출처 평가 및 피드백(MSF)은 몇 가지 다른 관점에서 판단을 수집하는 것이 중요하다는 확신 때문에 안전 등급을 대체했다. 그렇다면 첫 번째 합리적 질문은 다음과 같다. 서로 다른 응답자 그룹이 서로 다른 관점을 제공하는가? 이 경우 단일-그룹 동료평가보다 MSF는 (단순히 숫자뿐 아니라)을 일정한 가치를 더한다add value. [서로 다른 시선]이 두 가지 심리측정 결과에 반영된다. 즉, 일부 집단이 다른 집단보다 진정으로 더 엄격하거나 다른 '취향'을 갖는 경우(즉, 피실험자의 순위가 다르면), 적절히 설계된 G 연구는 [응답자 집단을 어떻게 지정하는지]가 개개인의 [기준점에 대한 변동baseline variation]에 덧붙여서, 그 이상의 [점수 변동score variation]을 설명한다는 것을 보여줄 것이다.
Multi-source assessment and feedback (MSF) has largely superseded peer ratings because of the conviction that it is important to gather judgements from several different perspectives. The first rational question then is: do the different respondent groups provide different perspectives? If they do, then MSF adds value (and not just numbers) to single-group peer ratings. Different gazes will be reflected in two psychometric outcomes: if some groups are genuinely more stringent than others or have different ‘tastes’ (i.e. rank subjects differently), then an appropriately designed G study will show that a respondent’s group designation accounts for some score variation over and above the baseline variation among individuals. 

이는 데이터에서 관찰됩니다. 여러 연구에 따르면 [직함designation이 다른 평가자]들은 컨설턴트나 주치의 평가에서 [엄격함의 수준]이 다르며, 의료 전문분야의 전체 범위에 걸쳐 등급을 매긴다고 한다. 각각의 경우에, 후배 의사들이 가장 관대하다; 점차적으로 더 많은 권한을 가진 직원 집단이 점점 더 엄격한 등급을 제공한다. 
This is observed in the data. A number of studies report that raters of different designations rate with different levels of stringency in assessing consultants30 or junior doctors31 and across the full range of medical specialties.32 In each case, junior doctors are the most lenient; progressively more empowered staff groups provide progressively more stringent ratings. 

즉, [응답자의 직함designation]에 따라 의사 개개인에 대한 기준과 관점이 다르다. 일반적으로 일부 의사는 간호직원이, 일부는 동료 의사가 선호한다. 
In other words, different respondent designations have different standards and different views of an individual doctor; typically some doctors are preferred by nursing staff and some by their peers. 


일부 지정의 견해는 다른 지정의 견해에 비해 더 타당하다.
The views of some designations are more valid than those of others


직함designation에 따라 관점이 달라지는 점을 감안할 때, 누구의 관점이 가장 타당한지를 묻는 것이 합리적일 것으로 보인다. 어떤 경우에는 답이 자명하다. 예를 들어, 임상의 판단에 대해 언급할 수 있는 병원 직원이나 환자는 매우 소수이다.
Given that different designations provide different perspectives, it seems rational to ask whose perspective is the most valid. In some cases the answers are self-evident. For example, few clerical staff or patients are likely to be able to comment on a clinician’s judgement. 

이는 비임상인에게 임상 항목을 판단하도록 요청했을 때 일반적으로 응답률이 낮다는 것을 의미합니다. 
This means that response rates are usually low when non-clinicians are asked to judge clinical items. 

평가 데이터에는 분명한 추세가 있습니다. 즉, [수행능력 측면을 정기적으로 관찰하는 응답자 집단]이 서로 가장 밀접하게 일치한다. 
there is a clear trend in the evaluation data: respondent groups of people who regularly observe an aspect of performance agree with one another most closely. 

15명의 간호사의 등급은 0.81의 신뢰성 계수로 점수를 제공했지만, 15명의 연합 보건 전문가(AHP), 15명의 의사 및 15명의 병원 직원이 매긴 등급은 각각 0.77, 0.74, 0.69의 신뢰성 계수를 달성했다. 왜 그래야 하죠? 아마도 간호사들, 그리고 AHP 순서로 수련의사들의 병동 기반 활동을 가장 많이 보기 때문일 것이다. 
15 nurses’ ratings provided scores with a reliability coefficient of 0.81; however, ratings by 15 allied health professionals (AHPs), 15 doctors and 15 clerical staff achieved reliability coefficients of 0.77, 0.74 and 0.69, respectively. Why should this be? Perhaps it is because nurses, followed by AHPs, see the greatest quantity of trainee doctors’ ward-based activities. 

[수술 간호사]가 외과의사의 병동에서의 매너를 거의 볼 수 없는 경우, 그러한 소스에서 얻은 데이터는 construct-irrelevant variance를 최대치로 만든다. 예를 들어, 법정에서 허용되지 않는 '청문회'에 해당할 수 있습니다. 그러나 [단일 평가 방법]이 [모든 임상 역량]을 포함할 수 없는 것과 같은 이유로, 어떤 [단일 전문직 그룹]도 [모든 임상 역량]을 평가할 수 없는 것이 분명하다.
If the scrub nurse rarely sees the surgeon’s bedside manner, then the data obtained from such a source is subject to maximal construct-irrelevant variance. It could, for example, amount to ‘hearsay’, which is inadmissible in a court of law. However, for the same reason that no single assessment method can encompass all of clinical competence, it is clear that no single professional group can assess it either.

임상 역량이 너무 넓어서 아무도 다 볼 수 없다. 각각의 방법은 성능에 대한 렌즈를 나타내며, 다른 건강 전문가들이 렌즈를 통해 보는 시청자의 역할을 합니다. 실무의 측면을 평가하는 전문 그룹의 능력에 대한 조사는 다른 그룹과의 접촉 및 협업의 범위를 평가하는 것으로 시작할 수 있습니다. 궁극적으로, [수행능력에 대한 판단 능력]을 가지고 있고, 이를 [관찰할 기회]가 있는 평가자들이 보다 신뢰할 수 있는 평가를 제공하는 것으로 보입니다. 
Clinical competence is so broad that no-one sees it all. Each method represents a lens on performance and different health professionals act as the viewers who look through those lenses. Investigations into the capability of professional groups to assess aspects of practice might start with assessing the scope of their contact and collaboration with other groups. Ultimately, assessors who have the competence to judge an aspect of performance, and have had the opportunity to observe it, appear to provide more reliable ratings. 

결론
CONCLUSIONS


우리가 관찰한 것 중 일부는 다른 것들보다 더 잘 입증된다. 그러나 전체적인 상황은 매우 흥미로워 보입니다. 
높은 수준의 평가는 판단의 문제이기 때문에, [올바른 사람]에 대해 [올바른 방식]으로 [올바른 것]에 대하여 [올바른 질문]을 하는 것이 더 효과적입니다.  
Some of our observations are better evidenced than others. However, the overall pictureseems compelling: because high-level assessment is a matter of judgement, it works better if the right questions are asked, in the right way, about the right things, of the right people. 

여러 면에서 가장 주목할 만한 관찰은 WBA 도구와 프로세스를 설계하는 데 있어 지금까지 얼마나 비합리적이었는가 하는 것입니다.

  • 우리는 종종 모든 응답자에게 그들의 전문 지식이나 관찰의 기회와 상관없이 모든 성과 분야에 대한 코멘트를 요청했습니다.
  • 우리는 종종 평가자judge를 [특정 유형의 관찰]로 제한함으로써 적절한(그리고 값비싼) 통합능력, 맥락화능력, 가중치 부여 능력을 낭비해 왔다.
  • 우리는 종종 심사위원들에게 그들이 관찰하지 않고 기껏해야 추론만 할 수 있는 성과 영역에 대해 논평해 줄 것을 요청해 왔다.
  • 우리는 pejorative한 진술이나 determinative한 진술을 포함하는, 명백히 느슨한 '성과 지향적' 또는 '훈련 지향적' 응답 척도를 평가자들에게 제공하면서, 평가자들이 그 항목들을 의미 있고 일관되게 해석하고 사용할 것으로 기대했다.



In many respects, the most remarkable observation might be how irrational we have been to date in designing WBA instruments and processes.

  • We have often asked all respondents to comment on all areas of performance, regardless of their expertise or their opportunity to observe.
  • We have often wasted the integrating, contextualising, weighting capacity of appropriate (and expensive) judges by limiting them to certain types of observation.
  • We have often asked judges to comment on domains of performance that they do not observe and can, at best, only infer.
  • We have frequently confronted assessors with self-evidently loose ‘merit-oriented’ or ‘training-oriented’ response scales that include pejorative or determinative statements, and expected them to interpret and use those items meaningfully and consistently. 

 

 


Med Educ. 2012 Jan;46(1):28-37.

 doi: 10.1111/j.1365-2923.2011.04166.x.

Making sense of work-based assessment: ask the right questions, in the right way, about the right things, of the right people

Jim Crossley 1Brian Jolly

Affiliations collapse

Affiliation

  • 1Academic Unit of Medical Education, University of Sheffield, Sheffield, UK. j.crossley@sheffield.ac.uk
  • PMID: 22150194
  • DOI: 10.1111/j.1365-2923.2011.04166.xAbstract
  • Context: Historically, assessments have often measured the measurable rather than the important. Over the last 30 years, however, we have witnessed a gradual shift of focus in medical education. We now attempt to teach and assess what matters most. In addition, the component parts of a competence must be marshalled together and integrated to deal with real workplace problems. Workplace-based assessment (WBA) is complex, and has relied on a number of recently developed methods and instruments, of which some involve checklists and others use judgements made on rating scales. Given that judgements are subjective, how can we optimise their validity and reliability?Results and discussion: Four general principles emerge: the response scale should be aligned to the reality map of the judges; judgements rather than objective observations should be sought; the assessment should focus on competencies that are central to the activity observed, and the assessors who are best-placed to judge performance should be asked to participate.
  • Methods: This paper gleans psychometric data from a range of evaluations in order to highlight features of judgement-based assessments that are associated with better validity and reliability. It offers some issues for discussion and research around WBA. It refers to literature in a selective way. It does not purport to represent a systematic review, but it does attempt to offer some serious analyses of why some observations occur in studies of WBA and what we need to do about them.

근무지기반평가: 평가자의 수행능력이론과 구인(Adv in Health Sci Educ, 2013)
Workplace-based assessment: raters’ performance theories and constructs
M. J. B. Govaerts • M. W. J. Van de Wiel • L. W. T. Schuwirth • C. P. M. Van der Vleuten • A. M. M. Muijtjens

 

도입
Introduction


'실제' 직업 환경에서 수련자의 성과를 관찰하고 평가하는 것은 수세기 동안 보건 직업 교육의 초석이 되어 왔습니다. 이는 잠재적으로 데이터를 수집하고 일상적인 실습에서 교육생이 실제로 수행하는 작업에 대한 피드백을 제공하는 가장 좋은 방법입니다. 실제로, 현재의 평가 관행은 작업장 기반 평가(WBA)에 점점 더 중점을 두는 것이 특징입니다. 역량-기반 커리큘럼의 광범위한 구현에 의한 자극, 의사의 책무성에 대한 요구와 의료 품질에 대한 우려의 증가, 의료 훈련생에 대한 감독 및 평가의 개선 요구 등이 그 원인이다.
Observation and assessment of trainee performance in ‘real-life’ professional settings has been a cornerstone of health professions education for centuries. It is the potentially best way of collecting data and providing feedback on what trainees actually do in day-to-day practice. Indeed, current assessment practices are characterized by growing emphasis on workplace-based assessment (WBA), stimulated by the widespread implementation of competency-based curricula, increasing demands for physician accountability and concerns about health care quality as well as calls for improved supervision and assessment of medical trainees (Davies 2005; Norcini 2005; Kogan et al. 2009; Holmboe et al. 2010). 

비록 WBA가 형성적 평가에 유용하다는 일반적인 동의가 있지만, 총괄적 평가에 대한 WBA의 유용성은 논쟁의 여지가 있다(Norcini and Burch 2007; McGaghie et al. 2009). WBA의 효용성에 대한 주요 우려는 WBA의 [내재적 주관성]과 [측정 품질의 취약점]과 관련이 있다. 일반적으로 (훈련되지 않은) 평가판단의 특이성은 WBA의 수행능력 평정 사이의 큰 차이, 낮은 평가자 간 및 평가자 내 신뢰성, 의심스러운 타당도를 초래한다(Albanese 2000; Williams et al. 2003). 더 나아가, 다양한 영역의 성능 평가에 대한 연구는 특이 평가자 효과idiosyncratic rater effect가 성능 등급에서 29%에서 50% 이상에 이르는 상당한 변동을 설명한다는 것을 시사한다(Viswesvaran et al. 1996; Scullen et al.). 2000; Hoffman 등. 2010). 결과적으로, WBA를 개선하려는 시도는 평가 절차의 표준화 및 평가자 훈련을 통해 '주관성 요소'를 최소화하는 데 초점을 맞추는 경향이 있다. 그러나 그러한 조치는 기껏해야 엇갈린 성공을 거두었다.  
Although there is general agreement that WBA is useful for formative assessment, its usefulness for summative assessment is not undisputed (Norcini and Burch 2007; McGaghie et al. 2009). Major concerns about the utility of WBA relate to its inherent subjectivity and the resulting weaknesses in the quality of measurement. In general, the idiosyncratic nature of (untrained) rater judgments results in large differences between performance ratings, low interand intra-rater reliabilities and questionable validity of WBA (Albanese 2000; Williams et al. 2003). More to the point, research into performance appraisals in various domains suggests that idiosyncratic rater effects account for substantial variance in performance ratings, ranging from 29 % to over 50 % (Viswesvaran et al. 1996; Scullen et al. 2000; Hoffman et al. 2010). Consequently, attempts to improve WBA tend to focus on minimizing the ‘subjectivity factor’ through standardization of assessment procedures and rater training. However, such measures have met with mixed success at best (Williams et al. 2003; Lurie et al. 2009; Holmboe et al. 2010; Green and Holmboe 2010).  

연구 결과에 따르면 교육 및 연습(세부) 평가 도구를 사용함에도 불구하고 평가자의 행동이 변화에 영향을 받지 않는 여러 가지 이유가 제시됩니다. 예를 들어, 산업 및 조직 심리학 연구는 평가자가 종종 암묵적인 성과 이론을 가지고 있다는 것을 나타내며, 이는 조직에서 지정한 이론과 다를 수 있다(Borman 1987; Ostroff and Ilgen 1992; Uggerslev and Sulsky 2008). 더 나아가, 평가 결과는 [국지적 규범과 가치, 시간 압력, 평가 목표 및 정서적 요인]과 같은 평가 과정의 [사회적 환경에서 복잡하고 상호 연관된 요인 집합]에 의해 결정된다는 것을 보여준다. 
Research findings suggest many reasons why rater behaviour may be quite impervious to change despite training and/or the use of worked out (detailed) assessment tools. Research in industrial and organizational psychology, for instance, indicates that raters often have implicit performance theories, which may diverge from those specified by the organization (Borman 1987; Ostroff and Ilgen 1992; Uggerslev and Sulsky 2008). Research furthermore indicates that rating outcomes are determined by a complex and interrelated set of factors in the social setting of the assessment process, such as local norms and values, time pressure, assessment goals and affective factors (Murphy and Cleveland 1995; Levy and Williams 2004).

긴즈버그 외 연구진(2010)에 의한 최근 연구는 [의학적 영역의 평가 도구]와 전문적 역량의 이론적 모델에서도 감독자의 업무수행 이론을 적절히 반영하지 못할 수 있으며, 이는 역량영역의 'blurring'과 외견상 유효하지 않거나 부정확한('덜 진위') 수행능력 평정을 초래할 수 있음을 시사한다. 다시 말해, [평가자가 어떻게 생각하거나 행동해야 한다고 생각하는가(theory espoused)] 와 [실제로 생각하고 실천하는 것(theory in use)] 사이에 불일치가 있을 수 있습니다. 이와 유사하게 Holmboe 외 연구진(2010)은 "사실 우리는 교수들의 효과적인 관찰 기술과 행동에 대해 거의 알지 못한다"고 언급했습니다.

Recent research by Ginsburg et al. (2010) suggests that also in the medical domain assessment tools and theoretical models of professional competence may not adequately reflect supervisors’ theories of work performance, resulting in ‘blurring’ of competency domains and seemingly invalid or inaccurate (‘‘less authentic’’) performance ratings. In other words, there may very well be discrepancies between how we feel that raters should think or act (theory espoused) and what they actually think and do in practice (theory in use). Similarly, Holmboe et al. (2010) state that in fact ‘‘…we know very little about effective faculty observation skills and behaviors’’. 

개념 프레임워크
Conceptual framework


사회적 인식자 평가
Raters as social perceivers


모든 정보는 궁극적으로 평가자가 나타내는 [인지 필터]를 통과해야 한다는 것이 WBA에 내재되어 있다. 이것은 실생활에서의 성과평가를 이해하는 것은 기본적으로 평가자가 (대인관계 및 사회적 환경에 있는 다른 사람들에 대해) 어떻게 [인상을 형성하고 추론을 하는지]를 이해하는 것(예: 판단과 결정)이라는 것을 의미한다. 실제로, 점점더 수행능력을 평가할 때 평가자는 '동기부여된 사회적 판단'을 제공하는 '사회적 인식자social perceiver'로 여겨지고 있다. 이 접근법의 중심적 가정은 평가자들이 역동적이고 복잡한 사회 환경 내에서 판단과 의사결정을 위해 [정보를 수집, 해석, 통합 및 검색하는 인지적 작업에 직면하는 능동적 정보 처리자]라는 것이다.
It is inherent in WBA that all information must ultimately pass the cognitive filter represented by the rater (Landy and Farr 1980; Smith and Collins 2009). This implies that understanding the evaluation of performance in real life is basically about understanding how raters form impressions and make inferences (e.g. judgments and decisions) about other people in interpersonal and social environments. Indeed, it is increasingly recognized that raters are to be seen as ‘social perceivers’ providing ‘motivated social judgments’ when evaluating performance (Murphy and Cleveland 1995; Klimoski and Donahue 2001; Levy and Williams 2004). A central assumption in this approach is that raters are active information processors who, within a dynamic and complex social setting, are faced with the cognitive tasks of gathering, interpreting, integrating and retrieving information for judgment and decision making (DeNisi 1996; Klimoski and Donahue 2001; McGaghie et al. 2009). 

평가자가 성과를 어떻게 인식하고 판단하는지에 대한 이러한 견해는 사회적 인식의 한 요소로서 [사회적 인식의 이론적 프레임워크]에 캐스팅될 수 있습니다. 실제로, 성과 평가는 '특정 목적을 위한 사회적 인식의 특정 적용'으로 간주될 수 있으며, 평가자의 행동의 대부분은 [사회적 인식 현상social perception phenomena]에 뿌리를 둔 것으로 간주될 수 있다(Klimoski and Donahue 2001; Barnes-Farrell 2001).  
This view of how raters perceive and judge performance can be cast in theoretical frameworks of social perception as an element of social cognition. In fact, performance assessment might be seen as a ‘specific application of social perception for specific purposes, and much of raters’ behaviours can be considered to be rooted in social perception phenomena’ (Klimoski and Donahue 2001; Barnes-Farrell 2001). 

성과 평가 및 사회적 인식
Performance assessment and social perception

사회적 인식 연구의 연구 결과는 일관되게 다른 사람들에게 인상을 주고 판단을 내릴 때 사회적 인식자들은 기존의 지식 구조, 즉 '스키마'를 사용하는 경향이 있음을 나타냅니다. 스키마는 특히 정보가 불완전하거나 모호하거나 상황적 제약(예: 시간 압박, 상충하는 작업)이 있는 상황에서 효율적으로 정보를 처리할 수 있는 적응형 메커니즘으로 생각할 수 있다. 사회적 인식에서 대부분의 사람들은 [역할, 사건 및 개인 스키마]를 사용한다(Pennington 2000, 페이지 69–75). 
Findings from social perception research consistently indicate that, when forming impressions and making judgments of others, social perceivers tend to use pre-existing knowledge structures, or ‘schemas’. Schemas can be thought of as adaptive mechanisms that enable people to efficiently process information, especially in situations where information is incomplete, ambiguous or where there are situational constraints (e.g. time pressure, conflicting tasks). In social perception most people use role, event and person schemas (Pennington 2000, pp. 69–75). 

  • [역할 스키마]는 특정 사회적 지위(예: 경찰관, 교사, 가정의사)에 있는 사람에게 기대되는 행동 집합으로 정의할 수 있습니다.
  • [사건 스키마]는 특정 사회적 상황에서 예상된 사건의 순서(예: 취업 면접 또는 성과 평가 면접)와 관련된 타인의 행동에서 일반적으로 기대하는 것을 기술한다.
  • [개인 스키마]는 누군가의 행동에서 언어적, 비언어적 단서를 통해 그들을 알아가는 과정에서, 이용 가능한 정보에 기초하여 우리가 누군가에 대해 하는 추론이다. 개인 스키마는 예상 행동 패턴, 성격 특성 및 기타 추론을 포함할 수 있으며, 예를 들어 누군가의 지식 기반이나 사회적 범주(예: '우수한 성과' 또는 '부실한 성과')에 대한 결론을 내리게 된다.
  • A role schema can be defined as the sets of behaviours expected of a person in a certain social position (e.g. a policeman, teacher, family physician).
  • Event schemas describe what we normally expect from other people’s behaviours in specific social situations, related to the predicted sequence of events in such a situation (e.g. a job interviewor performance appraisal interview).
  • Person schemas reflect the inferences we make about someone on the basis of (limited) available information, as we get to know them through verbal and non-verbal cues in their behaviour. Person schemas may include expected patterns of behaviour, personality traits and other inferences, such as conclusions about someone’s knowledge base or social category (for instance, ‘excellent performer’ or ‘poor performer’).

세 가지 유형의 스키마는 완전히 구별되거나 분리된 것으로 간주해서는 안 됩니다. 스키마는 사람들이 어떻게 행동하는지 이해하려고 할 때 대화형으로 사용됩니다(Pennington 2000). 

The three types of schema should not be regarded as entirely distinct or separate: schemas are used interactively when we are trying to understand how people behave (Pennington 2000). 


앞에서 설명한 프레임워크의 주요 기능은 [업무 기반 수행능력 평가]의 맥락에서 쉽게 번역translated 수 있습니다. 
Key features of the framework we have described can easily be translated to the context of work-based performance assessment. 

첫째, 문헌(예: 1987년 보먼, 오스트로프와 일겐, 1992년, 어거슬레프와 슐스키, 2010년)은 작업 환경에서 평가자가 일반적으로 효과적인 직무 수행의 개인적 구성이나 '이론'을 개발할 것을 제안한다. 이러한 '수행능력 이론performance theories'은 직무와 관련이 있는 것으로 간주되는 성과 치수와 관련하여 효과적인 행동의 집합 또는 클러스터를 포함한다는 점에서 [역할 스키마]와 매우 유사하다. 수행능력 이론은 (전문적) 경험, 사회화, 훈련을 통해 발전하기 때문에, 수행능력 이론의 내용은 평가자에 따라 달라질 가능성이 높고, 그에 따라 평가자 특이성 수준이 달라질 수 있다(Uggerslev와 Sulsky 2008). 
Firstly, the literature (e.g. Borman 1987; Ostroff and Ilgen 1992; Uggerslev and Sulsky 2008; Ginsburg et al. 2010) suggests that raters in work settings develop personal constructs or ‘theories’ of effective job performance in general. These ‘performance theories’ are very similar to role schemas in that they include sets or clusters of effective behaviours in relation to any number of performance dimensions considered relevant to the job. Since performance theories develop through (professional) experience, socialization and training, the content of performance theories is likely to vary between raters, resulting in varying levels of rater idiosyncrasy (Uggerslev and Sulsky 2008). 

둘째, 연구 결과에 따르면 [효과적인 수행능력과 관련된 특정 행동 집합은 과제의 세팅과 특정 특징에 따라 과제마다 다를] 수 있다(예: Veldhuijen et al. 2007). 벨드하이젠 외 예를 들어, (2007)은 의사들이 상황적 요구에 따라 서로 다른 의사소통 전략을 사용한다는 것을 보여주었다. 따라서 장기간의 직무 경험으로 인해 평가자는 고도로 분화된 (자신만의) 수행능력 스키마를 개발하며, 이는 다양하고 차별화된 직무 관련 업무 및 업무 상황에 대해 각기 다른 효과적인 행동 세트를 나타낸다. 평가자가 과제 수행 중에 다른 사람을 관찰할 때, 과제특이적 또는 상황특이적 단서는 (특히 경험이 풍부한 평가자의 경우) 수행능력을 판단하기 위해 과제특이적 또는 사건특이적 스키마의 사용을 촉발할 수 있다. 
Secondly, research findings indicate that the particular set of behaviours related to effective performance may differ from one task to another, depending on the setting and specific features of the task (e.g. Veldhuijzen et al. 2007). Veldhuijzen et al. (2007), for instance, showed that physicians use different communication strategies depending on situational demands. It is therefore to be expected that, as a result of prolonged job experience, raters develop highly differentiated performance schemas, each representing different sets of effective behaviours for various and differentiated job-related tasks and task settings. When raters are observing others during task performance, task- or situation- specific cues may trigger the use of task- or event-specific schemas to judge performance, especially in more experienced raters. 

마지막으로, 평가 목적으로 성과를 관찰할 때, 평가자들은 불가피하게 개별 피평가자ratee에 대한 지식을 구성하기 위해 '개인 스키마'를 개발할 것이다. 평가자는 예를 들어 평가자의 지식 기반, 역량 수준 또는 행동 성향에 대한 관찰을 해석하고 정보를 통합하며 추론을 작성합니다. 
Finally, when observing performance for assessment purposes, raters will inevitably develop ‘person schemas’ to organize their knowledge about individual ratees. Raters interpret observations, integrate information, and make inferences, for instance about a ratee’s knowledge base, level of competence or behavioural disposition. 

타인이 성과에 대한 판단과 의사결정을 할 때, 평가자는 

  • 평가자의 개인 성과 이론('역할 스키마')
  • 과제특이적 행동의 규범적 기대(과제 특이적 스키마),
  • 피평가자에 대한 추론(개인 스키마)

...등 세 가지 스키마 유형을 모두 상호작용적으로 사용할 가능성이 높다(Cardyet). al. 1987; 보먼 1987). 
When making judgments and decisions about performance by others, raters are likely to use all three schema types interactively:

  • raters’ personal performance theory (‘role schema’),
  • normative expectations of task-specific behaviours (task-specific schema) and
  • inferences about the ratee (person schema)

...may all influence assessment outcomes (Cardy et al. 1987; Borman 1987). 

현재 연구 The present study

방법
Method


참여자 Participants

본 연구의 참여자들은 일반실무에서 대학원생들을 감독하고 평가하는 데 적극적으로 참여한 GP-감독자들이었습니다. 네덜란드 대학원 과정은 일반적으로 교육 프로그램 전반에 걸쳐 체계적인 직접 관찰 및 평가의 오랜 전통을 가지고 있습니다. 
The participants in our study were GP-supervisors who were actively involved in supervising and assessing postgraduate trainees in general practice. The Dutch postgraduate programmes in general practice have a long tradition of systematic direct observation and assessment of trainee performance throughout the training programme. 

연구 절차 및 데이터 수집
Research procedure and data collection

참가자들은 두 건의 비디오 케이스(VC)를 시청했는데, 각각 6학년 의대생이 환자와 '실제'를 맞닥뜨리는 장면을 보여주었다. 참가자들은 이 연구 전에 학생들을 만난 적이 없었다. VC는 일반적인 환자 문제와 다양한 학생 성과를 제시하기 위해 선택되었습니다. 두 VC 모두 아토피 습진과 협심증 등 일반 관행에 흔히 있는 '직접' 사례를 제시했다. 
Participants watched two video cases (VCs), each showing a sixth-year medical student in a ‘real-life’ encounter with a patient. The participants had not met the students before the study. The VCs were selected purposively to present common patient problems and different student performance. Both VCs presented ‘straightforward’ cases that are common in general practice: atopic eczema and angina pectoris. 

VC1(아토픽 습진)은 약 6분간 지속되었으며, 의사소통 및 대인관계 기술과 관련하여 원형적이고 분명히 표준 이하의 성능을 보이는 학생을 제시했습니다. 
VC1 (atopic eczema) lasted about 6 min and presented a student showing prototypical and clearly substandard performance with respect to communication and interpersonal skills. 

VC2(협심증)는 약 18분간 지속되었으며, 의사소통과 환자 관리 모두에 대해 복잡한, 즉 더 차별화된 성과를 보이는 학생을 제시했습니다. 
VC2 (angina pectoris) lasted about 18 min and presented a student showing complex, i.e. more differentiated, performance with respect to both communication and patient management. 

참가자들의 인지능력은 verbal protocol analysis(Chi 1997)을 통해 파악됐다.
Participants’ cognitive performance was captured through verbal protocol analysis (Chi 1997).

  • 1. 영상이 시작되었습니다. 참가자가 학생의 성적을 판단할 수 있을 때 신호를 보내고, 비디오가 정지됩니다(T1). 참가자는 학생의 수행에 대한 첫 번째 판단(언어적 의전(VP) 1)을 구두로 말합니다. 
    1. The video is started. The participant signals when he or she feels able to judge the student’s performance; the video is then stopped (T1). The participant verbalizes his/ her first judgment of the student’s performance (verbal protocol (VP) 1).
  • 2. 참가자는 1차원 등급 척도로 전반적인 성과 등급을 부여합니다(그림 1). 등급 양식(VP2)을 작성하면서 큰 소리로 생각합니다. 
    2. The participant gives an overall rating of performance on a one-dimensional rating scale (Fig. 1), thinking aloud while filling in the rating form (VP2).
  • 3. 동영상은 T1에서 정지된 지점에서 재개됩니다. 동영상이 종료되면(T2) 참가자는 자신의 판단(VP3)을 구두로 말하며 최종 종합 평점을 부여합니다. 
    3. The video is resumed at the point where it was stopped at T1. When the video ends (T2), the participant verbalizes his/her judgment (VP3) while giving a final overall rating. 

 



자료 분석 Data analysis

질적 분석 Qualitative analysis

평가자의 성능 이론과 작업별 성능 스키마(Elo 및 Kyngaes 2008, Thomas 2006)를 살펴보기 위해 먼저 모든 프로토콜(VP1, VP2, VP3 풀링)의 상향식 개방형 코딩 작업을 수행했습니다. 
We first performed bottom-up open coding of all protocols (VP1, VP2, and VP3 pooled) to explore the raters’ performance theories and task-specific performance schemas (Elo and Kynga¨s 2008; Thomas 2006). 

우리는 [개인 스키마]의 사용을 탐구하기 위해 우선순위 코드인 하향식(top-down)을 사용했다. ['개인 스키마']에 대한 코딩 범주는 클라이모스키와 도나휴(2001)가 제안한 이론적 프레임워크를 기반으로, 판단 과제에서 5가지 공통 유형의 추론 프로세스를 기술했다.

  • 지식,
  • 특성,
  • 성향(가능 행동 패턴),
  • 의도(즉각적 목표),
  • 사회적 범주 구성원 자격

We used top-down, a priori coding to explore the use of person schemas. The coding categories for ‘person schemas’ were based on the theoretical framework proposed by Klimoski and Donahue (2001), describing five common types of inference processes in judgment tasks: inferences regarding

  • knowledge,
  • traits,
  • dispositions (probable patterns of behaviour),
  • intentions (immediate goals) and
  • social category membership. 

표 1은 정성 데이터 분석을 위한 소프트웨어를 사용하는 모든 구두 프로토콜에 적용되는 최종 코딩 프레임워크를 제시한다(Atlas-ti 6.1). 
Table 1 presents the final coding framework, which was applied to all verbal protocols using software for qualitative data analysis (Atlas-ti 6.1). 



양적 분석 Quantitative analysis

[성과 이론]과 [과제특이적 성과 스키마]의 사용에 대한 평가자 간의 차이를 탐구하기 위해, 언어 프로토콜은 표 1에 제시된 코딩 프레임워크를 사용하여 재분석되었다. 이러한 분석을 위해 VP1과 VP2를 통합하여 T1에서 모든 구두발언을 포함하는 단일 구두 프로토콜을 만들었습니다. 언어 프로토콜의 녹취록은 연구자 중 한 명(MG)에 의해 segment로 분할되었습니다. 각 segment은 훈련생 또는 훈련생 성과에 대한 하나의 일관성 있는 생각 또는 진술을 나타냈습니다. (예: 성과 차원 내의 특정 행동에 대한 설명 또는 특정 성과 차원에 대한 전반적인 효과성에 대한 판단 의견). 또한, 훈련생 성과에 대한 진술은 긍정 대 부정 차원에 따라 코드화되었습니다.(예: 효과적 행동 대 비효과적 행동). 반복은 그렇게 코드화되었다.  
In order to explore differences between raters in the use of performance theories and taskspecific performance schemas, the verbal protocols were reanalyzed using the coding framework as presented in Table 1. For this analysis, VP1 and VP2 were merged to create a single verbal protocol containing all verbal utterances at T1. The transcripts of the verbal protocols were segmented into phrases by one of the researchers (MG). Each segment represented a single coherent thought or statement about the trainee or trainee performance (e.g. description of a particular behaviour within a performance dimension or a judgment remark about overall effectiveness on a particular performance dimension). Additionally, statements about trainee performance were coded along the dimension positive versus negative (i.e. effective versus ineffective behaviour). Repetitions were coded as such. 

[수행능력 차원]과 관련된 [평가자 특이성 수준]은 해당 치수를 사용하는 등급의 백분율에서 추론할 수 있다.

  • 0과 100%는 최대 등급 간 일치(완전 특이성 결여)를 나타내고
  • 50%는 최대 불일치(최대 특이성)를 나타낸다.

Levels of rater idiosyncrasy in relation to any performance dimension can be inferred from the percentage of raters using that dimension, with

  • 0 and 100 % indicating maximum interrater agreement, i.e. complete absence of idiosyncrasy, and
  • 50 % indicating maximum disagreement, i.e. maximum level of idiosyncrasy.

따라서 비율이 50%에 가까울수록 특이성 수준이 높아집니다. 또한 각 수행능력 차원에 대해 차원 관련 성과(효과적 행동 대 비효과적 행동)를 나타내는 문장의 수를 계산하였다. 
So, the closer the percentage moves to 50 %, the higher the level of idiosyncrasy. Additionally, the number of statements representing dimension-related performance (effective versus ineffective behaviours) was calculated for each of the performance dimensions. 

Ethical approval

결과
Results


수행능력 이론
Performance theory

언어 프로토콜을 분석하여 평가자가 환자와의 만남 동안의 훈련생 행동을 평가할 때 사용하는 17가지 performance dimension를 식별하였다. 평가자들은 네 가지 주요 차원(GP처럼 생각/행동), '의사-환자 관계', '(바이오) 의학적 측면의 처리', '구조/시간 관리')과 다양한 하위 차원을 구분했다. 
Analysis of the verbal protocols resulted in identification of seventeen performance dimensions, used by the raters in assessing trainee behaviour during patient encounters. The raters distinguished four main dimensions (

  • ‘Think/act like a GP’,
  • ‘doctor-patient relationship’,
  • ‘handling of (bio)medical aspects’ and
  • ‘structuring/time management’

...) and various sub-dimensions. 

'의사-환자 관계' 차원에서 두 개의 큰 하위 차원이 식별되었다. 

  • 하나의 하위 차원에는 효과적이고 효율적인 환자-의사 커뮤니케이션을 위한 "좋은 분위기 조성"과 관련된 일련의 행동이 포함되었습니다. 이 하위 차원은 특히 consultation이 시작될 때 평가자들이 고려하였다. 
  • 두 번째 하위 차원('균형잡힌 환자 중심성')에는 상담 내내 환자의 참여를 촉진하는 동시에 전문 의료 전문가로서 의사가 상담을 담당하도록 보장하는 일련의 행동이 포함되어 있습니다. 

Within the dimension ‘doctor-patient relationship’, two large subdimensions were identified.

  • One sub-dimension included sets of behaviours relating to ‘‘creating a good atmosphere’’ for effective and efficient patient-doctor communication. This sub-dimension was considered by the raters at the beginning of the consultation in particular.
  • The second sub-dimension (‘‘balanced patient centeredness’’) contains sets of behaviours facilitating patient involvement throughout the consultation while at the same time ensuring that the physician, as a professional medical expert, remains in charge of the consultation. 


수행능력 차원, 상호 관계 및 성과 관련 행동의 예는 그림 2에 제시되어 있습니다. 
The performance dimensions, their interrelationships and examples of performancerelated behaviours are presented in Fig. 2. 

 



작업특이적 스키마
Task-specific schema


언어 프로토콜 분석 결과, 과제별 성과 스키마의 사용을 반영하는 [세 가지 주요 범주]가 나타났다(표 1).

  • 사례 특이적 단서 식별,
  • 사례 특이적 단서와 관련하여 (비)효과적인 특정 행동의 식별,
  • 훈련생 행동이 특정 환자에 미치는 영향

Analysis of the verbal protocols resulted in three major categories reflecting the use of taskspecific performance schemas (Table 1):

  • identification of case-specific cues,
  • identification of particular behaviours as (in)effective, explicitly in relation to case-specific cues, and
  • effects of trainee behaviour on the particular patient.

이러한 범주는 평가자의 [성과 이론]의 이산적 측면뿐만 아니라, (비효과적인) 행동과 성과를 [사례특이적 단서]에 명시적으로 그리고 구체적으로 연결하는 코멘트를 나타낸다. 이러한 [과제-특이적 성과 스키마]의 특징은 [과제 특이적 성과 요건을 이해하려는 평가자의 노력]과 [환자 encounter 중에 일어나는 일]을 해석하고 평가하기 위한 '과제-특이적 성과 이론'의 사용을 반영한다.

These categories represent comments that focus not only on discrete aspects of raters’ performance theory, but also explicitly and specifically link (in)effective behaviours and performance to case-specific cues. These features of task-specific performance schemas reflect raters’ efforts to understand the requirements of task-specific performance and the use of ‘task-specific performance theory’ to interpret and evaluate what is happening during the patient encounter. 

사람 스키마
Person schema


표 2는 그룹 및 VC당, T1 및 T2에서 추론을 반영하는 구두발언의 종류와 개수뿐만 아니라 수습생에 대한 추론을 하는 평가자의 비율을 나타낸다. 그 결과에 따르면, 대다수의 평가자들이 특히 두드러진 행동(VC1)과 관련하여, 그들의 성과를 관찰하고 평가하는 동안 훈련생에 대해 추론을 하였다. 표 2는 또한 평가자가 첫인상을 형성할 때 T1에서 추론을 할 가능성이 가장 높다는 것을 보여준다. (단일 환자 접촉 시 훈련생 성과 평가에는) Klimoski와 Donahue(2001)에 의해 기술된 5가지 추론 처리 유형이 모두 존재하는 것으로 보였다. 각 VC에 대한 서로 다른 평가자의 추론의 예는 표 3에 제시되어 있다. 
Table 2 presents the percentage of raters making inferences about the trainee as well as the type and number of verbal utterances reflecting inferences, per group and per VC, and at T1 and T2. The results show that the majority of raters made inferences about trainees while observing and evaluating their performance, especially with regard to salient behaviours (VC1). Table 2 also shows that raters were most likely to be making inferences at T1, when they were forming their first impressions. All five types of inference processing described by Klimoski and Donahue (2001) appeared to be present in the assessment of trainee performance during single patient encounters. Examples of inferences by different raters for each of the VCs are presented in Table 3. 

 



평가자 특이성
Rater idiosyncrasy

등급별 특이성에 대한 결과는 표 4와 5에 제시되어 있다.
The results for rater idiosyncrasy are presented in Tables 4 and 5.

표 4는 T1과 T2에서 각 평가자 그룹(경험이 있는 평가자 및 경험이 없는 평가자)과 각 비디오 사례에 대해 수습생 성과를 평가할 때 [특정 performance dimension를 사용하는 평가자의 비율]을 보여줍니다. 백분율이 매우 높거나 매우 낮으면(100 또는 0%에 가까움) 등급 간 일치 수준이 높음을 나타냅니다(등급 특이성 수준이 낮음). 그러나 비율이 50%에 가까울수록 특정 성능 차원 사용과 관련하여 더 많은 등급이 달라지므로 등급 특이성 수준이 높다는 것을 나타냅니다. 표 4는 (거의) 모든 평가자가 두 VC에서 주 performance dimension 중에서 '의사-환자 관계' 또는 그 하위 치수 중 적어도 하나를 사용했음을 보여준다. 
Table 4 shows the percentage of raters using a specific performance dimension when rating trainee performance at T1 and T2, for each group of raters (experienced and nonexperienced) and for each of the videocases. Very high or very low percentages (close to 100 or 0 %) indicate high levels of between-rater agreement (low levels of rater idiosyncrasy). The closer a percentage moves to 50 %, though, the more raters differ with respect to use of the specific performance dimension, indicating high levels of rater idiosyncrasy. Table 4 shows that (nearly) all raters used the main performance dimension ’doctor-patient relationship’ or at least one of its sub-dimensions in both VCs. 

다른 모든 (하위)차원dimension의 경우, 해당 차원을 사용하는 평가자의 백분율은 다양했고(종종 0 또는 100%에서 멀리 떨어져 있음), 훈련생 성과 평가 중 성과 이론(즉, 평가자 특이성)의 사용에 있어 평가자 간 상당한 차이를 나타냈다. 평가자 간 차이와 평가자 전문지식에 대해 일관된 관계를 찾을 수 없었다. 
For all other (sub-)dimensions the percentages of raters using the dimension varied (often far from 0 or 100 %), indicating considerable between-rater differences in the use of performance theory (i.e. rater idiosyncrasy) during assessment of trainee performance. No consistent relationship was found for between-rater differences and rater expertise. 



표 5는 T1과 T2의 각 VC에 대한 성과(하위) 단위별 효과적이고 비효과적인 훈련생 행동에 관한 구두발언의 수를 나타낸다. 표 5는 일반적으로 평가자의 판단이 '의사-환자 관계'에 비해 'Consultation의 생체의학적 측면 처리'에 대한 진술이 적다는 것을 보여준다. 
Table 5 presents the number of verbal utterances concerning effective and ineffective trainee behaviours per performance (sub-) dimension, for each group of raters, for each VC at T1 and T2. Table 5 shows that, in general, raters’ judgments included fewer statements on ‘handling biomedical aspects of the consultation’ compared to ‘doctor-patient relationship’. 



평가자 전문 지식과 작업별 스키마 사용
Rater expertise and the use of task-specific schemas


과제별 스키마 사용에 관한 결과는 표 6에 제시되어 있다. 경험 많은 평가자들은 훈련생 성과를 평가할 때 과제특이적 요소에 훨씬 더 많은 주의를 기울였습니다. 
Results with respect to the use of task-specific schemas are presented in Table 6. Experienced raters paid significantly more attention to task-specific factors in assessing trainee performance. 

복합심장환자(VC2)의 경우 T1과 T2(U = 77.5, p = 0.02, U = 86, p = 0.04, ES = 35)에서 과제특이적 성과 요소 수(A1 + A2 + A3)에 대해 그룹 간 유의한 차이가 발견되었다. 
For the complex cardiac case (VC2), significant between-group differences were found with respect to the number of task-specific performance elements (A1 + A2 + A3) per rater at T1 and T2 (U = 77.5, p = .02, ES = .41 and U = 86, p = .04, ES = .35). 

피부과 환자(VC1)의 경우 T1에서 유사하고 거의 유의미한 차이가 발견되었다(U = 57, p = 0.07). T2에서 과제별 요소(A1 + A2)에 대해 그룹 간 유의한 차이가 발견되었다(U = 73, p = 0.01, ES = 0.44). 
For the dermatology case (VC1), similar and near-significant differences were found at T1 (U = 57, p = .07). At T2, significant between-group differences were found for task-specific elements (A1 + A2) (U = 73, p = .01, ES = .44). 

표 6은 [과제특이적 수행능력 스키마와 관련된 진술]이 경험이 많은 평가자의 구두 프로토콜의 상당한 부분을 나타내며, 경험이 적은 평가자 집단이 덜 자주 사용한다는 것을 명확히 보여준다. 
Table 6 clearly shows that statements related to task-specific performance schemas represent a substantial part of the verbal protocols of the more experienced raters, and are less frequently used by the group of less experienced raters. 



고찰 Discussion

실제 평가 작업 시 think-aloud 절차를 사용하여 성능 평가 시 GP 평가자가 사용하는 수행능력의 차원을 설정할 수 있었습니다. 그림 2의 performance dimensions는 34명의 GP-감독자가 각각 다른 환자 만남을 수행하는 두 명의 성과를 평가한 생각-라우드 절차 분석에서 도출되었습니다. performance dimensions 와 하위 차원은 함께 '평가자가 실제적으로 주목하고 코멘트하는 것'이 무엇인가에 기초하여, 일반적인 실무에서의 의사 수행능력에 대한 [규범적 성과 이론] 또는 ['성과 스키마']를 반영하는 것으로 간주될 수 있다.
We used think-aloud procedures during actual rating tasks, which enabled us to establish dimensions of performance used by GP-raters during performance assessment. The performance dimensions in Fig. 2 emerged from the analysis of think-aloud procedures of 34 GP-supervisors rating the performance of two different trainees each conducting a different patient encounter. Performance dimensions and sub dimensions together could be considered to reflect a normative performance theory, or ‘performance schema’, of physician performance in general practice, built upon what ‘raters actually pay attention to and comment upon in practice’.

본 연구의 결과는 평가자들이 직업 역량에 대한 1차원 또는 2차원 개념('인지적/임상적' 및 '인문적/(정신적)사회적')을 가지고 있고, 그래서 서로 다른 역량이나 차원을 구별할 수 없다는 WBA에 대한 이전의 연구와 일치하지 않는 것 같습니다. 이러한 소위 후광 효과는 일반적으로 전지구적 인상 형성, 분류 또는 '고정관념화'로 인한 평가 오류에 기인한다.
The results from our study seem to be inconsistent with previous research on WBA indicating that raters have a one- or two-dimensional conception of professional competence (‘cognitive/clinical’ and ‘humanistic/(psycho)social’) and are therefore unable to discriminate between different competencies or dimensions (Cook et al. 2010; Pulito et al. 2007; Archer et al. 2010). This so-called halo effect is generally attributed to rater error, resulting from global impression formation, categorization or ‘stereotyping’. 

본 연구의 결과는 평가자들이 성능을 평가할 때 상당히 많은 수의 서로 다른 performance dimensions를 구별하고 상호작용적으로 여러 차원을 사용했음을 명확히 보여준다. 예를 들어, 평가자들은 병력 청취, 신체 검사 또는 환자 관리 시 성과를 평가할 때, 문제의 (바이오) 의료 또는 '의료 기술' 측면뿐만 아니라 의사소통 및 대인관계 및 시간 관리 능력도 평가했습니다.
The results from our study clearly show that raters distinguished a fairly large number of different performance dimensions and used dimensions interactively when assessing performance. For example, when assessing performance during history taking, physical examination or patient management, raters assessed not only students’ ability to adequately handle (bio)medical or ‘medico-technical’ aspects of the problem, but also their communication and interpersonal as well as time management skills. 

다시 말해, 평가자들이 사용하는 성과 이론(또는 역량 체계)은 performance dimensions를 엄격히 분리된 별개의 기업(예: 전형적인 미니 CEX 형식)으로 제시하는 대부분의 표준화 평정 척도의 체계에 [깔끔하게 매핑되지 않는다]. 서로 다른 performance dimensions 간의 진정한 상관 관계는 높을 수 있으며, 관찰된 후광 효과는, 적어도 부분적으로만이라도, 훈련생 수행능력에 대한 (평가자의 무능력 또는 자동적 하향식 범주화의 결과보다는) '진정한 후광'으로 간주될 수 있습니다. 
In other words, the performance theory (or competency framework) used by the raters does not map neatly onto the frameworks of most standardized rating scales, which present performance dimensions as strictly separate, distinct entities (e.g. the typical mini-CEX format). True correlations between different performance dimensions may be high, and observed halo effects may— at least partially—be considered as ‘true halo’ rather than as the result of rater incompetence or automatic top-down categorization of trainee performance. 

우리의 연구 결과는 또한 GP-감독자가 성능 평가에 사용한 치수에 차이가 있어 다양한 평가자의 특이성을 나타냈다는 것을 보여준다. 또한 평가자들은 환자를 마주치는 동안 실제로 본 내용에 따라 다른 dimension를 사용했다. 모든 dimension이 모든 경우에 동등하게 관련되거나 중요한 것은 아니다. 일반적으로 [표준화된 평정 척도]는 사전에 정의된 순서에 따라 performance dimensions(또는 역량)의 집합을 나타내도록 설계되고, 이는 각 수행능력 영역의 동일한 중요성을 시사한다. 따라서 평가자에게 모든 성과 차원에 대한 평가 점수를 작성하도록 요구하는 것은 연습생의 성과에 대한 정확한 묘사에 방해가 될 수 있습니다. 우리의 연구 결과는 평가 대상 전공의에 따라 dimension가 다양한 중요도를 차지한다는 것을 발견한 긴즈버그 외 연구진(2010)의 연구 결과와 일치한다. 
Our findings also show that GP-supervisors differed in the dimensions they used in performance assessment, indicating varying levels of rater idiosyncrasy. Furthermore, raters used different dimensions, depending on what they actually saw during the patient encounter: apparently not all dimensions are equally relevant or important in all cases. In general, standardized rating scales are designed to represent a given set of performance dimensions (or competencies) in a predefined order, suggesting equal importance of each performance domain. Requiring raters to fill in a rating score for all performance dimensions may therefore hinder accurate depiction of trainee performance. Our findings are in line with findings from Ginsburg et al. (2010), who found that dimensions took on variable degrees of importance, depending on the resident that was being evaluated. 

본 연구는 복잡한 작업을 처리할 때 '전문가'가 행동 계획이나 해결 방안을 결정하기 전에 상황별 또는 상황별 요소에 더 많은 주의를 기울인다는 것을 나타내는 전문성에 관한 연구 결과를 확인한다(예: Ross et al. 2006). 환자와의 만남에서 학생들의 성과를 평가할 때, 경험이 풍부한 GP 평가자들은 과제특이적 단서에 더 많은 관심을 기울였습니다. 더욱이 경험 많은 평가자들은 경험이 부족한 평가자들보다 과제특이적 또는 사례특이적 단서를

  • 훈련생 행동에 연결시키고,
  • 훈련생 행동이 환자와 환자 상담 결과 모두에 미치는 영향을 명시적으로 연계할 가능성이 더 높은 것으로 보였다. 

The present study confirms findings of expertise research indicating that, when handling complex tasks, ‘experts’ pay more attention to contextual or situation-specific factors before deciding on a plan of action or solution (e.g. Ross et al. 2006). When assessing student performance in patient encounters, experienced GP-raters paid (significantly) more attention to task-specific cues. Furthermore, experienced raters seemed to be more likely than inexperienced raters to explicitly link task-or case-specific cues

  • to specific trainee behaviours and
  • to effects of trainee behaviour on both the patient and the outcome of the patient consultation.

본 연구에서는 평가자들이 훈련생 수행능력을 관찰하기 시작한 순간부터 [개인 스키마]를 개발하기 시작했음을 명확히 보여줍니다. 평가자는 훈련생에 대해 알고 있는 것(예: 훈련 단계)에 따라 지식과 기질에 대한 추론을 했을 뿐만 아니라, 하지만 적어도 일부 평가자는 성격 판단 및 행동 해석에 따라 연수생들 분류하는 것 같았다. 비록 우리의 조사 결과가 개인 연습생에 대한 일부 추론에 대해 평가자들 사이에 공감대를 보여주고 있지만, 상당한 의견 차이도 있었다. 이러한 발견은 [인식자의 <특이적> 해석 과정]사람 인식의 급격한 차이를 만들어 낼 수 있다는 것을 일관되게 보여주는 사람 인식 연구와 일치한다(Mohr와 Kenny 2006). 일반적으로 사람들은 자발적으로 사회적 추론을 하고, 평가자의 개인 스키마는 (일단 개발되면) 후속 평가에서 (선택적) 주의를 유도하고 미래 정보의 해석을 색칠할 수 있다. 따라서 WBA 맥락에서 평가자가 [개인 스키마]를 구성하는 방법의 차이는 평가 결과의 차이를 뒷받침하는 주요 요인 중 하나가 될 수 있다. 
Findings from our study clearly indicate that raters started to develop person schemas from the moment they began to observe trainee performance. Raters not only made inferences about knowledge and disposition based on what they knew about the trainee (phase of training, for instance), but at least some raters also seemed to categorize trainees according to personality judgments and behavioural interpretations. Although our findings show consensus among raters with respect to some inferences about individual trainees, there was also considerable disagreement. These findings are in line with person perception research, which consistently shows that perceivers’ <idiosyncratic> interpretive processes may produce sharp differences in person perception (Mohr and Kenny 2006). In general, people make social inferences spontaneously (Uleman et al. 2008; Macrae and Bodenhausen 2001), and raters’ person schemas—once developed—may guide (selective) attention in subsequent assessments and colour the interpretation of future information. Differences in the way raters form person schemas in WBA contexts may therefore be one of the major factors underlying differences in rating outcomes. 



Limitations of our study

함의 Implications of our study

첫째, 우리의 연구 결과는 Holmboe(2008)가 제안한 '기준 체계'(frame-of-reference, FOR) 훈련의 이행을 추가로 지원하기 위해 평가 훈련에 영향을 미칠 수 있다. 앞에서 언급한 바와 같이, 평가자 훈련의 결과는 종종 실망스러우며, 평가자 훈련이 평가자의 선행 성과 이론을 무시하고 사전 정의되고 표준화된 평가 도구를 사용하는 방법에 초점을 맞추는 경향이 있기 때문일 수 있습니다. 그 결과, 교육 transfer가 제한될 수 있습니다. 반면, F-O-R 교육은 평가자들에게 성과를 평가하는 개인적인 방법을 성찰하도록 요청하며, 성과 차원, 성과 관련 행동 및 성과 수준을 논의하고 정의함으로써 독특한 등급 경향을 줄이는 것을 목표로 한다. 즉, F-O-R 훈련은 성과를 관찰하고 평가하기 위한 '공유 정신 모델' 또는 '공유 성과 이론'을 확립한다. 수행능력 평가 영역에서는 F-O-R 훈련이 등급별 훈련에 대한 가장 유망한 접근법으로 부상하고 있으며 현장 환경에 성공적으로 적용되었다 (Sulsky and Kline 2007; Holmboe et al. 2004).  
Firstly, our findings may have implications for rater training, providing further support for the implementation of ‘frame-of-reference’ (FOR) training as proposed by Holmboe (2008). As indicated before, results of rater training are often disappointing and one of the major reasons may be that rater training tends to focus on how to use predefined and standardized assessment instruments, ignoring raters’ a priori performance theories. As a consequence, transfer of training may be limited. FOR training on the other hand asks raters to reflect on their personal methods of evaluating performance, and aims to reduce idiosyncratic rating tendencies through discussing and defining performance dimensions, performance-related behaviours and performance levels. FOR training, in other words, establishes a ‘shared mental model’ or ‘shared performance theory’ for observing and evaluating performance. In the performance appraisal domain, FOR training has emerged as the most promising approach to rater training and it has been successfully applied in field settings (Sulsky and Kline 2007; Holmboe et al. 2004). 

둘째, 우리의 연구 결과는 WBA의 맥락에서 평가자를 선택하는 방법에 영향을 미칠 수 있다. 연구 결과에 따르면, 경험이 풍부한 평가자가 직무별 성과 스키마를 사용하면 학습자/교육자에게 제공되는 피드백에 영향을 미칠 수 있습니다. 경험 많은 평가자들에 의한 상황적 단서contextual cues의 통합은 질적으로 다른, 보다 전체적인 피드백으로 이어질 수 있으며, 다양한 이슈에 초점을 맞추고 수행의 다른 측면을 통합하여 환자 접점에서 일어나고 있는 일에 의미를 부여할 수 있습니다. 더 나아가 산업 및 조직 심리학의 연구에 따르면 보다 차별화된 성과 스키마를 사용하는 경험 있는 평가자들이 더 정확한 등급을 제공한다(예: Cardy et al. 1987; Ostroff and Ilgen 1992). 스키마 사용과 등급 정확도 사이의 관계를 조사하는 것을 목표로 하지는 않았지만, 우리의 연구 결과는 작업 기반 성과 평가의 정확성에 대한 등급 전문성의 영향에 대한 추가 연구가 필요하다고 지적합니다.  

Secondly, our findings may have implications for the way we select raters in the context of WBA. Based on the findings from our study, the use of task-specific performance schemas by more experienced raters may affect feedback given to learners/trainees. The incorporation of contextual cues by experienced raters can result in qualitatively different, more holistic feedback, focusing on a variety of issues and giving meaning to what is happening in the patient encounter by integrating different aspects of performance. Furthermore, research in industrial and organizational psychology indicates that more experienced raters who use more differentiated performance schemas provide more accurate ratings (e.g. Cardy et al. 1987; Ostroff and Ilgen 1992). Although we did not aim to investigate the relationship between the use of schemas and rating accuracy, our findings point to a need for further research into effects of rater expertise on the accuracy of workbased performance assessment. 


그 결과는 또한 WBA의 평정 척도 또는 평정 형식 설계에 영향을 미칠 수 있다. 앞에서 언급한 바와 같이, 평가 척도가 평가자의 [수행능력 이론]을 적절히 반영하지 못할 경우, 평가 점수에 대한 올바른 해석과 수행능력 평정의 유용성이 저하될 수 있습니다. 우리의 실험 환경이나 FOR 훈련 절차의 일부로서 ''사용 중인 성과 이론performance theory-in-use''을 도출하는 것은 숙련된 실무자들이 훈련생들의 판단에 중요하다고 여기는 것을 반영하여 평가 프레임워크와 도구의 개발에 기여할 수 있다. 평가자의 [자연 인지 처리natural cognitive processing]와 [역량 프레임워크]에 부합하는 평가기구를 활용하면, 보다 타당하고 진정한authentic 성과등급이 생성돼 WBA 결과의 유용성이 향상될 것으로 기대된다. 
The results may also have implications for the design of rating scales or rating formats in WBA. As indicated before, correct interpretation of rating scores and usefulness of performance ratings may be compromised when rating scales do not adequately mirror raters’ performance theories. Eliciting ‘‘performance theory-in-use’’, as in our experimental setting or as part of FOR-training procedures, may contribute to the development of assessment frameworks and instruments, reflecting what experienced practitioners consider to be of importance in the judgment of trainees. It is to be expected that the use of rating instruments that are in line with raters’ natural cognitive processing and competency frameworks will generate more valid and authentic performance ratings, thereby improving the usefulness of WBA results. 

그러나 더 중요한 것은 우리의 연구 결과가 WBA에서 묘사적, 서술적 피드백의 중요성을 보여준다는 것이다. 우리의 조사 결과에서, 평가 척도의 단순한 점수는 단지 평가자들에 의한 복잡하고 독특한 정보 처리의 빙산의 일각일 뿐이라는 것이 분명하다. 따라서 수행능력 점수를 의미 있게 해석하려면 평가자의 개인적 동기 및 논증에 대한 통찰력을 제공하는 추가 서술 코멘트가 필요합니다. 따라서 서술적 피드백과 논평은 역량 달성에 대한 신뢰할 수 있고 방어가능한 의사결정을 뒷받침할 것이다. 더욱이 서술적 피드백이 건설적인 방식으로 제공된다면, 훈련생들이 성과에서 강점과 약점을 정확하게 파악하고 역량 개발을 효과적으로 이끌 수 있는 유일한 방법입니다. 
More importantly, however, we feel that our findings illustrate the importance of narrative, descriptive feedback in WBA. From our findings, it is clear that a simple score on a rating scale merely represents the tip of the iceberg of the complex and idiosyncratic information processing by raters. Meaningful interpretation of performance scores therefore requires additional narrative comments providing insight into raters’ personal motivations and argumentations. Narrative feedback and comments will thus support credible and defensible decision making about competence achievement. Moreover, narrative feedback—provided it is provided in a constructive way—is the only way to help trainees to accurately identify strengths and weaknesses in their performance and to effectively guide their competence development. 

마지막으로, [개인 스키마person schemas]의 개발 및 사용은 WBA 결과의 타당성 위협이 될 수 있다(예: 고정관념화 위험). 그러나 성과 평가에서 스키마 기반 처리가 불가피할 수 있음을 인식하는 것이 중요합니다. 스키마를 사용하면 평가자가 피평가자에 대한 정보를 효율적으로 처리하고 정리할 수 있습니다. 따라서 WBA를 개선하기 위한 노력은 [스키마 기반 프로세싱의 의도하지 않은 영향]이 상쇄되는 평가 환경을 설계하는 것에 집중되어야 한다. 우선, 평가자들이 연습생 실적에 대한 인상을 형성하는 과정을 인지하고 인식하는 것이 중요해 보입니다. 이를 위해서는 평가 프로세스에 참여하는 다른 사람과의 상호작용뿐만 아니라 수행능력 평정에 대한 교육, 피드백 및 성찰이 필요합니다. 
Finally, the development and use of person schemas may pose a threat to the validity of WBA results (e.g. risk of stereotyping). It is important to realize, however, that schemabased processing in performance assessments is likely to be inevitable: use of schemas helps raters to efficiently process and organize information about ratees. Therefore, efforts to improve WBA should be directed at designing assessment environments in which any unintended effects of schema-based processing are countered. First of all, it seems important for raters to be aware of and recognize the processes by which they form impressions of trainee performance. This requires training, feedback and reflection on performance rating as well as interactions with others involved in the assessment process. 

그러나 더 중요한 것은 판단(예: 고정관념의 적용)의 기초가 되는 [사회적 인식 과정social-cognitive process]이 인식자의 사회적 목표, 동기, 감정 상태 및 타인과의 관계에 매우 융통성 있고 적응적이다는 최근 증거가 있다는 것입니다(Smith and Seemin 2007). 즉, 이전에는 [잠재의식적이고 자동적]이라고 여겨졌던 개인 스키마와 같은 정신적 표현이나 지식 구조의 활성화와 적용은, [판단이 이루어지는 사회적 맥락]에 의해 영향을 받습니다.  
More importantly, however, there is recent evidence that social-cognitive processes that underlie judgments (for example the application of stereotypes) are extremely malleable and adaptive to the perceiver’s social goals, motives, emotional state and relationships with others (Smith and Semin 2007). In other words: activation and application of mental representations or knowledge structures, such as person schemas, formerly thought to be subconscious and automatic, are influenced by the social context in which judgments are made.

다른 영역의 작업 환경에 대한 연구를 바탕으로 효과적인 개입은 다음을 포함합니다. 

  • 적절한 자원(시간 및 비용)의 배분 
  • 평가자에게 훈련생을 관찰하고 평가할 수 있는 적절한 기회 제공  
  • 장기간의 관여 보장 
  • 평가자의 의사결정에 대한 책무성 강조
  • 감독자와 훈련생 사이의 상호 의존성을 강조 

Based on research in work settings in other domains, effective interventions include

  • allocation of adequate resources (time and money) and
  • providing raters with adequate opportunities to observe and evaluate trainees;
  • ensuring prolonged engagement;
  • holding raters accountable for their decisions; and
  • underscoring mutual interdependence between supervisor and trainee (Operario and Fiske 2001).

서로 다른 평가자/평가자 간의 '비판적 대화'와 같은 의사결정 전략의 신중한 설계를 통해 신뢰성과 의사결정의 엄격함을 더욱 높일 수 있다(Vander Vleuten et al. 2010; Moss 1994).

Trustworthiness and rigour of decision making can furthermore be achieved through careful design of decision making strategies, such as ‘critical dialogue’ between different raters/assessors (Van der Vleuten et al. 2010; Moss 1994). 

결론 Conclusive remarks

우리는 연구의 발견이 임상 영역에서 업무 기반 평가의 기초가 되는 과정을 더 잘 이해하는 데 기여한다고 느낀다. 평가자는 성과를 평가할 때 (장기간의 업무 경험을 통해 발전시켜온) 수행능력에 대한 [개인적 구조와 이론]을 활용한다. 평가자가 관찰 및 평가 중에 도달하는 [개인 모델]뿐만 아니라, [성과 이론]의 특이적 사용은 평가 결과를 결정한다. 우리는 평가자가 평가가 이루어지는 [사회적 맥락에 내재된 능동적 정보 처리자]임을 고려할 때, 우리의 연구 결과는 사회 심리학적 관점에서 WBA에 대한 접근방식을 지지한다고 결론짓는다.

We feel that the findings of our study contribute to a better understanding of the processes underlying work-based assessments in the clinical domain. When assessing performance, raters make use of personal constructs and theories about performance that develop through prolonged task experience. Idiosyncratic use of performance theories as well as person models that raters arrive at during observation and assessment determine rating outcomes. We conclude that our findings support approaches to WBA from a socialpsychological perspective, considering raters to be active information processors embedded in the social context in which assessment takes place. 

 

 

 

 


Adv Health Sci Educ Theory Pract. 2013 Aug;18(3):375-96.

 doi: 10.1007/s10459-012-9376-x. Epub 2012 May 17.

Workplace-based assessment: raters' performance theories and constructs

M J B Govaerts 1M W J Van de WielL W T SchuwirthC P M Van der VleutenA M M Muijtjens

Affiliations collapse

Affiliation

  • 1Department of Educational Research and Development, FHML, Maastricht University, PO Box 616, 6200 MD Maastricht, The Netherlands. marjan.govaerts@maastrichtuniversity.nl

Free PMC article

Abstract

Weaknesses in the nature of rater judgments are generally considered to compromise the utility of workplace-based assessment (WBA). In order to gain insight into the underpinnings of rater behaviours, we investigated how raters form impressions of and make judgments on trainee performance. Using theoretical frameworks of social cognition and person perception, we explored raters' implicit performance theories, use of task-specific performance schemas and the formation of person schemas during WBA. We used think-aloud procedures and verbal protocol analysis to investigate schema-based processing by experienced (N = 18) and inexperienced (N = 16) raters (supervisor-raters in general practice residency training). Qualitative data analysis was used to explore schema content and usage. We quantitatively assessed rater idiosyncrasy in the use of performance schemas and we investigated effects of rater expertise on the use of (task-specific) performance schemas. Raters used different schemas in judging trainee performance. We developed a normative performance theory comprising seventeen inter-related performance dimensions. Levels of rater idiosyncrasy were substantial and unrelated to rater expertise. Experienced raters made significantly more use of task-specific performance schemas compared to inexperienced raters, suggesting more differentiated performance schemas in experienced raters. Most raters started to develop person schemas the moment they began to observe trainee performance. The findings further our understanding of processes underpinning judgment and decision making in WBA. Raters make and justify judgments based on personal theories and performance constructs. Raters' information processing seems to be affected by differences in rater expertise. The results of this study can help to improve rater training, the design of assessment instruments and decision making in WBA.

상호 불일치로서 평가자간 변동: 평가자의 발산적 관점 식별(Adv in Health Sci Educ, 2017)
Inter-rater variability as mutual disagreement: identifying raters’ divergent points of view
Andrea Gingerich1 • Susan E. Ramlo2 • Cees P. M. van der Vleuten3 • Kevin W. Eva4 • Glenn Regehr4

 

 

도입
Introduction

인간의 판단은 의학 교육에서 필수적인 것으로 여겨져 왔다(Schuwirth and Van der Vleuten 2011). 그러나 여러 관측자는 (동일한 수행능력에 대해서도) 평정을 제공할 때마다 평가자 간 변동이 만연합니다(Crossley 및 Jolly 2012). 평가자 간 변동은 종종 평가자가 실수를 저지르거나 누락되거나 편향된 결과로 해석된다(Albanese 2000; Downing 2005; Williams et al. 2003). 그 결과로 나타난 '평가자 특이적 분산idiosyncratic rater variance'은 사이코메트리 모델에서 사용할 수 없는 측정 오차(O'Neill et al. 2015)로 간주되며, 평가 결정의 방어성을 위협하기에 충분한 규모일 수 있다(Crossley et al. 2002; Downing 2004). 따라서, 평가자 인식을 탐구하는 연구의 대다수는 [가변성의 기저에 있는 무의식적 인지 편향] 뿐만 아니라 [통제 가능한 판단 과정]을 탐색했다  
Human judgment has been considered indispensable to programs of assessment in medical education (Schuwirth and Van der Vleuten 2011). However, whenever multiple observers provide ratings, even of the same performance, inter-rater variation is prevalent (Crossley and Jolly 2012). This inter-rater variation is often interpreted as the result of raters committing mistakes, making omissions or being biased (Albanese 2000; Downing 2005; Williams et al. 2003). The resulting ‘idiosyncratic rater variance’ is considered to be unusable error of measurement in psychometric models (O’Neill et al. 2015) and can be of sufficient magnitude to threaten the defensibility of our assessment decisions (Crossley et al. 2002; Downing 2004). Thus, the majority of research exploring rater cognition has searched for the controllable judgment processes as well as the unconscious cognitive biases that may underlie rating variability (Gauthier et al. 2016; Gingerich et al. 2014a; Kogan et al. 2011; Tavares and Eva 2013; Williams et al. 2003; Wood 2014).  

최근 평가자 간 가변성을 조사하는 의학교육 연구자들은 평가자에 대해 다음을 발견했다.

  • 때로는 [성과에 대해 서로 다른 측면을 강조]하고(즉, 서로 다른 측면을 가장 중요하게 보고),
  • 때로는 동일한 수행 측면에 대해서도 완전히 동의하지 않으며(즉, 동일한 측면을 다르게 보고),
  • 때로는 확인되지 않은 사회적 추론을 내린다.(예: 성격 특성 및 동기에 관한 추론)

Recently, medical education researchers investigating inter-rater variability have found that raters

  • sometimes emphasize different aspects of the performance (i.e. seeing different aspects as most important),
  • sometimes outright disagree on the same aspects of the performance (i.e. seeing the same aspect differently) and
  • sometimes make unchecked social inferences (e.g. inferences regarding personality traits and motives) (Gauthier et al. 2016; Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; Yeates et al. 2013).

이러한 발견과 해석은 특이적인 '평가자 오차rater error'로서 평가자 변동성rater variability의 개념화와 확실히 일치한다. 그러나 Gingerich 외 연구진(2014b)은 평가자 간 변동을 탐구하는 연구에서 평가자 응답에서 [판단이 특이하다고 이야기되는 것만큼 특이하지는 않다]는 것을 시사할 수 있는 패턴을 발견했다. 더 구체적으로, 각 임상 성과에 대해 다수의 [동의 클러스터]를 식별했으며, 각 동의 클러스터에는 주어진 임상 성과에 대한 유사한 인상이나 해석을 보고한 여러 의사 평가자가 포함되어 있었다. 기술된 인상의 내용과 가치는 종종 클러스터 간에 크게 달랐으며, 이는 합의의 여러 클러스터가 성능에 대한 서로 다르지만 완전히 독특한 관점은 아님을 시사한다. 이러한 발견은 사회적 상호작용에서 사람들이 수행자에 대해 하는 사회적 추론을 바탕으로 관찰하는 사람들을 다르게 분류하는 경향이 있지만 [완전히 특이하지는 않다]는 사회 심리학 문헌의 연구와 일치했다(Fiske et al. 2007; Macrae와 Bodenhausen 2000; Mohrand). Kenny 2006; Park et al. 1994). 중요한 것은, [주어진 임상 수행능력]에 대한 [합의의 클러스터(즉, 각 평가자가 속한 클러스터를 설명함)]는 종종 성과에 대한 평가자의 점수의 유의한 분산 비율을 설명한다는 것이다.  

These findings and interpretations are certainly consistent with the conceptualization of rater variability as idiosyncratic ‘rater error’. In a study exploring inter-rater variation, however, Gingerich et al. (2014b) discovered patterns in raters’ responses that might suggest their judgments are not as idiosyncratic as they have been characterized. More specifically, multiple clusters of consensus were identified for each clinical performance with each cluster of consensus containing several physician raters who reported similar impressions or interpretations of the given clinical performance. The content and valence of the impressions described often varied widely between clusters, suggesting that the multiple clusters of consensus represented different, but not entirely idiosyncratic, perspectives on the performance. These findings were consistent with research from the social psychology literature which suggests that in social interactions people will tend to differently (but not entirely idiosyncratically) categorize those they are observing based on the social inferences they make about the performer (Fiske et al. 2007; Macrae and Bodenhausen 2000; Mohr and Kenny 2006; Park et al. 1994). Importantly, these clusters of consensus for a given clinical performance (i.e. accounting for the cluster to which each rater belonged) often explained a significant proportion of variance in raters’ scores of the performance. 

지금까지의 연구는 등급 인지에 대한 중요한 통찰력을 제공했지만, 이전의 모든 조사는 등급에 대한 평가자의 의견과 정당성을 수집하는 도구로 인터뷰나 텍스트 상자와 같은 [개방형 응답 형식]을 사용했다. 이는 초기 연구에서 중요한 설계 요소였습니다. 평가자들은 연구자들의 선입견에 구애받지 않고 자신의 아이디어를 자유롭게 표현할 수 있었습니다. 그러나 참가자가 [개방형 텍스트 형식]을 사용할 때 더 많은 구조화된 응답을 제공하도록 요청되었을 때보다 상세한 응답을 제공하지 못하는 것으로 확인되었기 때문에 잠재적으로 제한된 설계 요소이기도 하다(Herbers et al. 1989). 
While the research to date has offered important insights into rater cognition, all of the previous investigations have used open response formats, such as interviews or text boxes, as tools for collecting raters’ comments and justifications for their ratings (Chahine et al. 2016; Gauthier et al. 2016; Gingerich et al. 2014b Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; St-Onge et al. 2016; Tavares et al. 2016; Tweed and Ingham 2010; Yeates et al. 2013, 2015). This has been an important design element in these early studies–allowing raters the freedom to articulate their own ideas without being limited by the researchers’ preconceived notions. However, it is also a potentially limiting design element because participants have been found to provide less detailed responses when using an open text format than when they were prompted to provide more structured responses (Herbers et al. 1989). 

따라서 [개방형 응답]의 유연성은 평가자가 일부 특성만을 [불균형적으로 강조]할 수 있도록 하는 동시에, 평가 판단에 중요하고 잠재적으로 영향력이 있는 다른 특징들은 생략할 수 있다. 그렇다면, 결과적으로 개방형 텍스트 응답은 기본 평가자 인지에 대한 왜곡된 표현을 제공할 것이고, 후속 분석은 평가자의 인식의 유의한 차이에 기인하는 것보다 연구 설계의 아티팩트로 더 잘 설명되는 평가자 인지에 대한 변동성을 식별할 것이다.

Therefore, the flexibility of the open response format may allow raters to disproportionately emphasize some features, while omitting other features that were nonetheless salient and potentially influential in their assessment judgments. If so, the resulting open text responses would provide a distorted representation of the underlying rater cognition and their subsequent analysis would identify variability in rater cognitions that is better explained as an artifact of the study design than it is attributable to meaningful differences in raters’ cognitions.

[Q 방법론]에서 모든 참가자는 동일한 진술 세트를 제시받으며 다른 모든 진술(Stephenson 1953; Watts and Stenner 2012)과 관련하여 어떤 진술이 가장 두드러지는지를 (조사 주제에 대한 개인적 관점에 따라) 표시하도록 지시받습니다. [Q 방법론]을 선택한 이유는 참여자들이 (평가하는 순간만이 아니라) 임상적 encounter의 잠재적으로 중요한 각각의 특징을 명시적으로 반영해야 하고, 단순히 개방형 응답 형식으로 말하지 않은 것에 대한 의견을 보다 명확하게 나타내는 상대적 순위를 만들 것을 요구하기 때문이다(Brown 1980). 그런 다음 참가자가 보유한 다양한 관점을 식별하기 위해 특정 분석 절차를 사용할 수 있습니다(Stephenson 1953; Watts and Stenner 2012). 
In Q methodology every participant is presented with the same set of statements and is instructed to indicate which statements are most salient (according to their personal viewpoint on the topic of investigation) by sorting them in relation to all of the other statements (Stephenson 1953; Watts and Stenner 2012). Q methodology was chosen because it requires that participants explicitly reflect on each of the potentially salient features of the clinical encounter (after, not during their ratings) and requires them to create a relative ranking that more clearly indicates their opinions about things that might simply be left unsaid in a free response format (Brown 1980). A specified set of analytic procedures can then be used to identify the different points of view held by the participants (Stephenson 1953; Watts and Stenner 2012).

따라서 Q 방법론은 다른 방법을 사용하여 이전의 연구 결과를 복제하고 방법론이 제공하는 분석에서 발생하는 새로운 통찰력을 제공함으로써 평가자 인식 문헌을 확장할 수 있는 기회를 제공한다. (Q-요인에 기초한) 유사한 관점의 평가자 집단이 존재하고 등급의 상당한 변동을 설명한다면, 그 집단에 대한 근거의 검토는 평가자 간 변동성이 단순히 측정오차를 나타내는 것이라는 일반적인 관점을 유지할 수 있는지 여부를 결정하는 데 도움이 될 것이다. 즉, Q 방법론은 발생 상황에 대한 의견 불일치 또는 발생한 일의 중요성에 대한 의견 불일치로부터 연결실체의 관점의 차이가 어느 정도 발생하는지를 탐구할 수 있도록 한다.

Q methodology, therefore, offers the opportunity to extend the rater cognition literature both by replicating previous findings using a different method and by providing novel insights that arise from the analyses that the methodology affords. If groupings of raters with similar viewpoints (based on Q-factors) exist and explain substantial variability in ratings, then examination of the basis for the groupings would help determine if the commonly held view that inter-rater variability is simply representative of measurement error can be maintained. That is, Q methodology allows us to explore the extent to which the differences in the groups’ perspectives arise from disagreements about what happened in the encounter, or disagreements about the importance of what happened.

방법 Methods

Q-정렬 절차 및 분석
Q-sort procedure and analysis


1단계: 임상 성과 내에서 중요한 측면 식별
Step 1: Identifying salient aspects within the clinical performances

Q-연구 설계의 첫 번째 단계는 참가자에 의해 [정렬될 일련의 문장을 식별]하는 것입니다. 이 토론회는 관심 주제를 폭넓게 대표하는 다양한 성명서(McKown and Thomas 1988, Watts and Stenner 2012)를 모으는 것으로 시작됩니다. 우리의 합의는 가능한 한 평가 판단에 영향을 미치는 임상적 만남의 많은 중요한 측면을 포함할 필요가 있었다. 따라서 앞서 연구한 임상 성과에서 수집된 데이터를 활용하여 성과에 대한 모든 주요 측면을 포함하는 일련의 진술을 생성하는 것이 필수적이었다. 2단계에서 설명하는 최종 과제를 참가자들이 실현 가능하도록 하기 위해(즉, 소요 시간을 약 1시간으로 제한하기 위해), 이전 연구에서 사용한 7개 중에서 비디오 녹화 임상 성과 4개 세트(비디오 1, 2, 6, 7)를 선택했다(Gingerich et al. 2014b). 
The first step in the design of a Q-study is identifying a set of statements that will be sorted by participants. It begins with gathering a large array of statements that are broadly representative of the topic of interest, known as the concourse (McKeown and Thomas 1988; Watts and Stenner 2012). Our concourse needed to include as many salient aspects of the clinical encounters that influence assessment judgments as possible. Therefore, it was essential to utilize data collected from previously studied clinical performances to generate a set of statements that contained all salient aspects of the performances. To make the eventual task described in Step 2 feasible for participants (i.e. to limit the amount of time required to approximately 1 h), we selected a set of four video-recorded clinical performances (videos 1, 2, 6, 7) from seven used in an earlier study (Gingerich et al. 2014b). 

전체 협점이 확인되면 일부 문장이 선택되어 Q-샘플을 형성합니다. Q-샘플은 참가자들이 협력할 수 있는 합리적인 크기여야 하지만 콩코스의 대표성을 유지하고 분석 중에 발견될 수 있는 가능한 관점에 걸쳐 균형을 이루어야 합니다. 우리는 피셔의 실험 설계 접근법(Brown 1980; Stephenson 1953; Watts and Stenner 2012)으로 알려진 [구조화된 Q-샘플]을 개발하기 위해 가장 공식적인 접근법을 사용했다. 우리는 한 명의 저자(AG)가 각 비디오에 대한 가장 독특한 응답으로 초점을 줄였습니다. 이로써 전체 공개 텍스트 응답 수는 195개로 줄어들었습니다. 그런 다음 이를 Q-sort에 사용할 적절한 길이의 짧은 문장으로 구문 분석했습니다. 중복을 제거하고 의미상 유사한 문장을 결합했다(예: ''호감 가는 사람'' ''매우 호감 가는 사람'' ''동료와 환자들에게 존경받는 사람'' ''동료 레지던트들에게 호감 가는 사람'' 등을 [동료 및 환자가 좋아한다]로 통합) 그런 다음 두 명의 저자(AG 및 SER)는 Mini-CEX의 하위척도 각각과 다양한 유형의 사회적 판단(예: 이름 지정, 심리 상태 추론 등)을 균형 있게 설명하는 방식으로 가장 상징적인 문장을 선정하도록 했습니다. 그 결과 60개의 문장이 작성되었습니다. 
Once the full concourse is identified, a subset of statements is selected to form the Q-sample. The Q-sample should be a reasonable size for participants to work with but remain representative of the concourse and be balanced across the possible points of view that might be found during analysis (McKeown and Thomas 1988; Watts and Stenner 2012). We used the most formal approach to developing a structured Q-sample, known as Fisher’s Design of Experiments approach (Brown 1980; Stephenson 1953; Watts and Stenner 2012). We began with one author (AG) reducing the concourse to the most distinctive responses for each video. This reduced the number to 195 complete open text responses. These were then parsed into shorter statements of suitable length to be used in a Q-sort. Duplicates were removed and semantically similar statements were combined (e.g. statements such as ‘‘a likeable person’’, ‘‘very likeable, very personable’’, ‘‘well respected by peers and patients’’, ‘‘well-liked by fellow residents’’ were combined to form a single statement: Is liked by peers and patients). Two authors (AG and SER) then conferred to select the most iconic statements in a way that balanced the number of statements referring to each of the subscales on the Mini-CEX and different types of social judgments (e.g. naming personality traits, inferring state of mind etc.) for each video. This resulted in a set of 60 statements. 

Q-sort 프로세스를 통해 반대 의견을 전달하기 위해 하나의 문을 서로 다른 그리드 위치에 배치할 수 있기 때문에(아래 그림 1과 더 자세한 내용 참조) 반대 설명자를 포함할 필요가 없었다(예: '효율적' 또는 '비효율적'을 포함할 수 있지만 둘 다 필요하지 않았다). 표본의 각 ''반대편'' 쌍에서 항목을 하나씩 제거하면 문장의 수가 44개로 줄어들었다. 두 차례에 걸친 시범 테스트를 통해 참가자들이 불확실성을 표출하는 것에 대응해 진술 문구를 다듬었지만, 이전 연구 참여자들의 원래 문구는 최대한 유지됐다. 44개 문장의 최종 리스트(표 1에 표시됨)는 다음을 포함합니다.

  • 상담 및 인문학적 자질/전문직업성의 Mini-CEX 하위 척도를 나타내는 11개의 진술(교제-구축 능력의 제목으로 묶음)
  • Mini-CEX의 의료 인터뷰 스킬, 임상 판단 및 조직/효율성 스킬(의료 전문 스킬의 제목에 따라 분류됨) 서브세일즈를 대표하는 18개 문구
  • 관계 구축 또는 의료 전문지식과 관련이 없는 사회적 추론을 포함하는 15개의 진술.

Because the Q-sort process enables one statement to be placed in different grid positions to convey opposing opinions (see Fig. 1 and more details below) there was no need for opposing descriptors to be included (e.g. we could include ‘efficient’ or ‘inefficient’ but did not need both). Removal of one item from each pair of ‘‘opposites’’ in the sample reduced the number of statements to 44. Through two rounds of pilot testing, the phrasing of the statements was refined in response to participants’ expressions of uncertainty, but the original phrasing from participants in the previous study was maintained as much as possible. The final list of 44 statements (displayed in Table 1) contained

  • 11 statements representing the Mini-CEX subscales of counseling and humanistic qualities/professionalism (grouped under the heading of rapport-building skills);
  • 18 statements representing the Mini-CEX subscales of medical interviewing skills, clinical judgment and organization/efficiency skills (grouped under the heading of medical expertise skills); and
  • 15 statements containing social inferences not related to rapport-building or medical expertise. 


2단계: Q-sort의 구조화된 응답 형식을 사용한 데이터 수집
Step 2: Data collection using the structured response format of a Q-sort


Q 방법론의 두 번째 단계는 [참가자에 의한 Q-sort 완료]입니다. Q-sort 동안 특정 주제(이 경우 전공의의 성과)에 대한 각 참가자의 관점은 "내 관점과 가장 일치"부터 "가장 상반되는 관점"까지에 이르는 강요된 준정규 분포를 사용하여 Q-sample의 문장을 정렬하도록 함으로써 수집된다(브라운 1980, 와트 및 스텐너 2012). 따라서 이 기법을 통해 연구자들은 제공된 Q-표본과 분포를 사용하여 의사의 평가 인상의 주관성을 Q-sort 형태로 포착할 수 있었습니다. 따라서 이러한 Q 분류는 다양한 평가자가 [잠재적으로 관련성이 있는 많은 진술 집합]에서 선택한 [임상 성과 중 가장 두드러진 측면]을 나타내기 위한 [구조화된 응답 형식]을 제공한다. 
The second step in Q methodology is the completion of a Q-sort by participants. During a Q-sort each participant’s point of view on the specified topic (in this case, the performance of the resident) is collected by having them sort the statements in the Q-sample using a forced quasi-normal distribution ranging from ‘‘most consistent with my perspective’’ to ‘‘most contrary to my perspective’’ (Brown 1980; Watts and Stenner 2012). This technique, therefore, allowed the researchers to capture the subjectivity of physicians’ assessment impressions in the form of their Q-sorts using the Q-sample and distribution provided. These Q sorts, therefore, offer a structured response format to indicate the most salient aspects of the clinical performance selected from a large set of potentially relevant statements by a diverse set of raters. 

이 프로세스를 작동하기 위해 참가자들에게 초대 이메일이 발송되었으며, 여기에는 QSortOnline 웹 사이트에 대한 링크가 포함되어 있습니다. 참가자들은 참가 동의를 한 뒤 무작위로 제시된 동영상을 보고 Mini-CEX 평정을 완성했다. 
To operationalize this process, an invitation email was sent to participants that included a link to the website QSortOnline. After giving consent to participate, participants viewed a randomly presented video and completed Mini-CEX ratings. 

Mini-CEX 등급을 완료하는 즉시, 참가자들은 다음 지침에 따라 Q-sort를 완료하도록 요청받았다. 
Upon completing the Mini-CEX rating, participants were asked to complete a Q-sort using the following instructions:

이 레지던트에 대한 솔직하고 여과되지 않은 소감을 공유하고 '이 레지던트에 대한 나의 인상과 그들의 성과에 가장 부합한다'부터 '이 레지던트 및 그들의 성과에 대한 나의 인상과 가장 상반되는 것'까지 평가해 주시기 바랍니다.
We would like you to share your honest and unfiltered impressions of this resident and ask that you rank the statements from ‘MOST consistent with my impressions of this resident and their performance’ to ‘MOST contrary to my impressions of this resident and their performance’. 


FlashQ 소프트웨어는 Q-sort를 용이하게 하기 위해 사용되었으며, Q-sort 작업에 권장되는 여러 단계(자세한 내용은 그림 1 참조)로 완료되었습니다(Newman 및 Ramlo 2010, Watts 및 Stenner 2012). Q-Sort를 완료한 후, 참가자들은 다음을 설명하기를 요청받았다.

  • (a) "-4" 그리드 위치의 두 문장을 자신의 인상과 가장 상반되는 것으로 선택한 이유, 
  • (b) '+4" 그리드 위치의 두 문장을 자신의 인상과 가장 일치하는 것으로 선택한 이유,
  • (c) 분류 작업을 하면서 직면한 문제

FlashQ software was used to facilitate the Q-sort, which was completed in multiple steps (see Fig. 1 for more details) as is recommended for Q-sorting tasks (Newman and Ramlo 2010; Watts and Stenner 2012). After completing the Q-Sort, participants were prompted to explain

  • (a) why they selected the two statements in the ‘‘-4’’ grid positions as being most contrary to their impression,
  • (b) why they selected the two statements in the ‘‘?4’’ grid positions as being most consistent with their impression, and
  • (c) any problems they encountered with performing the sorting task. 




3단계: Qsort 분석을 통해 평가 인상에 대한 공감대 파악
Step 3: Identifying consensus in assessment impressions through analysis of the Qsorts

Q 방법론의 세 번째 단계는 [Q 분류 분석]으로, 주어진 임상 성과에 대해 얼마나 많은 관점이 있는지, 그리고 얼마나 많은 의사가 각각의 관점을 공유하는지 파악할 수 있습니다. 이는 비슷한 관점을 가진 참여자들이 비슷한 방식으로 보고서를 분류할 것으로 예상되기 때문에 가능하다.
The third step in Q methodology is the analysis of the Q sorts which enables us to identify how many points of view there are for a given clinical performance along with how many physicians share each of those points of view. This is possible because participants with similar points of view are expected to sort the statements in a similar way.

유사한 Q-sort는 높은 상관관계가 있으므로 참여자와 참여자의 Q-sort는 인자 분석을 통해 Q-factor로 함께 그룹화할 수 있습니다(Stephenson 1953; Watts and Stenner 2012). 이는 기존의 요인 분석이 '항목별by-item' 매트릭스를 사용하여 상관 관계가 높은 항목을 인자로 그룹화하는 것처럼(Stephenson 1953; Watts and Stenner 2012) 높은 Q-sort를 가진 참가자를 인자로 그룹화하기 때문에 '개인별by-person' 인자 분석이라고 불린다. 
Similar Q-sorts are highly correlated and, therefore, participants and their Q-sorts can be grouped together into Q-factors via factor analysis (Stephenson 1953; Watts and Stenner 2012). This is called a ‘by-person’ factor analysis because it groups together participants with highly correlated Q-sorts into a factor, just as a conventional factor analysis uses a ‘by-item’ matrix to group together highly correlated items into a factor (Stephenson 1953; Watts and Stenner 2012). 

무료 사용자 정의 소프트웨어 PQMethod 2.35(Schmolk 2014)를 사용하여 Q-sort 데이터를 분석했습니다. 우리는 인자 추출을 위해 전통적인 중심 기법을 사용했고 인자의 바리맥스 회전을 사용했습니다. 얼마나 많은 요소를 추출해야 하는지를 고려하면서, 우리는 특별히 주의를 기울였다.

  • 고유값이 1인 경우(와트 및 스테너 2012),
  • 험프리의 규칙을 초과하는 규칙(즉, 회전하지 않은 행렬에서 인자에 대한 두 개의 최고 하중의 교차곱이 표준 오차의 두 배를 초과한 규칙)과
  • 두 개 이상의 측정기가 상당히 로드된 측정기(p\.01)(Brown 1980, Watts 및 Stenner 2012).

We analyzed the Q-sort data using free custom software PQMethod 2.35 (Schmolck 2014). We used the classic centroid technique for factor extraction followed by varimax rotation of the factors. In considering how many factors to extract, we paid special attention to 

  • those with eigenvalues > 1 (Watts and Stenner 2012);
  • those exceeding Humphrey’s rule (i.e. those for which the cross-product of the two highest loadings for a factor in the unrotated matrix exceeded twice the standard error) (Watts and Stenner 2012); and
  • those on which at least two raters loaded significantly (p\.01) (Brown 1980; Watts and Stenner 2012).

그러나 Q 방법론(McKown 및 Thomas 1988)에서 이론적 유의성이 통계적 유의성보다 더 중요하다는 점에 유의해야 한다. 그 결과 각 요인 솔루션의 적합성 및 해석 가능성을 검사하여 최적의 솔루션을 선택했습니다. 
It is important to note, however, that theoretical significance is more important than statistical significance in Q methodology (McKeown and Thomas 1988). As a result, each factor solution was examined for fit and interpretability with the best solution selected. 

4단계: Q-요인 해석을 통해 각 관점 특성화
Step 4: Characterizing each point of view through Q-factor interpretation


Q 방법론의 네 번째 단계는 [Q-요인을 해석]하여 각 요인에 반영되는 관점을 밝히는 것입니다. [주어진 요인으로 그룹화된 모든 Q-sort]는 statement와 비슷한 정렬 또는 '구성configuration'을 가집니다. 그러나 이러한 구성은 동일하지 않습니다. 따라서 PQMethod 소프트웨어가 수행한 분석 중 하나는 '인자 배열factor array'(McKown and Thomas 1988; Newman and Ramlo 2010)로 알려진 각 Q-factor(표 1의 각 열)에 대한 대표적인 Q-sort의 식별이다. 이 인자 배열은 Watts 및 Stenner(2012)에서 설명한 절차를 사용하여 각 인자와 관련된 관점을 해석하는 데 사용됩니다.  

The fourth step of Q methodology is interpretation of the Q-factors to reveal the points of view reflected by each. All Q-sorts that are grouped into a given factor have similar sorts or ‘configurations’ of the statements. However, those configurations are not identical. Thus, one of the analyses performed by the PQMethod software is the identification of a representative Q-sort for each Q-factor (each column of Table 1), known as the ‘factor array’ (McKeown and Thomas 1988; Newman and Ramlo 2010). This factor array is used to interpret the point of view associated with each factor using procedures described by Watts and Stenner (2012). 

 



5단계: Q-요인 간 차이점 식별
Step 5: Identifying points of divergence between Q-factors


'요인 행렬'은 모든 요인 배열을 나란히 표시하여 각 Q-요인에 대한 모든 statement과 해당 격자 위치를 표시합니다. 이를 통해 여러 요인 간에 각 문을 비교할 수 있습니다. 예를 들어, 행렬은 특정 statement이 인자 1의 '''3''' 그리드 위치와 인자 2의 '''-4''' 위치에 배치되었음을 나타낼 수 있다. 이러한 비교는 동일한 성능 특성이 어떻게 다르게 해석될 수 있는지를 나타내는 두 가지 정보를 제공한다. 
The ‘factor matrix’ displays all the factor arrays side by side, showing every statement and its grid position for each Q-factor. This enables comparisons of each statement across factors. For example, the matrix could indicate that a particular statement was placed in the ‘‘ +3’’ grid position in Factor 1 and the ‘‘-4’’ position in Factor 2. This comparison provides two pieces of information that can be used as indications of how the same performance features may have been differently interpreted. 

첫째, 한 요소와 높은 상관관계를 갖는 Q-sort 참가자가 특정 문장을 원위부 그리드 위치(예: ''-4', '?4', '-3', '?'3)에 배치하고 다른 요소와 높은 상관관계를 갖는 Q-sort 참가자가 동일한 문장을 중앙 그리드 위치(예: '' -1', '0', '1)에 배치하는 경우? 첫 번째 참가자 집합이 다른 참가자에 비해 더 두드러지거나 두드러집니다. 
First, if participants with Q-sorts that highly correlate with one Factor place a particular statement in a distal grid position (e.g. ‘‘-4’’, ‘‘+4’’, ‘‘-3’’ or ‘‘+3’’) and participants with Q-sorts that highly correlate with another Factor place the same statement in a central grid position (e.g. ‘‘ -1’’, ‘‘0’’, ‘‘?1’’) it can be inferred that the performance feature is more prominent or salient for the first set of participants compared to the other. 

둘째, 한 요인에서 그리드의 '내 인상과 반대되는' 쪽(예: ''-4', ''-3', ''-2')에 문구가 배치되고 다른 요인에서 그리드의 '내 인상과 일치하는 쪽(예: '+4', '+3', '+2')에 문구가 배치되면 이는 [performance feature의 해석에 대한 불일치 표시]일 수 있습니다. 항목 간에 이러한 패턴을 해석하면 두 요인이 서로 다른 관점을 나타내는 방법(즉, 평가자 인식의 체계적 차이)을 결정할 수 있습니다. 

Second, if a statement is placed on the ‘contrary to my impression’ side of the grid (e.g. ‘‘-4’’, ‘‘-3’’, ‘‘-2’’) in one Factor and on the ‘consistent with my impression’ side of the grid (e.g. ‘‘?4’’, ‘‘?3’’, ‘‘ ?2’’) in another Factor, this could be an indication of disagreement in the interpretation of the performance feature. Interpreting these patterns across items allows us to determine how the two factors represent different points of view (i.e. systematic differences in rater cognition). 


Q-요인과 Mini-CEX 등급 간의 관계 파악
Identifying the relationship between Q-factors and Mini-CEX ratings


서로 다른 관점이 의사가 할당한 등급과 관련이 있는지 확인하기 위해, 참가자들은 Q-정렬이 가장 높은 상관 관계를 갖는 Q-요인에 할당되었고, Q-요인 할당을 일원 분산 분석에서 독립 변수로 사용하여 설명할 수 있는 분산 비율을 결정했습니다(부분 에타 제곱) '전체 임상 역량' Mini-CEX 등급에 포함됩니다. 
To determine if differing points of view were related to the ratings physicians assigned, participants were assigned to the Q-factor with which their Q-sort was most highly correlated and then Q-factor assignment was used as the independent variable in a one-way ANOVA to determine the proportion of variance that could be explained (partial eta squared) in the ‘overall clinical competence’ Mini-CEX ratings. 

참여자
Participants


Q 방법론은 각 참가자가 개인별 요인 분석(McKown 및 Thomas 1988, Newman 및 Ramlo 2010, Watts 및 Stenner 2012)에서 변수로 간주되기 때문에 주제에 대한 가능한 모든 관점을 다루기 위해 참가자를 의도적으로 모집해야 한다. 따라서 실제 전공의의 역량 판단을 담당하는 다양한 임상 평가자를 포함하는 것이 목표였다. 우리는 그들의 진정한 평가 인상과 평점을 파악하기 위해 노력했기 때문에 추후 교육은 제공되지 않았습니다. 따라서 본 연구의 참가자를 모집하기 위해, 우리는 동료들에게 (우리를 대신하여) 우수하고 존경받고 경험이 풍부한 전공의의 평가자에게 접근해 줄 것을 요청했다.  
Q methodology requires purposeful recruitment of participants to cover all possible viewpoints on the topic because each participant is considered a variable in the by-person factor analysis (McKeown and Thomas 1988; Newman and Ramlo 2010; Watts and Stenner 2012). The goal was, therefore, to include a diverse range of clinical assessors who were responsible for judging the competence of medical residents in real-life. Because we strove to capture their authentic assessment impressions and ratings no rater training was provided. Thus, to recruit participants for this study, we asked colleagues to approach, on our behalf, physicians who they considered to be good, well-respected and experienced assessors of residents. 

결과
Results


참여자 Participants

2014년 11월부터 2015년 2월까지 46명의 고유 참가자가 1~4편의 동영상에 대해 동일한 44개의 문장을 정렬하여 총 128개의 Q-sort를 제출했습니다. 참가자들은 캐나다 5개 주와 미국 5개 주의 19개 도시에서 왔다. 

Between November 2014 and February 2015, 46 unique participants submitted a total of 128 Q-sorts by sorting the same 44 statements in response to 1–4 videos. The participants were from 19 different cities in 5 provinces in Canada and 5 states in the USA. 

Q-요인 분석을 통한 공감대 클러스터 식별
Identifying clusters of consensus through Q-Factor Analysis


모든 참가자가 임상 성과에 대한 단일 관점을 공유했다면, 우리는 그들이 유사한 구성으로 문장을 분류하고 단일 Q-factor를 식별할 것으로 예상할 것이다. 이런 일은 일어나지 않았다. 대신, 2-요인 솔루션이 4개의 비디오 각각에 가장 적합하다고 판단되었습니다(요인 추출 및 회전에 관한 자세한 내용은 표 2 참조). 즉, 유사한 Q-sorts의 하위 집합을 바탕으로 분석 결과 각 임상 성과에 대한 참가자의 인상 중 두 가지 주요 공감대가 나타났다. 

If all participants had shared a single point of view on the clinical performance, we would expect them to sort the statements in a similar configuration and a single Q-factor to be identified. This did not occur. Instead, a 2-factor solution was determined to be the best fit for each of the four videos (see Table 2 for details regarding factor extraction and rotation). In other words, based on subsets of similar Q-sorts the analysis revealed two major clusters of consensus among participants’ impressions for each of the clinical performances. 



Q-요인 해석을 통한 각 관점 특성화
Characterizing each perspective through Q-factor interpretation


네 가지 임상 성과 각각과 관련된 관점의 수를 파악한 후, 인자 배열의 문장 구성을 조사했습니다. 각 관점 내에서 다르게 해석되었던 임상적 특징을 확인하면서 흥미로운 패턴이 나타났다. 표 1에서 회색 음영을 사용하여 강조된 바와 같이, 모든 비디오에 대한 한 관점(먼저 열거된 요소)은 거의 전적으로 [관계 구축] 진술을 나타내기 위해 그리드의 원위부 위치(±3 및 ±4)를 사용했다. [의료 전문지식]과 [사회적 판단] 문장은 덜 극단적인 위치(0 ~ ±2)에 놓였다. 반대로, 다른 관점에서는 원위적 입장을 거의 독점적으로 사용하여 [의료 전문지식]을 언급하고, [관계 구축] 및 [사회적 판단] 진술에 대한 극단적 입장을 덜 제시하였다. 이러한 정렬 구성을 바탕으로 대부분의 비디오에서 한 그룹의 의사는 평가 인상에서 가장 두드러지게 공감대를 형성하는 기술을 강조한 반면, 다른 그룹은 의료 전문 기술을 가장 두드러지게 강조했습니다
After identifying the number of points of view associated with each of the four clinical performances, we examined the configuration of the statements in the factor arrays. An interesting pattern emerged as we identified the clinical features that had been differently interpreted within each point of view. As highlighted using grey shading in Table 1, one point of view for every video (the factor listed first) used the distal position on the grid (±3 and ±4) almost exclusively to represent rapport-building statements; with the medical expertise and social judgment statements being placed in less extreme positions (0 to ±2). Conversely, the other point of viewused the distal positions almost exclusively to represent statements referring to medical expertise leaving the less extreme positions to represent the rapport building and social judgment statements. Based on these sorting configurations, it appears that for most videos, one group of physician raters emphasized rapport-building skills most prominently in their assessment impressions whereas the other group emphasized medical expertise skills as most salient. 

표 2의 각 비디오에 대한 다양한 관점에 대해서도 유사한 해석을 찾을 수 있습니다. 일부 비디오(예: 비디오 2와 7)에서는 두 가지 관점의 차이가 더 두드러졌고, 다른 비디오(예: 비디오 1과 비디오 6에 대해서는 긍정적으로 상관된 관점)에서는 덜 두드러졌다. 예를 들어, 비디오 1은 부족한 관계 구축을 강조하는 데 있어 관점이 훨씬 더 일치합니다. 그러나 네 가지 임상 성과 모두에 대해 평가 판단의 내용은 일부 합의 사례에도 불구하고 구별되는 관점으로 식별될 수 있을 만큼 충분히 달랐다. 이러한 관점에서 의사 구성원 자격membership을 검사한 결과, 구성원 자격이 네 가지 성과에 걸쳐 [안정적이지 못했으며] (즉, [의료 전문지식]보다 [관계 구축] 기술을 강조하는 의사 그룹이 매번 동일하지 않았음), 구성원 자격을 인구 통계적 요인(표 2 참조)에 기인할 수 없었다.  

Similar interpretations can be found for each of the various perspectives on each video in Table 2. The distinction between the two perspectives was more striking for some videos (e.g. video 2 and 7) and less so for others (e.g. video 1 and positively correlated points of view for video 6). For example, there is much more agreement across the points of view for Video 1 in emphasizing deficient rapport building. However, for all four clinical performances the content of the assessment judgments was sufficiently different as to be identifiable as distinct points of view despite some instances of agreement between them. Examination of physician membership within these points of view revealed that membership was not stable across the four performances (i.e. it was not the same group of physicians emphasizing rapport-building skills over medical expertise every time) and membership could not be attributed to demographic factors (as shown in Table 2). 

Q-요인 간 비교를 통해 의견 일치 클러스터 간 차이 식별
Identifying divergences between clusters of consensus by comparison across Q-factors


전반적으로, 주어진 임상적 만남에 대한 다른 평가 인상이 많은 성과 특성의 유사한 해석을 포함할 수 있지만, 의사가 [다르게 가중치를 부여]하고, 때로는 일부 [수행능력 특성의 해석에 동의하지 않기] 때문에 수집된 평가 판단이 달라질 수 있다. 그 결과 발생하는 일련의 관점은 단일 수행능력에 대한 [관계 구축] 또는 [의료 전문성] 에 상반된 평가자 판단을 나타내는 것으로 이해될 수 있습니다. 
Overall, it appears that different assessment impressions of a given clinical encounter can include similar interpretations of many of the performance features and yet the collated assessment judgments can diverge due to physicians differently weighting and sometimes disagreeing on the interpretation of a few performance features. The resulting set of points of view can then be understood to represent conflicting rater judgments of rapport-building and/or medical expertise skills for a single performance. 

Q-요인과 Mini-CEX 등급 간의 관계 파악
Identifying the relationship between Q-factors and Mini-CEX ratings


표 3에서 볼 수 있듯이, 4개의 비디오 모두에 대해 [서로 다른 관점에 속하는 의사]들은 [상당히 다른 Mini-CEX 평정]과 연관되었습니다. 각 비디오의 시점별 평균 등급은 시점의 내용과 일치하는 방향으로 차이가 있었습니다. 예를 들어, 임상 수행능력의 많은 결함을 강조하는 관점(예: 비디오 1과 7의 요인 1, 비디오 2의 요인 2)은 더 낮은 평균 등급과 관련이 있었다. 
As shown in Table 3, physicians belonging to different points of view were associated with significantly different Mini-CEX ratings for all four videos. The mean ratings for the points of view for each video differed in a direction consistent with the content of the point of view. For example, the points of view emphasizing a greater number of deficiencies in the clinical performance (such as factor 1 for videos 1 and 7 and factor 2 for video 2) were associated with lower mean ratings. 



고찰
Discussion


Q 방법론을 사용하여 참가자들이 수행능력에 대한 중요한 특징을 설명하는 동일한 44개의 문장을 정렬하도록 선택했습니다. 44개 문장은 이전에 (Gingerich et al. 2014b)에서 수집된 세 가지 개방형 질문 형식을 사용하여 수집한 것이다.
이러한 설계는 [모든 평가자가 하나의 관점]에서 각 성과를 쉽게 해석하거나, [각 참가자에게 고유한 완전히 독특한 관점]을 가질 것이라고 해석할 수 있었습니다. 그러나 이 두 가지 가능성 모두 나타나지 않았다. 대신 각 임상 성과에 대해 [두세 가지 뚜렷한 관점]이 식별되었다. 각 성과에 대한 두세 가지 다른 관점에 대한 의사의 가입은 다양한 인구통계학적 배경을 가진 참가자를 포함함에도 불구하고 의료 전문성, 성별, 지리 또는 거주자 평가 경험에 기인할 수 없다.
We used Q methodology, choosing to have participants sort the same 44 statements describing salient features of performances (previously collected in (Gingerich et al. 2014b) using three different open question formats) for each of the four performances. This design could have easily resulted in each performance being interpreted froma single point of view by all raters, or in a set of completely idiosyncratic points of view unique to each participant. However, neither of these two possibilities emerged. Instead, two or three distinct points of view were identified for each clinical performance. Physicians’ membership in the two or three different points of view for each performance could not be attributed to their medical specialty, gender, geography or experience with assessing residents despite the inclusion of participants with varied demographic backgrounds. 

여러 관점의 일치 및 다양성
Consensus and divergence of multiple points of view

주어진 임상 성과에 대해 둘 이상의 관점을 식별한 것은 [여러 의사들이 임상 수행능력에 대해서 제한된 일련의 뚜렷한 인상 중 하나를 공유]하는 것으로 확인된 Gingerich et al.(2014b) 발견을 반복한다. 서로 다른 관점을 검토한 결과, 의사들은 자신의 평가 인상 내에서 성과에 대한 몇 가지 측면을 다르게 강조했으며 특정 측면에 대해 완전히 동의하지 않는 경우는 거의 없었다. 이는 단일 임상 만남에 대한 차별적 유의성differential salience 및 평가자 불일치rater disagreement에 대한 이전의 의학교육 연구 결과에 대한 지원을 추가한다(Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; Yates et al. 2013). 의사의 Q-인자 멤버십 자격을 설명할 때 MiniCEX 평정에서 21-53% 변동이 설명될 수 있기 때문에, 정렬 구성sorting configuration의 변동은 거짓일 것 같지 않다. 주어진 임상 수행능력에 대한 평가자의 응답 내에서 합의의 다중 클러스터의 일관성은, 이것을  참가자 표본에서 찾고, 두 가지 다른 방법론을 사용했기에, 평가자 간 변동성이 단순히 측정 오류라는 가정에 도전한다. 
Identifying more than one point of view for a given clinical performance replicates the Gingerich et al. (2014b) finding of multiple physicians sharing one of a limited set of distinct impressions for a clinical performance. Examination of the different points of view indicates that physicians differently emphasized a few aspects of the performance within their assessment impression and rarely outright disagreed on a given aspect. This adds support to previous medical education research findings of differential salience and rater disagreement regarding a single clinical encounter (Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; Yeates et al. 2013). The variations in the sorting configurations are unlikely to be spurious since 21–53 % of variance in the MiniCEXratings could be explained when physician’s membership in a Q-factor was accounted for. The consistency of finding multiple clusters of consensus within raters’ responses for a given clinical performance across two samples of participants and using two different methodologies challenges the assumption that inter-rater variability is simply measurement error. 

또한 우리의 원래 이론화(Gingerich et al. 2011, 2014b)와 달리, 이러한 데이터는 의사 평가자가 [사회적 판단(지능, 게으름 또는 오만성에 대한 추론 등)]을 성과에 대한 인상에서 특히 두드러진 측면으로 보지 않는다는 것을 시사한다. 그러한 사회적 판단을 포함하는 진술이 임상 기술에 대한 추론과 판단을 포함하는 진술과 정면 충돌했을 때, 의사들은 그러한 진술이 설득력이 없다고 생각했고 일반적으로 채점표에서 0 또는 ±1의 위치로 강등시켰다. 참가자들은 평가 판단을 하면서 사회적 판단의 형성이나 영향을 받지 않을 수 있었다. 그러나 이러한 진술은 기존 연구에서, 의사 평가자가 비디오를 시청하면서 생성된 것임을 알 수 있습니다. 더욱이, 우리는 이러한 사회적 추론의 할인이 어느 정도 사회적으로 바람직한 반응을 반영하는지 또는 무의식적인 편견이 반응에 영향을 미치는지 판단하지 못한다. 따라서, 평가자 간 변동성의 유의한 원천으로서 사회적 판단을 배제하기 위해 추가적인 삼각측량 방법을 사용한 추가 연구가 필요할 것이다. 

It is also worth noting that contrary to our original theorizing (Gingerich et al. 2011, 2014b) these data suggest that physician raters do not see social judgments (such as inferences about intelligence, laziness, or arrogance) as particularly salient aspects of their impressions of the performance. When statements containing such social judgments were put head-to-head with statements containing inferences and judgments regarding clinical skills, physicians did not appear to find them compelling and generally relegated them to positions of 0 or ±1 on the scoring sheet. It could be that participants were able to avoid forming or being influenced by social judgments while making assessment judgments. However, it is noteworthy that these statements were generated by a previous cohort of physician raters watching these videos. Moreover, due to our use of a self-report design feature we cannot determine the extent to which this discounting of social inferences reflects socially desirable responses or if any unconscious biases influenced the responses. Thus, further research using additional triangulating methods will be needed to rule-out social judgments as a significant source of inter-rater variability. 

평가자 간 변동성 및 평가자 인식의 재개념화
Re-conceptualizing inter-rater variability and rater cognition


각 성과에 대해 식별된 관점은 [관계 구축] 및 [의료 전문지식]에 대한 서로 다른 평가 판단을 반영합니다. 성과 평가 등급의 기초가 되는 두 가지 요인의 식별은 이전의 의학 교육 연구(Chahine et al. 2016; Nasca et al. 2002; Ramsey and Wenrich 1993; Silber et al. 2004; Verhulst et al. 1986). 또한 사회적 판단은 [사회성/도덕성] 대 [역량/능력] 판단에 기초하여 이루어진다는 [사회적 범주화의 2차원 이론]과도 잘 일치한다(Bauvois 및 Dubois 2009; Fiske et al. 2007; Wojciske 2005).  
The identified points of view for each performance reflect differing assessment judgments of skill in rapport-building and medical expertise. The identification of two factors underlying performance assessment ratings is consistent with prior medical education research (Chahine et al. 2016; Nasca et al. 2002; Ramsey and Wenrich 1993; Silber et al. 2004; Verhulst et al. 1986). It also aligns well with the two-dimensional theories of social categorization which posit social judgments are made based on judgments of sociability/morality versus competence/ability (Beauvois and Dubois 2009; Fiske et al. 2007; Wojciszke 2005).  


의사에게 평가 척도가 아닌 Q-sort를 사용하여 평가 인상을 제공하도록 요청했지만, 그 결과 관점은 이 [두 가지 기본 차원]에 대한 [차등적 판단]을 나타내는 것으로 보인다. 그렇다면 [평가자간 변동성]은 평가자 특이적인 변동성보다는, [관계 구축] 및 [의료 전문지식] 중 [어떤 것을 차등적으로 강조하는지]로 개념화할 수 있다. 마찬가지로, 보다 중요한 인식은 두 가지 판단의 [형성formation]과 [결합combination]으로 개념화될 수 있습니다. 즉, 충분한 조치가 필요한 것이며 환자와 동맹을 맺는 동안 이루어져야 하는 것입니다. 

Although physicians were asked to provide their assessment impressions using Q-sorts and not rating scales, the resulting points of view seem to represent differential judgments on these two underlying dimensions. If so, inter-rater variability could be conceptualized as differential emphasis on rapport-building and/or medical expertise rather than idiosyncratic rater variations. Likewise, rater cognition could be conceptualized as the formation and combination of two judgments: was what needed to be done sufficiently done and was it done while building an alliance with the patient. 

한계 및 추가 조사가 필요한 영역
Limitations and areas requiring further investigation


연구 함의
Implications of this research


[동일한 임상 만남에 대해 서로 다른 관점을 형성]할 때, 수반되는 관점의 상대적 정확성이나, 실제 인지 과정과 무관하게, [하나의 판단으로 쉽게 조정될 수 없는 복수의 해석]이라는 결과는 평정 분석에 문제가 된다. 가장 비판적으로, 이 연구는 [평정이 상호 호환되지 않는다]는 예비 증거를 제공한다. 이는 [동질성 가정]을 위반하고, 과도한 분산이 심리측정모형의 평가자에 귀속되는 결과를 초래할 것이다(Kane 2002). 평가자가 복수의 알려지지 않은 관점에 속했기 때문에, 다른 평가 판단을 보고하거나 다른 등급을 지정할 것으로 예상될 수 있다면, 현재 우리의 측정 모델은 관련 평가 정보를 추출하고 요약하는 데 비효율적일 것이다.
Regardless of the relative accuracy of the points of views or the actual cognitive processes involved with forming differing points of view for the same clinical encounter, the finding of multiple interpretations that cannot be easily reconciled into a single judgment is problematic for the analysis of ratings. Most critically, this study provides preliminary evidence that raters are not interchangeable. This would violate the homogeneity assumption and result in excess variance being attributed to the raters in psychometric measurement models (Kane 2002). If raters could be expected to report different assessment judgments or assign different ratings because they belonged to one of multiple unknown points of view, our current measurement models would be inefficient in extracting and summarizing the relevant assessment information.  

 


Adv Health Sci Educ Theory Pract. 2017 Oct;22(4):819-838.

 doi: 10.1007/s10459-016-9711-8. Epub 2016 Sep 20.

Inter-rater variability as mutual disagreement: identifying raters' divergent points of view

Andrea Gingerich 1Susan E Ramlo 2Cees P M van der Vleuten 3Kevin W Eva 4Glenn Regehr 4

Affiliations collapse

Affiliations

  • 1Northern Medical Program, University of Northern British Columbia, 3333 University Way, Prince George, BC, V2N 4Z9, Canada. andrea.gingerich@unbc.ca.
  • 2Department of Engineering and Science Technology, University of Akron, Akron, OH, USA.
  • 3School of Health Professions Education, Maastricht University, Maastricht, Netherlands.
  • 4Centre for Health Education Scholarship, University of British Columbia, Vancouver, BC, Canada.
  • PMID: 27651046
  • DOI: 10.1007/s10459-016-9711-8AbstractKeywords: Inter-rater variability; Mini-CEX; Q methodology; Rater cognition; Rater-based assessment; Workplace-based assessment.
  • Whenever multiple observers provide ratings, even of the same performance, inter-rater variation is prevalent. The resulting 'idiosyncratic rater variance' is considered to be unusable error of measurement in psychometric models and is a threat to the defensibility of our assessments. Prior studies of inter-rater variation in clinical assessments have used open response formats to gather raters' comments and justifications. This design choice allows participants to use idiosyncratic response styles that could result in a distorted representation of the underlying rater cognition and skew subsequent analyses. In this study we explored rater variability using the structured response format of Q methodology. Physician raters viewed video-recorded clinical performances and provided Mini Clinical Evaluation Exercise (Mini-CEX) assessment ratings through a web-based system. They then shared their assessment impressions by sorting statements that described the most salient aspects of the clinical performance onto a forced quasi-normal distribution ranging from "most consistent with my impression" to "most contrary to my impression". Analysis of the resulting Q-sorts revealed distinct points of view for each performance shared by multiple physicians. The points of view corresponded with the ratings physicians assigned to the performance. Each point of view emphasized different aspects of the performance with either rapport-building and/or medical expertise skills being most salient. It was rare for the points of view to diverge based on disagreements regarding the interpretation of a specific aspect of the performance. As a result, physicians' divergent points of view on a given clinical performance cannot be easily reconciled into a single coherent assessment judgment that is impacted by measurement error. If inter-rater variability does not wholly reflect error of measurement, it is problematic for our current measurement models and poses challenges for how we are to adequately analyze performance assessment ratings.

좋은 질문, 좋은 대답: Construct alignment가 WBA의 수행능력을 향상시킨다. (Med Educ, 2011)
Good questions, good answers: construct alignment improves the performance of workplace-based assessment scales 
Jim Crossley,1 Gavin Johnson,2 Joe Booth3 & Winnie Wade3

 

 


도입
INTRODUCTION


정책 컨텍스트
The policy context


지난 10년간 의료계에서는 졸업후교육postgraduate 평가가 크게 확대되었습니다. 이것은 두 가지 주요 요인에 의해 추진되었습니다.

  • 첫째, 교육 문헌은 [평가와 피드백]이 교육 전반에 걸쳐 학습을 촉진한다는 점점 더 많은 증거를 제시해 왔습니다.1
  • 둘째, 규정에 얽매인 현대 사회에서, 의료 서비스는 대중에게 안전하고 효과적인 실천을 입증해야 한다.2 이런 맥락에서 평가에는 수련 임상의가 역량을 발휘할 수 있도록 돕고, 이를 성공적으로 수행했는지 확인해야 하는 무거운 부담이 수반되어야 한다.

The last decade has seen a major expansion in postgraduate assessment within the medical professions. This has been driven by two main factors.

  • Firstly, the education literature has provided growing evidence that assessment and feedback drive learning across the whole continuum of education.1
  • Secondly, in the modern, regulation-bound world, health services are mandated to demonstrate safe and effective practice to the public.2 In this context, assessment must carry the heavy burden of helping trainee clinicians to achieve competence and then assuring that they have succeeded in doing so. 

좋은 평가 관행
Good assessment practice

다행히도, 교육 연구는 어떻게 하는 것이 잘 평가하는 것인지에 대한 많은 중요한 관찰을 제공해 왔습니다.
Fortunately, education research has provided a number of important observations about how to assess well.

첫째, 임상 수행능력은 맥락-특이적이다. 한 사례에서 좋은 성과가 반드시 다른 사례에서 좋은 성과를 예측하는 것은 아닙니다.4 따라서 임상 의사는 사례 표본을 통해 평가해야 합니다. 
Firstly, clinical performance is context-specific; a good performance in one case doesn’t necessarily predict a good performance in another case.4 Consequently, clinicians should be assessed on a sample of cases. 

둘째, 복잡한 수행능력을 단순한 체크리스트로 줄일 수 없다. 맥락을 고려할 수 있는 정교한 판단이 필요하다.5 또래와 수련생을 판단하는 의사들은 누가 잘 하고 잘 못 하는지에 대해서는 대체로 공감하지만, 개인차가 있다. 따라서 임상 의사는 [적절한 경험이 있는 심사자judge 표본]에 의해 평가되어야 한다.3 
Secondly, complex performance cannot be reduced to simple checklists; it requires sophisticated judgements that can take account of context.5 Doctors who judge their peers and trainees largely agree on who is performing well and poorly, but they display some individual differences. Consequently, clinicians should be assessed by a sample of suitably experienced judges.3 

셋째, 의사를 [실제 직장real workplace]에서 벗어나, 통제된 환경[controlled environment]으로 전환함으로써 평가를 표준화하려는 시도는 무용지물이다. 통제된 환경에서 의사를 평가하는 것은 꽤 가능하지만, 그러한 상황에서 역량으로는 실제 업무 성과를 예측할 수 없다.6,7 역량 있는 의사도 여러 가지 이유로 업무 현장에서 성과가 나쁠 수 있다. 영국 성과 평가 절차에서의 경험은 실수로부터 배우지 못하는 것, 정신 건강 악화, 업무량 관련 문제 및 가족 문제 등이 그러한 이유임을 시사합니다.8 
Thirdly, attempts to standardise assessment by taking doctors out of their real workplaces and into a controlled environment are futile. It is quite possible to assess a doctor in a controlled environment, but competence in such a setting does not predict real workplace performance.6,7 Competent doctors may perform poorly in the workplace for a variety of reasons. Experience in UK performance assessment procedures suggests that those reasons include: failure to learn from mistakes; poor mental health; workload-related issues, and family problems.8 

간단히 말해서, 그들이 직장에서 어떻게 수행하는지 알기 위해, 임상의는 그 일을 이해하고 판단을 내릴 수 있는 [다른 임상의들]에 의해 그들의 [일상적인 작업]의 [적절한 샘플]로 [직장]에서 [정기적]으로 평가되어야 한다. 이러한 유형의 평가를 [직장 기반 평가(WBA)]라고 합니다. 
In short, to know how they performin the workplace, clinicians should be assessed regularly in the workplace on an adequate sample of their day-to-day work by other clinicians who understand the work and are able to make judgements. This type of assessment has been called workplace-based assessment (WBA). 


WBA 딜레마
The WBA dilemma

WBA의 중요성은 영국과 전 세계의 주요 정책 문서에 포함되어 있다. 그 결과, WBA 방법의 사용이 폭발적으로 증가하고 있다. 예를 들어, 영국의 모든 전문 분야는 교육생을 위한 커리큘럼에 몇 가지 WBA 방법을 포함시켰다.10 
The importance of WBA is embedded in key policy documents in the UK9 and across the world. Consequently, there has been an explosion in the use of WBA methods. For example, every specialty in the UK has included several WBA methods in its curriculum for trainees.10 

불행하게도, 전 세계의 의학에서 WBA의 구현은 많은 어려움에 직면해 있다. 영국의 의과대학 아카데미는 여러 설문 조사 결과에서 (WBA에 관한) 의료종사자의 느낌을 요약합니다. 
Unfortunately, the implementation of WBA in medicine worldwide has been fraught with difficulty. In the UK, the Academy of Medical Royal Colleges summarises the feeling of the medical profession from the findings of several surveys:

'전문가는 전문가 행동의 복잡성을 평가하기 위한 환원적 "체크박스" 접근법의 사용을 의심하는 것이 당연하며, 개별 평가 방법의 기준, 방법 및 목표에 대한 광범위한 혼란이 존재한다. 이로 인해 현재 증가하고 있는 WBA에 대한 냉소가 확산되고 있다.' 10 
‘The profession is rightly suspicious of the use of reductive ‘‘tick-box’’ approaches to assess the complexities of professional behaviour, and widespread confusion exists regarding the standards, methods and goals of individual assessment methods. This has resulted in widespread cynicism about WBA within the profession, which is now increasing.’10

또한, WBA 방법이 심리측정적으로 평가된 경우, 점수는 평가자 차이assessor difference에 매우 취약한 것으로 밝혀졌으며, 평가자들은 일반적으로 대부분의 훈련생들을 매우 긍정적으로 평가하는데 있어 무분별한 평가를 해왔다.11,12 이것은 신뢰성을 달성하기 위해 매우 많은 수의 평가자와 사례가 필요하다는 것을 의미한다.
Furthermore, where WBA methods have been psychometrically evaluated, scores have been found to be very vulnerable to assessor differences and assessors have generally been indiscriminate in rating most trainees very positively.11,12 This means that very large numbers of assessors and cases are required to achieve reliability.

척도 문제
Problems with scales

WBA를 실제로 사용해 본 평가자들은 [WBA 방법에 대한 광범위한 냉소]와 [실망스러운 심리 측정 성능]을 설명하는 데 도움이 될 수 있는 여러 문제를 강조합니다. 가장 흥미로운 관찰 중 일부는 평가자들이 성과 표본을 채점하고(일반적으로 비디오에서) 점수 차이에 대한 이유를 논의하는 훈련 토론에서 나왔다.13 종종 평가자는 [그들이 직접 본 수행능력]에 대해서는 동의하지만, 평가의 [필수적 초점(평가 구성construct)] 또는 [점수 척도 상의 특정 지점의 의미(응답 형식)]에 대해서는 동의하지 않는다.14  
Assessors who have used WBA in practice highlight a number of problems which may help to explain the widespread cynicism about the method and its disappointing psychometric performance. Some of the most interesting observations have emerged from training discussions in which assessors score performance samples (usually from video) and then discuss the reasons for their scoring differences.13 Frequently, assessors agree over the performance they have seen, but disagree over their interpretation of the essential focus of the assessment (the assessment construct) or the meaning of the points on the scoring scales (the response format).14 

일부 척도는 원래의 미니-CEX(mini-CEX) 도구에 사용하는 '불만족' 척도에서 '우수' 척도와 같은 선형 성과 등급을 반영하도록 설계되었다. 전형적으로 평가자들은 예를 들어 '우수한' 성과를 구성하는 것이 무엇인지에 대해 서로 다른 해석을 하고 있으며, 척도에 지침에 대한 보다 상세한 설명이 수반되는 경우, 평가자들은 이를 언급하지 않는다. 그들은 또한 '불만족unsatisfactory'이나 '불량poor'과 같이 경멸적으로 들리는 카테고리를 이용하는 것을 꺼린다.

Some scales are designed to reflect linear gradations of performance, such as the ‘unsatisfactory’ to ‘superior’ scale employed for the original miniclinical evaluation exercise (mini-CEX) instrument.15 Typically, assessors have different interpretations of what constitutes, for example, a ‘superior’ performance and, when the scale is accompanied by more detailed descriptions for guidance, assessors do not refer to them. They are also reluctant to make use of categories that sound pejorative, such as ‘unsatisfactory’ or ‘poor’. 

다른 척도는 영국 Foundation Programme instruments에 채택된 'F1 수료에 대한 기대치 훨씬 미달'에서 'F1 수료에 대한 기대치 훨씬 초과'와 같이 미리 결정된 훈련 단계와 관련된 진행 상황을 반영하도록 설계되어 있다.12 (F1은 영국에서 가장 하위 단계의 수습생을 의미한다). 전형적으로, 임상평가자는 훈련의 특정 단계에 기대해야 하는 기준에 대한 불확실성, 긴 커리큘럼에 대한 제한된 지식, 그리고 훈련의 종료가 가까워지고 있다는 것을 알고 있을 때 훈련생에 대해서 기준 미만이라고 평가하기를 꺼려하는 것 등을 보고한다.
Other scales are designed to reflect progress in relation to predetermined stages of training, such as the ‘well below expectation for F1 completion’ to ‘well above expectation for F1 completion’ scale employed by the UK Foundation Programme instruments.12 (F1 refers to the most junior level of trainee in the UK.) Typically, clinician-assessors report significant uncertainty about the standard expected for a given stage of training, a limited knowledge of lengthy curricula, and reluctance to rate a trainee as being below the expected standard when they know that the trainee is approaching the end of a given training period. 

구성 정의
Defining a construct

미국에서, 대학원 의학 교육 인증 위원회(ACGME)는 각 역량 영역에 특정한 '마일스톤'에 대한 철저한 설명을 제시함으로써 대학원 역량 개발을 정의하는 대체 접근 방식을 취했다. 그러나 이정표를 검토하면 직장에서 두 가지 핵심 구조를 구별할 수 있습니다. 즉, [정교함]과 [독립성]이 증가하는 스토리가 그려집니다. 
In the USA, the Accreditation Council for Graduate Medical Education (ACGME) has taken an alternative approach to defining the development of postgraduate competence by setting out exhaustive descriptions of ‘milestones’ specific to each domain of competence.17 However, an examination of the milestones allows us to discern two key constructs at work; they plot a story of increasing sophistication and independence. 

WBA의 한 가지 방법은 [독립성]이라는 구인을 척도에 통합했다. 영국 대학간 외과 커리큘럼 프로그램은 수술(주로 기술) 기술의 평가로 절차 기반 평가(PBA)를 채택했다. 수술 후 PBA 글로벌 평가 척도는 평가자에게 다음과 같은 질문을 합니다.

  • (i) '감독 하에 절차 또는 관찰된 부분을 수행해야 한다.' 
  • (ii) '감독 하에 절차 또는 관찰된 부분을 수행할 수 있어야 한다. 
  • (iii) '최소한의 관리로 절차를 수행할 수 있음(간헐적 도움 필요)' 또는 
  • (iv) '감독 없이 절차를 수행해야 한다(발생한 합병증을 처리할 수 있음)'

One method of WBA has incorporated the construct of independence in its scale. The UK Intercollegiate Surgical Curriculum Programme has adopted procedure-based assessment (PBA) as an assessment of intraoperative (mainly technical) skill. Following a surgical operation, the PBA global assessment scale asks the assessor whether the trainee was:

  • (i) ‘unable to perform the procedure, or part observed, under supervision’;
  • (ii) ‘able to perform the procedure, or part observed, under supervision’;
  • (iii) ‘able to perform the procedure with minimal supervision (needed occasional help)’, or
  • (iv) ‘competent to perform the procedure unsupervised (could deal with complications that arose)’.


현재 연구
Present study


방법
METHODS


기기 선택
Selecting the instruments


구성 정렬 척도의 명백한 이점이 상황에 특정한지 알아보기 위해, 우리는 다양한 평가 영역을 포괄하는 세 가지 도구를 선택했습니다. 각 기구는 영국에서 이미 의료 연수생을 위한 공동 왕립 의사 훈련 위원회 커리큘럼의 일부로 사용되고 있습니다.19 
To discover if the apparent benefit of a constructaligned scale is context-specific, we chose three instruments to cover a range of assessment domains. Each instrument is already in use in the UK as part of the Joint Royal Colleges of Physicians Training Board curricula for medical trainees.19 

[mini-CEX]는 실제 상황에서 여러 번의 짧은 실시간 임상 만남의 일부 또는 전부를 평가하기 위해 설계되었습니다. 인터뷰, 검사, 커뮤니케이션, 판단, 전문성 및 효율성 중 하나에 집중할 때 사용할 수 있습니다. 미국에서 장기간의 임상 평가 연습에서 개발되어 직장에서의 만남의 광범위한 표본추출을 가능하게 하였다.15  
The mini-CEX is designed for assessing some or all of multiple, short, real-time clinical encounters in authentic situations. It can be used to concentrate on any of: interviewing; examining; communication; judgement; professionalism, and efficiency. It was developed in the USA from the longer clinical evaluation exercise to allow for the broader sampling of encounters in the workplace.15 

[사례 기반 논의(CBD)]는 평가자가 환자 진료와 관련하여 임상의의 임상적 추론, 의사 결정 및 의료 지식의 적용을 조사할 수 있도록 고안되었습니다. 토론은 훈련생이 제안할 수 있는 서면 기록에 기초하지만 평가자가 선택해야 합니다. 그런 다음 평가자는 수습생에게 자신의 관리 또는 기록에 대해 설명하도록 요청합니다. 
The case-based discussion (CBD) is designed to allow the assessor to probe the clinician’s clinical reasoning, decision making and application of medical knowledge in relation to patient care. The discussion is based on a written record which can be proposed by the trainee, but should be selected by the assessor. The assessor then asks the trainee to explain his or her management or records. 

[급성 치료 평가 도구(ACAT)]는 다른 방법보다 최신입니다. '급성의학 수련기간 중 수련자의 투약관리, 환자관리, 팀워크 수행능력을 고려한 평가'로 개발되었으며, 20 수련 의사는 다음 중 한 가지 방법으로 평가된다.

  • 급성 의무acute duty 기간동안 그들과 함께 일하는 훈련생 동료에 의해 ('on-take' ACAT)' 
  • 진료 권한 인계 및 근무 후post duty 병동 라운드의 컨설턴트에 의해 ('post-take' ACAT')

이 도구는 광범위하여, 임상 평가, 기록 보관, 조사 및 의뢰, 중요 질병 관리, 시간 관리, 팀 작업, 리더십 및 인계 등을 포함합니다.  
The acute care assessment tool (ACAT) is newer than the other methods. It was developed as ‘an assessment of a trainee during a period of practising acute medicine considering the trainee’s performance in the management of the take, patient management, and teamworking’.20 Trainee doctors are assessed either

  • by trainee colleagues working with them during the acute duty period (‘on-take’ ACAT), or
  • by the consultant at the handover and post-duty ward round (‘post-take’ ACAT).

The instrument is broad and covers: clinical assessment; record keeping; investigations and referrals; managing critical illness; time management; teamworking; leadership, and handover. 

설명자의 전체 목록은 표 1에 나와 있습니다.
The full list of descriptors is presented in Table 1.

Table 1 Construct-aligned scales

 


관리
Administration

이 기구는 2009년 말 정기 품질 향상 과정의 일환으로 개정되어 영국 전 지역의 의료 전문분야 연수생에게 원안과 동일한 방식으로 투여되었다. 평가는 훈련생에 의해 시작되며 영국의 대부분의 WBA 절차에 따라 웹 기반의 전자 포트폴리오에 기록됩니다
The instruments were revised at the end of 2009 as part of a regular quality enhancement process and administered in the same way as the original versions to trainees in medical specialties across all regions of the UK. Assessments are trainee-initiated and are recorded in a web-based, electronic portfolio in keeping with most WBA procedures in the UK. 


데이터 분석
Data analysis

심리학적 측면에서 이러한 변수는 각각 개인 분산(Vp), 엄격성 분산(Vj), 주관성 분산(Vj*p)으로 점수에 대한 분산 성분 분석에 반영됩니다. 이 주석에서는 V = 분산, p = 훈련생, j = 평가자 및 i = 에피소드(예리함, 급성 촬영 또는 토론)를 설명합니다. 
Psychometrically, these variables will be reflected in a variance component analysis of the scores as

  • person variance (Vp),
  • judge stringency variance (Vj), and
  • judge subjectivity variance (Vj*p), respectively.

In this annotation, V = variance, p = trainee, j = assessor and i = episode (encounter, acute take or discussion). 


Vp가 상승하고 Vj 및 Vj*p가 하락하면 신뢰도(Vp에 비례하고 Vj 및 Vj*p에 반비례)도 향상됩니다. 따라서 이러한 세 가지 결과는 기존 척도와 수정된 척도를 사용한 점수의 신뢰성으로 유용하게 요약된다. 각 척도에 대해 신뢰도는 GC(Generalisability Coefficient) → 0.70을 달성하는 데 필요한 평가 수로 보고된다. 
If Vp rises and Vj and Vj*p fall, then reliability (which is proportional to Vp and inversely proportional to Vj and Vj*p) will also improve. Therefore, these three outcomes are helpfully summarised by the reliability of scores using the conventional and revised scales. For each scale, reliability is reported as the number of assessments required to achieve a generalisability coefficient (GC) ‡ 0.70. 

간단히 말해서, 평가자들이 훈련생들을 더 잘 분리하고, 평가자들이 더 비슷하게 평가할수록, 주어진 수준의 신뢰성을 달성하기 위해 요구되는 평가의 수는 더 적습니다.
Put simply, the better the assessors separate trainees, and the more similarly assessors rate a given trainee, the fewer assessments are required to achieve a given level of reliability. 

순서 범주형 점수는 분석을 위해 숫자 근사치로 변환되었으며 1(최저 등급)에서 5(최고 등급)까지 범위가 지정되었습니다.
The ordinal categorical scores were converted to number approximations for the analysis and ranged from 1 (lowest rating) to 5 (highest rating).

G 연구는 데이터가 자연주의적이고 불균형적이었기 때문에 최소 정규 2차 불편 추정기(MINQUE) 절차를 사용했습니다. 분산 분석(ANOVA, 제곱합 유형 3)을 사용하여 데이터를 재분석하여 최소 자유도(d.f.)를 보고했습니다. 회귀 모형은 수습 능력(Vp)과 평가자 엄격성(Vj)의 1차 효과만 추정할 수 있습니다. 평가자와 에피소드는 각 에피소드마다 한 명의 평가자가 점수를 매기기 때문에 혼란스러우며, 따라서 훈련생(Vj*p)에 대한 평가자의 주관성 효과와 훈련생 사례 대 사례 변동 효과(Vi:p)가 오류 용어(Vres)에 모두 포함된다.  
The G study used the minimum norm quadratic unbiased estimator (MINQUE) procedure because the data were naturalistic and unbalanced. Minimum degrees of freedom (d.f.) were reported by re-analysing the data using analysis of variance (ANOVA, sumof squares type 3). The regression model could only estimate the first-order effects of trainee ability (Vp) and assessor stringency (Vj). Assessor and episode are confounded because only one assessor scores each episode, so the effects of assessor subjectivity over trainee (Vj*p) and trainee case-to-case variation (Vi:p) are both included in the error term(Vres).  

D 연구는 추가 평가 에피소드마다 다른 평가자가 수행한다고 가정하여 GC = Vp³(Vp +[Vj → Nj]+ [Vres → Ni]) 방정식을 사용했다. 
The D study assumed that each additional assessmentepisode was performed by a different assessor and thus used the equation: GC = Vp⁄ (Vp +[Vj ⁄ Nj]+ [Vres ⁄ Ni]). 

결과
RESULTS


모집 및 표본 추출
Recruitment and sampling


각 평가 방법에 대한 표본의 크기와 깊이는 표 2와 같다. 
The size and depth of the samplefor each assessment method are presented in Table 2. 

 

G 연구 결과
G study results

표 3은 G 연구 결과를 제시하며, 이는 평가자들이 서로 다른 능력을 가진 훈련생들을 구별하는 능력(Vp)과 가변적인 평가자의 엄격함 또는 관용(Vj)에 의해 얼마나 많은 영향을 받았는지를 보여준다.
Table 3 presents the G study results, which show howmuch the raw assessment scores were influenced by the assessors’ ability to discriminate between trainees of different abilities (Vp) and by variable assessor stringency or leniency (Vj).

모든 평가도구에서 Vp는 새로운 스케일이 더 높다. 이는 평가자들이 기존의 평가보다 새로운 척도를 사용하여 높은 성과와 낮은 성과를 내는 훈련생들을 더 폭넓게 구별했다는 것을 의미하며, 여러 명의 훈련생들을 보았을 때, 그러한 평가자들은 훈련생들에게 더 비슷하게 점수를 매겼다는 것을 의미한다. 
Across all the instruments, Vp is higher with the new scale. This means that assessors discriminated more widely between highand low-performing trainees using the new scale than they did using theconventional scale and, when a trainee saw several assessors, those assessors scored the trainee more similarly. 

또한 모든 도구에서(on-take ACAT 제외)에서 Vj가 새 스케일에서 낮다. 이는 평가자가 이전 척도를 사용하는 것보다 새 척도를 사용할 때 사용하는 척도의 일부에서 더 일관성을 유지했음을 의미합니다. '호크'와 '비둘기 같은' 성향이 줄어들었다. 

In addition, across all instruments (except ACAT when used on take), Vj is lower with the new scale. This means that assessors were more consistent in which part of the scale they used when using the newscale than they were using the old scale. ‘Hawkish’ and ‘dovelike’ tendencies were reduced. 

 




신뢰성 결과
Reliability results


표 4는 각 추가 평가가 서로 다른 평가자에 의해 수행된다고 가정하는 다양한 평가 표본 크기에 대한 D 연구 결과를 제시한다. 이전에 필요한 평가 수GC ÷ 0.7이 강조 표시됩니다. 
Table 4 presents the D study results for a range of assessment sample sizes in which each additional assessment is assumed to be performed by a differentassessor. The number of assessments required beforeGC ‡ 0.7 is highlighted 

고찰
DISCUSSION

주 결과
Main findings



G 연구 결과는 construct-aligned scales에서 평가자들이 높은 성과와 낮은 성과 훈련생(Vp)을 더 폭넓게 구별하고 기대 표준(Vj)의 관점에서 서로 더 부합하는 것으로 나타났다(표 3).  
The G study results indicate that the construct-aligned scales caused assessors both to discriminate more widely between highand lowperforming trainees (Vp) and to come more into linewith one another in terms of the expected standard (Vj) (Table 3).  


신뢰도는 [우수한 차별성]과 [우수한 재현성]의 산물입니다. 네 가지 상황 중 세 가지 상황에서 신뢰성의 차이는 컸고, '교육 중in training' 수준의 신뢰성을 달성하는 데 필요한 평가자와 에피소드의 수를 매우 크게 줄였습니다(표 4).  

Reliability is a product of both good discrimination and good reproducibility. In three of four contexts, the difference in reliability was large and reduced thenumber of assessors and episodes required to achieve‘in training’ levels of reliability very substantially (Table 4).  




연구의 강점 Strengths of the study

연구의 한계 Limitations of the study

해석 Interpretation

우리의 연구 결과에 따르면 임상 평가자는 [임상적 정교성과 독립성 발달이라는 구인에 맞는 평가 척도를 사용할 때] 높은 성과와 낮은 성과를 내는 의사를 구별할 가능성이 높으며, 서로 동의할 가능성이 더 높습니다. 이러한 관찰은 그 자체로 중요하며 WBA에 상당한 이익을 제공한다. 그러나 지금까지 WBA의 실망스러운 정신측정적 성과는 [관찰된 수행능력에 대한 불일치]가 아니라 [질문과 척도에 대한 다른 해석]에서 비롯될 수 있다는 가능성을 제기하기 때문에 더 큰 의미가 있다. 그렇다면 계측기 설계를 개선하여 WBA의 신뢰성을 더욱 향상시킬 수 있을 것입니다. 
Our findings suggest that clinician-assessors are more likely to discriminate between highand lowperforming doctors, and are more likely to agree with one another when they are using a rating scale aligned with the constructs of developing clinical sophistication and independence. This observation is important in its own right and promises significant benefits for WBA. However, it also has a wider significance because it raises the possibility that the disappointing psychometric performance of WBA to date may stem not from disagreements about the performance observed, but from different interpretations of the questions and the scales. If so, it may be that we can improve the reliability of WBA yet further by improving the design of the instruments. 

곰곰이 생각해 보면, 평가자들이 '불만족'이나 '우수'와 같은 추상적 기준점들을 서로 모순되게 해석할 것이고, 많은 사람들이 그러한 척도의 낮은 수준에서 요구하는 경멸적인 방식으로 훈련생이나 동료에게 꼬리표를 붙이는 것을 꺼릴 것이 분명해 보인다. 마찬가지로, '훈련 단계에 대한 기대 충족'과 같이 미리 정해진 훈련 수준에 대한 앵커들은 [가변적일 가능성이 높은 평가자의 기대치]에 직접적으로 의존하고 있으며, 많은 사람들이 동료들을 '기대 미만'으로 평가하기 어려울 것이다. 그럼에도 불구하고 다른 의사가 급성 투약을 주도해도 안전한지, 클리닉을 운영해도 안전한지, 수술을 독립적으로 수행해도 안전한지 결정하는 것은 임상의 일상적인 업무의 일부입니다. 이러한 결정에는 명확히 표현하기 쉬울 수도 있고 아닐 수도 있는 많은 요소들이 통합되며, 각 요소들은 상황별, 가중치 및 균형을 이루어야 한다. 그러나 복잡함에도 불구하고, 그들이 대표하는 구인constructs은 실천 준비의 척도로서 실질적인 면의 타당성을 가지고 있습니다. 우리의 데이터는 올바른 방법으로 질문할 경우 임상 평가자가 그에 대해 매우 신뢰할 수 있는 판단을 내릴 수 있다는 것을 보여주는 것 같습니다. 

On reflection, it seems obvious that assessors will interpret abstract anchors such as ‘unsatisfactory’ or ‘superior’ inconsistently from one another, and that many will be unwilling to label a trainee or a colleague in the pejorative way demanded by the lower levels of such scales. Equally, anchors to predetermined training levels such as ‘meets expectations for stage of training’ hang directly on assessor expectations, which are likely to be variable, and many will find it hard to rate their colleagues as performing ‘below expectations’. Nevertheless, it is part of a clinician’s day-to-day business to decide whether another doctor is safe to lead an acute take, run a clinic or perform an operation independently. These decisions integrate many factors that may or may not be easy to articulate, and each needs to be contextualised, weighted and balanced. However, despite their complexity, the constructs that they represent have real face validity as a measure of readiness to practise. Our data seemalso to show that clinician-assessors, if asked in the right way, can make highly reliable judgements about them. 


권고사항
Recommendations


작업장 기반 평가WBA 척도는 평가자의 전문 지식과 작업장에서 수습생의 개발 능력에 맞춰 설계되어야 합니다. 의료 WBA의 많은 경우에 이것은 임상 독립성의 구조와 연계된 앵커의 사용을 요구할 것이다. 훈련 단계에 대한 기대와 연계된 경멸적 앵커와 슬라이딩 저울은 피하는 것이 거의 확실합니다. 
Workplace-based assessment scales should be designed to align to the expertise of the assessor and the trainee’s developing ability in the workplace. In many cases of medical WBA this will require the use of anchors linked to the construct of clinical independence. It is almost certainly better to avoid pejorative anchors and sliding scales linked to expectations for stage of training. 

새로운 평가도구의 현장 테스트의 핵심 부분에는 평가자가 질문과 척도로 무엇을 이해하는지 확인하는 작업이 포함되어야 합니다. 평가자가 모의 에피소드를 채점한 다음 차이점을 토론하는 정규화 그룹Norming group은 이러한 목적에 매우 유용한 데이터를 제공합니다.
A key part of the field testing of new instruments should include checking what assessors understand by the questions and the scale. Norming groups in which assessors score mock episodes and then discuss their differences provide very useful data for this purpose. 




 

 

 

 

 

 

 

 


Med Educ. 2011 Jun;45(6):560-9.

 doi: 10.1111/j.1365-2923.2010.03913.x. Epub 2011 Apr 18.

Good questions, good answers: construct alignment improves the performance of workplace-based assessment scales

Jim Crossley 1Gavin JohnsonJoe BoothWinnie Wade

Affiliations collapse

Affiliation

  • 1Academic Unit of Medical Education, University of Sheffield, Sheffield, UK. j.crossley@sheffield.ac.uk
  • PMID: 21501218
  • DOI: 10.1111/j.1365-2923.2010.03913.xAbstract
  • Context: Assessment in the workplace is important, but many evaluations have shown that assessor agreement and discrimination are poor. Training discussions suggest that assessors find conventional scales invalid. We evaluate scales constructed to reflect developing clinical sophistication and independence in parallel with conventional scales.Results: In all three cases the conventional scale gave a performance similar to that in previous evaluations, but the construct-aligned scales substantially reduced assessor disagreement and substantially increased assessor discrimination. Reliability modelling shows that, using the new scales, the number of assessors required to achieve a generalisability coefficient ≥0.70 fell from six to three for the mini-CEX, from eight to three for the CBD, from 10 to nine for 'on-take' ACAT, and from 30 to 12 for 'post-take' ACAT.
  • Conclusions: The results indicate that construct-aligned scales have greater utility, both because they are more reliable and because that reliability provides evidence of greater validity. There is also a wider implication: the disappointing reliability of existing WBA methods may reflect not assessors' differing assessments of performance, but, rather, different interpretations of poorly aligned scales. Scales aligned to the expertise of clinician-assessors and the developing independence of trainees may improve confidence in WBA.
  • Methods: A valid scale should reduce assessor disagreement and increase assessor discrimination. We compare conventional and construct-aligned scales used in parallel to assess approximately 2000 medical trainees by each of three methods of workplace-based assessment (WBA): the mini-clinical evaluation exercise (mini-CEX); the acute care assessment tool (ACAT), and the case-based discussion (CBD). We evaluate how scores reflect assessor disagreement (V(j) and V(j*p) ) and assessor discrimination (V(p) ), and we model reliability using generalisability theory.

근무지-기반 평가: 평가자 전문성의 효과(Adv in Health Sci Educ, 2011)
Workplace-based assessment: effects of rater expertise
M. J. B. Govaerts • L. W. T. Schuwirth • C. P. M. Van der Vleuten • A. M. M. Muijtjens

 

도입
Introduction

의료 교육의 연속적인 최근 발전은 업무 수행 평가, 즉 전문 역량에 대한 직장 기반 평가(WBA)에 대한 관심이 증가하고 있음을 보여줍니다. 성과-기반 또는 역량-기반 교육 프로그램에서 직장 내 성과 평가는 필수적입니다(Van der Vleuten 및 Schuwirth 2005). 또한 전문 서비스의 우수성excellence과 평생학습에 대한 강조가 높아짐에 따라, 전문가는 경력 전반에 걸쳐 일상적인 성과에 대한 평가, 개선 및 증거를 제공해야 합니다. 따라서 직장 기반 평가(WBA)는 항공, 군사 및 사업(Cunnington and Southgate 2002; Norcini 2005)과 같은 다른 전문 영역과 마찬가지로 의료 분야에서 면허 및 (재) 인증 절차의 필수적인 부분이 될 가능성이 높다.  
Recent developments in the continuum of medical education reveal increasing interest in performance assessment, or workplace-based assessment (WBA) of professional competence. In outcome-based or competency-based training programs, assessment of performance in the workplace is a sine qua non (Van der Vleuten and Schuwirth 2005). Furthermore, the call for excellence in professional services and the increased emphasis on life-long learning require professionals to evaluate, improve and provide evidence of dayto-day performance throughout their careers. Workplace-based assessment (WBA) is therefore likely to become an essential part of both licensure and (re)certification procedures, in health care just as in other professional domains such as aviation, the military and business (Cunnington and Southgate 2002; Norcini 2005). 

WBA에 대한 연구는 일반적으로 측정 품질에 초점을 맞춘 심리측정적 관점을 취합니다

  • 예를 들어 Norcini는 (환자 혼합, 환자 난이도 및 환자 번호와 같은) 통제할 수 없는 변수로부터 신뢰성과 타당성에 대한 위협을 지적합니다.
  • 다른 연구들은 낮은 평가자간 신뢰성과 후광 효과, 관대화 성향, 범위range 제한과 같은 평가자 효과로 평가 결과의 효용이 저하된다는 것을 보여준다. 

Research into WBA typically takes the psychometric perspective, focusing on quality of measurement.

  • Norcini (2005), for instance, points to threats to reliability and validity from uncontrollable variables, such as patient mix, case difficulty and patient numbers.
  • Other studies show that the utility of assessment results is compromised by low inter-rater reliability and rater effects such as halo, leniency or range restriction (Kreiter and Ferguson 2001; Van Barneveld 2005; Gray 1996; Silber et al. 2004; Williams and Dunnington 2004; Williams et al. 2003).

그 결과, WBA를 개선하려는 시도는 일반적으로 [평정 척도 형식을 조정]하고, [평가자 교육]을 통해 [평가자 오류를 제거]함으로써 [측정의 표준화와 객관성]에 초점을 맞춘다. 그러한 조치는 기껏해야 엇갈린 성공을 거두었다(Williams et al. 2003)

As a consequence, attempts to improve WBA typically focus on standardization and objectivity of measurement by adjusting rating scale formats and eliminating rater errors through rater training. Such measures have met with mixed success at best (Williams et al. 2003). 

그러나 양적 평가 결과에 초점을 맞춘 전통적인 심리측정 체계에 대한 배타적 초점이 WBA 연구에 적합한지 의문을 제기할 수 있다. 산업 심리학의 연구는 직장에서의 [성과 평가]란 [상호 관련된 일련의 과정]으로 정의되는 [복잡한 작업]이라는 것을 증명합니다. WBA는 일반적으로 [시간의 압박] 속에, [표준화되지 않은 작업] 또는 [잘 정의되지 않거나 서로 상충하는 목표]의 맥락에서 평가 작업을 수행해야 하는 [전문가의 판단]에 의존합니다
One might question, however, whether an exclusive focus on the traditional psychometric framework, which focuses on quantitative assessment outcomes, is appropriate in WBA-research. Research in industrial psychology demonstrates that assessment of performance in the workplace is a complex task which is defined by a set of interrelated processes. Workplace-based assessment relies on judgments by professionals, who typically have to perform their rating tasks in a context of time pressure, non-standardized assessment tasks and ill-defined or competing goals (Murphy and Cleveland 1995).

퍼포먼스 평가에 대한 연구 결과도 [맥락적 요인]이 평가자의 행동에 영향을 미치고 따라서 평가 결과에 영향을 미친다는 것을 나타낸다(Levy and Williams 2004; Hawe 2003). 따라서 평가자들은 성과 데이터를 샘플링하고, 결과를 해석하고, 평가 기준을 식별 및 정의하며, [개인의 판단]을 [합당한(허용 가능한) 의사 결정]으로 변환하는 데 지속적으로 어려움을 겪고 있다. 어쩌면, 직장에서의 [퍼포먼스 평정performance rating]은 '측정'에 관한 것이 아니라 역동적인 환경에서 '추리', '판단', '의사 결정'에 관한 것일지도 모른다

Findings from research into performance appraisal also indicate that contextual factors affect rater behavior and thus rating outcomes (Levy and Williams 2004; Hawe 2003). Raters are thus continuously challenged to sample performance data; interpret findings; identify and define assessment criteria; and translate private judgments into sound (acceptable) decisions. Perhaps performance rating in the workplace is not so much about ‘measurement’ as it is about ‘reasoning’, ‘judgment’ and ‘decision making’ in a dynamic environment. 

[정보 처리자information processors]로서의 평가자의 개념은 인식-기반cognition-based 수행능력 평가 모델의 중심이다(Feldman 1981; De Nisi 1996). 기본적으로, 이러한 모델은 [평가 결과]는 평가자가 아래의 활동을 어떻게 하느냐에 따라 달라진다고 가정한다.

  • 관련 정보 인식 및 선택(정보 획득)
  • 기억memory에 정보를 해석하고 정리(평가대상자 행동의 인지적 표현 포함)
  • 추가 정보 검색
  • 최종적으로 판단과 의사결정에 관련된 정보를 검색하고 통합 

The idea of raters as information processors is central to cognition-based models of performance assessment (Feldman 1981; De Nisi 1996). Basically, these models assume that rating outcomes vary, depending on how raters

  • recognize and select relevant information (information acquisition);
  • interpret and organize information in memory (cognitive representation of ratee behavior);
  • search for additional information; and
  • finally retrieve and integrate relevant information in judgment and decision making.

이러한 [기본적인 인지 프로세스]는 경영, 항공, 군사 및 의학과 같은 다양한 전문 영역에서 기술된 정보 처리와 유사하다(Walsh 1995; Ross et al. 2006; Gruppen and Frohna 2002). 

These basic cognitive processes are similar to information processing as described in various professional domains, such as management, aviation, the military and medicine (Walsh 1995; Ross et al. 2006; Gruppen and Frohna 2002). 

영향, 동기, 시간 압력, 현지 관행 및 이전 경험과 관련하여 정보 처리에서 [사람마다 variation]이 크게 발생할 수 있다(Levy and Williams 2004, Gruppen and Frohna 2002).  
large individual variations in information processing can occur, related to affect, motivation, time pressure, local practices and prior experience (Levy and Williams 2004; Gruppen and Frohna 2002).  

실제로 [과제-특이적 전문성]은 정보처리 (따라서 과제 수행까지)의 차이를 이해하는 데 핵심적인 변수인 것으로 나타났다(Ericson 2006). [오랜 직무 경험]은 복잡한 업무를 처리함에 있어, [많은 양의 정보를 효율적으로 처리할 수 있는 인지 프로세스]의 적응뿐만 아니라, [광범위하고 잘 구조화된 지식 기반]을 획득함으로써, 초보자가 전문가와 같은 수행자로 발전하는 데 도움이 된다는 것을 보여주는 충분한 연구가 있다. 연구 결과는 이러한 [인지 구조] 및 [(인지) 프로세스]의 차이가 숙련도와 작업 수행의 품질에 영향을 미친다는 것을 일관되게 보여줍니다(Chi 2006). 

In fact, task-specific expertise has been shown to be a key variable in understanding differences in information processing––and thus task performance (Ericsson 2006). There is ample research indicating that prolonged task experience helps novices develop into expertlike performers through the acquisition of an extensive, well-structured knowledge base as well as adaptations in cognitive processes to efficiently process large amounts of information in handling complex tasks. Research findings consistently indicate that these differences in cognitive structures and processes impact on proficiency and quality of task performance (Chi 2006).

예를 들어, [전문가 행동]의 주요 특징은 [일상적 문제에서 신속하고 자동적인 패턴 인식]이 우세하여, 매우 [빠르고 정확한 문제 해결]이 가능하다는 것이다(Klein 1993; Coderre et al. 2003). 그러나 익숙하지 않거나 복잡한 문제에 직면할 경우, 전문가들은 문제를 더 잘 이해하기 위해 정보를 수집하고 분석하며 평가하는 데 더 많은 시간이 걸리는 반면, 초보자들은 최소한의 정보만 수집한 후에, 문제 해결 방법이나 행동 방침을 생성하기 시작하는 경향이 더 많다(Ross et al. 2006; Voss et al. 1983). 

For instance, a main characteristic of expert behavior is the predominance of rapid, automatic pattern recognition in routine problems, enabling extremely fast and accurate problem solving (Klein 1993; Coderre et al. 2003). When confronted with unfamiliar or complex problems, however, experts tend to take more time to gather, analyze and evaluate information in order to better understand the problem, whereas novices are more prone to start generating a problem solution or course of action after minimal information gathering (Ross et al. 2006; Voss et al. 1983). 

전문성 연구에 대한 또 다른 강력한 연구 결과는, 비전문가와 비교했을 때, 전문가들은 [사물을 다르게 보고 다른 것을 본다]는 것입니다. 일반적으로, 전문가들은 정보에 대한 [더 많은 추론]을 하고, 정보를 [의미 있는 패턴과 추상화]로 묶습니다(Chi et al. 1981; Feltovich et al. 2006).

  • 예를 들어, [의학 전문가] 행동에 대한 연구는 전문가들이 환자 문제에 대해 더 일관성 있는 설명을 하고, 데이터에서 더 많은 추론을 하며, 더 적은 문자 그대로의 정보 해석을 제공한다는 것을 보여준다(Van de Wiel et al. 2000). 
  • [교사 감독관]에 대한 연구(Kerrins와 Cushing 2000)에서도 유사한 결과가 설명되었다. 구두 프로토콜을 분석한 결과 [경험이 부족한 감독관]들은 대부분 비디오테이프에서 본 내용을 문자 그대로 묘사한 것으로 나타났다. [경험 많은 감독관]들은 초보자들보다 그들의 관찰을 해석하고 다양한 정보를 의미 있는 교실 수업 패턴으로 결합해 평가 판단을 내렸다. 전반적으로 [전문가]의 관찰은 학생과 학생 학습에 초점을 맞춘 반면, [비전문가]는 교육의 이산적discrete 측면에 더 초점을 맞췄다

Another robust finding in expertise studies is that, compared with non-experts, experts see things differently and see different things. In general, experts make more inferences on information, clustering sets of information into meaningful patterns and abstractions (Chi et al. 1981; Feltovich et al. 2006).

  • Studies on expert behavior in medicine, for instance, showthat experts have more coherent explanations for patient problems, make more inferences from the data and provide fewer literal interpretations of information (Van de Wiel et al. 2000).
  • Similar findings were described in a study on teacher supervision (Kerrins and Cushing 2000). Analysis of verbal protocols showed that inexperienced supervisors mostly provided literal descriptions of what they had seen on the videotape. More than novices, experienced supervisors interpreted their observations as well as made evaluative judgments, combining various information into meaningful patterns of classroomteaching. Overall, experts’ observations focused on students and student learning, whereas non-experts focused more on discrete aspects of teaching. 


연구 결과는 또한 [전문가]들은 [초보자들이 무시하는 단서와 정보에 주의]를 기울인다는 것을 보여준다. 예를 들어, 전문가들은 일반적으로 정보를 모니터하고 수집하는 동안 [맥락적 및 상황별 단서]에 더 많은 주의를 기울이는 반면, 초보자들은 [문제의 문자 그대로 교과서적인 측면]에 집중하는 경향이 있다. 실제로 의료 전문가에 의한 자동 처리는 맥락적 정보에 크게 의존하는 것으로 보인다(예: Hobus et al. 1987). 
Research findings also indicate that experts pay attention to cues and information that novices tend to ignore. For instance, experts typically pay more attention to contextual and situation-specific cues while monitoring and gathering information, whereas novices tend to focus on literal textbook aspects of a problem. In fact, automated processing by medical experts seems to heavily rely on contextual information (e.g. Hobus et al. 1987). 

마지막으로, 전문가들은 일반적으로 [자기 모니터링 능력이 더 우수(정확)]하고, 통제가 필요한 수행능력 측면에 대한 [인지적 통제력]이 더 뛰어납니다. 전문가들은 과제 수행 중에 인지 능력을 자기 모니터링에 쏟을 수 있을 뿐만 아니라, 더 풍부한 정신 모델을 통해 추론 오류를 더 잘 감지할 수 있습니다. 예를 들어, 펠토비치 외 연구진(1984)은 진단 작업에 대해 전문가 대 비전문가의 유연성flexibility을 조사했습니다. 그 결과 초보자일수록 경직되고 초기 가설에 집착하는 경향이 있는 반면, 전문가들은 초기 진단이 잘못되었음을 발견하고 그에 따라 추론을 조정할 수 있었다. 
Finally, experts generally have better (more accurate) self-monitoring skills and greater cognitive control over aspects of performance where control is needed. Not only are experts able to devote cognitive capacity to self-monitoring during task performance, their richer mental models also enable them to better detect errors in their reasoning. Feltovich et al. (1984), for instance, investigated flexibility of experts versus non-experts on diagnostic tasks. Results showed that novices were more rigid and tended to adhere to initial hypotheses, whereas experts were able to discover that the initial diagnosis was incorrect and adjust their reasoning accordingly. 

본 연구는 임상작업장 내 성과를 관찰하는 평가자의 판단 및 의사결정과 관련된 인지과정을 조사하는 것을 목적으로 한다. 
The present study aims to investigate cognitive processes related to judgment and decision making by raters observing performance in the clinical workplace. 


방법
Method


참여자 Participants

본 연구의 참가자는 일반 실습 레지던트 교육에 감독자-평가자로 적극적으로 참여한 GP-감독자였습니다. 네덜란드에서의 general practice training 은 훈련 프로그램 전반에 걸쳐 체계적인 직접 관찰과 평가의 오랜 전통을 가지고 있다. 
The participants in our study were GP-supervisors who were actively involved as supervisor-assessor in general practice residency training. General practice training in the Netherlands has a long tradition of systematic direct observation and assessment of trainee performance throughout the training program. 

본 연구에서는 [감독관-평가자로서 직무 관련 경험의 연수years]로 전문성 수준을 정의했습니다. 엘리트 등급 성과에 해당하는 공식적 수준이 없기 때문에 전문지식에 대한 상대적 접근법을 채택했습니다. 이 접근법은 초보자가 광범위한 직무 경험과 훈련을 통해 전문가로 발전한다고 가정한다(Chi 2006; Norman et al. 2006). 일반적으로 전문가 퍼포먼스를 달성하려면 [특정 분야에서 약 7년의 지속적인 경험]이 필요하다(예: 2006년 Arts 외). 
In our study, we defined the level of expertise as the number of years of task-relevant experience as a supervisor-rater. Since there is no formal equivalent of elite rater performance we adopted a relative approach to expertise. This approach assumes that novices develop into experts through extensive task experience and training (Chi 2006; Norman et al. 2006). In general, about 7 years of continuous experience in a particular domain is necessary to achieve expert performance (e.g. Arts et al. 2006). 

평정 대상 Rating stimuli

참가자들은 DVD 2장을 보았는데, 각각 의대 3학년 학생이 환자와 '실제'를 맞닥뜨리는 모습을 보여주었다. DVD는 환자 문제와 학생의 성과 모두에 대해 의도적으로 선택되었습니다. 두 DVD 모두 아토피 습진과 협심증이라는 일반적인 관습에서 흔히 볼 수 있는 '직설적인' 환자 문제를 제시했다. 
The participants watched two DVDs, each showing a final-year medical student in a ‘reallife’ encounter with a patient. The DVDs were selected purposefully with respect to both patient problems and students’ performance. Both DVDs presented ‘straightforward’ patient problems that are common in general practice: atopic eczema and angina pectoris. 

평정 양식 Rating forms

참가자들은 학생들의 성과를 평가하기 위해 두 가지 도구를 사용했다(그림 1, 2) 

  • 5점짜리 리커트 척도에서 학생 성과에 대한 1차원 전체 등급(1 = 불량 ~ 5 = 미결)(R1) 및
  • 6가지 임상 역량 목록(병력 청취, 신체 검사, 임상 추론 및 진단, 환자 관리, 환자와의 커뮤니케이션, 전문직업성)을 각각 5점 리커트 척도(1 = 불량 ~ 5 = 우수)(R2)로 평가해야 한다.

The participants used two instruments to rate student performance (Figs. 1, 2):

  • a one-dimensional, overall rating of student performance on a five-point Likert scale (1 = poor to 5 = outstanding) (R1), and
  • a list of six clinical competencies (history taking; physical examination; clinical reasoning and diagnosis; patient management; communication with the patient; and professionalism), each to be rated on a five-point Likert scale (1 = poor to 5 = outstanding) (R2).

등급 척도는 최대한의 특이적 인지 처리가 가능하도록 단순하게 유지되었다. 참가자들은 평가 도구에 익숙하지 않았고 사용법을 배우지 못했다. 
Rating scales were kept simple to allow for maximum idiosyncratic cognitive processing. The participants were not familiar with the rating instruments and had not been trained in their use. 



연구 절차 및 데이터 수집
Research procedure and data collection



인지적 퍼포먼스를 캡처하기 위해 구두 프로토콜 분석을 위한 표준 절차를 따랐다(Chi 1997).1 첫 DVD를 시작하기 전에 참가자들에게 절차에 대한 정보를 제공했고 일련의 구두 지시를 받았다. 평가자들은 특히 "큰 소리로 생각하라think aloud"고 요청받았고, 생각이 떠오르면 마치 방안에 혼자 있는 것처럼 모든 생각을 말로 표현하도록 했다. 참가자가 몇 초 이상 침묵을 지키면 연구 보조원이 계속하라고 일깨워줬다. 
We followed standard procedures for verbal protocol analysis to capture cognitive performance (Chi 1997).1 Before starting the first DVD, participants were informed about procedures and received a set of verbal instructions. Raters were specifically asked to ‘‘think aloud’’ and to verbalize all their thoughts as they emerged, as if they were alone in the room. If a participant were silent for more than a few seconds, the research assistant reminded him or her to continue. 

1 [언어 프로토콜verbal protocol]은 참가자들이 인지 작업 수행 중 또는 수행 직후에 자신의 생각과 행동에 대해 구두로 표현하는 것을 말합니다. 일반적으로, 참가자들은 "큰 소리로 생각"하고, 그 생각들을 설명하거나 분석하려고 하지 않고, 그들이 등장할 때 그들의 모든 생각들을 말로 표현하도록 요청 받는다. 구두 분석은 이러한 구두 표현의 내용에 대한 주관적 또는 질적 부호화를 정량화하기 위한 방법론이다(Chi 1997). Chi(1997)는 언어 데이터를 분석하는 특정 기법을 언어 프로토콜의 수집과 전사를 제외한 여러 단계로 구성한다고 설명한다. 이러한 단계는 본 연구에서 설명한 것처럼 아래와 같다.
- 프로토콜의 내용 정의;
- 프로토콜 분할;
- 부호화 계획의 개발;
- 데이터를 코드화하고 필요한 경우 코드화 방식을 세분화합니다.
- 해석의 모호성 해소
- 코딩 패턴 분석.

1 Verbal protocols refer to the collection of participants’ verbalizations of their thoughts and behaviors, during or immediately after performance of cognitive tasks. Typically, participants are asked to ‘‘think aloud’’ and to verbalize all their thoughts as they emerge, without trying to explain or analyze those thoughts (Ericsson and Simon 1993). Verbal analysis is a methodology for quantifying the subjective or qualitative coding of the contents of these verbal utterances (Chi 1997). Chi (1997) describes the specific technique for analyzing verbal data as consisting of several steps, excluding collection and transcription of verbal protocols. These steps, as followed in our research, are:
- defining the content of the protocols;
- segmentation of protocols;
- development of a coding scheme;
- coding the data and refining coding scheme if needed;
- resolving ambiguities of interpretation; and
- analysis of coding patterns. 

 

1. DVD가 시작됩니다. 참가자가 학생의 성적을 판단할 수 있을 때 신호를 보내고, DVD가 시작되는 시점부터 지금까지의 시간(T1)이 기록된다. T1은 문제 표현, 즉 연습생 수행의 초기 표현에 필요한 시간을 나타냅니다
1. DVD starts. The participant signals when he or she feels able to judge the student’s performance, and the time from the start of the DVD to this moment is recorded (T1). T1 represents the time needed for problem representation, i.e. initial representation of trainee performance. 

2. DVD가 T1에 정지되어 있습니다. 참가자는 연습생의 수행에 대한 첫 번째 판단(언어적 의전(VP) 1)을 구두로 표현합니다. 
2. The DVD is stopped at T1. The participant verbalizes his/her first judgment of the trainee’s performance (verbal protocol (VP) 1). 

3. 참가자는 1차원 등급 척도(R1T1)에서 전반적인 성능 등급을 제공하고, 등급 양식(VP2)을 작성하면서 큰 소리로 생각합니다. 
3. The participant provides an overall rating of performance on the one-dimensional rating scale (R1T1), thinking aloud while filling in the rating form (VP2). 

4. T1에서 DVD 보기를 다시 시작합니다. DVD가 종료되면(T2) 참가자는 자신의 판단(VP3)을 구두로 말하고 전체 등급(R1T2)을 제공합니다. 
4. Viewing of the DVD is resumed from T1. When the DVD ends (T2), the participant verbalizes his/her judgment (VP3) and provides an overall rating (R1T2). 

5. 참가자는 DVD(DVD 1 또는 DVD 2) 중 하나에 대한 다차원 등급 양식(R2)을 작성하고 자신의 생각을 구두로 표현합니다(VP4). 
5. The participant fills in the multidimensional rating form (R2) for one of the DVDs (alternately DVD 1 or DVD 2) and verbalizes his or her thoughts while doing so (VP4). 

데이터 분석
Data analysis


언어 프로토콜의 전사는 연구자 중 한 명(MG)에 의해 구문phrases으로 분할되었다. 세그먼트는 의미적 특징(구문과 같은 비내용 특징과는 반대로 내용 특징)에 기초하여 식별되었다. 각 부문은 하나의 생각, 아이디어 또는 진술을 나타내었습니다(몇 가지 예는 표 1 참조). 
The transcriptions of the verbal protocols were segmented into phrases by one of the researchers (MG). Segments were identified on the basis of semantic features (i.e. content features-as opposed to non content features such as syntax). Each segment represented a single thought, idea or statement (see Table 1 for some examples).

각 세그먼트는 정성 데이터 분석을 위한 소프트웨어(Atlas.ti 5.2)를 사용하여 코딩 범주에 할당되었습니다. '진술의 성격', '언어 프로토콜의 유형', '임상 프레젠테이션'(표 1)을 명시하기 위해 서로 다른 코딩 체계를 사용했다. '진술의 성격'에 대한 코딩 범주는 전문가 초보자 정보 처리의 초기 연구(Kerrins and Cushing 2000, Boshuizen 1989, Sabers et al. 1991)에 기초했으며 다음을 포함했다.

  • '기술',
  • '해석',
  • '평가',
  • '맥락적 단서'
  • '자기 모니터링'

Each segment was assigned to coding categories, using software for qualitative data analysis (Atlas.ti 5.2). Different coding schemes were used to specify ‘the nature of the statement’; ‘type of verbal protocol’ and ‘clinical presentation’ (Table 1). The coding categories for ‘nature of statement’ were based on earlier studies in expert-novice information processing (Kerrins and Cushing 2000; Boshuizen 1989; Sabers et al. 1991) and included

  • ‘description’,
  • ‘interpretation’,
  • ‘evaluation’,
  • ‘contextual cue’ and
  • ‘self-monitoring’.

반복되는 것도 마찬가지로 하였다.

Repetitions were coded as such. 

두 독립 검체의 비모수 비교에 대해 제안된 것처럼 ES = Z/HN 공식을 사용하여 효과 크기를 계산했다. 여기서 Z는 Mann-Whitney 통계량의 z 점수이고 N은 총 표본 크기이다(Field 2009, 페이지 550). 효과 크기가 각각 0.1, 0.3 및 0.5와 같으면 작은 효과, 중간 효과 및 큰 효과를 나타냅니다. 전체 등급(R1T1 대 R1T2)의 그룹 내 차이에 대해서는 Wilcoxon 부호 순위 검정이 적용되었습니다. 

We calculated effect sizes by using the formula ES = Z/HN as is suggested for non-parametric comparison of two independent samples, where Z is the z-score of the Mann–Whitney statistic and N is the total sample size (Field 2009, p. 550). Effect sizes equal to 0.1, 0.3, and 0.5, respectively, indicate a small, medium, and large effect. For within-group differences of overall ratings (R1T1 versus R1T2) the Wilcoxon signed rank test was applied. 

결과
Results


표 2는 문제 발생 시간 표시(T1)에 대한 결과와 각 DVD의 전반적인 성능 등급을 보여줍니다. T1까지의 시간은 프로토타입 동작(DVD 1)을 관찰할 때 경험이 풍부한 평가자와 경험이 없는 평가자의 경우와 유사했다.

Table 2 shows the results for the time to problem representation (T1) and the overall performance ratings for each DVD. Time to T1 was similar for experienced and nonexperienced raters when observing prototypical behavior (DVD 1). 

그러나 DVD 2에서 보다 [복잡한 행동 패턴]을 관찰할 때, 

  • [경험 있는 평가자]들은 정보 모니터링 및 수집에 유의하게 시간이 더 오래 걸렸지만, 
  • [경험이 부족한 평가자]들은 시간 증가가 거의 없었다. (U = 79.00, p = 0.03, ES = 0.38) 

However, when observing the more complex behavioral pattern in DVD 2, experienced raters took significantly longer time for monitoring and gathering of information, whereas there was only minimal increase in time for non-experts (U = 79.00,p= .03, ES = 0.38). 



표 2는 등급 점수에서 두 그룹 간의 유의하지 않은 차이를 보여줍니다. 그러나 Wilcoxon 서명한 순위 검정은 T1과 T2에서 등급 점수 간에 그룹 내 상당한 차이를 보였다. 
Table 2 shows non-significant differences between the two groups in the rating scores. A Wilcoxon signed ranks test, however, showed significant within-group differences between the rating scores at T1 and T2. 

표 3은 언어 프로토콜별 및 모든 프로토콜(= 전체, VP1 ? VP2 ? VP3 ? VP4)에 대한 각 그룹의 문장 특성에 대한 백분율(분위간, 사분위간 범위)을 보여줍니다. 
Table 3 presents the percentages (median, inter-quartile range) for the nature of the statements for each group, by verbal protocol and across all protocols (= overall, VP1 ? VP2 ? VP3 ? VP4). 




고찰
Discussion


연습생의 초기 성과에 도달하는 데 걸린 시간의 차이에 대해, 그 결과는 우리의 가설을 부분적으로 확인시켜줍니다. 전형적 행동을 보이는 사례에서 [전문가 평가자]가 [비전문가 평가자]만큼 많은 시간을 소요한 것은 우리의 예상과 어긋나지만, [복잡한 수련생 행동]의 사례에서는 전문가가 비전문가보다 훨씬 많은 시간을 할애하였고, 우리의 기대는 확인되었습니다. 이 연구 결과는 전문 연구에 대한 다른 연구 결과와 일치합니다(Ericson 및 Lehmann 1996).

  • 경험이 없는 평가자들은 관찰된 행동의 복잡성에 관계없이 올바른 솔루션(예: 판단 또는 성과 점수)을 제공하는 데 초점을 맞추는 반면,
  • 전문가 평가자들은 복잡한 훈련생 성과에 대한 의사결정에 도달하기 전에 정보를 모니터링하고 수집하고 분석하는 데 더 많은 시간이 걸린다. 

As for the differences in the time taken to arrive at the initial representation of trainee performance, the results partially confirm our hypothesis. It is contrary to our expectations that the expert raters took as much time as the non-expert raters with the case presenting prototypical behavior, but our expectations are confirmed for the case with complex trainee behavior, with the experts taking significantly more time than the non-experts. This finding is consistent with other findings on expertise research (Ericsson and Lehmann 1996).

  • Whereas non-experienced raters seem to focus on providing a correct solution (i.e. judgments or performance scores) irrespective of the complexity of the observed behavior,
  • expert raters take more time to monitor, gather and analyze the information before arriving at a decision on complex trainee performance. 


[전형적prototypical 행동]에 대해서 (전문가와 비전문가 사이에) 유의하지 않은 결과는 본 연구의 등급 자극rating stimulus으로 설명할 수 있습니다. 피부과 사례는 너무 짧았을 수 있고, 전형적인 학생 행동이 연속적으로 이뤄졌기에, 차이를 끌어내기에는 너무 시간이 짧았을quick 수 있다. 더욱이 DVD1에서는 명백한 기준 미달의 수행능력을 보였기에, 두 집단 모두에서 자동 정보처리 및 패턴 인식을 유도했을 수 있다(Eva 2004).   
Our non-significant results with respect to prototypical behavior may be explained by the rating stimulus in our study. The dermatology case may have been too short, and the succession of typical student behaviors too quick to elicit differences. Moreover, the clearly substandard performance in the stimulus may have elicited automatic information processing and pattern recognition in both groups (Eva 2004).

그러나 심장내과 사례에 대한 우리의 결과는, [더 복잡한 행동]에 대해서, [경험 있는 평가자]들이 초기 정보에 대한 해석과 관련하여 [경험이 없는 평가자]들과 다른 것으로 보인다는 것을 확인시켜 준다. 경험 있는 평가자들은 추가 정보를 검색하고 훈련생 행동에 대해서 더 긴 시간 모니터링을 한다.
Our results for the cardiology case, however, confirm that, with more complex behaviors, experienced raters seem to differ from non-experienced raters with respect to their interpretation of initial information -causing themto search for additional information and prolonged monitoring of trainee behavior. 

구두 프로토콜의 경우, 전체적인 결과는 성과를 관찰하고 판단하면서 정보 처리에서 전문가와 비전문가 사이의 차이로 생각했던 가설을 확인하여주었다. 경험이 없는 평가자와 비교했을 때, 경험 있는 평가자는 [학생 행동의 정보에 대한 추론과 해석]을 더 많이 생성한 반면, 경험이 없는 평가자는 [관찰된 행동에 대한 더 문자 그대로의 설명]을 제공했다. 이러한 발견은

  • [경험이 없는 평가자]는 수행능력의 구체적이고 이산적인 측면에 더 많은 관심을 기울이는 반면,
  • [경험이 많은 평가자]는 다양한 정보를 취합하여 통합된 청크와 의미 있는 정보 패턴을 생성한다는 것을 시사합니다.

As for the verbal protocols, the overall results appear to confirm the hypothesized differences between expert and non-expert raters in information processing while observing and judging performance. Compared to non-experienced raters, experienced raters generated more inferences on information and interpretations of student behaviors, whereas non-experienced raters provided more literal descriptions of the observed behavior.

  • These findings suggest that non-experienced raters pay more attention to specific and discrete aspects of performance,
  • whereas experienced raters compile different pieces of information to create integrated chunks and meaningful patterns of information. 

우리의 결과는 또한 전문가 평가자들이 [맥락적 및 상황-특이적 단서를 분석하고 평가할 수 있는 탁월한 능력]을 가지고 있음을 시사한다. 본 연구의 평가자들은 [맥락적 정보]에 더 많은 관심을 기울이고, (최소한 성과 판단을 말로 설명한 것에서는) [더 넓은 관점]을 취하는 것으로 보였습니다. [관련 배경 정보]와 [관찰된 행동]을 [종합적 수행능력 평가에 통합]합니다. 전문가와 비전문가 간의 차이는 정보 수집 및 성능 평가(VP1)의 초기 단계에서 가장 두드러졌다. 환자 만남의 설정, 환자 특성 및 평가 과제의 맥락은 모두 전문가의 초기 판단에 고려되는 것으로 보인다. 

Our results also suggest that expert raters have superior abilities to analyze and evaluate contextual and situation-specific cues. The raters in our study appeared to pay more attention to contextual information and to take a broader view, at least in their verbalizations of performance judgments. They integrate relevant background information and observed behaviors into comprehensive performance assessments. The differences between experts and non-experts were most marked at the initial stage of information gathering and assessment of performance (VP1). The setting of the patient encounter, patient characteristics and the context of the assessment task all seem to be taken into account in the experts’ initial judgments. 

우리의 연구 결과는 전문성 개발의 다른 많은 연구와 일치하며, 이는 초보자들에 비해 전문가들이 [맥락적 정보가 풍부한 더 정교하고, 잘 구조화된 정신 모델]을 가지고 있다는 것을 일관되게 보여준다. 
Our findings are in line with many other studies in expertise development, which consistently demonstrate that compared with novices, experts have more elaborate and well-structured mental models, replete with contextual information. 

연구 결과는 그룹 내(전문가-비전문가)에서, 전체 DVD(T2)를 본 후 T1에서의 초기 등급이 등급과 크게 다르다는 것을 보여주었다. 따라서 전문가 평가자와 비전문가 평가자 모두 지속적으로 추가 정보를 모색하고 활용하며, 훈련생 수행능력을 관찰하면서 [판단을 재조정하고 있음]을 알 수 있습니다. 또한, 이러한 발견은 [짧은 관찰 후 판단한 평정 점수가 전체 성과를 정확하게 반영하지 못할 수 있다]는 가능성을 지적합니다. 이는 WBA에서 최소한의 관측 시간과 성과 표본 추출에 대한 지침의 결과를 초래할 수 있다. 우리의 결과는 전문가와 비전문가 간의 평가 점수에서 큰 차이를 드러내지 않았다. 
The results of our study showed that, within groups, the initial ratings at T1 differed significantly from the ratings after viewing the entire DVD (T2). Thus our findings suggest that both expert and non-expert raters continuously seek and use additional information, readjusting judgments while observing trainee performance. Moreover, this finding points to the possibility that rating scores, provided after brief observation, may not accurately reflect overall performance. This could have consequences for guidelines for minimal observation time and sampling of performance in WBA. Our results did not reveal significant differences in rating scores between experts and non-experts. 

가능한 설명은, 지금까지의 general practice 에서의 훈련과 경험의 결과로, 두 그룹 모두 무엇이 general practice 에서 [기준 미달 대 허용 성과]를 구성하는지에 대한 공통의 개념을 가질 수 있다는 것이다. 공유된 frame of reference로서 평정 척도가 수행능력 점수에서 과도한 variation이 나타나는 것을 막았을 수 있으며, 표본 크기가 작은 것이 두 그룹에서 동등한 평정의 원인이 되었을 수도 있다.
Possible explanations are that, as a result of previous training and experience in general practice, both groups may have common notions of what constitutes substandard versus acceptable performance in general practice. Shared frames of reference, a rating scale that precludes large variations in performance scores and the small sample size may have caused the equivalent ratings in both groups. 

우리의 예상과 달리, 본 연구의 전문가들은 성과를 평가하는 동안 더 많은 자기 모니터링 행동을 보이지 않는 것 같습니다. 참가자들에게 [타인에 대한 판단을 하면서 큰 소리로 생각하도록 한 우리의 실험 환경]이 더 많은 self-explanation을 유도했다는 것으로 이 결과를 설명할 수 있다. 평가 척도를 작성하면서 생각을 구두화하고 성과 점수를 제공하는 작업은, 경험이 풍부한 평가자와 경험이 없는 평가자 모두 (그렇게 지시받지 않았음에도 불구하고), 평가 과제에 책무성accountability의 측면을 갖게 함으로써, 자신의 행동을 설명하고 정당화해야 한다고 느끼게 만들었을 수 있다. 이러한 자기 설명과 성과 등급의 정당성은 그룹 간 등급 점수에 유의한 차이가 없음을 설명할 수도 있다. 
Contrary to our expectations, the experts in our study do not appear to demonstrate more self-monitoring behavior while assessing performance. An explanation might be that our experimental setting, in which participants were asked to think aloud while providing judgments about others, induced more self-explanations. The task of verbalizing thoughts while filling out a rating scale and providing a performance score may have introduced an aspect of accountability into the rating task, with both experienced and non-experienced raters feeling compelled to explain and justify their actions despite being instructed otherwise. These self-explanations and justifications of performance ratings may also explain the absence of any significant differences in rating scores between the groups. 

몇몇 연구는 설명을 통해 피험자의 성과를 향상시킨다는 것을 보여주었다(예: Chi et al. 1994). 따라서 소리 내어 생각하는 절차는 두 그룹 모두에서 상당히 정확한 평가 점수를 산출했을 수 있습니다. 이러한 설명은 구두화의 효과에 대한 여러 평가자들의 논평으로 입증된다[예: "내가 큰 소리로 생각하지 않았다면 나는 3점을 주었을 것이다." 그러나 만약 내가 전에 말했던 것을 재고한다면, 나는 2점을 주고 싶다." 
Several studies have shown that explaining improves subjects’ performance (e.g. Chi et al. 1994). The think aloud procedure may therefore have resulted in fairly accurate rating scores in both groups. This explanation is substantiated by the comments of several raters on effects of verbalization [e.g. ‘‘If I had not been forced to think aloud, I would have given a 3 (satisfactory), but if I now reconsider what I said before, I want to give a 2 (borderline)’’]. 


우리의 연구 결과는 무엇을 의미하며 WBA에 어떤 영향을 미칩니까?
What do our findings mean and what are the implications for WBA?


이러한 전문가와 초보자의 차이는 평가 과정에서 교육생에게 주어진 피드백에 영향을 미칠 수 있습니다.
Such expert-novice differences may impact the feedback that is given to trainees in the assessment process.

첫째, [경험 많은 평가자]들에 의한 보다 [풍부한 처리와 상황별 단서의 통합]은, 다양한 이슈에 초점을 맞춘 교육생들에게 질적으로 다른, 보다 전체적인 피드백holistic feedback을 제공할 수 있습니다. 전문가 평가자들은 평가 과제의 맥락에서 연습생의 행동을 해석하고 성과에 대한 다양한 측면을 통합하는 등 더 넓은 시각을 가지고 있는 것으로 보인다. 이를 통해 환자와의 만남에서 일어나는 일에 의미를 부여할 수 있습니다. 반면에 경험이 없는 평가자는 개별적인 '체크리스트' 측면의 성과에 더 초점을 맞출 수 있다. 케린스와 쿠싱(2000년)은 교사 감독 연구를 통해 비슷한 연구 결과를 보고했다. 
Firstly, more enriched processing and better incorporation of contextual cues by experienced raters can result in qualitatively different, more holistic feedback to trainees, focusing on a variety of issues. Expert raters seem to take a broader view, interpreting trainee behavior in the context of the assessment task and integrating different aspects of performance. This enables them to give meaning to what is happening in the patient encounter. Non-experienced raters on the other hand may focus more on discrete ‘checklist’ aspects of performance. Similar findings have been reported by Kerrins and Cushing (2000) in their study on supervision of teachers. 

둘째, 보다 정교한 수행능력 스크립트performance scripts 덕분에, 전문가 평가자는 성능을 관찰하고 판단할 때, (특히 시간 제약 및 상충적 책임의 역할을 수행할 때), 하향식top-down 정보 처리 또는 패턴 인식에 더 자주 의존할 수 있습니다. 결과적으로, 전문가 판단은 행동 세부사항을 무시하고, [성과에 대한 일반적이고 전체적인 인상]에 의해 추진driven될 수 있다(Murphy and Balzer 1986; Livens 2001). 반면 경험이 없는 평가자들은 행동 수준에서 더 정확할 수 있다.

  • 그러나 다른 영역의 연구는 정상normal 조건에서 정보를 청크할 가능성이 높음에도 불구하고, 전문가들은 추론과 의사결정에 기초하는 '기본basic' 지식을 사용하고 기억하는 능력을 잃지 않는다는 것을 보여주었다(Schmidt와 Boshuizen 1993).
  • 또한, 연구 결과에 따르면 전문가들에게 [사건을 의도적으로 정교하게 처리하도록 요청했을 때] 관련 데이터의 우수한 리콜을 입증한다(Norman et al. 1989; Wimmers et al. 2005).
  • 이와 유사하게, [정보를 정교하고 의도적으로 처리할 의무]가 있는 경우, 경험 있는 평가자는 특정한 행동과 성과 측면을 상기하는 데 있어 경험이 없는 평가자 못지 않을 수 있다.

Secondly, thanks to more elaborate performance scripts, expert raters may rely more often on top-down information processing or pattern recognition when observing and judging performance -especially when time constraints and/or competing responsibilities play a role. As a consequence, expert judgments may be driven by general, holistic impressions of performance neglecting behavioral detail (Murphy and Balzer 1986; Lievens 2001), whereas non-experienced raters may be more accurate at the behavioral level.

  • However, research in other domains has shown that, despite being likely to chunk information under normal conditions, experts do not lose their ability to use and recall ‘basic’ knowledge underlying reasoning and decision making (Schmidt and Boshuizen 1993).
  • Moreover, research findings indicate that experts demonstrate excellent recall of relevant data when asked to process a case deliberately and elaborately (Norman et al. 1989; Wimmers et al. 2005).
  • Similarly, when obliged to process information elaborately and deliberately, experienced raters may be as good as non-experienced raters in their recall of specific behaviors and aspects of performance.

따라서 [WBA의 최적화]를 위해서는 평가자에게 [자신의 판단을 상세히 설명]하고, [관찰한 행동에서 구체적, 특이적 예시를 사용]하여, 자신의 평정을 입증substantiate할 수 있는 [평가 절차와 형식]이 필요할 수 있다. 
Optimization of WBA may therefore require rating procedures and formats that force raters to elaborate on their judgments and substantiate their ratings with concrete and specific examples of observed behaviors. 

마지막으로, 우리의 연구 결과는 초보 평가자뿐만 아니라 경험이 풍부한 평가자에게도 평가 훈련에 영향을 미칠 수 있습니다. 확실히, 공식적인 훈련이 어떤 것을 달성할 수 있는지는 한계가 있고, 실제 경험을 통해 전문성이 발전하는 것 같아 보입니다. 개인 경험, 신념, 태도의 결과로서 독창적인 수행능력 스키마performance schemata가 개발되기 마련이다. 그러나 [공유된 정신 모델]을 개발하고, 진정한 전문가가 되기 위해서는, [정기적인 피드백][서로 다른(ill-defined) 맥락에서 (복잡한) 수행능력을 판단할 때 사용한 전략에 대한 지속적 성찰]을 동반한 [의도적 연습]이 필요하다.
Finally, our findings may have consequences for rater training, not only for novice raters, but for more experienced raters as well. Clearly, there is a limit to what formal training can achieve and rater expertise seems to develop through real world experience. Idiosyncratic performance schemata are bound to develop as a result of personal experiences, beliefs and attitudes. Development of shared mental models and becoming a true expert, however, may require deliberate practice with regular feedback and continuous reflection on strategies used in judging (complex) performance in different (ill-defined) contexts (Ericsson 2004). 

WBA 최적화를 위한 조치를 고안할 때, 일반적으로 정신분석 평가 체계에서 가정하는 바와 같이, [평가자는 서로 교환할 수 있는 측정 수단이 아니라는 점]을 우선적으로 고려해야 한다. 실제로 수행능력 평가에 대한 인지접근법의 기본적 특징은 [평가자의 정보처리]가 [수행능력과 수행능력평가의 '정신적 모델']에 의해 안내guided된다는 것이다. 우리의 연구는 평가자의 판단과 의사결정 과정이 업무 경험으로 인해 시간에 따라 변화한다는 것을 보여줍니다.
In devising measures to optimize WBA we should first and foremost take into account that raters are not interchangeable measurement instruments, as is generally assumed in the psychometric assessment framework. In fact, a built-in characteristic of cognitive approaches to performance assessment is that raters’ information processing is guided by their ‘mental models’ of performance and performance assessment. Our study shows that raters’ judgment and decision making processes change over time due to task experience, 

 


Adv Health Sci Educ Theory Pract. 2011 May;16(2):151-65.

 doi: 10.1007/s10459-010-9250-7. Epub 2010 Sep 30.

Workplace-based assessment: effects of rater expertise

M J B Govaerts 1L W T SchuwirthC P M Van der VleutenA M M Muijtjens

Affiliations collapse

Affiliation

  • 1FHML, Department of Educational Research and Development, Maastricht University, The Netherlands. marjan.govaerts@maastrichtuniversity.nl

Free PMC article

Abstract

Traditional psychometric approaches towards assessment tend to focus exclusively on quantitative properties of assessment outcomes. This may limit more meaningful educational approaches towards workplace-based assessment (WBA). Cognition-based models of WBA argue that assessment outcomes are determined by cognitive processes by raters which are very similar to reasoning, judgment and decision making in professional domains such as medicine. The present study explores cognitive processes that underlie judgment and decision making by raters when observing performance in the clinical workplace. It specifically focuses on how differences in rating experience influence information processing by raters. Verbal protocol analysis was used to investigate how experienced and non-experienced raters select and use observational data to arrive at judgments and decisions about trainees' performance in the clinical workplace. Differences between experienced and non-experienced raters were assessed with respect to time spent on information analysis and representation of trainee performance; performance scores; and information processing--using qualitative-based quantitative analysis of verbal data. Results showed expert-novice differences in time needed for representation of trainee performance, depending on complexity of the rating task. Experts paid more attention to situation-specific cues in the assessment context and they generated (significantly) more interpretations and fewer literal descriptions of observed behaviors. There were no significant differences in rating scores. Overall, our findings seemed to be consistent with other findings on expertise research, supporting theories underlying cognition-based models of assessment in the clinical workplace. Implications for WBA are discussed.

 

USMLE Step 2 CS 시험의 중단: 과거로부터 배워서 미래를 정의하기(Acad Med, 2021)
Discontinuation of the USMLE Step 2 Clinical Skills Examination: Studying the Past to Define the Future
Lisa D. Howley, PhD, and Deborah L. Engle, EdD, MS

2021년 1월 26일주 의료 위원회(FSMB)와 국가 의료 검사 위원회(National Board of Medical Examiners, NBME)는 미국 의료 면허 시험(USMLE) 2단계 임상 기술(CS)을 중단할 것이라고 발표했습니다.1 이 결정은 미국에서 임상 기술을 평가하는 데 있어 중요한 이정표를 세웠고 의대생, 교육자, 연구자 및 기타 사람들에게 역사적으로나 실질적인 중요성을 지닌 결정이었다. 면허시험에서 수행능력 시험을 중단하기로 한 결정에도 논란이 없는 것은 아니었으며, 이러한 사안에 대한 상세한 탐구는 이 논평의 범위를 벗어나지만, 이 중대한 결정의 역사적 맥락은 더 면밀히 살펴볼 필요가 있다고 본다. 결국 공자는 우리에게 "미래를 정의하고 싶다면, 과거를 공부하라"는 것을 일깨워주고, 역사의 몇 가지 핵심 교훈은 이 새로운 임상 성과 평가 시대에 앞으로 나아가는 우리의 길을 더 잘 알려줄 수 있을 것이다.
On January 26, 2021, the Federation of State Medical Boards (FSMB) and the National Board of Medical Examiners (NBME) announced the United States Medical Licensing Exam (USMLE) Step 2 Clinical Skills (CS) would be discontinued.1 This decision marked a significant milestone in the assessment of clinical skills in the United States and one that has historical as well as practical significance for medical students, educators, researchers, and others. The decision to suspend the licensing performance examination was not without controversy, and although a detailed exploration of these issues is beyond the scope of this commentary, we believe the historical context of this significant decision warrants a closer look. After all, Confucius reminds us to “study the past, if you would define the future,” and several key lessons from history may better inform our path forward in this new era of clinical performance assessment.


USMLE에는 3단계로 이뤄져있고, 최근까지 의사 면허를 얻기까지는 4가지 시험을 통과해야 했다. 이 시험들은 "건강과 질병에 중요하고 안전하고 효과적인 환자 진료의 기초를 이루는 지식, 개념 및 원칙을 적용하고 환자 중심의 기본적인 기술을 보여줄 수 있는 의사 역량 평가"를 목적으로 한다. 면허 취득을 위한 각 단계는 의사 교육에서 개발적으로 적절한 시기에 완료되며, 일반적으로 2단계(CK와 CS로 구성)는 의과대학 교육 3학년이 끝날 때 완료됩니다. 수십 년 동안 임상 성과 평가에 깊이 관여해온 의료 교육자로서, 우리는 포괄적이고 공정하며 학생 중심적이며 환자 중심의 임상 성과 평가를 위한 새로운 시대와 경로를 고려할 때 몇 가지 역사적 이정표와 교훈을 공유합니다.

The USMLE includes 3 steps and, until recently, 4 examinations toward medical licensure. It is intended to assess a physician's ability to “apply knowledge, concepts, and principles, and to demonstrate fundamental patient-centered skills, that are important in health and disease and that constitute the basis of safe and effective patient care.”2 Each Step toward licensure is completed at a developmentally appropriate time in a physician’s training, and Step 2—parts CK (Clinical Knowledge) and the former CS—is typically completed at the end of the third year of medical school training. As medical educators who have been deeply engaged in clinical performance assessment for decades, we share several historic milestones and lessons as we consider a new era and the path forward for comprehensive, equitable, student-focused, and patient-centered clinical performance assessment.

 

1960년대 ~ 1970년대: 기원시대
1960s
1970s: Era of Origination

현대의 수행 평가는 1963년 서던 캘리포니아 대학의 신경과 의사이자 교육자인 하워드 바로우 박사가 병상에서 직원들에게 임상 기술을 가르치면서 고군분투했던 때로 거슬러 올라간다. 이를 해결하기 위해 그는 환자처럼 행동하고 수많은 신체적 징후와 증상, 영향을 제시하는 사람을 모집하고 훈련시켰으며, 의대생들은 개별적으로 이 '프로그램된' 환자에 대한 이력 및 신체검사를 실시했다. 결국 표준화된 환자(SP)라고 불리는 것이 탄생했다. Barrows 박사는 "그렇지 않았다면 결코 찾을 수 없었을 학생들에 대한 것들을 배우고 있었다"고 학생들과 함께 SP를 사용한 경험에 대해 평했다. 처음에는 조롱과 웃음거리가 되었던 이 선구적인 작품(SP)은 북미 전역에 임상기술 교수와 평가의 새로운 시대를 열었고, 인간 시뮬레이션을 바탕으로 한 더 많은 포맷의 기반을 닦았다. SP 혁신은 유연성, 표준화, 안전성 등의 이점을 갖춘 의학 교육에서 가장 보편적인 교육 방법론 중 하나로 성장할 것입니다.

The modern-day performance assessment dates back to 1963 when Dr. Howard Barrows, a neurologist and educator at the University of Southern California, struggled while teaching his clerks clinical skills at the bedside. To solve this challenge, he recruited and trained a person to act like a patient and present numerous physical signs, symptoms, and affect while his medical students individually conducted a history and physical examination of this “programmed” patient. What would eventually be termed the standardized patient (SP) was born. “[I was] learning things about those students I would have never found otherwise,” Dr. Barrows commented about his experiences using SPs with students.3 This pioneering work, which was originally met with ridicule and laughter, launched a new era of clinical skills teaching and assessment across North America and paved the way for more formats based on human simulation. The SP innovation would grow to become one of the most pervasive teaching methodologies in medical education with benefits including flexibility, standardization, and safety.

1980~1990년대: 심리측정의 시대
1980s
1990s: Era of Psychometrics

그 후 20년 동안 [교육 프로그램을 지원하기 위해 개발되고 있는 SP 프로그램의 수가 증가하면서] [의과대학 전반의 임상기술 수행평가]에서 적응과 발전이 이뤄졌다. 관적 구조화 임상시험, 임상능력 평가 등을 포함한 형성적, 총괄적 성과 평가의 다양한 모델이 개발되었습니다. 이러한 시기적절한 검사는 의대생이 여러 SP와 상호 작용하면서 교수진 및 종종 훈련된 SP 자신으로부터 병력 청취, 신체 검사, 환자 교육, 커뮤니케이션, 임상 추론 등 다양한 임상 기술을 수행할 수 있는 능력에 대해 상세한 구술 및 서면 피드백을 받아야 했습니다.
The 2 decades that followed resulted in adaptations and advances in the performance assessment of clinical skills across medical schools with a growing number of SP programs being developed to support the educational program. Various models of formative and summative performance assessment were developed, including objective structured clinical exams, clinical skills assessments, and more. These timed examinations required medical students to interact with multiple SPs while receiving detailed oral and written feedback from faculty, and often the trained SPs themselves, on their ability to perform a variety of clinical skills, such as history taking, physical examination, patient education, communication, and clinical reasoning.

1980년대 후반, Josiah Macy Jr 재단의 지원과 AAMC의 승인을 받아, ECFMG(Educational Commission for Foreign Medical Greaders)와 NBME Southern Illinois University School of Medical School은 미국 전역의 의과대학에서 SP 기반 검사의 채택을 촉진하기 위한 [공동 보급 프로젝트]를 수행했다
1992년 AAMC는 임상기술 교수 및 평가에서 [표준화 환자 활용에 관한 컨센서스 컨퍼런스]를 개최하였고, [SP 기반 교수 및 평가]를 진전시키기 위해 AAMC의 교육 문제에 관한 동호단체affinity group의 특별 이익 집단special interest group을 구성하였다 (나중에 국제 표준화 환자 교육자 협회(International Association of Standardized Patient Educators)가 됨). 이러한 복잡한 표준 평가 방법의 심리학적 특성은 교육 연구자들의 중심 초점이 되었다. 1980년에서 2000년 사이에 13,000개 이상의 출판물을 만들어냈으며, 1990년대에는 Lisa D. Howley 의 박사 논문을 포함하여 87%가 출판되었다.

In the late 1980s, with the support of the Josiah Macy Jr. Foundation and endorsement by the AAMC, the Educational Commission on Foreign Medical Graduates (ECFMG), and the NBME, Southern Illinois University School of Medicine undertook a collaborative dissemination project to stimulate the adoption of SP-based examinations across medical schools throughout the United States. In 1992, the AAMC hosted the Consensus Conference on the Use of Standardized Patients in the Teaching and Evaluation of Clinical Skills, and a special interest group of the AAMC’s affinity group on educational affairs was formed to advance SP-based teaching and assessment (later becoming the independent international Association of Standardized Patient Educators). The psychometric properties of these complex standard assessment methods became a central focus of educational researchers and resulted in over 13,000 publications between 1980 and 2000, with 87% of those in the 1990s, including L.D.H.’s doctoral dissertation.5


이 기간 [국제연수 의과대학 졸업생의 미국 레지던트과정이나 펠로우십 프로그램 진학 준비성 평가]를 담당했던 ECFMG는 국제졸업생의 임상능력을 효과적으로 평가하기 위해 고군분투했다. 1998년, 성과 평가를 위한 SP의 사용에 대한 많은 교훈과 상당한 연구를 바탕으로, ECFMG는 영어로 환자 및 보건 전문가와 대화할 수 있는 졸업생의 능력을 평가하기 위한 [대규모 임상 기술 평가]를 성공적으로 시작했습니다. 업계 최초의 국가 임상 성과 검사가 수립되었다.

During this time, the ECFMG, which was responsible for assessing the readiness of internationally trained medical graduates to enter U.S. residency or fellowship programs, struggled to effectively assess the clinical skills of international graduates. In 1998, building from the many lessons and considerable research on the use of SPs for performance assessment, the ECFMG successfully launched a large-scale clinical skills assessment, intended to assess a graduate’s ability to communicate with patients and health professionals in English. The first national clinical performance examination in the profession was established.

2000년대 초반: 라이선스 시대
Early 2000s: Era of Licensure

[(그 당시까지의) [의사면허시험]은 모두 단일 형식의 객관식 문항으로 지식만을 테스트]하는 반면, [국제 졸업생(IMG)들은 미국 국내 졸업생들보다 광범위한 임상 성과 평가를 통과해야 한다]는 우려 때문에 FSMB와 NBME는 2004년에 USMLE 2단계 CS 시험을 테스트하고 시행했습니다. 이 새로운 자격증 시험은 학생들의 병력청취, 신체진찰수행, 결과 전달 능력을 평가했습니다. ECFMG 임상 기술 평가는 새로운 USMLE 2단계로 대체되었으며, 처음으로 [국제 졸업생]과 [미국에서 훈련된 의대생]이 모두 임상 기술 성과 평가를 완료하게 되었다. 
Due in part to concerns that all medical licensing examinations tested knowledge with a single format of multiple-choice questions and that international graduates were required to pass a broader assessment of clinical performance than U.S. graduates, the FSMB and the NBME tested and launched the USMLE Step 2 CS exam in 2004. This new licensing exam assessed students’ abilities to take a history, perform a physical exam, and communicate findings. The ECFMG clinical skills assessment was replaced by the new USMLE Step 2, and for the first time, all international graduates and U.S.-trained medical students would complete a clinical skills performance assessment.

현대 2단계 CS 시험은 이력 기록, 신체 검사, 기록 환자 메모의 3가지 요소로 구성되었습니다. 각 검사자는 12명의 표준화된 환자를 접하게 되었고, 각 환자의 기록을 15분 동안 기록하고, 필요한 경우 집중적인 신체 검사를 수행해야 했습니다. 각각의 encounter 후에 응시자들은 10분 동안 추가로 자신의 발견 내용과 계획에 대한 환자 메모를 작성하게 되었습니다.6

The modern Step 2 CS exam consisted of 3 components: history taking, physical examination, and a written patient note. Each examinee was required to encounter 12 standardized patients and had 15 minutes to take each patient’s history and, if relevant, perform a focused physical exam. Following each encounter, the examinees had 10 additional minutes to write a patient note about their findings and plan.6


미국에서 의사면허시험에 이와같은 평가 모델의 확대과정이 논란이 없이 나온 것이 아니다.

  • 12시간 동안 진행된 2단계 CS 검사는 미국 내 6개 테스트 센터 중 1곳에서 완료해야 했으며 의대생들이 완료하는 데 (시험을 보기 위한 이동 및 숙박 비용 외에도) 약 1,500달러가 소요되었습니다. 이는 다른 USMLE 자격증 시험보다 약 60% 더 높은 수치였습니다.
  • 합격-불합격 검사는 약 95%의 높은 합격률을 기록했으며 학생들에게 임상 기술에 대한 구체적인 성과 피드백을 제공하지 않았습니다.
  • 또한 사이트 전반에서 표준화의 필요성이 증가하고 SP 평가자에 대한 의존도가 높아짐에 따라 임상 encounter가 체크리스트와 환자 노트를 통해 문서화된 개별 관찰 가능한 행동으로 축소되었다.
  • 검사에 포함된 만남 또는 스테이션은 [단일 환자]의 [초기 방문]으로 제한되었고 임상 결정에 informing하는 다양한 자원에 대한 접근은 제한되었다.

 

This expanded assessment model for medical licensure in the United States did not come without controversy.

  • The 12-hour Step 2 CS examination had to be completed at 1 of 6 testing centers in the United States and cost medical students approximately $1500 to complete (in addition to the expenses associated with travel and time away from their training program), which was approximately 60% higher than the other USMLE licensing exams.
  • The pass–fail examination had a high pass rate of approximately 95% and did not provide specific performance feedback to students about their clinical skills.
  • In addition, due to the increased need for standardization across sites and its reliance on SP raters, the clinical encounter was reduced to discrete observable behaviors documented via a checklist and a patient note.
  • The encounters or stations included in the examination were limited to initial visits with single patients, and access to resources for informing clinical decisions was limited.

 

이에 대응하여, 임상 능력 평가를 위한 새로운 모델을 설계하고 연구하던 많은 지역 SP 프로그램들은 2단계 CS 모델에 보다 긴밀하게 맞추기 위해 접근 방식을 변경하였습니다.

In response, many local SP programs that had been designing and researching new models for clinical skills assessment changed their approach to more closely align with the Step 2 CS model.


이 새로운 자격증 시험은 또한 [지역local SP 기반 임상 성과 평가]의 개발을 증가시켰으며, 이는 부분적으로 2단계 CS를 위한 학생들을 준비시키기 위한 것이었다. 이러한 [지역적 방법]들은 그것들을 개발한 학교의 더 큰 평가 시스템의 일부가 되었다. 비록 이 짧은 논평의 범위를 벗어나지만, 교육 프로그램의 설계, 구현 및 평가와 학습자의 평가에 대한 결과 기반 접근 방식인 역량 기반 의료 교육(CBME)을 향한 광범위한 움직임도 언급하지 않을 수 없다. 의과대학은 CBME 접근방식을 채택하기 시작하면서 평가 시스템을 더욱 빈번한 준거-기반, 형성적, 직무현장-기반 방법을 포함하도록 확장했다. 또한, 이러한 변화는 훈련생에 대한 판단을 내리는 그룹 과정group process의 가치를 강조했습니다. CBME의 맥락 속에서는, 오로지 의대생들의 임상능력을 보다 [빈번하고 효과적으로 평가해야 할 필요성]이 높아질 뿐이었다.

This new licensure exam also resulted in the increased development of local SP-based clinical performance assessments, which were intended, in part, to prepare students for Step 2 CS. These local methods became part of the larger assessment system of the school that developed them. Although beyond the scope of this brief commentary, we would be remiss not to mention the broader movement toward competency-based medical education (CBME), which is an outcomes-based approach to the design, implementation, and evaluation of educational programs and the assessment of learners. As medical schools began to adopt a CBME approach, they also broadened their assessment systems to include more frequent criterion-based, formative, and workplace-based methods. Additionally, this shift underlined the value of group process in making judgments about trainees. The need to more frequently and effectively assess medical students’ clinical skills was only heightened within the context of CBME.

 

2020년대 이후: 창의적 협업의 시대
2020s and Beyond: Era of Creative Collaboration

2020년 5월, COVID-19 대유행으로 인해 FSMB와 NBME는 언젠가는 다시 시작할 것을 염두에 두고 2단계 CS를 12개월에서 18개월 동안 (일시) 중단했다. 그들은 "기존의 방식보다 눈에 띄게 더 나은 2단계 CS 시험을 다시 시작할 것"이라고 설명했지만, 2021년 1월에 그들은 Step 2를 (영구히) 중단할 것이라고 발표하며, "의학교육 및 주 의료 위원회에서 종사하는 동료들과 함께 작업하여 [임상기술을 평가하는 혁신적인 방법]을 결정하는 데 집중"할 수 있는 기회를 가질 것이라고 발표했다. 미래를 정의하기 시작하면서 임상 성과 평가의 역사와 진화에 대한 몇 가지 교훈을 제안합니다.
In May 2020, due to the COVID-19 pandemic, the FSMB and the NBME suspended Step 2 CS for 12 to 18 months with the intent of reinstating. They explained they would bring back “a modified Step 2 CS exam that was appreciably better than the prior assessment,” but in January 2021, they announced their decision to discontinue the Step and to take the opportunity to “focus on working with our colleagues in medical education and at the state medical boards to determine innovative ways to assess clinical skills.”1As we begin to define the future, we propose several lessons from the history and evolution of clinical performance assessment.


첫째, 우리가 역사를 통해 해왔던 것처럼 의학교육계는 임상 능력 평가 방법을 지속적으로 혁신하고 협력하며 개선해야 합니다. SP 기반 모달리티는 환자 중심 평가를 위한 강력한 방법인 동시에 학습자와 환자를 위험으로부터 보호합니다. 우리는 [다양한 환자, 가족, 팀 및 다양한 설정을 대표하는 임상 만남]을 [시뮬레이션]하는 [성과 기반의 형성적 및 종단적 방법]을 제공하기 위해 노력해야 한다. 2단계 CS의 중단으로 [의과대학의 창의성과 혁신성이 향상]되어 다양한 환자 및 팀과 소통하고 공정하고 안전한 직접적 및 가상적 관리를 제공하는 등 학생들의 복잡한 임상 기술을 측정하는 평가를 모색할 수 있을 것이다. 또한, 이러한 방법들은 [직장 기반 방법의 사용을 증가]시키는 것을 포함하여 [학교의 광범위한 평가 시스템과 맥락을 같이] 하여 검토되어야 한다. [서로 다른 설정]에 걸쳐 그리고 [수많은 평가자]에 의해 이루어진 [여러 평가 형식]은 학생들의 역량에 대한 [종단적] 평가에 더 많은 정보를 제공할 것입니다.
First, as we have done throughout history, the medical education community should continue to innovate, collaborate, and improve upon our methods of clinical skills assessment. SP-based modalities remain a powerful method for patient-centered assessment while also protecting our learners and patients from harm. We should work to provide performance-based formative and longitudinal methods that simulate clinical encounters that are representative of diverse patients, family members, teams, and varied settings. The discontinuation of Step 2 CS may allow for greater creativity and innovation at medical schools to explore assessments that measure the complex clinical skills of its students, including communicating with diverse patients and teams and providing in-person and virtual care that is equitable and safe. Furthermore, these methods should also be considered in context with the school’s broader assessment system, including the increasing use of workplace-based methods. Multiple assessment formats, across different settings and by numerous assessors, will better inform longitudinal evaluation of students’ competence.


둘째, 의학 교육자는 평가를 위해 보다 복잡하고 학생 중심적인 접근법으로 계속 전환해야 합니다. 우리는 [학생 주도student-driven 평가]를 [구조화되지 않은 환경을 제공]하고, [자연적 조건에 대해 현실적]이며, [학생들에게 선택 사항 목록을 제한하거나 특정 추론 경로를 따르도록 강요하지 않는 것]으로 정의한다.7 임상 기술의 복잡성을 [순수하게 분리된 행동 체크리스트로 축소]해서는 안 된다. 대신 우리는 학생들이 임상적 추론을 개발하고, 결정을 내리고, 오류를 범하고, 역량을 개발하는 방법에 대한 우리의 증가하는 이해를 평가 방법에 통합해야 합니다. 우리는 Dyad(학생-SP 쌍)에 대한 과도한 의존에서 벗어나서, 예를 들어, [다수 사람의 시뮬레이션multiple-person simulation]으로 나아가야 한다. 또한 지금과 같은 체크리스트 기반의 측정방법을 [고급 인지 능력]을 평가할 수 있는 것으로 바꿔나가야 한다. 궁극적으로, 이러한 [덜 환원주의적 접근법]은 임상 역량에 대한 보다 인지적으로 발전된 측정으로 이어질 수 있다.
Second, medical educators should continue to shift to more complex and student-driven approaches for assessment. We define student-driven assessments as those that provide an unstructured environment, are realistic with respect to the natural conditions, and do not limit students to lists of options or force them to take a certain path of reasoning.7The complexity of clinical skills should not be reduced to a purely discrete checklist of behaviors. We should instead integrate into our assessment methods our growing understanding of how students develop clinical reasoning, make decisions, make errors, and develop competency. We should shift from overreliance on dyad (student–SP) encounters, for example, to multiple-person simulations and modify the method of measurement from checklists to measures more capable of assessing advanced cognitive skills. Ultimately, these less reductionist approaches may lead to more cognitively advanced measures of clinical competence.


셋째, 의학 교육자는 계속해서 평가의 역할에 대해 재고하고, 부담stake의 정도나 평가의 유형에 관계없이 [모든 평가]가 학생들이 강점과 약점을 식별할 수 있는 [충분한 피드백을 제공하도록 해야] 합니다. 또한, 우리는 우리의 방법이 [공정]하고, 모든 학생들이 [접근]할 수 있으며, [편견이 없도록] 노력해야 합니다. 다시 말해, 우리는 [학습에 대한 평가]에서 [학습을 위한 평가]와 [형평성을 위한 평가]로 계속 전환해야 합니다. 마찬가지로, 가상 및 직접 검사를 위한 [다중 기관 및 지역 협업]을 포함하여, SP 기반 평가를 설계하고 관리할 때 효율성을 높이기 위해 노력해야 합니다. 의대, 협력기관, 인허가기관 등 의학교육계는 [임상기술이 적절하고 공정하며 균일하게 평가될 수 있도록] 해야 할 [공공public에 대한 의무]를 공유하고 있다. 임상 술기 평가는 국지적으로 계속 확장되어야 하며, 국가 의사면허 취득으로 가는 경로pathway 내에 있어야 한다. 궁극적으로 평가가 지역적이든, 국가적이든, 공동 설계 및 관리이든 간에, 우리의 광범위한 공동체는 협력적으로 일하고, 공유된 과거로부터 교훈을 얻으며, 임상 기술 평가의 새로운 미래를 설계해야 한다.
Third, medical educators should continue to rethink the role of assessment and ensure that all assessments, regardless of stakes or type, provide sufficient feedback for the student to identify areas of strength and weakness. In addition, we should work to ensure that our methods are equitable, accessible for all students, and free of bias. In other words, we should continue to shift from the assessment of learning toward the assessment for learning and equity. Similarly, we should work toward identifying greater efficiencies when designing and administering SP-based assessments, including multi-institutional and regional collaborations for virtual and in-person examinations. The medical education community, including medical schools, their affiliates, and licensing and accrediting bodies, have a shared obligation to the public to ensure clinical skills are appropriately, fairly, and uniformly assessed. Clinical skills assessment should continue to expand locally and should remain within the national licensing pathway. Ultimately whether the assessment is locally, nationally, or jointly designed and administered, our broad community should work collaboratively, take lessons from our shared past, and design our new future of clinical skills assessment.


지난 한 해는 COVID-19가 의료 교육의 거의 모든 관행에 지장을 주면서 변혁을 가져왔다. 미국 국가 면허 검사의 실질적인 변화는 의과대학 내부와 대학 전반에서 우리 학생들의 임상 능력을 평가하는 방법과 무엇을 발전시킬 수 있는 기회를 포함하여 많은 파급 효과를 가져올 것입니다. 미래가 어떻게 될지 알 수는 없지만 창의성과 협업을 강화함으로써 포괄적이고 공정하며 학생 중심적이고 환자 중심적인 임상 능력 평가를 포함하는 미래를 정의하게 될 것으로 전망합니다.

The past year has been transformative as COVID-19 has disrupted nearly all practices in medical education. Substantial changes to the U.S. national licensing examination will have many ripple effects, including opportunities for advancing what and how we assess the clinical skills of our students within and across our medical schools. Although we cannot know what the future will hold, we predict that through greater creativity and collaboration, we will have defined a future that includes comprehensive, equitable, student-focused, and patient-centered assessment of clinical skills.

 


Acad Med. 2021 Jun 22.

 doi: 10.1097/ACM.0000000000004217. Online ahead of print.

Discontinuation of the USMLE Step 2 Clinical Skills Examination: Studying the Past to Define the Future

Lisa D Howley 1Deborah L Engle

Affiliations collapse

Affiliation

  • 1L.D. Howley is senior director of strategic initiatives and partnership, Association of American Medical Colleges, Washington, DC, and adjunct associate professor, University of North Carolina School of Medicine, Chapel Hill, North Carolina. D.L. Engle is assistant dean of assessment and evaluation and associate professor, Duke University School of Medicine, Durham, North Carolina.
  • PMID: 34166236
  • DOI: 10.1097/ACM.0000000000004217Abstract
  • The United States Medical Licensing Examination (USMLE) Step 2 Clinical Skills (CS) was discontinued in January 2021, marking a significant milestone in assessment of clinical skills. In this commentary, the authors trace the history of the Step 2 CS exam-beginning with its early roots in the 1960s, to its establishment as a performance-based licensing exam in 2004, to 2021. In this new era, the medical education community is replete with opportunities for advancing methodology and content associated with clinical skills assessment. The authors propose 3 main lessons gleaned from this rich history and modern evolution, which are aimed at defining a future that includes creative collaboration toward development of comprehensive, equitable, student-focused, and patient-centered clinical performance assessment. First, as it has done throughout history, the medical education community should continue to innovate, collaborate, and improve upon methods of clinical skills assessment. Second, medical educators should continue to shift to more complex and student-driven approaches of assessment, that is, assessments that provide an unstructured environment, are realistic with respect to the natural conditions, and do not limit students to lists of options or force them to take a certain path of reasoning. Third, medical educators should continue to rethink the role of assessment and ensure that all assessments, regardless of stakes or type, provide sufficient feedback for the student to identify areas of strength and weakness.

USMLE에서 임상술기평가의 진화: Step 2 CS 중단 이후를 바라보다 (Acad Med, 2021)
Evolution of Clinical Skills Assessment in the USMLE: Looking to the Future After Step 2 CS Discontinuation
Peter J. Katsufrakis, MD, MBA, and Humayun J. Chaudhry, DO, MS

  

2021년 1월 26일, NBME와 주 의료 위원회 연맹은 미국 의료 면허 검사(USMLE) 프로그램이 2단계 임상 기술(CS) 검사를 [수정하여 재개시하는 작업을 중단]했다고 발표했다.1 이 결정은 2020년 3월에 발표된 2단계 CS의 최초 일시적 중단에 이어, SARS-CoV-2(COVID-19를 유발하는 바이러스)의 감염이 미국 전역으로 확산되기 시작했고, 이후 2020년 5월에 12-18개월간 중단이 연장되었다. 사건이 전개되고 COVID-19 대유행으로 미국 전역에서 감염, 입원, 사망자가 급증함에 따라, 바이러스 전염의 위험을 상당히 줄인 버전의 2단계 CS를 재개할 계획이 영구적 중단으로 바뀌었다. 이러한 계획 변경에는 USMLE 프로그램의 내부 및 외부 요소에 대한 세심한 검토가 수반되었습니다. 그러나 이 결정은 면허 시험에서 임상 능력 평가의 중요성을 축소minimize하기 위한 것은 아니다. USMLE 프로그램 내에서 그리고 의료 교육 및 훈련 기간 내내 임상 기술을 평가하는 것은 매우 중요합니다. 이 논평에서 논의하겠지만, 우리의 목표는 USMLE에서 임상 기술 평가를 발전시킬 때 교육 및 임상 실무의 진화를 모두 반영하는 것입니다.

On January 26, 2021, the NBME and the Federation of State Medical Boards (FSMB) announced that the United States Medical Licensing Examination (USMLE) program had discontinued its work to modify and relaunch the Step 2 Clinical Skills (CS) examination.1 This decision followed the initial, temporary cessation of Step 2 CS announced in March 2020, as infection with SARS-CoV-2 (the virus that causes COVID-19) began spreading throughout the United States, and the subsequent May 2020 extension of the suspension for 12–18 months. As events unfolded and the COVID-19 pandemic caused alarming surges of infections, hospitalizations, and deaths around the United States, our plans to resume a version of Step 2 CS that substantially reduced the risk of virus transmission evolved to a permanent discontinuation of the exam. This shift in plans involved a careful consideration of multiple factors intrinsic and external to the USMLE program. By no means, however, is this decision intended to minimize the importance of assessing clinical skills in the licensure exam. Evaluating clinical skills within the USMLE program and throughout the duration of medical education and training is critically important. As we will discuss in this commentary, our goals are to reflect evolution of both educational and clinical practice as we evolve clinical skills assessment in the USMLE.

USMLE 거버넌스 및 2단계 CS 결정
USMLE Governance and the Step 2 CS Decision

USMLE 프로그램의 공동 후원자로서 FSMB와 NBME는 [전체 시험 시퀀스의 프로그램 감독에 대한 궁극적인 책임]을 지고 있습니다. NBME와 ECMG(외국인의료졸업생을 위한 교육위원회)가 공동으로 2단계 CS 구성요소를 관리하였다. 시험 내용 결정, 합격점수 컷오프 및 관련 운영 문제와 같은 많은 USMLE 정책 결정은 의과대학 교수진, 주 의료 위원회 및 일반인으로 구성된 다양한 감독 위원회에 위임됩니다. 2단계 CS 중단 결정은 FSMB 및 NBME의 거버넌스 및 직원 리더십이 ECFMG의 거버넌스 및 직원 리더십과 협의하여 이루어졌다. 
As cosponsors of the USMLE program, the FSMB and NBME have ultimate responsibility for program oversight of the entire exam sequence. The NBME and Educational Commission for Foreign Medical Graduates (ECFMG) collaboratively administered the Step 2 CS component. Many USMLE policy decisions—such as determination of exam content, cutoffs for a passing score, and related operational matters—are delegated to various oversight committees comprising volunteers from medical school faculties, state medical boards, and the public. The decision to discontinue Step 2 CS was made by governance and staff leadership of the FSMB and NBME in consultation with governance and staff leadership of the ECFMG.

평가를 강화하기 위한 USMLE 프로그램의 지속적인 노력의 일환으로, 지난 몇 년간 연구는 [임상 능력 평가의 장기적인 전환]에 집중되어 왔습니다. 예를 들어, 2단계 CS에서 아바타나 멀티미디어를 활용한다거나, Step 2 CS에 대한 기타 개선사항이 포함되어 있으며, 이는 통해 [평가의 특성]과 [응시자 경험]을 개선하고자 했다.
팬데믹으로 인한 셧다운과 [수정된 시험을 시작하려는 움직임]은 예상하지 않았던 [추가 자원을 이 작업에 투입할 수 있는 기회]를 제공했습니다. 2단계 CS의 12~18개월 공백이 2020년 5월에 발표되었을 때, USMLE 프로그램은 단기 개정short term revision과 2020년 3월에 중단되었던 시험에 비해 [상당히 개선된 시험의 재개시]에 다시 초점을 맞췄다. 우리는 [테크놀로지를 활용]하며, 시험과 관련된 [COVID-19 위험을 줄이거나 제거]하고, [수험생 여행의 필요성을 줄이거나 제거]했으며, 2004년 Step 2 CS 시험이 처음 시행된 이후의 [의학교육의 변화를 반영]하는 변화의 조합을 구상했다.
As part of the USMLE program’s continous efforts to enhance assessment, research over the past several years has been focused on longer-term transformation of clinical skills assessment—by using avatars, multimedia, and other enhancements in Step 2 CS to improve not only the nature of the assessment but also the experience of the examinee. The pandemic shutdown and the drive to launch a revised exam provided an unforeseen opportunity to commit additional resources to this work. When the 12–18-month hiatus of Step 2 CS was announced in May 2020, the USMLE program refocused on shorter-term revisions and relaunching an exam that was appreciably enhanced compared with the exam that was suspended in March 2020. We envisioned some combination of changes that harnessed technology, reduced or eliminated exam-associated COVID-19 risk, reduced or eliminated the need for examinee travel, and reflected changes in medical education arising since the exam was first launched in 2004.

2020년의 나머지 기간 동안 USMLE 직원들은 의과대학 및 레지던시 프로그램 설정에서 일하는 교육자들과 협력하고, 이해관계자 그룹의 의견을 구했으며, 2단계 CS 재출시가 가능하도록 다양한 기술 솔루션을 탐색했습니다. 좋은 진전이 있었지만, FSMB와 NBME는 2021년 1월에 목표 기간 내에 적절히 강화된 시험을 재개하는 것이 가능하지 않다고 공동으로 결정했다.
During the rest of 2020, USMLE staff worked to analyze current elements of medical practice, engaged with educators working in medical school and residency program settings, solicited input from stakeholder groups, and explored various technology solutions to enable relaunch of Step 2 CS. While good progress had been made, the FSMB and NBME jointly determined in January 2021 that it was not feasible to relaunch an exam that was appropriately enhanced within our targeted timeframe.

 

2단계 CS 의사결정에 기여하는 요인
Factors Contributing to the Step 2 CS Decision

이렇게 결정된 요인은 어느 하나로 설명할 수 없다. 2단계 CS를 중단하기로 한 결정에는

  • USMLE 프로그램 목표에 대한 전체적인 검토,
  • 시험 재개시를 향한 발전과정progress
  • 다양한 이해관계자로부터 수집된 의견,
  • 교육 및 실습 환경의 분석이 포함되었습니다. 

No single factor led to this determination. The decision to discontinue Step 2 CS involved

  • a holistic review of USMLE program goals,
  • progress made toward relaunching the exam,
  • input collected from varied stakeholders, and
  • analysis of the education and practice environments.

 

우리는 아래에 몇 가지 중요한 고려사항들을 간략히 요약합니다.
We briefly summarize, below, some of the salient considerations.


모든 연령대와 인구 통계에 걸친 위험과 함께 전 세계로 빠르게 확산된 COVID-19는 2단계 CS에 대한 우리의 계획을 크게 변화시켰습니다. Step 2 CS는 그 설계상 수험생과 시험 직원, 특히 표준화된 환자 역할을 하는 직원 간의 긴밀한 신체적 근접과 신체적 접촉을 요구했습니다. 표준화된 환자 및 기타 직원의 안전과 복지가 그러하듯이, 전염병의 불확실성으로 인한 스트레스와 불안 등 [수험생의 안전과 건강]이 가장 큰 관심사였다. 우리는 처음에 검사와 관련된 잠재적인 COVID-19 위험을 줄이거나 제거하기 위해 응시자 및 직원이 다른 사람과 접촉할 필요가 없는 [가상 원격 건강 플랫폼을 시뮬레이션]하는 방식으로 시험을 수정하려고 했습니다. 우리는 또한 수험생의 [여행 관련 비용을 줄이거나 제거]할 수 있는 원격 관리 모델을 개발하기 위해 노력했습니다. 이렇게 시험 설계를 바꾸게 된다면 [정보 수집, 상호작용 방식, 환자 및 동료와의 결과 전달]과 관련된 [비인지 영역]에 대한 평가를 유지하지만, [신체 검사 기술]에 대한 평가를 갖추지는 못할 것이다.
The rapid spread of COVID-19 throughout the world, with risks across all age groups and demographics, dramatically changed our plans for Step 2 CS. The exam by design required close physical proximity and physical contact between examinees and exam staff, especially staff acting as standardized patients. The safety and health of examinees, including stress and anxiety caused by the uncertainty of the pandemic, were of paramount concern, as were the safety and welfare of standardized patients and other staff. We initially sought to modify the exam to simulate a virtual telehealth platform where neither examinees nor staff would need to come into contact with others, in order to reduce or eliminate potential COVID-19 risks associated with the exam. We also strove to develop a model for remote administration that could reduce or eliminate the travel-associated costs for examinees. These exam design characteristics would have retained assessment of noncognitive domains involving information gathering, manner of interaction, and communicating findings to patients and colleagues, but not assessment of physical examination skills.

[원격 시험]의 이점benefit에 대해서 균형을 잡을 때 고려해야 했던 것은, [기술, 보안, 형평성 및 시험 로지스틱스]와 관련된 과제뿐 아니라 [버추얼 수행능력 평가]에서는 [신체 검사 능력 평가]가 명백히 제한된다는 점이었습니다. 우리는 [원격 시험]을 시도하는 다른 규제 기관이 겪었던 어려운 경험과 의과대학에서의 학교 기반 시험 원격 검사의 성공적 론칭으로부터 많은 것을 배울 수 있었지만, 이러한 경험이 [USMLE 프로그램의 요구에 부합]할 정도로까지 대규모 국가 면허 시험으로 [충분히 일반화되지 않았다]는 것을 알게 되었다. 결국 충분한 가치를 제공하는 원격 관리 솔루션을 확보하지 못했습니다. 
Balanced against the benefits of a remotely administered exam were the challenges associated with technology, security, equity, and exam logistics, as well as the obvious limitations to assessing physical examination skills via a virtual performance assessment. While we had the benefit of learning from the cautionary experiences of other regulatory organizations attempting remote exam administration and from the successful NBME launch of school-based remote proctoring of exams in medical schools, we found that these experiences did not adequately generalize to a large-scale national licensing exam specific to the USMLE program’s needs. Ultimately, we did not identify a remote administration solution that would provide sufficient value.


또한 2004년 2단계 CS가 시행된 이후부터 기존의 지식과 내용 영역을 뛰어넘는 기술을 시험 응시자들에게 보여주도록 함으로써 면허 도구로서의 상당한 발전을 대변하는 [의미 있는 의학교육의 발전]이 이루어졌다. 이 발전에는

  • 미국 MD-granting 및 DO-granting 의과대학의 객관적 구조 임상 검사(OSCE) 연구소의 설립과
  • 의학교육의 연속체를 따라 학습자의 진척도를 평가하는 역량 프레임워크의 채택도 포함된다 (EPA, ACGME/ABMS의 core competencies, GME의 마일스톤 등)

In addition, meaningful advances in medical education have occurred since Step 2 CS was launched in 2004, when it represented a significant advance as a licensing tool by requiring examinees to demonstrate skills beyond traditional knowledge and content areas. These developments include

  • the establishment of objective structured clinical examination (OSCE) labs at U.S. MD-granting and DO-granting medical schools and
  • the adoption of a competency framework—including entrustable professional activities, Accreditation Council for Graduate Medical Education (ACGME)/American Board of Medical Specialties core competencies, and graduate medical education (GME) milestones—to assess learners’ progress along the continuum of medical education.2

 

그러나 [국가 표준]에 대한 [독립적인 제3자 검증 및 지원]은 여전히 미국의 강력한 의료 면허 시스템의 초석으로 남아 있다. [주 의료 위원회]는 [USMLE 프로그램]에 의존하며, 주 의료 위원회State Medical Board의 라이센스 결정은 다음을 포함하는 교육 및 훈련 시스템에 의해 결정된다.

  • [학부 의학 교육(UME) 프로그램]의 성공적인 완료.
  • [GME 프로그램]의 일부 또는 전체 완료.
  • UME 및 GME 프로그램에 대한 독립적이고 별도의 [인증].
  • 국제 의대 졸업자의 경우 [ECFMG에 의한 의사 지원자의 자격 증명]

Independent, third-party verification and support for a national standard, however, remain cornerstones of a robust system of medical licensure in the United States. State medical boards rely on the USMLE program,3 and their licensing decisions are predicated on an education and training system that includes

  • successful completion of a program of undergraduate medical education (UME);
  • completion of some or all of a program of GME;
  • independent and separate accreditation of UME and GME programs; and,
  • for international medical graduates, certification of physician applicants’ qualifications by the ECFMG.

이러한 [강력한 평가, 인증 및 규제 시스템]의 맥락에서 USMLE 리더십은 수정된 2단계 CS의 재출시에 따른 점진적인incremental 부가 가치를 평가했습니다.
In the context of this robust system of assessment, certification, and regulation, the USMLE leadership weighed the incremental additional value of relaunching a modified Step 2 CS.

[미국 의과대학의 임상 기술 훈련과 평가 프로그램의 성장]은 (그 prevalence와 sophistication 모두) 틀림없이 새로 들어온 의사들이 레지던트 교육에 들어갈 준비를 개선시켰다. 2단계 CS 도입 이후 임상술기 훈련과 평가 시스템이 진화하면서, 실제 의료행위(practice of medicine)는 시험의 모습을 반영하지 않는 방향으로 발전했다. [온라인 자료의 참고, 인공지능 의사 결정 보조 도구 활용, 기타 테크놀로지-기반 도구와 같은 자원]은 의학의 practice과 진료 전달 방식을 변화시켰다. [텔레헬스]는 COVID-19 대유행 이전에 수용도와 활용도가 증가하고 있었지만, 2020년에는 의사와 환자의 사용이 급격하게 증가했습니다. [2단계 CS 시험을 전염병에 맞게 수정하여 재개하는 작업]에 요구되는 중요한 인력 자원을, 그 대신 [더 혁신적인 방식으로 임상 술기 평가를 발전시키는 데 투입될 수 있다]는 데 동의했습니다.

The growth in U.S. medical schools’ clinical skills training and assessment programs, both in prevalence and sophistication, has arguably improved the preparation of newly minted physicians entering residency training. As the systems for training and assessing clinical skills have evolved since the launch of Step 2 CS,4 the practice of medicine has also evolved in ways not reflected in the exam. Resources such as online reference materials, artificial intelligence decision aids, and other technology-enabled tools have changed how medicine is practiced and care is delivered. While telehealth was growing in acceptance and utilization prior to the COVID-19 pandemic, the year 2020 saw a dramatic increase in its use by physicians and patients. The significant staff resources required to relaunch a Step 2 CS exam modified for the pandemic, we agreed, could instead be devoted to advancing the assessment of clinical skills in a more transformative fashion.

미래를 내다보기
Looking to the Future

[주 의료 위원회]는 [의사가 안전하고 효과적인 환자 관리를 제공하도록 보장]하기 위해 계속 노력하고 있습니다. USMLE 프로그램은 지속적으로 이 미션에 복무serve할 것이며, [알려진 요구사항]과 [새롭게 대두되는 요구사항]을 충족하는 평가를 지속적으로 이행할 것입니다. 우리는 의과대학 교수, 레지던트 프로그램 이사 및 교수진, 의대 학생, 수험생, 개업 의사 및 일반인 등 미래의 의사 교육과 훈련에 직접 및 간접적으로 관여하는 주 의료 위원회 구성원과 대표자를 포함한 주요 이해관계자들의 의견을 구하고 있습니다. 이해관계자의 가이드를 탐색seeking할 때, 어떻게 해야 의학교육/훈련/실무의 진화가 USMLE 평가에 가장 잘 반영될지를 파악하기 위한 노력을 한다. 또한 임상술기 평가에 대한 가장 큰 요구가 어디에 존재하는지 이해하려고 합니다. 우리가 수집한 정보는 후속 연구 및 개발의 우선순위를 정하는 데 도움이 될 것입니다. 또 다른 조사 라인은 의료 면허의 맥락에서 적용할 수 있는 임상 기술 평가의 혁신을 추구합니다.
State medical boards remain committed to ensuring that physicians provide safe and effective patient care. The USMLE program will continue to serve that mission and deploy assessments that meet the known and emerging requirements of medical licensure. We are soliciting input from key stakeholders, including members and representatives of state medical boards and individuals involved directly and indirectly in the education and training of future physicians— medical school faculty, residency program directors and faculty, medical students, examinees, practitioners, and members of the public. In seeking stakeholder guidance, we are striving to identify how the evolution of medical education, training, and practice should best be reflected in USMLE assessments. One line of inquiry seeks to understand where the greatest needs for clinical skills assessment exist. The information we gather will help prioritize subsequent research and development. Another line of inquiry seeks innovations in clinical skills assessment that are applicable to the context of medical licensure.


이미 받은 피드백을 바탕으로 의료 실무practice에 특히 중요한 주제(예: 임상적 추론)주 의료 위원회에서 식별한 결함 영역(예: 커뮤니케이션)을 더 강조하는 방향으로 바꿀 수 있다.5 USMLE 검사의 임상스킬 평가의 초기 향상은 현재 형식을 강화하고 기존 검사 구조에 통합될 것입니다. (이해당사자의 투입을 통해 식별된) 수정이 필요한 내용은 3단계 시험 및/또는 3단계 시험의 컴퓨터 케이스 시뮬레이션에서 모두 객관식 문항에 반영될 수 있습니다. 
Based on the feedback we have already received, we are likely to increase emphasis on subjects particularly important to medical practice (e.g., clinical reasoning) and areas in which state medical boards identify deficiencies (e.g., communication).5The initial enhancements to clinical skills assessment in USMLE exams will augment current formats and integrate into the existing exam structure. To the extent possible, content revisions identified through stakeholder input may be reflected in multiple-choice questions in all three Step exams and/or computer case simulations in the Step 3 exam.

그러나 지속적인 연구를 통해 다음과 같은 내용을 포함하여 이러한 형식의 한계를 극복할 것이다.

  • 오디오 및 비주얼 미디어의 발전,
  • 환자 아바타,
  • 자연어 처리,
  • 인공지능,
  • 평가와 관련된 다른 과학과 테크놀로지의 결합

이는 임상 스킬 평가의 한계를 확장시켜줄 것이며, 테크놀로지의 발전은 새로운 유형의 문항이 개발될 가능성이 높다.

Ongoing research, however, will seek to push beyond the limitations of these formats, incorporating

  • advances in audio and visual media,
  • patient avatars,
  • natural language processing,
  • artificial intelligence, and
  • other combinations of assessment science and technology

...that extend the frontiers of clinical skills assessment. It is likely that technological advances will result in the development of new item types.


위에서 설명한 프로세스(유망한 [테크놀로지 혁신]을 목표로 하는 [연구 및 개발]과 결합된 [다양한 이해관계자 의견])가 USMLE 프로그램에서 임상 스킬 평가를 위한 최적의 개발 경로를 만들 것이라고 믿는다. 우리가 아래의 것들을 이루고자 할 때, 다양한 [시험]과 [디자인 특성 사이]에 절충tradeoff이 있을 것은 거의 확실하다. 

  • 신체 검사 및 의사소통 기술을 평가한다. 
  • 감독되는 실무 및 감독되지 않은 후속 실무에 대한 진입 준비에 대한 결정을 알려줍니다. 
  • 임상적 추론을 평가한다. 
  • 현대 의료 관행을 반영한다. 
  • 형평성과 접근성을 보장한다. 
  • 수험생 경험을 최적화합니다. 

We believe that the process outlined above—diverse stakeholder input combined with research and development that targets promising technological innovations—will create the optimal developmental path for clinical skills assessment in the USMLE program. There will almost certainly be tradeoffs among various exam and design characteristics as we strive to

  • assess physical examination and communication skills;
  • inform determinations of readiness for entry into supervised practice and subsequent unsupervised practice;
  • assess clinical reasoning;
  • reflect contemporary medical practice;
  • ensure equity and access; and
  • optimize the examinee experience.

2단계 CS를 중단하기로 결정하면서, 일부 학습자와 교육자가 [임상 스킬 평가가 더 이상 중요하게 여겨지지 않는다]처럼 잘못된 결론을 내릴 가능성이 있음을 알게 되었다. USMLE 프로그램은 임상 기술 평가에 전념하고 있습니다.

  • 따라서 교육자와 관리자는 표준이 느슨해지지 않도록 해야하며, 임상 기술 훈련 및 평가에 투입되는 시간과 자원을 계속적으로 우선시해야 한다6.
  • 교육 및 규제 시스템의 모든 당사자는 공공의 이익에 부합하는 의료 교육의 연속체에 걸쳐 지속적으로 독립적으로 협력적으로 일할 필요가 있다.
  • 이와 별도로, 의학 교육자는 [USMLE 시험에 반영 여부와 상관없이], 의학을 수행하는 데 필요한 다양한 지식과 기술을 지속적으로 다뤄야 하며,
  • USMLE 프로그램은 수험자의 실무 준비 상태를 확인하는 기능을 지속적으로 수행해야 합니다. 

In deciding to discontinue Step 2 CS, we recognized the potential for some learners and educators to wrongly conclude that clinical skills assessment is no longer being valued. The USMLE program remains committed to assessment of clinical skills.

  • As such, educators and administrators should resist relaxation of their standards6and continue to prioritize the time and resources devoted to clinical skills training and assessment.
  • All parties in the education and regulatory systems will need to continue to work independently and collaboratively across the continuum of medical education in the public interest.
  • Working independently, medical educators must continue to address the broad array of knowledge and skills necessary to practice medicine regardless of whether they are reflected in USMLE exams, and
  • the USMLE program must continue to serve its function of validating examinees’ readiness to practice.

USMLE Scoring에 대한 Invitational Conference의 최근 경험과 의사 책임 연합의 UME-GME 검토 위원회의 현재 작업을 통해 의료 교육, 평가 및 규정의 시스템 개선을 안내할 수 있는 여러 이해관계자 간의 효과적이고 조정된 협업을 위한 모델을 제공할 수 있기를 바랍니다. 우리의 단기 및 장기 계획은 특히 의사-환자 간 커뮤니케이션 영역에서 주 의료 위원회와 우리가 공동으로 봉사하는 일반인의 진화하는 요구를 충족시키기 위해 USMLE 프로그램의 모든 단계를 전환하면서 검사자의 임상 기술 평가를 강화하는 것입니다.

 We are hopeful that our recent experience with the Invitational Conference on USMLE Scoring7 and the current work of the Coalition for Physician Accountability’s UME-GME Review Committee8 provide models for effective, coordinated collaboration among multiple stakeholders to guide systemic improvements to medical education, assessment, and regulation. Our short-term and long-range plans are to enhance the assessment of examinees’ clinical skills, particularly in the area of physician-patient communication, as we transform all Steps of the USMLE program to meet the evolving needs of state medical boards and the public we collectively serve.

 


Acad Med. 2021 Jun 22.

 doi: 10.1097/ACM.0000000000004214. Online ahead of print.

Evolution of Clinical Skills Assessment in the USMLE: Looking to the Future After Step 2 CS Discontinuation

Peter J Katsufrakis 1Humayun J Chaudhry

Affiliations collapse

Affiliation

  • PMID: 34166234
  • DOI: 10.1097/ACM.0000000000004214Abstract
  • The COVID-19 pandemic interrupted administration of the United States Medical Licensing Examination (USMLE) Step 2 Clinical Skills (CS) exam in March 2020 due to public health concerns. As the scope and magnitude of the pandemic became clearer, the initial plans by the USMLE program's sponsoring organizations (NBME and Federation of State Medical Boards) to resume Step 2 CS in the short-term shifted to long-range plans to relaunch an exam that could harness technology and reduce infection risk. Insights about ongoing changes in undergraduate and graduate medical education and practice environments, coupled with challenges in delivering a transformed examination during a pandemic, led to the January 2021 decision to permanently discontinue Step 2 CS. Despite this, the USMLE program considers assessment of clinical skills to be critically important. The authors believe this decision will facilitate important advances in assessing clinical skills. Factors contributing to the decision included concerns about achieving desired goals within desired timeframes; a review of enhancements to clinical skills training and assessment that have occurred since the launch of Step 2 CS in 2004; an opportunity to address safety and health concerns, including those related to examinee stress and wellness during a pandemic; a review of advances in the education, training, practice, and delivery of medicine; and a commitment to pursuing innovative assessments of clinical skills. USMLE program staff continue to seek input from varied stakeholders to shape and prioritize technological and methodological enhancements to guide development of clinical skills assessment. The USMLE program's continued exploration of constructs and methods by which communication skills, clinical reasoning, and physical examination may be better assessed within the remaining components of the exam provides opportunities for examinees, educators, regulators, the public, and other stakeholders to provide input.

3학년 학생의 임상수행능력평가와 학생과 평가자 성별의 관계(Acad Med, 2017)

Clinical Performance Evaluations of Third-Year Medical Students and Association With Student and Evaluator Gender
Alison Riese, MD, MPH, Leah Rappaport, MD, Brian Alverson, MD, Sangshin Park, DVM, MPH, PhD, and Randal M. Rockney, MD 

 

 

 

의대 졸업생을 레지던트 과정으로 선발하는 것은 여러 가지 요인에 의해 추진된다. 그러나 프로그램 책임자에 따르면 가장 중요한 선발 기준은 필수 핵심 임상실습의 성적이다.1 대부분의 핵심 임상 임상실습에서 의대생을 위한 평가 및 채점 도구로 임상 성과 평가(CPE)가 사용된다. 의대생들과 함께 일하는 임상의들은 지식 및 전문직업성은 물론, 병력 청취, 사례 발표 등 각 학생의 기본적인 임상 능력에 대한 공식적인 평가를 완료해야 한다. 대부분의 임상실습에서 이러한 평가는 표준화된 서면 검사 및 객관적인 구조화 임상 검사(OSCE)와 함께 학생들의 최종 임상실습 성적이 결정되는 데이터를 제공합니다. 
Selection of graduating medical students into residency programs is driven by multiple factors. However, according to program directors, the most important selection criteria are students’ grades on required core clerkships.1 Clinical performance evaluations (CPEs) are used in most core clinical clerkships as assessment and grading tools for medical students. Clinicians who work with medical students are asked to complete formal evaluations of each student’s basic clinical skills, such as history taking and case presentation, as well as fund of knowledge and professionalism. In most clerkships, these evaluations, along with standardized written examinations and objective structured clinical examinations (OSCEs), provide the data from which students’ final clerkship grades are determined. 

의대에 입학하는 과정과 임상실습 이전학년에 걸쳐 발생하는 수많은 평가는 대체로 표준화되었으며, 평가자-의존적 편향을 보이지 않을 것 같다. 반면 임상실습 성과에 대해서는 보다 주관적인 방식으로 평가된다. 
The numerous evaluations that occur over the course of attaining entrance to medical school and during the preclinical years are largely standardized and unlikely to exhibit grader-dependent bias. In contrast, medical students are evaluated in a more subjective manner when being assessed on their clinical performance. 

교육 분야의 문헌에 따르면, 학생의 성별은 종종 학생들을 대하고 점수를 매기는 데 있어 중요한 역할을 한다.5,6

  • 초등학교에서는 비슷한 시험 점수에도 불구하고 여학생들이 남학생들보다 더 좋은 점수를 받게 되는데, 일부 연구자들은 이러한 점수를 "비인지적 기술"로 보고 있다. 구체적으로 말하자면, "배움에 대한 더 발전된 태도"입니다.
  • 또한, 교사의 성별은 교육 역량과 성과에 대한 [기대와 인식]에 영향을 미칠 수 있습니다.
  • 나아가, 연구들은 성별 짝짓기가 "역할 모델 효과"를 통해 학생들의 참여와 행동을 향상시킬 수 있다고 제안한다. 반대로 성별 불일치는 "고정관념 위협"을 유발할 수 있다. 부정적인 고정관념을 확인시켜줄 것 같은 불안감이 성능 저하로 이어질 수 있다.

Literature from the education field has shown that student gender often plays a role in how students are treated and graded.5,6

  • In primary schools, girls are awarded better grades than boys, despite similar test scores, which some researchers attribute to “noncognitive skills”—specifically, “a more developed attitude towards learning.”6
  • Additionally, teachers’ gender can affect their expectations and perceptions of educational competence and performance.7,8
  • Furthermore, studies9–11 suggest that gender pairing can enhance, through a “role-model effect,” student engagement and behavior, or, conversely, gender noncongruence may induce “stereotype threat,” in which anxiety that one will confirm a negative stereotype can lead to a decrement in performance. 


일부 소규모 연구는 표준화된 환자(SP)에 의한 의대생들의 OSCE에 대한 임상 성과 시뮬레이션의 점수에서 학생과 평가자 성별 간의 상호작용을 제안했다. 
A few small studies12–14 have suggested an interaction between student and evaluator gender in the grading of medical students’ simulated clinical performance on OSCEs by standardized patients (SPs). 

학생과 평가자의 성별에 대한 유사한 점수 차이가 nonsimulated 임상 환경에 대한 몇 가지 소규모 연구에서 발견되었다.

  • 작은 연구결과, 남자 프리셉터가 여학생들에게 가장 높은 평균 점수를 매긴 것으로 나타났다. 그리고 가장 낮은 평균 점수는 여자 프리셉터가 남학생에게 준 점수였다.
  • 내과 레지던트 평가 연구에서는, 남성 레지던트는 (여성 주치의보다) 남성 주치의에게서 더 높은 점수를 받았다.
  • 반대로 산부인과 의대생 평가에 대한 연구 결과 여학생들이 필기시험과 OSCE에서 더 나은 성적을 보였지만, 교수에 의한 평가는 남학생들이 받은 점수와 비슷했다.

Similar disparities in grading regarding student and evaluator gender have been found in a few small studies of nonsimulated clinical settings.15,16

  • A small study showed that the highest mean grade was given by male preceptors to female students, and the lowest mean grade was given by female preceptors to male students.
  • In a study of evaluations of internal medicine residents, male residents received higher grades from male attendings than from female attendings.17
  • Conversely, a study of medical student grading in obstetrics– gynecology18 found that female students performed better on written exams and OSCEs; however, they were graded similarly to male students by their faculty evaluators. 

임상등급 과제의 객관성을 높이기 위한 모든 노력의 첫 단계로, 평가자의 학생 임상성적 채점에 어떤 문제가 영향을 미치는지 충분히 이해할 필요가 있다. 

As a first step in any effort to increase objectivity in clinical grade assignment, it is necessary to fully understand what issues influence evaluators’ grading of student clinical performance. 

방법
Method

이것은 Alpert 의과대학(AMS)에서 시행된 후향적 연구였다. 2013-2014학년도 동안 3학년 핵심 임상실습에서 의과대학 채점 데이터베이스(OASIS)에 기록된 CPE 4,462개가 처음에 포함되었다. AMS에서 핵심 임상실습과 연구 기간 동안의 기간은 내과(12주)와 수술, 산부인과, 가정의학과, 소아과, 정신의학과(매 6주)로 구성되었다.  
This was a retrospective study conducted at the Alpert Medical School (AMS). All 4,462 CPEs recorded in the medical school’s grading database (OASIS) from third-year core clerkships during the 2013–2014 academic year were initially included. At AMS, the core clerkships and their duration during the study period consisted of internal medicine (12 weeks) and surgery, obstetrics– gynecology, family medicine, pediatrics, and psychiatry (each 6 weeks). 


CPE 이수시점에 각 평가자가 선택할 수 있는 성적은 '특수', '기대 이상', '기대 미달', '기대 미달'이었다. 중복 항목이거나 일차 결과 또는 예측 변수에 대한 데이터가 불완전할 경우 평가는 제외되었습니다. 또한, "기대 미만" 등급의 CPE는 이 등급의 드문 발생(<1%) 때문에 제외되었다. 
The possible grades that could be selected by each evaluator completing a CPE were “exceptional,” “above expectations,” “meets expectations,” and “below expectations.” An evaluation was excluded if it was noted to be a duplicate entry or if data were incomplete for the primary outcome or predictor variables. Additionally, CPEs with a grade of “below expectations” were excluded because of the rare occurrence (< 1%) of this grade. 

우리는 식별되지 않은 데이터를 제공받았기 때문에 객관적인 비임상 평가와 그 데이터를 일치시킬 수 없었다. 그러나 우리는 2015년 수업의 미국 의료면허시험(USMLE) 1단계 점수를 남성과 여성의 점수로 비교했다. 
Because we were provided deidentified data, we were not able to match those data with any objective nonclinical evaluations. However, we did compare the United States Medical Licensing Examination (USMLE) Step 1 scores for men versus women in the class of 2015. 

모든 통계 분석은 SAS 9.4(SAS Institute, Carry, North Carolina)를 사용하여 수행되었다. P 값 ..05는 통계적으로 유의한 것으로 간주되었다. 이 연구에서는 카이-제곱 검정을 사용하여 최종 등급과 성별 및 공변량과의 연관성을 조사했습니다. 계층적 순서형 회귀 모형화는 학생과 평가자 특성이 학생의 성적에 미치는 영향("예외", "기대 이상", "기대 충족")을 조사하기 위해 수행되었으며, 둘 이상의 학생을 평가한 평가자의 비독립성 또는 "클러스터링"에 대해 조정되었습니다. 

All statistical analyses were performed using SAS 9.4 (SAS Institute, Cary, North Carolina). A P value < .05 was considered to be statistically significant. This study examined the associations of final grade with gender and covariates using chi-square tests. Hierarchical ordinal regression modeling was conducted to examine the effects of student and evaluator characteristics on a student’s grade (“exceptional,” “above expectations,” or “meets expectations”), adjusting for nonindependence, or “clustering,” of evaluators who rated more than one student.

일변량 모형에서 P 값이 .05인 성별 및 공변량은 단계적 선택 절차에 의해 구축된 다중 변수 회귀 모형에 통합되었습니다. 잔차 분산을 유의하게 감소시킨 변수는 최종 모형에서 유지되었습니다. 
Gender and covariates with a P value < .05 in the univariable model were incorporated into a multivariable regression model, which was built by the stepwise selection procedure. Variables that significantly reduced residual variance were retained in the final model.

동시성을 피하기 위해 두 독립 변수에 대해 파이 계수를 추정했습니다. 변수 간의 높은 공리성이 관측된 경우(r > 0.6) 다중 변수 모형화에 대한 학생의 성적과 가장 관련된 변수를 선택했습니다. 가정의학과 정신의학 분야에서의 평가 횟수가 적기 때문에, 다변수 모델링을 위해 이러한 전문 분야의 데이터가 결합되었습니다. 주효과 모형을 만든 후 유의성에 대한 교호작용 항이 탐색되었습니다. 
To avoid colinearity, phi coefficients were estimated for two independent variables. If high colinearity among variables was observed (r > 0.6), we selected the most relevant variable to the student’s grade for multivariable modeling. Because of the small number of evaluations in family medicine and psychiatry, data from these specialties were combined for the multivariable modeling. After the main effects model was built, interaction terms were explored for significance. 

결과
Results

따라서 최종 연구 데이터 세트는 4,272개의 CPE로 구성되었으며, 이는 155명의 학생의 성과와 관련하여 829명의 평가자가 완료하였다. 평균(SD) USMLE 단계(학생 및 평가자 통계는 표 1 참조)
Thus, the final study dataset comprised 4,272 CPEs, which were completed by 829 evaluators regarding the performance of 155 students. The mean (SD) USMLE Step (See Table 1 for student and evaluator demographics.)



학생당 CPE 수(중간값 27, IQR 6–39)와 평가자당 CPE 수(중간값 3, IQR 1–7)에 변동이 있었다. 각 임상실습, 학생 및 평가자 특성은 받은 성적 분포에서 통계적으로 유의한 차이와 관련이 있었다. (표 2 참조) 
There was variability in the number of CPEs per student (median 27, IQR 6–39) and CPEs per evaluator (median 3, IQR 1–7). Each clerkship, student, and evaluator characteristic examined was associated with a statistically significant difference in the distribution of grades received. (See Table 2.) 



단일 변수 모형에서는 모든 예측 변수가 등급과 연관되었습니다. 교수 연령과 교육 수준(파이 계수 0.84) 간의 상관관계가 높기 때문에 다변수 모형에는 평가자 연령만 고려되었습니다. 점수 변동의 총 32.9%는 다중 변수 모델에서 within-evaluator nesting of grades(내포 등급 상관 계수 = 0.329, P < 0.001)에 의해 설명되었다. 일변량 모형의 모든 유의한 차이는 다변량 모형에서 유지되었습니다. 다중 변수 모형에서 여학생 성별은 더 높은 성적과 연관되었습니다(수정 오즈비[AOR], 1.30; 95% CI, 1.13–1.50). 여성 교수진의 성별은 낮은 성적과 관련이 있었다(AOR, 0.72, 95% CI, 0.55–0.93). 관찰 시간이 길어진 것, 학생 연령이 높은 것, 평가자 연령이 낮은 것 모두 높은 성적과 관련이 있었다. 내과 평가자는 더 나은 점수를 줄 확률이 가장 높았고 산부인과 평가자는 가장 낮았다. (표 3 참조) 
In univariable models, all predictors were associated with the grade. Because of high correlation between faculty age and training level (phi coefficient 0.84), only evaluator age was considered for the multivariable model. A total of 32.9% of the variability in the grades was accounted for by within-evaluator nesting of grades in the multivariable model (intraclass correlation coefficient = 0.329; P < .001). All significant differences in the univariable models were retained in the multivariable model. In the multivariable model, female student gender was associated with higher grades (adjusted odds ratio [AOR], 1.30; 95% CI, 1.13–1.50). Female faculty gender was associated with lower grades (AOR, 0.72; 95% CI, 0.55–0.93). Longer observation time, older student age, and younger evaluator age were all associated with higher grades. Evaluators in internal medicine had the highest odds of giving a better grade, while those in obstetrics–gynecology had the lowest odds. (See Table 3.) 

다른 모든 주효과에 대해 보정했을 때, [학생과 교수 성별 간의 교호작용]도 유의했습니다(P = 0.03; 그림 1 참조). 남성 평가자는 남학생과 여학생의 점수(P = .29)에서 큰 차이는 없었지만, 여성 평가자는 여학생에 비해 남학생에게 낮은 점수를 주었다(P <.001).
The interaction between student and faculty gender, adjusted for all other main effects, was also significant (P = .03; see Figure 1). Male evaluators did not significantly differ in their grading of male and female students (P = .29); however, female evaluators gave lower grades to male students compared with female students (P < .001). 

또한, [교수 연령과 교수 성별 간에 유의한 교호작용]이 발견되었으며(P = .047), 나이 든 남성 평가자는 젊은 남성(P = 0.001)에 비해 현저히 낮은 점수를 주었지만(P = .71) 여성 연령대의 성적 차이는 유의하지 않았다. (그림 2 참조). 학생 성별과 학생 연령 사이에는 교호작용이 없었습니다(P = .63).  
Additionally, a significant interaction between faculty age and faculty gender was found (P = .047), with older male evaluators giving significantly lower grades than younger men (P = .001), while there was no significant difference in grading for the female age groups (P = .71). (See Figure 2). There was no interaction between student gender and student age (P = .63). 

 

 

고찰
Discussion

그러나, 우리의 연구 결과는 의대생과 의대생 사이의 임상실습 성적등급의 불일치discrepancy가 주로 여성 평가자에 의해 발생했음을 보여준다.
However, our findings show that the discrepancy in clinical performance grades between male and female medical students was driven primarily by female evaluators. 

의대생 임상성과에 대한 남녀 평가자의 평가 차이가 가장 복잡하다. 의대생들의 임상 성과는 의학적 지식과 임상 통찰력 이외의 속성에 의해 영향을 받는다. 실제로 두 연구에서 공감을 보인 의대생들이 임상평가에서 더 좋은 평가를 받았고, 여성이 남성보다 공감 척도에서 더 높은 점수를 받았다고 보고했다.  
The discrepancy between male and female evaluators’ assessment of medical students’ clinical performance is most perplexing. Medical students’ clinical performance is influenced by attributes outside of medical knowledge and clinical acumen. Indeed, two studies22,23 reported that medical students who showed empathy received better clinical evaluations, and women scored higher on empathy scales than men did. 

임상환경에서 여성이 남성을 능가한다는 문헌의 본문을 적용한다면, 

  • 여성 평가자는 여학생에서 우수한 성적을 정확하게 검출한 반면 
  • 남성 평가자는 이러한 차이를 감지하지 못했거나 채점방식에 치우쳤다는 것을 알 수 있다. 

If the body of literature showing that women outperform men in the clinical setting is applied, our findings suggest

  • that female evaluators accurately detected superior performance in their female students,
  • while male evaluators either were unable to detect these differences or were biased in their grading methods. 

그러나 이번 연구 결과는 성별과 학업 성취도, 평가 간의 훨씬 더 복잡한 상호작용을 부각시킬 가능성이 높다. 초등교육계와 마찬가지로 여학생의 '학습 태도'도 한몫할 수 있고, 동성 평가자의 역할 모델 가능성과 이성 평가생의 고정관념적 위협도 있어 평가자의 성별에 따라 학생에게 영향을 미칠 수 있다. 또 다른 문제가 될 수 있는 것은 환자가 학생의 성별에 따라 의대생과 다르게 상호작용할 수 있다는 점이며, 이로 인해 의대생들의 성과 평가에도 영향을 미칠 수 있다는 점이다.
However, it is likely that this finding highlights an even more complicated interplay between gender and academic performance and assessment. As in the primary education world, female students’ “learning attitude” may also play a role, as well as the possible role modeling of same-gender evaluators and the stereotype threat of opposite-gender graders, which may influence students to perform differently depending on the gender of their evaluators. Another potential complicating matter is that patients may interact differently with medical students depending on the student’s gender, which could also affect the assessment of their performance.

원인이 무엇이든 간에, 우리의 연구결과는 남녀 학생들이 각기 다른 임상성과를 경험하고 있으며, 평가자의 성별이 이러한 차이를 일으키는 독립적인 동인임을 시사하고 있다는 점에서 우려된다.
Whatever the cause, it is concerning that our study findings suggest that male and female students experience different gradings of their clinical performances, and that the gender of the evaluator is an independent driver of this difference. 

우리의 데이터는 또한 [평가자 연령과 성별 간에 유의한 상호작용]을 발견했으며, 젊은 남성 평가자가 모든 연령 그룹에서 나이 든 남성 평가자보다 높은 점수를 수여했다. 젊은 평가자들이 다른 연구에서 더 관대한 학년인 것으로 밝혀진 반면, 우리가 아는 바로는 연령-성별 상호작용은 다른 연구에서는 조사되지 않았기에, 이러한 발견은 추가적인 조사를 필요로 한다. 다시 한 번, 내적 평가자의 특성이 학생들의 차별성 평가를 초래했다는 점을 우려한다. 평가자들에 대한 훈련이 필요하거나, [평가자가 공정한 임상실습 점수를 줄 능력이 있는지]를 고려할 때 [평가자의 특성]을 고려해야 한다.
Our data also found a significant interaction between evaluator age and gender, with younger male evaluators awarding higher grades than older male evaluators and than female evaluators in all age groups. While younger evaluators have been found to be more lenient graders in other studies,27,28 to our knowledge the age–gender interaction has not been examined elsewhere, and this finding warrants additional investigation. Again, it is concerning that intrinsic evaluator characteristics have led to differential grading of students. Either improved training of graders is needed, or the characteristics of the evaluators must be taken into account when considering their ability to give fair clerkship grades. 

우리의 자료는 또한 우리 학교의 임상실습에서 [전공과목별로 평가등급에 상당한 차이]를 보여주는데, 이 결과는 다른 많은 학교에도 적용될 것이다. CPE에 대한 일관된 접근법을 제공하기 위해 이러한 가변성을 검사해야 한다. CPE를 살펴볼 때 학생들이 평가자와 함께 보내는 시간뿐만 아니라 서로 다른 핵심 임상실습의 구조와 기간의 차이를 고려해야 한다. 
Our data also demonstrate substantial differences in the way clerkship students are graded by department at our school, a finding that we suspect applies to many schools. This variability should be examined to provide a consistent approach to CPEs. Differences in the structure and duration of the different core clerkships, as well as the time students spend with evaluators, must be taken into consideration when looking at CPEs.

데이터 집합에서 개별 수준 데이터를 사용할 수 없기 때문에 임상 성과 등급을 표준화된 테스트 점수와 조정하거나 비교할 수 없었습니다. 또한, 우리는 성별 표현과 2013-2014년 의과대학에서의 성별 상호작용이 성별 관계와 세대 차이가 다른 방식으로 데이터를 왜곡할 수 있는 예년과 매우 다를 수 있다는 것을 인정한다.

We were not able to adjust for or compare clinical performance grades with standardized test scores, since the individual-level data were not available in our dataset. Further, we recognize that gender representation, and thus gender interactions at a medical school in 2013–2014, might be very different from what was obtained in previous years, when gender relationships and generational differences would perhaps skew data in other ways. 

 


Acad Med. 2017 Jun;92(6):835-840.

 doi: 10.1097/ACM.0000000000001565.

Clinical Performance Evaluations of Third-Year Medical Students and Association With Student and Evaluator Gender

Alison Riese 1Leah RappaportBrian AlversonSangshin ParkRandal M Rockney

Affiliations collapse

Affiliation

  • 1A. Riese is assistant professor, Department of Pediatrics and Medical Science, Section of Medical Education, Alpert Medical School of Brown University, Providence, Rhode Island.L. Rappaport is a first-year pediatrics resident, University of Michigan Medical School, Ann Arbor, Michigan.B. Alverson is associate professor, Department of Pediatrics and Medical Science, Section of Medical Education, Alpert Medical School of Brown University, Providence, Rhode Island.S. Park is postdoctoral research associate, Alpert Medical School of Brown University and Center for International Health Research at Rhode Island Hospital, Providence, Rhode Island.R.M. Rockney is professor, Department of Pediatrics, Family Medicine, and Medical Science, Section of Medical Education, Alpert Medical School of Brown University, Providence, Rhode Island.
  • PMID: 28099178
  • DOI: 10.1097/ACM.0000000000001565Abstract
  • Purpose: Clinical performance evaluations are major components of medical school clerkship grades. But are they sufficiently objective? This study aimed to determine whether student and evaluator gender is associated with assessment of overall clinical performance.Results: Female students were more likely to receive a better grade than males (adjusted odds ratio [AOR] 1.30, 95% confidence interval [CI] 1.13-1.50), and female evaluators awarded lower grades than males (AOR 0.72, 95% CI 0.55-0.93), adjusting for department, observation time, and student and evaluator age. The interaction between student and evaluator gender was significant (P = .03), with female evaluators assigning higher grades to female students, while male evaluators' grading did not differ by student gender. Students who spent a short time with evaluators were also more likely to get a lower grade.
  • Conclusions: A one-year examination of all third-year clerkship clinical performance evaluations at a single institution revealed that male and female evaluators rated male and female students differently, even when accounting for other measured variables.
  • Method: This was a retrospective analysis of 4,272 core clerkship clinical performance evaluations by 829 evaluators of 155 third-year students, within the Alpert Medical School grading database for the 2013-2014 academic year. Overall clinical performance, assessed on a three-point scale (meets expectations, above expectations, exceptional), was extracted from each evaluation, as well as evaluator gender, age, training level, department, student gender and age, and length of observation time. Hierarchical ordinal regression modeling was conducted to account for clustering of evaluations.

공정하게 만들기: 학습자와 평가자의 공정한 평가에 대한 관점 (Med Educ, 2021)

Making it fair: Learners’ and assessors’ perspectives of the attributes of fair judgement
Nyoli Valentine1 | Ernst Michael Shanahan1 | Steven J. Durning2 | Lambert Schuwirth1

 

1 도입
1 INTRODUCTION

교육에서의 평가가 공정해야 한다는 데는 폭넓은 합의가 있다.1 전통적으로 평가의 공정성을 수호하기 위해 구인 타당도와 신뢰도 증거가 중심적이었다.2-4 그러나 타당도와 의대 교육의 개념 자체는 패러다임 변화를 겪었다. 역량 기반 의대 교육은 전통적인 목표, 측정 기반 평가와 점점 상충되는 것으로 보인다.3, 6-14 이러한 인식된 불일치는 평가에서 [인간의 판단을 수용하고 주관적인 성격을 수용]하기 위해 문헌 내에서 점점 더 큰 반향을 불러일으켰다.3, 4, 8-12, 14-19, 그러나 수용에 있어 평가에서 인간의 판단, '무엇이 인간의 판단을 "공정하게" 만드는가?'라는 중요한 질문이 제기되었다. 이것에 대한 통찰력이 없다면 인간의 판단은 계속해서 너무 '주관적이고' 불공평한 것으로 여겨질 것이다.
There is broad agreement that assessment in education should be fair.1 Traditionally, evidence of construct validity and reliability has been central to defend fairness of assessment.2-4 However, both the notion of validity5 and medical education itself have undergone a paradigm shift. Competency-based medical education is increasingly seen as being at odds with traditional objective, measurement-based assessments.3, 6-14 This perceived misalignment has led to an increasingly resounding push within the literature to embrace human judgement in assessment and accept its subjective nature.3, 4, 8-12, 14-19, 13 However, in embracing human judgement in assessment, an important question has arisen: ‘What makes human judgement “fair”?’. Without insight into this, human judgement will continue to be viewed as too ‘subjective’ and unfair.

평가의 필수 요소이기는 하지만, 공정성에 대해 만장일치로 합의된 이해는 없으며, '공정'은 이해관계자마다 다른 것을 의미한다.20 이 구조의 모호한elusiveness 특성 때문에 정의하기가 어렵다.6 단순한 정의를 갖는다는 것은 [복잡한, 다차원적, 맥락 의존적 구조]의 간단한 규칙으로 환원가능하다는 이야기이며, 이것은 현재 상황의 복잡성을 대변하지 못할 것이기에, '정의내리기 어렵다는 것'이 어쩌면 좋은 일이라고 주장할 수 있다. 간단한 정의로 합의되지 않고, 정의가 잠재적으로 유용하지 않다는 점을 고려할 때, 전략을 바꾸고 공정성의 구성 요소에 집중하는 것이 더 효과적일 수 있다
Despite being an essential element of assessment, there is no unanimous agreed understanding of fairness, with ‘fair’ meaning different things to different stakeholders.20 The elusiveness of this construct makes it difficult to simply define.6 One could argue this is perhaps a good thing, as having a simple definition may suggest a complex, diverse, multi-dimensional, context-dependent construct can be reduced to a straightforward rule which is likely to not represent the complexity of the situation. Given that a simple definition will not likely be agreed upon20 and is potentially not useful, then perhaps changing tack and focussing on the building blocks of fairness may be more fruitful.

최근의 문헌 검토는 이러한 추론과 토대를 함께 모아 이론적으로 구성된 개념 모델을 만들었다. 이 모델은 공정성이 유지되는 가치(신뢰성, 목적에 대한 적합성, 투명성 및 방어성)를 통해 개념화될 수 있음을 확인하였다. 이 가치들은 개인 및 시스템 수준에서 유지되며, 이는 평가에서 인간 판단의 공정성을 개념에서 실제 구성요소로 변환하는 데 도움이 된다.

  • [공정한 인간 판단의 특성]에 의한 개인의 수준(기술, 경계, 전문성, 정신적 민첩성 및 증거)
  • [절차]에 의한 시스템 수준(구조적 공정성, 문서화, 여러 기회, 다중 심사원 및 유효성 증거)

A recent literature review has brought these inferences and underpinnings together to create a theoretically constructed conceptual model.7 This model identified that fairness could be conceptualised through values (credibility, fitness for purpose, transparency and defensibility) which are upheld

  • at an individual level by characteristics of fair human judgement (narrative, boundaries, expertise, mental agility and evidence) and
  • at a systems level by procedures (procedural fairness, documentation, multiple opportunities, multiple assessors and validity evidence)

    ...which help translate fairness in human judgement from concepts into practical components.

 

본 연구의 목적은 일련의 경험을 통해 학습자와 평가자의 관점에서 공정한 인간의 판단에 대한 이해를 탐구하는 것이다. 
The purpose of this study is to explore the understanding of fair human judgement from the perspectives of learners and assessors across a continuum of experiences. 

 

2 방법 2 METHODS

본 연구는 실제적인 타당성에 초점을 맞췄기 때문에 주제 분석 접근방식을 사용했다. 주제 분석은 데이터 세트 전체의 의미에 초점을 맞추고 연구자들이 집합적 또는 공유된 의미와 경험을 이해할 수 있도록 한다. 21 주제 분석은 유연하고 다양한 방식으로 수행할 수 있다.21 본 연구에서는 복잡하고 유연하지 않은 것을 이해하는 데 도움을 주기 위해 [공정한 판단에 대한 복잡하고 균일하지 않은 인식과 경험]을 이해하기 위하여 귀납적이고, 창발적이며, 지속적인 비교 접근법을 사용했다. 

As this study focussed on practical plausibility, we used a thematic analysis approach. Thematic analysis focuses on meanings across a data set and allows researchers to make sense of collective or shared meanings and experiences.21 Thematic analysis is flexible and able to conduct in many different ways.21 In this study, we used an inductive, emergent and constant comparative approach to assist in understanding the complex and non-uniform perceptions and experiences of fair judgement.

이전 개념 모델의 개발자로서, 우리는 [주제에 대한 사전 지식이 없는 것은 아니라는 것]을 알았습니다. 따라서, 우리는 참가자들의 인식이 원하는 방향으로 해석되지 않도록 하기 위해 [주제 접근법]과 보다 [귀납적 접근법] 사이의 접근 방식을 균형 있게 조정했다. 기존 모델에 매핑하기 전에 개방형 코딩에 착수했습니다. Mapping은 [참가자의 인식]과 [기존 모델] 사이의 불일치dissent를 밝히려는 의도적인 의도가 있었다. 따라서 다음과 같은 네 가지 유형의 결과를 탐색하고자 했다.

As developers of the previous conceptual model, we were aware that we were not without prior knowledge of the topic. Therefore, we balanced our approach between a thematic approach and a more inductive approach to ensure the perceptions of the participants were not interpreted in a desired direction. We undertook open coding prior to mapping to the existing model. Mapping involved a deliberate intent to uncover dissent between the participants’ perception and the existing model. As such, we sought to explore four types of outcomes:

  • 모델에 없는 음성 인식
  • 데이터에 반영되지 않은 모델의 측면
  • 모델에 존재하지만 다른 또는 추가 함축적 의미를 지닌 음성 인식
  • 모델에 맞는 음성 인식

 

  • perceptions voiced that were not in the model
  • aspects of the model that were not reflected in the data
  • perceptions voiced that existed in the model but with different or additional connotations
  • perceptions voiced which aligned with the model

참여에 대한 인센티브는 제공되지 않았다. (대유행으로 인한) Zoom을 통한 반구조적 인터뷰는 최대 60분 동안 진행되었습니다. 인터뷰는 식별된 데이터 없이 기록되고 말로 기록되었다. 
No incentive was provided to participate. Semi-structured interviews occurred via Zoom (due to the pandemic) lasting up to 60 minutes. Interviews were recorded and transcribed verbatim without any identifying data. 

[Vignett]는 구체적인 현실적 맥락에 포함된 다원적 표현이기 때문에 인터뷰의 출발점으로 선택되었다.22 Vignette은 개념의 추상적인 본질을 환원시키지만, 요인이 무엇이며 요인 간 관계가 무엇인지를 동시에 조사할 수 있게 해줍니다.
Vignettes were chosen as the starting points for the interviews as these are multivalent representations embedded in concrete realistic context.22 This reduces the abstract nature of the concept, in our case of fairness, but still allows for simultaneous investigation of factors and their relationships.22 

인터뷰에는 세 가지 Vignette이 제시되었다(부록 S1 참조). 실제 평가 시나리오를 반영할 수 있도록 저자들의 경험을 토대로 6개의 Vignete를 처음 개발했습니다. 이는 이론적으로 파생된 개념 모델에 대해 지도를 작성했으며, 따라서 개인 및 시스템 수준을 포함하여 공정한 판단과 관련된 광범위한 현안에 대한 논의를 자극했다. 
Three vignettes were presented during the interview (see Appendix S1). To ensure the vignettes reflected realistic assessment scenarios, we drew on the experience of the authors to initially develop 6 vignettes. These were mapped against the theoretically derived conceptual model, and therefore, they stimulated discussion on a broad range of issues related to fair judgement, including at an individual and system level. 

저자들과의 논의를 통해, 그 삽화는 의도적으로 학부, 대학원, 그리고 펠로우십의 다양한 교육 단계를 나타내면서 3개로 축소되었다. vignets는 또한 높은 이해도의 판단을 나타내기 위해 선택되었다. 이는 더 많은 논의를 촉진하고 실질적인 적용 가능성을 가질 것으로 예상되었기 때문이다.
Through discussion with the authors, the vignettes were reduced to three, deliberately representing different stages of training, under-graduate, post-graduate and post fellowship. The vignettes were also chosen to represent high-stakes judgements, as this was anticipated to promote more discussion and also have more practical applicability. 

이 연구의 목적은 공정한 판단의 특성에 대한 참가자들의 인식을 이해하는 것이었기 때문에, 면담자가 지나치게 영향을 받지 않도록 하기 위해 연구자들이 공정성이 의미하는 바에 대한 어떠한 정보나 소개도 제공되지 않았다.
As the aim of the study was to understand the participants’ perceptions of the characteristics of fair judgement, no information or introduction was given about what the researchers meant by fairness, to ensure interviewees were not unduly influenced.

이 연구는 2020년 7월부터 2020년 12월까지 실시되었다. 데이터의 수집, 분석 및 코딩은 동시에 반복적인 방식으로 발생하며, 서로에 정보를 제공한다. 처음에는 데이터를 읽어 데이터에 익숙해지도록 했으며, 조사 과정 전반에 걸쳐 데이터의 몰입도와 참여도를 높이고 의사결정을 문서화하기 위해 반사적 메모가 사용되었습니다. 초기 코드가 생성되었고, 데이터셋 전반에서 지속적인 비교를 위해 각 추가 인터뷰 완료 후 이전 성적표를 반복적으로 다시 검토했다. 코드북은 저자들 사이에 코드에 대한 토론을 위해 만들어졌다.
The study was undertaken from July 2020 until December 2020. Collection, analysis and coding of the data occurred simultaneously in an iterative manner, each informing the other. Initially, the data were read to ensure familiarisation with the data, and reflective memoing was used to improve immersion and engagement with of data and to document decision-making throughout the research process. Initial codes were generated, and earlier transcripts were repeatedly re-examined following the completion of each further interview to allow for ongoing comparisons across the dataset. A code book was created to allow for discussion between authors about the codes.

 

3 결과
3 RESULTS

20명의 인터뷰, 12명의 심사원과 8명의 대학원생들을 인터뷰했다. 다양한 전공의 여성 11명과 남성 9명이 있었다(일반 진료과, n = 10, 내과, n = 5, 수술, n = 4, 산부인과, n = 1). 대학원 이후 교육생은 1학년부터 마지막 학년까지, 심사원은 5년에서 28년의 경력까지 다양했다. 
Twenty interviews were undertaken, 12 assessors and 8 post-graduate trainees. There were 11 females and 9 males from a variety of specialties (General Practice, n = 10, internal medicine, n = 5, surgery, n = 4, obstetrics and gynaecology, n = 1). The post-graduate trainees ranged from first to final year of training, and assessors ranged from 5 to 28 years of experience. 

19번의 인터뷰 끝에 포화상태에 도달했다. 처음에 115개 코드로 코드화된 후, 참가자의 공정한 판단에 대한 인식은 3가지 주요 주제와 9가지 하위 주제로 특징지어진다. 

Saturation was reached after 19 interviews. After initially being coded into 115 codes, the participants’ perceptions of fair judgement are characterised by 3 main themes, with 9 sub-themes.

  • individual (evidence, narrative, boundaries, agility and expertise),
  • system (multiple assessors, multiple opportunities, documentation and procedural fairness) and
  • environmental factors 

 

3.1 개인별 특성
3.1 Individual characteristics

3.1.1 공정한 판단 결정은 의미 있고 건설적인 서술문을 포함할 필요가 있다.
3.1.1 Fair judgement decisions need to contain meaningful and constructive narratives

내러티브는 공정한 판단을 위해 필수적인 것으로 보였다. 내러티브는 피드백을 통해 학습자의 성찰과 개선을 허용하기 때문이다. 판단은 학습자가 성과를 개선할 수 있는 방법에 대한 명확하고 의미 있는 피드백 내러티브가 있는 경우에만 공정한 것으로 간주되었다. 학습자가 가장 관심을 가질 수 있다는 것을 자동으로 알려줍니다.
A narrative was seen to be essential for a judgement to be fair; as narratives allow for learner reflection and improvement through feedback. A judgement was only considered fair if there was a clear, meaningful feedback narrative about how a learner could improve their performance. And as such it automatically signals that the learner's best interest is at the centre.

또한 내러티브는 학습자의 성과에 대한 [학습자와 평가자의 관점을 일치시키기 위해서] 필요합니다. 평가자는 학습자에게 기대와 달리 어떻게 수행하는지 알려주어야 할 책임이 있습니다. 기습적인surprise 판단은 불공평한 것으로 간주된다.
Furthermore, a narrative is needed to align the learner and assessor's perspectives on how the learner is performing. It is the responsibility of the assessor to ensure they have attempted to inform the learner of how they are performing against expectations. A surprise judgement is considered unfair.

또한, 어려움을 겪고 있는 학생뿐 아니라, 모든 학습자에게 진정으로 판단받고 피드백을 제공할 수 있는 기회를 제공한다는 점에서 공정한 판단이 필요하다.
Furthermore, fair judgements need to be equitable in that all learners have the opportunity to be genuinely judged and provided with feedback, not just those who are struggling.

 

3.1.2 공정한 판단은 경계 안에 포함된다.
3.1.2 Fair judgements fall within boundaries

공정한 판단 결정은 '범위에 포함되는within scope' 증거와 '범위 밖의out of scope' 증거에 기초한다. 즉, 범위를 벗어나거나 범위를 벗어나는 것에 기초한다. 평가판정에 임상 성과 이외의 요소를 사용하는 경우, '대리에 의해by proxy 유능하거나 무능한' 것으로 평가되는 것은 불공정한 것으로 간주된다. 공정한 판단의 경계는 '메시지' 판단의 신뢰성이 메시지 자체와 '보낸 사람' 모두의 함수로 간주되기 때문에 심사원의 신뢰성을 결정하는 데에도 도움이 된다. 이 연구는 경계와 관련된 몇 가지 하위 주제를 강조했다.
Fair judgement decisions are based on evidence which is ‘within scope’ and what is ‘out of scope’; or in other words what is in or out of bounds.. It is considered unfair to be assessed as ‘competent or incompetent by proxy’; when factors other than clinical performance are used in making assessment judgements. The boundaries of fair judgement also help determine the credibility of the assessors because the credibility of the judgement ‘message’ is seen as a function of both the message itself and the ‘sender’. This study highlighted several sub-themes related to boundaries.

첫째, 판단 결정은 경계를 벗어나지 않기 위해 관련성이relevant 있어야 한다. 문헌 검토에서 뒷받침하는 바와 같이, [성별, 인종, 가족, 호감도와 사회적 연줄과 같은 요소]는 역량과 관련이 없는 것으로 간주되고 불공평한 것으로 간주된다.
Firstly, judgement decisions need to be relevant to remain within boundaries. As supported by the literature review, factors such as gender, race, family, likability and social connections are not considered relevant to competence and are considered unfair.

둘째, [목적 잘못된 판단 결정]은 학습자 또는 환자에게 최선의 이익이 되지 않는 경우 공정한 것의 범위를 벗어난 것으로 간주되었다. 학습자에게 높은 기대를 걸고 필요한 경우 불합격하는 것이 합리적이었지만, [뛰어난 의료 서비스를 제공할 수 있도록 [학습자가 개선되고 성공하기를 바라는 진정성 있는 목표]를 가지고 있다는 관점]에서 판단을 내려야 합니다. 사적 판단 결정을 공유하지 않으려 하거나, 학습자에 대해 험담을 하거나, 자신의 안건을 밀어붙이거나, 심사원 역할을 남용하는 등 심사원의 사리사욕과 같은 다른 모든 목표는 공정한 판단의 테두리를 벗어난 것으로 간주한다.
Secondly, judgement decisions which had a misplaced purpose, where the decision was not made in the best interests of the learner or patients, were considered outside of the boundaries of what is fair. It was considered reasonable to have high expectations of a learner and to fail if needed, but judgements need to be made in the light of having an authentic, genuine aim of wanting learners to improve and succeed, to ensure they are able to provide excellent health care. Any other aim, such as assessor self-interest including an unwillingness to share their private judgement decisions, gossiping about learners, pushing their own agenda or abusing their role as an assessor is considered out of the boundaries of a fair judgement.

만약 당신이 그 하급 의사가 더 나은 의사가 될 수 있도록 도와주는 데 관심이 있고 실제로 개입하고 싶어하는 사람이 있다면, 그들은 누군가를 찢어 놓는 것에 관심이 있기 때문이 아니라, 그들이 잘되기 때문에… 만약 당신이 그들을 도울 수 있다면, 우리는 마지막에 더 나은 의사를 얻는다.

If you’ve got somebody who is interested in helping that junior doctor become a better doctor and who actually wants to intervene not because they’re interested in tearing someone apart, but because they go okay… if you can help them then we get a better doctor at the end of it

 

3.1.3 공정한 판단 결정은 뒷받침하는 증거에 의해 뒷받침된다.
3.1.3 Fair judgement decisions are supported by supporting evidence

문헌 리뷰는 증거가 판단을 뒷받침하는 수단이라고 언급했고 복수의 근거 출처를 갖는 것이 공정성에 대한 인식을 개선했다고 제안했다. 본 연구에서는 참가자들이 이러한 전제에 동의하고 이것이 실제로 무엇을 의미하는지 상세하게 설명하였다. 이러한 맥락에서 증거는 논리, 인공물 또는 관찰과 같은 것들을 포함하는 것으로 고려되었다.
The literature review noted evidence was a means of supporting judgements and suggested that having multiple sources of evidence improved the perception of fairness. In this study, participants agreed with these premises and provided detail about what this means in practice. Evidence in this context was considered to include such things as rationale, artefacts or observation.


판단 결정judgement decision이 공정하기 위해서는 [증거의 포괄성]이 있어야 한다. 유능한 임상의가 되기 위해서는 여러 역량이 필요하며 공정한 판단 결정은 [지식뿐만 아니라 이러한 모든 역량을 고려]한다.

For judgement decisions to be fair, there needs to be comprehensiveness of evidence. Multiple competencies are needed to be a competent clinician and fair judgement decisions consider all of these competences, not just knowledge.

증거는 종단적이야 하며, 수행능력의 패턴을 고려해야 공정하다고 여겨졌다. 증거를 여러 개 가지고 있으면 삼각측정을 할 수 있다.

Evidence was expected to be longitudinal and consider patterns of performance to be considered fair. Having multiple pieces of evidence allows for triangulation.

중요한 것은 증거가 공정하다고 간주되기 위해서는 맥락이 있어야 한다는 것이다. 심사원의 중요한 역할은 맥락을 고려하여 증거를 해석하는 것이다. 전문성과 민첩성을 고려할 때 이 점을 더욱 자세히 살펴볼 수 있습니다.
mportantly, evidence needs to be contextual to be considered fair. An important role of an assessor is to interpret evidence in light of the context. This is explored further when considering expertise and agility.


마지막으로, 판단 의사결정에 대한 증거는 [전문지식의 특수성]을 허용해야 한다. 임상의사마다 개별적인 실천 방법이 다르며, 이러한 variation이 반드시 무능력인 것은 아니므로, 누군가를 그렇게 판단하는 것은 불공평한 것으로 간주된다.
Finally, evidence for judgement decisions should allow for expertise idiosyncrasy. Different clinicians will have different individual ways of practising and this variation is not necessarily incompetence, so to judge someone as such is considered unfair.

3.1.4 판단 결정을 내리는 심사원은 민첩성, 내용 및 평가 전문지식이 필요하다.
3.1.4 Assessors making judgement decisions need agility, and content and assessment expertise

모든 참가자들은 평가관의 전문성과 민첩성이 필요하다고 강조했다. 롬바르도와 아이친저는 사람들이 문제를 새로운 관점에서 생각하는 정도를 묘사하기 위해 [정신적 민첩성mental agility]이라는 용어를 만들었다. 그것은 복잡성과 모호함에 편안하고 그들의 생각을 다른 사람들에게 설명하는 것이다. 
All participants highlighted the need for assessor expertise and agility. Lombardo and Eichinger coined the phrase mental agility to describe the degree to which individuals think through problems from fresh points of views are comfortable with complexity, ambiguity and explaining their thinking to others23 

인터뷰에 응한 사람들은 공정한 판단을 하기 위해 심사원들이 여러 가지 작업을 수행해야 하는데, 이를 위해서는 민첩성과 전문지식이 필요하다고 지적했습니다. 여기에는 

  • 상황의 복잡성을 수용하는 것,
  • 수치적으로 합산할 수 없는 근거의 조각들을 잘 해석하여 유의미하게 모으고 삼각측량하는 것
  • 제시된 증거의 가중치를 고려하는 것
  • 식별된 애매한 경계 내에서 근거의 품질과 맥락을 고려하는 것이 포함된다. 

Interviewees noted that to make fair judgements, assessors have multiple tasks for which they need agility and expertise to complete. These include

  • embracing the complexity of the situation and
  • meaningfully collating and triangulating pieces of evidence that cannot be added numerically through interpreting and
  • weighing up evidence presented and
  • considering the quality and context of the evidence, within identified fuzzy boundaries. 


이런 것들이 평가자의 주요 역할로 간주되었고, 그렇지 않은 경우, 판단 결정이 불공정하다고 간주되었다. 이는 평가가 대개 실제 생활에서 이루어지기 때문에 종종 시간 압박과 함께 발생하며, 환자 안전을 보장하기 위해 실시간으로 판단을 내려야 한다.
This was considered a key role of an assessor, and if this was not done, the judgement decision was considered unfair. This also often occurs with time pressures as assessment usually occurs in real life, and judgement is needed to be made in real time to ensure patient safety.

때때로 훈련생들은 전문직업성이 부족한데, 환자들은 그들을 사랑한다. 그래서 그것은 종합적인 평가를 해석하는 문제이다.
Sometimes the trainees are not very good in terms of professionalism but then the patients love them. So it is a matter of interpreting that comprehensive assessment

 

공정한 방식으로 제시된 증거를 적절하게 해석, 심문 및 결합할 수 있으려면 [조사 과정]이 필요하다. 여기에는 [더 많은 증거를 수집]하거나 [제시된 증거에 대한 더 많은 정보를 확인하는 것]이 포함될 수 있다.
To be able to adequately interpret, interrogate and combine the evidence presented in a fair way, an investigative process is needed. This may involve collecting more evidence, or identifying more information about the evidence presented.

컨설턴트들을 좀 더 추궁하고 근본적인 문제를 파악하여 시나리오, 상황, 사건, 참석자 등을 설명하게 합니다. 그냥 가서 그 상황에 있는 사람들과 수다를 떨고… 사람들이 어떤 식으로 사건을 해석하는지 알아본다.
I grill the consultants a bit more and find out what’s the underlying issue and I get them to try and describe the scenario, what was the situation, what happened and who was there… I just go and chat to the people in that situation… and find out what people’s version of events were

 

또한 평가자는 개선을 허용할 수 있는 서술적 피드백을 제공할 수 있는지 확인하기 위한 [교육적 전문성]이 필요하다.
Furthermore, assessors need educational expertise to ensure they are able to provide narrative feedback which can allow for improvement.

 

3.2 시스템 요인
3.2 System factors

3.2.1 공정한 판단 결정이 여러 기회를 허용했다.
3.2.1 Fair judgement decisions have allowed for multiple opportunities

교육 프로그램의 진행에 대한 공정한 판단을 내리기 위해서는 학습자의 수행능력 패턴을 파악하기 위하여 여러 데이터 포인트를 수집할 수 있도록 [일정 기간 동안 역량을 입증할 수 있는 다수의 기회]를 제공해야 한다. 즉, 역량 입증 능력에 영향을 미치는 외부 요소(즉, 평가 당일에 몸이 좋지 않음)의 가능성을 줄이는 것이다. 특히, 본 연구에서는 학습자가 서술적 피드백에 응답하고 다음 평가 또는 학기 말 이전에 개선을 보여줄 시간과 작업 기회도 있어야 한다고 강조했습니다.

Fair judgments about progression in training programmes need to have provided multiple opportunities for learners to demonstrate competence over a period of time to allow for multiple data points to be collected, patterns of performance to be recognised and to reduce the chance of an external factor (ie unwell on the day of an assessment) influencing their ability to demonstrate competence. Specifically, this study emphasised that learners need to also have a time and work opportunity to respond to narrative feedback and demonstrate improvement before the next assessment or the end of term.

또한 결정을 뒷받침할 [여러 데이터 지점과 체크포인트]가 있었기 때문에 여러 번의 기회를 갖는 것이 후보자의 실패를 더 쉽게 만들어 줄 수 있다고 판단되었습니다.
Having multiple opportunities also was seen as possibly making the task of failing a candidate easier, because there were multiple data points and check points to support the decision.

작업 부하, 감정적 부하와 같은 측면에서 누군가를 failing시키는 것은 passing시키는 것보다 훨씬 더 어렵습니다. 문서화해야 할 것이나 나눠야 할 대화가 훨씬 많아진다. 만약 모든 사람에게 걸쳐서 이뤄지는, 훨씬 더 작은 체크포인트와 프로세스가 구축되어 있었다면, (지금처럼) 누군가를 실패시키는 건 기념비적인 일이 아니게 될지도 모른다.
Failing someone is much harder than passing them in terms of actually the workload… the cognitive load, the emotional load, but actually the documentation and the conversations and those sorts of things are much bigger and I guess if there were more perhaps slightly smaller check points and processes built in all the way through for everybody then perhaps it’s not as big of a monumental job to fail someone.

3.2.2 공정한 판단 결정에 복수의 심사원을 사용할 것
3.2.2 Multiple assessors are used in fair judgement decisions

이 연구는 [여러 명의 평가자를 사용하는 것]이 공정성에 기여하는 것으로 인식된다는 문헌 검토의 결과를 확인하였다. 이는 삼각측정과 광범위한 역량 평가를 가능하게 하는 더 많은 데이터를 수집할 수 있기 때문이다.
This study confirmed the findings of the literature review that using multiple assessors is perceived to contribute to fairness, because it enables more data to be collected which allows for triangulation and for a broader range of competencies to be assessed.

사실, 의료진보다 더 중요한 것은 비의료진이다. 따라서 간호 인력, 협력 의료 직원, 환자 등이 의료진보다 개인의 성과를 훨씬 더 사실적으로 보여 줄 것입니다.
In fact, even more important than medical staff is non-medical staff. So, it’s often nursing staff, allied health staff, patients, that will give a much more true [sic] picture of an individual’s performance rather than medial staff.

 

다수의 평가자는 또한 다양한 관점을 허용하고 한 명의 개별 평가자의 단일 관점을 희석시킨다.  이것은 개별 심사원의 판단을 반드시 무시하는 것이 아니라 다른 심사 결정에 비추어 고려하기 위한 것이다. 따라서, 위에서 설명한 바와 같이 전문지식의 특수성을 허용하는 문제와 관련이 있다.
Multiple assessors also allow for diverging perspectives and dilutes any one individual assessor's single perspective. This is not to necessarily ignore the judgement of any individual assessor but rather to consider this in the light of other judgement decisions. As such, it relates to the issue of allowing for expertise idiosyncrasy as described above.

여러 명의 심사원을 보유하는 것은 판단 결정, 특히 어려운 결정을 내릴 때 그룹 지원을 가능하게 한다.
Having multiple assessors also allows for group support in making judgement decisions, particularly difficult decisions.

내 생각에 그건 정말 팀 차원의 결정이었다… 우리 모두는 우리가 그에게 제공할 수 있는 것의 한계에 도달했다고 느꼈다.
I think it was very much a team decision… we all felt that we’d reached the limit of what we could offer him

 

3.2.3 문서화
3.2.3 Documentation

투명성을 보장하기 위해 판단의 모든 측면을 문서화해야 한다. 문서화에 대한 참가자들의 논의는 거의 없었으므로, 문서화가 무엇을 어떻게 수행되어야 하는지에 대한 세부 사항은 불확실하다.
To ensure transparency, all facets of the judgement need to be documented. There was minimal discussion by participants on documentation, so details of what and how documentation should occur are uncertain.

3.2.4 공정한 판단 결정을 지원하는 절차적 공정성
3.2.4 Procedural fairness supports fair judgement decisions

절차적 공정성의 중요한 요소는 [학습자에 대한 기대의 투명성]이다. 투명성은 정보의 명확성과 포괄성에 의존합니다. 정보가 부족하면 학습자가 예상하는 바를 추측해야 하고 이전의 경험을 지침으로 활용할 수 있습니다. 따라서, 학습자를 [문서화되지 않았거나 또는 전달되지 않은 기대치로 판단하는 것]은 물론이며, 기대치의 일부만 명시적으로 전달된 경우에도 불공평한 것으로 간주됩니다.
An important component of procedural fairness is transparency of expectations of the learner. Transparency relies on the information to be explicit and comprehensive; a lack of information can mean learners are required to guess what is expected of them and may use their previous experience as a guide. Judging a learner on unwritten or uncommunicated expectations is therefore seen as unfair, even when only part of the expectations were not explicitly communicated.

절차적 공정성에는 [판단이 목적에 적합한지 확인하는 것]이 포함된다. 의미 있는 근거가 결여된 [임의적인 규칙이나 판단]은 절차적으로 불공평한 것으로 간주된다. 평가자의 민첩성과 전문지식을 허용하지 않는, 엄격하고 미리 결정된 평가 양식 또는 더 나은 실무자가 되는 데 직관적으로 기여하지 않는 요소에 대한 판단이 그 예입니다. 전형적으로, 그러한 불공평은 평가의 게임으로 이어질 수 있으며, 학습자들은 가능한 최고의 의료 전문가가 되기 보다는 평가 통과에 집중해야 한다는 부담을 느낄 수 있습니다. 이는 공정하다고 볼 수 없습니다.
Procedural fairness includes ensuring judgements are fit-for-purpose. Arbitrary rules or judgements lacking a meaningful rationale are seen as procedurally unfair. Examples are rigid, predetermined assessment forms which do not allow for assessor agility and expertise or judgements about elements that do not intuitively contribute to becoming a better practitioner. Typically, such unfairness can lead to gaming of the assessment and learners feeling forced to focus on passing the assessment rather than becoming the best possible healthcare professional, which is not seen as fair.

중요한 것은, 공정한 판단은 결정의 이해 관계와 그 근거가 되는 정보의 풍부함에 비례해야 한다는 것이다.
Importantly, fair judgements have to be proportional, with alignment of the stakes of the decisions and the richness of the information on which they are based.

…왜 한 시험을 fail한 결과로 1년을 버려야 하나요?…올해는 누군가의 인생 전체입니다… 이건 큰 위험인데, 시험을 한 번 통과하지 못해서 1년 내내 해야 하는 게 공평할까요? 이 특정 시험 영역이 미래의 전문 역량 또는 역량에 대한 중요한 예측 변수와 함께 포함되는 이유에는 몇 가지 근거가 있어야 합니다.
…why would one exam constitute a failure in the whole year?… this is the whole year of somebody’s life… This is high stakes, is it fair that somebody has to do a whole year because they failed one exam?… There has to be some rationale behind why does this particular segment of the exam carry with it such an important predictor of future professional competence or capability.

 

절차적 공정성은 학습자가 상황에 대해 말하고 관점을 제공할 수 있도록 하는 것을 포함했다. 공정한 판단을 위해 심사원은 이러한 대화와 관점을 고려할 필요가 있다. 즉, 학습자는 자신이 학습한 내용에 대한 agency를 가정할 수 있으며, 대화가 이를 가능하게 하는 한 가지 방법이라고 생각합니다.
Procedural fairness importantly included allowing learners to speak and provide their perspective to the situation. This dialogue and perspective need to be considered by assessors to make fair judgements. Or in other words, the learner feels that they can assume agency over their own learning and a dialogue is a way to enable this.

…그러면 공정한 재판의 일환으로 피고인은 자신을 방어하고 불만을 제기하고 후배 컨설턴트의 이야기를 들을 기회를 가져야 합니다.

…then, as part of any kind of fair trial the accused should have an opportunity to defend themselves… present the complaints… and hear the junior consultant’s side of the story

 

절차적 공정성은 위계적 권력 격차가 학습자에게 정보, 판단 또는 피드백을 제공하는 데 방해가 되지 않도록 해야 하며, 학습자가 부당한 것으로 간주되어 응답할 수 없는 경우에도 마찬가지입니다. 이러한 권력의 차이는 평가자에서 학습자로 또는 학습자에서 평가자로 흐를 수 있습니다. 또한 절차적 공정성의 중요한 딜레마는 [피평가자에 대한 사전 지식을 갖는 것]이 한편으로는 보다 [균형 잡힌 판단을 위해 유용한 정보]를 제공할 수 있지만, 다른 한편으로는 [(아직 달성하지 못한) 남아있는 목표에 대한 생각]을 하는 것이기도 하다.
Procedural fairness needs to ensure hierarchical power differentials do not hinder the provision of information, judgement or feedback to the learner, or if the learner is unable to respond as this is seen as unfair. Such power differential could flow from the assessor to the learner or from learner to assessor. Furthermore, an important dilemma in procedural fairness is deciding between assessors having prior knowledge about a candidate which may provide useful information for a more balanced judgement on the one hand and the notion of remaining objective on the other.

공정성의 관점에서 판단은 두 가지 상황 모두에서 공정할 수 있다. 평가자는 [지속적인 관리 관점에서 학습자를 논의해야 할 진정한 필요성]을 가질 수 있지만, 이는 [향후 판단을 편향시킬 수 있는 학습자의 '명성'을 형성할 위험]과 균형을 이루어야 합니다. 학습자에 대한 편견이 이미 존재하고, 그들의 평가가 임상 성과보다는 인계 요인hand-over factor에 의해 고려되는 것은 불공평한 것으로 간주되었다. 이는 공정한 평가의 범위를 벗어난 것이기 때문이다.

From a perspective of fairness, judgements can be fair in both circumstances. Whilst assessors may have a genuine need to discuss learners from a continuity of care perspective, this clearly needs to be balanced with the risk of creating a ‘reputation’ for the learner that may bias future judgements. It was seen as unfair if a learner was prejudged and their assessment considered on hand-over factors rather than their clinical performance as this was outside the boundaries of fair assessment.

그들이 당신을 잘 안다면 어떤 면에서 도움이 될 수 있다고 생각합니다. 그들은 당신에게 건설적인 피드백과 당신의 강점에 대한 건설적인 관점을 줄 수 있습니다. 하지만 감독을 받는 사람으로서, 당신이 어려움을 겪고 있는 것들에 대해 상사에게 말할 수 있어야 한다고 생각해서, 만약 당신이 상사의 도움과 지원을 구했기 때문에 상사가 당신을 나쁘게 평가할 것 같다면, 그것은 부당하다고 생각합니다.

컨설턴트 중 한두 명에게 좋지 않은 인상을 주고 입소문이 퍼진 동료가 있는데, 저는 많은 다른 팀들이 이 사람을 매우 주의 깊게 지켜보고 그들을 조사한다고 생각합니다. 왜냐하면 부서 전체가 이 특정 수련생에 대해 편견을 가지고 있기 때문에 다소 전문적이지 않고 불공평하기 때문입니다.
I think in some ways it can be helpful if they know you well, they can give you constructive feedback and constructive views of your strengths. But I think also as the person being supervised, you need to feel like you can talk to your supervisor about things that you’re struggling with and so if you then feel like the supervisor is going to flip it back on you and assess you poorly because you’ve sought their help and support, I think that’s unfair.

There’s a colleague… who has made a very bad impression to one or two of the consultants and word of mouth has spread and I think a lot of the other teams are then very very carefully watching this person and putting them under scrutiny… it’s a bit unprofessional and unfair because… the whole division is biased against this particular trainee.

 

절차적 공정성에는 [평가자의 자기성찰 능력]도 포함된다. 여기에는 편견에 대한 그들 자신의 민감성과 성격 특성이 판단 결정에 어떻게 영향을 미칠 수 있는지를 인식하는 것이 포함될 수 있다. 이는 공정하지 못한 영향력이지만, 평가자가 심사숙고를 할 경우 완화될 수 있다고 보았다.
Procedural fairness also includes assessor self-reflectivity. This might include being aware of their own susceptibility to biases and how personality characteristics can impact judgement decisions. This is seen as an unfair influence that can be mitigated if the assessor makes the effort of reflection.

제가 평가를 할 때, 저는 자신에게 엄격해지는 경향이 있기 때문에, 다른 사람들로부터도 그것을 기대하기 때문에 그들에게 너무 가혹하게 대하고 있는 것인지 스스로 생각해 보아야 합니다. 다른 사람들을 공평하게 평가하려면 세상에 대한 자신의 해석을 이해해야 한다고 생각한다.
when I’m doing an assessment I have to think to myself… am I being too hard on them because I have a tendency to be hard on myself and therefore I expect it from others too. I think you have to have an understanding of your own interpretation of the world to be a fair assessor of others

 

마지막으로, [평가에 약간만 참여하는 평가자의 판단 결정]은 불공정한 것으로 간주된다. 참여에는 평가에 충분한 시간을 할애하고, 평가 과정에서 학습자를 관찰하기 위해 노력하고, 학습자에 대한 평가에 대한 책임을 지는 것이 포함됩니다. 또한 평가 시스템 내의 모든 직원은 평가 책임뿐만 아니라, 성과와 관련된 문제가 있을 경우 학습자와 의사소통할 책임이 있습니다.
Finally, judgement decisions from assessors only marginally engaged in assessment are considered unfair. Engagement includes spending sufficient time on the assessment, making the effort to observe learners in the assessment process and taking responsibility for a learner's assessment, having their best interest at heart. Furthermore, all staff within the assessment system, not just those directly responsible for assessment, have a responsibility to communicate with the learner if they have any concerns with their performance.

 

3.3 환경 및 문화
3.3 The environment and culture

 

이 연구는 공정한 판단에 대한 또 다른 구성 요소인 판단 결정이 이루어지는 [환경]을 강조하였다. 학습자는 미래의 건강 전문가이며, 잘 교육된 커뮤니티의 기대가 있습니다. 따라서 판단 결정은 환자 치료와 지역사회(작업 커뮤니티 포함)에 미치는 영향을 고려하는 경우에 공정한 것으로 간주한다. 환자에게 공정하게 대하기 위해 학습자는 기대치를 충족하거나 추가 기회를 얻을 수 있어야 합니다. [환자에 대한 공정성]과 [학습자에 대한 공정성] 사이에 긴장이 있다면 환자에 대한 공정성이 더 중요하다고 판단되었다.

This study highlighted another component to fair judgement that is the environment in which the judgement decisions are made. Learners are future health professionals, and there is community expectation they are well trained. Judgement decisions are, therefore, seen as fair if they consider the impact on patient care and the community, including their working community. To be fair to patients, learners need to meet expectations or earn the right to further opportunities. If there was a tension between fairness to the patient and fairness to the learner, fairness to the patient was seen as more important.

…결국 이 문제의 중심에 있는 사람은 환자입니다… 그래서 나는 이 모든 것을 실제로 그렇게 바라볼 것이다.
…but ultimately the person at the centre of this is the patients… So that’s how I would actually view this whole thing.

 

게다가, [어려운 판단을 내리지 않는 것]은 학습자들이 조금이라도 덜 부담스러운less high stake 상황을 바탕으로 훈련과정을 통해 더 일찍 개선할 기회를 박탈할 수 있기 때문에 불공평한 것으로 보였다. 또한 정체불명의 어려움을 겪고 있는 학습자와 함께 일해야 하는 동료와 중대한 결과를 초래하는 훨씬 더 큰 이해관계가 걸린 결정을 내려야 하는 미래의 심사원들에게도 불필요한 부담으로 이어질 수 있다.
Furthermore, not making difficult judgements was seen as unfair as it may deny learners opportunities to improve earlier in training with less high-stakes consequences. It also may lead to unnecessary burdens for colleagues who are required to work with an unidentified struggling learner, and future assessors who have to make even higher stakes decisions with graver ramifications.

 

학습자에 대한 판단은 [학습 환경이 학습을 허용]하고 [환자 치료와 학습자 자신을 위해 학습자가 개선되기를 바라는 문화]가 있는 경우에만 공정한 것으로 간주된다. 여기에는 관련 기술과 지식을 교육하는 것, 적절한 작업 부하, 학습 요구 사항 및 피드백 문화를 표현할 수 있는 기회 등이 포함됩니다.
Judgement of learners is only considered fair if the learning environment allows for learning and has a culture of wanting the learner to improve for the sake of patient care and the learner themselves. This includes ensuring relevant skills and knowledge are taught, an appropriate workload, an opportunity to express learning needs and a culture of feedback.

…주니어 컨설턴트는 매우 유능하고 업무 능력이 뛰어나지만, 단지 환경이 그것을 달성가능하게 만들어주지 못하는 것일 수도 있습니다
.…that junior consultant might be very competent and very good at their job and just not in an environment that makes that possible for them to achieve.


공정한 판단은 특히 학습자가 기대에 미치지 못할 때 [학습자의 고유한 환경을 고려]하는 환경에서만 가능합니다.
Fair judgements can only occur in an environment which considers learners’ personal unique circumstances, particularly when learners are not meeting expectations.

나는 우리가 어려움을 겪고 있는 전공의에 대해 해야 할 일은, 그들의 진행 상황을 [아주 뛰어난 전공의와 비교하는 것이 공정한지]를 결정하는 것이라고 생각한다. 그런 다음 고객에게 더 많은 교육이 필요한지 여부와 개선할 수 있는 기회를 더 많이 제공해야 합니다.
What I think we should do with the struggling registrar is decide whether it’s fair to compare their progress… with the registrar who is flying, I think that’s probably unfair. Then what we’ve got to decide is whether they need more training, and we need to give them more opportunities to improve.

4 고찰
4 DISCUSSION

 

판단 결정은 항상 [평가 시스템과 교육 시스템] 내에서 내려지며, 시스템은 인프라, 시간, 자원, 규칙, 문화 및 규정과 같은 공정한 판단 결정을 가능하게 하고 제한할 수 있다. 본 연구에서 공정한 판단에 대한 [시스템 요인]의 영향을 고려함에 있어, 문헌 검토 결과와 비교하여 다양한 요소 사이의 관계도 개선되었다. 공정한 판단 결정을 위해 복수의 심사원, 복수의 기회문서가 필요하고 절차적 공정성이 이러한 시스템 구성 요소가 발생할 수 있는 프레임워크를 제공한다는 것을 확인하였다. 
Judgement decisions are always made within assessment and educational systems, and systems can both enable and restrict fair judgement decisions such as through infrastructure, time, resources, rules, cultures and regulations. In considering the impact of system factors on fair judgement in this study, the relationship between the different components was also refined compared to the outcome of the literature review. We identified that multiple assessors, multiple opportunities and documentation are needed for fair judgement decisions and procedural fairness provides the framework to allow these system components to occur. 

이 연구는 또한 판단 결정에서 [환경의 역할]을 더 명확하게 강조했다. 보건 전문가 교육은 공백 상태에서 수행되지 않으며 공정한 판단 결정은 환자, 동료 및 더 넓은 지역사회에 미치는 영향을 고려해야 한다.
This study also highlighted more clearly the role of the environment in judgement decisions. Training of health professionals does not occur in a vacuum and fair judgement decisions must consider the impact on patients, colleagues and the wider community. 

우리의 연구결과는 평가에 대한 현대적 생각의 관점에서 관련성이 있다. 작업장 기반 평가는 많은 저자들에 의해 복잡한 시스템으로 인식되어 왔다.11, 26 시스템이 복잡한 경우, 해결책은 문제 자체만큼 복잡해야 할 가능성이 높고27 복잡한 시스템의 동적 및 예측 불가능한 특성으로 인해 환원주의와 가치와 방법을 효과적으로 사용하는 것은 논리적으로 불가능하다. 그러나 비선형적 현상에도 불구하고 복잡한 시스템의 역학, 여전히 경계, 내재화된 규칙 및 시스템 내 변화에 대한 지속적인 적응에 대한 요구 사항이 존재합니다.29 장기적인 관찰을 통해 패턴과 네트워크가 여전히 드러날 수 있다.24, 29 
Our findings have relevance in the perspective of modern ideas about assessment. Workplace-based assessment has been recognised by many authors as a complex system.11, 26 Where the system is complex, the solution likely needs to be as complex as the problem itself27 and the dynamic and unpredictable nature of complex systems logically precludes the effective use of reductionist values and methods.28 But despite the non-linear dynamics of complex systems, there are still boundaries, internalised rules and a requirement for constant adaption to the changes within the system.29 With prolonged observation, patterns and networks can still be revealed.24, 29 

이것은 의학 교육의 또 다른 지배적인 생각인 [프로그램 평가]와 연결되어 있다. 이것은 의학 교육의 또 다른 지배적인 생각인 프로그램 평가와 연결되어 있다. 프로그램 평가 원칙에는 복수의 데이터 사용, 종방향 평가, 비례성 및 의미 있는 데이터 삼각측정이 포함되며, 이를 통해 풍부한 정보 기반 의사 결정과 학습자에게 의미 있는 피드백을 제공할 수 있다. 이 연구의 데이터는 이러한 모든 전제를 뒷받침한다. 여러 명의 평가자와 평가자가 있으면 더 많은 데이터와 관점을 수집하고, 패턴을 식별하고, 구성원 확인과 삼각측정을 수행하고, 더 광범위한 역량을 평가할 수 있다. 
This links to another predominant idea in medical education; programmatic assessment. Programmatic assessment principles include the use of multiple pieces of data, longitudinal assessment, proportionality and meaningful triangulation of data allowing for rich information-based decision-making and meaningful feedback to the learner.30 This study's data supports all of these premises. Having multiple assessments and assessors allows for more data and perspectives to be collected, patterns to be identified, member checking and triangulation to take place, and to allow for a broader range of competencies to be assessed.31-33 

프로그래밍 방식 평가에서는 데이터가 단순히 수치적으로 수집될 수 없고, 심지어 맥락적으로 유사하지 않을 수도 있으며, 평가 구성요소를 쉽게 추가하는 것은 복잡한 역량 평가에 유효하지 않다는 것이 인정된다. 반대로 데이터가 이질적이기 때문에 판단의 맥락을 고려하여 의미 있는 삼각측정이 필요하다. 문헌에서는 데이터 조합의 맥락을 고려하기 위해 특정 전문지식이 필요하다는 것이 인정되었다. 이를 위해서는 서술, 경계, 평가자 민첩성 등의 추가 도구가 필요합니다(모델 참조).

In programmatic assessment, it is acknowledged that data cannot be simply numerically collated or even that it will be contextually similar, and that easy addition of assessment components is not valid for the assessment of complex competence. On the contrary, data which are heterogenous need to be meaningfully triangulated, considering the context of the judgement. Within the literature, it has been recognised that specific expertise is needed to consider context in the combination of data.24, 34-36 Additional tools such as narrative, boundaries and assessor agility are needed to do this, as noted in the model.

이 연구는 특히 공정한 판단은 일률적인 것이 아니며, [특정 상황 특성과 맥락을 포함해야만 목적에 적합한 것]으로 간주할 수 있다는 점을 강조했다. 전문가와 민첩한 평가자는 애매한 경계와 상황 맥락 내에서 증거를 수집, 심문, 상호작용 및 해석해야 한다. 이것은 이 연구에서 가장 두드러진 코드 중 하나였으며 20개 인터뷰 모두에서 목소리를 높였다. 놀랍게도, 이것은 표준화된 측정 기반 평가의 개념과 매우 근본적으로 상반된다. 인식론적으로도 마찬가지이다. Van der Vleuten은 평가자들 사이의 완벽한 신뢰성을 위해 노력하기 보다는, 더 적절한 목표는 평가 프로그램에서 [평가 데이터를 수집하고 합성하는 엄격한 방법을 개발하는 것]이라고 언급했다. 아마도 이 연구의 결과는 이해 당사자들이 이를 인식하고 workplace의 performance rating이 '측정'에 관한 것이라는 생각에서 벗어나, 역동적 시스템 환경에서 이뤄지는 전문가 '판단'에 더 근접함을 인식해야 함을 시사한다. 이것의 결론은 각 평가자judge가 공정하고 가치 있는 관점을 추가할 수 있는 충분한 전문지식을 가지고 있는 한, 평가자 간의 의견 차이가 반드시 불공평한 것은 아니라는 것이다.
This study particularly emphasised that fair judgement is not a one-size-fits-all; the specific situational characteristics and the context must be included for it to be considered fit-for-purpose. Expert and agile assessors are required to collate, interrogate, interact with and interpret the evidence within fuzzy boundaries and context of the situation. This was one of the most prominent codes present in this study and voiced in all 20 interviews. Surprisingly, this is so fundamentally—one would say epistemologically—at odds though with the idea of a standardised, measurement-based assessment. Van der Vleuten noted that rather than striving for perfect reliability among raters, a more appropriate goal would be to develop rigorous methods of collecting and synthesising assessment data in a program of assessment.30 Perhaps, this study's finding suggests stakeholders recognise this and the need to move forward from the idea that performance rating in the workplace is not as much about measurement as it is about expert ‘judgement’ in a dynamic system environment.11, 34 The corollary of this is that inter-judge disagreement is not necessarily unfair as long as each judge has sufficient expertise to add a fair and valuable perspective.15

[의미 있고 실행 가능한 피드백]과 [평가자와 학습자 사이의 합의의 필요성]은 학습 철학을 위한 평가에서 중요한 측면이다.37-40 Lee는 특정 서술과 상황별 코멘트를 사용하는 것이 판단 자체보다 연습생에게 더 많은 정보를 제공할 수 있다고 주장한다.41 우리의 연구는 이러한 아이디어를 뒷받침했다. 학습자와 평가자 모두 학습자가 개선할 수 있는 방법에 대한 피드백을 제공하여 학습이 허용되는 경우에만 판단이 공정하다고 판단했습니다. 학습 평가는 학습자가 의도적으로 연습할 수 있는 학습 및 작업 문화에서만 수행될 수 있으며, 오류는 일반적으로 학습 기회가 된다.42, 43 본 연구는 또한 그러한 환경이 판단 결정이 공정한 것으로 받아들여지기 위해 필수적이었다고 지적했다.
The need for meaningful and actionable feedback and agreement between the assessor and learner is an important aspect in an assessment for learning philosophy.37-40 Lee argues that the use of specific narratives and contextual comments may be more informative for trainees than the judgement itself.41 Our study supported these ideas. Both learners and assessors perceived judgements to be only fair if they allowed for learning, through the provision of feedback about how the learner could improve. Assessment for learning can only occur in a learning and working culture, where learners can practice purposefully, and errors typically become learning opportunities.42, 43 This study also noted such an environment was essential for judgement decisions to be accepted as fair.

우리의 데이터에 따르면 공정하고 주관적인 판단을 수용하는 것은 문제를 제기할 수 있습니다. 많은 기관의 경우, 이것은 문화적 변화 일 수 있으며, 새로운 인식론적 평가 방법에 적응하는 데 있어 교수진의 기술 격차와 어려움이 있을 수 있다.41, 44 그러나, 이 문헌 검토에 의해 확인된 공정한 인간 판단에 포함된 많은 구성요소가 반드시 새로운 것은 아니다.

  • 복수의 평가자 사용, 종단적 평가 및 복수의 근거 수집은 많은 기관에서 공통적이다.46
  • 투명한 기대, 방향, 절차 및 문서 또한 대부분의 교육 프로그램에서 공통적이다.
  • 많은 사람들이 숫자만으로는 학습에 충분하지 않다고 인정함에 따라 피드백의 중요성이 평가에서 점점 더 부각되고 있다.47-51
  • 그리고 마지막으로, 학습 환경은 의대 교육 문헌에서 점점 더 주목을 받고 있다.42

Our data suggest that embracing fair, subjective judgements can present challenges. For many institutions, this may be a cultural change44, 45 and there may be faculty skill gaps and difficulty in making adaption to new and epistemological unfamiliar methods of assessment.41, 44 This being said, however, many of the components of fair human judgement identified by this literature review are not necessarily new.

  • The use of multiple assessors, longitudinal assessments and collection of multiple pieces of evidence is common in many institutions.46 
  • Transparent expectations, orientations, procedures and documentation are also common in most training programmes.
  • The importance of feedback is increasingly recognised in assessment and the role of narrative has become more prominent as many acknowledge that numbers alone are not sufficient for learning.47-51 
  • And finally, the learning environment has been gaining increasing attention in the medical education literature.42 

실질적인 관점에서, 특히 평가 프로그램이 아래를 갖추게 한다면 심판 결정이 '공정한' 것으로 간주되도록 하는 데 도움이 될 것이다. 

  • 결정의 정당화로써 맥락적 근거를 요구하고,
  • 프로그램 전체에 피드백 서술에 대한 조항을 갖추고,
  • 판단 결정을 위한 'within scope'로 간주되는 것이 무엇인지 식별하며,
  • 전문 평가자를 참여시켜 정보를 의미 있게 수집하고 삼각측량한다.

From a practical point of view, specifically ensuring assessment programmes

  • require contextual evidence as justification for decisions,
  • have provision for feedback narrative throughout the programme,
  • identify what is considered to be ‘within scope’ for judgement decisions and
  • engage expert assessors to meaningfully collate and triangulate information will help to ensure judgement decisions are considered ‘fair’.

 

또한, 기관은 다음을 보장해야 한다.

  • 다수의 평가자가 평가 프로그램에 사용되고, 
  • 의사 결정이 잘 문서화되며, 
  • 피평가자에 대한 기대가 투명하고,
  • 의사 결정이 이루어지는 환경이 환자의 요구와 학습자 환경을 고려하도록

Furthermore, institutions can ensure

  • multiple assessors are used in assessment programmes,
  • decisions are well documented,
  • expectations of candidates are transparent and
  • the environment in which the decisions is made considers patient needs and learner circumstances.

 

5 결론
5 CONCLUSION

Woodruff는 의학교육연구원의 과제는 ['해결책'에 의해 산만해지는 것]이 아니라 [문제를 더 깊이 바라보는 것]이라고 지적했다.28 공정성의 정의에 대해 보편적으로 합의된 단순하고 일반적인 정의가 바람직해 보일 수 있지만, [공정한 판단의 기초가 무엇인지 더 잘 이해하기 위해 더 깊이 탐구하는 것]이 교육 기관이 실제로 공정한 판단이 무엇인지 협상하는 데 보다 유용한 설명을 가능하게 할 수 있다. 
Woodruff noted that the challenge for medical education researchers is to not be distracted by ‘solutions’ but to look at problems more deeply.28 Whilst a simple, universally agreed upon definition of fairness may at first glance appear to be desirable, delving deeper to better understand what the foundations of fair judgement are may allow for a more useable narrative for training institutions to negotiate what fair judgement actually is. 

 

 


Med Educ. 2021 Jun 1.

 doi: 10.1111/medu.14574. Online ahead of print.

Making it fair: Learners' and assessors' perspectives of the attributes of fair judgement

Nyoli Valentine 1Ernst Michael Shanahan 1Steven J Durning 2Lambert Schuwirth 1

Affiliations collapse

Affiliations

  • 1Prideaux Discipline of Clinical Education, Flinders University, SA, Australia.
  • 2Center for Health Professions Education, Uniformed Services University of the Health Sciences, Bethesda, MD, USA.
  • PMID: 34060124
  • DOI: 10.1111/medu.14574Abstract
  • Introduction: Optimising the use of subjective human judgement in assessment requires understanding what makes judgement fair. Whilst fairness cannot be simplistically defined, the underpinnings of fair judgement within the literature have been previously combined to create a theoretically-constructed conceptual model. However understanding assessors' and learners' perceptions of what is fair human judgement is also necessary. The aim of this study is to explore assessors' and learners' perceptions of fair human judgement, and to compare these to the conceptual model.Results: This study supported the literature-derived conceptual model suggesting fairness is a multi-dimensional construct with components at individual, system and environmental levels. At an individual level, contextual, longitudinally-collected evidence, which is supported by narrative, and falls within ill-defined boundaries is essential for fair judgement. Assessor agility and expertise are needed to interpret and interrogate evidence, identify boundaries and provide narrative feedback to allow for improvement. At a system level, factors such as multiple opportunities to demonstrate competence and improvement, multiple assessors to allow for different perspectives to be triangulated, and documentation are needed for fair judgement. These system features can be optimized through procedural fairness. Finally, appropriate learning and working environments which considers patient needs and learners personal circumstances are needed for fair judgments.
  • Discussion: This study builds on the theory-derived conceptual model demonstrating the components of fair judgement can be explicitly articulated whilst embracing the complexity and contextual nature of health-professions assessment. Thus it provides a narrative to support dialogue between learner, assessor and institutions about ensuring fair judgements in assessment.
  • Methods: A thematic analysis approach was used. A purposive sample of twelve assessors and eight post-graduate trainees undertook semi-structured interviews using vignettes. Themes were identified using the process of constant comparison. Collection, analysis and coding of the data occurred simultaneously in an iterative manner until saturation was reached.

발달시험의 시스템 프레임워크: 강점, 제약, 이슈(AMEE Guide No. 71) (Med Teach, 2012)

A systemic framework for the progress test: Strengths, constraints and issues: AMEE Guide No. 71

WILLIAM WRIGLEY, CEES PM VAN DER VLEUTEN, ADRIAN FREEMAN & ARNO MUIJTJENS
Department of Educational Development and Research, The Netherlands

 

 

 

 

 

소개 Introduction

 

보건과학 교육의 새로운 교육 철학으로서의 문제 기반 학습(PBL)의 도입은 1970년대 초 캐나다에서 맥마스터스 대학교에서 시작되었고 곧이어 네덜란드의 마스트리히트 의과대학에서 시작되었다. 이러한 변화는 학생 지향성, 심층 및 평생 학습의 PBL 신조와 일치하는 지식을 평가하기 위한 새로운 방법의 필요성을 가져왔고, 전통적인 객관식 테스트(vander Vleuten et al 1996)와 함께 인식된 단순 암기 및 시험 지향 학습의 장려를 피했다.

The introduction of problem-based learning (PBL) as a new educational philosophy in health sciences education began in the early 1970's in Canada at McMasters University and soon after at Maastricht Medical School in the Netherlands. This change brought the need for new methods to assess knowledge that were consistent with the PBL tenets of student-directedness, and deep and life-long learning, and which avoided the encouragement of rote and test-directed learning that were recognised to accompany traditional multiple-choice testing (van der Vleuten et al. 1996).

 

이러한 자극은 1970년대 말 마스트리히트 대학교와 미주리 대학교 둘 다에서 독립적으로 응용 의학 지식의 발달시험을 도입하는 결과를 가져왔다. 그 이후로, 그것은 전 세계의 의학 프로그램에서 점점 더 많이 사용되고 있다. 최근 조사에 따르면 이 종적 객관식 질문(MCQ) 평가 도구는 남 아프리카, 아시아, 유럽의 여러 나라, 중동, 남북 아메리카, 뉴질랜드와 호주(Freeman et al. 2010b)와 같은 다양한 지역을 포함하는 남극을 제외한 모든 대륙에 도입되었다.

This impetus resulted in the introduction of the progress test of applied medical knowledge in the late 1970s at both Maastricht University and the University of Missouri independently. Since then, it has been increasingly used in medical programs across the globe. A recent survey showed that this longitudinal, multiple choice question (MCQ) assessment tool has been introduced on all continents except Antarctica, involving such diverse regions as Southern Africa, Asia, several countries in Europe, the Middle East, North and South America, and in New Zealand and Australia (Freeman et al. 2010b).


의학교육의 평가 도구의 경우, 발달시험은 다른 유형의 평가와 구별되는 몇 가지 독특한 특성을 제공한다. 

  • 보통 전체 학업 프로그램 전체에 걸쳐 동시에 그리고 정기적으로 (보통 일년에 두 번에서 네 번) 의학 프로그램에 있는 모든 학생들에게 시행된다.
  • 이 시험은 학생의 연도 레벨에 관계없이 의대생 과정 수료 시 예상되는 전체 지식 영역을 표본으로 추출한다.
  • 결과 점수는 전체 프로그램의 목표(지식)에 대한 종단적, 반복적 척도이며, 커리큘럼-독립적 평가를 제공한다. (반데르 볼루텐 외 1996). 
    For an assessment tool in medical education, the progress test offers some distinctive characteristics that set it apart from other types of assessment.
  • It is usually administered to all students in the medical programme at the same time and at regular intervals (usually twice to four times yearly) throughout the entire academic programme.
  • The test samples the complete knowledge domain expected of medical students on completion of their course, regardless of the year level of the student.
  • The resultant scores provide longitudinal, repeated measures, curriculum-independent assessment of the objectives (in knowledge) of the entire medical programme. (van der Vleuten et al. 1996). 


네덜란드, 캐나다, 영국 및 아일랜드의 의과대학과 치과 및 심리학 대학원 의과대학에서 얻은 상당한 경험적 증거는 진도 시험의 종적 특성이 학습과정 전반에 걸친 학생들의 지식의 성장과 효과에 대한 독특하고 입증 가능한 측정을 제공한다는 것을 보여주었다. 
Considerable empirical evidence from medical schools in the Netherlands, Canada, United Kingdom and Ireland, as well postgraduate medical studies and schools in dentistry and psychology have shown that the longitudinal feature of the progress test provides a unique and demonstrable measurement of the growth and effectiveness of students’ knowledge acquisition throughout their course of study. 


결과적으로, 이 정보는 진단, 예측 및 교정 교육 및 학습 개입에 일관되게 사용될 수 있다. 네덜란드에서 이러한 개입은 ProF(Muijtjens et al. 2010)로 알려진 웹 기반 결과 피드백 시스템의 제공으로 도움을 받는다.

As a result, this information can be consistently used for diagnostic, prognostic and remedial teaching and learning interventions. In the Netherlands, these interventions have been aided by the provision of a web-based results feedback system known as ProF 

 

또한 종단적 데이터는 학교가 커리큘럼 목표를 충족하는 정도에 대한 평가를 제공함으로써 프로그램 검토를 위한 투명한 품질 보증 척도로 작용할 수 있다. 또한 이 테스트는 원샷 방법(Schuwirth 2007)이 아닌 연속 학습의 여러 측정 방법을 사용하여 높은 이해도의 평가 결정을 위한 보다 신뢰할 수 있는 데이터를 제공한다. 
Additionally, the longitudinal data can serve as a transparent quality assurance measure for programme reviews by providing an evaluation of the extent to which a school is meeting its curriculum objectives (van der Vleuten et al. 1996; Verhoeven et al. 2005; De Champlain et al. 2010). The test also provides more reliable data for high-stakes assessment decisions by using multiple measures of continuous learning rather than a one-shot method (Schuwirth 2007).

 

대학 간 발달시험 협업은 문항, 문항 작성자, 검토자 및 관리자의 더 큰 풀을 공유함으로써 평가의 비용 효율성을 향상시키는 수단을 제공한다. 네덜란드와 다른 컨소시엄이 채택한 협업 접근 방식은 발달시험이 지식의 교육 결과 품질을 측정하는 벤치마킹 도구가 될 수 있게 했다. 이러한 방식으로 발달시험이 성공함에 따라 국제 발달시험 개발을 고려하게 되었다. 

Inter-university progress testing collaborations provide a means of improving the cost-effectiveness of assessments by sharing a larger pool of items, item writers, reviewers, and administrators. The collaborative approach adopted by the Dutch and other consortia has enabled the progress test to become a benchmarking instrument by which to measure the quality of educational outcomes in knowledge. The success of the progress test in these ways has led to the consideration of developing an international progress test (Verhoeven et al. 2005; Schauber & Nouns 2010).


의료 프로그램의 모든 이해당사자에 대한 편익은 발달시험을 평가 시스템에 포함할 자원과 시간을 투자하기 위한 매력적인 도구로 만든다. 이러한 매력은 전 세계의 개별 의료 교육 기관 및 교수간 컨소시엄에서 점점 더 널리 사용되고 있으며 국가 및 국제 벤치마킹 관행에 사용된다는 점에서 입증된다.

  • 발달시험은 현재 영국(스완슨 외 2010), 네덜란드(슈비탈 외 2010), 독일(오스트리아 포함) 및 아프리카(아르트 외 2010), 사우디아라비아(알 알완 외 2011), 동남아시아(남아시아)의 학교에서 사용되고 있다. 뉴질랜드, 스웨덴, 핀란드, 영국 및 미국(Freeman et al. 2010b).
  • 미국의 국가 의료 검사 위원회도 다양한 국가에서 진행 상태 테스트를 제공하고 있습니다(De Champlain et al. 2010; International Foundation of Medicine 2011).
  • 발달시험에 대한 국제적인 접근법의 실현 가능성은 최근에 인정되었고(Finucane et al. 2010) 독일, 네덜란드 및 이탈리아의 의과대학에서 시험 점수를 비교한 알바노 외 연구진(1996)에 의해 처음으로 입증되었다.
  • 아일랜드, 호주, 캐나다, 포르투갈 및 서인도 제도의 교수진이 참여하는 국제 컨소시엄이 캐나다에 설립되었다. 

The benefits for all stakeholders in a medical programme make the progress test an appealing tool to invest resources and time for inclusion in an assessment regime. This attractiveness is demonstrated by its increasingly widespread use in individual medical education institutions and inter-faculty consortia around the world, and by its use for national and international benchmarking practices.

  • The progress test is currently used by national consortia in the United Kingdom (Swanson et al. 2010), The Netherlands (Schuwirth et al. 2010), in Germany (including Austria) (Nouns & Georg 2010), and in schools in Africa (Aarts et al. 2010), Saudi Arabia (Al Alwan et al. 2011), South East Asia (Mardiastuti & Werdhani 2011), the Caribbean, Australia, New Zealand, Sweden, Finland, UK, and the USA (Freeman et al. 2010b).
  • The National Board of Medical Examiners in the USA also provides progress testing in various countries (De Champlain et al. 2010; International Foundations of Medicine 2011).
  • The feasibility of an international approach to progress testing has been recently acknowledged (Finucane et al. 2010) and was first demonstrated by Albano et al (1996) who compared test scores across German, Dutch and Italian medical schools.
  • An international consortium has been established in Canada (Finucane et al. 2010; International Partnership for Progress Testing 2011) involving faculties in Ireland, Australia, Canada, Portugal and the West Indies.

 


그 중요성, 모든 이해 관계자에 대한 장점, 그리고 점점 더 널리 사용되고 있음에도 불구하고, 증거는 발달시험의 내용과 적용에 상당한 차이가 있음을 시사한다(Ricketts et al. 2010). 

  • Blueprint와 컨텐츠 샘플링 프로파일은 크게 다를 수 있습니다. 
  • 시험 관리 및 구성에서도 상당한 차이를 발견할 수 있으며, 시험 반복 횟수는 연간 2-4회, 시험 항목 수는 100~250회이다. 
  • 또한 인정된 채점 및 점수 계산 절차도 없으며, '모름' 옵션에 대해서도 차이가 있고, 무작위 찍기를 예방 및 교정하기 위한 채점공식, 결과 분석을 위한 누적 편차 방법의 사용절차 등에 차이가 있다.
  • 총괄평가 또는 형성 평가로서 시험 목적의 차이가 있어 시험 결과 상태에 따라 학생의 시험 응시 태도에 영향을 미쳐 다른 결과를 제공할 수 있다.

Despite its significance, its advantages for all stakeholders and its increasingly widespread use, evidence suggests that there is considerable variation in the content and application of the progress test (Ricketts et al. 2010).

  • The blueprint and content sampling profiles can differ widely.
  • Considerable divergence in test administration and composition can also be found, with testing repetitions varying between two to four tests per year, and the total number of items in a test differing between 100 and 250.
  • There are also no accepted scoring and score calculation procedures, with differences evident in the inclusion of the ‘don’t know’ option and formula scoring to prevent and correct for uninformed guessing, (McHarg et al. 2005) and using procedures, such as the cumulative deviation method for the analysis of results (Muijtjens et al. 2008; Schauber & Nouns 2010).
  • Furthermore, there are differences in the purpose of the test as a summative or formative assessment, which can influence the student's test-taking attitude according to the outcome status of the test, thereby providing different results.

이러한 변동은 자원, 기관의 약속 및 평가 프로그램 설계의 상이한 가용성에서 부분적으로 기인했을 가능성이 높으며 따라서 예기치 않은 것은 아니다. 또한, 이는 지역 조건과 문제를 수용하고 존중하기 위해 평가 관행이 다양해야 한다는 널리 인정된 필요성을 반영한다(2003년 Pridaux & Gordon 2002; World Federation for Medical Examination).
These variations are likely to have resulted in part from the differing availability of resources, institutional commitments and assessment programme designs, and are therefore not unexpected. They also reflect the widely acknowledged need for assessment practices to vary in order to accommodate and respect local conditions and issues (Prideaux & Gordon 2002; World Federation for Medical Examinaton 2003).


그러나 [다양한 평가 접근법을 수용하는 것]과, [타당하고 신뢰할 수 있는 데이터를 달성하기 위한 전제 조건인 엄격한 테스트 균일성과 일관성의 필요성]을 혼동하지 않는 것이 중요하다. 실제로, 영국의 최근 평가 연구 결과는 원하지 않는 결과가 평가 관행에 차이가 있을 수 있다는 것을 보여주었다.
However, it is important to not confuse the accommodation of plurality in assessment approaches with the need for rigorous test uniformity and consistency that are prerequisites for achieving valid and reliable data. Indeed, the results of a recent study of assessments in the UK showed that unwanted outcomes can result from variations in assessment practices. 


발달시험에서 일관성 및 균일성 개선의 필요성의 근거 중 하나는 의학 및 보건 과학에서 MCQ 테스트가 "구조와 무관한 분산CIV"에 대해 상당한 민감도를 보인다는 것이다.

  • 비핵심 의료 지식을 반영하는 것으로 판단된 항목에서 의심스러운 표본 추출 절차가 경험적으로 발견되었다.
  • 결함 있는 시험 항목의 빈번한 발생, 부정확한 용어의 사용, 발달시험 공동출제 시 문항 출처 편향, 시험 난이도의 변화, 최대 15%까지 점수를 낮춘 고위험 시험의 결과 결함 있는 시험 항목의 영향이 모두 입증되었다.

The need for improved consistency and uniformity in progress testing is also suggested by evidence that MCQ tests in medicine and the health sciences show considerable sensitivity for “construct-irrelevant variance” (Downing 2002).

  • Questionable sampling procedures have been empirically found in which items were judged to reflect non-core medical knowledge (Koens et al. 2005).
  • Frequent occurrences of flawed test items (Downing 2002; Jozefowicz et al. 2002; Downing 2005; Stagnaro-Green & Downing 2006; Tarrant et al. 2006; Tarrant & Ware 2008; Danish & Khan 2010), the use of imprecise terms (Holsgrove & Elzubeir 1998), item origin bias in progress test collaborations (Muijtjens et al. 2007), variation in test difficulty (van der Vleuten et al. 1996), and the influence of flawed test items in the outcome of high stakes examinations that lowered scores by up to 15% (Downing 2005; Tarrant & Ware 2008) have all been demonstrated.

시스템 발달시험 프레임워크
Systemic progress test framework

 

그림 1은 네덜란드 컨소시엄 시스템, 페닌슐라 스쿨 및 문헌에 기술된 원칙과 프로세스의 검토에서 일반적으로 채택된 체계적 발달시험 프레임워크의 주요 구성 요소를 보여준다. 

Figure 1 displays the main components of a systemic progress test framework that has been generically adapted from the Dutch consortium system, Peninsula School and from a review of the principles and processes described in the literature. 

 

Figure 1. A generic systemic progress test framework.

 

 

 

프레임워크의 주요 단계는

  • 테스트 구성,
  • 테스트 시행,
  • 결과 분석 및 검토,
  • 이해관계자에 대한 피드백

...등 4가지 단계로 구성되며, 각 구성요소와 관련된 중첩된 상호작용적 파트와, 네 가지 요소 중 세 가지 요소에서 핵심 기능으로 작동하는 품질 관리 메커니즘이 있다. 
There are four main phases of the framework, comprising

  • test construction,
  • test administration,
  • results analysis and review, and
  • feedback to stakeholders,

with nested interactive parts pertaining to each, and quality control mechanisms operating as a central feature in three of the four components.

 

개별 학교 또는 국가 또는 국제 발달시험 시스템에 대해, 검토 위원회와 관련 지역 조정자(컨소시엄의 추가 중앙 조정자)는 시험 구성, 결과 분석 및 검토, 피드백 단계에서 품질 관리 절차에서 중추적이고 재귀적인recursive 역할을 수행한다.

Whether for an individual school, or a national or international progress test system, the review committee(s) and their associated local coordinator(s) (an additional central coordinator for consortia) play pivotal and recursive roles in the quality control procedures at the test construction, results analysis and review, and feedback phases.

 

 

  • 시험문항은 작성자 또는 항목 뱅크에서 내용의 청사진에 따라 로컬 또는 중앙 코디네이터에 의해 추출됩니다.
  • 그런 다음 중앙 위원회의 검토를 거쳐 조정자가 검토한다.
  • 항목은 이 세분화 과정에서 위원회와 저자들 간에 왔다갔다 한다.
  • 최고 실무그룹(국내 또는 국가/국제 진도 시험 개요 위원회(관계자에게 피드백 하위시스템, 그림 1 참조)은 시스템의 전반적인 품질을 보장할 책임이 있으며, 주기적인 시험 검토와 시험 시공 및 분석 프로세스의 추가 개선을 통해 투입된다.
  • Items for each test are drawn from the authors or item bank by the local or central coordinator according to a blueprint of content.
  • They are then reviewed by a central committee and subsequently by the coordinator(s).
  • Items are passed back and forth between committee and authors during this refinement process.
  • A supra working group (the local or national/international progress test overview committee (in the Feedback to Stakeholders subsystem, see Figure 1) has the responsibility for ensuring the overall quality of the system, and has input through periodic test reviews and additional refinements of test construction and analyses processes.


네덜란드 컨소시엄에서는 대부분의 다른 기관과는 달리, 학생들도 [시험 항목의 품질과 정확성 검증] 및 [사후 평가 의견을 제공]하여 품질 검사에 참여하고 있으며, 이는 결과 분석 및 검토 단계에 통합된다. 이 피드백은 학생 점수 및 합격/불합격 표준을 계산할 때 항목 풀을 세분화하는 데 도움이 되는 장점이 있습니다. 또한 시험 항목의 수정과 변화에 대한 필수 입증 권장 사항으로 인해 학생들이 학습할 수 있는 장점도 있다. 다만, 이러한 evaluation을 하게되면 학생들이 사후시험에서 시험 책자와 정답을 받아야 하기 때문에 시험마다 새로운 문항을 출제해야 한다. 이로 인해 발생하는 리소스와 시간에 대한 추가 부담은 발달시험 시스템의 이 구성요소가 많은 교수진에게 매력적이지 않다는 것을 의미할 수 있다.
In the Dutch consortium, unlike in most other institutions, students are also involved in quality checks by providing substantiated, post-test evaluative comments about the quality and accuracy of the test items which are then incorporated in the results analysis and review phase. This feedback has the advantage of helping to refine the item pool in the calculation of student scores and pass/fail standards. There are also learning advantages for students that come from their revision of test items and their required substantiated recommendations for changes. However, because this evaluation requires students to receive the test booklet and answers at post-test, new test items are required to be written for each test. The extra burden on resources and time this creates may mean that this component of the progress test system is not attractive for many Faculties.

 

시스템 진행 상태 테스트 프레임워크의 구성 요소
The components of the systemic progress test framework

조직
Organisation

 

전 세계적으로 발달시험을 수용하는 많은 개별 학교가 있지만, 벤치마킹, 리소스 공유 및 비용 편익을 극대화하기 위해 국내 및 국제 대학 간 컨소시엄이 점점 더 인기를 얻고 있다. 자원이 제한된 지역에서 컨소시엄은 특히 유용한 구조적 옵션이 될 수 있다. 

Although there are many individual schools worldwide that embrace the progress test, national and international inter-university consortia are becoming increasingly popular, in order to maximise their benchmarking, resource-sharing, and cost benefits. In regions where resources are limited, a consortium may be a particularly useful structural option.

 

네덜란드와 독일 컨소시엄의 경험에 따르면 [생산적인 협업]을 위해서는 비용 분담과 자금 조달, 연구 간행물에 대한 데이터 사용, 특정 행정, 조직 및 물류 준비와 관련된 파트너십 계약이 필요할 가능성이 높다(Suwbirth et al. 2010). 모든 파트너가 기금 직원 및 인프라에 수수료를 지불한다는 합의도 필요할 수 있습니다(Nons & Georg 2010).

Experience from the Dutch and German consortia has suggested that a productive collaboration is likely to require a partnership agreement in regard to cost-sharing and funding arrangements, the use of data for research publications, as well as specific administrative, organisational and logistical arrangements (Schuwirth et al. 2010). An agreement that all partners pay fees to fund staff and infrastructure is also likely to be necessary (Nouns & Georg 2010).

시험 구성
Test construction

발달시험 시스템의 시험구성 단계는 설계도, 항목작성, 항목은행, 심사위원회, 사례관리자로 구성된 5가지 주요 구성부품을 포함한다. 
The test construction phase of the progress test system involves five main components, comprising the

  • blueprint,
  • item authoring,
  • item bank,
  • review committee and
  • case administrator.

 

이러한 부분들은 전체 활동 순서를 반영하기 위해 그림 1에서 순차적으로 번호가 매겨지지만, 실제로는 품질 관리의 유지에 종종 이들 요소들 사이의 빈번한 상호작용과 상호호혜성이 요구된다.

Although these parts are numbered sequentially in Figure 1 to reflect the overall order of activities, in practice the maintenance of quality control often requires a frequent interaction and reciprocity between these elements.

 

 

1 청사진
1 Blueprint

 

 

지식을 분류하는 청사진은 발달시험이 내용의 유효하고 신뢰할 수 있는 구성에 의존하는 기본적이고 근본적인 요구사항이다. 이 청사진은 동일한 내용의 대표적이고 균형 잡힌 샘플링을 통해 각 테스트의 적절한 타당성과 비교 가능성을 보장한다(Bridge et al. 2003). 
The blueprint of knowledge classification is a basic and fundamental requirement on which the progress test relies for the valid and reliable construction of its content. The blueprint ensures adequate validity of and comparability for each test through representative and balanced sampling of the same content (Bridge et al. 2003). 


청사진은 각 시험에 대해 규정된 내용을 포함하고 있으며, 일반적으로

장기 시스템(호흡기, 근골격계 등)과 기술(진단, 관리 등)을 포함하는 [열]

분야(해부학, 수술 등) 또는 프로세스 및 작업(질병의 메커니즘, 원칙)을 포함하는 [행]의 분류 매트릭스에 따른다. 
The blueprint contains the prescribed content for each test, usually according to a classification matrix of

  • columns containing, for example, organ systems (respiratory, musculoskeletal etc) and skills (diagnosis, management etc), and
  • rows containing disciplines (anatomy, surgery etc) or processes and tasks (mechanisms of disease, principles of therapeutics etc) (Coombes et al. 2010; Muijtjens & Wijnen 2010; Nouns & Georg 2010; Swanson et al. 2010).

이 행렬의 각 셀에는 해당 행 x 열 조합에 대해 각 검정에 포함할 항목(질문)의 합의된 빈도가 포함됩니다. 이 가중치는 지식에서 교육 프로그램의 최종 목표 측면에서 셀의 중요성 또는 우선순위를 규정한다(Muijtjens & Wijnen 2010). 

Each cell in this matrix contains the agreed frequency of items (questions) to be included in each test for that row x column combination. This weighting prescribes the importance or priority of the cells in terms of the end objectives of the educational programme in knowledge (Muijtjens & Wijnen 2010).


일부 청사진은 또한 항목이 테스트하는 인지 난이도의 다양한 수준에 대한 항목의 빈도를 지정한다. 일반적으로 지식 응용 및 문제 해결의 더 높은 인지 수준을 테스트하기 위해 항목을 작성해야 한다고 인식되어 왔다(Haladyna et al. 2002). 웨어와 토스타인(2009)은 최근 문항 품질에 대한 5가지 기준을 요약했는데, 여기에는 상위 인지 수준(응용 및 추론)에서 최소 50%를 포함하는 것이 포함되어 있다

Some blueprints also specify the frequency of items for various levels of cognitive difficulty that the items test. It has been generally recognised that items need to be written so that they test the higher cognitive levels of knowledge application and problem-solving (Haladyna et al. 2002). Ware and Torstein (2009) have recently outlined five criteria for quality items that include at least 50% of items at a higher cognitive levels (application and reasoning). 

 

청사진구축
Blueprint construction

 

청사진 내용은 보통 캐나다(Frank 2005)의 CanMEDs Good Medical Practice in UK(General Medical Council 2009), 네덜란드의 Raamplan(van Herwarden 등)과 같은 국가 인증 기관에서 개발한 학습 목표와 역량에 따라 정렬되고 반영된다. 또는 미국 대학원 의학 교육을 위한 인증 위원회(2012)의 구성원. 여기서 주목해야 할 점은 청사진이 커리큘럼에 직접 맞춰져 있지 않다는 것입니다. 교육과정이 자연스레 최종 목표와 맞물려 있지만, 발달시험의 청사진과 커리큘럼은 직접적인 연관이 없다. 이렇게 하면 모든 커리큘럼 개혁에 따라 설계도를 변경할 필요가 없습니다. 
The blueprint content is aligned to and reflects the end-of-programme learning objectives and competencies, usually according to those developed by national accreditation bodies, for example the CanMEDS in Canada (Frank 2005) Good Medical Practice in the UK (General Medical Council 2009), the Raamplan in the Netherlands (van Herwaarden et al. 2009), or those from the Accreditation Council for Graduate Medical Education in the USA (2012). It is important to note here that the blueprint is not directly aligned to a curriculum. Although the curriculum is naturally aligned with the end objectives, the progress test blueprint and curriculum are not directly related. This prevents having to change the blueprint with every curriculum reform.


시험 내용의 under-representation에 의해 타당성이 훼손되지 않도록 주의할 필요가 있다(2002년 하향). 이는 청사진의 범주가 너무 광범위하거나 정의되지 않거나, 교육 목표를 충분히 반영하지 못하거나, 범주 간 질문 빈도의 분포가 덜 객관적인 방법으로 선택되는 경우에 발생할 수 있다.
Care is required to ensure that validity is not compromised by the under-representation of test content (Downing 2002). This can occur if the categories in the blueprint are too broad or ill-defined, insufficiently reflect the educational objectives, or if the distribution of question frequencies across categories are selected by less objective means.


따라서 청사진 구성은 [행렬의 내용에 대한 결정]과 [행렬의 각 행 x 열 셀 내의 상대적 항목 가중치에 대한 결정] 등 두 가지 순차적 의사결정 과정이 필요하다. 이러한 두 가지 결정은 일반적으로 전문가의 합의에 의해 완료된다

Therefore, the blueprint construction requires two sequential decision processes – decisions about the content in the matrix and then decisions about the relative item weightings within each pertinent row x column cell of the matrix. Both these decisions are usually completed by expert consensus (Tombleson et al. 2000; McLaughlin et al. 2005; Coderre et al. 2009; Sales et al. 2010), for example by a Delphi procedure (Munro et al. 2000). 

 

청사진 구축에 공감대를 형성할 전문가를 선정할 때 고려해야 할 두 가지 중요한 요소가 있다. 

  • 청사진에 반영될 조직의 수준(조직에 따라 지역, 국가, 지역 또는 글로벌)에 부합하는지 확인하기 위한 전문가의 폭넓은 경험 
  • 항목 가중치를 결정하는 데 사용되는 기준입니다. 

There are two important factors to consider when selecting experts to seek consensus in constructing a blueprint - 

  • the experts’ breadth of experience to ensure that it corresponds to the level of organisation that the blueprint will reflect (local, national, regional or global depending on the organisation), and
  • the criteria they use to determine item weightings. 

  • 지역 또는 국가 경험을 가진 전문가를 선택하여 생태학적 및 내용적 타당성을 얻을 수 있다.
  • 국제 청사진일반적이고 문화적으로 중립적인 분류를 개발하기 위해 국제 또는 지역 실무 경험을 가진 전문가들의 참여를 필요로 할 것이다.

The selection of experts with local or national experience to devise a blueprint for progress test organisations at these corresponding levels is an approach likely to yield acceptable ecological and content validity.

An international blueprint will require the involvement of experts with international or regional practice experience to develop generic and culturally neutral classifications.

 

전체 교육 프로그램의 전체 연도 수준에서 적용 청사진의 구성을 설명하는 연구는 없는 것으로 보이지만, 일부 연구는 프로그램의 임상 학년에 대한 청사진을 구성하기 위한 내용 선택 또는 항목 가중치 부여 절차를 기술했다. 

Although there appear to be no studies that describe the construction of a blueprint for application across all year levels of an entire educational programme, a few studies have described the content selection or item weighting procedures for constructing a blueprint for the clinical years of a programme. (Munro et al. 2000; McLaughlin et al. 2005; Coderre et al. 2009; Sales et al. 2010

 

2 문항 작성

2 Item authoring

 

설계도가 작성되면 설계도 매개변수 및 항목 뱅크의 내용 격차에 따라, 발달시험의 각 문항을 준비하기 위해 다양한 전문가와 교육받은 저자가 필요합니다. 네덜란드 컨소시엄의 경험을 통해 잘 작성된 품목의 흐름을 유지하는 데 몇 가지 어려움이 있다는 것을 보여주었다.

  • 교수진과 직원들은 문항을 지속적으로 개발할 동기를 요구합니다. 특정 단위나 과정과 직접 관련이 없는 대신 프로그램의 잘못 정의된 최종 목표를 측정하는 것은 종종 어렵고 까다로운 작업이며, 이는 문헌 참조와 함께 수반되어야 한다.
  • 결과적으로, 시험 항목은 너무 상세하거나 충분히 관련이 없어서 거부되는 경우도 많다.
  • 정기적인 교육 세션, 업데이트, 강점과 개선 영역을 보여주는 저자별 항목 분석 피드백, 엄격하고 지원적인 환경(Malau-Aduli & Zimitat 2011)에서 수행된 피어리뷰 등은 항목 작성자의 동기 및 항목의 품질을 개선하는 데 도움이 될 수 있다.

Once the blueprint has been prepared, a range of expert and trained authors are required to prepare each item of the progress test according to the parameters of the blueprint and the content gaps in the item bank. Experience from the Dutch consortium has shown that there are several challenges in maintaining a flow of well-written items.

  • Faculty and staff require motivation to frequently contribute questions on a continuing basis. It is often a challenging and demanding task to produce items that are not directly related to a particular unit or course but instead measure the ill-defined end objectives of the programme, and which should be accompanied by a literature reference.
  • As a result, test items often have to be rejected because they are too detailed or not sufficiently relevant (van der Vleuten et al. 2004).
  • Regular training sessions, updates, author-specific item analysis feedback that shows strengths and areas for improvement, and peer reviews all of which are undertaken in a rigorous and supportive environment (Malau-Aduli & Zimitat 2011) can help to improve item writer motivation and the quality of items.

 

Training

 

고품질 MCQ 항목을 쓰는 것은 복잡하고 시간이 많이 걸리는 작업이다. 문항 개발 규칙에 대한 유용한 분류법을 사용할 수 있으며(Haladyna & Downing 1989a,b), 이를 수정하는 데 도움이 되는 조언이 잘 문서화되었다(Case & Swanson 2002; Haladyna et al. 2002). 문항 작성 결함의 빈번한 발생이 경험적으로 발견되었다(Downing 2002; Inchigaro-Green & Downing 2006). 이는 문항 작성자는 좋은 문항 개발을 위하여 지속적이고 주기적인 교육을 필요로 한다는 것을 의미한다. 그래야만 지속적인 개선을 보장할 뿐만 아니라 결함 품목 생산에 따른 품질 관리 점검의 지속적 시간과 비용을 줄일 수 있다.

Writing high quality MCQ items is a complex and time consuming task. A useful taxonomy of item writing rules is available (Haladyna & Downing 1989a,b), and advice to help rectify them has been well documented (Case & Swanson 2002; Haladyna et al. 2002). Frequent occurrences of item writing flaws have been empirically found (Downing 2002; Stagnaro-Green & Downing 2006). This means that item writers require ongoing and periodic training to not only ensure continual improvement in writing quality items but also to help reduce the time and cost of prolonged quality control checks resulting from the production of flawed items. 

 

Relevance

 

문항의 관련성은 발달시험의 타당성을 손상시킬 수 있는 잠재적인 오류 원인이다. 각 항목은 커리큘럼 목표의 종료를 위해 졸업 시 요구되는 핵심 지식에 따라 관련될 필요가 있다(Koens et al. 2005). 다우닝(2002)은 미래 학습이나 임상 치료를 위해 중요도가 낮은 사소한 질문의 포함이 달성 의학교육 시험에 너무 자주 나타났다고 주장해왔다. 이는 문항 개발자에게 제공된 [관련성의 정의에 대한 불명확한 기준]에서 비롯되었을 수 있다.
The relevance of items for testing a new graduate's knowledge is a potential source of error that can compromise progress test validity. Each item needs to be relevant according to the core knowledge required at graduation to meet end of curriculum objectives (Koens et al. 2005). Downing (2002) has maintained that the inclusion of trivial questions that have a low degree of importance for future learning or clinical care have too often appeared in medical education tests of achievement. This may have resulted from unclear criteria for the definition of relevance to guide item writers.


네덜란드 컨소시엄의 과거 경험에 따르면, 관련성의 정확한 정의에 대한 항목 작성자 간의 합의된 합의를 얻는 것은 상당히 어려울 수 있으며, 개념이 항목 난이도 와 잘못 혼동될 수 있다는 것을 알게 되었다. 결과적으로, 최근에는 항목을 구성하고 검토할 때 항목 작성자 간의 해석의 일관성과 정확성을 높이기 위해 네덜란드 컨소시엄 파트너 간의 합의 전문가 합의가 5가지 관련성 기준을 개발하는 데 사용되었다. 
Past experience from the Dutch consortium has found that it can be quite difficult to obtain a consensus agreement among item writers on the precise definition of relevance, and that the concept can be mistakenly confused with item difficulty. As a result, in more recent times consensual expert agreement among Dutch consortium partners has been used to develop five criteria of relevance in order to encourage more consistency and accuracy in its interpretation among item authors when constructing and reviewing items.

 

다음 사항으로 합의되었다.

  • 의학분야에 특화된 지식을 시험한다.
  • 준비지식(실제 상황에서 기능하기 위한 전제조건으로 필요한 지식)을 테스트합니다.
  • 의학의 성공적 실천에 필요한 중요한 지식이다.
  • 고위험성 또는 고위험성 의료 상황의 성공적인 처리와 실질적인 관련성이 있어야 한다.
  • 평가하는 지식은 커리큘럼에서 하나 이상의 중요한 개념의 기초를 형성해야 한다(Suwbirth 2011). 

It was agreed that the items should

  • test knowledge that is specific to the specialty of medicine,
  • test ready knowledge (knowledge required as a prerequisite to function in a practical situation),
  • be important knowledge which is required for the successful practice of medicine,
  • have a practical relevance for the successful handling of high-prevalence or high-risk medical situations, and
  • the knowledge should form the basis of one or more important concepts of the curriculum (Schuwirth 2011). \



Item format, guessing and item number

 

형식 FORMAT

 

원-베스트 답변, 대안 선택, 참-거짓, 다중 참-거짓, 확장 일치 및 복잡한 다중 선택을 포함하여 여러 가지 객관식 항목 형식이 문헌에서 설명되었다(Case & Swanson 2002; Haladyna et al. 2002). 
Several multiple choice item formats have been described in the literature, including the one-best-answer, alternative-choice, true-false, multiple true-false, extended matching and complex multiple choice (Case & Swanson 2002; Haladyna et al. 2002). 


네덜란드 컨소시엄 테스트에서 각 품목에 대해 선택된 옵션 수는 2개에서 5개까지 다양하며, 대부분 3개 또는 4개의 옵션이 있는 반면, 페닌슐라 발달시험은 일관되게 5개 옵션 문항을 사용되었다.

  • 옵션 번호의 변동은 특정 문제와 관련된 만큼 많은 대안을 구성하고, 항목에 대한 지식이 부족한 학생도 부정확하다고 쉽게 인식되는 덜 적절한 대안을 포함하도록 강요받지 않는 장점이 있다.
  • 그러나 Peninsula는 5-옵션 테스트를 일관되게 사용하여 정답이 틀릴 경우 -0.25의 일정한 감산 마크를 제공하므로 자동으로 표시되는 프로그램에서 루빅을 정기적으로 변경할 필요가 없다는 것을 발견했습니다.

In the Dutch consortium test the number of options selected for each item varies between two and five, with most having three or four options while the progress test at Peninsula has consistently used 5-option items.

  • The variation in option numbers has the advantage of constructing as many alternatives as are relevant for a particular question, and of not being forced to include less appropriate alternatives that are easily recognised as being incorrect, even by students lacking knowledge of the item.
  • However, Peninsula have found that consistently using a 5-option test provides a constant subtracted mark of –0.25 for an incorrect answer thereby removing the need to regularly alter the rubric in programmes that mark automatically.

 

찍기와 '모름' 보기

GUESSING AND THE USE OF ‘DON’T KNOW’ OPTION

 

추측에 대한 벌칙과 함께 항목의 대안 중 '모름' 옵션을 사용하는 것은 의과대학 전체에 걸쳐 다양하게 사용되어 왔으며, 결과적으로 기관들 사이의 결과에 유의한 불일치discrepancies에 기여할 수 있다

  • 네덜란드, 독일, 캐나다 컨소시엄의 진행 테스트와 반도에서 진행되는 테스트에서 추측 빈도를 줄이고 점수에 대한 추측의 영향을 줄이기 위해 포함되어 있다. 
  • 영국과 일부 미국 컨소시엄 테스트에서는 포함되지 않았다. 그것은 또한 혼합된 연구 지원을 받았다. 그들의 계산에서, 짐머만과 윌리엄스(2003)는 추측의 오차가 많은 MCQ의 다른 분산 소스보다 클 수 있다는 것을 발견했다. 
  • Muijtjens 외 연구진(1999년)은 발달시험이 프로그램의 모든 학생과 커리큘럼 전체에 걸쳐 반복적이고 종방향으로 이루어지기 때문에 "학생들이 시험에서 평가된 모든 목표를 다루지 않았을 것으로 예상하기 때문에 모르는 선택권은 불가피하다"고 주장해왔다. ( 페이지 268) 
  • Wade 외 연구진(2011)의 최근 연구 결과는 [찍기를 제어하기 위한 방법 사용]을 서포트한다. 그들은 발달시험에 대한 학생들의 인식을 조사했고, 학생들은 발달시험에서 [운과 추측]이 [지식]보다 더 큰 기여를 한다고 믿는다는 것을 발견했다. 그 믿음은 추측하기 위해 벌칙을 사용하지 않는 학교에서 훨씬 더 강했다.

The use of the ‘don’t know’ option among the alternatives of an item in combination with a penalty for guessing has been used variably across medical schools, and as a result, can contribute to significant discrepancies in outcomes between institutions.

  • It is included in the progress tests of the Dutch, German and Canadian consortia's and at Peninsula to reduce the frequency of guessing as well as to reduce the influence of guessing on the score.
  • However, in the UK and some USA consortia tests it is not included. It has also received mixed research support. From their calculations, Zimmerman and Williams (2003) found that error from guessing could be larger than for other sources of variance for many MCQs.
  • Muijtjens et al (1999) have argued that because the progress test measures achievement of the curriculum end-objectives repeatedly and longitudinally throughout the curriculum with all students in the programme, “a don't-know option is inevitable because it expects students not to have covered all the objectives assessed in the test” (p. 268).
  • The results of a recent study by Wade et al. (2011) provide empirical support for the use of methods to control for guessing. They examined students’ perceptions of the progress test and found that students believed that luck and guessing were stronger contributors to their success on the progress test than their knowledge. That belief was significantly stronger in a school that did not use a penalty for guessing.


더욱이, '모름' 옵션을 생략하는 것은 [확신에 찬 지식]과 [불확실성]에 대해 동등한 보상을 제공한다는 주장이 제기되었다(Burton 2002). 또한, 모르는 선택권의 사용은 실제 의료행위의 요구조건을 모방하는 방식으로 추측하는 관행을 단념시키면서, 학생들에게 모르는 것을 보여줌으로써 지식의 한계에 대한 척도를 제공한다.
Furthermore, it has been argued that omitting the ‘don’t know’ option and using number correct scoring gives equal reward for uncertainty as for confident knowledge (Burton 2002). Also, the use of the don’t know option provides students with a measure of the limits of their knowledge by showing them what they don’t know, while discouraging the practice of guessing in a way that emulates the requirements of real medical practice (Burton 2002).


'모름' 옵션을 포함하면 성격적으로 [위험 회피적 보기]를 선택하는 학생들을 차별함으로써 측정 오류가 발생한다고 주장하기도 한다. 그러나 수학적 분석에 따르면 이러한 효과는 예방 목적으로 설계되었다고 추측하는 측정 오류에 비해 작다(Espinoza & Gardeazabal 2010). 더 큰 불이익은 프로그램의 초기 연도에 적용될 수 있다. 매우 높은 빈도의 미지의 달성은 예상되기는 하지만, 지식의 진보적 발달과 그에 따른 동기 부여에 대한 신뢰를 떨어뜨리는 원치 않는 부정적인 결과를 가져올 수 있다.
However, some have argued that including the ‘don’t know’ option introduces measurement error by discriminating against those students whose personalities encourage them to adopt a risk-averse response set. However, mathematical analysis has suggested that this effect is small compared with the measurement error of guessing that it is designed to prevent (Espinoza & Gardeazabal 2010). A further disadvantage may apply to the early years of the programme for whom the achievement of a very high frequency of don’t-knows, although to be expected, may have the unwanted negative result of lowering confidence in their progressive development of knowledge and therefore their motivation.


이러한 주장의 개요와 '모름' 옵션의 포함에 대한 찬반 경험적 증거로부터, 옵션을 포함하는 것이 더 효과적일 수 있는 것으로 보일 것이다. 그러나 이러한 결론을 뒷받침할 증거를 제공하기 위해서는 추가 연구가 필요하다.

From this outline of the arguments and empirical evidence for and against the inclusion of the ‘don’t know’ option, it would appear that it may be more efficacious to include the option. However, further research is required to provide evidence to support this conclusion.

 

 

ITEM NUMBER

 

차이가 크다. 네덜란드와 독일의 컨소시엄은 200개, 캐나다, 180개, 그리고 영국의 학교들을 120개 또는 125개 문항을 선정한다.

  • 이 변동은 연간 시험 빈도의 함수일 수 있다.
  • 그러나 일부 연구는 너무 짧은 테스트는 과소 표현된 내용을 반영할 수 있으므로 시험의 내용 타당성과 추론 정당성에 대한 지원에 이의를 제기하였다(Downing 2002). 
  • 이와 일관되게, 상당히 많은 품목이 권장되었다(Langer & Swanson, 2010). 항목 번호와 시험 빈도 간의 신뢰성에 대한 상호작용 효과 분석은 아래에 제시되어 있다(아래 섹션 "연도 수준, 시험 빈도 및 시험 크기" 참조).

There is considerable variability in the number of items selected for the test. The Dutch and German consortia select 200, Canada, 180, and schools in the United Kingdom 120 or 125 items.

  • This variation may be a function of the test frequency per year.
  • However, some research has suggested that tests that are too short can reflect under-represented content, thereby challenging the content validity of the test and support for the legitimacy of its inferences (Downing 2002).
  • Consistent with this, a fairly large number of items have been recommended (Langer & Swanson, 2010). 

 

3 문제 은행

3 Item bank

 

모든 발달시험 시스템은 항목 은행과 관리자가 청사진에 따라 들어오는 항목 및 기존 문제은행을 안전하게 보관, 분류, 확인 및 검토해야 합니다

All progress test systems require an item bank, and an administrator to securely house, classify, check, and review incoming items and existing stocks in accordance with the blueprint.

 

정전blackout이나 퇴직retirement 규칙(예: 1년에서 5년)과 관련하여 이전 테스트에서 학생들이 친숙할 수 있는 항목을 만나는 것을 피하기 위한 합의가 필요하다.
Agreement is required in regard to the blackout or retirement rule, for example one to five years, to avoid students encountering an item they may be familiar to them from a previous test.


아이템 작성자와 관리자 모두를 위한 안전하고 잘 작동하는 아이템 뱅크를 위해서는 로컬이든 온라인이든 전용 IT 하드웨어 및 소프트웨어 리소스, 지원 및 조정이 필요합니다. 컨소시엄의 장점은 이러한 약정이 비용 효율적이 된다는 것이다.
Dedicated IT hardware and software resources, support and coordination, whether locally or online, are required for a secure and well-functioning item bank for both the item writer and administrator. An advantage for a consortium is that these arrangements become more cost-effective.


문제은행의 규모는 학년 시험 빈도, 시험 항목 수, 재사용성 정책, 사후시험에서 수험 책자와 답안 제공 여부 등에 영향을 받는다. 이러한 요소들은 은행에 필요한 새로운 항목의 빈도도 결정할 것이다. 예를 들어, 네덜란드 컨소시엄은 [3년 경과 후 아이템 재사용 정책]을 가지고 있다. 즉, 각 시험에 연간 4회 200개 항목이 요구되며, 항목 뱅크는 최소 2400개 항목(3 × 4 × 200)을 포함해야 한다.

The size of the item bank will be influenced by the frequency of the test in the academic year, the number of items in the test, the reusability policy, and whether the students are given the test booklet and answers at post-test. These factors will also determine the frequencies of new items that are required for the bank. As an example, the Dutch consortium has a policy of item reuse after the elapse of three years. This means that with 200 items required for each test four times per year, the item bank needs to contain at least 2400 items (3 × 4 × 200).

 

 

4 검토 위원회

4 Review committee and local/central coordinator(s)

 

 

문항 확인 및 검토의 반복적 프로세스는 공정 시스템의 중요한 품질 관리 기능입니다. 여기에는 각 항목이

  • 현재 문헌에 비추어 최신 상태이고,
  • 관련성이 있으며,
  • 청사진과 일관성이 있으며,
  • 각 항목에 특정 결함이 없는지 점검하는 작업이 포함된다(Haladna et al. 2002). 

An iterative process of item checking and review is an important quality control feature of the progress system. This involves checks that each item

  • is up-to-date with the current literature,
  • is relevant,
  • consistent with the blueprint,
  • and that each is free of specific item writing flaws (Haladyna et al. 2002).

 

여기에 설명된 발달시험 프레임워크에서 이러한 점검은 현지 검토 위원회와 컨소시엄에 의해 테스트 건설 단계에서 감독되며, 또한 국가 또는 국제 검토 위원회가 감독한다. 네덜란드 컨소시엄은 4개의 지역 및 1개의 국가 검토 위원회로 구성되며, 각 위원회는 기초, 임상 및 행동 과학 분야에 경험이 있는 약 6명의 위원으로 구성된다.

In the progress test framework described here, these checks are overseen during the test construction phase by a local review committee, and for consortia, also by a national or international review committee. The Dutch consortium comprises four local and one national review committee, each consisting of approximately six members who have backgrounds in the basic, clinical and behavioural sciences.


각 위원회에는 지정된 위원장 및 관련 코디네이터가 있다.

  • 문항 작성을 운영하고,
  • 품질 검사를 수행하며,
  • 위원회가 검토할 품목 은행으로부터 시험을 위한 예비 항목 세트를 구성하고,
  • 최종 시험 품목 세트의 편집 검사를 완료하고,
  • 시험 책자를 구성한다.

Each of these committees has a designated chairperson and associated coordinator to

  • organise the item authoring,
  • undertake quality checks,
  • construct a preliminary set of items for a test from the item bank for the committee to review,
  • complete editorial checks of the final set of test items, and
  • construct the test booklet.

 

시험관리
Test administration

발달시험 프레임워크의 시험 관리 구성요소의 몇 가지 특징은 시험 결과의 결과와 상당히 관련이 있다. 여기에는 시험의 목적, 시험에 포함된 연도 수준, 시험 납품 방법, 그리고 시험 빈도 및 기간이 포함된다. 그림 1은 시험 관리 하위 시스템의 중심 조직 기능으로서 시험 전달 방법을 보여준다. 

There are several features of the test administration component of the progress test framework that have significant bearing on the outcome of the test results. These involve the purpose of the test, the year levels included in the test, the test delivery method, and the test frequency and duration. Figure 1 shows the test delivery method as a central organising feature of the test administration subsystem. 

 

시험 목적 Test purpose

 

발달시험의 목적은 기관 전체에 걸쳐 다양하게 사용된다(형성, 총괄).

  • 네덜란드 컨소시엄과 Peninsula에서는 학생들이 다음 연도 수준으로 발전하기 위해 1년 내에 모든 시험 사례의 집계 결과에 기초하여 시험을 통과해야 한다.
  • 그러나, 독일과 캐나다의 컨소시엄에서는 학생들의 학습에 대한 피드백을 제공하는 결과에 주안점을 두는 형성적 접근법을 채택한다. 형성적 시험의 선택은 국가 면허 시험과 같은 외부 평가가 존재하거나 내부 등급 정책에 의해 영향을 받는 경우가 많다.
  • 네덜란드 컨소시엄은 학생들이 이 항목에 높은 위험도 평가로 대응하도록 유도하고, 이에 따라 깊고 지속적인 학습을 자극하기 위해 종합 접근법을 선정했다. 또한 이 접근 방식에는 학생과 기타 이해 관계자에게 광범위한 피드백을 제공함으로써 형성적인 초점도 포함되어 있습니다(이해 관계자에게 피드백 섹션 참조).

The purpose of the progress test as a formative or summative test is variably used across institutions.

  • In the Dutch consortium and at Peninsula it is summative whereby students are required to pass the test, based on the aggregated results of all instances of the test (4) in a year, in order to progress to the next year level.
  • However, in the German and Canadian consortia, a formative approach is adopted in which the main focus is on the results providing feedback for the students’ learning. The choice of a formative test is often influenced by the presence of external assessment, such as a national licensing exam, or by internal grading policies.
  • The Dutch consortium selected a summative approach in order to encourage students to respond to the items as a high stakes assessment and thereby to stimulate deep and continuous learning. This approach also includes a strong formative focus through the provision of extensive feedback to students and other stakeholders (see section on Feedback to Stakeholders).

어떤 목적이든 시험 피드백의 품질과 세부사항은 영향을 받지 않아야 한다.

Experience shows that whether a combined or singular purpose is chosen, the quality and detail of the test feedback should not be affected.

동기화 테스트
Test synchronicity

컨소시엄 파트너 간의 점수를 벤치마킹하기 위해서는, 한 기관의 모든 학생 코호트에 대해 시험 관리가 같은 날 동시에 이루어지는 종이 또는 컴퓨터 기반 시험인지의 동기화된 시험이 필요하다.

  • 네덜란드 컨소시엄은 종이 기반 동기식 테스트를 사용하며 벤치마킹 이점이 단점을 능가한다는 것을 발견했다. 동기화된 시험을 보려고 한다면 물류 및 자원 압력을 생성한다. 이는 어느 정도 컴퓨터 기반 시험에 의해 완화될 수 있다.
  • 그러나 컴퓨터 테스트에서도 다른 어려움이 발생한다. 이 배열은 보통 제한된 공간이나 컴퓨터 접근 때문에 학생들이 일괄적으로 시험받아야 한다. 이러한 상황에서 학생 집단 간에 정보가 교환되는 것을 방지하기 위해 동일한 테스트의 여러 버전이 필요하다. 이를 위해서는 아이템 뱅크에서 요구되는 아이템의 수가 크게 증가하거나 아이템을 추출할 수 있는 충분히 큰 아이템 뱅크가 필요하다.

Synchronised testing, whether paper- or computer-based in which test administrations occur on the same day at the same time for all student cohorts in an institution, or with all participating institutions in a consortium, is required in order to benchmark scores among the consortium partners.

  • The Dutch consortium uses paper-based synchronised testing and has found the benchmarking benefits to outweigh the disadvantages. Synchronised testing produces logistical and resource pressures which may be alleviated by computer-based testing to some degree.
  • However, other difficulties also arise with computer testing. This arrangement usually requires students to be tested in batches because of limited space or computer access. Under these circumstances, several versions of the same test are required to prevent information being exchanged between batches of students. This necessitates either a significant increase in the number of items required in the item bank or a sufficiently large item bank from which to draw items.

네덜란드의 경험은 아이템 제작 과정에서 아이템 생산량이 문제가 될 수 있다는 것을 보여주었다. 또한 테스트 버전은 동일한 난이도를 가져야 하며 제한된 자원을 가진 컨소시엄에게는 어려운 작업이 될 수 있는 엄격한 심리측정학 교정이 필요하다.

The Dutch experience has shown that the volume of item production can become problematic in the item construction process. The versions of the test also need to be of the same difficulty and require stringent psychometric calibration which may be a daunting task for a consortium with limited resources.


동기화된 시험은 구성원들이 서로 1~2주 이내에 시험을 시행하는 독일 컨소시엄(오스트리아 기관을 포함한다)과 같이 형성적 접근법을 선택하는 시스템에서 덜 중요하다. 이런 맥락에서, 시험의 형성적 특성으로 인해 부정행위로 얻을 것이 없다는 것을 의미하고, 학생 개개인의 잠재적인 형성적 이득만을 방해하기 때문이다. 학생들이 부정행위에 대한 동기가 제거되지는 않았지만, 부정행위에 대한 동기는 크게 줄어든다.
Synchronised testing is less important with systems that choose a formative approach, such as the German consortium (which includes Austrian institutions) where members administer the test within one to two weeks of each other. In this context, the motivation for students to cheat, although not removed, is greatly diminished because the formative nature of the test means there is nothing to gain for them by cheating, and only interferes with the potential formative gains for the individual student.

 

(학생들의 성적 수준에 맞게 시험 문항이 제공되는) Computerised adaptive testing은 이러한 압력을 더 감소시키고 synchronicity 필요성을 제거할 수 있다. 그러나 이 접근법에 따라 다른 제약조건이 발생한다. 예를 들어, 모든 항목은 사전 테스트 및 교정이 필요하며, 이는 항목 작성 요건에 상당한 부담을 줄 수 있다.

Computerised adaptive testing, in which students are administered test questions that are matched to their performance level, may also reduce this pressure further and remove the need for synchronicity. However, other constraints arise with this approach. For example, all items need to be pre-tested and calibrated which can place considerable pressure on item authoring requirements.

 

연도 수준, 테스트 빈도 및 테스트 크기
Year level, test frequency and test size

 

일부 변형이 있기는 하지만, 전 세계의 대부분의 학교는 발달시험에 프로그램의 모든 연도 수준을 포함하는 것으로 보인다(Freeman et al. 2010b). 
Although there is some variation, it seems that most schools around the world include all year levels of their programme in the progress test (Freeman et al. 2010b). 


그러나, 시험을 위해 선택된 항목 수("항목 번호" 위의 하위섹션 참조)와 마찬가지로 학년 내 발달시험의 빈도는 상당히 다양하며, 보통 2회(독일 컨소시엄, (Schauber & Nambers 2010)와 4회(예: 영국의 네덜란드 컨소시엄 및 학교) 사이에 차이가 있다.
However, the frequency of progress testing within the academic year, as with the number of items selected for the test (see subsection above “Item Number”) varies considerably, usually between twice (German consortium, (Schauber & Nouns 2010)) and four times (for example, the Dutch consortium and schools in the UK).

 

공정시험에서 항목의 빈도와 개수 선택에 대한 정해진 지침은 없으며, 비용과 자원의 가용성과 같은 요소들이 영향력 있는 고려사항이다. 시험 신뢰도 검사는 진행 중인 시험 시스템에서 시험 크기와 빈도 선택을 결정하는 데 도움이 되는 유용하고 중요한 지침이다. 이를 위해, 마스트리히트 대학교 학생들이 프로그램 6년 동안 각각 획득한 2010/2011학년도 4개 진도 시험의 총 점수(수정 점수)를 사용하여 시험당 항목 번호의 신뢰성에 대한 결합된 영향을 검토하는 최근 일반화 분석이 수행되었다.
Although there are no fixed guidelines for choosing the frequency and number of items in the progress test, and factors, such as cost and the availability of resources are influential considerations, the examination of test reliability is a useful and important guide in helping to determine the selection of test size and frequency in a progress test system. To this end, a recent generalizability analysis examining the combined effect on reliability of item number per test and test frequency was undertaken using the total scores (correction scoring) in the four progress tests of the academic year 2010/2011 obtained by Maastricht University students in each of the six years of the programme.


분석 설계에는 p(사람, 즉 학생), m(측정 사건), i:m(측정 사건 내에 내포된 문항)으로 표시된 세 가지 변동 요인이 포함되었습니다. 내포라는 용어는 측정 시마다 다른 항목 집합이 사용됨을 나타냅니다. 사람은 측정의 대상이기 때문에 관심의 분산과 관련이 있다. 측정 발생 시와 측정 발생 시 항목들은 두 개의 면을 나타내며 해당 분산은 측정 오차의 원인이 됩니다. 총 분산 Vtot은 다음과 같이 정의됩니다.

The design of the analysis involved three sources of variation indicated as p (persons, that is, students), m (measurement occasions), and i:m (items nested within measurement occasions). The term nested indicates that per measurement occasion a different set of items is used. Person is the subject of measurement and, hence, is associated with the variance of interest. Measurement occasion and items within measurement occasions represent two facets and the corresponding variances contribute to measurement error. The total variance Vtot is defined as:

 

 

여기에서 Vp, Vm, Vpm, Vpm 및 Vpi:m은 측정 시점 내 사람, 측정 시점 내 항목의 주효과, 그리고 측정 시점 내 사람과 항목의 상호작용 영향의 분산 성분을 각각 나타냅니다. 일반화 가능성 계수 G는 다음과 같이 정의된다.

where Vp, Vm, Vi:m, Vpm, and Vpi:m, represent the variance components of the main effects of persons, measurement occasions, and items within measurement occasions, and the interaction effects of persons and measurement occasions, and persons and items within measurement occasions, respectively. The generalisability coefficient G is defined as:

여기서 Nm과 Ni:m은 각각 측정 횟수와 측정 횟수 내의 항목이다. 

  • 일반화 가능성 분석의 첫 번째 단계인 G 연구에서 위의 분산 성분은 사용 가능한 데이터를 기반으로 추정됩니다. 
  • 두 번째 단계인 D 연구에서 이러한 분산 추정은 위의 식에서 Nm과 Ni:m에 대한 다양한 가상 값을 대체하여 일반화 가능성 G를 예측하는 데 사용된다.

where nopagenumbers Nm and Ni:m are the numbers of measurement occasions, and items within measurement occasion, respectively.

  • In the first step of the generalizability analysis, the G study, the above variance components are estimated on the basis of the available data.
  • In the second step, the D study, these variance estimations are used to predict the generalizability G by substituting varying hypothetical values for Nm and Ni:m intheexpression above.

 

표 1은 총 분산에 대한 다섯 가지 분산 성분의 상대적 기여도를 보여줍니다. 오차항 분산 Vpi:m, 즉 사람과 항목의 교호작용 효과가 훨씬 큰 경우(72%–78%)가 되고, Vi:m, 항목 주효과 분산(20%–27%), Vp, 사람 분산(0.7%–1.5%), 측정 사건의 주효과(0.2%–1.1%), 마지막으로 Vpm이 그 뒤를 이습니다.8%–0.24%).

Table 1 presents the relative contribution of each of the five variance components to the total variance. The error term variance 

  • Vpi:m, that is, the interaction effect of persons and items, is by far the largest (72%–78%), followed by 
  • Vi:m, the item main effect variance (20%–27%), 
  • Vp, the person variance (0.7%–1.5%) Vm, the main effect of measurement occasion (0.2%–1.1%), and finally 
  • Vpm, the interaction effect of person and measurement occasion (0.08%–0.24%).

 

Table 1.  Percentage of total variance for each variance component in each year level for Maastricht University students Years 1-6 in the academic year 2010/11

 

 

표 2는 테스트 주파수(Nm) 및 테스트 크기(Ni:m) 값의 지정된 조합에 대해 계산된 일반화 계수 G에 대한 해당 값을 보여줍니다. 예상대로, 일반적인 패턴은 빈도 및 테스트 크기가 증가함에 따라 테스트 신뢰성이 증가한다는 것을 보여줍니다. 표 2의 결과는 또한 시험에 사용할 수 있는 총 문항의 양이 고정된 경우, 신뢰성이 [시험 크기]보다는 [빈도 증가]에 따라 더 유리해진다는 것을 나타낸다.

  • 예를 들어, 표 2의 1년차에 대한 신뢰도 계수는 200개 항목에 대한 두 번의 테스트에서 0.70의 신뢰도를 얻은 반면,
  • 100개 항목에 대한 네 번의 테스트는 0.74를 달성한 것을 보여줍니다. 

Table 2 shows the corresponding values for the generalizability coefficient G calculated for the indicated combinations of values for test frequency (Nm),andtestsize(Ni:m. As expected, the general pattern shows that test reliability increases with increasing frequency and test size. The results in Table 2 also indicate that, given a fixed total amount of items available for testing in an academic year, reliability becomes more favourable with an increase in the frequency rather than the test size. For example,

  • the reliability coefficients for Year 1 in Table 2 show that two tests of 200 items produced a reliability of 0.70,
  • while four tests of 100 items achieved 0.74.

 

이는 G에 대한 방정식을 점검할 때 놀랄 일이 아니다: 항목의 총량을 일정하게 유지하면서 Nm이 증가하면 오차항 Vpi:m/(Nm × Ni:m)는 변하지 않지만 오차항 Vpm/Nm은 감소하므로 신뢰도가 높아질 수 있다. 따라서 신뢰도를 위해 이러한 결과는 다른 방법보다 더 많은 테스트 횟수를 지정하고 더 작은 테스트 크기를 갖는 것이 더 낫다는 것을 시사합니다. 물론 마스트리히트 대학이 이 원칙을 최대한 따르는 것을 막는 비용과 자원 가용성에 대한 실질적인 고려가 있다.

This is not surprising when inspecting the equation for G: when Nm is increased while keeping the total amount of items Nm × Ni:m constant, the error-term Vpi:m/(Nm × Ni:m) does not change, but the error-term Vpm/Nm decreases, allowing the reliability to increase. So, for the sake of reliability these results suggest that it is better to have more test occasions and a smaller test size than the other way around. Of course there are practical considerations of cost and resource availability that prevent Maastricht University from following this principle to its utmost consequence.

 

 

Table 2.  G coefficients for test size (number of items) by test frequency for Maastricht University students Years 1-6 in the academic year 2010/11

 

 

표 2의 왼쪽 상단 패널은 1학년 0.80의 신뢰도를 위해, 네덜란드 컨소시엄이 현재 사용하고 있는 빈도와 시험 크기에 해당하는 학년당 4회, 시험당 200개 항목이 필요하다는 것을 보여준다. 이 빈도와 테스트 크기 역시 학년이 높아지는 경우 0.90보다 큰 신뢰도를 산출합니다(4~6년). 언뜻 보기에 이것은 불필요하게 높아 보일 수 있다. 그러나 특히 하위 도메인 점수에서 학생들에게 신뢰할 수 있는 피드백을 제공하는 것은 네덜란드 컨소시엄 발달시험 시스템의 매우 중요한 목적이었다. 
The upper left panel of Table 2 shows that for a reliability level of 0.80 in Year 1, four test occasions per academic year and 200 items per test is required which corresponds to the frequency and test size currently used by the Dutch consortium. This frequency and test size also produces reliabilities greater than 0.90 for the higher years (four to six). At first glance this might seem unnecessarily high. However, providing reliable feedback to students, particularly from sub-domain scores, has been a highly valued purpose of the Dutch consortium progress test system.

 

이러한 하위 영역(예: 호흡계, 혈액 및 림프계, 소화계)은 일반적으로 각각 25개 미만의 항목으로 테스트에서 표현된다. 25개 항목을 포함하는 시험에 대한 모든 연도에 걸쳐 표 2의 신뢰성 계수를 검사한 결과 하위 영역 점수가 허용 가능한 신뢰도 수준에 도달하기 위해서는 연간 4회의 빈도는 과도하지 않은not overdone 것으로 나타났다. 또한, 네덜란드 컨소시엄의 경험에 따르면, 프로그램의 학년 동안 모든 연도의 빈번한 측정은 학생들의 발달 및 종방향 진행에 대한 신뢰할 수 있는 추적과 모니터링을 극대화하는 데 도움이 된다.

These sub-domains (for example, respiratory system, blood and lymph system, digestive system) are generally represented in the test with less than 25 items each. An inspection of the reliability coefficients in Table 2 across all years for tests containing 25 items demonstrates that in order for sub-domain scores to reach an acceptable level of reliability, a frequency of four occasions per year is not overdone. Furthermore, experience has shown in the Dutch consortium that frequent measurement of all year levels during the academic year of a programme helps maximise the reliable tracking and monitoring of students’ developmental and longitudinal progression.

 

 

시험 시간 Test duration

 

각 테스트를 완료하는 데 허용되는 기간은 전 세계적으로 2.5시간(영국)에서 5시간(NBME, 미국) 사이입니다. 테스트 기간은 [테스트 문항 수]와 [각 문항을 읽는데 필요한 시간]에 따라 크게 달라집니다. 네덜란드 컨소시엄은 학생들이 추측하는 것을 단념시키는 것과 진행 테스트가 속도 테스트가 아니라는 기본 원칙에 부합되는 것 사이에서 균형을 찾는 것이 중요하다는 것을 발견했다. 경험에 따르면 단일 항목의 답변에 허용되는 유용한 시간은 약 75~85초이다. 테스트에 대해 선택한 항목 수는 청사진에 의해 규정되지만, 이 권장 사항을 달성하기 위해서는 테스트가 읽는 데 시간이 오래 걸리는 너무 많은 항목으로 구성되지 않도록 하는 것이 중요합니다.

The duration allowed to complete each test varies worldwide between 2.5 hours (UK) to five hours (NBME, USA). The duration of the test will significantly depend on the number of items in the test and the reading time required for each item. The Dutch consortium has found that it is important to find a balance between discouraging students from guessing and being consistent with the underlying principle that the progress test is not a speeded test. Experience has shown that a useful time permitted for answering a single item is approximately 75–85 seconds. Although the number of items chosen for a test will be prescribed by the blueprint, to achieve this recommendation, it is important to ensure that the test does not consist of too many items that take a lengthy time to read.

 

결과분석 및 검토
Result analysis and review

발달시험 시스템의 3단계는 시험 결과의 분석과 검토이다. 

The third phase of the progress test system involves the analysis and review of the test results.

 

 

점수계산방법
Score calculation method

 

학생의 총 점수는 그것이 계산되는 방식에 의해 크게 영향을 받는다. 사용된 두 가지 주요 점수 계산 방법은 총 점수에 기초한 점수(숫자 수정 점수 또는 수정 점수)이다. 
The total score a student achieves on an MCQ test is significantly influenced by the way in which it is calculated. The main two score calculation methods used are scores based on the total score, either

  • number correct or
  • correction scoring.

수정채점correction scoring 또는 공식채점formula scoring은 숫자 정답 점수 매김을 고려하지 않은 추측에서 발생하는 측정 오류를 제어하기 위해 사용되었다. 학생들이 이러한 형태의 오류 분산에 관여하지 않도록 하기 위해, 네덜란드 컨소시엄은 문제의 옵션 수에 따라 오답에 대한 분수 점수가 올바른 점수에서 감점되는 잘못된 점수에 대해 패널티를 적용한다.
Correction or formula scoring has been used to control for the measurement error arising from guessing that is not taken into account with the number-correct scoring. In order to dissuade students from engaging in this form of error variance, the Dutch consortium applies a penalty for incorrect scores whereby fractional points for incorrect responses, depending on the number of options for the question, are subtracted from the correct score.


추측할 때, 정답을 얻을 확률이 더 작습니다. 예를 들어, 4가지 옵션 질문에 대한 정답을 추정할 확률은 25%이고 오답의 경우 75%입니다. 따라서 공정성을 추구하면서 오답에 대해 감점된 부분점수의 크기를 오답의 수로 나누어 계산한다. 즉, 잘못된 항목의 경우 두 가지 옵션(즉, 1→1)이 있는 항목의 총점에서 1점 만점을 차감하고, 세 가지 옵션 항목의 경우 -0.5(1→2)와 네 가지 옵션 항목의 경우 -0.33(1→3) 및 다섯 가지 옵션 항목의 경우 -0.25(1→4)를 감점한다. 이 방법은 모든 테스트 항목에 '모름' 옵션을 포함시키는 것에 의존하며, 이 옵션에 대한 응답은 0점입니다.
When guessing, the chances of achieving a correct answer are smaller than for choosing an incorrect response. For example, the chance of guessing a correct answer to a four-option question is 25% and for an incorrect answer, 75%. Therefore, in the pursuit of fairness, the size of the deducted fractional score for an incorrect answer is calculated by dividing one by the number of incorrect options. This means that for an incorrect item, a score of one is deducted from the total score for an item with two options (that is, 1÷1), −0.5 (1÷2) for three-option items, −0.33 (1÷3) for four-option items and −0.25 (1÷4) for five-option items. This method relies on the inclusion of the ‘don’t know’ option in all test items, and responses to this option are given a score of 0.

 

공식 채점에 대한 설득력 있는 주장과 증거가 제공되어 왔다. 

  • 특히 발달시험의 기본 철학과 일치한다. 
  • '모름' 옵션은 학생과 교사가 학습 촉진을 위해 지식 격차를 확인하는 데 있어 직접적인 정보를 제공한다. 
  • 또한 '모름'옵션을 사용하면 [무지의 인정]이 [그냥 찍기]보다 바람직하다는 견해를 강화한다(Tweed & Wilkinson 2009).
  • 특히, 능력에 비해 너무 어려운 항목이 많은 아래 학년의 경우에 적절하다(McHarget et al. 2005). 

There have been persuasive arguments and evidence provided for formula scoring.

  • It is particularly consistent with the underlying philosophy of progress testing.
  • The ‘don’t know’ option provides direct information for students and teachers in determining gaps in knowledge in order to promote learning.
  • It's use also reinforces the view that the admission of ignorance is preferable to guessing (Tweed & Wilkinson2009), and
  • is appropriate for longitudinal tests such as the progress test in which many items are too difficult for the abilities of students in the lower years (McHarg et al.2005).


Formula scoring은 개별 기관(Freeman et al. 2010a)에서 좋은 효과와 함께, 그리고 누적 편차 방법(Muijtjens et al. 2008; Schauber & 명사 2010)과 함께 학교 간의 안정적인 차이를 드러내는 방법으로 사용되어 왔다. 추측으로 인한 오차 분산도 다른 오차 분산 소스보다 큰 것으로 확인되었으며(Zimmerman & Williams 2003), [formula scoring] 점수는 [정답숫자 점수]보다 더 신뢰할 수 있는 것으로 나타났다.

Formula scoring has been used with good effect in individual institutions (Freeman et al. 2010a), and as a method of inter-institutional comparison (Schauber & Nouns 2010) together with the cumulative deviation method (Muijtjens et al. 2008; Schauber & Nouns 2010) to reveal stable between-school differences. Error variance resulting from guessing has also been found to be larger than other sources of error variance (Zimmerman & Williams 2003), and formula scoring has been shown to be more reliable than number-right scoring (Muijtjens et al. 1999; Alnabhan 2002).


그러나 점수 계산 방법에서 formula scoring을 사용하는 것은 한동안 논란이 되어 왔다.

  • 예를 들어, 정확한 마이너스 오점에는 시험 응시 태도와 관련된 관련 없는 측정값이 포함되기 때문에 오차 분산을 추가할 수 있다는 주장이 제기되었다(Downing 2003).
  • 또한, 어떻게 보면, 한 항목에 대한 벌칙 때문에 다른 항목에서 이미 획득한 점수가 사라지는 것으로 해석되었다.

However, the use of formula scoring in score calculation methods has been a debated issue for some time.

  • For instance, it has been argued that it may add error variance because the correct minus incorrect score includes irrelevant measures related to test-taking attitude (Downing 2003).
  • Also, in some quarters it has been interpreted that applying a penalty to an item results in the questionable practice of removing a mark already gained from another item.

 

점수 계산 방법은 쉬운 선택이 아니며 비용과 자원의 가용성의 실용성에 영향을 받을 가능성이 높다. 실제로 [발달시험]에 [[문제가 학생의 능력에 맞게 조정되는 컴퓨터 적응 시험]을 사용할 경우 문제가 완화될 수 있다(Roex & Degryse 2004). 이 접근 방식에서는 추측하는 것이 덜 문제가 되고 '모르겠다'는 옵션의 포함이 불필요해집니다. 이 단계에서는 이 접근법의 유효성을 결정하는 데 도움이 될 수 있는 의학적 발달시험에 대한 컴퓨터 적응 시험 사용을 보고한 발표된 연구가 없다.

The score calculation method is not an easy choice and one that is likely to be influenced by the practicalities of cost and availability of resources. Indeed the issue may be alleviated, if or when computer-adapted testing is used for progress testing in which questions are tailored to the ability of the student (Roex & Degryse 2004). With this approach guessing becomes less of an issue and the inclusion of the ‘don’t know’ option becomes superfluous. At this stage there are no published studies that report the use of computer adaptive testing for a medical progress test that might assist in determining the efficacy of this approach.

 

 

표준설정방법
Standard-setting method

 

합격/불합격 컷 점수 및 기타 점수를 결정하는 표준 설정 방법의 선택은 결과 분석 및 검토 과정의 마지막 단계이다. 일반적으로 컨소시엄의 부담stake이 높을수록 기준설정 요건이 더 까다로워진다. 합격선 점수를 결정하기 위한 진행률 테스트에는 다양한 접근법이 사용되어 왔고, 이를 설명하는 방대한 문헌이 있습니다. 

The selection of a standard-setting method to determine pass/fail cut scores and other grades is the final step in the results analysis and review process. It is usually the case that the higher the stakes in the consortium, the stronger the requirements become for standard-setting. Various approaches have been used for progress testing to determine the cut scores 


가장 일반적으로 사용되는 두 가지 표준 참조 방법과 준거 참조 방법 사이의 장점이 논란이 되고 있다. 각각은 장점과 단점을 가지고 있으며, 각 결과는 리소스에서 다양한 배출을 초래합니다. Muijjens 외 연구진(1998)은 발달시험 난이도의 변화 때문에 [고정된, 절대 컷오프 점수]를 사용하는 것이 [규준-참조 점수]보다 더 위태롭다는 것을 발견했다.
The merits between norm-referenced and criterion-referenced methods, two of the most commonly used, are controversial. Each has its advantages and disadvantages, and each result in varying drains on resources. Muijtjens et al. (1998) found that because of the variation in progress test difficulty, using a fixed, absolute cut off score was more precarious than norm-referenced scores.

 

네덜란드와 독일 컨소시엄은 컷 점수를 결정하기 위해 [Norm-referencing] 계산에 의존해 왔다(Muijtjens et al. 2008; Schauber & Nambers 2010). 비록 Angoff 프로세스처럼 [표준을 결정하기 위해 최소한의 능력의 수행에 대한 전문가 판단 간의 합의를 사용하는 방법]이 더 엄격하고 일반적으로 사용되는 방법이 더 바람직하고 방어할 수 있을지 모르나, 매년 각 시험에 대한 절차에 더 높은 비용이 수반되기에, 이 방법을 사용하기 어렵다
The Dutch and German consortia have relied on norm referencing calculations to determine cut scores (Muijtjens et al. 2008; Schauber & Nouns 2010). Although a more rigorous and commonly used method may be more preferable and defensible, such as the Angoff process (Muijtjens et al. 1998; Verhoeven et al. 1999; Basu et al. 2004) which uses the agreement between expert judgements of a minimally competent performance to determine standards, the higher costs involved in such a procedure for each of the tests per year prevents the use of this method.

 

표준 참조의 대안이 될 수 있는 흥미로운 표준 설정 변형은 최근 Ricketts 등에 의해 입증되었다. (2009). 그들은 학생 테스트 결과와 새로 자격을 갖춘 의사의 외부 데이터 소스를 포함하는 다수의 내부 소스에 걸쳐 표준 설정 데이터를 삼각 측량하는 유용성을 보여주었다.

An interesting standard-setting variant that may be an alternative to norm referencing is one recently demonstrated by Ricketts et al. (2009). They have shown the usefulness of triangulating standard-setting data across a number of internal sources involving student test results and an external source of data from newly qualified doctors.

 

학생문항평가
Student item evaluation

 

네덜란드 발달시험 시스템에서, 학생들은 집에 가져갈 각 시험이 끝날 때 설명 없이 시험 책자와 정답을 제공받아 critical, substantiated 피드백을 제공할 수 있다(Muijtjens et al. 2010). 이것은 두 가지 귀중한 이점을 제공한다.

  • 최종적으로 기준을 계산하기 전에 시험 결과의 사후 검토 분석 중 결함 항목의 제거를 지원함으로써 중요한 [품질 관리 메커니즘]을 제공한다.
  • 또한 학생들이 지식을 복습, 확인 또는 교정하도록 격려함으로써 학생들의 더 깊은 학습을 장려한다.

In the Dutch progress test system, students are given the test booklet and correct answers without explanation at the completion of each test to take home so that they can provide critical, substantiated feedback (Muijtjens et al. 2010). This provides two valuable advantages.

  • It offers an important quality control mechanism by aiding the removal of flawed items during the post-test review analysis of the test results before the final calculation of the standards.
  • It also encourages students’ deeper learning by encouraging them to review, confirm or correct knowledge.

발달시험 내용에 대한 [사후 학생 검토]의 학습적 편익이 입증되었지만, 여러 기관에서 일반적인 관행은 아니다. 

주로 시험 항목이 비밀로 유지되지 않는다는 단점 때문이다. 그 결과 문제은행의 효용성이 감소한다.

새로운 문항이 필요해짐에 따라 다음 시험에서 문항을 새로 써야하여 자원 수요가 증가하기 때문이다.

Although there are demonstrated learning benefits of student post-test reviews of the progress test content, it is not a common practice among institutions, mainly because of the disadvantage that the test items do not remain secret, thereby reducing the utility of the item bank and placing extra demands on resources from the increased need for new items to be written for each subsequent test iteration.

 

 

국내외 의장심사위원회
Local and national/international chair review committee

 

내용 타당성 및 발달시험의 신뢰성을 높이기 위한 중요한 원칙은 [시험 항목의 시험 후 전문가 품질 관리 검토서]를 제공하는 것이다. 이는 "전문가의 권고사항과 해당 권고사항에 대한 조치를 포함하여 이 검토 과정을 증명할 수 있는 과정 책임자의 능력이 내용타당성 보장의 핵심 요소"라는 권고사항과 일치한다(Bridge et al. 2003, 페이지 415). 
An important principle to enhance content validity and reliability of progress testing is the provision of expert, post-test quality control reviews of test items. This is consistent with the recommendation that “the ability of a course director to demonstrate this review process, including the recommendations of the experts and the actions taken on those recommendations, is a key factor in assuring content validity” (Bridge et al. 2003, p. 415).

 

시험 후 검토 위원회는 모든 문항을 검토하고, 합의에 따라 최종 분석에 포함하거나 철회할 항목을 결정하여, 합격/불합격 기준을 결정한다. 또한 성과가 좋지 않은 문항을 식별하여 문제은행의 변경 또는 거절을 위해 항목 검토 위원회에 피드백을 제공할 수 있습니다. 이 정보는 또한 프레임워크의 피드백 절차의 일부로 문항 작성자에게 전달될 수 있습니다.

The post-test review committee(s) can review all items, and by consensus decide which items will be included in or withdrawn from the final analyses to determine the pass/fail standard. They can also identify questions that have not performed well and feed them back to the item review committee for change or rejection from the bank. This information can also be passed to the item author as part of the feedback procedures of the framework.


심사 위원회 구성원 구성시, [newly qualified doctor]와 정기적으로 업무를 함께하는 의사를 검토 패널에 포함시켜, 커리큘럼의 종료 시점에 요구되는 지식 수준, 즉 [newly qualified doctor]의 지식 수준을 측정하는 발달시험 원칙과 더욱 밀접하게 일치시킬 수 있다.

An adaption of the review committee membership can be to include doctors in the review panel who regularly work with newly qualified doctors, thereby more closely matching the progress test principle of measuring the knowledge level required at the end point of a curriculum, that is, of a newly qualified doctor.

 

이해 관계자에 대한 피드백
Feedback to stakeholders

 

발달시험의 기본 원칙은 더 깊은 학습을 돕기 위해 학생들에게 [발달적 및 종적 피드백]을 제공하는 효용이다. 또한 시험 결과는 항목 작성자, 교사, 교수진 및 진도 시험 개요 위원회에 귀중한 품질 관리 정보를 제공할 수 있다.

An underlying principle of the progress test is its utility in providing developmental and longitudinal feedback to students in order to aid deeper learning. The test results can also offer valuable quality control information for item authors, teachers, faculty, and the progress test overview committee.

 

 

학생들
Students

 

네덜란드 컨소시엄의 학생 결과에 대한 자세한 피드백은 ProF 시스템의 그래픽 질의 기반 온라인 정보를 통해 제공된다(Muijtjens et al. 2010). 그림 2는 네덜란드 컨소시엄(화이트라인)의 같은 해 모든 동료와 비교한 마스트리히트 대학 프로그램 6학년 학생의 24회 연속 측정 순간(연간 4회)에 걸쳐 보정 점수(다크라인)를 사용한 총 점수의 ProF 피드백의 예를 보여준다.

Detailed feedback of student results in the Dutch consortium is provided through graphical, query-based online information from the ProF system (Muijtjens et al. 2010). Figure 2 shows an example of the ProF feedback of total scores using correction scoring (dark line) across 24 consecutive measurement moments (four per year across the 6-year program) for a student in Year 6 of the Maastricht University program compared with all peers in the same year in the Dutch consortium (white line).

 

Figure 2. Longitudinal view of total scores on 24 consecutive measurement moments for a Maastricht University student compared with all peers from universities in the Dutch consortium.

 

 

네덜란드 컨소시엄의 파트너인 마스트리히트 대학교는 [학생들이 더 깊이 있는 학습을 돕기 위해] [그들의 진행 점수를 더 효과적으로 검토하도록 격려하기 위해] [멘토와의 의무적인 탐색과 반성]을 통해 학생들에게 더 많은 발판을 제공하고자 최근 교육적인 움직임을 보이고 있다.

Recent educational moves have been made by Maastricht University, a partner of the Dutch consortium, to provide more scaffolding for students through the mandatory exploration and reflection on their scores with their mentor to encourage them to more effectively examine their progress scores in order to aid deeper learning.

 

 

항목 작성자, 교사, 교수 및 개요 위원회
Item author, teacher and faculty and overview committee

 

또한 발달시험 점수는 품질 관리 메커니즘을 강화하기 위해 발달시험 시스템의 전반적인 기능에 대한 책임이 있는 항목 작성자, 프로그램의 교사, 교수 및 개요 위원회의 중요한 정보 출처이다. 예를 들어,

  • 여러 시험에 걸쳐 구성한 특정 항목에 대한 신뢰성 점수를 문항 작성자에게 제공하는 것은 항목 작성자가 자신의 장점을 결정하고 약점을 인식하고 해결하는 데 도움이 되는 유용한 정보가 될 수 있다.
  • 피드백은 다음에 관한 교사들의 진단, 예후 또는 교정 개입에 도움이된다.
    • 교육과정 개발 및 교직원의 quality assurance 을 지원
    • 관리위원회Overview committee의 발달시험 시스템의 개선을 가이드

Progress test scores are also an important source of information for item authors, teachers in the programme, faculty and the overview committee who has responsibility for the overall functioning of the progress test system in order to foster quality control mechanisms. For example,

  • providing the item authors with reliability scores for the specific items they constructed over several tests can be useful information in assisting them to determine their strengths and help recognise and address their weaknesses.
  • Feedback is also useful to teachers to assist with diagnostic, prognostic or remedial interventions,
    • for curriculum development and quality assurance for faculty, and
    • for guiding improvements in the progress test system for the overview committee.

결론 Conclusions

네덜란드 컨소시엄은 25년 역사를 통해 개선된 방법과 접근법이 개발 또는 연구됨에 따라 프레임워크의 다양한 측면을 몇 차례 변형시켰다. 이는 개선된 품질 관리 메커니즘을 유지하는 강력하고 체계적인 프레임워크를 유지하는 데 도움이 되었다. 새로운 학교로서, 페닌슐라는 10년간의 발달시험 역사 (Freeman & Ricketts 2010)에서 가장 좋은 증거를 도출할 수 있었고, 그 결과 비교적 안정적인 형식이 되었다. 그러나 의료 교육의 변화하는 환경을 반영하기 위한 피드백 방법 및 표준 설정 공식의 적응과 같은 변화가 일어났다.
Over its 25 year history, the Dutch consortium has proceeded through several transformations of various aspects of the framework as improved methods and approaches have been developed or researched. This has helped to maintain a robust and systemic framework within which to maintain improved quality control mechanisms. As a new school, Peninsula was able to draw on best evidence in its 10 year history of progress testing (Freeman & Ricketts 2010) resulting in a relatively stable format. However changes have occurred, such as increasing feedback methods and adaptations of standard setting formulae to reflect the moving environment of medical education.

 

이번 분석에 따르면, 만족스러운 수준의 타당성과 신뢰성을 촉진하도록 보장하려면, 발달시험의 구현과 유지보수를 위한 기관의 헌신과 가용자원이 필요하다는 것을 보여준다.

  • 품질 시스템의 기본 요건은 커리큘럼이 mature함에 따라 [블루프린트의 개발 및 업데이트]가 필요하다는 것을 보여주며,
  • 학제 간, 맥락화된, 관련성 높은 문항을 생성하기 위해 [지속적인 문항 작성 훈련]을 제공하기 위한 상당한 노력이 필요하다.
  • [결과의 분석 및 검토]에는 몇 가지 품질 관리 점검이 필요하며,
  • [이해관계자에 대한 피드백]은 분석과 모니터링을 필요로 하며,
  • [소프트웨어와 하드웨어]에 대한 자금 투자와 서포트에 대한 헌신은 성공적인 운영의 중요한 특징이다.

The present analysis of the framework also shows that its implementation and maintenance requires an institutional commitment and the availability of resources to ensure it promotes satisfactory levels of test validity and reliability.

  • The basic requirements of a quality system show that a blueprint requires development and updating by reviewers as curricula mature, and
  • considerable efforts are required to provide ongoing item writing training in order to produce interdisciplinary, contextualised and relevant items (Vantini & Benini 2008).
  • The analysis and review of results requires several quality control checks, feedback to stakeholders requires analysis and monitoring, and
  • a commitment to software and hardware funding and support are important features of a successful operation.

 

 

 


Med Teach. 2012;34(9):683-97.

 doi: 10.3109/0142159X.2012.704437.

A systemic framework for the progress test: strengths, constraints and issues: AMEE Guide No. 71

William Wrigley 1Cees P M van der VleutenAdrian FreemanArno Muijtjens

Affiliations collapse

Affiliation

  • 1Department of Educational Development and Research, Maastricht University, The Netherlands.
    • PMID: 22905655

 

Abstract

There has been increasing use and significance of progress testing in medical education. It is used in many ways and with several formats to reflect the variety of curricula and assessment purposes. These developments have occurred alongside a recognised sensitivity for error variance inherent in multiple choice tests from which challenges to its validity and reliability have arisen. This Guide presents a generic, systemic framework to help identify and explore improvements in the quality and defensibility of progress test data. The framework draws on the combined experience of the Dutch consortium, an individual medical school in the United Kingdom, and the bulk of the progress test literature to date. It embeds progress testing as a quality-controlled assessment tool for improving learning, teaching and the demonstration of educational standards. The paper describes strengths, highlights constraints and explores issues for improvement. These may assist in the establishment of potential or new progress testing in medical education programmes. They can also guide the evaluation and improvement of existing programmes.

발달시험 활용(Perspect Med Educ, 2012)

The use of progress testing
Lambert W. T. Schuwirth • Cees P. M. van der Vleuten

 

 

 

 

소개 Introduction

발달시험은 오랜 기간 동안 Missouri-Kansas City School of Medicine and Mastricht University of Missouri-Cansa City School of Medicine 네덜란드에서만 사용된 후 네덜란드와 국제적으로 점점 더 인기를 얻고 있습니다 [10, 11]. 그러나, 평가에 대한 종방향 접근법이 본질적인 매력을 가지고 있기 때문에 개념의 급속한 확산은 그리 놀라운 일이 아니다. 학생을 반복적으로 평가하고 이러한 평가에 대한 결과를 결합하여 미래의 역량 및/또는 성과에 대한 예측을 하는 것이 직관적으로 더 논리적이다. 그것은 아동의 발달 감시 프로그램과 비슷하다. 이러한 프로그램에서 어린이의 체중을 측정하고 정기적으로 측정하고 그 결과를 가능한 한 빨리 문제를 감지하고 해결하기 위해 모집단 평균 성장 곡선과 비교한다. 이것이 아마도 이 주제에 관한 수많은 개발 논문과 연구 논문들이 최근 수십 년 동안 문학에 진출해 온 이유일 것이다.
Progress testing is becoming increasingly popular both in the Netherlands and internationally [19] after having been used for a long time only in those institutions where it was invented: the University of Missouri-Kansas City School of Medicine and Maastricht University in the Netherlands [10, 11]. The rapid spread of the concept, however, is not surprising because a longitudinal approach to assessment has an intrinsic appeal. It is intuitively more logical to assess students repeatedly and combine their results on these assessments to make predictions about future competence and/or performance. It is similar to a child’s development monitoring programme. In such programmes the child is weighed and measured at regular intervals and the outcomes are compared with population mean growth curves in order to detect and remedy problems as early as possible. This is probably also the reason why such an abundance of developmental and research papers on this topic have found their way to the literature in recent decades.


그러나 이것은 보이는 것만큼 간단하지 않다; 발달시험을 도입하는 것은 평가에 대한 생각뿐만 아니라 학문적 문화적 변화도 포함한다. 더욱이, 발달시험에 대한 협업을 모색할 때, 개방성, 비경쟁성, 교환 및 상호 신뢰가 필수적입니다. 본 논문의 목적은 가장 중요한 기대치를 요약하고 실제 실무 경험을 제공하는 것입니다.

But it is not as straightforward as it looks; introducing progress testing involves not only a change in thinking about assessment but also an academic cultural change. Even more so, when collaboration on progress testing is sought; in such situations openness, non-competitiveness, exchange and mutual trust are essential. The purpose of this paper is to summarize the most important expectations and to accompany them with experiences from actual practice.

발달시험이란? What is progress testing?

발달시험에 대한 많은 다른 설명은 주로 학생들의 기능적 지식functional knowledge에 대한 종적이고 반복적인 평가의 원칙에 수렴한다. 종종, 많은 시험이 학년별로 정해지는데, 각각의 시험은 졸업생 수준의 기능적(관련) 지식에서 출제되는 많은 문항들로 구성된다. 이 시험들은 각각 복수 또는 전년도 수업의 학생들이 응시하며, 각 개별 시험의 결과는 보상적인 방법으로 결합하여 연말에 승진 결정의 기초를 형성한다. 테스트는 광범위한 관련 의료 지식을 포괄하는 질문으로 구성되며, 중앙 집중식 테스트 생산, 검토, 관리 및 분석을 기반으로 조직적으로 구축된다. 여기에서 우리의 설명은 다양한 구현이 가능하고 더 자세한 설명은 문헌[1, 3, 5, 7, 11, 12]에 제공되기 때문에 의도적으로 일반적이다.

The many different descriptions of progress testing largely converge on the principle of longitudinal, repeated assessment of students’ functional knowledge. Often, a number of tests are set per academic year, each consisting of a large number of questions pitched at graduate level functional (relevant) knowledge. Each of these tests is sat by students of multiple or all year classes, and the results of each individual test are combined in a compensatory way to form the basis for a promotion decision at the end of the year. The test is comprehensive in that it consists of questions covering a broad domain of relevant medical knowledge, and it is organizationally founded on centralized test production, review, administration and analysis. Our description here is intentionally general because there are various different implementations possible, and more detailed descriptions are provided in the literature [1, 3, 5, 7, 11, 12].

발달시험에 대한 기대 및 실용성
Expectations and practicalities of progress testing

시험 스트레스 경감 Reduction of examination stress

발달시험은 종방향 측정이기 때문에 한 번 나쁜 결과가 있더라도, 전체적인 좋은 결과를 되돌릴 수 없기 때문에 학생들이 시험 스트레스를 덜 경험할 것으로 본다 [11–13]. 독일어를 사용하는 국가에서 이루어지는 협업 발달시험은 주로 학생 주도형 [5]이며 상향식 개발을 기반으로 합니다. McMaster가 새로 도입된 발달시험을 공식적으로 평가했을 때, 상당한 비율(39%)은 스트레스를 거의 내지 전혀 받지 않는다고 보고했고, 절반 정도(48%)는 제한된 스트레스를 보고했고, 단지 적은 비율(27%)만이 중등도에서 높은 수준의 스트레스를 나타냈다[3]. 

Because progress tests are longitudinal measurements it is assumed that students will experience less examination stress, because a one-off bad result cannot undo a series of good results [1113]. The—formative—collaborative progress test in the German speaking countries is even largely student led [5] and largely based on a bottom-up development. When McMaster formally evaluated their newly introduced progress test, a fair proportion (39%) of the students reported very little to no stress, a larger proportion (48%) reported limited stress and only a small proportion (27%) indicated moderate to high stress [3].

 

하지만, 동전의 또 다른 면이 있다; 만약 한 번의 나쁜 결과가 좋은 시리즈를 망칠 수 없다면, 나쁜 시리즈를 만회하는 것도 마찬가지로 어렵다. 이는 특히 학생들이 졸업을 앞둔 시점, 다른 모든 시험요건을 충족시켰지만 여전히 발달시험의 성적이 좋지 않은 상황이 발생할 수 있다. 이 경우 일련의 좋지 않은 발달시험 결과를 교정해야 하며, 그 이후의 각각의 상황은 그러한 학생들에게 스트레스를 준다고 생각할 수 밖에 없으며, 실제로 우리의 경험상 그러하다.

Yet, there is another side of the coin; if a single bad result cannot ruin a good series it is likewise difficult to make up for a bad series. This is particularly an issue when students are about to graduate, and all other examination requirements have been met, but they still have poor progress test results. A bad series of progress test results then has to be remediated, and one can safely assume that each of the subsequent sittings is a stressful event for those students, and in our experience in practice they are.

반복 검사가 불필요해집니다.
Repeat examinations become unnecessary

발달시험의 또 다른 보고되는 이점은 재시험resit를 불필요하게 만든다는 것입니다. 재시험은 조직에게 부담이 된다. 그들은 소수의 학생들만을 위한 양질의 시험이어야 한다. 또한, 학생들은 미니멀리즘적인 공부 방식을 채택하도록 이끌 수 있다. 왜 항상 재시험이 있는데 굳이 열심히 공부해야 할까? [14] 그러나 다시 말하지만, 그 부작용은 어려움에 처한 학생들은 재빠른 반복 가능성이 없고, 매우 부정적인 재정적 결과를 초래하면서, 그들의 졸업을 당분간 연기할 필요가 있을 수 있다는 것이다.

Another reported advantage of progress testing is that it renders resit examinations unnecessary. Resits are a burden for the organization; they have to be good quality examinations for only a small number of students. Also, they can lead students to adopt a minimalistic study approach; why study hard when there are always the resits [14]? But again, the side effect is that students in trouble have no quick repeat possibility, and may need to defer their graduation for some time, with very negative financial consequences.

 

학생 학습의 긍정적인 영향
Positive influence of student learning

학생 학습에 긍정적인 영향을 준다는 것에는 논쟁의 여지가 없다. 이것이 사실 발달시험이 원래 개발되었던 이유이며 [10, 11] 다양한 구현에서 이러한 긍정적인 효과를 뒷받침하는 증거가 있다. 맥마스터에서는 이 시험을 통해 학생들이 더 지속적으로 공부하고 더 나은 지식 기반을 구축하여 국가 면허 시험에 더 잘 대비할 수 있게 되었다[15]. 발달시험의 긍정적인 효과는 의학 지식의 성장을 보여주는 곡선으로부터 명확하게 볼 수 있다. 기능적 지식의 양은 (큰 봉우리나 수조 없이) 지속적으로 증가한다는 것을 알 수 있을 뿐만 아니라, 기본 지식이 연중 내내 유지된다는 것을 알 수 있다[3, 5, 11, 12, 16–18]. Non-PBL 또는 Non-Integrated 교육과정에서 발달시험을 사용한 경우에도 이러한 지속적인 성장이 발생했지만 [8, 9] 발달시험이 프로그램의 총괄적 요소가 아닐 때 성장 곡선은 더 불규칙했다. [19]

Undisputed is the positive influence on student learning. This is actually why progress testing was originally developed [10, 11], and in the various implementations there is evidence to underpin this positive effect. In McMaster the test led students to study more continuously and to build a better knowledge base, preparing them better for the national licensing examinations [15]. The positive effect of progress testing can be seen clearly from curves showing the growth of medical knowledge. Not only can it be seen that the amount of functional knowledge grows continuously (without huge peaks and troughs), but also that the basic knowledge is retained over the year classes [3, 5, 11, 12, 1618]. Though such continuous growth occurred even if non-problem based learning or non-integrated curricula used progress testing [8, 9], growth curves were more irregular (with more peaks and troughs) when progress testing was not a summative element of the programme [19].


그러나 어떤 평가 방법도 공백 상태에서 학생 학습에 영향을 미칠 수 없다. 항상 평가 프로그램의 나머지 부분에서 효과가 있다[14, 20]. 마스트리히트에 진도 테스트가 도입되고 블록 테스트가 형성평가가 되었을 때, 학생들은 지속적인 자기 주도 학습으로 초점을 바꾸었지만, (mastery-oriented) 블록 테스트가 다시 총괄평가가 되자, 많은 학생들은 발달시험은 그대로였음에도 불구하고 단기 암기로 되돌아갔다.

However, no assessment method can exert its influence on student learning in a vacuum; it always works in the context of the rest of the assessment programme [14, 20]. When progress testing was introduced in Maastricht and block tests were made formative, students changed their focus to continuous self-directed learning, but when the—mastery orientated—block test was made summative again, many students reverted to short-term memorization despite the progress test remaining unchanged.

더 나은 예측 타당성
Better predictive validity

 

또 다른 가정된 장점은 종방향 데이터 수집이 일회성 측정보다 미래 역량/성능을 더 잘 예측한다는 것이다. 이를 위해, 후속 시험의 정보를 어떻게 결합할지를 선택해야 한다. 어떤 학교는 보다 연속적인 접근방식으로 [3] 회귀 기법을 사용하여 예측을 하고, 다른 학교들은 정보의 이산성을 인정하고 qualification을 결합한다[5, 11, 13]. 우리가 보기에는 이 두 가지 모두 방어가능한 선택이지만, 그보다 난이도의 변동을 동일시하거나 제어하는 것이 더 시급한 문제라고 생각한다.

Another assumed advantage is that longitudinal data collection is more predictive of future competence/performance than one-off measurements. For this, choices have to be made with respect to how to combine the information of subsequent tests. Some schools opt for a more continuous approach [3] and use regression techniques to make predictions, others acknowledge the discrete nature of the information and combine qualifications [5, 11, 13]. We feel that both are defensible choices but that equating or controlling for difficulty variation is a more pressing issue.   

 

랑게르 외 [21]에서는 이 문제에 대해 자세히 설명하고 몇 가지 해결 방법을 제안했습니다. 불행히도 대부분의 해결책은 의과대학 환경에서 실용적이지 않다[21–25].

  • 등가 기법은 정상적인 루틴에서 적용이 불가능할 수 있으며(앵커 항목의 사용은 학생들이 오래된 테스트를 암기하도록 유도할 수 있다),
  • 항목 반응 이론(IRT)은 단순히 실용적이기 위해 너무 많은 사전 테스트가 필요할 수도 있다.
  • 반면에 베이지안 모델[24] 또는 이동 평균 기술[22, 23]과 같은 더 실현 가능한 통계 평활 기법은 특히 통계 절차에 의해 원래 점수가 하향 조정되어야 하는 학생들에게 설명하기가 너무 어려울 수 있다. 이것은 이미 대학의 발달시험 개념에 대한 수용에 대한 이미 암담한 기반을 심각하게 제한할 것이다.

Langer et al. [21] have elaborated on this problem and have suggested some solutions. Unfortunately, most solutions are not practical in a medical school setting [2125].

  • Equating techniques may be impossible to apply in the normal routine (the use of anchor items may induce students to memorize old tests) and
  • item response theory (IRT) may simply require too much pretesting to be practical either.
  • More feasible statistical smoothing techniques such as Bayesian models [24] or moving average techniques [22, 23] on the other hand may be too difficult to explain, especially to students whose original score has to be downgraded by the statistical procedures. This would seriously limit the already rocky base for university acceptance of the concept of progress testing.

의사 결정의 신뢰성 향상
Better reliability of decisions

마지막으로, 결과의 종적 결합은 결정의 신뢰성을 더한다. 1980년대, 그리고 이후의 연구[26, 27]에서는 [표본 추출 특성]이 [시험이 얼마나 잘 구조화되었는지]보다 신뢰성에 훨씬 더 중요하다는 것을 명확히 했다 [28]. 각각 200개 항목(마스트리히트의 경우)에 대한 네 가지 테스트의 결합된 결과가 하나의 큰 테스트보다 낫고, 다양한 경우에 걸쳐 분포된 큰 테스트는 일회성 큰 테스트보다 더 나은 샘플링이 있다고 가정하는 것이 논리적이다.

Finally, longitudinal combination of results adds to the reliability of the decision. Research in the 1980s and onwards [26, 27] has made it clear that the sampling properties are much more important for reliability than how well structured the test is [28]. It is logical to assume that the combined result of four tests of 200 items each (in the case of Maastricht) is better than one big test, and a large test distributed over various occasions has better sampling than a one-off large test.

 

리케츠 외 [29] generalizability theory을 사용하여 이를 정량화하고, 측정의 표준오차(SEM)를 시험당 항목 수와 연간 시험 수 사이의 trade-off으로 보고하였다. 연구 결과는 연간 200개 항목의 두 가지 테스트가 각각 100개 항목의 네 가지 테스트 또는 100개 항목의 다섯 가지 테스트보다 더 신뢰할 수 있는 결과(낮은 SEM)를 산출한다는 것을 보여준다. 그래서 더 많은 기회를 갖는 것은 가치가 있지만, 단순히 더 많은 기회를 갖는 것이 더 낫지 않다.

Ricketts et al. [29] quantified this using generalizability theory and reported the standard errors of measurement (SEM) as a trade-off between number of items per test and number of tests per year. Their findings indicate that two tests of 200 items per year produce more reliable results (lower SEMs) than four tests of 100 items each, or even five tests of 100 items. So although there is value in having more occasions it is not simply more-occasions-is-better.


신뢰성의 또 다른 중요한 논의 포인트는 대부분의 발달시험은 정답-빼기-오답 채점 시스템을 사용한다는 것이다. 이것은 시험이 저학년 학생에게도 시행되기 때문에 필요하다. 대부분의 질문에 대답할 수 없는 우리 후배들이 많은 항목을 추측하도록 강요받는 것은 바람직하지 않다고 여겨집니다. 따라서 공식채점formula scoring과 함께 물음표 옵션이 제공되어야 한다.

Another important discussion point in reliability is that most progress tests employ a correct-minus-incorrect (formula) scoring system. This is necessary because the tests are also administered to junior students. It is not considered desirable that our junior students—not being able to answer most of the questions—would be forced to guess on many items. Therefore, a question-mark option has to be offered with formula scoring.

 

이것이 발달시험 점수의 신뢰성을 떨어뜨리는지는 논쟁의 여지가 있다. 공식채점 조건에서 시험을 실시할 때 정답숫자 신뢰성의 수가 더 높습니다(약 0.20의 차이(네덜란드 대학 간 진행 테스트의 미발표 결과)). 그러나 공식 채점과 정답 숫자 조건에서 점수를 비교한 실험 연구는 공식 채점에 대해 더 나은 신뢰성을 보여주었다 [30, 31].

Whether or not this decreases the reliability of progress test scores is open to debate. When the test is taken under formula scoring conditions the number of correct reliabilities is higher—the difference being roughly 0.20 (unpublished results of the interuniversity progress test in the Netherlands)—but experimental studies where scores under formula scoring and number-right conditions were compared showed better reliabilities for the formula scoring [30, 31].

종합적인 시험은 시험에 능통한 학생들에게는 예측하기가 어렵다.
Comprehensive tests are less predictable for the test-savvy students

 

시험 내용의 포괄성도 종종 장점으로 간주된다. 전략적인 수정이 작동하지 않기 때문이다(의학적 지식 전체를 표본으로 추출한다면 무엇을 공부할 것인가?) [3, 11, 15, 32, 33]. 따라서 종단적 성격이 시험의 촉박함과 위협적 성격에 영향을 미치며, 시험의 포괄성은 [꾸준한 공부만이 최선의 준비]가 될 수 있는 방식으로 평가 자료의 특성에 영향을 미친다[34]. The comprehensiveness of the test content is often seen as an advantage too, because specific strategic revision does not work (what would you study if the whole of medical knowledge is sampled from?) [3, 11, 15, 32, 33]. So the longitudinality influences the imminence and threatening nature of the test [34] and the comprehensiveness influences the nature of assessable material in such a way that the best preparation is continuous learning [34].

 

하지만 이것에는 또 다른 면이 있습니다. 왜냐하면 평가 가능한 내용의 본질이 무엇인지 매우 명확해야 하기 때문입니다. 다시 말해서, 관련된 기능적 지식은 무엇이고 그렇지 않은 것은 무엇인가? 이것은 여전히 해결되지 않은 문제이다. 시험 작성자, 검토자 및 사용자가 각 문항의 목적적합성에 대해 합의할 수 있도록 '관련성'의 실현 가능한 조작화operationalization가 필요하다.

But there is, again, another side to this, as it has to be very clear what the nature of assessable material is. In other words, what is relevant functional knowledge and what is not? This is an issue that still remains unresolved. It will take a feasible operationalization of ‘relevance’ for test writers, reviewers and users to be able to agree on the relevance of each item.

커리큘럼 독립성 및 협업
Curriculum independence and collaboration

 

마지막 장점은 진도 시험의 커리큘럼 독립성이다. 졸업생 수준에서 지식을 테스트하기 위해 설계되었다는 사실은 그것이 공동 생산, 공동 행정, 공동 연구에 완벽하다. 새롭게 부상하고 있는 수많은 협업[1, 2, 5–9, 35]이 그 증거입니다. 협업이 쉽거나 자연스럽게 이뤄진다는 말은 아니다. 예를 들어, 학교는 평가 자료의 완전한 소유권을 갖는 데 익숙해져 있고, 협력은 그들이 그 소유권 중 일부를 포기해야 한다는 것을 의미합니다. 또한 시험 행정의 조정, 상호의존성 및 분업화는 상당한 기반구조와 행정적 장애를 초래할 수 있다[6].

A final advantage is the progress test’s curriculum independence. The fact that it is designed to test knowledge at graduate level makes it perfect for joint production, joint administration and joint research. The many emerging collaborations [1, 2, 59, 35] are proof of this. This is not to say that collaboration is easy or comes naturally. Schools for example are used to having complete ownership of their assessment material and collaboration means that they have to give up some of that ownership. Also coordination of test administrations, mutual dependency and division of labour may present considerable infrastructural and administrative hurdles [6].

에필로그 Epilogue

발달시험은 사용 가능한 평가 방법에 중요한 추가 사항임이 분명합니다. 평가 프로그램에서는 현재의 방법을 대체하기 위해서가 아니라 추가하는데 사용되어야 한다는 것이 명확해졌다 [20, 36, 37]. 장단점, 지표와 제약에 대한 충분한 지식이 발달시험을 잘 활용하기 위한 전제조건이며, 본 논문이 이에 기여했기를 바란다.

Progress testing is definitely an important addition to the available assessment methods. It has become clear that in a programme of assessment it should not be used to replace current methods but to add to them [20, 36, 37]. Good knowledge of the pros and cons, the indications and contraindications, is a prerequisite for good usage of progress testing, and we hope this paper has contributed to this.

핵심 Essentials

  • 발달시험은 기능적 지식 또는 역량에 대한 개발을 평가하기 위해 고정된 간격으로 주어진 동등한 시험에 기초한 종적 시험 접근법이다.
  • 발달시험의 가장 큰 장점은 테스트 중심 학습 전략을 최소화한다는 것입니다.
  • 반복 테스트의 결과를 결합하면 합격-불합격 결정의 신뢰성과 예측 유효성을 모두 높일 수 있습니다.
  • 발달시험과 관련된 주요 관심사는 개별 테스트의 동등성 보장입니다.
  • 테스트 생산 및 관리를 공유하는 공동 작업 방식으로 발달시험을 사용하는 경우 비용-효율적일 뿐만 아니라 지속적인 벤치마킹과 품질 개선을 위한 풍부한 원천이 됩니다.

 

  • Progress testing is a longitudinal test approach based on equivalent tests given at fixed intervals with the intention to assess the development on functional knowledge or competence
  • The biggest advantage of progress testing is that it minimizes test-driven learning strategies
  • Combining the results on the repeated tests increases both the reliability of pass–fail decisions and its predictive validity
  • A major concern with progress testing is ensuring the equivalence of the individual tests
  • When progress testing is used in a collaborative fashion—sharing test production and administration—it is not only more cost-effective but also a rich source for continuous benchmarking and quality improvement

 

 

 

 


Perspect Med Educ. 2012 Mar;1(1):24-30.

 doi: 10.1007/s40037-012-0007-2. Epub 2012 Mar 10.

The use of progress testing

Lambert W T Schuwirth 1Cees P M van der Vleuten

Affiliations collapse

Affiliation

  • 1Flinders Innovation in Clinical Education, Flinders University, Adelaide, Australia ; Department of Educational Development and Research, Maastricht University, Maastricht, the Netherlands.
    • PMID: 23316456

 

 

Free PMC article

Abstract

Progress testing is gaining ground rapidly after having been used almost exclusively in Maastricht and Kansas City. This increased popularity is understandable considering the intuitive appeal longitudinal testing has as a way to predict future competence and performance. Yet there are also important practicalities. Progress testing is longitudinal assessment in that it is based on subsequent equivalent, yet different, tests. The results of these are combined to determine the growth of functional medical knowledge for each student, enabling more reliable and valid decision making about promotion to a next study phase. The longitudinal integrated assessment approach has a demonstrable positive effect on student learning behaviour by discouraging binge learning. Furthermore, it leads to more reliable decisions as well as good predictive validity for future competence or retention of knowledge. Also, because of its integration and independence of local curricula, it can be used in a multi-centre collaborative production and administration framework, reducing costs, increasing efficiency and allowing for constant benchmarking. Practicalities include the relative unfamiliarity of faculty with the concept, the fact that remediation for students with a series of poor results is time consuming, the need to embed the instrument carefully into the existing assessment programme and the importance of equating subsequent tests to minimize test-to-test variability in difficulty. Where it has been implemented-collaboratively-progress testing has led to satisfaction, provided the practicalities are heeded well.

Keywords: Activities; Assessment; Collaboration; Educational; Learning.

의과대학에서 발달시험: 네덜란드의 경험 (Perspect Med Educ, 2016)

The progress test of medicine: the Dutch experience (Perspect Med Educ, 2016)
René A. Tio1 · Bert Schutte2 · Ariadne A. Meiboom3 · Janke Greidanus4 · Eline A. Dubois5 · Andre J. A. Bremers6 · the Dutch Working Group of the Interuniversity Progress Test of Medicine 

 

 

소개 Introduction

 

진정한 문제 기반 학습(PBL) 커리큘럼은 '적극적이고 자기 주도적인 방식으로 지식을 습득하고 구조화하는 것을 목표로 한다'[1]. 비평가들은 그러한 프로그램의 타당성에 의문을 제기할 수 있으며, 이러한 방식으로 가르친 학생들이 그들의 지식에서 결여를 발전시킬 수 있다고 주장한다. [2] 그러한 커리큘럼에 적합한 평가 프로그램을 개발하는 것은 도전이다. 지식의 평가, 그리고 더 나아가서 지식 증가현황의 모니터링은 PBL 커리큘럼과 다른 커리큘럼의 외부 및 내부 타당도 검사에 대한 요건으로 간주될 수 있다. 이를 해결하고 지식 습득이 요구되는 수준이라는 것을 증명하기 위해 미주리와 마스트리히트에서 1970년대에 발달시험이 도입되었습니다 [3, 4]. 그 이후로 발달시험의 사용이 증가했습니다. 현재 발달시험을 사용하지 않는 대륙은 없다[5]. 이 짧은 개요에서 우리는 네덜란드에서 발달시험의 형태적 측면과 종합적 측면을 포함한 현재 상황을 설명한다. 또한 벤치마킹을 위한 사용에 대해서도 논의될 것이다.
A true problem-based learning (PBL) curriculum ‘aims at acquisition and structuring of knowledge …. in an active iterative and self-directed way’ [1]. Critics may question the validity of such a programme and argue that students taught in this way may develop deficiencies in their knowledge [2]. It is a challenge to develop an assessment programme fit for such a curriculum. Assessment of knowledge and even more so monitoring knowledge growth may be considered a requirement for external and internal validation of a PBL curriculum and also other curricula. In order to address this and to prove that knowledge acquisition is at the required level, progress testing was introduced in the 1970s in Missouri and Maastricht [3, 4]. The use of progress testing has increased ever since. Nowadays there is no continent (except for Antarctica) where progress testing is not used [5]. In this short overview we describe the present situation including the formative and summative aspects of progress testing in the Netherlands. Furthermore, its use for benchmarking will be discussed.


네덜란드에 발달시험이 처음 도입된 이후 많은 것이 바뀌었다. 처음에, 8개의 의과대학 중 단 한 곳만이 그것을 사용했다. 1990년대 이후 이 숫자는 급격히 증가하여 현재 5개 학교가 네덜란드 발달시험에 참여하고 있으며, 2015-2016학년도에 6번째 학교가 시작될 것이다. 이는 만 명 이상의 학생들이 동시에 시험을 치르는 것을 의미한다. 우리는 지역 물류와 지역 및 국경일을 고려하여 협력해서 날짜를 미리 계획합니다. 시험은 200개 항목에 대한 4개 분기별 시험으로 구성된다. 이러한 항목은 고정 2차원 행렬(표 1)에 따라 분포되어 있습니다. 1년에 4번 200개 항목의 시험을 사용하는 것은 모든 연간 코호트에 대한 높은 신뢰도를 가지고 있다. 크론바흐의 알파 범위는 0.898 - 0.943이며, 평균은 0.92였다. 또한, 그러한 높은 시험당 항목 수를 사용하는 것은 시험 내 항목의 큰 하위 범주에 대한 적절한 신뢰성을 제공한다[6].

Many things have been changed since the first introduction of progress testing in the Netherlands. Initially, only one of the eight medical schools used it. Since the 1990s the number has increased rapidly and at present five schools are participating in the Dutch progress test and a sixth will start in the academic year 2015–2016. This means that more than 10,000 students sit the exam at the same time. In our collaboration we plan the dates well ahead taking into account local logistics and local and national holidays. The exam consists of 4 quarterly tests of 200 items each. These items are distributed according to a fixed two-dimensional matrix (Table 1). Using a test with 200 items 4 times a year has a high reliability for all the year cohorts. Cronbach’s alpha ranged from 0.898 to 0.943 with a mean of 0.92 during the period from 2005 to 2011. Furthermore, using such a high number of items per test also introduces adequate reliability for large subcategories of items within the test [6].

 

 

단일 기관에서 다기관 시험으로 시험을 발전시키는 동안, 결과는 지속적으로 평가되었고 가능한 한 개선이 구현되었다. 이 예는 다음과 같습니다. 협력 초기에 마스트리히트 학생들은 다른 참여 학교들보다 더 좋은 점수를 받았다. 이는 당시 대부분의 문항이 마스트리히트에서 출제되었다는 사실과 관련이 있었다. 이는 다른 참여 학교들이 품목 생산을 증가시키고자 하는 강한 충동이었고, 이제 모든 학교들은 각 시험에 동등하게 기여한다[7]. 이런 식으로 시험은 하나에서 더 많이 강조되고 다른 커리큘럼에서는 덜 강조된 특정 문제와 관련된 더 많은 항목을 가지고 있기 때문에 어느 학생도 혜택을 받지 못한다. 오늘날 참여 학교들 사이에는 큰 차이가 없다. 시험 항목의 품질을 유지하기 위해 모든 항목은 항목 구성 및 문헌 참조와 관련된 엄격한 기준을 충족해야 한다. 모든 항목은 필요한 경우 지역 검토 위원회가 먼저 확인한 후 테스트에 사용하기 전에 국가 검토 과정에 들어갑니다. 각각의 시험 후에 모든 학생들은 그들이 틀렸다고 생각하는 항목에 대한 해설을 보낼 수 있다. 이러한 의견들은 우선 지역 심의위원회에서 논의된다. 그 후, 의심스러운 항목에 대한 최종 결정은 전국 회의에서 내려집니다.

During the evolution of the test from one single institution to a multicentre test, results have continuously been evaluated and whenever possible improvements implemented. This is illustrated by the following example. In the beginning of the cooperation, Maastricht students scored better than those of the other participating schools. This was related to the fact that most questions originated from Maastricht at that time. This was a strong impulse for the other participating schools to increase item production and now all schools contribute equally to each test [7]. In this way none of the students benefit because the test has more familiar items or more items related to specific issues highlighted more in one and less in another curriculum. Nowadays no large differences between the participating schools are present. In order to maintain quality of test items all items have to fulfil strict criteria regarding item construction, and literature references. All items are first seen by a local review committee, if necessary rewritten, and then enter a national review process before they can be used in a test. After each test all students can send in commentary on items they think are not correct. These comments are first discussed in the local review committees. Subsequently, the final decision about questionable items is made in a national meeting.


다른 학교에서 실시하는 시험은 커리큘럼을 비교할 수 있는 강력한 도구이다[8]. 우리의 경우, 다른 커리큘럼에서 PBL의 비율은 기존(비PBL), 기존과 PBL 사이의 하이브리드에서 거의 완전히 PBL에 이르기까지 다양하다. 이것은 PBL 학교의 학생들이 비 PBL 학교의 학생들과 비슷하게 수행하는지 여부를 질문할 수 있는 가능성을 제공한다. 이것은 이전 논문에서 조사되었다. 두 개 시험점수만 고려되었지만 전반적으로 체계적인 차이는 발견되지 않았다. 그러나 하위 범주에서는 차이가 존재했습니다. 비 PBL 학교의 학생들은 기초 과학 항목에서 더 높은 점수를 받은 반면, PBL 학교의 학생들은 사회 과학 항목에서 더 높은 점수를 받았습니다 [9]. 이런 방식으로 학교 간, 그리고 코호트 간의 차이를 감시할 수 있다. 이러한 데이터는 커리큘럼을 비교하고 커리큘럼 변경, 학생의 성과 및 학습 영역 간의 관계를 평가하는 데 유용할 수 있다[10, 11].
A test which is conducted at different schools is a powerful instrument to compare curricula [8]. In our case the proportion of PBL in the different curricula varies from traditional (non-PBL), a hybrid between traditional and PBL to almost completely PBL. This gives the possibility to pursue the question whether students in a PBL school perform similarly to those in a non-PBL school. This was investigated in a previous paper. Although only two tests were taken into account, overall no systematic differences were found. However, in subcategories differences were present. Students from non-PBL schools scored higher on basic science items whereas students from a PBL school scored better on social science items [9]. In this way differences between schools and between cohorts can be monitored. Such data can be useful for comparing curricula and for evaluation of curriculum changes, students’ achievements and relationship between learning domains [10, 11].

 

시험이 졸업반 수준의 시험이기 때문에, 학부생들이 모든 학습 자료를 다 알고 있을 것이라고 기대할 수는 없다. 따라서, 발달시험에서는, 학생들이 추측하도록 강요하거나 학생들이 알지 못한다는 것을 인정할 수 있는 기회를 주는 것 중 하나를 선택해야 합니다. 우리는 학생들이 우리가 [알 수 없음question mark option]을 사용하는 모든 것을 알 수는 없다는 것을 배우는 것이 중요하다고 느끼기 때문이다. 이것은 학생들이 답을 모를 경우 인정할 수 있는 기회를 준다. 발달시험은 이러한 형태의 채점을 사용하므로 실제 환경real life setting에서 평가할 수 있습니다. 이러한 목적을 위해 학생들은 답을 모를 때 가장 옳다고 생각하는 선택지를 표시하도록 요구받았다. 

Since the test is a test at the end level, it cannot be expected that undergraduate students know all the study material. Therefore, in case of progress testing the choice has to be made between forcing students to guess or giving them the opportunity to acknowledge that they do not know. Since we feel that it is important for students to learn that they cannot know everything we use the question mark option. This gives students the opportunity to acknowledge if they do not know the answer. Since the progress test uses this form of marking we could evaluate it in a real-life setting. For this purpose students were asked to indicate the option they thought the most correct when they did not know the answer.

 

공식채점formula scoring이 옳게 답한 질문의 비율을 낮춘다는 것을 관찰했다. 이는 모든 질문에 답하도록(추측) 강요함으로써 부분 지식이 더 잘 동원될 수 있다는 가정에 유리하다 [11]. 심리학적 분석에 따르면 공식채점formula soring은 추측하는 경향이 덜한 학생들에게 불리할 수 있지만, 위에서 언급한 다른 교육적 고려 사항도 평가되어야 한다. 더욱이, 시험의 신뢰성에 관한 한, 공식채점 시험은 숫자 정답 채점 방식보다 더 나쁠 수도 있고 좋을 수도 있다.

We observed that formula scoring yielded a lower percentage of correctly answered questions. This favours the assumption that partial knowledge can better be mobilized by forcing them to answer (guess) all questions [11]. Although psychometric analysis showed that formula scoring may be a disadvantage for students who are less inclined to guess, other educational considerations as mentioned above should also be valued. Furthermore, as far as reliability of a test is concerned, it has previously been shown that formula scoring tests may perform better than number right scoring tests, [12, 13] as well as worse [14].

 

각 시험 학생들은 양호/합격/실패 점수를 받는다. 모든 연도의 평균 및 표준 편차를 고려하여 상대 표준 설정이 사용됩니다. 그 기준은 연구가 진행됨에 따라 증가한다. 다음 각 테스트는 합격하기 위해 더 높은 점수를 요구합니다. 매년 연말에 학생들은 4개의 시험들의 조합에 기초하여 시험에 전반적인 합격 또는 불합격한다. 이러한 방식으로 발달시험의 합격-불합격 결정은 단일 측정을 기반으로 하는 것이 아니라 4의 조합을 기반으로 합니다. 시험에 합격하기 위한 전반적인 기준은 매년 적절한 수준의 지식을 습득하여 충분한 '합격' 또는 '우수' 점수에 반영되는 것이다. 하나 이상의 '실패'가 발생할 경우 충분한 '합격'과 '우량' 점수로 보상해야 합니다

For each test students receive a score Good/Pass/Fail. A relative standard setting is used, taking into account the mean and standard deviation of all year cohorts. The standards increase with the progress in their study. Each following test requires a higher score to get a pass. At the end of each year students receive an overall pass or fail for the exam based on the combination of the 4 tests. In this way the pass-fail decision of the progress test exam is never based on a single measurement but on a combination of 4. The overall criteria to pass the exam is that each year an adequate level of knowledge is acquired, which is reflected in sufficient ‘pass’ or ‘good’ scores. In case of one or more ‘fails’ this should be compensated for by sufficient ‘pass’ and ‘good’ scores.

 

시험은 5개의 다른 학교에서 실시되기 때문에, 종합적 결정을 일치시키는 데 가장 큰 관심이 주어집니다. 이러한 목적을 위해 4가지 형성 시험의 결과를 총괄적 결정(실패, 합격 또는 양호)으로 변환하는 전국적인 방법이 받아들여졌다. 그 결과, 가능한 모든 조합(81)이 포함된 표(각각 해당 종합 결과 포함)가 작성되었다. 비록 우리는 국가 실무그룹으로서 이것에 동의하지만, 최종 결정은 각 지역 심사 위원들에게 달려 있다. 결과에도 영향을 미칠 수 있는 차이를 방지하기 위해, 일반 정책은 모든 지역 이사회에 의해 인수되는 경향이 있으며, 이는 모든 조합이 있는 이 표의 경우에 해당된다.

Since the test is conducted at 5 different schools, the greatest care is given to aligning the summative decisions. For this purpose a nationwide way of translating the results of the 4 formative tests into a summative decision (fail, pass or good) has been accepted. This resulted in a table in which all possible combinations (81) are included, each with their corresponding summative result. Although we agree upon this as national working group, the final decision lies with each local board of examiners. In order to prevent differences that may also influence the results, the tendency is that the general policy is taken over by all the local boards, which is the case for this table with all the combinations.


평가가 학습을 추진한다는 가정은 교육에서 널리 받아들여지는 도그마이다 [4, 14–17]. 각 발달시험의 항목은 고정 2차원 행렬(표 1)에 따라 분포되어 있다. 각 시험 후 학생들은 시험지를 가지고 갈 수 있으며, 정답 키는 곧 출판된다. 이렇게 하면 답변을 확인하고 부족한 점을 식별할 수 있습니다. 분기별 테스트의 항목 분포는 동일하므로 다음 테스트에서 특정 하위 범주의 점수를 향상시킬 수 있습니다. 또한 PROgress test Feedback system 'PROF'라는 온라인 피드백 시스템을 구축하였다(그림 1과 그림 2). 이 시스템을 통해 학생들은 전체 점수(그림 1)와 부문별 점수(그림 2)에 대한 이해를 얻을 수 있으며, 자신의 점수를 동료 그룹, 시험 모멘트 당 평균과 비교할 수 있다[18]. 이 지속적이고 반복적인 테스트와 피드백의 맥락에서, 우리는 학생들이 그들의 결함을 복구하도록 자극하는 강력한 도구를 구성했다. PROF 시스템의 높은 사용 또한 높은 지식 증가와 관련이 있었다(Donkers et al., 출판용으로 제출된 Donkers et al.) [19]. 이러한 맥락에서 발달시험은 지식 성장을 감시하는 형태 형성적 평가 도구로도 사용할 수 있는 귀중한 도구라는 점을 언급하는 것이 중요하다[20].

The assumption that assessment drives learning is a widely accepted dogma in education [4, 1417]. The items in each progress test are distributed according to a fixed two-dimensional matrix (Table 1). After each test students are allowed to take the test booklet with them and the answer key is published shortly after. In this way they can check their answers and identify their deficiencies. Since each of the quarterly tests has the same item distribution they can improve their score in certain subcategories in the following tests. In addition we constructed an online feedback system called PROgress test Feedback system ‘PROF’ (Fig. 1 and Fig. 2). This system allows students to gain understanding in their overall score (Fig. 1) as well as their scores per discipline or per category (Fig. 2) and to compare their own score with the average in their peer group, per test moment but also longitudinally [18]. In the context of this continuous and repeated testing and feedback, we have constructed a powerful tool to stimulate students to repair their deficiencies. A higher use of the PROF system was also associated with a higher knowledge growth (Donkers et al. submitted for publication) [19]. In this context it is important to mention that progress testing is also a valuable tool to use as a formative assessment monitoring knowledge growth [20].

 

 

 


마지막으로, 발달시험은 커리큘럼의 유일한 평가가 아니라는 것을 깨달아야 한다. 그것은 종종 다양한 평가 도구에 의한 기술과 역량의 블록 테스트와 평가를 포함하는 전체 평가 프로그램의 일부이다. 따라서 그것은 다른 모든 평가에 추가되는 평가이기 때문에 constructive alignment의 틀 밖에서 사용될 수 있다. 커리큘럼의 가장 중요한 지식 평가가 될 수 있다는 것을 깨달아야 한다.

Finally, it should be realized that a progress test is not the only assessment in a curriculum. It is part of the complete assessment programme which often includes block tests and assessment of skills and competencies by a wide variety of assessment tools. As such it can be used outside the framework of constructive alignment as it is an assessment in addition to all other assessments. It should be realized that it could be the most important (if not the only) knowledge assessment of a curriculum.

결론 Conclusion

네덜란드 발달시험은 몇 가지 이유로 인해 특별하다. 5개 의과대학이 시험생산은 물론 시험생성, 채점생성 등에서 협력하는 교육과정 독립시험이다. 그것은 평가의 형성적 측면과 총괄적 측면을 결합한다. 의과대학 커리큘럼의 최종 단계에서 커리큘럼-독립적 평가입니다. 마지막으로, 이는 예를 들어 커리큘럼 비교와 커리큘럼 변화 모니터링과 같은 학생, 연구자, 학교 및 정책 입안자들에게 풍부한 정보 출처이다.

 

The Dutch progress test is extraordinary for several reasons. It is a curriculum-independent test in which 5 medical schools cooperate in test production, as well as testing and scoring students. It combines formative and summative aspects of assessment. It is a curriculum-independent assessment at the end level of the medical curriculum. Finally, it is a rich source of information for students, researchers, schools and policymakers, for instance for comparing curricula and monitoring curricular changes.

 

 

 

 


Perspect Med Educ. 2016 Feb;5(1):51-5.

 doi: 10.1007/s40037-015-0237-1.

The progress test of medicine: the Dutch experience

René A Tio 1Bert Schutte 2Ariadne A Meiboom 3Janke Greidanus 4Eline A Dubois 5Andre J A Bremers 6Dutch Working Group of the Interuniversity Progress Test of Medicine

Affiliations expand

    • PMID: 26754310

 

 

Free PMC article

Abstract

Progress testing in the Netherlands has a long history. It was first introduced at one medical school which had a problem-based learning (PBL) curriculum from the start. Later, other schools with and without PBL curricula joined. At present, approximately 10,000 students sit a test every three months. The annual progress exam is not a single test. It consists of a series of 4 tests per annum which are summative in the end. The current situation with emphasis on the formative and summative aspects will be discussed. The reader will get insight into the way progress testing can be used as feedback for students and schools.

Keywords: Benchmarking; Formative assessment; Progress test; Summative assessment.

의학교육에서 평가의 역사(Adv Health Sci Educ Theory Pract, 2020)

A history of assessment in medical education
Lambert W. T. Schuwirth1,2 · Cees P. M. van der Vleuten1,2

 

 

도입

Introduction

 

본 논문에서 우리는 의학 교육의 평가 역사에 대한 우리의 관점을 설명하고자 합니다. 그리고 그것은 흥미로운 것이었습니다. 그것은 진화적 변화이자 혁명적 변화로 두드러졌다. 예를 들어 의학교육에서 무엇이 좋은 평가를 구성하는지에 대한 현재의 견해는 50년 전과 크게 다르다. 어떤 사람들은 이것이 정말로 현재의 상태가 더 낫다는 것을 의미하는지 아니면 우리가 단지 새로운 유행에 따르고 있다는 것을 의미하는지 궁금해한다. 우리가 평가가 진화하고 현재 더 낫다고 확신하는 것은 놀랄 일이 아닐지도 모른다. 우리는 또한 이것이 논리적인 개발 순서 때문이라고 주장할 수 있는데, 각 개발 순서는 이전의 통찰력에 따라 구축되고 개선되었다.
In this paper we want to describe our perspective on the history of assessment in medical education, and it has been an interesting one. It has been marked by both evolutionary and revolutionary changes. Current views on what constitutes good assessment in medical education differ vastly from, for example, 50 years ago. Some wonder whether this really means that the current state is better or that we are just following new fads. It may come as no surprise that we are convinced that assessment has evolved and is better now. We would also contend that this is due to a logical sequence of developments, where each one built and improved upon insights of the previous.

그렇게 함으로써, 우리는 역사에 대한 모든 설명에서 무엇을 포함시켜야 하고 무엇을 포함하지 말아야 하는지에 대한 선택이 이루어져야 한다는 것을 깨닫는다. 예를 들어, 우리는 본 논문에서 '평가'에 대해 말할 때마다 의료 교육의 평가와 관련이 있음을 여기서 선언하고자 한다. 이것은 아마도 한계일 것이다. 왜냐하면 많은 건강 직업 교육 분야들이 평가의 발전에 중요한 공헌을 했고 아마도 더 일찍 혹은 더 낫게 만들었지만, 우리는 그 방대한 문학을 충분히 건너지 못할지도 모른다.

In doing so, we realise that in every description of history, choices have to be made as to what to include and what not. For instance, we want to declare here that whenever we speak about ‘assessment’ in this paper we pertain to assessment in medical education. This is perhaps a limitation because there are many health professions education disciplines that have made important contributions the to the developments in assessment and perhaps even earlier or better, but we may not be across that vast body of literature well enough.

측정으로서의 평가
Assessment as measurement


1960년대 의학 교육의 평가 연구 및 개발은 [주관적이고 신뢰할 수 없으며 편향된 것으로 종종 보였던 일반적인 관행에 대한 불만족 때문에] 보다 체계적이고 표준화된 '객관적인' 평가를 산출하는 것을 목표로 했다. 많은 것들이 시험 심리학에서 배우고 모방되었다. 분야로서의 시험 심리학은 이미 지능, 동기 또는 외향/내향과 같이 [표준화된 방법으로 성격 특성을 측정]하는 데 초점을 맞춘 잘 발달된 측정 패러다임을 가지고 있었다. 이러한 성격 특성 테스트의 가장 널리 알려진 예는 WAIS(Wechsler Adult Intelligence Scale) 또는 MMPI(Minnesota Multiphasic Personality Inventory)이다. 이것이 평가 연구 및 개발에 대한 우리의 견해에 몇 가지 영향을 미쳤다.

Assessment research and development in medical education in the 1960s aimed at producing more structured, standardised and ‘objective’ assessment, because of dissatisfaction with prevailing practice, which was often seen as subjective, unreliable and biased. Much was learnt and copied from test psychology. Test psychology as a discipline already had a well-developed measurement paradigm focussing on measuring personality characteristics with standardised methods, for example intelligence, motivation or extraversion/introversion. The most widely known examples of such personality trait tests are the Wechsler Adult Intelligence Scale (WAIS) or the Minnesota Multiphasic Personality Inventory (MMPI). This had several implications for our views in assessment research and development.


첫 번째이자 가장 분명한 함축은 역량이 순수하게 양적으로 포착될 수 있고 심지어 그것을 (단일) 점수로 표현할 수 있다는 견해였다. 이러한 관점에서 평가 설계는 주로 [심리 측정의 문제]였다. 따라서, 당연하게도, 평가 퀄리티를 보여주는 것은 [구인 타당성과 신뢰성]이었다.

The first and most obvious implication was the view that competence could and even should be captured purely quantitatively and that it could be expressed as a (single) score. In this view, assessment design was mainly a psychometric measurement problem. So, unsurprisingly, the hallmarks of assessment quality were construct validity and reliability.


[신뢰성]은 "잘 작동하거나 행동하기 때문에 신뢰할 수 있거나 믿을 수 있는 품질"처럼 그 [단어의 일상적인 의미]로 정의되지 않았다. 그보다는 [항목, 사례, 심사원 등에 걸쳐 점수가 재현될 수 있는 정도] 또는 [내적 일관성]으로 정의되었다. 그 당시에는 신뢰성의 개념과 중요성에 대한 일반적인 합의가 있었다. 반면에, 교육 평가의 타당성은 상대적으로 더 논쟁의 여지가 있는 개념이었다. 이것은 1980년대 초에 로버트 에벨과 리 크론바흐(Cronbach 1983; Ebel 1983) 사이의 흥미로운 대립에 의해 예시되었다.

Reliability was not defined in the everyday meaning of the word, such as “the quality of being able to be trusted or believed because it is working or behaving well” but merely as the extent to which scores would be reproducible across items, cases, examiners, etc. or as internal consistency. At that time there was general agreement on the notion and importance of reliability. Validity in educational assessment, on the other hand, was a more disputed concept. This was exemplified in the early 1980s by an interesting polemic between Robert Ebel and Lee Cronbach (Cronbach 1983; Ebel 1983). 

 

크론바흐는 구인 타당성에 대한 그의 획기적인 출판물에서, 평가는 그 점수가 건설에 관한 가정과 일치할 때에만 타당할 수 있다고 주장했다(Cronbach와 Mehl 1955).

Cronbach argued, in line with his landmark publication about construct validity, that an assessment can only be valid if its scores ‘behaved’ in alignment with the assumptions about the construct (Cronbach and Meehl 1955).

 


간단한 예로 전문 임상의가 덜lesser 전문가보다 더 나은 의료 문제 해결사라는 가정이 있다면, 임상 문제 해결을 위한 테스트는 [적은 전문가]보다 [전문가]가 높은 점수를 받아야 한다. 우리의 평가도구가 중간intermediate 전문지식의 후보자가 전문가(환자 관리 문헌의 결과)를 능가한다는 것을 발견한다면, 이는 평가도구의 구인 타당성에 반하는 주장을 한다. 그러나 만약 우리가 [각 의학적 문제에 대한 임상적 추론의 가장 좋은 방법]이 하나 있다고 가정한 뒤, 평가 도구가 전문가들 사이에서 합의를 이루기보다는 서로 차이가 난다는 것을 발견한다면, 그것은 또 다른 방법이 될 수 있다.

As a simple example, if an assumption is that expert clinicians are better medical problem solvers than lesser experts, a test for clinical problem solving should lead to higher scores for experts than for lesser experts. If our instrument finds that candidates of intermediate expertise outperform expert—a finding from the patient management literature—this argues against the construct validity of the instrument. But it can also be the other way around, if we assume that there is one best way of clinical reasoning for each medical problem and we find that an assessment instrument shows dissent amongst experts rather than consensus,


반면, 에벨은 교육 평가는 심리검사가 아니므로, 예를 들어 [신중한 청사진과 문항 작성]에 의해 타당성이 시험 자체에 구축되어야 한다고 주장했다. 요컨대,

  • 전자(크론바흐)의 관점은 각 항목이 총점에 수치적으로 기여하는 정도에서만 의미 있는 것으로 보고
  • 후자(에벨)는 각 항목을 본질적으로 의미 있는 것으로 보고, 점수는 요약문summary statement으로 본다(Ebel 1983).

Ebel on the other hand, argued that educational assessments were not psychological tests and therefore, validity has to be built into the test, for instance by careful blueprinting and item writing. In short, 

  • the former view sees each item only as meaningful to the extent to which it contributes numerically to the total score and 
  • the latter sees each item as intrinsically meaningful and the score as a summary statement (Ebel 1983).

 

시험 심리학에 대한 평가 설계를 모방함으로써 얻은 또 다른 함의는 의학적 역량을 성격적 특성의 조합으로 정의하는 것이었다. 일반적으로 이러한 특성들은 '지식', '기술', '태도와 문제 해결 능력'이었다. 그리고 시험 심리학에서의 가정과 마찬가지로, 이러한 개별적인 속성들은 일반적이고 독립적인 것으로 가정되었다. 당시의 일반적인 견해는 [이들 각각이 다른 것들과 독립적으로 측정될 수 있다]는 것이었다. 예를 들어, 문제 해결 능력은 지식과는 독립적으로 측정될 수 있거나 OSCE와 같은 기술 평가에는 지식 측면이 포함되지 않아야 한다고 주장하였다(1990년 Van der Vleuten 및 Swan).

Another implication from mimicking assessment design on test psychology was to define medical competence as a combination of personality traits; typically, these were, ‘knowledge’, ‘skills’, ‘attitudes and ‘problem-solving ability’. And, like assumptions in test psychology, these individual attributes were assumed to be generic and independent. A popular view at the time was that each of these could be measured independently of the others. For example, it was held that problem-solving ability could be measured independently of knowledge, or that an assessment of skills—such as the OSCE—should not include knowledge aspects (Van der Vleuten and Swanson 1990).


평가가 역량의 측정으로 간주될 때, 그것을 객관적으로 만들기 위해 노력하는 것은 논리적이다. 따라서 평가 설계의 대부분은 [인간의 판단의 역할을 최소화]하는 데 목적을 두었고, [구조화 및 표준화]는 평가의 신뢰성을 높이는 중요한 방법으로 간주되었다.

When assessment is seen as a measurement of competence it is only logical to also strive to make it objective. Therefore, much of the assessment design aimed at minimising the role of human judgement, and structuring and standardisation were seen as important ways to increase reliability of the assessment.


[심리검사]를 [평가 설계의 기초]로 사용한 또 다른 결과는 [목적의 정의], 즉 [사람들을 구분하는 것]과 관련이 있다. 심리테스트는 일반적으로 사람들의 성격적 특성에 따라 구별하기 위해 고안되었습니다; 높은 외향성과 낮은 외향성, 높은 지능과 낮은 지능 등이 그것이다. 그래서 그 시기에 대한 평가 역시 사람들을 구분하기 위해 고안되었다: 높은 역량과 낮은 역량. 이러한 사고 방식은 [변별도Discrimination index] 또는 [Item-Total 상관 관계]와 같이 아직 널리 사용되는 항목 파라미터에서 잘 드러난다.

Another consequence of using psychological testing as the basis for assessment design pertains to the definition of its purpose, namely, to tell people apart. Psychological tests are typically designed to tell people apart based on their personality traits; high extraversion-low extraversion, high and low intelligence, etc. so it was almost inevitable that assessments of that time were also designed to tell people apart: high competence and low competence. This way of thinking is still dominant in widely used item parameters such as Discrimination Index or Item-Total correlations. 

 

사람들을 구분하는 것이 어떤 맥락에서 평가의 목적 중 하나일 수 있지만, 특히 시험 개발 초기, 학습의 평가assessment of learning에서는 일반적으로 유일한 것으로 간주되었다: 학생들은 '충분히 역량있다'와 '충분히 역량있지 않다'로 분류되었다. 무능하거나 아직 실력이 없는 학생들은 다음 단계로 발전할 수 없으며 진보가 허용되려면 어느 시점에 재시험을 치러야 할 것이다. 이것은 자동적으로 매우 유능한 학생들만 졸업할 수 있다는 가정하에 일반적인 관행이었다.

Although telling people apart may be one of the purposes of assessment in some contexts—especially in assessment of learning in the early era of test development it was generally seen as the only one: students were categorised into ‘sufficiently competent’ and ‘not sufficiently competent’. Incompetent or notyet-competent students cannot progress to the next phase and would have to either resit the exam at some point in time to be allowed to progress. This was common practice under the assumption it would automatically lead to graduating only highly competent students.


그 자체로 이 시대의 생각이 일관성이 없는 것은 아니었지만, 연구 결과와 새로운 사고방식이 몇 가지 비판적인 우려를 낳았다. 예를 들어, 연구는 낮은 신뢰성의 주요 원천은 주관성이 아니라, 열악한 샘플링 전략임을 보여주었다. 표본 추출이 잘 되지 않으면, 주로 도메인 특이성으로 인해 신뢰성이 떨어지기 때문이다(Swanson and Norcini 1989; Eva et al., 1998; Eva 2003). 응시자가 하나의 테스트에서 문제 또는 항목을 해결하는 방법은 다른 문제를 어떻게 해결할 것인가에 대한 예측을 잘 해주지 못하였으며, 결과적으로 충분한 일반화 및 신뢰할 수 있는 결과를 얻기 위해서는 많은 사례 또는 문항이 필요하다.

In itself, the thinking of this era was not incoherent, but research findings and new ways of thinking gave rise to some critical concerns. Research, for example, showed that subjectivity is not the main source of unreliability, but poor sampling strategies are (Swanson 1987; Swanson and Norcini 1989). Poor sampling mainly leads to lack of reliability because of domain specificity (Swanson and Norcini 1989; Eva et al. 1998; Eva 2003); the way a candidate solves a problem or item on a test is a poor predictor of how they would solve any other problem, and consequently high numbers of cases or items are needed to produce a sufficiently generalisable or reliable result. 

 

또한 '객관성' 개념도 도전을 받았다(Norman et al. 1991; Van der Vleuten et al. 1991). 갈수록, 평가는 [언제나 학습자의 성취와 진보에 대한 정보를 수집하고collecting 그것의 가치를 평가valuing하는 과정]이어야 한다는 것이 인정받기 시작했다. 이 'valuing'은 항상 인간의 판단을 포함한다. 가장 구조화된 객관식 시험에도 설계도, 표준 설정, 포함할 항목의 관련성, 항목 표현 등 일련의 인간적 판단이 포함된 프로세스가 선행된다.

Moreover, the notion of objectivity was challenged (Norman et al. 1991; Van der Vleuten et al. 1991). Increasingly, it was acknowledged that assessment is always a process of collecting information about a learner’s achievement and progress and valuing it. This ‘valuing’ always incorporates human judgement. Even the most structured multiple-choice test is preceded by a process that includes a series of human judgments: blueprinting, standard setting, relevance of items to include, wording of items and so on.


또 다른 중요한 발견은 이전에 평가에 대해서 생각했던 것과 달리, [특성trait을 서로 독립적으로 측정할 수 없다]는 것이다(Norman et al. 1985; Norman 1988; Van der Vleuten et al. 1988). 의학교육의 평가에서 '성배holy grail'라고 할 수 있는 [[임상 추론 및 문제 해결]의 경우 배경 지식에 매우 의존하는 것으로 확인]되었으며, 따라서 논리적으로 수행능력은 여러 콘텐츠에 걸쳐서 잘 일반화되지 않는다(스완슨 외 1987년). 오히려 반직관적으로, 수행능력은 다수의 평가 형식들 사이에서 잘 일반화된다(Norman et al. 1985). 예를 들어, 유사한 내용을 개방형 질문과 객관식 질문을 사용하여 질문했다면, 상관관계는 매우 높았다(Ward 1982; Schuwirth et al. 1996). 임상 기술에 대한 필기 테스트에서 학생들의 성과를 실제 OSCE와 비교했을 때에도, 성능은 놀라울 정도로 잘 일반화되었다(Van der Vleuten et al. 1988).

Another important finding was that traits could not be measured as independently of each other with different forms of assessment as previously thought (Norman et al. 1985; Norman 1988; Van der Vleuten et al. 1988). The ‘holy grails’ in assessment in medical education, clinical reasoning and problem solving, were found to be highly reliant on background knowledge, and so logically, performance does not generalise well across content (Swanson et al. 1987). Counterintuitively though, performance does generalise well across assessment formats (Norman et al. 1985). If for example, similar content was asked using open ended questions and multiple-choice questions, correlations were extremely high (Ward 1982; Schuwirth et al. 1996). Even when students’ performance on a written test on clinical skills was compared to an actual OSCE, performance generalised surprisingly well (Van der Vleuten et al. 1988).


판단으로서의 평가

Assessment as judgement

평가에 대한 생각에서 주목할 만한 변화가 1990년대에 일어났다. 측정 '패러다임'의 지배력에 대한 불만이 커졌는데, 이는 주로 이 패러다임에서 특정 측면만 포착할 수 있기 때문이다.

A notable change in thinking about assessment took place in the 1990s. Discontent with the dominance of the measurement ‘paradigm’ grew, mainly because in this paradigm only certain, limited aspects of competence can be captured.


Boud 등의 논문은 평가가 [독립성, 사려 깊음 및 비판적 사고]도 촉진해야 하며, 평가가 순전히 측정에 초점을 맞출 때 이러한 목표 달성에 반대된다는 주장을 통해 이를 명확히 설명한다(Boud 1990). 학생들이 평가 과정에 적극적이고 책임감 있는 이해관계자로 포함되고, 의미 있는 피드백을 제공받는 경우에만 평가는 이러한 가치를 촉진할 수 있다고 주장하였다(Boud 1995).

A paper by Boud et al. illustrates this clearly by arguing that assessment should also promote independence, thoughtfulness and critical thinking and that when assessment focuses purely on measurement, it runs contrary to achieving these aims (Boud 1990). It was further argued that assessment could only promote these values if the students were included as active and responsible stakeholders in the assessment process and were provided with meaningful feedback (Boud 1995).


그때까지, 평가가 학습에 영향을 미치는 주요 방법은 행동주의 메커니즘, 강화와 처벌을 통한 것이었다. 물론 형성적 평가와 피드백의 개념은 존재했지만, 주로 정량적 방식으로 [사람들을 구분하는 것]을 목적으로 하는 시스템에서, 형성적 측면의 영향은 종종 무시될 수 있었다(해리슨 외 2015; 해리슨 외 2016).

Up until then, the main ways through which assessment impacted on learning was by behaviourist mechanisms, through reinforcement and punishment. Of course, the notions of formative assessment and feedback existed, but in a system in which the summative aspects were aimed at telling people apart in a mainly quantitative way, the impact of formative aspects was often negligible (Harrison et al. 2015; Harrison et al. 2016).


그러나 평가가 학습을 어떻게 이끄는지는 단순히 처벌과 보상에 의한 것보다 더 복잡하다. 이것은 학생들이 평가로부터 의미를 구성하는 방법에 의해 큰 영향을 받는다(실리어스 등, 2010, 2012). 생각의 세 가지 변화가 일어났다.

How assessment drives learning is more complex than simply by punishment and reward, however. It is highly influenced by the way students construct meaning from the assessment (Cilliers et al. 2010, 2012). Three changes in thinking took place.

 

  • 첫째, 역량의 개념은 성격적 특성이 아닌 (소)역량competencies으로 재정의되었다(Hager and Gonczi 1996; Cancmeds 2005). 오늘날까지, 역량의 개념은 논쟁의 여지가 없지 않으며, 많은 정의와 용도가 있다. (Albanese et al. 2008; Govaerts 2008). 그러나 일반적으로 [특성trait보다 역량competencies이] 의학교육의 결과를 더 의미있게 정의하려는 시도라 할 수 있다. 이는 학습자에게 더 의미 있는 피드백을 제공하고 학습자를 육성할 수 있는 가능성을 열어주기 때문에 중요하다(Ericsson et al., 1993).

First, the notion of competence was redefined as competencies rather than as personality traits (Hager and Gonczi 1996; Canmeds 2005). Until today, the notion of competencies is not undisputed and there are many definitions and uses. (Albanese et al. 2008; Govaerts 2008) However, in general, competencies are an attempt to define the outcomes of medical education more meaningfully than traits. This is important because that opens up possibilities to also provide more meaningful feedback to the learner, and thus foster their learning (Ericsson et al. 1993).

 

  • 둘째, 객관성과 표준화보다 [우수한 표본 추출]이 신뢰성에 필수적이기 때문에, 평가는 진정한authentic 맥락으로 되돌아갈 수 있다(Norcini et al. 1995). 이를 통해 비판적 사고, 전문성, 성찰 및 자체 규제와 같은 더 많은 측면을 평가에 포함시킬 수 있었다.

Second, because objectivity and standardisation are not as essential to reliability as good sampling is, assessment could be allowed to move back into the authentic context (Norcini et al. 1995). This enabled the inclusion of more facets, such as critical thinking, professionalism, reflection and self-regulation in the assessment.

 

  • 마지막으로, 평가 과정에서 인간 판단의 역할에 대한 재평가가 있었다(엡스타인과 헌더트 2002). 이것은 이전의 전통적인 임시적이고 신뢰할 수 없는 평가 관행에 대한 회귀가 아니었다. 후속 작업장 기반 평가(WBA)는 이전 연구의 샘플링, 유효성 및 신뢰성에 대한 더 나은 지식과 이해를 사용하여 개발되었다.

Finally, there was a reappraisal of the role of human judgement in the assessment process (Epstein and Hundert 2002). This was not a return to the traditional ad-hoc and unreliable assessment practice of before; the ensuing workplace-based assessments (WBA) were developed using better knowledge and understanding around sampling, validity and reliability from previous research.


OSCE와 같은 이전의 구조화된 평가 방법에 비해 WBA의 인식된 장점 중 하나는 [실제 환경에서 평가하는 능력]이다. 진정성authenticity은 압박을 받는 상황에서의 환자관리, 환자와의 민첩한 상호작용, 의료 시스템의 경계 조건 탐색 등 [OSCE로 테스트할 수 없는 측면을 평가할 수 있다는 점]에서 이점이 있다. 그러나 Authenticity가 자동적으로 Validity와 동일하지 않다는 것을 명심해야 한다(Cronbach and Mehl 1955; Swanson et al. 1987; Kane 2006).

One of the perceived advantages of WBA over previous structured assessment methods such as the OSCE, is its ability to assess candidates in a real authentic setting. Authenticity has advantages in that it allows for the assessment of aspects which cannot be tested with an OSCE, such as management under pressure, agile interaction with patients and navigating boundary conditions of healthcare systems. It must be kept in mind though, that authenticity is not automatically the same as validity (Cronbach and Meehl 1955; Swanson et al. 1987; Kane 2006).


Validity를 보장한다는 의미에서 [직접 관찰 기반 평가 또는 WBA]는 [표준화된 테스트]와는 근본적으로 다릅니다. 표준화된 테스트에서, 타당성은 이 방법에 내재될 수 있다. 인간의 관찰과 해석이 필수적인 WBA에서는 그렇지 않다. 현행 유효성 이론(Kane)에서 [평가자에 의한 관찰과 해석]은 타당성 사슬의 첫 번째 추론에 필수적이며, 그것이 없이는 타당성을 확립할 수 없다(Kane 2006).

In the sense of ensuring validity, direct observation-based assessment or WBA is fundamentally different to standardised testing. In standardised testing, validity can be built into the method. This is not the case in WBA, where human observation and interpretation are essential. In current validity theory (Kane) observation and interpretation by the examiner are essential for the first inference in the validity chain, and without it, validity cannot be established (Kane 2006).


논리적으로, 타당성과 관련하여 평가자의 역할이 더욱 중요해졌고, 이를 위해 평가자는 [WBA의 임상 내용 또는 다른 형태의 직접 관찰 기반 평가와 관련하여 충분한 전문지식]을 보유할 필요가 있으며, 평가자는 [평가 측면, 무엇을 찾아야 하는지, 해석하는 방법, S와 U 판단시 어디에 선을 그어야 하는지 여부] 등에 관해서도 알아야 한다

Logically, the role of the examiner became more central with respect to validity and for this, examiners need to have sufficient expertise with regard to the clinical content of the WBA—or any other form of direct observation-based assessment—but also with regard to the assessment aspects, what to look for, how to interpret, where to draw the line between satisfactory and unsatisfactory performance, et cetera.


인간 판단 요소인 '객관적 평가'를 제거하도록 평가를 설계하는 대신, 이제는 인간 판단을 수용하도록 설계해야 했다. 그러나 이러한 소위 평가 리터러시(Popham 2009)는 WBA 맥락에서 여전히 어려운 과제였다(Berendongk et al. 2013).

Instead of designing assessment such that it removes the human judgement component—‘objective assessment’—it now had to be designed to embrace human judgement. But this so-called assessment literacy (Popham 2009) was, and often still is, a challenge in WBA context (Berendonk et al. 2013).


처음에는 WBA 접근법의 품질에 대한 지표도 시험 심리학에서 차용되었다. 예를 들어, 대부분의 WBA 평가도구는 여전히 단일 수치 결과에서 복잡한 관측 성능을 포착하기 위해 노력하며, 연구는 점수와 점수의 신뢰성/일반성을 살펴보는 것이 WBA의 요약 부분이며, WBA의 형성 부분을 피드백한다(Moonen-van Loon et al. 2013).

Initially, indicators for quality of WBA approaches were also borrowed from test psychology. For example, most WBA instruments still try to capture the complex observed performance in a single numerical outcome, studies look at reliability/generalisability of scores and scores are the summative part and feedback the formative part of WBA (Moonen-van Loon et al. 2013).


그러나 차츰 다른 견해가 나타났다. 주목할 만한 발전은 표준 심리측정적 퀄리티 기준(구인 타당성 및 신뢰성)이 평가 유틸리티의 유일한 특징으로서 한계가 있다는 것을 깨달은 것이다.
But gradually, different views emerged. A notable development was the realisation that standard psychometric quality criteria—construct validity and reliability—as the only hallmarks of assessment utility had their limitations.


Schuwirth와 Van der Vleuten은 심리측정학에서 '툴킷'을 확장하여 증가하는 평가의 다양성(Schuwirth and Van der Vleuten 2006)에 맞춰 더 다용도 모델링을 제공하고 나중에 프로그래밍적 평가(Schuwirth and Van der Vleuten 2012)에 대해 간청했다.

Schuwirth and Van der Vleuten made a plea for an extension of the ‘toolkit’ in psychometrics to provide more versatile modelling to cater to the increasing variety in assessment (Schuwirth and Van der Vleuten 2006), and later with respect to programmatic assessment (Schuwirth and Van der Vleuten 2012).


이러한 개념적 관점의 변화가 필요했던 이유는 역량competence과 역량competencies이 [단일한 수치 결과]에서 포착하여 충분히 요약할 수 있는 [단순하고 간단한 현상이 아니라는 깨달음]이 커졌기 때문이다. 대신, 역량은 복잡하고 다면적이다. 예를 들어 이전에 평가자 간 변동성을 최소화하여 WBA의 품질을 높였던 Gingerich 외 연구진(2015, 2017)은 [서로 다른 전문가 평가자]들이 역량과 같은 다면적인 현상의 [서로 다른 측면]을 관찰하기 때문에 다를 수 있다고 주장한다. 그래서, 그들이 단지 반대라고 보기보다는, 그들은 잠재적으로 [상호 보완적인 것]으로 여겨졌습니다.

This conceptual change of views was needed because the realisation grew that competence and competencies are not simple, straightforward phenomena which can be captured and sufficiently summarised in a single numerical outcome. Instead, they are complex and multifaceted. For example, where formerly increasing quality in WBA was pursued by minimising variability between assessors, Gingerich et al. (2015, 2017) argue that different expert assessors may differ because they observe different aspects of a multifaceted phenomenon such as competence. So, rather than seeing them only as dissenting, they were now seen as potentially complementary.


변동성의 특성을 보는 세 가지 관점

  • 서로 다른 평가자가 서로 다른 기준 프레임을 사용하거나 기준을 잘못 적용하는 오류 기반 관점
  • 인지 부하 제한의 결과로서 평가자 과실 및 인지 편향
  • 의미 있는 특이점(Gingerich et al. 2014).

 

the nature of any variability from three different perspectives: 

  • an error based perspective in which different assessors use different frames of reference or apply criteria incorrectly, 
  • assessor fallibility and cognitive biases as a result of cognitive load restrictions, 
  • but also as meaningful idiosyncrasy (Gingerich et al. 2014).


[기준의 부정확한 기준 및 적용, 인지 부하 제한 및 관대함 편향]의 문제는 일반적으로 교수개발을 통해 평가자의 평가 리터러시를 향상시킴으로써 대응될 수 있다.

  • 첫째, 전문지식은 항상 효율성과 관련되기 때문이다. 효율성은 인지 부하 감소와 관련이 있고, 그리고 평가 능력에도 관련될 가능성이 높다(Govaerts et al., 2011, 2012). 
  • 둘째, 자신의 판단을 지지하고 방어하기 위한 [목적적합한 어휘를 갖는 것]은 행위자성을 합리적으로 개선하고 평가인에게 권한을 부여하며empower, 이른바 [사적 및 공적 판단]과 관대함 사이의 차이 가능성을 감소시킨다.  
  • 세 번째로, 평가 리터러시 능력 향상은 소위 공유 주관성shared subjectivity과 공유 서술shared narrative의 개발을 포함하기 때문에 부정확한 기준 프레임 또는 기준 해석의 가능성을 감소시킨다(긴스버그 외, 2015, 2017; 쿡 외 2016).


The problems of incorrect frames of reference and application of criteria, cognitive load restrictions and leniency bias can be typically counteracted by improving the assessment literacy of examiners through staff development. 

  • This is firstly, because expertise is always associated with efficiency (Chi and Rees 1982; Norman 1988; Boreham 1994; Norman 2009), and efficiency is associated with reduction of cognitive load (Van Merrienboer and Sweller 2005), and the same is likely to hold for assessment literacy (Govaerts et al. 2011, 2012). 
  • Secondly, having a fit-for-purpose vocabulary to support and defend one’s judgement plausibly improves agency and empowers the assessor, and reduces the likelihood of differences between so-called private and public judgement, and leniency (Berendonk et al. 2013; Valentine and Schuwirth 2019). 
  • Thirdly, because increased assessment literacy involves the development of a so-called shared subjectivity and shared narrative, reducing the likelihood of incorrect frames of reference or interpretation of criteria (Ginsburg et al. 2015, 2017; Cook et al. 2016).

 

시스템으로서의 평가
Assessment as a system

 

점차적으로, 교육, 역량 및 평가가 원래 생각했던 것보다 더 복잡한 현상이라는 것을 깨닫게 되었다. (Durning et al. 2010) '복잡함', '시스템', '비선형 역학' 등의 단어가 생겨난 새로운 서술이 등장했다. 이 단어들은 기상학이나 물리학과 같은 다른 과학 분야에서 더 긴 역사를 가지고 있으며, 의학 교육에서는 (노먼이 주장했던 것처럼) 와전히 등가적 의미를 갖지 않았고, 그것들 또한 그래서는 안 된다(Norman 2011). 대신, 이러한 용어들은 [시스템 이론의 기초를 사용한 '교육', '역량', '평가'의 온톨로지적 및 인식론적 기초에 대한 근본적인 재검토]를 나타내는 지표였다.

Gradually, the realisation grew that education, competence and assessment are more complex phenomena than originally thought (Durning et al. 2010). A new narrative emerged in which words such as ‘complexity’, ‘systems’ and ‘non-linear dynamics’ arose. These words have a longer history in other scientific domains, such as meteorology and physics, and for medical education they were not meant as one-on-one equivalents and, as Norman argued, nor should they (Norman 2011). Instead, they were indicators of a fundamental rethink about the ontological and epistemological foundations of ‘education’, ‘competence’ and ‘assessment’, using the basis of systems theory (Checkland 1985; Ulrich 2001).


일반적으로 이러한 사고의 주요 의미는 다음과 같습니다.

In general, the main implications of this thinking were:


• 교육은 어떤 시점이든 [동등하게 수용가능한 여러 솔루션 경로를 가질 수 있는 문제 해결 프로세스]이다(즉, 임상 추론과 같은 교육 문제 해결 프로세스는 특이적 프로세스임).

• Education is a problem solving process which at any point in time may have multiple equally acceptable solution pathways (i.e. educational problem-solving processes like clinical reasoning are idiosyncratic processes)


• 그러나 [허용 가능한 솔루션]과 [허용할 수 없는 솔루션] 사이의 경계는 다소 불분명하며, '모든 것이 진행 중'의 문제가 아니다.

• Yet, there are more or less fuzzy boundaries between acceptable and unacceptable solutions and not it is not a matter of ‘just everything goes’


• 솔루션 경로가 최적이 아닐 경우 언제든지 이해 당사자는 전략을 변경할 수 있어야 하며, 이를 위해서는 상황 인식, 전략의 레퍼토리 및 변화에 대한 민첩성이 필요합니다.

• At any point in time, the stakeholders need to be able to change tack if a solution pathway is not optimal and for this, they need situational awareness, a repertoire of strategies and the agility to change


분명히, 이것은 또한 방법 지향적 접근법에서 전체 시스템 접근법에 이르기까지 평가에 있어서 재고해야 했다. 이는 상당히 근본적인 변화이다. 왜냐하면 그 때까지 평가는 일반적으로 역량을 개별적이고 개별적으로 평가할 수 있는 단위로 분해함으로써 운영되어왔기 때문이다. 그러나, (이러한 환원주의적 접근은) 소수의 이산적discrete 요소로부터 역량의 복잡한 현상을 재구성해야 하는 거대한 도전을 남겼다. 예를 들어, 평가 프로그램이 10개의 개별 시험을 포함하는 경우에도 각 시험은 이진 결과만 생성한다(합격/실패). 이렇게 하면, 역량의 재구성은 이 10개의 이진법(합/불합) 데이터 포인트로 수행되어야 할 것이다. 등급과 가중치를 사용하면 이 문제를 약간 완화시킬 수 있다. 불행히도, 역량을 초기에 사용하던 때에는 이 문제를 해결하지 못한 것 같았고, 역량, 역량의 하위역량, 하위역량의 하위역량 등으로 무한정 정의내리는 환원주의적 접근법을 사용했다.

Obviously, this also involved a rethink in assessment, from a methods-oriented approach to whole-systems approach. This is quite a fundamental change because until that time assessment typically operated by deconstructing competence into discrete, individually assessable units. However, that still left us with the huge challenge of reconstituting the complex phenomenon of competence from only few discrete elements. For example, even when an assessment programme contains 10 individual tests, each of those tests will only generate a binary result (pass/fail). That way, the reconstitution of competence will have to be done with those 10 binary data points. Using grades and weighting may only mitigate this problem slightly. Unfortunately, early uses of competencies did not seem to solve this problem either and they too used a reductionist approach with organisations often defining competencies, sub-competencies and even sub-sub-competencies, ad infinitum.


평가의 관점에서, 프로그램적 평가가 [복잡성 관점complexity view]을 [평가의 통합적이고 전체적인 필요성과 결합]하려고 시도했다. 프로그램적 평가는 '모든 과정을 의미있게 만드는 것(making the whole course count)'이다. PA에서는 학생 및 교수가 (평가를) [개별 측정 집합]이 아니라, [의미 있는 전체론적 설명]으로 구성한다. 이러한 사고 변화가 필요하다고 판단된 이유 중 하나는 평가 초기에는 개별 측정 결과에서 '전체'를 재구성하는 데 '이 평가가 40%에 반영된다' 또는 '합격 실패 점수가 55%이다'와 같이 매우 자의적인 결정이 필요했기 때문이다.
From an assessment point of view, programmatic assessment—or ‘making the whole course count’ as one of its similar developments in general education is named (Cooper et al. 2010)—has attempted to combine the complexity views with the need to keep the assessment integrated and holistic. It is based on students and their teachers/supervisors constructing a meaningful holistic narrative rather than a set of individual measurements. One of the reasons why this change in thinking was deemed necessary is because in the earlier years of assessment the reconstitution of the ‘whole’ from the individual measurement outcomes required hugely arbitrary decisions, such as ‘This assessment counts for 40%’ or ‘The pass fail score is 55%’.

물론, 평가를 시스템 문제로 접근한다고 해서 교육 연속체의 일부 단계에서 '진행 준비 완료'/'진행 준비가 되지 않은' 결정을 내릴 필요성을 부정하는 것은 아니다. 그러나 이러한 결정은 다양한 출처에서 얻은 정보의 의미 있는 삼각 측량, 종적 데이터 수집, 목표 학습 활동과 비례적 의사 결정을 기반으로 이루어져야 한다. 또한 각각의 고부담 결정에는 항상 명확하고 투명한 근거를 필요로 한다.

Of course, approaching assessment as a system issue does not negate the need to make ‘ready to progress’/’not ready to progress’ decisions at some phases in the educational continuum. But these decisions must be made on the basis of meaningful triangulation of information from various sources, longitudinal data collection, meaningful feedback with targeted learning activities and proportional decision making (Van der Vleuten and Schuwirth 2005; Van der Vleuten et al. 2012, 2015), always requiring a clear and transparent rationale behind each high-stakes decision.


이러한 접근 방식의 변화는 [평가 퀄리티]의 개념화에 중요한 영향을 미쳤다. 예를 들어, 하나의 방법에만 국한하지 않고, [유사한 내용에 대하여 여러 방법에 걸쳐 평가 정보를 삼각 측량하는 과정]은 지금까지의 방식과는 다르다. 전통적으로, 평가 정보는 동일한 형식이었기 때문에 결합되었습니다. 무릎 검사와 복부 검사의 OSCE 스테이션은 같은 형식이고, 이것이 전통적으로 그것들이 합쳐진 이유이다; 한쪽의 저조한 성능은 다른 한쪽의 좋은 성능으로 보상받을 수 있다. 그러나 이러한 관행은 일반화에 대한 대부분의 증거에 반한다. 개방형 및 객관식 테스트(Ward 1982; Norman et al. 1987) 또는 필기 및 연습 기반 테스트 비교(Van der Vleuten et al. 1988)를 포함하여 [여러 콘텐츠에 걸쳐 역량이 더 잘 일반화된다는 것]을 수많은 연구가 입증했다. 그러나 [평가형식 간에 정보를 삼각 측량]하려면 [수치적 과정보다는 서술적 과정]이 필요하며, 역사적으로 단어보다 숫자를 '객관적'이고 '신뢰할 수 있다고' 보는 경우가 많다.

This change of approach has had significant implications for our conceptualisations of quality of assessment. For example, the process of triangulating assessment information across methods on similar content, rather than solely within method is different compared with traditional practice. Traditionally, assessment information was combined because it was of the same format. An OSCE station on knee examination and on abdominal examination are of the same format and that is why, traditionally, they were combined; poor performance on the one can be compensated for by good performance on the other. This practice is contrary to most evidence about generalisation though. Numerous studies have demonstrated that competence generalises better across formats than across content, whether it is with open-ended and multiple-choice tests (Ward 1982; Norman et al. 1987) or even comparing written and practice based tests (Van der Vleuten et al. 1988). But, triangulating information across formats requires a narrative rather than a numerical process, and historically numbers are often seen a more ‘objective’ and ‘reliable’ than words.


다른 이들은 정보의 삼각측정이 신뢰성 있게 수행될 수 있으며, 평가 관행이 임상 의료 제공의 정보 수집 및 수집 원칙을 따르는 것이 최선이라고 주장할 수 있다(Schuwirth et al., 2017). 그러나 이것은 순전히 수사적일 뿐이다. 따라서 보다 최근의 연구는 서술의 질과 그것들이 평가의 맥락에서 어떻게 사용될 수 있는지에 초점을 맞추고 있다.

Others may argue that triangulation of information can be done reliably, and that assessment practice would be best served by following the information collection and collation principles in clinical health care provision (Schuwirth et al. 2017). But this is purely rhetorical. More recent research has therefore, focussed on the quality of narratives and how they can be used in the context of assessment.


발렌타인 외 연구진은 전문가 평가자가 임상 사례 기록을 평가할 때 사용하는 내러티브를 연구했으며, 이러한 서술이 일종의 역량 '증상학'으로서 판단과 피드백을 알리기 위해 어떻게 사용되는지를 연구했다(Valentine and Schuwirth 2019).

Valentine et al. studied the narratives expert assessors use when assessing clinical case write ups and how these are used to inform their judgements and feedback, as a sort of ‘symptomatology’ of competence (Valentine and Schuwirth 2019).


따라서 요약하자면, 현재의 연구는 [평가에서 판단의 구성 요소]라든가, 소위 [사적 판단]이 형성되고 입증되는 방법에 대한 이해를 향상시키는데 초점을 두고 있다. 또한 연구는 [이해 당사자들이 역량을 개념화하고, 판단과 피드백을 전달하는 방법, 그리고 해석하는 방법]을 탐구한다. 또는, 숫자가 아닌 결과나 판단의 타당성이 어떻게 보장될 수 있으며, 프로그램 수준에서 이를 어떻게 수행할 수 있는지 여부 등을 연구하고 있다.

So, in summary, current research seeks to improve our understanding of the building blocks of judgement in assessment and how the so-called private judgement is formed and substantiated. Research also explores how stakeholders conceptualise competence, communicate their judgements and feedback, and how they interpret it. Or, how validity of non-numerical outcomes or judgements can be ensured, and how this can be done at a programme level.

비록 시스템이나 프로그램적 평가로서의 평가 개념이 더 널리 받아들여지지만, 구현은 결코 쉽지 않다. 그것의 기본 철학은 전통과 너무 다르기 때문에, 그것은 많은 지배적인 조직 문화와 반대되며, 그것은 환원주의적 접근법이나 순수하게 정량적 접근법을 필요로 하지 않는 평가 시스템에서의 공정성의 본질에 대해 재고할 필요가 있다.
Although the concepts of assessment as a system or programmatic assessment become more widely accepted, the implementation is far from easy. Because its fundamental philosophy is so different to tradition, it runs contrary to that of many prevailing organisational cultures (Watling et al. 2013; Harrison et al. 2017), and it requires a rethink about the nature of fairness of an assessment system that does not require reductionist and/or purely quantitative approach (Valentine et al. accepted for publication).

평가의 미래

The future of assessment

보건 직업 교육 및 평가에 영향을 미칠 수 있는 수많은 기술적, 그리고 그에 따른 사회적 변화가 일어나고 있다. 가장 주목할 만한 것은 자유롭게 이용할 수 있는 온라인 지침 비디오 및 자원(Shirky 2010)과 같은 열린 접속 저널과 인지 잉여를 통해 자유로이 접근할 수 있는 정보의 가용성 증가이다. 분산 신뢰 시스템 및 피어 이코노미 모델(Botsman 2017)의 출현도 다른 예이다. 이것은 의심할 여지 없이 학생들이 그들의 교육과 평가에서 기대하는 것과 대학들이 그들의 교육과 커리큘럼을 어떻게 설계해야 하는지에 영향을 미칠 것이다; 지식과 해결책 중심의 관점으로부터 문제들의 치유에 이르기까지.

There are numerous technological and ensuing societal changes taking place that are likely to impact on health professions education and assessment. The most notable are the increasing availability of freely accessible information—not always knowledge though—through open access journals and cognitive surplus; such as freely available online instruction videos and resources (Shirky 2010). The emergence of distributed trust systems and peer economy models (Botsman 2017) are other examples. These will undoubtedly have an impact on what students expect from their education and assessment and how universities will have to design their education and curricula; from a knowledge and solutions-oriented perspective to a curation of problems perspective.


따라서, "이 모든 것이 어디로 향하고 있을까?"라고 대답하는 것은 중요한 질문이 될 것입니다. 하지만 예측을 하는 것은 쉽지 않고, 종종 후향적이며, 과거를 향한 예측은 어리석은 것이다. 1800년대 중반에 어떤 예측 모델링이 행해졌더라면 아마도 그의 말 분뇨의 양이 교통에서 다루어야 할 주요 쟁점이 될 것이다. 그러나 의료 교육에서는 미래를 위해 의료 전문가를 교육할 때 미래 시나리오를 고려하는 것이 필수적이라는 점을 고려하거나 전반적으로 보건 전문가 교육을 실시해야 합니다.
So, “where might all this be heading?”, would be an important question to answer. Making predictions is not easy though, and often with hindsight, predictions of the past are mostly silly. If there had been any prediction modelling done in the mid-1800s it would probably have been that he quantity of horse manure was going to be the main issue to deal with in traffic. Yet, in medical education—or better, health professions education as a whole—considering future scenarios is a must as we educate healthcare professionals for the future.


이러한 개발은 평가에도 영향을 미칠 것입니다. 현재 많은 평가의 초점이 학생이 충분한 지식, 기술, 역량을 보유하고 있으며 이를 적용할 수 있는지에 여전히 집중되어 있는 경우, 필연적으로 학생이 모든 ICT 비용을 사용하고, 역량 개발에 의미 있게 통합할 수 있는 범위의 평가로 전환될 것이다. 복잡한 실무 환경에서 ICT의 '역량'과 유기적인 두뇌 역량의 균형을 맞출 수 있습니다. 우리가 의미하는 바는, 현대 학생들은 ICT에 대한 지속적인 접근이기는 하지만, 거의 동시에 여러 커뮤니티와 협력자들과 소통할 수 있는 여유가 있다는 것이다. 또한 비디오, 팟캐스트, 애니메이션 프레젠테이션, 복잡한 진화하는 다이어그램 등과 같은 종이와 연필을 훨씬 뛰어넘는 학습 및 성취도의 아티팩트의 생성 모드를 갖추고 있다(Friedman 및 Friedman 2008).
These developments will also have an impact on assessment. Where the focus of much assessment at the moment is still on whether the student possesses sufficient knowledge, skills, competencies and is able to apply them, there will inevitably be a shift toward the assessment of the extent to which a student is able to use all ICT affordances, incorporate them meaningfully in their development of competence and is able to balance ICT derived ‘competence’ with their organic brain competence in a complex practical environment. What we mean by this, is that modern students, though their continual access to ICT, have the affordances of communicating with multiple communities and collaboratives almost simultaneously. They also have modes of creation of artifacts of their learning and achievement far beyond paper and pencil—such as videos, podcasts, animated presentations, complex evolving diagrams, etc. (Friedman and Friedman 2008).

Epilogue

 

Gingerich, A., Ramlo, S. E., Van der Vleuten, C. P. M., Eva, K. W., & Regehr, G. (2017). Inter-rater variability as mutual disagreement: Identifying raters’ divergent points of view. Advances in Health Sciences Education, 22(4), 819–838.

Govaerts, M. J. B., Schuwirth, L. W. T., Van der Vleuten, C. P. M., & Muijtjens, A. M. M. (2011). Workplace-based assessment: Effects of rater expertise. Advances in Health Sciences Education, 16(2), 151–165.

Govaerts, M. J. B., Wiel, M. W. J., Schuwirth, L. W. T., Vleuten, C. P. M., & Muijtjens, A. M. M. (2012). Workplace-based assessment: Raters’ performance theories and constructs. Advances in Health Sciences Education, 18, 1–22.

Harrison, C. J., Könings, K. D., Dannefer, E. F., Schuwirth, L. W. T., Wass, V., & Van der Vleuten, C. P. M. (2016). Factors influencing students’ receptivity to formative feedback emerging from different assessment cultures. Perspectives on Medical Education, 5, 276–284.

Hodges, B., & Lingard, L. (2012). The question of competence: Reconsidering medical education in the twenty-first century. Ithaka New York: Cornell University Press.

Valentine, N., Durnig, S. J., Shanahan, E. M. & Schuwirth, L. W. T. (accepted for publication). Fairness in human judgement in assessment: A hermeneutic literature review and conceptual framework. Advances in Health Sciences Education.

 

 

 


Adv Health Sci Educ Theory Pract

  •  
  •  
  •  

. 2020 Dec;25(5):1045-1056.

 doi: 10.1007/s10459-020-10003-0. Epub 2020 Oct 28.

A history of assessment in medical education

Lambert W T Schuwirth 1 2Cees P M van der Vleuten 3 4

Affiliations collapse

Affiliations

  • 1FHMRI: Prideaux Research in Health Professions Education, College of Medicine and Public Health, Flinders University, Sturt Road, Bedford Park, South Australia, 5042, GPO Box 2100, Adelaide, SA, 5001, Australia. lambert.schuwirth@flinders.edu.au.

  • 2Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands. lambert.schuwirth@flinders.edu.au.

  • 3FHMRI: Prideaux Research in Health Professions Education, College of Medicine and Public Health, Flinders University, Sturt Road, Bedford Park, South Australia, 5042, GPO Box 2100, Adelaide, SA, 5001, Australia.

  • 4Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands.

    • PMID: 33113056

 

Abstract

The way quality of assessment has been perceived and assured has changed considerably in the recent 5 decades. Originally, assessment was mainly seen as a measurement problem with the aim to tell people apart, the competent from the not competent. Logically, reproducibility or reliability and construct validity were seen as necessary and sufficient for assessment quality and the role of human judgement was minimised. Later, assessment moved back into the authentic workplace with various workplace-based assessment (WBA) methods. Although originally approached from the same measurement framework, WBA and other assessments gradually became assessment processes that included or embraced human judgement but based on good support and assessment expertise. Currently, assessment is treated as a whole system problem in which competence is evaluated from an integrated rather than a reductionist perspective. Current research therefore focuses on how to support and improve human judgement, how to triangulate assessment information meaningfully and how to construct fairness, credibility and defensibility from a systems perspective. But, given the rapid changes in society, education and healthcare, yet another evolution in our thinking about good assessment is likely to lurk around the corner.

Keywords: Assessment; History; Programmatic assessment; Workplace based assessment.

시험을 위한 블루프린트 제작 가이드(AMEE Guide No. 125) (Med Teach, 2019)

A practical guide to test blueprinting (AMEE Guide No. 125) (Med Teach, 2019)

Mark R. Raymonda and Joseph P. Grandeb



도입 Introduction


과정과 평가가 목표와 일치하도록 하기 위해 진정 중요한 학습 결과를 균형 있게 다루려면 잘 숙고한 계획에 따라 평가를 개발하는 것이 중요하다. 여기에서는 시험의 계획에 대한 체계적인 접근 방식, 즉 학생들이 각 평가에서 무엇을 알고 시연할 수 있는지를 문서화하는 접근 방식을 설명합니다. 이러한 계획 문서는 테스트 계획, 사양 표 및 테스트 사양이라고도 하지만 일반적으로 테스트 Blueprint라고 합니다.

To ensure that course and assessments are consistent with objectives address truly important learning outcomes in a balanced manner, it is important that assessments be developed according to a well thought-out plan. This article describes a systematic approach to planning tests—an approach that documents what students should know and be able to demonstrate on each assessment. These planning documents are typically called test blueprints, although they also are known as test plans, tables of specifications, and test specifications.


테스트 Blueprint는 테스트의 주요 속성을 설명합니다. 시험 청사진은 다룰 내용을 명시해야 하지만, 많은 청사진은 또한 각 내용 영역에 할당된 강조의 양, 평가 작업의 인지적 요구, 평가 형식 및 기타 중요한 특징과 같은 속성을 설명한다(Millman and Greene 1989; Raymond 2016).

A test blueprint describes the key properties of a test. While any test blueprint should specify 

  • the content to be covered, many blueprints also describe properties such as 

  • the amount of emphasis allocated to each content area, 

  • the cognitive demand of the assessment tasks, 

  • the assessment format, and 

  • other important features (Millman and Greene 1989; Raymond 2016).


테스트 Blueprint의 기반

Foundations of a test blueprint


학습 성과와 학생 역량에 대한 주장

Learning outcomes and claims about student competence


테스트 청사진은 대부분의 강사가 [이미 시행하고 있는 학습 성과와 과정 목표를 자연스럽게 확장한 것]입니다.

A test blueprint is a natural extension of the learning outcomes and course objectives that most instructors already have in place.


우리는 학습 성과를 [학생들이 과정을 이수할 때 갖춰야 하는 지식과 기술을 설명하는 광범위한 서술]로 정의한다(Harden 2002). 행동 목표(또는 교육 목표)는 학생들이 알고 할 수 있는 것을 자세히 설명하는 진술이다.

We define learning outcomes as broad statements that describe the knowledge and skills that students should possess upon completing a course (Harden 2002). Behavioral objectives (or instructional objectives) are statements that describe in detail what students are expected to know and be able to do.


    • 학습 성과는 학생들이 기대하는 지식과 기술을 나타내며, 

    • 행동 목표는 그 목표를 달성하기 위한 로드맵 역할을 한다. 

    • 평가 목표라는 용어를 사용하여 특별히 평가를 목표로 하는 학습 결과 또는 행동 목표를 설명합니다.

    • Learning outcomes indicate the knowledge and skills that are expected of students, while 

    • behavioral objectives serve as a road map for getting there. 

    • We use the term assessment objectives to describe those learning outcomes or behavioral objectives that are specifically targeted for assessment.


평가의 일차적인 목표는 강사가 학생들이 알고 할 수 있는 것에 대해 주장이나 추론을 할 수 있도록 하는 것이다. 테스트는 그러한 주장을 뒷받침할 증거를 얻을 수 있는 기회를 창출한다(Mislevy and Riconscente 2006). 학생이 "심혈관 시스템의 주요 상태를 진단하기 위한 지식과 기술을 마스터했다"는 주장을 뒷받침하기 위해, 강사는 관심 있는 행동을 유도하기 위한 평가 과제를 식별하고, 학생들이 그러한 행동을 증명할 기회를 제공해야 한다. 증거 중심 설계는 교수들이 학생 능력에 대한 주장을 뒷받침할 증거를 제공하는 평가 과제를 선택하도록 요구한다.

A primary goal of assessment is to allow an instructor to make a claim or inference about what students know and are able to do. A test creates the opportunity to obtain evidence to support such claims (Mislevy and Riconscente 2006). To back up the claim that a student has “mastered the knowledge and skills to diagnose major conditions of the cardiovascular system”, an instructor needs to identify assessment tasks to elicit the behaviors of interest, and then provide the opportunity for the student to demonstrate those behaviors. Evidence-centered design requires that faculty choose assessment tasks that provide the evidence to support the claims to be made about student competence.


학생들이 [각 장기 시스템에 영향을 미치는 가장 일반적인 질병을 진단할 수 있도록 보장한다]라는 전체적인 목표가 있는 과정을 고려해보자. 그림 1은 학습 결과와 심혈관 시스템에 특정한 몇 가지 목표를 나타냅니다. 학습 결과, "심혈관 질환에 대한 진단 테스트 결과에 대한 적응증 인식 및 해석"은 상당히 광범위하다. 결과를 성공적으로 입증할 수 있는 것은 지식과 기술의 상당한 네트워크를 필요로 한다. 그림 1의 8가지 행동 목표는 학습 결과에 대한 숙달성을 입증하는 데 필요한 행동의 표본일 뿐입니다. 이러한 행동 목표는 수업을 guide하기 위한 것이지만, 평가에 정보를 제공하는 방법도 쉽게 알 수 있습니다. 각 목표를 "학생이 할 수 있을 것"과 같은 조항과 함께 선행함으로써 이러한 진술은 학생에 대한 주장을 뒷받침하는 평가 목표로 바뀔 수 있습니다. 행동 목표는 개발하기가 지루하지만, 그 특수성specificity은 평가 과제의 개발을 단순화할 수 있다.

Consider a course that has an overall goal of ensuring that students can diagnose the most common diseases affecting each organ system. Figure 1 identifies a learning outcome and several objectives specific to the cardiovascular system. The learning outcome, “Recognize indications for and interpret results of diagnostic tests for cardiovascular disease” is fairly broad; being able to successfully demonstrate that outcome requires a substantial network of knowledge and skills. The eight behavioral objectives in Figure 1 are just a sample of the behaviors required to demonstrate mastery of that learning outcome. Although these behavioral objectives are intended to guide instruction, it is easy to see how they also can inform assessment. By preceding each objective with a clause like “The student will be able to…” these statements can be transformed into assessment objectives that support claims to be made about students. Although behavioral objectives are tedious to develop, their specificity can simplify the development of assessment tasks.



지식의 종류와 수준

Types and levels of knowledge


이러한 서로 다른 유형의 학습은 다른 교육 및 평가 방법을 필요로 한다는 것은 오래 전부터 인식되어 왔다. 밀러의 피라미드는 학습의 유형을 조직하는 데 인기 있는 틀 중 하나이다. 그림 2에 표시된 바와 같이,

It has long been recognized that these different types of learning require different methods of instruction and assessment. Miller’s(1990) pyramid is one popular framework for organizing types of learning. As depicted in Figure 2,


그림 2의 중심 부분은 원래의 피라미드를 묘사하는 반면, 왼쪽의 텍스트는 두 가지 샘플 행동 목표와 그것들이 계층에서 어디에 속하는지 나열한다.

The central portion of Figure 2 depicts the original pyramid, while the text on the left lists two sample behavioral objectives and where they fall in the hierarchy.



Bloom's (1956) 분류법은 평가에 유용한 또 다른 모형입니. 그것은 행동을 인지, 정서, 그리고 정신 운동 영역이라고 불리는 세 가지 범주로 분류한다. 그림 1의 지시 목표를 이 세 가지 도메인 중 하나 이상으로 분류할 수 있는 방법을 알 수 있다. 예를 들어, 목표 7 "대동맥 협착을 청취하기 위해 청진기를 최적의 위치에 배치"를 하려면 청진기를 배치할 위치(인지적)를 결정하고 환자에게 배치 및 권한(정서적)을 요청한 다음 청진기를 배치해야 합니다(정신운동적).

Bloom’s(1956) taxonomy is another model that is useful for assessment. It classifies behaviors into three categories referred to as the cognitive, affective, and psychomotor domains (Anderson and Krathwohl 2001). One can see how the instructional objectives in Figure 1 can be classified into one or more of these three domains. For example, objective 7, “Place stethoscope in optimal location to listen for aortic stenosis”, requires deciding where to place the stethoscope (cognitive), explaining its placement to the patient and asking permission (affective), and then positioning the stethoscope (psychomotor).


인지 영역은 교수와 평가에서 가장 많은 관심을 받았다. 그것은 지식, 이해, 응용, 분석, 합성, 평가의 여섯 단계로 구성되며, 각각의 수준은 앞의 것보다 더 많은 인지적 투자를 필요로 한다. 행동 목적의 수준은 평가에 영향을 미친다. 

The cognitive domain has received the most attention in teaching and assessment. It consists of six levels: knowledge, comprehension, application, analysis, synthesis, and evaluation, with each level requiring a greater cognitive investment than the one preceding it. The level of a behavioral objective has implications for assessment.


예를 들어, 객관식 질문(MCQ)은 지식과 이해를 평가하는 데 효과적이지만, 종합 및 평가에는 효용이 제한적이고, 정신 운동 및 정서 영역의 많은 기술을 평가하는 데는 효과적이지 않다.

For example, while multiple-choice questions (MCQs) are effective for assessing knowledge and comprehension, they have limited utility for assessing synthesis and evaluation, and are ineffective for assessing many skills in the psychomotor and affective domains.


효과적인 테스트 청사진에 대한 4단계

Four stages to an effective test blueprint


그림 3과 아래 텍스트는 테스트 청사진을 개발하기 위한 네 가지 단계를 설명합니다.

Figure 3 and the text below describe four stages for developing a test blueprint.



주요 지식 및 기술 영역 식별

Identify the major knowledge and skill domains


이 첫 번째 단계는 [평가할 광범위한 역량 영역]을 식별하는 것을 포함한다. 그들은 학생들의 행동에 대해 제기되는 높은 수준의 주장에 대응해야 한다. 이 과제에 접근하는 한 가지 방법은 "만약 내가 내 과정을 몇 개 내지 몇 개 단위로 분할한다면, 라벨은 무엇이 될 것인가?"라고 묻는 것이다. 만약 그 의도가 학생들의 면역학 지식에 대한 주장을 하는 것이라면, 프레임워크는 면역학의 영역을 정의하는 주요 내용 범주를 포함해야 한다. 만약 그 의도가 학생의 환자와 상호작용하는 능력에 대한 주장을 하는 것이라면, 그 프레임워크는 주요한 유형의 의사소통 기술을 포함할 것이다. 이러한 문서는 과정 개요, 학습 결과, 강의 노트, 교과서 및 기타 교육 자료에서 찾을 수 있습니다. 또한, 커리큘럼 조사직무 분석 보고서는 의료 교육에서 커리큘럼 설계와 평가에 중요한 기술을 식별했다.

This first stage involves identifying the broad competency domains to be assessed. They should correspond to the high-level claims to be made about student behaviors. One way to approach this task is to ask, “If I were to partition my course into a few to several units, what would the labels be?” If the intent is to make claims about students’ knowledge of immunology, then the framework should include major content categories that define the domain of immunology. If the intent is to make claims about a student’s ability to interact with patients, then the framework will include major types of communication skills. Such documentation can be found in course outlines, learning outcomes, lecture notes, textbooks, and other instructional materials. In addition, curriculum surveys and job analysis reports have identified the skills that are important for curriculum design and assessment in medical education


테스트 Blueprint는 일반적으로 구성된 목록, 개요 또는 테이블 형식으로 만들어진다. 시험 청사진의 조직 체계는 중요한데, 그 범주는 claim과 종종 학생들에게 제공되는 피드백을 병행하기 때문이다. 다음에 설명된 바와 같이 테스트 청사진은 테스트할 내용 또는 평가 작업에 필요한 행동 프로세스에 따라 구성할 수 있습니다(Millman 및 Greene 1989; Raymond 2016).

Test blueprints typically are cast in the form of an organized list, outline, or table. A test blueprint’s organizational framework is important because the categories often parallel the claims to be made and the feedback provided to students. As described next, test blueprints can be organized according to the content to be tested or around the behavioral processes required of the assessment tasks (Millman and Greene 1989; Raymond 2016).


[내용 지향적인 청사진]은 테스트를 다루는 주제 또는 주제 측면에서 설명합니다. 그들은 보통 전통적인 학문분야에 따라 시험 자료를 구분했다. 예를 들어 의과대학 임상의 학년을 포함하는 종합적인 시험에는 생리학, 약리학, 생물통계학 등과 같은 범주가 포함될 수 있다.

Content-oriented blueprints describe tests in terms of the topics or subject matter covered. They usually slice up the test material according to traditional academic disciplines. For example, a comprehensive test covering a preclinical year of medical school might include categories such as physiology, pharmacology, biostatistics, and so on.


[프로세스 지향 테스트 청사진]은 학생들이 보여줄 수 있는 절차적 기술을 기술하고 있다. 많은 프로세스 지향 테스트 청사진에는 블룸의 분류학 인지 영역의 기술이 포함되어 있습니다. 예를 들어, Miller의 피라미드는 통계 시험의 70%가 알고 있는 수준의 과제를 포함하며, 30%는 학생들이 방법을 보여주도록 요구할 것이라고 결정하는 데 사용될 수 있다. 프로세스 지향 프레임워크는 특히 절차적 기술과 정서적 영역에 중점을 두는 임상 교육에 유용하다.

Process-oriented test blueprints delineate the procedural skills students are expected to demonstrate. Many process-oriented test blueprints include skills from the cognitive domain of Bloom’s taxonomy. Miller’s pyramid can be used to decide, for example, that 70% of a statistics test will include tasks at the knows and knows how levels, while 30% will require students to show how. Process-oriented frameworks are particularly useful for clinical training where the emphasis is on procedural skills and the affective domain.


앞의 텍스트는 테스트 Blueprint가 내용 중심 또는 프로세스 중심 윤곽선임을 나타냅니다. 실제로 많은 Blueprint에서 이 두 차원을 [프로세스-컨텐츠 매트릭스]라는 단일 프레임워크에 통합합니다.

The preceding text suggests that test blueprints are either content-oriented or process-oriented outlines. In fact, many blueprints integrate these two dimensions into a single framework called the content-by-process matrix.


그림 4와 같은 프로세스별 콘텐츠 매트릭스는 테스트 설계를 위한 상당한 유연성을 제공하며 커리큘럼 전반에 걸쳐 사용할 수 있습니다. 이 설계의 일반적인 변화는 행 또는 열을 블룸의 분류법(예: 지식, 응용 프로그램, 분석)의 인지 수준으로 바꾸는 것입니다.

A content-by-process matrix like that in Figure 4 offers considerable flexibility for test design and can be used across the curriculum. A common variation of this design is to replace either the rows or columns with the cognitive levels from Bloom’s taxonomy (e.g. knowledge, application, analysis).



평가 목표 설명

Delineate the assessment objectives


이전 단계의 결과는 주요 내용과 프로세스의 범주 목록입니다. 이 두 번째 단계에서는 자세한 내용을 설명서에 소개합니다. 테스트 청사진은 구체적, 저추론적low-inference 행동을 나열하여 학생들이 기대하는 바를 설명해야 한다(Mookerjee et al. 2013). [저추론 행동]은 학생이 평가가 의도한 행동을 보여주었는지 객관적으로 판단하기에 충분히 관찰가능해야 한다. 경우에 따라 필수 세부 정보가 과정 목표의 일부로 이미 존재합니다. 무커지 외 연구진(2013)이 개발한 임상 기술 평가 청사진은 의대 기존 임상 기술 커리큘럼의 이정표에 의존했다.

The outcome of the previous stage is a list of the major content and/or process categories; this second stage introduces detail to the documentation. Test blueprints should describe what is expected of students by listing specific, low-inference behaviors (Mookherjee et al. 2013). Low-inference behaviors are sufficiently observable to objectively determine whether the student demonstrated the behaviors of interest. Sometimes the required detail will already exist as part of the course objectives. A blueprint for clinical skills assessment developed by Mookherjee et al. (2013) relied on milestones from the medical school’s existing clinical skills curriculum.


이정표와 학습 성과와 같은 상세한 문서를 쉽게 이용할 수 없는 경우, 평가 목표를 작성할 필요가 있을 수 있다. 잘 작성된 평가 목표는 그림 1의 행동 목표와 유사합니다. 그들은 숙달될 내용과 학생이 보여줄 지식이나 기술의 유형을 명시한다. 또 다른 접근 방식은 매트릭스 Blueprint에 의존하여 평가 목표를 지정하는 것입니다. 그림 5는 심혈관 의학에 대한 점원 시험을 위한 프로세스별 내용 청사진의 골격을 보여줍니다.

If detailed documents such as milestones and learning outcomes are not readily available, then it may be necessary to write the assessment objectives. Well-written assessment objectives are similar to the behavioral objectives in Figure 1. They specify the content to be mastered and the type of knowledge or skill that the student is expected to demonstrate. Another approach is to rely on a matrix blueprint to specify the assessment objectives. Figure 5 presents the skeleton of a content-by-process blueprint for a clerkship exam on cardiovascular medicine.


그림 5에는 논평할 가치가 있는 다른 특징들이 포함되어 있다. 

    • 첫째, 심근경색증에 따른 세부사항을 수준별로 기록합니다. 이상적으로는 각 등급의 심장 질환이 적절한 특정 조건을 포함하는 것이 좋다. 

    • 둘째, 오른쪽 열과 아래쪽 행의 값은 각 범주에 할당된 질문 수를 나타냅니다. 다양한 질문이 있으면 Blueprint를 구현할 때 유연성을 제공합니다. 

    • 셋째, 이 예제는 매우 일반적인 행렬의 각 셀에 대한 평가 항목 수를 지정합니다. 그러나 그림에서 알 수 있듯이 셀은 다른 방법으로도 사용될 수 있습니다(예: 과정 목표와 연결됨). 

    • 마지막으로, 세분화 수준을 고려하는 것이 중요합니다. 평가 작업을 더 쉽게 만들고 균형 잡힌 테스트를 조립할 수 있다는 이점 때문에 너무 세부적이고 몇 시간을 들여 테스트 청사진을 개발할 수 있습니다. 세부 사항이 너무 적어서 시험에 집중하지 못할 수도 있고, 학생들은 무엇을 예상해야 할지 모를 것이다. 대부분의 저자들은 테스트 청사진(예: Coderre 등)의 특수성을 높이려고 합니다. 2009; Fives and DiDonato-Barnes 2013, Mookherjee et al. 2013)

Figure 5 includes other features worthy of comment. 

    • First, note the level of detail under cardiomyopathies. Ideally, each class of cardiac disorders would include specific conditions as appropriate. 

    • Second, the values in the right column and the bottom row indicate the number of questions allocated to each category. Having a range of questions provides some flexibility when implementing the blueprint. 

    • Third, this particular example specifies the number of test items for each cell of the matrix, which is quite common. However, as the Figure indicates, the cells can be used in other ways as well (e.g. linked to course objectives). 

    • Finally, the level of granularity is important to consider. Too much detail and one can spend hours developing the test blueprint, with the benefit that it will be easier to produce assessment tasks and to assemble a balanced test. Too little detail and the test may be unfocused, and students will not know what to expect. Most authors lean toward greater specificity in test blueprints (e.g. Coderre et al. 2009; Fives and DiDonato-Barnes 2013; Mookherjee et al. 2013).



평가 형식 결정

Decide on the assessment format


평가 형식을 선택하는 것은 평가 방법과 학생들이 알고 할 수 있는 것에 대한 주장을 일치시키는 문제이다. 평가 방법은 세 가지 일반적인 등급으로 분류된다: 서면 평가, 시뮬레이션, 작업장 기반 평가.

Choosing an assessment format is a matter of matching the method of assessment with the claims to be made about what students know and can do. Assessment methods fall into three general classes: written assessments, simulations, and workplace-based assessment.


테스트 청사진 개발과 가장 관련이 있는 두 가지 유형의 타당성 증거는 콘텐츠 타당성 및 응답 프로세스입니다(Tavakol 및 Dennick 2017). 테스트 청사진이 컨텐츠 관련 증거의 주요 출처 역할을 한다는 것은 널리 알려져 있습니다(Kane 2016; Raymond 2016). 그 이유는 신중하게 개발된 테스트 청사진을 통해 평가 내용이 지침 중 다루는 내용과 일치하도록 보장할 수 있기 때문입니다(Notar 등). 2004; McLaughlin et al., 2005; Fives and DiDonato Barnes 2013).

The two types of validity evidence most relevant to the development of test blueprints are content validity and response process (Tavakol and Dennick 2017). It is widely recognized that a test blueprint serves as a primary source of content-related evidence (Kane 2016; Raymond 2016). This is because a thoughtfully developed test blueprint can help ensure that the assessment aligns with content covered during instruction (Notar et al. 2004; McLaughlin et al. 2005; Fives and DiDonatoBarnes 2013).


응답 프로세스 타당성은 [평가 과제에 의해 도출된 인지적, 정신 운동적, 그리고 정서적 프로세스가 학생들의 행동에 대해 제기되는 주장에 의해 암시되는 과정과 유사한 정도]를 의미한다. 예를 들어, MCQ는 "학생이 신체 검사와 흉부 X선을 해석하여 흉부 중심화의 필요성을 결정할 수 있다"는 주장을 뒷받침할 수 있다. 그러나 학생이 실제로 흉부 중심화를 수행할 수 있다는 주장을 뒷받침하려면 매우 영리한 MCQ가 필요할 것이다. 이 후자의 목표는 실제 또는 모의 실험 환자와 상호작용하는 학생의 직접 관찰을 포함하는 형식을 필요로 한다.

Response process validity refers to the extent to which the cognitive, psychomotor, and affective processes elicited by the assessment tasks are similar to the processes implied by the claims to be made about student behaviors. For example, an MCQ could support the claim that “the student is able to interpret physical examination and chest X-ray to determine the need for thoracentesis”. However, it would take a very clever MCQ to support the claim that a student can actually perform thoracentesis. This latter objective would require a format involving direct observation of the student interacting with a real or simulated patient.


또한 신뢰도는 평가 형식의 선택에 영향을 미치며, MCQ는 일반적으로 시뮬레이션이나 작업장 기반 평가보다 더 신뢰할 수 있는 점수를 산출한다. 비용, 물류 및 기타 실제적인 제약조건이 평가 형식의 선택에 가장 큰 영향을 미칠 것이다. 멀티 스테이션 시뮬레이션은 타당도를 향상시킬 수 있지만 직원 지원이나 물리적 공간 측면에서 의대 용량을 초과할 수 있다.

Reliability also will influence the choice of an assessment format, with MCQs generally producing more reliable scores than simulations or workplacebased assessments. Cost, logistics, and other practical constraints will most certainly influence the choice of an assessment format. Multi-station simulations may enhance validity but may exceed a medical school’s capacity in terms of staff support or physical space.


의심할 여지 없이, 의학 교육의 평가 환경은 지난 수십 년 동안 진화해 왔다. 임상 시뮬레이션과 작업장 기반 평가가 점점 더 보편화되고 있는 반면, 서면 평가는 그것이 가장 효과적인 영역만으로 제한되고 있다. 테스트 청사진을 필기 테스트와 연결하는 것이 일반적이지만, 시뮬레이션 및 작업 공간 기반 평가에도 역할이 있습니다. 실제로, 시험 청사진은 교육과정이 임상적 환경의 특이점에 의존하는 임상실습과 전공의에게 훨씬 더 중요할 수 있다.

Without question, the assessment landscape in medical education has evolved over the past few decades. Clinical simulations and workplace-based assessments are becoming more common, while written assessments are being limited to those domains for which they are most effective. Although it is common to associate test blueprints with written tests, they also have a role in simulations and workplace-based assessments. Indeed, test blueprints can be even more important for clerkships and residencies where the curriculum is dependent on the idiosyncrasies of the clinical setting.


OSCE와 같은 구조화된 임상 시뮬레이션은 시험 내용을 통제할 수 있는 직장 기반 평가보다 더 큰 기회를 제공한다. OSCE가 관련성이 있고 서로 다른 학생 코호트 간에 균형을 유지할 수 있도록 테스트 청사진은 학생 성과에 가장 영향을 미칠 수 있는 사례 특성을 명시해야 한다. 이론적으로, OSCE 청사진은 환자 나이, 성별, 의료 조건 및 환자 관리 유형과 같은 여러 요소로 구성될 수 있다. 이는 다차원 매트릭스로 수백 개의 셀을 생성한다. 실제로, 간단한 테이블로도 충분할 수 있다. 그림 6은 OSCE의 청사진을 보여줍니다. 이 Blueprint는 단일 테스트 양식에 대한 환자 및 의사 작업을 설명합니다. 추가 테스트 양식으로 일반화하려면 각 열에 대한 추가 내용 제약 조건을 문서화하는 것이 바람직합니다.

Structured clinical simulations, such as OSCEs, afford greater opportunity than workplace-based assessments to control test content. To ensure that OSCEs are relevant and remain balanced across different student cohorts, test blueprints should specify those case characteristics most likely to affect student performance. In theory, an OSCE blueprint could consist of multiple factors, such as patient age, gender, medical condition, and type of patient management; this would produce hundreds of cells in a multidimensional matrix. In practice, a simple table may suffice. Figure 6 illustrates a blueprint for an OSCE. This blueprint describes the cases and physician tasks for a single test form. To generalize to additional test forms, it would be desirable to document additional content constraints for each column.



범주 가중치 지정

Specify the category weights


테스트 시간은 제한되어 있습니다. 실질적인 문제로서, 내용 가중치 또는 범주 가중치를 사용하여 다른 평가 목표에 시간과 공간을 할당할 필요가 있다. 

    • 서면 평가의 경우, 가중치는 각 범주의 [시험 항목 수] 또는 백분율에 해당한다. 

    • 시뮬레이션과 작업장 평가의 경우 가중치는 [시험 시간]으로 환산할 가능성이 더 높다. 

Testing time is limited. As a practical matter, it is necessary to allocate time and space to the different assessment objectives through the use of content weights or category weights. 

    • For written assessments, the weights correspond to the number or percent of test items for each category. 

    • For simulations and workplace assessments, the weights more likely translate to the amount of testing time. 


범주 가중치를 할당할 때 한 가지 어려움은 일반적으로 [평가 목표 수가 사용 가능한 시험 시간을 초과한다는 것]이다. 도메인 샘플링 모델은 이 과제를 설명한다. 모든 테스트가 관심 있는 더 큰 지식 및 기술 영역의 행동 샘플을 나타낸다는 원칙에 기초한다(Tavakol 및 Dennick 2017).

One challenge when assigning category weights is that the the number of assessment objectives usually outweighs available testing time. The domain sampling model speaks to this challenge; it is based on the principle that any test represents a sample of behaviors from the larger knowledge and skill domains of interest (Tavakol and Dennick 2017).


범주 가중치는 도메인 내에서 주제의 중요성을 반영한다(Millman과 Greene 1989). 중요성은 주제에 전념하는 교육 시간, 그것이 실제로 얼마나 자주 적용되는지, 또는 후속 학습을 위한 주제의 중요성에 해당될 수 있다. 범주 가중치는 다양한 의료 조건과 절차의 발병률을 보고하는 국가 데이터에서 도출할 수 있다(Boulet et al. 2003, Baker et al. 2017). 또는 교수진, 거주자 또는 학생과 같은 동료들을 조사하여 주제 중요성을 결정할 수 있다.

Category weights reflect the importance of the topics within a domain (Millman and Greene 1989). Importance might correspond to the instructional time devoted to a topic; how often it is applied in practice; or the criticality of a topic for subsequent learning. Category weights can be derived from national data reporting the incidence of various medical conditions and procedures (Boulet et al. 2003; Baker et al. 2017). Alternatively, one can survey colleagues such as faculty, residents, or students to determine topic importance.


가중치 도출에 대한 이러한 엄격한 경험적 접근방식은 훌륭하지만 덜 까다로운 방법은 또한 강의실 시험에 적합하다. 효과적인 두 가지 전략은 하향식 및 상향식 방법(Raymond 2016)이며, 두 가지 방법 모두 단일 강사에 의해 적용되거나 동료 및 상급advanced 의대생을 포함하여 적용할 수 있다. 

    • 하향식 방법에는 Blueprint의 각 주요 범주에 백분율을 할당하여 백분율 합계가 100%가 되도록 합니다. 바람직한 경우, 하위 범주에 대해서도 유사한 방식으로 가중치를 얻을 수 있다. 

    • 향식 방법에는 백분율이 아닌 항목 수를 지정해야 하며, 그 수는 먼저 하위 범주 또는 특정 목적의 [낮은 수준(예: 하위 범주)에서 할당]되어야 합니다. 상향식 접근법의 한 가지 과제는 총 항목 수가 실현 가능한 최대 시험 길이를 초과할 수 있다는 것이다. 따라서 초기 가중치에 대한 일부 조정이 종종 필요하다.

Although these rigorous empirical approaches to deriving weights are admirable, less demanding methods also are suitable for classroom tests. Two effective strategies are the top-down and the bottom-up methods (Raymond 2016), both of which can be applied by a single instructor, or by including colleagues and advanced medical students. 

    • The top-down method involves the assignment of percentages to each major category in the blueprint such that the percentages sum to 100%. Weights can be obtained in a similar fashion for subcategories, if desirable. 

    • The bottom-up method requires specifying numbers of items, rather than percentages; and that numbers first be assigned at a lower level of the test blueprint (e.g. at the subcategory or specific objective). One challenge with the bottom-up approach is that the total number of items may exceed the maximum feasible test length; consequently, some adjustment to the initial weights is often necessary.


요약 및 결론 설명

Summary and concluding comments


테스트 청사진은 테스트 내용이 커리큘럼과 일치하는지 확인합니다(Notar 등). 2004); 이것은 타당도의 중요한 측면이다(Tavakol 및 Dennick 2017). 테스트 청사진은 특정 테스트의 점수가 더 큰 관심 영역(Kane 2016)으로 일반화되도록 지원함으로써 다른 방식으로 내용 타당화를 지원합니다. 또한 테스트 Blueprint는 응답 프로세스의 타당도를 평가하기 위한 프레임워크를 제공합니다.

Test blueprints assure that the content of a test aligns with the curriculum(Notar et al. 2004); this is a critical aspect of validity (Tavakol and Dennick 2017). Test blueprints support content validation in other ways, by helping to ensure that scores on a specific test generalize to the larger domain of interest (Kane 2016). Test blueprints also provide a framework for evaluating the validity of response processes.


이 문서는 강사가 학생들에게 어떤 가치를 부여하고 기대하는지를 나타내며 학습 가이드로 사용할 수 있습니다. 학생들과 청사진을 공유하는 것에는 장단점이 있지만, 연구는 이러한 관행을 뒷받침한다(McLaughlin et al. 2005; Patil et al. 2015).

They indicate what instructors value and expect of their students, and can be used as a study guide. Although there are pros and cons to sharing blueprint with students, studies support this practice (McLaughlin et al. 2005; Patil et al. 2015).


  • Blueprint에 포함된 내용 범주와 역량 영역은 학생들에게 피드백의 기초를 제공한다.

The content categories and competency domains included on test blueprints provide the basis for feedback to students.


  • Blueprint는 평가 관련 자료의 개발을 촉진한다. 예를 들어, 시험 청사진을 시뮬레이션 및 작업장 기반 평가를 위한 채점 루빅과 피드백 보고서로 변환하는 것이 간단하다(Mookerjee et al. 2013).

They facilitate the development of assessment-related materials. For example, it is straightforward to transform a test blueprint into scoring rubrics and feedback reports for simulations and workplace-based assessments (Mookherjee et al. 2013).


  • Blueprint는 부서별 문항작성 작성 및 검토 작업을 구성하는 데 필수적입니다. 문항 쓰기 과제를 간결하게 전달하기 때문이다 

Test blueprints are essential for organizing departmental item-writing and review efforts because they succinctly communicate item-writing assignments.


  • Blueprint는 시험 자료를 관리하기 위한 메타데이터를 제공한다. 일단 시험 청사진에 따라 시험 항목이 코드화되면, 더 큰 항목 풀에서 그것들을 회수하고 다른 목적을 위해 시험 형태로 조립하는 것이 간단하다.

They provide metadata for managing test materials. Once test items have been coded according to a test blueprint, it is straightforward to retrieve them from a larger pool of items and to assemble them into test forms for different purposes.


  • Blueprint는 교육의 질 향상에 기여한다. 학생 피드백에 사용된 범주는 또한 교수진에게 교육적 효과의 척도를 제공한다. 시험 청사진은 계획, 지침 및 평가 사이의 연관성을 명확히 하며, 이는 교수진의 자기반성을 고무시킬 수 있다(McLaughlin et al. 2005).

Test blueprints contribute to educational quality improvement. The categories used for student feedback also provide faculty with measures of instructional effectiveness. Test blueprints clarify the connections between planning, instruction, and assessment, which can inspire faculty self-reflection (McLaughlin et al. 2005).






. 2019 Aug;41(8):854-861.
 doi: 10.1080/0142159X.2019.1595556. Epub 2019 Apr 24.

A practical guide to test blueprinting

Affiliations 

Affiliations

  • 1National Board of Medical Examiners , Philadelphia , PA , USA.
  • 2Mayo Clinic College of Medicine and Science , Rochester , MN , USA.

Abstract

A test blueprint describes the key elements of a test, including the content to be covered, the amount of emphasis allocated to each content area, and other important features. This article offers practical guidelines for developing test blueprints. We first discuss the role of learning outcomes and behavioral objectives in test blueprinting, and then describe a four-stage process for creating test blueprints. The steps include identifying the major knowledge and skill domains (i.e. competencies); delineating the specific assessment objectives; determining the method of assessment to address those objectives; and establishing the amount of emphasis to allocate to each knowledge or skill domain. The article refers to and provides examples of numerous test blueprints for a wide variety of knowledge and skill domains. We conclude by discussing the role of test blueprinting in test score validation, and by summarizing some of the other ways that test blueprints support instruction and assessment.


종합에서 해석까지: 어떻게 평가자가 역량기반포트폴리오의 복잡한 데이터를 판단하는가(Adv in Health Sci Educ, 2017)

From aggregation to interpretation: how assessors judge complex data in a competency-based portfolio

Andrea Oudkerk Pool1 • Marjan J. B. Govaerts1 • Debbie A. D. C. Jaarsma2 • Erik W. Driessen1





서론 Introduction


역량 기반 평가의 증가로 포트폴리오가 평가 시스템의 핵심 요소로 인식되고 있습니다. 형식과 내용이 다를 수 있지만, 일반적으로는 포트폴리오는 수행된 작업에 대한 보고, 동료 및 교수진으로부터 받은 피드백, 진행 상황, 역량 향상 방법에 대한 목표 및 계획을 모두 포함하고 있습니다(Driessen et al. 2007).

With the rise of competency-based assessment, portfolios are increasingly seen as the linchpin of assessment systems. Although their format and content may differ, generally they all contain reporting on work done, feedback received from peers and faculty, progress made, and goals and plans on how to further improve competence (Driessen et al. 2007).


세계적으로 여러 의과대학은 학생의 성취도 평가에 포트폴리오가 핵심인 역량 기반 평가 시스템을 구현했다(Dannefer와 Henson 2007; Davis et al. 2001; Driessen 2016; Smith et al. 2003). 이러한 포트폴리오 기반 평가 시스템에서 학생들의 역량 수준에 관한 결정은 일반적으로 전문가의 판단에 의존한다. 전문 심사관은 포트폴리오에서 관련 증거를 선택, 해석 및 통합할 수 있으며, 결과적으로 학생의 역량에 대한 타당한 결정을 내릴 수 있다고 가정한다.

Worldwide, multiple medical schools have implemented competency-based assessment systems in which the portfolio is key to the assessment of students’ achievements (Dannefer and Henson 2007; Davis et al. 2001; Driessen 2016; Smith et al. 2003). In these portfolio-based assessment systems, decisions regarding the students’ level of competence typically rely on expert judgment. It is assumed that expert judges are able to select, interpret, and integrate relevant evidence in the portfolio, and consequently make a valid decision about a student’s competence.


더욱이 최근 훈련 중 평가에 관한 연구는 [교수진이 미래의 임상의에서 중요한 자질로 보는 것]과 [역량 기반 평가에서 정의된 역할] 사이의 불일치를 보여주었다(Ginsburg et al. 2011; Resenting et al. 2016; Rosenbluth et al. 2014). 학생들의 임상 역량 수준을 평가하도록 요청받았을 때, 교수진은 레지던트에 따라 특정 측면에 다양한 중요도를 부여했다. 즉, 뛰어난 학생의 단점은 무시될 수 있는 반면 약한 학생들의 강한 속성은 간과할 수 있었다(긴스버그 외. 2010). 게다가, 평가자에게 중요한 일부 구조는 고려할 역량조차 아니었다. 예를 들어, 평가자는 학생이 감독관에게 어떤 영향을 미치는지에 큰 중요성을 부여했습니다('직원에 미치는 영향').

Moreover, recent studies on in-training evaluations revealed a discrepancy between what faculty see as important qualities in a future clinician, and the roles defined within competency-based assessment (Ginsburg et al. 2011; Renting et al. 2016; Rosenbluth et al. 2014). When asked to assess students’ level of clinical competence, faculty assigned varying degrees of importance to certain aspects depending on the resident: shortcomings of exceptional students could be discounted while strong attributes of weaker students were overlooked (Ginsburg et al. 2010). Besides, some constructs that were of importance in the considerations of assessors were not even competencies at all. For example, assessors attached great importance to how the student affected the supervisor (coined ‘impact on staff’).


효과적인 교육에 대한 [공통된 비전]을 가지고 있고 많은 [동일한 증거]를 인용하는 평가자도 [상당히 다른 '이야기' 또는 수행에 대한 해석적인 요약]을 개발할 수 있다(슈츠와 모스 2004).

even assessors who hold a shared vision of effective teaching and who cite much the same evidence can, nonetheless, develop significantly different ‘stories’ or interpretive summaries of performance (Schutz and Moss 2004).


방법론 Methodology


세팅 Setting


이 연구는 네덜란드 마스트리히트 대학의 의학 석사 프로그램에서 정해졌다. MiM 커리큘럼은 의학 학사 이후 3년 동안 계속됩니다. 그것은 임상실습, 연구 프로젝트, 그리고 일렉티브로 구성되어 있다. 커리큘럼은 CanMEDs 프레임워크를 중요한 평가 프레임워크로 사용하여 역량 기반 교육과 평가의 원칙에 따라 설계되었다(Frank와 Danoff 2007). 역량 기반 평가는 학생들이 각 역량 영역에서 학습 및 개발 증거를 수집하고 반성하는 웹 기반 포트폴리오 시스템에 의해 지원된다(Moonen-van Loon et al., 2013). 모든 학생들에게는 자신의 평가와 성찰, 학습 목표 설정 등을 지도함으로써 학생의 역량 개발을 감시하는 멘토가 배정된다. 멘토와 학생은 1년에 3~4번 만나며, 그 동안 멘토는 역량 개발 및 포트폴리오에 대해 학생들과 논의합니다.

The research was set in the Master’s in Medicine (MiM) programof Maastricht University, the Netherlands. The MiM curriculum spans a 3-year period following the bachelor’s in Medicine. It consists of clerkships, a research project, and electives. The curriculum has been designed according to the principles of competency-based education and assessment, using the CanMEDS framework as overarching assessment framework (Frank and Danoff 2007). Competency-based assessment is supported by a web-based portfolio system in which students collect and reflect on evidence of their learning and development in each of the competency domains (Moonen-van Loon et al. 2013). Every student is assigned a mentor who monitors the student’s competency development by guiding the student in his or her self-assessments and reflections, and in setting learning goals. Mentor and student meet three to four times per year, during which the mentor discusses the competency development and portfolio with the student.


참여자 Participants


우리는 의도적으로 최대 변동 샘플링(Patton 1990)을 사용하여 18명의 멘토-평가자를 선택했습니다. 평가자의 의료 배경의 변화를 극대화하기 위해 다양한 의료 전문 분야(가족 의료 및 외과 및 비외과 전문 분야)에서 

We purposefully selected 18 mentor-assessors using maximum variation sampling (Patton 1990). To maximize variation in assessors’ medical backgrounds, we selected assessors from different medical specialties (Family Medicine and surgical as well as non-surgical specialties).


학생 포트폴리오 Student portfolio


본 연구의 목적을 위해, 연구팀은 (심리학자, 두 명의 교육학자, 그리고 한 명의 수의사로 구성된) 3개의 서로 다른 학생 프로필을 대표하는 3개의 모의 포트폴리오를 개발했으며, 각각은 다양한 수준의 역량 성취도를 반영했다. 이전 연구에서 평가자가 비의료 전문가 역량을 평가하는 데 어려움이 있다는 것을 보여주었기 때문에, 학생 프로파일에서 우리는 [의료 전문가 역량]과 [다른 역량]을 구별하기로 결정했다(Whitehead et al. 2015).

For the purpose of this study, the research team (consisting of a psychologist, two educationalists and a veterinarian) developed three mock portfolios representing three different student profiles, each reflecting varying levels of competency achievement. In our student profiles we chose to make a distinction between de medical expert competency and other competencies because previous research has shown that assessors have difficulty assessing the non-medical expert competencies (Whitehead et al. 2015).


    • 포트폴리오 (A) 의료 전문가 영역에서는 주로 긍정적인 피드백, 관리자와 의사소통 영역에서는 비판적 피드백과 긍정적인 피드백, 

    • 포트폴리오 (B) 의료 전문가 분야에서 비판적인 긍정적인 피드백, 그러나 다른 역량에 대한 긍정적인 피드백, 그리고 

    • 포트폴리오(C)는 모든 도메인에서 주로 긍정적인 피드백입니다.

    • portfolio (A) predominantly positive feedback in the medical expert domain, but both critical and positive feedback in the domains of manager and communicator; 

    • portfolio (B) both critical and positive feedback in the domain of medical expert, but predominantly positive feedback on the other competencies; and 

    • portfolio (C) predominantly positive feedback in all domains.


포트폴리오에는 학생의 자체 평가, 작업장 기반 평가(mini-CEX, DOPS, 현장 노트, 다중 소스 피드백), 진행 시험 결과, CV 등을 포함한 [18주 기간의 임상 로테이션] 동안 수집된 학생의 역량에 대한 증거가 포함되어 있었다. 각 포트폴리오에는 서술적 피드백, 역량 등급 및 자격(즉, 불충분, 충분 및 양호)과 개별 CanMED 역량과 관련된 테스트 결과가 포함되었습니다. 그림 1은 본 연구에 사용된 온라인 포트폴리오 환경의 인쇄 화면을 제공합니다.

The portfolios contained evidence on a student’s competencies collected during a single 18-week clinical rotation, including student’s self-assessments, workplace-based assessments (mini-CEXs, DOPSs, field notes, multi-source feedback), progress test results, and a curriculum vitae. Each portfolio comprised narrative feedback, competency ratings and qualifications (i.e., insufficient, sufficient, and good) as well as test results pertaining to each of the individual CanMEDS competencies. Figure 1 provides a print screen of the online portfolio environment used for this study.



윤리 Ethical approval


자료 수집과 분석 Data collection and analysis


24명의 멘토 평가자를 이메일로 초대하여 참여 전에 동의를 받았습니다. 18명의 평가자들이 우리의 초대에 응했다. 각 평가자는 세 가지 포트폴리오 버전 중 하나를 제시받았고, 따라서 각 포트폴리오 버전은 여섯 명의 평가자에 의해 평가되었다.

We invited 24 mentor–assessors via e-mail to participate and obtained their consent prior to participation. Eighteen assessors responded to our invitation. Each assessor was presented one of the three portfolio versions, each portfolio version was therefore assessed by six assessors.


평가자들은 이 내용을 주의 깊게 읽고 '부족하다', '충분하다', 또는 '좋다'고 평가함으로써 학생의 전반적인 직업적 역량에 대한 전체적인 판단을 내리도록 지시받았다.

Assessors were instructed to carefully read it and provide a holistic judgment of the student’s overall professional competence by rating it as ‘insufficient,’ ‘sufficient,’ or ‘good.’


포트폴리오 평가 중 평가자의 인지 처리를 포착하기 위해, 우리는 think-aloud 방식(Van Someren et al., 1994)을 사용했는데, 이는 우리가 평가자들에게 포트폴리오를 읽고 평가하는 동안 모든 생각, 아이디어 및 결정을 언어화하도록 지시했다는 것을 의미한다. 만약 그들이 몇 초 이상 침묵한다면, 우리는 그들에게 그들의 생각을 계속 말하라고 상기시켰다.

To capture assessors’ cognitive processing during portfolio evaluation, we employed the think-aloud method (Van Someren et al. 1994), which means that we instructed assessors to verbalize all their thoughts, ideas, and decisions while reading and evaluating the portfolio. If they fell silent for more than a few seconds, we reminded them to keep verbalizing their thoughts.


결과 Results


평가자의 정보 처리과정: 3단계 순환적 프로세스 

Assessors’ information processing: a 3-phase cyclical process


정보 처리에서 모든 평가자는 각각 정보를 [획득, 조직, 통합]하는 유사한 순환 패턴을 따랐다. 

    • 첫 번째 단계에서 평가자는 가장 중요하고 신뢰할 수 있는 근거 중 판단의 근거가 되는 것으로 간주되는 정보를 선택하였다. 

    • 이 정보를 검토한 후, 그들은 그것이 학생들의 [역량의 여러 측면aspects]에 대한 [정보에 근거한 판단]에 기여하는지 여부와 그 방법을 정의했다. 

    • 평가자들은 그 후에 다양한 증거의 출처를 따져보고 학생의 능력에 대한 예비판단을 결정했다.

In processing information, all assessors followed a similar cyclical pattern of acquiring, organizing, and integrating information, respectively. 

    • During the first phase, assessors selected the information they considered the most important and credible pieces of evidence upon which to base their judgment. 

    • After reviewing this information, they defined if and how it contributed to an informed judgment about aspects of student’s competence. 

    • Assessors subsequently weighed the various sources of evidence and decided on a (preliminary) judgment of the student’s competence.


첫 번째 라운드가 끝나자, 평가자는 나머지 포트폴리오 증거를 검토하여 추가 확인 또는 확인되지 않은 데이터를 찾아 정보 획득 단계를 반복했고, 이는 다시 정보의 조직과 통합에 영향을 미쳤다. 이 반복적인 과정은 평가자가 학생의 능력에 대한 판단을 내릴 수 있을 만큼 충분한 정보를 얻었다고 느낄 때까지 평가자가 새로운 포트폴리오 증거를 검토할 때마다 반복되었다. 여러 출처의 다른 증거들을 비교함으로써, 평가자들은 점차적으로 학생의 역량 패턴을 인식하게 되었다.

Upon conclusion of the first round, assessors reviewed the remaining portfolio evidence to look for additional confirming or disconfirming data thereby repeating the information acquisition phase which, in turn, influenced the organization and integration of information. This iterative process was repeated every time the assessor reviewed new portfolio evidence, until assessors felt they had obtained enough information to make a judgment about the student’s competence. By comparing different pieces of evidence from multiple sources, assessors gradually came to recognize patterns in the student’s competence.


더욱이 중요한 발견은 다음과 같은 명백한 증거에 직면했을 때조차 [평가자가 초기 판단을 고수하는 경향]이 있다는 것이다. 비록 그들의 최종 판단이 그들의 예비판단에 비해 더 정교하고 세밀했지만, 그들은 그들의 초기판단과 실질적으로 다르지 않았다. 학생 프로파일 간의 차이는 학생의 능력에 대한 평가 과정이나 평가자의 전반적인 판단에 영향을 미치지 않는 것으로 보였다. 대부분의 평가자들은 학생들의 능력이 충분하다고 평가했다.

A salient finding, moreover, was that assessors were inclined to stick to their initial judgments even when confronted with seemingly disconfirming evidence: Although their final judgments were, indeed, more elaborate and detailed compared to their preliminary judgments, they were not substantially different from their initial judgments. Differences between student profiles did not seem to affect the judgment process or assessors’ overall judgment of the student’s competence: Most assessors rated the students’ competence as sufficient.


학생 평가에 대한 평가자의 독특한 접근 방식

Assessors’ idiosyncratic approaches to the student evaluation


어떤 평가자는 최종 판단을 내리기 전에 전체 포트폴리오를 읽지만, 다른 평가자는 주로 자신의 판단에 inform하기 위해 학생의 자체 평가 또는 직장 기반 평가 데이터에 의존했고, 대체로 추가적인 포트폴리오 증거를 무시했다.

While some assessors read the entire portfolio before providing their final judgment, others mainly relied on either the student’s self-evaluation or workplace-based assessment data to inform their judgment, largely ignoring additional portfolio evidence.


다음 단락에서는 이 세 가지 평가자 간 차이에 대해 좀 더 자세히 논의한다.

The following paragraphs will discuss each of these three inter-assessor differences in more detail.


평가자가 신뢰할 수 있는 포트폴리오 증거라고 믿었던 것의 차이

Differences in what assessors believed to be credible portfolio evidence


첫째, 평가자는 자신의 판단에 inform하기 위해 주로 서술적 피드백에 의존한다는 점을 주목해야 한다. 이는 다른 사람이 제공하는 개선사항에 대한 구체적인 제안뿐만 아니라 학생의 발전, 강점 및 약점에 대한 의미 있고 상세한 정보를 제공했기 때문이다. 성적과 자격은 단지 서술에 근거한 인상을 확인하는 데 사용되었다.

First it should be noted that assessors mainly relied on narrative feedback to inform their judgment, because this provided meaningful and detailed information about the student’s development, strengths and weaknesses, as well as specific suggestions for improvement as provided by others. Grades and qualifications were merely used to confirm impressions based on narratives.


이러한 공통성에도 불구하고, 평가자들은 [어떤 종류의 서술적 증거가 학생의 능력에 대한 가장 가치 있고 신뢰할 수 있는 정보를 제공하는지]에 대해서는 다양한 신념을 가지고 있었다.

Despite this commonality, assessors had varying assessment beliefs about what kind of narrative evidence gave the most valuable and credible information about the student’s competence.


예를 들어 평가자들은 평가를 시작하기 위해 서술적 증거의 여러 부분들을 선택하였다. 일부 평가자들은 직장 기반 평가에 대한 서술적 코멘트가 학생들의 능력에 대한 가장 확실한 증거를 생성한다고 믿고 있다. 그러나, 다른 이들은 학생들의 자기 평가와 성찰적인 글을 읽기 시작했는데, 이는 그들이 결과적으로 학생들의 주장이 정당한지 확인하기 위해 읽은 중요한 피드백 논평과 평가 양식에 대한 언급을 포함할 것이라고 가정했기 때문이다.

Assessors, for instance, chose different pieces of narrative evidence to start their evaluation: some selected narrative comments on workplace-based assessments, believing that these would generate the most authentic evidence of students’ abilities; Other, however, started reading the student’s self-evaluations and reflective writings as they assumed these would contain reference to salient feedback comments and assessment forms which they consequently read to check if the student’s claims were justifiable.


출처는 또한 증거의 신빙성을 결정하는 데 있어 중요한 것으로 보였다. 일부 평가자는 주로 의사로부터의 피드백에 의존했다. 왜냐하면 그들은 그들이 학생 역량에 대한 정확하고 의미 있는 피드백을 제공할 가능성이 가장 높기 때문이다. 반면, 다른 평가자는 동료 학생 및 간호사의 피드백을 선호했다. 다른 평가자는 학생들과 더 가깝게 일했고, 따라서 직접 관찰할 수 있는 더 많은 기회를 가졌을 것이다. 

The source also appeared to matter in deciding on the credibility of evidence: Some assessors mainly relied on feedback from physicians because they perceived them as content experts most likely to provide accurate and meaningful feedback on student competence; Others, in contrast, preferred feedback from fellow students and nurses who, they presumed, had worked more closely with students and therefore had more opportunities to directly observe them.


소스 선호도의 평가자 간 차이도 [평가자의 기준 프레임]과 [학생-감독관 관계에 미칠 영향]에서 비롯되었다. 예를 들어, 복수 평가자는 [학생이 서로 다른 시점에 동일한 사람으로부터 피드백을 받았을 때] 학생의 진도가 더 안정적으로 설정될 수 있다는 믿음을 표현했다.

Between-assessor differences in source preferences also stemmed from assessors’ frames of reference and the presumed impact of student-supervisor relationships. for instance, multiple assessors expressed their belief that student’s progress could be established more reliably when the student had received feedback from the same person at different points in time,


동시에, 다른 평가자는 여러 평가자의 입력input을 가치 있게 평가했으며, 이는 1인 피드백에 비해 더 신뢰할 수 있고 더 유용한 것으로 추정했다. 선호도를 설명할 때, 몇몇 평가자는 선택 편향에 대한 인식(즉, 학생들이 피드백을 제공하기 위해 의도적으로 더 관대한 평가자를 선택)과 충돌을 피하기 위해 부정적인 의견을 적기를 꺼리는 피드백 제공자를 유발했다.

At the same time, other assessors did value the input from multiple assessors, which they estimated to be more reliable and more informative compared to single-person feedback. In explaining their preferences, several assessors invoked perceptions of selection bias (i.e., students purposively selecting more lenient assessors to provide feedback) and feedback providers’ reluctance to write down negative comments so as to avoid conflicts:


마지막으로, 포트폴리오의 평가 데이터는 또한 감독의 퀄리티애 대한 다양한 인상을 유도했다. 예를 들어, 감독자가 상세한 서면 피드백을 제공하지 못했을 때, 여러 평가자는 감독자가 필수 코멘트를 적었으며 구두로 보다 정교한 피드백을 제공했다고 가정했다. 그러나 다른 사람들은 그 학생이 관찰되지 않았다고 믿었고 따라서 감독관 평가의 신뢰성에 의문을 제기했습니다.

Finally, the assessment data in the portfolio also induced different impressions about the quality of supervision. When a supervisor, for instance, failed to provide detailed written feedback, several assessors assumed that the supervisor had probably written down the essential comments and had provided more elaborate feedback verbally. Others, however, believed that the student had gone unobserved and therefore questioned the credibility of the supervisors’ assessments.


무엇이 '역량'을 구성하는지에 대한 해석의 차이

Differences in interpretations of what constitutes ‘competence’


무엇이 역량을 구성하는지에 대한 이러한 가변적 해석의 결과로, 평가자들은 판단을 내리기 위해 학생에 대해 무엇을 알아야 하는지에 대해 다르게 생각했다. 흥미롭게도, 이러한 소위 '성과 이론'은 공식적인 평가 기준에서 벗어나는 경향이 있었다.

As a result of these variable interpretations of what constitutes competence, assessors thought differently about what they needed to know about the student to be able to form a judgment. Interestingly, these so-called ‘performance theories’ tended to deviate from the formal assessment criteria.


한 평가자 그룹은 학생들의 역량을 [그들이 자신의 학습 과정에 적극적으로 참여하고 역량 향상을 위한 피드백을 효과적으로 사용하는 정도]로 정의했다. 좀 더 구체적으로, 그들은 [학습과 평가에 대한 적극적인 참여]를 좋은 학생의 핵심적 자질이라고 생각했다. 따라서, 성장을 확립하기 위해, 그들은 종종 포트폴리오 증거를 시간 순으로 읽어서 임상 로테이션 초기에 잘 진행되지 않았던 측면이 시간이 지남에 따라 개선되었는지 여부를 점검한다. 비슷하게, 그들은 학생이 개선이 필요한 모든 측면을 추적했는지 확인하기 위해 작업영역 기반 평가와 피드백을 선별했다. 그들은 또한 학생들이 학습 목표와 약속에 대해 후속 조치를 취하는 것이 필수적이라고 생각했기 때문에 학생들의 자기 평가와 학습 목표를 포함했다. 이 평가자 그룹에 따르면, [학생이 시간이 지남에 따라 충분히 향상되고 적극적으로 개선하려고 노력했다는 충분한 증거]가 있는 한, 학생의 역량이 반드시 표준에 달해야 하는 것은 아니다.

One group of assessors defined students’ competence in terms of the extent to which they actively engaged in their own learning process and effectively used feedback for competence improvement. More specifically, they considered active engagement in learning and assessment a key quality of a good student. Hence, to establish growth, they often read the portfolio evidence in chronological order to check if aspects that did not go well in the beginning of the clinical rotation had improved over time. In the same fashion, they screened the workplace-based assessments and feedback to verify whether the student had followed-up on all the aspects that needed to improve. In their perusal, they also included the student’s self-assessment and learning goals as they felt that it was vital to know if students did follow up on learning goals and appointments. According to this group of assessors, the student’s competence did not necessarily have to be up to standard as long as there was enough evidence that the student had sufficiently improved over time and actively tried to improve:


다른 평가자들은 [스스로의 역량을 성찰하는 능력]에 의해 학생들의 능력 수준을 측정했다. 결과적으로, 그들은 학생이 하나 이상의 영역에서 자신의 역량을 인식하지 못하는 경우라면 절대 안 된다는 점을 고려하여 학생의 자기반성을 검토하는 것으로 시작했다.

Other assessors measured students’ level of competence by their ability to reflect on their own competencies. Consequently, they started by reviewing the student’s self-reflections, considering it a no–no when a student was not aware of his or her competence in one or more areas:


'역량'에 대한 평가자의 해석 사이에 발견된 최종 차이는 포트폴리오의 다양한 CanMED 역량 영역에 가중치를 부여하고 평가하는 방식에 반영되었다. 포트폴리오 버전에 관계없이 대부분의 평가자는 구체적으로 '의료 전문가', '관리자' 및 '의사소통가' 역량을 대상으로 하여 나머지 역량을 검사했지만, 어떤 평가자들은 모든 범위의 역량에 초점을 맞추려고 했다. 후자와 같은 방식은 잘 정의되지 않은 역량(예: 건강 옹호자 또는 학자)에 대한 귀중한 피드백을 수집하는 것이 학생들에게 상당히 어려운 과제이기 때문에 학생 간에 차별화를 가능하게 했다. 따라서, '잘 정의되지 않는 역량'에 대한 과제를 수행할 수 있고, 이러한 증거를 성찰하는 학생들은 평균 이상이며 학습에 열심인 것으로 간주되었습니다.

A final distinction we found between assessors’ interpretations of ‘competence’ was reflected in the way they weighted and valued the various CanMEDS competency domains in the portfolio. While most assessors, regardless of portfolio version, specifically targeted ‘medical expert’, ‘manager’, and ‘communicator’ competencies and scanned the remaining competencies, others sought to bring into focus the full range of competencies. This latter tactic allowed them to differentiate between students, as collecting valuable feedback on the less well defined competencies (e.g., health advocate or scholar) is quite a challenge for students. Hence, students who were able to do so and reflected on this evidence were considered to be above average and eager to learn:


평가자가 포트폴리오 증거를 해석하는 방법의 차이

Differences in how assessors construed the portfolio evidence


전체 판단 과정 동안 평가자는 포트폴리오에 포함된 [증거에 자신의 의미를 부여]하여 학생의 능력과 태도에 대한 서로 다른 추론을 유도했다. 좀 더 구체적으로 말하면, 동일한 정보 부분에 기초하여 평가자들은 다른 결론을 도출했다. 예를 들어 학생들의 역량 및 성취에 대한 책임에 관한 것이다. 특정 학생의 직장 기반 평가에 대한 '불충분함insufficient' 등급에 대하여, [한 평가자가 지식의 부족으로 해석]한 반면, [다른 평가자는 그것을 불안정insecurity]으로 돌렸다. 반대로, 일부에서는 평가자와 감독자의 경험에서, 서면 평가는 일반적으로 평가를 후하게 하는 측면에 있다는 것을 배웠기 때문에, 장기간에 걸쳐 '충분함sufficient' 등급을 받은 학생은 '저조한 수행능력'을 가진 것으로 해석되었다.

Throughout the entire judgment process assessors lent their own meanings to the evidence included in the portfolio, leading to different inferences about the student’s competence and attitude. More specifically, based on the same pieces of information assessors drew different conclusions, for instance about students’ responsibility for their competence and achievement: An insufficient rating on a workplace-based assessment of a specific student, was construed by one assessor as the result of a lack of knowledge, while another attributed it to insecurity. Conversely, sufficient ratings over a prolonged period of time were construed as underperformance by some, since they had learned from experience as an assessor and supervisor that written assessments were generally on the positive side be as supervisors eschew failing a student:


그리고 나서 나는 그 '부족함'이라는 판단을 내리는 것이 얼마나 어려운 일인지 깨닫는다. 평가자는 학생에 대한 영향력을 누그러뜨리려는 경향이 있고, 그래서 1점이나 2점을 주는 것은 매우 어려우므로, 보통 3을 준다. 그리고 그것이 내가 누군가가 3점밖에 얻지 못할 때 조심하는 이유이다. 사실, 그 세 가지는 3점 대신 1점부터 3점까지를 의미할 수 있기 때문입니다. (평가자 12)

And then I realize how hard it is to deliver that emphatic ‘insufficient.’ You are inclined to soften the blow for that person and then it is very difficult to give a one1 or a two, so you give a three. And that is why I am cautious when someone only scores threes. Really, because those threes could also be taken to mean a score of one to three, instead of a three. (Assessor 12)


그러나 다른 평가자들은 학생에 대한 약간의 배경 정보가 없이는 포트폴리오의 평가 피드백에 대한 정확한 해석을 할 수 없다고 느꼈다. 이 평가자들은 또한 학생들의 과외 활동, 관심사, 취미에도 관심이 있었다. 학생의 배경에 대해 좀 더 알기 위한 노력으로 일부 평가자는 실제로 학생의 CV를 읽으면서 포트폴리오 검토를 시작했습니다.

Yet other assessors felt they could not make an accurate interpretation of the assessment feedback in the portfolio without having some background information about the student. These assessors were also interested in the student’s extracurricular activities, interests, and hobbies. In an effort to know more about the student’s background, some assessors actually commenced their portfolio review by reading the student’s curriculum vitae:


위에 명명된 성과 데이터의 다른 해석은 학생의 수행능력에 대한 다양한 추론을 초래했고 역량 프레임워크의 특정 요소에 대해서도 서로 동등하지만, 서로 다른 판단으로 이어졌다.

The above-named different interpretations of performance data led to varying inferences about a student’s performance and to equally dissimilar judgments about specific components in the competency framework.


예를 들어, 포트폴리오 A를 읽을 때, 평가자 1은 '의료 전문가' 역할에 큰 중요성을 부여했고, 따라서 구체적으로 이 역량에 대한 모든 포트폴리오 증거를 찾아보았다. 결과적으로, 이 평가자는 이 역량에 대한 가장 신뢰할 수 있는 정보는 의사로부터 얻었으며 직장 기반 평가에서 찾을 수 있다고 믿었다. 결국, 평가자는 학생이 의료 전문가 영역에서 능력이 부족하기 때문에 학생의 역량이 문제가 된다고 추론했다.

When reading portfolio A, for instance, assessor 1 attached great importance to the ‘medical expert’ role and therefore specifically looked for all portfolio evidence about this competency. Consequently, this assessor believed that the most reliable information about this competence came from doctors and could be found in the workplace-based assessments. In the end, the assessor inferred that the student’s competence was problematic since the student lacked competence in the medical expert domain.


그러나 동일한 포트폴리오를 읽은 평가자 2는 학생의 발전progress 상황을 파악하는 데 더 관심이 있었습니다. 이 평가자는 다중 소스 피드백의 코멘트를 읽음으로써 자신이 그렇게 할 수 있을 것이라고 믿었는데, 이 피드백은 장기간에 걸쳐 학생의 능력에 대한 여러 사람의 의견을 포함하기 때문이다. 학생이 의료 전문가 역량에 주의를 기울여야 한다는 점은 인정했지만, 평가자는 학생이 임상 교대 중에 상당히 개선되었기 때문에 우려를 갖지 않았다.

Assessor 2, however, who read the same portfolio, was more interested in determining the student’s progress. This assessor believed that by reading the comments in the multisource feedback he would be able to do so, because this feedback contained opinions of multiple people about the student’s competence over a longer period of time. Although acknowledging that the student should pay attention to the medical expert competency, the assessor was not concerned because the student had improved considerably during the clinical rotation.


고찰 Discussion


우리의 연구 결과는 평가자의 정보 처리는 정보의 획득, 구성 및 통합의 반복적인 단계에 의해 특징지어진다는 것을 시사한다. 평가자 인식에 대한 이전 연구에서도 유사한 단계가 발견되었습니다(Gauthier et al. 2016). 비록 모든 평가자들이 그들의 신뢰도 판단, 수행 이론 및 추론의 차이에서 증명되었듯이, 평가자들은 각자의 고유한 접근법을 가지고 있었지만, 그들은 결국 동일한 전반적인 판단에 도달했다. 이 결과는 Gingerich 등의 연구(2014년)와 일치한다. 평가자는 판단에 대해 다른 원인 설명을 제공했지만, 유사한 판단을 내리고 있었다.

Our findings suggest that assessors’ information processing is characterized by iterative phases of acquiring, organizing and integrating information. Previous research on rater cognition has found similar phases (Gauthier et al. 2016). Although all assessors had their unique approaches, as evidenced by differences in their credibility judgments, performance theories, and inferences, they eventually reached the same overall judgments. This finding is consistent with research by Gingerich et al. (2014) : While raters provided differentcausal explanations for their judgment, subgroups of raters were making similar judgments.


우리는 또한 평가자의 증거 선택과 이 증거가 그들의 판단에 영향을 미치는 정도는 포트폴리오 증거의 신뢰성에 대한 믿음에 의해 강하게 지배된다는 것을 발견했다.

We also found that assessors’ selection of evidence and the extent to which they let this evidence influence their judgment were strongly governed by their beliefs about the credibility of the portfolio evidence.


피드백에 직면했을 때, 학생들은 [자신의 성장에 inform하는 데 어떤 정보를 사용할지 결정]하기 위해 피드백의 신뢰성을 판단했습니다. 평가자와 마찬가지로, (학생에게도) 피드백의 출처는 신뢰도 판단에 중요한 역할을 했다. 예를 들어, 학생들이 개인의 임상적 역량을 존중할 때, 그들은 피드백을 더 쉽게 받아들일 것이다.

When confronted with feedback, students judged the credibility of this feedback in order to decide which information they would use to inform their development. As with the assessors, the source of feedback played an important role in their credibility judgment. When students, for example, respected the individual for his or her clinical competence, they would more readily accept the feedback.


Watling 외 연구진(2012)과 현재의 연구는 모두 정보의 신뢰성을 평가할 수 있으려면 피드백 소스를 아는 것이 필수적이라는 것을 입증한다.

both research by Watling et al. (2012) and the present research demonstrate that it is vital to know the feedback source in order to be able to assess the information’s credibility.


우리의 연구 결과는 또한 평가자들이 [정보에 입각한 결정]을 내리기 위해 [학생에 대해 알아야 할 것에 대한 믿음]을 가이드하는 [서로 다른 수행 이론]을 가지고 있다는 것을 보여주었다. 이전 연구를 확인하면서, 본 연구의 평가자들은 포트폴리오 구조를 제공하는 역량 프레임워크의 외부적인 측면(예: 학생 진행 및 자기반성과 같은)에 근거하여 판단했습니다.

Our findings also revealed that assessors held different performance theories which guided their beliefs about what they needed to know about a student to be able to make a well-informed decision. Confirming previous research , the assessors in our study also based their judgments on aspects (such as student progress and self-reflections) that were external to the competency framework providing the portfolio structure.


직접적인 관찰에 기초한 판단은 본질적으로 자동적 의사결정 과정을 포함한다. 사람 분류와 관련된 자동 의사결정 프로세스는 변환 오류와 역량 간의 차이를 평가할 수 없는 평가자로 이어질 수 있다는 것이 입증되었다(Kolars et al. 2003; Macrae and Bodenhausen 2000). 또한 자동 의사 결정에는 최적의 솔루션은 아니지만, 만족스러운 솔루션을 찾는 프로세스를 가속화하기 위해 사용되는, [경험적 접근 기술]의 사용이 포함된다. 유사한 의사결정 문제가 종종 더 일찍 직면하는 경우, 의사결정자들은 쉽게 의사결정에 도달하기 위해 쉽게 이용할 수 있는 전략을 사용하는 경향이 있다(Tversky와 Kaneman 1975). 

Judgments based on direct observations inherently involve automatic decision-making processes. It has been demonstrated that automatic decision-making processes involving the categorization of people could lead to conversion errors and assessors’ inability to differentiate between competencies (Kolars et al. 2003; Macrae and Bodenhausen 2000). Furthermore, automatic decision-making involves the use of heuristic techniques used to speed up the process of finding a satisfactory, though possibly not optimal, solution. If similar decision-making problems have often been faced earlier, decision makers tend to use readily available strategies to arrive at a decision more easily (Tversky and Kahneman 1975). 


우리의 연구에서, 휴리스틱 사용을 포함한 다양한 자동적 과정들이 평가자들의 의사 결정에도 중요한 역할을 하는 것처럼 보였다. 예를 들어 평가자는 자동으로 특정 피드백 소스를 선호한다. 또한 그들의 추론은 이전의 경험에 의해 형성되었다. 평가자는 유사한 학생에 대한 이전의 경험에 기초하여 포트폴리오 증거에 인과적 설명을 자동으로 할당했다. 비록 이러한 자동적 의사결정 과정이 판단 과정에 영향을 주었고, 평가자의 평가 이면에 있는 추론의 차이를 야기시켰지만, 평가자들은 학생들의 역량을 평가하는 데 아무런 어려움을 겪지 않았다더욱이, 그들의 최종적인 전반적인 평가는, 자동적인 의사결정 과정에서의 차이에도 불구하고, 조화를 이루었다.

In our study, various automatic processes including use of heuristics seemed to play a role in assessors’ decision-making as well. Assessors, for example, automatically favoured particular feedback sources. Furthermore, their inferences were shaped by previous experiences: Assessors automatically assigned causal explanations to portfolio evidence based on earlier experiences with similar students. Although these automatic decision-making processes influenced the judgment process and caused differences in assessors’ reasoning behind their evaluations, assessors experienced no difficulty assessing the students’ competence. What’s more, their final overall assessments were in harmony, despite the differences caused by automatic decision-making processes.


본 연구는 포트폴리오의 자기 평가 및 반성적 작성을 포함한 다양한 유형의 작업장 기반 평가 및 성과 평가 옆에 평가자에게 의미 있고 중요한 정보를 추가한다고 제안합니다. 분명히, 자기 평가와 성찰적 글은 평가자에게 직장 기반 평가에서 추론할 수 없는 정보를 제공한다. 우리 연구의 또 다른 중요한 기여는 평가자는 [학생의 배경에 대한 보다 일반적인 정보를 얻고 해석함으로써] 평가를 맥락화할 필요가 있다고 느낀다는 점이다.

our study suggests that, next to various types of workplace-based assessments and performance evaluations, including self-assessments and reflective writing in the portfolio adds information that is meaningful and important to assessors. Apparently, self-assessments and reflective writings provide assessors with information that cannot be inferred from workplace-based assessments. Another important contribution of our study is the observation that assessors feel need to contextualize the assessment by obtaining and interpreting more general information about the student’s background.


한계 Limitations


다음으로, think-aloud 절차는 다양한 사고 과정이 자동적이거나 너무 빨리 일어나 언어화할 시간이 없기 때문에 언어화할 수 없다는 한계가 있다(2003년 헌장). 비록 참가자들의 언어화가 일관되고 완벽해 보이지만, 우리가 모든 사고 과정을 포착하지 못했을 수도 있다는 점을 고려해야 한다. 더욱이, think-aloud를 사용하는 것은 참가자가 실제 사고과정을 보고하기 보다는 연구자를 만족시키기 위해 설명을 작성할 위험이 있다. 그러나, 우리는 think-aloud 절차 외에도, 참가자들에게 왜 그들이 특별한 결정을 내렸는지에 대한 질문을 받는 반구조적인 인터뷰도 실시했습니다. 또한, 참가자의 의사결정의 중요한 공통적인 측면이 포착됨을 나타내는 12명의 참가자 후에 이론적 포화에 도달했다.

Next, the think-aloud procedure inherently harbours a limitation in that various thought processes cannot be verbalized because they are either automatic or happen so quickly that there is no time to verbalize them (Charters 2003). Although the participants’ verbalizations seem coherent and complete, it should be taken into account that we might have not captured all thought processes. Furthermore, using think-aloud procedures has the risk of participants creating explanations to satisfy the researcher rather than reporting their actual thought processes. However, in addition to the think-aloud procedure, we also conducted semi-structured interviews in which participants were asked about the reasons why they made particular decisions. Also, theoretical saturation was reached after 12 participants indicating that important common aspects of participants’ decision-making are captured.


실질적 함의 Practical implications


이 연구는 학생들의 역량에 대해서 평가자가 자신의 판단을 설명하는 것이 중요함을 재차 강조한다. 평가자의 설명explanation 에서 확인된 차이는, (역량에 대한) 의사결정이 개별적으로 이루어지는 것이 아니라, 그룹 토론에서 비롯되어야 한다는 것을 시사한다. 복수 평가자가 학생의 역량에 대해 동일한 일반적인 판단에 도달할 수 있지만, [개별 역량에 대한 판단]과 [전체적인 판단 이면에 있는 추론]에 있어 다르다.

This study reiterates the importance of assessors explaining their judgments about students’ competence. Differences between assessors’ explanations suggest that decisions should not be made individually, but should result fromgroup discussions. Although multiple assessors may reach the same general judgment about a student’s competence, they do differ in their judgments of individual competencies and the reasoning behind their overall judgments.


또한, [다른 평가자의 판단 정책을 논의하는 것]은 평가자가 [자신의 평가 방법이 보편적으로 공유되지 않는다는 사실]을 인식하게 할 것이다. 그것은 그들이 역량과 포트폴리오 해석의 다른 관점에 익숙해지도록 도울 것이다. 이를 통해 평가자는 자신의 평가 프로세스에 다른 평가자의 평가 관행을 통합하고 역량 평가를 위한 '공유된 정신 모델'을 구축할 수 있다.

Also, discussing judgment policies of other assessors will make assessors aware of the fact that their method of assessment is not universally shared. It will help them to become acquainted with other views of competence and portfolio interpretation. This enables assessors to incorporate assessment practices of other assessors into their own assessment process, and to build ‘shared mental models’ for competence assessment.


우리의 연구 결과는 평가자 교육에 시사하는 바가 있음을 시사한다. 평가자 훈련은 자신의 신념, 수행 이론 및 추론에 대한 평가자의 인식을 높이는 데 초점을 맞춰야 한다. 만약 그들이 그들 자신의 의사 결정 과정에 대한 더 많은 통찰력을 얻고 다른 평가자들의 의견을 알게 된다면, 그들의 의사 결정은 개선될 수 있다. 또한, 훈련은 Hauer 등(2016)이 설명한 의사결정 과정에 대한 그룹 구성원 구성 및 그룹 프로세스의 영향에 초점을 맞춰야 한다.

Our findings suggest implications for assessor training. Assessor training should focus on raising assessors’ awareness of their own beliefs, performance theories, and inferences. If they gain more insight into their own decision-making process and get acquainted with those of other assessors their decision making may improve. Furthermore, training should focus on the effect of group member composition and group processes on the decision making processes as described by Hauer et al. (2016).


더욱이, 평가자는 포트폴리오 증거의 선택과 사용에 대해 서로 다른 접근방식을 가지므로, 포트폴리오가 포트폴리오 증거를 통해 선택selection과 항해navigation를 촉진하는 방식으로 설계되는 것이 중요하다. 캡션도 중요하다. 왜냐하면 역량 피드백이 학생에게 제공된 컨텍스트를 요약하기 때문이다(Van Tartwijk and Driessen 2009). 맥락은 평가자가 증거를 해석하고 판단하기 위해 증거를 사용할지 여부와 방법을 결정하는 데 도움이 된다.

Furthermore, since assessors have different approaches to the selection and use of portfolio evidence, it is important that portfolios be designed in such a way that they facilitate the selection of and navigation through the portfolio evidence. Captions are important as well, for they summarize the context in which the competency feedback was provided to the student (Van Tartwijk and Driessen 2009), helping assessors interpret the evidence and decide if and how they want to use it for their judgment.


결론 Conclusion


평가자는 포트폴리오 증거만으로 판단을 내릴 수 있었다. 비록 그들은 같은 전반적인 판단에 도달했지만, 그들은 증거를 처리하는 방식과 그들의 판단 이면에 있는 추론에 있어서 차이를 보였다. 평가자의 다른 평가 신념, 수행 이론 및 일치된 행동을 하는 추론에서 차이가 발생한다. 이러한 결과는 포트폴리오가 그들의 판단을 철저히 입증해야 하는 복수의 평가자에 의해 판단되어야 한다는 개념을 뒷받침한다. 또한 평가자는 자신의 의사 결정 과정과 그룹 결정에 영향을 미치는 요인에 대한 통찰력을 제공하는 교육을 받아야 한다.

Assessors were able to form a judgment based on the portfolio evidence alone. Although they reached the same overall judgments, they differed in the way they processed the evidence and in the reasoning behind their judgments. Differences sprung from assessors’ divergent assessment beliefs, performance theories, and inferences acting in concert. These findings support the notion that portfolios should be judged by multiple assessors who should, moreover, thoroughly substantiate their judgments. Also, assessors should receive training that provides insight into factors influencing their own decision making process and group decisions.






. 2018 May;23(2):275-287.
 doi: 10.1007/s10459-017-9793-y. Epub 2017 Oct 14.

From aggregation to interpretation: how assessors judge complex data in a competency-based portfolio

Affiliations 

Affiliations

  • 1Department of Educational Development and Research, Maastricht University, Universiteitssingel 60, 6229 ER, Maastricht, The Netherlands. a.oudkerkpool@maastrichtuniversity.nl.
  • 2Department of Educational Development and Research, Maastricht University, Universiteitssingel 60, 6229 ER, Maastricht, The Netherlands.
  • 3Center for Education Development and Research in Health Professions (CEDAR), Faculty of Medical Sciences, University Medical Center Groningen, University of Groningen, Groningen, The Netherlands.
Free PMC article

Abstract

While portfolios are increasingly used to assess competence, the validity of such portfolio-based assessments has hitherto remained unconfirmed. The purpose of the present research is therefore to further our understanding of how assessors form judgments when interpreting the complex data included in a competency-based portfolio. Eighteen assessors appraised one of three competency-based mock portfolios while thinking aloud, before taking part in semi-structured interviews. A thematic analysis of the think-aloud protocols and interviews revealed that assessors reached judgments through a 3-phase cyclical cognitive process of acquiring, organizing, and integrating evidence. Upon conclusion of the first cycle, assessors reviewed the remaining portfolio evidence to look for confirming or disconfirming evidence. Assessors were inclined to stick to their initial judgments even when confronted with seemingly disconfirming evidence. Although assessors reached similar final (pass-fail) judgments of students' professional competence, they differed in their information-processing approaches and the reasoning behind their judgments. Differences sprung from assessors' divergent assessment beliefs, performance theories, and inferences about the student. Assessment beliefs refer to assessors' opinions about what kind of evidence gives the most valuable and trustworthy information about the student's competence, whereas assessors' performance theories concern their conceptualizations of what constitutes professional competence and competent performance. Even when using the same pieces of information, assessors furthermore differed with respect to inferences about the student as a person as well as a (future) professional. Our findings support the notion that assessors' reasoning in judgment and decision-making varies and is guided by their mental models of performance assessment, potentially impacting feedback and the credibility of decisions. Our findings also lend further credence to the assertion that portfolios should be judged by multiple assessors who should, moreover, thoroughly substantiate their judgments. Finally, it is suggested that portfolios be designed in such a way that they facilitate the selection of and navigation through the portfolio evidence.

Keywords: Assessment; Competency-based medical education; Information processing; Portfolio; Rater cognition; Think-aloud method; Undergraduate medical education.


내러티브 코멘트의 숨은 가치: 질적 자료의 양적 신뢰도 분석(Acad Med, 2017)

The Hidden Value of Narrative Comments for Assessment: A Quantitative Reliability Analysis of Qualitative Data

Shiphra Ginsburg, MD, MEd, PhD, Cees P.M. van der Vleuten, PhD, and Kevin W. Eva, PhD


전공의가 미리 결정된 마일스톤을 확실히 충족시키려면, (2) 타당한 판단과 의사결정을 뒷받침하기 위해 연습생별로 훨씬 더 많은 정보를 수집할 필요가 있다.3,4 이를 위해, 질적이고 주관적인 데이터5와 다수의 저부담 출처의 데이터를 aggregate하는 것의 가치가 점차 높아지고 있다.6 이러한 변화에 발맞춰 평가의 형식과 다양성이 확대되고 있지만, 전문직은 여전히 숫자 및 서술형 데이터를 포함하는 로테이션 종료시점 평가 양식(여기서 교육 내 평가 보고서 또는 ITER라고 함)에 크게 의존하고 있다. 이러한 형식의 문헌(및 사용)은 대부분 전적으로 숫자 데이터에 기초하지만 서술에는 큰 가치가 있을 수 있다.7–9

To ensure that residents meet predetermined milestones,2 it is necessary to collect much more information on each trainee to support valid judgment and decision making.3,4 To this end, increasing value is being placed on qualitative and subjective data5 and on the need to aggregate data from multiple, low-stakes sources.6 The format and variety of evaluations is expanding in step with these changes, but the profession generally still relies heavily on end-of- rotation assessment forms (herein called in-training evaluation reports, or ITERs) that contain numeric and narrative data. Most of the literature (and use) of forms of this type is based entirely on the numeric data, yet there may be great value in the narratives.7–9


평가 코멘트를 이용해 학습자나 실무자를 평가하는 효용성과 타당성에 대한 연구가 일부 진행돼 엇갈린 결과가 나오고 있다. 예를 들어, 몇몇 연구에서는 코멘트가 할당된 점수와 대체로 일치한다는 것을 밝혀냈으며, 수천 개의 코멘트(예: 의사 revalidation, 또는 레지던시12)를 읽는 것은 문제를 해결할 가치가 없을 수 있음을 시사했다. 반면에, 비협조적인nonconcordance 영역은 점수에서 달리 파악되지 않은 약점을 나타낼 수 있다. 따라서 흔히 "실패 실패failure to fail"로 표현되는 문제를 극복하는 데 도움이 되고, 그리고 코멘트는 학습자들에게 개선 방법에 대한 더 많은 지침을 제공한다.16,17 어떠한 방식으로 [추가적인 정보 획득]과 [(정보 획득의) 실현가능성을 유지하는 것] 사이의 형을 맞출 것인가가 공식적인 훈련 환경뿐만 아니라 훈련과 연습의 연속에서 보건 전문가들이 다루어야 할 중요한 과제다.

Some research has been conducted on the utility and feasibility of using assessment comments to evaluate learners or practitioners, yielding mixed results. For example, several studies have found that comments are usually concordant with scores assigned, suggesting that reading thousands of comments (e.g., for physician revalidation11 or residency12) may not be worth the trouble. On the other hand, areas of nonconcordance can illustrate weaknesses not otherwise picked up by the scores,7,13 thereby helping to overcome the well-described phenomenon of “failure to fail,”14,15 and comments provide learners with more guidance regarding how to improve.16,17 Determining how to balance these competing issues of gaining additional information and maintaining feasibility is an important challenge for the health professions to address, not only in formal training environments but across the continuum of training and practice.


따라서, 신뢰성이 높게 관찰되는 것은, [(모든 평가 프로세스에서 가용한 데이터의 양이 늘어남에 따라서 일반적으로 신뢰도가 높아진다고 볼 수 있기에) 누적된 코멘트의 양]과 [특정 훈련 프로그램 내에서 평가 문화에 대한 교수진의 인식]과 관련이 있을 수 있다. 

The high reliability observed, therefore, may be related to the volume of comments amassed (given that reliability can generally be expected to increase with the amount of data available in any assessment process) and to the faculty’s awareness of the culture of assessment within the particular training program studied.


이 연구의 전반적인 목표는 평가에서 서술적 데이터의 사용에 관한 타당성 주장validity argument에 기여하는 것이었다. 현재 타당도 모델에서, 신뢰성은 타당도의 중요한 측면으로 간주되며, 주어진 모집단의 특정 목적에 평가 점수가 적합한지 여부에 대한 논쟁을 형성하는 데 도움이 된다. 20,21 본 연구는 다양한 양의 논평이 주어진 거주자가 순위를 매길 수 있는 신뢰성에 초점을 맞춘다.그들의 연기에 도전하다

The overall goal of this study was to contribute to the validity argument regarding the use of narrative data in assessment. Under current models of validity, reliability is considered to be an important aspect of validity, helpful for building an argument regarding whether or not assessment scores are fit for a given purpose with a given population.20,21 Our study focuses on the reliability with which residents can be rank-ordered given variable amounts of commentary about their performance.


방법 Method


세팅 Setting


각 전공의는 1개월의 임상 순환이 끝날 때마다 1개의 ITER를 받으며, 이 중 93% 이상이 서면 의견을 포함하고 있다. 우리의 ITER에는 18개의 항목이 포함되어 있는데, 각 항목은 1에서 5까지의 척도로 평가되고, 그 다음에 전체 등급과 의견을 입력할 수 있는 단일 자유 텍스트 상자가 뒤따른다. 교수들에게 보내는 지침서는 다음과 같다: "일반적인 능력, 동기부여, 그리고 컨설턴트 기술을 포함하여, 이 로테이션 동안 연습생의 발전에 대한 일반적인 인상을 제공하라. 강점과 개선이 필요한 분야를 강조해 달라."

Each resident receives one ITER at the end of each one-month clinical rotation, over 93% of which contain written comments. Our ITERs contain 18 items, each rated on a scale from 1 to 5 followed by an overall rating and a single free-text box in which to enter comments. The instructions to faculty state: “Provide a general impression of the trainee’s development during this rotation, including general competence, motivation, and consultant skills. Please emphasize strengths and areas that require improvement.”


1년 동안 [코멘트가 담긴 ITER 8개 이상]을 받은 레지던트를 포함했는데, 이 중 3개는 처음 4개월간의 교육에서 나와야 했다. 우리는 ITER의 이 숫자에 걸쳐 집계된 ITER 점수의 허용 가능한 신뢰도를 보여주는 연구에 기초하여 8을 선택했다.7,22,23 우리는 다음과 같은 의견 집합을 만들 수 있도록 이러한 기준을 만족하는 각 코호트에서 무작위로 48명의 레지던트를 선택했다. 전공의 1인당 4회씩 포함시켜 4세트에 걸쳐 4명의 참가자가 순위를 매길 수 있도록 했으며, 이는 192건의 문서에 해당하며, 각각의 문서는 특정 전공의에 대한 1년 치 의견을 담고 있다. 이전의 연구를 바탕으로, 7 우리는 [교수는 16명의 전공의의 의견을 합리적인 시간 내에 읽고 순위를 매길 수 있다]고 판단하여, 12 세트의 16명의 전공의 코멘트를 정리했다.

We included residents who had received 8 or more ITERs containing comments over the course of one year, 3 of which had to come from the first 4 months of training. We chose 8 based on studies showing acceptable reliability of ITER scores aggregated across this number of ITERs.7,22,23 We randomly selected 48 residents from each cohort who met these criteria so that we could create sets of comments as follows. Each resident was included 4 times, so that they appeared in 4 different sets and could be ranked by 4 different participants; this resulted in 192 documents, with each document containing a year’s worth of comments from a given resident. On the basis of previous research,7 we determined that faculty could read and rank-order comments from 16 residents in a reasonable time frame; thus, 12 sets of 16 residents’ comments were compiled.



참여자 Participants


연구 설계는 그림 1에 나와 있다. 각 동의하는 교수진에게 다음과 같은 두 가지 데이터 세트가 포함된 패키지가 발송되었다. 한 세트는 두 코호트 중 한 곳에 있는 15~16명의 전공의에 대한 연간 전체 코멘트를 포함했고, 다른 세트는 다른 코호트와 다른 15~16명의 전공의에 대한 올해 첫 3개의 코멘트 상자를 포함했다.

The study design is shown in Figure 1. Each consenting faculty member was sent a package containing two sets of data: One set contained the entire year’s worth of comments for 15 to 16 residents in one of the two cohorts; the other set contained the first three comment boxes of the year from 15 to 16 different residents from the other cohort.



프로토콜 Protocol


훈련된 연구 보조원(RA)이 각 참가자와 스카이프를 통해 대면 회의를 진행했다. 참가자들에게 15~16개의 문서를 모두 읽고 사전 연구 중에 도출된 범주로 분류하도록 했다(

    • A = 우수, 우수, 모범, 

    • B = 견고, 안전, 약간의 미세한 조정이 필요할 수 있음, 

    • C = 경계선, 맨 최소, 교정 가능, 

    • D = 안전하지 않음, 다중 결손).24 

그 후 각 부문별로 주민 순위를 매겨 최종 순위 1~15/16이 나왔다.

A trained research assistant (RA) conducted a face-to-face meeting over Skype with each participant. Beginning with the set of full-year comments, participants were asked to read all 15 to 16 documents and sort them into categories derived during prior research (

    • A = outstanding, excellent, exemplary; 

    • B = solid, safe, may need some fine tuning; 

    • C = borderline, bare minimum, remediable; 

    • D = unsafe, unacceptable, multiple deficits).24 

Afterwards, they were asked to rank-order the residents within each category, resulting in a final ranking of 1 to 15/16.


이 과제를 수행한 후, 그들은 의사결정 과정을 탐색하기 위해 RA에 의해 인터뷰되었다. 이어 두 번째 서류 세트를 이용해 과제를 반복했는데, 여기에는 레지던트들이 올해 처음 3차례 평가한 것과 다른 주민들의 의견이 담겨 있었다. 전체 연도 및 부분 연도 작업에 필요한 시간은 각각 RA가 기록한 약 45분과 15~20분~20분이었다.

After this task, they were interviewed by the RA to explore their decision-making process. They then repeated the task using a second set of documents, which contained a different set of residents’ comments from the residents’ first three assessments of the year. Time required for the full-year and part-year tasks was approximately 45 and 15–20 minutes, respectively, as recorded by the RA.


분석 Analysis


ITER 코멘트를 바탕으로 판단 생성의 효과를 분석하기 위해 24명의 교수진 참가자 모두의 순위 데이터를 엑셀에 입력하여 정확성을 검증했다. [레지던트 내 랭커가 중첩된 일반화 이론]을 사용하여 레지던트 순위의 신뢰성을 평가하였다. G_string은 스터디 설계가 불균형할 때 분석을 가능하게 하기 때문에 사용되었다(대부분의 PGY-1에는 랭커가 4개 있었지만, 일부는 한 레지던트의 데이터를 실수로 잘못 부호화하여 3개가 있었고, 두 개의 패키지가 각각 한 레지던트에 대한 코멘트가 누락되었기 때문에 사용).

To analyze the effectiveness of generating judgments based on ITER comments, rank-order data from all 24 faculty participants were entered into Excel and verified for accuracy. We assessed the reliability of resident rankings using generalizability theory, with ranker nested within resident. G_string was used because it enables analysis when the study design is unbalanced (while most PGY-1s had four rankers, some had three because of inadvertent miscoding of one resident’s data and because two packages were each missing comments for one resident).


결과 Results


2011년 코호트 출신 주민 48명은 평균 3.97명의 교직원이 순위를 매겼고, 2010년 코호트 출신 주민 46명은 평균 3.94명의 교직원이 순위를 매겼다.

The 48 residents from the 2011 cohort were rank-ordered by an average of 3.97 faculty, and the 46 residents from the 2010 cohort were rank-ordered by an average of 3.94 faculty.


교수 랭커 수가 증가하는 것이 순위의 신뢰성에 미치는 영향을 요약한 의사결정 연구는 표 1에 설명되어 있다.

A decision study outlining the influence of increasing the number of faculty rankers on the reliability of the rankings is illustrated in Table 1.



[처음 세 가지 평가에 근거한 순위] 및 [전체 연도에 근거한 순위] 간의 스피어맨 상관 관계는 각 코호트에 대해 계산되었으며, 각각 r = 0.66과 0.63으로 확인되었으며, 둘 다 P < 0.01로 유의했다. 이러한 상관관계는 ITER 점수 자체에 대해 계산된 유사한 집합과 비교할 수 있는데, 이 집합은 각각 r = 0.76과 0.63으로 확인되었으며, 다시 P < 0.01로 유의미하다.

Spearman correlations between rankings based on the first three assessments and based on the full year were calculated for each cohort and were found to be r = 0.66 and 0.63, respectively, both significant with P < .01. These correlations are comparable to a similar set calculated on the ITER scores themselves, which were found to be r = 0.76 and 0.63, respectively, again both significant with P < .01.


고찰 Discussion


우리의 연구 결과는 서술적 코멘트만을 가지고 레지던트를 평가하는 수단으로 사용하는 것이 매우 신뢰할 수 있다는 것을 보여준다. 이러한 높은 신뢰성은 그해 처음 3개의 코멘트가 포함된 ITER만 고려했을 때에도 유지되었다(표 1 참조). 연구된 두 코호트에서, 거주자 순위 변동의 85% - 91%는 4명의 랭커에 걸친 평균 순위를 고려할 때 레지던트(즉, 측정에서 "시그널")에게 귀속되었다. 또한, 최초 3개 ITER로부터 얻은 레지던트 순위는 데이터의 전체 연도를 기준으로 한 순위와 높은 상관관계가 있었다.

Our findings reveal that using narrative comments alone as a means of assessing residents can be extremely reliable. This high reliability was maintained even when we considered only the first three comment-containing ITERs of the year (see Table 1). In both cohorts studied, 85% to 91% of the variance in resident ranking was attributable to the resident (i.e., the “signal” in the measurement) when the average ranking across four rankers was considered. Further, residents’ rankings from the first three ITERs were highly correlated with their rankings based on the full year of data


표 1은 또한 3회 로테이션에 근거하여, 2명의 교수진가 레지던트의 순위를 매기는 경우에도 0.75 - 0.80의 신뢰성을 달성할 수 있음을 보여준다. 이러한 수치는 고부담 평가에서 수용할 수 있는 범위 내에 있다. 이는 [두 명의 교수가 연초에 레지던트의 평가 의견을 읽도록 하는 간단한 개입]조차도 매우 유익한 방법이 될 수 있으며 이른 시기에 추가 교육 지원이 필요한 레지던트를 식별할 수 있을 것이라고 제안한다.17

Table 1 also illustrates that a reliability of 0.75 to 0.80 can be achieved with only two faculty members ranking residents based on three rotations’ worth of comments. Such numbers are within the range of acceptability for even high-stakes assessments,25 suggesting that a simple intervention—having two faculty read residents’ evaluation comments early in the year—can be a very fruitful enterprise and may enable the identification of residents requiring additional educational supports at an early time point.17


본 연구의 독특한 특징은 이전 연구와 달리 교수진 참여자들이 우리의 교육 프로그램에 포함되어 있지 않으며external to program, IM 평가에서 경험이 있지만 ITER 코멘트를 평가하는 훈련을 받지 않았다는 것이다. 이전의 연구에서는 ITER가 평가되고 있는 레지던트와 동일한 프로그램에 속해있는 교직원이 "행간 읽기"에 능통하여, [모호하고 특수성이 결여된 것으로 보일 수 있는 평가 의견]도 해독해내는 것으로 밝혀졌다.18,26 외부의, 교육받지 않은 교수조차 행간 읽기 능력이 있는 것으로 보인다는 사실은 IM 교수진이 거주자에 대한 내러티브를 쓰고 이해하는 방법에 어느 정도의 보편성이 있다는 것을 쉽게 암시한다. 이는 적어도 단일 국가 내에서 IM의 PGY-1에 대해 어떤 성능을 보여야 하는지에 대한 교수진의 공통된 이해가 있음을 시사한다.

Unlike previous work, a unique feature of this study is that the faculty participants were external to our training program and were not trained in assessing ITER comments, although they were experienced in IM assessment. Previous research found that faculty belonging to the same program as the residents whose ITERs were being assessed were adept at “reading between the lines” to decode assessment comments that could often appear to be vague and lacking in specificity.18,26 The fact that external, untrained faculty appear capable of reading between the lines just as readily implies that there is a degree of universality to how IM faculty write and understand narratives about their residents. This further suggests that there is a shared understanding on the part of faculty of what performance should look like for PGY-1s in IM, at least within a single country.


우리의 발견은 다른 맥락에서 복제가 필요하지만, 우리의 코멘트가 수집이 쉬웠고, 상당히 간략하며, 어텐딩의 부분에 대한 특별한 교육이 포함되지 않았다는 현실은 수많은 잠재적인 응용 프로그램을 쉽게 상상할 수 있게 한다.

our findings would require replication in different contexts, but the reality that our comments were easily collected, fairly brief, and involved no special training on the part of the attendings makes it easy to envision numerous potential applications.


우리의 연구 결과를 해석할 때 몇 가지 한계를 명심해야 한다. 비록 코멘트의 범위와 성격에 관한 특정 평가 문화를 가질 수 있지만 하나의 대형 IM 프로그램으로부터 모든 평가 코멘트가 나왔고, 우리의 참여자들은 ITER에 2년 정도의 경험이 필요했기 때문에 다른 프로그램에서 우리의 작업의 복제 가능성은 제한적일 수 있다. 이러한 잠재력은 주어진 프로그램에서 다수의 레지던트 평가 코멘트를 읽으면 독자들이 해당 프로그램 내에서 "일반적인" 언어 사용이 무엇인지 알 수 있고 그에 따라 순위를 조정할 수 있다는 점에서 우리의 참여자들이 "행 사이를 읽을" 수 있게 한 메커니즘에 대한 대체 설명을 증가시킨다. 우리는 이 설명의 가능성이 낮다고 생각한다. 왜냐하면 주치의 사이의 작문 방식과 내용에서 현저한 차이가 "일반적인" 언어 사용의 개념에 반대한다고 주장하기 때문이다.26

Several limitations should be kept in mind when interpreting our findings. The replicability of our work in other programs may be limited as all of our assessment comments came from a single, albeit large IM program that might have a specific culture of assessment regarding the extent and nature of comments and because our participants were required to have two years’ worth of experience with ITERs. This potential raises an alternative explanation of the mechanisms that enabled our participants to “read between the lines” in that perhaps reading multiple resident assessment comments from a given program can allow readers to learn what “typical” language use is within that program, thereby allowing them to calibrate their rankings accordingly. We think this explanation is less likely, as the marked differences in writing style and content noted between attending physicians argue against the notion of “typical” language use.26


결론 Conclusions


서술형 코멘트를 의료교육에서 일상적 평가의 일부로 편입하는 것은 이미 이뤄졌어야만 한다30 우리의 연구는 [소수의 내러티브 보고서가 수집된 후, 이를 전공의의 변별력있게 평가하는 방법으로 신뢰성 있게 사용될 수 있다는 것]을 입증함으로써 내러티브21의 유용성에 대한 타당성 증거를 증가시키고 있다.

The incorporation of narrative comments as a routine part of assessment in medical education is overdue.30 Our study adds to the growing validity evidence for the utility of narratives21 by demonstrating that they can be reliably used as a way to discriminate between residents after a small number of reports are collected.


중요한 것은, 이러한 발견이 증가하는 문헌 7,21,32에 ITER가 내과IM에서 평가에 대해 "무용하다"는 일반적인 의견을 불식시키는 데 도움이 되어야 하며, 이것은 풍부하고 의미 있는 코멘트를 작성하는 것의 중요성을 더욱 강화시킬 수 있을 것이다.

Importantly, these findings add to a growing literature7,21,32 that should help to dispel the common opinion that ITERs are “useless” for assessment in IM, which might further reinforce the importance of writing rich and meaningful comments.








. 2017 Nov;92(11):1617-1621.
 doi: 10.1097/ACM.0000000000001669.

The Hidden Value of Narrative Comments for Assessment: A Quantitative Reliability Analysis of Qualitative Data

Affiliations 

Affiliation

  • 1S. Ginsburg is professor, Department of Medicine, and scientist, Wilson Centre for Research in Education, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada. C.P.M. van der Vleuten is professor of education, Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, the Netherlands. K.W. Eva is associate director and senior scientist, Centre for Health Education Scholarship, and professor and director of educational research and scholarship, Faculty of Medicine, University of British Columbia, Vancouver, British Columbia, Canada.

Abstract

Purpose: In-training evaluation reports (ITERs) are ubiquitous in internal medicine (IM) residency. Written comments can provide a rich data source, yet are often overlooked. This study determined the reliability of using variable amounts of commentary to discriminate between residents.

Method: ITER comments from two cohorts of PGY-1s in IM at the University of Toronto (graduating 2010 and 2011; n = 46-48) were put into sets containing 15 to 16 residents. Parallel sets were created: one with comments from the full year and one with comments from only the first three assessments. Each set was rank-ordered by four internists external to the program between April 2014 and May 2015 (n = 24). Generalizability analyses and a decision study were performed.

Results: For the full year of comments, reliability coefficients averaged across four rankers were G = 0.85 and G = 0.91 for the two cohorts. For a single ranker, G = 0.60 and G = 0.73. Using only the first three assessments, reliabilities remained high at G = 0.66 and G = 0.60 for a single ranker. In a decision study, if two internists ranked the first three assessments, reliability would be G = 0.80 and G = 0.75 for the two cohorts.

Conclusions: Using written comments to discriminate between residents can be extremely reliable even after only several reports are collected. This suggests a way to identify residents early on who may require attention. These findings contribute evidence to support the validity argument for using qualitative data for assessment.


운전 연습 또는 운전 시험? 피드백을 평가와 구분하기 위한 비유(Perspect Med Educ, 2020)

Driving lesson or driving test? A metaphor to help faculty separate feedback from assessment

Paul L. P. Brand · A. Debbie C. Jaarsma · Cees P. M. van der Vleuten





임상 교육에 대한 피드백: 중요하지만 아직 덜 사용됨

Feedback in clinical education: important, but still underused


피드백은 임상 의학에서 직장 기반 학습을 지원하는 핵심 도구다[1–3]. 의료교육의 모든 단계에서 학습자가 환자와의 만남에서 경험적 학습 기회를 최대한 활용할 수 있도록 돕는다 [4, 5].

Feedback is a key tool to support workplace-based learning in clinical medicine [1–3]. It helps learners at all stages of medical education to make the most of the experiential learning opportunities in encounters with patients [4, 5].


상자 1 주행 테스트 은유—첫 번째 저자의 개인적 설명

Box 1 The driving test metaphor—a personal account of the first author


운전 면허시험이 있던 날, 수년 전, 나는 꽤 긴장하고 있었다. 단호하지만 친근한 운전 강사의 연이은 레슨을 받고 나니 시험에 필요한 모든 기동을 할 수 있다는 자신감이 생겼다. 그러나 나의 운전면허시험은 대학도시에서 러시아워에 예정되어 있었는데, 그 많은 자전거 운전자들이 모든 교통신호를 무시하고 눈에 보이는 신호를 무시하고 시내 자동차와 트럭 교통의 복잡성을 가중시켰다. 주행 테스트 도중 다른 도로 이용자들의 불규칙한 행동에 대응해 두 차례에 걸쳐 급브레이크를 밟아야 했다. 45분 동안 운전과 주차/회전 절차를 거친 후, 심사관은 내가 시험에 합격했다고 말했고, 그것은 분명히 나를 기쁘고 자랑스럽게 만들었다. 그러나 그는 아슬아슬한 상황이었다고 덧붙였다. "두 번 째, 나는 거의 비상 브레이크를 밟을 뻔 했다"고 그는 말했다. "그리고 내가 그렇게 해야 했다면, 너는 시험에 떨어졌을 것이라는 것을 알고 있다." 물론, 난 고개를 끄덕였어. 이어 "내가 너라면 운전 강습을 좀 더 받아 번잡한 교차로에 대한 너의 접근법을 연구하겠다. 교통이 혼잡할 때 속도와 안전 사이의 균형을 더 잘 맞춰라." 나는 잠시 혼란스러웠다. 여기서 나한테 무슨 말을 하려던 걸까? 내 운전이 충분하지 않았던가? 그가 정말 그렇게 생각했다면, 그는 나를 실망시켰어야 했다. 하지만 그는 그러지 않았다. 나는 확실히 하기 위해 다시 확인했고 그는 내가 시험에 합격했다는 것을 확인했다. 그래서 나는 "오늘 내 운전이 시험에 합격할 수 있을 만큼 좋다면 충고를 잘 지키면서 어디든 붙이면 되겠다"고 생각했다. 며칠 뒤 운전면허를 챙기고 면허를 받은 운전자로 독립적 연습을 시작했는데, 시간이 지날수록 연습과 노출이 늘어나면서 점점 좋아진 것 같다(생각한다. 몇 년 후에야 나는 무슨 일이 일어났는지 깨달았다. 심사관은 평가와 피드백을 혼동했다. 결과적으로, 그의 피드백은 효과가 없었다.

On the day of my driving test, many years ago, I was feeling pretty nervous. After a series of lessons by a firm but friendly driving instructor, I was confident I could do all the manoeuvres required for the exam. My driving test, however, was scheduled during rush hour in a university city, with its masses of cyclists ignoring every traffic light and sign in sight, adding to the complexity of inner-city car and truck traffic. During the driving test, I had to brake suddenly on two occasions in response to other road users’ erratic behaviour. After the required 45min of driving and parking/turning procedures, the examiner told me I had passed the test, which—obviously—made me happy and proud. He added, however, that it had been a close call. “Twice, I almost hit the emergency brake”, he said. “And you know that if I had had to do that, you would have failed the test”. Sure, I nodded, I know that. Then, he added, “If I were you, I’d take some more driving lessons to work on your approach to busy intersections. Strike a better balance between speed and safety in busy traffic”. I was confused for a moment. What did he mean to tell me here? Was my driving not good enough? If he really thought that, he should have failed me. But he didn’t. I double-checked to be sure and he confirmed that I had passed the test. So I thought, “If my driving today was good enough to pass the test, you can keep your advice and stick it, well, anywhere”. I collected my driving licence a few days later, started independent practice as a licensed driver, and got better and better over time (I think), with increasing practice and exposure. Only many years later did I realise what had happened. The examiner had confused assessment and feedback. As a result, his feedback was ineffective.


유용성과 최적의 피드백 제공에 대한 이해의 진보에도 불구하고, 의료 학습자들은 임상 배치 중에 제한된 양의 피드백을 계속 경험하고, 너무 일반적이거나 범위가 제한되어 도움이 되지 않는 피드백을 받고, 피드백 역량이 부족한 교수를 자주 겪는다 [1, 5, 8, 1].2, 13] 최근의 관찰에 따르면 역량 기반 의료 교육은 학습자의 성장을 지원하기 위한 피드백과 프로그램의 핵심 역량 획득을 평가하는 데 필요한 공식적인 평가 절차 사이에 긴장을 조성한다[13, 14]. 학습자들은 임상 기술의 직접 관찰과 같은 학습 활동을, 미래에 대한 유의미한 결과를 가져오는 고부담 평가[14–17]로 인식하여, 직접적인 관찰[18–20]과 관련된 피드백 기회를 회피하고, 따라서 잠재적으로 매우 유용한 피드백을 잃는 경향이 있다. 또한 인식된 시간 제약으로 인해 감독관은 관련 임상 기술을 수행하는 데 있어 학습자의 직접적인 관찰을 피하거나 회피하게 되며 [21], 이는 레지던트의 피드백-탐색 행동을 더욱 손상시킨다[18–20].

Despite these advancements in our understanding of the usefulness and the optimal provision of feedback, medical learners continue to experience a limited amount of feedback during their clinical placements, receive feedback that is too general or limited in scope to be helpful, and engage with faculty deficient in feedback competencies [1, 5, 8, 12, 13]. Recent observations suggest that competency-based medical education creates tension between feedback intended to support a learner’s growth and the formal assessment procedures needed to assess the acquisition of the core competencies of the programme [13, 14]. Learners tend to perceive learning activities like direct observation of clinical skills as high-stakes evaluations with significant consequences for their future [14–17], prompting them to avoid feedback opportunities associated with direct observations [18–20], and hence missing out on the potentially very useful feedback associated with it. In addition, perceived time constraints prompt supervisors to avoid or opt out of directly observing their learners in performing relevant clinical skills [21], which further compromises the resident feedback-seeking behaviour [18–20].


일견 이것은 학습자들의 행동의 문제로 보인다. 따라서, 학습자를 대상으로 피드백을 추구하는 행동을 설명하고 수정하려고 시도함으로써 이 문제를 해결하려고 시도하는 것이 유혹적일 것이다 [22]. 그러나, 우리는 감독자와 학습자가 각각의 상호 작용의 목적을 명확하게 상호 이해하도록 하는 것이 임상 감독자의 책임이라고 주장한다.

At first sight, this appears to be a problemof learners’ behaviour. Thus, it would be tempting to try and tackle this problem by targeting the learners, by addressing and trying to modify their feedback-seeking behaviour [22]. however, we argue that it is the clinical supervisors’ responsibility to ensure that supervisors and learners achieve a clear mutual understanding of the purpose of each of their interactions.


고득점 평가 시 심사원의 책임

Responsibility of examiners in high-stakes assessments


운전자로서 후보자의 능력을 평가하는 운전 심사관의 업무(상자 1)는 중요한 책임이다.

The driving examiner’s task of assessing a candidate’s competence as a driver (Box 1)is an important responsibility:


운전면허 시험이나 의사면허 시험과 같은 시험은 앞서 일어났던 학습에 대한 고부담 총괄 평가다. 중등학교나 대학 교육 시스템과 마찬가지로 의료 교육 문화는 총괄 평가 패러다임에 의해 지배되고 있다[28, 29]. 이는 총괄 평가가 학습을 주도한다는 전제 하에 구축된다[25, 30]. 감독관들은 안전하지 않은 학습자들이 의사 자격을 갖추지 못하도록 막아야 할 강한 책임을 느낀다.

Exams like a driving test or a licensing exam are high-stakes summative assessments of the learning that has taken place earlier. Like the secondary school and university education systems, the medical education culture is dominated by the primacy of the summative assessment paradigm [28, 29], which builds on the premise that (summative) assessment drives learning [25, 30]. Supervisors feel a strong responsibility to prevent unsafe learners qualifying as licensed doctors.


감독관과 학습자가 평가와 피드백을 혼동하면 어떻게 되는가?

What happens if supervisors and learners mix up assessment and feedback?


첫 번째 저자의 경험은 감독관(그리고 그 결과 학습자)이 피드백과 종합 평가를 혼동하면 어떤 일이 일어나는지 보여준다. 운전 시험과 같이 고부담 시험에서는 대부분의 학습자가 피드백을 수용하지 않는다[9, 31, 32]. 그들은 시험 모드에 있다: 그들이 원하는 것은 시험에 합격하고 그들이 잘했다는 긍정적인 피드백을 받는 것이다.

The first author’s experience illustrates what happens if supervisors (and, as a consequence, their learners) mix up feedback and summative assessment. At a high-stakes exam like the driving test, most learners are not receptive to feedback [9, 31, 32]. They are in exam mode: all they want to do is pass the test and receive the positive feedback that they did a good job.


직장에 기초한 평가를 미래에 심각한 결과를 초래할 가능성이 있는 고부담 시험으로 인식하는 거주자는 자신과 관련된 피드백을 무시하거나 폐기하는 경향이 있다[16, 33]. 그들은 긍정적인 피드백만을 추구하는 "게임"을 한다[13, 31, 34].

Residents who perceive workplace-based assessments as high-stakes exams with potentially serious consequences for their future tend to ignore or discard the feedback associated with them [16, 33]. They “play the game” of seeking only positive feedback (i.e. only ask for feedback on a task or procedure they think they did well) [13, 31, 34].


전공의들은 역량있는 이미지를 보여주기 위해 이것과 다른 인상 관리 전략을 사용한다[13, 25, 35]. 그들은 임상 기술에 대한 직접관찰을 능력의 "교과서적" 예를 증명할 것으로 기대되는 "수행능력의 무대staging a performance"로 본다[13, 15]. 이러한 모든 것들이, [WBA]를 많은 학습자가 하는, 고부담 시험으로 보게 되어, 학습자를 피드백에 비-수용적으로 만든다는 것을 보여준다. 시험 모드에서는 그냥 공연하고, 멋있게 보이고, 시험에 합격하고 싶어. 첫 번째 작가가 운전면허 시험에서 했던 것처럼 말이다.

Residents employ this and other impression management strategies to portray an image of competence [13, 25, 35]. They view direct observations of clinical skills as “staging a performance” in which they are expected to demonstrate a “textbook” example of competence [13, 15]. All these observations showthat viewing a workplace-based assessment as a test, as a high-stakes exam, which many learners do, renders the learner unreceptive to feedback. In exam mode, we just want to perform, look good, and pass the test. Like the first author did at his driving test.


만약 우리가 운전 수업처럼 직장에 기반을 둔 학습에서 피드백을 접근한다면 어떨까?

What if we approached feedback in workplacebased learning like a driving lesson?


반대로, 사람들은 운전 수업 중에 피드백에 매우 수용적인 경향이 있다. 다른 코칭 관계에서와 마찬가지로, 운전 교습 중 실패는 학습의 촉매제로 채택된다[36]. 운전 교습 중 대부분의 응시자들은 운전 강사의 피드백을 듣고 싶어하는데, 이는 운전 실력을 향상시키는 데 도움이 되기 때문이다. 그들은 학습 모드에 있다.

Conversely, people tend to be very receptive to feedback during driving lessons. Like in other coaching relationships, failures during driving lessons are embraced as catalysts for learning [36]. During driving lessons, most candidates are eager to hear their driving instructor’s feedback, because it helps them to improve their driving skills. They are in learning mode.


학습 모드에 있는 것은 사람들이 주어진 피드백을 자신의 성과를 향상시키고, 발전시키고, 성장시키는 데 도움을 준다[37]. 임상 기술 향상을 목표로 하는 반복적인 코칭으로 프레임을 씌운 피드백은 피드백의 수용과 그에 따른 행동을 촉진한다[36, 38]. 피드백을 대화로 설계하면 학습자가 자신의 장단점을 소유할 수 있는 기회를 얻을 수 있다[8].

Being in learning mode helps people to use the feedback given to improve their performance, develop and grow[37]. Feedback framed as repeated coaching over time aimed at improving clinical skills promotes the acceptance of feedback and acting upon it [36, 38]. Designing feedback as a dialogue gives learners the opportunity to take ownership of their strengths and weaknesses [8].


은유의 유용성

Usefulness of the metaphor

운전 시험의 아름다움—운전 수업 은유법은 그것의 인식 정도에 있다. 우리의 교수진 개발 세션 경험에서, 드라이빙 레슨 은유법 운전교사는 학습자가 시험 모드일 때 피드백을 받아들이기 어려운 점, 학습 모드에 있을 때 피드백에 대한 학습자의 수용성을 높이는데 도움을 준다. 간단한 은유는 의사를 혼란스럽게 하고 성가시게 할 수 있는 복잡한 교육 용어에 의존할 필요 없이 시험과 학습 모드(또는 수행과 학습 목표 지향 사이의)의 주요 차이를 보여준다[40].

The beauty of the driving test—driving lesson metaphor lies in its degree of recognition. In our experience in faculty development sessions, the driving test—driving lesson metaphor helps clinical teachers to appreciate the learners’ difficulty in accepting feedback when they are in exam mode, and the learners’ receptivity to feedback when they are in learning mode. The simple metaphor illustrates the key difference between exam and learning mode (or between performance and learning goal orientation) without having to resort to complex educational jargon that may confuse and irritate physicians [40].


감독자(운전 강사와 같은)가 학습자가 자신을 신뢰할 수 있도록 지원하는 데 성공한다면, 이는 학습자의 피드백을 수용하고 학습하려는 의지를 증가시킬 것이다 [9, 13, 37, 41].

If a supervisor (like a driving instructor) succeeds in supporting the learner to trust him(or her), this will increase the learner’s willingness to accept the feedback and learn [9, 13, 37, 41].


프로그램 평가의 이중 역할

The dual role of programmatic assessment


직장 기반 학습에서 어떤 하나의 시험도 역량을 온전히 신뢰할 수 있는 수준으로 평가하지 못한다는 점에 착안하여, 각 개별 평가의 한계를 완화하는 [다양한 평가 방법의 의도적인 프로그램]을 설명하기 위해 "프로그램적 평가"라는 용어를 만들었다[42]. 이 모델은 교육 연구[29]에서 광범위한 지원을 받았으나, 역량 기반 의료 교육 실무에서의 구현은 여전히 도전적이다[13, 14, 30]. 핵심 난이도는 학습과 의사결정 기능 모두를 제공하는 프로그램적 평가의 이중 역할을 계속한다[29].

Appreciating that there is no single reliable test to assess competence in workplace-based learning, the term “programmatic assessment” was coined to describe a deliberate programme of different assessment methods, which alleviates the limitations of each individual assessment [42]. Although this model has received widespread support in educational research [29], its implementation in competency-based medical education practice remains challenging [13, 14, 30]. A key difficulty remains the dual role of programmatic assessment, serving both learning and decision-making functions [29].


대부분의 임상 감독자는 그러한 전반적인 역량 판단에 복수의 출처와 감독자의 정보가 필요하다는 것을 깨닫는다[43]. 그들은 학생이나 거주자와 마주치는 각각의 감독이 단지 스냅숏 인상에 불과하며, 이는 학습자의 전반적인 역량을 반드시 반영하는 것은 아니라는 것을 이해한다[29]. 그러나, 총괄 평가 패러다임이 의학 교육 연속 전반에 걸쳐 만연해 있기 때문에, [공식적인 평가]가 [학습자의 성장을 촉진하기 위한 피드백]을 오염시키는 것을 제거하기가 어렵다[13].

Most clinical supervisors realise that such an overall judgement of competence requires information from multiple sources and supervisors [43]. They understand that each supervision encounter with a student or resident is just a snapshot impression, which does not necessarily reflect the learner’s overall competence [29]. However, the pervading primacy of the summative assessment paradigm throughout the medical education continuum makes it difficult to remove formal assessment contamination from feedback aimed at promoting the learner’s growth [13].


드라이빙 레슨-드라이브 테스트 은유법은 임상 감독자들이 프로그램적 평가의 이중 기능을 더 이해할 수 있도록 한다. 각 주행 강습은 주행 능력 향상을 위해 응시자를 코칭하는 데 사용되지만, 주행 강사가 응시자가 주행 테스트에 등록할 준비가 된 시점을 결정한다. 이때 운전교사는 후보자가 충분히 유능한 운전사라는 자신감을 표출한다.

The driving lesson—driving test metaphor makes the dual function of programmatic assessment more understandable to clinical supervisors. Although each driving lesson is used to coach candidates towards increasing driving competence, the driving instructor decides the moment at which the candidate is ready to enrol for the driving test. At that point in time, the driving instructor expresses the confidence that the candidate is a sufficiently competent driver.



은유의 한계

Limitations of the metaphor


운전 수업의 한계—운전 시험 은유법을 고려해야 한다. 첫째, [국가]와 [프로그램]은 의사 또는 의료 전문가로서의 역량에 대한 고부담 총괄 평가에 대한 접근방식이 다르다. 어떤 사람들은 프로그램이나 커리큘럼이 끝날 때 정식 면허시험을 적용하여 지식과 임상 기술을 모두 평가하는데, 이는 운전 이론과 실습 시험과 쉽게 비교될 수 있다. 네덜란드와 같은 다른 나라들은 프로그램 감독이나 감독팀의 전반적인 판단을 역량의 최종적인 요약 평가로 사용한다. 비록 이것이 운전 시험과 직접적인 비교는 되지 않지만, 운전 시험인 운전 수업 은유는 감독관과 주민들이 평가와 피드백을 혼동하는 경향이 있다는 것과 왜 이것이 바람직하지 않은지를 깨닫는데 도움을 준다.

The limitations of the driving lesson—driving test metaphor need to be taken into account. First, countries and programmes differ in their approach to high-stakes summative assessment of competence as a doctor or medical specialist. Some apply formal licensing exams at the end of a programme or curriculum, assessing both knowledge and clinical skills, which are easily comparable to driving theory and practice tests. Others, like the Netherlands, use the overall judgement of the programme director or supervisory team as the final high-stakes summative assessment of competence. Although this is less directly comparable to a driving test, it is our experience in faculty development sessions that the driving test—driving lesson metaphor helps supervisors and residents to realise that they tend to mix up assessment and feedback, and why this is undesirable.


둘째, 많은 역량 기반 의료 교육 커리큘럼에서 학습(피드백, 저평가)과 학습(고득점) 평가에서 동일한 감독관이 역할을 하는 반면, 운전교사와 시험관의 역할은 대부분의 국가에서 엄격히 분리되어 있다. 또한 오늘날 대부분의 임상 교수 부서에서 의대생과 거주자의 코칭에 관여하는 많은 수의 임상 감독자와 비교했을 때, 모든 운전 강사는 거의 항상 동일한 운전 강사에 의해 주어진다[45]. 이는 거주자와 감독자 간의 상호 신뢰 관계가 있는 것을 더욱 중요하게 만들고 [9, 41], 임상 역량에 대한 전반적인 판단은 감독자 그룹 전체에 의해 이루어진다[43, 46].

Second, in many competency-based medical education curricula, the same supervisors play a role both in assessment for learning (feedback, lowstakes) and assessment of learning (high stakes), whilst the roles of driving instructor and examiner are strictly separated in most countries. In addition, all driving lessons are almost always given by the same driving instructor, as compared to the large number of clinical supervisors involved in the coaching of medical students and residents in most clinical teaching departments today [45]. This makes it even more important for there to be a relationship of mutual trust between resident and supervisors [9, 41], and that the overall judgement of clinical competence is made by the entire group of supervisors [43, 46].


셋째, [형성적 피드백과 총과적 평가 만남이 명확히 구분되는] 프로그램적 평가 시스템은 동일한 구별을 적용하는 시스템 요소에 의해 뒷받침되어야 한다. 여기에는 프로그램 평가 프로그램의 목표와 구조에 대한 명확한 제도적 또는 부서의 비전이 포함된다. 

  • 피드백 및 평가의 오염을 방지하는 양식 사용(예: 감독자가 전반적인 등급 또는 글로벌 역량 등급을 제공할 필요가 없는 피드백 양식) 

  • 그리고 [고부담 평가를 위해 사용되는 구성 요소](예: 최소 절차 수와 필수 지식 시험 결과)를 훈련 의사로서 [학습자의 성장을 지원하기 위한 구성 요소]와 명확하게 구분하는 포트폴리오.

Thirdly, a system of programmatic assessment, in which formative feedback and summative assessment encounters are clearly separated, should be supported by system factors applying the same distinction. These include a clear institutional or departmental vision on the goals and structure of the programmatic assessment programme [11, 44], 

  • the use of forms avoiding contamination of feedback and assessment (e.g. a feedback form that does not require the supervisor to provide an overall grade or global rating of competence) [47], and 

  • a portfolio which clearly separates those components which are being used for high-stakes assessments (e.g. having fulfilled a minimum number of procedures and the results of mandatory knowledge tests) from those intended to support the learner’s growth as a doctor in training [48, 49].


은유를 사용하여 교수진 개발에서 프로그램적 평가를 촉진

Using the metaphor to promote programmatic assessment in faculty development


표1 Tab. 1.


본 논문에서 제시된 주장은 그러한 교수진 개발 이니셔티브가 공식적인 고위직 평가[27]로부터 피드백을 분리하는 것의 중요성에 대한 논의를 포함하고, 임상 감독의 지침 원칙으로서 판단보다는 코칭을 촉진해야 한다는 개념을 뒷받침한다[36, 44].

The arguments laid out in this paper support the notion that such faculty development initiatives should include a discussion of the importance of separating feedback from formal high-stakes assessment [27], and promote coaching, rather than judgement, as the guiding principle of clinical supervision[36, 44].


학습자는 합격/불합격 평가에 대한 결정은 [감독자 그룹] 내에서 이루어지며, 포트폴리오에 기록된 평가 양식에만 기초하지 않는다는 것을 알아야 한다[13, 32]. [피드백을 캡처하고 포트폴리오에 저장되는 양식]은 피드백 목적을 반영하도록 의도적으로 설계되어야 하며, 총괄적 등급과 전체적인 역량 평가가 없어야 한다. 또한 학습자의 성과나 역량 성장에 대한 감독자 팀 간의 우려는 초기 단계에서 학습자와 논의될 것이기 때문에, 학습자들은 그러한 고부담 수준의 판단은 결코 갑자기 등장하는 일이 없다고 안심시켜야 한다[9, 28]. 모든 감독자는 효과적인 피드백 대화를 위한 방법에 대해 교육을 받아야 하며, 이러한 대화에서 신뢰와 상호 참여의 중요성을 강조해야 한다[7, 8, 53, 54].

Learners should be made aware that the decision on pass/ fail assessments will be made within the group of supervisors, and is not based solely on the assessment forms recorded in the portfolio [13, 32]. Forms capturing feedback and stored in portfolios should be purposely designed to reflect their feedback purpose, and be devoid of summative grades and overall competence assessments. Learners should also be reassured that such high-stakes judgements can never come as a surprise, because any concern among the team of supervisors about the learner’s performance or growth in competence will be discussed with the learner at an early stage [9, 28]. All supervisors should be trained in methods for effective feedback conversations, highlighting the importance of trust and mutual engagement in these conversations [7, 8, 53, 54].







. 2020 Sep 9.
 doi: 10.1007/s40037-020-00617-w. Online ahead of print.

Driving lesson or driving test? : A metaphor to help faculty separate feedback from assessment

Affiliations 

Affiliations

  • 1Department of Medical Education and Faculty Development, Isala Hospital, Isala Academy, Zwolle, The Netherlands. p.l.p.brand@isala.nl.
  • 2Lifelong Learning, Education and Assessment Research Network (LEARN), University Medical Centre Groningen, Groningen, The Netherlands. p.l.p.brand@isala.nl.
  • 3Lifelong Learning, Education and Assessment Research Network (LEARN), University Medical Centre Groningen, Groningen, The Netherlands.
  • 4Centre for Educational Development and Research (CEDAR), University Medical Centre Groningen, Groningen, The Netherlands.
  • 5Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, The Netherlands.

Abstract

Although there is consensus in the medical education world that feedback is an important and effective tool to support experiential workplace-based learning, learners tend to avoid the feedback associated with direct observation because they perceive it as a high-stakes evaluation with significant consequences for their future. The perceived dominance of the summative assessment paradigm throughout medical education reduces learners' willingness to seek feedback, and encourages supervisors to mix up feedback with provision of 'objective' grades or pass/fail marks. This eye-opener article argues that the provision and reception of effective feedback by clinical supervisors and their learners is dependent on both parties' awareness of the important distinction between feedback used in coaching towards growth and development (assessment for learning) and reaching a high-stakes judgement on the learner's competence and fitness for practice (assessment of learning). Using driving lessons and the driving test as a metaphor for feedback and assessment helps supervisors and learners to understand this crucial difference and to act upon it. It is the supervisor's responsibility to ensure that supervisor and learner achieve a clear mutual understanding of the purpose of each interaction (i.e. feedback or assessment). To allow supervisors to use the driving lesson-driving test metaphor for this purpose in their interactions with learners, it should be included in faculty development initiatives, along with a discussion of the key importance of separating feedback from assessment, to promote a feedback culture of growth and support programmatic assessment of competence.

Keywords: Assessment; Feedback; Programmatic assessment.


평가에서 인간판단의 공정성: 해석적 문헌 고찰과 개념 프레임워크(Adv Health Sci Educ Theory Pract, 2020)

Fairness in human judgement in assessment: a hermeneutic literature review and conceptual framework

Nyoli Valentine1 · Steven Durning2 · Ernst Michael Shanahan1 · Lambert Schuwirth1





도입 Introduction


공정성은 건강직종 평가의 기본적인 자질이며 일반적으로 학생의 권리로 받아들여진다(Robinson 2002). 전통적으로 객관성은 평가의 공정성을 보장하기 위한 지배적인 방법으로 여겨져 왔으며, 평가의 구성 타당성과 신뢰성에 초점을 맞춘 20세기 보건 전문직 교육 연구 개발의 상당부분을 대상으로 한다(Valentine and Schuwirth 2019; Van der Vleuten et al. 1991; Cate and Regehr 2019). 지난 몇 십 년 동안, 학습에 대한 진화하는 생각, 사회적 이상 이동, 그리고 높은 이해도 시험의 한계에 대한 이해는 우리 분야 내에서 많은 변화를 가져왔다. 역량 기반 교육은 많은 국가에서 의료 교육에 대한 지배적인 접근 방식이 되었다. (10 Cate 2017). 이를 통해 임상의의 역할은 [이전에 강조되지 않았던 특징]과 [투입input보다는 결과에 대해 인증된 학습자]를 포함하도록 재정의되었다(10 Cate and Billett 2014). 역량은 학습자가 독립적으로 완료하도록 위임된 전문적인 과업으로 정의되었다(10 Cate and Schele 2007). 임상 역량의 평가는 서면 평가에서 다시 작업장의 실제 맥락으로 이동했고, 개별 평가에서는 평가 프로그램을 위한 길을 열었다(Daupine 1995; Van Der Vleuten and Schuwirth 2005; Valentine and Schuwirth 2019). 

Fairness is a fundamental quality of health professions assessment and is commonly accepted as a student’s right (Robinson 2002). Traditionally, objectivity has been seen as the predominant way to ensure fairness in assessment and for much of the twentieth century health professions education research and development focussed on construct validity and reliability in assessment (Valentine and Schuwirth 2019; van der Vleuten et al. 1991; ten Cate and Regehr 2019). Over the last few decades, evolving ideas about learning, shifting social ideals and understandings of the limitations of high stakes tests led to many changes within our field. Competency-based education became the dominant approach to medical education in many countries (ten Cate 2017). With this, the role of the clinician has been redefined to include features previously not been emphasised, and learners certified on outcome rather than input (ten Cate and Billett 2014). Competencies have been defined into professional tasks which a learner is entrusted to complete independently (ten Cate and Scheele 2007). Assessment of clinical competence moved from written assessments back into the authentic context of the workplace, and individual assessments made way for programmes of assessment (Dauphinee 1995; van der Vleuten and Schuwirth 2005; Valentine and Schuwirth 2019). 


이러한 변화에도 불구하고, 객관적 접근방식은 평가에서 지배적인 담론으로 남아있으며, 많은 사람들이 객관성을 평가를 평가해야 하는 'gold standard'로 보고 있다(Valentine and Schuwirth 2019; Van der Vleuten et al. 1991; Govaerts and van der Vleuten 2013; 10 Cate and Regehrer 2019). 심리측정적 모델은 측정과 양적 관점에서 공정성을 정의하려고 노력해왔다. 인간의 판단을 활용하고 진정한 성과를 평가하기 위해 고안된 작업장 기반 평가는 정량적 프레임워크를 사용하여 평가되었으며, 따라서 타당성과 신뢰성 기준을 충족하지 못한다는 비판을 받았다(Govaerts and van der Vleuten 2013). 이러한 객관적 관점에 기반하여, 많은 사람들은 인간의 판단을 너무 과실하고 주관적인 것으로 간주하여 고부담 평가에 사용할 수 없다고 본다(Valentine and Schuwirth 2019). 그러나 전통적인 정신측정학 접근법에만 배타적으로 초점을 두게 되면 복잡한 직장 환경에서 역량, 성과 및 평가의 주요 이슈를 놓칠 수 있다(Govaerts and van der Vleuten 2013; Govaerts et al. 2007). 이는 학문적 환경에서 역량을 획득하기에 충분하지 않다고 생각되어 왔다(Boud 1990).

Despite these changes, objective approaches have remained a dominant discourse in assessment, with many seeing objectivity as the ‘gold standard’ to which assessments should be judged (Valentine and Schuwirth 2019; van der Vleuten et al. 1991; Govaerts and van der Vleuten 2013; ten Cate and Regehr 2019). Psychometric models have sought to define fairness from a measurement and quantitative perspective. Workplace based assessments, which utilise human judgement and are designed to assess authentic performance, have been judged using a quantitative framework and therefore criticised for not meeting validity and reliability criteria (Govaerts and van der Vleuten 2013). Using this objective perspective, human judgement is seen by many as too fallible and subjective to be used in high stakes assessment (Valentine and Schuwirth 2019). However an exclusive focus on traditional psychometric approaches can disregard key issues of competence, performance and assessment in complex workplace settings (Govaerts and van der Vleuten 2013; Govaerts et al. 2007), has been thought not be sufficient to capture competence in an academic setting (Boud 1990).


문헌을 통해, 많은 저자들은 객관성에 대한 이러한 지속적인 초점을 의문을 제기하여, [평가에서 주관적인 인간의 판단]을 [심리측정적으로 교정될 '문제']가 아니라 [성과에 대한 정당한 인식]으로 수용하고자 하는 욕구를 표현하였다(Jones 1999; Rotthoff 2018; Hodges 2013; Cate and Regehr 2019; Bacon et). 2015년, Govaerts and van der Vleuten 2013, Schuwirth and van der Vleeuten 2006, Gingerich et al. 2014, Gipps and Stobart 2009). 가장 최근인 2020년에 오타와 컨센서스 성명보고서는 특별히 평가 프로그램에서 '전문가 판단을 재임명re-instate'(Boursicot 2020)하도록 요구했다.

Throughout the literature, many authors have questioned this continued sole focus on objectivity, expressing a desire to better embrace subjective human judgement in assessment not as a ‘problem’ to be corrected psychometrically but as legitimate perceptions of performance (Jones 1999; Rotthoff 2018; Hodges 2013; ten Cate and Regehr 2019; Bacon et al. 2015; Govaerts and van der Vleuten 2013; Schuwirth and van der Vleuten 2006; Gingerich et al. 2014; Gipps and Stobart 2009). Most recently, in 2020, the Ottawa consensus statement report for performance in assessment specifically called for assessment programs to ‘re-instate expert judgement’ (Boursicot 2020).


한 걸음 물러서서 평가에서 공정성의 근본적인 기본 가치에 초점을 맞추기 위해 관점을 바꾸는 것은 전통적인 객관적 접근법을 다시 설정하고, 평가에서 주관적인 인간 판단의 적절성을 판단하는 더 적절한 방법을 제공하는 데 도움이 될 수 있다. 평가에서 ['객관적'인 인간의 판단]이 아니라, 평가에서 ['공정fair'한 인간의 판단]이 무엇인지 살펴보는 것으로 초점을 바꾸는 것은 많은 다른 관점을 수용하도록 하며, 평가에서 인간의 판단의 정당화를 허용한다. 그러나 이를 위해서는 건강직업 평가에서 무엇이 인간의 판단을 공정하게 만드는가라는 질문을 다룰 필요가 있다. 이것은 모호하지 않게 '정답'한 단 하나의 대답이 있는 솔직한 질문이 아니다. 건강직종 평가는 복잡하고 예측할 수 없는 상황별 건강관리와 교육 환경에 내재되어 있다; 그것은 환자, 기관, 감독자 및 학습자를 포함한다; 그리고 때로는 인간의 판단과 공정성 모두에 여러 가지 그리고 때로는 모순되는 면이 있다.

Taking a step back and changing perspectives to focus on the fundamental underlying value of fairness in assessment may help re-set the traditional objective approach and provide a more appropriate way to determine the appropriateness of subjective human judgements made in assessment. Changing focus to look at what is ‘fair’ human judgement in assessment, rather than what is ‘objective’ human judgement in assessment allows for the embracing of many different perspectives, and allows for the legitimising of human judgement in assessment. However, to do this requires addressing the question: what makes human judgements fair in health professions assessment? This is not a straightforward question with a single unambiguously ‘correct’ answer. Health professions assessment is embedded in complex, unpredictable, contextual health care and education environments; it involves patients, institutions, supervisors and learners; and there are multiple, and at times conflicting, facets to both human judgement and fairness.


단순한 정의 없이 다차원적이고 복잡한 구조에 직면했을 때, 공유된 언어와 이해가 도움이 될 수 있다. 하이페츠 외 연구진(Heifetz et al.)은 "같은 의미를 지닌 동일한 단어를 사용하기 시작하면, 이슈에 대한 유의미한 차이점을 고심하면서도 더 효과적으로 의사소통하고 오해를 최소화하며 같은 페이지에 있다는 느낌을 얻게 된다"고 지적했다. 2009년). 본 문헌 검토의 목적은 의료 전문직 평가에서 인간 판단의 공정성과 관련된 요소, 정의 및 핵심 질문에 대한 학문적 지식 종합과 이해를 도출하는 데 있었으며, 공정한 인간 판단에 대한 아이디어를 명시적으로 제시하려고 시도했다.

When faced with a multi-dimensional, complex construct without a simple definition, a shared language and understanding can be helpful. Heifetz noted “When people begin to use the same words with the same meaning, they communicate more effectively, minimize misunderstandings, and gain the sense of being on the same page, even while grappling with significant differences on the issues” (Heifetz et al. 2009). The aim of this literature review was to produce a scholarly knowledge synthesis and understanding of the factors, definitions and key questions associated with fairness in human judgement in health professions assessment, attempting to make ideas about fair human judgement explicit.


이러한 복잡한 구조, 범주 및 결과 개념적 프레임워크를 추가로 관리하는데 도움을 주기 위해, 추가적인 연구를 알리고, 공정한 인간 판단에 대한 커뮤니케이션과 토론을 강화하며, 평가 프로그램의 전문가 판단의 재제시에 도움을 주기 위해 개발되었다.

To further help manage this complex construct, categories and a resulting conceptual framework was developed, with a view to informing further research, enhancing communication and discussions about fair human judgement and provide assistance in the re-instatement of expert judgement in assessment programs.


방법 Methods

설계 Design


이 리뷰의 목적을 달성하기 위해, 우리는 해석적hermeneutic 문학 리뷰를 실시했다. 인간의 판단의 공정성을 이해하려면 서로 다른 분야와 관점의 증거를 검토하고 취합하며, 고유한 맥락과 복잡성을 고려하고, 많은 다른 이해당사자들에 대한 함의를 검토해야 한다. 놀랄 것도 없이, 이 문헌은 방대하고, 이질적이며, 무작위적으로 통제된 실험에서 나온 일치된 답변이 없다. 헤르메뉴틱 접근법은 선형 프레임워크가 아닌 주기적 프레임워크로 사용하며 해석적 이해를 생성하는 과정과 관련이 있다. 논문은 문헌에서 나온 다른 논문의 맥락에서 해석되며, 새로운 논문이 읽힐 때마다 이해에 영향을 받는다(Boell and Ccez-Kecmanovic 2010). 체계적 검토 방법론을 통해 합성할 수 없는 이질적 문헌으로부터 통찰력을 창출하는 가치가 있고 그렇지 않으면 결론에 도달하지 않는 결과를 산출할 수 있기 때문에 헤르메뉴틱 리뷰의 인기가 높아지고 있다(Greenhalgh and Shaw 2017).

To achieve the aim of this review, we undertook a hermeneutic literature review. Understanding fairness in human judgement requires reviewing and compiling evidence from different disciplines and perspectives, considering unique contexts and complexity, and reviewing implications for many different stakeholders. Not surprisingly, this literature is vast, heterogeneous and without consensus answers from randomised controlled trials. A hermeneutic approach uses as cyclical rather than linear framework, and is concerned with the process of creating interpretive understanding. Papers are interpreted in the context of other papers from the literature and understanding is influenced by each new paper read (Boell and Cecez-Kecmanovic 2010). The popularity of a hermeneutic review is increasing as it has value in generating insights from heterogenous literatures which cannot be synthesised through systematic review methodology, and would otherwise produce inconclusive findings (Greenhalgh and Shaw 2017).


검토에는 두 가지 주요한 연속적인 순환 과정이 있었다. 즉, 그림 1(Boell and Cecez-Kecmanovic 2014)에서 입증된 주장을 전개하기 위해 입수한 기사의 검색 및 획득과 분석과 해석이다. 검토 내내 기존 문헌을 의미 있게 종합하고 비평하기 위해 해석적 접근법을 사용했다(Boell and Ccez-Kecmanovic 2014). 이러한 접근방식과 일관되게, 우리의 문헌 검색은 엄격했지만 유연하고 반복적이었으며, 아이디어가 지도화, 분류, 비판적으로 평가되고 증거의 성격이 더욱 명백해짐에 따라, 연구 질문의 추가적인 정교화가 이루어졌다(Boell과 Cecz-Kecmanovic 2010).

There were two main continuous cyclical processes in the review: the search and acquisition of articles and the analysis and interpretation of the articles obtained to develop an argument as demonstrated in Fig. 1 (Boell and Cecez-Kecmanovic 2014). Throughout the review an interpretive approach was used to meaningfully synthesize and critique the existing literature (Boell and Cecez-Kecmanovic 2014). Consistent with this approach, our literature search was rigorous but flexible and iterative, and as ideas were mapped, classified and critically assessed and the nature of the evidence became more apparent, there was further refinement of the research question (Boell and Cecez-Kecmanovic 2010).


그림 1 문헌 검토를 위한 프레임워크로서의 헤르메뉴틱 서클 (Boell and Ccez-Kecmanovic 2014)

Fig. 1 The hermeneutic circle as a framework for the literature review (Boell and Cecez-Kecmanovic 2014)


리뷰의 초점

Focus of the review

그림 1에서 서술한 단계들을 헤르메뉴틱 리뷰의 모범 사례로 따라, 우리의 문학 리뷰는 초기 아이디어에서 시작되었다. 이것들이 우리의 초기 질문들을 형성했다:

Following the steps outlined in Fig. 1 as best practice for a hermeneutic review, our literature review started with initial ideas. These formed our initial questions:



검토 단계 Stages of the review

1단계: 증거 검색 및 획득 

Stage 1: search and acquisition of evidence

2019년 7월 NV는 그림 2에 요약된 검색 전략으로 시작했다. 

In July 2019 NV began with the search strategy outlined in Fig. 2. 





2단계: 데이터 추출, 분석 및 해석

Stage 2: Data extraction, analysis and interpretation


3단계: 개념 모델 개발

Stage 3: Development of a conceptual model

문헌 검토 과정에서, 건강 전문직 평가에서 인간 판단의 공정성에 대한 정의의 개념적 모델이 문헌 검토를 기반으로 개발되었다(그림 3). 

During the literature review process, a conceptual model of the definition of fairness in human judgement in health professions assessment was developed based on the literature review (Fig. 3). 


결과 Results

우리의 모든 질문에 대한 '숙성' 과정은 90개의 논문이 포함된 후에 이루어졌다. 이것들은 표 1에 요약되어 있다. 

The process ‘saturation’ on all our questions was reached after the inclusion of 90 papers. These are summarised in Table 1. 




개요: 평가 시 인간 판단의 공정성

Overview: fairness in human judgement in assessment

공정성은 복수의 정의를 가진 복잡한 구인이다(Tierney 2012). 평가 문헌 내에서는 "편향과 차별이 없고 모든 학생에게 적합성 규칙과 표준을 요구하는 판단의 질"(Harden et al. 2015) 또는 "시험에서 측정하고자 의도한 구인을 보여주는demonstrate 것에 대하여, 모든 응시자에게 동등한 기회를 주도록 시험이나 평가 과정 내 편향이 부재한 것"등과 같이 공정성을 단순화하려는 시도가 있었다. (American Research Association et al. 1999) 또는 "기술적 정신측정학 용어가 아님"(Tierney 2012)에 대한 그들의 입장을 입증한다. 그러나 공정성은 또한 공정성, 일관성, 균형, 유용성 및 윤리적으로 실현 가능한 것과 같은 광범위한 평가 관련 품질과 연관되어 있다. 이러한 폭breath는 평가의 공정성이 다면적이며, 이분법적으로 결정되거나 단순한 정의(Tierney 2012)로 축소될 수 있는 것이 아님을 보여준다.

Fairness is a complex construct with multiple definitions (Tierney 2012). Within the assessment literature, there have been attempts to simplify fairness to “the quality of making judgements that are free from bias and discrimination and requires conformity rules and standards for all students” (Harden et al. 2015), or “absence of bias within the test or assessment processes that give all candidates an equal opportunity to demonstrate their standing on the construct the test is intended to measure” (American Research Association et al. 1999) or as “not a technical psychometric term” (Tierney 2012). However, fairness has also been associated with a wide range of assessment related qualities such as equitable, consistent, balanced, useful and ethically feasible. This breath demonstrates that fairness in assessment is multifaceted and not something which can be reduced to a number, determined dichotomously or a simple definition (Tierney 2012).


인간 판단의 공정성의 특성을 이해하는 데 도움을 주기 위해, 문헌 검토의 결과로부터 개념적 프레임워크(그림 3)를 도출했다. 공정한 인간 판단의 복잡한 구조는 

  • 공정한 인간 판단의 특성(해외, 경계, 전문성, 민첩성 및 증거)

에 의해 개념화되며, 이는 실제 구성요소로 인간 판단의 공정성을 변환하는 데 있어서, 

  • 개개인의 수준에서 실제 구성요소로 지원되고 번역되는 가치(확실성, 목적에 적합성, 투명성 및 방어성)와 

  • 시스템 수준에서 도움이 되는 절차 및 환경(일반적인 공정성, 문서화, 다중 기회, 복수의 평가자, 타당성 증거)

To assist in understanding the characteristics of fairness in human judgement, a conceptual framework was derived (Fig. 3) from the results of the literature review. The complex construct of fair human judgement could be conceptualised through 

  • values (credibility, fit for purpose, transparency and defensibility) 

which are supported and translated into practical components 

  • at an individual level by characteristics of fair human judgement (narrative, boundaries, expertise, agility and evidence) and 

  • at a systems level by procedures and environments (procedural fairness, documentation, multiple opportunities, multiple assessors, validity evidence) which help translate fairness in human judgement from concepts into practical components.



평가에서 공정한 인간 판단의 가치

Values of fair human judgement in assessment

문헌 검토에서 평가에서 공정한 인간 판단의 네 가지 가치, 즉 신뢰도, 목적에 대한 적합성, 방어성 및 투명성을 확인했다. 이 값들은 모두 겹쳐서 서로 관련된다. 때로는 값이 상충하는 것처럼 보여서 관리해야 할 긴장을 고조시킨다. 이것들은 아래에 더 자세히 설명되어 있다.

The literature review identified four values of fair human judgement in assessment: credibility, fitness for purpose, defensibility and transparency. These values all overlap and relate to each other. At times the values appear to be conflicting, raising tensions which need to be managed. These are described in more detail below.


신뢰도 Credibility

[믿을 만하다고 여겨지는 인간]의 판단은 공정하다고 보여진다. 학습자들에게는 특히 불확실한 시기에는, 공정성이나 정의감이 [결정의 신뢰성]에 열쇠가 된다(Van den Bos and Medema 2000; Lind and Van den Bos 2002). 신뢰성에 대한 명확한 정의는 없지만, 정의 전반에 걸친 중요한 관점이 신뢰성believability, 그리고 조사 결과의 '진실성'에 대한 자신감 또는 신뢰감(Govaerts and van der Vleuten 2013)으로 나타나고 있다

Human judgements which are seen as credible, are seen as fair. For learners, a sense of fairness or justice is key to the credibility of the decision, especially in times of uncertainty (Van den Bos and Miedema 2000; Lind and Van den Bos 2002). There is no clear definition of credibility however an overarching view across definitions appears to believability (Hilligoss and Young Rich 2008), and confidence or trustability in the ‘truthfulness’ of the findings (Govaerts and van der Vleuten 2013).


신뢰도 평가는 이분법적이지도 않고, 단 한 번에 일어나는 것도 아니다. 오히려, 정보 구상의 종단적 과정 전반에 걸쳐 이루어진 고려사항이다(Rieh와 Hilligoss 2008). 신빙성은 판단 자체뿐만 아니라 판단 당사자와도 관련이 있다(Chory 2007). [판단 그 자체의 신뢰성]과 그 [판단의 발단이 되는 사람] 사이의 상호작용이 된다(Chory 2007). [과거의 경험]은 신뢰도 판단에 영향을 미친다. 예를 들어, 학습자가 출처의 신뢰성에 의문을 제기하는 경우, 해당 출처의 모든 정보는 해당 시점(Rieh 및 Hilligoss 2008)에서 "두 번째 추측"된다.

Credibility assessment is a not dichotomous, nor does it occur at just one point in time. Rather, it is a consideration made throughout the longitudinal process of information seeking (Rieh and Hilligoss 2008). Credibility is related not only to the judgement itself but also to the person making the judgement (Chory 2007). It is an interplay between the credibility of the judgement itself and the person from whom it originates (Chory 2007). Past experience impacts credibility judgements. For example, if a learner questions the credibility of the source, all information from that source is “second guessed” from that point forward (Rieh and Hilligoss 2008).


[대인관계 또는 상호작용적 공정성]은 신뢰성과 공정성의 중요한 구성요소다(Rodabaugh 1996; Patterson et al. 2011). 대부분의 학습자들은 그들의 선생님을 존경하고 또한 존경받는 대우를 받기를 원했다(Rodabaugh 1996). 의료 교육에서 여러 연구의 주요 주제는 학습자의 신뢰성 판단에 있어 평가자 참여의 중요성이다. 연구에 따르면 학습자는 [평가자의 명백한 열정, 헌신, 가르치는 동기, 신뢰, 존중 및 호감]과 관련하여 학습자에 대한 분명한 느낌에 대해 신뢰성 있게 판단한다(Telio et al. 2016; Watling et al. 2008; Ginsburg et al. 2017a). [장기간의 관찰, 긍정적인 학습 문화, 증거를 수집할 다수의 기회]는 이러한 신뢰성 판단의 발달을 지원한다(Watling et al. 2008; Watling 2014).

Interpersonal or interactional fairness, is an important component of credibility and fairness (Rodabaugh 1996; Patterson et al. 2011). Most learners respect their teachers and wanted to be treated with respect also (Rodabaugh 1996). A dominant theme of several studies in medical education is the importance of assessor engagement in learner’s credibility judgements. Studies have noted learners make credibility judgements regarding the assessors’ apparent enthusiasm, dedication and motivation for teaching, and their apparent feelings towards the learner in regards to trust, respect and fondness (Telio et al. 2016; Watling et al. 2008; Ginsburg et al. 2017a). Prolonged observation, a positive learning culture, and multiple opportunities for evidence support development of this credibility judgement (Watling et al. 2008; Watling 2014).


방어성 Defensibility

평가에서 판단 결정은 [학습자가 종종 주장claims의 기초를 형성하는 공정성의 개념으로 법적 보상을 요구할 수 있기 때문에] (법적으로) 방어할 수 있어야 한다(Colbert et al. 2017). 법적 용어로 판단judgement이란 어떤 증거를 가지고 또는 정당한 이유로 한 주장이다(reid 1850). 의료교육과 같이 복잡하고 불확실한 환경의 판단은 참 또는 거짓으로 분류하기 어렵고 확실성보다는 [신뢰성 또는 수용성]에 더 의존한다(Upshur and Colak 2003; Groarke 2019). 의학 교육 내에서는 평가가 어떻든 항상 불확실성이 있을 것이다. 어떤 평가 방법도 연습생이 모든 상황에서 의사라는 기대를 충족시킬 수 있다는 결정적인 증거는 결코 아니다. [절차적 공정성, 문서화, 전문성 및 경계]와 같은 개별적 특성과 시스템 절차는 판단의 방어성을 구축한다.

Judgement decisions in assessment need to be (legally) defendable as learners may seek legal redress with the concept of fairness often forming the basis of claims (Colbert et al. 2017). In legal terms, a judgement is an assertion made with some evidence or for good reason (Reid 1850). Judgements in complex, uncertain environments such as medical education are difficult to categorise as true or false and rest more on plausibility, or acceptability rather than certainty (Upshur and Colak 2003; Groarke 2019). Within medical education, no matter the assessment, there will always be uncertainty. No assessment method is ever conclusive proof that a trainee will be able to fulfil the expectations of being a doctor in all circumstances. Individual characteristics and system procedures such as procedural fairness, documentation, expertise and boundaries build the defensibility of judgements.


목적 적합성

Fitness for purpose

많은 저자들은 공정성이 사회적 구인이라고 주장해왔다(Stobart 2005; Ståhl et al. 2019; Wolf 1978; Eva 2015; Gipps and Stobart 2009). 지프스 외 연구진은 평가가 기술적 특성(Gipps 및 Stobart 2009; Stobart 2005)과 함께, 그것이 운영되는 사회문화적 맥락을 고려해야만 완전히 이해할 수 있는 [사회적으로 내재된 활동]이라고 주장한다. 의학 교육은 다양한 임상적 맥락에서 이루어지며, 진정한authentic 건강 관리 실천이라는 예측 불가능한 과제에 참여함으로써 생성되고 고유한 물리적, 사회적, 조직적 맥락에 의해 형성된다(Govaerts and van der Vleuten 2013). 

Many authors have argued that fairness is a social construct (Stobart 2005; Ståhl et al. 2019; Wolf 1978; Eva 2015; Gipps and Stobart 2009). Gipps et al. argue that assessment is a socially embedded activity that can only be fully understood by taking account of the social and cultural contexts within which it operates, alongside the technical characteristics (Gipps and Stobart 2009; Stobart 2005). Medical education occurs in diverse, clinical contexts, with learning produced by engagement in unpredictable tasks of authentic health care practice and shaped by unique physical, social and organisational contexts (Govaerts and van der Vleuten 2013). 


따라서 판단에서 무엇이 공정하고 신뢰할 수 있는지는 임상적 만남의 맥락과 환경 및 문화에 의해 결정되어야 하며, (다른) 증거의 존재만으로 결정되지 않아야 한다. 미국의 법률 시스템 내에서 처벌, 행정 편의 또는 자원의 예산 제약/이용 가능성과 같이 의도가 부적절할 경우 전문적 판단을 무시한다(Stefan 1993).

Therefore, what is fair and credible in a judgement must be determined by the context of the clinical encounter, and the environment and culture, not just by the existence of other evidence (Upshur and Colak 2003). Within the US legal system there is general consensus if the intent is inappropriate, such as punishment, administrative convenience, or budgetary constraints/availability of resources then the professional judgement is disregarded (Stefan 1993).


또한 공정한 판단 결정은 [의료전문가의 업무]와 [환자의 요구]와도 관련이 있어야 한다. 연구는 학습자들이 무엇보다도 임상적 관련성이 있다는 평가를 인지했다는 점에 주목했다(더필드와 스펜서 2002; 비니 외 2017). 맥락에 의존하고 목적에 맞는 공정한 판단은 총체적이다. 환자들은 측정 가능한 단위로 깔끔하게 분해되지 않으며 건강 전문가의 작업 또한 그렇지 않다. 통합 또는 전체론적 역량은 선별적으로 접근 가능한 증거를 옹호하며, 이는 역량이 추론되는 직장 및 환자 상황의 맥락에 민감하다(Beckett 2008).

Fair judgement decisions also need to relate to the work of a health care professional and the needs of the patient. Studies have noted that learners perceived assessment that, among other things, had clinical relevance was fair (Duffield and Spencer 2002; Viney et al. 2017). Context dependent and fit for purpose fair judgements are holistic. Patients are not neatly broken down into measurable units and neither can the work of a health professional. Integrated or holistic competence advocates a selective accessibly of evidence, which is sensitive the to the context of the workplace and patient situation, from which competence is inferred (Beckett 2008).


투명성 Transparency

문헌 전체에 걸쳐, 학습자와 공유된 이해를 구축하기 위해 개방성을 입증하는 공정한 평가를 강조한다(Dijksterhuis et al. 2009; Colbert et al. 2017; Van der Vleuten et al. 2015; Hays et al. 2015; Schuwirth et al. 2002), 일부 저자들은 투명성이 불공정한 평가에 대한 최선의 방어라고 주장한다(Gipps and Stobart 2009). 여기에는 [어떤 판단을 내릴 것인지, 누가 판단을 내릴 것인지, 판단의 목적, 기준 및 결과에 대한 명시적 의사소통]이 포함된다(Tierney 2012). 투명성을 개선하기 위한 의사소통 개입이 전체 공정성에 대한 candidate의 인식을 개선할 수 있다는 연구 결과가 나왔다(Patterson et al. 2011). 투명성은 판단 과정의 가치와 편견을 공개하고 이에 대한 영향에 대해 토론할 기회를 제공한다(Gipps와 Stobart 2009).

Throughout the literature, there is an emphasis on fair assessments demonstrating openness to build a shared understanding with learners (Dijksterhuis et al. 2009; Colbert et al. 2017; van der Vleuten et al. 2015; Hays et al. 2015; Schuwirth et al. 2002), with some authors arguing transparency is the best defence against unfair assessment (Gipps and Stobart 2009). This includes explicit communication about what judgements will be made, who will make them, the purpose, criteria, and results of the judgement decisions (Tierney 2012). Research has demonstrated communication interventions to improve transparency can improve candidate perceptions of overall fairness (Patterson et al. 2011). Transparency brings out into the open the values and biases of the judgement process and provides an opportunity for debate about the influences on this (Gipps and Stobart 2009).


투명성에는 수행능력 향상과 피드백에 초점을 맞춘 서술도 포함된다(Rodabaugh 1996; Colbert et al. 2017). 한 연구는 의대생을 대상으로 한 조사에서 '더 많은 피드백'이 공정성에 대한 일반적인 반응이라고 지적했다. 몇몇 의견제출자들은 적절한 피드백이 없다면, 미래에 계속해서 같은 실수를 저지를 수 있으며, 이는 불공평한 것으로 간주된다고 언급하였다(더필드와 스펜서 2002). 피드백을 제공하는 성과에 대한 고품질의 적절한 판단은 판단 결정의 신뢰성, 투명성 및 공정성을 구축한다(Tavares and Eva 2013; Govaerts and Van der Vleuten 2013).

Transparency also includes a narrative which focuses on performance improvement and feedback (Rodabaugh 1996; Colbert et al. 2017). One study noted ‘more feedback’ as a common response in a survey of medical students about fairness. Several respondents noted that without adequate feedback, they could continue to make the same mistakes in the future, and this was considered unfair (Duffield and Spencer 2002). High quality, appropriate judgements about a performance which provide feedback build the credibility, transparency and thus fairness of a judgement decisions (Tavares and Eva 2013; Govaerts and van der Vleuten 2013).


그러나 가치로서의 투명성은 공정성의 다른 가치와 상충될 수 있다(Tierney 2012). 예를 들어, 투명성은 학습자에게 프레임워크와 기대치에 대한 이해를 제공하지만, 이것은 더 신뢰할 수 있고 목적에 적합하며 방어할 수 있는 개별화된 [맥락적 평가의 기회를 제한]할 수 있다. 투명성은 컨텍스트-독립성을 목표로 하는 체크리스트, 루브릭 및 판단 보조 도구로 이어질 수 있기 때문이다

However, transparency as a value can conflict with other values of fairness (Tierney 2012). For example, transparency provides learners with a framework and an understanding of expectations, but this can restrict opportunities for individualised, contextual assessment which is more credible, fit for purpose and defensible. Transparency can lead to checklists, rubrics and judgement aids which aim to be context independent. 


와틀링(2014년)은 사전 결정된 평가 양식을 주목했는데, 평가자가 관찰되지 않거나 임상 상황의 맥락에서 광범위한 역량에 대해 판단하도록 강요받으면 평가자와 프로세스에 대한 학습자의 신뢰도가 떨어지고, 의미 없는 상투적인 산더미에서 잠재적으로 [신뢰할 수 있는 결정]을 숨길hide 수 있다. 게다가, 분명하게 표현할 수 없는 판단을 내릴 때 작용하는 많은 개별화된, 암묵적인 가치관과 개인적 특성이 있다. 투명성이 신뢰도, 방어성 및 인간 판단의 공정성에 [합목적적인 공생] 속에서 이뤄질 수 있도록 하기 위해서는 그림 3과 같이 전문가의 능력, 경계, 서술성, 평가자의 민첩성 등 많은 특성이 필요하다.

Watling (2014) noted predetermined assessment forms, where assessors are forced to make judgements on a wide range of competencies not observed or in context of the clinical situation can diminishes the learners’ trust in the assessor and process, and hides potentially credible decisions in a mountain of meaningless platitudes. Furthermore, there are many individualised, tacit values and personal characteristics which come into play when making judgements which cannot be explicitly expressed. To ensure transparency can occur in symbiosis with credibility, defensibility and fit for purpose in fairness in human judgement, many characteristics such as expert abilities, boundaries, narrative and agility of assessors are needed as demonstrated in Fig. 3.


개인 차원의 평가에서 인간 판단의 공정성을 창출하기 위해 필요한 것은 무엇인가?

What is needed to create fairness in human judgement in assessment at an individual level?

판단 결정이 평가에서 인간 판단의 공정성의 가치에 내재된 경우, 이러한 결정은 내러티브, 증거, 경계, 전문지식 및 민첩성을 포함한 개별적 수준의 구성요소에 의해 뒷받침되어야 할 것이다.

If judgement decisions are embedded in the values of fairness in human judgement in assessment, then these will need to be supported by components at an individual level, including narrative, evidence, boundaries, expertise and agility.


내러티브 Narratives

내러티브는 인간의 판단에 투명성, 신뢰성, 방어성, 맥락, 경계 및 관점을 제공한다. 내러티브는 의도적으로 수행능력의 맥락 특이적 측면을 잡아내기 때문에, 학습자가 어떠한 방식과 이유와 방법으로 평가받았는지를 정의할 수 있게 된다. 이로서, 비선형적non-linear 평가를 캡처할 수 있으며, 의미 구성을 허용하고 성찰을 장려하여, 평가의 방어성을 개선하고 판정이 목적에 적합하도록 보장할 수 있다.

Narratives provide transparency, credibility, defensibility, context, boundaries and perspective to human judgement. It intentionally captures context-specific aspects of performance (Govaerts and van der Vleuten 2013; Bacon et al. 2017; Ginsburg et al. 2015), allows for capturing of non-linear assessment by defining how, why and in what way a learner has been judged, allows for the construction of meaning and encourages reflection (Greenhalgh and Hurwitz 1999a, b) which can improve defensibility and ensure the judgements remain fit for purpose.


일부 저자들은 전문가의 주관적 내러티브 논평은 '총괄적 평가에서 신뢰할 수 있는 의사결정을 하는데 필수적'이며, 따라서 판단의 신뢰도에 필수불가결하다고 제안한다. 평가자가 자신의 생각을 명확히 표현할 수 있도록 허용하는 것은 평가가 평가자의 사고를 가리는 [수치적 점수에 의존할 때 발생하는 환원주의]보다 더 신뢰할 수 있고 방어할 수 있다(Govaerts and van der Vleuten 2013; McCready 2007). 평가에 서술적 내러티브를 사용하는 것은 위험 학습자를 조기에 식별하는 것으로 나타났다(Cohen et al. 1993; Durning et al. 2010; Ginsburg et al.2017b; Ginsburg et al. 2013). 내러티브는 또한 평가자들을 보다 전체적인 판단으로 이끌며(Bacon et al. 2017), [학습자들이 공정한 판단에 필요하다고 보는] 피드백을 허용한다(Rodabaugh 1996; Colbert et al. 2017; Duffield and Spencer 2002; Govaerts and van der Vleuten 2013; Tavares와 Eva 2013; Watling et al. 2008). 더욱이, return-to-work 문헌에서, 판단의 공정성에 대한 인식은 적어도 부분적으로 관련 전문가의 의사소통 능력에 의존했다(Sthl et al. 2019).

Some authors propose that expert subjective narrative comments are ‘indispensable for trustworthy decision making in summative assessments’, and thus credibility of judgements (Ginsburg et al. 2015; Marjan Govaerts and van der Vleuten 2013). Allowing assessors to articulate their thinking, may be more credible and defensible than reductionism which occurs when assessments rely on numerical scores which mask assessors’ thinking (Govaerts and van der Vleuten 2013; McCready 2007). The use of descriptive narratives in assessment has been shown to identify at-risk learners earlier (Cohen et al. 1993; Durning et al. 2010; Ginsburg et al. 2017b; Ginsburg et al. 2013) and contributes to predicting future performance or need for remediation (Cohen et al. 1993). Narratives also lead assessors to more holistic judgements (Bacon et al. 2017) and allow for feedback which learners see as essential for a fair judgement (Rodabaugh 1996; Colbert et al. 2017; Duffield and Spencer 2002; Govaerts and van der Vleuten 2013; Tavares and Eva 2013; Watling et al. 2008). Furthermore, within the return-to-work literature, perceptions of the fairness of the judgements was at least partly dependent on the communication skills of the professionals involved (Ståhl et al. 2019).


내러티브는 또한 [그룹 의사결정을 용이하게 하고, 평가자가 가정을 명확히 하고, 견해의 확정을 논하고, 다른 사람의 관찰로부터 배울 수 있도록 함]으로써 [시스템 수준]에서 방어성을 더한다(Bacon et al. 2017). 어떤 사람이 자신의 결정에 대한 이유를 명확하게 설명하기 위해 내러티브를 사용해야 할 때, 그들은 그들이 목적에 적합하도록 확실히 하기 위해 의사 결정에 더 집중하게 된다. (Daniels and Sabin 1997).

Narratives also add to defensibility at a systems level by facilitating group decision making, allowing assessors to articulate assumptions, discuss disconfirming views and learn from the observations of others (Bacon et al. 2017). When a person is required to use narratives to articulate the reasons for their decisions they become more focused in their decision making ensuring they remain fit for purpose (Daniels and Sabin 1997).


평가자의 언어는 모호하고 간접적일 수 있으며, 교직원과 학습자가 자신의 코멘트에 의해 의도된 평가자의 의도를 추측하도록 요구하는 경우('숨겨진 코드'를 찾음) 이 코드를 해석하는 데 있어 교직원과 학습자들 사이에 놀라운 일관성이 있다(Ginsburg et al. 2015, 2016, 2017a). 그러나, 체면 유지를 위한 '헷징'을 포함한 여러 요소들로 인해, 내러티브는 종종 학습자가 얼마나 열심히 일하느냐에 초점을 맞추는데, 이는 학습자가 노력의 이러한 인식을 공정하다고 보는 경우가 많지만, 성과 판단에 도움이 되지 않을 수 있다. 게다가, 일부 평가자들은 부정적인 메시지를 효과적으로 전달하기 위한 훈련과 내러티브가 부족하다고 느낀다. (Cleland et al. 2008) 

Whilst assessors’ language may be vague and indirect, requiring faculty and learners to guess what assessors intended by their comments (finding a ‘hidden code’) there is surprising consistency amongst faculty and learners in interpreting this code (Ginsburg et al. 2015, 2016, 2017a). However, due to multiple factors, including ‘hedging’ to save face, narrative often focuses on how hard a learner works which can be unhelpful in judging performance (Ginsburg et al. 2016, 2017a), although learners often see this recognition of effort as fair (Rodabaugh 1996). Furthermore, some assessors feel they lack the training and narrative to give negative messages effectively (Cleland et al. 2008). 


이러한 한계를 극복하기 위해 많은 사람들은 평가자에게 판단을 요청할 때 임상 실무에 적합한 서술법을 사용할 것을 요구하였다(Kogan et al. 2014; Crossley and Jolly 2012). 평가 척도를 임상적 독립성 또는 위임 구성에 맞춰 조정하면 점수 신뢰도와 평가자 차별성이 개선되는 것으로 나타났다(Crossley and Jolly 2012; Weller et al. 2014). 이것은 또한 임상적 증거가 [판단의 내러티브]의 기초가 될 수 있도록 하여 신뢰성을 향상시킨다 (Watling et al. 2012). 더욱이, (이러한) 판단은 평가 척도보다 고품질 임상 치료에 집중되기 때문에, 환자들에게도 더 공평하다(Kogan et al. 2014).

To overcome these limitations, many have called for narratives which fit clinical practice to be used when asking assessors to make judgement (Kogan et al. 2014; Crossley and Jolly 2012). Aligning rating scales to the construct of clinical independence or entrustment has been shown to improve score reliability and assessor discrimination (Crossley and Jolly 2012; Weller et al. 2014). This also allows for clinical evidence to be form the basis of the narrative of the judgement which improves credibility (Watling et al. 2012). Furthermore, it also is fairer to patients, as the judgements are focused on high quality clinical care rather than rating scales (Kogan et al. 2014).


근거 Evidence

근거는 판단을 뒷받침하는 수단으로 제공되며(Upshur와 Colak 2003), 타당성 논쟁을 일으키는데 필수적이다(Govaerts and van der Vleuten 2013). 근거가 없으면 판단이 아니라 추측이다(Downie and Macnaughton 2009). 근거 그 자체는 종종 주관적이다. 각 맥락에서 적용할 수 있는 증거를 판단하는 보편적 표준은 없으며, 따라서 필요한 근거의 유형은 그에 따라 달라질 것이다(Upshur와 Colak 2003). 또한 고부담 평가에서 [데이터 수집 단계와 수집된 증거]가 실제 판단 자체보다 더 자주 어려운 것임이 입증되었다(Southgate et al. 2001).

Evidence is offered as a means of supporting judgements (Upshur and Colak 2003), and is essential for creating a validity argument (Govaerts and van der Vleuten 2013). Without evidence, it is not a judgement but a guess (Downie and Macnaughton 2009). Evidence itself is often subjective. There is no universal standard to adjudicate evidence that can be applied in each context, and the type of evidence needed will therefore vary accordingly (Upshur and Colak 2003). It has also been demonstrated that in high stakes assessment, the data gathering phase and evidence collected is more often challenged than actual judgement itself (Southgate et al. 2001).


Watling 외 연구진(2012)은 [환자의 임상 결과 및 환자로부터의 피드백]과 같이, 학습자는 [의사의 실제 작업에 내재된 판단에 관한 근거]를  본질적으로 신뢰할 수 있는 것으로 보았다. 평가자로부터 [직접 관찰을 받음]으로서 판단 결정을 받는 것은 평가의 공정성에 대한 신뢰도와 인식에 기본적이며, 이러한 공정성에 대한 인식은 관찰이 장기간에 걸쳐 이루어질 경우 더욱 강화된다(Duffield 및 Spencer 2002; Bul).잠금 등 2019). 다양한 임상 환경에서 복수의 증거 출처를 갖는 것(삼각측량), 증거의 지속적인 수집 및 삼자 회의(피어 디브리핑 및 멤버 체크)와 같은 시스템 절차도 증거의 공정성에 대한 인식을 개선하기 위해 보인다(Webb et al. 2003; Bacon et al. 2017; Watling et al. 2013a).

Watling et al. (2012) noted evidence for judgements that were embedded into the actual work of a doctor, such as patient clinical outcomes and feedback from patients was seen by learners as being intrinsically credible. Having the opportunity to be directly observed by the assessor making judgement decisions is fundamental to the trustworthiness and perception of fairness of the assessment (Watling and Ginsburg 2019; Watling et al. 2013a; Watling et al. 2008), and this perception of the fairness is enhanced by prolonged observation (Duffield and Spencer 2002; Bullock et al. 2019). System procedures such as having multiple sources of evidence in a variety of clinical settings (triangulation), continuous collection of evidence and tripartite meetings (peer debriefing and member checks) is also seen to improve the perception of fairness of evidence (Webb et al. 2003; Bacon et al. 2017; Watling et al. 2013a).


경계 Boundaries

공정한 판단 결정은 경계가 있다고 볼 수 있다. 이것들은 판단에 도달하고, 판단 결과를 소통하는 과정에서 

    • 허용 가능한/허용되지 않는 것

    • 관련성이 있거나 없는 것, 

    • 목적에 적합한 것/부적합하지 않은 것 사이의 경계선이다

Fair judgement decisions can be seen as having boundaries. These are boundaries between 

    • what is acceptable/not acceptable, 

    • what is relevant/not relevant or 

    • what is fit for purpose/not fit for purpose in the process of arriving at and communicating a judgement. 

경계는 사회적 구인으로서, [가치와 연결되고, 따라서 평가자는 서로 다른 장소마다 경계를 구성]한다. 본질적으로, [경계]는 모호하다. 학습자들은 경계가 어디에 있는지, 그리고 무엇이 "평가가능한지"에 대해 걱정한다. [지속적인 관찰]은 학습자에게 [모든 관찰은 체면을 잃거나 평가 결과에 영향을 줄 수 있는 기회]라는 것을 의미할 수 있다. 한 연구에 따르면 학생들은 인종, 성별, 연령에 기초하여 일부 학생에 대한 교수진의 편파성이 불공평하다고 느꼈으며, 많은 국가에서 이 또한 불법이라고 한다. 암묵적으로 공유된 가치, 표준 문서는 판단 결정을 위한 증거가 될 수 있는 것의 경계를 만드는 데 도움을 준다. 극단적인 관점을 갖는 것은 또한 그들이 내리는 사람과 판단의 신뢰성을 떨어뜨리는 경향이 있다(Kirkland 2012).

Such boundaries are social constructs, connected with values and thus assessors construct boundaries in different places (Houston 2002). By their very nature, boundaries are fuzzy. Learners are concerned about where boundaries lie, and what is “assessable” (Rees and Shepherd 2005). Continuous observation may mean every observation is an opportunity for learners to lose face and impact their assessment outcome (Watling and Ginsburg 2019). One study noted students felt a faculty member’s partiality to some students on the basis of race, gender or age was unfair, (Rodabaugh 1996) and in many countries this is also illegal. Implicit shared values, standard documents assist in creating boundaries of what is able to be evidence for judgement decisions. Holding extreme views, at the edge of boundaries also tends to lower the credibility of the person and the judgements they make (Kirkland 2012).


전문성 Expertise

의학 교육에는 임상 및 교육이라는 두 가지 유형의 전문지식이 있다(Jones 1999). 평가자는 평가자로서의 신뢰성을 갖추려면 전문 임상의로서의 신뢰성이 필요하다고 본다(Watling et al. 2012, 2013b; Telio et al. 2016; Berendonk et al. 2013). 의사결정 위원회는 또한 전문성을 중시하며, 공정성과 신뢰성을 확보하기 위해 교수의 [전문가로서 인지된 지위]에 의존한다(Hauer et al. 2016).

Within medical education, there are two types of expertise, clinical and educational (Jones 1999). Assessors perceive that credibility as an expert clinician is required if one is to have credibility as an assessor (Watling et al. 2012, 2013b; Telio et al. 2016; Berendonk et al. 2013). Decision making committees also value expertise, relying on faculty members’ qualifications via their perceived status as expert to help ensure fairness and credibility (Hauer et al. 2016).


학습자는 교육적 전문지식보다 임상적 전문지식을 중시한다(Watling et al. 2013b). 그러나 의료 교육 전문가들은 일반적으로 정보 및 정보 집합을 가지고 추론할 때 의미 있는 패턴 및 추상화를 더 많이 사용한다(Govaerts et al. 2011). 그들은 잘 발달된 개인 스키마를 가지고 있으며, 그들이 평가하고 있는 특정한 문제나 상황에 근거하여 사용하는 스키마를 선택할 수 있으며, 이것은 예측할 수 없는 맥락에서 판단을 용이하게 하는데 효과적이다(Watling et al. 2012; Govaerts et al. 2013; Marewski et al. 2010). 또한 그들은 다양한 맥락의 특정 정보를 의미 있는 패턴으로 결합하여 평가판단을 내릴 가능성이 더 높으며, 주로 그들이 본 것에 대한 문자적이고 피상적인 설명을 제공하는 초보자에 비해 연습생 성과에 대한 보다 풍부하고 해석적인 설명을 제공한다(Govaerts et al. 2011).

Learners value clinical expertise over educational expertise (Watling et al. 2013b). However, experts in medical education in general make more inferences on information, cluster sets of information into meaningful patterns and abstractions (Govaerts et al. 2011). They have a well-developed set of personal schemas, and are able to choose a schema used based on the specific problem or context they are assessing, which is effective for facilitating judgement in unpredictable contexts (Watling et al. 2012; Govaerts et al. 2013; Marewski et al. 2010). They also are more likely to make evaluative judgements, combining various context specific information into meaningful patterns, providing richer and more interpretive descriptions of trainee performance as compared to novices who mostly provide literal, superficial descriptions of what they had seen (Govaerts et al. 2011).


민첩성 Agility


Govaerts 외 연구진(2013년)은 평가자가 수행능력을 평가할 때 다양한 수행능력의 측면을 고려한다는 점에 주목했다. 예를 들어, 병력청취, 신체검사, 환자관리 중 성과를 평가할 때, 측정자들은 문제의 '의학-기술적' 측면을 적절히 다루는 학생들의 능력뿐만 아니라 의사소통, 대인관계, 시간관리 능력도 평가했다. 이와는 대조적으로 많은 평가 양식은 [맥락에 무관하게 독립적이며 임상 상황에 관계없이 모두 완료해야 하는] 별개의 독립된 실체로 성과 차원을 열거한다. 비록 이러한 방식은 투명하지만, 신뢰도가 낮거나 목적에 적합하지 않으며(Watling 2014; McCready 2007) [맥락적으로 적절하고, 전체론적이며 개별화된 판단 결정을 내릴 수 있는] 평가자의 민첩성을 인식하지 못한다(Govaerts et al. 2013). [지침이나 프로토콜을 엄격히 준수하는 것]과 [높은 "품질"]을 동일시하는 것은 보다 정교한 [전문성의 프로세스]에 대한 증거를 간과하는 것이다(Greenhalg et al. 2014). 

Govaerts et al. (2013) noted that assessors consider multiple performance dimensions when assessing performance. For example, when assessing performance during history taking, physical examination or patient management, raters assessed not only students’ ability to adequately handle the ‘medico-technical’ aspects of the problem, but also communication, interpersonal and time management skills. In contrast, many assessment forms aim to be context independent and list performance dimensions as separate distinct entities which all need to completed regardless of the clinical situation. Although this is transparent, it is not credible or fit for purpose (Watling 2014; McCready 2007) and does not recognise assessors’ agility to make contextually appropriate, holistic and individualised judgement decisions (Govaerts et al. 2013). Equating “quality” with someone who strictly adheres to guidelines or protocols, is to overlook the evidence on the more sophisticated process of expertise (Greenhalgh et al. 2014). 


공정성의 관점에서, 이러한 목적 적합하고 개별화된 전체론적 판단은 [여러 항목으로 된 체크리스트보다 더 낫지는 않더라도] 평가자 합의와 수행능력의 변별력을 입증하며, 사회적으로 더 공평하다왜냐하면 환자들은 상담의 '부분parts'를 할 수 있는 사람이 아니라, 심리학적으로 그들의 심리학적 환경에서 자신들에게 다가갈 수 있는 [전인적인whole person] 사람으로서 건강 전문가가 필요하기 때문이다. 

From a fairness perspective, these fit-for-purpose, individualised holistic judgements demonstrate at least as much, if not more, assessor agreement and performance discrimination than checklists of actual items (Crossley and Jolly 2012; MacRae 1998; Sadler 2009) and are fairer to society because patients need a health professional who can approach them as a whole person, in their psychosocial environment, not one who can do ‘parts’ of an consultation. 


법률적 관점에서, 의학에서는 [맥락]은 논쟁적합성의 판단에 강하게 영향을 미친다는 인식이 증가하고 있으며, 임상적 판단이 개별화되지 않은 경우에는 전문적 판단에서 벗어나는 것으로 간주된다(Stefan 1993).

From a legal perspective, in medicine there is increasing recognition that the context strongly influences the adjudication of argument adequacy and if a clinical judgement is not made on an individualised basis, it constitutes a departure from professional judgement (Stefan 1993).


나아가, [상담이 실시간으로 진화할 때만 문제가 드러나는] 불확실한 상황인 실생활real life에서 평가가 자주 일어나기 때문에, 평가자는 환자의 공정성과 안전을 보장하기 위해 실시간으로 판단해야 한다. 상황을 평가하고, 적절한 조치를 취하고, 결과를 재평가하기 위한 지속적인 모니터링 사이클이 필요하다. 이것은 민첩성을 필요로 한다. 이러한 민첩성과 전문지식이 결합되면, 연습생이 직장에 기반한 학습에 종사할 수 있게 되므로, 실제 환자들에 대한 임상 경험을 획득하여 환자 안전을 보장하면서도 학습을 극대화할 수 있다.

Furthermore, because assessment often occurs in real life, uncertain situations where issues only become apparent as the consult evolves in real time, assessors need to make judgements in real time to ensure patient fairness and safety (Katerndahl et al. 2010; Plsek and Greenhalgh 2001; Kaldjian 2010; Berendonk et al. 2013; Lipshitz et al. 2001; Flin et al. 2007; Epstein 2013). A continuous cycle of monitoring to assess the situation, taking appropriate actions and re‐evaluating the results is required (Flin et al. 2007). This requires agility. This agility, combined with expertise allows for trainees to engage in workplace based learning, gaining clinical experiences on real life patients to maximise learning whilst still ensuring patient safety (Flin et al. 2007).


시스템 수준에서 평가에서 인간 판단의 공정성을 창출하기 위해 필요한 것은 무엇인가?

What is needed to create fairness in human judgement in assessment at a systems level?

개별적인 평가판단은 독립적이지 않고 오히려 평가 시스템의 일부분이다. 시스템 사고의 관점을 활용하면 단순히 개별적인 수준의 공정성을 검사하는 것 보다 공정한 인간 판단의 개인 특성과 가치에 대한 보다 풍부한 검사가 가능하다(Colbert et al. 2015). 시스템 수준에서 공정성의 가치와 개별 특성을 지원할 수 있는 시스템과 환경에는 절차적 공정성, 문서화, 다중 기회, 복수의 평가자 및 타당성 증거가 포함된다.

Individual assessment judgements are not independent, rather they are part of an assessment system. Utilising a systems thinking lens enables a richer examination of individual characteristics and values of fair human judgement than would be possible from simply examining fairness at an individual level alone (Colbert et al. 2015). At a systems level, systems and environments which are able to support the values and individual characteristics of fairness include procedural fairness, documentation, multiple opportunities, multiple assessors and validity evidence.


절차적 공정성 Procedural fairness


절차적 공정성은 무정형의 개념이다. 교육 내에서는 절차적 공정성에 대한 명확한 정의가 없다. 그러나 이 비정형 개념의 중요성은 분명하다. 사람들은 결과를 결정하는 데 공정한 절차가 있다고 생각한다면 당국이 자발적으로 제공하는 결과를 받아들이고자 한다(Van den Bos et al. 1998; Van der Vleuten et al. 1991). 이는 실험실 실험, 조사 연구 및 실제 환경에서 발견되는 사회 심리학에서 가장 자주 복제되는 발견 중 하나이다(Van den Bos et al. 1997). 절차적 공정성은 후보자와 기관 모두에 대한 선발과 평가와 같은 고부담결정의 신뢰성에 중요한 역할을 한다(Burgess et al. 2014; Colbert et al. 2017).

Procedural fairness is an amorphous concept. There is no clear definition of procedural fairness within education. However, the importance of this amorphous concept is clear. People are more willing to voluntarily accept outcomes given to them by an authority if they perceive there is fair procedures in deciding the outcomes (Van den Bos et al. 1998; van der Vleuten et al. 1991). This is one of the most frequently replicated findings in social psychology, found in in laboratory experiments, survey studies and real world environments (Van den Bos et al. 1997). Procedural fairness plays an important role in the credibility of high stakes decisions such as selection and assessment, for both candidates and institutions (Burgess et al. 2014; Colbert et al. 2017).


절차적 공정성에 대한 인식에 긍정적인 영향을 미치는 것으로 보여지는 몇 가지가 있는데, 여기에는 판정이 이루어지는 과정을 명시적으로 기술하는 것(린드와 타일러 1988), 공식적이고 정기적인 판정 과정에 대한 포괄적 검토, 항소 절차의 제공(Hayes et al. 2015) 등이 있다. 또한 절차적 공정성을 위해 중요한 것은 학습자가 자신의 기대치와 이러한 [기대를 충족하지 못할 경우 요구되는 사항을 명시적으로 알려주도록] 하는 것이다(Colbert et al. 2017). 학습자에게 가능한 일찍 정보를 제공하는 것은 학습자가 자신의 의견을 말할 수 있게 해 주듯이 공정성에 대한 인식에 긍정적인 영향을 미치는 것으로 나타났다(Van den Bos et al. 1997). 평가 시기는 또 다른 관련 측면이다. 학습자가 자신의 행동을 바꿔볼 수 있는 기회가 없어 불공평하게 보이기 때문에 로테이션이 끝날 때 제공되는 판단은 잘 받아들여지지 않는다(Ramani et al. 2017; Watling et al. 2008).

There are several things which have been shown to positively influence the perception of procedural fairness which such as explicitly describing the process by which judgements are made (Lind and Tyler 1988), by formal, regular inclusive reviews of the judgement process, and provision of an appeals process (Hays et al. 2015). Also important for procedural fairness is to ensure the learner is explicitly told of their expectations and what else is required if they did not meet these expectations (Colbert et al. 2017). Providing learners with information as early as possible has been shown to positively impact perceptions of fairness, as has allowing learners to voice their opinion (Van den Bos et al. 1997). The timing of assessment is another relevant aspect; judgements provided at the end of a rotation are less well received, as there is no opportunity for learners to modify their behaviour which is seen as unfair (Ramani et al. 2017; Watling et al. 2008).


문서화 Documentation


[내려진 판단에 대한 풍부하고 의미 있는 정보의 문서화][예상되는 가치와 표준의 문서화]는 외부 감사, 재구성, 평가 및 품질 보증과 투명성, 신뢰성 및 방어성을 허용한다(Govaerts and van der Vleeuten 2013; Webb et al. 2003; McCready 2007). 또한 위에서 설명한 절차적 공정성은 평가 정책과 절차를 요약한 명확하고 포괄적인 문서가 필요하다(Hays et al. 2015).

Documentation of rich, meaningful information about judgements made, and documentation of values and standards expected allows for external audit, reconstruction, evaluation and quality assurance and thus transparency, credibility and defensibility (Govaerts and van der Vleuten 2013; Webb et al. 2003; McCready 2007). Furthermore, procedural fairness as described above needs clear and comprehensive documentation outlining assessment policies and procedures (Hays et al. 2015).


필요한 문서의 세부사항은 상황에 따라 달라진다. 한 연구는 평가자가 글로벌 역량 등급만 제공했기 때문에 학습자가 판단의 신뢰성에 의문을 제기했다고 지적했다. 평가자가 의미 없이 체크박스를 하지 않았기 때문에 이것이 잠재적으로 더 신뢰할 수 있는 것으로 보일 수 있지만, 완전한 문서화의 결여는 반대의 효과로 이어졌다(Rees and Shepherd 2005).

The detail of the documentation required depends on the context. One study noted a learner questioned the credibility of a judgement because the assessor only provided a global competency grade. Although this could potentially be seen as more credible because the assessor did not meaninglessly tick boxes, the lack of complete documentation led to the opposite effect (Rees and Shepherd 2005).


다수의 기회 Multiple opportunities


질병은 [사물]이 아니라 [의사들이 징후, 증상, 진행을 해석하도록 요구하는 그림plots]으로 보여질 때 가장 유용하다(Hunter 1996). 마찬가지로, 단일 시점의 시간 평가 판단이 미래의 성과를 예측하기에 적절하지 않다고 제안되었으며, 지식, 기술 및 태도를 보다 지속적으로 평가할 수 있도록 종적 평가가 필요하다(Boulet and Durning 2019). 역량은 주어진 상황에 적용되는 일반적이고 안정적인 특성이 아니기 때문에, 다양한 직무 요구사항에 적응할 수 있는 개인의 성과와 능력을 심층적으로 이해하려면 광범위한 직무, 맥락 및 평가자가 필요하다(Govaerts and van der Vleuten 2013; Schuwirth et al. 2002; Van der Vleuten and Schuwirth 2005). 몇몇 저자들은 인간의 판단을 활용하는 공정하고 방어 가능한 평가 프로그램은 [종합적이고, 복합적이며, 사실에 입각한 지식, 직접 관찰의 충분히 큰 표본, MSF, 포트폴리오 등을 포함함으로써 학습 진행 상황을 모니터링하고 학습 계획과 자기 성찰을 개발할 수 있어야 한다]고 제안한다(Dijksterhuis et al. 2009년). 그러나 일부 교육 프로그램에서는 훈련생 평가에 대한 낮은 return rate가 드물지 않기 때문에 여러 가지 증거를 확보하는 것은 문제가 될 수 있다(Colbert et al. 2017).

Diseases are most useful when they are thought of not as objects but instead seen as plots that unravel over time requiring physicians to interpret signs, symptoms and progression (Hunter 1996). Similarly, it has been suggested a single point in time assessment judgement is not adequate to predict future performance, and longitudinal assessment is needed to allow for a more continuous evaluation of knowledge, skills and attitudes (Boulet and Durning 2019). Because competencies are not generic and stable traits that apply in any given situation, a broad range of tasks, contexts, and assessors are needed to gain an in-depth understanding of a person’s performance and capability to adapt to various task requirements (Govaerts and van der Vleuten 2013; Schuwirth et al. 2002; van der Vleuten and Schuwirth 2005). Several authors suggest that a fair and defensible assessment program utilising human judgement should be comprehensive, multimodal, incorporate factual knowledge, sufficiently large samples of direct observation, multisource feedback, and a portfolio to monitor progress and to develop learning plans and self-reflection (Dijksterhuis et al. 2009). However, obtaining multiple pieces of evidence can be problematic as in some training programs a low return rate for trainee assessment is not uncommon (Colbert et al. 2017).


평가에서 공정한 인간의 판단은 [기회 접근의 공정성]과 불가분의 관계에 있다(Stobart 2005). 감독자는 신체적 기회를 통해서 또는 학생 학습에 대해 한결같이 낮은 기대를 가질 때 학습자의 학습 기회 품질에 영향을 미칠 수 있다(Tierney 2012). 학생들의 공정감각은 [성적 상승 효과가 있는 점수의 수정 또는 조작]보다 [리뷰 세션이 학습지도요령 등 교육행동teaching practice으로 주어진 기회]와 더 밀접한 관계가 있는 것으로 나타났다(Rodabaugh 1996).

Fair human judgement in assessment is inseparable from fairness in access to opportunities (Stobart 2005). Supervisors are able to influence the quality of the learner’s opportunities to learn, both through physical opportunities, or when uniformly low expectations are held for student learning (Tierney 2012). Students’ sense of fairness has been found to be more closely related to opportunities afforded to them by teaching practices such as review sessions and study guides, than scoring modifications or manipulations that have the effect of raising grades (Rodabaugh 1996). 


문헌에 따르면 모든 학습자는 주요 평가에 앞서 모든 평가 유형을 경험할 수 있는 기회를 가져야 하며, 특히 한 가지 평가 유형에서 불이익을 받는 사람에게는 전문성의 증거를 보여줄 수 있는 대체 기회를 주는 것이 특히 중요하다고 제안한다.9. 더욱이, 학습자들은 자신이 받은 피드백을 이해하고 통합했음을 증명할 기회를 가치 있게 여긴다(Watling et al. 2013a, 2008).

The medical literature suggests all learners should have opportunities to experience all assessment types prior to major assessments (Hays et al. 2015), and to allow learners alternative opportunities to demonstrate evidence of expertise, which is especially important for those who are disadvantaged on one type of assessment (Gipps and Stobart 2009). Furthermore, learners value opportunities to demonstrate they have understood and incorporated feedback they have received (Watling et al. 2013a, 2008).


공정성은 종종 '평등한' 대우나 관행으로 여겨져 왔다(Colbert et al. 2017). 그러나, 수많은 철학자와 수학자들은 평등한 대우를 한다고 해서 항상 공정성이 보장되는 것은 아니라고 주장해왔다(Eva 2015; Stobart 2005). 예를 들어, 에바는 '한 명은 편두통 때문에 결석한 반면 다른 한 명은 숙취로 인해 결석했을 때 의무 교육을 받지 못한 두 명의 의대생에게 동등한 치료를 주는 것이 공평한가'라고 묻는다. '중립성, 일관성, 편애 회피는 공정하지만, 모든 학습자를 사용하는 방법이나 피드백을 동일하게 취급하는 것은 다른 한편으로 불공평하다. 왜냐하면 그것은 일부 학생들의 학습 기회를 감소시키고 있기 때문이다(Tierney 2012). 

Fairness has often been viewed as ‘equal’ treatment or practice (Colbert et al. 2017). However, countless philosophers and mathematicians have argued that equal treatment does not always ensure fairness (Eva 2015; Stobart 2005). For example, Eva asks: ‘is it fair to give two medical students equal remediation for missing a mandatory education session when one was absent because he had a migraine headache, whereas the other had a hangover (Eva 2015)?' Neutrality, consistency and avoidance of favoritism is one on hand fair, however, treating all learners the same be it in terms of the methods used, or the feedback given, is on another hand unfair because it is reducing the opportunity of some students to learn (Tierney 2012). 


'중립성'은 맥락-독립적이며, 이런 의미에서 불공평하다. 예를 들어 병동 회진 중에 목소리를 내지 않는 조용한 학습자는 의료지식에 결함이 있는 것으로 잘못 추정될 수 있다(Colbert et al. 2017). 이는 보통 학습자들은 스스로 [공정성을 노력과 관련된 것]으로 본다는 점에서 더욱 상충된다. 예를 들어, 그들은 대부분의 학생들은 [투입과 성과는 반드시 일치하지 않고, [열심히 공부한 학생과 그렇지 않은 학생이 구별되지 않기 때문]에 모든 학생이 높은 점수를 받는 것은  불공평하다고 생각한다또는 판단이 학생들이 가져오는 입력과 일치하지 않기 때문이다(Wycliffe-Jones et al. 2018).

Neutrality is often context independent, and in this sense is unfair. For example, a quiet learner who does not speak up during ward rounds could be incorrectly inferred as having deficits in medical knowledge (Colbert et al. 2017). This is further conflicted by the fact that learners themselves see fairness as related to effort. For example they consider it unfair if most students receive high grades because input does not match output and no distinction is made between those who worked hard and those who did not (Rodabaugh 1996) or if judgements are not aligned with the inputs that the students brings (Wycliffe-Jones et al. 2018).


복수의 평가자가 평가하는 판단

Judgements assessed by multiple assessors


그룹 의사결정은 현재 전 세계 많은 국가에서 평가 결정을 위한 표준 메커니즘이 되었다(Hauer et al. 2016; Bacon et al. 2015; Govaerts and van der Vleuten 2013). 공개 숙의와 비판적 대화를 통해 증거를 비판적으로 검토하기 위한 그룹을 만드는 것은 [학습자에 대한 공유된 주관성shared subjectivity]의 개념을 통하여, 학습자와 평가자 모두에게 방어 가능하고, 신뢰할 수 있으며, 공정하다고 여겨진다. 2009; Hauer et al. 2015; Bacon et al. 2015; Govaerts and van der Vleuten 2013; Krefting 1991; Webb et al. 2003; Ham 1999). 

Group decision making is now a standard mechanism for assessment decisions in many countries around the world (Hauer et al. 2016; Bacon et al. 2015; Govaerts and van der Vleuten 2013). Creating groups to critically review evidence through open deliberative and critical dialogue is seen as defensible, credible and fair by both learners and assessors because there is a concept of shared subjectivity about learners (Tochel et al. 2009; Hauer et al. 2015; Bacon et al. 2015; Govaerts and van der Vleuten 2013; Krefting 1991; Webb et al. 2003; Ham 1999). 


대화는 다음의 것들을 가능하게 한다. 

    • 멤버 체크, 

    • 2차 평가자를 통한 검증, 

    • 검토 및 토론을 통한 평가 프로세스의 장기간 참여 

    • 서로 다른 해석이나 가정들의 표현, 

    • 증거와 분석의 삼각 측량 

    • 상충하는 증거와 판단의 조화

이 모든 것은 합의 이전에 다양성을 허용하며, 이는 전문적 판단의 방어가능성을 향상시키는 데 사용될 수 있다. 또한 이러한 정성적 증거 평가 방법은 [전문직업적 가치]와 같은 덜 유형적인tangible 학습 성과를 포착할 수 있게 한다.

Dialogue allows for member checking, verification with secondary assessors, prolonged engagement in the assessment process through review and discussion, articulation of different interpretations or assumptions, triangulation of evidence and analysis and reconciliation of disconfirming evidence and judgements. All of these things allow for diversity prior to agreement, which can be used to improve the defensibility of the professional judgements (Bacon et al. 2015; Govaerts and van der Vleuten 2013; Krefting 1991; Webb et al. 2003; Ham 1999). These qualitative methods of assessing evidence also allow for less tangible learning outcomes such as professional values to be captured (McCready 2007).


[그룹 구성원의 다양성]은 그룹 구성원이 고려하는 관점의 수를 증가시킴으로써 그룹 기능에 긍정적인 영향을 미칠 수 있다(Hauer et al. 2016). 이는 정보 공유를 촉진하고, 더 많은 그룹 구성원이나 가장 먼저 공유되는 정보에 우선 순위를 매기는 그룹의 경향을 극복하기 위한 전략과 연계될 필요가 있다(Hauer et al. 2016).

Diversity of group members can positively influence group functioning by increasing the number of perspectives considered by group members (Hauer et al. 2016). This needs to be coupled with strategies to facilitate information sharing, to overcome tendances of the group to prioritise information known to more group members or information shared first (Hauer et al. 2016).


그러나 여러 가지 다른 평가 도구에서 복수의 데이터 포인트를 광범위하게 사용할 수 있음에도 불구하고 평가 패널의 판단 결정은 소수의 근거 출처에만 초점을 맞출 수 있다는 점에 주목하였다(Hauer et al. 2015). 더욱이 일부 패널 결정의 검토에서, [우려의 부재]가 마치 [진급할 준비]처럼 해석되어서, 대다수 레지던트에 관한 데이터는 논의되지 않았다(Hauer et al. 2015).

However, it has been noted that judgement decisions from assessment panels may focus on only a few sources of evidence despite the widespread availability of multiple data points from multiple different assessment tools (Hauer et al. 2015). Furthermore, an absence of concern was taken to imply readiness for advancement in a review of some panel decisions, and often the data regarding a majority of residents wasn’t discussed (Hauer et al. 2015).


판단의 타당성 증거 Validity evidence for judgments


타당성 주장을 하려면 증거가 필요하다. 여러 출처와 맥락에서 광범위한 증거를 사용하는 것은 성능 평가의 타당성을 보장할 필요가 있다(Colbert et al. 2015). 판단 결정judgement decision은 관찰된 성과에서 결론과 결정에 이르는 일련의 추론과 가정을 포함한다. 본질적으로 타당성은 근거나 이론적 합리성에 의해 정당화될 수 있는, 해석이 적절하고 적절한 정도를 가리킨다(Govaerts and van der Vleuten 2013). 타당성 주장을 작성하기 위해 적절한 증거를 사용하여 평가자가 작성한 추론과 가정에 대한 타당성 평가가 필요하다(Govaerts and van der Vleuten 2013). 따라서 타당성 추론은 절차적인 측면에서 이루어지는 것이 아니라 판단과 의사결정의 전체 시스템에서 역할을 해야 한다.

Evidence is needed to create validity argument. Using a wide range of evidence from multiple sources and contexts is need to ensure the validity of performance appraisals (Colbert et al. 2015). Judgement decisions involve a series of inferences and assumptions leading from the observed performances to conclusions and decisions. In essence, validity refers to the degree to which the interpretations are adequate and appropriate, as justified by evidence or theoretical rationales (Govaerts and van der Vleuten 2013). Evaluation of the plausibility of the inferences and assumptions made by assessors using appropriate evidence is needed to create a validity argument (Govaerts and van der Vleuten 2013). Validity inferences are therefore not procedural per se, but must play a role in the whole system of judgement and decision-making.


고찰 Discussion


결과 요약 Summary of findings


평가에 인간의 판단을 계속 활용하기 위해서는 이러한 전문가 판단의 공정성을 고려할 필요가 있다. 이 문헌 검토는 공정성이 단순하게 정의될 수 없는 복잡한 구조임을 입증했다. 더욱이, '맥락'은 공정성을 결정하는 데 필수적이며, 어떤 하나의 정의도 여러 환경에 걸쳐 적합하지 않을 것이다. 전문성 문헌을 통해 배웠듯, 공정성이란 [체크리스트를 통해 해결할 수 있는 기술적 또는 단순한 문제]가 아니라 [복잡한 문제]로 프레임을 짜는 것이 중요하다. 전문성 평가에 대한 Ottawa 권고안은 복잡성을 수용했고, 전문성을 개인, 대인관계 및 거시사회(공용) 주제와 함께 다차원적인 것으로 간주했다(Hodges et al. 2011).

To continue to utilise human judgement in assessment, the fairness of these expert judgements needs to be considered. This literature review has demonstrated that fairness is a complex construct which cannot be simplistically defined. Furthermore, context is essential in determining fairness and no one definition will fit across different environments. Learning from the professionalism literature, it is important to frame the problem as the complex problem it is, rather than as a technical or simple problem which can be addressed through checklists (Lucey and Souba 2010). The Ottawa recommendations for the assessment of professionalism embraced complexity and considered professionalism to be multi-dimensional with intrapersonal, interpersonal and macro-societal (public) themes, and interactions between these themes (Hodges et al. 2011). 


Greenhalgh와 Papoutsi (2018)는 보건전문직교육에는 역동적 상호작용과 내러티브를 예측하는 연구 설계와 방법이 필요하며, 시스템 전체가 어떻게 조합되는지에 주목해야 한다고 언급하면서, 이러한 [전체적인holistic 시스템 접근법]을 지지했다. 평가에서 공정한 인간 판단의 단순한 정의는 없지만, 공정성의 기초는 의학교육과 폭넓은 교육 문헌에서 유추된다. 이 검토에서 우리는 이러한 추론, 연구 및 관점을 종합하여 인간 판단의 공정성에 대한 추가 논의를 돕고 이 분야에서 연구와 탐구를 지도하는 데 도움이 되는 개념 모델을 만들려고 시도했다. 이 개념 모델은 복잡성을 수용하는 것을 목표로 하며, 평가에서 가치, 개별 특성 및 시스템 절차를 갖춘 다차원적 인간 판단을 제시한다. 이 모델은 공동 서술과 이해를 제공함으로써 평가에서 공정한 인간의 판단에 대한 기관과 학자들의 내외부 대화를 촉진하는 것을 목표로 한다. 무어는 [문제에 대한 이해당사자들 간에 공통된 이해를 만드는 것]이 핵심이라고 언급했다. 이는 반드시 완전한 합의여야 하는 것이 아니라, "문제에 대한 서로 다른 해석에 대해 지적인 대화를 할 수 있을 정도로 이해 당사자들이 서로의 입장을 잘 이해하고 있으며, 이를 어떻게 해결할 것인가에 대해 집단지성을 발휘하는"(Moore 2011) 것이다.

Greenhalgh and Papoutsi (2018) supported this holistic, systems approach, noting that health professions education needed research designs and methods which foreground dynamic interactions and narratives which paid attention to how systems come together as a whole from different perspectives. Whilst there is no simple definition of fair human judgement in assessment, the underpinning foundations of fairness are inferred in the medical education and broader education literature. In this review we have attempted to bring these inferences, studies and perspectives together to create a conceptual model which can be used as a guide to help further discussions of fairness in human judgement and guide research and exploration in this area. This conceptual model aims to embrace complexity, and present fair human judgement in assessment as multi-dimensional with values, individual characteristics and system procedures. The model aims to facilitate internal and external conversations by institutions and academics about fair human judgement in assessment by providing a shared narrative and understanding. Moore noted that creating shared understanding between stakeholders about the problem was key. This is not necessarily complete agreement, but that “the stakeholders understand each other’s positions well enough to have intelligent dialogue about the different interpretations of the problem, and to exercise collective intelligence about how to solve it” (Moore 2011).


긴장 Tensions


우리는 공정성의 복잡성을 가중시키는 이 개념 모델의 개발에서 몇 가지 긴장감을 드러냈다. 예를 들어, 공정성의 가치로서의 투명성은 신뢰도, 방어성, 목적에의 적합성과 같은 다른 가치와 충돌할 수 있다(Tierney 2012). 투명성은 평가를 학습자에게 알리고 미리 문서화해야 하지만 임상 작업은 예측이 불가능하고 완전한 투명성이란 어려운 일이다. 평가가 목적에 맞으려면, 변화하는 임상 상황에 대처하기 위해 민첩하고 유연하게 대처해야 하지만, 이는 투명성을 제한할 수 있다.

We have revealed several tensions in the development of this conceptual model which add to the complexity of fairness. For example, transparency as a value of fairness can conflict with other values such as credibility, defensibility and fitness for purpose (Tierney 2012). Transparency requires assessment to be known to learners and documented in advance, but clinical work is never predictable and so complete transparency is challenging. If assessment is fit for purpose, it needs to be agile and flexible to respond to the changing clinical situation, however this can limit transparency.


긴장감의 또 다른 예는 모든 학습자에게 '평등한' 치료를 제공하는 것이다. 중립성, 일관성 및 모든 학습자에게 동일한 기회를 제공하는 것은 한 편으로 공정하지만 중립성은 맥락에 따라 독립적이며 이러한 감각은 불공평하다(Eva 2015; Stobart 2005; Tierney 2012). 모든 학습자는 평가에서 동일한 퀄리티의 판단과 의사결정을 받을 권리가 있어야 하지만, 이것이 동일한 과정을 의미하는 것이어서는 안 된다.

Another example of a tension is providing ‘equal’ treatment to all learners. Neutrality, consistency and the providing the same opportunities to all learners is on one hand fair, however neutrality is context independent, and this sense is unfair (Eva 2015; Stobart 2005; Tierney 2012). Every learner is entitled to the same quality of judgement and decision making in their assessment, but this should not mean the same process.


추가적인 긴장은 여러 증거의 필요성과 전문가적이고 전체적인 판단의 균형을 맞추고 있다. 전문 평가인은 일반적으로 맥락적으로 적절하고, 총체적이며 개별화된 판단 결정(Govaerts et al. 2013)을 내리는데, 이는 공정성 관점에서 목적에 적합하다. 그러나 이러한 [총체적 판단]은 학습자의 진행에 대한 결정을 내리는 위원회에 제공할 수 있는 증거의 수가 줄어들 수 있으며, 이는 다른 한편으로는 불공평함을 의미한다.

A further tension is balancing the need for multiple pieces of evidence with expert, holistic judgements. Expert assessors typically make contextually appropriate, holistic and individualised judgement decisions (Govaerts et al. 2013) which from a fairness perspective are fit for purpose. However, these holistic judgements may provide fewer pieces evidence to a committee who are making decisions on a learner’s progression, which on the other hand is unfair.


때로는 환자에게 공평한 것과 학습자에게 공평한 것 사이에 긴장감이 감돌기도 한다. 인간 판단의 공정성에 관한 거의 모든 개인 및 시스템 구성요소는, 평가자, 특히 초보 평가자에게 시간과 훈련을 요구한다. 대부분의 평가자는 바쁜 임상의사여서 환자를 치료하는 데 시간이 걸릴 수 있다. 평가인을 위한 교육의 전문적 발전은 환자에게 영향을 미칠 가능성이 있는 임상적 전문성 개발에도 비용을 들일 수 있다.

At times, there is also a tension between what is fair to patients and what is fair to learners. Almost all individual and system components of fairness in human judgement require time and training for assessors, especially for novice assessors. As most assessors are busy clinicians, this can take time away from treating patients. Professional development in education for assessors can also come at a cost to clinical professional development which has the potential to impact patients.


이러한 긴장과 겉보기에 상충되는 가치나 구성요소를 관리할 필요가 있다. 고버트와 동료들은 평가 시스템이 긴장으로 가득 차 있고 평가에서 인간판단의 공정성도 다르지 않다고 지적한다. 그들은 이러한 긴장이 전통적인 '문제 해결 또는 해결책'에서 관리될 것이 아니라, 긴장을 이해하고 이에 관여하며 최대한 유리하게 활용할 수 있는 양극성polarities으로 볼 것을 제안한다(Govaerts et al. 2019).

These tensions and seemingly conflicting values or components need to be managed. Govaerts and colleagues note that assessment systems are rife with tensions, and fairness in human judgement in assessment is no different. They suggest that these tensions need to managed not in a traditional ‘fix the problem, either-or solutions’ but suggest understanding and engaging with the tensions and seeing them as polarities to be leveraged to maximum advantage (Govaerts et al. 2019).


기존 문헌과의 비교

Comparison with existing literature


우리는 문헌 검색에서 인간의 판단의 공정성에 대한 심층적인 조사를 찾지 못했다. 본 논문 전체에서 우리는 평가, 그 역할, 유익성 및 한계를 고려한 여러 연구와 관점을 인용했다. 우리는 광범위한 문헌을 통합한 리뷰를 만들기 위해 형식적이고 허황된 방법론을 사용하여 이 작품에 추가했다고 믿는다.

We found no in-depth examination of fairness in human judgement in our literature search. Throughout this paper we have cited multiple studies and perspectives which have considered human judgement in assessment, its role, benefits and limitations. We believe we have added to this work by using formal, hermeneutic methodology to create a review which incorporates a wide range of literature.


검토의 답변되지 않은 질문과 제한 사항

Unanswered questions and limitations of the review


이것은 철저한 문헌 검토가 아니라, 복잡한 구조의 패러디한 합성을 생산하려는 시도다. 또한 우리의 주제는 평가의 공정성이 아니라 평가에서 인간의 판단의 공정성에 국한되었다는 점에도 주목할 필요가 있다. 어떤 문헌 리뷰도 편견으로부터 자유롭지 못하다(Eva 2008). 그리고 우리는 이 리뷰도 마찬가지라고 주장하지 않는다. 실제로, 이 리뷰에는 리뷰 적용가능성을 제한할 수 있는 영어 논문만 포함되었다. 또한 이 문헌 검토는 문헌의 복잡성을 줄이는 것을 목표로 하는 것이 아니라, 우리가 수행하는 방식을 지속적으로 개선하고 평가에서 인간의 판단을 활용하려는 공동의 목표를 향해 전진하는 방법을 제공하는 데 도움이 된다. 

This is not an exhaustive literature review, but rather an attempt to produce a parsimonious synthesis of a complex construct. It is also important to note that our topic was confined to fairness in human judgment in assessment not fairness in assessment in general. No literature review is free from bias (Eva 2008) and we do not claim this review is either. Indeed, this review only included English language papers which may limit the reviews applicability. This literature review also does not aim to reduce the complexity of the literature but rather help provide a way forward in our common aim of continuing to improve the way we undertake and utilise human judgement in assessment. 


그는 "적절하게 복잡한 정책 문제에 필요한 모든 증거가 단일 학문으로부터 나오는 것은 드문 일이고, 단일 연구로부터 오는 것은 더 드물다"고 지적하며, 학자들이 정책 입안자와 기관에 제공할 수 있는 가장 유용한 제공물 중 하나는 기존 양적, 질적 정보에 대한 간결하고 통합적인 종합을 생산하여 주제 영역을 이해하도록 돕는 것이다 (Whitty 2015; Greenhalgh and Shaw 2017). 이것이 우리가 여기서 우리의 개념적 모델로 시도했던 것이다.

Whittly noted “it is rare that all the evidence needed for a moderately complex policy problem comes from a single discipline, and rarer still that it comes from a single study” and suggested one of the most useful offerings academics can make to policy makers and institutions is to produce a succinct and integrative synthesis of existing information, incorporating quantitative and qualitative, and make sense of the topic area (Whitty 2015; Greenhalgh and Shaw 2017). This is what we have attempted to do here with our conceptual model.


예상대로, 이 광범위한 검토에도 불구하고, 여전히 답하지 않은 많은 질문들이 있다. 첫째로, 이 분야의 이해당사자들은 문헌과 다른 관점을 가지고 있는가? 전문 평가자, 대학 학자들 그리고 다른 사람들은 현재 전 세계의 많은 평가 프로그램에서 인간의 판단력을 이용하는 방법을 모색하고 있다. 평가에서 문서화되거나 발표되지 않은 인간 판단에 대한 무언의 암묵적 지식이 있는가? 평가 프로그램 내에서 공정한 인간 판단의 실질적인 의미는 무엇인가? 그것은 문헌과 일치하고 그렇지 않다면 왜 안 되는가?

As is to be expected, despite this extensive review, there are still many unanswered questions. Firstly, do the stakeholders in this area hold a different perspective to that of the literature? Expert assessors, university academics and others are currently navigating the use of human judgement in many assessment programs round the world. Is there unspoken tacit knowledge about human judgement in assessment which is not documented or published? What are the practical implications of fair human judgement within their assessment program? Does it match the literature and if not, why not?


둘째, 직장에 기반한 평가의 복잡성을 감안할 때 어떻게 이 개념적 프레임워크를 실용적인 방법으로 사용할 수 있는가? 평가 프로그램이 평가에 인간의 판단을 더 많이 이용하는 경우, 이 개념적 프레임워크를 지침으로 사용할 수 있는가? 학습자, 기관 및 감독자에게 미치는 영향은 무엇인가?

Secondly, how can this conceptual framework be used in a practical manner given the complexity of workplace-based assessment? If assessment programs further utilise human judgement in assessment, then can this conceptual framework be used as a guide? What are the implications for learners, institutions and supervisors?


셋째, 서로 다른 가치들 사이의 긴장을 어떻게 조화시킬 수 있을까? 이러한 가치의 공생, 최대의 이익을 보장하기 위해 무엇이 필요한가? 학습자의 공정성을 달성하려고 노력하는 동시에 환자에게 공정성을 보장하는 방법은 무엇인가?

Thirdly, how can we reconcile the tensions between different values? What is needed to achieve symbiosis of these values, to ensure maximal benefit? How can we also ensure fairness to patients, whilst trying to achieve fairness for learners?


결론 Conclusion


2009년 Gipps와 Stobart는 이렇게 말하였다.

21세기 평가의 도전은 공정성에 대한 우리의 관점을 넓혀 사회문화적 맥락을 보다 충분히 고려하는 것이다. 그러나, 더 큰 사회적 문제들에서 한 발 물러나는 것은 어려운 일이고, 평가 그 자체에 집중하려는 유혹은 편향과 관련되어 있다.

In 2009 Gipps and Stobart said: 

“The challenge for twenty-first-century assessment is to broaden our views of fairness to take fuller account of social and cultural contexts. The temptation, however, is to back away from the larger social issues because they are difficult, and to concentrate on the assessment itself, for example, in relation to bias” (Gipps and Stobart 2009). 


공평성에 대한 우리의 관점을 학습자와 환자 둘 다에 관련되는 것처럼, 단지 객관성을 넘어, 평가에서 인간 판단의 모든 측면과 복잡성을 고려하도록 넓히는 것은 평가 프로그램에서 인간 판단의 지속적인 사용에 도움이 될 수 있다. 본 문헌 검토에서 우리는 [공정한 인간의 판단]을 가치, 개별적 특성 및 시스템 절차를 갖춘 다차원적 복합 개념으로 강조하였다. 이 모델은 이 분야에서 평가와 추가 연구에서 인간의 판단력을 구현하는 데 도움을 주기 위해 사용될 수 있다.

Broadening our view of fairness to consider fairness as it relates to both the learner and to the patient, to look beyond just objectivity and consider all facets and complexity of fairness in human judgement in assessment is likely to be beneficial in our ongoing use of human judgement in assessment programs. In this literature review we have highlighted fair human judgement as a multi-dimensional complex concept with values, individual characteristics and system procedures. This model can be used to help the implementation of human judgement in assessment and further research in this area.








Review

 

. 2020 Oct 29.
 doi: 10.1007/s10459-020-10002-1. Online ahead of print.

Fairness in human judgement in assessment: a hermeneutic literature review and conceptual framework

Affiliations 

Abstract

Human judgement is widely used in workplace-based assessment despite criticism that it does not meet standards of objectivity. There is an ongoing push within the literature to better embrace subjective human judgement in assessment not as a 'problem' to be corrected psychometrically but as legitimate perceptions of performance. Taking a step back and changing perspectives to focus on the fundamental underlying value of fairness in assessment may help re-set the traditional objective approach and provide a more relevant way to determine the appropriateness of subjective human judgements. Changing focus to look at what is 'fair' human judgement in assessment, rather than what is 'objective' human judgement in assessment allows for the embracing of many different perspectives, and the legitimising of human judgement in assessment. However, this requires addressing the question: what makes human judgements fair in health professions assessment? This is not a straightforward question with a single unambiguously 'correct' answer. In this hermeneutic literature review we aimed to produce a scholarly knowledge synthesis and understanding of the factors, definitions and key questions associated with fairness in human judgement in assessment and a resulting conceptual framework, with a view to informing ongoing further research. The complex construct of fair human judgement could be conceptualised through values (credibility, fitness for purpose, transparency and defensibility) which are upheld at an individual level by characteristics of fair human judgement (narrative, boundaries, expertise, agility and evidence) and at a systems level by procedures (procedural fairness, documentation, multiple opportunities, multiple assessors, validity evidence) which help translate fairness in human judgement from concepts into practical components.

Keywords: Assessment; Fairness; Health professions education; Judgement; Subjective.


수행 평가: 2020 오타와 컨퍼런스의 합의문과 권고(Med Teach, 2020)

Performance assessment: Consensus statement and recommendations from the 2020 Ottawa Conference

Katharine Boursicot , Sandra Kemp , Tim Wilkinson , Ardi Findyartini , Claire

Canning , Francois Cilliers & Richard Fuller



도입 Introduction


본 논문은 2010년 오타와 콘퍼런스(이센베르크 2011)에 따른 컨센서스 성명 시리즈의 일환으로 AMEE(유럽의료교육협회)가 의뢰한 2011년 의료교사 성과평가 컨센서스 성명(Boursicot et al. 2011)부터 계속 업데이트하고 있다.

This paper continues from, and updates, the 2011 Performance Assessment Consensus Statement in Medical Teacher (Boursicot et al. 2011) which was commissioned by AMEE (Association for Medical Education in Europe), as part of the series of Consensus Statements following the 2010 Ottawa Conference (Issenberg 2011).


우리는 [학업 및 직장 환경 모두에서 기술과 행동에 대한 평가]로 정의되는 수행 평가를 다룰 것이며, Miller의 임상 역량 수준의 '어떻게 하는지'와 '어떻게 하는지' 수준에서 모범 사례를 다룰 것이다(Miller 1990).

we will address performance assessment, defined as the assessment of skills and behaviours, both in academic and workplace settings, and will address best practice in the ‘shows how’ and ‘does’ levels of Miller’s levels of clinical competence (Miller 1990).


2011년 이후 성과 평가와 관련된 개발 동향 개요

Overview of trends in developments related to performance assessment since 2011


평가 시스템

Systems of assessment


국제적으로, 단순히 개별 도구에만 초점을 맞추는 것이 아니라 평가 시스템을 설계하는 경향이 있었다(Eva et al. 2016; Norcini et al. 2018). 이러한 경향은 [학습 성과에 매핑된 평가 시스템]에 따라 연구 프로그램에 대한 명확한 학습 목표가 일치하면서 역량 또는 결과 기반 의료 교육으로의 세계적global 움직임과 병행되었다(Dijkstra et al. 2010; Lockyer et al. 2017).

There has been a trend internationally to design systems of assessment, rather than just focusing on individual tools (Eva et al. 2016; Norcini et al. 2018). This trend has paralleled the global move to competency or outcomes-based medical education, with clear learning goals for a programme of study being matched by a system of assessment mapped to the learning outcomes (Dijkstra et al. 2010; Lockyer et al. 2017).


지식 응용과 임상 및 의사소통 능력을 시험하기 위한 평가 시스템을 설계하는 것은 비교적 간단하지만, 밀러의 피라미드(Miller 1990)의 'Does' 수준을 시험하기 위한 시스템을 설계하는 것은 더욱 어려웠다. WBA의 사용은 여러 변수가 관련된 복잡한 사업(L€orwald et al. 2019)이다.

While designing a system of assessment for testing knowledge application and clinical and communication skills is relatively straightforward, it has been more challenging to design systems for testing the ‘does’ level of Miller’s pyramid (Miller 1990). The use of WBAs is a complex undertaking (L€orwald et al. 2019) with multiple variables involved.


평가를 위한 유효성 기준

Validity standards for assessment


'타당성 증거의 출처'가 정의된 케인 타당성 프레임워크(Kane 2013a)는 테스트/검사(예: OSCE)에 적용되었을 때 가장 유용하지만 WBA 세계에서도 영향력을 획득했다(Cook et al. 2016; Oudkerk Pool et al. 2018). 이는 특히 WBA에 관한 많은 문헌이 [수치 점수]에서 [학습 지원에 대한 피드백을 중심으로 질적 및 서술적 '점수']로 이동했기 때문에 가치가 높다(Yeates et al. 2015).

The Kane validity framework (Kane 2013a) with its defined ‘sources of validity evidence’ is most useful when applied to tests/examinations (e.g. OSCEs) but has also gained traction in the world of WBAs (Cook et al. 2016; Oudkerk Pool et al. 2018). This is particularly valuable as much of the literature on WBAs has moved from numerical scoring to qualitative and narrative ‘scoring’ with emphasis on feedback for supporting learning (Yeates et al. 2015).


평가자 인식 

Rater cognition


역사적으로, '평가자 오류'와 '평가자 합의'의 결여에 대한 관점은 (비록 약간의 성공이 있었지만) 평가자의 판단이 좀 더 일관되도록 훈련하는 데 초점을 맞추는 결과를 가져왔다(Hodges and McIlroy 2003; Whlan et al. 2005). 지난 10년 동안, 연구는 OSCE 심사원들뿐만 아니라 WBA에서도 격차의 차이를 이해하려고 노력하고, 그러한 차이가 첫 번째 생각만큼 중요한지에 대해 의문을 제기하는 데 있어 더욱 미묘한 차이를 보이고 있다. 최근의 연구는 평가자 분산rater variance이 의미 있고 그러한 차이점을 통제하기 보다는 수용해야 한다고 제시한다(Gingerich et al., 2017; Govaerts et al., 2013; Chahine et al. 2016).

Historically, perspectives of ‘rater error’ and lack of rater agreement have resulted in a focus on training examiners to be more consistent in their judgements albeit with variable success (Hodges and McIlroy 2003; Whelan et al. 2005). In the last 10years, research has become more nuanced in trying to understand rater differences, not only for OSCE examiners but also in WBA, and questioning whether such differences are as important as first thought. Recent work suggests that rater variance is meaningful and such differences should be embraced rather than controlled (Gingerich et al. 2011, 2017; Govaerts et al. 2011, 2013; Chahine et al. 2016).


피드백 Feedback


피드백을 대화형 과정, 대화 또는 학습 대화로 보는 것은 이제 일반적이다(Ossenberg et al. 2019). 이 작품은 피드백 제공의 역학에서 벗어나, 관계(Ramani와 Krackov 2012)에 중점을 두고 피드백을 활용하여 학습을 촉진(Eva et al. 2016)했다. 피드백에 대한 학습자 행동learner action 확보(Hattie 및 Clarke 2018)과 교육, 평가 및 피드백 간의 연결의 중요성은 계속적으로 필수적이다(van der Lew et al. 2018; Watling and Ginsburg 2019). 이제 학습 문화와 피드백으로부터의 학습 사이의 연관성에 대한 관심이 높아지고 있다(Watling et al. 2014; Ramani et al. 2019). 대화를 통한 질적 피드백 기회(Tekian et al. 2017)와 (학습자에게) 의미 있는 피드백에 집중하는 기회가 강조된다(Voyer et al. 2016; LaDonna et al. 2018).

Viewing feedback as an interactive process, a dialogue, or a learning conversation is now common (Ossenberg et al. 2019). This work has shifted emphasis towards relationships (Ramani and Krackov 2012) and harnessing feedback to promote learning (Eva et al. 2016), away from the mechanics of providing feedback. Ensuring learner action on feedback (Hattie and Clarke 2018) and the importance of the connection between teaching, assessment, and feedback continue to be integral (van der Leeuw et al. 2018; Watling and Ginsburg 2019). There is now increased attention to the links between the learning culture and learning from feedback (Watling et al. 2014; Ramani et al. 2019). Opportunities for qualitative feedback through conversation (Tekian et al. 2017) and focus on meaningful (to the learner) feedback are emphasised (Voyer et al. 2016; LaDonna et al. 2018).


객관적 구조화 임상 검사(OSCE)

Objective structured clinical examinations (OSCEs)


세계적으로 OSCE는 검사 환경에서 임상 및 통신 기술을 테스트하기 위한 평가 방법이 되었다(Khan et al. 2013; Harden 2016; Boursicot et al. 2018).

Globally, OSCEs have become the assessment method of choice for testing clinical and communication skills in an examination setting (Khan et al. 2013; Harden 2016; Boursicot et al. 2018).


섹션 1: OSCE의 의도된 용도 또는 목적에 대한 명확한 설명.

섹션 2: OSCE의 결과에 기초하여 이루어진 추론과 결정을 뒷받침하고 정당화할 수 있는 의미 있는 증거.

제3장: 내린 결정을 변호하기 위한 '논의' 또는 정당성.

Section 1: a clear statement of intended use or purpose for the OSCE.

Section 2: meaningful evidence to support and justify the inferences and decisions made on the basis of the outcomes of the OSCE.

Section 3: the ‘argument’ or justification for defending the decisions made.


섹션 1: 용도

Section 1: Intended use


OSCE는 임상 및 의사소통 기술을 시험하는데 사용되어야 한다. 이는 원래 설계 의도(Harden 및 Gleeson 1979년)였으며, 여전히 이 평가 형식(Harden 2016)의 사용에 기초하는 핵심 원리로 남아 있다.

OSCEs should be used to test clinical and communication skills. This was the original design intention (Harden and Gleeson 1979) and still remains a key principle underlying the use of this assessment format (Harden 2016).


OSCE의 목적 진술문purpose statement은 [설계와 전달에서 데이터와 결과의 분석까지] OSCE 프로세스의 모든 단계를 뒷받침해야 한다(Daniels and Pugh 2018). 어떤 평가 방법과 마찬가지로, OSCE의 목적은 예를 들어, 교수진, 후보자, 심사원, 고용주, 규제 기관 및 대중 등 모든 이해관계자에게 명시되어야 한다.

The purpose statement for the OSCE should underpin all stages of the OSCE process, from design and delivery, to analysis of the data and outcomes (Daniels and Pugh 2018). As with any assessment method, the purpose of the OSCE should be made explicit to all stakeholders: for example, faculty, candidates, examiners, employers, regulatory bodies, and the public.


제2장: 유효성 증거의 출처

Section 2: Sources of validity evidence


내용 Content


OSCE의 내용에 대해 명시적으로 설명해야 하며, 테스트의 내용이 테스트해야 할 내용을 적절하게 테스트할 수 있도록 해야 한다(Downing 2003). OSCE를 학습 목표/결과로 설계하는 것은 모든 시험을 계획하는 데 있어 필수적인 단계다(Coderre et al. 2009; Sales et al. 2010; Raymond and Grande 2019). 시험 대상과 학습 목표/결과 사이에 명확한 관계가 있어야 하며, 적절한 매핑(건설적 정렬)을 입증해야 한다(Biggs 1996). 블루프린팅은 코스 내용 영역이 적절히 테스트된다는 것을 증명할 뿐만 아니라 서로 다른 영역에 걸쳐 테스트되는 기술의 균형을 상세하게 설명해야 한다.

There should be an explicitly stated explanation for the content of the OSCE, to ensure that the content of the test does test appropriately what it is supposed to be testing (Downing 2003). Blueprinting an OSCE to learning objectives/outcomes is an essential step in the planning of any examination (Coderre et al. 2009; Sales et al. 2010; Raymond and Grande 2019). There should be a clear relationship between what is being tested and the learning objectives/outcomes, demonstrating appropriate mapping (constructive alignment) (Biggs 1996). Blueprinting should detail the balance of skills being tested across different domains as well as demonstrate that the course content areas are appropriately tested.


OSCE에서 시험해야 하는 일반적인 역량은 다음과 같다.

The typical competencies which should be tested in an OSCE are:

        •    병력청취 기술

        •    신체검사 기술.

        •    설명/자문/협의형 커뮤니케이션 기술

        •    실용적/테크니컬 스킬.

        •    임상적 추론 기술(보여지는 환자와 관련됨)

   History taking skills.  

   Physical examination skills.

   Explanation/advice/consent type communication skills.

   Practical/technical skills.

   Clinical reasoning skills (related to the patient being seen).


OSCE에 (구조화된) 구두 토론, 객관식 질문(MCQ) 또는 단답형 질문(SAQ)을 포함시키는 것은 부적절하며 OSCE의 타당성에 심각한 위협을 가한다. 이는 임상 기술을 입증해야 하는 활동이 아니기 때문이다(Downing and Haladyna 2004).

The inclusion of (structured) oral discussions, Multiple Choice Questions (MCQs), or Short Answer Questions (SAQs) in an OSCE is inappropriate and poses a serious threat to the validity of an OSCE, as these are not activities which require the demonstration of clinical skills (Downing and Haladyna 2004)


내부구조

Internal structure


OSCE를 구성할 때는 충분한 샘플링 계획(스테이션 수, 스테이션 길이, 검사자)에 주의를 기울여야 한다. 이는 OSCE 블루프린트에서 입증되어야 한다. 불충분한 샘플링은 방어할 수 있는 합격/불합격 결정을 내리는 데 충분한 데이터를 제공하지 못할 것이다. 12개 스테이션 이하 및/또는 150분 미만의 테스트 시간으로 구성된 OSCE는 신뢰할 수 있는 결과를 산출하지 못할 것이다(Sandson 등 1999년).

When constructing the OSCE, attention should be paid to planning sufficient sampling (numbers of stations, length of stations, examiners). This should be demonstrated in the OSCE blueprint. Insufficient sampling will not provide sufficient data on which to make defensible pass/fail decisions. OSCEs consisting of less than 12 stations and/or less than 150min of testing time will not yield reliable results (Swanson et al. 1999).


적절한 표시/점수 체계를 선택해야 한다. OSCE가 처음 개발되었을 때는 체크리스트에 의해 점수가 매겨졌지만, 시간이 지남에 따라 [등급 척도rating scale]가 더 진보된 임상 학습자를 평가하는데 더 적합한 것으로 나타났다(Hodges et al. 1999; Ilgen et al. 2015). 그러나 일부 논쟁은 여전히 계속되고 있으며(Yudkowsky et al. 2014; Pugh et al. 2016; Wood and Pugh 2020) 적절한 경우 등급 척도와 체크리스트를 신중하게 결합할 수 있다(특히 기술력 테스트의 경우).

An appropriate marking/scoring scheme should be chosen. When OSCEs were first developed, the scoring was by checklists, but over time rating scales were shown to be more appropriate in assessing more advanced clinical learners (Hodges et al. 1999; Ilgen et al. 2015). However, some debate still continues (Yudkowsky et al. 2014; Pugh et al. 2016; Wood and Pugh 2020) and it is possible to carefully combine rating scales and checklists where appropriate, particularly for technical skills testing.


표준 설정의 경우, 2011년 컨센서스 성명(Boursicot et al. 2011)에서 논의한 바와 같이, 보더라인 회귀 분석 방법은 현재 OSCE의 표준 설정 방법(Hejri et al. 2013; McKinley and Norcini 2014; Yousuf et al. 2015)으로 간주되고 있다. 지원자의 수가 적을 경우 오류 발생원에 대한 보다 세심한 검토가 필요하다(Homer et al. 2016, 2020).

For standard setting, as discussed in the 2011 Consensus Statement (Boursicot et al. 2011), the Borderline Regression Method is currently regarded as the standard setting method of choice for OSCEs (Hejri et al. 2013; McKinley and Norcini 2014; Yousuf et al. 2015). With small cohorts of candidates, more careful consideration of sources of error are required (Homer et al. 2016, 2020).


적절한 정신측정학 분석을 수행해야 한다. OSCE에 대한 품질보증의 중요한 부분은 신뢰성과 스테이션 레벨 문제를 검사하기 위한 심리측정학 분석 수행이다(Pell et al. 2010; Fuller et al. 2013).

Appropriate psychometric analyses should be conducted. A crucial part of the quality assurance for OSCEs is the conduct of psychometric analyses to examine reliability and station level issues (Pell et al. 2010; Fuller et al. 2013).


응답 프로세스 Response process


채점 체계(또는 채점 일정)는 [평가하려는 임상 과제의 특성 측면]과 [평가자의 사고]에 맞춰야 한다(Daniels and Pugh 2018). 이 두 가지 측면 모두 세심한 배려가 필요하다. [체크리스트의 남용은 과제를 trivialize시킬 위험]을 유발할 수 있는 반면, [등급 척도의 남용은 신뢰도 저하로 이어질 수 있다는 우려]가 있었다(Wood and Pugh 2020). 후자의 우려는 위에서 설명한 바와 같이, 실제로 문제가 되는 것 같지는 않다. 채점 스킴을 구성하려면 다음 두 가지 측면을 고려해야 한다. 

      • (1) 채점 체계 언어를 임상 사고에 맞추어 조정한다(Weller et al. 2009) 

      • (2) 임상적 의사결정에 도달하기 위한 핵심 단계를 설명하고 채점 체계와의 정렬을 보장하는 핵심 기능을 사용한다(Pugh et al. 2016).

두 경우 모두 좋은 교육 설계는 [시험관 인지 부하를 줄일 수 있고, 단지 일상적인 행동으로 응시자에게 점수를 주지 않기 때문에] 진정성을 도울 수 있다.

Marking schemes (or scoring schedules) need to align to the aspects of the clinical task under scrutiny and to examiner thinking (Daniels and Pugh 2018). Both these aspects require careful consideration. Overuse of checklists can risk trivializing the task, while there has been concern that overuse of rating scales leads to poorer reliability (Wood and Pugh 2020). The latter concern, as outlined above, does not seem to be borne out in practice. Constructing marking schemes involves considering two aspects: 

      • (1) aligning the marking scheme language to clinical thinking (Weller et al. 2009) and 

      • (2) using key features whereby the key steps to reach a clinical decision are elucidated and then ensuring alignment with the marking scheme (Pugh et al. 2016). 

In both cases, good instructional design can reduce examiner cognitive load, and help authenticity through avoidance of giving marks to candidates for just routine actions.


평가자 교육은 OSCE 구현의 중요한 부분으로 간주되어 왔다. 평가자 훈련이 효과적이라는 증거는 혼합되어 있으며(Hodges and McIlroy 2003; Pell et al. 2008; Schurouttpelz-Brauns et al. 2019; Yeates et al. 2019) '표준화된 평가자'의 생산을 시도하는 것은 아무런 결실도 없어 보인다. 대신에, 다수의 관측자가 다수의 관측을 하게 만듦으로써 더 큰 신뢰성이 발생할 수 있다. 이는 충분한 샘플링이 있는 경우 OSCE가 신뢰할 수 있는 이유 중 하나로 인식된다. 이제 시험관 다양성을 수용하는 것이 유리할 수 있으며, 평가자 가변성은 종종 스테이션 설계 문제와 채점 체계(Fuller et al. 2017)의 결과일 수 있다는 견해도 있다. 이러한 주장은 임상 작업이 복잡하고 다차원적이라는 인식에 근거한다. 이것은 서로 다른 평가자들은 서로 다른 차원을 잘 볼 수 있고, detractor가 아니라 타당성에 기여하는 것으로 보일 수 있다는 것을 의미한다. 평가자 훈련은 점점 더 심사관의 행동, 행동 및 의식과 무의식적인 편견의 인식에 초점을 맞추고 있다.

Examiner training has been considered an important part of OSCE implementation. The evidence that examiner training is effective is mixed (Hodges and McIlroy 2003; Pell et al. 2008; Sch€uttpelz-Brauns et al. 2019; Yeates et al. 2019) and it seems fruitless to attempt to produce ‘standardised examiners’. Instead, greater reliability can arise from using multiple observations by multiple observers. This is now recognized as one of the reasons that OSCEs are reliable, if there is sufficient sampling. There is now also a view that embracing examiner diversity could be an advantage, and that apparent examiner variability can often be the result of design issues in station and marking schemes (Fuller et al. 2017). This argument is based on the realization that clinical tasks are complex and multidimensional. This means that different examiners may well look at different dimensions from each other and can be seen as contributor to validity rather than a detractor. Examiner training increasingly focuses on examiner conduct, behaviours, and recognition of conscious and unconscious bias.


OSCE에 대한 시험 보안은 논쟁의 대상이 되어왔다. 임상 기술에 대한 평가는 지원자가 자신이 알고 있는 것에 기반하여 자신이 할 수 있는 것을 증명해야 한다. 기술을 수행하는 능력은 연습과 경험이 필요하다. 그러므로 그 일을 미리 알고 있는 것이 얼마나 후보자에게 실질적인 이점을 제공하는지 의문이다. 예를 들어, 24시간 전에 과제가 나쁜 소식을 전하는 것과 관련이 있다는 것을 아는 것은 후보자가 짧은 시간 내에 이 분야에서 그들의 기술을 향상시킬 수 있다는 것을 의미하지 않는다. 이는 OSCE에서 엄격한 시험 보안(예: '시퀀시스터' 또는 장기간 격리)의 필요성에 의문을 제기한다. 보고서는 상반된 결과를 주장하고 다른 제안을 제공한다(Cohen et al. 1993; Niehaus et al. 1996; Gotzmann et al. 2017). 그러나 보안이 위태로워졌을 때 그 영향은 미미해 보인다. 후보들에 대한 공정성 대책에는 모든 후보가 더 짧은 시간 내에 일련의 스테이션을 통과하도록 하는 스테이션 그룹화와 세션에 걸친 피평가자의 무작위 할당, 체계적 편차variation에 대한 데이터 분석 등이 포함될 수 있다(Ghouri et al. 2018).

Test security for OSCEs has been subject to debate. Assessment of clinical skills requires a candidate to demonstrate what they can do, underpinned by what they know. The ability to perform a skill requires practice and experience. It is therefore questionable the extent to which knowing the task in advance offers any substantial advantage to a candidate. For example, knowing 24h in advance that the task relates to breaking bad news is unlikely to mean a candidate could improve their skills in this area in a short time frame. This questions the necessity for stringent exam security in an OSCE (such as ‘sequestering’ or quarantining for long periods). Reports argue conflicting outcomes and offer different suggestions (Cohen et al. 1993; Niehaus et al. 1996; Gotzmann et al. 2017). However, when security has been compromised the effect seems minimal. Measures for fairness to candidates can involve grouping stations so all candidates pass through a set of stations in a shorter time frame, random allocation of candidates across sessions, and analysis of data for systematic variations (Ghouri et al. 2018).


다른 변수에 대한 관계

Relationship to other variables


OSCE의 수행 결과가 의대생(Wilkinson 및 Frampton 2004)의 임상 성과뿐만 아니라 국가 수준의 임상 시험 성과(Simon et al. 2002;)와 잘 상관관계가 있다는 증거가 증가하고 있다.

There is increasing evidence that the outcomes of performance in OSCEs correlate well with clinical performance of medical students (Wilkinson and Frampton 2004) as well as performance in national level clinical examinations (Simon et al. 2002;Pughetal.2016; Tannenbaum and Kane 2019).


평가에 대한 프로그램적 접근법을 취하는 것의 원칙 중 하나는 모든 개별 평가 에피소드 후에 반드시 판단을 내리는 것이 아니라, [body of evidence에 대해서 결정이 이루어져야 한다]는 것이다. 이는 평가방식별 의사결정이 아니라, 영역별 의사결정의 가능성도 열어준다. 예를 들어, 학습자가 병력청취 학습에 필요한 표준에 도달했는지 판단하는 것은 OSCE의 구성요소로서 병력청취, Mini-CEX의 구성요소에서의 병력청취 및 환자 의견 조사에서의 병력청취 등으로부터 가져올 수 있다. 의사결정에 정보를 활용할 때 이러한 데이터의 삼각측량을 [강력한 의사결정의 중요한 구성요소]로 본다.

One of the tenets of taking a programmatic approach to assessment is that decisions should be made on a body of evidence, not necessarily after every assessment episode. This also opens up the possibility of making decisions by domain rather than by assessment method. For example, determining if a learner has reached the required standard for history taking might draw on the history taking components of an OSCE, together with the history taking components of a Mini-CEX, and alongside the history taking components of a patient opinion survey. We see this triangulation of data in informing decisions as an important component of robust decision making (Torre et al. 2020).


결과들

Consequences


OSCE를 종합적 목적으로 사용할 경우, 합격/불합격 결정은 입증된 최선의 방법(Yousf et al. 2015)을 사용하여 표준 설정에 기초하여 결정이 견고하고 공정하며 방어할 수 있도록 하는 것이 중요하다. OSCE를 오로지 형성적 목적으로만 사용하는 경우에도 타당성 기준을 충족해야 생산되는 정보가 의미가 있다(Tannenbaum과 Kane 2019). OSCE를 실시할 때 중요한 측면은 이 평가 방법을 사용할 경우의 교육적 영향(즉, 학생들은 임상, 의사소통, 실무/기술적 기술을 수행하는 학습에 초점을 맞추게 된다)을 고려하는 것이다.(Pugh et al. 2018).

When OSCEs are used for summative purposes, it is important that pass/fail decisions are based on standard setting using the best evidenced method (Yousuf et al. 2015), to ensure that decisions are robust, fair, and defensible. Even when OSCEs are used solely for formative purposes, they should fulfil validity criteria so the information produced is meaningful (Tannenbaum and Kane 2019). An important aspect of conducting OSCEs is to consider the educational impact of using this assessment method: students will focus on the learning to perform clinical, communication, and practical/technical skills (Pugh et al. 2018).


궤적을 학습하고 수험생에게 의미 있는 피드백을 제공하는 데 중요한 동기 요소로 피드백의 효과를 과소평가할 수 없다(Humphrey-Murto et al. 2016; Tekian et al. 2017; Ossenberg et al. 2019).

The effect of feedback cannot be underestimated as a critical motivating factor in learning trajectories and producing meaningful feedback for test-takers should be routine (Humphrey-Murto et al. 2016; Tekian et al. 2017; Ossenberg et al. 2019).


제3장: '논의/명분'

Section 3: The ‘argument/justification’


모든 유효성 근거의 출처를 취합하여 시험 점수의 결과에 기초하여 내린 결정을 정당화해야 한다(Downing and Haladyna 2004; Kane 2013b). 이러한 분석에서 나타나는 취약 영역은 품질 개선을 알릴 수 있다. 시험 점수에 기초한 결정을 정당화하기 위한 점수-일반화-외삽-함의(Cook et al. 2015)의 적용은 OSCE의 품질 보증의 중요한 척도다.

All sources of validity evidence should be gathered to justify any decisions made based on the results of the test scores (Downing and Haladyna 2004; Kane 2013b). Areas of weakness which emerge from such analyses can inform quality improvement. Application of the scoring–generalisation–extrapolation–implications to justify the decisions based on the test scores (Cook et al. 2015) is an important measure of quality assurance for an OSCE.


OSCE에 대한 권장 사항

Recommendations for OSCEs


OSCE에 대한 권고사항은 표 1에 요약되어 있다. 2011 Consensus Statement에서 여전히 유효한 중요한 메시지에는 다음에 대한 권고사항:

The recommendations for OSCEs are summarised in Table 1. Important messages that are still valid from the 2011 Consensus Statement include recommendations for:

  • [시험의 목적을 정의]하고 OSCE를 사용하여 [임상 상호작용을 테스트]한다.

  • OSCE를 학습 목표/성과를 블루프린팅

  • OSCE에 (잘 인정받는) 준거참조 기준설정 방법 – Borderline Regression Method을 사용

  • OSCE의 콘텐츠가 충분한 스테이션과 테스트 시간을 통해 적절하게 샘플링되도록 보장한다.

Defining the purpose of testing and using an OSCE to test clinical interactions.

Blueprinting the OSCE to learning objectives/outcomes.

Using a recognized criterion referenced standard setting method appropriate for OSCEs – Borderline Regression Method.

Ensuring content in the OSCE is adequately sampled through sufficient stations and testing time.


2011년 이후 문헌에서 나타난 새로운 측면에는 다음과 같은 권고사항이 있다.

New aspects that have emerged from the literature since 2011 include recommendations to:

  • OSCE가 평가 시스템의 일부로 설계되었는지 확인하십시오.

  • 타당성 프레임워크 기준을 준수하고 OSCE 점수 해석을 위한 증거를 수집하십시오.

  • 등급 척도 대 체크리스트의 사용을 고려하여 적절한 표시 방식을 설계하고 채점 방식을 임상의 언어에 맞게 조정하십시오.

  • 심사관의 판단을 표준화하기보다는 평가자의 수를 충분히 보장함으로써 평가자의 가변성을 수용한다.

  • 그룹 스테이션에 대한 작업 설계 및 OSCE 회로 설계를 통해 테스트 보안을 처리한다.

  • OSCE는 MCQ를 사용한 테스트와 같은 다른 평가 방법과 비교하여 메트릭에 대한 다른 접근 방식을 요구하므로 적절한 메트릭스를 생성하십시오.

  • OSCE 데이터를 다른 평가와 삼각측량하여 중요도가 높은 의사 결정을 통보한다.

Ensure OSCEs are designed as part of a system of assessment.

Adhere to validity framework criteria and gather evidence for the interpretation of the OSCE scores.

Design an appropriate marking scheme by considering the use of rating scales versus checklists and align marking scheme to the language of clinicians.

Embrace examiner variability by ensuring sufficient numbers of examiners, rather than trying to standardize their judgements.

Handle test security through task design and OSCE circuit design to group stations.

Generate appropriate metrics given that OSCEs require a different approach to metrics compared to other assessment methods such as tests using MCQs.

Triangulate OSCE data with other assessments to inform high-stakes decision making.



Workplace-based assessments (WBAs)


WBA 도구 사용 

Uses of WBA tools


WBA 도구 사용 방법은 중요하며 성공에 필수적이다. WBA 도구 또는 도구 세트의 '의도한 사용'과 WBA 데이터에서 이루어진 결정은 타당성 증거의 중요한 원천이다(Kane 2013a). 타당성이 도구 자체의 특성이 아니라는 점을 고려할 때(AERA et al. 2014), 단일 WBA 도구 안에서의 variation 간 비교보다는 도구가 사용되는 방법이 더 중요하다.

How WBA tools are used is important and integral to success. The ‘intended use’ of the WBA tool, or set of tools, and decisions made from WBA data are important, essential sources of validity evidence (Kane 2013a). Given that validity is not a property of the instrument itself (AERA et al. 2014), comparisons between variations in a single WBA tool design are not as critical as how the tool is used.


각 단일 WBA 도구는 통합되고 일관성 있는 WBA 세트의 일부로 설계 및 구현되어야 한다. WBA 세트는 더 넓은 평가 시스템에 내장되거나 그 자체로 평가 시스템으로 볼 수 있다. 따라서 좋은 평가 시스템의 기준에 주의를 기울여야 한다. 그런 다음 WBA를 하나의 시스템(또는 시스템의 일부)으로 설계하면 평가의 프로그램적 접근방법에 따라 학습의 종적 측면, 도구들의 신중한 조합(Govaerts and Van der Vleuten 2013), 훈련 단계의 정렬에 대한 주의를 유발한다(Schuwirth and Van der Vleuten 2011).

Each single WBA tool should be designed and implemented as part of an integrated, coherent set of WBAs. The set of WBAs can be embedded in a wider system of assessment or seen as an assessment system in itself. Therefore, attention should be given to the criteria for et good systems of assessment (Norcini al. 2018). Designing WBAs as a system (or part of system) then triggers attention to the longitudinal aspects of learning, careful combination of tools (Govaerts and van der Vleuten 2013), and alignment to the stage of training, in keeping with theories of programmatic approaches to assessment (Schuwirth and Van der Vleuten 2011).


WBA의 목적 

Purposes of WBAs


(시스템 또는 시스템의 일부로서) WBA 세트를 설계하는 것이 목적에 부합한다. 목적은 WBA 평가 시스템 내에서 서로 다른 단계에서 다를 수 있다. 

    • 예를 들어, 통합된 WBA 세트는 주로 [형성적 목적]을 위해 설계될 수 있다(학습 강화). 이 목적은 학습자가 피드백에 대해 조치를 취할 수 있는 서술적 피드백과 기회를 미리 파악한다. 

    • 이와 달리 [총괄적 목적]을 위해 설계된 WBA 세트(예: 다음 단계의 훈련 준비 상태에 대한 판단)도 있다. 이 목적은 충분한 데이터 지점의 생성(즉, 다중 관측), 심리학적 특성(평가의 의도된 사용에 적절한 경우), 사전 정의된 표준을 충족하기 위한 성과에 대한 방어 가능한 해석을 중요시한다. 

프로그램적 접근방식은 학습 향상에 초점을 맞춘 일련의 낮은 이해도 WBA와 함께 연속적으로 설계된다. 종방향으로 수행되는 복수의 저위험 WBA는 궁극적으로 종합판정에 사용되는 정보를 제공할 수 있다(Schuwirth and van der Vleuten 2012; Torre et al. 2020).

The design of the set of WBAs (as a system or part of a system) will align with the purpose/s. Purposes may differ at different stages within the WBA system of assessment. 

    • For example, an integrated set of WBAs might be designed primarily for formative purposes (to enhance learning). This purpose foregrounds narrative feedback and opportunities for learners to take action on feedback. 

    • This is in contrast to a set of WBAs designed primarily for summative purposes (e.g. to make judgements about readiness for next stage of training). This purpose foregrounds the generation of sufficient data points (i.e. multiple observations), attention to psychometric properties (where appropriate for the intended use of the assessment), and a defensible interpretation of achievement to meet pre-defined standards. 

Programmatic approaches are designed on a continuum, with a series of low stakes WBAs that focus on enhancing learning. Multiple low stakes WBAs conducted longitudinally can ultimately provide information used for a summative judgment (Schuwirth and van der Vleuten 2012; Torre et al. 2020).


학습 및 학습 행동에 미치는 영향

Effects on learning and learning behaviours


WBA의 피드백은 작업 방법(임상 기술), 학습 방법(학습에 대한 계정성) 및 느낌 방법(감정적 웰빙)에 따른 영향을 준다는 증거가 있으며, 교육생에게 다양한 영향을 미친다(Voyer et al. 2016). WBA는 감독자(Sabey and Harris 2011; Barrett et al. 2016)와의 접촉 시간을 늘리거나 보호하는 데 유용하고 피드백의 빈도나 품질을 개선하는 것을 포함하여 학습 과정에 바람직한 영향을 미친다(Weller et al.). 2009; Barrett 등 2016). 이러한 현상이 발생하는 학습 환경은 피드백과의 연관성에 상당한 영향을 미친다(BingYou et al. 2019). 연습자 기관, 소속 또는 존중에 [부정적인 영향을 미치는 분위기]는 피드백 효능을 저해할 가능성이 더 높다(Sargeant et al. 2009. 궁극적으로 피드백은 근무지에서의 학습과 관련된 것에 초점을 맞출 필요가 있다(van der Lew et al. 2018). 이것은 일반적으로 숫자/점수의 등급 척도를 포함하는 WBA가 학습자에게 직장에서 개선 방법을 알려주기에는 한계가 있는 부분이다(Hattie and Timperley 2007; Bing-You et al. 2017). 기술이 변화함에 따라 피드백에 대한 빅데이터 및 학습 분석(Tekian et al. 2017; Van der Schaaf et al. 2017)을 포함한 기술 사용 사례(Joynes Fuller 2016)가 점점 늘어나고 있다.

Feedback from WBAs has a range of effects on trainees, with some evidence of benefits accruing to ways of working (clinical skills), ways of learning (accountability for learning), and ways of feeling (emotional wellbeing) (Voyer et al. 2016). WBAs have desirable effects on the process of learning including being useful for increasing (or protecting) contact time with supervisors (Sabey and Harris 2011; Barrett et al. 2016) and improving the frequency or quality of feedback (Weller et al. 2009; Barrett et al. 2016). The learning climate within which this takes place significantly influences the nature of engagement with feedback (BingYou et al. 2019). A climate that negatively influences trainee agency, affiliation or esteem is more likely to undermine feedback efficacy (Sargeant et al. 2009). Ultimately, feedback needs to focus on what is relevant to the learning in the workplace (van der Leeuw et al. 2018). This is where WBAs that commonly include a rating scale with numbers/ scores have limitations for informing learners about how to improve (Hattie and Timperley 2007; Bing-You et al. 2017) in the workplace. As technologies change, there are of and increasing examples uses of technology (Joynes Fuller 2016) including big data and learning analytics for feedback (Tekian et al. 2017; van der Schaaf et al. 2017).


또한 WBA는 바람직하지 않은 학습 효과를 유발할 수 있다. WBA를 학습의 메커니즘이라기 보다는 [체크박스 연습에 지나지 않는다]고 보는 교육생들의 시각은 지난 10년 동안 지속적인 관심사로 남아 있다(Bindal et al. 2011; Barrettt et al. 2017). WBA에서 척도/숫자의 유행이 한 가지 원인이 되며, 등급 척도를 사용할 때 설계는 진정한 임상 성과를 반영하는 descriptor의 문구에 주의를 기울여야 한다(Crossley and Jolly 2012). 또 다른 요인은 WBA가 총괄적 목적으로 사용될 때 [관대한 평가자를 찾는 학습자의 전략적이고 바람직하지 않은 행동]을 유발하는 방식으로 사용되는 점이다. 예를 들어, 결과가 좋지 않거나 복잡도가 높은 환자 사례에 대한 논의를 회피하고, 필요한 최소 수의 WBA만 수행하고, 단계별 성과를 창출하며, 더 긍정적인 점수를 기대하면서 '널널한' 평가자를 찾는 학생/수련생이 이에 해당한다(빈달 외 2011; 매시 앤 알리 2016; 바렛 외 2017).). 이는 학습자 분석에서 병행되는 작업에 의해 반영되며, 단순한 '계측 및 측정counting and measuring'에만 초점을 맞추면 불안, 주의 산만 및 실패가 증가하면서 학습자 참여에 해로운 영향을 미칠 수 있다(Foster and Francis 2019; Archer and Prinsloo 2020).

WBAs can also induce undesirable learning effects. Trainees’ perspectives of WBAs as being no more than a tick-box exercise, rather than a mechanism for learning, has remained an ongoing issue of concern for the past decade (Bindal et al. 2011; Barrett et al. 2017). The prevalence of scales/numbers on WBAs is one contributing factor and when rating scales are used, design should pay attention to wording of descriptors that reflect authentic clinical performance (Crossley and Jolly 2012). Another factor is where WBAs are used primarily for a summative purpose in a way that encourages strategic, and undesirable, behaviours from learners who seek lenient assessors. These include, for example, students/trainees avoiding discussion of patient cases with poor outcomes or a high degree of complexity, undertaking only the minimum number of WBAs required, generating a staged performance, and seeking ‘friendly’ assessors, hoping for a more positive score (Bindal et al. 2011; Massie and Ali 2016; Barrett et al. 2017). This is mirrored by parallel work in learner analytics, where a focus on simply ‘counting and measuring’ assessment may also lead to detrimental effects on learner engagement, with increased anxiety, distraction and failure (Foster and Francis 2019; Archer and Prinsloo 2020).


다른 상황에서는, [평가자와의 권력 관계의 특성]이 피드백 획득에 대한 학습자의 신뢰도와 평가자의 성과 향상 약속에 대한 신뢰에 영향을 미친다(Yang and Carless 2013). 이를 통해 학습자가 자신보다 더 박식하다는 인상을 주려고 노력하는 '수행능력을 연기하는staging a performance'(LaDonna et al. 2017) 현상이 나타날 수 있는데, 이는 종합평가에서 자신들에게 불리할 수 있는 약점을 감추기 위한 것이다. 학습자가 encounter의 

    • 부담stakes이 낮다고 인식하는 경우, 더욱 '이 encounter에서 무엇을 배울 수 있는가'를 묻는 방식으로 접근할 수 있다. 

    • 부담이 높다고 인식되는 경우, '인상 관리'는 응답, 확립된 문헌 판단의 미러링 및 '인상 형성'에 대해 학습자 평가자가 더 가능성이 높다.

In other settings, the nature of a power relationship with an assessor influences learner confidence in obtaining feedback and their trust in the assessor’s commitment to enhancing their performance (Yang and Carless 2013). This can lead to the phenomenon of ‘staging a performance’ (LaDonna et al. 2017) where learners try to give the impression that they are more knowledgeable than they are, driven to hide weaknesses that may count against them in summative assessment. 

    • Where learners perceive the stakes in an encounter to be low/none, they are more likely to approach the encounter asking ‘what can I learn from this encounter’. 

    • If the stakes are perceived to be high, ‘impression management’ is the more likely learner assessor about response, mirroring established literature judgements and ‘impression formation’.


WBA 시스템의 설계는 학습 과정을 강조하고 학습자의 행동을 최소화하거나 제거하여 학습 비용을 절감하는 학습자 행동을 촉진해야 한다. 다양한 맥락에서, 그리고 평가되는 각 개인에 대해 풍부한 데이터를 제공하기 위해 복수의 평가자와 함께 WBA를 사용하는 것이 중요하다. 단일 WBA 인스턴스는 의미를 제공하지 않으며 성능 패턴에 대한 데이터를 생성하는 것이 목표여야 한다(Govaerts and van der Vleuten 2013; Hodges 2013). 전문적 판단의 주관적 성격을 맥락에서 회피하고, 이를 문제점으로 보기보다는 맥락을 설명하는 만큼 강점이 된다(Kogan et al. 2011).

Designs of WBA systems need to drive learner behaviours which emphasise the process of learning and minimise, or eliminate, learner behaviours to gain a performance outcome, at the expense of learning. It is valuable to use WBAs for range of tasks, in a variety of contexts, and with multiple assessors to provide rich data for and about each individual being assessed. Single WBA instances do not provide meaning and generating data about patterns of performance should be the aim (Govaerts and van der Vleuten 2013; Hodges 2013). Rather than avoid the subjective nature of professional judgement in context, and view it as problematic, it is a strength as it accounts for context (Kogan et al. 2011).


WBA의 평가/진행 결정

Assessment/progression decisions from WBAs


WBA는 진행과 같은 결과적 의사결정을 위한 WBA 집합으로 간주되어야 한다. 세트는 동일한 WBA 도구 또는 [필요한 도메인 전체에 걸쳐 샘플링]을 보장하기 위해 다양한 WBA 도구를 결합한 세트일 수 있다.

WBAs should be viewed as a set of WBAs for consequential decisions, such as progression. The set could be a number of the same WBA tool, or a set which combines a variety of WBA tools to ensure sampling across required domains.


다양한 설정과 다음을 포함한 다양한 컨텍스트를 관찰하기 위해 서로 다른 WBA 도구가 개발되었다.

Different WBA tools have been developed for different settings and for observing different contexts including:

    • 1. 단일 환자 접점: 학습자와 환자 간의 임상적 상호작용이 관찰되는 경우: 예: Mini-CEX(Mini-Cleinical Evaluation Action, Mini-CEX) 또는 Direct(DOPS(절대 절차적 기술의 관찰) 외. 2011).

    • 2. 다중 환자 접촉: 리더십 및 복잡성 관리에 초점을 맞춘 경우: OCAT(Ottawa Clinic Assessment Tool) (Kelleher et al. 2020).

    • 3. 간접 환자 접점: 환자와 관련된 임상 활동에 초점을 맞추고 있지만 환자 상호작용이 관찰되지 않는 경우: 예: 사례 기반 토론(CBD) 또는 인도 도구(HAT) (RCGP 2020)

1. A single patient encounter: where a clinical interaction between learner and patient is observed: e.g. MiniClinical Evaluation Exercise (Mini-CEX) or Direct Observation of Procedural Skills (DOPS) (Pelgrim et al. 2011).

2. Multiple patient encounters: where the focus is on e.g. leadership and management of complexity: Ottawa Clinic Assessment Tool (OCAT) (Kelleher et al. 2020).

3. An indirect patient encounter: where the focus is on clinical activities that relate to a patient but the patient interaction is not observed: e.g. Case-based Discussion (CBD) or Handover Tool (HAT) (RCGP 2020).


다른 유형의 WBA에는 위탁 가능한 프로페셔널 활동(EPAs)이 포함된다(10 Cate 2005). EPA의 경우, 임상 감리자는 훈련자의 성과에 대해 특정 업무를 '위임'할 수 있는지에 대해 판단을 내린다(Hatala et al. 2019). 위임 결정에는 일반적으로 다음의 것들을 고려한다.

    • 학생/교습자의 특성, 

    • 이전 감독 경험, 

    • 과거 평가 및 현재 역량에 대한 증거, 

    • 환자 및 사례 복잡성과 같은 맥락

    • 연습생의 겸손과 성실성과 같은 속성을 포함한다(Duijn et al. 2018). 

Another type of WBA includes Entrustable Professional Activities (EPAs) (ten Cate 2005). In EPAs, clinical supervisors make judgments on trainees’ performance about whether they can ‘entrust’ the trainee with specific tasks (Hatala et al. 2019). The entrustment usually requires several considerations: 

    • characteristics of the student/trainee, 

    • previous supervision experience, 

    • past assessment and evidence of current competencies, and 

    • context such as the patient and case complexity (Cianciolo and Kegg 2013). 

    • Entrustment decision making also involves attributes such as humility and integrity of the trainee (Duijn et al. 2018). 


WBA의 한 유형으로서 EPA의 핵심 요소는 [감독자의 일상적인 임상 작업 활동과 적절한 수준의 감독]에 맞춰 구성된 [위임가능도 평가 척도] 개발을 포함한다(Reckman et al. 2016). 이는 위탁 규모에 따라 임상 감독자들이 이상적인 훈련생 성과에 대한 추상적인 모델이 아닌 실제적인 판단을 하도록 장려하기 때문에 WBA의 형태로서 EPA의 의미를 강화한다(Reckman et al. 2016). [위임가능도 평가 척도 사용]에서 위탁을 결정하는 감독자의 역할인 위탁에 대한 상이한 이해로 인해 긴장이 발생하며, 위임이라는 것이 임상업무 학습의 종단적 성격과 감독자-연수자 관계로 인해 [discrete, point-in-time assessment가 아니라는 점]에서 발생한다.

A key element of EPAs as a type of WBA involves the development of entrustment scales which are construct-aligned with the day-to-day activities of clinical work of supervisors and the appropriate level of supervision (Rekman et al. 2016). This reinforces the meaning of EPAs as a form of WBA because the entrustment scales encourage clinical supervisors to make real-world judgments rather than an abstract model of ideal trainee performance (Rekman et al. 2016). Tensions in using entrustment scales arise from different understandings of entrustment, the role of supervisor in determining the entrustment, and that the entrustment is not a discrete, point-in-time assessment due to longitudinal nature of learning clinical tasks and supervisor–trainee relationships (ten Cate 2020).


WBA 유형에 관계없이, WBA의 단일 인스턴스는 성능 표준에 대한 방어적 판단에 불충분하다. 의학교육의 일부 관행은 consequence에 부합하지 않거나, 하나의 시험이 갖는 부담stakes의 복잡성을 과소평가한다(Tannenbaum and Kannenbaum, kane 2019). 한 예로 단일 WBA 인스턴스(또는 소수의 인스턴스)가 통과/실패 결정에 연결되는 경우를 들 수 있다. 요컨대, '개별 데이터 포인트는 높은 수준의 의사결정에 적합하지 않다'(van der Vleuten 2016 2016)는 것이다. 또 다른 하나는 작은 퍼센트가 단일 WBA에 첨부되고(지분이 낮다는 것을 의미함) 나중에 여러 인스턴스를 합산하여 종합 평가에 사용되는 비율을 형성하는 것이다. 이는 일련의 WBA(Tannenbaum and Kane 2019) 또는 정신측정학 문제에 걸친 결과의 프로파일을 설명하지 않는다. 서술적 데이터를 취합하고 해석하는 것은 방어할 수 있는 판단을 뒷받침할 수 있다(Oudkerk Pool et al. 2018). 의사결정에 위원회가 필요하다는 것이 보고된 바 있다.(Soleas et al. 2020; Thoma et al. 2020).

Regardless of the type of WBA, single instances of a WBA are insufficient for defensible judgements about standards of performance. Some practices in medical education are not consonant with consequences or underestimate the complexity of stakes in testing (Tannenbaum and Kane 2019). One example is where a single WBA instance (or a small number of instances) links to a pass/fail decision. In short, ‘individual data points are not very suitable for high-stakes decisions’ (van der Vleuten 2016). Another is where a small percentage is attached to a single WBA (to imply low stakes) and multiple instances are then later summed to form a percentage used for summative assessment. This does not account for the profile of consequences across a set of WBAs (Tannenbaum and Kane 2019)or psychometric issues. Aggregating and interpreting narrative data can support defensible judgements (Oudkerk Pool et al. 2018). The use of committees for decision making have been documented (Soleas et al. 2020; Thoma et al. 2020).


심리측정적 이슈

Psychometric issues


고부담 판단과 관련하여 WBA를 사용함으로써 여러 임상 현장에서 다양한 WBA 도구, 서로 다른 평가자를 사용한 판단의 신뢰성 또는 재현성에 대한 논쟁을 불러일으켰다WBA 데이터를 사용한 일반적 타당성 분석의 경우 데이터에 적합한 모델은 시간이 지남에 따라 성장 가능성(연습생 기술 향상)을 허용할 필요가 있다. 그렇지 않으면 일반화 분석에서 측정 오차의 원인이 된다. 서로 다른 사이트의 데이터를 결합할 때 '연결성connectedness'에 주목하지 않는 한 심각한 정신측정학 문제가 발생할 수 있다. 연결성은 OSCE 문헌의 작업에서 등장햇는데, WBA분석에도 적용되어야 한다여러 유형의 WBA 도구를 결합할 때 신뢰성이 향상되었다는 증거가 있다(Moon-van Loon et al. 2013). WBA의 목적이 학습을 강조할 때 낮은 신뢰성은 문제가 되지 않는데, 그 이유는 타당성 증거가 학습 효과에 더 초점을 맞출 것이기 때문이다. 그러나 WBA를 종합적 목적 또는 높은 평가를 위해 사용할 경우, 심리측정적 특성에 대한 관심이 더욱 중요해진다(Norcini et al. 2018; Pearce 2020).

The use of WBAs in connection with high-stakes judgements has generated debate about reliability (in psychometric terms), or reproducibility, of judgements with various WBA tools, different assessors, in different clinical sites. For generalisability analyses using WBA data, the model fit to the data needs to allow for possibility of growth (improvement in trainees’ skills) over time. Otherwise, this will contribute to measurement error in generalizability analyses. Combining data from different sites generates serious psychometric issues unless there is attention to ‘connectedness’, a design requirement arising from work in the OSCE literature that should also be applied to WBA analyses (Swanson et al. 1999; Swanson and van der Vleuten 2013). There is evidence of gains in reliability when different types of WBA tools are combined (Moonen-van Loon et al. 2013). Low reliability is not a concern when the purpose of WBAs emphasises learning, as validity evidence will then focus more on learning effectiveness. However, when WBAs are used for summative purposes, or highstakes judgements, attention to psychometric properties becomes more critical (Norcini et al. 2018; Pearce 2020).


평가자 관점 

Rater perspectives


WBA가 해결해야 할 과제 중 하나는 평가자들이 underperformance을 나타내는 정보 제공을 꺼리는 '실패-실패' 현상이다(Yepes-Rios et al. 2016). 이 문제는 특히 모든 WBA 에피소드 후에 종합판단을 하는 것과 관련이 있다. 일반적으로 평가자가 WBA에서 후보자의 성과를 확신하지 못할 때, 그 의심을 핑계로, 후보자를 '통과pass'시키는 경향이 있다. 이는 일련의 marginal performance들을 패스로 넘김으로써, 이들의 합성에 기초하여 높은 점수를 주는 결정을 내리게 할 수 있다. 가능한 경우, 각 WBA 종료 시 결정을 합격/불합격 결정이 아닌 서술적 논평(학습에 도움이 되는 의견)으로 제한하는 것이 도움이 될 수 있다(Cook et al. 2016; Oudkerk Pool et al. 2018).

One of the challenges for WBAs that remains is the ‘failure to fail’ phenomenon whereby assessors are reluctant to provide information that indicates underperformance (Yepes-Rios et al. 2016). This problem is particularly linked to making a summative judgement after every WBA episode. In general, when an assessor is unsure about a candidate’s performance on a WBA, they tend to give the benefit of the doubt and ‘pass’ the candidate. This can lead to a series of marginal performances all being conveyed as passes which then makes high-stakes decision based on the synthesis of such observations less robust. Where possible, restricting the decision at the end of each WBA to narrative comments (which aid learning) rather than a pass/fail decision can help (Cook et al. 2016; Oudkerk Pool et al. 2018).


저성능underperformance 에 대한 평가자 응답에는 불쾌한 메시지에 대해 침묵하는 것(Scarff et al. 2019), '헷징'(Ginsburg et al. 2017) 또는 예의를 지키는 것(BingYou et al. 2019)이 포함된다. 평가자는 훈련 초기에 학습자를 낙제시키는 것을 꺼리거나(개선할 시간이 있다고 가정해서), 다음 단계로 넘겨버린다(학습자와 공감하기 때문에). (다른 직업과 대조적으로) 의료계 내에서 비평, 피드백 및 감독자 역할에 대한 규범이 이러한 평가자 행동을 뒷받침하는 것으로 보인다. WBA의 BEME 리뷰에서 저성능underperformance 을 식별하거나 교정하기 위한 최적의 구현 조건에 대한 혼합된 증거를 발견한 것은 여전히 우려로 남아 있다(Barrett et al. 2016).

Assessor/rater responses to underperformance include keeping quiet about unpleasant messages (Scarff et al. 2019), ‘hedging’ (Ginsburg et al. 2017), or being polite (BingYou et al. 2019). Assessors are reluctant to fail learners early in training (on an assumption there is time to improve) and advanced in training (due to sympathising with the learner). Norms for critique, feedback, and the supervisor role within the medical profession (in contrast with other professions) (Watling et al. 2014;Ginsburgetal.2017;Scarffetal.2019) appear to underpin these assessor behaviours in the workplace. It remains a concern that a Best Evidence in Medical Education (BEME) review of WBAs found mixed evidence about the optimal implementation conditions for identifying or remediating underperformance (Barrett et al. 2016).


해결되지 않은 이슈

Unresolved issues for WBAs


    • WBA 시스템 자체는 학습자와 평가자 사이의 만남에 어떤 영향을 미칩니까? (단일 만남의 피드백 학습자에게 미치는 영향과 대조적으로)?

    • 모든 WBA 도구가 다른 수준의 교육에서 동등하게 효과적인가?

    • WBA를 가치있지만 복잡한 결과와 역량을 육성하는데 사용할 수 있는가?

    • WBA에 대한 프로그램적 접근이 WBA의 학습 효과를 개선할 수 있는가?

    • 학습을 촉진하면서 강력한 의사 결정을 알리기 위해 WBA의 결과를 종합하는 가장 좋은 방법은 무엇인가?

What impact does a WBA system itself have on an encounter between learner and assessor (in contrast with the impact on the learner of feedback from a single encounter)?

Are all WBA tools equally effective at different levels of training?

Can or should WBAs be used to foster valued but complex outcomes and competencies?

Can a programmatic approach to WBAs improve the learning effects of WBAs?

What is the best way to synthesise results of WBAs to inform robust decisions, while still promoting learning?


WBA에 대한 권고 Recommendations for WBAs


WBA에 대한 권고사항은 표 2에 요약되어 있다.

Recommendations for WBAs are summarised in Table 2.

  • WBA와 학습의 통합.

  • WBA와 종단적으로 정기적으로 engagement

  • WBA의 목적을 명확하게 표현한다.

  • 환자, 평가자 및 도구 전반에 걸친 광범위한 샘플링

Integration of WBA with learning.

Regular engagement with WBAs longitudinally.

Clear articulation of purpose of WBAs.

Broad sampling across patients, assessors, and tools.


2011년 이후 문헌에서 나타난 새로운 측면에는 다음과 같은 권고사항이 있다.

New aspects that have emerged from the literature since 2011 include recommendations to:


  • WBA를 통합되고 일관성 있는 WBA 집합으로 설계하고 평가 시스템 또는 시스템의 일부로 설계한다.

  • 바람직한 학습 행동과 효과를 창출하기 위한 설계: 피드백에 초점을 맞추고, 학습 과정을 강조하고, '실패' 현상을 설명하십시오.

  • 판단의 방어가능성을 뒷받침할 수 있는 타당성 증거를 확보. 다음 단계의 훈련으로 진행하기 위한 것과 단일 기술의 숙달 여부를 확인하는 것.

  • 전체론적이고 직장에서의 여러 관찰로부터 데이터를 해석하여 판단을 내리십시오.

  • 임상 실무에 대한 실제 description에 포함된 언어를 채택하는 채점 체계를 사용하십시오.

Design WBAs as an integrated, coherent set of WBAs, and as an assessment system or part of a system.

Design to generate desirable learning behaviours and effects: focus on feedback, emphasise process of learning, and account for ‘failure to fail’ phenomenon.

Ensure validity evidence to support the defensibility of judgements: progression to next stage of training versus identifying mastery of a single skill.

Make judgements that are holistic and require interpretation of data from multiple observations in the workplace.

Use marking schemes that adopt language framed in authentic descriptions of clinical practice.


결론 Conclusion


일반적으로 성과 평가에 대한 다음과 같은 권고사항으로 결론을 내린다.

We conclude with the following recommendations about performance assessment in general:

  • 바람직한 학습 행동을 유도하고 바람직하지 않은/전략적 행동을 억제하는 시스템으로 설계 성과 평가

  • 수행 평가에서 (i) 시간 경과에 따른 기술 증가, (ii) 복수 사이트 및/또는 (iii) 다른 수준의 훈련을 포함하는 경우 정신측정학 영향을 고려한다.

  • 학습과 개선이 바람직한 곳에 서술적 피드백을 포함시키고 해석한다.

Design performance assessment as a system which drives desirable learning behaviours (and discourages undesirable/strategic behaviours).

Account for psychometric implications when performance assessment involves: (i) growth in skills over time; (ii) multiple sites; and/or (iii) different levels of training.

Include, and interpret, narrative feedback where learning and improvement is desirable.







Ghouri A, Boachie C, McDowall S, Parle J, Ditchfield CA, McConnachie A, Walters MR, Ghouri N. 2018. Gaining an advantage by sitting an OSCE after your peers: a retrospective study. Med Teach. 40(11): 1136–1142.


Daniels VJ, Pugh D. 2018. Twelve tips for developing an OSCE that measures what you want. Med Teach. 40(12):1208–1213.


Oudkerk Pool A, Govaerts MJ, Jaarsma D, Driessen EW. 2018. From aggregation to interpretation: how assessors judge complex data in a competency-based portfolio. Adv Health Sci Educ Theory Pract. 23(2):275–287.


Raymond MR, Grande JP. 2019. A practical guide to test blueprinting. Med Teach. 41(8):854–861.


Ossenberg C, Henderson A, Mitchell M. 2019. What attributes guide best practice for effective feedback? A scoping review. Adv Health Sci Educ Theory Pract. 24(2):383–401.


Tannenbaum RJ, Kane MT. 2019. Stakes in testing: not a simple dichotomy but a profile of consequences that guides needed evidence of measurement quality. ETS Res Rep Ser. 2019(1):1–16.


Wood TJ, Pugh D. 2020. Are rating scales really better than checklists for measuring increasing levels of expertise? Med Teach. 42(1): 46–51.






. 2020 Oct 14;1-10.
 doi: 10.1080/0142159X.2020.1830052. Online ahead of print.

Performance assessment: Consensus statement and recommendations from the 2020 Ottawa Conference

Affiliations 

Affiliations

  • 1Department of Assessment and Progression, Duke-National University of Singapore, Singapore, Singapore.
  • 2Curtin Medical School, Curtin University, Perth, Australia.
  • 3Dean's Department, University of Otago, Christchurch, New Zealand.
  • 4Department of Medical Education, Universitas Indonesia, Jakarta, Indonesia.
  • 5Department of Health Sciences Education, University of Cape Town, Cape Town, South Africa.
  • 6School of Medicine, Liverpool University, Liverpool, UK.

Abstract

Introduction: In 2011 the Consensus Statement on Performance Assessment was published in Medical Teacher. That paper was commissioned by AMEE (Association for Medical Education in Europe) as part of the series of Consensus Statements following the 2010 Ottawa Conference. In 2019, it was recommended that a working group be reconvened to review and consider developments in performance assessment since the 2011 publication.

Methods: Following review of the original recommendations in the 2011 paper and shifts in the field across the past 10 years, the group identified areas of consensus and yet to be resolved issues for performance assessment.

Results and discussion: This paper addresses developments in performance assessment since 2011, reiterates relevant aspects of the 2011 paper, and summarises contemporary best practice recommendations for OSCEs and WBAs, fit-for-purpose methods for performance assessment in the health professions.

Keywords: OSCE; Ottawa consensus; Performance assessment; WBA; assessment; validity.


문학과 의학: 평가의 문제(Acad Med, 2006)

Literature and Medicine: A Problem of Assessment

Ayelet Kuper



의사들은 문학과 의학 분야에 관한 기사에 꾸준히 노출되고 있다.

Physicians are being exposed to a steady stream of articles about the field of literature and medicine.


사실상 영어권에서는 문학과 의학 강좌가 성행하고 있다. 1994년까지 미국 의과대학의 약 3분의 1이 그들의 의학 커리큘럼 내에서 문학을 가르치고 있는 것으로 알려져 있다.7 1998년, 그들 중 74%가 그것을 선택과목으로 지정했고, 39%는 그것을 적어도 하나의 과정의 일부로 요구했다.33 2003-2004년, 의학 인문학 전체는 125개의 미국 의과대학 중 88개의 필수과목과 55개의 선택과목으로 대표되었다.34 영국의 경우, 일반적으로 인문학의 강좌 수는, 특히 문학 및 의학 강좌, 35–38은 1993년 보고서인 투모로우 닥터스 39에서 인문학 강좌를 의대생을 위한 적절한 선택 과정으로 승인하고 2003년에 이 개념을 반복한 것에 대한 일반의사회의 승인에 따라 성장했다.

Practically speaking, literature and medicine courses have been flourishing across the English-speaking world. By 1994, about a third of American medical schools were known to be teaching literature within their medical curricula.7 In 1998, 74%of themoffered it as an elective, whereas 39%required it as part of at least one course.33 In 2003–2004, the medical humanities as a whole were represented by at least one required course at 88 of 125 American medical schools and in an elective course at 55 schools.34 In the United Kingdom, the number of humanities courses in general, and literature and medicine courses in particular,35–38 grew in response to the General Medical Council’s endorsement of the humanities as appropriate selective courses for medical students in their 1993 report, Tomorrow’s Doctors,39 and their reiteration of this concept in 2003.40


그러나, 이러한 번창해 보이는 분야에도 불구하고, 의학 교육 문헌에서는 그것의 가치와 정당성에 대한 의문이 계속되고 있다.

Yet, despite this seemingly thriving field, questions regarding its value and legitimacy continue in the medical education literature.


의학(그리고 문학에서는 잘 알려진 하위 학문인 50)과 의과대학에서는 문학과 의학이 받아들여지고 있는 것 같지만 의학 교육의 학문 분야에서는 그렇지 않다. 왜 안 되지? 의학 교육 연구 내에서 문학과 의학 분야가 직면하고 있는 투쟁의 한 가지 잠재적인 이유는 [두 학문의 매우 다른 담론]과 관련이 있다.

It seems that literature and medicine is being accepted in medicine (and in literature,50 where it is a well-recognized subdiscipline64), and in medical schools, but not within the academic field of medical education. Why not? One potential reason for the struggle that the field of literature and medicine is facing within medical education research relates to the two disciplines’ very different discourses.


배경 Background


의료 교육 연구가 성과와 평가에 의해 점점 더 추진되고 있는 것은 이제 사실이다.7

  • 미국에서는 ACGME(Accredit Council for Colonge Medical Education)의 결과 프로젝트가 레지던트 연수에서 목표와 평가 사이의 명확한 연계를 통해 교육적 성과를 강하게 강조하고 있으며, 의대 목표 프로젝트(MSOP)는 학부 의료교육에서도 유사한 문제에 초점을 맞추고 있다. 

  • 캐나다 왕립 의사 및 외과의사 대학과 영국 일반의사협회와 같은 다른 영향력 있는 기관들도 의료 훈련에 대한 결과 기반 접근법을 채택했다. 측정 가능한 목표와 평가 사이의 이러한 연결고리는 의료 교육생들이 자신이 겪을 평가의 요건을 충족시키기 위해 학습을 지도한다는 사실에 직면하여 대중의 기대, 책임 의제, 실용주의에 의해 추진되었다.  

  • 또한 증거 기반 의료 교육 촉진 및 이 과정에 대해 보증된 도구에서 현재의 의료 연구와 실천에 중심이 되는 증거 기반 의료(EBM) 운동으로부터 상당한 spillover가 있었다.81–84

It is by now a truism that medical education research is increasingly driven by outcomes and by evaluation.71 

  • In the United States, the Outcome Project of the Accreditation Council for Graduate Medical Education (ACGME) has put a strong emphasis on educational outcomes in residency training, with a clear link between objectives and assessment,72 and the Medical School Objectives Project (MSOP) has focused on similar issues in undergraduate medical education.73 

  • Other influential bodies, such as the Royal College of Physicians and Surgeons of Canada74,75 and Britain’s General Medical Council,40 have also adopted an outcomes-based approach to medical training. This link between measurable objectives and assessment has been driven by public expectations,72,73,76 the accountability agenda,77 and pragmatism in face of the fact that medical trainees guide their learning to meet the requirements of the evaluations that they will undergo.78–80 

  • There has also been considerable spillover from the evidence-based medicine (EBM) movement, so central to current medical research and practice, in the promotion of evidence-based medical education and in the tools being endorsed for this process.81–84


따라서 전제가 되는 학생 평가와 관련된 이슈들은 [일반적으로 정신분석학의 담론을 이용하여] 의학교육 연구의 맥락에서 다루어져 왔다. 신뢰성 및 타당성과 같은 교육적 시험에 사용되는 통계적 개념은 많은 논의의 틀이 되었다. 타당하고 신뢰할 수 있는 전체론적 등급 척도로 시험을 만들 수 있으며, [복잡한 작업을 객관화된 구성요소 부분으로 분해하면, 전체적인 구성을 경시하여 평가의 타당성을 감소시킬 수 있다는 것]이 두 가지 모두 입증되었다. 우리는 이제 신뢰성과 주관성이 상호 배타적이지 않으며 신뢰성과 객관성이 불가분의 관계에 있는 것이 아니라는 것도 안다.

The issues around student assessment that are thereby foregrounded have generally been addressed, in the context of medical education research, using the discourse of psychometrics.85–87 Statistical concepts used in educational testing, such as reliability and validity,88 have framed much of the discussion.71,86,89 It has been shown both that it is possible to create tests with holistic rating scales that are valid and reliable90 and that the breakdown of complex tasks into objectified component parts can trivialize the overall construct, thereby decreasing the validity of the assessment.91 We now know that reliability and subjectivity are not mutually exclusive nor are reliability and objectivity inextricably linked.80,92


그럼에도 불구하고, 신뢰도를 향상시키기 위해 더 객관적으로 점수를 매기고 따라서 더 "구체적인" 검사를 사용하려는 움직임이 오랫동안 있어왔다. 또한 "평가의 가치는 숫자로만 연구되고 기술될 수 있다"는 암시가 있다. 그리하여, 의학교육 연구의 전반적인 풍토는 능력, 구성, 내용 등 자신이 공부하고 있는 요소 부분으로 [세분화하여 이를 조작하고 분류할 수 있는 수치적 가치로 축소하려는 경향]을 갖고 있다마찬가지로, 신뢰도, 일반성, 오류에 대한 어떤 논의에서도 명백하게 만들어진 "진짜true" 점수에 대한 추구search는 기초적인 실증적 의료 교육 연구를 강조하는데, 이것은 현대의학 교육의 상당 부분을 지배하는 패러다임을 반영한다.

Nonetheless, there has long been a movement towards using more objectively scored93 and hence more “granular” examinations in an attempt to improve reliability.94 There is also an implication “that the value of the assessment can be researched and described in numbers only.”87 The overall ethos of medical education research, then, incorporates a tendency to break down into component parts that which it is studying, whether competencies, constructs, or content, and to reduce it to numerical values that can be manipulated and classified. Similarly, the search for the “true” score, made explicit in any discussion of reliability, generalizability, and error,88 highlights the underlying positivismin medical education research, which reflects a paradigmthat pervades much of modern medical education.58


문학의 학습은 의학적인 맥락 안에 놓였을 때에도 단순화된 분석에 저항하며, 직접적인 실증주의와 양립할 수 없다. 문학에서 의미와 씨름하는 것은, 구성된 현실의 맥락에서, 필연적으로 이 분야에서 평가에 있어서 중대한 문제에 직면하게 된다. 텍스트를 논할 때 옳은 답은 있을 수 없으며, 사실, 바로 이 모호성은 문헌에서 배울 수 있는 교훈 중 하나이며, 환자 치료의 맥락에도 해당된다. 그것은 문학 교과 과정에서 학생들의 능력과 업적에 차등을 둬서는 안 된다는 것이 아니라, 고등교육에서 이러한 차등의 수단이 중요한 논쟁을 불러일으키지 않았다는 것이다.

The study of literature, even when placed within the medical context, is resistant to simplified analysis and is not compatible with straightforward positivism. Grappling with meaning in literature, in the context of a constructed reality, inevitably encounters a major problem with assessment in this area: there can be no one right answer when discussing a text and, indeed, this very ambiguity is one of the lessons that may be learned fromliterature and carried forward into the context of patient care.60 That is not to say that one should not discriminate between students’ abilities and achievements in a literature curriculum, but rather that the means of this discrimination in higher education has not engendered significant debate.


의학교육의 이 영역에서 평가의 문제점을 무시하기보다는, 문학과 의학의 학습을 통해 달성하고자 하는 중요한 역량을 존중하고 강화하는 학생평가의 엄격한 방법을 의학교육계가 개발, 적응 또는 인정해야 할 때다.

Rather than ignoring the problems of assessment in this area of medical education, it is time for the medical education community to develop, adapt, or recognize rigorous methods of student evaluation that respect and reinforce the important competencies intended to be attained through the study of literature and medicine.


방법 Method


개별 기사는 양적 방법, 정성적 방법, 헤르메뉴틱* 텍스트 분석 등 자신의 분야에 적합한 방법론을 사용하여 평가되었다.

Individual articles were evaluated using methodologies appropriate to their fields, including tools fromquantitative methods, qualitative methods, and hermeneutic* textual analysis.


*문자 해석의 한 방법으로, 헤르메뉴틱스는 모든 부분이 하나의 일관된 의미에 기여할 때까지 전체 텍스트에 대한 텍스트 부분의 반복적인 분석을 의미한. 독자는 본문이 처음 만들어진 문맥뿐만 아니라 자신의 사회사적 입장과 지적 전통을 이 해석에서 고려해야 한다.97

*As a method of textual interpretation, hermeneutics involves iterative analysis of the parts of a text against the whole until all of those parts contribute to a single consistent meaning. The reader must take his or her own sociohistorical position and intellectual tradition, as well as the context in which the text was originally created, into account in this interpretation.97


결과 Results


문학 및 의학 커리큘럼 목표

Curricular objectives for literature and medicine


Charon 외 연구진의 개념 체계7은 문학 및 의학 커리큘럼에 대해 주장되고 있는 명시적 목표를 기술하기 위한 유용한 출발점을 제공한다. 의대생들에게 문학을 introducing하는 다섯 가지 이유를 개략적으로 설명하고 있다. 

    • 이 중 하나인 [서사적 윤리]는 전통적인 이론에 기반한 윤리와 대조적으로 제시되지만 우리의 목적을 위해 의료 윤리 과목에 대한 대안적 교육학적 접근법으로서, 이미 널리 가르쳐져 있고 자체 평가 프레임워크를 가지고 있다. 따라서 이번 논문은 이러한 특별한 근거를 다루지 않을 것이다.

Charon et al.’s conceptual framework7 provides a useful starting point for delineating explicit objectives being claimed for literature and medicine curricula. It outlines five rationales for introducing literature to medical students. 

    • One of these, narrative ethics, is presented in contrast to traditional precept-based ethics but is for our purposes an alternative pedagogic approach to the subject of medical ethics, which is already widely taught98 and has its own evaluatory frameworks. The current paper, therefore, will not address this particular rationale.


    • 또 다른 근거인 [문학 이론의 학습]은 의사, 환자, 그리고 그들의 실습에 대한 흥미로운 "새로운 관점"7을 제공하지만, 이 분야의 학생 학습은 문학의 방법과 본문에서 선험적인 근거를 필요로 할 것이다. 따라서 이러한 근거는 본 논문에서도 다루지 않을 것이다.

    • Another rationale, the study of literary theory, offers interesting “new perspectives”7 on physicians, their patients, and their practice, but student learning in this area would require an a priori grounding in the methods and texts of literature. This rationale will thus also not be addressed in this paper.


여기서는 그 대신 나머지 세 가지 이유rationales에서 도출된 목표의 평가에 초점을 맞출 것이다.

    • 환자 경험에 대한 대응 능력

    • 의사 경험에 대한 성찰 능력

    • 실제로 내러티브 기술을 개발하고 활용할 수 있는 능력  

Instead, this paper will focus on the evaluation of objectives drawn from the remaining three rationales: 

    • the ability to respond to the patient experience, 

    • the ability to reflect on the physician experience, and 

    • the ability to develop and make use of narrative skills in practice.


환자(및 의사)는 인생을 내러티브로 살아간다. 환자의 질병에 대한 환자의 감정적, 실존적 반응에 대한 전체적인 이해를 통해 의학을 구현하기 위해 환자의 내러티브를 사전에 파악해야 한다는 점을 특히 강조하는 [내러티브 기반 의학' 운동]이 두드러지게 나타났다. 의학 교육의 영역 내에서, 현실주의와 관련성을 위해 선택된 문학 문헌들이 "[질병에 관한 사실들을 아는 것]과 [환자의 질병 경험을 이해하는 것] 사이의 간격을 메우는 데 도움이 될 수 있다"고 주장되어 왔으며, 여기에는 중요한 사회경제적, 문화적 맥락이 조명된다. 따라서 질병에 대한 이야기는 환자의 아픈 경험을 상상하고 이해할 수 있는 의사들의 능력을 향상시켜 공감하는 환자 중심의 진료를 제공할 수 있는 능력에 잠재적으로 기여할 수 있다.

Patients (and doctors) live their lives as narratives.4,10,99 A significant Narrative- Based Medicine movement has emerged, specifically highlighting the need to foreground patients’ narratives in order to imbue medicine with a holistic understanding of patients’ emotional and existential responses to their illnesses.4 Within the realm of medical education, it has been posited that literary texts selected for realism and relevance “can help bridge the gap between knowing the facts about the disease and understanding the patient’s illness experience [emphasis in the original],”100 including illuminating its important socioeconomic and cultural contexts.26,55 Stories about illness could therefore enhance physicians’ abilities to imagine and understand the experiences of their sick patients,7 potentially contributing to their capacity to provide empathic50 patient- centered care.


[내러티브 역량]"인간이 이야기를 (문자에서 도출된 것이든, 환자에서 나온 것이든, 비전문적 만남에서 나온 것이든) 흡수, 해석, 반응하기 위해 사용하는 능력"으로 정의되며, 문학적인 텍스트의 긴밀한 읽기와 관여를 통해 가르친다.5 이 역량은 의사-환자 관계에서 전문성과 공감의 양면에 기여하는 것으로 생각된다. 따라서 서술적 역량의 구조는 다음과 같이 더욱 복잡한 구조의 대리 끝점surrogate endpoint으로 개념화될 수 있다. 

    • 예를 들어, [이야기 속의 등장인물의 감정과 경험을 식별하고 반영하는 능력]은 [환자와 사랑하는 사람들의 경험에 대한 나중에 이해하고 반응하는 능력]에 대한 잠재적인 대리지표이다.

Narrative competence, defined as “the competence that human beings use to absorb, interpret, and respond to stories”5 (whether derived from texts, from patients, or from nonprofessional encounters), is taught through the close reading of and engagement with literary texts.5 It is thought to contribute to the development of both professionalism101,102 and empathy5,8 in the physician–patient relationship. Thus, the construct of narrative competence might be conceptualized as a surrogate endpoint for these more complex constructs, with, 

    • for example, students’ abilities to identify and reflect on the emotions and experiences of characters in stories as potential surrogate markers for their later understanding of and responses to the experiences of patients and their loved ones.


마찬가지로, 문학은 훈련생들에게 "의사의 종종 꽤 외로운 직업임을 이해하는 생생한 수단"을 제공한다. 특히 학생 및 레지던트 수련 기간 동안 의사들은 평범한 사람들의 영역 밖에서 생활한다. 그들의 일상적인 죽음, 고통, 치유 경험은 일상 언어의 테두리를 벗어나 있다. 정서적으로 어려운 상황과의 정기적인 만남은 학업 스트레스 요인과 결합되어 의대생들의 스트레스와 우울증 비율이 동료들에 비해 증가함에 반영된다. 이야기와 시는 의학교육에서 달리 놓친 과제를 수행할 수 있는데, 여기서 이야기와 시는 "의사가 해야 할 모든 일에 대한 중요한 개인적 성찰과 검사를 자극할 수 있다"고 한다.  즉, 문학은 연습생들에게 환자 치료 능력이 아닌 자신과 자신의 감정에 대해 성찰하는 언어와 도구를 제공할 수 있으며, 그로 인해 [초기의 치유자를 치유]하는 데 도움이 될 수도 있다.

Similarly, literature provides trainees with “a vivid means of understanding the physician’s often quite lonely job.”68 Physicians, especially during the intense years of student and residency training, live outside the realm of the commonplace. Their everyday experience of death, suffering, and healing is situated outside the boundaries of everyday language. Regular encounters with emotionally challenging situations, combined with academic stressors, are reflected103 in the increased rates of stress and depression among medical students as compared to their peers.103,104 Stories and poems may perform tasks otherwise missing in medical education, wherein they “can stimulate important personal introspection about and examination of all that the physician is called on to do.”7 In other words, literature may provide trainees with the language and the tools to reflect, not about their patient care abilities, but about themselves50 and their own emotions,100 and thereby may help to heal the nascent healer.18


의료 커리큘럼에 있는 어떤 것도 연습생들에게 "그 다음 순간"을 적절하게 준비시키지 못한다.

    • 그들이 환자의 병실을 나오며 방금 누군가에게 당신이 곧 죽을 거라고 말한 것을 깨닫는 순간, 

    • 그들이 다음 만남으로 나아가고 자신의 삶을 이어나갈 수 있도록 생각과 감정을 인식하고 반응할 수 있는 틀을 갖춰야 하는 순간. 

내러티브 능력을 창조함으로써, 연습생들에게 (그들 자신의 삶에서 사용할 서사적 도구 세트를 제공하기 위한) 감정적인 자기 성찰의 과정을 연습할 수 있었. 그러므로 서술적 역량과 감정적 자기반사 능력은 실존적 고통과 냉소와 냉소가 생겨날 때 훈련생을 보호할 수 있는, [감정적으로 도전적인 상황에 대한 회복탄력성]을 위한 잠재적 교실 기반의 대리 결과물이다.

Nothing in the medical curriculum adequately prepares trainees for “the moment after”—the moment they walk out of a patient’s room and realize that they have just told someone that they are going to die, the moment when they must have a framework for recognizing and responding to their thoughts and emotions in order to be able to move on to the next encounter and to carry on with their own lives. By creating narrative competence, this process of emotional self-reflection could be practiced in order to provide trainees with a set of narrative tools to use in their own lives. Narrative competence and emotional self-reflective ability are therefore potential classroom- based proxy outcomes for the resilience to emotionally challenging situations that may protect trainees from existential distress and from the development of callousness and cynicism.


문학 학습은 또한 연습생들에게 "내러티브 기술"이라는 일반적인 루브릭에 따라 분류될 수 있는 유용한 임상 능력을 제공할 수 있다. 가장 단순하게 말해서, 이야기를 읽고 그것에 대해 쓰는 것은 더 일반적인 의사소통 능력을 향상시킬 수 있다. 다른 내러티브 기술은 내러티브 역량의 더 큰 구성의 구성요소로서, 이것은 공감뿐만 아니라 [환자의 병력, 신체적 발견 및 기타 보조 데이터에서 수집할 복잡한 이야기를 구성하고 의미 있게 통합하는 의사의 능력]에 기여한다고 여겨진다. 이러한 기술들은 임상 지식의 기초가 되는 서사적 구조를 명시적으로 이용한다. 그렇다면 [문학에서 가져간 이야기에 대해 글을 쓸 수 있는 능력]은 환자 진단과 치료를 위한 일관성 있고 수사적으로 건전한 계획을 수립하고 전달하는 능력에 유용한 대리 성과가 될 수 있다.

The study of literature could also provide trainees with useful clinical abilities that may be grouped under the general rubric of “narrative skills.” Most prosaically, reading stories and writing about them can enhance more general communication skills.41 Other narrative skills are components of the larger construct of narrative competence, which is believed to contribute not only to empathy but also to the physician’s ability to organize and meaningfully integrate the complex stories to be gleaned from patients’ histories, physical findings, and other ancillary data.7 These skills make explicit use of the narrative structure that underlies clinical knowledge.16,68,105 The ability to write about stories taken from literature, then, might become a useful surrogate outcome for the ability to construct and communicate a coherent and rhetorically sound plan for patient diagnosis and treatment.


무수히 많은 해석이 가능한 문학에 대한 연구도 모호성 개념에 대한 학생들의 노출을 증가시킨다. 이는 그들이 일반적인 전문 훈련과 특히 의료 훈련의 "실천에 대한 실증주의적 인식론" 이외의 방법을 아는 방법에 노출시킴으로써 임상 실습에서 전문가로서 직면해야 할 불확실성과 모호성에 대비하는 데 도움이 될 수 있다. 따라서 문학적 본문에 대한 반응을 통해 평가한 바와 같이 이러한 모호성 개념에 대한 그들의 파악은 환자 치료의 맥락에서 이를 접하기 위한 준비의 대용으로서 검토될 수 있을 것이다.

The study of literature, in which there are myriad possible interpretations, also increases students’ exposure to the concept of ambiguity.28,60,106 This may help prepare them12,64 for the uncertainty107 and ambiguity99 they will have to face as professionals in clinical practice by exposing them to ways of knowing other than the “[p]ositivist epistemology of practice” of professional training in general107 and of medical training in particular.58 Their grasp of this concept of ambiguity, as assessed through their responses to literary texts, could therefore be examined as a proxy for their preparedness for encountering it in the context of patient care.


그런 다음, 문학 및 의학 강좌의 목표를 안전한 강의실 상황에서 [임상 실습과 관련된 일련의 중요한 기술 개발]로 해석할 수 있다. 이러한 기술은 문헌과 의학이 개발하고자 하는 고차원의 목표에 대한 잠재적 대리 결과물이다. 서사적 역량 개발은 환자의 질병 경험 및 치료 경험에 대한 공감적 이해를 위해 필요한 기술이다. 감정적 자기성찰능력의 발달은 환자 치료에 대한 배려적이고 연계된 전문적 접근방식을 유지하는 능력에 필요한 기술이다. 마지막으로 [일관되고 종합적인 임상 상황clinical picture의 구성]을 위해서는 내러티브 기술의 발전이 필요하다.

It is possible, then, to interpret the objectives for courses in literature and medicine as being the development, in a safe, classroom situation, of a set of critical skills relevant to clinical practice. These skills are potential proxy outcomes for the higher-order objectives intended to be developed by literature and medicine. The development of narrative competence is a skill necessary for empathic understanding of patients’ experiences of illness and treatment. The development of emotional self-reflective ability is a skill necessary for the ability to maintain a caring and connected professional approach to patient care. Finally, the development of narrative skills is necessary for the construction of coherent and comprehensive clinical pictures.


문헌 및 의학 분야의 평가 기법

Assessment techniques in literature and medicine


문학 및 의학 강좌는 현재 길고 짧은 에세이, 논술 시험, 포트폴리오, 구두 발표, 포스터, 사례 쓰기, 저널, 응답 논문, 시, 단편 소설, 환자의 목소리에 담긴 내러티브와 같은 창조적 프로젝트, 심지어 객관적 구조화된 임상 시험 (OSCE) 스테이션 등 다양한 평가 도구를 사용하고 있다. 

Literature and medicine courses currently use a wide variety of assessment tools, including long or short essays, essay examinations, portfolios, oral presentations, posters, case write-ups, journals, response papers, creative projects such as poems, short stories, narratives in the patient’s voice, and even objective structured clinical examination (OSCE) stations.


사용할 평가 방법을 선택하기 위한 근거를 명시적으로 언급하는 과정 설명은 거의 없다. 그러나 분명한 것은 객관식 문항과 그 종류의 것들은 신뢰성과 행정의 용이성, 채점 때문에 의학교육에서 다른 곳에서 가장 많이 사용되는 서면평가 형태이나, 이 영역에서는 학생평가에 적합하지 않은 것으로 여겨지고 있다는 점이다.

Few course descriptions comment explicitly on the rationale for selecting the method(s) of evaluation to be used. What seems clear, however, is that multiple- choice questions and their ilk, which are the most commonly used forms of written assessment elsewhere in medical education because of their reliability and ease of administration and marking,89 have not been seen as suitable for student evaluation in this domain.


문학 및 의학 강좌에 대한 적절한 평가의 성격을 논하는 유일한 작가 중 한 명인 스퀴어 등은 서면 과제들을 형성 평가와 총괄 평가로 사용하는 것을 지지한다. 그러나 그녀는 이 지지에 대한 어떤 증거도 제시하지 않으며, "점수에 대한 지나친 집중을 피하고" "자기반성, 해석, 창의성"을 권장하는 것 외에 채점제나 가이드라인을 제시하지 않고, "학생들 사이의 차등화"보다는 피드백과 코멘트를 제공하는 데 초점을 맞추고 있다.

Squier,100 one of the only authors who discusses the nature of appropriate assessment for courses in literature and medicine, endorses the use of written assignments as both formative and summative assessments. However, she provides no evidence for this endorsement, nor does she propose a marking scheme or guidelines other than to “avoid an excessive focus on grading” and to encourage with such grading “self reflection, interpretation, and creativity,” focusing on giving feedback and comments rather than making “[f]ine distinctions between students.”100


이와 유사하게, 다우니는 다음과 같이 쓰고 있다: "의학 인문학 과정을 평가하는 데는 어려움이 없다. 그것은 시험이나 논술, 그 밖의 다른 프로젝트로 평가될 수 있다. 이런 일은 수세기 동안 예술 교수진에서 일어났고 이런 종류의 평가에 대한 예술 교수진에서 많은 경험이 있다."106그는 계속해서 표준 예술 수업에서 텍스트(이 경우, 시)가 어떻게 가르쳐질지, 그리고 그것에 관한 에세이가 어떻게 표시될지에 대해 고찰한다. —일관된 논거와 그 논거의 방향보다는 본문과 그 역사적 배경에 근거한 논거의 존재에 의해. 하지만, 그도 역시 자신의 주장을 정당화하거나 증거를 제시하지 않는다.

Similarly, Downie writes: “There is no difficulty about evaluating a medical humanities course. It can be assessed by examination or essay or other project. This has happened in Arts faculties for centuries and there is a great deal of experience in Arts faculties of this sort of evaluation.”106 He goes on to discuss how a text (in this case, a poem) might be taught, and an essay about it would then be marked, in a standard arts class—by the presence of coherence and of an argument grounded in the text and its historical background, rather than by the direction of that argument.106 Again, he does not justify or provide evidence for his assertions.


영국 고등 교육 품질 보증청 영문학과 언어의 학부 강의와 관련해 주제 벤치마크인 영어는 에세이가 "평가 과정에서 필수적인 요소"가 될 것을 요구하고 있으며, 에세이가 이 분야에서 요구되는 기술력의 입증에 적절하다는 의견을 제시한다.108

the British Quality Assurance Agency for Higher Education (QAA). Regarding undergraduate instruction in English literature and language, its subject benchmark statement, English, mandates that essays be “an essential component in the assessment process” and comments on their appropriateness to the demonstration of the skills required in this discipline.108


문학 연구나 관련 고등교육 영역에서는 그다지 두드러지지는 않지만, 의학 교육에서는 인문학 관련 커리큘럼에서 에세이처럼 포트폴리가 활용되어 왔다.52

Although they are not as prominent in the study of literature and in related higher education domains, portfolios, like essays, have been used in humanities- related curricula in medical education.52


[포트폴리오] 개발에 관한 현재의 일반 교과서는, 포트폴리오를 [학생이 시간 경과에 따라 성취한 것(또는 성취하려고 노력한 것)을 보여주는 최소한 부분적으로 선택된 작품 모음]으로 기술하고 있다. 여기에는 특히 "학생 자기 평가와 성찰을 중심에 두고, 포트폴리오 내 작업이 달성되는 과정을 그릴portray 수 있는 기회"에 대한 강조가 포함된다. '포트폴리오'라는 용어의 의미는 특히 성찰 요건에 관하여 최근 의학 교육 문헌에서 논쟁의 대상이 되어 왔다. 어떤 사람은 어렵고, 시간이 많이 소요되며, 잠재적으로 불필요하다고 간주하고 있으며, 다른 사람은 도구의 독특하고 근본적인 측면이라고 믿고 있다. 포트폴리오의 정의의 일부로서 자기성찰을 널리 인식하지 않는다면, 일반적인 교육 문헌과 특히 의학교육 내에서, 이 논문에서는 포트폴리오라는 용어는 [성찰의 증거를 포함하는 작품의 모음]을 일컫는 말라 사용할 것이다.

A current general textbook on portfolio development describes a portfolio as a compilation of works, at least partially student-selected, that shows what the student has accomplished (or tried to accomplish) over time; this includes a particular emphasis on “the centrality of student self-evaluation and reflection and the opportunity to portray the processes by which the work in the portfolio is achieved.”113 The meaning of the term“portfolio” has been the subject of recent debate in the medical education literature, particularly with respect to the requirement for reflection, which some have viewed as difficult, time-consuming, and potentially unnecessary114 and others believe to be a unique and fundamental aspect of the tool.115,116 Given the otherwise widespread recognition of self- reflection as part of the definition of a portfolio, both in the education literature in general113 and within medical education in particular,117–120 within this paper the use of the term portfolio will refer to a collection of works which includes evidence of reflection.


이러한 문헌은 타당성과 신뢰성의 담론에 관여하거나 인정하지도 않으며, 증거 출처에 대한 정성적 방법론을 명시적으로 검토하지도 않는다. 재현성, 정확성, 표시 용이성 등을 논하지 않으며 기준 참조도 없다. 그럼에도 불구하고 그것들은 의학 교육 내에서 나온 수사학적 주장과 관련이 있다. 1991년 문헌을 검토한 노먼 외 연구진, 91명은 동일한 구성물에 대한 주관적 시험과 객관화된 시험이 높은 상관관계를 갖는다고 결론지었다. 이 저자들은 "학생들은 서로에 대한 지식의 여러 측면을 다루어야 하는" 에세이와 같은 질문 유형이 아닌, 객관식 또는 단답형 질문을 사용할 경우, 특정 구조를 경시할 위험을 미리 예측했다. 

These literatures neither engage in nor acknowledge the discourse of validity and reliability, nor do they look explicitly to qualitative methodology for sources of evidence. They discuss neither reproducibility, accuracy, nor ease of marking, and they have no criterion reference. They are nonetheless related to rhetorical arguments that have emerged from within medical education. Norman et al.,91 reviewing the literature in 1991, concluded that subjective and objectified tests of the same construct were highly correlated. These authors foregrounded the risk of trivializing certain constructs using either multiple-choice or short- answer questions, as opposed to question types, such as essays, “which require students to handle several aspects of knowledge in relation to each other.”91


따라서 그들은 후자를 시험의 합법적 옵션으로, 특히 고차 구조의 사용을 받아들였다. 더구나 슈와르트와 반데르 벨루텐은 시험의 목표가 있다면 그렇게 말할 정도였다. 

    • 시험의 목표가 "추론 과정을 설정하거나, 정보를 요약하거나, 또는 알려진 원리를 다른 맥락에서 적용하는 것이라면", 그리고 특히 한 사람이 글쓰기 능력에도 관심이 있다면, 그렇다면, 유일한 적절한 유형의 필기 질문은 에세이이다. 

다음의 요약이 설명하듯이, 평가 기법으로서 에세이와 포트폴리오의 가치에 대해서도 상당한 양의 심리학적 연구가 있었는데, 그 중 많은 부분이 논란의 여지가 있었다.

They therefore accepted the use of the latter as a legitimate option for testing, particularly of higher-order constructs.91 Moreover, Schuwirth and van der Vleuten have gone so far as to say that 

    • if the goal of a test is “to set up a reasoning process or summarise information, or [. . .] to apply a known principle in different contexts” then the only appropriate type of written question is an essay,121 particularly if one is also concerned with writing ability.122 

As the following summary will illustrate, there has also been a significant amount of psychometric research, much of it controversial, on the value of essays and portfolios as evaluative techniques.


에세이 및 포트폴리오

Essays and portfolios


[에세이 평가의 구성적 타당성]은 의학적인 맥락에서 구체적으로 연구되었다. 예를 들어 1990년 연구에서 대학원 수준의 임상적 판단 평가를 위해 논술 시험이 검증되었다. 에세이의 상호 신뢰도 측면에서 여러 연구들이 상반된 결과를 내놓았다. 그들의 일반화 가능성에 대한 연구도 있었다. 예를 들어, 세부적인 체크리스트를 사용하는 비의사 3명이 전체적 표시를 하는 의사 3명으로 교체되었을 때 임상적 판단에 대한 논술 테스트의 일반화가능성은 향상되었다(그리고 필요한 테스트 시간은 감소하였다). Frijns 외 연구진은 [비록 4시간에서 6시간 사이에 1개 또는 2개의 평가자가 있어야 일반화 계수 0.80 이상을 달성할 수 있었지만], 개방된open 문제에 대해 재현 가능한 방식으로 의사-평가자가 채점할 수 있다는 것을 보여주었다. 

The construct validity of essay assessments has been specifically studied in the medical context. For example, in a 1990 study, an essay test was validated for the assessment of clinical judgment at the postgraduate level.123 In terms of essays’ interrater reliability, several studies have given conflicting results.94,124–126 There has also been research into their generalizability. For instance, the generalizability of an essay test of clinical judgment improved (and its required testing time decreased) when three nonphysicians using a detailed checklist were replaced by three physicians marking holistically.127 Frijns et al.128 showed that open-ended questions could be marked by physician-raters in a reproducible manner, although achieving a generalizability coefficient of 0.80 or above with one or two raters required between four and six hours of testing time.


심리측정학 기준이 [평가도구 형식의 고유한 특성이 아니라는 현재의 이해]와 함께 에세이를 채점하는 데 신뢰성의 문제는 [시험 형식에 내재된 문제]가 아니라 [적절한 시험 시간과 전문가 채점자의 가용성]에 대한 문제인 것이다. 슈와르트와 반 데르 벨루텐은 평가되는 구조의 사소한 것을 피하기 위해 에세이를 표시하기 위해 과도한 구조물을 구성하지 않도록 조심하지만, 신뢰도를 향상시키고 그에 따라 그러한 자원의 필요성을 감소시키는 여러 가지 방법이 문헌에 제시되었다.

 In keeping with our current understanding that psychometric criteria are not inherent qualities of an instrument’s format,80 the issue of reliability for marking essays is not an intrinsic problemwith the test type but rather a question of the availability of adequate testing time and of expert markers. Multiple means of improving reliability, and thereby decreasing the need for those resources, have been suggested in the literature,88,121,122,125,126,129–131 although Schuwirth and van der Vleuten caution against overstructuring rubrics for marking essays to avoid trivializing the construct being assessed.121,122


포트폴리오는, [의학 교육에서 보다 개인적이고 프로세스 지향적일 뿐만 아니라] 새로운 것이다. 지금까지 의학적인 맥락에서 연구된 구조와 관련하여 타당성을 입증하는 것은 어려웠다. 포트폴리오에 대해 가장 잘 확립된 형태의 타당성은 시간의 경과에 따른 성찰 및 퍼포먼스을 포함한 건설에 대한 안면 타당성이다. 그러한 구성에 대한 예측, 기준 및 구성 타당성을 설정하는 것은 어려울 것이다. 

Portfolios are newer to medical education, as well as more individual and process-oriented. It has thus far been difficult to establish their validity with respect to the constructs for which they have been studied in the medical context. The best established form of validity for portfolios is face validity for constructs including reflection119,132 and performance over time.119 Establishing their predictive, criterion, and construct validity for such constructs will be challenging.117,119,132,133 


2001년 말 스코틀랜드 던디에서 의대생들의 최종 시험의 일부로 사용된 포트폴리오의 한 연구의 저자들은 보다 전통적인 시험 구성 요소로는 평가되지 않는 태도와 근면성과 같은 구조물에 대한 다양한 타당성의 증거를 주장했다. 정신건강의학과 레지던시 교육에서 포트폴리오에 대한 최근의 연구는 정신과적 지식과 훈련 수준에 대한 적당한 합치성을 보여주었다.

The authors of a study published in late 2001 of portfolios used as part of the final examination for medical students in Dundee, Scotland claimed evidence of divergent validity for constructs, such as attitude and diligence, which are not assessed by their more traditional examination components.134 A more recent study of portfolios in psychiatry residency education demonstrated modest convergent validity for psychiatric knowledge and level of training.135


포트폴리오 평가의 신뢰도도도 연구되었으며, 평가자 간 신뢰도 추정치는 0.1에서 0.82까지이다. 일반화 및 의사결정 연구는 또한 최소 0.8의 일반화에 필요한 광범위한 항목 및/또는 측정자를 생성했다. 포트폴리오 평가에서 신뢰도 향상을 위한 전략의 여러 제안이 나왔다. 여기에는 구체적인 기준과 표준화를 통한 객관화가 포함된다. 그러나, 컨텐츠의 표준화와 구체적인 기준의 개발은, 아마도 실제로 신뢰성의 문제를 제거하지 않고, 학생 성찰과 학습의 범위를 제한함으로써, 평가의 타당성에 위협이 된다는 우려는 남아 있다.

The reliability of portfolio assessments has also been studied, with estimates of interrater reliability ranging from0.1 to 0.82.119,136–138 Generalizability and decision studies have also generated a wide range of numbers of items and/or raters required for a generalizability of at least 0.8.119,135,137 Multiple suggestions of strategies to improve reliability in portfolio evaluation have been made.120,132,139 These include objectification through specific criteria and standardization.120,132 The concern remains, however, that the standardization of content and the development of specific criteria present threats to the validity of the assessment by limiting the range of student reflection and learning,119,120 perhaps without actually eliminating the problem of reliability.140


그래서 우리는 지금 난관에 봉착했다. 에세이와 포트폴리오가 문학과 의학의 평가에 가장 적합한 도구로 홍보되고 있으며, [공감, 개인적 성찰, 전문성과 같이 쉽게 평가할 수 없지만 점점 중요해지고 있는 역량]을 우리가 살펴볼 수 있게 해준다. 그러나, 도구로서, 그것들은 우리의 전통적인 정신 측정학의 세분화된 기법을 사용하여 쉽게 분석될 수 없으며, 어떤 조치들에 의해서 그것들은 총괄적 결정에 사용할 만큼 "좋지" 않다. 그럼에도 불구하고, 이러한 중요한 구조와 그것들을 홍보하기 위해 고안된 커리큘럼을 포기하는 것은 너무 급진적인 선택이다.

So we are now faced with a conundrum. Essays and portfolios are promoted as the most appropriate tools for the evaluation of literature and medicine, and they may allow us to tap into competencies that we cannot easily assess but which are becoming increasingly important, like empathy, personal reflection, and professionalism. However, as tools, they are not readily analyzable using the granular techniques of our traditional psychometrics, and by some measures they are not “good” enough to use for summative decisions. Nonetheless, abandoning these important constructs, and a curriculum that is designed to promote them, is too radical an option.


캐닝스 외 연구진이 다음과 같이 요약한다. 

"진실로 신뢰할 수 있는 평가를 찾기 위한 노력에서, 우리는 때때로 '주관적인' 작품을 평가해야 할 필요성을 간과해서는 안 된다. 그러한 채점에서 신뢰성이 다소 떨어질 것이라는 점을 받아들여야 한다"고 덧붙였다. 

또는 스내든은 우리에게 경고한다. 

"만약 우리가 측정할 수 없는 것을 측정하려고 애쓰게 된다면, [. .we]는 그것이 더 쉽기 때문에 관련 없는 것을 측정하게 될지도 모른다." 

다행히 좀 더 주관적인 평가 도구의 엄격함rigour은 측정에 의존하지 않고 다른 방법으로 평가할 수 있으며, 그러한 평가의 예시들이 의학 문헌에 등장하기 시작하고 있다.

As Cannings et al. summarizes: “In our efforts to find a truly reliable assessment, we must not lose sight of the need to occasionally assess a ‘subjective’ piece of work [. . .]. We then have to accept that there will be some loss of reliability in the marking that follows.”130 Otherwise, Snadden warns us, if we “continue to struggle to measure the unmeasurable, [. . .we] may end up measuring the irrelevant because it is easier.”141 Fortunately, the rigor of more subjective evaluation tools can be assessed in other ways, without relying on measurement, and examples of such assessment are beginning to enter the medical literature.


정성적 방법 및 평가로서의 병리학

Qualitative methods and hermeneutics as assessment


환자 경험, 의사 경험, 모호성의 질적, 개별화된 세계에 정량적 엄격성의 규칙을 적용하려고 시도하기보다는, 우리는 어떤 형태의 평가가 더 잘 연구될 수 있고, 어떤 질문은 질적 방법론을 사용하여 더 잘 대답할 수 있다는 것이 점점 더 많이 공표되는 인식을 볼 수 있다. 

Rather than attempting to apply the rules of quantitative rigor to the qualitative, individualized world of patient experience, physician experience, and ambiguity, we can look to the increasing published recognition that some forms of assessment can be better studied, and some questions better answered, using qualitative methodology.80,87,92


이러한 경향에 반영되고 있는 것은 의료실습과 의학교육의 서술적 세계에서 '해석-의식의 구별'의 중요성에 대한 이해의 증대다. 이는 포트폴리오와 에세이가 제공하는 질적 정보의 풍부함을 감안할 때 특히 해당될 수 있다. 다른 분야의 논술 평가에 대한 분석은 질적 접근법을 취하였다. 포트폴리오가 학생 평가에 대한 정성적 또는 양적, 질적 접근법을 혼합한 것으로 설명되어 왔기 때문에, 일부에서는 의료 교육에서 평가 도구로서의 포트폴리오 평가도 [질적 연구에 기초하여 수립된 접근방식]에서 이익을 얻을 수 있다고 주장해 왔다.

 Reflected in this trend is a growing understanding of the importance of “interpretation—the discernment of meaning”4 in the narrative worlds of medical practice and medical education. This may be particularly true of portfolios and essays, given the wealth of qualitative information that they provide. Analyses of essay evaluations in other disciplines have taken qualitative approaches.142 Because portfolios have been described as embodying a qualitative113 or a mixed quantitative and qualitative119 approach to student assessment, some have argued that the evaluation of portfolios as an assessment tool in health care education could also benefit from an approach founded in qualitative research.138,140,141,143,144


이것은 최근에 마스트리히트 대학의 의과대학에서 시도되었다.145 연구자들은 다음과 같은 세 가지 기본적인 전제에서 그들의 개입을 뿌리내렸다. 

This has recently been tried at the medical school at Maastricht University.145 The researchers rooted their intervention in three basic premises: 


    • (1) 포트폴리오 평가의 가치가 표준화에 의해 상실되는 진정한 개인적 경험의 풍부함에 대한 기초에서 비롯된다는 것. 

(1) that the value of portfolio evaluation stems from its basis in the richness of authentic personal experience, which would be lost by standardization; 


    • (2) 평가자 훈련과 체크리스트는 기존의 정신측정학 방법에 의해 평가된 적절한 신뢰성을 산출하기 위한 표준화의 결여를 보상할 수 없다는 것 

(2) that rater training and checklists cannot compensate for this lack of standardization to produce adequate reliability as assessed by traditional psychometric methods; and 


    • (3) 질적 연구 전통에서 도출된 질적(및 주관적) 방법은 학생 평가에 대한 새로운 접근법을 제공할 수 있다는 것

(3) that qualitative (and subjective) methods, derived from the qualitative research tradition, can offer novel approaches to student assessment. 


그들은 네 가지 의사 역할("의료 전문가, 과학자, 의료 종사자 및 개인")과 관련된 개인의 장단점에 대한 반성과 증거를 포함하도록 의도된 포트폴리오의 형태별 및 종합 평가와 이러한 영역을 다루기 위한 학습 계획을 모두 수행했다. 종합평가에서 각 학생의 멘토는 '장점과 약점 분석의 질', '학습목표의 명확성과 실현가능성' 등 복수의 글로벌 기준을 활용했다.  그 후, 구분, 합격, 불합격 중 하나일 수 있는 멘토가 부여한 등급에 대해 학생과의 논의를 거쳐, 1, 2명의 다른 독자에 의해 확인되었으며, 13명의 평가위원(학생 멘토 포함)이 심사한 결과 계속 의견 불일치가 발생하는 경우.

They carried out both formative and summative evaluations of portfolios intended to contain reflections on, and evidence of, personal strengths and weaknesses in relation to four physician roles (“medical expert, scientist, health care worker and person”145) as well as learning plans to address these areas. In the summative evaluations, each student’s mentor used multiple global criteria such as “the quality of the analysis of strengths and weaknesses” and “the clarity and feasibility of the learning objectives.”145 The grade assigned by the mentor, which could be either distinction, pass, or fail, was then discussed with the student, confirmed by one or two other readers, and in cases of continuing disagreement reviewed by a committee of 13 assessors (including the student’s mentor).


정성적 연구 내에서 [구성주의적 전통으로부터 두 가지 방법론적 기준을 도입]함으로써, 신뢰성과 신뢰성의 병행적 타당성과 신뢰성에 이용할 수 있다. 그리고 나서 그들은 다음을 보장하기 위해 질적인 방법의 영역에서 받아들여진 전략을 사용했다. 

    • 신뢰도(절제, 장기적 참여, 회원 확인) 및 

    • 종합 평가의 신뢰도(추적 추적, 신뢰도 감사)

Having introduced two methodological criteria from the constructivist tradition146 within qualitative research, credibility and dependability, which can be used to parallel validity and reliability, they then used accepted strategies from the realm of qualitative methods for ensuring the 

    • credibility (triangulation, prolonged engagement, member checking) and 

    • dependability (audit trail, dependability audit) of their summative assessment.


그러나, 방법론의 진정한 계층이 없는 경우, 우리는 [하나의 전통의 기준]을 [다른 타당성 담론의 이미 엄격한 방법론]에 강요하지 않도록 주의해야 한다. 그렇게 되면 "[단일 평가 수행 기준에 기초한 기계적인 결정]은 [복수의 평가 정보 출처에 걸쳐 축적되고 삼각된 정보에 기초한 전문적 판단]으로 대체된다."

However, in the absence of a true hierarchy of methodologies, we should be careful to avoid imposing the criteria of one tradition onto the already rigorous methodology of another valid discourse, wherein the “mechanistic decision based on a standard of performance on a single assessment is replaced by a professional judgment based on accumulated and triangulated information across multiple sources of assessment information.”87


평가 연구에서 질적 방법의 맥락에서 자주 논의되는 세 번째 방법론적 기준은 authenticity로서, 이는 "측정된 결과가 인간 성과의 적절하고, 의미 있고, 중요하고, 가치 있는 형태를 나타내는 정도"로 정의된다. 

    • 특히 포트폴리오가 '일정 기간 동안의 실제 수행, 즉 이론의 적용과 학생이나 의사의 수행 정도를 평가한다'는 평가를 할 수 있다는 점에서 진정한authentic 평가의 형태로 제시되어 왔다. 

    • 비슷하게 에세이는 서면 의사소통 기술과 서술 구조와 같은 역량에 대한 진정한 평가 도구라고 주장될 수 있다. 

A third methodological criterion which is often discussed in the context of qualitative methods in assessment research is that of authenticity, defined as “the extent to which the outcomes measured represent appropriate, meaningful, significant and worthwhile forms of human accomplishments.”147 

    • Portfolios in particular have been advocated as authentic forms of assessment119 in that they allow the evaluation of “performance in practice over a period of time, in other words they assess the application of theory and the performance of the student or doctor.”117 

    • Essays can similarly be argued to be authentic evaluative tools for competencies such as written communication skills and narrative structure. 


이러한 진정성은 "한편으로는 평가와 교육목표, 다른 한편으론 미래실천 요구 사이의 최적의 조화를 가능하게 한다." 그러나, 우리가 본 바와 같이, 신뢰도를 높이기 위해 종종 심리학 담론에서 주창되는, 할당된 업무의 표준화 및 평가의 구조화는, 진정성에 중대한 위협을 제기한다.

Such authenticity allows “optimal congruence between assessment on the one hand and educational goals and the demands of future practice on the other.”92 However, the standardization of assigned tasks and the structuring of their assessment, which, as we have seen, are often advocated in the psychometric discourse to increase reliability, present a significant threat to authenticity.119


서면 본문의 평가에 대한 또 다른 흥미로운 비심리학적 접근법은 모스의 평가방법에 의한 것이다. 이는 마스트리히트 집단의 정성적 기준보다 덜 엄격한 구성주의적 방법론을 사용하며, 대신 헤르메네우틱 텍스트 분석의 고전적 전통에 기초한다(위의 방법 섹션 참조). 모스는 교육에서의 헤르메틱학을 진보적 통합에 기초한 실천으로 묘사하고 있는데, 여기서는,

인간의 현상(문예작품이든 학생의 시험이든)은 "전체를 그 부분에 비추어 이해하려고 노력하며, 각 부분이 전체의 일관성 있는 해석으로 설명될 수 있을 때까지 가용한 증거에 대한 해석을 반복적으로 시험한다"고 해독한다.

Another interesting nonpsychometric approach to the evaluation of written texts comes from Moss’s hermeneutics of assessment. This uses less rigidly constructivist methodology than the Maastricht group’s qualitative criteria, drawing instead on the classic tradition of hermeneutic textual analysis (see the Methods section, above). Moss describes hermeneutics in education as a practice based on progressive integration, in which 

human phenomena (whether literary works or students’ tests) are deciphered by trying “to understand the whole in light of its parts, repeatedly testing interpretations against the available evidence until each of the parts can be accounted for in a coherent interpretation of the whole.”148 


그녀의 방법은 맥락을 강조하고, 포트폴리오에 있을 수 있는 것과 같은 일련의 텍스트에 대한 평가와 관련된 토론과 토론을 문서화되고 단계적인 방식으로 수행된다.

Her methods highlight context and promote discussion and debate around the assessment of a series of texts, such as might be in a portfolio, carried out in a documented, stepwise manner.113


고찰 Discussion


정량적으로 결정된 심리학적 결함에도 불구하고, 에세이와 포트폴리오가 문학 및 의학 교과목의 많은 목표를 평가하는 데 적합한 도구로 남을 수 있다예를 들어, 에세이는 추리력, 쓰기 능력과 같은 구성의 평가에 적합한 반면, 포트폴리오들은 반성의 촉진과 평가를 위해 특별히 개발되었다. 따라서 에세이와 관련된 서면 과제는 서사적 능력과 서면 의사소통 능력을 포함한 서술적 능력의 평가에 적절한 메커니즘을 제시한다. 가장 간단히 말해서, 그들은 의사가 [분리된 임상 정보로부터 논리 정연한 병력를 만들어 내고자 면밀한 독서close reading를 하듯] 글에서 이야기를 추출하는 능력을 평가하는 데 사용될 수 있다.

In spite of their quantitatively- determined psychometric flaws, essays and portfolios may remain suitable tools for the assessment of many of the objectives of a literature and medicine curriculum. For example, essays are appropriate for the assessment of constructs such as reasoning and writing skills, whereas portfolios have been specifically developed for the promotion and evaluation of reflection. Essays and related written assignments therefore present an appropriate mechanism for the evaluation of narrative skills, including narrative competence and written communication skills. Most simply, they can be used to assess the ability to extract a story from a text by close reading in the way that physicians fashion a coherent history from disjointed pieces of clinical information.


(에세이나 포트폴리오의) 주관성은 비록 심리측적적 프레임워크 측면에서 문제가 있지만, 모호한 텍스트, 개념, 감정의 탐구에 도움이 된다. 예를 들어, 임상실습 전에 쓴 에세이는, 환자와 의사의 관점에서 제시된 이야기들에 관한 것으로, 학생들에게 다음을 하게끔 한다

  • 환자의 경험에 대한 이해를 보여준다

  • 환자의 질병이 의사와 다른 보호자에게 미칠 수 있는 정서적 영향을 탐구한다

  • 잠재적으로 어려운 직업적 딜레마를 반성한다

Their subjectiveness, although problematic within a psychometric framework, also lends itself to the exploration of ambiguous texts, concepts, and feelings. Essays written in the preclerkship, for example, about stories presented from patients’ and physicians’ points of view, can allow a student 

  • to show an understanding of a patient’s experience, 

  • to explore possible emotional repercussions of a patient’s illness on her physicians and other caregivers, and 

  • to reflect on potentially difficult professional dilemmas. 


내용보다는 과정을 강조함으로써 실생활에서 이런 상황을 경험해야 하기 전에 공감과 정서적 자기반성과 관련된 기술을 개발하는 데 도움이 될 수 있다. 그러한 에세이에 대한 "정답"의 결여는 적절히 프레임을 짜면 문학이나 의학 모두에서 불확실성의 개념을 도입할 수 있다.

By emphasizing process rather than content, this can help develop skills related to empathy and emotional self-reflection before having to experience such situations in real life. The lack of a “right answer” for such an essay can, if framed appropriately, introduce the idea of uncertainty both in literature and in medicine.


현실적인 이유로, 공식적인 에세이는 임상 기간 동안 배정하기 어렵다. 그러나, 임상실습 전에 가르친 스킬을 바탕으로 하는 짧은 성찰 포트폴리오(또는 커리큘럼의 나머지 부분에 따라 더 일반적인 포트폴리오의 한 부분)는 공감, 자기 성찰의 과정, 그리고 서술적 스킬을 계속해서 장려하고 평가할 수 있다.

For practical reasons, formal essays are hard to assign during the clinical years. However, a portfolio of short reflections (or a section of a more general portfolio, depending on the rest of the curriculum), which builds on skills originally taught in the preclerkship, can continue to encourage and assess empathy, the process of self-reflection, and narrative skills.


포트폴리오가 개인, 개인의 속성 및 경험에 초점을 맞추기 때문에 서술적 지식으로 고무된 "한 명의 참가자 또는 관찰자가 한 상황에 대해 지역적이고 특정한 이해"를 표현하는 데 이상적이다. 이러한 맥락에서 학생 성찰의 중요성을 고려할 때, "포트폴리오의 성공적인 성찰적 사용"에 필요한 조건을 만들기 위해 주의를 기울여야 한다. 

  • 멘토별 코칭 

  • 초기initial 구조(특히 weaker 학생에 대하여). 학생들이 일단 성찰에 익숙해지면 그 구조에서 벗어날 수 있는 자유가 있다. 

  • 최종적인 총괄 평가 

  • 경험 또는 기타 성찰해야 할 자료의 가용성.

Because portfolios focus on personal, individual attributes and experiences,119 they are ideal for expressing the “local and particular understandings about one situation by one participant or observer”5 encouraged by narrative knowledge. Given the importance of student reflection in this context, care must be taken to create the conditions necessary for “successful reflective use of portfolios”: 

  • coaching by mentors; 

  • initial structure, especially for weaker students, with the freedom for students to move away from that structure once they are good at reflecting; 

  • eventual summative assessment; 

  • and the availability of experiences or other material on which to reflect.149


전반적으로 내용보다는 과정에 초점을 두고 있으며, 종합평가는 포트폴리오가 시간이 지남에 따라 발전함에 따라 광범위한 형성적 피드백을 동반해야 한다. 멘토에 의한 선별된 문예지문의 제공은 적절한 실제 경험이 없는 상황에서 자료의 이용가능성 문제에 도움이 될 수 있다. 학생들은 또한 할당된 문학 작품들에 대해 계속해서 간략하게 성찰할 수 있는데, 특히 일련의 짧은 작품들이 그들의 회전을 동반하도록 선택된다면 더욱 그러하다.† 포트폴리오에 통합될 수 있는 그 밖의 관련 항목으로는 병렬parallel 차트가 있다. 이 차트는 학생이 "임상 차트에 속하지 않지만 반드시 어딘가에 기록되어야 하는 환자의 관리 측면에 대하여,"150 또는 환자 이름이 제거된 실제 임상 노트와 편지 사본을 작성하여 서면 의사소통 능력을 평가한다. 

Overall, the focus remains on process, rather than on content, and summative assessment must be accompanied by extensive formative feedback as the portfolio develops over time. The provision of selected literary texts by mentors when needed can help with the issue of availability of material in the absence of appropriate real experiences. Students can also continue to reflect briefly on assigned works of literature, particularly if a series of short works is chosen to accompany their rotations.† Other related items that could be integrated into a portfolio include parallel charts, in which students write “about aspects of the care of their patients that don’t belong in the clinical chart but must be written somewhere,”150 or copies of real clinical notes and letters, with patients names removed, to assess written communication skills. 


결론 Conclusion

문학 및 의학 교과 과정에 적합한 평가 도구는 심리학 담론의 전통적인 평가 기준을 충족하지 못하며, 그 진위를 보존하려면, 향후에 그 평가 도구에 부합하지 않을 가능성이 높다. 그러나 의료 교육 연구에 서서히 도입되고 있는 질적 연구라는 또 다른 담론에서 따온 엄격하고 유용한 기준들이 있다. 이론적인 관점에서, 진리의 실증주의적 개념을 회피하는 평가 전략을 사용하는 것은 문학 및 의학 교과과정의 목적과 일치한다. 문학이 "무엇보다 질적 구별점을 가지고 있다"고 가정한다면, 질적 척도는 적절하다. 그것이 추진하는 학습과 일치하는 평가를 만들 필요가 있음을 반영하여, 평가에 대한 구성주의적 접근법과 헤르메뉴틱 접근법 내에서 개성과 참여에 대한 강조는 문학과 의학의 맥락에 대한 적합성을 더욱 강조한다.

The assessment tools appropriate for a literature and medicine curriculum do not meet the psychometric discourse’s traditional evaluation criteria and, if they are to preserve their authenticity, are not likely to conform to them in the future. However, there are rigorous, usable criteria taken from another discourse, that of qualitative research, which are slowly being introduced into medical education research. From a theoretical perspective, using evaluation strategies that shun the positivist notion of truth is consistent with the objectives of a literature and medicine curriculum; given that literature is “concerned above all with qualitative distinctions,”106 qualitative measures are apposite. Reflective of the need to create assessment congruent with the learning that it drives, the emphasis on individuality and engagement within both the constructivist and hermeneutic approaches to evaluation further highlight their suitability for the context of literature and medicine.





Review

 

. 2006 Oct;81(10 Suppl):S128-37.
 doi: 10.1097/00001888-200610001-00032.

Literature and medicine: a problem of assessment

Affiliations 

Affiliation

  • 1Wilson Centre for Research in Education, University Health Network, 200 Elizabeth Street, Eaton South 1-565, Toronto, Ontario, Canada M5G 2C4. ayelet94@post.harvard.edu

Abstract

Background: "Literature and medicine" is increasingly common in medical schools but not within medical education research. This absence may relate to it not being problematizable in the quantitative way in which this psychometrically-oriented community tends to conceptualize research questions.

Method: Databases were searched using relevant keywords. Articles were evaluated using methodologies appropriate to their fields. The resulting information was structured around a framework of construct-appropriate assessment methods.

Results: Literature and medicine is intended to develop skills as potential proxy outcomes for important constructs. Proposed tools to assess these skills are difficult to evaluate using the field's traditional quantitative framework. Methodologies derived from the qualitative tradition offer alternative assessment methods.

Conclusion: The medical education research community should take on the challenges presented by literature and medicine. Otherwise, we run the risk that the current evaluation system will prevent important constructs from being effectively taught and assessed.


+ Recent posts