임상 상황에서 일반역량의 발전정도 탐지의 어려움(Med Educ, 2018)

The challenges of detecting progress in generic competencies in the clinical setting
Valerie Dory,1,2 Carlos Gomez-Garibello,1,2 Richard Cruess,1,3 Sylvia Cruess,1,2 Beth-Ann Cummings1,2,4 & Meredith Young1,2

 

 

도입

INTRODUCTION

 

역량 기반 의료 교육(CBME)에서 평가는 개인의 역량 발달을 추적해야 한다.1 이를 위해서는 성과 기반 평가의 종단적 프로그램이 필요하다. 교육 단계에 관계없이 프로그램의 모든 학습자에게 시행되는 진행 목표 구조 임상 검사(진행 OSCE)는 학부 2 및 대학원 3,4 의료 교육에서 성공적으로 시범 운영되었습니다. 그러나 OSCE는 비용이 많이 들고, 이는 평가의 잠재적 빈도를 제한하며, 작업장 기반 평가(WBA)보다 진위성이 떨어진다.1 
In competency-based medical education (CBME), assessment must track individuals’ development of competencies.1 This requires a longitudinal programme of performance-based assessments. Progress objective structured clinical examinations (progress OSCEs), administered to all learners in a programme, regardless of stage of training, have been successfully piloted in undergraduate2 and postgraduate3,4 medical education. However, OSCEs are costly, which limits the potential frequency of assessments,5 and are less authentic than workplace- based assessments (WBAs).1 

따라서 CBME는 progress OSCE에만 의존할 수 없으며 프로그램의 시간 내에 예상되는 진행 정도에 민감한 종방향 WBA를 사용해야 한다. 이 민감도는 이에 따라 달라진다.

  • 올바른 구성(하나 또는 여러 역량)을 목표로 하는 것
  • 올바른 도구의 사용(타당성 증거 포함)
  • 올바른 방식으로(평가자 및 의사 결정자가) 평가하는 것

Therefore, CBME cannot rely solely on progress OSCEs but requires the use of longitudinal WBAs that are sensitive to the degree of progress expected within the programme’s time frame; this sensitivity hinges on

  • the targeting of the right construct (one or several competencies), and
  • the use of the right instrument (with supporting validity evidence)
  • in the right way (by assessors and decision makers). 


평가자는 불행히도 일관성이 없는 것으로 악명 높다. 6,7

  • 다양한 측면의 성능에 초점을 맞춥니다(differential salience), 8-10
  • 동일한 행동에 대해 다른 이유를 추론하다. 9,10
  • 다양한 방식으로 역량을 개념화한다(수행 이론), 11
  • 다양한 수준의 끈적임(매/비둘기 효과),
  • 척도를 달리 해석하다10

Assessors are unfortunately notoriously inconsistent.6,7 They

  • focus on different aspects of performance (differential salience),8–10
  • infer different reasons for the same behaviour,9,10
  • conceptualise competence in different ways (performance theories),11
  • exhibit different levels of stringency (the hawk/dove effect),8 and
  • interpret scales in different ways.10 


'기대 충족'과 같은 기존의 scale 앵커는 벤치마크를 명확하게 전달하지 못한다.6,10 이러한 명확성의 결여는 평가를 완료할 때 평가자의 표준 참조(즉, 학습자와 동료를 비교하기 위해)에 의존하는 경향을 복합적으로 만들 수 있다. 6,10,12 표준 참조norm-referencing는 CBME와 양립할 수 없기 때문에 특히 표준 규격이 맞지 않을 수 있다. 때때로 안전 실천safe practice 수준 아래로 떨어집니다.1 
Traditional scale anchors, such as ‘meets expectations’, fail to clearly convey benchmarks.6,10 This lack of clarity may compound assessors’ tendencies to rely on norm-referencing (i.e. to compare learners with their peers) when completing an assessment.6,10,12 Norm-referencing is incompatible with CBME, most notably because normative standards may occasionally fall below levels of safe practice.1 

표준 참조는 또한 기준을 불명확하거나 자꾸 바뀌는 것으로 만들 수 있다. 10 예를 들어, 평가자는 능력 수준보다 훨씬 낮지만 대부분의 다른 초보자와 유사하게 '기대 충족'으로 수행 중인 초보 학습자에게 점수를 부여할 수 있다.

Norm-referencing also leads to unclear and potentially shifting standards.10 For example, an assessor might score a novice learner who is performing far below a competent level but similarly to most other novices as ‘meeting expectations’. 

 

그럼에도 불구하고, 심사원의 변동성variability은 여러 차례에 걸쳐 여러 명의 심사원으로부터 평가를 수집함으로써 완화될 수 있다(그리고 아마도 심사원 훈련을 통해, 15–17의 영향이 일관되지 않지만).
Assessor variability can nonetheless be mitigated by collecting assessments from multiple assessors on multiple occasions14 (and perhaps through assessor training, although the effects of this are inconsistent15–17).

올바른 도구의 사용과 관련하여, 미니 임상 평가 연습(mini-CEX)과 같은 여러 도구의 사용을 지지하는 증거가 많이 있다.14,18 그러나 그러한 기기의 변화에 대한 대응성에 관한 증거는 드물고 그룹 수준에서 제한된 검출 진행률을 보여준다.20–22
With respect to the use of the right instrument, there is mounting evidence supporting the use of several instruments, such as the mini-clinical evaluation exercise (mini-CEX).14,18 However, the evidence regarding the responsiveness of such instruments to change is scarce19 and limited detecting progress at the group level.20–22

마지막으로, 종단적 WBA는 프로그램 중에 개발될 것으로 예상되는 역량을 목표로 해야 한다. 이는 CBME를 점점 더 채택하고 있는 학부 의학 교육(UGME)에서 특히 문제를 제기한다. CBME에 대한 많은 작업이 수행된 대학원 의학 교육(PGME)보다 UGME는 시간이 더 짧다(일반적으로 PGME의 2~5년과 비교했을 때 UGME의 임상 배치 1~2년). 통상적으로 UGME에서 접하는 전공의 수가 더 많다. 
Finally, longitudinal WBA must target the competencies that are expected to develop during a programme. This raises particular challenges in undergraduate medical education (UGME), which is increasingly adopting CBME. The time frame is shorter than in postgraduate medical education (PGME), in which much of the work on CBME has been conducted (typically 1 or 2 years of clinical placements in UGME compared with 2–5 years in PGME), whereas the scope of disciplines encountered is usually broader. 

다양한 분야(직업)에서 임상 배치 첫 해 동안 일반 역량의 개발을 문서화하기 위해 종적 WBA 프로그램을 구현했다. 이 연구는 검증과 연구 목적을 결합했다.

We implemented a longitudinal WBA programme to document the development of generic competencies during the first year of clinical placements in diverse disciplines (clerkship). This study combined validation and research purposes. 

 

 

방법

METHODS

우리는 병렬 데이터베이스와 함께 수렴 혼합 방법 설계를 사용했다.23 정량적 암은 다음과 같은 문제를 해결했다.

  • (i) 임상 배치 연도 동안 점수는 어떻게 변화합니까?
  • (ii) 의과대학의 첫 번째 임상 연도에 종적으로 사용될 때, 전문적인 행동의 WBA의 정신계학적 특성은 무엇인가?
  • (iii) 점수의 변동 원인은 무엇인가?
  • (iv) 점수는 얼마나 신뢰할 수 있는가? 정성적 팔은 평가자의 평가 경험 및 구체적으로 다음과 같은 질문을 탐구하였다.
  • (v) 평가인은 평가 대상을 어떻게 개념화하였는가?
  • (vi) 평가자는 어떻게 판단에 도달했으며, 어떤 요소가 영향을 미쳤다고 믿는가? 특히 평가 당시 학생이 있는 연도를 고려하였는가?

We used a convergent mixed-methods design with parallel databases.23 The quantitative arm addressed the following questions:

  • (i) How do scores change over the year of clinical placements?
  • (ii) What are the psychometric properties of a WBA of professional behaviours, when used longitudinally in the first clinical year of medical school?
  • (iii) What are the sources of variability in scores?
  • (iv) How reliable are the scores? The qualitative arm explored assessors’ experiences of the assessment and specifically the following questions:
  • (v) How did assessors conceptualise the target of assessment?
  • (vi) How did assessors arrive at their judgements, what factors do they believe influenced them, and, specifically, did they take account of how long into the year students were at the time of the assessment? 


연구 맥락

Study context

우리는 4년제 학부 의학 교육과정의 3학년 때 종적 WBA를 구현했다. 3년은 세 개의 임상 블록으로 구성되며, 각각 두 개의 전공단위 기반 로테이션을 통합한다(그림 1). 
We implemented a longitudinal WBA in Year 3 of a 4-year undergraduate medical curriculum. Year 3 comprises three clinical blocks, each integrating two discipline-based rotations (Fig. 1). 

 



학생들은 환자와 마주치거나encounter 다학제 토론 중에 이를 관찰한 모든 보건 전문가로부터 로테이션 당 두 가지 평가를 도출하도록 지시 받았다. 회전당 최소 한 개씩을 유도하는 것은 의무적이었다. 모든 중대한 사고는 코스 책임자에게 보고해야 했지만, 그렇지 않은 경우 평가는 형성적이었다.
Students were instructed to elicit two assessments per rotation from any health professional who had observed them during a patient encounter or a multidisciplinary discussion. Eliciting at least one per rotation was mandatory. Any critical incidents were to be reported to the course director, but otherwise the assessment was formative. 


평가 도구는 전문성 미니 평가 연습(P-MEX)의 전자 버전이었다.24 P-MEX는 전문성에 대한 광범위한 개념을 반영하며 임상 분야와는 무관하게 여러 일반 역량을 포괄한다. P-MEX는 4점 척도로 평가되는 글로벌 항목 1개와 21개의 구체적 항목을 가지고 있으며, 각 항목에 대해 간략한 일반적인 설명을 제공한다.24 우리는 의과대학 졸업에 기대되는 성과 수준에 맞춰 기대치를 설정했다고 명시했다. 부록 S1 및 S2는 전체 계측기를 제공합니다. 
The assessment instrument was an electronic version of the professionalism mini-evaluation exercise (P-MEX).24 The P-MEX reflects a broad conception of professionalism and covers multiple generic competencies, independent of clinical discipline. The P-MEX has one global and 21 specific items, which are rated on a 4-point scale (from ‘unacceptable’ to ‘exceeded expectations’), and gives a brief generic explanation for each point.24 We specified that expectations were set in line with the level of performance expected on graduation from medical school. Appendices S1 and S2 provide the full instrument. 


양적 부분

Quantitative arm

참여자 Participants

분석 Analyses

 

점수의 변동성과 신뢰성의 원인을 조사하기 위해 G String IV(http://fhsperd.mcmaster.ca/g_string)를 사용하여 일반화가능성 분석을 수행했다. 평가는 학생 성취도의 차이를 식별하기 위해 고안되었다. 따라서, 원하는 변동성의 원천(또는 분화의 측면)은 학생이었다. 변동성의 다른 원인, 특히 다음과 관련된 변동성을 조사하였다.

  • (i) 학생이 배정되고, 학생들의 회전 순서를 결정한 그룹('그룹': 계층화 면)
  • (ii) 서로 다른 평가자가 각 학생에 대해 서로 다른 사건을 관찰하여 작성한 양식('형식': '학생'에 내포된 일반화의 무작위 면)
  • (iii) 평가 양식의 개별 항목('항목': '양식'에 내포된 일반화의 고정 측면)

학생들 간의 신뢰성 있는 차별화에 필요한 양식 수를 결정하기 위해, 우리는 의사결정 연구(일반성 계수 0.80으로 설정)를 수행했다.

To examine the sources of variability and reliability of scores, we performed generalisability analyses using G String IV (http://fhsperd.mcmaster.ca/g_string). Assessments are designed to identify differences in student performance. Therefore, the desired source of variability (or facet of differentiation) was students. We examined other sources of variability, specifically the variability associated with:

  • (i) the group to which students were assigned and which determined the order of their rotations (‘group’: stratification facet);
  • (ii) the forms completed by different assessors observing different events for each student (‘form’: random facet of generalisation nested in ‘student’), and
  • (iii) the individual items on the assessment form (‘item’: fixed facet of generalisation nested in ‘form’).

To determine the number of forms required to reliably differentiate among students, we performed a decision study (generalisability coefficient set at 0.80). 

 

 

질적 부분

Qualitative arm

참여자와 모집
Participants and recruitment

우리는 분야와 전문 그룹(참석 의사, 거주자, 비의사) 측면에서 최대한의 variation를 추구했다. 우리는 이메일로 대상 평가관에게 연락했습니다. 처음에 우리는 다양한 유형의 전문직(직업 및 분야별)으로부터 충분한 '정보력'을 확보하기 위해 약 6, 7명의 참가자로 구성된 6개의 포커스 그룹이 필요할 것으로 추정했다.27 일정상의 어려움 때문에 일부 포커스 그룹을 인터뷰로 전환했는데, 이들의 심층적인 성격이 더 적은 참여자로 충분한 '정보력'을 얻을 수 있게 해 20명의 참가자를 목표로 했다. 

We sought maximal variation in terms of disciplines and professional groups (attending physicians, residents, non-physicians). We contacted targeted assessors by e-mail. We had initially estimated that we would require six focus groups of approximately six or seven participants to ensure sufficient ‘information power’ from different types of professional (by profession and discipline).27 We converted some focus groups to interviews because of scheduling difficulties and found that their more in-depth nature allowed us to obtain sufficient ‘information power’ with fewer participants and so we aimed for 20 participants. 

인터뷰 가이드
Interview guide

 

인터뷰 가이드(부록 S3)는 평가자 인식에 관한 문헌의 이전 조사 결과에 의해 형성된 질문과 조사와 함께 인터뷰 대상자가 판단에 영향을 미쳤다고 생각하는 요소에 초점을 맞췄다. 6,7 여기에는 다음이 포함된다. 

  • Differential salience (평가자마다 수행의 다른 측면에 초점을 맞춤), 8,9 
  • 기준 불확실성 (평가자가 임의적으로 준거를 구성함), 8 
  • 수행능력 이론(평가자가 자신의 임상 역량 모델을 사용함)11 

우리는 구체적으로 참가자들이 첫 번째 훈련 기간에 후속 기간보다 더 관대하게 행동함으로써 의식적으로 그들의 기대를 조정했는지에 대해 탐구했다.
The interview guide (Appendix S3) focused on the factors that interviewees believed had influenced their judgements, with questions and probes shaped by previous findings from the literature on assessor cognition.6,7 These included

  • differential salience (assessors focus on different aspects of performance),8,9
  • criterion uncertainty (assessors tentatively construct criteria),8 and
  • performance theories (assessors use their own models of clinical competence).11

We specifically explored whether participants consciously adjusted their expectations by being more lenient in the first training period than in subsequent periods. 


분석 Analysis

데이터는 그대로 옮겨졌다. RA와 제1저자(제1저자)는 P-MEX 양식 작성 과정에 대한 감독자의 경험을 나타내기 위해 다양한 코딩 유형을 사용하여 독립적으로 라인별 코딩을 수행한 다음 코드를 논의하기 위해 만났다.28 분석가는 간혹 눈에 띄는 차이가 있었는데, 이는 반환함으로써 쉽게 해결되었다. 더 넓은 범위의 코드로 이어졌습니다. 그들은 또한 의미를 나타내기 위해 사용되는 언어의 차이를 협상했다. 그런 다음 데이터에 매우 가까운 초기 코드를 더 추상적인 범주로 분류했다.

Data were transcribed verbatim. The RAs and the first author (first-round analysts) independently performed line-by-line coding using an eclectic array of coding types to represent supervisors’ experiences of the process of completing P-MEX forms, and then met to discuss codes.28 The analysts occasionally differed in what they had noticed, which was easily resolved by returning to the data and led to a broader range of codes. They also negotiated differences in the language used to represent meaning. They then grouped initial codes that were very close to the data into more abstract categories. 

 

비록 그 분석이 귀납적이었지만, 이론상으로는 첫 번째 저자의 배경에 의해 inform되었다. 예를 들어, 1차 분석가는 Gauthier 등의 3단계 평가 프로세스(관찰, 처리, 통합)에 따라 코드를 그룹화하여 '양식 완성 초대'와 '피드백 제공'에 대한 범주를 추가했다. 행동 예측의 통합 모델(계획된 행동 이론에 기초함)에 민감해진 첫 번째 저자는 참가자들이 자신의 행동을 뒷받침하는 믿음을 쉽게 드러냈고, 따라서 이 개념(행동에 대한 믿음)이 하나의 범주가 되었다는 것을 알아차렸다. 이 범주 내에서, 일부 신념은 일반 역량의 고정 대 발전적 특성을 고려하였다. 다른 사람들은 그것들을 '자연' 대 '양육' 또는 '성격' 대 '능력'으로 코딩했을지도 모르지만, 우리는 인간 속성의 암시적 이론의 Dweck 등의 언어를 사용하여 '실체' 대 '증분'으로 코딩했다.31 

Although the analysis was inductive, it was informed by the first author’s background in theory. For example, the first-round analysts grouped codes according to Gauthier et al.’s7 three phases of the rating process (observation, processing, integration), adding categories for ‘invitation to complete a form’ and ‘provision of feedback’. Sensitised to the integrative model of behaviour prediction (based on the theory of planned behaviour),29,30 the first author noticed that participants readily revealed the beliefs that underpinned their behaviours and hence this concept (beliefs about the behaviour) became a category. Within this category, some beliefs concerned the fixed versus developmental nature of generic competencies. Others might have coded them as ‘nature’ versus ‘nurture’, or ‘character’ versus ‘competence’, but we coded them as ‘entity’ versus ‘incremental’, using Dweck et al.’s language of implicit theories of human attributes.31 


두 번째 코딩 라운드에서 믿음과 행동에 대한 28개의 코드는 더 이상 연대순으로 분류되지 않고(Gauthier et al., Gauthier et al.의 7개 평가 단계에 따라), 평가자 목표에 따라(공정하고, 정확하며, 유용하고, 친절하며, 특정 믿음과 보고된 행동 사이의 관계를 조사하였다. 첫 번째 저자는 이러한 논의에서 해석적 가설과 반성을 포착하기 위해 분석 메모를 썼다.28  

In a second round of coding,28 codes about beliefs and behaviours were no longer grouped chronologically (according to our adapted version of Gauthier et al.’s7 phases of assessment), but, rather, according to assessor goals (being fair, being accurate, being useful, being kind), examining relationships between specific beliefs and reported behaviours. The first author wrote analytic memos to capture interpretive hypotheses and reflections from these discussions.28 


세 번째 분석에서는 나머지 팀원들이 서로 다른 샘플 성적표와 코드북을 조사했습니다. 연구팀은 주목할 만한 발견과 해석에 대해 토론했다. 연구팀은 전문성 전문지식을 갖춘 임상-교육자 3명과 인지심리학 전문지식을 갖춘 평가전문가 2명으로 구성됐다. 이 광범위한 전문 지식과 이론적 배경은 이론적인 수준과 실제적인 수준 모두에서 토론으로 이어졌다. 구체적으로, 토론은 평가 시스템의 평가자 기관, 전문성의 본질에 대한 오랜 논쟁, 32 그리고 신념과 행동을 형성하는 데 있어 전문가 그룹의 잠재적인 역할에 초점을 맞췄다. 이로 인해 우리는 모든 대화록에 키 코드가 있는지 또는 일부 대화록에만 있는지, 그리고 그 패턴이 참가자의 전문 그룹(예: 의사, 거주자, 비의사)과 관련이 있는지 여부를 조사하기 위해 차트 28을 생성했다.

In a third round of analysis, the remaining team members examined different sample transcripts and the codebook. The research team discussed salient findings and interpretations. The team comprised three clinician-educators, two of whom have expertise in professionalism, as well as two assessment experts, one of whom has expertise in cognitive psychology. This broad range of expertise and theoretical backgrounds led to discussions at both the theoretical and practical levels. Specifically, discussions focused on the agency of assessors in an assessment system, on the long-standing debate of the nature of professionalism,32 and on the potential role of professional group in shaping beliefs and behaviours. This prompted us to generate charts28 to examine whether key codes were present in all of the transcripts or only in some transcripts, and whether the patterns were related to the participants’ professional groups (i.e. practising physicians, residents, non-physicians). 

 

결과

RESULTS

자료 출처의 특징

Characteristics of data sources

질적 부분 Qualitative arm

 

총 1669개의 양식이 186명의 학생을 위해 완성되었다. (표 1)

A total of 1669 forms were completed for 186 students (an average of nine forms per student). (Table 1).

 


양적 부분 Quantitative arm

(Table 2).

 

 

점수의 변동 원인: 학생이 아닌 시간, 주로 평가자
Sources of variability in scores: not student, not time, but mainly assessors

 

학생 점수의 차이에도 불구하고, 이 분산의 아주 작은 비율만이 학생 역량의 차이로 인한 것이었다(표 3).
Despite some variance in student scores, only a very small proportion of this variance was attributable to differences in student competence (Table 3).

주요 분산 요인은 양식 자체였습니다(표 3).
The main source of variance was the forms themselves (Table 3).

 



따라서 양식과 관련된 변동은 (환자 사례와 같은) 평가의 맥락뿐만 아니라 평가자와 관련된 변동을 포함합니다. 
Variation associated with the forms would therefore contain variation associated with the assessor, as well as with the context of the assessment, including the patient case. 

그러나 우리의 포커스 그룹과 개별 인터뷰에서 생성된 데이터는 많은 평가자가 다중 관찰에 의존했음을 시사했다. 
However, data generated from our focus groups and individual interviews suggested that many assessors relied on multiple observations, 

정보가 있다면 아마 둘 이상의 encounter 정보를 사용할 겁니다. [...] 다양한 유형의 세팅처럼 유용하기 때문입니다.
I probably use information for more than one encounter, if I have it. [...] Because it is useful in sort of different types of settings.

 

따라서 각 양식은 여러 환자 사례에서 수행능력을 반영하여, 사례 특이성의 영향을 완화하고, 주로 평가자 변동성이 양식과 관련된 변동성으로 남게 된다.

Each form therefore may have reflected performance across multiple patient cases, mitigating the effects of case-specificity and leaving mainly assessor variability as an explanation of the variability associated with the forms.

 

 

 

전체적으로 높은 점수
High scores throughout


모든 항목의 평균 점수는 매우 높았다(표 4).
Average scores were very high for all items (Table 4).

 



참가자들은 높은 점수에 대한 두 가지 잠재적인 설명을 제공했습니다. 첫째, 많은 항목들이 임상실습 시작부터 모든 학생들이 보여주어야 할 기본적인 특성으로 보였으며, 그 이후에는 개선의 여지가 거의 없었다. 참가자들은 학생들의 태도에 초점을 맞춘 평가라고 믿었고, 많은 참가자들은 이러한 평가는 개선될 것 같지 않은 고정된 개별 특성으로 보았다. 실제로 대부분의 참가자들은 평가가 연초에 이루어졌는지 또는 연말에 이루어졌는지 여부에 관계없이 학생들을 동일한 벤치마크로 보유하는 것을 정당화하기 위해 이러한 믿음을 사용했지만, 의료 전문지식과 같은 역량에 대해서는 연도별 시기에 따라 기준을 수정할 것을 제안하기도 했다. 
Participants provided two potential explanations for the high scores. Firstly, many items were seen as basic characteristics that all students should demonstrate from the beginning of clerkship, with little room for improvement thereafter. Participants believed that the assessment focused on students’ attitudes and many participants saw these as fixed individual characteristics that were unlikely to progress. In fact, most participants used this belief to justify holding students to the same benchmark, regardless of whether the assessment took place at the beginning or end of the year, whereas some suggested that they would modify their standards according to the time of year for competencies such as medical expertise: 


그래서 P-MEX가 요구하는 것에 대해 말하자면, 저는 본과3학년 학년 초든 학년 말이든 제 기대치에 큰 변화가 없습니다. 이것들은 사실상 '의사됨physicianship'에 관한 설문지이다. 
So, in regards, to what the P-MEX asks, I don’t really have a change in my expectations in someone at the start of med 3 versus the end. These are more of a ‘physicianship’ questionnaire. 


이러한 속성을 고정된 것으로 간주하면 성능 저하에 대한 단일 관측치로부터 일반화하는 평가자의 의지도 감소하며, 평가자들이 여러 관측치에 걸쳐 집계하기를 선호하는 이유를 설명한다. 일부 참가자들에 따르면, 성적이 좋지 않은 것은 맥락적 문제 또는 학생 문제를 시사했다고 한다. 그러나 두 가지를 구별할 수 없어서, 그들은 학생에게 '의심에 대한 베네핏benefit of the doubt'을 주었다. 반대로, 긍정적인 성과는 학생들이 실제로 바람직한 속성을 가지고 있다는 것을 의미했고 따라서 일반화할 수 있었다.
Seeing these attributes as fixed also reduced assessors’ willingness to generalise from single observations of poor performance, and explains why assessors preferred to aggregate across multiple observations. According to some participants, poor performance suggested either contextual issues or student issues. Unable to differentiate between the two, they gave the student the ‘benefit of the doubt’. Conversely, positive performance implied that students did indeed possess the desirable attributes and was therefore generalisable:

만약 여러분이 무언가 약간 부적절한 것을 보거나 목격했다면, 또는 의문이 드는 것을 보았다면: '그 학생이 오늘 피곤해서 그런 건가요? 환자가 어색해서 그런가? 그 이유는... 스트레스 너무 많이 받아요?' 하지만 긍정적인 면을 위해, 저는 '그는 항상 긍정적입니다'와 같이 좀 더 일반화하려고 노력합니다.
If you’ve seen or witnessed something maybe a little inappropriate or something you start to wonder: ‘Is it because the student is tired today? Is it because the patient is awkward? Is it because... you know, it’s too stressful?’ But for positive, I try to generalise more, like ‘He’s always positive.’

 

고득점에 대한 두 번째 잠재적 설명은 일부 평가자가 학습자의 기분을 상하게 하거나, 학습자의 학업 진척도를 저해하거나, 원하는 전문분야에 맞는 전망을 저해할 수 있기 때문에 부정적인 평가를 서면 작성cosign하는 것을 꺼린다는 것이었다. 이로 인해 평가자는 [실제 성과에 관계없이 '기대 충족' 또는 '적용되지 않음'을 기본 점수로 사용]하고, 서술형 코멘트를 만들어 긍정적인 톤을 유지하거나 부정적인 코멘트를 완전히 생략할 수 있다. 사실, 일부 평가자들은 그들이 poor하다고 판단한 학생이 자신들에게 평가를 요청할 가능성이 없는 경우, 그들은 단순히 거절할 것이라고 추측했다.

The second potential explanation for the high scores was that some assessors were reluctant to consign negative ratings in writing because they wished to avoid doing harm by hurting the learner’s feelings, hindering the learner’s progress in the undergraduate programme, or dampening his or her prospects of matching to a desired specialty. This could lead assessors to use ‘met expectations’ or ‘not applicable’ as a default score regardless of actual performance, and to craft their narrative comments to maintain a positive tone or to omit negative comments altogether. In fact, some assessors conjectured that in the unlikely event that a student they judged as poor would request an assessment from them, they would simply decline.


주행 평가자 행동의 가치
Values driving assessor behaviours


참가자들의 행동을 정당화하면서, 참여자들은 암시적 가치와 윤리적 원칙에 의해 그들의 인지된 행위자성agency을 밝혔다. 위의 발췌문에서 알 수 있듯이, 학생들에게 해를 끼치는 것을 피하는 것은 많은 평가자들에게 중요한 원동력이었다. 몇몇 평가자들에게도 다른 가치들이 작용하고 있었다. 학생들을 돕고자 하는 열망은 평가자들이 학습 지원을 위해 상세한 피드백을 제공하고자 하는 바대로 학생의 요구의 어색함을 없애기 위해 양식을 완성하도록 동기를 부여했습니다. 
In justifying their behaviours, participants revealed their perceived agency, driven by implicit values and ethical principles. As the extract above suggests, avoiding harm to students was an important driver for many assessors. Other values were also at play for several assessors. The desire to help students motivated assessors to offer to complete the form to remove the awkwardness of the student’s asking, as did the wish to provide detailed feedback to support learning: 

전반적으로, 평가자들은 [제도적으로 존재하는 교수 지침]보다 [그들 자신의 가치]에 의해 움직이는 것처럼 보였다.

Overall, assessors appeared to be driven by their own values more than by the institutional norms of faculty instructions. 

고찰

DISCUSSION

의과대학 임상 단계에서 학생들의 일반 역량 개발을 추적하기 위해 종적 WBA를 구현했다. 평가는 실패했다. 연초부터 평가 점수가 매우 높았고 고지plateau에 도달했다. 올바른 도구를 사용하여 올바른 구조를 목표로 하는 성공적인 세로 방향 WBA에 필요한 세 가지 성분 중 몇 가지가 고장일 가능성이 높으며, 국부적으로나 다른 CBME 설정에 중대한 영향을 미칠 수 있습니다. 

  • targeting the right construct,
  • using the right instrument,
  • (using) in the right way 

We implemented a longitudinal WBA to track students’ development of generic competencies during the clinical phase of medical school. The implementation failed: assessment scores were very high from the beginning of the year and reached a plateau. Of the three ingredients required for successful longitudinal WBA – targeting the right construct, using the right instrument, in the right way – several are likely to be at fault, with significant implications locally and for other CBME settings. 

첫 번째 쟁점은 적절한 수준을 목표로 하는 도구를 선택하는 것과 관련이 있다: 일부 평가자들은 양식의 항목이 너무 기본적이어서 모든 학생들이 처음부터 높은 점수를 받을 수밖에 없다고 생각했다. P-MEX에 대한 다른 연구들은 그렇게 높은 점수를 얻지는 못했지만, 24,25는 우리 기관에서 전문성을 가르치려는 지속적이고 실질적인 노력이 결실을 맺었고, 학생 성과 수준과 평가자의 기대치가 모두 높아졌다는 점일 수 있다. 
The first issue relates to selecting an instrument that targets the right level: some assessors felt that the items on the form were simply too basic, such that all students would inevitably score highly from the outset. Although other studies of the P-MEX have not found such high scores,24,25 it may be that sustained and substantial efforts to teach professionalism at our institution26,33 have borne fruit, and that both student performance levels and assessor expectations have increased. 

어떤 기기를 사용하든 평가자는 도구를 적절하게 사용해야 합니다. 우리의 참가자들은 다른 평가관들과 마찬가지로 'failure to fail'했다.30, 34, 35 실제로 그들은 글쓰기에 부정적인 어떤 것도 맡기는 것을 피했다. 몇 가지 신념과 가치관이 이 행동을 주도했다. 

  • 첫째, 평가자들은 부정적인 수행능력의 일반성에 대해 불확실했다. 정확한 평가를 제공하는 것에 대한 그들의 우려는 [행동의 실수가 잠재적으로 상황적 요인에 기인하는 것]으로 무시했고, 복수의 관찰로부터 이끌어내도록 이끌었다. 
  • 둘째로, 그들은 학생들의 평가 결과로 인한 부정적인 결과들을 경계했다. 해를 끼칠까 봐 두려워하는 것은 새로운 것이 아니다. 그러나, 우리는 이러한 두려움이 일반적인 '역량'의 고정된 성격에 대한 평가자의 믿음에 의해 고조된다고 추측한다. 고정된 속성에 대해 부정적인 피드백을 제공하는 것은 필연적으로 그 사람의 기술보다는 그 사람을 목표로 한다. 
  • 게다가, 학습자의 고유한 특성에 대한 부정적인 발견을 보고하는 것은 [더 많은 훈련]을 요구하기 보다는, 평가받은 사람의 [직업에 대한 적합성]에 의문을 제기할 수 있고, 따라서 보고의 부담을 더 증가시킬 수 있다. Burack et al.36은 평가자가 전문성이 고정된 것으로 보는 유사한 경향을 발견하여 부정적인 피드백의 제공을 헛된 것으로 보게 했다. 

Regardless of which instrument is used, assessors must use it appropriately. Our participants, like other assessors, ‘failed to fail’.30,34,35 Indeed, they avoided consigning anything negative to writing altogether. Several beliefs and values drove this behaviour.

  • Firstly, assessors were uncertain about the generalisability of negative performance. Their concern for providing an accurate assessment led them to draw from multiple observations, disregarding behavioural lapses as potentially attributable to contextual factors.
  • Secondly, they were wary of any negative outcomes befalling students as a result of their assessments. This fear of doing harm is not new. However, we speculate that this fear is heightened by assessor beliefs about the fixed (rather than developmental) nature of generic ‘competencies’. Providing negative feedback about a fixed attribute inevitably targets the person rather than his or her skills.
  • Furthermore, reporting negative findings about a learner’s inherent traits may cast doubt on that person’s suitability for the profession, rather than calling for more training, thus increasing the stakes of reporting. Burack et al.36 found a similar tendency for assessors to view professionalism as fixed, leading them to viewing the provision of negative feedback as futile. 


평가 설계자만이 목적 달성을 할 수 있는 것은 아니다. 평가자 또한 행위자성agency을 가지고 있으며, 평가자마다 목적의 우선순위가 서로 다를 수 있다. 평가 설계자의 주된 초점은 일반적으로 점수의 유효한 해석에 있으며, 이는 truth telling의 윤리적 원칙과 유사하다. 또한 평가의 잠재적 사용, 특히 공정한 결정(정의 원칙과 일치)과 학습 지원(효익의 원칙과 일치)에 대해서도 우려한다. 
Assessment designers are not alone in being purposeful: assessors also have agency and they may prioritise their purposes differently. Assessment designers’ primary focus is typically on valid interpretation of scores, akin to the ethical principle of truth telling. They are also concerned about the potential uses of assessment, specifically about the making of fair decisions (aligned with the principle of justice), and about supporting learning (aligned with the principle of beneficence). 

진실을 말하는 것, 정의, 이익beneficence보다, 평가자들은 악행금지non-maleficence에 의해 행동했던 것으로 보인다. 다른 연구에서 나온 연구 결과를 반영하는 이 패턴은 그들이 [보살핌을 practice의 핵심으로 하는 건강 전문가]라는 사실로 연결될 수 있습니다. 윤리적 용어로 이러한 연구 결과를 프레임화하는 것은 건강 직업 교육에 널리 퍼져 있는 'failure to fail'에 대한 더 많은 것을 밝히는 데 도움이 될 수 있습니다. 30,34,35 

Non-maleficence – before truth telling, justice and beneficence – appears to have guided their behaviour. This pattern, which echoes findings from other studies,36,42 may be linked to their being health professionals, for whom caring is at the heart of practice.42,43 Framing these findings in ethical terms could be a fruitful way of shedding further light on the pervasive ‘failure to fail’ in health professions education.30,34,35 

[의도를 갖는 행위자]로서 평가자의 개념은 우리가 평가 프로그램을 개념화하고 검증하는 방법에 더 큰 도전을 제기한다. 평가 프로그램은 Dijkstra et al.44(예: 데이터 수집, 기술 지원, 규정, 연구 및 개발)에 의해 기술된 다중 구성 요소에 의해서만 구성되는 것이 아니다. 이러한 여러 구성 요소는 (특히 다양한 프로세스를 담당하는 인적 에이전트는) "상호 작용"한다. 이와 같이, WBA 프로그램은 새롭고 예측할 수 없는 속성을 가진 복잡한 적응 시스템을 나타낸다.1 이러한 시스템 내에서 평가자은 시스템의 어포던스affordances를 탐색하고, 장벽을 우회하여, 윤리적 의제를 enact하기 위해 행위자성을 실천exercise agency한다. 예를 들어, 우리의 평가가 본질적으로 형성적이었지만, 우리의 평가 프로그램 외부에 있는 고도로 경쟁적인 레지던트 매칭 프로세스는 평가자들에게 지시를 무시하고 부정적인 관찰을 전달하는 대체 채널을 찾도록 영향을 주었다. 이는 평가 설계자가 개입을 복잡한 시스템의 작은 부분으로 보고 프로그램에 대한 외부 영향을 고려하며 예기치 않은 영향과 영향을 면밀히 모니터링해야 함을 의미한다. 
The notion of assessors as purposeful agents further challenges how we conceptualise and validate assessment programmes. Assessment programmes are not only constituted by the multiple components described by Dijkstra et al.44 (e.g. data collection, technical support, regulations, research and development). These multiple components, specifically the human agents responsible for the various processes, interact. As such, WBA programmes represent complex adaptive systems that have emergent and unpredictable properties.1 Within these systems, assessors exercise agency to enact their ethical agendas by navigating the affordances of the system and bypassing perceived barriers. For instance, although our assessment was essentially formative, the highly competitive residency matching process, external to our assessment programme, influenced assessors to defy instructions and find alternative channels to communicate negative observations. This implies that assessment designers must see their interventions as small parts of a complex system, consider external influences on their programmes, and monitor closely for unforeseen influences and effects. 

마지막으로, 평가 기관은 평가의 타당성 검사를 위한 흥미로운 과제를 제기한다. 우리의 참가자들은 지침에 저항했습니다. 집행된enacted 평가 시스템과 의도된intended 평가 시스템이 서로 달랐습니다. 그럼에도 불구하고, 그들의 행동은 비록 예상치 못한 경로를 통해 평가의 의도된 목표 중 일부를 충족시킬 수 있게 했다. 학생들은 사실 그들의 일반적인 능력에 대한 피드백을 받았으나 구두로 받았다.

Finally, assessor agency poses an intriguing challenge for assessment validation. Our participants resisted instructions: the enacted and intended assessment systems differed. Nevertheless, their behaviours enabled some of the intended goals of the assessment to be met, albeit through unexpected pathways. Students did in fact receive feedback about their generic competencies, but verbally. 

한계

Limitations


결론 CONCLUSIONS

진행 상황을 감지하지 못한 결과 우리가 선택한 평가 도구와 관련된 문제뿐만 아니라 평가자에게도 문제가 드러났습니다. 실패에 대한 실패는 이전에 문서화되었지만, 우리의 연구 결과는 평가자의 가치, 일반 역량에 대한 그들의 믿음, 평가 행동 사이의 관계를 밝혀냈다. 평가자 값을 이해하고 영향을 미치는 것은 중요하면서도 WBA 구현의 무시된 측면일 수 있다.

Our failure to detect any progress revealed issues linked to the assessment instrument we selected, but also to assessors. Although failure to fail has been documented previously,30,34,35 our findings uncovered relationships between assessors’ values, their beliefs about generic competencies, and their assessment behaviours. Understanding and influencing assessor values may be an important yet hitherto neglected aspect of WBA implementation.

 

 

 

 

 

 

 

 


Med Educ. 2018 Dec;52(12):1259-1270.

 doi: 10.1111/medu.13749.

The challenges of detecting progress in generic competencies in the clinical setting

Valérie Dory 1 2Carlos Gomez-Garibello 1 2Richard Cruess 1 3Sylvia Cruess 1 2Beth-Ann Cummings 1 2 4Meredith Young 1 2

Affiliations collapse

Affiliations

  • 1Centre for Medical Education, Faculty of Medicine, McGill University, Montreal, Quebec, Canada.

  • 2Department of Medicine, Faculty of Medicine, McGill University, Montreal, Quebec, Canada.

  • 3Department of Surgery, Faculty of Medicine, McGill University, Montreal, Quebec, Canada.

  • 4Undergraduate Medical Education, Faculty of Medicine, McGill University, Montreal, Quebec, Canada.

    • PMID: 30430619

 

Abstract

Context: Competency-based medical education has spurred the implementation of longitudinal workplace-based assessment (WBA) programmes to track learners' development of competencies. These hinge on the appropriate use of assessment instruments by assessors. This study aimed to validate our assessment programme and specifically to explore whether assessors' beliefs and behaviours rendered the detection of progress possible.

Methods: We implemented a longitudinal WBA programme in the third year of a primarily rotation-based clerkship. The programme used the professionalism mini-evaluation exercise (P-MEX) to detect progress in generic competencies. We used mixed methods: a retrospective psychometric examination of student assessment data in one academic year, and a prospective focus group and interview study of assessors' beliefs and reported behaviours related to the assessment.

Results: We analysed 1662 assessment forms for 186 students. We conducted interviews and focus groups with 21 assessors from different professions and disciplines. Scores were excellent from the outset (3.5-3.7/4), with no meaningful increase across blocks (average overall scores: 3.6 in block 1 versus 3.7 in blocks 2 and 3; F = 8.310, d.f. 2, p < 0.001). The main source of variance was the forms (47%) and only 1% of variance was attributable to students, which led to low generalisability across forms (Eρ2 = 0.18). Assessors reported using multiple observations to produce their assessments and were reluctant to harm students by consigning anything negative to writing. They justified the use of a consistent benchmark across time by citing the basic nature of the form or a belief that the 'competencies' assessed were in fact fixed attributes that were unlikely to change.

Conclusions: Assessors may purposefully deviate from instructions in order to meet their ethical standards of good assessment. Furthermore, generic competencies may be viewed as intrinsic and fixed rather than as learnable. Implementing a longitudinal WBA programme is complex and requires careful consideration of assessors' beliefs and values.

+ Recent posts