수행능력이 저조한 학생들도 행동-중-성찰 시에는 통찰력이 있다(Med Educ, 2017)
Low performing students have insightfulness when they reflect-in-action
Mike Tweed,1 Gordon Purdie1 & Tim Wilkinson2

 

서론
Introduction

현재의 전문 의료 실무 모델, 즉 학부 의료 교육은 자기 조절, 자기 평가 및 자기 모니터링에 의존한다. 정확한 자체 평가와 자체 모니터링은 의료 전문가의 자기 조절에 필수적이다.

  • 자기 평가는 전반적인 성과에 대한 누적 평가로 간주될 수 있는 반면,
  • 자기 모니터링은 그 순간의 성과와 관련이 있다.

The current model of professional medical practice, and therefore undergraduate medical education, relies on self-regulation, self-assessment and self-monitoring.1-9 Accurate self-assessment and self-monitoring are vital to health care professionals' self-regulation.

  • Self-assessment can be considered as a cumulative evaluation of overall performance, whereas
  • self-monitoring relates to performance in the moment.6910 

[행동-중-성찰]로서의 [자체 모니터링]은 일상 업무에 authentic하다.

  • 임상의가 결정을 내릴 때, 그들은 옳다는 것에 대한 적절한 확신을 가질 필요가 있다.
  • 올바른 진단 또는 관리를 결정하지 못하면 환자에게 해를 끼칠 수 있으며 과소평가된 위험이 될 수 있습니다.
  • 더 나쁜 것은 [잘못된 행동]이 [높은 확실성]으로 유지되는 상황이다. 진단 오류는 병원 실무에서 발생하는 부작용의 10%에 기초한다. 진단 오류의 74~96%가 일부 인지적 요인을 포함하고 있는 것으로 보고되었다.
  • [인지 오류]는 모든 수준에서, 그리고 다양한 방식으로 임상의에 의해 발생한다.
  • 임상의는 그들이 환자의 진단 또는 최적의 치료라고 믿는 것을 고려한다.
  • 그런 다음 그들은 자신의 결정을 정당화하기 위해 도움을 구할 필요가 있는지 아니면 추가 정보를 구할 필요가 있는지 결정한다.
  • 임상 실무에서 의사결정에 대한 부적절한 확실성의 정도는 부작용과 환자 위해를 초래할 수 있다. 따라서 보건의료 전문가나 학생을 평가할 때, [응답에 대한 확실성]을 고려하는 것은 잠재적 가치가 있다.  

Self-monitoring as reflection-in-action is authentic to daily practice.5, 6, 9 

  • When clinicians make decisions, they need to have an appropriate certainty of being correct.1112 
  • Failure to decide on the correct diagnosis or management can lead to patient harm and is probably an underestimated risk.13 
  • Worse is the situation where an incorrect action is held with high certainty. Diagnostic error underlies 10% of adverse events in hospital practice.14 It is reported that 74–96% of diagnostic errors include some cognitive factors.
  • Cognitive errors are made by clinicians at all levels and in different ways.14 
  • Clinicians consider what they believe to be the patient's diagnosis or optimal treatment.
  • They then decide whether they need to seek assistance or additional information in order to justify their decisions.15 
  • In clinical practice, an inappropriate degree of certainty regarding a decision has the potential to lead to adverse outcomes and patient harm.16-18 Therefore, when assessing health care professionals or students, there is potential value in considering their certainty in their responses.19-21

[자신의 결함에 대해 잘 알지 못하는 사람들]은 [자신의 결정이 옳다는 확신]을 부적절하게 가질 수 있으며, 따라서 실수를 하기 쉽다. 일반 문헌의 상당 부분이 있으며, 의료 문헌은 기술이 낮은 사람들도 자신의 성과에 대해 덜 인식하고 있다는 것을 발견한다: ‘the unskilled are unaware’. 이는 숙련도가 낮은 사람들이 자신의 행동을 반성하고 스스로 바로잡을 수 없기 때문일 수 있다. 그러나 성적이 낮은 응시자는 성적이 좋은 또래와 마찬가지로 객관식 질문 응답 시간, 질문 플래그 지정 및 응답 변화를 분석할 경우, 실제로 '그 순간에in the moment' 성찰한다. 이는 형식이 [성찰과 자기 평가의 결과]에 영향을 미칠 수 있음을 시사한다. 
Those who are less aware of their deficiencies can have inappropriately high certainty that their decisions are correct,22-24 and are therefore more prone to error.25 There is a significant body of general literature 23, 25-30 and health care literature31-33 that finds that those with less skill are also less aware of their performance: ‘the unskilled are unaware’. This could be because the less skilled cannot reflect on their actions and self-correct. However, lower performing candidates, like their higher performing peers, do actually reflect ‘in the moment’ if multiple-choice question response time, flagging questions and changing response are analysed.8 This suggests the format may influence the results of reflection and self-assessment.34

[자기 평가의 정확성]을 결정하는 것은 임상 실습에서 자가 모니터링에 대한 모든 것이 진짜인 것은 아니지만 다양한 방법으로 달성되었다. 예를 들어, 정확할 확률을 추정하는 것은 적절하지 않을 수 있으며, 복잡한 의료 결정과 같은 일부 상황에서는 [확실성의 서면 서술자]가 선호될 수 있다. 환자와 관련된 결정을 내리는 임상의는 일반적으로 확률로 정확할 가능성에 대해 스스로 반성하지 않는다. 즉, 임상의는 '내가 70% 맞을 것 같다'고 생각하지 않는다. 대신, 그들은 [더 많은 정보나 도움이 필요한지] 고려할 수 있다. 이와 같이 의료 전문가 실무에서 일부 측정은 자체 모니터링을 위해 다른 측정보다 더 적절하다. 예를 들어, 반응이 정확할 확률을 추정하는 대신 도움을 구하는 것을 가리키는 확실성 설명자는 임상 실습과 더 유사하다. 마찬가지로 '찾아봐야 할 때'나 '타인에게 양보해야 할 때'와 같은 자기감시 수단을 일상적 실천에서의 [행동-중-성찰]로 보는 것이 더 적절할 수 있으며, 이러한 방법은 이전에 시범적으로 시행된 적이 있다. 이러한 발전은 임상 실무에 정통한 설명자를 사용하는 경우 일반적으로 평가가 더 정확하다는 연구 결과와 일치한다. 
Determining accuracy of self-assessment has been achieved in a variety of ways, not all of which are authentic to self-monitoring in clinical practice. For example, estimating the probability of being correct may not be appropriate35 and written descriptors of certainty may be preferable in some situations,36 such as in complex health care decisions.37 A clinician making a decision related to a patient generally does not self-reflect on his or her likelihood of being correct as a probability. In other words, a clinician does not consider ‘I'm likely to be 70% correct’. Instead, they might consider whether more information or assistance is needed. As such, within health care professional practice, some measurements are more appropriate than others for self-monitoring.5, 9 For example, certainty descriptors that refer to seeking assistance,37 as opposed to estimating a probability that a response is correct,9, 38 are more analogous to clinical practice. Likewise, looking at measures of self-monitoring such as ‘when to look it up’ or ‘defer to others’ as reflection-in-action in daily practice may be more appropriate,5, 6 and such methods have previously been piloted.19, 21 These developments are also consistent with the finding that assessments in general are more accurate if descriptors are used that are authentic to clinical practice.39

[reflection-in-action]에 의해 계층화된 확실성을 포함함으로써 [실제와 유사authentic to practice]한 평가 시스템은 형식의 무작위 제어 시험을 포함한 연구 프로젝트의 맥락에서 가능하다는 것이 입증되었다. 그러나 연구 프로젝트 상황에서의 응답은 [과정 평가in-course assessment]에서 응시자가 어떻게 응답하는지 반영하지 못할 수 있다.
An assessment system that is authentic to practice, by including certainty, stratified by reflection-in-action, has proven possible in the context of a research project, including a randomised controlled trial of formats.19, 21 However, responses in the setting of a research project may not reflect how candidates would respond in an in-course assessment.

자체 모니터링 능력과 정확성 사이의 연관성을 살펴보는 데 있어 추가 고려 사항은 해당 코호트의 능력 범위와 관련이 있다. 그러나 의과대학에서는 높은 능력을 가진 학생 코호트가 미리 선발된다. 그러므로 그들이 '미숙함'의 정도는 명확하지 않다.
A further consideration in looking at the association between ability and accuracy of self-monitoring, relates to the range of ability of the cohort in question.40 Within medical school classes, however, the cohort is preselected as having high ability. Therefore the extent to which they are ‘unskilled’ is not clear.

따라서 본 연구를 안내하는 개념적 프레임워크는 이러한 이전 연구를 바탕으로 하고 다음을 제안합니다. 

  • (i) [자체 모니터링 척도]가 평가 속성에 반영되어야 하는 [바람직한 실천 속성]임을 확인한다. 
  • (ii) [자체 모니터링의 측정방식]authentic practice와 관련이 있어야 한다. (즉, 질문의 문구는 그러한 판단이 임상 실무에서 어떻게 발생하는지와 관련되어야 한다.) 
  • (iii) 의과대학에서는 학생 간 능력이 균질하므로, 다른 그룹의 연구 결과가 의과대학 학생에게 적용되지 않을 수 있음을 의미한다.

The conceptual framework guiding this study therefore draws on these previous studies and suggests:

  • (i) that measures of self-monitoring are desirable attributes of practice that should be reflected in attributes of assessment
  • (ii) that the manner in which self-monitoring is measured needs also to relate to authentic practice (i.e. the wording of the question needs to relate to how such judgements occur in clinical practice); and
  • (iii) that the homogeneous nature of the abilities of individuals within medical school classes means the findings in other groups may not be applicable to medical students.

progress test 상황에서는 전 학년 학생들이 같은 시험 문제를 동시에 출제하는 것이 일반적이다. 학생들이 그 과정을 통과함에 따라 그들의 능력과 그에 따라 점수가 향상될 것으로 기대된다. 그러므로 하나의 progress test에는 다양한 범위의 경험과 능력을 가진 학생들이 동일한 시험을 본다. 이는 경험 수준에 따라 반응을 비교할 수 있는 기회를 제공합니다. 또한, 우리 기관에서 사용하는 progress test는 확실도 수준을 요구한다. 이러한 요인은 학생 경험과 학생 능력에 따라 계층화된 확실성과 정확성 수준 사이의 연관성을 탐구할 수 있는 독특한 기회를 제공한다.
In the setting of a progress test, it is usual for students from all years to sit the same examination questions at the same time. It is expected that as students pass through the course their ability and therefore scores will improve.41 Therefore for any given progress test there are students with a diverse range of experiences and abilities sitting an identical test. This provides an opportunity to compare responses according to levels of experience. Furthermore, the progress test used in our institution also asks for levels of certainty. These factors provide a unique opportunity to explore associations between levels of certainty and levels of correctness, stratified by student experience and by student ability.

이것은 객관식 질문(MCQ) 진행 테스트에서 행동 중 반영으로 설명되는 응답에 대한 후보 확실성의 첫 번째 사용이다. 이 연구는 두 가지 질문을 해결하기 위해 시작되었습니다. 

  • (i) 응답 확실성과 정확성 사이에는 어떤 관계가 있습니까? 
  • (ii) 이러한 확실성과 정확성의 측정은 연도 그룹 및 능력에 따라 어떻게 달라집니까?

This is the first use of candidate certainty regarding responses, described by reflection-in-action, in a multiple-choice question (MCQ) progress test. This research set out to address two questions.

  • (i) What is the relationship between response certainty and correctness?
  • (ii) How do these measures of certainty and correctness vary with year group and ability?

방법
Method

설정
Setting


오타고 의과대학의 의학 학위 과정은 6년 과정으로 4개의 뚜렷한 부분으로 나뉘어져 있다.

  • 첫번째는 일반적인 보건의료과학의 해이다.
  • 이것은 단일 캠퍼스에서 2학년과 3학년으로 이어진다.
  • 이후 학생들은 지리적으로 분리된 세 개의 캠퍼스 중 하나에서 4학년과 5학년 과정을 밟는다.
  • 마지막 해는 교육생 인턴(TI)의 해로, 학생들은 많은 다른 건강 관리 지역에 퍼져 있다. 비록 TI가 아직 학생이지만, 그들은 감독 아래 다양한 임무를 수행하는 건강 관리 팀의 구성원이다.

2-5학년 학생들은 모두 progress test를 보아야 한다.

The Medicine degree course at the University of Otago Medical School is a 6-year course that is divided into four distinct sections.

  • The first is a common health science year.
  • This is followed by years 2 and 3 at a single campus.
  • Following this, the students undertake years 4 and 5 at one of three geographically separate campuses.
  • The final year is a Trainee Intern (TI) year, with students spread across many different health care locations. Although TIs are still students, they are members of health care teams undertaking a variety of duties under supervision.

All students in Years 2–5 are expected to sit the progress test.

경과검사
Progress test

진도 테스트는 1년에 두 번 온라인으로 제공됩니다. 각 테스트는 무작위로 전달되는 150개의 MCQ로 구성됩니다. 각 MCQ는 스템, 질문 과제 및 5-16가지 옵션을 통합한다. 그 내용은 과정을 마칠 때까지 어느 시점에나 핵심 커리큘럼의 모든 측면과 관련이 있다.
The progress test is delivered online twice per year. Each test is made up of 150 MCQs delivered in random order. Each MCQ incorporates a stem, question task and a range of 5–16 options. The content is related to any aspects of the core curriculum at any point through to the completion of the course.

이 시험은 시험 조건 하에서 실시되지 않으며 학생들은 시험을 치를 수 있는 2주간의 기간이 있다. 학생들은 참고자료를 찾아보지 않고 시험에 참여하고 도전하도록 권장되지만, [확실성 응답certainty response]을 사용하여 이를 인정한다. 각 질문에 따라 학생들은 설명자를 기준으로 확실도 등급을 완성합니다(표 1).
This test is not administered under examination conditions and the students have a 2-week window to undertake the test. The students are encouraged to engage with and undertake the test without seeking resources, but acknowledge this by the use of the certainty response. Following each question the students complete a certainty rating based on descriptors (Table 1).

개별 시험에서 학생 개개인이 획득한 점수는 능력 부족을 벌하는 데 사용되지 않는다. 다만 정답 수가 찍어서맞출 확률(chance) 이하이거나, 시험 시간이 적은 학생(문항당 평균 20초 미만)은 개인적 교육 참여도에 대해 고려해보아야 할 수 잇으므로, 해당 학생진도위원회에 보고한다.
The score achieved by an individual student on an individual test is not used to penalise a lack of ability. However, students whose number of correct answers is at or less than chance or who spend little time on the test (a mean of < 20 seconds per question) are reported to the relevant student progress committee as this may inform consideration of their degree of engagement in personal education.

채점에 따라 각 연도 그룹의 최소 기준은 정답의 총 수를 기준으로 설정되었습니다.42 최소 기준은 피드백의 일부로 학생들에게 제공됩니다.

  • 모든 학생들에게 주어지는 추가 피드백에는 [학년별 각 확실도 수준에 따른 정답 비율]이 포함되어 있었다.
  • 개별 학생에게 주어지는 피드백에는 [커리큘럼 분야 또는 영역 분류에 따라, 각 확실도 수준에 따른 정답 비율]이 포함되었다.

2015년의 시험은 두 개의 다른 문제 풀로 구성되었다.
Minimum standards for each year group were set following the scoring, based on total number of correct answers.42 The minimum standards are given to students as part of their feedback.

  • Additional feedback given to all students included means of proportion correct for each level of certainty by year group.
  • Individual feedback included proportion correct for each level of certainty and proportion correct by curriculum discipline or domain categorisation.

The tests in 2015 were made up of two different pools of questions.

분석.
Analysis

혼합 모형 로지스틱 회귀 분석을 사용하여 확실도 수준, 검정 번호, 연도 그룹, 정답 수가 검사 시 표준보다 높거나 낮거나 이러한 요인 간의 모든 가능한 교호작용에 대한 항을 사용하여 모든 개별 문항에 대해 정답의 로그 확률을 모델링했습니다. 이 모형에는 학생과 모든 예측 변수, 그리고 학생과의 교호작용에 대한 랜덤 항이 포함되어 있습니다(학생이 1년 그룹에만 속해 있기 때문에 연도 그룹과 관련된 항은 제외). sas 9.4(SAS Institute Inc., Cary, North Carolina, 미국)의 글림믹스 절차를 사용하였다. 
A mixed model logistic regression analysis was used to model the log odds of being correct for any individual question with terms for level of certainty, test number, year group, number correct being above or below standard on examination and all possible interactions between these factors. The model included random terms for student and all of the predictors, and their interactions, with student (except those involving year group, as students were only in one year group). The glimmix procedure of sas 9.4 (SAS Institute Inc., Cary, North Carolina, USA) was used. 

결과.
Results


1차 시험 응시자는 1114명으로, 이 중 2학년 290명(정답 30.8%, 기준 67명), 3학년 279명(정답 36.6%, 기준 26명), 4학년 260명(정답 42.5%, 기준 14명), 5학년 285명(정답 280명)이었다.47.2%의 정확도, 5는 표준 이하).
2차 시험 응시자는 1114명으로, 이 중 2차 시험 287명(정답 31.2% 이하 73명), 3차 시험 272명(정답 232명, 정답 36.4% 이하 40명), 4차 시험 266명(정답 41.6% 이하 16명), 5차 시험 289명(정답 285명 이상 285명)이었다.
48.1%의 정확도, 4는 표준 이하). 

Test 1 was sat by 1114 students, of whom 290 were in Year 2 (223 were above the standard of 30.8% correct, 67 below the standard), 279 were in Year 3 (253 were above the standard of 36.6% correct, 26 below the standard), 260 were in Year 4 (246 were above the standard of 42.5% correct, 14 below the standard) and 285 were in Year 5 (280 were above the standard of 47.2% correct, 5 below the standard).
Test 2 was sat by 1114 students, of whom 287 were in Year 2 (214 were above the standard of 31.2% correct, 73 below the standard), 272 were in Year 3 (232 were above the standard of 36.4% correct, 40 below the standard), 266 were in Year 4 (250 were above the standard of 41.6% correct, 16 below the standard) and 289 were in Year 5 (285 were above the standard of 48.1% correct, 4 below the standard).

각 확실도 수준에 따른 MCQ 보기의 수는 거의 차이가 없었다(모든 확실도 수준에 대해 중위 6, 사분위간 범위 5-8). 전체적으로 51%의 경우, 정답을 맞추었고, 85%는 높은 확실성, 65%는 중간 정도, 38%는 낮은 확실성, 32%는 확실성이 없었다.
There was little difference in the number of MCQ options for each level of certainty (median 6, interquartile range 5–8 for all levels of certainty). In total, on 51% of occasions the questions were answered correctly, 85% with high certainty, 65% with moderate, 38% with low and 32% with no certainty.

혼합 모형 로지스틱 회귀 분석은 희소 데이터 때문에 4차 교호작용에 대해 가능하지 않으므로 교호작용이 포함되지 않았습니다. 모든 [3차 교호작용]이 있는 모형에서 확실도*테스트*표준, 확실성*연도 그룹*표준 및 검정*연도 그룹*표준 교호작용이 유의하지 않았으므로(각각 p = 0.30, 0.92, 0.43) 모형에서 제거되었습니다. 후속 모델인 Test*Standard와 Year group*Standard 교호작용은 유의하지 않았으며(각각 p = 0.20, 0.18)
The mixed-models logistic regression analysis was not possible for the four-way interaction because of sparse data, and hence the interaction was not included. In the model with all three-way interactions, Certainty*Test*Standard, Certainty*Year Group*Standard and Test*Year group*Standard interactions were not significant (p = 0.30, 0.92, 0.43, respectively) and so were removed from the model. In the subsequent model Test*Standard and Year group*Standard interactions were not significant (p = 0.20, 0.18, respectively) and were removed from the model.

결과 로지스틱 모형(표 2)에서 확실도*테스트*학년 그룹, 확실성*기준(위/아래)테스트*학년 그룹 상호작용이 유의했습니다(각각 p < 0.0001, p < 0.0001, p = 0.001). 모델은 주어진 테스트, 표준 및 연도 그룹(표 3)의 각 확실도 수준에 대한 정확성에 대한 승산비(OR)를 계산하는 데 사용되었다. OR은 2학년 학생들이 [기준 이하]이고, [답안에 대한 확신이 없는 질문]에 대해 계산되었다.
In the resulting logistic model (Table 2) the Certainty*Test*Year group, Certainty*Standard and Test*Year group interactions were significant (p < 0.0001, p < 0.0001 and p = 0.001, respectively). The model was used to calculate odds ratios (ORs) for correctness for each level of certainty given test, standard and year group (Table 3). The ORs were calculated relative to questions answered by Year 2 students who were below standard and had no certainty in their answers.

 

가장 경험이 부족하고 가장 낮은 수행자인 시험 1의 2학년 최소 기준 미달자를 포함한 모든 그룹, 표준 및 시험 번호의 경우, 확실도가 증가할 때마다 정확할 확률이 유의하게 증가하였다(모든 p < 0.0001).e all p < 0.01).
For all groups, allowing for year group, standard and test number, including Year 2 students who were below the minimum standard for Year 2 on Test 1, the most inexperienced and lowest performers, there were significant increases in the odds of being correct with each increasing level of certainty (all p < 0.0001, except from no to low certainty where all p < 0.01).

낮은 확률과 불확실한 확률에 대한 OR은 1.15(95% 신뢰 구간 [CI], 1.03–1.29)로 표준보다 낮았다(p = 0.02). 중간 대 낮은 확실성에 대한 OR은 1.15(95% CI, 1.03–1.27) 더 높았다(p = 0.009). 높은 확실성 대 중간 확실성의 경우 OR은 1.09배(95% CI, 0.94–1.25)로 유의하게 다르지 않았다(p = 0.26). 예를 들어, 2학년의 경우 표준보다 낮은 확률과 높은 확실성의 OR은 2.20/1.38(표 3) = 1.59로 표준 1.39(표 3)보다 1.15배 높다. 표 전체에 동일한 비율이 적용되므로, 이는 학년별 그룹 및 확실도 수준에서 확인할 수 있습니다.
The ORs for low versus no certainty were 1.15 (95% confidence interval [CI], 1.03–1.29) higher for those above the standard than those below (p = 0.02). The ORs for moderate versus low certainty were 1.15 (95%CI, 1.03–1.27) higher (p = 0.009). For high certainty versus moderate certainty the ORs were not significantly different at 1.09 times higher (95%CI, 0.94–1.25) (p = 0.26). For example, for year 2, the OR for low versus no certainty above the standard is 2.20/1.38 (Table 3) = 1.59, which is 1.15 times higher than for below the standard 1.39 (Table 3). As the same ratio applies throughout the table, this can be seen across year groups and levels of certainty.

논의
Discussion

우리는 [정답 확률이 확실성의 수준과 강하게 연관되어 있다]는 발견에 의해 결정되는 자체 모니터링의 정확성의 증거를 발견했다. 또한, 이전 연구와 달리, 우리는 [가장 정확할 가능성이 가장 낮은 학생]들, 특히 저학년 그룹에 있는 학생들, 가장 경험이 적은 학생들, 그리고 기준 이하의 성과를 가진 학생들에서도 그러한 정확한 자기 모니터링이 존재한다는 것을 발견했다. 표준 이하와 위의 OR을 비교할 때 낮은 확실도와 낮은 확실도, 낮은 확실도 또는 중간 정도의 확실도 사이에서 OR이 약간 증가했다.
We have found evidence of accuracy of self-monitoring as determined by the finding that the odds of being correct are strongly associated with the levels of certainty. Furthermore, and unlike previous work, we have found such accurate self-monitoring present even in those students who were least likely to be correct, specifically those in the earliest year group, those with the least experience and those with performance below standard. There was a small increase in the OR between no to low certainty and low to moderate certainty, but not moderate to high certainty, when comparing those below and above the standard.

[순간순간의moment-by-moment 성찰]을 장려하는 평가 형식은 자신의 한계에 대한 인식을 자극할 수 있다. 우리는 이러한 측정이 중요한 문헌과 달리 잘 수행되는 이유 중 하나가 [확실성 질문의 문구와 형식]이 임상 실습에 더 authentic했기 때문일 수 있다고 가정한다. 구체적으로, 문구는 정확할 가능성을 추정하기보다는 '찾아볼 때' 또는 '다른 사람에게 양보할 때'를 언급하였다. 응답 척도는 인지적 구조를 반영할 때 가장 잘 작동하는데, 이 경우 행동 중 반영을 목표로 하고 도움을 요청할 필요성과 관련이 있다. 확실성 설명자의 표현은 반응 및 의미를 변경할 수 있습니다. 안전하고 효과적인 임상 성과를 보장하기 위해서는 일상적 실무에서 반사를 다루는 평가가 더 중요할 수 있다.
Formats of assessment that encourage moment-by-moment reflection can stimulate awareness of limitations.9 We postulate that one of the reasons these measures perform well, and contrary to a significant body of literature,23, 25-33 could be that the wording and format of the certainty questions were more authentic to clinical practice. Specifically, the wording referred to ‘when to look it up’ or ‘defer to others’ rather than estimating a likelihood of being correct. Response scales work best when they reflect cognitive structuring,39 which in this case was targeted at reflection-in-action and tied to the need to ask for assistance. The wording of certainty descriptors can alter responses and therefore meanings.34, 43 An assessment that addresses reflection-in-action in daily practice could be more important for ensuring safe and effective clinical performance.5


연구 결과에 대한 대안적인 설명은 코호트와 하위 그룹은, 심지어 표준 이하의 성능을 가진 사람들조차도, 다른 요인 때문에 자기 모니터링의 증거를 보여주었다는 것이다. 이러한 요소에는 다음과 같은 것들이 포함될 수 있다.

  • 일반적인 프로세스가 자기 모니터링 용어보다는 자기 반성을 장려한다. 
  • 또는 의학적 학위 및 자체 모니터링 능력에 따라 선택된 이러한 학생 집단에게 고유한 요인.

An alternative explanation for the findings is that the cohort and subgroups, even those with performance below standard, demonstrated evidence of self-monitoring because of other factors. These factors may include:

  • the general process encouraged self-reflection, rather than specifically the self-monitoring terminology; or
  • a factor specific to these cohorts of students, selected according to the medical degree, and their ability to self-monitor.

기준 이하의 학생과 비교하여 기준 이상의 학생이 확실도 수준에 따라 정답을 맞출 OR이 작게 증가함을 고려할 때, [기준 이상above standard의 수행자]에 대한 자기 모니터링의 일부 개선이 발생할 수 있다. 그러나 자기 모니터링은 [기준 이하below standard]의 수행자에 대해서도 명백하다.
Given the small increase in the OR of being correct between levels of certainty for those above compared with those below standard, it could be that some improvement in self-monitoring occurs for those performing above standard; however, self-monitoring is apparent even for those performing below standard.

이 연구의 강점은 경험과 성과에 의해 정의된 하위 그룹 내에 충분한 수험자 수가 있는 데이터 세트에 대해 반사 작용으로 확실도 수준을 사용하여 정확성의 정확도를 탐구하는 첫 번째 분석이라는 것을 포함한다. 두 개의 서로 다른 테스트 관리에서 분석을 반복하고 동일한 결과를 찾으면 결과의 일반화 가능성이 높아집니다. 
The strengths of this study include that this is the first analysis, to our knowledge, to explore the accuracy of correctness using levels of certainty as reflection-in-action, for a dataset where there are sufficient examinee numbers within subgroups defined by experience and performance. Repeating the analysis across two separate administrations of a test, and finding the same results, increases the generalisability of the findings.

[도움의 필요성을 인정]한다면 외부 인지적 지원의 역할을 인식할 수 있다. 이 응답 형식에서 생성된 추가 정보는 학생 학습을 안내하고 학생 진행에 대한 결정을 안내할 수 있습니다. 비록 우리는 학생들이 일반적으로 정확한 자기 모니터링을 보인다는 것을 발견했지만, 이것을 덜 할 수 있는 특이치 학생들이 있을 수 있다. 이러한 학생들을 식별하고 추적하며, 그들의 결과를 다른 평가와 비교하고 학습에 미치는 영향을 평가하는 것은 미래 탐구 영역이다. 특히, 현재 연구는 단일 학년도 안에서 확인한 스냅샷을 보고했지만, 시간이 지남에 따라 응답 패턴이 분명해질 수 있다. 우리는 잘못된 정보를 높은 수준의 확실성으로 보유하는 소규모 학생 그룹을 식별할 수 있는 잠재적 이점이 있다고 제안한다.
Acknowledging the need for assistance recognises the role of external cognitive support.15 The extra information generated from this response format can guide student learning and can guide decisions on student progress. Although we have found that the student cohorts generally show accurate self-monitoring, there may well be outlier students who are less able to do this. Identifying and following such students, comparing their results with other assessments and evaluating any effect on learning, are areas for future exploration. In particular, the current study reports a snapshot within a single calendar year, but over time response patterns may become apparent. We suggest that there is potential benefit in being able to identify the small group of students who hold erroneous information with high levels of certainty.

정답 숫자를 가지고 합격 또는 불합격 결정을 내리는 데 사용되는 평가에는 [행동 중 성찰의 설명자]에 의해 정의된 확실성이 포함될 수 있다. 주어진 시점에서 학생 확실성과 관련된 단일 응답 집합은 특히 과정 초기에 충분한 증거로 간주되지 않을 수 있다. 그러나 피드백과 반영하고 개선할 시간에도 불구하고 지속되는 대응 패턴은 주목할 만하다.
Certainty defined by descriptors of reflection-in-action could be included in assessments where the numbers correct are used to inform pass or fail decisions. A single set of responses relating to student certainty, at a given point in time, might not be considered sufficient evidence, especially early in a course; however, a concerning pattern of response that persists despite feedback and time to reflect and improve might become noteworthy.

[실무와 맞는 평가]를 만드는 것은 의학 교육에서 지속적인 도전이다. 우리의 [지식 테스트]가 그러한 [전문적인 관행과 병행되도록 보장]하는 것은 [authentic한 응답의 형식과 표현을 개발]하는 데 도움이 된다. 이 시험 형식은 학생들의 반응이 다른 형식과 다르다는 것을 보여줄 뿐만 아니라, 전문적인 실습에서 기대와 일치한다.
Making assessments authentic to practice is an enduring challenge in medical education. Ensuring our tests of knowledge parallel such professional practice is aided by developing formats and wording of responses that are authentic. This test format not only shows that student responses are different from other formats, but is aligned with expectations in professional practice.

결론들
Conclusions

[행동-중-성찰 설명자]는 실무에 authentic하며, 학생들의 응답에 대한 확실성을 문서화하는 더 나은 방법입니다. 심지어 확실성 수준과 무관하게, 정답을 맞출 가능성이 낮을 [저학년 그룹과 수행능력 저조 그룹의 학생들]도 확실성이 증가함에 따라 정답률이 증가함을 보여주었다. 실제 자체 모니터링에 적합한 reflection-in-action 설명자를 사용하면 능력이 낮은 사람들이 적절한 확실성을 확인할 수 있다.
Reflection-in-action descriptors are authentic to practice and a better way to document students' certainty in their responses. Even students in lower year groups and lower performance groups who were less likely to be correct for any given level of certainty, still demonstrated an increase in correctness with increasing certainty. Using reflection-in-action descriptors, which are authentic for self-monitoring in practice, enables those of lower ability to confirm their appropriate certainty.

 

 


 

Med Educ. 2017 Mar;51(3):316-323. doi: 10.1111/medu.13206. Epub 2017 Jan 12.

Low performing students have insightfulness when they reflect-in-action

Affiliations collapse

Affiliations

1School of Medicine and Health Sciences, University of Otago, Wellington, New Zealand.

2School of Medicine and Health Sciences, University of Otago, Christchurch, New Zealand.

PMID: 28084033

DOI: 10.1111/medu.13206

Abstract

Context: Measuring appropriateness of certainty of responses in a progress test using descriptors authentic to practice as reflection-in-action builds on existing theories of self-monitoring. Clinicians making decisions require the ability to accurately self-monitor, including certainty of being correct. Inappropriate certainty could lead to medical error. Self-assessment and certainty of assessment performance have been measured in a variety of ways. Previous work has shown that those with less experience are less accurate in self-assessment, but such studies looked at self-assessment using methods less authentic to clinical practice. This study investigates how correctness varies with certainty, allowing for experience and performance.

Methods: Students in Years 2-5 were certain of their responses to two iterations of a progress test during one calendar year. Analyses compared correctness for certainty of response, test number, student year cohort and performance level, defined by criterion scores.

Results: The odds of a correct response increased with student certainty for all subsets allowing for year group and ability, including student subsets with less experience and subsets in lower-performance groups.

Conclusion: Unlike previous work showing poorer accuracy of self-assessment for those with less experience or ability, we postulate that our finding of similar increases in correctness with increasing certainty even in the less experienced and lower performance groups, relates to certainty descriptors being worded in a way that is authentic to clinical practice, and in turn related to reflection-in-action.

+ Recent posts