자기평가: 그 모든 한계에도 불구하고, 왜 우리는 여전히 측정하고 가르치는가? 스코핑 리뷰의 교훈 (Med Teach, 2022)
Self-assessment: With all its limitations, why are we still measuring and teaching it? Lessons from a scoping review
Natasha Yatesa , Suzanne Gougha and Victoria Brazila,b

 

 

소개
Introduction

자기 평가(SA)는 의사가 안전하게 진료하고 평생 학습하는 데 중요하고 심지어 필수적인 것으로 간주됩니다(Boud and Falchikov 1989). 그러나 이러한 가정은 [SA의 복잡하고 잘 정의되지 않은 특성]과 [역량과의 상관관계가 없다는 점]을 강조하면서 광범위하게 반박되었습니다(Eva 외. 2012). 이러한 반박과 SA의 한계에 대한 수십 년간의 증거에도 불구하고 의학교육에서 SA의 오용은 지속되고 있습니다. 우리는 지난 10년간 의학교육에서 자기평가(SA)가 학습을 발전시키는 데 어떻게 적절하게 사용되었는지에 대한 공식적인 범위 검토를 수행하면서 그 정도를 발견했습니다. 우리는 SA가 유효하고 신뢰할 수 있는 결과 측정으로 오용되거나 그 자체로 학습 목표로 추구되는 경우가 많다는 사실에 놀랐습니다. SA의 문서화된 한계를 무시하여 범위 검토에서 제외된 논문을 종합하여 제시합니다. 우리는 성과를 개선하고/하거나 평생 학습자를 개발하는 방식으로 의대생 교육에서 SA를 독점적으로 발전시켜야 한다는 주장에 무게를 더하기를 희망합니다. 현재의 오해와 관행을 계속 유지한다면 의학교육의 중요한 영역에서 수행된 연구가 낭비될 위험이 있습니다.
Self-assessment (SA) is assumed to be important, even necessary, for doctors to practice safely and for life-long learning (Boud and Falchikov 1989). However, this assumption has been extensively rebutted (Eva et al. 2012), with emphasis on the complex, ill-defined nature of SA, and the lack of correlation with competence. Despite this rebuttal and decades of evidence around the limitations of SA, its misuse in Medical Education persists. We discovered the extent of this while undertaking a formal scoping review on how self-assessment (SA) has been used appropriately to advance learning in medical education over the past 10 years. We were surprised to find SA frequently misappropriated as a valid and reliable outcome measure, or sought as a learning goal in and of itself. We present a synthesis of papers excluded from our scoping review because they ignored the documented limitations of SA. We hope to add weight to calls to exclusively progress SA in medical student education in ways that improve performance and/or develop life-long learners. If we continue with current misconceptions and practices, we risk wasting research done in this important area of medical education.

배경
Background


시간이 지남에 따라 자가 평가에 대한 반복적인 요구에도 불구하고 보편적으로 받아들여지는 자가 평가의 정의는 아직 없습니다(Sargeant 2008). 정의는 연구 방법론, 해석 및 결론을 뒷받침하는 데 중요합니다. 무수히 많은 개념화 중에서 설명하는 데 도움이 되는 세 가지 명확한 구분이 있습니다:
There is no universally accepted definition of self-assessment, despite repeated calls for this over time (Sargeant 2008). Definitions are important to underpin research methodologies, interpretation, and conclusions. Within a myriad of conceptualisations, there are three clear distinctions that we have found helpful to explicate:

SA는 가이드형인가, 비가이드형인가? 
Is SA guided or unguided?
[가이드가 없는 SA]는 내부적으로 생성되고 고립되어 있으며 개인주의적입니다. 이를 '비공개 SA' 또는 '내부 피드백'이라고 부르기도 합니다. 이는 검사하기 어려울 수 있고(Andrade 2010) 항상 개입할 수 있는 것은 아니기 때문에 가치가 제한적입니다.  
Unguided SA
 is internally generated, isolated, and individualistic. Sometimes this is referred to as ‘private SA’ or ‘internal feedback.’ This has limited value because it can be difficult to inspect (Andrade 2010) and is not always amenable to intervention.  
  [가이드형 SA]는 동료나 교사와 같은 다른 사람의 피드백을 통해 보다 협력적이고 구조화되어 있지만, 이러한 피드백을 구하고 처리하는 책임은 여전히 개인에게 있습니다. 이는 또한 지시형 또는 정보에 입각한 자기 평가로 이해될 수 있습니다. 우리는 이것이 교육 및 학습의 맥락에서 SA를 고려하는 필수적인 방법이라고 주장하는 사람들의 주장에 동의합니다(Sargeant 2008).
Guided SA
 is more collaborative and structured, with input from others like peers or teachers, although the responsibility for seeking and processing this input still rests on the individual. This may also be understood as directed or informed Self-Assessment. We agree with those who contend that this is an essential way to consider SA in the context of teaching and learning (Sargeant 2008).
SA는 글로벌 성과인가요, 아니면 특정 성과인가요? 
Is SA a global or a specific accomplishment?
[글로벌 SA]는 본질적으로 자신감의 표현입니다('나는 좋은 운전자다').
Global SA
 is essentially a statement of self-confidence (‘I am a good driver’).
  [특정적 SA]특정 영역에 초점을 맞춘 진술입니다('나는 안전하게 후진 평행 주차를 할 수 있다'). 우리는 자신의 전반적인 능력을 과대평가하는 경향이 있지만, 좁고 집중된 과제에 대해 생각하도록 요청받으면 자기 평가가 더 정확해지는 경향이 있습니다(Eva and Regehr 2011).
Specific SA
 is a focussed statement in a particular area (‘I am able to reverse-parallel park safely’). We tend to overestimate our global abilities, but when asked to think about a narrow, focussed task we tend to be more accurate in our self-assessment (Eva and Regehr 2011).
[글로벌 SA]는 대부분 도움이 되지 않지만, [특정 SA]는 학습을 진전시키는 데 유용한 보조 도구가 될 수 있습니다.
While global SA is mostly unhelpful, specific SA can be a valuable aide to progress learning.
SA는 능력인가요, 접근 방식인가요? Is SA an ability or an approach? 어떤 사람들은 SA를 [학습하고 측정할 수 있는 기술이나 능력]으로 간주합니다. 여기서 SA는 최종 목표로 간주되며 외부 표준과 비교하여 측정할 수 있습니다. 개입이 개선된 자기 평가로 이어진다는 것을 입증하면 성공으로 간주할 수 있습니다. 이러한 관점에서 자기 평가는 총체적인 목적을 가진 학습에 대한 평가입니다. 학생이 외부 측정치에 가까울수록 학생의 자기 평가가 더 나은 것으로 간주되며, 이는 학습/성과 향상으로 이어질 것이라는 가정을 하게 됩니다.
Some view SA as a skill or ability, able to be learned and measured. Here SA is seen as the end goal, and measurable compared to an external standard. Demonstrating that intervention leads to improved self-assessment would be considered a success. Through this lens, self-assessment is an assessment of learning, with a summative purpose. The closer the student approximates an external measure, the better their SA is considered to be, and the assumption is that this will then lead to improved learning/performance.

그러나 이는 문제가 있습니다. 학생이 자기 평가를 더 정확하게 하는 법을 배운다고 해서 SA 기술을 더 잘하게 된 것일 뿐, 반드시 앎, 이해 또는 수행 능력이 더 좋아지는 것은 아니며안타깝게도 자기 평가 개선이 성과 향상으로 이어진다는 증거는 거의 없습니다(Davis 외. 2006). 또한 SA를 습득해야 할 기술로 간주하는 경우, 일반적으로 약점은 파악하지만 강점은 강화하지 않는 '격차 기반' 학습 접근 방식에 중점을 둡니다(Eva and Regehr 2005).

However, this is problematic—if students learn to self-assess more accurately, all that we have done is made them better at the skill of SA but not necessarily better at knowing, understanding, or performing—unfortunately, there is little evidence that improved self-calibration will lead to improved performance (Davis et al. 2006). Additionally, if SA is seen as a skill to obtain, the focus is generally a ‘gaps-based’ approach to learning, where weaknesses are identified but strengths are not reinforced (Eva and Regehr 2005).
  SA를 [전략 또는 접근 방식]으로 보는 사람들도 있습니다. [최종 목표]는 [학습, 성과 또는 안전을 개선]하는 것이며 SA는 이를 위한 수단입니다. 이러한 관점을 통해 연구자들은 SA를 교육학, 프로세스 또는 습관으로 논의하며 [평가의 정확성]보다는 [자체 평가의 메커니즘에 초점]을 맞춥니다. SA는 학습을 위해, 그리고 보다 형성적인 목적으로 수행되고 있습니다. 이를 통해 약점만 다루는 것이 아니라 강점 강화(Cheng 외. 2021)를 포함한 다양한 평가와 조치를 취할 수 있습니다.
Others see SA as a strategy or approach. The end goal is to improve learning, performance, or safety, and SA is the means to that end. Through this lens, researchers discuss SA as a pedagogy, process, or even a habit, and focus is on the mechanisms of self-assessing rather than the accuracy of that assessment. SA is being done for learning, and with a more formative purpose. This allows for a spectrum of assessments and actions, including reinforcement of strengths (Cheng et al. 2021) and not just addressing weaknesses.

평생 학습자를 개발하기 위해 우리가 선호하는 개념화는 SA가 학습을 진전시키기 위한 안내적이고 구체적인 전략이라는 것입니다.
In pursuit of developing life-long learners, our preferred conceptualisation is that SA is a guided, specific, strategy to progress learning.

중복되는 개념 및 정의
Overlapping concepts and definitions

자기 평가
Self-evaluation

종종 SA와 같은 의미로 사용되는 이 용어는 주로 자기조절학습(SRL) 문헌에서 학습 주기 내의 특정 하위 과정을 설명하기 위해 사용되었습니다. [자기 평가]는 짐머만 사이클의 [세 번째('성찰') 단계]에서 이루어집니다.
Often used interchangeably with SA, this term has primarily been used in the Self-Regulated Learning (SRL) literature to describe a specific sub-process within the cycle of learning. Self-evaluation occurs in the third (‘Reflection’) phase of Zimmerman’s cycle.

자기 모니터링
Self-monitoring

특정 상황에서 행동할 수 있는 기술/지식을 유지하고 있는지에 대한 가능성을 [순간순간 인식]하는 것입니다. [SRL 문헌에서는 짐머만 사이클의 두 번째('행동') 단계]에서 발생합니다. 자기 모니터링은 '순간적 SA'라고 부를 수 있지만(McConnell 외. 2012), 그 이상의 개념과 기능도 포함합니다.
A moment-by-moment awareness of the likelihood that one maintains the skill/knowledge to act in a particular situation. Within the SRL literature, this occurs in the second (‘Action’) phase of Zimmerman’s cycle. Self-monitoring could be called ‘SA in-the-moment’ (McConnell et al. 2012), although it also includes conceptualisations and functions beyond this.

평가적 판단
Evaluative judgement

'자신과 타인의 업무의 질에 대한 결정을 내릴 수 있는 능력'으로, 주로 임상 환경과 전문성 개발을 탐구할 때 사용됩니다(p471)(Tai 외. 2018).
‘The capability to make decisions about the quality of work of oneself and others,’ is used primarily in clinical settings and when exploring the development of expertise (p471) (Tai et al. 2018).

자기 효능감
Self-efficacy

종종 [과제에 대한 자신감]으로 설명되며, Bandura(1997)는 이를 [특정 과제를 성공적으로 수행할 수 있는 자신의 능력에 대한 역량]으로 설명했습니다.
Often described as task-specific self-confidence; Bandura (1997) described it as SA of one’s competence to successfully undertake a particular task.

조사 방법
Methods

우리는 지난 10년간 의학교육에서 학습을 발전시키기 위해 자기평가(SA)가 어떻게 사용되었는지를 조사하는 범위 검토를 수행했습니다. 우리는 오픈 사이언스 프레임워크에 프로토콜을 등록(NY 2021)하고 Arksey와 O'Malley의 6단계 프레임워크(Arksey and O'Malley 2005)에 따라 진행했습니다. 
We undertook a scoping review exploring how self-assessment (SA) has been used to advance learning in medical education over the past 10 years. We registered (NY 2021) our protocol on the Open Science Framework and were guided by Arksey and O’Malley’s 6-step framework (Arksey and O'Malley 2005).

  • 1단계: '지난 10년 동안(2011년 이후) 의학교육자들은 의대생 교육에서 성과를 개선하고/하거나 평생 학습자를 개발하는 방식으로 SA를 어떻게 개념화하고, 탐구하고, 발전시키고 있는가'라는 연구 질문을 확인했습니다. 
  • 2단계: 2021년 9월 14일에 체계적 문헌고찰 가속기(SRA)의 자동화 도구를 사용하여 관련 연구를 확인했습니다 (Clark, Glasziou 외. 2020). 액세스한 데이터베이스는 Pubmed, Embase, PsychINFO 및 ERIC입니다. 선임 정보 전문가는 검색 및 선별 과정을 지원하는 다양한 자동화된 도구에 익숙합니다. 각 데이터베이스에 대한 전체 검색 전략은 프로토콜(NY 2021)(공개적으로 볼 수 있음)에 게시되어 있으며, SRA 다국어 검색 번역기(Clark, Sanders 외. 2020)를 사용하여 개발되었습니다. SRA 중복 제거기(Clark, Glasziou 외. 2020)를 사용하여 중복 논문을 제거한 후 1151개의 연구가 남았습니다. 
  • 3단계: 모든 저자는 포함 및 제외 기준을 사용하여 관련 연구를 독립적으로 선택하고, SRA Screenatron 도구를 사용하여 제목과 초록을 검토했습니다(Clark, Glasziou 외. 2020). 가이드가 없는 SA를 설명하거나 SA를 글로벌 스킬(일반적인 자신감)로 정의한 연구는 제외했습니다. 또한 SA의 정확성(즉, 학습을 위한 SA가 아닌 학습에 대한 SA)을 파악하는 데 주안점을 두고 학생의 자기평가를 외부 측정에 보정하는 능력을 측정하는 것을 목표로 한 연구도 제외했습니다. 마지막으로, SA를 사용하여 개입의 성공 여부를 평가한 연구는 학습 진도에 초점을 맞춘 것이 아니라 프로그램을 평가하는 데 SA를 사용했기 때문에 제외했습니다. 
  • Step 1: We identified the research question: ‘Over the past 10 years (since 2011), how are medical educators conceptualising, exploring, and progressing SA in medical student education in ways that improve performance and/or develop life-long learners?’
  • Step 2: We identified the relevant studies on 14/09/2021 using automation tools from the Systematic Review Accelerator (SRA) (Clark, Glasziou et al. 2020). Databases accessed were Pubmed, Embase, PsychINFO, and ERIC. A senior information specialist is familiar with various automated tools assisted with the searching and screening process. The full search strategy for each database is published with our protocol (NY 2021) (publicly viewable) and was developed using the SRA Polyglot Search Translator (Clark, Sanders et al. 2020). After duplicate papers were removed using SRA Deduplicator (Clark, Glasziou et al. 2020), 1151 studies remained.
  • Step 3: All authors independently selected relevant studies using inclusion and exclusion criteria, reviewing titles and abstracts using the SRA Screenatron tool (Clark, Glasziou et al. 2020). We excluded studies that described unguided SA or defined SA as a global skill (general self-confidence). We also excluded studies that aimed to measure students’ abilities to calibrate their self-assessment to an external measure, with the primary focus being identifying the accuracy of SA (i.e. SA of learning, rather than SA for learning). Finally, we excluded studies that used SA to evaluate the success of an intervention, because their focus was not on using SA to progress learning, instead, they used SA to evaluate a program.

이 시점에서 저희는 제외된 연구들에서 상당수의 연구자들이 SA의 문서화된 한계를 무시하는 방식으로 SA를 사용하고 있다는 점을 우려하여 연구를 잠시 중단했습니다. 저희는 SA에 대한 지속적인 오해의 범위를 정의하기 위해 제외된 연구들을 비판적으로 분석하는 이례적인 조치를 취했습니다. 그 결과 연구 이해나 접근 방식에 결함이 있다고 판단되는 두 그룹을 발견했습니다: 
At this point, we paused, because we were concerned to note in our excluded studies that significant numbers of researchers are using SA in ways that ignore its’ documented limitations. We took the unorthodox step of critically analysing these excluded studies, aiming to define the extent of persistent misconceptions regarding SA. We identified two groups where we believe research had a flawed understanding or approach:

  • 그룹 1. 학습의 SA에 대한 연구로, 어떤 조건/특성 때문에 학생들이 자가 교정 능력이 떨어지는지 탐구하고, 정확도를 개선하는 방법에 초점을 맞춥니다(따라서 교정의 정확도가 학습의 전제 조건이 아니라는 점을 인정하지 않음).
  • Group 1. Research into SA of learning, exploring what conditions/features lead to students being poor self-calibrators, with a focus on how to improve their accuracy (and therefore no acknowledgement that accuracy of calibration is not a pre-requisite for learning).
  • 그룹 2. 참가자의 SA를 개입/프로그램의 결과 측정치로 사용한 연구. 이 연구에서는 참가자가 학습 또는 개선되었다고 진술하는 것이 프로그램 또는 개입의 효과에 대한 증거라고 가정했습니다.
  • Group 2. Research that used SA of participants as an outcome measure for their intervention/program. The assumption made in this research is that participants stating they learned or improved was evidence of the efficacy of their program or intervention.

 

결과
Results

검색에서 확인된 1151개의 연구 중 821개는 의대생을 포함하지 않았거나, SA를 다루지 않았거나, 영어로 되어 있지 않아 완전히 제외되었고, 27개는 가이드가 없는 SA를 탐구했거나 SA를 글로벌 기술(일반적인 자신감)로 정의했기 때문에 제외되었습니다. 96건은 전체 텍스트 검토에 포함되었고, 207건의 연구는 SA의 문서화된 한계를 무시했기 때문에 제외되었습니다. 
Of the 1151 studies identified in the search, 821 were excluded outright (e.g. did not include medical students, were not looking at SA, or were not in English) and 27 because they explored unguided SA or defined SA as a global skill (general self-confidence). Ninety-six were included for full-text review, leaving 207 studies excluded because they ignored the documented limitations of SA.

나머지 207개 연구는 여기에서 추가 분석에 포함되었습니다. 
These remaining 207 studies are included in our further analysis here.

  • 그룹 1. 연구자들이 학습의 SA를 살펴본 39개의 연구를 확인했습니다. 이 연구는 지적으로 흥미로울 수 있지만(예를 들어 여성은 일반적으로 학습에 대한 자기 평가에서 남성보다 '정확성'이 떨어지는 것으로 나타났습니다), 성과 향상이나 평생 학습에는 거의 유용하지 않습니다. 이 그룹의 연구자들은 학생들이 더 정확하게 자기 평가를 할 수 있도록 가르치는 것을 '해결책'으로 제안하기도 했습니다. 이 중 ¼ 이상이 1등급 의학교육 학술지(즉, 영향력 지수 2.0 이상)에 게재되었습니다(그림 1(인포그래픽) 참조). 
  • Group 1. We identified 39 studies where researchers looked at SA of learning. This research may be intellectually interesting (for example females are usually found to be less ‘accurate’ than males at self-assessment of their learning), but it is of little utility for improving performance or lifelong learning. Sometimes researchers in this group went on to suggest as a ‘solution’ that students be taught to self-assess more accurately. Over ¼ of these were published in tier 1 Medical Education Journals (i.e. with an Impact Factor of >2.0); see Figure 1 (infographic).
  • 그룹 2. 188개는 프로그램 또는 개입의 효과를 평가하기 위한 결과 측정으로 SA를 사용했습니다. 시간이 지남에 따라 이러한 방식으로 SA를 사용하는 출판물이 줄어들고 있다는 징후는 보이지 않습니다(그림 1(인포그래픽) 참조).
  • Group 2. One hundred and sixty-eight used SA as an outcome measure to assess the efficacy of a program or intervention. There is no sign that publications using SA in this way are abating over time—see Figure 1 (infographic).
 

참가자의 지식 및/또는 기술 습득과 같은 [객관적인 결과를 평가하기 위한 척도로 SA를 사용]한 94건의 연구를 확인했습니다. 이 중 63개는 학습/성과에 대한 다른 증거를 찾으려 하지 않고 [SA를 유일한 결과 측정치로 사용]했습니다.
We identified 94 studies that used SA as a measure to evaluate an objective outcome, like knowledge and/or skills acquisition of participants. Of these, 63 used SA as the sole outcome measure with no attempt to seek other evidence of learning/performance.

나머지 31개 연구는 자체 평가 개선도와 다른 결과(예: 시험에서 얻은 점수 또는 전문가 의견)를 모두 측정하고 그 일치 여부를 고려했습니다. 이 중 
A further 31 studies measured both self-assessed improvement and another outcome (e.g. marks achieved on a test, or expert opinion) and considered whether they aligned. Of these:

  • 20개 연구에서 [SA의 원자가valence]가 [객관적 결과의 원자가valence]와 상관관계가 있는 것으로 나타났습니다. 거의 항상 이러한 값은 긍정적인 방향이었습니다(즉, '학생들이 더 많이 배웠고 스스로도 더 많이 배웠다고 평가했습니다.'). 이러한 연구에 참여한 학생들의 지식/기술이 향상되었을 가능성도 있지만, SA가 학습을 과대평가하거나 과소평가했을 가능성도 있습니다.
    Twenty of these found that the valence of SA correlated with the valence of objective outcomes. Almost invariably these valences were in a positive direction (i.e. ‘the students learned more and they also self-assessed as learning more.’) It is possible that students in these studies did improve in their knowledge/skills, but also possible their SA over-estimated or under-estimated their learning.
  • 연구 중 5건은 [SA]와 [다른 결과]를 모두 측정하였고 [정렬에 대해 불분명]했습니다.
    Five of the studies measuring both SA and another outcome were unclear about alignment
  • 6개의 연구에서 자체 평가 결과를 다른 측정치와 비교하여 정량화한 결과, [초보자가 과대 평가]하거나 [전문가가 과소 평가]하는 것이 분명하게 나타났습니다.
    Six studies quantified self-assessed results compared with another measure and clearly found over-estimation by novices, or under-estimation by experts.

SA는 [자신감, 불안감 또는 공감]과 같은 [주관적인 결과를 측정하는 합리적인(때로는 유일한) 방법]입니다. 74건의 연구 중

  • 12건은 교육 개입에 대한 학생들의 자기보고 불안 또는 공감을 측정한 연구였습니다.
  • 나머지 62개 연구는 자체 평가한 자신감을 측정했습니다. 이는 역량에 대한 강력한 검증 없이 자신감이 결과로 나타나는 상황에서 문제가 됩니다.
    • 62개 연구 중 13개 연구는 자신감만을 유일한 결과로 측정했습니다.
    • 나머지 39개는 자신감과 다른 한 가지 결과를 함께 측정했지만, 대개 각 측정값의 원자가 또는 방향을 보고하는 등 상관관계를 시도하지 않았습니다.

변함없이 자신감이 높아지면 성과도 높아졌지만, 학생들이 자신의 성과에 비해 자신감이 지나치게 높거나 낮은지 여부는 조사되지 않았습니다. 추가로 10건의 연구에서는 자신감이 객관적인 성과 측정치와 일치하지 않는 것으로 나타났습니다.
SA is a reasonable (and sometimes the only) way to measure subjective outcomes, like confidence, anxiety, or empathy. We found 74 studies where this occurred, including

  • 12 which measured students’ self-reported anxiety or empathy in response to a teaching intervention.
  • The remaining 62 studies measured self-assessed confidence. This becomes problematic in situations where confidence is an outcome without any robust validation of competence.
    • Thirteen of those 62 studies measured confidence as the only outcome.
    • Another 39 measured confidence plus one other outcome, but usually did not attempt to correlate them, mostly reporting a valence or direction of each measure.

Invariably, as confidence increased so did performance, but what was not explored was whether students were now over-or under-confident compared to their performance? A further 10 studies found that confidence did not align with an objective measure of performance.

요약하면, 지난 10년 동안 많은 저자들은 SA를 학습이 이루어지기 위해 ['정확성'을 향상시켜야 하는 기술]로 간주하거나, [SA를 유효하고 신뢰할 수 있는 결과 측정 도구로 가정]하여 [교육 개입의 '성공'을 측정하는 방법으로 SA를 사용]해 왔습니다. [SA를 오용한 연구]를 발표한 저자(207명)가 [근거 기반 적용 가능성이 있는 연구]를 발표한 저자(96명)보다 두 배 이상 많았습니다. 원래의 범위 검토에서는 SA의 오용 사례를 의도적으로 찾아낸 것이 아니라 성과를 개선하거나 평생 학습자를 개발하는 방식으로 SA를 사용한 사례만 조사했기 때문에 오용 사례의 수는 이보다 훨씬 더 많을 수 있습니다.
In summary, many authors over the past 10 years have viewed SA as a skill that needs to be improved in ‘accuracy’ for learning to take place, or have used SA as a way to measure the ‘success’ of teaching intervention, assuming SA to be a valid and reliable outcome measurement tool. More than twice as many authors (207) have published research that misappropriates SA, than those who published research with the probable evidence-based application (96). The number of misuses may be even higher than this, as our original Scoping review was not deliberately searching for misappropriated use of SA, but rather for its use in ways that improve performance and/or develop life-long learners.

토론
Discussion

제외된 연구에 대한 분석에서 알 수 있듯이 SA의 주제와 사용에 대한 오해가 많습니다이러한 오해가 근거에 기반한 연구보다 두 배 이상 많은 연구가 발표되고 있습니다. 이러한 현상이 발생하는 이유를 살펴보기 위해 의학교육 이외의 교육 및 학습에 대한 비유를 고려해 보겠습니다.

  • 십대 자녀에게 자동차 운전법을 가르치려고 한다고 상상해 보세요. 몇 번의 운전을 가르친 결과, 아이들은 처음부터 끝까지 무사히 운전할 수 있었습니다. 자녀는 이제 고속도로에서 운전하고 싶다고 말하지만, 부모는 자녀의 능력에 대해 확신이 없습니다. 그래서 당신은 자녀가 자신의 한계를 인식하고 아직 고속도로 운전에 적합하지 않다는 것을 깨닫는 데 도움이되기를 바라면서 자녀에게 자가 평가를 요청합니다. 자녀는 잠시 앉아서 생각한 다음 고속도로를 운전할 준비가 되었다고 확신하며 몇 가지 근거에 기반한 이유를 설명합니다. 지금까지 성공적인 여행만 했고, 과속이나 교통 위반 벌금을 받은 적이 없으며, 친구들보다 더 많은 거리를 운전했기 때문에 상대적으로 더 경험이 많다고 느낀다는 것입니다.

Misconceptions around the subject and use of SA abound, as our analysis of excluded studies demonstrates. More than twice as much research is being published with these misconceptions than with evidence-based constructs. To help explore why this is occurring, we would like you to consider an analogy of teaching and learning that sits outside Medical Education:

  • imagine you are trying to teach a teenager how to drive a car. You take them out for a few trips, and they manage to get from start to finish unscathed. They tell you that they now want to drive on the highway, but you are not as confident in their abilities as they are. So, you ask them to self-assess, hoping this will help them recognise their limits and realise they are not fit for highway driving yet. They sit and think for a while and then explain that they are sure that they are ready to drive the highway, giving you some evidence-based reasons: they have had only successful trips so far, they have never received a speeding or traffic infringement fine, and they have driven more distance than their friends have, so feel comparatively more experienced.

크루거와 더닝의 연구에 따르면 이러한 능력에 대한 과대 평가는 정상입니다(Ehrlinger 외. 2008). 당신은 지금까지의 여행이 상대적으로 쉬웠다는 점(조용한 이면도로를 다녔다는 점), 수많은 아차사고(옆자리에 앉아있을 때 구해냈다는 점), 동료와 자신을 비교하는 것은 능력의 기준이 될 수 없다는 점 등을 지적하며 그들의 주장에 반박할 수 있습니다. 이제 이 대화는 그림 2에 제시된 것처럼 여러 가지 방식으로 진행될 수 있습니다:
This over-estimation of their abilities would be normal according to research by Kruger and Dunning (Ehrlinger et al. 2008). You counter their arguments by pointing out the relative ease of the trips so far (you have taken quiet back roads), their numerous near misses (from which you rescued them as you were sitting next to them), and the fact that comparing themselves with peers is not a benchmark for capability, as none of them are competent yet either. This conversation could now go several different ways, as presented in Figure 2:

[시나리오 1과 2]는 예측 가능하지만 원치 않는 반응으로 학습을 방해합니다. 우리는 종종 [인지적 편향]과 [자기 이미지 보호/인상 관리](Evans et al. 2005)와 같은 요인으로 인해 [정확한 자기 평가를 하지 못합니다](Yu et al. 2020). 마찬가지로 저성과자의 SA를 개선하면 자기효능감이 낮아질 위험이 있습니다(Artino 2012). 성과가 낮은 학습자가 자신이 하위 사분위수에 속한다는 사실에 직면하게 되면 개선할 수 있다는 자신감을 잃을 수 있습니다. 이렇게 학습에 대한 정확한 SA를 요구하면 의도치 않게 성과가 악화될 수 있습니다.
Scenarios 1 and 2 would be predictable but unwanted responses, which hamper learning. We frequently cannot self-assess accurately (Yu et al. 2020): things like our cognitive biases and self-image protection/impression management (Evans et al. 2005) get in the way. Likewise, improving the SA of a low performer risks lowering their self-efficacy (Artino 2012). If a poor performer is forced to face the fact that they are in the lower quartile they may lose the confidence that they can improve. This push for accurate SA of their learning then may inadvertently worsen performance.

문제는 청소년이 [시나리오 3의 반응]을 보이도록 도울 수 있을까요? 그렇다면 어떻게? 정확한 자기 평가를 하는 방법을 배우도록 도와주면 그렇게 할 수 있을까요? 
The question is, can we assist the teenager to have a Scenario 3 response? If so, how? Will helping them learn to accurately self-assess enable that to occur?

바로 이 지점에서 [증거에 맞는 방식으로 SA를 개념화]하는 것이 중요해집니다. 청소년이 운전을 잘하기 위해서는 정확한 자기 평가를 배워야 한다는 가정은 면밀한 조사를 통해 입증되지 않았습니다. 요컨대, [SA가 운전 실력 향상으로 가는 길이라고 가정하는 연구]는 [근본적으로 결함]이 있습니다(Colliver 외. 2005). [SA 정확도 향상에 초점을 맞추는 것]은 [운전 능력 향상에 초점을 맞추기]보다는, 청소년들이 [능숙하게 운전할 수 있는 도로에만 청소년들을 투입하는 것]과 같습니다(따라서 SA를 안전한 운전 성능에 맞추는 것). 
This is where it becomes essential to conceptualise SA in a way that fits the evidence. The assumption that this teenager needs to learn to self-assess accurately before they can progress in their driving does not hold up under scrutiny. In short, research that assumes that SA is the route to improved performance is fundamentally flawed (Colliver et al. 2005). Focussing on improving SA accuracy is like only ever putting our teenagers on roads that they can competently drive (therefore matching their SA to a safe driving performance), rather than focussing on improving their driving.

다시 의학교육에 대한 생각으로 돌아와서, 몇 년 전부터 이러한 점을 지적하는 강력하고 분명한 목소리가 있었습니다. 언뜻 역설적으로 보이지만 데이터는 분명합니다. Eva, Regehr, Gruppen(Eva 외. 2012)이 설명한 것처럼, SA를 가르치는 데 많은 노력을 기울이면 학생과 의사가 보다 정확하게 자기 평가를 할 수 있는(즉, SA 기술/능력을 개발할 수 있는) 교육을 성공적으로 수행할 수 있지만, 반드시 성과를 향상시키지는 못합니다. 또한 학생들이 자기 평가 능력을 향상시키는 데 도움을 줄 수는 있지만(Lopez와 Kossack 2007), SA 향상과 성과(Andersen 외. 2015), 통찰력(Ehrlinger 외. 2008), 학습(Colthart 외. 2008) 또는 환자 결과(Al-Kadri 외. 2012) 사이에는 상관관계가 낮다는 것은 잘 알려진 사실입니다. 대신 약한 학생의 성과를 개선하기 위한 증거 기반 방법에 초점을 맞추면 일반적으로 [부산물]로 [자기 평가 능력이 향상]됩니다(Hawkins 외. 2012).  
Returning to thinking about Medical Education, there have been strong and clear voices making these points for some years now. Although it seems paradoxical at first glance, the data is clear. As Eva, Regehr, and Gruppen (Eva et al. 2012) explain, if our efforts go into teaching SA, we may successfully train students and doctors who can more accurately self-assess (i.e. develop their SA skills/abilities), but not necessarily improve their performance. Additionally, it’s well-established that although we can help students to improve their ability to self-assess (Lopez and Kossack 2007), there is a poor correlation between improving SA and their performance (Andersen et al. 2015), insight (Ehrlinger et al. 2008), learning (Colthart et al. 2008), or patient outcomes (Al-Kadri et al. 2012). If instead, we focus on evidence-based ways of improving the performance of weaker students, their ability to self-assess will usually improve as a by-product (Hawkins et al. 2012).

10대 운전자의 시나리오를 다시 생각해본다면, 시간이 지남에 따라 이들을 관찰한다면, 도로에서 더 많은 감독을 받는 시간을 보내면 더 많은 도전에 노출되어 유능한 운전자가 되기 위해 필요한 것이 무엇인지에 대한 미묘한 관점을 얻을 수 있기를 바랍니다(그림 3-시나리오 4). 그러면 (아마도!) 초기의 잘못된 자신감을 비웃고 더 많은 경험이 쌓인 후에야 고속도로에 나설 수 있을 것입니다.
If we reconsider our teenage driver scenario and observe them over time, we would hope that spending some more supervised hours on the road would expose them to increasing challenges, helping them gain a more nuanced perspective of what it takes to be a competent driver (Figure 3—scenario 4). They would then (possibly!) laugh at their earlier misplaced self-confidence and only take to the highway when they were more experienced.

이 마지막 시나리오는 [학습자가 목표로 하는 명확하고 구체적인 표준]이 있고 [다른 사람의 의견에 반응하는 안내형 SA]입니다. 이것이 바로 학습을 위한 SA입니다.
Notice that this final scenario is guided SA where the learner has clear, specific standards to aim for and is responsive to the input of others. It is SA for learning.

왜 그렇게 많은 연구의 초점이 여전히 성과, 학습 또는 안전의 개선 측정과는 별개로 SA를 주요 예상 결과로 개선하는 데 맞춰져 있는지 궁금합니다. 또는 왜 그렇게 많은 연구자들이 SA의 제한된 신뢰성과 타당성을 고려하지 않고 프로그램의 '성공'을 평가하는 도구로 SA를 사용하는 것일까요? 이러한 [SA의 오용]은 특히 초보자나 실력이 약한 학생과 관련하여 문제가 되는데, 이들은 프로그램을 통해 실력이 향상되었다고 생각하기 때문에 이제 전문가가 되었다고 생각할 수 있습니다(Kruger and Dunning 1999). 
We wonder why the focus of so much research is still on improving SA as the primary anticipated outcome, detached from any measure of improvement in performance, learning or safety? Or why so many researchers use SA as a tool to evaluate the ‘success’ of a program, without regard to its limited reliability and validity? This misuse of SA is particularly troubling with regard to novices or weaker students, who may believe that because they have been through a program and feel they have improved, they are now an expert (Kruger and Dunning 1999).

한 가지 가능한 이유는 [SA 데이터가 양적 및 질적 형태로 수집하기 쉽기 때문]에, 한계와 역설에 익숙하지 않은 연구자들은 [SA가 간단하고 유용한 정보를 제공한다고 잘못 생각]하기 때문입니다. 또한 학생들은 자신의 SA를 묻는 질문에 의문을 제기하지 않을 것입니다. 사람들은 직관적으로 자신이 자신을 가장 잘 평가할 수 있는 위치에 있다고 믿기 때문입니다. 인간은 자신을 가장 잘 안다고 생각하는 경향이 있습니다.
One likely reason is that SA data is easy to collect, in both quantitative and qualitative forms, so researchers who are unfamiliar with its limitations and paradoxes, mistakenly think it provides straightforward and useful information. In addition, students are unlikely to question being asked for their own SA: it is intuitive for people to believe that they are in the best position to assess themselves. Humans tend to think we know ourselves best.

보다 구조적인 수준에서는 SA의 개념을 정의하기 어렵고, 그 결과 의미와 적용에 일관성이 없다는 것이 문제의 일부일 수 있습니다. 또 다른 문제는 학문적 대화의 사일로화일 수 있으며, 다른 맥락에서 병렬적으로 논의가 진행되는 것입니다[다른 곳에서 발생한 것처럼(Evans 외. 2021)]. 네트워크 분석은 주제에 대한 학문적 담론의 단절을 드러낼 수 있으며(Manlove 외. 2016), 이는 SA의 향후 연구 분야가 될 수 있습니다. 
At a more structural level, part of the problem is likely the difficulty in defining the concept of SA, with resulting in inconsistency in meaning and application. Another issue may be siloing of academic conversations, with parallel discussions happening in different contexts [as has occurred elsewhere (Evans et al. 2021)]. A  network analysis can reveal disconnects in academic discourses on topics (Manlove et al. 2016) and this may be an area of future research for SA.

마지막으로, 이 연구 논문의 비정통적 접근 방식이 의학교육의 다른 주제에도 도움이 될지 궁금합니다. SA를 도움이 되지 않는 방식으로 사용한 연구의 정도를 정량화함으로써 [의학교육자들이 SA를 측정 도구로 사용하는 것을 고려할 때 잠시 멈칫할 수 있기를 바랍니다]. SA가 부적절하게 사용되면 연구가 낭비될 수 있습니다. 의료 연구 전반에서 연구 낭비를 제한해야 한다는 요구가 증가하고 있으며(Chalmers and Glasziou 2009), 이에 대한 책임은 자금 제공자, 규제 기관, 학술지, 학술 기관, 연구자 등 다섯 가지 주요 이해관계자에게 있습니다(Moher 외. 2016). 
Finally, we wonder if our unorthodox approach in this research paper would benefit other topics in Medical Education? By quantifying the extent of research that has used SA in unhelpful ways, we hope medical educators will take a pause when considering using SA as a measurement tool. If SA is used inappropriately, their research may be wasted. Within Healthcare research more broadly there have been increasing calls to limit research waste (Chalmers and Glasziou 2009) with responsibility for this laying at the feet of five main stakeholders—funders, regulators, journals, academic institutions, and researchers (Moher et al. 2016).

이를 통해 의학교육은 우선순위가 가장 높은 주제를 연구하고, 적절한 연구 설계와 방법론을 보장하며, 연구 결과를 필요로 하는 사람들에게 접근 가능한 방식으로 연구 결과를 보고하고 배포하는 것을 최적화하는 등의 고려 사항을 통해 학문으로서의 이점을 얻을 수 있습니다. 체계적 문헌고찰과 범위 검토에서 '제외된' 연구에는 향후 연구 질문에 대한 해답이 있을 수 있는데, 이는 향후 반복되지 않기를 바라는 단점이 포함되어 있기 때문입니다. 연구 제외 이유를 체계적으로 평가함으로써 이 논문이 자체 평가에 대한 이해를 높이고 향후 이 분야의 연구를 개선하는 데 기여했기를 바랍니다.
Learning from this, Medical Education as a discipline may benefit from the following considerations: researching the highest priority topics; ensuring appropriate research designs and methodologies; and optimising reporting and dissemination of findings in accessible ways, to the people who need to see them. It may be that answers to future research questions can be found in the ‘excluded’ studies in our Systematic and Scoping reviews, as these contain the shortcomings which we want to ensure are not replicated in the future. By systematically assessing the reasons for excluding research, we hope this paper has contributed to a deeper understanding of Self-Assessment and improved future research in this area.

결론
Conclusion

SA를 탐구하는 교육자가 SA에 대한 명확한 정의를 가지고 있을 때, 이는 학생의 학습 방식에 대한 이용 가능한 증거에 부합합니다: SA는 가이드가 있고(가이드가 없는 것이 아니라), 구체적이며(포괄적인 것이 아니라), 능력이 아닌 과정으로 개념화하는 것이 가장 도움이 됩니다. 우리는 의학교육자와 학자들이 [결과 측정으로서의 자기평가의 한계]와 [자기평가가 추구해야 할 목표라는 증거가 부족하다]는 점을 이해할 것을 촉구합니다. 앞으로 나아가는 데 도움이 되는 한 걸음은 개입/프로그램의 '성공'에 대한 의미 있는 결과 측정으로 참여자 SA를 사용하는 것을 중단하는 것입니다. SA는 평생 학습 과정의 중요한 부분이지만, 학생들이 외부 측정치(학습에 대한 자기 평가)로 SA를 보정하는 데 어려움을 겪는 이유에 대한 연구는 유용한 목적이 없습니다. 마찬가지로, 정확도/보정을 개선하려는 시도 역시 잘못된 방향의 노력입니다. 프로젝트를 설계하는 연구자, 학술 기관, 자금 제공자, 저널은 더 이상 이러한 결함이 있는 방식으로 SA를 사용하는 것을 받아들이지 않는 것이 좋습니다. 그 대신 학생들의 [학습을 위한 자기평가]를 발전시키는 데 집중해야 합니다. 
When educators exploring SA have a clear definition of SA, it fits the available evidence on how students learn: SA is most helpfully conceptualised as a guided (not unguided), specific (not global), process (not ability). We call on medical educators and scholars to understand the limitations of self-assessment as an outcome measure, and the lack of evidence for it being a goal to strive for. A helpful step forward would be for us to stop using participant SA as a meaningful outcome measure of the ‘success’ of an intervention/program. While SA is an important part of the life-long learning process, research into reasons why students are poor at calibrating their SA with external measures (self-assessment of learning) serves no useful purpose. Similarly, attempts to improve their accuracy/calibration is misdirected effort. Researchers designing projects, academic institutions, funders, and journals would benefit from no longer accepting the use of SA in these flawed ways. Efforts should instead focus on progressing students’ self-assessment for learning.

우리는 SA의 [정의, 한계, 역설을 명확히 하는 것]이 의과대학 내 교육과 학습에 의미 있는 적용을 가능하게 할 것이라고 믿습니다. 이러한 한계와 역설을 인정하지 않는 연구의 범위에 대한 우리의 탐구가 향후 이 분야의 연구 낭비를 줄이는 데 도움이 되기를 바랍니다. 마지막으로, 의학교육 연구의 다른 분야에서도 마찬가지로 범위 설정 및 체계적 문헌고찰에서 '제외된' 연구를 검토하여 학문으로서 개선할 수 있는 부분에 대한 인사이트를 얻을 수 있지 않을까 생각합니다. 
We believe that clarifying definitions, limitations, and the paradoxes of SA will afford meaningful application to teaching and learning within medical schools. We hope that our exploration of the extent of research that fails to acknowledge these limitations and paradoxes will help reduce future wastage of research in this area. Finally, we wonder if other areas of medical education research would similarly benefit from examining ‘excluded’ studies from scoping and systematic reviews, to gain insights into what where we could improve as a discipline.

 


 

Med Teach. 2022 Nov;44(11):1296-1302. doi: 10.1080/0142159X.2022.2093704. Epub 2022 Jul 4.

 

Self-assessment: With all its limitations, why are we still measuring and teaching it? Lessons from a scoping review

Affiliations collapse

1Faculty of Health Sciences and Medicine, Bond University, Gold Coast, Australia.

2Translational Simulation Collaborative, Gold Coast, Australia.

PMID: 35786121

DOI: 10.1080/0142159X.2022.2093704

Abstract

Introduction: Self-Assessment (SA) is often assumed to be essential for learning, however, this assumption has been extensively rebutted. Research shows SA has significant limitations, including its lack of correlation with competence.

Method: We undertook a scoping review of SA in medical education (2011-2021) and surprisingly discovered substantial research where SA was erroneously assumed to be a valid measure of successful learning, or a skill needing to be taught. Although the initial intent of our scoping review was to explore where SA is being effectively used to advance lifelong learning, we paused to explore the extent of the problem of its misuse and resulting in wasted research, by examining excluded studies.

Results: From 1151 articles, we identified 207 which ignored the documented limitations of SA. Thirty-nine studies explored SA of learning. This research has limited utility: increasing the accuracy of SA does not improve performance or lifelong learning. One hundred and sixty-eight used SA as an outcome measure to assess a program or intervention, including 63 where self-assessed improvement in knowledge/skills was the sole measure. SA of self-confidence was measured in 62 studies. When confidence was compared with an objective measure of performance, both invariably increased, but confidence did not always align with competence when measured.

Discussion: Many researchers mistakenly assume the ability to accurately self-assess is essential for learning, so focus on teaching self-calibration rather than evidence-based methods of advancing learning. Other researchers incorrectly suppose that self-reported improvements in knowledge/skills provide evidence of the efficacy of a program/intervention. This is particularly troubling with regards to novices, who may believe that because they self-assess to have improved/gained confidence, they are now competent.

Conclusion: Our findings highlight the significant volume of research being done where SA is misunderstood and/or misused as a measurement. We posit reasons that such research continues to take place and suggest solutions moving forward.

Keywords: Self-assessment; life-long learning; medical education; research wastage.

+ Recent posts