형성적 OSCE가 어떻게 학습을 유도하는가? 전공의 인식 분석 (Med Teach, 2017) How do formative objective structured clinical examinations drive learning? Analysis of residents’ perceptions Debra Pugh, Isabelle Desjardins & Kevin Eva
배경 Background
평가가 학습을 촉진한다는 데는 의학 교육자들 사이에 이견이 거의 없습니다(Newble 2016). 그러나 평가의 역할에 대한 강조가 순전히 더 나은 학습의 평가(AOL)에서 교육자가 학습을 위한 평가(AFL)를 사용할 수 있는 방법에 대한 사고 방식으로 변화함에 따라, 다양한 형태의 평가가 교육적 가치를 갖는 방법과 시기를 결정하는 자극이 있다. There is little disagreement among medical educators that assessment drives learning (Newble 2016). However, as the emphasis for the role of assessment shifts purely from better assessment of learning (AOL) toward thinking in ways about how educators can use assessment for learning (AFL), there is an impetus to determine how and when assessments of various forms have educational value.
평가가 학습자에게 직접적 및 간접적 영향을 미칠 수 있다는 것을 알게 되었습니다(Larsen et al. 2008). [직접적인 효과]는 평가 자체가 학습을 촉진할 때 발생합니다. 예를 들어, [테스트 효과]는 동일한 시간을 할애했을 때, 그냥 공부보다 테스트가 학습에 더 강력한 영향을 미칠 수 있다는 잘 확립된 현상을 말한다(Larsen et al. 2008, 2009; Kromann et al. 2009; Larsen 2013). 반면 [간접적인 효과]는 학습자에게 평가를 받을 것임을 알려 학습 동기를 제공하는 데서 발생합니다. 또한, 시험이 끝난 후 학습자에게 제공되는 피드백은 학습자가 평가가 끝난 후에도 주제를 계속 탐색하도록 동기를 부여할 수 있는 장점과 단점을 강조하여 학습 방향을 안내하는 데 도움이 될 수 있습니다(Agrawal et al. 2012). It has become understood that assessment can have both direct and indirect influences on learners (Larsen et al. 2008). Direct effects arise when the assessment itself prompts learning. For example, the testing effect refers to a well-established phenomenon that testing can have a more powerful influence on learning than when an equal amount of time is devoted to studying (Larsen et al. 2008, 2009; Kromann et al. 2009; Larsen 2013). Indirect effects, in contrast, arise from providing an incentive to study by informing learners that they will be assessed. In addition, the feedback provided to learners after a test can help to guide their learning by highlighting areas of strength and weakness that may, in turn, motivate learners to continue exploring the topic after the assessment is over (Agrawal et al. 2012).
이러한 명확한 평가의 이점에도 불구하고, 시험이 학습에 해로울 수도 있습니다. 예를 들어, 시험 이벤트로 인한 스트레스는 학습자들이 장기적인 이득을 위해 자료를 보다 철저히 이해할 수 있도록 노력을 기울이기보다는, 단기적으로(즉, 시험에서) 성공할 가능성을 극대화하는 피상적인 학습 전략(예: 암기, 주입식, 공부)을 채택하도록 유도할 수 있습니다. (Pashler et al. 2007) 또한 학습자는 테스트의 단서cue를 사용하여 시도하지 않았을 질문에 올바르게 (찍어서) 답할 수 있으며, 이는 자신의 능력에 대한 인상을 부풀릴 수 있습니다(Desjardins et al. 2014). 마지막으로, 수험생들은 점수를 높이기 위해 담합과 부정행위에 의존해야 한다는 압박감을 느낄 수 있으며, 다시 실제 학습과 관련된 노력을 저하시킬 수 있습니다(Henning et al. 2013). Despite these clear benefits of assessment, testing can also be detrimental to learning. For example, the stress caused by a testing event may lead learners to adopt superficial learning strategies (e.g. rote memorization, cramming, studying to the test) that maximize their chances of success in the short term (i.e. on an examination) rather than devoting their efforts to truly understanding the material in a way more likely to yield long-term gain (Pashler et al. 2007). Learners may also use cues on the examination to correctly answer questions they would not otherwise have attempted, which may create an inflated impression of their own abilities (Desjardins et al. 2014). And, finally, examinees may feel pressure to resort to collusion and cheating in an attempt to improve their scores, again detracting from efforts related to actually learning the material (Henning et al. 2013).
시험을 교육학적 개입으로 채택employ하려고 노력하는 사람들에게 이러한 어려움은 평가가 [학습자가 자신의 스킬을 보여주는 상황]을 지켜보는 관찰자가 있는 수행능력-기반performance-based 평가일 때 더욱 복잡해질 가능성이 있다. These challenges for those striving to employ tests as pedagogical interventions are likely to be compounded when the assessment in question is performance based with observers watching a learner demonstrate their skills.
비록 지식은 기초로서 필요하지만, 학습자가 임상 문제에 직면했을 때 그 지식을 통합하고 적용하는 방법을 평가하기 위해 잘 설계된 OSCE를 사용한다(Harden et al. 1975). OSCE는 일반적으로 (임상 기술과 환자와의 관계를 확립하는 능력 등) 서면 테스트의 대상과 다른 구조를 평가하는 데 사용된다(Jefferies et al. 2007). 이 두 가지 요인 모두 OSCE에서 이루어지는 학습이 단순한 [선언적 지식]을 반영할 가능성이 낮으며, 다양한 방식으로 해석가능한 상호작용을 수반하는 [복잡한complex 행동]을 반영할 가능성이 높다는 것을 시사한다. Although they require a foundation of knowledge, well-designed OSCEs are used to assess how learners integrate and apply that knowledge when faced with a clinical problem (Harden et al. 1975). OSCEs are generally used to assess different constructs than those that are targeted by written tests, such as clinical skills and the ability to establish rapport with a patient (Jefferies et al. 2007). Both of these factors suggest that the learning that takes place in OSCEs is less likely to reflect simple declarative knowledge and more likely to reflect complex behaviors that will interact in variably interpreted ways.
따라서 OSCE를 둘러싸고 이뤄지는 학습은 (서면 테스트와 비교했을 때) 의사가 공식 교육을 완료한 후 경험하게 될 평가 모멘트의 영향에 대한 더 나은 근사치better approximation를 제공할 수 있습니다. 그러나 수행능력-기반 평가에서 따라오는 관찰은 학습자가 자연스럽게 무엇을 할 것인지를 보여주기보다는 '연기play a role'을 해야 한다고 느끼게 만듦으로써 '연출적staging' 행동으로 이어진다는 점을 명심해야 한다(Gormley et al. 2016; Shea and Norcini 2017). 이는 학습자, 특히 상급advanced 교육 단계에 있는 학습자의 경우 [잘 설계된 OSCE조차 비현실적인 것으로 간주]한다면 교육적 가치에 대한 냉소를 유발할 수도 있다. 이 모든 내용을 종합하여 대학원(전공의) 교육 환경에서 형성적목적을 위해 표면적으로 운영되는 OSCE가 학습을 장려하기 위해 평가를 설계할 때 고려해야 하는 긴장을 더 잘 이해할 수 있는 특히 강력한 컨텍스트를 제공할 것임을 시사한다.
As such, learning that takes place around an OSCE could provide a better approximation (relative to written tests) of the influence of assessment moments that physicians will experience after their formal training is completed. It is important to keep in mind, however, that the observation required for performance-based assessment leads to “staging” behaviors as learners can feel compelled to “play a role” rather than demonstrate what they would naturally do (Gormley et al. 2016; Shea and Norcini 2017). This creates the potential that learners, especially those operating at an advanced stage of training, will view even a well-designed OSCE as inauthentic, thus engendering cynicism regarding its educational value. All of this sums together to suggest that an OSCE that is ostensibly run for formative purposes in a postgraduate (residency) training context would provide a particularly powerful context within which to better understand the tensions that need to be taken into account when designing assessments to encourage learning.
방법 Methods
형성적 OSCE는 오타와 대학에서 대학원 과정(PGY) 1~4학년 레지던트에게 Progress test(즉, 여러 단계의 교육에서 학습자에게 시행되는 종합 검사)로 시행되었습니다. 같은 날 저녁, [9개 스테이션]의 [5개 동시회로]가 2차례 운행돼 모든 전공의가 이용할 수 있었다.
A formative OSCE was administered to Internal Medicine (IM) residents in postgraduate years (PGY) 1–4 at the University of Ottawa as a progress test (i.e. a comprehensive examination administered to learners at different stages of training). Five simultaneous circuits of nine stations were run twice in the same evening to accommodate all residents.
OSCE 진행률 테스트 형식 OSCE progress test format
스테이션의 길이는 12분, 구두 피드백은 1분이었다. 1분이 긴 시간은 아닌 것으로 보일 수 있지만, 이 맥락에서 우리의 이전 연구는 심사관들이 1분 안에 평균 16명의 전공의 피드백 포인트를 제공하는 것으로 입증했다(Humphrey-Murto et al. 2016). 전공의는 스테이션 유형에 따라 선택된 스테이션별 체크리스트와 다수의 5점 평가 척도(예: 조직 기술, 환자와의 관계)를 사용하여 의사 검사자에 의해 채점되었다. Stations were 12min in length, accompanied by 1min of verbal feedback. While a single minute may not seem like a long time, our previous research in this context has demonstrated that examiners provide an average of 16 residents feedback points to in 1 min (Humphrey-Murto et al. 2016). Residents were scored by physician examiners using a combination of station-specific checklists and a number of five-point rating scales (e.g. organizational skills, rapport with patient) that were selected based on station type.
참여자 Participants
설문 Surveys
참가자들은 검사 전(사전 검사), 검사 직후(사후 검사), 검사 후 결과(사후 결과)의 세 가지 설문조사를 완료해야 했습니다. 자세한 내용은 보충 부록을 참조하십시오. Participants were asked to complete three surveys: before the examination (pre-examination), immediately following the examination (postexamination), and after the examination, results were made available (postresults); see Supplementary Appendix.
운영 Administration
온라인 설문조사 서비스(Fluid Survey VR)를 사용하여 설문조사를 배포했으며 선택된 응답(즉, 라이커트 등급 척도)과 구성된 응답(즉, 서술형 논평) 질문을 모두 포함했다. Surveys were distributed using an online survey service (Fluid Surveys VR ) and included both selected-response (i.e., Likert-like rating scales) and constructed response (i.e. narrative comments) questions.
분석 Analyses
상위 성과자와 하위 성과자 간의 차이는 총 OSCE 점수의 [중위 분할median splits]을 사용하여 조사되었으며, 전공의는 특정 대학원 연도에 상위 성과자 또는 하위 성과자로 분류되었다. 우리는 성취도가 낮은 사람이 성취도가 높은 사람과 비교했을 때 다른 학습 전략을 채택할 것이라는 가설을 세웠습니다. 혼합 설계 분산 분석을 사용하여 검사 주기 동안 낮은 성과자와 높은 성과자의 등급의 차이뿐만 아니라 그러한 등급의 변화(즉, OSCE 이후 및/또는 결과를 받은 후 참가자의 인식이 변경되었는지 확인)를 조사했습니다. 구면성에 대한 가정을 위반한 경우, Greenhouse–Geisser corrections을 사용했다. Differences between high and low performers were explored using median splits on total OSCE score with residents classified as either high or low performers within their particular postgraduate year. We hypothesized that low achievers would adopt different learning strategies when compared to high achievers. A mixed design ANOVA was used to examine differences in low and high performers’ ratings as well as changes in those ratings over the examination cycle (i.e. to see if participants’ perceptions changed after the OSCE and/or after they received their results). Where assumptions of sphericity were violated, Greenhouse–Geisser corrections were used.
결과 Results
참가자는 OSCE에 등록된 거주자의 분포에 근거하여 예상대로 모든 교육 수준에 걸쳐 비교적 고르게 분포되었다(표 1). Participants were relatively evenly distributed across all levels of training, as expected based on the distribution of residents enrolled in the OSCE; (Table 1).
선택한 응답 질문에 대한 테마 생성 Theme generation for selected response questions
참가자들에게 OSCE의 목표에 대해 묻는 질문에서는 세 가지 주제를 파악했습니다.
성과 지향 목표(즉, 참가자가 점수를 잘 받기를 원했음을 나타내는 목표)
숙달 지향 목표(즉, 참가자가 임상 기술 향상을 원했음을 나타내는 목표) 및
피드백을 받는 것(즉, 참가자가 OSCE로부터 성과에 대한 지침을 구하고 있었다는 것을 나타내는 목표)
For the question asking participants about their goals for the OSCE, three themes were identified:
performance-oriented goals (i.e. goals indicating the participant wanted to score well),
mastery-oriented goals (i.e. goals indicating the participant wanted to improve their clinical skills) and
receiving feedback (i.e. goals indicating the participant was seeking guidance about their performance from the OSCE).
OSCE의 가치에 대한 참가자의 인식과 관련된 항목은 [타당한 평가 수단]과 [교육적 가치]라는 주제로 코드화되었다. Items related to participants’ perceptions about thevalue of the OSCE were coded into the themes of:
valid means of assessment and
educational value.
OSCE를 준비하는 데 사용된 학습 활동의 유형에 대한 질문과 OSCE에서 점수를 잘 받는 방법에 대한 참가자의 인식에 대한 질문은 [내용 중심 전략]과 [시험 전략]의 두 가지 주제로 나뉘었다. Items associated with both the question about the types of study activities used to prepare for the OSCE and the question about participant perceptions of how to score well on the OSCE were divided into two themes:
content-focused and
test-taking strategies.
OSCE 목표 Goals for the OSCE
성능 지향 목표: 연습 OSCE는 처음이기 때문에, 로얄 칼리지 OSCE의 형식을 익히고 다음에 시험을 볼 때 나아지기를 바라는 것이 저의 주된 목표입니다. (C3Q; PGY-2) Performance-oriented goals: Since it will be my first time doing the practice OSCE, my main goal is to familiarize myself with the format of a Royal College OSCE and hopefully improve the next time I take the exam. (C3Q; PGY-2)
숙달 지향 목표: OSCE는 로얄 칼리지에 대비하여 PGY4급으로 설계되어 있기 때문에, 저는 R1로서 이 경험을 통해 (이 시험에 합격할 것이라고 기대보다는) 배우는 것이 목표입니다. (A1P; PGY-1) Mastery-oriented goals: Since the OSCE is designed for the PGY4 level in preparation for the Royal College, my goal is to learn from this experience as an R1 and not expecting (sic) to pass the exam. (A1P; PGY-1)
피드백 요청: 내용만 있는 것이 아니라, 그런 관점에서 저의 '시험정신exammanship'과 로얄 칼리지 준비에 대한 피드백을 원합니다. (A1E; PGY-3) Desire for feedback: I would like feedback on my ‘exammanship’ (sic) and Royal College preparation from that point of view, rather than just content alone. (A1E; PGY-3)
표 2에서 볼 수 있듯이, 고성능 전공의와 저성능 전공의 모두 좋은 성과를 거두기를 원했다. 시간에 따라 변하기는 했지만 [성과 지향적 진술]과 관련된 평균 등급은 일반적으로 높았다(F→4.1 p→0.03). 사후 검사(평균 4.2, SE→0.15)와 사후 결과(평균 4.3, SE→0.10) 조사와 비교했을 때 사전 검사(평균 →4.6, SE→0.11)에서 평균 등급이 더 높았다. 높은 성과 대 낮은 성과자의 주효과는 관찰되지 않았으며(F→0.52, p→0.48), 상황(즉 사전 검사, 사후 검사, 사후 결과)은 성과 그룹과 상호작용하지 않았다(F→3.2, p→0.07). As shown in Table 2, both high- and low-performing residents wanted to perform well. Mean ratings related to performance-oriented statements were generally high, although they changed over time (F¼4.1 p¼0.03). Post hoc tests indicated that mean ratings were higher in the pre-examination survey (mean¼4.6, SE¼0.11) when compared to the postexamination (mean¼4.2, SE¼0.15) and postresults (mean¼4.3, SE¼0.10) surveys. No main effect of high versus low performers was observed (F¼0.52, p¼0.48) and occasion (i.e. pre-examination, postexamination, postresults) did not interact with performance group (F¼3.2, p¼0.07).
OSCE를 사용하여 임상 기술을 개선하고자 하는 참가자의 욕구를 나타내는 [숙련 중심의 진술]에 대한 평점은 OSCE 직후 내려갔으나, 참가자가 결과를 받은 후 상승하였다(F§123, p<0.001). 수행능력 수준별 차이는 없었으며(F→0.01p→0.91) 경우에 따라 성능 수준(F→0.64, p→0.53)과 상호 작용하지 않았습니다. Ratings for mastery-oriented statements, indicating participants’ desire to use the OSCE to improve their clinical skills, went down immediately after the OSCE but then increased after participants received their results (F¼123, p<0.001). There was no difference by performance level (F¼0.01 p¼0.91) and, again, occasion did not interact with performance level (F¼0.64, p¼0.53).
[피드백 수신]과 관련된 진술의 등급은 OSCE를 예상하여 피드백을 받는 것의 중요성과 관련된 진술에 대한 평점이 가장 높았습니다. 이러한 등급이 사전 조사와 후속 조사(F→8.7, p→0.001) 사이에 감소하였고, 성능 수준(F→1.3, p→0.26)과 상호작용(F→3.0, p→0.07)의 차이가 없었다.
Ratings for statements related to the importance of receiving feedback were greatest in anticipation of the OSCE as these ratings decreased between the pre-examination survey and subsequent surveys (F¼8.7, p¼0.001), with no difference between performance level (F¼1.3, p¼0.26) and no interaction (F¼3.0, p¼0.07).
OSCE에 대한 인식 Perceptions of the OSCE
시간에 따라 설정한 목표에 대한 참가자의 반응이 동적으로 변화했음에도 불구하고, OSCE의 타당성과 관련된 참가자의 평점은 표 3에 예시된 바와 같이 OSCE의 교육적 가치에 대한 평점(F of0.56, p570.57)과 마찬가지로 안정적이었다(F33.4, p)0.05) 다시 말하지만, 이러한 등급은 성능 수준에 따라 차이가 없었으며, 발생 및 성과 수준(두 주제 모두 F<2.0, p>0.15)은 상호 작용하지 않았다. Despite the dynamic changes in participants’ responses regarding the goals they set over time, their ratings related to the validity of the OSCE were stable (F¼3.4, p¼0.05) as were their ratings of the educational value of the OSCE (F¼0.56, p¼0.57), as illustrated in Table 3. Again, these ratings did not differ by performance level (F<0.50, and p>0.45 for both themes) and occasion and performance level did not interact (F<2.0, p>0.15 for both themes).
OSCE 직후에 설문조사를 했을 때, 거의 모든 참가자(n=34, 97%)가 무언가를 배웠다고 보고했다. 사후 평가 설문 조사에 대한 대부분의 논평은 시험 전략 개선과 관련하여 무엇을 배웠는지에 초점을 맞췄다. When surveyed immediately following the OSCE, almost all participants (n¼34, 97%) reported that they had learned something. Most of the comments on the postexamination survey focused on what was learned in relation to improving test-taking strategies:
반면, 결과가 발표된 후 OSCE로부터 무엇을 배웠는지에 대한 질문을 받았을 때, 참가자들의 서술적 논평은 OSCE가 지식의 상당한 gap를 식별하도록 했다는 사실을 강조하였다. In contrast, when asked about what they had learned from the OSCE following the release of the results, participants’ narrative comments highlighted the fact that the OSCE had allowed them to identify significant gaps in their knowledge:
학습을 안내하는 데 유용한 요소를 물었을 때, 참가자의 평점은 시험자 피드백에 대해 상대적으로 중립적이었다(평균 §3.4, SD00.79). 서술적 논평은 일부 참가자가 심사자 피드백의 타당성의 가치를 떨어뜨리는 이분법dichotomy을 언급되었고, 다른 참가자는 더 많은 피드백을 요구하였다. When asked what factors were useful in guiding their learning, participants’ ratings were relatively neutral regarding examiner feedback (mean¼3.4, SD¼0.79). Narrative comments reflected a dichotomy in which some participants discounted the validity of examiner feedback, while others called for more feedback:
스터디 활동에 소요된 시간 Time spent on study activities
비록 이것이 형성시험이었지만, 약 절반의 참가자(n¼18, 51%)는 OSCE를 위해 특별히 준비하는 데 시간을 보낸다고 보고했다. Although this was a formative examination, about half theparticipants (n¼18, 51%) reported spending time specific-ally preparing for the OSCE.
표 4에 예시된 점수는 연구 활동에 소요된 시간과 관련하여 참가자의 의도와 경험 간에 차이가 존재했음을 시사한다.[시험 전 설문]에서 교육생들에게 연구 활동에 얼마나 많은 시간을 할애할 것으로 예상했는지를 물었을 때, 후보자들에게 다양한 학습 활동에 실제로 얼마나 많은 시간을 소비했는지를 보고하도록 요청했을 때(평균 2.2, SE→0.20) [시험 후 설문]보다 반응이 유의미하게 높았다(평균 1.1, SE→0.22) [시험 결과 후]에서는, 참가자들에게 미래 OSCE 연구에 얼마나 많은 시간을 할애할 계획이냐는 질문을 받았을 때, 그들의 추정치는 다시 사전 심사 수준(평균 § 2.3, SE se 0.25)으로 올라갔다. 이러한 등급은 성능 수준(두 주제 모두 F<0.6, p>0.4)에 따라 다르지 않았으며, 성능 수준과 경우가 상호 작용하지 않았다(두 주제 모두 F<0.6, p>0.5). The scores illustrated in Table 4 suggest that, with regards to time spent on study activities, differences existed between participants’ intentions and their experience. Preexamination, when trainees were asked how much time they anticipated they would spend on study activities, responses were significantly higher (mean¼2.2, SE¼0.20) than they were postexamination, when candidates were asked to report how much time they had actually spent on various study activities (mean¼1.1, SE¼0.22). Postresults, when participants were asked how much time they would plan to devote to studying for future OSCEs, their estimates came up again to the pre-examination level (mean¼2.3, SE¼0.25). These ratings did not differ by performance level (F<0.6, p>0.4 for both themes) nor did performance level and occasion interact (F<0.6, p>0.5 for both themes).
OSCE에서 점수를 잘 받는 방법 How to score well on the OSCE
OSCE에서 점수를 잘 받으려면 더 많은 컨텐츠 지식이 필요하다는 참가자의 인식과 관련된 등급이 시간이 지남에 따라 변경되었습니다(F¼5.0, p00.01). [시험 후 설문]은 표 5에 예시된 바와 같이 [시험 전 설문](평균 3 3.6, SE 0 0.09)와 [결과 후 설문](평균 3 3.9, SE 0 0.10) 사이에 이러한 차이가 발생한 것으로 나타났다. 성능 수준의 주효과는 없었습니다(F→0.099, p→0.75). 그러나 성능과 상황 사이에는 교호작용이 있었습니다 (F→6.5, p→0.005). 사후 테스트 결과 사전 심사 후 콘텐츠 지식의 중요성에 대한 낮은 성과자의 인상이 높아진 반면, 높은 성과자의 평점은 OSCE 이전 낮은 성과자의 평점보다 높아 시간이 지날수록 높은 것으로 나타났다. 시간에 따른 시험 응시 전략의 중요성에 대한 참가자의 평가에는 차이가 없었다(F→0.17, p→0.81). Ratings related to participants’ perceptions that more content knowledge is required to score well on the OSCE changed over time (F¼5.0, p¼0.01). Post hoc tests indicated that this difference arose between the pre-examination (mean¼3.6, SE¼0.09) and postresults (mean¼3.9, SE¼0.10) surveys, as illustrated in Table 5. There was no main effect of performance level (F¼0.099, p¼0.75). However, there was an interaction between performance and occasion (F¼6.5, p¼0.005). Post hoc tests indicated that low performers’ impressions of the importance of content knowledge increased after the pre-examination survey, whereas high performers’ ratings were higher than low performers’ ratings pre-OSCE and remained high over time. There was no difference in participants’ ratings of the importance of test-taking strategies over time (F¼0.17, p¼0.81).
OSCE를 어떻게 준비했는지를 물었을 때, 가장 일반적인 연구 전략에는 콘텐츠 지식 향상(n=18), 정기 임상 순환 시 환자 검사(n=13), 임상 검사 관련 비디오 시청(n=10)이 포함되었습니다. 테스트맨십과 관련된 전략은 덜 자주 표현되었다. 즉, 이전 OSCE 체크리스트(n→5)와 OSCE 준비 과정(n→1)의 검토였다. When asked how they had prepared for the OSCE, the most common study strategies involved improving content knowledge: reading around areas of content (n¼18), examining patients during regular clinical rotations (n¼13) and watching videos related to clinical examinations (n¼10). Strategies related to testmanship were less commonly expressed: review of old OSCE checklists (n¼5) and OSCE prep courses (n¼1).
고찰 Discussion
시험전 효과 Pretest effects
비록 형성적 시험이었지만, OSCE는 시험 전 단계에서 공부 습관에 영향을 주었다. 참가자들은 OSCE가 [콘텐츠 지식 향상]과 [시험 점수 극대화]를 목적으로 하는 학습 행동에 참여하도록 이끌었다고 보고했습니다. 이는 필기 테스트에서 보이는 것과 유사하다(Cilliers et al. 2012). 흥미롭게도 학습자가 종종 성과 지향적 또는 숙달 지향적(Chen et al. 2016)으로 분류되지만, 참가자들은 OSCE를 극복해야 할 장애물이자 학습과 피드백을 받을 수 있는 기회로 보고 있음을 시사했다. Although it was a formative examination, the OSCE influenced study habits in the pre-assessment phase. Participants reported that the OSCE led them to engage in study behaviors aimed at both improving content knowledge and maximizing their test scores, which parallels what is seen in written tests (Cilliers et al. 2012). Interestingly, although learners are often categorized as being either performance oriented or mastery oriented (Chen et al. 2016), participants’ responses suggested that they viewed the OSCE as both a hurdle to overcome and an opportunity to learn and receive feedback, as reflected by their goals and study strategies.
의료계 전공의들이 성공하기 위해 학문과 높은 점수를 모두 추구하는 데 많은 시간을 보냈다는 점에서 이는 놀라운 일이 아닐 수 있다. 따라서 학습자의 마음속에서 [수행을 잘 하는 것]과 [자료를 숙달하는 것]은 [맥락에 따라서 중요도가 조금씩 달라지는 보완적 목표]로 개념화될 수 있습니다. 학습자가 OSCE를 [학습에 대한 평가]와 [학습을 위한 평가] 둘 다로 보는 것 역시, 이러한 구조 사이(AoL과 AfL)에 상당한 기능적 중복이 있으며, 평가 순간을 반드시 하나의 범주 또는 다른 범주로 분류하는 것으로 생각하는 것은 인위적일 수 있음을 시사한다. 확실히, 모든 평가가 어느 정도 극복해야 할 장애물로 간주될 수 있기 때문에 [학습자는 교육자의 방식대로 총괄적 평가와 형성적 평가를 구분하지 않는다]고 제안하는 문헌이 있다(Bok et al. 2013; Heeneman et al. 2015). This may not be surprising, given that medical residents have spent much of their academic career pursuing both knowledge and high marks in order to be successful. Therefore, performing well and mastering the material may more accurately be conceptualized as complementary goals that are more or less foregrounded in the minds of learners, depending on context. That learners appeared to view such a low stakes OSCE as both an assessment of their learning and an assessment for their learning suggests that there is considerable functional overlap between these constructs and that it may be artificial to think of assessment moments as necessarily falling into one category or the other. Certainly, there is literature to suggest that learners do not differentiate between formative and summative assessment the way educators do, as all assessment may be viewed as a hurdle to be overcome to some extent (Bok et al. 2013; Heeneman et al. 2015).
순시험 효과 Pure test effects
시험 행위 자체가 필기 시험(시험 강화 학습)을 통한 학습으로 이어지는 것으로 나타났다. 필기 시험 사용에 대한 여러 연구에서는 혼자 공부하는 것에 비해 시험이 더 많은 학습과 더 나은 학습 이전으로 이어진다는 것을 발견했지만, 이것이 수행능력 기반performance-based 시험에서도 해당되는지transfer 여부는 명확하지 않다(Butler 2010; Larsen et al. 2013). [수행능력 기반 테스트를 보는 것 자체]로도 결과 유사한 효과가 발생한다는 징후가 있었지만, 그러한 현상은 잘 확립되지 않았다(Kromann et al. Kromann et al. 2009). 현재 연구에서 거의 모든 참가자는 이 Formative OSCE에 참여함으로써 무언가를 배웠다고 보고하였다. The act of testing itself has been shown to lead to learning with written tests (test-enhanced learning). Several studies on the use of written tests have found that testing leads to more learning and better transfer of learning when compared to studying alone, but it is not clear if this transfers to performance-based tests (Butler 2010; Larsen et al. 2013). While there have been indications that similar effects occur as a result of sitting performance-based tests, that phenomenon is less well established (Kromann et al. 2009). In the current study, almost all participants reported that they had learned something by participating in this formative OSCE.
평가 결과가 모두 공개되고 나면, [임박한 시험으로 인한 스트레스]가 해소되었기 때문인지, 수행의 중요성에 대한 참가자들의 상대적 인식이 시간이 지날수록 줄어든 것으로 보인다. 반면 [내용 숙달]의 중요성에 대한 평가는 시험 직후 낮아졌다가 결과 발표 직후 다시 올라갔다. Based on their ratings, it appears that participants’ relative perceptions of the importance of performing well decreased over time, perhaps because the stress associated with the impending examination had been removed. In contrast, ratings of the importance of mastering the content decreased immediately following the examination and then bounced back up following the release of the results.
주관식 응답에서는 [미래의 OSCE에서 성공할 수 있도록 하는 시험 전략testmanship에 대한 통찰력을 얻는 데 도움이 되었다]는 응답이 많았다. 이와는 대조적으로, 결과 발표 후 완료된 후속 조사에서 무엇을 배웠는지에 대한 질문을 받았을 때, 참가자들의 코멘트는 [내용 지식]에 초점을 맞추는 경향이 있었다. 이것은 평가의 즉각적인 위협을 제거함으로써, 참가자들이 [단순히 좋은 성과]를 내는 것을 목표로 하기보다는, [학습에 더 집중]할 수 있게 되었다는 사실을 반영할 수 있다. 또한 평가가 [성과 중심의 근시안적 태도]를 유도하는 경향은 [일시적]일 수 있음을 시사합니다. many of the narrative comments that the reflected the perception OSCE helped them to gain insight into testmanship strategies to allow them to be successful on future OSCEs. In contrast, when asked about what they had learned in the follow-up survey completed after the release of the results, participants’ comments tended to focus on content knowledge. This may reflect the fact that removal of the immediate threat of being assessed allowed participants to better focus on their learning rather than simply aiming to perform well, while also suggesting that any tendencies assessments have toward inducing performance-focused shortsightedness may be transient.
시험 후 효과 Post-test effects
일부는 제공된 피드백의 가치를 평가절하하였고, 다른 일부는 더 많은 피드백을 추구하였다. 이는 Formatie OSCE에서시험자 피드백이 어느정도나 학습의 중요한 modulator가 되는지에 대해 의문을 제기한다(Eva et al. 2010). Some discounted the value of the feedback provided, while others sought more feedback. This raises questions about the extent to which examiner feedback is an important modulator of learning in a formative OSCE (Eva et al. 2010).
고성능 및 저성능 High versus low performers
놀랍게도 OSCE에 대한 목표, OSCE의 가치에 대한 인식, 연구 활동에 소요되는 시간 등에서 [낮은 성과자와 높은 성과자의 차이는 없었다]. 우리는 저성취자들이 학습에 더 성과 지향적인 접근법을 채택하거나 이러한 평가 형태에 대해 더 부정적인 견해를 가질 수 있다는 가설을 세웠으나, 이에 대한 어떠한 증거도 찾지 못했으며, assessment practice의 주된 영향이 적어도 형성적 맥락에서는 전반적 숙련도에 좌우되지 않을 수 있음을 시사했다. Surprisingly, there were no differences between low and high performers in terms of their goals for the OSCE, their perception of the value of the OSCE, or time spent on study activities. We had hypothesized that low performers might employ a more performance-oriented approach to learning or that they might have more negative views with regards to this form of assessment, but we did not find any evidence of this, suggesting that the leading influences of assessment practices may not be dependent on the overall proficiency of the examinee, at least in a formative context.
다만 점수를 잘 받는 것에 대한 [콘텐츠 관련 지식]의 중요성에 대해서, 고득점자의 인식은 시험 전-후-결과후에 걸쳐 안정적인 반면, 저득점자의 인식은 OSCE 시험 이후 높아진 점이 눈에 띈다. 이는 저성취자들이 처음에는 콘텐츠 관련 지식의 가치를 충분히 인식하지 못했지만, OSCE 경험은 그들에게 그들의 약점에 대한 몇 가지 통찰력을 제공했을 수 있음을 시사할 수 있다. However, it is notable that high performers’ recognition of the importance of content-related knowledge in order to score well was stable throughout the examination period, whereas low performers’ ratings increased after the OSCE. This may suggest that, although low performers did not fully appreciate the value of content-related knowledge initially, the OSCE experience may have provided them with some insights into their weaknesses.
한계 Limitations
결론 Conclusions
이 연구는 OSCE 관련 학습이 언제 어떻게 발생하는지 설명하는 예비 단계를 나타냅니다. 본 연구에서는 전공의들이 OSCE를 이수할 수 있는 기회를 학습경험(AFL)으로 평가한 것으로 보이지만, 이는 형성적이고 저부담 시험임에도 불구하고 성과를 잘 내고자 하는 욕구(AOL)에 의해 다소 억제되었다. 필기 시험(Cilliers et al. 2010)에서 볼 수 있듯이, OSCE는 학습 전(즉, 학습 습관의 변경) 순수(즉, 학습으로 직접 연결) 단계와 사후(즉, 학습 목표의 개발로 연결) 단계에서 양성과 음성으로 학습에 모두 영향을 미치는 것으로 보인다.
This study represents a preliminary step in explaining when and how OSCE-related learning occurs. It would seem that the residents in this study valued the opportunity to complete an OSCE as a learning experience (AFL), but this was tempered somewhat by a desire to perform well (AOL) despite the fact that it was a formative, low stakes, examination. As has been shown with written tests (Cilliers et al. 2010), OSCEs seem to influence learning in both positive and negative ways in the pre(i.e. by changing study habits) pure(i.e. by directly leading to learning) and post-test (i.e. by leading to the development of learning goals) phases.
형성 평가: 미래의 학습을 안내하고, 확신을 주며, 성찰을 촉진하고, 미래의 가치를 형성하는 평가의 토론 형식입니다.
Formative assessment: A discussive form of assessment that guides future learning, provides reassurance, promotes reflection, and shapes future values.
Reference: Epstein R. (2007) Assessment in Medical Education. New England Journal of Medicine; 356:387–396.
Med Teach. 2018 Jan;40(1):45-52.
doi: 10.1080/0142159X.2017.1388502.Epub 2017 Oct 16.
How do formative objective structured clinical examinations drive learning? Analysis of residents' perceptions
1a Department of Medicine , University of Ottawa , Ottawa , Canada.
2b Department of Medicine , University of British Columbia and Senior Scientist at the Centre for Health Education Scholarship (CHES) , Vancouver , Canada.
Introduction:Although several studies have explored the relationship between learning and written tests, little is understood about how performance-based examinations influence learning. The purpose of this study was to explore how a formative objective structured clinical examination (OSCE) drives learning.Results:Participants' goals for the OSCE related to performance, mastery and feedback. Almost all participants reported that they had learned something from the OSCE (94%) and most participants generated learning goals after the OSCE (71%). High performers appeared to recognize the importance of content-related knowledge for scoring well before and after the OSCE, whereas low performers may have under-estimated its importance until after the examination.
Discussion:Participants viewed a formative OSCE as both a hurdle to overcome (assessment of learning) and an opportunity to learn (assessment for learning). Understanding how OSCEs influence study behavior can help guide the development of assessments that promote learning.
Methods:We administered surveys to residents (n = 35) at three time points to determine if and how an OSCE influenced their learning: before and immediately following the OSCE, and after the distribution of their results. Differences in quantitative responses between high- and low-performing residents and across time were compared using repeated-measures ANOVA. Thematic analysis was used to analyze narrative comments.
원하는 것을 측정하기 위한 OSCE 개발을 위한 12가지 팁(Med Teach, 2017) Twelve tips for developing an OSCE that measures what you want Vijay John Daniels & Debra Pugh
도입 Introduction
OSCE(Objective Structured Clinical Examination)는 1975년(Harden et al. 1975)에 처음 도입되었으며, 그 이후 지역 기관과 국가 고위험 검사 모두에서 임상 능력 평가에 OSCE가 광범위하게 사용되고 있다(Patrício et al. 2013). The Objective Structured Clinical Examination (OSCE) was first introduced in 1975 (Harden et al. 1975) and, since that time, OSCEs have been used extensively (Patrıcio et al. 2013) for assessing clinical skills, both at local institutions and on national high-stakes examinations.
타당성에 대한 우리의 이해는 여러 개별 타당성 유형(예: 기준, 내용 유효성 등)에서 타당성에 대한 주장을 뒷받침하기 위해 다양한 근거 출처를 사용하는 구성 타당성의 통일적 개념으로 발전해 왔다.
첫째는 메식(Messick 1989)의 5가지 출처의 프레임워크를 통해
그리고 더 최근에는 케인(Kane)의 주장argument-기반 검증 접근법(Kane 2013)이다
Our understanding of validity has evolved from several separate types of validity (e.g. criterion, content validity etc.) to a unitary concept of construct validity in which various sources of evidence are used to support an argument for validity,
first through Messick’s framework of the five sources (Messick 1989) and, more recently,
through Kane’s argument-based approach to validation (Kane 2013).
쿡 외 연구진(2015)이 요약한 바와 같이, 케인의 프레임워크는 관찰에서 평가에 기초한 의사결정에 이르기까지 유효한 해석을 보장하기 위한 4가지 핵심 단계에 초점을 맞춘다.
첫 번째 단계는 관찰된 성과를 점수(점수)로 변환하여 점수가 최대한 성과를 반영하도록 하는 것입니다.
두 번째 단계는 특정 검사에서 테스트 성능 환경(즉, 가능한 모든 동등한 테스트 – 일반화)에 이르는 점수를 일반화하는 것입니다.
세 번째는 테스트 환경에서의 성능을 실제 삶(Extrapolation)으로 외삽하는 것입니다.
마지막으로 네 번째 단계는 의사결정을 위한 정보의 해석입니다(함의implication).
As summarized by Cook et al (2015), Kane’s framework involves focusing on four key steps to ensure valid interpretation from observation to making a decision based on the assessment.
The first step is translation of an observed performance into a score (Scoring) ensuring the score reflects the performance as best as possible.
The second step is generalizing the score from the specific examination to the test performance environment (i.e. all possible equivalent tests – Generalization).
Third is extrapolating performance in the test environment to real life (Extrapolation).
And finally the fourth step is the interpretation of this information for making a decision (Implications).
타당성에 대한 두 가지 주요 위협은 다음과 같다.
구인-대표성 부족(샘플링이 너무 적거나 부적절한 표본 추출)
구인-무관 분산(점수 변동을 초래하는 관심 구성과 관련이 없는 것)
The two main threats to validity are
construct underrepresentation (too little sampling or inappropriate sampling) and
construct-irrelevant variance (anything unrelated to the construct of interest that results in score variability).
본 논문의 목적은 케인의 타당성 프레임워크의 렌즈를 통해 바라본 바와 같이 원하는 것을 측정하는 OSCE를 개발하기 위한 12가지 팁을 제공하는 것입니다. 12가지 팁은 OSCE를 개발할 때 사용할 수 있는 순서로 제시됩니다. 각 팁의 핵심 사항은 표 1에 요약되어 있습니다. the purpose of this paper is to provide 12 tips for developing an OSCE that measures what you want, as viewed through the lens of Kane’s validity framework. The 12 tips are presented in the order they would be operationalized when developing an OSCE. Key points from each tip are summarized in Table 1,
팁 1 OSCE 결과의 용도를 결정합니다. Tip 1 Decide on the intended use of the results from your OSCE
OSCE의 개발은 끝에서 시작해야 합니다. 결과를 가지고 어떤 결정을 내리게 됩니까? OSCE는 형성적입니까 아니면 총괄적입니까? 이 질문에 대한 답은 케인의 모델의 Implication 단계에 대한 증거를 제공합니다. 그리고 이 단계가 마지막이지만, 이러한 질문에 대한 답은 나머지 OSCE 개발의 틀을 만들 것이며, 따라서 이러한 질문들이 왜 먼저 이루어져야 하는지에 대한 것입니다. 예를 들어, 저부담의 시험은 학습자에게 피드백을 제공하는 데 사용되며, 이는 고부담의 임상실습후 및 국가 면허 시험과 달리, 개별적 코칭이나 재교육을 위하여 사용할 수 있다. 이러한 이유로 저부담 시험은 고부담 검사와 같은 수준의 점수 신뢰도가 필요하지 않으므로(Downing 2004) 더 짧은 검사가 가능하다. Development of an OSCE should begin with the end: What decisions will I make with the results?; Is the OSCE formative or summative? The answers to these questions provide evidence for the Implications stage of Kane’s model. And though this stage is last, the answers to these questions will frame the rest of OSCE development, and hence why they must be asked first. For example, a lower stakes exam would be used to provide feedback to learners, and could lead to individual coaching or remediation, compared to a higher stakes end-of-clerkship or national certification examination, that can result in repeating a clerkship or year of residency. For these reasons, a lower stakes exam does not require the same level of score reliability as a high stakes examination (Downing 2004), and so a shorter examination is possible.
또 다른 참신한 디자인은 모든 응시자가 상대적으로 짧은 심사 참여가 요구되는 순차적 OSCE이다. 그런 다음, 사전에 정의된 표준이 미치지 못하는 사람만 전체 OSCE에 참여하여 기술을 평가해야 합니다. Another novel design is the sequential OSCE in which all candidates would be required to participate in a relatively short screening examination. Then, only those who perform below a predefined standard would subsequently be required to participate in a full-length OSCE to assess their skills.
팁 2 OSE가 평가해야 할 항목 결정 Tip 2 Decide what your OSCE should assess
OSCE는 전체 컨텐츠 도메인을 평가하는 데 사용할 수 없습니다. 오히려 학습자가 습득해야 할 지식과 기술의 샘플을 평가하는 데 사용됩니다. OSCE가 교육 목표를 반영하도록 하려면 청사진을 작성하는 것이 중요합니다. 청사진blueprint 작성은 콘텐츠 전문가가 관심 구인contruct이 적절하게 대표되도록 하는 프로세스를 말합니다(Coderre 등). 2009). OSCEs cannot be used to assess an entire content domain. Rather, they are used to assess a sample of the knowledge and skills that learners are expected to have mastered. To ensure that an OSCE reflects educational objectives, blueprinting is key. Blueprinting refers to the process by which content experts ensure that constructs of interest are adequately represented (Coderre et al. 2009).
따라서 한 OSCE 스테이션에서 보여준 퍼포먼스는 다른 상황에서의 병력청취 및 신체 검사 수행능력으로 일반화할 수 있습니다(Generalization). 각 스테이션의 길이는 보통 5분에서 10분 사이이다(Khan et al. 2013). 그러나 어떤 과제를 평가하느냐에 따라 더 길어질 수 있다. This helps to ensure that one can generalize performance on these stations to the learner’s ability to perform other history and physical examinations in an OSCE (Generalization). The length of each station is usually between five and ten minutes (Khan et al. 2013) but could be longer depending on what task is being assessed.
시험 결과의 의도된 용도(즉, 낮은 위험 대 높은 위험)를 고려하여, 관심 구성을 적절하게 표본 추출할 수 있는 [충분한 수의 스테이션]이 있어야 한다. 국지적으로 개발된 저부담 시험은 8~10개의 스테이션도 괜찮은 반면, 고부담 OSCE는 허용 가능한 신뢰성을 달성하기 위해 14~18개의 스테이션이 필요할 수 있다(Khan et al. 2013). There must be enough stations to adequately sample the construct of interest, taking into account the intended use of the exam results (i.e. low versus high stakes). A lower stakes locally developed exam may have only eight to ten stations, whereas a high stakes OSCE may require 14-18 stations to achieve acceptable reliability (Khan et al. 2013).
모든 CanMED 역할(Frank et al. 2015; Jefferies et al. 2007)을 평가하기 위해 OSCE가 사용되었지만, 본질적(즉, 비의료 전문가) 역할(예: 전문성, 협업 등)을 실제로 평가하는데 어려움이 있으며, 이는 테스트 성과가 실제 성과를 얼마나 잘 추정하는가에 영향을 미칩니다. Although OSCEs have been used to assess all of the CanMEDS roles (Frank et al. 2015; Jefferies et al. 2007), there are challenges in assessing the intrinsic (i.e. nonMedical Expert) roles authentically (e.g. professionalism, collaboration, etc.), which has an impact on how well the test performance extrapolates to real-world performance.
평가에 대한 프로그램적 접근방식(Schwirth and van der Vleuten 2011)은 OSCE를 전체 평가 프레임워크의 한 부분으로 볼 것이다. 그러면 OSCE 개발을 안내할 수 있는 두 가지 질문이 제시됩니다.
(1) 전체 프로그램에서 중 어디에서 해당 스킬을 평가합니까? (혹은 평가할 수 있습니까?);
(2) OSCE에서 평가하기로 선택한 경우, 이를 authentic하게 평가할 수 있습니까?
A programmatic approach to assessment (Schuwirth and van der Vleuten 2011) would view an OSCE as one part of an overall assessment framework. This leads to two questions that can guide OSCE development:
(1) Where else are (or could) skills be assessed in my overall program?; and
(2) If I choose to assess this in an OSCE, can I do it authentically?
팁 3 사례 개발 Tip 3 Develop the cases
OSCE에서 평가할 항목을 결정한 후에는 사례 개발을 신중하게 고려해야 합니다. 사례는 관심 임상 문제를 확실히 나타내기 위해 개발되어야 한다(Extrapolation). 후보자에 대한 지침에는 현재 문제와 관련된 정보, 과제 및 만남을 완료하기 위한 기간(Pugh 및 Smee 2013)이 포함되어야 한다. Once you have decided what will be assessed by your OSCE, careful consideration should be given to case development. Cases should be developed to ensure that they authentically represent the clinical problem of interest (Extrapolation). Instructions to candidates should include information related to the presenting problem, a task, and a time-frame for completing the encounter (Pugh and Smee 2013).
사례는 OSCE 사례 개발 모범 사례(Pugh 및 Smee 2013)를 반영하기 위해 콘텐츠 전문가와 교육 전문가 모두의 검토를 거쳐야 합니다. 이러한 전문가는 검토 시 다음 질문을 고려해야 합니다.
(1) 과제가 명확합니까? (Scoring),
(2) 할당된 시간 내에 과제를 완료할 충분한 시간이 있습니까? (Extrapolation)
(3) 사례가 임상 문제를 실제authentically로 나타냅니까?; (Extrapolation)
(4) 난이도 수준이 학습자에게 적합한가? (Extrapolation)
이 단계에서 사례를 시범적으로 테스트하면 잠재적 문제를 식별하고 완화할 수 있습니다.
Cases should undergo review by both content experts as well as educational experts to ensure that the cases reflect best practices of OSCE case development (Pugh and Smee 2013). These experts should consider the following questions in their review:
(1) Is the task clear? (Kane’s Scoring stage);
(2) Is there enough time to complete the task in the allotted time?;
(3) Does the case authentically represent a clinical problem?; and
(4) Is the level of difficulty appropriate for the learners? (the last three relate to Kane’s Extrapolation stage).
Pilot-testing of cases at this stage can help identify and mitigate potential issues.
팁 4 OSCE가 후보자를 평가하는 방법 결정(점수 루빅) Tip 4 Decide how your OSCE should assess candidates (the scoring rubric)
스코어링 루브릭의 개발은 OSCE 타당성에 대한 연구의 많은 부분이 집중된 분야입니다. 루브릭이 개발되거나 선택되는 방법에 대한 설명은 케인의 프레임워크에서 스코어링Scoring에 대한 중요한 타당성 증거를 제공할 수 있습니다. The development of scoring rubrics is an area where much of the research on OSCE validity has focused. A description for how rubrics were developed or selected can provide important validity evidence for Scoring in Kane’s framework.
체크리스트는 관찰 가능한 행동(예: 흡연 이력에 대한 질문, JVP 식별 등)을 평가하는 데 사용됩니다. 체크리스트는 일반적으로 이분법(예: 했거나 하지 않았거나)이지만, 다분법(예: 잘 했거나 시도했지만 잘 안 했거나, 잘 안 했거나)일 수도 있다(Pugh, Halman, et al. 2016). 체크리스트는 매우 어린 의대생과 같은 목표가 아닌 한, 무작위 접근 방식rote approach을 사용하는 학습자에게 보상을 주지 않도록 주의 깊게 구성해야 합니다. 대부분의 학습자는 주제를 이해하는 학습자와 그렇지 않은 학습자를 구별하는 데 도움이 되는 항목(즉, 주요 특성 접근 방식)을 포함하려고 시도해야 합니다(Daniels et al. 2014). Checklists are used to assess observable behaviors (e.g. asked about smoking history, identified the JVP, etc.). Checklists are generally dichotomous (e.g. did or did not do), but they can also be polytomous (e.g. done well, attempted but not done well, not done) (Pugh, Halman, et al. 2016). Checklists should be carefully constructed to avoid rewarding learners who use a rote approach unless that is the goal, such as for very junior medical students. For most learners, there should be an attempt to include items that help to discriminate between learners who understand the subject matter and those who do not (i.e. a key features approach) (Daniels et al. 2014).
병력이나 신체검사에서 임상적으로 구별되는 주요 특징에 초점을 맞추지 않고 [비특정 철저성nonspecific thoroughness]을 보상하는 긴 체크리스트를 사용하는 경우, 이는 사려 깊은 진단 전문가로서 의사들이 원하는 것에 대해 잘 추론하지 못할 것이다. 직관적으로 인식된 중요도에 기초하여 체크리스트 항목에 차등 가중치를 적용하는 것이 타당하지만, 가중치 항목은 전반적인 신뢰성이나 통과/실패 결정에 큰 영향을 미치지 않는 것으로 보인다(Sandilands et al. 2014).
If one uses long checklists that reward nonspecific thoroughness as opposed to focusing on key clinically discriminating features in a history or physical examination, this will not extrapolate well to what we want in physicians as thoughtful diagnosticians. Although, intuitively, it makes sense to apply differential weights to checklist items based on their perceived importance, weighting items does not appear to affect overall reliability or pass/fail decisions significantly (Sandilands et al. 2014),
팁 5 평가자 교육 Tip 5 Train your raters
Scoring에 대한 (타당도를) 추가적으로 지지하는 근거로는, 채점자가 의도한 대로 채점 루브릭을 해석했는지 확인하기 위해 교육받았다는 근거가 있다. 평가자에게는 OSCE의 목적, 학습자의 수준 및 학습자와 어떻게 상호작용해야 하는지에 대한 정보가 포함된 오리엔테이션을 제공해야 합니다(예: 학습자에게 프롬프트 또는 피드백을 제공할 수 있습니까?). 또한 체크리스트 항목에 대한 성공의 조작적 정의와 등급 척도에 대한 각 행동 앵커의 의미를 포함하여 채점 루브릭의 예를 제공해야 한다. Further support for Scoring includes evidence demonstrating raters were trained to ensure they interpreted scoring rubrics as intended. Raters should be provided with an orientation that includes information about the purpose of the OSCE, the level of the learners, and how they should interact with learners (e.g. can they provide prompts or feedback to learners?). They should also be provided with examples of the scoring rubrics, including the operational definition of success on any checklist items and the meaning of each behavioral anchor for rating scales.
[기준 체계 훈련frame-of-reference]과 같은 보다 상세한 형태의 오리엔테이션은 때때로 평가자에게 제공되며, 여기에는
수행능력 차원performance dimension를 정의하여 원하는 성과에 대한 공유된 정신모델을 만들고
각 차원에 대한 행동의 예를 제공한 다음
평가자가 표본 퍼포먼스를 가지고 연습한 뒤 피드백을 받을 수 있도록 한다.
A more detailed form of orientation, such as frame-of-reference training, is sometimes provided to raters, which involves
creating a shared mental model of the desired performance by defining performance dimensions,
providing examples of behaviors for each dimension, and then
allowing raters to practice and receive feedback on sample performances (Roch et al. 2012).
이 방법은 시간이 많이 소요될 수 있으며 일반적으로 고부담 시험에서만 주로 사용되지만, 채점에 대한 타당성Scoring 주장을 강화할 수 있습니다. This method can be time-consuming and is usually reserved for high-stakes examinations, but can strengthen the validity argument for scoring.
원하지 않는 등급 점수 변동undesired variation은 [CIV construct irrelevant variance]을 초래할 수 있으므로 점수Scoring 추론의 타당성을 위협할 수 있다는 점을 명심해야 한다. 훈련에도 불구하고, 평가자들은 실수를 할 수 있다. 전통적으로 우리는 종종 일부 평가자를 다른 평가자(즉, 매와 비둘기)에 비해 지나치게 가혹하거나 관대한 것으로 생각하지만, 보다 최근의 연구는 평가자 변동성variability이 이보다 더 복잡하다는 것을 보여준다(Govaerts et al. 2013; Gingerich et al. 2014). It is important to remember that any undesired variation in rater scoring may introduce construct irrelevant variance and thus threaten the validity of scoring inferences made. Despite training, raters may make mistakes. Although traditionally we often think of some raters as excessively harsh or lenient compared to other raters (i.e. hawks and doves), more recent research demonstrates that rater variability is more complex than this (Govaerts et al. 2013; Gingerich et al. 2014).
팁 6 표준화된 환자를 위한 스크립트 개발 및 교육 Tip 6 Develop scripts for and train standardized patients
대부분의 OSCE는 학습자가 임상 기술을 입증할 수 있도록 표준화된 환자(SP)를 사용합니다. [SP 교육에 대한 엄격하고 표준화된 접근 방식]은 SP 묘사portrayals 간의 차이를 줄이기 때문에 스코어링Scoring의 무결성integrity에 대한 추가적인 타당성 증거를 제공합니다. Most OSCEs employ the use of standardized patients (SPs) to allow learners to demonstrate their clinical skills. A rigorous and standardized approach to SP training provides further validity evidence for the integrity of Scoring as it reduces the variance between SP portrayals.
SP에는 묘사portrayal를 안내하는 스크립트가 제공되어야 하며, 실제 환자에 기반한 스크립트가 진실성authenticity를 더해줄 수 있다. 병력청취의 경우, 스크립트에는 다음에 대한 세부 정보가 풍부하게 있어야 한다.
제시될 임상표현(타임라인과 및 관련 양성 음성 증상 포함)
SP의 과거 의료 기록(의약품 사용 포함)
필요한 경우 사회력(예: 흡연 및 알코올 사용)을 참조하십시오.
SPs should be provided with a script to guide their portrayal, and basing the script on a real patient adds authenticity. For history stations, the script is relatively rich in details about:
the presenting problem (including a timeline and pertinent positives and negatives);
the SP’s past medical history (including medication use); and
social history (e.g. smoking and alcohol use), as required.
최소한 모든 체크리스트 항목에 대해 스크립트로 작성된 답변이 있어야 하지만 학습자가 예상한 질문에 대한 답변이 제공되어야 합니다. 예상치 못한 질문에 대해 SP는 상황에 따라 "아니오" 또는 "잘 모르겠습니다"라고 대답하도록 교육할 수 있습니다. 반대로 신체검사 스테이션의 경우 세부사항이 적게 요구될 수 있지만, SP는 자극에 반응하도록 훈련될 수 있다(예: 복부 검사 시 경계, 관절의 움직임 범위 제한 등).
At a minimum, there should be a scripted answer for all checklist items, but there should be answers provided for any anticipated questions that learners might ask. For unanticipated questions, SPs can be trained to answer either “no” or “I’m not sure” depending on the context. In contrast, for physical examination stations, fewer details may be required, but SPs can be trained to react to stimuli (e.g. guarding during an abdominal examination, limited range of motion of a joint, etc.).
스크립트에 포함할 다른 세부 사항은 다음과 관련될 수 있습니다.
인구 통계(예: 나이와 성별),
방에서의 SP 시작 위치(예: 앉음 vs 누움),
외모(예: 불안함 vs 침착함),
행동(예: 협동함 vs 회피)
Other details to be included in the script may relate to
demographics (e.g. age and gender),
SP starting position in room (e.g. sitting vs lying down),
appearance (e.g. anxious vs calm), and
behavior (e.g. cooperative vs evasive).
평가자가 학습자의 문제 이해도를 더 잘 평가할 수 있도록 SP가 질문(예: "나에게 무슨 일이 일어나고 있는 것 같습니까?")하는 문항이나 프롬프트도 스크립트에 포함될 수 있습니다. The script may also include statements or prompts for the SP to ask (e.g. “What do you think is going on with me?”)to allow raters to better assess learners’ understanding of the problem.
팁 7 데이터 수집 프로세스의 무결성 보장 Tip 7 Ensure integrity of data collection processes
데이터 수집에는 데이터 무결성을 보장하기 위한 일종의 품질 보장이 있어야 합니다. 이것은 시험 점수가 관측치를 반영한다는 추가 증거를 제공합니다(Kane의 채점Scoring 단계). Data collection should have some sort of quality assurance to ensure data integrity. This provides further evidence that test scores reflect the observations (Kane’s Scoring stage).
OSCE를 진행하는 동안 직원은 평가자가 평가지를 올바르게 작성하는지(예: 항목을 건너뛰지 않는지) 주기적으로 확인하고, 질문이 있을 경우 이를 해결할 수 있습니다. OSCE가 끝난 후 컴퓨터에 점수를 수동으로 입력하는 경우, 정확한 데이터 입력을 위해 채점표 중 일부를 무작위로 확인해야 합니다. 스캔 가능한 점수표를 만들 수 있는 합리적인 가격의 소프트웨어 패키지가 있어 무작위 검증의 필요성을 줄이기는 하지만 없앨 수는 없습니다. During an OSCE, staff can periodically verify that raters are completing the rating instruments correctly (i.e. not skipping any items) and address any questions they might have. After the OSCE, if scores are manually entered into a computer, a random set of score sheets should be checked to ensure accurate data entry. There are reasonably-priced software packages that allow creating scannable score sheets which reduces, but does not eliminate, the need for random verification.
일부 센터에서는 코멘트 작성 시간을 단축하고, 누락된 등급 척도 수를 줄여줄 수 있는 추가적인 장점이 있는 태블릿 및 eOSCE 시스템에 액세스할 수 있으며, 수량 피드백이 의 품질과 품질을 높일 수 있습니다(Daniels et al. 2016; Denison et al. 2016). 그러나 인터넷 기반 시스템에 대한 안정적인 인터넷 액세스와 태블릿 또는 eOSCE 시스템에 장애가 발생한 경우를 위한 백업 계획이 반드시 필요합니다. Some centers may have access to tablets and eOSCE systems that have an added advantage of reducing time to transcribe comments and number of missed rating scales, and can quantity feedback increase the and quality of (Daniels et al. 2016; Denison et al. 2016). However, having reliable internet access for internet-based systems, and back-up a plans for when tablet or the eOSCE system fails is imperative.
결측 데이터에 대해 결정해야 합니다(예: 비어 있는 등급 척도). Decisions must be made about missing data (e.g. a rating scale that is left blank).
마지막으로, 다른 평가와 마찬가지로, 테스트 보안 문제를 고려해야 합니다. 학습자의 능력을 정확하게 측정하려면 모든 학생이 평가에 대한 정보에 동등하게 액세스할 수 있어야 합니다. 시험 자료에 대한 무단 접근(예: 학생이 만든 유령 은행을 통해)은 OSCE의 점수 해석의 타당성을 위협하는 부당한 이점을 학습자에게 제공합니다.
Finally, as with any assessment, one must consider the issue of test security. To ensure an accurate measurement of learners’ abilities, it is important that all students have equal access to information about the assessment. Unauthorized access to test materials (e.g. through student created ghost banks) provides learners with an unfair advantage that threatens the validity of the interpretation of scores from the OSCE.
팁 8 표준 설정 접근법 선택 Tip 8 Choose a standard setting approach
표준 설정 방법(즉, cut score)의 선택도 평가의 Implication에 영향을 미치므로 점수 해석의 타당성을 뒷받침하기 위해 세심한 주의를 기울여야 한다. 부적절하게 높은 cut-score를 설정하면 실제로 능력이 있는 학습자가 낙제할 수 있고, 너무 낮은 cut-score를 설정하면, 약한 학습자가 자신의 능력에 대해 지나치게 자신감을 가질 수 있습니다. 이는 특히 합격-불합격 결정이 학습자, 교육자 및 환자에게 중요한 영향을 미치는 고부담 평가에 중요합니다. The choice of standard-setting methods (i.e. cut score) also deserves careful attention in order to support the validity of score interpretations as this impacts the Implications of the assessment. Cut scores that are inappropriately high may result in failing learners who are actually competent, while cut scores that are too low may lead weak learners to be overly confident in their abilities. This is especially important for high-stakes assessments in which pass-fail decisions have important repercussions for learners, educators and patients.
컷 스코어를 설정할 때 gold-standard는 없지만 선택한 방법에 대한 자세한 근거를 제시해야 합니다. OSCE에 가장 일반적으로 사용되는 세 가지 기준 참조 방법은 Angoff, Borderline Group 및 Borderline Regression입니다. Although there is no gold standard when setting a cutscore, a detailed rationale for the method chosen should be provided. The three most common criterion-referenced methods used for OSCEs are Angoff, Borderline Group, and Borderline Regression.
다음 결정은 전체 합격/불합격 결정이 전체 OSCE 점수만 기준으로 이루어져야 하는지, 또는 수험자가 최소 스테이션 수를 통과해야 하는지에 대한 것이다. 후자(conjunctive) 접근방식은 수험자가 광범위한 지식(즉, 여러 관측소의 낙제 성과는 다른 관측소에 대한 매우 강력한 성과로 보상될 수 없다는 것)을 입증하기 위해 일부 교육자가 선호한다(Homer et al. 2017). The next decision is whether the overall pass/fail determination should be based on the overall OSCE score alone, or if examinees must also pass a minimum number of stations. The latter (conjunctive) approach is favored by some educators, to ensure that examinees demonstrate a breadth of knowledge (i.e. that a failing performance on several stations cannot be compensated for by very strong performance on others) (Homer et al. 2017).
팁 9 OSE가 가능한 모든 양식을 얼마나 잘 일반화하는지 고려합니다. Tip 9 Consider how well the OSCE would generalize to all possible forms
또 다른 중요한 타당성 근거 출처는 결과의 일반화 가능성Generalizability과 관련이 있다. OSCE의 심리측정적 특성을 분석하여, 타당성 주장시 이 요소(generalizability)에 대한 지원을 제공할 수 있습니다. Another important source of validity evidence relates to the Generalizability of the results. Support for this element of the validity argument can be provided by analyzing the psychometric properties of the OSCE.
점수의 신뢰성(즉, 재현성)은 타당성 증거의 중요한 요소입니다. 알파는 일반적으로 전반적인 신뢰성을 측정하고 문제가 있는 스테이션을 찾는 데 사용됩니다. 단일 스테이션의 성능에 기반하여 결정을 내리는 경우 스테이션 레벨에서 알파를 사용하여 신뢰성을 평가하고 문제가 있는 항목을 식별할 수 있습니다. The reliability (i.e. reproducibility) of scores is an important element of validity evidence. Alpha is usually used across stations to measure overall reliability and to look for problematic stations. If decisions are made based on the performance of a single station , then alpha can be usedat the station level to evaluate reliability and identify problematic items.
OSCE는 본질적으로 다면적이기 때문에(예: 사람, 항목, 평가자, 트랙 등), 일반화가능도 이론(G-이론)은 종종 신뢰성을 계산하고 다양한 오류 발생원의 영향을 결정하는 데 선호된다. 그러나 G-이론은 측점당 여러 등급이 있는 경우에 가장 효과적이며, 그렇지 않은 경우에는 측점이 아닌 평점으로 인한 변동을 제거할 수 없습니다. 구문 기반 GENOVA(Crick and Brennan 1983)와 보다 사용자 친화적인 G-string IV(Bloch and Norman 2015)와 같은 G-스터디를 실행하는 데 무료로 사용할 수 있는 패키지가 있습니다. Because OSCEs are inherently multi-faceted (e.g. persons, items, raters, tracks, etc.), generalizability theory (G-theory) is often preferred for calculating reliability as well as determining the impact of the various sources of error. However, G-theory works best if there are multiple raters per station; otherwise, one cannot tease out the variance due to raters as opposed to due to the station. There are freely available packages for running G-studies such as the syntax-based GENOVA (Crick and Brennan 1983) and the more user friendly G-string IV (Bloch and Norman 2015).
팁 10 검사와 다른 변수와의 상관 관계를 검토합니다. Tip 10 Review the correlation of your examination with other variables
Tamblyn과 동료들은 라이선스 검사의 낮은 점수가 상담, 처방 및 유방 촬영 검사의 패턴으로 측정되는 낮은 임상 관행과 관련이 있음을 입증했다. Tamblyn and colleagues demonstrated that lower scores on a licensing examination were associated with lower quality of clinical practice as measured by patterns in consultations, prescribing, and mammography screening.
이 데이터는 면허시험에서 케인의 추정Extrapolation 단계에 대한 증거를 뒷받침합니다. This data supports evidence along Kane’s Extrapolation stage of validity of that licensing exam.
이 증거에서는, 일반적으로 [OSCE 점수를 다른 평가와 비교]하여 증거를 찾습니다. 예를 들어, Pugh와 동료들은 현지에서 개발된 [Internal Medicine OSCE progress test]의 성과가 높은 위험도 [내과 인증 시험의 점수]와 관련이 있음을 입증했습니다. More commonly, evidence is sought by comparing OSCE scores to other assessments. For example, Pugh and colleagues demonstrated that performance on a locally developed Internal Medicine OSCE progress test correlated with scores on the high stakes Internal Medicine certification examination
모든 상관관계가 기관 외부의 데이터로 이루어질 필요는 없습니다. 로컬 데이터를 사용하여 OSCE 점수를 유사하거나 다른 역량을 측정하는 다른 평가와 상호 연관시킬 수 있습니다. 또 다른 분석에서는 OSCE가 더 많은 상급자 대 하급자를 차별하는지 여부를 조사할 수 있다. Not all correlations need to be done with data external to the institution. Local data can be used to correlate OSCE scores to other assessments measuring similar and dissimilar competencies. Another analysis could examine if an OSCE discriminates more senior versus junior learners as this also provides validity evidence.
팁 11 OSE가 학습자에게 미치는 영향 평가 Tip 11 Evaluate the effects of the OSCE on learners
형성적이든 총괄적이든 평가가 학습을 촉진한다는 것을 알고 있습니다(Kane의 함의Implication 단계). Whether formative or summative, we know that assessment drives learning (Kane’s Implications stage).
평가는 긍정적이고 부정적인 방식으로 학습에 영향을 미칠 수 있으며, 따라서 OSCE가 학습을 촉진하거나 방해하는 방법에 대한 증거를 찾아야 한다. assessment can influence learning in both positive and negative ways , and so one should seek evidence for how an OSCEis promoting or impeding learning.
고려해야 할 질문은 다음과 같습니다.
OSCE는 학습에 어떤 영향을 미칩니까?;
불합격 또는 합격한 학습자에게 수반하는 결과는 무엇입니까?
불합격자에게 재교육이 제공되는 경우, 재시험에서 성과가 개선된다는 증거가 있는가?
OSCE는 커리큘럼의 후속 변화에 어떤 영향을 미칩니까(예: 많은 수의 후보자가 불합격할 경우), 반대로 커리큘럼의 변화는 OSCE 수행능력에 어떤 영향을 미칩니까?
OSCE가 환자 치료에 어떤 영향을 미칩니까?
OSCE의 목적이 학습을 유도하는 것이라면, 학습자가 OSCE의 결과로 학습하고 있음을 보여주는 데이터가 있습니까?
Questions to be considered include:
How does the OSCE influence learning?;
What are the outcomes of learners who fail versus pass?;
If remediation is provided to those who fail, is there evidence that performance improves on a repeat assessment?;
How does the OSCE influence subsequent changes in the curriculum (e.g. if a high number of candidates fail a station) and, conversely, do changes to the curriculum influence OSCE performance?; and finally,
how does the OSCE influence patient care?
If the purpose of the OSCE is to drive learning, then is there data to show the learners are learning as a result of the OSCE?
팁 12 전체 프로세스를 검토하여 유효성에 대한 위협을 찾습니다. Tip 12 Review the entire process to look for threats to validity
타당성 주장은 평가의 해석과 사용을 제안한 후 유효성의 증거를 검토하는 반복적인 과정으로, 증거가 의도된 해석이나 사용을 뒷받침하지 않는 경우에는, 사용을 수정하거나 평가 과정을 개정한다. 이러한 상황은 평가가 목적에 부합하는지 확인하기 위해 [지속적으로 이뤄져야] 합니다. 이러한 [지속적인 품질 보증ongoing quality assurance]은 신뢰성과 같은 심리측정적인 면에만 초점이 맞춰지는 경우가 많지만, OSCE 개발의 모든 측면을 검토하여 케인 모델의 네 가지 단계와 관련된 문제를 찾아야 합니다. An argument for validity is an iterative process where one states the proposed interpretation and use of the assessment, then examines the evidence of validity, and if the evidence does not support the intended interpretation or use, either revise the use or revise the assessment process. This should continually happen to ensure the assessment is meeting its purpose. Too often this ongoing quality assurance is focused solely on psychometrics such as reliability, but all aspects of the development of an OSCE should be reviewed to look for issues related to each of the four stages of Kane’s model.
종종 간과되는 일부 OSCE 지표로는 다음이 있다.
전체 불합격 또는 특정 스테이션 불합격 학생 비율(프로그램 평가 정보일 수 있음),
스테이션에서의 [(체크리스트) 합계 점수]와 [Global 등급 척도] 사이의 상관 관계(상관성이 낮으면 점수 시트 내용에 대한 우려가 높아짐) 및
동일한 스테이션이지만, 평가자 또는 위치에 차이가 있는 그룹 간의 비교
Some OSCE metrics that are often overlooked are
the percent of students who fail overall or fail a specific station (can be program evaluation information),
correlation between a station’s sum score and global rating scale (lower correlation raises concern about score sheet content), and
comparisons between groups who same encounter the stations, but with differences such as raters or locations, (Pell et al. 2010).
Fuller R, Homer M, Pell G, Hallam J. 2017. Managing extremes of assessor judgment within the OSCE. Med Teach. 39:58–66.
Pugh D, Regehr G. 2016. Taking the sting out of assessment: is there a role for progress testing? Med Educ. 50:721–729.
Yousuf N, Violato C, Zuberi RW. 2015. Standard setting methods for pass/fail decisions on high-stakes objective structured clinical examinations: a validity study. Teach Learn Med. 27:280–291.
Med Teach. 2018 Dec;40(12):1208-1213.
doi: 10.1080/0142159X.2017.1390214.Epub 2017 Oct 25.
Twelve tips for developing an OSCE that measures what you want
The Objective Structured Clinical Examination (OSCE) is used globally for both high and low stakes assessment. Despite its extensive use, very few published articles provide a set of best practices for developing an OSCE, and of those that do, none apply a modern understanding of validity. This article provides 12 tips for developing an OSCE guided by Kane's validity framework to ensure the OSCE is assessing what it purports to measure. The 12 tips are presented in the order they would be operationalized during OSCE development.
OSCE의 퀄리티 측정하기: 계량적 방법 검토 (AMEE Guide no. 49) (Med Teach) How to measure the quality of the OSCE: A review of metrics – AMEE guide no. 49 GODFREY PELL, RICHARD FULLER, MATTHEW HOMER & TRUDIE ROBERTS University of Leeds, UK
도입 Introduction
학문 분야에서 높은 수준의 의사결정을 지원하기 위해 사용되는 테크닉의 정밀 조사가 증가함에 따라, 준거 기반 평가(CBA)는 신뢰할 수 있고 구조화된 방법론적 접근방식을 제공한다. 역량 기반 방법론으로서, CBA는 '고부담' 종합 평가(예: 자격 수준 또는 학위 수준 검사)를 제공하고 신뢰성과 타당성을 모두 높은 수준으로 입증할 수 있도록 한다. 이러한 평가 방법론은 [절대평가적이고, 모든 지원자에 대해신중하게 표준화되었으며, 평가가 성과 목표와 명확하게 설계되고 밀접하게 연관되어 있다는 점]에서 '전통적인' 비정형 평가(예: viva voce)에 비해 많은 주요 편익이 있다는 점에서 매력적이다. 이러한 목표는 커리큘럼 결과 및 적절한 경우 학생과 교사 모두가 이용할 수 있는 규제 및 면허 기관이 정한 표준에 대해 명확하게 매핑할 수 있다. With increasing scrutiny of the techniques used to support high-level decision-making in academic disciplines, criterion-based assessment (CBA) delivers a reliable and structured methodological approach. As a competency-based methodology, CBA allows the delivery of ‘high stakes’ summative assessment (e.g. qualifying level or degree level examinations), and the demonstration of high levels of both reliability and validity. This assessment methodology is attractive, with a number of key benefits over more ‘traditional’ unstructured forms of assessment (e.g. viva voce) in that it is absolutist, carefully standardised for all candidates, and assessments are clearly designed and closely linked with performance objectives. These objectives can be clearly mapped against curricular outcomes, and where appropriate, standards laid down by regulatory and licensing bodies that are available to students and teachers alike.
OSCE(Objective Structured Clinical Examination)는 [사전 정의된 목표에 대한 '청사진' 과정 내용으로 시작]하는 복잡한 프로세스 내에서 CBA 원칙을 사용합니다(Newble 2004). 여기서의 목적은 '올바른' 표준이 평가되고 OSCE의 내용이 커리큘럼 결과에 객관적으로 매핑되도록 하는 것이다. 수행능력은
스테이션 수준에서
항목 체크리스트를 사용하여 개별(행위의 순서와 함께)적으로 평가되고,
전반적 등급으로 평가되는데, 이 때는 평가자에 의해 덜 결정론적 전체 평가에 의존한다(Cohen et al. 1997; Regehr et al. 1998).
The Objective Structured Clinical Examination (OSCE) uses CBA principles within a complex process that begins with ‘blueprinting’ course content against pre-defined objectives (Newble 2004). The aim here is to ensure both that the ‘correct’ standard is assessed and that the content of the OSCE is objectively mapped to curricular outcomes. Performance is scored,
at the station level,
using an item checklist, detailing individual (sequences of) behaviours, and
by a global grade, reliant on a less deterministic overall assessment by examiners (Cohen et al. 1997; Regehr et al. 1998).
성공적인 CBA을 제공하려면 충분한 품질과 견고한 표준 설정이 보장되어야 하며, 단순히 후보 성과candidate outcome에 대한 좁은 초점이 아닌, [평가되는 수행능력을 전체적]으로 신중히 고려할 수 있는 [광범위한 메트릭]에 의해 뒷받침된다(Roberts et al. 2006). OSCE는 복잡하고 자원 집약적이며, 대개 많은 수의 검사자, 후보자, 시뮬레이터 및 환자가 참여하며, 종종 병렬 사이트에서 이루어지기 때문에 '평가에 대한 평가assessing the assessment'는 필수적입니다. Central to the delivery of any successful CBA is the assurance of sufficient quality and robust standard setting, supported by a range of metrics that allow thoughtful consideration of the performance of the assessment as a whole, rather than just a narrow focus on candidate outcomes (Roberts et al. 2006). ‘Assessing the assessment’ is vital, as the delivery of OSCEs are complex and resource intensive, usually involving large numbers of examiners, candidates, simulators and patients, and often taking place across parallel sites.
학부생들의 임상 역량을 판단하는 데 있어 [어떤 하나의 평가]도 충분하지 않은 것처럼, [어떤 하나의 계량]도 그 자체로도 평가 과정의 질을 의미 있게 판단하기에 충분하지 않다. No single metric is sufficient in itself to meaningfully judge the quality of the assessment process, just as no single assessment is sufficient in judging, for example, the clinical competence ofan undergraduate student
OSCE 평가 품질 이해: 통칙, 일반원칙 Understanding quality in OSCE assessments: General principles
OSCE 지표에 대한 검토는 OSCE 품질을 검토하는 전체 프로세스의 일부일 뿐이며, 이는 광범위한 평가 프로세스에서 모든 관계를 수용해야 한다는 것을 인식하는 것이 중요합니다(그림 1). It is important to recognise that a review of theOSCE metrics is only part of the overall process of reviewing OSCE quality, which needs to embrace all relationships in the wider assessment process (Figure 1).
국가단위 시험에서 OSCE가구조의 일부로 사용되는 경우 스테이션은 공통 표준에 따라 중앙에서 설계되고 일반적으로 중앙 관리부에서 제공합니다. 그러나, 특정 의과대학 내에서 설계된 평가와 같이 지역적 수준에서, 예를 들어, 일부 변동은 시험을 설정하는 기관의 중요성과 복잡성에 따라 달라질 것이다. Where OSCEs are used as part of a national examination structure, stations are designed centrally to a common standard, and typically delivered froma central administration. However, at the local level with the assessment designed within specific medical schools, some variation, for example instation maxima will result dependant upon the importance andcomplexity of the station to those setting the exam
이 가이드는 주로 개별 의과대학 내 지역 수준에서 임상 평가에 참여하는 사람들을 대상으로 하며, 평가가 여러 분야에 걸쳐 이루어질 수 있지만 단일 투여이다. 국가 임상평가와 관련된 사람들은 다른 관점을 가질 가능성이 높다.
This guide is aimed primarily at those involved with clinical assessment at the local level within individual medical schools, where, although the assessment may take place across multiple sights, it is a single administration. Those involved with national clinical assessments are likely to have a different perspective.
합격선 설정 방법은 무엇입니까? Which method of standard setting?
합격선 설정 방법에 따라 품질 평가에 사용할 수 있는 메트릭이 결정됩니다(Cizek & Bunch 2007;Strainer & Norman 2008). The method of standard setting will determine the metrics available for use in assessing quality (Cizek & Bunch 2007;Streiner & Norman 2008)
[합격선]이 방어가능하고 입증가능하며 수용가능해야 한다는 요구사항(Norcini 2003)이 있어서, 일반적으로 절대평가기준을 사용한다. 합격선 설정의 모든 방법은 많은 사후 측정 지표(예: 스테이션 통과율, 고정 효과(현장 간 평가 및 비교 시간) 또는 표시 분포 빈도)를 생성하지만, 추가 품질 측정치를 생성하는 합격선 설정 방법을 선택하는 것이 중요하다. 현재 많은 기관들이 경계선borderline을 선호하고 있지만, 회귀 방법regression만이 글로벌 성적과 체크리스트 점수 사이의 관계와 약자와 강자의 변별 수준을 어느 정도 알려줄 것이다. With the requirement for standards to be defensible, evidenced and acceptable (Norcini 2003), absolute standards are generally used. Whilst all methods of standard setting will generate a number of post hoc metrics (e.g. station pass rates, fixed effects (time of assessment and comparison across sites)or frequency of mark distribution), it is important to choose a method of standard setting that generates additional quality measures. At present, a large number of institutions favour borderline, but only the regression method will give someindication of the relationship between global grade and checklist score and also the level of discrimination between weaker and stronger students.
Table 1
저자들은 BLR 방법이 평가자와 후보자 간의 모든 평가 상호작용을 사용하기 때문에 선호하고, 이러한 상호작용은 '실제real'이다. 이는 많은 수의 평가자를 사용하여 사전 결정된 기준에 객관적으로 기반하며 광범위한 메트릭스를 생성합니다. The authors favour the BLR method because it uses all theassessment interactions between assessors and candidates, and these interactions are ‘real’. It is objectively based on pre-determined criteria, using a large number of assessors and generates a wide range of metrics.
BLR 방법에서 평준화된 비판 중 하나는 이상치outliers에 민감하다는 것이다. 이러한 이상치는 세 가지 주요 그룹에서 발생합니다. One of the criticisms sometimes levelled at the BLR method is its possible sensitivity to outliers. These outliers occur in three main groups:
. 성적이 매우 나쁘고 체크리스트 점수가 0에 가까운 학생. . Students who perform very badly and obtain a near zero checklist score.
. 우수한 체크리스트 점수를 획득했지만 평가자에게 전체적으로 깊은 인상을 주지 못한 학생 . Students who achieve a creditable checklist score but whofail to impress the assessor overall.
. 전반적 점수overall grade를 잘못 매기는 평가자. . The assessor who gives the wrong overall grade.
스테이션 레벨 품질 메트릭을 생성하는 방법 How to generate station level quality metrics?
표 2는 일반적인 OSCE의 측정 지표에 대한 '표준' 보고서를 자세히 설명합니다(2일 동안 20개 스테이션, 총 시험 시간 3시간, 4개 검사 센터에 분산). Table 2 details a ‘standard’ report of metrics from a typicalOSCE (20 stations over 2 days, total testing time 3 h, spreadover four examination centres).
응시자는 다음으로 구성된 합격 프로필을 충족해야 합니다.
전체 합격 점수,
통과된 스테이션의 최소 수(보상을 방지하고, 유능한 '올라운드' 의사 요건에 충실함)
수용가능한 환자 평가의 최소 수
Candidates are required to meet apassing profile comprising of
an overall pass score,
minimum number of stations passed (preventing compensation, and adding the fidelity to the requirement for a competent ‘all round’ doctor) and
a minimum number of acceptable patient ratings.
평가자는 항목 체크리스트를 완료하고 전체 글로벌 등급(OSCE의 글로벌 등급은 0 = 클리어 실패, 1 경계선, 2단계 클리어 패스, 3단계 매우 우수한 합격 및 4단계 합격으로 숫자로 기록됨)
Assessors complete and item checklist, and then an overall global grade (The global grades in our OSCEs arerecorded numerically as 0 = clear fail, 1¼borderline, 2¼clearpass, 3¼very good pass and 4 ¼excellent pass).
합격선 설정에 BLR 방법이 사용되었습니다(Pell & Roberts 2006). 일반적으로 이러한 OSCE는 약 60,000개의 데이터 항목을 생성합니다. The BLR method was used for standard setting (Pell &Roberts 2006). Typically such an OSCE will generate roughly 60,000 data items
체크리스트 점수와 더불어 글로벌 등급이 부여되는 합격선 설정의 경계선 방법에서는 함께 제공되는 메트릭이 평가의 품질을 측정하는 데 유용합니다. 에벨과 앙고프 처럼 전역 등급global grade이 합격선 설정 절차의 일부를 형성하지 않는 다른 유형의 합격선 설정의 경우, 등급 간 변별 및 결정 계수(R2)는 적용되지 않는다(Cusimano 1996).
Under any of the borderline methods of standard setting, where a global grade is awarded in addition to the checklist score, accompanying metrics are useful in measuring the quality of the assessments. For other types of standard setting, where such a global grade does not form part of the standard setting procedure, e.g. Ebel and Angoff, inter-grade discrimination and coefficient of determination (R2) will not apply (Cusimano 1996).
계량 1: 크론바흐의 알파 Metric 1: Cronbach’s alpha
이것은 내적 일관성(일반적으로 완전히 정확한 것은 아니지만 '신뢰성'으로 생각됨)의 척도이며, 좋은 평가에서는 전반적으로(즉, 각 스테이션의 체크리스트 점수에 대해) 우수한 학생이 대체로 비교적 잘 해야 한다. 두 가지 형태의 알파(비표준화 또는 표준화)를 계산할 수 있으며, 이 가이드에서는 [비표준화 양식](SPSS의 기본 설정)을 참조합니다. 이 값은 [분산에 의해 가중치가 부여된 평균 상호 상관 관계]에 대한 측도로, 후보와 교차하는 단순 항목의 G-계수와 동일한 값을 산출합니다. 표준화된 환자와 실제 환자가 사용되고 개별 스테이션 지표가 표준화되지 않은 경우, 일반적으로 이러한 유형의 고부담 평가에서 허용 가능한 것으로 간주되는 알파의 (전체) 값은 0.7 이상이다. This is a measure of internal consistency (commonly, though not entirely accurately, thought of as ‘reliability’), whereby in a good assessment the better students should do relatively well across the board (i.e. on the checklist scores at each station). Two forms of alpha can be calculated – non-standardised or standardised – and in this guide we refer to the nonstandardised form (this is the default setting for SPSS). This is a measure of the mean intercorrelation weighted by variances, and it yields the same value as the G-coefficient for a simple model of items crossed with candidates. The (overall) value for alpha that is usually regarded as acceptable in this type of high stakes assessments, where standardised and real patients are used, and the individual station metrics are not standardised, is 0.7 or above.
스테이션 메트릭이 [표준화된 경우] 더 높은 알파가 예상됩니다. 이 스테이션 집합에 대한 알파는 0.754였으며, (표 2의 두 번째 열에서) 비록 스테이션 17과 20이 이 점에서 거의 기여하지 못했지만, 전체적인 '신뢰성'에서 벗어난 스테이션은 없음을 알 수 있다. Where station metrics are standardised, a higher alpha would be expected. Alpha for this set of stations was 0.754, and it can be seen (fromthe second column of Table 2) that no station detracted from the overall ‘reliability’, although stations 17 and 20 contributed little in this regard.
알파는 평가 항목 수에 따라 증가하는 경향이 있으므로, 항목/스테이션이 잘 수행되었다면, 특정 항목이 삭제된 경우, 알파는 전체 알파 점수보다 모두 낮아야 합니다. 그렇지 않은 경우에는 다음과 같은 이유로 인해 발생할 수 있습니다. Since alpha tends to increase with the number of items in the assessment, the resulting alpha if item deleted scores should all be lower than the overall alpha score if the item/ station has performed well. Where this is not the case, this may be caused by any of the following reasons:
. [(삭제한) 아이템]이 나머지 항목 집합과 다른 구조를 측정하는 경우 . The item is measuring a different construct to the rest of the set of items.
. [(삭제한) 아이템]의 디자인이 불량한 경우 . The item is poorly designed.
. [교육]에 문제가 있는 경우. 시험 주제가 제대로 학습되지 않았거나 응시자 그룹 간에 다른 기준에 따라 학습한 경우 . There are teaching issues – either the topic being tested has not been well taught, or has been taught to a different standard across different groups of candidates.
. [평가자]들이 공통의 기준에 따라 평가하지 않은 경우 . The assessors are not assessing to a common standard.
그러나 평가 품질의 척도로 알파에만 의존할 수는 없습니다. 우리가 표시했듯이, 아이템 수가 증가하면 알파도 증가하게 되고, 따라서 단순히 아이템 수에서 충분한 길이를 갖는 것만으로 실제보다 균질해 보이는 척도를 만들 수 있습니다. 즉, 구별되는 구조를 측정하는 두 척도를 결합하여 하나의 긴 척도를 형성하면 잘못된 알파가 발생할 수 있습니다. 또한 항목 집합은 높은 알파를 가질 수 있지만 다차원적일 수 있습니다. 이러한 현상은 [클러스터 자체]가 딱히 서로 상관관계가 높지 않더라도, 서로 상관관계가 높은 [항목 클러스터(즉, 개별 차원 측정)]가 있을 때 발생합니다. However, one cannot rely on alpha alone as a measure of the quality of an assessment. As we have indicated, if the number of items increases, so will alpha, and therefore a scale can be made to look more homogenous than it really is merely by being of sufficient length in terms of the number of items it contains. This means that if two scales measuring distinct constructs are combined, to form a single long scale, this can result in a misleadingly high alpha. Furthermore, a set of items can have a high alpha and still be multidimensional. This happens when there are separate clusters of items (i.e. measuring separate dimensions) which intercorrelate highly, even though the clusters themselves particularly do not correlate with each other highly.
알파가 너무 높아(예: >0.9) 평가에서 중복성을 나타낼 수 있는 반면, 낮은 알파 점수는 때로는 잘못 설계된 스테이션의 결과라기 보다는 스테이션 평균 점수의 큰 차이로 인한 것일 수 있다. It is also possible for alpha to be too high (e.g. 40.9), possibly indicating redundancy in the assessment, whilst low alpha scores can sometimes be attributed to large differences in station mean scores rather than being the result of poorly designed stations.
우리의 철학은 알파를 포함한 하나의 메트릭만으로는 품질을 판단하는 데 항상 불충분하며, 알파는 높지만 다른 메트릭은 낮은 OSCE의 경우에는 이것이 고품질 평가를 나타내지 않는다는 것입니다.
Our philosophy is that one metric alone, including alpha, is always insufficient in judging quality, and that in the case of an OSCE with a high alpha but other poor metrics, this would not indicate a high quality assessment.
계량 2: 결정 계수 R2 Metric 2: Coefficient of determination R2
R2 계수는 독립 변수(글로벌 등급)의 변경으로 인한 종속 변수(체크리스트 점수)의 비례적 변화입니다. 이를 통해 우리는 체크리스트 점수와 각 스테이션의 전체 글로벌 등급 사이의 (선형) 상관 관계의 정도를 결정할 수 있으며, 전반적으로 전체 등급이 높을수록 일반적으로 더 높은 체크리스트 점수와 일치할 것으로 예상합니다. 결정 계수의 제곱근은 단순 Pearsonian 상관 계수입니다. SPSS 및 기타 통계 소프트웨어 패키지는 또한 R2의 조정 값을 제공하며, R2는 표본 크기와 모델의 예측 변수 수를 고려합니다(이 경우 1개). 이상적으로 조정된 값은 조정되지 않은 값에 가까워야 합니다.
The R2 coefficient is the proportional change in the dependent variable (checklist score) due to change in the independent variable (global grade). This allows us to determine the degree of (linear) correlation between the checklist score and the overall global rating at each station, with the expectation that higher overall global ratings should generally correspond with higher checklist scores. The square root of the coefficient of determination is the simple Pearsonian correlation coefficient. SPSS and other statistical software packages also give the adjusted value of R2, which takes into account the sample size and the number of predictors in the model (one in this case); ideally, this value should be close to the unadjusted value.
좋은 상관관계(R2 > 0.5)는 체크리스트 점수와 전역 성적 사이의 합리적인 관계를 나타내지만, 지나치게 상세한 global description가 단순히 해당 체크리스트 점수로 자동 변환되어 R2가 인위적으로 부풀어 오르지 않도록 주의해야 한다. 표 2에서, 스테이션 14(실용 및 의료-법률적 기술 스테이션)의 R2 값은 0.697로 양호하며, 이는 학생들의 글로벌 등급 변동 중 69.7%가 체크리스트 점수의 변동에 의해 설명됨을 의미한다. 반대로 스테이션 19는 R2 값이 0.404로 만족도가 낮습니다. 환자의 안전과 바늘 부상 관리에 초점을 맞춘 새로운 스테이션이었다. R2가 낮았던 이유를 이해하려면 (예: SPSS 원곡선 추정을 사용하여) 관계를 그래픽으로 검토하여 체크리스트와 전역 등급 간 연관성의 정확한 특성을 조사하는 것이 도움이 됩니다(그림 2). A good correlation (R240.5) will indicate a reasonable relationship between checklist scores and global grades, but care is needed to ensure that overly detailed global descriptors are not simply translated automatically by assessors into a corresponding checklist score, thereby artificially inflating R2. In Table 2, station 14 (a practical and medico-legal skills station) has a good R2 value of 0.697, implying that 69.7% of variation in the students’ global ratings are accounted for by variation in their check list scores. In contrast, station 19 is less satisfactory with an R2 value of 0.404. This was a new station focusing on patient safety and the management of a needlestick injury. To understand why R2 was low, it is helpful to examine the relationship graphically (e.g. using SPSS Curve estimation) to investigate the precise nature of the association between checklist and global grade (Figure 2).
스테이션 지표에 관계없이 항상 글로벌 등급에 대한 체크리스트 점수의 산포 그래프scatter plot를 일상적으로 표시할 것을 권장합니다. We would recommend always plotting a scatter graph of checklist marks against global ratings as routine good practice, regardless of station metrics.
스테이션 19에서 우리는 두 가지 주요 문제가 있음을 알 수 있습니다. 즉, 각 글로벌 등급에 대한 광범위한점수분포와 불합격 등급(X축에 0)이 부여된 매우 광범위한 점수분포입니다. 이는 일부 학생이 항목 체크리스트에서 많은 점수를 획득했지만, 전반적인 성과로 인해 평가자의 글로벌 낙제점수로 이어질 수 있다는 것을 나타냅니다. In station 19, we can see that there are two main problems – a widespread of marks for each global grade, and a very widespread of marks for which the fail grade (0 on the x-axis) has been awarded. This indicates that some students have acquired many of the marks from the item checklist, but their overall performance has raised concerns in the assessor leading to a global fail grade.
'소개' 부분에서는 특이치outlier가 회귀법에 미치는 영향을 설명했습니다. 좋지 않은 체크리스트 점수의 예는 그림 3에서 확인할 수 있다. 다른 스테이션에서는 어떤 응시자가 체크리스트 점수에서 아주 낮은 경우를 것을 볼 수 있습니다. 이렇게 하면 [y축 회귀 절편 값을 줄이고 회귀선의 기울기를 늘리는 효과]가 있습니다. 표 2에 표시된 데이터의 경우, 특이치를 제거하고 통과 점수와 개별 스테이션 통과 점수를 재계산하면 차이가 거의 없어져 통과 점수가 0.2% 미만으로 증가합니다. In ‘Introduction’ section, we raised the impact of outliers on the regression method. Examples of poor checklist scores but with reasonable grades can be observed in Figure 3. In other stations, we sometimes see candidates scoring very few marks on the checklist score. This has the effect of reducing the value of the regression intercept with the y-axis, and increasing the slope of the regression line. For the data indicated in Table 2, the removal of outliers and re-computation of the passing score and individual station pass marks makes very little difference, increasing the passing score by less than 0.2%.
이러한 체크리스트 점수와 전역global 등급 간의 만족스럽지 못한 관계는 첨부 표 3(SPSS에서 제작)에서 알 수 있듯이 어느 정도 비선형성을 유발하며, 여기서 최상의 적합이 분명히 cubic이라는 것이 그래픽적으로 명백하다. 수학적으로 말하면 cubit이 항상 더 나은 적합치를 생성하지만, parsimony를 중시한다면, 고차 모형을 선호하기 위해서는 두 적합치 사이의 차이가 통계적으로 유의해야 한다. This unsatisfactory relationship between checklist marks and global ratings causes some degree of non-linearity, as demonstrated in the accompanying Table 3 (produced by SPSS), where it is clear graphically that the best fit is clearly cubic. Note that mathematically speaking, a cubic will always produce a better fit, but parsimony dictates that the difference between the two fits has to be statistically significant for a higher order model to be preferred.
중요한 점은 cubic이 기본적인 관계의 결과인지, 아니면 비정상적인 결과인지 여부이며, 이 결과가 부적절한 체크리스트 설계 또는 허용할 수 없는 평가자 채점 행동으로 인한 결과인지 여부이다. 이러한 판단을 할 때, 산란도scattergraph에 표시된 표시의 분포를 검토해야 한다. 우리 자신의 경험에 따르면 스테이션 지표가 일반적으로 품질이 양호한 경우 엄격한 선형성으로부터의 이탈은 우려의 원인이 되지 않습니다. The key point to note is whether the cubic expression is the result of an underlying relationship or as a result of outliers, resulting from inappropriate checklist design or unacceptable assessor behaviour in marking. In making this judgement, readers should review the distribution of marks seen on the scattergraph. Our own experience suggests that where stations metrics are generally of good quality, a departure from strict linearity is not a cause for concern.
특정 스테이션에 [낮은 R2 값]이 존재하거나 특정 등급에 대한 점수분포가 광범위하다면, 항목 점검표 및 스테이션 설계를 검토하는 데 도움이 될 것이다. 이 특별한 경우, 스테이션에서는 안전하고 효과적인 관리에 대한 핵심적 강조가 의도되었지만, 이러한 지표에 비추어 체크리스트를 재평가한 결과 이러한 강조가 잘 표현되지 않았다. 점수가 낮은 응시자들은 '과정process'에서 많은 점수를 획득할 수 있었지만, 스테이션의 더 고차원적 기대(의사 결정의 초점)를 충족하지 못한 것이 분명하다. 이는 본 스테이션의 재작성 및 점검표를 통해 해결되었으며, 본 스테이션의 재이용 계획 및 향후 OSE 내 성과에 대한 후속 분석을 통해 해결되었습니다. The existence of low R2 values at certain stations and/or a widespread of marks for a given grade should prompt a review of the item checklist and station design. In this particular case, although there was intended to be a key emphasis on safe, effective management in the station, re-assessment of the checklist in light of these metrics showed that this emphasis was not well represented. It is clear that weaker candidates were able to acquire many marks for ‘process’ but did not fulfil the higher level expectations of the station (the focus on decision making). This has been resolved through a re-write of the station and the checklist, with plans for re-use of this station and subsequent analysis of performance within a future OSCE.
계량 3: 등급 간 변별 Metric 3: Inter-grade discrimination
이 통계량은 회귀선의 기울기를 나타내며 [전역global 등급 척도에서 한 등급 상승에 해당하는 체크리스트 점수]의 평균 증가를 나타냅니다. '이상적' 값에 대한 명확한 지침은 없지만, 이 변별지수는 이용 가능한 최대 체크리스트 마크(데이터에서 일반적으로 30–35)의 10분의 1이 되어야 한다고 권고한다. This statistic gives the slope of the regression line and indicates the average increase in checklist mark corresponding to an increase of one grade on the global rating scale. Although there is no clear guidance on ‘ideal’ values, we would recommend that this discrimination index should be of the order of a tenth of the maximum available checklist mark (which is typically 30–35 in our data).
낮은 등급 간 변별은 종종 다음과 같은 관측소에 대한 다른 좋지 않은 지표와 함께 동반된다.
낮은 R2 값(등급과 체크리스트 점수 사이의 전반적인 관계가 좋지 않음을 나타냄) 또는
높은 수준의 평가자 오차 분산(섹션 '측정지표 5: 그룹 간 변동'): 평가자가 공통 표준을 사용하지 못한 경우
A low value of inter-grade discrimination is often accompanied by other poor metrics for the station such as
low values of R2 (indicating a poor overall relationship between grade and checklist score), or
high levels of assessor error variance (Section ‘Metric 5: Between-group variation’) where assessors have failed to use a common standard.
[성적 간 변별intergrade discrimination 수준이 너무 높으면] 합격점이 매우 낮거나 회귀선을 가파르게 만드는 소수의 불량 학생으로 인해 선형성이 부족하다는 의미일 수 있다.체크리스트 점수의 측면에서 매우 낮은 학생 성적이 발생할 경우, 하향으로 전체 합격 점수에 과도한 영향을 미치지 않도록 매우 낮은very low 점수를 합격선 설정에서 제외해야 하는지 고려할 필요가 있습니다.
Too high levels of intergrade discrimination may indicate either a very low pass mark, or a lack of linearity caused by a small number of badly failing students who tend to steepen the regression line. Where very poor student performance in terms of the checklist score occurs, consideration needs to be given to whether these very low scores should be excluded from standard setting to avoid excessive impact on overall passing scores in a downward direction.
표 2에 대한 변별로 돌아가면, 비록 변별 값이 5를 초과하는 세 개의 스테이션이 있지만(예: 스테이션 14) 등급 간 값은 스테이션 전체에 걸쳐 일반적으로 허용될 수 있음은 분명하다. Returning discrimination to Table 2, it is clear that the inter-gradevalues are generally acceptable across thestations (station maxima being in the region of 30–35 marks), although there are three stations with discrimination values inexcess of 5 (e.g. station 14
변별도 메트릭에 기반해서 스테이션의 퍼포먼스가 의심스러운 경우, [분산 및 곡선 추정의 R2 척도]로 복귀하는 것이 유용한 경우가 많습니다. 표 2에서, 스테이션 14는 등급 간 변별이 가장 높으며, 그림 3에서 대부분의 글로벌 등급이 다시 광범위한 표시, 특히 명확한 통과 등급 값 2를 포함하지만, 이 값 중 낮은 것은 분명히 특이치임을 알 수 있습니다. 나머지 스테이션 지표가 허용 가능하기 때문에, 이 스테이션은 변경되지 않을 수 있지만 후속 평가에 사용될 때 주의 깊게 모니터링되어야 합니다.
Where there is doubt about a station in terms of its performance based on the discrimination metric, returning to the R2 measure of variance and curve estimation is often instructive. In Table 2, station 14 has the highest inter-grade discrimination, and it can be seen in Figure 3 that most global grades again encompass a wide range of marks, especially the clear pass grade – value 2 on the x-axis, ranging from 4 to 27, but that the lower of these values are clearly outliers. As the rest of the station metrics are acceptable, this station can remain unchanged but should be monitored carefully when used in subsequent assessments.
메트릭 4: 실패 횟수 Metric 4: Number of failures
[비정상적으로 높은 Failure 횟수]만을 가지고 스테이션이 너무 어렵다는 것을 나타내는 것이라고 자동으로 가정하는 것은 실수입니다. 경계선 방식의 필수 요소인 '현실 점검reality check'이 스테이션 난이도 상당 부분을 보완할 것으로 보인다. 이는(reality check은) 최소의 역량을 갖춘 학생의 예상 성과에 대한 글로벌 등급을 결정하기 위해 [훈련된 평가자가 내린 전문가의 판단]을 나타냅니다. It would be a mistake to automatically assume that an unusually high number of failures indicate a station that is somehow too difficult. The ‘reality check’, which is an essential part of borderline methods, will to a large extent compensate for station difficulty. This represents the expert judgement made by trained assessors in determining the global rating against the expected performance of the minimally competent student.
앞에서 설명한 것처럼, 다른 심리측정 데이터가 문제를 식별하기 위해 스테이션 설계 및 성능을 조사하는 데 사용될 수 있습니다. 불합격률은 특정 주제에 대한 teaching이 바뀐 영향을 검토하는 데 사용될 수 있으며, 그러한 비율의 높은 값은 내용 및 교수 방법에 대한 검토가 과정 설계에 도움이 될 수 있는 위치를 나타낸다.
As previously described, other psychometric data can be used to investigate station design and performance in order to identify problems. Failure rates may be used to review the impact of a change in teaching on a particular topic, with higher values of such rates indicating where a review of content and methods of teaching can help course design.
메트릭 5: 그룹 간 변동(평가자 효과 포함) Metric 5: Between-group variation (including assessor effects)
OSCE와 같은 복잡한 평가 준비에서 비롯된 데이터에 대한 분석을 수행할 때, 학생들은 필요에 따라 실용적인 목적을 위해 여러 그룹으로 세분화되며, 설계가 완전히 무작위화되는 것이 필수적입니다. 그러나 (시간이 더 많이 필요하고 별도의 주기 내에 독점적으로 관리해야 하는 특수한 요구 사항 학생들을 처리하는 등) 물류 문제의 관리가 항상 가능하지 않을 때도 있다. 모든 [비랜덤 부분군non-random subgroups]은 주요 가정으로 데이터의 랜덤성에 의존하는 통계 기반 분석 유형에서 제외해야 합니다. When performing analysis on data resulting from complex assessment arrangements such as OSCEs, where, by necessity, the students are subdivided into groups for practical purposes, it is vital that the design is fully randomised. Sometimes, however, this is not always possible, with logistical issues including dealing with special needs students who may require more time and have to be managed exclusively within a separate cycle. Any non-random subgroups must be excluded from statistically-based types of analysis that rely on randomness in the data as a key assumption.
[이상적인 평가 프로세스]에서 모든 점수 변동은 [학생의 수행능력 차이]로 인해 생겨야 하며, 아래와 같은 것이 원인이 되어서는 안 된다.
환경(예: 배치 또는 장비의 국부적 변화),
위치(예: 임상 조건 관리를 위한 지역 정책이 서로 다른 병원 기반 현장) 또는
평가자 태도의 차이(즉, 매와 비둘기)
In the ideal assessment process, all the variation in marks will be due to differences in student performance, and not due to differences in
environment (e.g. local variations in layout or equipment),
location (e.g. hospital-based sites having different local policies for management of clinical conditions) or
differences of assessor attitude (i.e. hawks and doves).
이러한 효과를 측정하는 방법에는 측점에 대해 일원 분산 분석(예: 평가자를 고정 효과로 사용)을 수행하거나 그룹별 총 분산 비율을 계산하는 두 가지가 있습니다. 일반적으로 회로에 특정한circuit-specific 분산의 비율로 제공되지만, 후자에서는 위에서 언급한 다른 가능 요인들과 구별되는 학생 성과로 인한 체크리스트 점수의 변동 비율을 추정할 수 있습니다.
There are two ways of measuring such effects, either by performing a one-way analysis of variance (ANOVA) on the station (e.g. with the assessor as a fixed effect) or by computing the proportion of total variance which is group specific. The latter allows an estimation of the proportion of variation in checklist scores that is due to student performance as distinct from other possible factors mentioned above, although this is usually given as the proportion of variance which is circuit specific.
분산 성분을 계산하면 그룹(즉, 회로)을 랜덤 효과로 사용하여 그룹에 특정된 분산 비율을 계산할 수 있습니다. 이는 그룹 간 평가 프로세스의 균일성을 매우 잘 나타내므로 매우 강력한 메트릭입니다. 계산도 비교적 간단하다. 이상적으로는 그룹 간 분산이 30% 미만이어야 하며 40%를 초과하는 값이 나오면 검토가 필요하다. 40% 이상의 값은 학생 성과보다는 평가자 행동 및 기타 회로 특정 특성으로 인해 발생하는 스테이션 수준에서의 잠재적인 문제를 나타냅니다. If the variance components are computed, using group (i.e. circuit) as a random effect, then the percentage of variance specific to group can be computed. This is a very powerful metric as it gives a very good indication of the uniformity of the assessment process between groups. It is also relatively straightforward to calculate. Ideally between-group variance should be under 30%, and values over 40% should give cause for concern, indicating potential problems at the station level due to inconsistent assessor behaviour and/or other circuit specific characteristics, rather than student performance.
표 2에서 스테이션 6, 17 및 19는 그룹 간 분산 수준이 가장 높은 이 메트릭과 관련된 원인을 제공합니다. 또한 스테이션 6는 R2도 불량이며, 이 스테이션의 불량 메트릭스의 전체적인 조합은 불량 R2가 아마도 불량한 체크리스트 설계 때문일 것이라는 것을 말해줍니다. From Table 2, stations 6, 17 and 19 give cause for concern with regard to this metric, with the highest levels of betweengroup variance. In addition, station 6 has a poor R2, and the overall combination of poor metrics at this station tells us that the poor R2 was probably due to poor checklist design.
(6번 스테이션의) 체크리스트는 약한 응시자들이 '과정'을 통해서만 높은 점수를 얻을 수 있는 낮은 수준의 기준들로 구성된 것으로 밝혀졌다. 따라서 스테이션을 재설계할 때 당초 의도한 대로 높은 수준의 프로세스를 쉽게 평가하기 위해 낮은 수준의 기준을 여러 개 청크 처리(즉, 상위 수준의 기준을 형성하기 위해 함께 묶음)하였다.
the checklist was found to consist of a large number of lowlevel criteria where weaker candidates could attain high scores through ‘process’ only. Hence, in redesigning the station, a number of the low-level criteria were chunked (i.e. grouped together to form a higher level criterion) in order to facilitate the assessment of higher level processes as originally intended.
스테이션 17은 이야기가 조금 다르다. (높은) 그룹 간 변동을 양호한 R2와 결합해서 판단했을 때, 평가자들이 그룹 내에서 일관되게 표시하고 있지만 그룹 간에 뚜렷한 매와 비둘기 효과가 있음을 나타내기 때문이다. 이러한 경우에는 일원 분산 분석 분석을 통해 이것이 개별 평가자인지 또는 현장 현상인지를 파악하여 이 문제를 추가로 조사해야 합니다. 서로 다른 부지에 귀속되는 분산의 양은 위에서 설명한 것처럼 스테이션 간 분산의 간단한 계산에 포함된다. Station 17 tells a different story, as the good R2 coupled with the high between-group variation indicates that assessors are marking consistently within groups, but that there is a distinct hawks and doves effect between groups. In such a case, this ought to be further investigated by undertaking a one-way ANOVA analysis to determine whether this is an individual assessor or a site phenomenon. The amount of variance attributable to different sites is subsumed in the simple computation of within-station between-group variance as describe above.
그러나 모집단이 상당히 많은 경우 분산 분석을 개별 관측소에 적용하면 많은 그룹에 걸친 다중 유의성 검정으로 인한 유형 I 오차의 결과로 인해 적어도 하나의 유의한 결과가 나타날 수 있으므로 단일 측정 기준에 근거하여 판단할 때 주의를 기울여야 합니다. However, care needs to be exercised in making judgements based on a single metric, since, with quite large populations, applying ANOVA to individual stations is likely to reveal at least one significant result, as a result of a type I error due to multiple significance tests across a large number of groups
메트릭 6: 군간 분산(기타 효과) Metric 6: Between group variance (other effects)
일원 분산 분석은 또한 [다중 사이트 평가]가 발생할 수 있는 [대규모 코호트]가 있는 일부 의과대학 및 관련 교습병원에서처럼 평가자 또는 학생 중 한 명이 랜덤하게 할당되지 않은 경우에도 사용할 수 있습니다. 이러한 복잡한 배치로 인해 임상 직원이 작업 장소를 떠나기가 종종 어렵기 때문에 평가자가 회로circuit에 무작위로 할당되지 않을 수 있습니다. 따라서 결과 분석에서 취한 적절한 조치를 통해 식별할 수 있는 '현장 효과site effects'로 인해 상당한 차이가 발생할 수 있다. ANOVA analysis can also be of use when there are nonrandom allocations of either assessors or students, as is the case in some medical schools with large cohorts and associated teaching hospitals where multi-site assessment may occur. Such complex arrangements can result in the nonrandom assignment of assessors to circuits since it is often difficult for clinical staff to leave their places of work. This may then lead to significant differences due to ‘site effects’ which can be identified with appropriate action taken in the analysis of results.
다른 중요한 고정 효과도 분산 분석을 통해 확인할 수 있습니다. 예를 들어, 평가자 교육 효과, 직원/학생 성별 효과 및 관련 상호작용, Other important fixed effectscan also be identified through use of ANOVA. For example,
assessor training effects,
staff/ student gender effects, and
associated interactions,
계량 7: 표준화된 환자 등급 Metric 7: Standardised patient ratings
시뮬레이션/표준화된 환자(SP)를 사용하는 대부분의 센터는 후보자를 평가하도록 요구하며, 이는 일반적으로 집중적인 훈련 프로그램을 따른다. 우리 기관 내에서 SP는 "이 의사와 다시 상담하시겠습니까?"와 같은 질문을 받을 것입니다. 다양한 반응(동의함, 동의함, 동의함, 동의하지 않음, 동의하지 않음 또는 강하게 동의하지 않음)에서 후자의 두 반응은 불리한 것으로 간주한다. 메트릭 4(스테이션 Failure 횟수)와 마찬가지로 SP 등급에 불리한 점수를 받는 후보자의 정상 비율보다 비율(예: >10%)이 높다면, 문제라고 볼 수 있습니다. 스테이션 레벨에서 SP 등급의 '허용 가능한' 범위에 대한 사용 가능한 문헌이 없으므로 임의적으로 컷오프 수치 10%를 선택했습니다. Most centres that use simulated/standardised patients (SPs) require them to rate candidates, and this typically follows an intensive training programme. Within our own institution, SPs would be asked a question such as Would you like to consult again with this doctor? with a range of responses (strongly agree, agree, neither agree nor disagree, disagree or strongly disagree), the two latter responses being regarded as adverse. Akin to Metric 4 (Number of station failures), a higher than normal proportion of candidates (e.g. 410%) receiving adverse SP ratings may indicate problems. There is no available literature on what constitutes an ‘acceptable’ range of SP ratings at station level, so we have chosen an arbitrary cut off figure of 10%.
정상보다 높은 Failure률과 결합할 경우 (스테이션에서 다루는) 주제를 제대로 가르치지 못한 결과일 수 있습니다. If this is coupled with a higher than normal failure rate, it could be the result of inadequate teaching of the topic.
평가의 전반적인 신뢰성은 점검표 점수에 SP 등급을 추가하면 높아질 수 있습니다. 일반적으로 SP 등급은 총 스테이션 점수의 10-20%를 기여해야 합니다(Homer & Pell 2009). The overall reliability of the assessment may be increased by adding the SP rating to the checklist score; typically the SP rating should contribute 10–20% of the total station score (Homer & Pell 2009).
OSCE 품질의 360도 그림 The 360 degree picture of OSCE quality
스테이션 8의 측정 지표(상담, 진단 및 의사결정에 초점을 맞춘)의 검토는 전체 평가 신뢰도에 긍정적인 기여를 한다(항목 삭제 시 알파 0.749). 그림 4의 곡선 추정치에서 볼 수 있듯이, R2계수는 0.4로 저조하며, 등급 내 항목 체크리스트 점수가 광범위하며, 상위 등급(통과, 신용, 구별)에 걸쳐 상당히 중복된다. Review of the metrics of station 8 (focusing on consultation, diagnosis and decision making) shows a positive contribution to overall assessment reliability (alpha if item deleted 0.749). As can be seen below in the curve estimation in Figure 4, the R2 coefficient is poor at 0.4 with a widespread of itemchecklist scores within grades, and significant overlap across the higher grades (pass, credit and distinction).
스테이션 9는 아래 그림 5의 곡선 추정으로 표시됩니다. 여기서는 신뢰성에 대한 보다 긍정적인 기여(항목 삭제 시 알파 0.74)와 더 나은 스테이션 수준 메트릭을 확인할 수 있습니다. R2 계수는 0.5에서 허용되지만 군간 분산은 36%로 여전히 높습니다.
Station 9 is represented by the curve estimation seen below in Figure 5. Here we see a more strongly positive contribution to reliability (alpha if item deleted 0.74) and better station-level metrics. The R2 coefficient is acceptable at 0.5, but between group variance is still high at 36%.
관측치에 의한 품질 관리: OSCE까지 실행 중인 문제 및 당일 탐지 Quality control by observation: Detecting problems in the run up to OSCEs and on the day
OSCE에 앞서, 오류 분산에 기여하는 많은 요소들을 예측하고 아래 사항들을 적용하여 수정할 수 있습니다. In advance of the OSCE, many of the contributing factors toerror variance can be anticipated and corrected by applying some of the points below
. 설계가 일치도congruence를 확인하기 위해 여러 스테이션에 걸쳐across stations 검사
. 체크리스트 설계, 가중치 및 고정점 측면에서 신규(그리고 기존) 스테이션이 최신 요구 사항을 준수하는지 확인
. 여러 병렬적 OSCE circuit의 세팅이 동일한지 검토: 예를 들어 스테이션 외부에 소독제를 배치하게 되면, 평가자는 응시자가 손 위생을 제대로 하는지 평가할 수 없다.
. 스테이션이 동일한 장비 제공(또는 학생들이 [서로 다른 장비]로 [서로 다른 접근 방식]을 배웠다면 유연성을 허용).
. Checking across stations to ensure congruence in design.
. Ensuring that new (and older, established) stations follow up to date requirements in terms of checklist design,weighting and anchor points.
. Reviewing the set up of parallel OSCE circuits – for example, differences in the placing of gel disinfectant outside a station may mean that the assessor may not beable to score hand hygiene approaches.
. Ensuring that stations carry the same provision of equipment (or permit flexibility if students are taught different approaches with different equipment).
OSCE를 전달하는 동안 오류 분산의 다른 원인이 발생할 수 있습니다. Other sources of error variance can occur during the delivery of the OSCE:
. 평가 전 브리핑에 늦게 도착하여 지정된 방법론을 제대로 준수하지 못한 평가자.
. 평가자의 무단 요청prompting(교육 및 사전 시험 브리핑에도 불구하고).
. 평가자에 의한 부적절한 행동(예: 과도한 상호작용을 통해 스테이션의 '톤'을 바꿈).
.질문이 학생들에게 프롬프트 역할을 하는 지나치게 적극/유도자극적인 시뮬레이션 환자.
.편향된 실제 환자(예: 성별 또는 인종 편견). 시뮬레이션 환자는 후보자와 상호작용하는 방법에 대한 교육을 받지만, 실제 환자 대다수가 시뮬레이터와 동일한 수준으로 수행하는 것은 가능하지 않을 수 있다.
. 응시자가 교대할 때, (평가자(또는 보조자)가) 장비를 출발 또는 중립 위치로 되돌리지 않는 것
. Assessors who arrive late and miss the pre-assessment briefing and who therefore fail to adhere adequately to the prescribed methodology.
. Unauthorised prompting by assessors (despite training andpre-exam briefings).
. Inappropriate behaviour by assessors (e.g. changing the‘tone’ of a station through excessive interaction).
. Excessively proactive simulated patients whose questionsact as prompts to the students.
. Biased real patients (e.g. gender or race bias). Simulated patients receive training on how to interact with the candidates, but this may not be possible with the majorityof real patients to the same level undertaken with simulators.
. Assessors (or assistants) not returning equipment to the startor neutral position as candidates change over.
사후 교정 조치 Post hoc remedial action
장소 효과에 대한 총 점수 조정 Adjustment of total marks for site effects
가장 쉬운 방법은 모든 사이트에서 공통의 평균으로 조정하는 것입니다. 이러한 조정 후에는 예를 들어 모든 falure가 단일 사이트에 국한되지 않도록 불합격 학생의 사이트 프로파일을 확인해야 합니다. 조정 수준을 계산할 때 단일 특정 사이트 내에 위치한 특수 요구 그룹(예: 후보자에게 건강 요구의 결과로 추가 시간을 제공)의 효과를 할인해야 합니다. The easiest method is to adjust to a common mean across allsites. After any such adjustment, the site profile of failing students should be checked to ensure that, for example, allfailures are not confined to a single site. The effect of any special needs group (e.g. candidates receiving extra time as aresult of health needs) located within a single specific site needs to be discounted when computing the adjustment level.
측점 레벨 조정 Adjustment at the station level
어떤 부작용도 서로를 취소시키는 경향이 있기 때문에 이것은 거의 필요하지 않습니다. 드문 경우지만 위의 스테이션 레벨 절차를 수행할 수 있습니다. This is seldom necessary because any adverse effects will tend to cancel each other out. In the rare cases where this does not happen, a station level procedure as above can be carried out.
스테이션 제거 Removal of a station
다시 말하지만, 이는 드문 사건이며 그 기준은 일반적으로 복수의 불리한 측정 기준이며, 그 결과는 평가 결정이 항소에 대해 변명의 여지가 없을 정도로 학생들에게 불리하게 작용할 것이다. Again, this is a rare event and the criteria for this is usually multiple adverse metrics, the result of which would disadvantage students to such an extent that the assessment decisions are indefensible against appeal.
결론 Conclusion
저자의 기관에서는 데이터를 분석하는 사람과 임상 평가를 설계 및 관리하고 교육을 개발/제공하는 사람이 서로 밀접하게 관계를 가지고 있다. 스테이션 레벨 메트릭에 대한 일상적이고 자세한 검토에서 체크리스트와 글로벌 등급 간의 불일치가 발견되었습니다. 분석 결과를 바탕으로 특정 OSCE 스테이션을 재설계하고 이후 측정 기준을 개선했습니다. 이러한 재설계에는 다음이 포함됩니다. In the authors’ institution, there is a close relationship between those who analyse the data, and those who design and administer the clinical assessments and develop/deliver teaching. Routine and detailed review of station level metrics has revealed mismatches between checklists and global ratings. This has lead to the redesign of certain OSCE stations with a subsequent improvement of metrics. Some of these redesigns include:
. 다수의 단순한 기준을 더 높은 수준의 더 적은 기준으로 청킹(묶음).
. 더 높은 수준의 기준을 허용하기 위해 청킹(Chunking)을 수행함으로써, 더 높은 수준의 프로세스 중심 성과를 평가할 수 있습니다.
. 평가자 체크리스트에 [중간 등급 기술자]를 포함.
. 체크리스트 기준에 해당하는 경우 두 개의 anchor 대신 세 개의 anchor을 두도록 보장함으로써 평가자에 의한 차별이 더 커지도록 한다.
. 서로 다른 회로의 물리적 배열arrangement 간의 획일성uniformity이 높아집니다.
. Chunking of a number of simple criteria into fewer criteria of higher level.
. Chunking to allow for higher level criteria commensurate with the stage of student progression, allowing assessment of higher level, less process-driven performance.
. The inclusion of intermediate grade descriptors on the assessor checklists.
. Ensuring that checklist criteria have three instead of two anchors where appropriate, thereby allowing greater discrimination by assessors.
. A greater degree of uniformity between the physical arrangements of the different circuits.
[평가자 간의 일치도가 좋지 않다는 징후]는 때때로 평가의 품질에 도움이 되는 여러 가지 변화로 이어집니다. Indications of poor agreement between assessors has, on occasion, lead to a number of changes all of which have been beneficial to the quality of assessment:
. 평가자 훈련 방법 업그레이드.
. 오래전에 교육을 받은 평가자 업데이트('새로 고침')
. 평가자를 위한 보다 상세한 서포트 자료 제공.
.평가 전 평가자 브리핑 개선
. 평가 전에 SP 브리핑 개선
. 더미는 평가자와 SP 모두에 대한 공식적인 평가 전에 실행됩니다(예: 학생 수가 상대적으로 적은 경우, 그리고 학생 수가 적은 치과 OSCE에서만 실제로 실행 가능합니다).
. Upgrading of assessor training methods.
. Updating (‘refreshing’) assessors who were trained some time ago.
. The provision of more detailed support material for assessors.
. Improved assessor briefings prior to the assessment.
. Improved SP briefings prior to the assessment.
. Dummy runs before the formal assessment for both assessors and SPs (this is only really practicable where students numbers are relatively small, e.g. resits, and in dental OSCEs with smaller cohorts of students).
Med Teach. 2010;32(10):802-11.
doi: 10.3109/0142159X.2010.507716.
How to measure the quality of the OSCE: A review of metrics - AMEE guide no. 49
With an increasing use of criterion-based assessment techniques in both undergraduate and postgraduate healthcare programmes, there is a consequent need to ensure the quality and rigour of these assessments. The obvious question for those responsible for delivering assessment is how is this 'quality' measured, and what mechanisms might there be that allow improvements in assessment quality over time to be demonstrated? Whilst a small base of literature exists, few papers give more than one or two metrics as measures of quality in Objective Structured Clinical Examinations (OSCEs). In this guide, aimed at assessment practitioners, the authors aim to review the metrics that are available for measuring quality and indicate how a rounded picture of OSCE assessment quality may be constructed by using a variety of such measures, and also to consider which characteristics of the OSCE are appropriately judged by which measure(s). The authors will discuss the quality issues both at the individual station level and across the complete clinical assessment as a whole, using a series of 'worked examples' drawn from OSCE data sets from the authors' institution.
체면을 차리기 위한 헷징: ITER의 서술형 코멘트의 언어학적 분석(Adv in Health Sci Educ, 2015) Hedging to save face: a linguistic analysis of written comments on in-training evaluation reports Shiphra Ginsburg1,5 • Cees van der Vleuten2 • Kevin W. Eva3 • Lorelei Lingard4
도입 Introduction
교육 내 평가 보고서(ITERs)와 같은 업무 기반 평가에 대해 교수진이 작성한 논평이 어려움에 처한 학생을 식별하고(Cohen et al. 1993), 순위/정렬 훈련생(Ginsburg et al. 2013), 성공 또는 실패를 예측하는 데 유용할 수 있다는 증거가 증가하고 있다(Guerasio et al. 2012). 그러나, 최근의 연구는 쓰여진 코멘트가 상당부분 모호하고 '습관적dispositional' 언어를 포함하고 있음을 시사한다(Ginsburg et al. 2011). 교수진은 이를 "행간 읽기"로 해독한다(Ginsburg et al. 2015). 교육생에 대한 [교수진의 모호한 논평]이 어제오늘 일이 아님에도 불구하고, 우리는 교수진이 왜 이러한 발언을 하는지, 다른 교수진이 어떻게 그러한 발언을 디코딩할 수 있는지, 교육생에게 미치는 영향이 무엇인지 아직 이해하지 못하고 있다(Watling et al. 2008). There is growing evidence that comments written by faculty on work-based assessments such as in-training evaluation reports (ITERs) can be useful for identifying students in difficulty (Cohen et al. 1993), for ranking/sorting trainees (Ginsburg et al. 2013) and for predicting success or failure (Guerrasio et al. 2012). However, recent work suggests that written comments contain a prevalence of vague and ‘dispositional’ language (Ginsburg et al. 2011), which faculty decode by ‘‘reading between the lines’’ (Ginsburg et al. 2015). Despite a well-established tradition of vague comments in faculty evaluation of trainees (Kiefer et al. 2010; Lye et al. 2001), we don’t yet understand why faculty do this, how other faculty are able to decode such comments, or what their implications are for trainees (Watling et al. 2008).
[글에 막연한 언어가 있는 것]은 그 문장을 해석하려는 독자들에게 좌절의 원인이 될 수 있다. 예를 들어, '함께 일하기 좋은 사람'(Lye et al. 2001)과 같은 의견이나 전공의가 얼마나 열심히 일했는지를 반영하는 의견(Ginsburg et al. 2011)은 매우 일반적이지만, 학습자의 성과를 판단하는 데 특히 도움이 되지 않는다고 한 연구 참가자가 지적한 바 있다(Ginsburg et al.. 2015). 이러한 코멘트에 대한 한 가지 가능한 설명은 교직원들이 교육생들을 잘 알지 못할 수 있기 때문에 "누구에 대해서나 써먹을 수 있는" 코멘트에 의존한다는 것이다(Ginsburg et al. 2015). 또 다른 설명은 모호한 언어를 의도적으로 사용한다는 것이다. 예를 들어, 교수진들은 "좋은 말을 할 수 없다면 아무 말도 하지 말라"는 원칙을 준수하기 위한 실제적 결핍에 대한 언급을 회피할 수 있다(Ginsburg et al. 2015). 막연한 논평에 대한 또 다른 잠재적 이유는 (특히 수련생의 수행능력이 안 좋을 경우) 평가가 어렵고, [애매한 언어를 사용하는 것]이 ITER의 양쪽 모두에게 부정적인 영향을 끼치지 않도록 보호하는 데 도움이 된다는 현실과 관련이 있습니다(Ilott 및 Murphy 1997). The presence of vague language in written comments can be a source of frustration to readers who try to interpret them. For example, comments such as ‘‘pleasant to work with’’ (Lye et al. 2001), or those that reflect how hard a resident worked (Ginsburg et al. 2011), are extremely common, yet are considered particularly unhelpful for judging learners’ performance—as a participant in one study noted, ‘‘if you’re a good person you get those’’ comments (Ginsburg et al. 2015). One potential explanation for such comments is that faculty may not know their trainees very well, so they resort to comments that ‘‘you could say about anyone’’ (Ginsburg et al. 2015). Another explanation is that vague language is used deliberately. For example, faculty may avoid commenting on an actual deficiency to abide by the principle that ‘‘if you can’t say anything nice, don’t say anything at all’’ (Ginsburg et al. 2015). Another potential reason for vague comments relates to the reality that evaluation is difficult—especially when a trainee is not performing well—and that the use of vague language helps guard against negative consequences for individuals on both sides of the ITER (Ilott and Murphy 1997).
ITER에서 모호한 언어의 현상을 체계적으로 탐구하기 위해 실용적 의사소통을 위해 언어가 어떻게 사용되는지 고민하는 실용주의라는 언어학의 한 분야로 눈을 돌렸다. [언어적 실용론Linguistic pragmatics]은 우리가 일상에서 사용하는 언어의 많은 부분이 문자 그대로 해석되는 것이 아니라고 주장한다. 아이러니, 빈정거림, 은유를 표현하는 언어는 이 전제를 쉽게 식별할 수 있는 예이다. 또한 [비문자적 표현Non-literal language]는 관습적인 간접성(Brown and Levinson 1987)의 개념을 포함하는데, 여기서 '좋은' 또는 '기대치를 충족'과 같은 단어와 구절은 (관습적으로) 평균 이하를 의미할 수 있다(Kiefer et al. 2010). 최근의 한 연구에서는 필기 ITER 코멘트에서 비문자적 표현Non-literal language 사용 사례가 많이 보고되었지만(Ginsburg et al. 2015), 교수진들은 그러한 코멘트만을 사용하여 높은 신뢰성으로 전공의의 순위를 매길 수 있는 것으로 밝혀졌다(Ginsburg et al. 2013). 서술적 평가 논평에 언어적 프레임워크linguistic frameworks를 적용하는 것은 모호해 보이는 언어가 어떻게 신뢰성 있게 해석될 수 있는지를 설명하는 데 도움이 될 수 있다. To systematically explore the phenomenon of vague language in ITERs in more depth we turned to the branch of linguistics called pragmatics, which is concerned with how language is used for practical communication. Linguistic pragmatics argues that much of the language we use in day to day practice is not meant to be interpreted literally. Language expressing irony, sarcasmand metaphors are readily identifiable illustrations of this premise (Akmajian et al. 2010). Non-literal language also includes the concept of conventional indirectness (Brown and Levinson 1987), whereby words and phrases such as ‘good’ or ‘meets expectations’ can—by virtue of convention—come to mean below average (Kiefer et al. 2010). A recent study reported many examples of non-literal language use in written ITER comments (Ginsburg et al. 2015), but it was also found that faculty were able to rankorder residents using such comments alone with a high degree of reliability (Ginsburg et al. 2013). The application of linguistic frameworks to narrative assessment comments may help to explain how language that seems vague can be reliably interpreted.
실용주의 안에서, [예의 이론theory of politeness] 은 평가 맥락에 특정한 목적적합성과 적용가능성을 가지고 있다. 1970년대 브라운과 레빈슨(Brown and Levinson 1987)에 의해 처음 개발되었으나, 새로운 이론과 제안된 변경에도 불구하고 여전히 영향력이 있다(Fraser 1990; Mills 2003). 브라운과 레빈슨의 프레임워크는 사회학에서 처음 설명한 것처럼 '체면'이라는 개념에 기반을 두고 있다. '체면'의 개념이 시간이 지나면서 다른 의미를 띠었지만, 브라운과 레빈슨의 관점에서 볼 때, [체면]은 [개인이 보호하려는 공적의 자기 이미지]이다.
긍정적인 체면은 사람이 자신에 대해 가지고 있는 긍정적인 이미지(자존심)입니다.
부정적인 체면은 자신의 행동을 방해받지 않으려는 욕망(행동의 자유)입니다.
Within pragmatics, the theory of politeness has particular relevance and applicability to an evaluation context. Originally developed by Brown and Levinson in the 1970s (Brown and Levinson 1987), it remains influential in spite of newer theories and suggested modifications (Fraser 1990; Mills 2003). Brown and Levinson’s framework is based on the idea of ‘face’, as first described in sociology (Bakker 2007).The concept of face has taken on different meanings over time but from Brown and Levinson’s perspective, in essence, face is the public self-image that individuals try to protect.
Positive face is the positive image a person has of him/herself (self-esteem);
negative face is the desire to not have one’s actions impeded (freedom to act).
[체면 위협 행위(FTA)]의 상황에서, 우리는 종종 [말하는 사람과 듣는 사람 모두를 위해] 체면 상실을 완화하기 위해 언어 전략을 사용한다(이론으로 사용되는 용어는 대부분 구술 언어에 근거하여 개발되었다). 체면을 위협하는 행동의 흔한 예는 동료에게 부탁을 하는 것이다. 거절당하거나, 청취자에게 은혜를 입히거나, 궁핍한 사람으로 비칠 가능성이 있기 때문이다. 따라서 [부탁을 하는 사람]은 잠재적으로 체면을 위협받을 수 있다. 그것은 또한 [부탁을 받는 사람]에게도 위협적인 면인데, 그녀가 말하는 사람을 불쾌하게 하거나 그녀의 명성에 도움이 되는 것으로 영향을 미치지 않는 방식으로 반응해야 하기 때문이다. 이런 부탁을 하기 위해 발화자speaker는 동료에게 먼저 칭찬(최근 교직상이나 보조금 대회에서의 성공)을 할 수 있는데, 이는 동료의 이미지를 높여 (동료의) 긍정적인 체면을 구제redress해주고, 도움을 청할 수 있는 이유를 설명해줌으로써 자신의 체면을 구제redress해준다. In the setting of a face threatening act (FTA), we often invoke linguistic strategies to mitigate against potential loss of face, for both the speaker and hearer (the terminology used as the theory was developed based mostly on oral language). One common example of a face threatening act is asking a colleague for a favour. It is potentially face-threatening for the person asking as there is a possibility that he may be turned down, become indebted to the hearer, or be seen as needy. It is also face threatening to the hearer, as she is imposed upon and must respond in a way that does not offend the speaker or affect her reputation as being helpful. To make such a request, the speaker may choose to compliment his colleague on something first (her recent teaching award or success at a grant competition), which redresses her positive face by enhancing her self-image and redresses his face by explaining why one might seek her assistance.
우리가 더 흔히 접하는 듣는이hearer의 '부정적인 체면'을 구제하는 방법은, '귀찮게 해드려서 정말 죄송합니다' 또는 '당신이 얼마나 바쁜지 알아요'와 같은 문구를 사용하는 것이다. 브라운과 레빈슨(1987)은 이러한 언어 전략이 말하는 사람과 듣는 사람에게 미치는 영향과 함께 체면을 구제하기 위해 사용되는 언어의 종류를 이해하기 위한 명확한 틀을 개발했다. 예의 전략이 사용되는 정도와 채택된 전략의 유형은 행위가 위협적인 상황에 직면해 있다고 간주되는 정도를 반영한다. More commonly we redress hearers’ so-called ‘negative face’ by using phrases such as ‘‘I’m so sorry to bother you’’, or ‘‘I know how busy you are’’, which addresses their desire to not be interfered with. Brown and Levinson (1987) developed an explicit framework for understanding the types of language used to redress face along with the effects that these linguistic strategies have on the speaker and hearer (or writer and reader). The degree to which politeness strategies are used—and the types of strategies employed—reflect the degree to which an act is considered to be face threatening.
[헷징hedging]은 이러한 예의체계 안에 있는 체면상실을 완화하기 위해 사용되는 매우 일반적인 전략 중 하나이다. 브라운과 레빈슨은 헤지(hedge)를 "멤버십 정도를 수정하는 단어 또는 구절"로 정의하며, 멤버십 정도가 "일부적"이거나 특정 측면에서만 진실이라고 말한다(브라운과 레빈슨 1987, 페이지 145). 의사-의사 담론의 위험회피에 대해 연구한 Prince를 포함한 다른 연구자들은 위험회피에 대해 추가로 정의하고 분류하였다(Prince et al. 1982, 페이지 93). Hedging is one very common strategy used to mitigate against loss of face that sits within this politeness framework. Brown and Levinson define a hedge as a ‘‘word or phrase that modifies the degree of membership … in a set’’; it says that the membership is ‘‘partial, or true only in certain respects’’ (Brown and Levinson 1987, p. 145). Other researchers have further defined and categorized hedges, including Prince, who studied hedging in physician–physician discourse (Prince et al. 1982, p. 93).
Prince는 두 가지 주요 유형의 헷지를 보고했다: 근사치와 방패.
근사치는 두 가지 방법 중 하나로 명제의 '진실 조건'에 영향을 미친다.
어댑터는 용어를 비전형적non-prototypical 상황(예: ''환자의 발이 약간 파랗다'')에 적응시키고,
라운더는 항이 숫자의 반올림 표현(예: ''혈압은 약 120/80'')임을 나타낸다.
Prince reported two main types of hedges: approximators and shields.
Approximators affect the ‘truth conditions’ of a proposition in one of two ways:
adaptors adapt a term to a non-prototypical situation (e.g., ‘‘the patient’s feet were a little bit blue’’) and
rounders indicate that a term is a rounded-off representation of a number (e.g., ‘‘the blood pressure was about 120 over 80’’).
방패는 명제의 '진실 조건'에 영향을 미치지 않는다. 오히려 발언자가 "실제로 얻어진 것affairs의 관련성 상태에 대한 믿음"에 완전히 전념하지 않는다는 것을 암시한다(Prince et al. 1982, 페이지 89).
귀속 방패는 진술을 작성자가 아닌 다른 사람에게 귀속시키는 역할을 하는 반면,
개연성 방패는 발표자/작가가 진술의 진실에 전적으로 헌신하지 않는다는 것을 표시함으로써 의심의 요소를 도입한다(예: 전공의와의 짧은 만남 중…).
Shields do not affect the ‘truth conditions’ of their propositions; rather they implicate that the speaker ‘‘is not fully committed to the belief that the relevant state of affairs actually obtains’’ (Prince et al. 1982, p. 89).
Attribution shields serve to attribute the statement to someone other than the writer, whereas
plausibility shields introduce an element of doubt, by allowing the speaker/writer to indicate that s/he is less than fully committed to the truth of the statement (e.g., ‘‘during my brief encounters with the resident…’’).
이는 보다 최근에Fraser가 제안한 헷징 개념화와 유사하며, Fraser는 헷징이 [언어적 장치]를 사용하여 발표자가 말한 것에 대한 [약속commitment이 없음]을 표시함으로써, 체면을 세울 수 있는 수사적 전략이라고 언급한다(Fraser 2010). 우리의 맥락에서 위험회피에 대해 이해하기 위해, 전공의의 지식 기반이 "평균보다 약간 낮은" 것처럼 보인다는 주치의의 서면 의견을 생각해보자. 브라운과 레빈슨에 따르면, Prince와 Fraser 모두에게 이 진술은 '헷징'이다.
'어댑터'(전공의가 평균 이하의 범주에 완전히 포함되지 않음을 나타냄)로 간주될 수도 있고
'방패'(전공의가 평균 미만이라는 주장을 전적으로 약속하지 않음을 나타냄)로 간주될 수 있다.
This is similar to a more recent conceptualization of hedging by Fraser, who states that hedging is a rhetorical strategy by which a speaker, using a linguistic device, can save face (for himself or others) by signalling a lack of commitment to what is said (Fraser 2010). To understand hedging in our context, consider an attending’s written comment that a resident’s knowledge base seems ‘‘a little below average’’. According to Brown and Levinson, as well as to both Prince and Fraser, this statement is hedged.
It could be considered an ‘adaptor’ (indicating the resident isn’t fully in the category of below average) or
it could be a ‘shield’ (indicating that the attending isn’t fully committed to the assertion that the resident is below average).
헷지는 [표현의 의미적 범주에 대한 완전한 확약을 나타내지 않는 것]을 뜻하며, 일종의, 거의, 대략 등의 문구로 나타낼 수 있다. 헷지의 또 다른 방법은 speech가 표현하는 힘에 전적으로 전념하지 않는 것입니다. 예를 들어 I suppose, maybe, 또는 I think와 같은 문구를 사용하는 것입니다. Hedges that indicate less than full commitment to the semantic category of an expression can be represented by phrases such as sort of, almost,or like. Another way to hedge is by not commi tting fully to the force of the speech being expressed, by using phrases such as I suppose, perhaps, or I think.
요약하자면, 서면 평가는 의학 교육의 중요성이 높아질 가능성이 높지만, 종종 모호하고 해독하기 어려울 수 있습니다. 언어적 실용주의, 특히 예의 이론과 헷징은 평가 언어의 모호함을 이해하고 이해하는 데 도움이 될 수 있습니다. To summarize, written assessments will likely take on increasing importance in medical education, yet are often vague and can be frustrating to decode. Linguistic pragmatics—in particular, politeness theory and hedging—might help us understand and make sense of some of the vagueness in assessment language.
방법 및 분석 Methods and analysis
우리는 토론토 대학교 내과과 1학년 레지던트(PGY1)의 단일 코호트에 대한 ITER 양식을 취합했습니다(n = 63). 이 프로그램의 각 전공의는 평균 9번의 로테이션을 완료하며, 이 회전을 위해 ITER가 생성됩니다. 매 로테이션이 끝날 때마다 담당의사가 평가 대상 레지던트에 대한 단일 ITER를 완료합니다. We compiled ITER forms for a single cohort of first year residents (PGY1’s) in Internal Medicine at the University of Toronto (n = 63). Each resident in this program completes an average of nine rotations for which ITERs are generated. The attending physician at the end of every rotation completes a single ITER for the resident being assessed.
이 분석에서는 극단적 집단이 특이하거나 표준과 다르기 때문에 더 "정보가 풍부"할 수 있고, 비교의 유용한 근거를 제공할 수 있기 때문에 [최고 등급]과 [최저 등급]의 전공의를 포함하기로 결정했다. (Patton 2002) For this analysis we chose to include the highest and lowest rated residents, as extreme groups can be more ‘‘information rich’’ because they are unusual or differ from the norm, and can provide a useful basis for comparison. (Patton 2002)
코딩은 Brown과 Levinson의 예의 프레임워크을 사용하여 (아래에 자세히 설명된 바와 같이) 각 주석 상자에 대한 한 줄씩 접근하는 것으로 시작되었습니다. 프레임워크는 이러한 목적을 위한 두 가지 관련 섹션으로 구성되어 있다:
긍정적인 체면을 다루는 전략 (작성자가 독자가 원하는 것을 표시함으로써)
부정적인 체면을 다루는 전략 (본질적으로 "[작성자]가 수취인의 행동의 자유를 방해하지 않을 것임을 보증하는 것 … 자기 만족, 격식 및 구속"
Coding began with a line-by-line approach to each comment box (as described in more detail below) using Brown and Levinson’s politeness framework. The framework has two relevant sections for this purpose:
strategies addressing positive face (by indicating that the writer wants what the reader wants) and
strategies addressing negative face (which essentially ‘‘consist in assurances that the [writer] will not interfere with the addressee’s freedom of action …self-effacement, formality, and restraint’’ (Brown and Levinson 1987, p. 70).
표 1은 우리의 데이터와 관련된 전략의 정의와 대표적인 인용문을 포함하고 있다. Table 1 contains definitions of the strategies that were relevant to our data, along with representative quotations.
반복적인 읽기 및 분석에서 우리는 헷징이 만연하다는 것을 발견하였고, 도입부에서 간략히 언급한 Prince et al.(1982)가 제안한 보다 상세한 개념화를 사용하여 이를 코드화하였다. 저자에 따르면 헷징은 일반적으로 두 개의 부분집합을 갖는 '방패'의 형태로 표현된다. On iterative reading and analysis we discovered that Hedging was pervasive so we coded it further by using the more detailed conceptualization proposed by Prince et al. (1982) that was briefly mentioned in the introduction. According to the authors, hedging is commonly expressed in the form of ‘shields’, which have two subsets.
[귀인 방패]는 문장을 작성자가 아닌 다른 사람에게 귀속시키는 역할을 합니다. 그들은 전달된 진술이 때로는 특정되고 때로는 그렇지 않은 다른 누군가에게 귀속되어야 한다는 것을 암시한다. 일반적인 예로는 'A의 가르침에 대해 하우스 스태프가 정말 고마워했다' 또는 'B의 수행에 대해 수많은 의견을 받았다'와 같은 문구들이 있다. '분명히 노력한다' 또는 '명백하게 뛰어난 의사소통 능력을 가지고 있다'와 같은 진술도 누구나 또는 모두가 같은 결론에 도달한다는 것을 암시하기 때문에, 이러한 진술도 반드시 작가 자신의 신념에 관한 것은 아니다. 즉, 진술서에 대한 "저자 자신의 헌신commit의 정도"는 쓰여진 내용에서 간접적으로 추론가능할 뿐이다. (Prince et al. 1982) Attribution shields serve to attribute the statement to someone other than the writer. They imply that the statement conveyed is to be attributed to someone else, sometimes specified and sometimes not. Common examples are phrases such as, ‘‘the housestaff really appreciated A’s teaching’’, or ‘‘I received numerous comments about B’s performance’’. Statements such as ‘‘Clearly making an effort’’ or ‘‘Obviously has excellent communication skills’’ are also attribution shields as they imply that anyone – or everyone – would come to the same conclusion and thus these statements are not necessarily about the writer’s own beliefs. That is, the writer’s ‘‘own degree of commitment to the statement is only indirectly inferable’’ from what is written. (Prince et al. 1982)
[개연성 방패]는 스피커/작성자가 자신의 진술의 진실에 완전히 충실하지 못함을 표시함으로써 의심의 요소를 유발합니다. 화자가 [그럴듯한 이유를 근거로 주장]을 하고 있기 때문에 그것들은 [개연성 방패]라고 불립니다. 일반적인 예로는 ‘‘I believe’’, ‘‘I think’’, ‘‘it is possible’’, ‘‘right now’’ 등의 구절이 있습니다. 작성자가 의식적이든 아니든 이러한 문제에 대해 자신의 의견을 해석할 수 있는 그럴듯한 근거로서 주의를 끌기 때문에, [훈련 단계 또는 연중 시기] 를 표시하는 방식으로 서술된 진술도 개연성 방패로 간주될 수 있다. Plausibility shields introduce an element of doubt by allowing the speaker/writer to indicate that s/he is less than fully committed to the truth of the statement. They are called Plausibility shields because the speaker is making an assertion based on plausible reasons. Common examples are phrases such as, ‘‘I believe’’, ‘‘I think’’, ‘‘it is possible’’, ‘‘right now’’, etc. Statements that are marked by notation of stage of training or time of year may also be considered plausibility shields as the writer is – consciously or not – drawing our attention to these issues as a plausible basis on which to interpret their comments.
일차 코딩은 SG에 의해 수행되었으며, SG와 LL은 함께 프레임워크의 새로운 이해와 적용을 논의했다. SG와 LL은 데이터의 특정 예시와 함께 문헌의 사례를 사용하여 코드의 정의에 대한 이해를 도전하고 확장하며 세분화했다. 익명이기 때문에 우리는 그들의 언어 사용 이면에 있는 작가들의 의도를 파악할 수 없었습니다. 따라서 다른 연구자들과 함께, 우리는 논평이 진심이며, 이 맥락에서 사용되는 언어가 다른 서면 또는 구어 텍스트와 같은 방식으로 해석될 수 있다는 특정한 가정을 가지고 프레임워크를 적용했다.
Primary coding was done by SG, who discussed the emerging understanding and application of the framework with LL. SGand LLworked together to challenge, expand and refine their understanding of the codes’ definitions as they apply to our narrative data using examples from the literature along with specific exemplars from our data. Because the comments were anonymized, we could not determine the writers’ intentions behind their language use. In keeping with other researchers, we therefore applied the frameworks with certain assumptions: that the comments were meant to be sincere and that the language used in this context would be interpretable in the same way as other written or spoken text.
성찰성 Reflexivity
결과 Results
브라운과 레빈슨의 예의 틀의 몇 가지 요소들은 우리의 데이터에 쉽게 적용될 수 있었습니다. 구어에도 상당 부분 적용되는 틀이 꽤 구체적이기 때문에 모든 예의 전략이 관련 있는 것은 아니다. Several elements of the politeness framework from Brown and Levinson were easily applicable to our data. As the framework is quite detailed, with much of it applying to spoken language, not every politeness strategy was relevant.
긍정적 체면을 다루기 위한 전략 Strategies to address positive face
브라운과 레빈슨에 따르면 긍정적 체면을 다루기 위해 사용되는 가장 일반적인 전략은 "과장적 관심"이라고 불린다(브라운과 레빈슨 1987, 페이지 104). 이 전략을 통해 작가는 그들의 관심과 찬성을 과장하기 위해 강조 강화적인 수식어를 사용한다. 여기에는 '절대 탁월함', '슈퍼스타', '매우 철저하고 꼼꼼함' 등의 문구가 포함되었습니다. 또한, "모든 면에서 우수한 레지던트!"와 같이 느낌표를 포함한 작가들이 여기에 모두 코드화 된 사례도 있다. 비록 '과장exaggerate'이라는 용어는 주치의가 레지던트를 실제 모습보다 더 나은 것처럼 보이려고 노력한다는 것을 의미할 수 있지만, 이러한 종류의 언어에서 보이는 극단적extreme인 말은 주치의 의견의 진실된 반영일 수도 있다. 고평가군의 약 3분의 1에서 exaggerated interest가 나타났지만, 저평가군의 경우는 2%에 불과했다. The most common strategy used to address positive face, according to Brown and Levinson, is called ‘‘exaggerate interest’’ (Brown and Levinson 1987, p. 104), by which the writer uses emphatic intensifying modifiers to exaggerate their interest and approval. This included phrases such as ‘‘Absolutely outstanding’’, ‘‘superstar’’ and ‘‘extremely thorough and meticulous’’. In addition, instances in which writers included exclamation marks were all coded here, such as, ‘‘Excellent resident in all respects!’’ Although the term ‘exaggerate’ may imply that the attending is trying to make the resident seem better than they were, it is possible that the extremes seen in this sort of language may actually be sincere reflections of an attending’s opinion. Exaggerated interest was seen in about a third of the high-rated group but only in 2 % of the low-rated.
두 번째 전략은 "그룹 내 정체성 표식기"를 저자와 수령자(전공의) 사이의 공통점을 주장하는 방법으로 사용하는 것이다(브라운과 레빈슨 1987, 페이지 107). 레지던트, 수련생, 임상의, 컨설턴트 또는 의사, 또는 존댓말 '닥터'가 포함된 문구가 여기에 포함되었다. 비록 우리 데이터의 맥락(전공의 평가)에 따라 그룹 내 표지를 예상할 수 있지만, 이 용어들은 낮은 등급(59 대 37%; v2 = 17, p\0.001)과 비교하여 높은 등급 그룹에서 더 자주 사용되었음을 주목하는 것이 흥미롭다. A second strategy is to use ‘‘in-group identity markers’’ as a way to claim common ground between the writer and recipient (Brown and Levinson 1987, p. 107). Phrases that include the word resident, trainee, clinician, consultant or doctor, or the honorific ‘‘Dr.’’ were included here. Although in-group markers can be expected given the context of our data (evaluation of residents) it is interesting to note that these terms were used more often in the high-rated group compared to the low-rated (59 vs. 37 %; v2 = 17, p\0.001).
세 번째 공통 전략은 비록 상징적으로 레지던트가 ''함께 일하는 것이 정말 즐겁다'' 또는 ''훌륭한 일'' 또는 ''팀으로부터 좋은 호감을 받았다''고 써서 "선물이나 칭찬을 하는 것"이다(브와 레빈슨 1987, 페이지 129이다. 다시 말하지만, 이러한 현상은 낮은 등급(53 대 27%, v2 = 25, p\0.001)보다 높은 등급 그룹에서 더 흔했습니다. A third common strategy is to ‘‘Give gifts or compliments’’ (Brown and Levinson 1987, p. 129), albeit symbolically, by writing that a resident is ‘‘a real pleasure to work with’’, or did ‘‘a great job’’ or was ‘‘well-liked by the team’’. Again these were more common in the high-rated group than the low-rated (53 vs. 27 %; v2 = 25, p\0.001).
부정적 체면을 해결하기 위한 전략 Strategies to address negative face
부정적 체면을 다루기 위해 일반적으로 사용되는 하나의 언어 전략은 '관습적 간접성'이라고 불리며, 관습상 [문자 그대로의 의미와 다른] [모호하지 않은 의미]를 띠게 된 단어나 구를 사용하는 것이다(브라운과 레빈슨 1987, 페이지 132). 보건 전문 교육 맥락에서 전형적인 예는 '좋은'이라는 단어를 사용하는 것이다. 이 단어는 '평균 미만'의 코드 단어로 이해된다(Kiefer et al. 2010). 다른 관례적인 간접 문구로는 "안정적solid"과 "기대 충족"이 있습니다. 이러한 전략은 높은 등급의 그룹(41 대 15%, v2 = 38, p\0.001)보다 낮은 등급의 그룹에서 더 일반적이었다. One linguistic strategy commonly used to address negative face is called ‘‘conventional indirectness’’, which is the use of words or phrases that, by virtue of convention, have come to take on unambiguous meanings that are different from their literal meanings (Brown and Levinson 1987, p. 132). A classic example in the health professional education context is the use of the word ‘‘good’’, which is understood to be a code word for ‘‘below average’’ (Kiefer et al. 2010). Other conventionally indirect phrases include ‘‘solid’’ and ‘‘met expectations’’. These strategies were more common in the low-rated than the highrated group (41 vs. 15 %; v2 = 38, p\0.001).
브라운과 레빈슨이 보고한 두 번째 공통 전략은 작가가 [자신의 주장] 또는 [수신자(전공의)]로부터 거리를 두기 위해 이름과 대명사를 생략함으로써 '비인간화impersonalize'하는 것이다(브라운과 레빈슨 1987, 페이지 190). 다음 예를 고려해 보십시오. A second common strategy, reported by Brown and Levinson, is to ‘‘impersonalize’’ by leaving out names and pronouns to distance the writer from the assertions made or from the recipient (Brown and Levinson 1987, p. 190). Consider the following example:
매우 유능한 팀 리더이자 팀 플레이어입니다. 하급 직원들이 존경했다. 좋은 선생님. 환자, 가족 및 기타 의료 전문가에 대해 매우 전문적이고 존중합니다. 매우 열심히 일하며 환자/가족과 함께 많은 시간을 할애하여 문제를 해결하고자 합니다. 철저한 평가 및 퇴원 계획. Very competent teamleader and teamplayer. Looked up to by junior housestaff. Great teacher. Very professional and respectful of patients, families, and other health professionals. Very hard working and willing to spend a lot of time with patients/families ensuring issues are addressed. Thorough assessments and discharge plans.
헤징 Hedging
"약 2주 동안만 그와 교류했지만"이라는 문구 또한 데이터에서 발견한 가장 일반적인 언어 전략을 처음으로 보여줍니다. 데이터에 만연했던 헷징은 저성과 전공의의 의견 94%와 고성능 전공의의 의견 71%에 포함되었다(v2 = 27, p\ 0.001). 일반적인 헷징의 몇 가지 예로는 "진료/진료 차트를 시작하는 데 있어 좀 더 빠르게 진행될 수 있었을 것" 또는 "꽤 독립적으로 잘 작동될 것"과 같은 문구들이 있다. ''could have', ''little more', ''fairy'라는 단어는 [진술의 '진실 상태']나 저자의 [주장에 대한 헌신]에 영향을 미치기 때문에 헷지이다. 첫 번째 경우, 주치의가 ''클리닉을 시작할 때 더 빨리 시작했어야 했다"라고 썼다면 모호함의 여지가 없었을 것이다. 대부분의 위험회피는 [귀인 방패] 또는 [개연성 방패]로 추가로 분류할 수 있었다. 표 2에는 근사치와 보호막을 포함한 하위 유형의 위험회피에 대한 추가 정의와 예가 포함되어 있다. The phrase ‘‘Although I only interacted with himfor about 2 weeks’’ also offers a first look at the most common linguistic strategy we found in our data: Hedging, which was pervasive in our data, being present in 94 % of comments from low-performing residents and in 71 % of comments from high-performing residents (v2 = 27, p\0.001). Some examples of general hedging include phrases such as ‘‘could have been a little more rapid in starting the clinic/picking up charts to get going’’ or ‘‘works well, fairly independently’’. The words ‘‘could have’’, ‘‘a little more’’, and ‘‘fairly’’ are hedges because they affect either the ‘truth condition’ of the statement or the writer’s commitment to the assertions made—in the first instance the attending could instead have written ‘‘should have been more rapid in starting the clinic’’ which would leave no room for doubt. Most hedges were further classifiable as either Attribution or Plausibility Shields. Table 2 contains further definitions and examples of subtypes of hedging including Approximators and Shields.
문장을 작성자가 아닌 다른 사람에게 귀속시키는 [귀인 방패]는 높은 등급의 그룹(39 대 23%, v2 = 12, p = 0.001)보다 낮은 등급의 그룹에서 더 일반적이었다. 어떤 경우는, 명시적인 대상을 포함했다(예: "하급 housestaff들에 의해" 또는 "복수의 직원이 제안하는 …"). 또는 암묵적인 경우도 있어서 (예: "관심 없음" 또는 "약점이 식별되지 않음" 등)은 어떤 사람도 구체적으로 명시하지 않았다. 종종 'X가 훌륭한 컨설턴트가 될 것이라고 확신한다' 또는 '모두가 우수 레지던트가 될 것으로 느낀다'와 같은 속성이 공유되었다. 따라서 귀속 방패는 글쓴이 자신의 주장을 숨김으로써 글쓴이를 보호하는 역할을 한다. Attribution shields, which attribute statements to someone other than the writer, were more common in the low-rated than the high-rated group (39 vs. 23 %; v2 = 12, p\0.001) and included instances in which attribution was explicit (e.g., ‘‘looked up to by junior housestaff’’, or ‘‘comments from multiple staff suggest …’’) or implicit, such as ‘‘no concerns’’ or ‘‘no weaknesses were identified’’, without specifying by whom. Often the attribution was shared, e.g., ‘‘We are all confident that X will be an excellent consultant’’, or ‘‘Felt by all to be an outstanding resident’’. Attribution shields thus serve to protect the writer by obscuring his or her own contribution to the assertion.
의심 요소를 도입하는 [신뢰성 방패]는 높은 등급의 그룹 의견 44%보다 낮은 등급 그룹의 의견 67%에서 (v2 = 20, p\0.001)에 더 흔했다. 이러한 의견의 다수는 '나는 믿는다' 또는 '나는 생각한다'와 같은 구절을 포함했는데, 이는 작가가 그럴듯한 이유, 즉 그들 자신의 신념과 관찰에 근거하고 있다는 것을 나타낸다. Plausibility shields, which introduce an element of doubt, were more common, being present in 67 % of comments from the low-rated group and 44 % of the high-rated group comments (v2 = 20, p\0.001). Many of these comments included phrases such as ‘‘I believe’’, or ‘‘I think’’, which indicate that the writer is basing the assertions that follow on plausible reasons—their own beliefs and observations.
글쓴이는 '내가 관찰할 수 있는 한'이라는 오프닝 문구를 사용하여 그들이 지금 말하려는 것을 그들이 본 것 이상의 것을 알고 있다는 주장을 하지 않고 있음을 표시함으로써 회피한다. 이것은 전공의에 대해 (아마 다른 관찰에 근거하여) 다른 결론에 도달했을 수 있는 타인의 정당한 의견 불일치 또는 비판에 개방함으로써 작가와 전공의recipient의 체면을 보호합니다. 글쓴이는 자신이 주장하는 것에 대해 [그럴듯한 의심을 불러일으키기 위한 헷지]를 사용했기 때문에 정말로 "틀릴" 수 없다. 이 의견에는 귀인 방패(타인으로부터 받은 피드-포워드)도 포함되어 있습니다. By using the opening phrase ‘‘as far as I have been able to observe’’, the writer hedges what they are about to state by indicating that they are not making claims to know anything beyond what they’ve seen. This protects the writer’s and the recipient’s face, by leaving it open to legitimate disagreement or critique by others, who may have come to different conclusions about that resident (perhaps based on different observations). The writer can’t really be ‘‘wrong’’ because she used a hedge to create plausible doubt about what she asserted. Note that this comment also includes an attribution shield (the feed-forward received from others).
많은 [개연성 방패]들은 전공의의 훈련 단계나 연도를 나타내는 언어로 표시되었다. 예를 들어, '훈련 단계에 비해 우수한 지식 기반 보유' 또는 '훈련 단계에 비해 판단력 우수' 또는 'PGY2 레벨에서 수행할 수 있는 최고의 성과' 등이 있습니다. 이러한 진술은 전공의의 훈련 단계에 주목함으로써 자격을 갖췄거나 '표시'되었기 때문에 [개연성 방패]이며, 따라서 주장에 대한 그럴듯한 이유가 된다. '우수한 첫 달 레지던트', 또는 '훌륭한 시작'과 같은 비슷한 진술이 일년 중 시기에 이루어졌다. 이 작가들은 아마도 무의식적으로 그들의 논평이 조심스럽게 받아들여질 것이라는 것을 암시하고 있으며 해가 갈수록 상황이 변할 가능성에 대해 스스로 열어두고 있다. Many of the plausibility shields were marked by language denoting a resident’s stage of training or the time of year. For example, ‘‘Has an excellent knowledge base for his level of training’’, or ‘‘good judgment for level of training’’, or ‘‘as good as you can perform at the PGY2 level’’. These statements are plausibility shields because they are qualified, or ‘marked’, by noting the resident’s stage of training, and thus serve as plausible reasons for the assertion. Similar statements were made about the time of the year, such as ‘‘excellent first month of residency’’, or ‘‘excellent start’’. These writers may be implying—perhaps unconsciously—that their comments are meant to be taken cautiously, and are leaving themselves open to the possibility that things will change as the year progresses.
예의 전략이 없는 논평 Comments without politeness strategies
위에서 설명한 많은 예의 전략과 대조적으로, 우리는 또한 "Bald, on record (돌직구)"인 많은 논평의 예를 발견했는데, 이는 예의 언어가 전혀 포함되어 있지 않다는 것을 의미한다(브라운과 레빈슨 1987, 페이지 94). By contrast to the many politeness strategies described above, we also found many examples of comments that are ‘‘Bald, on record’’, meaning they include no politeness language at all (Brown and Levinson 1987, p. 94).
이 언어는 코멘트 전체에 흩어져 있지만 전체 코멘트 상자가 "Bald" 문장만 포함하는 경우는 드물었다(총 12개). Although this language could be found scattered throughout the comments it was rare for an entire comment box to contain only ‘‘bald’’ statements (12 in total).
고찰 Discussion
이러한 연구결과는 ITER 의견을 작성하는 것이 체면을 위협하는 행위라는 개념을 뒷받침한다. 다만 수신자의 체면만 위협하는 것은 아니다. 즉, '방패' 형태의 헷징의 반복적인 사용은 작성자가 자신의 체면을 보호하고 있었다는 것을 시사한다. These findings support the notion that writing ITER comments is a face-threatening act, but not just for the recipient—the recurrent use of hedging in the form of ‘shields’ suggests that writers were also protecting their own face.
주치의가 전공의에 대한 서면 코멘트를 하는 것이 왜 체면을 위협하는지 생각해 보는 것이 흥미롭다. 브라운과 레빈슨은 FTA의 가중치를 계산하기 위한 공식을 개발했다: 가중치 = D + P + R. 여기서
D는 distance로서 말하는 사람과 듣는 사람 사이의 사회적 거리(대칭 관계),
P는 power로서 듣는 사람이 말하는 사람에 대해 갖는 권력의 척도이다(브라운과 레빈슨 1987, 페이지 76).
R은 rank로서 특정 상황이나 문화에서 부담imposition의 정도 또는 '순위'이다.
It is interesting to consider why it is face-threatening for an attending to provide written comments about residents. Brown and Levinson developed a formula for calculating the weightiness of a FTA: Weightiness = D x P x R, where
D is the social distance between the speaker and hearer (a symmetrical relationship) and
P is a measure of the power that the hearer has over the speaker (an asymmetrical relationship; Brown and Levinson 1987, p. 76).
R is the ‘rank’ or degree of imposition of the act in a particular context or culture.
이 공식에서 참석자/연설자가 우월한 위치에 있기 때문에 상주자/청취자가 큰 힘을 갖지 못하고 FTA의 비중이 낮다고 가정할 수 있다. 그러나 Brown과 Levinson의 다음 예를 생각해 보십시오. 같은 회의보다 임금 인상을 원하는 직원과 은행장 회의를 하는데 직원이 총을 들고 있다. —청취자에게 갑자기 유리한 힘의 차이가 뒤집히고, 요구의 사회적 거리 및 순위가 동일하더라도 직면 위협(및 그 결과)은 매우 높아진다. 이는 극단적인 예이지만, 권력 차이power differential가 중요한 고려 사항이라는 점을 보여준다. From this formula one might assume that since the attending/speaker is in the superior position, the resident/hearer doesn’t have much power and the weight of the FTA is low. But consider the following example from Brown and Levinson: a bank manager meeting with an employee who wants a raise versus the same meeting but this time the employee is holding a gun—the power differential suddenly is flipped in favour of the hearer and the threat to face (and its consequences) are now very high, even with the same social distance and rank of the request. Although this is an extreme example, it illustrates the point that the power differential is an important consideration.
ITER 시스템에서, 전공의는 [(전공의의) 교사에 대한 평가]가 이들의 승진, 미래의 교육 및 감독 기회, 재정적 보상 또는 벌금의 계산 등 중요한 결과를 초래하기 때문에 중요한 권한을 가지고 있습니다. 이것은 우리 교수들은 종종 이해의 상충의 입장에 놓이며, 따라서 건설적인 피드백을 제공할 때 조심해야 하다고 제안했다. And in the ITER system, residents do have important power because their assessments of their teachers carry significant consequences, including the ability to affect promotion, future educational and supervisory opportunities, and the calculation of financial rewards or penalties. This suggests that our faculty are often in a position of conflict of interest and must tread carefully when giving constructive feedback.
헷징 및 기타 예의 전략도 일상적인 커뮤니케이션을 통해 전파된다. 인간은 사회적 존재이며 공손함은 관계를 형성하고 유지하는데 도움을 줍니다. 일렌이 예절 이론의 분석과 통합에서 설명했듯이, 브라운과 레빈슨은 예절을 "사회적 관계의 표현을 구성하고, [사회적 필요 및 지위와 상충되는 의사소통 의도에서 발생하는 대인관계 긴장을 해소]할언어적 방법을 제공한다는 점에서, 예절은 사회생활과 사회의 구조에 매우 중요하다. "고 이야기한다. Hedging and other politeness strategies also pervade regular day-to-day communication. Human beings are social creatures and politeness helps build and maintain relationships. As Eelen explains in an analysis and integration of theories of politeness, Brown and Levinson consider politeness to be ‘‘fundamental to the very structure of social life and society, in that it constitutes the expression of social relationships and provides a verbal way to relieve the interpersonal tension arising fromcommunicative intentions that conflict with social needs and statuses’’ (Eelen 2014).
교사, 코치, 멘토, 평가자, 심판 등 여러 가지 역할과 교육생과의 관계를 고려했을 때, 그리고 ITER의 여러 가지 동시 목적을 고려할 때, Elen이 설명한 갈등의 종류를 쉽게 상상할 수 있습니다. 그렇다면 피드백을 전달할 때 약간의 예의가 도움이 될 수 있고, 교수진이 덜 긍정적인 메시지를 전달해야 할 때 위험회피가 특히 흔하다는 것은 놀랄 일이 아니다. [귀인 방패]를 사용하면 특히 좋지 않은 뉴스의 요소가 있는 경우 발화자/저자가 자신의 [진술에 대한 책임을 회피]할 수 있습니다. 이러한 회피 동기는 낮은 등급low-rated의 전공의에 대한 언급을 할 때 거의 모든 곳에서 위험회피가 사용되는 원인이 될 수 있다. Given the multiple roles and relationships we have with our trainees—teacher, coach, mentor, assessor, judge—and the multiple,simultaneous purposes of ITERs in the first place, we can easily envision the kinds ofconflicts that Eelen describes. It should not be surprising then to see that a little politenesscan go a long way when delivering feedback, and that hedging is particularly commonwhen faculty must convey a less positive message. The use of attribution shields can allowthe speaker/writer to evade responsibility for their statements, especially if there is some element of bad news. This motive of evasion may be responsible for the near ubiquitous use of hedging when commenting on low-rated residents.
하지만, 이것은 [왜 그것이 높은 등급의 전공의들에게 그렇게 흔한지] 설명하지 못한다. 이 연결실체에서 위험회피에 대한 잠재적 설명 중 하나는 공손함politeness이 원활하고 조화로운 관계를 보장하기 위한 [사회생활의 기본]이라는 개념과 관련된다. 이러한 관점에서 볼 때, 헷징이 필수적인 사회적 기능을 한다는 점에서, 그 자체를 근본적인 문제로 간주하여서는 안 된다. However, this doesn’t explain why it would be so common in high-rated residents. One potential explanation for hedging in this group relates to the notion that politeness is fundamental to social life for ensuring smooth, harmonious relationships. Considered in this light, hedging should not be deemed as fundamentally problematic as it serves an essential social function.
앞 단락의 설명에서는 서면 의견의 [주요 수신자]가 전공의라고 가정하지만, ITER는 프로그램 책임자와 기타 참석자를 포함한 [여러 대상자]에게 [다양한 용도]로 사용됩니다. 이러한 다른 대상자들이 야기하는 표면적 위협은 다른 상황에서 위험회피의 만연성을 고려한다면 더 잘 이해할 수 있을 것이다. 예를 들어, 일부 언어학자들은 과학적 담론의 위험회피에 대해 연구하였고 특히 연구 문헌(Myers 1989; Salager-Meyer 1994)에서 위험회피가 일반적이라는 것을 발견했다. 예를 들어, 성가신 문제나 질병의 "원인"에 대한 "해답"을 찾았다고 주장하는 연구자들을 보기 힘들다. 대신에 연구자들은 "A, B 또는 C가 X, Y, Z의 원인이 될 수 있는 요인일 수 있다는 증거를 발견했다"고 진술할 가능성이 훨씬 더 높다. The explanations in the preceding paragraph assume that the main recipient of the written comments is the resident, yet we know that the ITER serves multiple purposes for multiple audiences, including program directors and other attendings. The face-threat created by these other audiences may be better understood by considering the pervasiveness of hedging in other situations. For example, some linguists have studied hedging in scientific discourse and have found that it is the norm especially in the research literature (Myers 1989; Salager-Meyer 1994). For example, one rarely sees authors claiming to have found ‘‘the answer’’ to a vexing problem or ‘‘the cause’’ of a disease. Instead, researchers are far more likely to state that they ‘‘have found evidence that suggests that A, B or C may be factors that could be responsible for X, Y or Z’’.
'''제시되는 증거''', ''아마도'' 및 ''아마도''라는 문구는 [개연성 방패]이다. 이러한 종류의 위험회피의 한 가지 이유는 작성자의 주장이 후속적으로 신용이 떨어지거나 재현할 수 없는 경우에 대비하여 연구자 본인의 체면을 보호하기 위함이다. 그것은 또한 다른 결과나 의견을 발표했을 수 있는 다른 연구자들의 체면을 보호해줍니다. 이 전략은 또한 전문지식과 연공서열이 다른 (그리고 종종 알려지지 않은) 많은 독자들이 있을 수 있다는 것을 고려한다.; 헷징은 [부정적인 예의 전략]으로서, 작가를 겸손하게 묘사함으로써 넓고 다양한 독자들에게 존경을 표한다. The phrases ‘‘evidence that suggests’’, ‘‘may be’’ and ‘‘could be’’ are plausibility shields. One reason for this sort of hedging is to protect the face of the author in case his or her claims are subsequently discredited or not reproducible. It also protects the face of other researchers who may have published differing results or opinions. This strategy also takes into account that there may be many different (and often unknown) readers with differing levels of expertise and seniority; hedging, as a negative politeness strategy, pays deference to a broad and diverse audience, by portraying the writer as humble.
ITER 의견에도 동일한 논리가 적용된다. 작성자(즉, 담당 의사)는 작성자와 비교했을 때 전문성의 수준이나 지식의 수준이 다른 여러 유형의 독자(전공의, 프로그램 감독, 역량 또는 항소 위원회 등)가 있을 것이라고 가정한다. 한 주치의가 다른 주치의보다 특정 전공의를 다소 높거나 낮게 평가하는 것이 이상치outlier일 수도 있고, 레지던트에 대한 그들의 의견이 잘못되었을 가능성도 꽤 있다. 특히 [귀인 방패]와 [개연성 방패]를 사용하여 헷징함으로써, 작성자는 [자신이 잘못될 수 있다는 인식]과 [타당한 근거에 기초한 의견]이라는 인식을 함축imply하는 것이다. The same logic applies to ITER comments—writers (i.e., attending physicians) assume there will be different types of readers (residents, program directors, competency or appeals committees, etc.), with different levels of expertise and knowledge relative to the writer. It is also quite possible that an attending might be found to be an outlier, or erroneous in their opinion of a resident, having rated them more or less highly than other attendings. By hedging—especially by using attribution and plausibility shields—the writer implies their awareness that they may turn out to be wrong and that their comments are opinions based on plausible evidence.
교육생들을 위한 헷징의 교육적 의미는 무엇입니까? 전공의들이 이 발언을 어떻게 읽거나 해석하는지는 아직 알 수 없지만, 여기에 제시된 이론적 틀을 바탕으로 예의 전략이 의도된 메시지를 모호하게 할 수 있다. [간접 언어indirect language]가 많을수록 오해를 받을 가능성이 높다(Bonnefon et al. 2011). 실제로 우리가 예의어를 사용하는 이유 중 하나는 직설성을 피하고 해석적 유연성을 만들기 위해서입니다. What are the educational implications of hedging for trainees? We don’t yet know how residents read or interpret these comments but, based on the theoretical frameworks presented here, it is possible that politeness strategies obscure the intended message. The more indirect language is, the more likely it is to be misunderstood (Bonnefon et al. 2011). Indeed, one reason that we use politeness language is to avoid directness and create interpretive flexibility.
반대로, 전공의는 ITER 문맥에 정통한 사회 구성원으로서 ITER 논평에서 위험회피 및 기타 언어적 예의 전략을 식별하고 디코딩할 수 있습니다. 만약 그렇다면, 이러한 행위는 정중함 전략에도 불구하고 체면을 위협하는 특징을 여전히 유지할 것이며, 더 나아가 전공의들은 헷징을 읽어내어서, 직접 언급하지 않는 '더 나쁜' 것이 있다는 표시로 해석할 수 있다. 브라운과 레빈슨의 설명처럼, 작가가 FTA가 실제로 위험성이 높지 않을 때 고위험high-risk FTA에 적합한 전략을 쓴다면, 독자는 FTA가 예전보다 더 컸다고 추정할 것이다(브라운과 레빈슨 1987, 페이지 74). 따라서 잘못된 전략이나 너무 많은 예의 바른 언어를 사용함으로써 우리는 우리가 의도하는 것보다 받는 사람이 더 나쁘다는 인상을 줄 수 있습니다.
It is also possible that residents, as savvy social members of the ITER context, are able to discern and decode the hedging and other linguistic politeness strategies in ITER comments. If so, these acts will retain their face-threatening quality despite the politeness strategies and, furthermore, residents may read hedging as an indication that there is something ‘worse’ that is not being said. As Brown and Levinson explain, if a writer uses a strategy appropriate to a high-risk FTA when the FTA is actually not high risk, the reader will assume the FTA was greater than it was (Brown and Levinson 1987, p. 74). Therefore, by using the wrong strategy or too much politeness language, we may give the impression that things are worse for the recipient than we really intend.
우리 전공의 중 상당수가 영어가 모국어가 아니며, 특히 [문자 그대로의 뜻을 의미하지 않는non-literal 언어]가 오해를 살 수 있다는 문헌도 있다(Danesi 1993). 이러한 우려에도 불구하고, 컴퓨터 기반 과외에 관한 흥미로운 일련의 연구는 언어가 직접적인 것일 때보다 의도적으로 공손할 때 학생들이 실제로 더 많은 것을 배울 수 있다는 것을 시사한다. 이러한 '예절 효과'는 학생이 초보자인지 아니면 더 고급인지에 따라 달라질 수 있으며(McLaren et al. 2011), 온라인 학습 및 시뮬레이션 설정과 같은 의학교육 맥락에서 추가 탐구할 가치가 있을 수 있다. Another issue to consider is that for many of our residents English is not the native language, and there is literature suggesting that non-literal language can be particularly prone to misunderstanding (Danesi 1993). Despite these concerns, an intriguing line of research in computer-based tutoring suggests that students may actually learn more when language is deliberately polite than when it is direct (Wang et al. 2008). This ‘politeness effect’ may depend on whether students are novices or more advanced (McLaren et al. 2011) and may be worthy of further exploration in medical education contexts such as online learning and simulation settings.
목적과 해석 방식에 따라 거의 모든 것을 헷지로 사용할 수 있다(Fraser 2010). 해석은 맥락, 의미적 의미, 사용된 특정 위험회피, 수취인의 신념 체계에 따라 달라진다. 본 연구에서는 익명의 기존 데이터 세트를 사용했기 때문에, 익명성 문제를 무시할 수 없으며, 의도성intentionality에 대한 주장도 할 수 없습니다. 즉, 특정 주치의가 특정 코멘트에 의해 의도된 것이 무엇인지 확실히 알 수 없으며, 우리의 분석은 (불가피하게) 이러한 맥락이 없는 코멘트의 해석을 요구한다. 그러나 이전 연구를 통해 임상 감독자는 친절하고 자신의 코멘트로 인해 다른 사람의 기분을 상하게 하지 않으려는 강한 욕구를 가지고 있다는 것을 알고 있다(Ginsburg et al. 2015; Ilott and Murphy 1997). Nearly anything can be used as a hedge depending on how it is intended and interpreted (Fraser 2010). Interpretation depends on the context, the semantic meaning, the particular hedge used, and the belief system of the recipient. Because we used a pre-existing and anonymized data set for this study, we are unable to tease apart these issues and nor can we make claims regarding intentionality. That is, we cannot know for certain what a particular attending intended by any particular comment, and our analyses have, by necessity, required interpretation of these decontextualized comments. However, we do know from previous research that clinical supervisors have a strong desire to be nice and to not offend anyone with their comments (Ginsburg et al. 2015; Ilott and Murphy 1997).
게다가 밀스가 예의 이론에 대한 비판에서 지적했듯이, "예의는 [의도적이고 의식적인 언어적 선택]에서부터 [무의식적인 규칙이나 대본의 적용]에 이르기까지 모든 범위에 걸쳐 있다." (밀스 2003, 페이지 74) Further, as Mills points out in her critique of politeness theories, ‘‘politeness spans the full range from deliberate, conscious linguistic choices to the unconscious application of rules or scripts’’ (Mills 2003, p. 74).
항상 의도적인 선택이라기 보다는, 일부 [공손함 언어politeness language]는 "주어진 [주어진] 문맥과 관련된 규범에 적합하게 결정될 수 있다(Mills 2003, 페이지 67)". 우리의 맥락에서 이 언어선택의 일부는 상대적으로 무의식적인 것일 수 있으며, 이는 우리의 과학출판 문화처럼 일반적으로 우리의 평가 문화가 정중하고 회피적인 언어를 선호하고 촉진한다는 것을 시사할 수 있다. Rather than always being a deliberate choice, some politeness language may be ‘‘determined by conformity to the norms associated with the [given] context (Mills 2003, p. 67)’’. In our context it may be that some of this language choice is relatively unconscious, which might suggest that our culture of assessment in general prefers and promotes polite, hedging language, just as our culture of scientific publishing does.
Watling(2008)이 지적한 바와 같이, ITER 프로세스 개선을 위한 교수진 개발 노력은 실망스러웠습니다. 부분적으로는 피드백을 전달하는 데 있어 교수진의 기술을 향상시키는 데 중점을 두고 있으며, 이에 대한 전공의들의 수용성을 방치하고 있기 때문입니다. As Watling (2008) noted, faculty development efforts to improve the ITER process have been disappointing, in part because they focus largely on enhancing faculty skill in delivering feedback and they neglect residents’ receptivity to it.
예를 들어, 완료된 ITER의 품질을 평가하는 두데크 외 연구진(2008)은 "Excellent하게 작성된 ITER은 어떤 모습인가"에 대한 교수진의 인식을 반영한다. 흥미롭게도, ITER 품질 체크리스트의 9개 항목 중 7개 항목이 숫자 점수가 아닌 작성된 코멘트에 초점을 맞추고 있었고, 이는 교수 감독관들은 '코멘트'가 양식에서 매우 중요한 부분이라고 느끼고 있음을 시사합니다. For example, Dudek et al.’s (2008) work on evaluating the quality of completed ITERs reflects their faculty participants’ perceptions of how ‘‘excellent’’ completed ITERs should look. Interestingly, seven of the nine items on their ITER quality checklist focus on the written comments rather than the numeric scores, strongly suggesting that faculty supervisors feel the comments are a critically important part of the form.
피드백의 내용에 초점을 맞춘 "더 나은" 코멘트를 작성하도록 교수진을 훈련시키려는 노력이 일어났다(Dudek et al. 2013). 예를 들면,
강점과 약점을 모두 포함하는 "균형 잡힌" 코멘트를 제공한다.
'지지적 방식''으로 피드백을 제공한다.
피드백 또는 교정조치에 대한 수습생의 반응을 문서화합니다.
Efforts have arisen to train faculty to write ‘‘better’’ comments (Dudek et al. 2013), which focus closely on the content of the feedback, including instructions for faculty
to provide ‘‘balanced’’ comments that include both strengths and weaknesses,
to provide feedback in ‘‘a supportive manner’’ and
to document the trainee’s response to feedback or remediation.
안타깝게도, 교수진을 훈련시키는 것은 원하는 효과를 거두지 못했다(Dudek et al. 2013). Unfortunately, training faculty has not had the desired effect (Dudek et al. 2013).
우리의 연구 결과가 그 이유를 설명하는 데 도움이 될 수 있습니다. 첫째, "균형 잡힌" 코멘트는 비교적 열악한 전공의 성과를 나타내는 신호로 해석되는 경우가 많다(Ginsburg et al. 2015). 아마도 평가와 피드백의 개념이 ITER에 통합되기 때문에 좋은 "피드백" 관행이 이 맥락에서 완전히 적용되지 않을 수 있기 때문일 것이다. 둘째, '지원적' 방식으로 서면 피드백을 제공하려는 시도는 역설적으로 감독자가 덜 비판적으로 보이는 방법으로 더 많은 헷징과 간접 언어를 포함하도록 유도할 수 있다. Our findings may help to explain why. First, ‘‘balanced’’ comments are often interpreted as signalling relatively poor resident performance (Ginsburg et al. 2015), perhaps because concepts of assessment and feedback are conflated on an ITER, so that good ‘‘feedback’’ practice may not fully apply in this context. Second, the attempt to provide written feedback in ‘‘a supportive manner’’ may, paradoxically, lead supervisors to include more hedging and indirect language as a way to appear less critical.
우리가 연구에서 제시한 바와 같이, 그러한 헷징은 다른 교수들에게 [희미한 칭찬을 사용한 비판]으로 인식될 수 있다. ITER에 대한 교수진의 서면 의견을 개선하기 위한 현재의 접근방식은 역설적으로 교수진의 메시지가 왜곡될 수 있다는 점을 인식하고 신중하게 고려해야 합니다. 최소한, 우리의 결과는 어떻게 그것을 고칠지는 고사하고 서면 논평에서 어떤 것이 '고정fixed'되어야 하는지가 완전히 명확하지 않다는 것을 보여준다. Such hedging, as we’ve suggested in our study, may be perceived by other faculty as damning by faint praise. That current approaches to improve faculty’s written comments on ITERs may, paradoxically, distort their messages should be acknowledged and considered carefully. At a minimum, our results reveal that it is not entirely clear what (if anything) needs to be ‘‘fixed’’ in written comments, let alone how to fix it.
[예의 이론]은 서술적 평가 코멘트를 작성할 때 교수진의 모호하고 겉보기에 도움이 되지 않는 언어의 사용에 바탕을 둔 중요한 사회적 동기를 드러냅니다. 헷징과 같은 전략은 [낮은 등급의 전공의]에게 널리 사용되고, [높은 등급의 전공의]에게도 놀라운 빈도로 사용된다. 이는 교수진이 어려운 사회 평가 맥락에서 자신뿐만 아니라 전공의들을 위해 '체면 유지' 작업을 하고 있을 수 있음을 시사한다. 일반적으로 언어의 사회적 기능과 특히 예의는 필수적이고 중요하며 반드시 교정이 필요한 것으로 여겨져서는 안 된다. 어텐딩들에게 그들의 언어에 더 직접적으로 대해 달라고 부탁하는 것은 의도하지 않은 부정적인 결과를 초래할 수 있으며, 이는 코멘트 작성을 "개선"하기 위한 교수진 개발 이니셔티브에서 고려되어야 한다. Politeness theory reveals important social motives underlying faculty’s use of vague and seemingly unhelpful language when writing narrative assessment comments. Strategies such as hedging are used pervasively in low-rated residents and with surprising frequency in high-rated residents as well. This suggests that faculty attendings may be working to ‘‘save face’’ for themselves as well as for their residents in the difficult social context of assessment. The social function of language in general and politeness in particular are essential and important and should not necessarily be viewed as something in need of remediation. Asking attendings to be more direct in their language may have unintended adverse consequences which should be considered in faculty development initiatives to ‘‘improve’’ comment writing.
Adv Health Sci Educ Theory Pract. 2016 Mar;21(1):175-88.
doi: 10.1007/s10459-015-9622-0.Epub 2015 Jul 17.
Hedging to save face: a linguistic analysis of written comments on in-training evaluation reports
Written comments on residents' evaluations can be useful, yet the literature suggests that the language used by assessors is often vague and indirect. The branch of linguistics called pragmatics argues that much of our day to day language is not meant to be interpreted literally. Within pragmatics, the theory of 'politeness' suggests that non-literal language and other strategies are employed in order to 'save face'. We conducted a rigorous, in-depth analysis of a set of written in-training evaluation report (ITER) comments using Brown and Levinson's influential theory of 'politeness' to shed light on the phenomenon of vague language use in assessment. We coded text from 637 comment boxes from first year residents in internal medicine at one institution according to politeness theory. Non-literal language use was common and 'hedging', a key politeness strategy, was pervasive in comments about both high and low rated residents, suggesting that faculty may be working to 'save face' for themselves and their residents. Hedging and other politeness strategies are considered essential to smooth social functioning; their prevalence in our ITERs may reflect the difficult social context in which written assessments occur. This research raises questions regarding the 'optimal' construction of written comments by faculty.
WBA이해하기: 옳은 질문을, 옳은 방식으로, 옳은 것에 대해서, 옳은 사람에게 (Med Educ, 2012) Making sense of work-based assessment: ask the right questions, in the right way, about the right things, of the right people Jim Crossley1 & Brian Jolly2
도입 INTRODUCTION
역사적으로, 평가는 종종 [중요한 것]보다는 [측정 가능한 것]을 측정해 왔다. 그러나 지난 30년 동안 우리는 가장 중요한 것을 가르치고 평가하려고 점점 더 노력했습니다. Historically, assessments have often measured the measurable rather than the important. Over the last 30 years, however, we increasingly attempt to teach and assess what matters most.
이 개혁은 세 가지 주요 테마를 가지고 있습니다. This reformation has had three main themes:
첫째, Biggs와 Collis의 SOLO(관측된 학습 결과의 구조) 분류 체계에 반영되어 피상적인 [지식의 테스트]에서 [이해, 구성, 해석 테스트]로의 전환은 지식 테스트 설계의 발전에 대한 정보를 제공했습니다. First, the move from the testing of superficial knowledge towards the testing of understanding, construction and interpretation, reflected, for example, in Biggs and Collis’ SOLO (structure of observed learning outcomes) taxonomy,1 has informed developments in knowledge test design.
둘째, Bloom의 독창적인 분류법에 반영되어 기술과 태도가 지식만큼이나 중요할 수 있다는 인식이 새로운 형태의 임상 검사에 기여했습니다. Second, the recognition that skills and attitudes can be as important as knowledge, reflected in Bloom’s original taxonomy,2 has contributed to new formats of clinical examination.
마지막으로, 심리측정학적 관점은 평가자의 주관성과 성과에 대한 사례 특수성을 강조하면서 객관적 구조 임상 검사(OSCE)와 동의어 미니 임상 평가 연습(mini-CEX)과 같은 많은 다른 평가 형식에 걸쳐 복수의 '미니' 테스트 샘플을 향한 움직임을 촉발했다. Finally, psychometric perspectives, in highlighting assessor subjectivity and the case-specificity of performance,3 have prompted a move towards multiple ‘mini’ test samples across many different assessment formats, such as the objective structured clinical examination (OSCE) and the eponymous miniclinical evaluation exercise (mini-CEX).4
이러한 개발 중 다수는 [평가를 해체deconstructed]했으며, 일부는 결과적으로 [학습이 해체]되었다고 주장할 것이다. 즉, 평가된 행동을 하위 구성 요소로 나누거나, 그러한 방식으로 단순히 샘플링하는 것조차 학습자들이 [큰 그림]에 덜 집중하고 ['역량'을 뒷받침하는 (세부)요소]에 더 많이 집중하도록 강제mandated했습니다. Many of these developments have deconstructed assessments and, some would argue, consequentially deconstructed learning. That is, breaking the assessed behaviour into subcomponents, or even simply sampling it in that way, has mandated learners to focus less on the big picture and more on elements or underpinning ‘competencies’.
하지만 흥미롭게도, 역량 운동은 완전히 대조적인 방향을 제시하기도 했다. 실제 업무상 문제를 해결하기 위해 역량의 모든 요소들이 함께 통합되어야 한다고 주장했다.5 Miller의 피라미드는 다음의 것을 암시함으로써 이 아이디어를 잘 모델링한다.
[이해]에 지식은 필요하지만 충분하지 않다
[능력(또는 역량)]에 이해는 필요하지만 충분하지 않으며,
[실제 일상적 성과]에 능력은 필요하지만 충분하지 않다.6
피라미드의 각각의 새로운 층은 분리된 것을 재구성reconstruct합니다. Interestingly, however, the competency movement also provided an altogether contrasting direction. It argued that, in practice, all the component parts of a competence must be marshalled together and integrated to deal with real workplace problems.5 Miller’s pyramid6 models this idea well by implying that knowledge is necessary, but not sufficient, for understanding. Understanding is necessary but not sufficient for ability (or competence), and ability is necessary but not sufficient for actual day-to-day performance.6 Each new layer of the pyramid reconstructs what had been separated.
이는 통제된(비구축된) 환경에서 의사의 능력을 평가할 때 그들의 [실제 일상적 성과를 신뢰할 수 있게 예측하지 못한다]는 연구 결과가 입증되었기 때문에 평가에 매우 관련성이 높은 것으로 입증되었다. This proves to be highly relevant in assessment because studies have demonstrated that doctors’ abilities when assessed in a controlled (deconstructed) environment do not dependably predict their actual day-to-day performance.7,8
WBA 평가 결과 참여도가 낮고 신뢰성이 떨어짐 WBA evaluations show poor engagement and disappointing reliability
WBA는 다른 어떤 평가도 할 수 없는 것을 측정하기 때문에 전 세계 대학원 평가 프로그램에 빠르게 통합되었다. 예를 들어, 영국에서는 모든 왕립 대학의 프로그램에 등장한다. 그럼에도 불구하고 상대적으로 인기가 없었다. 영국 의과대학 아카데미의 보고서는 다음과 같은 여러 가지 조사를 요약하였다. Because WBA measures what noother assessments can, it has been rapidly incorporated into postgraduate assessment programmes around the world. In the UK, for example, it features in the programme of every Royal College.9 Nevertheless, it has been relatively unpopular. A report of the UK Academy of Medical Royal Colleges summarised a number of surveys thus:
'전문가는 전문가 행동의 복잡성을 평가하기 위한 환원적 "체크박스" 접근법의 사용을 의심하는 것이 당연하며, 개별 평가 방법의 기준, 방법 및 목표에 대해 광범위한 혼란이 존재한다… 이로 인해 현재 증가하고 있는 WBA에 대한 냉소가 확산되고 있다.' ‘The profession is rightly suspicious of the use of reductive ‘‘tick-box’’ approaches to assess the complexities of professional behaviour, and widespread confusion exists regarding the standards, methods and goals of individual assessment methods… This has resulted in widespread cynicism about WBA within the profession, which is now increasing.’9
많은 대학원 교육 프로그램에서 점수는 평가자 차이에 매우 취약한 것으로 나타났습니다. in many postgraduate training programmes, scores are found to be very vulnerable to assessor differences,
심리 측정학적인 관점에서, 교육생들 사이에서 [재현 가능한 차별화]를 위해 매우 많은 수의 평가자와 사례가 요구됩니다. from a psychometric perspective, very large numbers of assessors and cases are required to discriminate reproducibly among trainees.
앞으로 어떻게 하지? Where do we go from here?
이 백서에서는 몇 가지 기본적인 평가도구 설계 문제를 살펴봄으로써 WBA를 개선하기 위한 몇 가지 제안을 제공합니다. This paper offers some suggestions for improving WBA by looking at some basic instrument design issues.
방법 METHODS
우리는 프로세스의 끝점에서 시작합니다. 평가자들은 무엇을 측정하고 있으며 어디에 자신의 점수를 매긴다고 생각합니까? We start at the endpoint of the process. What do assessors think they are measuring and where do they put their mark?
결과 RESULTS
어떤 척도가 가장 잘 작동하나요? What scales work best?
평가자는 수행능력에는 동의할 수 있지만, 응답 척도는 다르게 해석합니다. Assessors may agree on performance, but interpret response scales differently
평가자 훈련과 몇 가지 표준 설정 절차에는 종종 평가자가 성과 표본을 독립적으로 평가(일반적으로 비디오로부터)한 후 차이를 논의하는 '표준화norming' 또는 '보정calibration' 그룹이 포함된다. 흥미롭게도, 관찰한 내용에 대해 의견이 일치하더라도 응답 척도에 대한 해석에 동의하지 않는 경우가 많습니다. Assessor training, and several standard-setting procedures, frequently include ‘norming’ or ‘calibration’ groups in which assessors independently rate a sample of performance (usually fromvideo) and then discuss any differences.12 Interestingly, they often disagree over their interpretations of the response scale even when they agree about what they have observed.
표 1은 미니 CEX, 사례 기반 논의(CBD) 및 절차 기반 평가(PBA) 도구에서 그러한 척도를 사용하는 몇 가지 예를 제공한다. 응답 척도는 다음과 같은 다양한 구성 요소 중 하나에 맞게 조정됩니다. 예를 들어,
서수적ordinal 성과 수준('공로'의 정도),
수련의 발달 수준,
'독립적 실무에 대한 준비 상태'와 같은 임상에 맞는 구조
Table 1 provides some examples of the use of such scales from the mini-CEX,4 case-based discussion (CBD)13 and procedure-based assessment (PBA)14 instruments. Response scales align themselves to one of a variety of constructs, including:
a trait with ordinal levels of performance (degree of ‘merit’);
a developmental level of training, and, rarely,
a clinician-aligned construct such as ‘readiness for independent practice’.
WBA 방법에 대한 대규모 연구의 일부로 수행된 비기술적 기술력(NOTTS)과 객관적 구조화된 기술력 평가(OSATS) 도구를 사용한 PBA의 병렬 평가는 다음을 시사했다. [PBA 글로벌 요약 척도]를 사용할 때, 평가자들은 다른 평가도구에 비교 가능한 척도를 사용할 때보다 훨씬 더 밀접하게 서로 동의했고 훨씬 더 차별적이었다. [PBA 글로벌 척도]는 임상 평가자의 전문성과 우선순위에 매우 잘 부합한다는 점에서 이례적이다. A parallel evaluation of PBA with the non-technical skills for surgeons (NOTTS) and objective structured assessment of technical skills (OSATS) instruments, undertaken as part of a large study of WBA methods,15 suggested that, when using the PBA global summary scale, assessors agreed with one another much more closely and were much more discriminating than they were when using comparable scales on the other instruments. The PBA global scale is unusual in being so well aligned to the expertise and priorities of clinician-assessors.
Crossley 등은 이 관찰과 관련하여 이러한 평가자 관련 정렬assessor-relevant alignment이 이 관찰이 WBA의 다른 방법으로 일반화되는지 여부를 평가하기 위해 설계된 연구에서 점수의 신뢰도를 향상시킨다는 가설을 테스트했다. With reference to this observation, Crossley et al.16 tested the hypothesis that such assessor-relevant alignment improved the reliability of scores in a study designed to evaluate whether this observation generalises to other methods of WBA.
그들은 [세 가지 WBA 방법]을 취했고, 기존의 기존 척도의 성과를 다른 곳에서 '위임가능성'으로 identified된 [임상적 정교화 및 독립성 개발]의 구조에 특별히 align된 새로운 척도의 성과와 비교했다. They took three methods of WBA and compared the performances of their existing conventional scales with those of new scales specifically aligned to the construct of developing clinical sophistication and independence, a construct that has been identified elsewhere as ‘entrustability’.17
[원래의 척도]는 [규범적]이고 [발전적]이었다. 예를 들어, 미니 CEX에서 우수한 성과에 대한 개발 설명자는 '고급 훈련 중에 예상되는 수준에서 수행'이 될 수 있다. 이러한 유형의 앵커는 WBA 방법에서 매우 일반적입니다. 그러나 [새로운 척도]는 '임상적으로 고정'되었다. 예를 들어, '기대 수준' 발달 설명자에 대한 동등한 임상 앵커는 다음과 같다. '우수하고 시기적절하게 상담 능력을 입증하여 복잡하거나 어려운 상황에서 종합적인 이력 및 검사 결과를 제공합니다. 접선 후 임상적으로 판단력이 우수합니다.'
The original scales were normative and developmental. For example, on a mini-CEX a developmental descriptor for a good performance might be ‘Performed at level expected during advanced training’. This type of anchor is very common across WBA methods. However, the new scales were ‘clinically anchored’. For example, an equivalent clinical anchor for the ‘expected level’ developmental descriptor is: ‘Demonstrates excellent and timely consultation skills, resulting in a comprehensive history and⁄ or examination findings in a complex or difficult situation. Shows good clinical judgement following encounter.’
새로운 척도가 임상 평가자의 관점에서 대학원 교육을 통해 진행 상황을 보다 효과적으로 반영할 수 있다면, 우리는 [두 가지 심리 측정 결과]를 찾을 수 있을 것입니다. If the new scale did indeed facilitate a more valid reflection of progression through postgraduate training in the eyes of clinician-assessors, we would expect to find two psychometric consequences:
1 괜찮은 성과자와 뛰어난 성과자가 광범위하게 뭉뚱그려졌음을 입증했던 이전 연구 결과와 대조적으로, 교육생은 더 광범위하게 변별discriminated되어야 한다(예: Nair et al. 1 trainees should be discriminated more widely, by contrast with the findings of previous studies, which demonstrated extensive clustering of good and high performers (e.g. Nair et al.10),
2 요구되는 표준에 대한 전반적인 인식과 특정 훈련생에 대한 응답 측면에서, 평가자들 사이에 더 나은 합의가 있어야 한다. 2 there should be better agreement among assessors, both in terms of their overall perception of the standard required and in their responses about particular trainees.
이것이 바로 결과가 보여주었던 것입니다. 단순히 척도를 임상 평가자의 우선순위에 맞춰 조정하는 것만으로 평가자 차별이 상당히 증가하고 평가자 불일치가 감소합니다. This is exactly what the results showed. Simply aligning the scale with the priorities of clinicianassessors substantially increased assessor discrimination and reduced assessor disagreement.
신뢰성은 현저하게 향상되었을 뿐만 아니라, 가변적인 맥락에서 사용되는 다양한 측정 도구에서도 향상되었다. 왜 이런 일이 일어났을까?
Not only did the reliability improve markedly, but it did so across a wide variety of measurement instruments used in variable contexts. Why did this happen?
응답 척도는 (평가자의) 인지 구조를 반영해야 한다. Response scales need to reflect cognitive structuring
이미 1980년에, 여러 관측자들은 [평가자의 인지 특성]이 유전적 또는 제도적으로 고정된 속성(예: 성별, 연령, 인종, 직업)보다 평가 과정에 더 큰 영향을 미친다고 언급했다. 많은 연구의 획기적인 검토에서, 예를 들어, 저자들은 [더 경험이 많고 인지적으로 복잡한 평가자]들이 후광 효과에 덜 민감하고, 또한 최소한의 서술자보다는 상세한 기준점을 선호한다고 제안했다. As long ago as 1980, various observers remarked that the cognitive characteristics of raters have greater influence on the rating process than more genetically or institutionally fixed attributes (e.g. sex, age, race, job). In a landmark review of many studies,19 the authors suggested, for example, that more experienced and more cognitively complex raters were less susceptible to halo effects and also preferred detailed anchors to minimal descriptors.
그들의 주요 결론은 다음을 시사했다. 우선 평정 양식의 포멧에 대한 연구 필요성은 적고(심지어 포맷-관련 연구에 대한 모라토리엄을 제안하기도 함), 그보다는 평가자의 인지 스키마를 이해하고 적절히 활용해야 한다는 것이다. their main conclusion suggested a lesser need to investigate the format of a rating form (and even suggested a moratorium on format-related research) than to understand, and appropriately utilise, the cognitive schema of the raters.
다른 증거는 평가자의 인지 프레임워크의 중요성을 확인하지만, 대응 형식이 이러한 프레임워크를 양호한 정렬good alignment에 의해 어떻게 활용할 수 있는지를 보여준다. 혁신적인 연구에서, 학생 청각학자들은 평가 척도에 대한 초기 교육을 받은 후, 네 가지 유형의 척도를 사용하여 음성 제작의 품질을 평가하도록 요청받았습니다. Other evidence affirms the importance of raters’ cognitive frameworks, but shows how the response format might exploit these frameworks by good alignment.20 In an innovative study, student audiologists, after initial training on the rating scales, were asked to rate the quality of voice production using four types of scale,
텍스트 앵커가 있는 척도는 앵커가 없는 척도에 비해 등급간 신뢰성이 높았지만
일반적으로 청각 앵커가 있는 척도에 비해 강하지 않았습니다.
텍스트 앵커와 청각 앵커의 조합은 평가자 간 신뢰도를 최대 수준으로 높였습니다.
Scales with textual anchors showed better inter-rater reliability than scales with no anchors,
but were generally not as strong as scales with auditory anchors.
The combination of textual and auditory anchors resulted in the greatest degree of inter-rater reliability
더 넓은 맥락에서, 이전에 식별한 바와 같이, WBA의 구조적 정렬construct alignment의 가치에 대한 연구는 주로 현장 연구로 구성된다. 저자들은 그 결과, 조사된 수행능력의 차원과 관련하여 이러한 연구를 비교하는 것은 어렵다고 강조한다. 각 분야, 전문 분야 및 전문직은 교육생을 평가하는 데 있어 무엇이 중요할 수 있는지에 대한 서로 다른 개념을 가지고 있으며, 따라서 [각 평가 수단들은 궁극적으로 고유하다]. 실제로 Crossley 등의 연구에서, 저자들은 [다양한 맥락에서 사용될 수 있는 평가]를 위한 [구체적인specific 임상적 앵커]를 작성하기 어려웠기 때문에 다양한 평가 양식에서 스케일 앵커는 '불편한 혼합uncomfortable mixture'을 나타내었다. 하지만, 그것이 요점일 수 있다: 응답 척도는 심판들의 현실 지도reality map에 맞춰져야 한다. In a wider context, as previously identified,19 research on the value of construct alignment in WBA is predominantly comprised of field studies. The authors stress that, as a result, it is difficult to make comparisons across these studies with respect to the dimensions of performance examined. Each discipline, specialty and profession has a different conception of what may be important in assessing its trainees; consequently, each rating instrument is ultimately unique. Indeed, in the study by Crossley et al.,16 scale anchors represented an ‘uncomfortable mixture’ of separate domains on the various assessment forms as it was difficult for the authors to write specific clinical anchors for assessments that could be used across a wide variety of contexts. However, that may be the point: the response scale needs to be aligned to the reality map of the judges.
분명히, [문자 그 자체로literally 평가자의 경험에 공명하는 앵커]는 '기대 수준임'이나 '만족스러움'과 같은 추상적 서술자보다 더 가치있는 있는 탐색 수단이 될 수 있다. 추상적 서술자는 평가자가 훈련생을 범주에 배정할 때 무엇을 찾아야 하는지에 대해 [참조할 수 있는 점]이 전혀없습니다. 따라서 동료, 감독자 및 자가 등급 부여에 사용할 수 있는 레시피북에 사용된 그림과 유사한 [그림 앵커](봉합 및 일부 검사 기술 등 일부 기술에 대한)를 척도scale로 사용할 여유가 있을 수 있다. clearly, anchors that, literally, resonate with raters’ experiences might be a more profitable avenue of exploration than abstract descriptors such as ‘at expected level’ or ‘satisfactory’. Abstract descriptors feature absolutely no points of reference as to what a rater might be looking for in assigning a trainee to a category. Hence, there may be room in some scales for pictorial anchors (for some skills, such as suturing and some examination skills) similar to the pictures used in recipe books that could be used for peer, supervisor and self-rating.
객관적인 관찰보다는 [판단]을 요구해야 한다. Ask for judgements rather than objective observations
서로 다른 WBA 평가도구들이 서로 다른 개념적 출발점의 성능에 대해 묻습니다. 표 2는 세 가지 도구의 두 가지 예(항목 줄기 및 대응 옵션)를 제공한다. 즉, 수술 능력 평가를 위한 PBA 기구 14, 임상 의뢰 대응 평가(SAIL) 25, 임상 만남 평가를 위한 mini-CEX4이다. Different WBA instruments ask about performance from different conceptual starting points. Table 2 provides two examples (item stem and response options) from each of three instruments: the PBA instrument14 for assessing surgical skills; the Sheffield Assessment Instrument for Letters (SAIL)25 for assessing clinical referral correspondence, and the mini-CEX4 for assessing clinical encounters.
도나베디안의 분류법을 적용하면, 다음과 같이 보인다.
mini-CEX는 수행능력을 구조 수준(의사의 상대적으로 안정적인 특성 또는 특성)에서다루는 것으로 보인다.
'PBA PL4' 및 'SAIL 1'는 수행능력을 프로세스 레벨에서 접근한다.
'PBA 글로벌 요약'과 'SAIL 글로벌 등급'은 수행능력을 성과 수준에서 묻습니다.
If we apply Donabedian’s taxonomy,26 we see that
the mini-CEX seems to address performance at the structural level (the relatively stable characteristics, or traits, of the doctor),
‘PBA PL4’ and ‘SAIL 1’ approach performance at the process level, and
the ‘PBA global summary’ and ‘SAIL global rating’ ask about performance at the outcome level.
이 평가 활동에서 [성과]나 [구조 수준]을 묻는 질문은 어느 정도의 판단을 요구하며, 단순히 어떤 일이 일어났는지 여부를 규명하는 문제가 아니다. In this rating activity, outcome or structure-level questions require a degree of judgement; it is not simply a matter of establishing whether or not something took place.
그러나 지난 수십 년간 주관성에 대한 우려로 인해 [심사자 합의를 높이기 위해 프로세스 수준]에 초점을 맞춘 도구의 역사가 형성되었습니다. 예를 들어 1970년대와 1980년대에 개발된 컨설팅 평가에서 도출된 공통 성과 항목으로는 '눈맞춤', '옷을 어디에 둘지 알려주기', '악수' 등이 있다. 합계 수행 점수는 일반적으로 이 (프로세스) 항목의 점수 합계를 기준으로 합니다. However, concerns about subjectivity have, over the past few decades, led to a history of instruments focused at the process level in an attempt to increase examiner agreement. For example, ‘made visual contact’, ‘told patient where to put clothes’, and ‘shook hands’ are common performance items from consulting assessments developed during the 1970s and 1980s. The performance score is usually based on the sum of scores on the items.
그러나 서론에서 설명한 바와 같이, 아마도 수행능력은 부분의 합계보다 더 클 것입니다. 즉, 다음과 같습니다. However, as described in the Introduction, perhaps performance is more than the sum of its parts. In other words, perhaps:
[적절한 대인 관계 기술을 갖춘 의사]는 상호 작용의 고유한 성격에 따라 [프로세스 행동을 다르게 구현]하여 친밀감이나 신뢰를 얻을 수 있습니다. Perhaps a doctor with interpersonal skills will implement his or her process behaviours differently depending upon the unique nature of the interaction in order to achieve rapport or trust:
공정 수준 관측치에 연결되지 않은 경우 평가자가 성능을 더 일관되고 차별적으로 판단합니다. Assessors judge performance more consistently and discriminatingly when they are not tied to process level observations
[수행능력performance이 부분parts의 합계sum보다 더 복잡]하고, 좋은 수행능력이란 [적절한 경험이 있는 관찰자가 동의하는 것]이라면, 우리는 직관에 반하는 관찰을 기대할 수 있습니다. [성과 수준 성능 또는 구조-수준 속성에 대한 주관적인 판단]은 [실제로 일어난 일에 대한 객관적인 응답]보다 평가자 동의와 수행능력 변별에 더 유리할 수 있다. If performance is more complex than the sum of its parts and if a good performance is something upon which appropriately experienced observers agree, we might just expect a counter-intuitive observation. Subjective judgements about outcome-level performance or structure-level attributes might result in more assessor agreement and more performance discrimination than objective responses about what actually took place.
Regehr 등,27은 OSCE 항목(표준 설정 목적에 한함)에 수반되는 글로벌 척도가 실제 항목보다 더 신뢰할 수 있는 점수를 제공한다는 것을 발견했다. Regehr et al.,27 discovered that the global scale that accompanied OSCE items (for standard-setting purposes only) provided more reliable scores than the actual items.
또한 주관적 판단의 신뢰성이 최소한 객관적 점검표만큼 좋다는 것이 많은 다른 평가에서도 사실이다. It also holds true in many other evaluations that the reliability of subjective judgements is commonly at least as good as that of objective checklists.
본질적으로, 업무의 [하위 구성요소의 무수한 증거 세부사항]을 긁어모으는 것은 [뒤로 물러서서 전체를 고려하는 것]만큼 좋은 그림을 보여주지 못합니다. 이(후자의) 상황에서 평가자는 체크리스트에 대한 접근방식을일종의 [도구적 인상주의instrumental impressionism]로 취하게 된다. 즉, 글로벌한 판단을 내리지만, 그럼에도 불구하고 세부사항에 대한 전반적인, 어느 정도 통합된 인식에 결정된다는 것입니다. 이 환경에서 적절하게 경험이 풍부한(그리고 교육을 받은) 평가자는 행동을 [상황 및 조합으로 해석]합니다. 따라서 [단순한 행동의 총합에 대한 측정]보다는 [행동의 기저에 있는 비교적 안정적인 속성]을 판단할 수 있고, 이는 동의agreement와 변별력의 수준이 더 높을 수 있다. In essence, scraping up the myriad evidential minutiae of the subcomponents of the task does not give as good a picture as standing back and considering the whole. In this situation, the assessor develops an approach to the checklist that involves a kind of instrumental impressionism, whereby he or she makes a judgement that is global but, nevertheless, is vitally dependent on an overall, somewhat merged, perception of the details. In this setting appropriately experienced (and trained) assessors interpret behaviours in context and in combination such that they are able to judge the relatively stable attributes that underpin the behaviours with greater agreement and discrimination than a measure of the sum of those behaviours.
WBA 메서드는 얼마나 일반적입니까? How generic are WBA methods?
대부분의 WBA 평가도구는 모든 성능 도메인에 대한 판단을 요청합니다. Most WBA instruments ask for judgements about all performance domains
이것은 WBA 평가도구 설계에서 흥미로운 특징입니다. 평가도구instruments는 매우 광범위한 맥락(임상적 만남, 기술적 절차, 서면 대응, 사례 논의, 응급 치료 등)에서 성과를 평가하기 위해 개발되었지만, 거의 모두 동일한 수행 영역에 대해 묻는다. 왜 평가도구의 설계자가 [모든 컨텍스트]에서 [모든 도메인]을 평가할 수 있는 좋은 데이터를 제공하는 것으로 간주했는지 그 이유는 명확하지 않습니다. This is an interesting feature of WBA instrument design. Although the instruments were developed to assess performance in a very wide range of contexts (clinical encounters, technical procedures, written correspondence, case discussions, emergency care, etc.), they almost all ask about the same domains of performance, such as:
clinical method (history taking and examination);
clinical judgement (diagnosing and planning);
communication;
professionalism, and
organising or managing the clinical encounter.
It is unclear why designers consider that every context provides good data for assessing every domain.
그러면 분명한 질문은 [모든 컨텍스트가 모든 도메인에 대해 동등하게 타당하고 신뢰할 수 있는 데이터를 제공하는지 여부]에 대한 것입니다. 만약 그렇다면, 우리는 임상적 만남이나 진료 권한 인계 시 관찰되는 것과 같은 특정 영역(예: 조직)에 대한 검사자 합의와 차별이 동일할 것이라고 예상해야 합니다. 사실, 그것은 데이터가 보여주는 것이 아니다. G 연구에서 도메인 수준 점수를 조사할 때, 일부 도메인 점수는 다른 것보다 더 나은 평가자 동의와 차별을 보인다. 결정적으로, 도메인 점수의 상대적 신뢰도는 상황에 따라 다릅니다. The obvious question then concerns whether every context provides equally valid and reliable data for every domain. If so, we should expect that examiner agreement and discrimination over any particular domain (e.g. organisation) will be the same whether it is observed in a clinical encounter or a handover. In fact, that is not what the data show. When G studies examine domain-level scores, some domain scores display better assessor agreement and discrimination than others. Critically, the relative reliability of domain scores varies across contexts.
표 3은 최근 workplace에서 이러한 평가 방법에 대한 다양한 연구에서 수집된 데이터 풀을 사용하여 세 가지 다양한 도구의 도메인을 제시함으로써 이를 설명한다. 각 영역-방법 조합에 대해 10개의 관측치에 대해 표준화된 평가의 예측 신뢰성이 주어진다. 미니 CEX와 CBD 도구의 많은 영역이 신뢰성 있게 평가되지만, '조직과 효율성'은 mini-CEX에서 가장 신뢰성 있게 평가되는 반면, '의무기록 유지'는 CBD에서 가장 신뢰성 있게 평가된다. ACAT에서는 어떠한 도메인도 만족스러운 신뢰성에 도달하지 않지만, 핸드오버가 최상의 결과를 달성하고 이 세 가지 도구 내에서 다른 임상 관행 요소를 샘플링하지 않습니다.
Table 3 illustrates this by presenting the domains from three diverse instruments,4,13,28 with a pool of data recently collected in a number of different studies of these methods of assessment in the workplace.15,16,29 For each domain–method combination, the predicted reliability of an assessment standardised to 10 observations is given. Many domains in the mini-CEX and CBD tools are reliably assessed, but ‘organisation and efficiency’ is assessed most reliably in the miniCEX, whereas ‘medical record keeping’ is most reliably assessed in the CBD. In the ACAT, no domain reaches satisfactory reliability, but handover achieves the best result and this element of clinical practice is not sampled anywhere else within these three tools.
[관찰되는 상황이나 활동에서 명확히 입증demonstrated되는 수행능력 영역]은 보다 신뢰성 있는 판단과 관련된다. 아마도 그들이 그러한 맥락에서 도메인 구성을 더 효과적으로 샘플링하기 때문일 것이다. 요약하면, 평가자는 [특정 상황이나 활동에서 명확히 입증될 수 있는 수행능력 영역]에 대해 더 신뢰할 수 있고 더 타당한 판단을 내릴 수 있다.
arguably those domains of performance that are clearly demonstrated in the context or activity being observed are associated with more reliable judgements. Perhaps this is because they sample the domain construct more effectively in that context. In summary, assessors may make more reliable, and hence more valid, judgements about domains of performance that they can see clearly demonstrated in a particular context or activity.
어떤 평가자가 판단하기에 가장 적합한가? Which assessors are best-placed to judge?
[서로 다른 응답자 그룹]은 [개인 대 개인 변동variation]에 덧붙여서, (평가자) 별개의 관점을 제공한다. Different respondent groups provide discrete perspectives over and above the expected person-to-person variation
다중 출처 평가 및 피드백(MSF)은 몇 가지 다른 관점에서 판단을 수집하는 것이 중요하다는 확신 때문에 안전 등급을 대체했다. 그렇다면 첫 번째 합리적 질문은 다음과 같다. 서로 다른 응답자 그룹이 서로 다른 관점을 제공하는가? 이 경우 단일-그룹 동료평가보다 MSF는 (단순히 숫자뿐 아니라)을 일정한 가치를 더한다add value. [서로 다른 시선]이 두 가지 심리측정 결과에 반영된다. 즉, 일부 집단이 다른 집단보다 진정으로 더 엄격하거나 다른 '취향'을 갖는 경우(즉, 피실험자의 순위가 다르면), 적절히 설계된 G 연구는 [응답자 집단을 어떻게 지정하는지]가 개개인의 [기준점에 대한 변동baseline variation]에 덧붙여서, 그 이상의 [점수 변동score variation]을 설명한다는 것을 보여줄 것이다. Multi-source assessment and feedback (MSF) has largely superseded peer ratings because of the conviction that it is important to gather judgements from several different perspectives. The first rational question then is: do the different respondent groups provide different perspectives? If they do, then MSF adds value (and not just numbers) to single-group peer ratings. Different gazes will be reflected in two psychometric outcomes: if some groups are genuinely more stringent than others or have different ‘tastes’ (i.e. rank subjects differently), then an appropriately designed G study will show that a respondent’s group designation accounts for some score variation over and above the baseline variation among individuals.
이는 데이터에서 관찰됩니다. 여러 연구에 따르면 [직함designation이 다른 평가자]들은 컨설턴트나 주치의 평가에서 [엄격함의 수준]이 다르며, 의료 전문분야의 전체 범위에 걸쳐 등급을 매긴다고 한다. 각각의 경우에, 후배 의사들이 가장 관대하다; 점차적으로 더 많은 권한을 가진 직원 집단이 점점 더 엄격한 등급을 제공한다. This is observed in the data. A number of studies report that raters of different designations rate with different levels of stringency in assessing consultants30 or junior doctors31 and across the full range of medical specialties.32 In each case, junior doctors are the most lenient; progressively more empowered staff groups provide progressively more stringent ratings.
즉, [응답자의 직함designation]에 따라 의사 개개인에 대한 기준과 관점이 다르다. 일반적으로 일부 의사는 간호직원이, 일부는 동료 의사가 선호한다. In other words, different respondent designations have different standards and different views of an individual doctor; typically some doctors are preferred by nursing staff and some by their peers.
일부 지정의 견해는 다른 지정의 견해에 비해 더 타당하다. The views of some designations are more valid than those of others
직함designation에 따라 관점이 달라지는 점을 감안할 때, 누구의 관점이 가장 타당한지를 묻는 것이 합리적일 것으로 보인다. 어떤 경우에는 답이 자명하다. 예를 들어, 임상의 판단에 대해 언급할 수 있는 병원 직원이나 환자는 매우 소수이다. Given that different designations provide different perspectives, it seems rational to ask whose perspective is the most valid. In some cases the answers are self-evident. For example, few clerical staff or patients are likely to be able to comment on a clinician’s judgement.
이는 비임상인에게 임상 항목을 판단하도록 요청했을 때 일반적으로 응답률이 낮다는 것을 의미합니다. This means that response rates are usually low when non-clinicians are asked to judge clinical items.
평가 데이터에는 분명한 추세가 있습니다. 즉, [수행능력 측면을 정기적으로 관찰하는 응답자 집단]이 서로 가장 밀접하게 일치한다. there is a clear trend in the evaluation data: respondent groups of people who regularly observe an aspect of performance agree with one another most closely.
15명의 간호사의 등급은 0.81의 신뢰성 계수로 점수를 제공했지만, 15명의 연합 보건 전문가(AHP), 15명의 의사 및 15명의 병원 직원이 매긴 등급은 각각 0.77, 0.74, 0.69의 신뢰성 계수를 달성했다. 왜 그래야 하죠? 아마도 간호사들, 그리고 AHP 순서로 수련의사들의 병동 기반 활동을 가장 많이 보기 때문일 것이다. 15 nurses’ ratings provided scores with a reliability coefficient of 0.81; however, ratings by 15 allied health professionals (AHPs), 15 doctors and 15 clerical staff achieved reliability coefficients of 0.77, 0.74 and 0.69, respectively. Why should this be? Perhaps it is because nurses, followed by AHPs, see the greatest quantity of trainee doctors’ ward-based activities.
[수술 간호사]가 외과의사의 병동에서의 매너를 거의 볼 수 없는 경우, 그러한 소스에서 얻은 데이터는 construct-irrelevant variance를 최대치로 만든다. 예를 들어, 법정에서 허용되지 않는 '청문회'에 해당할 수 있습니다. 그러나 [단일 평가 방법]이 [모든 임상 역량]을 포함할 수 없는 것과 같은 이유로, 어떤 [단일 전문직 그룹]도 [모든 임상 역량]을 평가할 수 없는 것이 분명하다. If the scrub nurse rarely sees the surgeon’s bedside manner, then the data obtained from such a source is subject to maximal construct-irrelevant variance. It could, for example, amount to ‘hearsay’, which is inadmissible in a court of law. However, for the same reason that no single assessment method can encompass all of clinical competence, it is clear that no single professional group can assess it either.
임상 역량이 너무 넓어서 아무도 다 볼 수 없다. 각각의 방법은 성능에 대한 렌즈를 나타내며, 다른 건강 전문가들이 렌즈를 통해 보는 시청자의 역할을 합니다. 실무의 측면을 평가하는 전문 그룹의 능력에 대한 조사는 다른 그룹과의 접촉 및 협업의 범위를 평가하는 것으로 시작할 수 있습니다. 궁극적으로, [수행능력에 대한 판단 능력]을 가지고 있고, 이를 [관찰할 기회]가 있는 평가자들이 보다 신뢰할 수 있는 평가를 제공하는 것으로 보입니다. Clinical competence is so broad that no-one sees it all. Each method represents a lens on performance and different health professionals act as the viewers who look through those lenses. Investigations into the capability of professional groups to assess aspects of practice might start with assessing the scope of their contact and collaboration with other groups. Ultimately, assessors who have the competence to judge an aspect of performance, and have had the opportunity to observe it, appear to provide more reliable ratings.
결론 CONCLUSIONS
우리가 관찰한 것 중 일부는 다른 것들보다 더 잘 입증된다. 그러나 전체적인 상황은 매우 흥미로워 보입니다. 높은 수준의 평가는 판단의 문제이기 때문에, [올바른 사람]에 대해 [올바른 방식]으로 [올바른 것]에 대하여 [올바른 질문]을 하는 것이 더 효과적입니다. Some of our observations are better evidenced than others. However, the overall pictureseems compelling: because high-level assessment is a matter of judgement, it works better if the right questions are asked, in the right way, about the right things, of the right people.
여러 면에서 가장 주목할 만한 관찰은 WBA 도구와 프로세스를 설계하는 데 있어 지금까지 얼마나 비합리적이었는가 하는 것입니다.
우리는 종종 모든 응답자에게 그들의 전문 지식이나 관찰의 기회와 상관없이 모든 성과 분야에 대한 코멘트를 요청했습니다.
우리는 종종 평가자judge를 [특정 유형의 관찰]로 제한함으로써 적절한(그리고 값비싼) 통합능력, 맥락화능력, 가중치 부여 능력을 낭비해 왔다.
우리는 종종 심사위원들에게 그들이 관찰하지 않고 기껏해야 추론만 할 수 있는 성과 영역에 대해 논평해 줄 것을 요청해 왔다.
우리는 pejorative한 진술이나 determinative한 진술을 포함하는, 명백히 느슨한'성과 지향적' 또는 '훈련 지향적' 응답 척도를 평가자들에게 제공하면서, 평가자들이 그 항목들을 의미 있고 일관되게 해석하고 사용할 것으로 기대했다.
In many respects, the most remarkable observation might be how irrational we have been to date in designing WBA instruments and processes.
We have often asked all respondents to comment on all areas of performance, regardless of their expertise or their opportunity to observe.
We have often wasted the integrating, contextualising, weighting capacity of appropriate (and expensive) judges by limiting them to certain types of observation.
We have often asked judges to comment on domains of performance that they do not observe and can, at best, only infer.
We have frequently confronted assessors with self-evidently loose ‘merit-oriented’ or ‘training-oriented’ response scales that include pejorative or determinative statements, and expected them to interpret and use those items meaningfully and consistently.
Med Educ. 2012 Jan;46(1):28-37.
doi: 10.1111/j.1365-2923.2011.04166.x.
Making sense of work-based assessment: ask the right questions, in the right way, about the right things, of the right people
Context:Historically, assessments have often measured the measurable rather than the important. Over the last 30 years, however, we have witnessed a gradual shift of focus in medical education. We now attempt to teach and assess what matters most. In addition, the component parts of a competence must be marshalled together and integrated to deal with real workplace problems. Workplace-based assessment (WBA) is complex, and has relied on a number of recently developed methods and instruments, of which some involve checklists and others use judgements made on rating scales. Given that judgements are subjective, how can we optimise their validity and reliability?Results and discussion:Four general principles emerge: the response scale should be aligned to the reality map of the judges; judgements rather than objective observations should be sought; the assessment should focus on competencies that are central to the activity observed, and the assessors who are best-placed to judge performance should be asked to participate.
Methods:This paper gleans psychometric data from a range of evaluations in order to highlight features of judgement-based assessments that are associated with better validity and reliability. It offers some issues for discussion and research around WBA. It refers to literature in a selective way. It does not purport to represent a systematic review, but it does attempt to offer some serious analyses of why some observations occur in studies of WBA and what we need to do about them.
근무지기반평가: 평가자의 수행능력이론과 구인(Adv in Health Sci Educ, 2013) Workplace-based assessment: raters’ performance theories and constructs M. J. B. Govaerts • M. W. J. Van de Wiel • L. W. T. Schuwirth • C. P. M. Van der Vleuten • A. M. M. Muijtjens
도입 Introduction
'실제' 직업 환경에서 수련자의 성과를 관찰하고 평가하는 것은 수세기 동안 보건 직업 교육의 초석이 되어 왔습니다. 이는 잠재적으로 데이터를 수집하고 일상적인 실습에서 교육생이 실제로 수행하는 작업에 대한 피드백을 제공하는 가장 좋은 방법입니다. 실제로, 현재의 평가 관행은 작업장 기반 평가(WBA)에 점점 더 중점을 두는 것이 특징입니다. 역량-기반 커리큘럼의 광범위한 구현에 의한 자극, 의사의 책무성에 대한 요구와 의료 품질에 대한 우려의 증가, 의료 훈련생에 대한 감독 및 평가의 개선 요구 등이 그 원인이다. Observation and assessment of trainee performance in ‘real-life’ professional settings has been a cornerstone of health professions education for centuries. It is the potentially best way of collecting data and providing feedback on what trainees actually do in day-to-day practice. Indeed, current assessment practices are characterized by growing emphasis on workplace-based assessment (WBA), stimulated by the widespread implementation of competency-based curricula, increasing demands for physician accountability and concerns about health care quality as well as calls for improved supervision and assessment of medical trainees (Davies 2005; Norcini 2005; Kogan et al. 2009; Holmboe et al. 2010).
비록 WBA가 형성적 평가에 유용하다는 일반적인 동의가 있지만, 총괄적 평가에 대한 WBA의 유용성은 논쟁의 여지가 있다(Norcini and Burch 2007; McGaghie et al. 2009). WBA의 효용성에 대한 주요 우려는 WBA의 [내재적 주관성]과 [측정 품질의 취약점]과 관련이 있다. 일반적으로 (훈련되지 않은) 평가판단의 특이성은 WBA의 수행능력 평정 사이의 큰 차이, 낮은 평가자 간 및 평가자 내 신뢰성, 의심스러운 타당도를 초래한다(Albanese 2000; Williams et al. 2003). 더 나아가, 다양한 영역의 성능 평가에 대한 연구는 특이 평가자 효과idiosyncratic rater effect가 성능 등급에서 29%에서 50% 이상에 이르는 상당한 변동을 설명한다는 것을 시사한다(Viswesvaran et al. 1996; Scullen et al.). 2000; Hoffman 등. 2010). 결과적으로, WBA를 개선하려는 시도는 평가 절차의 표준화 및 평가자 훈련을 통해 '주관성 요소'를 최소화하는 데 초점을 맞추는 경향이 있다. 그러나 그러한 조치는 기껏해야 엇갈린 성공을 거두었다. Although there is general agreement that WBA is useful for formative assessment, its usefulness for summative assessment is not undisputed (Norcini and Burch 2007; McGaghie et al. 2009). Major concerns about the utility of WBA relate to its inherent subjectivity and the resulting weaknesses in the quality of measurement. In general, the idiosyncratic nature of (untrained) rater judgments results in large differences between performance ratings, low interand intra-rater reliabilities and questionable validity of WBA (Albanese 2000; Williams et al. 2003). More to the point, research into performance appraisals in various domains suggests that idiosyncratic rater effects account for substantial variance in performance ratings, ranging from 29 % to over 50 % (Viswesvaran et al. 1996; Scullen et al. 2000; Hoffman et al. 2010). Consequently, attempts to improve WBA tend to focus on minimizing the ‘subjectivity factor’ through standardization of assessment procedures and rater training. However, such measures have met with mixed success at best (Williams et al. 2003; Lurie et al. 2009; Holmboe et al. 2010; Green and Holmboe 2010).
연구 결과에 따르면 교육 및 연습(세부) 평가 도구를 사용함에도 불구하고 평가자의 행동이 변화에 영향을 받지 않는 여러 가지 이유가 제시됩니다. 예를 들어, 산업 및 조직 심리학 연구는 평가자가 종종 암묵적인 성과 이론을 가지고 있다는 것을 나타내며, 이는 조직에서 지정한 이론과 다를 수 있다(Borman 1987; Ostroff and Ilgen 1992; Uggerslev and Sulsky 2008). 더 나아가, 평가 결과는 [국지적 규범과 가치, 시간 압력, 평가 목표 및 정서적 요인]과 같은 평가 과정의 [사회적 환경에서 복잡하고 상호 연관된 요인 집합]에 의해 결정된다는 것을 보여준다. Research findings suggest many reasons why rater behaviour may be quite impervious to change despite training and/or the use of worked out (detailed) assessment tools. Research in industrial and organizational psychology, for instance, indicates that raters often have implicit performance theories, which may diverge from those specified by the organization (Borman 1987; Ostroff and Ilgen 1992; Uggerslev and Sulsky 2008). Research furthermore indicates that rating outcomes are determined by a complex and interrelated set of factors in the social setting of the assessment process, such as local norms and values, time pressure, assessment goals and affective factors (Murphy and Cleveland 1995; Levy and Williams 2004).
긴즈버그 외 연구진(2010)에 의한 최근 연구는 [의학적 영역의 평가 도구]와 전문적 역량의 이론적 모델에서도 감독자의 업무수행 이론을 적절히 반영하지 못할 수 있으며, 이는 역량영역의 'blurring'과 외견상 유효하지 않거나 부정확한('덜 진위') 수행능력 평정을 초래할 수 있음을 시사한다. 다시 말해, [평가자가 어떻게 생각하거나 행동해야 한다고 생각하는가(theory espoused)] 와 [실제로 생각하고 실천하는 것(theory in use)] 사이에 불일치가 있을 수 있습니다. 이와 유사하게 Holmboe 외 연구진(2010)은 "사실 우리는 교수들의 효과적인 관찰 기술과 행동에 대해 거의 알지 못한다"고 언급했습니다.
Recent research by Ginsburg et al. (2010) suggests that also in the medical domain assessment tools and theoretical models of professional competence may not adequately reflect supervisors’ theories of work performance, resulting in ‘blurring’ of competency domains and seemingly invalid or inaccurate (‘‘less authentic’’) performance ratings. In other words, there may very well be discrepancies between how we feel that raters should think or act (theory espoused) and what they actually think and do in practice (theory in use). Similarly, Holmboe et al. (2010) state that in fact ‘‘…we know very little about effective faculty observation skills and behaviors’’.
개념 프레임워크 Conceptual framework
사회적 인식자 평가 Raters as social perceivers
모든 정보는 궁극적으로 평가자가 나타내는 [인지 필터]를 통과해야 한다는 것이 WBA에 내재되어 있다. 이것은 실생활에서의 성과평가를 이해하는 것은 기본적으로 평가자가 (대인관계 및 사회적 환경에 있는 다른 사람들에 대해) 어떻게 [인상을 형성하고 추론을 하는지]를 이해하는 것(예: 판단과 결정)이라는 것을 의미한다. 실제로, 점점더 수행능력을 평가할 때 평가자는 '동기부여된 사회적 판단'을 제공하는 '사회적 인식자social perceiver'로 여겨지고 있다. 이 접근법의 중심적 가정은 평가자들이 역동적이고 복잡한 사회 환경 내에서 판단과 의사결정을 위해 [정보를 수집, 해석, 통합 및 검색하는 인지적 작업에 직면하는 능동적 정보 처리자]라는 것이다. It is inherent in WBA that all information must ultimately pass the cognitive filter represented by the rater (Landy and Farr 1980; Smith and Collins 2009). This implies that understanding the evaluation of performance in real life is basically about understanding how raters form impressions and make inferences (e.g. judgments and decisions) about other people in interpersonal and social environments. Indeed, it is increasingly recognized that raters are to be seen as ‘social perceivers’ providing ‘motivated social judgments’ when evaluating performance (Murphy and Cleveland 1995; Klimoski and Donahue 2001; Levy and Williams 2004). A central assumption in this approach is that raters are active information processors who, within a dynamic and complex social setting, are faced with the cognitive tasks of gathering, interpreting, integrating and retrieving information for judgment and decision making (DeNisi 1996; Klimoski and Donahue 2001; McGaghie et al. 2009).
평가자가 성과를 어떻게 인식하고 판단하는지에 대한 이러한 견해는 사회적 인식의 한 요소로서 [사회적 인식의 이론적 프레임워크]에 캐스팅될 수 있습니다. 실제로, 성과 평가는 '특정 목적을 위한 사회적 인식의 특정 적용'으로 간주될 수 있으며, 평가자의 행동의 대부분은 [사회적 인식 현상social perception phenomena]에 뿌리를 둔 것으로 간주될 수 있다(Klimoski and Donahue 2001; Barnes-Farrell 2001). This view of how raters perceive and judge performance can be cast in theoretical frameworks of social perception as an element of social cognition. In fact, performance assessment might be seen as a ‘specific application of social perception for specific purposes, and much of raters’ behaviours can be considered to be rooted in social perception phenomena’ (Klimoski and Donahue 2001; Barnes-Farrell 2001).
성과 평가 및 사회적 인식 Performance assessment and social perception
사회적 인식 연구의 연구 결과는 일관되게 다른 사람들에게 인상을 주고 판단을 내릴 때 사회적 인식자들은 기존의 지식 구조, 즉 '스키마'를 사용하는 경향이 있음을 나타냅니다. 스키마는 특히 정보가 불완전하거나 모호하거나 상황적 제약(예: 시간 압박, 상충하는 작업)이 있는 상황에서 효율적으로 정보를 처리할 수 있는 적응형 메커니즘으로 생각할 수 있다. 사회적 인식에서 대부분의 사람들은 [역할, 사건 및 개인 스키마]를 사용한다(Pennington 2000, 페이지 69–75). Findings from social perception research consistently indicate that, when forming impressions and making judgments of others, social perceivers tend to use pre-existing knowledge structures, or ‘schemas’. Schemas can be thought of as adaptive mechanisms that enable people to efficiently process information, especially in situations where information is incomplete, ambiguous or where there are situational constraints (e.g. time pressure, conflicting tasks). In social perception most people use role, event and person schemas (Pennington 2000, pp. 69–75).
[역할 스키마]는 특정 사회적 지위(예: 경찰관, 교사, 가정의사)에 있는 사람에게 기대되는 행동 집합으로 정의할 수 있습니다.
[사건 스키마]는 특정 사회적 상황에서 예상된 사건의 순서(예: 취업 면접 또는 성과 평가 면접)와 관련된 타인의 행동에서 일반적으로 기대하는 것을 기술한다.
[개인 스키마]는 누군가의 행동에서 언어적, 비언어적 단서를 통해 그들을 알아가는 과정에서, 이용 가능한 정보에 기초하여 우리가 누군가에 대해 하는 추론이다. 개인 스키마는 예상 행동 패턴, 성격 특성 및 기타 추론을 포함할 수 있으며, 예를 들어 누군가의 지식 기반이나 사회적 범주(예: '우수한 성과' 또는 '부실한 성과')에 대한 결론을 내리게 된다.
A role schema can be defined as the sets of behaviours expected of a person in a certain social position (e.g. a policeman, teacher, family physician).
Event schemas describe what we normally expect from other people’s behaviours in specific social situations, related to the predicted sequence of events in such a situation (e.g. a job interviewor performance appraisal interview).
Person schemas reflect the inferences we make about someone on the basis of (limited) available information, as we get to know them through verbal and non-verbal cues in their behaviour. Person schemas may include expected patterns of behaviour, personality traits and other inferences, such as conclusions about someone’s knowledge base or social category (for instance, ‘excellent performer’ or ‘poor performer’).
세 가지 유형의 스키마는 완전히 구별되거나 분리된 것으로 간주해서는 안 됩니다. 스키마는 사람들이 어떻게 행동하는지 이해하려고 할 때 대화형으로 사용됩니다(Pennington 2000).
The three types of schema should not be regarded as entirely distinct or separate: schemas are used interactively when we are trying to understand how people behave (Pennington 2000).
앞에서 설명한 프레임워크의 주요 기능은 [업무 기반 수행능력 평가]의 맥락에서 쉽게 번역될translated 수 있습니다. Key features of the framework we have described can easily be translated to the context of work-based performance assessment.
첫째, 문헌(예: 1987년 보먼, 오스트로프와 일겐, 1992년, 어거슬레프와 슐스키, 2010년)은 작업 환경에서 평가자가 일반적으로 효과적인 직무 수행의 개인적 구성이나 '이론'을 개발할 것을 제안한다. 이러한 '수행능력 이론performance theories'은 직무와 관련이 있는 것으로 간주되는 성과 치수와 관련하여 효과적인 행동의 집합 또는 클러스터를 포함한다는 점에서 [역할 스키마]와 매우 유사하다. 수행능력 이론은 (전문적) 경험, 사회화, 훈련을 통해 발전하기 때문에, 수행능력 이론의 내용은 평가자에 따라 달라질 가능성이 높고, 그에 따라 평가자 특이성 수준이 달라질 수 있다(Uggerslev와 Sulsky 2008). Firstly, the literature (e.g. Borman 1987; Ostroff and Ilgen 1992; Uggerslev and Sulsky 2008; Ginsburg et al. 2010) suggests that raters in work settings develop personal constructs or ‘theories’ of effective job performance in general. These ‘performance theories’ are very similar to role schemas in that they include sets or clusters of effective behaviours in relation to any number of performance dimensions considered relevant to the job. Since performance theories develop through (professional) experience, socialization and training, the content of performance theories is likely to vary between raters, resulting in varying levels of rater idiosyncrasy (Uggerslev and Sulsky 2008).
둘째, 연구 결과에 따르면 [효과적인 수행능력과 관련된 특정 행동 집합은 과제의 세팅과 특정 특징에 따라 과제마다 다를] 수 있다(예: Veldhuijen et al. 2007). 벨드하이젠 외 예를 들어, (2007)은 의사들이 상황적 요구에 따라 서로 다른 의사소통 전략을 사용한다는 것을 보여주었다. 따라서 장기간의 직무 경험으로 인해 평가자는 고도로 분화된 (자신만의) 수행능력 스키마를 개발하며, 이는 다양하고 차별화된 직무 관련 업무 및 업무 상황에 대해 각기 다른 효과적인 행동 세트를 나타낸다. 평가자가 과제 수행 중에 다른 사람을 관찰할 때, 과제특이적 또는 상황특이적 단서는 (특히 경험이 풍부한 평가자의 경우) 수행능력을 판단하기 위해 과제특이적 또는 사건특이적 스키마의 사용을 촉발할 수 있다. Secondly, research findings indicate that the particular set of behaviours related to effective performance may differ from one task to another, depending on the setting and specific features of the task (e.g. Veldhuijzen et al. 2007). Veldhuijzen et al. (2007), for instance, showed that physicians use different communication strategies depending on situational demands. It is therefore to be expected that, as a result of prolonged job experience, raters develop highly differentiated performance schemas, each representing different sets of effective behaviours for various and differentiated job-related tasks and task settings. When raters are observing others during task performance, task- or situation- specific cues may trigger the use of task- or event-specific schemas to judge performance, especially in more experienced raters.
마지막으로, 평가 목적으로 성과를 관찰할 때, 평가자들은 불가피하게 개별 피평가자ratee에 대한 지식을 구성하기 위해 '개인 스키마'를 개발할 것이다. 평가자는 예를 들어 평가자의 지식 기반, 역량 수준 또는 행동 성향에 대한 관찰을 해석하고 정보를 통합하며 추론을 작성합니다. Finally, when observing performance for assessment purposes, raters will inevitably develop ‘person schemas’ to organize their knowledge about individual ratees. Raters interpret observations, integrate information, and make inferences, for instance about a ratee’s knowledge base, level of competence or behavioural disposition.
타인이 성과에 대한 판단과 의사결정을 할 때, 평가자는
평가자의 개인 성과 이론('역할 스키마')
과제특이적 행동의 규범적 기대(과제 특이적 스키마),
피평가자에 대한 추론(개인 스키마)
...등 세 가지 스키마 유형을 모두 상호작용적으로 사용할 가능성이 높다(Cardyet). al. 1987; 보먼 1987). When making judgments and decisions about performance by others, raters are likely to use all three schema types interactively:
raters’ personal performance theory (‘role schema’),
normative expectations of task-specific behaviours (task-specific schema) and
inferences about the ratee (person schema)
...may all influence assessment outcomes (Cardy et al. 1987; Borman 1987).
현재 연구 The present study
방법 Method
참여자 Participants
본 연구의 참여자들은 일반실무에서 대학원생들을 감독하고 평가하는 데 적극적으로 참여한 GP-감독자들이었습니다. 네덜란드 대학원 과정은 일반적으로 교육 프로그램 전반에 걸쳐 체계적인 직접 관찰 및 평가의 오랜 전통을 가지고 있습니다. The participants in our study were GP-supervisors who were actively involved in supervising and assessing postgraduate trainees in general practice. The Dutch postgraduate programmes in general practice have a long tradition of systematic direct observation and assessment of trainee performance throughout the training programme.
연구 절차 및 데이터 수집 Research procedure and data collection
참가자들은 두 건의 비디오 케이스(VC)를 시청했는데, 각각 6학년 의대생이 환자와 '실제'를 맞닥뜨리는 장면을 보여주었다. 참가자들은 이 연구 전에 학생들을 만난 적이 없었다. VC는 일반적인 환자 문제와 다양한 학생 성과를 제시하기 위해 선택되었습니다. 두 VC 모두 아토피 습진과 협심증 등 일반 관행에 흔히 있는 '직접' 사례를 제시했다. Participants watched two video cases (VCs), each showing a sixth-year medical student in a ‘real-life’ encounter with a patient. The participants had not met the students before the study. The VCs were selected purposively to present common patient problems and different student performance. Both VCs presented ‘straightforward’ cases that are common in general practice: atopic eczema and angina pectoris.
VC1(아토픽 습진)은 약 6분간 지속되었으며, 의사소통 및 대인관계 기술과 관련하여 원형적이고 분명히 표준 이하의 성능을 보이는 학생을 제시했습니다. VC1 (atopic eczema) lasted about 6 min and presented a student showing prototypical and clearly substandard performance with respect to communication and interpersonal skills.
VC2(협심증)는 약 18분간 지속되었으며, 의사소통과 환자 관리 모두에 대해 복잡한, 즉 더 차별화된 성과를 보이는 학생을 제시했습니다. VC2 (angina pectoris) lasted about 18 min and presented a student showing complex, i.e. more differentiated, performance with respect to both communication and patient management.
참가자들의 인지능력은 verbal protocol analysis(Chi 1997)을 통해 파악됐다. Participants’ cognitive performance was captured through verbal protocol analysis (Chi 1997).
1. 영상이 시작되었습니다. 참가자가 학생의 성적을 판단할 수 있을 때 신호를 보내고, 비디오가 정지됩니다(T1). 참가자는 학생의 수행에 대한 첫 번째 판단(언어적 의전(VP) 1)을 구두로 말합니다. 1. The video is started. The participant signals when he or she feels able to judge the student’s performance; the video is then stopped (T1). The participant verbalizes his/ her first judgment of the student’s performance (verbal protocol (VP) 1).
2. 참가자는 1차원 등급 척도로 전반적인 성과 등급을 부여합니다(그림 1). 등급 양식(VP2)을 작성하면서 큰 소리로 생각합니다. 2. The participant gives an overall rating of performance on a one-dimensional rating scale (Fig. 1), thinking aloud while filling in the rating form (VP2).
3. 동영상은 T1에서 정지된 지점에서 재개됩니다. 동영상이 종료되면(T2) 참가자는 자신의 판단(VP3)을 구두로 말하며 최종 종합 평점을 부여합니다. 3. The video is resumed at the point where it was stopped at T1. When the video ends (T2), the participant verbalizes his/her judgment (VP3) while giving a final overall rating.
자료 분석 Data analysis
질적 분석 Qualitative analysis
평가자의 성능 이론과 작업별 성능 스키마(Elo 및 Kyngaes 2008, Thomas 2006)를 살펴보기 위해 먼저 모든 프로토콜(VP1, VP2, VP3 풀링)의 상향식 개방형 코딩 작업을 수행했습니다. We first performed bottom-up open coding of all protocols (VP1, VP2, and VP3 pooled) to explore the raters’ performance theories and task-specific performance schemas (Elo and Kynga¨s 2008; Thomas 2006).
우리는 [개인 스키마]의 사용을 탐구하기 위해 우선순위 코드인 하향식(top-down)을 사용했다. ['개인 스키마']에 대한 코딩 범주는 클라이모스키와 도나휴(2001)가 제안한 이론적 프레임워크를 기반으로, 판단 과제에서 5가지 공통 유형의 추론 프로세스를 기술했다.
지식,
특성,
성향(가능 행동 패턴),
의도(즉각적 목표),
사회적 범주 구성원 자격
We used top-down, a priori coding to explore the use of person schemas. The coding categories for ‘person schemas’ were based on the theoretical framework proposed by Klimoski and Donahue (2001), describing five common types of inference processes in judgment tasks: inferences regarding
knowledge,
traits,
dispositions (probable patterns of behaviour),
intentions (immediate goals) and
social category membership.
표 1은 정성 데이터 분석을 위한 소프트웨어를 사용하는 모든 구두 프로토콜에 적용되는 최종 코딩 프레임워크를 제시한다(Atlas-ti 6.1). Table 1 presents the final coding framework, which was applied to all verbal protocols using software for qualitative data analysis (Atlas-ti 6.1).
양적 분석 Quantitative analysis
[성과 이론]과 [과제특이적 성과 스키마]의 사용에 대한 평가자 간의 차이를 탐구하기 위해, 언어 프로토콜은 표 1에 제시된 코딩 프레임워크를 사용하여 재분석되었다. 이러한 분석을 위해 VP1과 VP2를 통합하여 T1에서 모든 구두발언을 포함하는 단일 구두 프로토콜을 만들었습니다. 언어 프로토콜의 녹취록은 연구자 중 한 명(MG)에 의해 segment로 분할되었습니다. 각 segment은 훈련생 또는 훈련생 성과에 대한 하나의 일관성 있는 생각 또는 진술을 나타냈습니다. (예: 성과 차원 내의 특정 행동에 대한 설명 또는 특정 성과 차원에 대한 전반적인 효과성에 대한 판단 의견). 또한, 훈련생 성과에 대한 진술은 긍정 대 부정 차원에 따라 코드화되었습니다.(예: 효과적 행동 대 비효과적 행동). 반복은 그렇게 코드화되었다. In order to explore differences between raters in the use of performance theories and taskspecific performance schemas, the verbal protocols were reanalyzed using the coding framework as presented in Table 1. For this analysis, VP1 and VP2 were merged to create a single verbal protocol containing all verbal utterances at T1. The transcripts of the verbal protocols were segmented into phrases by one of the researchers (MG). Each segment represented a single coherent thought or statement about the trainee or trainee performance (e.g. description of a particular behaviour within a performance dimension or a judgment remark about overall effectiveness on a particular performance dimension). Additionally, statements about trainee performance were coded along the dimension positive versus negative (i.e. effective versus ineffective behaviour). Repetitions were coded as such.
[수행능력 차원]과 관련된 [평가자 특이성 수준]은 해당 치수를 사용하는 등급의 백분율에서 추론할 수 있다.
0과 100%는 최대 등급 간 일치(완전 특이성 결여)를 나타내고
50%는 최대 불일치(최대 특이성)를 나타낸다.
Levels of rater idiosyncrasy in relation to any performance dimension can be inferred from the percentage of raters using that dimension, with
0 and 100 % indicating maximum interrater agreement, i.e. complete absence of idiosyncrasy, and
50 % indicating maximum disagreement, i.e. maximum level of idiosyncrasy.
따라서 비율이 50%에 가까울수록 특이성 수준이 높아집니다. 또한 각 수행능력 차원에 대해 차원 관련 성과(효과적 행동 대 비효과적 행동)를 나타내는 문장의 수를 계산하였다. So, the closer the percentage moves to 50 %, the higher the level of idiosyncrasy. Additionally, the number of statements representing dimension-related performance (effective versus ineffective behaviours) was calculated for each of the performance dimensions.
Ethical approval
결과 Results
수행능력 이론 Performance theory
언어 프로토콜을 분석하여 평가자가 환자와의 만남 동안의 훈련생 행동을 평가할 때 사용하는 17가지 performance dimension를 식별하였다. 평가자들은 네 가지 주요 차원(GP처럼 생각/행동), '의사-환자 관계', '(바이오) 의학적 측면의 처리', '구조/시간 관리')과 다양한 하위 차원을 구분했다. Analysis of the verbal protocols resulted in identification of seventeen performance dimensions, used by the raters in assessing trainee behaviour during patient encounters. The raters distinguished four main dimensions (
‘Think/act like a GP’,
‘doctor-patient relationship’,
‘handling of (bio)medical aspects’ and
‘structuring/time management’
...) and various sub-dimensions.
'의사-환자 관계' 차원에서 두 개의 큰 하위 차원이 식별되었다.
하나의 하위 차원에는 효과적이고 효율적인 환자-의사 커뮤니케이션을 위한 "좋은 분위기 조성"과 관련된 일련의 행동이 포함되었습니다. 이 하위 차원은 특히 consultation이 시작될 때 평가자들이 고려하였다.
두 번째 하위 차원('균형잡힌 환자 중심성')에는 상담 내내 환자의 참여를 촉진하는 동시에 전문 의료 전문가로서 의사가 상담을 담당하도록 보장하는 일련의 행동이 포함되어 있습니다.
Within the dimension ‘doctor-patient relationship’, two large subdimensions were identified.
One sub-dimension included sets of behaviours relating to ‘‘creating a good atmosphere’’ for effective and efficient patient-doctor communication. This sub-dimension was considered by the raters at the beginning of the consultation in particular.
The second sub-dimension (‘‘balanced patient centeredness’’) contains sets of behaviours facilitating patient involvement throughout the consultation while at the same time ensuring that the physician, as a professional medical expert, remains in charge of the consultation.
수행능력 차원, 상호 관계 및 성과 관련 행동의 예는 그림 2에 제시되어 있습니다. The performance dimensions, their interrelationships and examples of performancerelated behaviours are presented in Fig. 2.
작업특이적 스키마 Task-specific schema
언어 프로토콜 분석 결과, 과제별 성과 스키마의 사용을 반영하는 [세 가지 주요 범주]가 나타났다(표 1).
사례 특이적 단서 식별,
사례 특이적 단서와 관련하여 (비)효과적인 특정 행동의 식별,
훈련생 행동이 특정 환자에 미치는 영향
Analysis of the verbal protocols resulted in three major categories reflecting the use of taskspecific performance schemas (Table 1):
identification of case-specific cues,
identification of particular behaviours as (in)effective, explicitly in relation to case-specific cues, and
effects of trainee behaviour on the particular patient.
이러한 범주는 평가자의 [성과 이론]의 이산적 측면뿐만 아니라, (비효과적인) 행동과 성과를 [사례특이적 단서]에 명시적으로 그리고 구체적으로 연결하는 코멘트를 나타낸다. 이러한 [과제-특이적 성과 스키마]의 특징은 [과제 특이적 성과 요건을 이해하려는 평가자의 노력]과 [환자 encounter 중에 일어나는 일]을 해석하고 평가하기 위한 '과제-특이적 성과 이론'의 사용을 반영한다.
These categories represent comments that focus not only on discrete aspects of raters’ performance theory, but also explicitly and specifically link (in)effective behaviours and performance to case-specific cues. These features of task-specific performance schemas reflect raters’ efforts to understand the requirements of task-specific performance and the use of ‘task-specific performance theory’ to interpret and evaluate what is happening during the patient encounter.
사람 스키마 Person schema
표 2는 그룹 및 VC당, T1 및 T2에서 추론을 반영하는 구두발언의 종류와 개수뿐만 아니라 수습생에 대한 추론을 하는 평가자의 비율을 나타낸다. 그 결과에 따르면, 대다수의 평가자들이 특히 두드러진 행동(VC1)과 관련하여, 그들의 성과를 관찰하고 평가하는 동안 훈련생에 대해 추론을 하였다. 표 2는 또한 평가자가 첫인상을 형성할 때 T1에서 추론을 할 가능성이 가장 높다는 것을 보여준다. (단일 환자 접촉 시 훈련생 성과 평가에는) Klimoski와 Donahue(2001)에 의해 기술된 5가지 추론 처리 유형이 모두 존재하는 것으로 보였다. 각 VC에 대한 서로 다른 평가자의 추론의 예는 표 3에 제시되어 있다. Table 2 presents the percentage of raters making inferences about the trainee as well as the type and number of verbal utterances reflecting inferences, per group and per VC, and at T1 and T2. The results show that the majority of raters made inferences about trainees while observing and evaluating their performance, especially with regard to salient behaviours (VC1). Table 2 also shows that raters were most likely to be making inferences at T1, when they were forming their first impressions. All five types of inference processing described by Klimoski and Donahue (2001) appeared to be present in the assessment of trainee performance during single patient encounters. Examples of inferences by different raters for each of the VCs are presented in Table 3.
평가자 특이성 Rater idiosyncrasy
등급별 특이성에 대한 결과는 표 4와 5에 제시되어 있다. The results for rater idiosyncrasy are presented in Tables 4 and 5.
표 4는 T1과 T2에서 각 평가자 그룹(경험이 있는 평가자 및 경험이 없는 평가자)과 각 비디오 사례에 대해 수습생 성과를 평가할 때 [특정 performance dimension를 사용하는 평가자의 비율]을 보여줍니다. 백분율이 매우 높거나 매우 낮으면(100 또는 0%에 가까움) 등급 간 일치 수준이 높음을 나타냅니다(등급 특이성 수준이 낮음). 그러나 비율이 50%에 가까울수록 특정 성능 차원 사용과 관련하여 더 많은 등급이 달라지므로 등급 특이성 수준이 높다는 것을 나타냅니다. 표 4는 (거의) 모든 평가자가 두 VC에서 주 performance dimension 중에서 '의사-환자 관계' 또는 그 하위 치수 중 적어도 하나를 사용했음을 보여준다. Table 4 shows the percentage of raters using a specific performance dimension when rating trainee performance at T1 and T2, for each group of raters (experienced and nonexperienced) and for each of the videocases. Very high or very low percentages (close to 100 or 0 %) indicate high levels of between-rater agreement (low levels of rater idiosyncrasy). The closer a percentage moves to 50 %, though, the more raters differ with respect to use of the specific performance dimension, indicating high levels of rater idiosyncrasy. Table 4 shows that (nearly) all raters used the main performance dimension ’doctor-patient relationship’ or at least one of its sub-dimensions in both VCs.
다른 모든 (하위)차원dimension의 경우, 해당 차원을 사용하는 평가자의 백분율은 다양했고(종종 0 또는 100%에서 멀리 떨어져 있음), 훈련생 성과 평가 중 성과 이론(즉, 평가자 특이성)의 사용에 있어 평가자 간 상당한 차이를 나타냈다. 평가자 간 차이와 평가자 전문지식에 대해 일관된 관계를 찾을 수 없었다. For all other (sub-)dimensions the percentages of raters using the dimension varied (often far from 0 or 100 %), indicating considerable between-rater differences in the use of performance theory (i.e. rater idiosyncrasy) during assessment of trainee performance. No consistent relationship was found for between-rater differences and rater expertise.
표 5는 T1과 T2의 각 VC에 대한 성과(하위) 단위별 효과적이고 비효과적인 훈련생 행동에 관한 구두발언의 수를 나타낸다. 표 5는 일반적으로 평가자의 판단이 '의사-환자 관계'에 비해 'Consultation의 생체의학적 측면 처리'에 대한 진술이 적다는 것을 보여준다. Table 5 presents the number of verbal utterances concerning effective and ineffective trainee behaviours per performance (sub-) dimension, for each group of raters, for each VC at T1 and T2. Table 5 shows that, in general, raters’ judgments included fewer statements on ‘handling biomedical aspects of the consultation’ compared to ‘doctor-patient relationship’.
평가자 전문 지식과 작업별 스키마 사용 Rater expertise and the use of task-specific schemas
과제별 스키마 사용에 관한 결과는 표 6에 제시되어 있다. 경험 많은 평가자들은 훈련생 성과를 평가할 때 과제특이적 요소에 훨씬 더 많은 주의를 기울였습니다. Results with respect to the use of task-specific schemas are presented in Table 6. Experienced raters paid significantly more attention to task-specific factors in assessing trainee performance.
복합심장환자(VC2)의 경우 T1과 T2(U = 77.5, p = 0.02, U = 86, p = 0.04, ES = 35)에서 과제특이적 성과 요소 수(A1 + A2 + A3)에 대해 그룹 간 유의한 차이가 발견되었다. For the complex cardiac case (VC2), significant between-group differences were found with respect to the number of task-specific performance elements (A1 + A2 + A3) per rater at T1 and T2 (U = 77.5, p = .02, ES = .41 and U = 86, p = .04, ES = .35).
피부과 환자(VC1)의 경우 T1에서 유사하고 거의 유의미한 차이가 발견되었다(U = 57, p = 0.07). T2에서 과제별 요소(A1 + A2)에 대해 그룹 간 유의한 차이가 발견되었다(U = 73, p = 0.01, ES = 0.44). For the dermatology case (VC1), similar and near-significant differences were found at T1 (U = 57, p = .07). At T2, significant between-group differences were found for task-specific elements (A1 + A2) (U = 73, p = .01, ES = .44).
표 6은 [과제특이적 수행능력 스키마와 관련된 진술]이 경험이 많은 평가자의 구두 프로토콜의 상당한 부분을 나타내며, 경험이 적은 평가자 집단이 덜 자주 사용한다는 것을 명확히 보여준다. Table 6 clearly shows that statements related to task-specific performance schemas represent a substantial part of the verbal protocols of the more experienced raters, and are less frequently used by the group of less experienced raters.
고찰 Discussion
실제 평가 작업 시 think-aloud 절차를 사용하여 성능 평가 시 GP 평가자가 사용하는 수행능력의 차원을 설정할 수 있었습니다. 그림 2의 performance dimensions는 34명의 GP-감독자가 각각 다른 환자 만남을 수행하는 두 명의 성과를 평가한 생각-라우드 절차 분석에서 도출되었습니다. performance dimensions 와 하위 차원은 함께 '평가자가 실제적으로 주목하고 코멘트하는 것'이 무엇인가에 기초하여, 일반적인 실무에서의 의사 수행능력에 대한 [규범적 성과 이론] 또는 ['성과 스키마']를 반영하는 것으로 간주될 수 있다. We used think-aloud procedures during actual rating tasks, which enabled us to establish dimensions of performance used by GP-raters during performance assessment. The performance dimensions in Fig. 2 emerged from the analysis of think-aloud procedures of 34 GP-supervisors rating the performance of two different trainees each conducting a different patient encounter. Performance dimensions and sub dimensions together could be considered to reflect a normative performance theory, or ‘performance schema’, of physician performance in general practice, built upon what ‘raters actually pay attention to and comment upon in practice’.
본 연구의 결과는 평가자들이 직업 역량에 대한 1차원 또는 2차원 개념('인지적/임상적' 및 '인문적/(정신적)사회적')을 가지고 있고, 그래서 서로 다른 역량이나 차원을 구별할 수 없다는 WBA에 대한 이전의 연구와 일치하지 않는 것 같습니다. 이러한 소위 후광 효과는 일반적으로 전지구적 인상 형성, 분류 또는 '고정관념화'로 인한 평가 오류에 기인한다. The results from our study seem to be inconsistent with previous research on WBA indicating that raters have a one- or two-dimensional conception of professional competence (‘cognitive/clinical’ and ‘humanistic/(psycho)social’) and are therefore unable to discriminate between different competencies or dimensions (Cook et al. 2010; Pulito et al. 2007; Archer et al. 2010). This so-called halo effect is generally attributed to rater error, resulting from global impression formation, categorization or ‘stereotyping’.
본 연구의 결과는 평가자들이 성능을 평가할 때 상당히 많은 수의 서로 다른 performance dimensions를 구별하고 상호작용적으로 여러 차원을 사용했음을 명확히 보여준다. 예를 들어, 평가자들은 병력 청취, 신체 검사 또는 환자 관리 시 성과를 평가할 때, 문제의 (바이오) 의료 또는 '의료 기술' 측면뿐만 아니라 의사소통 및 대인관계 및 시간 관리 능력도 평가했습니다. The results from our study clearly show that raters distinguished a fairly large number of different performance dimensions and used dimensions interactively when assessing performance. For example, when assessing performance during history taking, physical examination or patient management, raters assessed not only students’ ability to adequately handle (bio)medical or ‘medico-technical’ aspects of the problem, but also their communication and interpersonal as well as time management skills.
다시 말해, 평가자들이 사용하는 성과 이론(또는 역량 체계)은 performance dimensions를 엄격히 분리된 별개의 기업(예: 전형적인 미니 CEX 형식)으로 제시하는 대부분의 표준화 평정 척도의 체계에 [깔끔하게 매핑되지 않는다]. 서로 다른 performance dimensions 간의 진정한 상관 관계는 높을 수 있으며, 관찰된 후광 효과는, 적어도 부분적으로만이라도, 훈련생 수행능력에 대한 (평가자의 무능력 또는 자동적 하향식 범주화의 결과보다는) '진정한 후광'으로 간주될 수 있습니다. In other words, the performance theory (or competency framework) used by the raters does not map neatly onto the frameworks of most standardized rating scales, which present performance dimensions as strictly separate, distinct entities (e.g. the typical mini-CEX format). True correlations between different performance dimensions may be high, and observed halo effects may— at least partially—be considered as ‘true halo’ rather than as the result of rater incompetence or automatic top-down categorization of trainee performance.
우리의 연구 결과는 또한 GP-감독자가 성능 평가에 사용한 치수에 차이가 있어 다양한 평가자의 특이성을 나타냈다는 것을 보여준다. 또한 평가자들은 환자를 마주치는 동안 실제로 본 내용에 따라 다른 dimension를 사용했다. 모든 dimension이 모든 경우에 동등하게 관련되거나 중요한 것은 아니다. 일반적으로 [표준화된 평정 척도]는 사전에 정의된 순서에 따라 performance dimensions(또는 역량)의 집합을 나타내도록 설계되고, 이는 각 수행능력 영역의 동일한 중요성을 시사한다. 따라서 평가자에게 모든 성과 차원에 대한 평가 점수를 작성하도록 요구하는 것은 연습생의 성과에 대한 정확한 묘사에 방해가 될 수 있습니다. 우리의 연구 결과는 평가 대상 전공의에 따라 dimension가 다양한 중요도를 차지한다는 것을 발견한 긴즈버그 외 연구진(2010)의 연구 결과와 일치한다. Our findings also show that GP-supervisors differed in the dimensions they used in performance assessment, indicating varying levels of rater idiosyncrasy. Furthermore, raters used different dimensions, depending on what they actually saw during the patient encounter: apparently not all dimensions are equally relevant or important in all cases. In general, standardized rating scales are designed to represent a given set of performance dimensions (or competencies) in a predefined order, suggesting equal importance of each performance domain. Requiring raters to fill in a rating score for all performance dimensions may therefore hinder accurate depiction of trainee performance. Our findings are in line with findings from Ginsburg et al. (2010), who found that dimensions took on variable degrees of importance, depending on the resident that was being evaluated.
본 연구는 복잡한 작업을 처리할 때 '전문가'가 행동 계획이나 해결 방안을 결정하기 전에 상황별 또는 상황별 요소에 더 많은 주의를 기울인다는 것을 나타내는 전문성에 관한 연구 결과를 확인한다(예: Ross et al. 2006). 환자와의 만남에서 학생들의 성과를 평가할 때, 경험이 풍부한 GP 평가자들은 과제특이적 단서에 더 많은 관심을 기울였습니다. 더욱이 경험 많은 평가자들은 경험이 부족한 평가자들보다 과제특이적 또는 사례특이적 단서를
훈련생 행동에 연결시키고,
훈련생 행동이 환자와 환자 상담 결과 모두에 미치는 영향을 명시적으로 연계할 가능성이 더 높은 것으로 보였다.
The present study confirms findings of expertise research indicating that, when handling complex tasks, ‘experts’ pay more attention to contextual or situation-specific factors before deciding on a plan of action or solution (e.g. Ross et al. 2006). When assessing student performance in patient encounters, experienced GP-raters paid (significantly) more attention to task-specific cues. Furthermore, experienced raters seemed to be more likely than inexperienced raters to explicitly link task-or case-specific cues
to specific trainee behaviours and
to effects of trainee behaviour on both the patient and the outcome of the patient consultation.
본 연구에서는 평가자들이 훈련생 수행능력을 관찰하기 시작한 순간부터 [개인 스키마]를 개발하기 시작했음을 명확히 보여줍니다. 평가자는 훈련생에 대해 알고 있는 것(예: 훈련 단계)에 따라 지식과 기질에 대한 추론을 했을 뿐만 아니라, 하지만 적어도 일부 평가자는 성격 판단 및 행동 해석에 따라 연수생들 분류하는 것 같았다. 비록 우리의 조사 결과가 개인 연습생에 대한 일부 추론에 대해 평가자들 사이에 공감대를 보여주고 있지만, 상당한 의견 차이도 있었다. 이러한 발견은 [인식자의 <특이적> 해석 과정]이 사람 인식의 급격한 차이를 만들어 낼 수 있다는 것을 일관되게 보여주는 사람 인식 연구와 일치한다(Mohr와 Kenny 2006). 일반적으로 사람들은 자발적으로 사회적 추론을 하고, 평가자의 개인 스키마는 (일단 개발되면) 후속 평가에서 (선택적) 주의를 유도하고 미래 정보의 해석을 색칠할 수 있다. 따라서 WBA 맥락에서 평가자가 [개인 스키마]를 구성하는 방법의 차이는 평가 결과의 차이를 뒷받침하는 주요 요인 중 하나가 될 수 있다. Findings from our study clearly indicate that raters started to develop person schemas from the moment they began to observe trainee performance. Raters not only made inferences about knowledge and disposition based on what they knew about the trainee (phase of training, for instance), but at least some raters also seemed to categorize trainees according to personality judgments and behavioural interpretations. Although our findings show consensus among raters with respect to some inferences about individual trainees, there was also considerable disagreement. These findings are in line with person perception research, which consistently shows that perceivers’ <idiosyncratic> interpretive processes may produce sharp differences in person perception (Mohr and Kenny 2006). In general, people make social inferences spontaneously (Uleman et al. 2008; Macrae and Bodenhausen 2001), and raters’ person schemas—once developed—may guide (selective) attention in subsequent assessments and colour the interpretation of future information. Differences in the way raters form person schemas in WBA contexts may therefore be one of the major factors underlying differences in rating outcomes.
Limitations of our study
함의 Implications of our study
첫째, 우리의 연구 결과는 Holmboe(2008)가 제안한 '기준 체계'(frame-of-reference, FOR) 훈련의 이행을 추가로 지원하기 위해 평가 훈련에 영향을 미칠 수 있다. 앞에서 언급한 바와 같이, 평가자 훈련의 결과는 종종 실망스러우며, 평가자 훈련이 평가자의 선행 성과 이론을 무시하고 사전 정의되고 표준화된 평가 도구를 사용하는 방법에 초점을 맞추는 경향이 있기 때문일 수 있습니다. 그 결과, 교육 transfer가 제한될 수 있습니다. 반면, F-O-R 교육은 평가자들에게 성과를 평가하는 개인적인 방법을 성찰하도록 요청하며, 성과 차원, 성과 관련 행동 및 성과 수준을 논의하고 정의함으로써 독특한 등급 경향을 줄이는 것을 목표로 한다. 즉, F-O-R 훈련은 성과를 관찰하고 평가하기 위한 '공유 정신 모델' 또는 '공유 성과 이론'을 확립한다. 수행능력 평가 영역에서는 F-O-R 훈련이 등급별 훈련에 대한 가장 유망한 접근법으로 부상하고 있으며 현장 환경에 성공적으로 적용되었다 (Sulsky and Kline 2007; Holmboe et al. 2004). Firstly, our findings may have implications for rater training, providing further support for the implementation of ‘frame-of-reference’ (FOR) training as proposed by Holmboe (2008). As indicated before, results of rater training are often disappointing and one of the major reasons may be that rater training tends to focus on how to use predefined and standardized assessment instruments, ignoring raters’ a priori performance theories. As a consequence, transfer of training may be limited. FOR training on the other hand asks raters to reflect on their personal methods of evaluating performance, and aims to reduce idiosyncratic rating tendencies through discussing and defining performance dimensions, performance-related behaviours and performance levels. FOR training, in other words, establishes a ‘shared mental model’ or ‘shared performance theory’ for observing and evaluating performance. In the performance appraisal domain, FOR training has emerged as the most promising approach to rater training and it has been successfully applied in field settings (Sulsky and Kline 2007; Holmboe et al. 2004).
둘째, 우리의 연구 결과는 WBA의 맥락에서 평가자를 선택하는 방법에 영향을 미칠 수 있다. 연구 결과에 따르면, 경험이 풍부한 평가자가 직무별 성과 스키마를 사용하면 학습자/교육자에게 제공되는 피드백에 영향을 미칠 수 있습니다. 경험 많은 평가자들에 의한 상황적 단서contextual cues의 통합은 질적으로 다른, 보다 전체적인 피드백으로 이어질 수 있으며, 다양한 이슈에 초점을 맞추고 수행의 다른 측면을 통합하여 환자 접점에서 일어나고 있는 일에 의미를 부여할 수 있습니다. 더 나아가 산업 및 조직 심리학의 연구에 따르면 보다 차별화된 성과 스키마를 사용하는 경험 있는 평가자들이 더 정확한 등급을 제공한다(예: Cardy et al. 1987; Ostroff and Ilgen 1992). 스키마 사용과 등급 정확도 사이의 관계를 조사하는 것을 목표로 하지는 않았지만, 우리의 연구 결과는 작업 기반 성과 평가의 정확성에 대한 등급 전문성의 영향에 대한 추가 연구가 필요하다고 지적합니다.
Secondly, our findings may have implications for the way we select raters in the context of WBA. Based on the findings from our study, the use of task-specific performance schemas by more experienced raters may affect feedback given to learners/trainees. The incorporation of contextual cues by experienced raters can result in qualitatively different, more holistic feedback, focusing on a variety of issues and giving meaning to what is happening in the patient encounter by integrating different aspects of performance. Furthermore, research in industrial and organizational psychology indicates that more experienced raters who use more differentiated performance schemas provide more accurate ratings (e.g. Cardy et al. 1987; Ostroff and Ilgen 1992). Although we did not aim to investigate the relationship between the use of schemas and rating accuracy, our findings point to a need for further research into effects of rater expertise on the accuracy of workbased performance assessment.
그 결과는 또한 WBA의 평정 척도 또는 평정 형식 설계에 영향을 미칠 수 있다. 앞에서 언급한 바와 같이, 평가 척도가 평가자의 [수행능력 이론]을 적절히 반영하지 못할 경우, 평가 점수에 대한 올바른 해석과 수행능력 평정의 유용성이 저하될 수 있습니다. 우리의 실험 환경이나 FOR 훈련 절차의 일부로서 ''사용 중인 성과 이론performance theory-in-use''을 도출하는 것은 숙련된 실무자들이 훈련생들의 판단에 중요하다고 여기는 것을 반영하여 평가 프레임워크와 도구의 개발에 기여할 수 있다. 평가자의 [자연 인지 처리natural cognitive processing]와 [역량 프레임워크]에 부합하는 평가기구를 활용하면, 보다 타당하고 진정한authentic 성과등급이 생성돼 WBA 결과의 유용성이 향상될 것으로 기대된다. The results may also have implications for the design of rating scales or rating formats in WBA. As indicated before, correct interpretation of rating scores and usefulness of performance ratings may be compromised when rating scales do not adequately mirror raters’ performance theories. Eliciting ‘‘performance theory-in-use’’, as in our experimental setting or as part of FOR-training procedures, may contribute to the development of assessment frameworks and instruments, reflecting what experienced practitioners consider to be of importance in the judgment of trainees. It is to be expected that the use of rating instruments that are in line with raters’ natural cognitive processing and competency frameworks will generate more valid and authentic performance ratings, thereby improving the usefulness of WBA results.
그러나 더 중요한 것은 우리의 연구 결과가 WBA에서 묘사적, 서술적 피드백의 중요성을 보여준다는 것이다. 우리의 조사 결과에서, 평가 척도의 단순한 점수는 단지 평가자들에 의한 복잡하고 독특한 정보 처리의 빙산의 일각일 뿐이라는 것이 분명하다. 따라서 수행능력 점수를 의미 있게 해석하려면 평가자의 개인적 동기 및 논증에 대한 통찰력을 제공하는 추가 서술 코멘트가 필요합니다. 따라서 서술적 피드백과 논평은 역량 달성에 대한 신뢰할 수 있고 방어가능한 의사결정을 뒷받침할 것이다. 더욱이 서술적 피드백이 건설적인 방식으로 제공된다면, 훈련생들이 성과에서 강점과 약점을 정확하게 파악하고 역량 개발을 효과적으로 이끌 수 있는 유일한 방법입니다. More importantly, however, we feel that our findings illustrate the importance of narrative, descriptive feedback in WBA. From our findings, it is clear that a simple score on a rating scale merely represents the tip of the iceberg of the complex and idiosyncratic information processing by raters. Meaningful interpretation of performance scores therefore requires additional narrative comments providing insight into raters’ personal motivations and argumentations. Narrative feedback and comments will thus support credible and defensible decision making about competence achievement. Moreover, narrative feedback—provided it is provided in a constructive way—is the only way to help trainees to accurately identify strengths and weaknesses in their performance and to effectively guide their competence development.
마지막으로, [개인 스키마person schemas]의 개발 및 사용은 WBA 결과의 타당성 위협이 될 수 있다(예: 고정관념화 위험). 그러나 성과 평가에서 스키마 기반 처리가 불가피할 수 있음을 인식하는 것이 중요합니다. 스키마를 사용하면 평가자가 피평가자에 대한 정보를 효율적으로 처리하고 정리할 수 있습니다. 따라서 WBA를 개선하기 위한 노력은 [스키마 기반 프로세싱의 의도하지 않은 영향]이 상쇄되는 평가 환경을 설계하는 것에 집중되어야 한다. 우선, 평가자들이 연습생 실적에 대한 인상을 형성하는 과정을 인지하고 인식하는 것이 중요해 보입니다. 이를 위해서는 평가 프로세스에 참여하는 다른 사람과의 상호작용뿐만 아니라 수행능력 평정에 대한 교육, 피드백 및 성찰이 필요합니다. Finally, the development and use of person schemas may pose a threat to the validity of WBA results (e.g. risk of stereotyping). It is important to realize, however, that schemabased processing in performance assessments is likely to be inevitable: use of schemas helps raters to efficiently process and organize information about ratees. Therefore, efforts to improve WBA should be directed at designing assessment environments in which any unintended effects of schema-based processing are countered. First of all, it seems important for raters to be aware of and recognize the processes by which they form impressions of trainee performance. This requires training, feedback and reflection on performance rating as well as interactions with others involved in the assessment process.
그러나 더 중요한 것은 판단(예: 고정관념의 적용)의 기초가 되는 [사회적 인식 과정social-cognitive process]이 인식자의 사회적 목표, 동기, 감정 상태 및 타인과의 관계에 매우 융통성 있고 적응적이다는 최근 증거가 있다는 것입니다(Smith and Seemin 2007). 즉, 이전에는 [잠재의식적이고 자동적]이라고 여겨졌던 개인 스키마와 같은 정신적 표현이나 지식 구조의 활성화와 적용은, [판단이 이루어지는 사회적 맥락]에 의해 영향을 받습니다. More importantly, however, there is recent evidence that social-cognitive processes that underlie judgments (for example the application of stereotypes) are extremely malleable and adaptive to the perceiver’s social goals, motives, emotional state and relationships with others (Smith and Semin 2007). In other words: activation and application of mental representations or knowledge structures, such as person schemas, formerly thought to be subconscious and automatic, are influenced by the social context in which judgments are made.
다른 영역의 작업 환경에 대한 연구를 바탕으로 효과적인 개입은 다음을 포함합니다.
적절한 자원(시간 및 비용)의 배분
평가자에게 훈련생을 관찰하고 평가할 수 있는 적절한 기회 제공
장기간의 관여 보장
평가자의 의사결정에 대한 책무성 강조
감독자와 훈련생 사이의 상호 의존성을 강조
Based on research in work settings in other domains, effective interventions include
allocation of adequate resources (time and money) and
providing raters with adequate opportunities to observe and evaluate trainees;
ensuring prolonged engagement;
holding raters accountable for their decisions; and
underscoring mutual interdependence between supervisor and trainee (Operario and Fiske 2001).
서로 다른 평가자/평가자 간의 '비판적 대화'와 같은 의사결정 전략의 신중한 설계를 통해 신뢰성과 의사결정의 엄격함을 더욱 높일 수 있다(Vander Vleuten et al. 2010; Moss 1994).
Trustworthiness and rigour of decision making can furthermore be achieved through careful design of decision making strategies, such as ‘critical dialogue’ between different raters/assessors (Van der Vleuten et al. 2010; Moss 1994).
결론 Conclusive remarks
우리는 연구의 발견이 임상 영역에서 업무 기반 평가의 기초가 되는 과정을 더 잘 이해하는 데 기여한다고 느낀다. 평가자는 성과를 평가할 때 (장기간의 업무 경험을 통해 발전시켜온) 수행능력에 대한 [개인적 구조와 이론]을 활용한다. 평가자가 관찰 및 평가 중에 도달하는 [개인 모델]뿐만 아니라, [성과 이론]의 특이적 사용은 평가 결과를 결정한다. 우리는 평가자가 평가가 이루어지는 [사회적 맥락에 내재된 능동적 정보 처리자]임을 고려할 때, 우리의 연구 결과는 사회 심리학적 관점에서 WBA에 대한 접근방식을 지지한다고 결론짓는다.
We feel that the findings of our study contribute to a better understanding of the processes underlying work-based assessments in the clinical domain. When assessing performance, raters make use of personal constructs and theories about performance that develop through prolonged task experience. Idiosyncratic use of performance theories as well as person models that raters arrive at during observation and assessment determine rating outcomes. We conclude that our findings support approaches to WBA from a socialpsychological perspective, considering raters to be active information processors embedded in the social context in which assessment takes place.
Adv Health Sci Educ Theory Pract. 2013 Aug;18(3):375-96.
doi: 10.1007/s10459-012-9376-x.Epub 2012 May 17.
Workplace-based assessment: raters' performance theories and constructs
1Department of Educational Research and Development, FHML, Maastricht University, PO Box 616, 6200 MD Maastricht, The Netherlands. marjan.govaerts@maastrichtuniversity.nl
Weaknesses in the nature of rater judgments are generally considered to compromise the utility of workplace-based assessment (WBA). In order to gain insight into the underpinnings of rater behaviours, we investigated how raters form impressions of and make judgments on trainee performance. Using theoretical frameworks of social cognition and person perception, we explored raters' implicit performance theories, use of task-specific performance schemas and the formation of person schemas during WBA. We used think-aloud procedures and verbal protocol analysis to investigate schema-based processing by experienced (N = 18) and inexperienced (N = 16) raters (supervisor-raters in general practice residency training). Qualitative data analysis was used to explore schema content and usage. We quantitatively assessed rater idiosyncrasy in the use of performance schemas and we investigated effects of rater expertise on the use of (task-specific) performance schemas. Raters used different schemas in judging trainee performance. We developed a normative performance theory comprising seventeen inter-related performance dimensions. Levels of rater idiosyncrasy were substantial and unrelated to rater expertise. Experienced raters made significantly more use of task-specific performance schemas compared to inexperienced raters, suggesting more differentiated performance schemas in experienced raters. Most raters started to develop person schemas the moment they began to observe trainee performance. The findings further our understanding of processes underpinning judgment and decision making in WBA. Raters make and justify judgments based on personal theories and performance constructs. Raters' information processing seems to be affected by differences in rater expertise. The results of this study can help to improve rater training, the design of assessment instruments and decision making in WBA.
상호 불일치로서 평가자간 변동: 평가자의 발산적 관점 식별(Adv in Health Sci Educ, 2017) Inter-rater variability as mutual disagreement: identifying raters’ divergent points of view Andrea Gingerich1 • Susan E. Ramlo2 • Cees P. M. van der Vleuten3 • Kevin W. Eva4 • Glenn Regehr4
도입 Introduction
인간의 판단은 의학 교육에서 필수적인 것으로 여겨져 왔다(Schuwirth and Van der Vleuten 2011). 그러나 여러 관측자는 (동일한 수행능력에 대해서도) 평정을 제공할 때마다 평가자 간 변동이 만연합니다(Crossley 및 Jolly 2012). 평가자 간 변동은 종종 평가자가 실수를 저지르거나 누락되거나 편향된 결과로 해석된다(Albanese 2000; Downing 2005; Williams et al. 2003). 그 결과로 나타난 '평가자 특이적 분산idiosyncratic rater variance'은 사이코메트리 모델에서 사용할 수 없는 측정 오차(O'Neill et al. 2015)로 간주되며, 평가 결정의 방어성을 위협하기에 충분한 규모일 수 있다(Crossley et al. 2002; Downing 2004). 따라서, 평가자 인식을 탐구하는 연구의 대다수는 [가변성의 기저에 있는 무의식적 인지 편향] 뿐만 아니라 [통제 가능한 판단 과정]을 탐색했다 Human judgment has been considered indispensable to programs of assessment in medical education (Schuwirth and Van der Vleuten 2011). However, whenever multiple observers provide ratings, even of the same performance, inter-rater variation is prevalent (Crossley and Jolly 2012). This inter-rater variation is often interpreted as the result of raters committing mistakes, making omissions or being biased (Albanese 2000; Downing 2005; Williams et al. 2003). The resulting ‘idiosyncratic rater variance’ is considered to be unusable error of measurement in psychometric models (O’Neill et al. 2015) and can be of sufficient magnitude to threaten the defensibility of our assessment decisions (Crossley et al. 2002; Downing 2004). Thus, the majority of research exploring rater cognition has searched for the controllable judgment processes as well as the unconscious cognitive biases that may underlie rating variability (Gauthier et al. 2016; Gingerich et al. 2014a; Kogan et al. 2011; Tavares and Eva 2013; Williams et al. 2003; Wood 2014).
최근 평가자 간 가변성을 조사하는 의학교육 연구자들은 평가자에 대해 다음을 발견했다.
때로는 [성과에 대해 서로 다른 측면을 강조]하고(즉, 서로 다른 측면을 가장 중요하게 보고),
때로는 동일한 수행 측면에 대해서도 완전히 동의하지 않으며(즉, 동일한 측면을 다르게 보고),
때로는 확인되지 않은 사회적 추론을 내린다.(예: 성격 특성 및 동기에 관한 추론)
Recently, medical education researchers investigating inter-rater variability have found that raters
sometimes emphasize different aspects of the performance (i.e. seeing different aspects as most important),
sometimes outright disagree on the same aspects of the performance (i.e. seeing the same aspect differently) and
sometimes make unchecked social inferences (e.g. inferences regarding personality traits and motives) (Gauthier et al. 2016; Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; Yeates et al. 2013).
이러한 발견과 해석은 특이적인 '평가자 오차rater error'로서 평가자 변동성rater variability의 개념화와 확실히 일치한다. 그러나 Gingerich 외 연구진(2014b)은 평가자 간 변동을 탐구하는 연구에서 평가자 응답에서 [판단이 특이하다고 이야기되는 것만큼 특이하지는 않다]는 것을 시사할 수 있는 패턴을 발견했다. 더 구체적으로, 각 임상 성과에 대해 다수의 [동의 클러스터]를 식별했으며, 각 동의 클러스터에는 주어진 임상 성과에 대한 유사한 인상이나 해석을 보고한 여러 의사 평가자가 포함되어 있었다. 기술된 인상의 내용과 가치는 종종 클러스터 간에 크게 달랐으며, 이는 합의의 여러 클러스터가 성능에 대한 서로 다르지만 완전히 독특한 관점은 아님을 시사한다. 이러한 발견은 사회적 상호작용에서 사람들이 수행자에 대해 하는 사회적 추론을 바탕으로 관찰하는 사람들을 다르게 분류하는 경향이 있지만 [완전히 특이하지는 않다]는 사회 심리학 문헌의 연구와 일치했다(Fiske et al. 2007; Macrae와 Bodenhausen 2000; Mohrand). Kenny 2006; Park et al. 1994). 중요한 것은, [주어진 임상 수행능력]에 대한 [합의의 클러스터(즉, 각 평가자가 속한 클러스터를 설명함)]는 종종 성과에 대한 평가자의 점수의 유의한 분산 비율을 설명한다는 것이다.
These findings and interpretations are certainly consistent with the conceptualization of rater variability as idiosyncratic ‘rater error’. In a study exploring inter-rater variation, however, Gingerich et al. (2014b) discovered patterns in raters’ responses that might suggest their judgments are not as idiosyncratic as they have been characterized. More specifically, multiple clusters of consensus were identified for each clinical performance with each cluster of consensus containing several physician raters who reported similar impressions or interpretations of the given clinical performance. The content and valence of the impressions described often varied widely between clusters, suggesting that the multiple clusters of consensus represented different, but not entirely idiosyncratic, perspectives on the performance. These findings were consistent with research from the social psychology literature which suggests that in social interactions people will tend to differently (but not entirely idiosyncratically) categorize those they are observing based on the social inferences they make about the performer (Fiske et al. 2007; Macrae and Bodenhausen 2000; Mohr and Kenny 2006; Park et al. 1994). Importantly, these clusters of consensus for a given clinical performance (i.e. accounting for the cluster to which each rater belonged) often explained a significant proportion of variance in raters’ scores of the performance.
지금까지의 연구는 등급 인지에 대한 중요한 통찰력을 제공했지만, 이전의 모든 조사는 등급에 대한 평가자의 의견과 정당성을 수집하는 도구로 인터뷰나 텍스트 상자와 같은 [개방형 응답 형식]을 사용했다. 이는 초기 연구에서 중요한 설계 요소였습니다. 평가자들은 연구자들의 선입견에 구애받지 않고 자신의 아이디어를 자유롭게 표현할 수 있었습니다. 그러나 참가자가 [개방형 텍스트 형식]을 사용할 때 더 많은 구조화된 응답을 제공하도록 요청되었을 때보다 상세한 응답을 제공하지 못하는 것으로 확인되었기 때문에 잠재적으로 제한된 설계 요소이기도 하다(Herbers et al. 1989). While the research to date has offered important insights into rater cognition, all of the previous investigations have used open response formats, such as interviews or text boxes, as tools for collecting raters’ comments and justifications for their ratings (Chahine et al. 2016; Gauthier et al. 2016; Gingerich et al. 2014b Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; St-Onge et al. 2016; Tavares et al. 2016; Tweed and Ingham 2010; Yeates et al. 2013, 2015). This has been an important design element in these early studies–allowing raters the freedom to articulate their own ideas without being limited by the researchers’ preconceived notions. However, it is also a potentially limiting design element because participants have been found to provide less detailed responses when using an open text format than when they were prompted to provide more structured responses (Herbers et al. 1989).
따라서 [개방형 응답]의 유연성은 평가자가 일부 특성만을 [불균형적으로 강조]할 수 있도록 하는 동시에, 평가 판단에 중요하고 잠재적으로 영향력이 있는 다른 특징들은 생략할 수 있다. 그렇다면, 결과적으로 개방형 텍스트 응답은 기본 평가자 인지에 대한 왜곡된 표현을 제공할 것이고, 후속 분석은 평가자의 인식의 유의한 차이에 기인하는 것보다 연구 설계의 아티팩트로 더 잘 설명되는 평가자 인지에 대한 변동성을 식별할 것이다.
Therefore, the flexibility of the open response format may allow raters to disproportionately emphasize some features, while omitting other features that were nonetheless salient and potentially influential in their assessment judgments. If so, the resulting open text responses would provide a distorted representation of the underlying rater cognition and their subsequent analysis would identify variability in rater cognitions that is better explained as an artifact of the study design than it is attributable to meaningful differences in raters’ cognitions.
[Q 방법론]에서 모든 참가자는 동일한 진술 세트를 제시받으며 다른 모든 진술(Stephenson 1953; Watts and Stenner 2012)과 관련하여 어떤 진술이 가장 두드러지는지를 (조사 주제에 대한 개인적 관점에 따라) 표시하도록 지시받습니다. [Q 방법론]을 선택한 이유는 참여자들이 (평가하는 순간만이 아니라) 임상적 encounter의 잠재적으로 중요한 각각의 특징을 명시적으로 반영해야 하고, 단순히 개방형 응답 형식으로 말하지 않은 것에 대한 의견을 보다 명확하게 나타내는 상대적 순위를 만들 것을 요구하기 때문이다(Brown 1980). 그런 다음 참가자가 보유한 다양한 관점을 식별하기 위해 특정 분석 절차를 사용할 수 있습니다(Stephenson 1953; Watts and Stenner 2012). In Q methodology every participant is presented with the same set of statements and is instructed to indicate which statements are most salient (according to their personal viewpoint on the topic of investigation) by sorting them in relation to all of the other statements (Stephenson 1953; Watts and Stenner 2012). Q methodology was chosen because it requires that participants explicitly reflect on each of the potentially salient features of the clinical encounter (after, not during their ratings) and requires them to create a relative ranking that more clearly indicates their opinions about things that might simply be left unsaid in a free response format (Brown 1980). A specified set of analytic procedures can then be used to identify the different points of view held by the participants (Stephenson 1953; Watts and Stenner 2012).
따라서 Q 방법론은 다른 방법을 사용하여 이전의 연구 결과를 복제하고 방법론이 제공하는 분석에서 발생하는 새로운 통찰력을 제공함으로써 평가자 인식 문헌을 확장할 수 있는 기회를 제공한다. (Q-요인에 기초한) 유사한 관점의 평가자 집단이 존재하고 등급의 상당한 변동을 설명한다면, 그 집단에 대한 근거의 검토는 평가자 간 변동성이 단순히 측정오차를 나타내는 것이라는 일반적인 관점을 유지할 수 있는지 여부를 결정하는 데 도움이 될 것이다. 즉, Q 방법론은 발생 상황에 대한 의견 불일치 또는 발생한 일의 중요성에 대한 의견 불일치로부터 연결실체의 관점의 차이가 어느 정도 발생하는지를 탐구할 수 있도록 한다.
Q methodology, therefore, offers the opportunity to extend the rater cognition literature both by replicating previous findings using a different method and by providing novel insights that arise from the analyses that the methodology affords. If groupings of raters with similar viewpoints (based on Q-factors) exist and explain substantial variability in ratings, then examination of the basis for the groupings would help determine if the commonly held view that inter-rater variability is simply representative of measurement error can be maintained. That is, Q methodology allows us to explore the extent to which the differences in the groups’ perspectives arise from disagreements about what happened in the encounter, or disagreements about the importance of what happened.
방법 Methods
Q-정렬 절차 및 분석 Q-sort procedure and analysis
1단계: 임상 성과 내에서 중요한 측면 식별 Step 1: Identifying salient aspects within the clinical performances
Q-연구 설계의 첫 번째 단계는 참가자에 의해 [정렬될 일련의 문장을 식별]하는 것입니다. 이 토론회는 관심 주제를 폭넓게 대표하는 다양한 성명서(McKown and Thomas 1988, Watts and Stenner 2012)를 모으는 것으로 시작됩니다. 우리의 합의는 가능한 한 평가 판단에 영향을 미치는 임상적 만남의 많은 중요한 측면을 포함할 필요가 있었다. 따라서 앞서 연구한 임상 성과에서 수집된 데이터를 활용하여 성과에 대한 모든 주요 측면을 포함하는 일련의 진술을 생성하는 것이 필수적이었다. 2단계에서 설명하는 최종 과제를 참가자들이 실현 가능하도록 하기 위해(즉, 소요 시간을 약 1시간으로 제한하기 위해), 이전 연구에서 사용한 7개 중에서 비디오 녹화 임상 성과 4개 세트(비디오 1, 2, 6, 7)를 선택했다(Gingerich et al. 2014b). The first step in the design of a Q-study is identifying a set of statements that will be sorted by participants. It begins with gathering a large array of statements that are broadly representative of the topic of interest, known as the concourse (McKeown and Thomas 1988; Watts and Stenner 2012). Our concourse needed to include as many salient aspects of the clinical encounters that influence assessment judgments as possible. Therefore, it was essential to utilize data collected from previously studied clinical performances to generate a set of statements that contained all salient aspects of the performances. To make the eventual task described in Step 2 feasible for participants (i.e. to limit the amount of time required to approximately 1 h), we selected a set of four video-recorded clinical performances (videos 1, 2, 6, 7) from seven used in an earlier study (Gingerich et al. 2014b).
전체 협점이 확인되면 일부 문장이 선택되어 Q-샘플을 형성합니다. Q-샘플은 참가자들이 협력할 수 있는 합리적인 크기여야 하지만 콩코스의 대표성을 유지하고 분석 중에 발견될 수 있는 가능한 관점에 걸쳐 균형을 이루어야 합니다. 우리는 피셔의 실험 설계 접근법(Brown 1980; Stephenson 1953; Watts and Stenner 2012)으로 알려진 [구조화된 Q-샘플]을 개발하기 위해 가장 공식적인 접근법을 사용했다. 우리는 한 명의 저자(AG)가 각 비디오에 대한 가장 독특한 응답으로 초점을 줄였습니다. 이로써 전체 공개 텍스트 응답 수는 195개로 줄어들었습니다. 그런 다음 이를 Q-sort에 사용할 적절한 길이의 짧은 문장으로 구문 분석했습니다. 중복을 제거하고 의미상 유사한 문장을 결합했다(예: ''호감 가는 사람'' ''매우 호감 가는 사람'' ''동료와 환자들에게 존경받는 사람'' ''동료 레지던트들에게 호감 가는 사람'' 등을 [동료 및 환자가 좋아한다]로 통합) 그런 다음 두 명의 저자(AG 및 SER)는 Mini-CEX의 하위척도 각각과 다양한 유형의 사회적 판단(예: 이름 지정, 심리 상태 추론 등)을 균형 있게 설명하는 방식으로 가장 상징적인 문장을 선정하도록 했습니다. 그 결과 60개의 문장이 작성되었습니다. Once the full concourse is identified, a subset of statements is selected to form the Q-sample. The Q-sample should be a reasonable size for participants to work with but remain representative of the concourse and be balanced across the possible points of view that might be found during analysis (McKeown and Thomas 1988; Watts and Stenner 2012). We used the most formal approach to developing a structured Q-sample, known as Fisher’s Design of Experiments approach (Brown 1980; Stephenson 1953; Watts and Stenner 2012). We began with one author (AG) reducing the concourse to the most distinctive responses for each video. This reduced the number to 195 complete open text responses. These were then parsed into shorter statements of suitable length to be used in a Q-sort. Duplicates were removed and semantically similar statements were combined (e.g. statements such as ‘‘a likeable person’’, ‘‘very likeable, very personable’’, ‘‘well respected by peers and patients’’, ‘‘well-liked by fellow residents’’ were combined to form a single statement: Is liked by peers and patients). Two authors (AG and SER) then conferred to select the most iconic statements in a way that balanced the number of statements referring to each of the subscales on the Mini-CEX and different types of social judgments (e.g. naming personality traits, inferring state of mind etc.) for each video. This resulted in a set of 60 statements.
Q-sort 프로세스를 통해 반대 의견을 전달하기 위해 하나의 문을 서로 다른 그리드 위치에 배치할 수 있기 때문에(아래 그림 1과 더 자세한 내용 참조) 반대 설명자를 포함할 필요가 없었다(예: '효율적' 또는 '비효율적'을 포함할 수 있지만 둘 다 필요하지 않았다). 표본의 각 ''반대편'' 쌍에서 항목을 하나씩 제거하면 문장의 수가 44개로 줄어들었다. 두 차례에 걸친 시범 테스트를 통해 참가자들이 불확실성을 표출하는 것에 대응해 진술 문구를 다듬었지만, 이전 연구 참여자들의 원래 문구는 최대한 유지됐다. 44개 문장의 최종 리스트(표 1에 표시됨)는 다음을 포함합니다.
상담 및 인문학적 자질/전문직업성의 Mini-CEX 하위 척도를 나타내는 11개의 진술(교제-구축 능력의 제목으로 묶음)
Mini-CEX의 의료 인터뷰 스킬, 임상 판단 및 조직/효율성 스킬(의료 전문 스킬의 제목에 따라 분류됨) 서브세일즈를 대표하는 18개 문구
관계 구축 또는 의료 전문지식과 관련이 없는 사회적 추론을 포함하는 15개의 진술.
Because the Q-sort process enables one statement to be placed in different grid positions to convey opposing opinions (see Fig. 1 and more details below) there was no need for opposing descriptors to be included (e.g. we could include ‘efficient’ or ‘inefficient’ but did not need both). Removal of one item from each pair of ‘‘opposites’’ in the sample reduced the number of statements to 44. Through two rounds of pilot testing, the phrasing of the statements was refined in response to participants’ expressions of uncertainty, but the original phrasing from participants in the previous study was maintained as much as possible. The final list of 44 statements (displayed in Table 1) contained
11 statements representing the Mini-CEX subscales of counseling and humanistic qualities/professionalism (grouped under the heading of rapport-building skills);
18 statements representing the Mini-CEX subscales of medical interviewing skills, clinical judgment and organization/efficiency skills (grouped under the heading of medical expertise skills); and
15 statements containing social inferences not related to rapport-building or medical expertise.
2단계: Q-sort의 구조화된 응답 형식을 사용한 데이터 수집 Step 2: Data collection using the structured response format of a Q-sort
Q 방법론의 두 번째 단계는 [참가자에 의한 Q-sort 완료]입니다. Q-sort 동안 특정 주제(이 경우 전공의의 성과)에 대한 각 참가자의 관점은 "내 관점과 가장 일치"부터 "가장 상반되는 관점"까지에 이르는 강요된 준정규 분포를 사용하여 Q-sample의 문장을 정렬하도록 함으로써 수집된다(브라운 1980, 와트 및 스텐너 2012). 따라서 이 기법을 통해 연구자들은 제공된 Q-표본과 분포를 사용하여 의사의 평가 인상의 주관성을 Q-sort 형태로 포착할 수 있었습니다. 따라서 이러한 Q 분류는 다양한 평가자가 [잠재적으로 관련성이 있는 많은 진술 집합]에서 선택한 [임상 성과 중 가장 두드러진 측면]을 나타내기 위한 [구조화된 응답 형식]을 제공한다. The second step in Q methodology is the completion of a Q-sort by participants. During a Q-sort each participant’s point of view on the specified topic (in this case, the performance of the resident) is collected by having them sort the statements in the Q-sample using a forced quasi-normal distribution ranging from ‘‘most consistent with my perspective’’ to ‘‘most contrary to my perspective’’ (Brown 1980; Watts and Stenner 2012). This technique, therefore, allowed the researchers to capture the subjectivity of physicians’ assessment impressions in the form of their Q-sorts using the Q-sample and distribution provided. These Q sorts, therefore, offer a structured response format to indicate the most salient aspects of the clinical performance selected from a large set of potentially relevant statements by a diverse set of raters.
이 프로세스를 작동하기 위해 참가자들에게 초대 이메일이 발송되었으며, 여기에는 QSortOnline 웹 사이트에 대한 링크가 포함되어 있습니다. 참가자들은 참가 동의를 한 뒤 무작위로 제시된 동영상을 보고 Mini-CEX 평정을 완성했다. To operationalize this process, an invitation email was sent to participants that included a link to the website QSortOnline. After giving consent to participate, participants viewed a randomly presented video and completed Mini-CEX ratings.
Mini-CEX 등급을 완료하는 즉시, 참가자들은 다음 지침에 따라 Q-sort를 완료하도록 요청받았다. Upon completing the Mini-CEX rating, participants were asked to complete a Q-sort using the following instructions:
이 레지던트에 대한 솔직하고 여과되지 않은 소감을 공유하고 '이 레지던트에 대한 나의 인상과 그들의 성과에 가장 부합한다'부터 '이 레지던트 및 그들의 성과에 대한 나의 인상과 가장 상반되는 것'까지 평가해 주시기 바랍니다. We would like you to share your honest and unfiltered impressions of this resident and ask that you rank the statements from ‘MOST consistent with my impressions of this resident and their performance’ to ‘MOST contrary to my impressions of this resident and their performance’.
FlashQ 소프트웨어는 Q-sort를 용이하게 하기 위해 사용되었으며, Q-sort 작업에 권장되는 여러 단계(자세한 내용은 그림 1 참조)로 완료되었습니다(Newman 및 Ramlo 2010, Watts 및 Stenner 2012). Q-Sort를 완료한 후, 참가자들은 다음을 설명하기를 요청받았다.
(a) "-4" 그리드 위치의 두 문장을 자신의 인상과 가장 상반되는 것으로 선택한 이유,
(b) '+4" 그리드 위치의 두 문장을 자신의 인상과 가장 일치하는 것으로 선택한 이유,
(c) 분류 작업을 하면서 직면한 문제
FlashQ software was used to facilitate the Q-sort, which was completed in multiple steps (see Fig. 1 for more details) as is recommended for Q-sorting tasks (Newman and Ramlo 2010; Watts and Stenner 2012). After completing the Q-Sort, participants were prompted to explain
(a) why they selected the two statements in the ‘‘-4’’ grid positions as being most contrary to their impression,
(b) why they selected the two statements in the ‘‘?4’’ grid positions as being most consistent with their impression, and
(c) any problems they encountered with performing the sorting task.
3단계: Qsort 분석을 통해 평가 인상에 대한 공감대 파악 Step 3: Identifying consensus in assessment impressions through analysis of the Qsorts
Q 방법론의 세 번째 단계는 [Q 분류 분석]으로, 주어진 임상 성과에 대해 얼마나 많은 관점이 있는지, 그리고 얼마나 많은 의사가 각각의 관점을 공유하는지 파악할 수 있습니다. 이는 비슷한 관점을 가진 참여자들이 비슷한 방식으로 보고서를 분류할 것으로 예상되기 때문에 가능하다. The third step in Q methodology is the analysis of the Q sorts which enables us to identify how many points of view there are for a given clinical performance along with how many physicians share each of those points of view. This is possible because participants with similar points of view are expected to sort the statements in a similar way.
유사한 Q-sort는 높은 상관관계가 있으므로 참여자와 참여자의 Q-sort는 인자 분석을 통해 Q-factor로 함께 그룹화할 수 있습니다(Stephenson 1953; Watts and Stenner 2012). 이는 기존의 요인 분석이 '항목별by-item' 매트릭스를 사용하여 상관 관계가 높은 항목을 인자로 그룹화하는 것처럼(Stephenson 1953; Watts and Stenner 2012) 높은 Q-sort를 가진 참가자를 인자로 그룹화하기 때문에 '개인별by-person' 인자 분석이라고 불린다. Similar Q-sorts are highly correlated and, therefore, participants and their Q-sorts can be grouped together into Q-factors via factor analysis (Stephenson 1953; Watts and Stenner 2012). This is called a ‘by-person’ factor analysis because it groups together participants with highly correlated Q-sorts into a factor, just as a conventional factor analysis uses a ‘by-item’ matrix to group together highly correlated items into a factor (Stephenson 1953; Watts and Stenner 2012).
무료 사용자 정의 소프트웨어 PQMethod 2.35(Schmolk 2014)를 사용하여 Q-sort 데이터를 분석했습니다. 우리는 인자 추출을 위해 전통적인 중심 기법을 사용했고 인자의 바리맥스 회전을 사용했습니다. 얼마나 많은 요소를 추출해야 하는지를 고려하면서, 우리는 특별히 주의를 기울였다.
고유값이 1인 경우(와트 및 스테너 2012),
험프리의 규칙을 초과하는 규칙(즉, 회전하지 않은 행렬에서 인자에 대한 두 개의 최고 하중의 교차곱이 표준 오차의 두 배를 초과한 규칙)과
두 개 이상의 측정기가 상당히 로드된 측정기(p\.01)(Brown 1980, Watts 및 Stenner 2012).
We analyzed the Q-sort data using free custom software PQMethod 2.35 (Schmolck 2014). We used the classic centroid technique for factor extraction followed by varimax rotation of the factors. In considering how many factors to extract, we paid special attention to
those with eigenvalues > 1 (Watts and Stenner 2012);
those exceeding Humphrey’s rule (i.e. those for which the cross-product of the two highest loadings for a factor in the unrotated matrix exceeded twice the standard error) (Watts and Stenner 2012); and
those on which at least two raters loaded significantly (p\.01) (Brown 1980; Watts and Stenner 2012).
그러나 Q 방법론(McKown 및 Thomas 1988)에서 이론적 유의성이 통계적 유의성보다 더 중요하다는 점에 유의해야 한다. 그 결과 각 요인 솔루션의 적합성 및 해석 가능성을 검사하여 최적의 솔루션을 선택했습니다. It is important to note, however, that theoretical significance is more important than statistical significance in Q methodology (McKeown and Thomas 1988). As a result, each factor solution was examined for fit and interpretability with the best solution selected.
4단계: Q-요인 해석을 통해 각 관점 특성화 Step 4: Characterizing each point of view through Q-factor interpretation
Q 방법론의 네 번째 단계는 [Q-요인을 해석]하여 각 요인에 반영되는 관점을 밝히는 것입니다. [주어진 요인으로 그룹화된 모든 Q-sort]는 statement와 비슷한 정렬 또는 '구성configuration'을 가집니다. 그러나 이러한 구성은 동일하지 않습니다. 따라서 PQMethod 소프트웨어가 수행한 분석 중 하나는 '인자 배열factor array'(McKown and Thomas 1988; Newman and Ramlo 2010)로 알려진 각 Q-factor(표 1의 각 열)에 대한 대표적인 Q-sort의 식별이다. 이 인자 배열은 Watts 및 Stenner(2012)에서 설명한 절차를 사용하여 각 인자와 관련된 관점을 해석하는 데 사용됩니다.
The fourth step of Q methodology is interpretation of the Q-factors to reveal the points of view reflected by each. All Q-sorts that are grouped into a given factor have similar sorts or ‘configurations’ of the statements. However, those configurations are not identical. Thus, one of the analyses performed by the PQMethod software is the identification of a representative Q-sort for each Q-factor (each column of Table 1), known as the ‘factor array’ (McKeown and Thomas 1988; Newman and Ramlo 2010). This factor array is used to interpret the point of view associated with each factor using procedures described by Watts and Stenner (2012).
5단계: Q-요인 간 차이점 식별 Step 5: Identifying points of divergence between Q-factors
'요인 행렬'은 모든 요인 배열을 나란히 표시하여 각 Q-요인에 대한 모든 statement과 해당 격자 위치를 표시합니다. 이를 통해 여러 요인 간에 각 문을 비교할 수 있습니다. 예를 들어, 행렬은 특정 statement이 인자 1의 '''3''' 그리드 위치와 인자 2의 '''-4''' 위치에 배치되었음을 나타낼 수 있다. 이러한 비교는 동일한 성능 특성이 어떻게 다르게 해석될 수 있는지를 나타내는 두 가지 정보를 제공한다. The ‘factor matrix’ displays all the factor arrays side by side, showing every statement and its grid position for each Q-factor. This enables comparisons of each statement across factors. For example, the matrix could indicate that a particular statement was placed in the ‘‘ +3’’ grid position in Factor 1 and the ‘‘-4’’ position in Factor 2. This comparison provides two pieces of information that can be used as indications of how the same performance features may have been differently interpreted.
첫째, 한 요소와 높은 상관관계를 갖는 Q-sort 참가자가 특정 문장을 원위부 그리드 위치(예: ''-4', '?4', '-3', '?'3)에 배치하고 다른 요소와 높은 상관관계를 갖는 Q-sort 참가자가 동일한 문장을 중앙 그리드 위치(예: '' -1', '0', '1)에 배치하는 경우? 첫 번째 참가자 집합이 다른 참가자에 비해 더 두드러지거나 두드러집니다. First, if participants with Q-sorts that highly correlate with one Factor place a particular statement in a distal grid position (e.g. ‘‘-4’’, ‘‘+4’’, ‘‘-3’’ or ‘‘+3’’) and participants with Q-sorts that highly correlate with another Factor place the same statement in a central grid position (e.g. ‘‘ -1’’, ‘‘0’’, ‘‘?1’’) it can be inferred that the performance feature is more prominent or salient for the first set of participants compared to the other.
둘째, 한 요인에서 그리드의 '내 인상과 반대되는' 쪽(예: ''-4', ''-3', ''-2')에 문구가 배치되고 다른 요인에서 그리드의 '내 인상과 일치하는 쪽(예: '+4', '+3', '+2')에 문구가 배치되면 이는 [performance feature의 해석에 대한 불일치 표시]일 수 있습니다. 항목 간에 이러한 패턴을 해석하면 두 요인이 서로 다른 관점을 나타내는 방법(즉, 평가자 인식의 체계적 차이)을 결정할 수 있습니다.
Second, if a statement is placed on the ‘contrary to my impression’ side of the grid (e.g. ‘‘-4’’, ‘‘-3’’, ‘‘-2’’) in one Factor and on the ‘consistent with my impression’ side of the grid (e.g. ‘‘?4’’, ‘‘?3’’, ‘‘ ?2’’) in another Factor, this could be an indication of disagreement in the interpretation of the performance feature. Interpreting these patterns across items allows us to determine how the two factors represent different points of view (i.e. systematic differences in rater cognition).
Q-요인과 Mini-CEX 등급 간의 관계 파악 Identifying the relationship between Q-factors and Mini-CEX ratings
서로 다른 관점이 의사가 할당한 등급과 관련이 있는지 확인하기 위해, 참가자들은 Q-정렬이 가장 높은 상관 관계를 갖는 Q-요인에 할당되었고, Q-요인 할당을 일원 분산 분석에서 독립 변수로 사용하여 설명할 수 있는 분산 비율을 결정했습니다(부분 에타 제곱) '전체 임상 역량' Mini-CEX 등급에 포함됩니다. To determine if differing points of view were related to the ratings physicians assigned, participants were assigned to the Q-factor with which their Q-sort was most highly correlated and then Q-factor assignment was used as the independent variable in a one-way ANOVA to determine the proportion of variance that could be explained (partial eta squared) in the ‘overall clinical competence’ Mini-CEX ratings.
참여자 Participants
Q 방법론은 각 참가자가 개인별 요인 분석(McKown 및 Thomas 1988, Newman 및 Ramlo 2010, Watts 및 Stenner 2012)에서 변수로 간주되기 때문에 주제에 대한 가능한 모든 관점을 다루기 위해 참가자를 의도적으로 모집해야 한다. 따라서 실제 전공의의 역량 판단을 담당하는 다양한 임상 평가자를 포함하는 것이 목표였다. 우리는 그들의 진정한 평가 인상과 평점을 파악하기 위해 노력했기 때문에 추후 교육은 제공되지 않았습니다. 따라서 본 연구의 참가자를 모집하기 위해, 우리는 동료들에게 (우리를 대신하여) 우수하고 존경받고 경험이 풍부한 전공의의 평가자에게 접근해 줄 것을 요청했다. Q methodology requires purposeful recruitment of participants to cover all possible viewpoints on the topic because each participant is considered a variable in the by-person factor analysis (McKeown and Thomas 1988; Newman and Ramlo 2010; Watts and Stenner 2012). The goal was, therefore, to include a diverse range of clinical assessors who were responsible for judging the competence of medical residents in real-life. Because we strove to capture their authentic assessment impressions and ratings no rater training was provided. Thus, to recruit participants for this study, we asked colleagues to approach, on our behalf, physicians who they considered to be good, well-respected and experienced assessors of residents.
결과 Results
참여자 Participants
2014년 11월부터 2015년 2월까지 46명의 고유 참가자가 1~4편의 동영상에 대해 동일한 44개의 문장을 정렬하여 총 128개의 Q-sort를 제출했습니다. 참가자들은 캐나다 5개 주와 미국 5개 주의 19개 도시에서 왔다.
Between November 2014 and February 2015, 46 unique participants submitted a total of 128 Q-sorts by sorting the same 44 statements in response to 1–4 videos. The participants were from 19 different cities in 5 provinces in Canada and 5 states in the USA.
Q-요인 분석을 통한 공감대 클러스터 식별 Identifying clusters of consensus through Q-Factor Analysis
모든 참가자가 임상 성과에 대한 단일 관점을 공유했다면, 우리는 그들이 유사한 구성으로 문장을 분류하고 단일 Q-factor를 식별할 것으로 예상할 것이다. 이런 일은 일어나지 않았다. 대신, 2-요인 솔루션이 4개의 비디오 각각에 가장 적합하다고 판단되었습니다(요인 추출 및 회전에 관한 자세한 내용은 표 2 참조). 즉, 유사한 Q-sorts의 하위 집합을 바탕으로 분석 결과 각 임상 성과에 대한 참가자의 인상 중 두 가지 주요 공감대가 나타났다.
If all participants had shared a single point of view on the clinical performance, we would expect them to sort the statements in a similar configuration and a single Q-factor to be identified. This did not occur. Instead, a 2-factor solution was determined to be the best fit for each of the four videos (see Table 2 for details regarding factor extraction and rotation). In other words, based on subsets of similar Q-sorts the analysis revealed two major clusters of consensus among participants’ impressions for each of the clinical performances.
Q-요인 해석을 통한 각 관점 특성화 Characterizing each perspective through Q-factor interpretation
네 가지 임상 성과 각각과 관련된 관점의 수를 파악한 후, 인자 배열의 문장 구성을 조사했습니다. 각 관점 내에서 다르게 해석되었던 임상적 특징을 확인하면서 흥미로운 패턴이 나타났다. 표 1에서 회색 음영을 사용하여 강조된 바와 같이, 모든 비디오에 대한 한 관점(먼저 열거된 요소)은 거의 전적으로 [관계 구축] 진술을 나타내기 위해 그리드의 원위부 위치(±3 및 ±4)를 사용했다. [의료 전문지식]과 [사회적 판단] 문장은 덜 극단적인 위치(0 ~ ±2)에 놓였다. 반대로, 다른 관점에서는 원위적 입장을 거의 독점적으로 사용하여 [의료 전문지식]을 언급하고, [관계 구축] 및 [사회적 판단] 진술에 대한 극단적 입장을 덜 제시하였다. 이러한 정렬 구성을 바탕으로 대부분의 비디오에서 한 그룹의 의사는 평가 인상에서 가장 두드러지게 공감대를 형성하는 기술을 강조한 반면, 다른 그룹은 의료 전문 기술을 가장 두드러지게 강조했습니다. After identifying the number of points of view associated with each of the four clinical performances, we examined the configuration of the statements in the factor arrays. An interesting pattern emerged as we identified the clinical features that had been differently interpreted within each point of view. As highlighted using grey shading in Table 1, one point of view for every video (the factor listed first) used the distal position on the grid (±3 and ±4) almost exclusively to represent rapport-building statements; with the medical expertise and social judgment statements being placed in less extreme positions (0 to ±2). Conversely, the other point of viewused the distal positions almost exclusively to represent statements referring to medical expertise leaving the less extreme positions to represent the rapport building and social judgment statements. Based on these sorting configurations, it appears that for most videos, one group of physician raters emphasized rapport-building skills most prominently in their assessment impressions whereas the other group emphasized medical expertise skills as most salient.
표 2의 각 비디오에 대한 다양한 관점에 대해서도 유사한 해석을 찾을 수 있습니다. 일부 비디오(예: 비디오 2와 7)에서는 두 가지 관점의 차이가 더 두드러졌고, 다른 비디오(예: 비디오 1과 비디오 6에 대해서는 긍정적으로 상관된 관점)에서는 덜 두드러졌다. 예를 들어, 비디오 1은 부족한 관계 구축을 강조하는 데 있어 관점이 훨씬 더 일치합니다. 그러나 네 가지 임상 성과 모두에 대해 평가 판단의 내용은 일부 합의 사례에도 불구하고 구별되는 관점으로 식별될 수 있을 만큼 충분히 달랐다. 이러한 관점에서 의사 구성원 자격membership을 검사한 결과, 구성원 자격이 네 가지 성과에 걸쳐 [안정적이지 못했으며] (즉, [의료 전문지식]보다 [관계 구축] 기술을 강조하는 의사 그룹이 매번동일하지 않았음), 구성원 자격을 인구 통계적 요인(표 2 참조)에 기인할 수 없었다.
Similar interpretations can be found for each of the various perspectives on each video in Table 2. The distinction between the two perspectives was more striking for some videos (e.g. video 2 and 7) and less so for others (e.g. video 1 and positively correlated points of view for video 6). For example, there is much more agreement across the points of view for Video 1 in emphasizing deficient rapport building. However, for all four clinical performances the content of the assessment judgments was sufficiently different as to be identifiable as distinct points of view despite some instances of agreement between them. Examination of physician membership within these points of view revealed that membership was not stable across the four performances (i.e. it was not the same group of physicians emphasizing rapport-building skills over medical expertise every time) and membership could not be attributed to demographic factors (as shown in Table 2).
Q-요인 간 비교를 통해 의견 일치 클러스터 간 차이 식별 Identifying divergences between clusters of consensus by comparison across Q-factors
전반적으로, 주어진 임상적 만남에 대한 다른 평가 인상이 많은 성과 특성의 유사한 해석을 포함할 수 있지만, 의사가 [다르게 가중치를 부여]하고, 때로는 일부 [수행능력 특성의 해석에 동의하지 않기] 때문에 수집된 평가 판단이 달라질 수 있다. 그 결과 발생하는 일련의 관점은 단일 수행능력에 대한 [관계 구축] 또는 [의료 전문성] 에 상반된 평가자 판단을 나타내는 것으로 이해될 수 있습니다. Overall, it appears that different assessment impressions of a given clinical encounter can include similar interpretations of many of the performance features and yet the collated assessment judgments can diverge due to physicians differently weighting and sometimes disagreeing on the interpretation of a few performance features. The resulting set of points of view can then be understood to represent conflicting rater judgments of rapport-building and/or medical expertise skills for a single performance.
Q-요인과 Mini-CEX 등급 간의 관계 파악 Identifying the relationship between Q-factors and Mini-CEX ratings
표 3에서 볼 수 있듯이, 4개의 비디오 모두에 대해[서로 다른 관점에 속하는 의사]들은 [상당히 다른 Mini-CEX 평정]과 연관되었습니다. 각 비디오의 시점별 평균 등급은 시점의 내용과 일치하는 방향으로 차이가 있었습니다. 예를 들어, 임상 수행능력의 많은 결함을 강조하는 관점(예: 비디오 1과 7의 요인 1, 비디오 2의 요인2)은 더 낮은 평균 등급과 관련이 있었다. As shown in Table 3, physicians belonging to different points of view were associated with significantly different Mini-CEX ratings for all four videos. The mean ratings for the points of view for each video differed in a direction consistent with the content of the point of view. For example, the points of view emphasizing a greater number of deficiencies in the clinical performance (such as factor 1 for videos 1 and 7 and factor 2 for video 2) were associated with lower mean ratings.
고찰 Discussion
Q 방법론을 사용하여 참가자들이 수행능력에 대한 중요한 특징을 설명하는 동일한 44개의 문장을 정렬하도록 선택했습니다. 44개 문장은 이전에 (Gingerich et al. 2014b)에서 수집된 세 가지 개방형 질문 형식을 사용하여 수집한 것이다. 이러한 설계는 [모든 평가자가 하나의 관점]에서 각 성과를 쉽게 해석하거나, [각 참가자에게 고유한 완전히 독특한 관점]을 가질 것이라고 해석할 수 있었습니다. 그러나 이 두 가지 가능성 모두 나타나지 않았다. 대신 각 임상 성과에 대해 [두세 가지 뚜렷한 관점]이 식별되었다. 각 성과에 대한 두세 가지 다른 관점에 대한 의사의 가입은 다양한 인구통계학적 배경을 가진 참가자를 포함함에도 불구하고 의료 전문성, 성별, 지리 또는 거주자 평가 경험에 기인할 수 없다. We used Q methodology, choosing to have participants sort the same 44 statements describing salient features of performances (previously collected in (Gingerich et al. 2014b) using three different open question formats) for each of the four performances. This design could have easily resulted in each performance being interpreted froma single point of view by all raters, or in a set of completely idiosyncratic points of view unique to each participant. However, neither of these two possibilities emerged. Instead, two or three distinct points of view were identified for each clinical performance. Physicians’ membership in the two or three different points of view for each performance could not be attributed to their medical specialty, gender, geography or experience with assessing residents despite the inclusion of participants with varied demographic backgrounds.
여러 관점의 일치 및 다양성 Consensus and divergence of multiple points of view
주어진 임상 성과에 대해 둘 이상의 관점을 식별한 것은 [여러 의사들이 임상 수행능력에 대해서 제한된 일련의 뚜렷한 인상 중 하나를 공유]하는 것으로 확인된 Gingerich et al.(2014b) 발견을 반복한다. 서로 다른 관점을 검토한 결과, 의사들은 자신의 평가 인상 내에서 성과에 대한 몇 가지 측면을 다르게 강조했으며 특정 측면에 대해 완전히 동의하지 않는 경우는 거의 없었다. 이는 단일 임상 만남에 대한 차별적 유의성differential salience 및 평가자 불일치rater disagreement에 대한 이전의 의학교육 연구 결과에 대한 지원을 추가한다(Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; Yates et al. 2013). 의사의 Q-인자 멤버십 자격을 설명할 때 MiniCEX 평정에서 21-53% 변동이 설명될 수 있기 때문에, 정렬 구성sorting configuration의 변동은 거짓일 것 같지 않다. 주어진 임상 수행능력에 대한 평가자의 응답 내에서 합의의 다중 클러스터의 일관성은, 이것을 두참가자 표본에서 찾고, 두 가지 다른 방법론을 사용했기에, 평가자 간 변동성이 단순히 측정 오류라는 가정에 도전한다. Identifying more than one point of view for a given clinical performance replicates the Gingerich et al. (2014b) finding of multiple physicians sharing one of a limited set of distinct impressions for a clinical performance. Examination of the different points of view indicates that physicians differently emphasized a few aspects of the performance within their assessment impression and rarely outright disagreed on a given aspect. This adds support to previous medical education research findings of differential salience and rater disagreement regarding a single clinical encounter (Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; Yeates et al. 2013). The variations in the sorting configurations are unlikely to be spurious since 21–53 % of variance in the MiniCEXratings could be explained when physician’s membership in a Q-factor was accounted for. The consistency of finding multiple clusters of consensus within raters’ responses for a given clinical performance across two samples of participants and using two different methodologies challenges the assumption that inter-rater variability is simply measurement error.
또한 우리의 원래 이론화(Gingerich et al. 2011, 2014b)와 달리, 이러한 데이터는 의사 평가자가 [사회적 판단(지능, 게으름 또는 오만성에 대한 추론 등)]을 성과에 대한 인상에서 특히 두드러진 측면으로 보지 않는다는 것을 시사한다. 그러한 사회적 판단을 포함하는 진술이 임상 기술에 대한 추론과 판단을 포함하는 진술과 정면 충돌했을 때, 의사들은 그러한 진술이 설득력이 없다고 생각했고 일반적으로 채점표에서 0 또는 ±1의 위치로 강등시켰다. 참가자들은 평가 판단을 하면서 사회적 판단의 형성이나 영향을 받지 않을 수 있었다. 그러나 이러한 진술은 기존 연구에서, 의사 평가자가 비디오를 시청하면서 생성된 것임을 알 수 있습니다. 더욱이, 우리는 이러한 사회적 추론의 할인이 어느 정도 사회적으로 바람직한 반응을 반영하는지 또는 무의식적인 편견이 반응에 영향을 미치는지 판단하지 못한다. 따라서, 평가자 간 변동성의 유의한 원천으로서 사회적 판단을 배제하기 위해 추가적인 삼각측량 방법을 사용한 추가 연구가 필요할 것이다.
It is also worth noting that contrary to our original theorizing (Gingerich et al. 2011, 2014b) these data suggest that physician raters do not see social judgments (such as inferences about intelligence, laziness, or arrogance) as particularly salient aspects of their impressions of the performance. When statements containing such social judgments were put head-to-head with statements containing inferences and judgments regarding clinical skills, physicians did not appear to find them compelling and generally relegated them to positions of 0 or ±1 on the scoring sheet. It could be that participants were able to avoid forming or being influenced by social judgments while making assessment judgments. However, it is noteworthy that these statements were generated by a previous cohort of physician raters watching these videos. Moreover, due to our use of a self-report design feature we cannot determine the extent to which this discounting of social inferences reflects socially desirable responses or if any unconscious biases influenced the responses. Thus, further research using additional triangulating methods will be needed to rule-out social judgments as a significant source of inter-rater variability.
평가자 간 변동성 및 평가자 인식의 재개념화 Re-conceptualizing inter-rater variability and rater cognition
각 성과에 대해 식별된 관점은 [관계 구축] 및 [의료 전문지식]에 대한 서로 다른 평가 판단을 반영합니다. 성과 평가 등급의 기초가 되는 두 가지 요인의 식별은 이전의 의학 교육 연구(Chahine et al. 2016; Nasca et al. 2002; Ramsey and Wenrich 1993; Silber et al. 2004; Verhulst et al. 1986). 또한 사회적 판단은 [사회성/도덕성] 대 [역량/능력] 판단에 기초하여 이루어진다는 [사회적 범주화의 2차원 이론]과도 잘 일치한다(Bauvois 및 Dubois 2009; Fiske et al. 2007; Wojciske 2005). The identified points of view for each performance reflect differing assessment judgments of skill in rapport-building and medical expertise. The identification of two factors underlying performance assessment ratings is consistent with prior medical education research (Chahine et al. 2016; Nasca et al. 2002; Ramsey and Wenrich 1993; Silber et al. 2004; Verhulst et al. 1986). It also aligns well with the two-dimensional theories of social categorization which posit social judgments are made based on judgments of sociability/morality versus competence/ability (Beauvois and Dubois 2009; Fiske et al. 2007; Wojciszke 2005).
의사에게 평가 척도가 아닌 Q-sort를 사용하여 평가 인상을 제공하도록 요청했지만, 그 결과 관점은 이 [두 가지 기본 차원]에 대한 [차등적 판단]을 나타내는 것으로 보인다. 그렇다면 [평가자간 변동성]은 평가자 특이적인 변동성보다는, [관계 구축] 및 [의료 전문지식] 중 [어떤 것을 차등적으로 강조하는지]로 개념화할 수 있다. 마찬가지로, 보다 중요한 인식은 두 가지 판단의 [형성formation]과 [결합combination]으로 개념화될 수 있습니다. 즉, 충분한 조치가 필요한 것이며 환자와 동맹을 맺는 동안 이루어져야 하는 것입니다.
Although physicians were asked to provide their assessment impressions using Q-sorts and not rating scales, the resulting points of view seem to represent differential judgments on these two underlying dimensions. If so, inter-rater variability could be conceptualized as differential emphasis on rapport-building and/or medical expertise rather than idiosyncratic rater variations. Likewise, rater cognition could be conceptualized as the formation and combination of two judgments: was what needed to be done sufficiently done and was it done while building an alliance with the patient.
한계 및 추가 조사가 필요한 영역 Limitations and areas requiring further investigation
연구 함의 Implications of this research
[동일한 임상 만남에 대해 서로 다른 관점을 형성]할 때, 수반되는 관점의 상대적 정확성이나, 실제 인지 과정과 무관하게, [하나의 판단으로 쉽게 조정될 수 없는 복수의 해석]이라는 결과는 평정 분석에 문제가 된다. 가장 비판적으로, 이 연구는 [평정이 상호 호환되지 않는다]는 예비 증거를 제공한다. 이는 [동질성 가정]을 위반하고, 과도한 분산이 심리측정모형의 평가자에 귀속되는 결과를 초래할 것이다(Kane 2002). 평가자가 복수의 알려지지 않은 관점에 속했기 때문에, 다른 평가 판단을 보고하거나 다른 등급을 지정할 것으로 예상될 수 있다면, 현재 우리의 측정 모델은 관련 평가 정보를 추출하고 요약하는 데 비효율적일 것이다. Regardless of the relative accuracy of the points of views or the actual cognitive processes involved with forming differing points of view for the same clinical encounter, the finding of multiple interpretations that cannot be easily reconciled into a single judgment is problematic for the analysis of ratings. Most critically, this study provides preliminary evidence that raters are not interchangeable. This would violate the homogeneity assumption and result in excess variance being attributed to the raters in psychometric measurement models (Kane 2002). If raters could be expected to report different assessment judgments or assign different ratings because they belonged to one of multiple unknown points of view, our current measurement models would be inefficient in extracting and summarizing the relevant assessment information.
Adv Health Sci Educ Theory Pract. 2017 Oct;22(4):819-838.
doi: 10.1007/s10459-016-9711-8.Epub 2016 Sep 20.
Inter-rater variability as mutual disagreement: identifying raters' divergent points of view
Whenever multiple observers provide ratings, even of the same performance, inter-rater variation is prevalent. The resulting 'idiosyncratic rater variance' is considered to be unusable error of measurement in psychometric models and is a threat to the defensibility of our assessments. Prior studies of inter-rater variation in clinical assessments have used open response formats to gather raters' comments and justifications. This design choice allows participants to use idiosyncratic response styles that could result in a distorted representation of the underlying rater cognition and skew subsequent analyses. In this study we explored rater variability using the structured response format of Q methodology. Physician raters viewed video-recorded clinical performances and provided Mini Clinical Evaluation Exercise (Mini-CEX) assessment ratings through a web-based system. They then shared their assessment impressions by sorting statements that described the most salient aspects of the clinical performance onto a forced quasi-normal distribution ranging from "most consistent with my impression" to "most contrary to my impression". Analysis of the resulting Q-sorts revealed distinct points of view for each performance shared by multiple physicians. The points of view corresponded with the ratings physicians assigned to the performance. Each point of view emphasized different aspects of the performance with either rapport-building and/or medical expertise skills being most salient. It was rare for the points of view to diverge based on disagreements regarding the interpretation of a specific aspect of the performance. As a result, physicians' divergent points of view on a given clinical performance cannot be easily reconciled into a single coherent assessment judgment that is impacted by measurement error. If inter-rater variability does not wholly reflect error of measurement, it is problematic for our current measurement models and poses challenges for how we are to adequately analyze performance assessment ratings.
좋은 질문, 좋은 대답: Construct alignment가 WBA의 수행능력을 향상시킨다. (Med Educ, 2011) Good questions, good answers: construct alignment improves the performance of workplace-based assessment scales Jim Crossley,1 Gavin Johnson,2 Joe Booth3 & Winnie Wade3
도입 INTRODUCTION
정책 컨텍스트 The policy context
지난 10년간 의료계에서는 졸업후교육postgraduate 평가가 크게 확대되었습니다. 이것은 두 가지 주요 요인에 의해 추진되었습니다.
첫째, 교육 문헌은 [평가와 피드백]이 교육 전반에 걸쳐 학습을 촉진한다는 점점 더 많은 증거를 제시해 왔습니다.1
둘째, 규정에 얽매인 현대 사회에서,의료 서비스는 대중에게 안전하고 효과적인 실천을 입증해야 한다.2 이런 맥락에서 평가에는 수련 임상의가 역량을 발휘할 수 있도록 돕고, 이를 성공적으로 수행했는지 확인해야 하는 무거운 부담이 수반되어야 한다.
The last decade has seen a major expansion in postgraduate assessment within the medical professions. This has been driven by two main factors.
Firstly, the education literature has provided growing evidence that assessment and feedback drive learning across the whole continuum of education.1
Secondly, in the modern, regulation-bound world, health services are mandated to demonstrate safe and effective practice to the public.2 In this context, assessment must carry the heavy burden of helping trainee clinicians to achieve competence and then assuring that they have succeeded in doing so.
좋은 평가 관행 Good assessment practice
다행히도, 교육 연구는 어떻게 하는 것이 잘 평가하는 것인지에 대한 많은 중요한 관찰을 제공해 왔습니다. Fortunately, education research has provided a number of important observations about how to assess well.
첫째, 임상 수행능력은 맥락-특이적이다. 한 사례에서 좋은 성과가 반드시 다른 사례에서 좋은 성과를 예측하는 것은 아닙니다.4 따라서 임상 의사는 사례 표본을 통해 평가해야 합니다. Firstly, clinical performance is context-specific; a good performance in one case doesn’t necessarily predict a good performance in another case.4 Consequently, clinicians should be assessed on a sample of cases.
둘째, 복잡한 수행능력을 단순한 체크리스트로 줄일 수 없다. 맥락을 고려할 수 있는 정교한 판단이 필요하다.5 또래와 수련생을 판단하는 의사들은 누가 잘 하고 잘 못 하는지에 대해서는 대체로 공감하지만, 개인차가 있다. 따라서 임상 의사는 [적절한 경험이 있는 심사자judge 표본]에 의해 평가되어야 한다.3 Secondly, complex performance cannot be reduced to simple checklists; it requires sophisticated judgements that can take account of context.5 Doctors who judge their peers and trainees largely agree on who is performing well and poorly, but they display some individual differences. Consequently, clinicians should be assessed by a sample of suitably experienced judges.3
셋째, 의사를 [실제 직장real workplace]에서 벗어나, 통제된 환경[controlled environment]으로 전환함으로써 평가를 표준화하려는 시도는 무용지물이다. 통제된 환경에서 의사를 평가하는 것은 꽤 가능하지만, 그러한 상황에서 역량으로는 실제 업무 성과를 예측할 수 없다.6,7 역량 있는 의사도 여러 가지 이유로 업무 현장에서 성과가 나쁠 수 있다. 영국 성과 평가 절차에서의 경험은 실수로부터 배우지 못하는 것, 정신 건강 악화, 업무량 관련 문제 및 가족 문제 등이 그러한 이유임을 시사합니다.8 Thirdly, attempts to standardise assessment by taking doctors out of their real workplaces and into a controlled environment are futile. It is quite possible to assess a doctor in a controlled environment, but competence in such a setting does not predict real workplace performance.6,7 Competent doctors may perform poorly in the workplace for a variety of reasons. Experience in UK performance assessment procedures suggests that those reasons include: failure to learn from mistakes; poor mental health; workload-related issues, and family problems.8
간단히 말해서, 그들이 직장에서 어떻게 수행하는지 알기 위해, 임상의는 그 일을 이해하고 판단을 내릴 수 있는 [다른 임상의들]에 의해 그들의 [일상적인 작업]의 [적절한 샘플]로 [직장]에서 [정기적]으로 평가되어야 한다. 이러한 유형의 평가를 [직장 기반 평가(WBA)]라고 합니다. In short, to know how they performin the workplace, clinicians should be assessed regularly in the workplace on an adequate sample of their day-to-day work by other clinicians who understand the work and are able to make judgements. This type of assessment has been called workplace-based assessment (WBA).
WBA 딜레마 The WBA dilemma
WBA의 중요성은 영국과 전 세계의 주요 정책 문서에 포함되어 있다. 그 결과, WBA 방법의 사용이 폭발적으로 증가하고 있다. 예를 들어, 영국의 모든 전문 분야는 교육생을 위한 커리큘럼에 몇 가지 WBA 방법을 포함시켰다.10 The importance of WBA is embedded in key policy documents in the UK9 and across the world. Consequently, there has been an explosion in the use of WBA methods. For example, every specialty in the UK has included several WBA methods in its curriculum for trainees.10
불행하게도, 전 세계의 의학에서 WBA의 구현은 많은 어려움에 직면해 있다. 영국의 의과대학 아카데미는 여러 설문 조사 결과에서 (WBA에 관한) 의료종사자의 느낌을 요약합니다. Unfortunately, the implementation of WBA in medicine worldwide has been fraught with difficulty. In the UK, the Academy of Medical Royal Colleges summarises the feeling of the medical profession from the findings of several surveys:
'전문가는 전문가 행동의 복잡성을 평가하기 위한 환원적 "체크박스" 접근법의 사용을 의심하는 것이 당연하며, 개별 평가 방법의 기준, 방법 및 목표에 대한 광범위한 혼란이 존재한다. 이로 인해 현재 증가하고 있는 WBA에 대한 냉소가 확산되고 있다.' 10 ‘The profession is rightly suspicious of the use of reductive ‘‘tick-box’’ approaches to assess the complexities of professional behaviour, and widespread confusion exists regarding the standards, methods and goals of individual assessment methods. This has resulted in widespread cynicism about WBA within the profession, which is now increasing.’10
또한, WBA 방법이 심리측정적으로 평가된 경우, 점수는 평가자 차이assessor difference에 매우 취약한 것으로 밝혀졌으며, 평가자들은 일반적으로 대부분의 훈련생들을 매우 긍정적으로 평가하는데 있어 무분별한 평가를 해왔다.11,12 이것은 신뢰성을 달성하기 위해 매우 많은 수의 평가자와 사례가 필요하다는 것을 의미한다. Furthermore, where WBA methods have been psychometrically evaluated, scores have been found to be very vulnerable to assessor differences and assessors have generally been indiscriminate in rating most trainees very positively.11,12 This means that very large numbers of assessors and cases are required to achieve reliability.
척도 문제 Problems with scales
WBA를 실제로 사용해 본 평가자들은 [WBA 방법에 대한 광범위한 냉소]와 [실망스러운 심리 측정 성능]을 설명하는 데 도움이 될 수 있는 여러 문제를 강조합니다. 가장 흥미로운 관찰 중 일부는 평가자들이 성과 표본을 채점하고(일반적으로 비디오에서) 점수 차이에 대한 이유를 논의하는 훈련 토론에서 나왔다.13 종종 평가자는 [그들이 직접 본 수행능력]에 대해서는 동의하지만, 평가의 [필수적 초점(평가 구성construct)] 또는 [점수 척도 상의 특정 지점의 의미(응답 형식)]에 대해서는 동의하지 않는다.14 Assessors who have used WBA in practice highlight a number of problems which may help to explain the widespread cynicism about the method and its disappointing psychometric performance. Some of the most interesting observations have emerged from training discussions in which assessors score performance samples (usually from video) and then discuss the reasons for their scoring differences.13 Frequently, assessors agree over the performance they have seen, but disagree over their interpretation of the essential focus of the assessment (the assessment construct) or the meaning of the points on the scoring scales (the response format).14
일부 척도는 원래의 미니-CEX(mini-CEX) 도구에 사용하는 '불만족' 척도에서 '우수' 척도와 같은 선형 성과 등급을 반영하도록 설계되었다. 전형적으로 평가자들은 예를 들어 '우수한' 성과를 구성하는 것이 무엇인지에 대해 서로 다른 해석을 하고 있으며, 척도에 지침에 대한 보다 상세한 설명이 수반되는 경우, 평가자들은 이를 언급하지 않는다. 그들은 또한 '불만족unsatisfactory'이나 '불량poor'과 같이 경멸적으로 들리는 카테고리를 이용하는 것을 꺼린다.
Some scales are designed to reflect linear gradations of performance, such as the ‘unsatisfactory’ to ‘superior’ scale employed for the original miniclinical evaluation exercise (mini-CEX) instrument.15 Typically, assessors have different interpretations of what constitutes, for example, a ‘superior’ performance and, when the scale is accompanied by more detailed descriptions for guidance, assessors do not refer to them. They are also reluctant to make use of categories that sound pejorative, such as ‘unsatisfactory’ or ‘poor’.
다른 척도는 영국 Foundation Programme instruments에 채택된 'F1 수료에 대한 기대치 훨씬 미달'에서 'F1 수료에 대한 기대치 훨씬 초과'와 같이 미리 결정된 훈련 단계와 관련된 진행 상황을 반영하도록 설계되어 있다.12 (F1은 영국에서 가장 하위 단계의 수습생을 의미한다). 전형적으로, 임상평가자는 훈련의 특정 단계에 기대해야 하는 기준에 대한 불확실성, 긴 커리큘럼에 대한 제한된 지식, 그리고 훈련의 종료가 가까워지고 있다는 것을 알고 있을 때 훈련생에 대해서 기준 미만이라고 평가하기를 꺼려하는 것 등을 보고한다. Other scales are designed to reflect progress in relation to predetermined stages of training, such as the ‘well below expectation for F1 completion’ to ‘well above expectation for F1 completion’ scale employed by the UK Foundation Programme instruments.12 (F1 refers to the most junior level of trainee in the UK.) Typically, clinician-assessors report significant uncertainty about the standard expected for a given stage of training, a limited knowledge of lengthy curricula, and reluctance to rate a trainee as being below the expected standard when they know that the trainee is approaching the end of a given training period.
구성 정의 Defining a construct
미국에서, 대학원 의학 교육 인증 위원회(ACGME)는 각 역량 영역에 특정한 '마일스톤'에 대한 철저한 설명을 제시함으로써 대학원 역량 개발을 정의하는 대체 접근 방식을 취했다. 그러나 이정표를 검토하면 직장에서 두 가지 핵심 구조를 구별할 수 있습니다. 즉, [정교함]과 [독립성]이 증가하는 스토리가 그려집니다. In the USA, the Accreditation Council for Graduate Medical Education (ACGME) has taken an alternative approach to defining the development of postgraduate competence by setting out exhaustive descriptions of ‘milestones’ specific to each domain of competence.17 However, an examination of the milestones allows us to discern two key constructs at work; they plot a story of increasing sophistication and independence.
WBA의 한 가지 방법은 [독립성]이라는 구인을 척도에 통합했다. 영국 대학간 외과 커리큘럼 프로그램은 수술(주로 기술) 기술의 평가로 절차 기반 평가(PBA)를 채택했다. 수술 후 PBA 글로벌 평가 척도는 평가자에게 다음과 같은 질문을 합니다.
(i) '감독 하에 절차 또는 관찰된 부분을 수행해야 한다.'
(ii) '감독 하에 절차 또는 관찰된 부분을 수행할 수 있어야 한다.
(iii) '최소한의 관리로 절차를 수행할 수 있음(간헐적 도움 필요)' 또는
(iv) '감독 없이 절차를 수행해야 한다(발생한 합병증을 처리할 수 있음)'
One method of WBA has incorporated the construct of independence in its scale. The UK Intercollegiate Surgical Curriculum Programme has adopted procedure-based assessment (PBA) as an assessment of intraoperative (mainly technical) skill. Following a surgical operation, the PBA global assessment scale asks the assessor whether the trainee was:
(i) ‘unable to perform the procedure, or part observed, under supervision’;
(ii) ‘able to perform the procedure, or part observed, under supervision’;
(iii) ‘able to perform the procedure with minimal supervision (needed occasional help)’, or
(iv) ‘competent to perform the procedure unsupervised (could deal with complications that arose)’.
현재 연구 Present study
방법 METHODS
기기 선택 Selecting the instruments
구성 정렬 척도의 명백한 이점이 상황에 특정한지 알아보기 위해, 우리는 다양한 평가 영역을 포괄하는 세 가지 도구를 선택했습니다. 각 기구는 영국에서 이미 의료 연수생을 위한 공동 왕립 의사 훈련 위원회 커리큘럼의 일부로 사용되고 있습니다.19 To discover if the apparent benefit of a constructaligned scale is context-specific, we chose three instruments to cover a range of assessment domains. Each instrument is already in use in the UK as part of the Joint Royal Colleges of Physicians Training Board curricula for medical trainees.19
[mini-CEX]는 실제 상황에서 여러 번의 짧은 실시간 임상 만남의 일부 또는 전부를 평가하기 위해 설계되었습니다. 인터뷰, 검사, 커뮤니케이션, 판단, 전문성 및 효율성 중 하나에 집중할 때 사용할 수 있습니다. 미국에서 장기간의 임상 평가 연습에서 개발되어 직장에서의 만남의 광범위한 표본추출을 가능하게 하였다.15 The mini-CEX is designed for assessing some or all of multiple, short, real-time clinical encounters in authentic situations. It can be used to concentrate on any of: interviewing; examining; communication; judgement; professionalism, and efficiency. It was developed in the USA from the longer clinical evaluation exercise to allow for the broader sampling of encounters in the workplace.15
[사례 기반 논의(CBD)]는 평가자가 환자 진료와 관련하여 임상의의 임상적 추론, 의사 결정 및 의료 지식의 적용을 조사할 수 있도록 고안되었습니다. 토론은 훈련생이 제안할 수 있는 서면 기록에 기초하지만 평가자가 선택해야 합니다. 그런 다음 평가자는 수습생에게 자신의 관리 또는 기록에 대해 설명하도록 요청합니다. The case-based discussion (CBD) is designed to allow the assessor to probe the clinician’s clinical reasoning, decision making and application of medical knowledge in relation to patient care. The discussion is based on a written record which can be proposed by the trainee, but should be selected by the assessor. The assessor then asks the trainee to explain his or her management or records.
[급성 치료 평가 도구(ACAT)]는 다른 방법보다 최신입니다. '급성의학 수련기간 중 수련자의 투약관리, 환자관리, 팀워크 수행능력을 고려한 평가'로 개발되었으며, 20 수련 의사는 다음 중 한 가지 방법으로 평가된다.
급성 의무acute duty 기간동안 그들과 함께 일하는 훈련생 동료에 의해 ('on-take' ACAT)'
진료 권한 인계 및 근무 후post duty 병동 라운드의 컨설턴트에 의해 ('post-take' ACAT')
이 도구는 광범위하여, 임상 평가, 기록 보관, 조사 및 의뢰, 중요 질병 관리, 시간 관리, 팀 작업, 리더십 및 인계 등을 포함합니다. The acute care assessment tool (ACAT) is newer than the other methods. It was developed as ‘an assessment of a trainee during a period of practising acute medicine considering the trainee’s performance in the management of the take, patient management, and teamworking’.20 Trainee doctors are assessed either
by trainee colleagues working with them during the acute duty period (‘on-take’ ACAT), or
by the consultant at the handover and post-duty ward round (‘post-take’ ACAT).
The instrument is broad and covers: clinical assessment; record keeping; investigations and referrals; managing critical illness; time management; teamworking; leadership, and handover.
설명자의 전체 목록은 표 1에 나와 있습니다. The full list of descriptors is presented in Table 1.
Table 1 Construct-aligned scales
관리 Administration
이 기구는 2009년 말 정기 품질 향상 과정의 일환으로 개정되어 영국 전 지역의 의료 전문분야 연수생에게 원안과 동일한 방식으로 투여되었다. 평가는 훈련생에 의해 시작되며 영국의 대부분의 WBA 절차에 따라 웹 기반의 전자 포트폴리오에 기록됩니다. The instruments were revised at the end of 2009 as part of a regular quality enhancement process and administered in the same way as the original versions to trainees in medical specialties across all regions of the UK. Assessments are trainee-initiated and are recorded in a web-based, electronic portfolio in keeping with most WBA procedures in the UK.
데이터 분석 Data analysis
심리학적 측면에서 이러한 변수는 각각 개인 분산(Vp), 엄격성 분산(Vj), 주관성 분산(Vj*p)으로 점수에 대한 분산 성분 분석에 반영됩니다. 이 주석에서는 V = 분산, p = 훈련생, j = 평가자 및 i = 에피소드(예리함, 급성 촬영 또는 토론)를 설명합니다. Psychometrically, these variables will be reflected in a variance component analysis of the scores as
person variance (Vp),
judge stringency variance (Vj), and
judge subjectivity variance (Vj*p), respectively.
In this annotation, V = variance, p = trainee, j = assessor and i = episode (encounter, acute take or discussion).
Vp가 상승하고 Vj 및 Vj*p가 하락하면 신뢰도(Vp에 비례하고 Vj 및 Vj*p에 반비례)도 향상됩니다. 따라서 이러한 세 가지 결과는 기존 척도와 수정된 척도를 사용한 점수의 신뢰성으로 유용하게 요약된다. 각 척도에 대해 신뢰도는 GC(Generalisability Coefficient) → 0.70을 달성하는 데 필요한 평가 수로 보고된다. If Vp rises and Vj and Vj*p fall, then reliability (which is proportional to Vp and inversely proportional to Vj and Vj*p) will also improve. Therefore, these three outcomes are helpfully summarised by the reliability of scores using the conventional and revised scales. For each scale, reliability is reported as the number of assessments required to achieve a generalisability coefficient (GC) ‡ 0.70.
간단히 말해서, 평가자들이 훈련생들을 더 잘 분리하고, 평가자들이 더 비슷하게 평가할수록, 주어진 수준의 신뢰성을 달성하기 위해 요구되는 평가의 수는 더 적습니다. Put simply, the better the assessors separate trainees, and the more similarly assessors rate a given trainee, the fewer assessments are required to achieve a given level of reliability.
순서 범주형 점수는 분석을 위해 숫자 근사치로 변환되었으며 1(최저 등급)에서 5(최고 등급)까지 범위가 지정되었습니다. The ordinal categorical scores were converted to number approximations for the analysis and ranged from 1 (lowest rating) to 5 (highest rating).
G 연구는 데이터가 자연주의적이고 불균형적이었기 때문에 최소 정규 2차 불편 추정기(MINQUE) 절차를 사용했습니다. 분산 분석(ANOVA, 제곱합 유형 3)을 사용하여 데이터를 재분석하여 최소 자유도(d.f.)를 보고했습니다. 회귀 모형은 수습 능력(Vp)과 평가자 엄격성(Vj)의 1차 효과만 추정할 수 있습니다. 평가자와 에피소드는 각 에피소드마다 한 명의 평가자가 점수를 매기기 때문에 혼란스러우며, 따라서 훈련생(Vj*p)에 대한 평가자의 주관성 효과와 훈련생 사례 대 사례 변동 효과(Vi:p)가 오류 용어(Vres)에 모두 포함된다. The G study used the minimum norm quadratic unbiased estimator (MINQUE) procedure because the data were naturalistic and unbalanced. Minimum degrees of freedom (d.f.) were reported by re-analysing the data using analysis of variance (ANOVA, sumof squares type 3). The regression model could only estimate the first-order effects of trainee ability (Vp) and assessor stringency (Vj). Assessor and episode are confounded because only one assessor scores each episode, so the effects of assessor subjectivity over trainee (Vj*p) and trainee case-to-case variation (Vi:p) are both included in the error term(Vres).
D 연구는 추가 평가 에피소드마다 다른 평가자가 수행한다고 가정하여 GC = Vp³(Vp +[Vj → Nj]+ [Vres → Ni]) 방정식을 사용했다. The D study assumed that each additional assessmentepisode was performed by a different assessor and thus used the equation: GC = Vp⁄ (Vp +[Vj ⁄ Nj]+ [Vres ⁄ Ni]).
결과 RESULTS
모집 및 표본 추출 Recruitment and sampling
각 평가 방법에 대한 표본의 크기와 깊이는 표 2와 같다. The size and depth of the samplefor each assessment method are presented in Table 2.
G 연구 결과 G study results
표 3은 G 연구 결과를 제시하며, 이는 평가자들이 서로 다른 능력을 가진 훈련생들을 구별하는 능력(Vp)과 가변적인 평가자의 엄격함 또는 관용(Vj)에 의해 얼마나 많은 영향을 받았는지를 보여준다. Table 3 presents the G study results, which show howmuch the raw assessment scores were influenced by the assessors’ ability to discriminate between trainees of different abilities (Vp) and by variable assessor stringency or leniency (Vj).
모든 평가도구에서 Vp는 새로운 스케일이 더 높다. 이는 평가자들이 기존의 평가보다 새로운 척도를 사용하여 높은 성과와 낮은 성과를 내는 훈련생들을 더 폭넓게 구별했다는 것을 의미하며, 여러 명의 훈련생들을 보았을 때, 그러한 평가자들은 훈련생들에게 더 비슷하게 점수를 매겼다는 것을 의미한다. Across all the instruments, Vp is higher with the new scale. This means that assessors discriminated more widely between highand low-performing trainees using the new scale than they did using theconventional scale and, when a trainee saw several assessors, those assessors scored the trainee more similarly.
또한 모든 도구에서(on-take ACAT 제외)에서 Vj가 새 스케일에서 낮다. 이는 평가자가 이전 척도를 사용하는 것보다 새 척도를 사용할 때 사용하는 척도의 일부에서 더 일관성을 유지했음을 의미합니다. '호크'와 '비둘기 같은' 성향이 줄어들었다.
In addition, across all instruments (except ACAT when used on take), Vj is lower with the new scale. This means that assessors were more consistent in which part of the scale they used when using the newscale than they were using the old scale. ‘Hawkish’ and ‘dovelike’ tendencies were reduced.
신뢰성 결과 Reliability results
표 4는 각 추가 평가가 서로 다른 평가자에 의해 수행된다고 가정하는 다양한 평가 표본 크기에 대한 D 연구 결과를 제시한다. 이전에 필요한 평가 수GC ÷ 0.7이 강조 표시됩니다. Table 4 presents the D study results for a range of assessment sample sizes in which each additional assessment is assumed to be performed by a differentassessor. The number of assessments required beforeGC ‡ 0.7 is highlighted
고찰 DISCUSSION
주 결과 Main findings
G 연구 결과는 construct-aligned scales에서 평가자들이 높은 성과와 낮은 성과 훈련생(Vp)을 더 폭넓게 구별하고 기대 표준(Vj)의 관점에서 서로 더 부합하는 것으로 나타났다(표 3). The G study results indicate that the construct-aligned scales caused assessors both to discriminate more widely between highand lowperforming trainees (Vp) and to come more into linewith one another in terms of the expected standard (Vj) (Table 3).
신뢰도는 [우수한 차별성]과 [우수한 재현성]의 산물입니다. 네 가지 상황 중 세 가지 상황에서 신뢰성의 차이는 컸고, '교육 중in training' 수준의 신뢰성을 달성하는 데 필요한 평가자와 에피소드의 수를 매우 크게 줄였습니다(표 4).
Reliability is a product of both good discrimination and good reproducibility. In three of four contexts, the difference in reliability was large and reduced thenumber of assessors and episodes required to achieve‘in training’ levels of reliability very substantially (Table 4).
연구의 강점 Strengths of the study
연구의 한계 Limitations of the study
해석 Interpretation
우리의 연구 결과에 따르면 임상 평가자는 [임상적 정교성과 독립성 발달이라는 구인에 맞는 평가 척도를 사용할 때] 높은 성과와 낮은 성과를 내는 의사를 구별할 가능성이 높으며, 서로 동의할 가능성이 더 높습니다. 이러한 관찰은 그 자체로 중요하며 WBA에 상당한 이익을 제공한다. 그러나 지금까지 WBA의 실망스러운 정신측정적 성과는 [관찰된 수행능력에 대한 불일치]가 아니라 [질문과 척도에 대한 다른 해석]에서 비롯될 수 있다는 가능성을 제기하기 때문에 더 큰 의미가 있다. 그렇다면 계측기 설계를 개선하여 WBA의 신뢰성을 더욱 향상시킬 수 있을 것입니다. Our findings suggest that clinician-assessors are more likely to discriminate between highand lowperforming doctors, and are more likely to agree with one another when they are using a rating scale aligned with the constructs of developing clinical sophistication and independence. This observation is important in its own right and promises significant benefits for WBA. However, it also has a wider significance because it raises the possibility that the disappointing psychometric performance of WBA to date may stem not from disagreements about the performance observed, but from different interpretations of the questions and the scales. If so, it may be that we can improve the reliability of WBA yet further by improving the design of the instruments.
곰곰이 생각해 보면, 평가자들이 '불만족'이나 '우수'와 같은 추상적 기준점들을 서로 모순되게 해석할 것이고, 많은 사람들이 그러한 척도의 낮은 수준에서 요구하는 경멸적인 방식으로 훈련생이나 동료에게 꼬리표를 붙이는 것을 꺼릴 것이 분명해 보인다. 마찬가지로, '훈련 단계에 대한 기대 충족'과 같이 미리 정해진 훈련 수준에 대한 앵커들은 [가변적일 가능성이 높은 평가자의 기대치]에 직접적으로 의존하고 있으며, 많은 사람들이 동료들을 '기대 미만'으로 평가하기 어려울 것이다. 그럼에도 불구하고 다른 의사가 급성 투약을 주도해도 안전한지, 클리닉을 운영해도 안전한지, 수술을 독립적으로 수행해도 안전한지 결정하는 것은 임상의 일상적인 업무의 일부입니다. 이러한 결정에는 명확히 표현하기 쉬울 수도 있고 아닐 수도 있는 많은 요소들이 통합되며, 각 요소들은 상황별, 가중치 및 균형을 이루어야 한다. 그러나 복잡함에도 불구하고, 그들이 대표하는 구인constructs은 실천 준비의 척도로서 실질적인 면의 타당성을 가지고 있습니다. 우리의 데이터는 올바른 방법으로 질문할 경우 임상 평가자가 그에 대해 매우 신뢰할 수 있는 판단을 내릴 수 있다는 것을 보여주는 것 같습니다.
On reflection, it seems obvious that assessors will interpret abstract anchors such as ‘unsatisfactory’ or ‘superior’ inconsistently from one another, and that many will be unwilling to label a trainee or a colleague in the pejorative way demanded by the lower levels of such scales. Equally, anchors to predetermined training levels such as ‘meets expectations for stage of training’ hang directly on assessor expectations, which are likely to be variable, and many will find it hard to rate their colleagues as performing ‘below expectations’. Nevertheless, it is part of a clinician’s day-to-day business to decide whether another doctor is safe to lead an acute take, run a clinic or perform an operation independently. These decisions integrate many factors that may or may not be easy to articulate, and each needs to be contextualised, weighted and balanced. However, despite their complexity, the constructs that they represent have real face validity as a measure of readiness to practise. Our data seemalso to show that clinician-assessors, if asked in the right way, can make highly reliable judgements about them.
권고사항 Recommendations
작업장 기반 평가WBA 척도는 평가자의 전문 지식과 작업장에서 수습생의 개발 능력에 맞춰 설계되어야 합니다. 의료 WBA의 많은 경우에 이것은 임상 독립성의 구조와 연계된 앵커의 사용을 요구할 것이다. 훈련 단계에 대한 기대와 연계된 경멸적 앵커와 슬라이딩 저울은 피하는 것이 거의 확실합니다. Workplace-based assessment scales should be designed to align to the expertise of the assessor and the trainee’s developing ability in the workplace. In many cases of medical WBA this will require the use of anchors linked to the construct of clinical independence. It is almost certainly better to avoid pejorative anchors and sliding scales linked to expectations for stage of training.
새로운 평가도구의 현장 테스트의 핵심 부분에는 평가자가 질문과 척도로 무엇을 이해하는지 확인하는 작업이 포함되어야 합니다. 평가자가 모의 에피소드를 채점한 다음 차이점을 토론하는 정규화 그룹Norming group은 이러한 목적에 매우 유용한 데이터를 제공합니다. A key part of the field testing of new instruments should include checking what assessors understand by the questions and the scale. Norming groups in which assessors score mock episodes and then discuss their differences provide very useful data for this purpose.
Context:Assessment in the workplace is important, but many evaluations have shown that assessor agreement and discrimination are poor. Training discussions suggest that assessors find conventional scales invalid. We evaluate scales constructed to reflect developing clinical sophistication and independence in parallel with conventional scales.Results:In all three cases the conventional scale gave a performance similar to that in previous evaluations, but the construct-aligned scales substantially reduced assessor disagreement and substantially increased assessor discrimination. Reliability modelling shows that, using the new scales, the number of assessors required to achieve a generalisability coefficient ≥0.70 fell from six to three for the mini-CEX, from eight to three for the CBD, from 10 to nine for 'on-take' ACAT, and from 30 to 12 for 'post-take' ACAT.
Conclusions:The results indicate that construct-aligned scales have greater utility, both because they are more reliable and because that reliability provides evidence of greater validity. There is also a wider implication: the disappointing reliability of existing WBA methods may reflect not assessors' differing assessments of performance, but, rather, different interpretations of poorly aligned scales. Scales aligned to the expertise of clinician-assessors and the developing independence of trainees may improve confidence in WBA.
Methods:A valid scale should reduce assessor disagreement and increase assessor discrimination. We compare conventional and construct-aligned scales used in parallel to assess approximately 2000 medical trainees by each of three methods of workplace-based assessment (WBA): the mini-clinical evaluation exercise (mini-CEX); the acute care assessment tool (ACAT), and the case-based discussion (CBD). We evaluate how scores reflect assessor disagreement (V(j) and V(j*p) ) and assessor discrimination (V(p) ), and we model reliability using generalisability theory.
근무지-기반 평가: 평가자 전문성의 효과(Adv in Health Sci Educ, 2011) Workplace-based assessment: effects of rater expertise M. J. B. Govaerts • L. W. T. Schuwirth • C. P. M. Van der Vleuten • A. M. M. Muijtjens
도입 Introduction
의료 교육의 연속적인 최근 발전은 업무 수행 평가, 즉 전문 역량에 대한 직장 기반 평가(WBA)에 대한 관심이 증가하고 있음을 보여줍니다. 성과-기반 또는 역량-기반 교육 프로그램에서 직장 내 성과 평가는 필수적입니다(Van der Vleuten 및 Schuwirth 2005). 또한 전문 서비스의 우수성excellence과 평생학습에 대한 강조가 높아짐에 따라, 전문가는 경력 전반에 걸쳐 일상적인 성과에 대한 평가, 개선 및 증거를 제공해야 합니다. 따라서 직장 기반 평가(WBA)는 항공, 군사 및 사업(Cunnington and Southgate 2002; Norcini 2005)과 같은 다른 전문 영역과 마찬가지로 의료 분야에서 면허 및 (재) 인증 절차의 필수적인 부분이 될 가능성이 높다. Recent developments in the continuum of medical education reveal increasing interest in performance assessment, or workplace-based assessment (WBA) of professional competence. In outcome-based or competency-based training programs, assessment of performance in the workplace is a sine qua non (Van der Vleuten and Schuwirth 2005). Furthermore, the call for excellence in professional services and the increased emphasis on life-long learning require professionals to evaluate, improve and provide evidence of dayto-day performance throughout their careers. Workplace-based assessment (WBA) is therefore likely to become an essential part of both licensure and (re)certification procedures, in health care just as in other professional domains such as aviation, the military and business (Cunnington and Southgate 2002; Norcini 2005).
WBA에 대한 연구는 일반적으로 측정 품질에 초점을 맞춘 심리측정적 관점을 취합니다.
예를 들어 Norcini는 (환자 혼합, 환자 난이도 및 환자 번호와 같은) 통제할 수 없는 변수로부터 신뢰성과 타당성에 대한 위협을 지적합니다.
다른 연구들은 낮은 평가자간 신뢰성과 후광 효과, 관대화 성향, 범위range 제한과 같은 평가자 효과로 평가 결과의 효용이 저하된다는 것을 보여준다.
Research into WBA typically takes the psychometric perspective, focusing on quality of measurement.
Norcini (2005), for instance, points to threats to reliability and validity from uncontrollable variables, such as patient mix, case difficulty and patient numbers.
Other studies show that the utility of assessment results is compromised by low inter-rater reliability and rater effects such as halo, leniency or range restriction (Kreiter and Ferguson 2001; Van Barneveld 2005; Gray 1996; Silber et al. 2004; Williams and Dunnington 2004; Williams et al. 2003).
그 결과, WBA를 개선하려는 시도는 일반적으로 [평정 척도 형식을 조정]하고, [평가자 교육]을 통해 [평가자 오류를 제거]함으로써 [측정의 표준화와 객관성]에 초점을 맞춘다. 그러한 조치는 기껏해야 엇갈린 성공을 거두었다(Williams et al. 2003).
As a consequence, attempts to improve WBA typically focus on standardization and objectivity of measurement by adjusting rating scale formats and eliminating rater errors through rater training. Such measures have met with mixed success at best (Williams et al. 2003).
그러나 양적 평가 결과에 초점을 맞춘 전통적인 심리측정 체계에 대한 배타적 초점이 WBA 연구에 적합한지 의문을 제기할 수 있다. 산업 심리학의 연구는 직장에서의 [성과 평가]란 [상호 관련된 일련의 과정]으로 정의되는 [복잡한 작업]이라는 것을 증명합니다. WBA는 일반적으로 [시간의 압박] 속에, [표준화되지 않은 작업] 또는 [잘 정의되지 않거나 서로 상충하는 목표]의 맥락에서 평가 작업을 수행해야 하는 [전문가의 판단]에 의존합니다. One might question, however, whether an exclusive focus on the traditional psychometric framework, which focuses on quantitative assessment outcomes, is appropriate in WBA-research. Research in industrial psychology demonstrates that assessment of performance in the workplace is a complex task which is defined by a set of interrelated processes. Workplace-based assessment relies on judgments by professionals, who typically have to perform their rating tasks in a context of time pressure, non-standardized assessment tasks and ill-defined or competing goals (Murphy and Cleveland 1995).
퍼포먼스 평가에 대한 연구 결과도 [맥락적 요인]이 평가자의 행동에 영향을 미치고 따라서 평가 결과에 영향을 미친다는 것을 나타낸다(Levy and Williams 2004; Hawe 2003). 따라서 평가자들은 성과 데이터를 샘플링하고, 결과를 해석하고, 평가 기준을 식별 및 정의하며, [개인의 판단]을 [합당한(허용 가능한) 의사 결정]으로 변환하는 데 지속적으로 어려움을 겪고 있다. 어쩌면, 직장에서의 [퍼포먼스 평정performance rating]은 '측정'에 관한 것이 아니라 역동적인 환경에서 '추리', '판단', '의사 결정'에 관한 것일지도 모른다.
Findings from research into performance appraisal also indicate that contextual factors affect rater behavior and thus rating outcomes (Levy and Williams 2004; Hawe 2003). Raters are thus continuously challenged to sample performance data; interpret findings; identify and define assessment criteria; and translate private judgments into sound (acceptable) decisions. Perhaps performance rating in the workplace is not so much about ‘measurement’ as it is about ‘reasoning’, ‘judgment’ and ‘decision making’ in a dynamic environment.
[정보 처리자information processors]로서의 평가자의 개념은 인식-기반cognition-based 수행능력 평가 모델의 중심이다(Feldman 1981; De Nisi 1996). 기본적으로, 이러한 모델은 [평가 결과]는 평가자가 아래의 활동을 어떻게 하느냐에 따라 달라진다고 가정한다.
관련 정보 인식 및 선택(정보 획득)
기억memory에 정보를 해석하고 정리(평가대상자 행동의 인지적 표현 포함)
추가 정보 검색
최종적으로 판단과 의사결정에 관련된 정보를 검색하고 통합
The idea of raters as information processors is central to cognition-based models of performance assessment (Feldman 1981; De Nisi 1996). Basically, these models assume that rating outcomes vary, depending on how raters
recognize and select relevant information (information acquisition);
interpret and organize information in memory (cognitive representation of ratee behavior);
search for additional information; and
finally retrieve and integrate relevant information in judgment and decision making.
이러한 [기본적인 인지 프로세스]는 경영, 항공, 군사 및 의학과 같은 다양한 전문 영역에서 기술된 정보 처리와 유사하다(Walsh 1995; Ross et al. 2006; Gruppen and Frohna 2002).
These basic cognitive processes are similar to information processing as described in various professional domains, such as management, aviation, the military and medicine (Walsh 1995; Ross et al. 2006; Gruppen and Frohna 2002).
영향, 동기, 시간 압력, 현지 관행 및 이전 경험과 관련하여 정보 처리에서 [사람마다 variation]이 크게 발생할 수 있다(Levy and Williams 2004, Gruppen and Frohna 2002). large individual variations in information processing can occur, related to affect, motivation, time pressure, local practices and prior experience (Levy and Williams 2004; Gruppen and Frohna 2002).
실제로 [과제-특이적 전문성]은 정보처리 (따라서 과제 수행까지)의 차이를 이해하는 데 핵심적인 변수인 것으로 나타났다(Ericson 2006). [오랜 직무 경험]은 복잡한 업무를 처리함에 있어, [많은 양의 정보를 효율적으로 처리할 수 있는 인지 프로세스]의 적응뿐만 아니라, [광범위하고 잘 구조화된 지식 기반]을 획득함으로써, 초보자가 전문가와 같은 수행자로 발전하는 데 도움이 된다는 것을 보여주는 충분한 연구가 있다. 연구 결과는 이러한 [인지 구조] 및 [(인지) 프로세스]의 차이가 숙련도와 작업 수행의 품질에 영향을 미친다는 것을 일관되게 보여줍니다(Chi 2006).
In fact, task-specific expertise has been shown to be a key variable in understanding differences in information processing––and thus task performance (Ericsson 2006). There is ample research indicating that prolonged task experience helps novices develop into expertlike performers through the acquisition of an extensive, well-structured knowledge base as well as adaptations in cognitive processes to efficiently process large amounts of information in handling complex tasks. Research findings consistently indicate that these differences in cognitive structures and processes impact on proficiency and quality of task performance (Chi 2006).
예를 들어, [전문가 행동]의 주요 특징은 [일상적 문제에서 신속하고 자동적인 패턴 인식]이 우세하여, 매우 [빠르고 정확한 문제 해결]이 가능하다는 것이다(Klein 1993; Coderre et al. 2003). 그러나 익숙하지 않거나 복잡한 문제에 직면할 경우, 전문가들은 문제를 더 잘 이해하기 위해 정보를 수집하고 분석하며 평가하는 데 더 많은 시간이 걸리는 반면, 초보자들은 최소한의 정보만 수집한 후에, 문제 해결 방법이나 행동 방침을 생성하기 시작하는 경향이 더 많다(Ross et al. 2006; Voss et al. 1983).
For instance, a main characteristic of expert behavior is the predominance of rapid, automatic pattern recognition in routine problems, enabling extremely fast and accurate problem solving (Klein 1993; Coderre et al. 2003). When confronted with unfamiliar or complex problems, however, experts tend to take more time to gather, analyze and evaluate information in order to better understand the problem, whereas novices are more prone to start generating a problem solution or course of action after minimal information gathering (Ross et al. 2006; Voss et al. 1983).
전문성 연구에 대한 또 다른 강력한 연구 결과는, 비전문가와 비교했을 때, 전문가들은 [사물을 다르게 보고 다른 것을 본다]는 것입니다. 일반적으로, 전문가들은 정보에 대한 [더 많은 추론]을 하고, 정보를 [의미 있는 패턴과 추상화]로 묶습니다(Chi et al. 1981; Feltovich et al. 2006).
예를 들어, [의학 전문가] 행동에 대한 연구는 전문가들이 환자 문제에 대해 더 일관성 있는 설명을 하고, 데이터에서 더 많은 추론을 하며, 더 적은 문자 그대로의 정보 해석을 제공한다는 것을 보여준다(Van de Wiel et al. 2000).
[교사 감독관]에 대한 연구(Kerrins와 Cushing 2000)에서도 유사한 결과가 설명되었다. 구두 프로토콜을 분석한 결과 [경험이 부족한 감독관]들은 대부분 비디오테이프에서 본 내용을 문자 그대로 묘사한 것으로 나타났다. [경험 많은 감독관]들은 초보자들보다 그들의 관찰을 해석하고 다양한 정보를 의미 있는 교실 수업 패턴으로 결합해 평가 판단을 내렸다. 전반적으로 [전문가]의 관찰은 학생과 학생 학습에 초점을 맞춘 반면, [비전문가]는 교육의 이산적discrete 측면에 더 초점을 맞췄다.
Another robust finding in expertise studies is that, compared with non-experts, experts see things differently and see different things. In general, experts make more inferences on information, clustering sets of information into meaningful patterns and abstractions (Chi et al. 1981; Feltovich et al. 2006).
Studies on expert behavior in medicine, for instance, showthat experts have more coherent explanations for patient problems, make more inferences from the data and provide fewer literal interpretations of information (Van de Wiel et al. 2000).
Similar findings were described in a study on teacher supervision (Kerrins and Cushing 2000). Analysis of verbal protocols showed that inexperienced supervisors mostly provided literal descriptions of what they had seen on the videotape. More than novices, experienced supervisors interpreted their observations as well as made evaluative judgments, combining various information into meaningful patterns of classroomteaching. Overall, experts’ observations focused on students and student learning, whereas non-experts focused more on discrete aspects of teaching.
연구 결과는 또한 [전문가]들은 [초보자들이 무시하는 단서와 정보에 주의]를 기울인다는 것을 보여준다. 예를 들어, 전문가들은 일반적으로 정보를 모니터하고 수집하는 동안 [맥락적 및 상황별 단서]에 더 많은 주의를 기울이는 반면, 초보자들은 [문제의 문자 그대로 교과서적인 측면]에 집중하는 경향이 있다. 실제로 의료 전문가에 의한 자동 처리는 맥락적 정보에 크게 의존하는 것으로 보인다(예: Hobus et al. 1987). Research findings also indicate that experts pay attention to cues and information that novices tend to ignore. For instance, experts typically pay more attention to contextual and situation-specific cues while monitoring and gathering information, whereas novices tend to focus on literal textbook aspects of a problem. In fact, automated processing by medical experts seems to heavily rely on contextual information (e.g. Hobus et al. 1987).
마지막으로, 전문가들은 일반적으로 [자기 모니터링 능력이 더 우수(정확)]하고, 통제가 필요한 수행능력 측면에 대한 [인지적 통제력]이 더 뛰어납니다. 전문가들은 과제 수행 중에 인지 능력을 자기 모니터링에 쏟을 수 있을 뿐만 아니라, 더 풍부한 정신 모델을 통해 추론 오류를 더 잘 감지할 수 있습니다. 예를 들어, 펠토비치 외 연구진(1984)은 진단 작업에 대해 전문가 대 비전문가의 유연성flexibility을 조사했습니다. 그 결과 초보자일수록 경직되고 초기 가설에 집착하는 경향이 있는 반면, 전문가들은 초기 진단이 잘못되었음을 발견하고 그에 따라 추론을 조정할 수 있었다. Finally, experts generally have better (more accurate) self-monitoring skills and greater cognitive control over aspects of performance where control is needed. Not only are experts able to devote cognitive capacity to self-monitoring during task performance, their richer mental models also enable them to better detect errors in their reasoning. Feltovich et al. (1984), for instance, investigated flexibility of experts versus non-experts on diagnostic tasks. Results showed that novices were more rigid and tended to adhere to initial hypotheses, whereas experts were able to discover that the initial diagnosis was incorrect and adjust their reasoning accordingly.
본 연구는 임상작업장 내 성과를 관찰하는 평가자의 판단 및 의사결정과 관련된 인지과정을 조사하는 것을 목적으로 한다. The present study aims to investigate cognitive processes related to judgment and decision making by raters observing performance in the clinical workplace.
방법 Method
참여자 Participants
본 연구의 참가자는 일반 실습 레지던트 교육에 감독자-평가자로 적극적으로 참여한 GP-감독자였습니다. 네덜란드에서의 general practice training 은 훈련 프로그램 전반에 걸쳐 체계적인 직접 관찰과 평가의 오랜 전통을 가지고 있다. The participants in our study were GP-supervisors who were actively involved as supervisor-assessor in general practice residency training. General practice training in the Netherlands has a long tradition of systematic direct observation and assessment of trainee performance throughout the training program.
본 연구에서는 [감독관-평가자로서 직무 관련 경험의 연수years]로 전문성 수준을 정의했습니다. 엘리트 등급 성과에 해당하는 공식적 수준이 없기 때문에 전문지식에 대한 상대적 접근법을 채택했습니다. 이 접근법은 초보자가 광범위한 직무 경험과 훈련을 통해 전문가로 발전한다고 가정한다(Chi 2006; Norman et al. 2006). 일반적으로 전문가 퍼포먼스를 달성하려면 [특정 분야에서 약 7년의 지속적인 경험]이 필요하다(예: 2006년 Arts 외). In our study, we defined the level of expertise as the number of years of task-relevant experience as a supervisor-rater. Since there is no formal equivalent of elite rater performance we adopted a relative approach to expertise. This approach assumes that novices develop into experts through extensive task experience and training (Chi 2006; Norman et al. 2006). In general, about 7 years of continuous experience in a particular domain is necessary to achieve expert performance (e.g. Arts et al. 2006).
평정 대상 Rating stimuli
참가자들은 DVD 2장을 보았는데, 각각 의대 3학년 학생이 환자와 '실제'를 맞닥뜨리는 모습을 보여주었다. DVD는 환자 문제와 학생의 성과 모두에 대해 의도적으로 선택되었습니다. 두 DVD 모두 아토피 습진과 협심증이라는 일반적인 관습에서 흔히 볼 수 있는 '직설적인' 환자 문제를 제시했다. The participants watched two DVDs, each showing a final-year medical student in a ‘reallife’ encounter with a patient. The DVDs were selected purposefully with respect to both patient problems and students’ performance. Both DVDs presented ‘straightforward’ patient problems that are common in general practice: atopic eczema and angina pectoris.
평정 양식 Rating forms
참가자들은 학생들의 성과를 평가하기 위해 두 가지 도구를 사용했다(그림 1, 2)
5점짜리 리커트 척도에서 학생 성과에 대한 1차원 전체 등급(1 = 불량 ~ 5 = 미결)(R1) 및
6가지 임상 역량 목록(병력 청취, 신체 검사, 임상 추론 및 진단, 환자 관리, 환자와의 커뮤니케이션, 전문직업성)을 각각 5점 리커트 척도(1 = 불량 ~ 5 = 우수)(R2)로 평가해야 한다.
The participants used two instruments to rate student performance (Figs. 1, 2):
a one-dimensional, overall rating of student performance on a five-point Likert scale (1 = poor to 5 = outstanding) (R1), and
a list of six clinical competencies (history taking; physical examination; clinical reasoning and diagnosis; patient management; communication with the patient; and professionalism), each to be rated on a five-point Likert scale (1 = poor to 5 = outstanding) (R2).
등급 척도는 최대한의 특이적 인지 처리가 가능하도록 단순하게 유지되었다. 참가자들은 평가 도구에 익숙하지 않았고 사용법을 배우지 못했다. Rating scales were kept simple to allow for maximum idiosyncratic cognitive processing. The participants were not familiar with the rating instruments and had not been trained in their use.
연구 절차 및 데이터 수집 Research procedure and data collection
인지적 퍼포먼스를 캡처하기 위해 구두 프로토콜 분석을 위한 표준 절차를 따랐다(Chi 1997).1 첫 DVD를 시작하기 전에 참가자들에게 절차에 대한 정보를 제공했고 일련의 구두 지시를 받았다. 평가자들은 특히 "큰 소리로 생각하라think aloud"고 요청받았고, 생각이 떠오르면 마치 방안에 혼자 있는 것처럼 모든 생각을 말로 표현하도록 했다. 참가자가 몇 초 이상 침묵을 지키면 연구 보조원이 계속하라고 일깨워줬다. We followed standard procedures for verbal protocol analysis to capture cognitive performance (Chi 1997).1 Before starting the first DVD, participants were informed about procedures and received a set of verbal instructions. Raters were specifically asked to ‘‘think aloud’’ and to verbalize all their thoughts as they emerged, as if they were alone in the room. If a participant were silent for more than a few seconds, the research assistant reminded him or her to continue.
1 [언어 프로토콜verbal protocol]은 참가자들이 인지 작업 수행 중 또는 수행 직후에 자신의 생각과 행동에 대해 구두로 표현하는 것을 말합니다. 일반적으로, 참가자들은 "큰 소리로 생각"하고, 그 생각들을 설명하거나 분석하려고 하지 않고, 그들이 등장할 때 그들의 모든 생각들을 말로 표현하도록 요청 받는다. 구두 분석은 이러한 구두 표현의 내용에 대한 주관적 또는 질적 부호화를 정량화하기 위한 방법론이다(Chi 1997). Chi(1997)는 언어 데이터를 분석하는 특정 기법을 언어 프로토콜의 수집과 전사를 제외한 여러 단계로 구성한다고 설명한다. 이러한 단계는 본 연구에서 설명한 것처럼 아래와 같다. - 프로토콜의 내용 정의; - 프로토콜 분할; - 부호화 계획의 개발; - 데이터를 코드화하고 필요한 경우 코드화 방식을 세분화합니다. - 해석의 모호성 해소 - 코딩 패턴 분석. 1 Verbal protocols refer to the collection of participants’ verbalizations of their thoughts and behaviors, during or immediately after performance of cognitive tasks. Typically, participants are asked to ‘‘think aloud’’ and to verbalize all their thoughts as they emerge, without trying to explain or analyze those thoughts (Ericsson and Simon 1993). Verbal analysis is a methodology for quantifying the subjective or qualitative coding of the contents of these verbal utterances (Chi 1997). Chi (1997) describes the specific technique for analyzing verbal data as consisting of several steps, excluding collection and transcription of verbal protocols. These steps, as followed in our research, are: - defining the content of the protocols; - segmentation of protocols; - development of a coding scheme; - coding the data and refining coding scheme if needed; - resolving ambiguities of interpretation; and - analysis of coding patterns.
1. DVD가 시작됩니다. 참가자가 학생의 성적을 판단할 수 있을 때 신호를 보내고, DVD가 시작되는 시점부터 지금까지의 시간(T1)이 기록된다. T1은 문제 표현, 즉 연습생 수행의 초기 표현에 필요한 시간을 나타냅니다. 1. DVD starts. The participant signals when he or she feels able to judge the student’s performance, and the time from the start of the DVD to this moment is recorded (T1). T1 represents the time needed for problem representation, i.e. initial representation of trainee performance.
2. DVD가 T1에 정지되어 있습니다. 참가자는 연습생의 수행에 대한 첫 번째 판단(언어적 의전(VP) 1)을 구두로 표현합니다. 2. The DVD is stopped at T1. The participant verbalizes his/her first judgment of the trainee’s performance (verbal protocol (VP) 1).
3. 참가자는 1차원 등급 척도(R1T1)에서 전반적인 성능 등급을 제공하고, 등급 양식(VP2)을 작성하면서 큰 소리로 생각합니다. 3. The participant provides an overall rating of performance on the one-dimensional rating scale (R1T1), thinking aloud while filling in the rating form (VP2).
4. T1에서 DVD 보기를 다시 시작합니다. DVD가 종료되면(T2) 참가자는 자신의 판단(VP3)을 구두로 말하고 전체 등급(R1T2)을 제공합니다. 4. Viewing of the DVD is resumed from T1. When the DVD ends (T2), the participant verbalizes his/her judgment (VP3) and provides an overall rating (R1T2).
5. 참가자는 DVD(DVD 1 또는 DVD 2) 중 하나에 대한 다차원 등급 양식(R2)을 작성하고 자신의 생각을 구두로 표현합니다(VP4). 5. The participant fills in the multidimensional rating form (R2) for one of the DVDs (alternately DVD 1 or DVD 2) and verbalizes his or her thoughts while doing so (VP4).
데이터 분석 Data analysis
언어 프로토콜의 전사는 연구자 중 한 명(MG)에 의해 구문phrases으로 분할되었다. 세그먼트는 의미적 특징(구문과 같은 비내용 특징과는 반대로 내용 특징)에 기초하여 식별되었다. 각 부문은 하나의 생각, 아이디어 또는 진술을 나타내었습니다(몇 가지 예는 표 1 참조). The transcriptions of the verbal protocols were segmented into phrases by one of the researchers (MG). Segments were identified on the basis of semantic features (i.e. content features-as opposed to non content features such as syntax). Each segment represented a single thought, idea or statement (see Table 1 for some examples).
각 세그먼트는 정성 데이터 분석을 위한 소프트웨어(Atlas.ti 5.2)를 사용하여 코딩 범주에 할당되었습니다. '진술의 성격', '언어 프로토콜의 유형', '임상 프레젠테이션'(표 1)을 명시하기 위해 서로 다른 코딩 체계를 사용했다. '진술의 성격'에 대한 코딩 범주는 전문가 초보자 정보 처리의 초기 연구(Kerrins and Cushing 2000, Boshuizen 1989, Sabers et al. 1991)에 기초했으며 다음을 포함했다.
'기술',
'해석',
'평가',
'맥락적 단서'
'자기 모니터링'
Each segment was assigned to coding categories, using software for qualitative data analysis (Atlas.ti 5.2). Different coding schemes were used to specify ‘the nature of the statement’; ‘type of verbal protocol’ and ‘clinical presentation’ (Table 1). The coding categories for ‘nature of statement’ were based on earlier studies in expert-novice information processing (Kerrins and Cushing 2000; Boshuizen 1989; Sabers et al. 1991) and included
‘description’,
‘interpretation’,
‘evaluation’,
‘contextual cue’ and
‘self-monitoring’.
반복되는 것도 마찬가지로 하였다.
Repetitions were coded as such.
두 독립 검체의 비모수 비교에 대해 제안된 것처럼 ES = Z/HN 공식을 사용하여 효과 크기를 계산했다. 여기서 Z는 Mann-Whitney 통계량의 z 점수이고 N은 총 표본 크기이다(Field 2009, 페이지 550). 효과 크기가 각각 0.1, 0.3 및 0.5와 같으면 작은 효과, 중간 효과 및 큰 효과를 나타냅니다. 전체 등급(R1T1 대 R1T2)의 그룹 내 차이에 대해서는 Wilcoxon 부호 순위 검정이 적용되었습니다.
We calculated effect sizes by using the formula ES = Z/HN as is suggested for non-parametric comparison of two independent samples, where Z is the z-score of the Mann–Whitney statistic and N is the total sample size (Field 2009, p. 550). Effect sizes equal to 0.1, 0.3, and 0.5, respectively, indicate a small, medium, and large effect. For within-group differences of overall ratings (R1T1 versus R1T2) the Wilcoxon signed rank test was applied.
결과 Results
표 2는 문제 발생 시간 표시(T1)에 대한 결과와 각 DVD의 전반적인 성능 등급을 보여줍니다. T1까지의 시간은 프로토타입 동작(DVD 1)을 관찰할 때 경험이 풍부한 평가자와 경험이 없는 평가자의 경우와 유사했다.
Table 2 shows the results for the time to problem representation (T1) and the overall performance ratings for each DVD. Time to T1 was similar for experienced and nonexperienced raters when observing prototypical behavior (DVD 1).
그러나 DVD 2에서 보다 [복잡한 행동 패턴]을 관찰할 때,
[경험 있는 평가자]들은 정보 모니터링 및 수집에 유의하게 시간이 더 오래 걸렸지만,
[경험이 부족한 평가자]들은 시간 증가가 거의 없었다. (U = 79.00, p = 0.03, ES = 0.38)
However, when observing the more complex behavioral pattern in DVD 2, experienced raters took significantly longer time for monitoring and gathering of information, whereas there was only minimal increase in time for non-experts (U = 79.00,p= .03, ES = 0.38).
표 2는 등급 점수에서 두 그룹 간의 유의하지 않은 차이를 보여줍니다. 그러나 Wilcoxon 서명한 순위 검정은 T1과 T2에서 등급 점수 간에 그룹 내 상당한 차이를 보였다. Table 2 shows non-significant differences between the two groups in the rating scores. A Wilcoxon signed ranks test, however, showed significant within-group differences between the rating scores at T1 and T2.
표 3은 언어 프로토콜별 및 모든 프로토콜(= 전체, VP1 ? VP2 ? VP3 ? VP4)에 대한 각 그룹의 문장 특성에 대한 백분율(분위간, 사분위간 범위)을 보여줍니다. Table 3 presents the percentages (median, inter-quartile range) for the nature of the statements for each group, by verbal protocol and across all protocols (= overall, VP1 ? VP2 ? VP3 ? VP4).
고찰 Discussion
연습생의 초기 성과에 도달하는 데 걸린 시간의 차이에 대해, 그 결과는 우리의 가설을 부분적으로 확인시켜줍니다. 전형적 행동을 보이는 사례에서[전문가 평가자]가 [비전문가 평가자]만큼 많은 시간을 소요한 것은 우리의 예상과 어긋나지만, [복잡한 수련생 행동]의 사례에서는 전문가가 비전문가보다 훨씬 많은 시간을 할애하였고, 우리의 기대는 확인되었습니다. 이 연구 결과는 전문 연구에 대한 다른 연구 결과와 일치합니다(Ericson 및 Lehmann 1996).
경험이 없는 평가자들은 관찰된 행동의 복잡성에 관계없이 올바른 솔루션(예: 판단 또는 성과 점수)을 제공하는 데 초점을 맞추는 반면,
전문가 평가자들은 복잡한 훈련생 성과에 대한 의사결정에 도달하기 전에 정보를 모니터링하고 수집하고 분석하는 데 더 많은 시간이 걸린다.
As for the differences in the time taken to arrive at the initial representation of trainee performance, the results partially confirm our hypothesis. It is contrary to our expectations that the expert raters took as much time as the non-expert raters with the case presenting prototypical behavior, but our expectations are confirmed for the case with complex trainee behavior, with the experts taking significantly more time than the non-experts. This finding is consistent with other findings on expertise research (Ericsson and Lehmann 1996).
Whereas non-experienced raters seem to focus on providing a correct solution (i.e. judgments or performance scores) irrespective of the complexity of the observed behavior,
expert raters take more time to monitor, gather and analyze the information before arriving at a decision on complex trainee performance.
[전형적prototypical 행동]에 대해서 (전문가와 비전문가 사이에) 유의하지 않은 결과는 본 연구의 등급 자극rating stimulus으로 설명할 수 있습니다. 피부과 사례는 너무 짧았을 수 있고, 전형적인 학생 행동이 연속적으로 이뤄졌기에, 차이를 끌어내기에는 너무 시간이 짧았을quick 수 있다. 더욱이 DVD1에서는 명백한 기준 미달의 수행능력을 보였기에, 두 집단 모두에서 자동 정보처리 및 패턴 인식을 유도했을 수 있다(Eva 2004). Our non-significant results with respect to prototypical behavior may be explained by the rating stimulus in our study. The dermatology case may have been too short, and the succession of typical student behaviors too quick to elicit differences. Moreover, the clearly substandard performance in the stimulus may have elicited automatic information processing and pattern recognition in both groups (Eva 2004).
그러나 심장내과 사례에 대한 우리의 결과는, [더 복잡한 행동]에 대해서, [경험 있는 평가자]들이 초기 정보에 대한 해석과 관련하여 [경험이 없는 평가자]들과 다른 것으로 보인다는 것을 확인시켜 준다. 경험 있는 평가자들은 추가 정보를 검색하고 훈련생 행동에 대해서 더 긴 시간 모니터링을 한다. Our results for the cardiology case, however, confirm that, with more complex behaviors, experienced raters seem to differ from non-experienced raters with respect to their interpretation of initial information -causing themto search for additional information and prolonged monitoring of trainee behavior.
구두 프로토콜의 경우, 전체적인 결과는 성과를 관찰하고 판단하면서 정보 처리에서 전문가와 비전문가 사이의 차이로 생각했던 가설을 확인하여주었다. 경험이 없는 평가자와 비교했을 때, 경험 있는 평가자는 [학생 행동의 정보에 대한 추론과 해석]을 더 많이 생성한 반면, 경험이 없는 평가자는 [관찰된 행동에 대한 더 문자 그대로의 설명]을 제공했다. 이러한 발견은
[경험이 없는 평가자]는 수행능력의 구체적이고 이산적인 측면에 더 많은 관심을 기울이는 반면,
[경험이 많은 평가자]는 다양한 정보를 취합하여 통합된 청크와 의미 있는 정보 패턴을 생성한다는 것을 시사합니다.
As for the verbal protocols, the overall results appear to confirm the hypothesized differences between expert and non-expert raters in information processing while observing and judging performance. Compared to non-experienced raters, experienced raters generated more inferences on information and interpretations of student behaviors, whereas non-experienced raters provided more literal descriptions of the observed behavior.
These findings suggest that non-experienced raters pay more attention to specific and discrete aspects of performance,
whereas experienced raters compile different pieces of information to create integrated chunks and meaningful patterns of information.
우리의 결과는 또한 전문가 평가자들이 [맥락적 및 상황-특이적 단서를 분석하고 평가할 수 있는 탁월한 능력]을 가지고 있음을 시사한다. 본 연구의 평가자들은 [맥락적 정보]에 더 많은 관심을 기울이고, (최소한 성과 판단을 말로 설명한 것에서는) [더 넓은 관점]을 취하는 것으로 보였습니다. [관련 배경 정보]와 [관찰된 행동]을 [종합적 수행능력 평가에 통합]합니다. 전문가와 비전문가 간의 차이는 정보 수집 및 성능 평가(VP1)의 초기 단계에서 가장 두드러졌다. 환자 만남의 설정, 환자 특성 및 평가 과제의 맥락은 모두 전문가의 초기 판단에 고려되는 것으로 보인다.
Our results also suggest that expert raters have superior abilities to analyze and evaluate contextual and situation-specific cues. The raters in our study appeared to pay more attention to contextual information and to take a broader view, at least in their verbalizations of performance judgments. They integrate relevant background information and observed behaviors into comprehensive performance assessments. The differences between experts and non-experts were most marked at the initial stage of information gathering and assessment of performance (VP1). The setting of the patient encounter, patient characteristics and the context of the assessment task all seem to be taken into account in the experts’ initial judgments.
우리의 연구 결과는 전문성 개발의 다른 많은 연구와 일치하며, 이는 초보자들에 비해 전문가들이 [맥락적 정보가 풍부한 더 정교하고, 잘 구조화된 정신 모델]을 가지고 있다는 것을 일관되게 보여준다. Our findings are in line with many other studies in expertise development, which consistently demonstrate that compared with novices, experts have more elaborate and well-structured mental models, replete with contextual information.
연구 결과는 그룹 내(전문가-비전문가)에서, 전체 DVD(T2)를 본 후 T1에서의 초기 등급이 등급과 크게 다르다는 것을 보여주었다. 따라서 전문가 평가자와 비전문가 평가자 모두 지속적으로 추가 정보를 모색하고 활용하며, 훈련생 수행능력을 관찰하면서 [판단을 재조정하고 있음]을 알 수 있습니다. 또한, 이러한 발견은 [짧은 관찰 후 판단한 평정 점수가 전체 성과를 정확하게 반영하지 못할 수 있다]는 가능성을 지적합니다. 이는 WBA에서 최소한의 관측 시간과 성과 표본 추출에 대한 지침의 결과를 초래할 수 있다. 우리의 결과는 전문가와 비전문가 간의 평가 점수에서 큰 차이를 드러내지 않았다. The results of our study showed that, within groups, the initial ratings at T1 differed significantly from the ratings after viewing the entire DVD (T2). Thus our findings suggest that both expert and non-expert raters continuously seek and use additional information, readjusting judgments while observing trainee performance. Moreover, this finding points to the possibility that rating scores, provided after brief observation, may not accurately reflect overall performance. This could have consequences for guidelines for minimal observation time and sampling of performance in WBA. Our results did not reveal significant differences in rating scores between experts and non-experts.
가능한 설명은, 지금까지의 general practice 에서의 훈련과 경험의 결과로, 두 그룹 모두 무엇이 general practice에서 [기준 미달 대 허용 성과]를 구성하는지에 대한 공통의 개념을 가질 수 있다는 것이다. 공유된 frame of reference로서 평정 척도가 수행능력 점수에서 과도한 variation이 나타나는 것을 막았을 수 있으며, 표본 크기가 작은 것이 두 그룹에서 동등한 평정의 원인이 되었을 수도 있다. Possible explanations are that, as a result of previous training and experience in general practice, both groups may have common notions of what constitutes substandard versus acceptable performance in general practice. Shared frames of reference, a rating scale that precludes large variations in performance scores and the small sample size may have caused the equivalent ratings in both groups.
우리의 예상과 달리, 본 연구의 전문가들은 성과를 평가하는 동안 더 많은 자기 모니터링 행동을 보이지 않는 것 같습니다. 참가자들에게 [타인에 대한 판단을 하면서 큰 소리로 생각하도록 한 우리의 실험 환경]이 더 많은 self-explanation을 유도했다는 것으로 이 결과를 설명할 수 있다. 평가 척도를 작성하면서 생각을 구두화하고 성과 점수를 제공하는 작업은, 경험이 풍부한 평가자와 경험이 없는 평가자 모두 (그렇게 지시받지 않았음에도 불구하고), 평가 과제에 책무성accountability의 측면을 갖게 함으로써, 자신의 행동을 설명하고 정당화해야 한다고 느끼게 만들었을 수 있다. 이러한 자기 설명과 성과 등급의 정당성은 그룹 간 등급 점수에 유의한 차이가 없음을 설명할 수도 있다. Contrary to our expectations, the experts in our study do not appear to demonstrate more self-monitoring behavior while assessing performance. An explanation might be that our experimental setting, in which participants were asked to think aloud while providing judgments about others, induced more self-explanations. The task of verbalizing thoughts while filling out a rating scale and providing a performance score may have introduced an aspect of accountability into the rating task, with both experienced and non-experienced raters feeling compelled to explain and justify their actions despite being instructed otherwise. These self-explanations and justifications of performance ratings may also explain the absence of any significant differences in rating scores between the groups.
몇몇 연구는 설명을 통해 피험자의 성과를 향상시킨다는 것을 보여주었다(예: Chi et al. 1994). 따라서 소리 내어 생각하는 절차는 두 그룹 모두에서 상당히 정확한 평가 점수를 산출했을 수 있습니다. 이러한 설명은 구두화의 효과에 대한 여러 평가자들의 논평으로 입증된다[예: "내가 큰 소리로 생각하지 않았다면 나는 3점을 주었을 것이다." 그러나 만약 내가 전에 말했던 것을 재고한다면, 나는 2점을 주고 싶다." Several studies have shown that explaining improves subjects’ performance (e.g. Chi et al. 1994). The think aloud procedure may therefore have resulted in fairly accurate rating scores in both groups. This explanation is substantiated by the comments of several raters on effects of verbalization [e.g. ‘‘If I had not been forced to think aloud, I would have given a 3 (satisfactory), but if I now reconsider what I said before, I want to give a 2 (borderline)’’].
우리의 연구 결과는 무엇을 의미하며 WBA에 어떤 영향을 미칩니까? What do our findings mean and what are the implications for WBA?
이러한 전문가와 초보자의 차이는 평가 과정에서 교육생에게 주어진 피드백에 영향을 미칠 수 있습니다. Such expert-novice differences may impact the feedback that is given to trainees in the assessment process.
첫째, [경험 많은 평가자]들에 의한 보다 [풍부한 처리와 상황별 단서의 통합]은, 다양한 이슈에 초점을 맞춘 교육생들에게 질적으로 다른, 보다 전체적인 피드백holistic feedback을 제공할 수 있습니다. 전문가 평가자들은 평가 과제의 맥락에서 연습생의 행동을 해석하고 성과에 대한 다양한 측면을 통합하는 등 더 넓은 시각을 가지고 있는 것으로 보인다. 이를 통해 환자와의 만남에서 일어나는 일에 의미를 부여할 수 있습니다. 반면에 경험이 없는 평가자는 개별적인 '체크리스트' 측면의 성과에 더 초점을 맞출 수 있다. 케린스와 쿠싱(2000년)은 교사 감독 연구를 통해 비슷한 연구 결과를 보고했다. Firstly, more enriched processing and better incorporation of contextual cues by experienced raters can result in qualitatively different, more holistic feedback to trainees, focusing on a variety of issues. Expert raters seem to take a broader view, interpreting trainee behavior in the context of the assessment task and integrating different aspects of performance. This enables them to give meaning to what is happening in the patient encounter. Non-experienced raters on the other hand may focus more on discrete ‘checklist’ aspects of performance. Similar findings have been reported by Kerrins and Cushing (2000) in their study on supervision of teachers.
둘째, 보다 정교한 수행능력 스크립트performance scripts 덕분에, 전문가 평가자는 성능을 관찰하고 판단할 때, (특히 시간 제약 및 상충적 책임의 역할을 수행할 때), 하향식top-down 정보 처리 또는 패턴 인식에 더 자주 의존할 수 있습니다. 결과적으로, 전문가 판단은 행동 세부사항을 무시하고, [성과에 대한 일반적이고 전체적인 인상]에 의해 추진driven될 수 있다(Murphy and Balzer 1986; Livens 2001). 반면 경험이 없는 평가자들은 행동 수준에서 더 정확할 수 있다.
그러나 다른 영역의 연구는 정상normal 조건에서 정보를 청크할 가능성이 높음에도 불구하고, 전문가들은 추론과 의사결정에 기초하는 '기본basic' 지식을 사용하고 기억하는 능력을 잃지 않는다는 것을 보여주었다(Schmidt와 Boshuizen 1993).
또한, 연구 결과에 따르면 전문가들에게 [사건을 의도적으로 정교하게 처리하도록 요청했을 때] 관련 데이터의 우수한 리콜을 입증한다(Norman et al. 1989; Wimmers et al. 2005).
이와 유사하게, [정보를 정교하고 의도적으로 처리할 의무]가 있는 경우, 경험 있는 평가자는 특정한 행동과 성과 측면을 상기하는 데 있어 경험이 없는 평가자 못지 않을 수 있다.
Secondly, thanks to more elaborate performance scripts, expert raters may rely more often on top-down information processing or pattern recognition when observing and judging performance -especially when time constraints and/or competing responsibilities play a role. As a consequence, expert judgments may be driven by general, holistic impressions of performance neglecting behavioral detail (Murphy and Balzer 1986; Lievens 2001), whereas non-experienced raters may be more accurate at the behavioral level.
However, research in other domains has shown that, despite being likely to chunk information under normal conditions, experts do not lose their ability to use and recall ‘basic’ knowledge underlying reasoning and decision making (Schmidt and Boshuizen 1993).
Moreover, research findings indicate that experts demonstrate excellent recall of relevant data when asked to process a case deliberately and elaborately (Norman et al. 1989; Wimmers et al. 2005).
Similarly, when obliged to process information elaborately and deliberately, experienced raters may be as good as non-experienced raters in their recall of specific behaviors and aspects of performance.
따라서 [WBA의 최적화]를 위해서는 평가자에게 [자신의 판단을 상세히 설명]하고, [관찰한 행동에서 구체적, 특이적 예시를 사용]하여, 자신의 평정을 입증substantiate할 수 있는 [평가 절차와 형식]이 필요할 수 있다. Optimization of WBA may therefore require rating procedures and formats that force raters to elaborate on their judgments and substantiate their ratings with concrete and specific examples of observed behaviors.
마지막으로, 우리의 연구 결과는 초보 평가자뿐만 아니라 경험이 풍부한 평가자에게도 평가 훈련에 영향을 미칠 수 있습니다. 확실히, 공식적인 훈련이 어떤 것을 달성할 수 있는지는 한계가 있고, 실제 경험을 통해 전문성이 발전하는 것 같아 보입니다. 개인 경험, 신념, 태도의 결과로서 독창적인 수행능력 스키마performance schemata가 개발되기 마련이다. 그러나 [공유된 정신 모델]을 개발하고, 진정한 전문가가 되기 위해서는, [정기적인 피드백]과 [서로 다른(ill-defined) 맥락에서 (복잡한) 수행능력을 판단할 때 사용한 전략에 대한 지속적 성찰]을 동반한 [의도적 연습]이 필요하다. Finally, our findings may have consequences for rater training, not only for novice raters, but for more experienced raters as well. Clearly, there is a limit to what formal training can achieve and rater expertise seems to develop through real world experience. Idiosyncratic performance schemata are bound to develop as a result of personal experiences, beliefs and attitudes. Development of shared mental models and becoming a true expert, however, may require deliberate practice with regular feedback and continuous reflection on strategies used in judging (complex) performance in different (ill-defined) contexts (Ericsson 2004).
WBA 최적화를 위한 조치를 고안할 때, 일반적으로 정신분석 평가 체계에서 가정하는 바와 같이, [평가자는 서로 교환할 수 있는 측정 수단이 아니라는 점]을 우선적으로 고려해야 한다. 실제로 수행능력 평가에 대한 인지접근법의 기본적 특징은 [평가자의 정보처리]가 [수행능력과 수행능력평가의 '정신적 모델']에 의해 안내guided된다는 것이다. 우리의 연구는 평가자의 판단과 의사결정 과정이 업무 경험으로 인해 시간에 따라 변화한다는 것을 보여줍니다. In devising measures to optimize WBA we should first and foremost take into account that raters are not interchangeable measurement instruments, as is generally assumed in the psychometric assessment framework. In fact, a built-in characteristic of cognitive approaches to performance assessment is that raters’ information processing is guided by their ‘mental models’ of performance and performance assessment. Our study shows that raters’ judgment and decision making processes change over time due to task experience,
Adv Health Sci Educ Theory Pract. 2011 May;16(2):151-65.
doi: 10.1007/s10459-010-9250-7.Epub 2010 Sep 30.
Workplace-based assessment: effects of rater expertise
Traditional psychometric approaches towards assessment tend to focus exclusively on quantitative properties of assessment outcomes. This may limit more meaningful educational approaches towards workplace-based assessment (WBA). Cognition-based models of WBA argue that assessment outcomes are determined by cognitive processes by raters which are very similar to reasoning, judgment and decision making in professional domains such as medicine. The present study explores cognitive processes that underlie judgment and decision making by raters when observing performance in the clinical workplace. It specifically focuses on how differences in rating experience influence information processing by raters. Verbal protocol analysis was used to investigate how experienced and non-experienced raters select and use observational data to arrive at judgments and decisions about trainees' performance in the clinical workplace. Differences between experienced and non-experienced raters were assessed with respect to time spent on information analysis and representation of trainee performance; performance scores; and information processing--using qualitative-based quantitative analysis of verbal data. Results showed expert-novice differences in time needed for representation of trainee performance, depending on complexity of the rating task. Experts paid more attention to situation-specific cues in the assessment context and they generated (significantly) more interpretations and fewer literal descriptions of observed behaviors. There were no significant differences in rating scores. Overall, our findings seemed to be consistent with other findings on expertise research, supporting theories underlying cognition-based models of assessment in the clinical workplace. Implications for WBA are discussed.
USMLE Step 2 CS 시험의 중단: 과거로부터 배워서 미래를 정의하기(Acad Med, 2021) Discontinuation of the USMLE Step 2 Clinical Skills Examination: Studying the Past to Define the Future Lisa D. Howley, PhD, and Deborah L. Engle, EdD, MS
2021년 1월 26일, 주 의료 위원회(FSMB)와 국가 의료 검사 위원회(National Board of Medical Examiners, NBME)는 미국 의료 면허 시험(USMLE) 2단계 임상 기술(CS)을 중단할 것이라고 발표했습니다.1 이 결정은 미국에서 임상 기술을 평가하는 데 있어 중요한 이정표를 세웠고 의대생, 교육자, 연구자 및 기타 사람들에게 역사적으로나 실질적인 중요성을 지닌 결정이었다. 면허시험에서 수행능력 시험을 중단하기로 한 결정에도 논란이 없는 것은 아니었으며, 이러한 사안에 대한 상세한 탐구는 이 논평의 범위를 벗어나지만, 이 중대한 결정의 역사적 맥락은 더 면밀히 살펴볼 필요가 있다고 본다. 결국 공자는 우리에게 "미래를 정의하고 싶다면, 과거를 공부하라"는 것을 일깨워주고, 역사의 몇 가지 핵심 교훈은 이 새로운 임상 성과 평가 시대에 앞으로 나아가는 우리의 길을 더 잘 알려줄 수 있을 것이다. On January 26, 2021, the Federation of State Medical Boards (FSMB) and the National Board of Medical Examiners (NBME) announced the United States Medical Licensing Exam (USMLE) Step 2 Clinical Skills (CS) would be discontinued.1 This decision marked a significant milestone in the assessment of clinical skills in the United States and one that has historical as well as practical significance for medical students, educators, researchers, and others. The decision to suspend the licensing performance examination was not without controversy, and although a detailed exploration of these issues is beyond the scope of this commentary, we believe the historical context of this significant decision warrants a closer look. After all, Confucius reminds us to “study the past, if you would define the future,” and several key lessons from history may better inform our path forward in this new era of clinical performance assessment.
USMLE에는 3단계로 이뤄져있고, 최근까지 의사 면허를 얻기까지는 4가지 시험을 통과해야 했다. 이 시험들은 "건강과 질병에 중요하고 안전하고 효과적인 환자 진료의 기초를 이루는 지식, 개념 및 원칙을 적용하고 환자 중심의 기본적인 기술을 보여줄 수 있는 의사 역량 평가"를 목적으로 한다. 면허 취득을 위한 각 단계는 의사 교육에서 개발적으로 적절한 시기에 완료되며, 일반적으로 2단계(CK와 CS로 구성)는 의과대학 교육 3학년이 끝날 때 완료됩니다. 수십 년 동안 임상 성과 평가에 깊이 관여해온 의료 교육자로서, 우리는 포괄적이고 공정하며 학생 중심적이며 환자 중심의 임상 성과 평가를 위한 새로운 시대와 경로를 고려할 때 몇 가지 역사적 이정표와 교훈을 공유합니다.
The USMLE includes 3 steps and, until recently, 4 examinations toward medical licensure. It is intended to assess a physician's ability to “apply knowledge, concepts, and principles, and to demonstrate fundamental patient-centered skills, that are important in health and disease and that constitute the basis of safe and effective patient care.”2 Each Step toward licensure is completed at a developmentally appropriate time in a physician’s training, and Step 2—parts CK (Clinical Knowledge) and the former CS—is typically completed at the end of the third year of medical school training. As medical educators who have been deeply engaged in clinical performance assessment for decades, we share several historic milestones and lessons as we consider a new era and the path forward for comprehensive, equitable, student-focused, and patient-centered clinical performance assessment.
1960년대 ~ 1970년대: 기원시대 1960s–1970s: Era of Origination
현대의 수행 평가는 1963년 서던 캘리포니아 대학의 신경과 의사이자 교육자인 하워드 바로우 박사가 병상에서 직원들에게 임상 기술을 가르치면서 고군분투했던 때로 거슬러 올라간다. 이를 해결하기 위해 그는 환자처럼 행동하고 수많은 신체적 징후와 증상, 영향을 제시하는 사람을 모집하고 훈련시켰으며, 의대생들은 개별적으로 이 '프로그램된' 환자에 대한 이력 및 신체검사를 실시했다. 결국 표준화된 환자(SP)라고 불리는 것이 탄생했다. Barrows 박사는 "그렇지 않았다면 결코 찾을 수 없었을 학생들에 대한 것들을 배우고 있었다"고 학생들과 함께 SP를 사용한 경험에 대해 평했다. 처음에는 조롱과 웃음거리가 되었던 이 선구적인 작품(SP)은 북미 전역에 임상기술 교수와 평가의 새로운 시대를 열었고, 인간 시뮬레이션을 바탕으로 한 더 많은 포맷의 기반을 닦았다. SP 혁신은 유연성, 표준화, 안전성 등의 이점을 갖춘 의학 교육에서 가장 보편적인 교육 방법론 중 하나로 성장할 것입니다.
The modern-day performance assessment dates back to 1963 when Dr. Howard Barrows, a neurologist and educator at the University of Southern California, struggled while teaching his clerks clinical skills at the bedside. To solve this challenge, he recruited and trained a person to act like a patient and present numerous physical signs, symptoms, and affect while his medical students individually conducted a history and physical examination of this “programmed” patient. What would eventually be termed the standardized patient (SP) was born. “[I was] learning things about those students I would have never found otherwise,” Dr. Barrows commented about his experiences using SPs with students.3 This pioneering work, which was originally met with ridicule and laughter, launched a new era of clinical skills teaching and assessment across North America and paved the way for more formats based on human simulation. The SP innovation would grow to become one of the most pervasive teaching methodologies in medical education with benefits including flexibility, standardization, and safety.
1980~1990년대: 심리측정의 시대 1980s–1990s: Era of Psychometrics
그 후 20년 동안 [교육 프로그램을 지원하기 위해 개발되고 있는 SP 프로그램의 수가 증가하면서] [의과대학 전반의 임상기술 수행평가]에서 적응과 발전이 이뤄졌다. 객관적 구조화 임상시험, 임상능력 평가 등을 포함한 형성적, 총괄적 성과 평가의 다양한 모델이 개발되었습니다. 이러한 시기적절한 검사는 의대생이 여러 SP와 상호 작용하면서 교수진 및 종종 훈련된 SP 자신으로부터 병력 청취, 신체 검사, 환자 교육, 커뮤니케이션, 임상 추론 등 다양한 임상 기술을 수행할 수 있는 능력에 대해 상세한 구술 및 서면 피드백을 받아야 했습니다. The 2 decades that followed resulted in adaptations and advances in the performance assessment of clinical skills across medical schools with a growing number of SP programs being developed to support the educational program. Various models of formative and summative performance assessment were developed, including objective structured clinical exams, clinical skills assessments, and more. These timed examinations required medical students to interact with multiple SPs while receiving detailed oral and written feedback from faculty, and often the trained SPs themselves, on their ability to perform a variety of clinical skills, such as history taking, physical examination, patient education, communication, and clinical reasoning. 1980년대 후반, Josiah Macy Jr 재단의 지원과 AAMC의 승인을 받아, ECFMG(Educational Commission for Foreign Medical Greaders)와 NBME Southern Illinois University School of Medical School은 미국 전역의 의과대학에서 SP 기반 검사의 채택을 촉진하기 위한 [공동 보급 프로젝트]를 수행했다. 1992년 AAMC는 임상기술 교수 및 평가에서 [표준화 환자 활용에 관한 컨센서스 컨퍼런스]를 개최하였고, [SP 기반 교수 및 평가]를 진전시키기 위해 AAMC의 교육 문제에 관한 동호단체affinity group의 특별 이익 집단special interest group을 구성하였다 (나중에 국제 표준화 환자 교육자 협회(International Association of Standardized Patient Educators)가 됨). 이러한 복잡한 표준 평가 방법의 심리학적 특성은 교육 연구자들의 중심 초점이 되었다. 1980년에서 2000년 사이에 13,000개 이상의 출판물을 만들어냈으며, 1990년대에는 Lisa D. Howley 의 박사 논문을 포함하여 87%가 출판되었다.
In the late 1980s, with the support of the Josiah Macy Jr. Foundation and endorsement by the AAMC, the Educational Commission on Foreign Medical Graduates (ECFMG), and the NBME, Southern Illinois University School of Medicine undertook a collaborative dissemination project to stimulate the adoption of SP-based examinations across medical schools throughout the United States. In 1992, the AAMC hosted the Consensus Conference on the Use of Standardized Patients in the Teaching and Evaluation of Clinical Skills, and a special interest group of the AAMC’s affinity group on educational affairs was formed to advance SP-based teaching and assessment (later becoming the independent international Association of Standardized Patient Educators). The psychometric properties of these complex standard assessment methods became a central focus of educational researchers and resulted in over 13,000 publications between 1980 and 2000, with 87% of those in the 1990s, including L.D.H.’s doctoral dissertation.5
이 기간 [국제연수 의과대학 졸업생의 미국 레지던트과정이나 펠로우십 프로그램 진학 준비성 평가]를 담당했던 ECFMG는 국제졸업생의 임상능력을 효과적으로 평가하기 위해 고군분투했다. 1998년, 성과 평가를 위한 SP의 사용에 대한 많은 교훈과 상당한 연구를 바탕으로, ECFMG는 영어로 환자 및 보건 전문가와 대화할 수 있는 졸업생의 능력을 평가하기 위한 [대규모 임상 기술 평가]를 성공적으로 시작했습니다. 업계 최초의 국가 임상 성과 검사가 수립되었다.
During this time, the ECFMG, which was responsible for assessing the readiness of internationally trained medical graduates to enter U.S. residency or fellowship programs, struggled to effectively assess the clinical skills of international graduates. In 1998, building from the many lessons and considerable research on the use of SPs for performance assessment, the ECFMG successfully launched a large-scale clinical skills assessment, intended to assess a graduate’s ability to communicate with patients and health professionals in English. The first national clinical performance examination in the profession was established.
2000년대 초반: 라이선스 시대 Early 2000s: Era of Licensure
[(그 당시까지의) [의사면허시험]은 모두 단일 형식의 객관식 문항으로 지식만을 테스트]하는 반면, [국제 졸업생(IMG)들은 미국 국내 졸업생들보다 광범위한 임상 성과 평가를 통과해야 한다]는 우려 때문에 FSMB와 NBME는 2004년에 USMLE 2단계 CS 시험을 테스트하고 시행했습니다. 이 새로운 자격증 시험은 학생들의 병력청취, 신체진찰수행, 결과 전달 능력을 평가했습니다. ECFMG 임상 기술 평가는 새로운 USMLE 2단계로 대체되었으며, 처음으로 [국제 졸업생]과 [미국에서 훈련된 의대생]이 모두 임상 기술 성과 평가를 완료하게 되었다. Due in part to concerns that all medical licensing examinations tested knowledge with a single format of multiple-choice questions and that international graduates were required to pass a broader assessment of clinical performance than U.S. graduates, the FSMB and the NBME tested and launched the USMLE Step 2 CS exam in 2004. This new licensing exam assessed students’ abilities to take a history, perform a physical exam, and communicate findings. The ECFMG clinical skills assessment was replaced by the new USMLE Step 2, and for the first time, all international graduates and U.S.-trained medical students would complete a clinical skills performance assessment.
현대 2단계 CS 시험은 이력 기록, 신체 검사, 기록 환자 메모의 3가지 요소로 구성되었습니다. 각 검사자는 12명의 표준화된 환자를 접하게 되었고, 각 환자의 기록을 15분 동안 기록하고, 필요한 경우 집중적인 신체 검사를 수행해야 했습니다. 각각의 encounter 후에 응시자들은 10분 동안 추가로 자신의 발견 내용과 계획에 대한 환자 메모를 작성하게 되었습니다.6
The modern Step 2 CS exam consisted of 3 components: history taking, physical examination, and a written patient note. Each examinee was required to encounter 12 standardized patients and had 15 minutes to take each patient’s history and, if relevant, perform a focused physical exam. Following each encounter, the examinees had 10 additional minutes to write a patient note about their findings and plan.6
미국에서 의사면허시험에 이와같은 평가 모델의 확대과정이 논란이 없이 나온 것이 아니다.
12시간 동안 진행된 2단계 CS 검사는 미국 내 6개 테스트 센터 중 1곳에서 완료해야 했으며 의대생들이 완료하는 데 (시험을 보기 위한 이동 및 숙박 비용 외에도)약 1,500달러가 소요되었습니다. 이는 다른 USMLE 자격증 시험보다 약 60% 더 높은 수치였습니다.
합격-불합격 검사는 약 95%의 높은 합격률을 기록했으며 학생들에게 임상 기술에 대한 구체적인 성과 피드백을 제공하지 않았습니다.
또한 사이트 전반에서 표준화의 필요성이 증가하고 SP 평가자에 대한 의존도가 높아짐에 따라 임상 encounter가 체크리스트와 환자 노트를 통해 문서화된 개별 관찰 가능한 행동으로 축소되었다.
검사에 포함된 만남 또는 스테이션은 [단일 환자]의 [초기 방문]으로 제한되었고 임상 결정에 informing하는 다양한 자원에 대한 접근은 제한되었다.
This expanded assessment model for medical licensure in the United States did not come without controversy.
The 12-hour Step 2 CS examination had to be completed at 1 of 6 testing centers in the United States and cost medical students approximately $1500 to complete (in addition to the expenses associated with travel and time away from their training program), which was approximately 60% higher than the other USMLE licensing exams.
The pass–fail examination had a high pass rate of approximately 95% and did not provide specific performance feedback to students about their clinical skills.
In addition, due to the increased need for standardization across sites and its reliance on SP raters, the clinical encounter was reduced to discrete observable behaviors documented via a checklist and a patient note.
The encounters or stations included in the examination were limited to initial visits with single patients, and access to resources for informing clinical decisions was limited.
이에 대응하여, 임상 능력 평가를 위한 새로운 모델을 설계하고 연구하던 많은 지역 SP 프로그램들은 2단계 CS 모델에 보다 긴밀하게 맞추기 위해 접근 방식을 변경하였습니다.
In response, many local SP programs that had been designing and researching new models for clinical skills assessment changed their approach to more closely align with the Step 2 CS model.
이 새로운 자격증 시험은 또한 [지역local SP 기반 임상 성과 평가]의 개발을 증가시켰으며, 이는 부분적으로 2단계 CS를 위한 학생들을 준비시키기 위한 것이었다. 이러한 [지역적 방법]들은 그것들을 개발한 학교의 더 큰 평가 시스템의 일부가 되었다. 비록 이 짧은 논평의 범위를 벗어나지만, 교육 프로그램의 설계, 구현 및 평가와 학습자의 평가에 대한 결과 기반 접근 방식인 역량 기반 의료 교육(CBME)을 향한 광범위한 움직임도 언급하지 않을 수 없다. 의과대학은 CBME 접근방식을 채택하기 시작하면서 평가 시스템을 더욱 빈번한 준거-기반, 형성적, 직무현장-기반 방법을 포함하도록 확장했다. 또한, 이러한 변화는 훈련생에 대한 판단을 내리는 그룹 과정group process의 가치를 강조했습니다. CBME의 맥락 속에서는, 오로지 의대생들의 임상능력을 보다 [빈번하고 효과적으로 평가해야 할 필요성]이 높아질 뿐이었다.
This new licensure exam also resulted in the increased development of local SP-based clinical performance assessments, which were intended, in part, to prepare students for Step 2 CS. These local methods became part of the larger assessment system of the school that developed them. Although beyond the scope of this brief commentary, we would be remiss not to mention the broader movement toward competency-based medical education (CBME), which is an outcomes-based approach to the design, implementation, and evaluation of educational programs and the assessment of learners. As medical schools began to adopt a CBME approach, they also broadened their assessment systems to include more frequent criterion-based, formative, and workplace-based methods. Additionally, this shift underlined the value of group process in making judgments about trainees. The need to more frequently and effectively assess medical students’ clinical skills was only heightened within the context of CBME.
2020년대 이후: 창의적 협업의 시대 2020s and Beyond: Era of Creative Collaboration
2020년 5월, COVID-19 대유행으로 인해 FSMB와 NBME는 언젠가는 다시 시작할 것을 염두에 두고 2단계 CS를 12개월에서 18개월 동안 (일시) 중단했다. 그들은 "기존의 방식보다 눈에 띄게 더 나은 2단계 CS 시험을 다시 시작할 것"이라고 설명했지만, 2021년 1월에 그들은 Step 2를 (영구히) 중단할 것이라고 발표하며, "의학교육 및 주 의료 위원회에서 종사하는 동료들과 함께 작업하여 [임상기술을 평가하는 혁신적인 방법]을 결정하는 데 집중"할 수 있는 기회를 가질 것이라고 발표했다. 미래를 정의하기 시작하면서 임상 성과 평가의 역사와 진화에 대한 몇 가지 교훈을 제안합니다. In May 2020, due to the COVID-19 pandemic, the FSMB and the NBME suspended Step 2 CS for 12 to 18 months with the intent of reinstating. They explained they would bring back “a modified Step 2 CS exam that was appreciably better than the prior assessment,” but in January 2021, they announced their decision to discontinue the Step and to take the opportunity to “focus on working with our colleagues in medical education and at the state medical boards to determine innovative ways to assess clinical skills.”1As we begin to define the future, we propose several lessons from the history and evolution of clinical performance assessment.
첫째, 우리가 역사를 통해 해왔던 것처럼 의학교육계는 임상 능력 평가 방법을 지속적으로 혁신하고 협력하며 개선해야 합니다. SP 기반 모달리티는 환자 중심 평가를 위한 강력한 방법인 동시에 학습자와 환자를 위험으로부터 보호합니다. 우리는 [다양한 환자, 가족, 팀 및 다양한 설정을 대표하는 임상 만남]을 [시뮬레이션]하는 [성과 기반의 형성적 및 종단적 방법]을 제공하기 위해 노력해야 한다. 2단계 CS의 중단으로 [의과대학의 창의성과 혁신성이 향상]되어 다양한 환자 및 팀과 소통하고 공정하고 안전한 직접적 및 가상적 관리를 제공하는 등 학생들의 복잡한 임상 기술을 측정하는 평가를 모색할 수 있을 것이다. 또한, 이러한 방법들은 [직장 기반 방법의 사용을 증가]시키는 것을 포함하여 [학교의 광범위한 평가 시스템과 맥락을 같이] 하여 검토되어야 한다. [서로 다른 설정]에 걸쳐 그리고 [수많은 평가자]에 의해 이루어진 [여러 평가 형식]은 학생들의 역량에 대한 [종단적] 평가에 더 많은 정보를 제공할 것입니다. First, as we have done throughout history, the medical education community should continue to innovate, collaborate, and improve upon our methods of clinical skills assessment. SP-based modalities remain a powerful method for patient-centered assessment while also protecting our learners and patients from harm. We should work to provide performance-based formative and longitudinal methods that simulate clinical encounters that are representative of diverse patients, family members, teams, and varied settings. The discontinuation of Step 2 CS may allow for greater creativity and innovation at medical schools to explore assessments that measure the complex clinical skills of its students, including communicating with diverse patients and teams and providing in-person and virtual care that is equitable and safe. Furthermore, these methods should also be considered in context with the school’s broader assessment system, including the increasing use of workplace-based methods. Multiple assessment formats, across different settings and by numerous assessors, will better inform longitudinal evaluation of students’ competence.
둘째, 의학 교육자는 평가를 위해 보다 복잡하고 학생 중심적인 접근법으로 계속 전환해야 합니다. 우리는 [학생 주도student-driven 평가]를 [구조화되지 않은 환경을 제공]하고, [자연적 조건에 대해 현실적]이며, [학생들에게 선택 사항 목록을 제한하거나 특정 추론 경로를 따르도록 강요하지 않는 것]으로 정의한다.7 임상 기술의 복잡성을 [순수하게 분리된 행동 체크리스트로 축소]해서는 안 된다. 대신 우리는 학생들이 임상적 추론을 개발하고, 결정을 내리고, 오류를 범하고, 역량을 개발하는 방법에 대한 우리의 증가하는 이해를 평가 방법에 통합해야 합니다. 우리는 Dyad(학생-SP 쌍)에 대한 과도한 의존에서 벗어나서, 예를 들어, [다수 사람의 시뮬레이션multiple-person simulation]으로 나아가야 한다. 또한 지금과 같은 체크리스트 기반의 측정방법을 [고급 인지 능력]을 평가할 수 있는 것으로 바꿔나가야 한다. 궁극적으로, 이러한 [덜 환원주의적 접근법]은 임상 역량에 대한 보다 인지적으로 발전된 측정으로 이어질 수 있다. Second, medical educators should continue to shift to more complex and student-driven approaches for assessment. We define student-driven assessments as those that provide an unstructured environment, are realistic with respect to the natural conditions, and do not limit students to lists of options or force them to take a certain path of reasoning.7The complexity of clinical skills should not be reduced to a purely discrete checklist of behaviors. We should instead integrate into our assessment methods our growing understanding of how students develop clinical reasoning, make decisions, make errors, and develop competency. We should shift from overreliance on dyad (student–SP) encounters, for example, to multiple-person simulations and modify the method of measurement from checklists to measures more capable of assessing advanced cognitive skills. Ultimately, these less reductionist approaches may lead to more cognitively advanced measures of clinical competence.
셋째, 의학 교육자는 계속해서 평가의 역할에 대해 재고하고, 부담stake의 정도나 평가의 유형에 관계없이 [모든 평가]가 학생들이 강점과 약점을 식별할 수 있는 [충분한 피드백을 제공하도록 해야] 합니다. 또한, 우리는 우리의 방법이 [공정]하고, 모든 학생들이 [접근]할 수 있으며, [편견이 없도록] 노력해야 합니다. 다시 말해, 우리는 [학습에 대한 평가]에서 [학습을 위한 평가]와 [형평성을 위한 평가]로 계속 전환해야 합니다. 마찬가지로, 가상 및 직접 검사를 위한 [다중 기관 및 지역 협업]을 포함하여, SP 기반 평가를 설계하고 관리할 때 효율성을 높이기 위해 노력해야 합니다. 의대, 협력기관, 인허가기관 등 의학교육계는 [임상기술이 적절하고 공정하며 균일하게 평가될 수 있도록] 해야 할 [공공public에 대한 의무]를 공유하고 있다. 임상 술기 평가는 국지적으로 계속 확장되어야 하며, 국가 의사면허 취득으로 가는 경로pathway 내에 있어야 한다. 궁극적으로 평가가 지역적이든, 국가적이든, 공동 설계 및 관리이든 간에, 우리의 광범위한 공동체는 협력적으로 일하고, 공유된 과거로부터 교훈을 얻으며, 임상 기술 평가의 새로운 미래를 설계해야 한다. Third, medical educators should continue to rethink the role of assessment and ensure that all assessments, regardless of stakes or type, provide sufficient feedback for the student to identify areas of strength and weakness. In addition, we should work to ensure that our methods are equitable, accessible for all students, and free of bias. In other words, we should continue to shift from the assessment of learning toward the assessment for learning and equity. Similarly, we should work toward identifying greater efficiencies when designing and administering SP-based assessments, including multi-institutional and regional collaborations for virtual and in-person examinations. The medicaleducation community, including medical schools, their affiliates, and licensing and accrediting bodies, have a shared obligation to the public to ensure clinical skills are appropriately, fairly, and uniformly assessed. Clinical skills assessment should continue to expand locally and should remain within the national licensing pathway. Ultimately whether the assessment is locally, nationally, or jointly designed and administered, our broad community should work collaboratively, take lessons from our shared past, and design our new future of clinical skills assessment.
지난 한 해는 COVID-19가 의료 교육의 거의 모든 관행에 지장을 주면서 변혁을 가져왔다. 미국 국가 면허 검사의 실질적인 변화는 의과대학 내부와 대학 전반에서 우리 학생들의 임상 능력을 평가하는 방법과 무엇을 발전시킬 수 있는 기회를 포함하여 많은 파급 효과를 가져올 것입니다. 미래가 어떻게 될지 알 수는 없지만 창의성과 협업을 강화함으로써 포괄적이고 공정하며 학생 중심적이고 환자 중심적인 임상 능력 평가를 포함하는 미래를 정의하게 될 것으로 전망합니다.
The past year has been transformative as COVID-19 has disrupted nearly all practices in medical education. Substantial changes to the U.S. national licensing examination will have many ripple effects, including opportunities for advancing what and how we assess the clinical skills of our students within and across our medical schools. Although we cannot know what the future will hold, we predict that through greater creativity and collaboration, we will have defined a future that includes comprehensive, equitable, student-focused, and patient-centered assessment of clinical skills.
Acad Med. 2021 Jun 22.
doi: 10.1097/ACM.0000000000004217.Online ahead of print.
Discontinuation of the USMLE Step 2 Clinical Skills Examination: Studying the Past to Define the Future
1L.D. Howley is senior director of strategic initiatives and partnership, Association of American Medical Colleges, Washington, DC, and adjunct associate professor, University of North Carolina School of Medicine, Chapel Hill, North Carolina. D.L. Engle is assistant dean of assessment and evaluation and associate professor, Duke University School of Medicine, Durham, North Carolina.
The United States Medical Licensing Examination (USMLE) Step 2 Clinical Skills (CS) was discontinued in January 2021, marking a significant milestone in assessment of clinical skills. In this commentary, the authors trace the history of the Step 2 CS exam-beginning with its early roots in the 1960s, to its establishment as a performance-based licensing exam in 2004, to 2021. In this new era, the medical education community is replete with opportunities for advancing methodology and content associated with clinical skills assessment. The authors propose 3 main lessons gleaned from this rich history and modern evolution, which are aimed at defining a future that includes creative collaboration toward development of comprehensive, equitable, student-focused, and patient-centered clinical performance assessment. First, as it has done throughout history, the medical education community should continue to innovate, collaborate, and improve upon methods of clinical skills assessment. Second, medical educators should continue to shift to more complex and student-driven approaches of assessment, that is, assessments that provide an unstructured environment, are realistic with respect to the natural conditions, and do not limit students to lists of options or force them to take a certain path of reasoning. Third, medical educators should continue to rethink the role of assessment and ensure that all assessments, regardless of stakes or type, provide sufficient feedback for the student to identify areas of strength and weakness.
USMLE에서 임상술기평가의 진화: Step 2 CS 중단 이후를 바라보다 (Acad Med, 2021) Evolution of Clinical Skills Assessment in the USMLE: Looking to the Future After Step 2 CS Discontinuation Peter J. Katsufrakis, MD, MBA, and Humayun J. Chaudhry, DO, MS
2021년 1월 26일, NBME와 주 의료 위원회 연맹은 미국 의료 면허 검사(USMLE) 프로그램이 2단계 임상 기술(CS) 검사를 [수정하여 재개시하는 작업을 중단]했다고 발표했다.1 이 결정은 2020년 3월에 발표된 2단계 CS의 최초 일시적 중단에 이어, SARS-CoV-2(COVID-19를 유발하는 바이러스)의 감염이 미국 전역으로 확산되기 시작했고, 이후 2020년 5월에 12-18개월간 중단이 연장되었다. 사건이 전개되고 COVID-19 대유행으로 미국 전역에서 감염, 입원, 사망자가 급증함에 따라, 바이러스 전염의 위험을 상당히 줄인 버전의 2단계 CS를 재개할 계획이 영구적 중단으로 바뀌었다. 이러한 계획 변경에는 USMLE 프로그램의 내부 및 외부 요소에 대한 세심한 검토가 수반되었습니다. 그러나 이 결정은 면허 시험에서 임상 능력 평가의 중요성을 축소minimize하기 위한 것은 아니다. USMLE 프로그램 내에서 그리고 의료 교육 및 훈련 기간 내내 임상 기술을 평가하는 것은 매우 중요합니다. 이 논평에서 논의하겠지만, 우리의 목표는 USMLE에서 임상 기술 평가를 발전시킬 때 교육 및 임상 실무의 진화를 모두 반영하는 것입니다.
On January 26, 2021, the NBME and the Federation of State Medical Boards (FSMB) announced that the United States Medical Licensing Examination (USMLE) program had discontinued its work to modify and relaunch the Step 2 Clinical Skills (CS) examination.1This decision followed the initial, temporary cessation of Step 2 CS announced in March 2020, as infection with SARS-CoV-2 (the virus that causes COVID-19) began spreading throughout the United States, and the subsequent May 2020 extension of the suspension for 12–18 months. As events unfolded and the COVID-19 pandemic caused alarming surges of infections, hospitalizations, and deaths around the United States, our plans to resume a version of Step 2 CS that substantially reduced the risk of virus transmission evolved to a permanent discontinuation of the exam. This shift in plans involved a careful consideration of multiple factors intrinsic and external to the USMLE program. By no means, however, is this decision intended to minimize the importance of assessing clinical skills in the licensure exam. Evaluating clinical skills within the USMLE program and throughout the duration of medical education and training is critically important. As we will discuss in this commentary, our goals are to reflect evolution of both educational and clinical practice as we evolve clinical skills assessment in the USMLE.
USMLE 거버넌스 및 2단계 CS 결정 USMLE Governance and the Step 2 CS Decision
USMLE 프로그램의 공동 후원자로서 FSMB와 NBME는 [전체 시험 시퀀스의 프로그램 감독에 대한 궁극적인 책임]을 지고 있습니다. NBME와 ECMG(외국인의료졸업생을 위한 교육위원회)가 공동으로 2단계 CS 구성요소를 관리하였다. 시험 내용 결정, 합격점수 컷오프 및 관련 운영 문제와 같은 많은 USMLE 정책 결정은 의과대학 교수진, 주 의료 위원회 및 일반인으로 구성된 다양한 감독 위원회에 위임됩니다. 2단계 CS 중단 결정은 FSMB 및 NBME의 거버넌스 및 직원 리더십이 ECFMG의 거버넌스 및 직원 리더십과 협의하여 이루어졌다. As cosponsors of the USMLE program, the FSMB and NBME have ultimate responsibility for program oversight of the entire exam sequence. The NBME and Educational Commission for Foreign Medical Graduates (ECFMG) collaboratively administered the Step 2 CS component. Many USMLE policy decisions—such as determination of exam content, cutoffs for a passing score, and related operational matters—are delegated to various oversight committees comprising volunteers from medical school faculties, state medical boards, and the public. The decision to discontinue Step 2 CS was made by governance and staff leadership of the FSMB and NBME in consultation with governance and staff leadership of the ECFMG.
평가를 강화하기 위한 USMLE 프로그램의 지속적인 노력의 일환으로, 지난 몇 년간 연구는 [임상 능력 평가의 장기적인 전환]에 집중되어 왔습니다. 예를 들어, 2단계 CS에서 아바타나 멀티미디어를 활용한다거나, Step 2 CS에 대한 기타 개선사항이 포함되어 있으며, 이는 통해 [평가의 특성]과 [응시자 경험]을 개선하고자 했다. 팬데믹으로 인한 셧다운과 [수정된 시험을 시작하려는 움직임]은 예상하지 않았던 [추가 자원을 이 작업에 투입할 수 있는 기회]를 제공했습니다. 2단계 CS의 12~18개월 공백이 2020년 5월에 발표되었을 때, USMLE 프로그램은 단기 개정short term revision과 2020년 3월에 중단되었던 시험에 비해 [상당히 개선된 시험의 재개시]에 다시 초점을 맞췄다. 우리는 [테크놀로지를 활용]하며, 시험과 관련된 [COVID-19 위험을 줄이거나 제거]하고, [수험생 여행의 필요성을 줄이거나 제거]했으며, 2004년 Step 2 CS 시험이 처음 시행된 이후의 [의학교육의 변화를 반영]하는 변화의 조합을 구상했다. As part of the USMLE program’s continous efforts to enhance assessment, research over the past several years has been focused on longer-term transformation of clinical skills assessment—by using avatars, multimedia, and other enhancements in Step 2 CS to improve not only the nature of the assessment but also the experience of the examinee. The pandemic shutdown and the drive to launch a revised exam provided an unforeseen opportunity to commit additional resources to this work. When the 12–18-month hiatus of Step 2 CS was announced in May 2020, the USMLE program refocused on shorter-term revisions and relaunching an exam that was appreciably enhanced compared with the exam that was suspended in March 2020. We envisioned some combination of changes that harnessed technology, reduced or eliminated exam-associated COVID-19 risk, reduced or eliminated the need for examinee travel, and reflected changes in medical education arising since the exam was first launched in 2004.
2020년의 나머지 기간 동안 USMLE 직원들은 의과대학 및 레지던시 프로그램 설정에서 일하는 교육자들과 협력하고, 이해관계자 그룹의 의견을 구했으며, 2단계 CS 재출시가 가능하도록 다양한 기술 솔루션을 탐색했습니다. 좋은 진전이 있었지만, FSMB와 NBME는 2021년 1월에 목표 기간 내에 적절히 강화된 시험을 재개하는 것이 가능하지 않다고 공동으로 결정했다. During the rest of 2020, USMLE staff worked to analyze current elements of medical practice, engaged with educators working in medical school and residency program settings, solicited input from stakeholder groups, and explored various technology solutions to enable relaunch of Step 2 CS. While good progress had been made, the FSMB and NBME jointly determined in January 2021 that it was not feasible to relaunch an exam that was appropriately enhanced within our targeted timeframe.
2단계 CS 의사결정에 기여하는 요인 Factors Contributing to the Step 2 CS Decision
이렇게 결정된 요인은 어느 하나로 설명할 수 없다. 2단계 CS를 중단하기로 한 결정에는
USMLE 프로그램 목표에 대한 전체적인 검토,
시험 재개시를 향한 발전과정progress
다양한 이해관계자로부터 수집된 의견,
교육 및 실습 환경의 분석이 포함되었습니다.
No single factor led to this determination. The decision to discontinue Step 2 CS involved
a holistic review of USMLE program goals,
progress made toward relaunching the exam,
input collected from varied stakeholders, and
analysis of the education and practice environments.
우리는 아래에 몇 가지 중요한 고려사항들을 간략히 요약합니다. We briefly summarize, below, some of the salient considerations.
모든 연령대와 인구 통계에 걸친 위험과 함께 전 세계로 빠르게 확산된 COVID-19는 2단계 CS에 대한 우리의 계획을 크게 변화시켰습니다. Step 2 CS는 그 설계상 수험생과 시험 직원, 특히 표준화된 환자 역할을 하는 직원 간의 긴밀한 신체적 근접과 신체적 접촉을 요구했습니다. 표준화된 환자 및 기타 직원의 안전과 복지가 그러하듯이, 전염병의 불확실성으로 인한 스트레스와 불안 등 [수험생의 안전과 건강]이 가장 큰 관심사였다. 우리는 처음에 검사와 관련된 잠재적인 COVID-19 위험을 줄이거나 제거하기 위해 응시자 및 직원이 다른 사람과 접촉할 필요가 없는 [가상 원격 건강 플랫폼을 시뮬레이션]하는 방식으로 시험을 수정하려고 했습니다. 우리는 또한 수험생의 [여행 관련 비용을 줄이거나 제거]할 수 있는 원격 관리 모델을 개발하기 위해 노력했습니다. 이렇게 시험 설계를 바꾸게 된다면 [정보 수집, 상호작용 방식, 환자 및 동료와의 결과 전달]과 관련된 [비인지 영역]에 대한 평가를 유지하지만, [신체 검사 기술]에 대한 평가를 갖추지는 못할 것이다. The rapid spread of COVID-19 throughout the world, with risks across all age groups and demographics, dramatically changed our plans for Step 2 CS. The exam by design required close physical proximity and physical contact between examinees and exam staff, especially staff acting as standardized patients. The safety and health of examinees, including stress and anxiety caused by the uncertainty of the pandemic, were of paramount concern, as were the safety and welfare of standardized patients and other staff. We initially sought to modify the exam to simulate a virtual telehealth platform where neither examinees nor staff would need to come into contact with others, in order to reduce or eliminate potential COVID-19 risks associated with the exam. We also strove to develop a model for remote administration that could reduce or eliminate the travel-associated costs for examinees. These exam design characteristics would have retained assessment of noncognitive domains involving information gathering, manner of interaction, and communicating findings to patients and colleagues, but not assessment of physical examination skills. [원격 시험]의 이점benefit에 대해서 균형을 잡을 때 고려해야 했던 것은, [기술, 보안, 형평성 및 시험 로지스틱스]와 관련된 과제뿐 아니라 [버추얼 수행능력 평가]에서는 [신체 검사 능력 평가]가 명백히 제한된다는 점이었습니다. 우리는 [원격 시험]을 시도하는 다른 규제 기관이 겪었던 어려운 경험과 의과대학에서의 학교 기반 시험 원격 검사의 성공적 론칭으로부터 많은 것을 배울 수 있었지만, 이러한 경험이 [USMLE 프로그램의 요구에 부합]할 정도로까지 대규모 국가 면허 시험으로 [충분히 일반화되지 않았다]는 것을 알게 되었다. 결국 충분한 가치를 제공하는 원격 관리 솔루션을 확보하지 못했습니다. Balanced against the benefits of a remotely administered exam were the challenges associated with technology, security, equity, and exam logistics, as well as the obvious limitations to assessing physical examination skills via a virtual performance assessment. While we had the benefit of learning from the cautionary experiences of other regulatory organizations attempting remote exam administration and from the successful NBME launch of school-based remote proctoring of exams in medical schools, we found that these experiences did not adequately generalize to a large-scale national licensing exam specific to the USMLE program’s needs. Ultimately, we did not identify a remote administration solution that would provide sufficient value.
또한 2004년 2단계 CS가 시행된 이후부터 기존의 지식과 내용 영역을 뛰어넘는 기술을 시험 응시자들에게 보여주도록 함으로써 면허 도구로서의 상당한 발전을 대변하는 [의미 있는 의학교육의 발전]이 이루어졌다. 이 발전에는
미국 MD-granting 및 DO-granting 의과대학의 객관적 구조 임상 검사(OSCE) 연구소의 설립과
의학교육의 연속체를 따라 학습자의 진척도를 평가하는 역량 프레임워크의 채택도 포함된다 (EPA, ACGME/ABMS의 core competencies, GME의 마일스톤 등)
In addition, meaningful advances in medical education have occurred since Step 2 CS was launched in 2004, when it represented a significant advance as a licensing tool by requiring examinees to demonstrate skills beyond traditional knowledge and content areas. These developments include
the establishment of objective structured clinical examination (OSCE) labs at U.S. MD-granting and DO-granting medical schools and
the adoption of a competency framework—including entrustable professional activities, Accreditation Council for Graduate Medical Education (ACGME)/American Board of Medical Specialties core competencies, and graduate medical education (GME) milestones—to assess learners’ progress along the continuum of medical education.2
그러나 [국가 표준]에 대한 [독립적인 제3자 검증 및 지원]은 여전히 미국의 강력한 의료 면허 시스템의 초석으로 남아 있다. [주 의료 위원회]는 [USMLE 프로그램]에 의존하며, 주 의료 위원회State Medical Board의 라이센스 결정은 다음을 포함하는 교육 및 훈련 시스템에 의해 결정된다.
[학부 의학 교육(UME) 프로그램]의 성공적인 완료.
[GME 프로그램]의 일부 또는 전체 완료.
UME 및 GME 프로그램에 대한 독립적이고 별도의 [인증].
국제 의대 졸업자의 경우 [ECFMG에 의한 의사 지원자의 자격 증명]
Independent, third-party verification and support for a national standard, however, remain cornerstones of a robust system of medical licensure in the United States. State medical boards rely on the USMLE program,3 and their licensing decisions are predicated on an education and training system that includes
successful completion of a program of undergraduate medical education (UME);
completion of some or all of a program of GME;
independent and separate accreditation of UME and GME programs; and,
for international medical graduates, certification of physician applicants’ qualifications by the ECFMG.
이러한 [강력한 평가, 인증 및 규제 시스템]의 맥락에서 USMLE 리더십은 수정된 2단계 CS의 재출시에 따른 점진적인incremental 부가 가치를 평가했습니다. In the context of this robust system of assessment, certification, and regulation, the USMLE leadership weighed the incremental additional value of relaunching a modified Step 2 CS.
[미국 의과대학의 임상 기술 훈련과 평가 프로그램의 성장]은 (그 prevalence와 sophistication 모두) 틀림없이 새로 들어온 의사들이 레지던트 교육에 들어갈 준비를 개선시켰다. 2단계 CS 도입 이후 임상술기 훈련과 평가 시스템이 진화하면서, 실제 의료행위(practice of medicine)는 시험의 모습을 반영하지 않는 방향으로 발전했다. [온라인 자료의 참고, 인공지능 의사 결정 보조 도구 활용, 기타 테크놀로지-기반 도구와 같은 자원]은 의학의 practice과 진료 전달 방식을 변화시켰다. [텔레헬스]는 COVID-19 대유행 이전에 수용도와 활용도가 증가하고 있었지만, 2020년에는 의사와 환자의 사용이 급격하게 증가했습니다. [2단계 CS 시험을 전염병에 맞게 수정하여 재개하는 작업]에 요구되는 중요한 인력 자원을, 그 대신 [더 혁신적인 방식으로 임상 술기 평가를 발전시키는 데 투입될 수 있다]는 데 동의했습니다.
The growth in U.S. medical schools’ clinical skills training and assessment programs, both in prevalence and sophistication, has arguably improved the preparation of newly minted physicians entering residency training. As the systems for training and assessing clinical skills have evolved since the launch of Step 2 CS,4 the practice of medicine has also evolved in ways not reflected in the exam. Resources such as online reference materials, artificial intelligence decision aids, and other technology-enabled tools have changed how medicine is practiced and care is delivered. While telehealth was growing in acceptance and utilization prior to the COVID-19 pandemic, the year 2020 saw a dramatic increase in its use by physicians and patients. The significant staff resources required to relaunch a Step 2 CS exam modified for the pandemic, we agreed, could instead be devoted to advancing the assessment of clinical skills in a more transformative fashion.
미래를 내다보기 Looking to the Future
[주 의료 위원회]는 [의사가 안전하고 효과적인 환자 관리를 제공하도록 보장]하기 위해 계속 노력하고 있습니다. USMLE 프로그램은 지속적으로 이 미션에 복무serve할 것이며, [알려진 요구사항]과 [새롭게 대두되는 요구사항]을 충족하는 평가를 지속적으로 이행할 것입니다. 우리는 의과대학 교수, 레지던트 프로그램 이사 및 교수진, 의대 학생, 수험생, 개업 의사 및 일반인 등 미래의 의사 교육과 훈련에 직접 및 간접적으로 관여하는 주 의료 위원회 구성원과 대표자를 포함한 주요 이해관계자들의 의견을 구하고 있습니다. 이해관계자의 가이드를 탐색seeking할 때, 어떻게 해야 의학교육/훈련/실무의 진화가 USMLE 평가에 가장 잘 반영될지를 파악하기 위한 노력을 한다. 또한 임상술기 평가에 대한 가장 큰 요구가 어디에 존재하는지 이해하려고 합니다. 우리가 수집한 정보는 후속 연구 및 개발의 우선순위를 정하는 데 도움이 될 것입니다. 또 다른 조사 라인은 의료 면허의 맥락에서 적용할 수 있는 임상 기술 평가의 혁신을 추구합니다. State medical boards remain committed to ensuring that physicians provide safe and effective patient care. The USMLE program will continue to serve that mission and deploy assessments that meet the known and emerging requirements of medical licensure. We are soliciting input from key stakeholders, including members and representatives of state medical boards and individuals involved directly and indirectly in the education and training of future physicians— medical school faculty, residency program directors and faculty, medical students, examinees, practitioners, and members of the public. In seeking stakeholder guidance, we are striving to identify how the evolution of medical education, training, and practice should best be reflected in USMLE assessments. One line of inquiry seeks to understand where the greatest needs for clinical skills assessment exist. The information we gather will help prioritize subsequent research and development. Another line of inquiry seeks innovations in clinical skills assessment that are applicable to the context of medical licensure.
이미 받은 피드백을 바탕으로 의료 실무practice에 특히 중요한 주제(예: 임상적 추론)와 주 의료 위원회에서 식별한 결함 영역(예: 커뮤니케이션)을 더 강조하는 방향으로 바꿀 수 있다.5 USMLE 검사의 임상스킬 평가의 초기 향상은 현재 형식을 강화하고 기존 검사 구조에 통합될 것입니다. (이해당사자의 투입을 통해 식별된) 수정이 필요한 내용은 3단계 시험 및/또는 3단계 시험의 컴퓨터 케이스 시뮬레이션에서 모두 객관식 문항에 반영될 수 있습니다. Based on the feedback we have already received, we are likely to increase emphasis on subjects particularly important to medical practice (e.g., clinical reasoning) and areas in which state medical boards identify deficiencies (e.g., communication).5The initial enhancements to clinical skills assessment in USMLE exams will augment current formats and integrate into the existing exam structure. To the extent possible, content revisions identified through stakeholder input may be reflected in multiple-choice questions in all three Step exams and/or computer case simulations in the Step 3 exam.
그러나 지속적인 연구를 통해 다음과 같은 내용을 포함하여 이러한 형식의 한계를 극복할 것이다.
오디오 및 비주얼 미디어의 발전,
환자 아바타,
자연어 처리,
인공지능,
평가와 관련된 다른 과학과 테크놀로지의 결합
이는 임상 스킬 평가의 한계를 확장시켜줄 것이며, 테크놀로지의 발전은 새로운 유형의 문항이 개발될 가능성이 높다.
Ongoing research, however, will seek to push beyond the limitations of these formats, incorporating
advances in audio and visual media,
patient avatars,
natural language processing,
artificial intelligence, and
other combinations of assessment science and technology
...that extend the frontiers of clinical skills assessment. It is likely that technological advances will result in the development of new item types.
위에서 설명한 프로세스(유망한 [테크놀로지 혁신]을 목표로 하는 [연구 및 개발]과 결합된 [다양한 이해관계자 의견])가 USMLE 프로그램에서 임상 스킬 평가를 위한 최적의 개발 경로를 만들 것이라고 믿는다. 우리가 아래의 것들을 이루고자 할 때, 다양한 [시험]과 [디자인 특성 사이]에 절충tradeoff이 있을 것은 거의 확실하다.
신체 검사 및 의사소통 기술을 평가한다.
감독되는 실무 및 감독되지 않은 후속 실무에 대한 진입 준비에 대한 결정을 알려줍니다.
임상적 추론을 평가한다.
현대 의료 관행을 반영한다.
형평성과 접근성을 보장한다.
수험생 경험을 최적화합니다.
We believe that the process outlined above—diverse stakeholder input combined with research and development that targets promising technological innovations—will create the optimal developmental path for clinical skills assessment in the USMLE program. There will almost certainly be tradeoffs among various exam and design characteristics as we strive to
assess physical examination and communication skills;
inform determinations of readiness for entry into supervised practice and subsequent unsupervised practice;
assess clinical reasoning;
reflect contemporary medical practice;
ensure equity and access; and
optimize the examinee experience.
2단계 CS를 중단하기로 결정하면서, 일부 학습자와 교육자가 [임상 스킬 평가가 더 이상 중요하게 여겨지지 않는다]처럼 잘못된 결론을 내릴 가능성이 있음을 알게 되었다. USMLE 프로그램은 임상 기술 평가에 전념하고 있습니다.
따라서 교육자와 관리자는 표준이 느슨해지지 않도록 해야하며, 임상 기술 훈련 및 평가에 투입되는 시간과 자원을 계속적으로 우선시해야 한다6.
교육 및 규제 시스템의 모든 당사자는 공공의 이익에 부합하는 의료 교육의 연속체에 걸쳐 지속적으로 독립적으로 협력적으로 일할 필요가 있다.
이와 별도로, 의학 교육자는 [USMLE 시험에 반영 여부와 상관없이], 의학을 수행하는 데 필요한 다양한 지식과 기술을 지속적으로 다뤄야 하며,
USMLE 프로그램은 수험자의 실무 준비 상태를 확인하는 기능을 지속적으로 수행해야 합니다.
In deciding to discontinue Step 2 CS, we recognized the potential for some learners and educators to wrongly conclude that clinical skills assessment is no longer being valued. The USMLE program remains committed to assessment of clinical skills.
As such, educators and administrators should resist relaxation of their standards6and continue to prioritize the time and resources devoted to clinical skills training and assessment.
All parties in the education and regulatory systems will need to continue to work independently and collaboratively across the continuum of medical education in the public interest.
Working independently, medical educators must continue to address the broad array of knowledge and skills necessary to practice medicine regardless of whether they are reflected in USMLE exams, and
the USMLE program must continue to serve its function of validating examinees’ readiness to practice.
USMLE Scoring에 대한 Invitational Conference의 최근 경험과 의사 책임 연합의 UME-GME 검토 위원회의 현재 작업을 통해 의료 교육, 평가 및 규정의 시스템 개선을 안내할 수 있는 여러 이해관계자 간의 효과적이고 조정된 협업을 위한 모델을 제공할 수 있기를 바랍니다. 우리의 단기 및 장기 계획은 특히 의사-환자 간 커뮤니케이션 영역에서 주 의료 위원회와 우리가 공동으로 봉사하는 일반인의 진화하는 요구를 충족시키기 위해 USMLE 프로그램의 모든 단계를 전환하면서 검사자의 임상 기술 평가를 강화하는 것입니다.
We are hopeful that our recent experience with the Invitational Conference on USMLE Scoring7 and the current work of the Coalition for Physician Accountability’s UME-GME Review Committee8 provide models for effective, coordinated collaboration among multiple stakeholders to guide systemic improvements to medical education, assessment, and regulation. Our short-term and long-range plans are to enhance the assessment of examinees’ clinical skills, particularly in the area of physician-patient communication, as we transform all Steps of the USMLE program to meet the evolving needs of state medical boards and the public we collectively serve.
Acad Med. 2021 Jun 22.
doi: 10.1097/ACM.0000000000004214.Online ahead of print.
Evolution of Clinical Skills Assessment in the USMLE: Looking to the Future After Step 2 CS Discontinuation
The COVID-19 pandemic interrupted administration of the United States Medical Licensing Examination (USMLE) Step 2 Clinical Skills (CS) exam in March 2020 due to public health concerns. As the scope and magnitude of the pandemic became clearer, the initial plans by the USMLE program's sponsoring organizations (NBME and Federation of State Medical Boards) to resume Step 2 CS in the short-term shifted to long-range plans to relaunch an exam that could harness technology and reduce infection risk. Insights about ongoing changes in undergraduate and graduate medical education and practice environments, coupled with challenges in delivering a transformed examination during a pandemic, led to the January 2021 decision to permanently discontinue Step 2 CS. Despite this, the USMLE program considers assessment of clinical skills to be critically important. The authors believe this decision will facilitate important advances in assessing clinical skills. Factors contributing to the decision included concerns about achieving desired goals within desired timeframes; a review of enhancements to clinical skills training and assessment that have occurred since the launch of Step 2 CS in 2004; an opportunity to address safety and health concerns, including those related to examinee stress and wellness during a pandemic; a review of advances in the education, training, practice, and delivery of medicine; and a commitment to pursuing innovative assessments of clinical skills. USMLE program staff continue to seek input from varied stakeholders to shape and prioritize technological and methodological enhancements to guide development of clinical skills assessment. The USMLE program's continued exploration of constructs and methods by which communication skills, clinical reasoning, and physical examination may be better assessed within the remaining components of the exam provides opportunities for examinees, educators, regulators, the public, and other stakeholders to provide input.
효과적인 강의 만들고 발표하기 (J Contin Educ Health Prof, 2020) Creating and Presenting an Effective Lecture Jennifer M. Babik, MD, PhD; Vera P. Luther, MD
문제 설명 PROBLEM STATEMENT
강의는 의학 교육자가 전문성 발전과 지속적인 의학 교육의 일환으로 여러 단계의 학습자에게 콘텐츠를 전달하기 위한 핵심 도구입니다. 그러나 많은 교육자들은 효과적인 프레젠테이션을 하는 방법에 대한 공식적인 교육에 참여할 시간이나 기회가 없었습니다. 전통 강의에 대한 비판은 여러 가지가 있지만, 잘만 한다면 여전히 활기차고 매력적인 교육 도구가 될 수 있다. 많은 교육자와 의료 실무자들은 효과적인 강의의 생성과 발표를 안내하는 증거 기반 원칙을 알지 못한다.
Lectures are a key tool for the medical educator to deliver content to multiple levels of learners as part of continuing professional development and continuing medical education. However, many educators have not had the time or opportunity to participate in formal training on how to give an effective presentation. Although there are multiple common criticisms of the traditional lecture, if done well, the lecture can still be a vibrant and engaging educational tool. Many educators and health care practitioners are not aware of the evidence-based principles that guide the creation and presentation of an effective lecture.
해결 방법 SOLUTION
본 논문에서는 효과적인 교수법, 슬라이드 구성 및 디자인, 능동적 학습, 대중 연설의 증거 기반 원칙을 활용하여 효과적인 강의를 만들고 발표하기 위한 종합적인 가이드를 제공합니다. 우리는 이러한 모범 사례를 도출하기 위해 (건강 전문가 내부와 외부 모두에서) 교육 문헌을 폭넓게 검토했다. 이 글의 내용은 강의나 교육 프로그램을 시행하는 모든 분야의 실무자들이 모든 단계의 실무자들이 도구 상자로 활용할 수 있다. In this article, we provide a comprehensive guide for creating and presenting an effective lecture using evidence-based principles of effective teaching, slide organization and design, active learning, and public speaking. We reviewed the education literature broadly (both within and outside the health professions) to derive this set of best practices. The contents of this article can be used as a toolbox by practitioners at all levels and across all specialties of practice who give lectures or implement educational programs.
[기존 강의에 대한 비판]은 여러 가지가 있습니다. 강의는 학습자 중심의 강의가 아니라 수동적이고, 정적이며, "일률적"이며, 다른 교육 방법보다 지식 유지율이 낮다는 것이다.1-3 그러나, 강의는 "죽은" 것이 아니며, 지속적인 의학교육을 포함한 다양한 환경에서 커리큘럼을 전달하는 중요하고 효과적인 수단이다. 특히 강의는 많은 수의 학습자에게 사실 정보를 전달하기 위한 효율적인 방법을 제공하며, 주어진 주제에 대한 더 큰 관심을 갖게 할 영감을 제공하는 데 효과적일 수 있으며, 기록하여 미래의 학습자에게 제공할 수 있습니다. 강의가 잘 이루어지면 대화형 강의가 될 수 있고 앞서 언급한 많은 비판은 이 기사에서 설명한 것처럼 효과적인 프레젠테이션을 만들고 전달하는 모범 사례를 사용함으로써 완화될 수 있습니다. There are multiple criticisms of the traditional lecture: that it is passive, static, “one-size-fits all,” not learner-centric, uninspiring, and can lead to less knowledge retention than other methods of instruction.1–3However, lectures are not “dead” and are still an important and effective means of delivering curriculum in various settings, including in continuing medical education.4–8Specifically, lectures provide an efficient method for delivering substantial amounts of factual information to a large group of learners, can be effective at providing inspiration to further interest in a given subject, and can be recorded and made available to learners at a future date.6,9If done well, lectures can be interactive and engaging,1,4,8and many of the criticisms mentioned previously can be mitigated by using best practices for creating and delivering an effective presentation, as will be outlined in this article.
준비 및 효과적인 교육 Preparation and Effective Teaching
보건 분야 강의의 주요 목표는 학습자에게 정보를 전달하고 주제에 대해 영감을 주는 것입니다. 본질적으로 효과적인 강의는 기억에 남는 강의지만, 학습자들은 강의의 절반 이하를 수업 노트에 담았고, 심지어 몇 주 후 강의의 10% 미만을 기억하고 있는 것으로 나타났다. 그렇다면 어떻게 하면 기억에 남는 강의를 만들 수 있을까요?
The main goals of a lecture in the health professions are to transmit information to learners and inspire them about the topic.1,4,9 In essence, an effective lecture is a memorable lecture; however, it has been shown that learners capture less than half of a lecture in their class notes and even worse and remember less than 10 percent of a lecture several weeks later.10 Then, how can we create lectures that will memorable?
기억에 남는 강의를 구성하는 방법에 대한 토대groundwork를 마련하기 위해서는 기억 형성, 학습, 효과적인 가르침에 대한 이론을 간략히 검토하는 것이 중요합니다.10–12 학습 과정의 [세 가지 핵심 구성요소]가 있습니다(그림 1A).10,11 To set the groundwork for how to construct a memorable lecture, it is important to review briefly the theory behind memory formation, learning, and effective teaching.10–12There are three core components of the learning process: attention,comprehension,and integration (Figure 1A).10,11
첫째, [청중의 관심]을 집중시키기 위해 질문, 사례 시나리오, 개인적인 일화, 강력한 인용문 또는 삽화로 강의를 시작할 수 있습니다.
둘째, 발표의 제목, 개요, 학습 목표에 대한 사려 깊은 고려를 통해 [이해에 대한 "로드맵"]을 만들어 이해를 촉진할 수 있습니다. 이 첫 번째 두 단계는 학습자가 단기 기억을 만드는 데 도움이 됩니다.
그러나 [장기적인 기억]을 형성하기 위해서는 청중들이 응용과 검토를 통해 [새로운 정보를 기존 정보와 연관]시킬 수 있는 기회를 만들어 [통합]을 도모해야 한다. 프레젠테이션의 정보를 사용하여 사례 시나리오에 적용하도록 요청하거나, 문제나 딜레마를 해결하거나, 개념을 비교 및 대조하도록 할 수 있습니다.
First, to focus the audience's attention, you can start your lecture with questions, case scenarios, personal anecdotes, powerful quotes, or illustrations.
Second, you can facilitate comprehension by creating a “roadmap” to understanding with thoughtful consideration of a presentation's title, outline, and learning objectives. These first two steps help the learner create short-term memories.
However, to form long-term memories, you must also foster integration by creating opportunities for the audience to relate new information to existing information through application and review. You can ask the audience to use information from your presentation to apply to a case scenario, use it to solve a problem or dilemma, or have them compare and contrast concepts.
강의 후 청중과 함께하지 않을 경우 검토 기회가 어려울 수 있습니다. 하지만, 당신은 여전히 검토를 위해 청중들을 준비prime 시킬 수 있습니다.
중요한 사항 요약,
세션의 자료를 적용하는 방법에 대한 지침과 함께 프리젠테이션을 마칩니다.
청중들이 여러분의 프레젠테이션의 주요 개념을 다시 살펴볼 수 있도록 유인물을 제공하거나 자료를 식별하는 것입니다.
Opportunities for review may be difficult if you will not be with the audience after the lecture; however, you can still prime the audience for review by
summarizing important points,
closing the presentation with instructions on how to apply material from the session, and by
providing a handout or identifying resources that allow the audience members to revisit key concepts from your presentation.
효과적인 가르침의 주요 원칙은 이러한 배움의 핵심 요소들과 연결되어 있다. Bulger는 이러한 원칙을 "4가지 에이스"라고 설명했으며, 이러한 원칙은 정보 보유의 증가와 관련이 있다(그림 1B).12
The main principles of effective teaching are linked to these core components of learning. Bulger described these principles as the “four aces,” and they are linked to increased retention of information (Figure 1B).12
첫 번째 "에이스"인 성과-기반 교육은 [성과를 염두에 두고 시작해야 한다]는 것을 상기시킨다. 여러분은 스스로에게 "내 청중들이 나에게서 배워야 할 것이 무엇이 있는가?"와 "그들이 무엇을 할 수 있기를 바라는가?"라고 자문해 보아야 한다. 중요한 구성 요소는 학습자가 주제를 처음 접하는 사람인지 아니면 전문가인지 등 결과가 적절하도록 "청중을 아는" 것입니다. 이해도를 높이고 주제를 상황에 맞게 작성하기 위한 핵심 질문을 통해 학습자 중심의 자세를 유지합니다.12,13 The first “ace,” outcomes-based teaching, is a reminder to start with the outcome in mind. You should ask yourself, “What do my audience members need to learn from me?” and “What do I want them to be able to do?” A critical component is to “know your audience” so that your outcomes are appropriate: are the learners new to the topic or are they experts? Stay learner-focused by asking key questions to facilitate understanding and to put topics in context.12,13
두 번째 "에이스"는 [명확성]이고, 이것은 조직화과 자제를 중심으로 합니다. 사려 깊은 학습 목표는 정보를 구성하는 데 도움이 될 수 있으며 구체적이고 측정가능해야 합니다. 그들은 "누가 언제까지 무엇을 얼마나 잘 할 것인가?"라는 질문에 대답해야 한다. 14 예를 들어, "이 강의가 끝날 때, 참석자들은 클로스트리디움 난이도 감염에 대한 세 가지 위험 요인을 파악할 수 있을 것이다." 여러분은 또한 사려 깊은 개요의 사용과 프리젠테이션을 구성하기 위한 [개념적 질문]을 통해 정보를 구성할 수 있습니다. 예를 들어, "우리는 항생제 내성 메커니즘을 논의할 것이다"라고 말하는 대신 "세균이 어떻게 항생제에 내성을 갖게 되는가?"라고 물을 수 있다. 이것은 즉시 청중들의 관심을 끌기 시작할 것이고, 청중들이 주제에 대해 생각하기 시작하도록 자극할 것입니다. The second “ace” is clarity and centers around organization and restraint. Thoughtful learning objectives can help you organize information and should be specific and measurable. They should answer the question: “Who will do how much (and possibly how well) of what by when?”14 For example, “At the end of this lecture, attendees will be able to identify three risk factors for Clostridium difficile infection.” You can also organize information through the use of a thoughtful outline and by asking conceptual questions to organize your presentation. For example, instead of stating, “We will discuss mechanisms of antibiotic resistance,” you can ask, “How do bacteria become resistant to antibiotics?” This will immediately begin to engage your audience and stimulate them to start thinking about the topic.
마지막으로, 시간을 계획하고 청중들의 집중력을 염두에 두세요. 이때 자제restraint가 필요하고, '정보 과부하'를 피하는 것이 중요하다. 프레젠테이션에 정보를 그룹화하거나 "청크"할 계획을 세우고 검토, 성찰 및 통합 시간을 허용하는 연습을 통합합니다. 개념을 주기적으로 검토하는 [간격을 둔 반복spaced repetition]은 정보 보존을 강화하는 기술이다. 이는 개념을 요약하고 강의 내내 핵심 요점을 다시 살펴봄으로써 수행될 수 있습니다.12 Finally, plan your time and be mindful of your audience's attention span. This is where restraint and avoiding “information overload” come into play. Plan to group or “chunk” information in your presentation and incorporate exercises that allow time for review, reflection, and integration. Spaced repetition, where concepts are periodically reviewed, is a technique that has been shown to enhance retention of information. This can be done by summarizing concepts and revisiting key take home points throughout your lecture.12
세 번째 "에이스"는 [참여]입니다.12 청중들과 함께하기 위해서는 여러분의 발표를 일방통행보다는 대화로 생각하세요. 여러분은 눈을 마주치고, 비언어적인 의사소통을 하고, 청중들에게 질문을 하고, 가장 중요한 것은 능동적인 학습을 통합함으로써 이것을 할 수 있습니다. [능동적 학습]은 [학습자가 무엇인가를 하도록 만들고, 자신이 하고 있는 일에 대해 생각하도록 하는 것]으로 정의된다.15 여러 가지 이유로 인해 능동적 학습은 정보의 보유를 증가시키는 것으로 나타났다:
The third “ace” is engagement.12 To engage with your audience, think of your presentation as a conversation rather than a one-way street. You can do this through eye contact, nonverbal communication, posing questions to the audience, and most importantly, by incorporating active learning. Active learning is defined as anything that involves learners in doing things and thinking about the things they are doing.15 It has been shown to increase retention of information for several reasons:
not only does it create a mechanism for the audience to engage with the material and transition from a passive to active mindset
but also it breaks up the presentation into bite-sized, manageable, and memorable portions.15
네 번째 '에이스'는 [열정]으로, 어느 정도 [참여]와 관련이 있다. 주어진 주제에 대한 열정을 어떻게 자연스럽게 전달하는지 생각해보고 그것을 바탕으로 발전시켜보세요. 본질적으로, 너 자신이 되어 즐겁게 지내라.
The fourth “ace” is enthusiasm, which is somewhat related to engagement. Consider how you naturally convey enthusiasm for a given topic and build off of that. In essence, be yourself and have fun.
슬라이드 구성 및 설계 Slide Organization and Design
강의를 구성하는 첫 번째 단계는 학습 목표와 일치하도록 전달하고자 하는 핵심 사항을 계획하는 것입니다. 또한 전체 강의에 걸쳐 얼마나 많은 슬라이드를 사용하여 이러한 내용을 전달할 것인지 계획하는 것도 도움이 될 수 있습니다. "올바른" 숫자를 지원하는 데이터는 없지만, 적절한 규칙은 분당 하나의 슬라이드(또는 그 이하)로 제한하고 슬라이드당 하나의 아이디어로 콘텐츠를 유지하는 것입니다. 여기서 중요한 것은 여러분의 청중들을 정보로 압도하지 않도록 자제하는 것입니다. 슬라이드 수를 줄이는 데 문제가 있는 경우 강의의 학습 목표를 준수하십시오. 학습자가 참고용으로 사용하길 원하는 슬라이드가 있는 경우, 참고를 위해 부록이나 강의요강에 넣되 프레젠테이션 자체는 생략합니다. The first step in organizing your lecture is to map out the key points you want to deliver that are in alignment with your learning objectives. It can also be helpful to plan out how many slides you will use over the entire lecture to convey these points. There are no data to support a “right” number, but a good rule of thumb is to limit yourself to one slide per minute (or less) and keep your content at one idea per slide. The key here is to show restraint (this can be hard) so as to not overwhelm your audience with information. If you have trouble cutting down the number of slides, make sure you are adhering to the learning objectives for your lecture. If you have slides that you want your learners to use as a reference, put them in an appendix or syllabus for reference but leave them out of the presentation itself.
강의를 구성할 때는 크게 [소개], [내용 섹션], [결론]의 세 부분으로 구성하면 도움이 된다. 이 구성을 강조하려면 섹션 머리글 또는 개요 슬라이드를 사용하여 각 섹션의 "Signpost"를 해야 합니다. 그래야 청중이 강의에서 여러분과 강의자가 어디에 있는지 추적할 수 있습니다. 다음은 리처드 메이어의 교육 설계 연구 기반 원리 중 하나인 [신호 원리]의 예입니다. 사람들은 중요한 자료들이 개요와 제목을 사용하여 강조될 때 더 잘 배운다.16 당신의 강의의 세 가지 주요 부분을 계획할 때, 서론은 학습을 위한 반갑고 안전한 분위기를 조성하고 개인적인 이야기나 감정적인 갈고리로 청중의 관심을 끌어야 한다. 그런 다음 컨텐츠를 10분에서 18분 사이의 섹션으로 구성해야 합니다. 이 짧은 길이는 강의 중 10분에서 18분 정도 지나면 학생들이 집중력을 잃기 때문이다.17 사실 TED 대화는 정확히 이런 이유로 18분짜리 발표로 설계된다.18 마지막으로 요점을 요약하고 마무리하는 결론으로 마무리한다. When constructing a lecture, it is helpful to organize it into three main parts: an introduction, content sections, and a conclusion. To highlight this organization, you should use section headers or outline slides to “signpost” each section so the audience can keep track of where you (and they) are in the lecture. These are both examples of the signaling principle, one of Richard Mayer's research-based principles for instructional design: People learn better when essential material is highlighted using an outline and headings.16 When mapping out the three main parts of your lecture, the introduction should establish a welcoming and safe climate for learning and get the audience's attention with a personal story or emotional hook. Your content should then be organized into 10- to 18-minute sections. This short length is because during a lecture, students have a lapse in attention after just 10 to 18 minutes.17 In fact, TED talks are designed as 18-minute presentations for precisely this reason.18 Finally, wrap up with a conclusion where you summarize the main points and provide closure.
슬라이드 템플릿을 선택할 때는 기본 색상 설계 원칙을 고려하는 것이 중요합니다.
먼저 간단한 템플릿을 사용하여 내용을 강조 표시하되 내용을 방해하지 마십시오. 그래픽이나 패턴 위의 텍스트는 읽기가 매우 어려울 수 있으므로 배경으로 사용하지 않는 것이 현명합니다. 사진을 배경으로 사용하는 것은 때때로 좋은 터치가 될 수 있지만, 그 위에 텍스트가 거의 없을 때만 가능합니다.
둘째, 어두운 색(파란색, 검은색 또는 보라색)과 밝은 색(베이지, 흰색 또는 회색)을 설정하여 대비되는 색상을 사용합니다. 배경은 밝은 색 텍스트로 어둡거나 그 반대일 수 있습니다. 그러나 미팅룸이 밝게 켜져 있으면 어두운 색 텍스트가 있는 밝은 배경은 읽기 쉽습니다.
세 번째, 강한 색상은 서로 충돌하므로 서로 사용하지 마십시오(예: 밝은 빨간색과 밝은 파란색). 마찬가지로, 색맹인 청중들은 빨간색과 초록색을 함께 넣는 것을 피하세요.
When choosing a slide template, it is important to consider basic color design principles. First, use a simple template to highlight your content but not distract from it. Text over graphics and patterns can be very hard to read, so it is wise to avoid their use as backgrounds. Using a photograph as a background can occasionally be a nice touch but only if there is very little text on top of it. Second, use colors that contrast by setting dark colors (blue, black, or purple) against light ones (beige, white, or gray). Backgrounds can be dark with light-colored text or vice versa; however, if a meeting room is brightly lit, then a light background with dark text will be easier to read. Third, avoid using strong colors next to each other as these will clash (eg, bright red and bright blue). Similarly, avoid putting red and green together as members of your audience who are color-blind will have difficulty distinguishing them.
슬라이드 설계의 주요 원칙은 슬라이드의 잡음을 제한하는 것입니다. 정보의 시각적 표현에 대해 폭넓게 쓴 에드워드 터프트는 "어수선함과 혼란은 디자인의 실패이지 정보의 속성이 아니다."19 슬라이드를 빈 캔버스로 생각하며, 빈 공간에 슬라이드의 중요한 정보를 강조 표시해야 합니다. 즉, 슬라이드에 있는 양을 제한하여 외부 과부하를 제한하려고 합니다(외부 자료를 너무 많이 처리하면 학습에 방해가 됩니다. 이것이 메이어의 [응집성coherence 원칙]의 기초입니다. 사람들은 관련이 없고 관련이 없는 자료가 없을 때 더 잘 배운다.16
A key principle in slide design is to limit clutter on your slides. Edward Tufte, who has written extensively about the visual presentation of information, said, “clutter and confusion are failures of design, not attributes of information.”19Think of your slide as a blank canvas, where the blank space should highlight the important information on the slide. In short, you want to limit how much is on the slide to limit extraneous overload (where too much processing of extraneous material interferes with learning). This is the foundation of Mayer's coherence principle: People learn better without extraneous, irrelevant material.16
전달하려는 모든 정보가 포함된 슬라이드를 만드는 동시에 응집성 원칙을 준수하는 것이 과제입니다. 이를 위한 세 가지 주요 방법을 제안합니다.
(1) 텍스트를 시각자료로 변환한다. 이렇게 하면 잡동사니를 피할 수 있을 뿐만 아니라 유지력도 향상됩니다. 메이어의 멀티미디어 원리는 사람들이 단어 하나에서 배우는 것보다 단어와 그림에서 배우는 것이 더 낫다는 연구로 알려진다. 예를 들어, 단어에 비주얼을 추가하는 교육 전략을 사용하면 발표 후 3일 후에 리콜을 10%에서 65%로 개선할 수 있다. 표 1에서 시각 자료를 효과적으로 사용하기 위한 여러 전략을 개략적으로 설명합니다.
(2) 슬라이드에 있는 텍스트의 양은 (학습 결과에 반드시 영향을 미치는 것은 아니지만) 인지 부하 증가에 기여합니다. 따라서 텍스트를 핵심 포인트로 제한한 다음 참고 섹션을 사용하여 기억하고 싶은 텍스트를 저장하는 것이 유용합니다. 이렇게 하면 깨끗한 슬라이드를 만들 수 있지만 다음 번에 강의할 때 참고할 뿐만 아니라 연습용으로 노트에도 모든 정보가 남아 있습니다.
(3) 마지막으로 부록 슬라이드, 유인물 또는 강의요강에 추가 정보를 입력할 수 있습니다. 유인물과 보충 자료는 특히 학습자가 자료를 다시 살펴보거나 나중에 주제를 철저히 검토할 수 있는 유용한 도구가 될 수 있습니다.
The challenge is creating a slide that contains all of the information you want to deliver but also adheres to the coherence principle. We propose three main ways to accomplish this:
(1) Turn text into visuals. This not only helps to avoid clutter but also improves retention. Mayer's multimedia principle is informed by research showing that people learn better from words and pictures than from words alone.16 For example, using an instructional strategy of adding visuals to words can improve recall from 10 to 65% at three days after a presentation.20 We outline a number of strategies for using visuals effectively in Table 1.
(2) Although the amount of text on slides does not necessarily impact learning outcomes, it does contribute to increased cognitive load.21,22 As such, it is helpful to limit the text to key points and then use the notes section to store text that you want to remember to say. In this way, you will have clean slides but still have all of the information in the notes, both for practicing as well as for reference the next time you want to give the lecture.
(3) Finally, you can put extra information into an appendix slide, handout, or syllabus. Handouts and supplementary materials can be particularly helpful tools that allow your learners to revisit material or have an opportunity to thoroughly examine subject matter at a later date.
텍스트에 대한 몇 가지 다른 팁은 최소 24 포인트 이상의 글꼴 크기, 가급적 큰 글꼴을 사용하고 Arial 또는 Calibri와 같은 간단한 글꼴을 사용하는 것입니다. 마지막으로 애니메이션을 신중하게 활용합니다. 특히 사용량이 많은 슬라이드 내에서 애니메이션화하는 데 도움이 될 수 있지만 슬라이드를 정리하거나 텍스트를 적게 사용할 수 있는 방법이 있는지 항상 고려하십시오. 애니메이션을 사용할 때는 나타나거나 사라지거나 하는 간단한 애니메이션 기능을 선택하고 회전, 비행 등 산만한 애니메이션을 피해야 한다.
A few other tips for text are to use at least 24-point font size, preferably larger, and to use a simple font such as Arial or Calibri. Finally, use animation thoughtfully. Although it can help to animate within a slide that is particularly busy, always consider if there is a way to de-clutter the slide or use less text. When animation is used, choose a simple animation function such as appear or disappear and avoid distracting animations like spinning and flying.
능동적 학습 기법 Active Learning Techniques
능동적인 학습을 어떻게 통합할 것인지에 대해 생각하는 동안, 안전한 학습 환경을 어떻게 조성할 것인지에 대해 잠시 생각해 보십시오. 이렇게 하는 방법 중 하나는 기대를 거는 것이다. 청중에게 무엇을 부탁할 것인지 알려주고, 그룹의 규모가 중요하다는 것을 기억하세요. 더 많은 청중들을 위해, 여러분은 청중들에게 (정답이 하나만 있는 질문을 하기 보다는) 경험을 되새겨보라고 하는 것과 같은 낮은 부담의 질문들을 제기하는 편이 낫다. As you are thinking about how you will incorporate active learning, take a moment to think about how you will create a safe learning environment. One way to do this is to set expectations (nobody likes a pop-quiz). Let your audience know what you will be asking them to do, and remember that the size of the group matters. For larger audiences, you may want to pose lower stakes questions such as asking your audience members to reflect on an experience (rather than asking them a question that has only one right answer).
앞서 언급한 바와 같이, 주어진 청중들의 평균 주의력 지속 시간이 18분 미만이기 때문에, 적어도 15분에서 20분마다 한 번씩 적극적인 학습 활동을 통합할 계획이다.17,18 그러나, 만약 누군가가 하루 동안 여러 번 수업을 받았다면(예: 지속적인 의료 교육 과정 중)관심 범위가 훨씬 더 짧을 것으로 예상할 수 있습니다. 그러한 상황에서는, 여러분은 수업 시간, 청중, 그리고 주제에 따라 훨씬 더 자주(예: 10분마다) 능동적인 학습 기술을 통합해야 할 수도 있습니다. As a rule of thumb, plan to incorporate an active learning activity at least once every 15 to 20 minutes because, as mentioned previously, the average attention span of a given audience member is less than 18 minutes.17,18 However, if someone has been in several teaching sessions throughout the day (eg, during a continuing medical education course), you can expect that their attention span will be even shorter. In those situations, you may want to incorporate an active learning technique even more frequently (eg, every 10 minutes) depending on the teaching session, audience, and subject matter.
다양한 능동적 학습 기법이 있어 여러분의 교육 세션을 향상시킬 수 있으며, 표 2의 다양한 기술에 대한 구체적인 사례와 실행 요령을 제공합니다. There are a variety ofactive learningtechniques that can enhance your teaching sessions, and we give specific examples and implementation tips for various techniques inTable 2.
일시 중지 절차 Pause Procedures
일시 중지 절차는 학습자가 정보를 관련, 검토, 명확화 및/또는 통합할 수 있는 기회를 제공하는 강의 중 주기적인 휴식입니다. 잠시 멈추는 동안 청중들에게 조용히 요점을 되새기거나, 질문에 대한 답변을 적어보거나, "짝꿍이 공유pair-share"를 하도록 요청할 수 있습니다. 짝을 이루는 활동은 청중들이 그들의 이웃을 바라보고, 응답을 서로 토론하는 것을 포함한다. 시간적 여유에 따라 더 큰 그룹과 논의한 내용을 공유할 것을 요청할 수도 있고 요청하지 않을 수도 있습니다. 만약 여러분이 그들에게 공유를 요청한다면, 여러분은 그들에게 명확하지 않은 프리젠테이션의 요점에 대해 논의하도록 요청하는 것을 고려해 볼 수 있습니다("가장 애매한 부분"). 정지 시간은 30초에서 3분까지이며, 유지력을 높이고 청중 만족도를 높이는 것으로 나타났습니다.23
Pause procedures are periodic breaks during lectures that allow learners an opportunity to relate to, review, clarify, and/or integrate information. During the pause, you can ask your audience to quietly reflect on a key point, jot down their response to your question, or “pair-share.” A pair-share activity involves audience members turning to their neighbor and discussing their responses. Depending on the amount of time you have, you may or may not ask them to share what they discussed with the larger group. If you are asking them to share, you can consider asking them to discuss points from your presentation that were unclear (the “muddiest points”) to offer you an opportunity to clarify concepts. Pauses can be 30 seconds to 3 minutes in length and have been shown to both enhance retention and increase audience satisfaction.23
청중 응답 질문 Audience Response Questions
이러한 절차는 일반적으로 사용되며 전용으로 고려할 가치가 있는 [일시 중지 절차]의 특정 유형입니다. 청중 응답 질문은 청중과 대화하는 데 도움이 될 수 있으며, "저기술"(how-tech)(손뼉치기) 또는 "첨단"(시청자 응답 시스템, 소프트웨어 또는 웹 기반 기술 사용)이 될 수 있습니다. 질문을 제기하는 데 필요한 시간을 고려하여 청중에게 답변을 허용한 다음 답변을 브리핑합니다. 정답과 오답 모두에 대한 추론에 대해 토론할 계획입니다.24
These are a specific type of pause procedure, which are commonly used and deserve dedicated consideration. Audience response questions can help you to dialogue with your audience and can either be “low-tech” (show of hands) or “high tech” (using an audience response system, software, or web-based technology). Be sure to consider the time allotment you will need to pose the question, allow the audience to respond, and then debrief the responses. Plan to discuss the reasoning behind both the correct and incorrect answers.24
청중 패널 참여 Audience-Panel Engagement
또 다른 기법은 청중 패널 참여 전략을 사용하여 패널 토론을 수동적 경험에서 능동적 경험으로 전환하는 것입니다. 이 기술은 전문적 학습이나 다양한 관점이 도움이 될 때 효과적입니다. 서너 명의 교수진을 패널로 초대하는 것을 고려해보세요. 강의 시간에 패널과 청중 모두에게 질문이나 시나리오를 제시하되 패널이 바로 대답하도록 내버려 두지 마십시오. 잠시 멈추고 청중들이 토론하고 답변하도록 합니다. 그런 다음, 패널들에게 답변을 하고 청중들이 그들의 대답이 어떻게 일치하는지 볼 수 있도록 하세요.25
Another technique is to turn a panel discussion from a passive experience to an active one by using the audience-panel engagement strategy. This technique works well for interprofessional learning or when a variety of perspectives would be helpful. Consider inviting three or four faculty to be on your panel. During your teaching session, pose a question or a scenario to both the panel and the audience, but do not let the panel answer right away. Pause and have audience members discuss and commit to a response. Then, have the panelists answer and allow your audience to see how their response matches up.25
소규모 그룹 Small Groups
소규모 그룹 토론 또는 브레이크아웃 세션을 규모가 작고 덜 공식적인 환경에서 사용할 수 있습니다. 청중은 사례를 토론하고 문제를 해결하며 집에서 세션의 정보를 적용하는 방법에 대한 실행 계획을 세울 수 있습니다. 이러한 소규모 그룹 토론은 주어진 주제에 대해 깊이 있게 가르칠 수 있는 유용한 도구입니다.26 Small group discussions or breakout sessions can be used in smaller, less formal environments. Your audience can discuss cases, solve problems, and perhaps formulate an action plan on how they will apply information from your session at home. These small group discussions are helpful tools to teach about a given topic in depth.26
게임. Games
게임을 통합하는 것을 고려해야 하는 한 가지 이유는 게임이 재미있기 때문입니다. 이러한 기능은 덜 공식적인 세션에 가장 적합하며 원칙을 강화하고, 토론의 발판으로 사용할 수 있으며, 약간의 우호적인 경쟁을 장려하는 데에도 사용할 수 있습니다. 예를 들어, 관심 주제에 대한 위험 스타일의 퀴즈 게임이나 그림 기반 드로잉 게임이 있습니다. 게임에 따라 방을 소규모 그룹 또는 대규모 팀으로 나눌 수 있으며 경품도 받을 수 있습니다. 게임은 의학 교육에 널리 사용되고 있기 때문에 많은 청중들이 이미 그 개념을 잘 알고 있을 것이다.27,28 One reason to consider incorporating games is that they are fun. These are best suited for less formal sessions and can be used to reinforce principles, as a springboard for discussion, and even to encourage a little friendly competition. Examples include playing jeopardy-style quiz games or pictionary-based drawing games on the topic of interest. You can split the room into small groups or larger teams, depending on the game, and even play for prizes. Games are widely used in medical education, so many of your audience members may be familiar with the concept already.27,28
청중들의 규모와 발표의 형식은 여러분이 어떤 활동적인 학습 전략을 포함하고 싶은지 알려줄 것입니다. 예를 들어,
매우 크고 공식적인 프레젠테이션의 경우 일시 중지 절차 및 청중 응답 질문을 선택할 수 있습니다.
덜 공식적인 세션의 경우, 청중 패널 참여 활동, 소규모 그룹 토론 및/또는 게임을 포함할 수 있습니다.
The size of your audience and the formality of your presentation will inform which specificactive learningstrategies you may want to incorporate. For example,
for very large and formal presentations, you may choose pause procedures and audience response questions.
For less formal sessions, you may choose to incorporate audience-panel engagement activities, small group discussions, and/or games.
대중 연설 Public Speaking
기억에 남는 연사를 떠올리면, 그 혹은 그녀가 그렇게 효과적이기 위해 그렇게 효과적이었을까? 비언어적 의사소통(즉, 바디 랭귀지)과 자신감은 효과적인 프레젠테이션을 하는 데 있어 중요한 구성요소이며 프레젠테이션 수행과 교육 효과를 위해 더 높은 점수로 연결되어 있습니다.29,30 중요 구성 요소에는 다음이 포함된다.
[비언어적 의사소통]에는 개방적인 자세, 편안한 자세, 표현적인 몸짓, 포괄적인 아이 컨택, 따뜻한 표정 등이 포함됩니다.
[자신감 있는 행동]에는 눈을 잘 마주치는 것, 강한 목소리를 사용하는 것, 여유로워 보이는 것, 그리고 권위를 전달하는 태도를 가지는 것이 포함됩니다.
If you think back on a memorable speaker, what did he or she do to be so effective? Nonverbal communication (ie, body language) and confidence are important components of giving an effective presentation and have been linked to higher scores for presentation performance and teaching effectiveness.29,30 Important components of
nonverbal communication include an open posture, relaxed stance, expressive gestures, inclusive eye contact, and warm facial expression;
confident behaviors include making good eye contact, using a strong voice, appearing relaxed, and having a manner that conveys authority.30
[교사의 열정]은 또한 교육 효과와 학습자의 내재적 동기 부여 및 참여의 증가와 관련이 있다; 중요한 것은 이것이 고정된 특성이 아니라 오히려 배울 수 있는 것이다.31 열정은 다음과 같이 나타낼 수 있다.
목소리 톤과 속도,
움직임 사용(걷기, 시선 마주치기, 연단 뒤에 서지 않기) 및
유머(자신을 알기는 하지만)
Teacher enthusiasm is also highly linked to teaching effectiveness and increasing learner intrinsic motivation and engagement; importantly, this is not a fixed characteristic but rather is something that can be learned.31 Enthusiasm can be shown by
varying tone and pace of voice,
using movement (walking around, making eye contact, and avoiding standing behind the podium), and
humor (although know thyself).
만약 여러분이 단상을 피할 수 없다면(예: 큰 강의실) 여전히 조금 움직이면서 단상의 옆구리를 잡지 않도록 하세요. 이것이 여러분을 긴장하게 만들 수 있기 때문입니다. If you cannot avoid the podium (eg, in a large lecture hall), try to still move around a little and avoid gripping the sides of the podium, as this can make you look nervous.
청중을 끌어들이는 두 가지 다른 방법이 눈에 띕니다. (1) 슬라이드를 사용할 때 청중은 자연스럽게 이 방법에 끌리게 됩니다. 파워포인트를 사용할 때 슬라이드 포커스를 벗어나 스피커로 전환하려면 키보드의 'B' 키를 누르면 화면이 검게 변하며, (2) 감성적인 후크로 디테일한 스토리를 살려 붙는 스토리를 들려준다. Two other ways of engaging the audience are notable: (1) When using slides, your audience will naturally be drawn to these. When using PowerPoint, if you want to shift the focus off your slides and onto you as the speaker, you can press the “B” key on your keyboard and it will turn your screen black. (2) Tell stories that stick by using a detailed story with an emotional hook.
많은 사람들이 연설에 대한 두려움을 가지고 있다: 사실, 한 연구에서 키, 곤충, 심지어 죽음에 대한 두려움보다 대중 연설에 대한 두려움을 더 많이 가지고 있었다.32 여러분은 연설이 얼마나 흔한지를 인식하고, 발표를 연습하며, 강연할 방을 정찰함으로써 대중 연설에 대한 두려움을 극복할 수 있다.도착해도 놀랄 일은 없습니다. 완전히 것을 알기 위해 강의를 연습하면 자신이 무슨 말을 할지 걱정하기보다는 청중들을 끌어들이기 위해 에너지를 사용할 수 있다. '슬라이드 읽기'(강사들에 대한 일반적인 비판)를 피하는 데 도움이 되고, 발표 시간을 적절하게 맞출 수 있도록 하거나, 가급적 일찍 끝낼 수 있도록 해줍니다. 여러분은 청중들을 사로잡을 입문 발언으로 강의를 강하게 시작하고자 합니다. 이것들을 연습해 보십시오. 이것은 종종 슬라이드 없이 주어지며, 여러분이 말할 것을 연습하면 청중들에게 좋은 첫인상을 줄 것입니다. Many people have a fear of public speaking: in fact, in one study, more people were afraid of public speaking than were afraid of height, insects, and even death.32 You can overcome this fear of public speaking by recognizing how common it is, by practicing your presentation, and by scouting the room where you will be giving your lecture so there are no surprises when you arrive. Practicing a lecture so that you know it cold allows you to use your energy to engage the audience rather than worry about what you are going to say. It will help you avoid “reading your slides” (a common criticism of lecturers) and allow you to time your presentation appropriately so that you end on time or, preferably, even a bit early. You want to start your lecture strong with introductory remarks that will hook the audience—practice these. These are often given without a slide and practicing what you will say will give the audience a great first impression.
마지막으로 프레젠테이션에 대한 피드백을 받는 것이 중요합니다. 현재 많은 기관들이 공식적인 동료 교육 관찰 프로그램을 가지고 있지만, 비공식적인 피드백 또한 매우 도움이 될 수 있다. 동료나 멘토가 직접 피드백이나 비디오테이프를 주도록 하세요. 작성된 피드백을 주의 깊게 읽으십시오. 이를 통해 맹점을 식별할 수 있습니다. 예를 들어, 여러분이 알지 못할 수 있는 신체적, 언어적 매너리즘을 확인할 수 있습니다.
Finally, it is critical to get feedback on your presentation. Many institutions now have formal peer teaching observation programs, but informal feedback can also be very helpful. Have a colleague or mentor give you feedback or videotape yourself. Carefully read any written feedback you may get. This can allow you to identify blindspots: for example, physical and verbal mannerisms of which you may not be aware.
결론 CONCLUSION
효과적인 강의를 할 수 있는 능력은 의학 교육자의 도구상자에서 매우 중요한 부분입니다. 강의가 잘 진행된다면, 지속적 전문 발전에 중요한 정보를 전달하기 위한 매력적이고, 활기차고, 상호작용적이며, 효과적인 수단이 될 수 있습니다. 여기서 요약한 효과적인 프레젠테이션을 구성하고 발표하는 도구는 모두 교육 문헌에서 파생되었으며 학습, 기억, 교육 설계 및 대중 연설의 증거 기반 원칙을 포함하고 있습니다. 이 두 가지를 종합하면 효과적인 강의를 만들고, 구성하고, 발표할 때 자기 계발을 위한 체크리스트로 사용할 수 있는 루브릭을 형성합니다(그림 2).
Being able to deliver an effective lecture is a critical part of the medical educator's toolbox. The lecture, if done well, can be an engaging, vibrant, interactive, and effective means to deliver key information in continuing professional development. The tools for constructing and presenting an effective presentation that we have outlined here are all derived from the education literature and incorporate evidence-based principles of learning, memory, instructional design, and public speaking. Taken together, they form a rubric that can be used as a checklist for self-improvement when creating, organizing, and presenting an effective lecture (Figure 2).
J Contin Educ Health Prof. Winter 2020;40(1):36-41.
Lectures are a key tool for large group teaching in continuing professional development and continuing medical education within the health care professions. However, many practitioners who deliver lectures have not had the time or opportunity to participate in formal training on how to give an effective presentation. In this article, we will provide a comprehensive guide for creating and presenting an effective lecture. We will discuss evidence-based principles of effective teaching, slide organization and design, active learning, and public speaking.
의과대학생은 어떻게 다른사람이 자신의 자기조절학습에 영향을 준다고 인시하는가? (Med Educ, 2017) How clinical medical students perceive others to influence their self-regulated learning Joris J Berkhout,1 Esther Helmich,1 Pim W Teunissen,2,3 Cees P M van der Vleuten2 & A Debbie C Jaarsma4
도입 INTRODUCTION
학생들은 특히 임상 전 의학 교육에서 임상 의학 교육으로 전환할 때 임상 환경에서 학습하는 데 어려움을 겪기 쉽습니다. 학생들은 자신이 무엇을 기대할 수 있고 무엇을 기대하는지 이해하기 어려워 불확실성이 커질 수 있다. 기본적으로 가르치고 배우도록 설계되지 않은 임상적 맥락에서 학생들은 더 이상 정확히 무엇을 배워야 하는지 듣지 못하며are told, 스스로의 학습을 통제할 것으로 기대된다. 소위 SRL(self-reculated learning)에 참여하는 것은 의대생들에게 큰 도전입니다. Students are prone to struggle with learning in clinical environments, especially when transitioning from preclinical to clinical medical education.1–3 Students may have a hard time understanding what they can expect and what is expected of them, resulting in high levels of uncertainty.4 In a clinical context that is not primarily designed for teaching and learning, students are no longer told what exactly to learn, and are expected to take control of their own learning.3 Being expected to engage in so-called self-regulated learning (SRL) poses a large challenge to undergraduate medical students.5
SRL에서 개인은 원하는 수준의 역량을 달성하기 위해 [정서적, 인지적, 행동적 프로세스]를 능동적으로 조절하여 학습의 방향을 설정한다direct learning. 여기에는 목표 설정, 감정 조절, 환경 구조화, 피드백 수집 및 자기 성찰이 포함됩니다. 많은 교육자와 연구자들은 SRL이 학습에 유익하다는 것에 동의한다. Bridges와 Butler의 SRL situated model에 따르면 SRL은 개인과 학습이 이루어지는 맥락 사이의 상호작용에서 발생하는 복잡한 프로세스이다. 따라서 SRL의 프로세스와 결과에 [개인과 맥락이 모두 영향]을 미친다. 따라서 SRL은 병원과 같이 정신없고 끊임없이 변화하는 환경에서 어려운 것으로 알려져 있습니다. In SRL, an individual proactively modulates affective, cognitive and behavioural processes, to direct learning in order to achieve a desired level of competence.6 This includes goal setting, emotion control, environment structuring, gathering feedback and self-reflection.6,7 Many educators and researchers agree on SRL being beneficial for learning.8,9 Following Brydges and Butler’s situated model of SRL, SRL results from a complex process that happens in the interaction between an individual and the context in which learning takes place.9 Consequently, both individual and context influence the process and outcome of SRL.10 Therefore, SRL is known to be difficult in a hectic, ever-changing environment, such as the hospital.11
역사적, 문화적, 교육학적, 물리적, 사회적 요인을 포함한 광범위한 [맥락적 요인]이 학생들의 SRL에 영향을 미치는 것으로 설명되었다. 사회문화적 관점에서 직장 기반 학습workplace-based learning은 사회적 과정이며 결과적으로 사회적 요소가 필수적입니다. 학생들의 SRL에 영향을 미치는 사회적 요인에는
직장에 있는 다른 사람들,
(그들과) 학생의 관계,
(그들과) 학생의 친숙함,
학생들에게 주는 피드백,
학생들이 SRL에 참여하고 독립적으로 연습할 수 있는 기회를 만들려는 다른 사람들의 의지,
이러한 사람들의 교육에 대한 경험과 동기부여
팀에 학생들의 참여
학생들이 팀으로부터 받는 사회적 지원.
A broad variety of contextual factors, including historical, cultural, pedagogical, physical and social factors, have been described to influence students’ SRL.6,11–15 From a socio-cultural perspective, workplace-based learning is a social process and consequently social factors are essential.16 Social factors that have been described to influence students’ SRL include
other people in a workplace,
students’ relationships with them,
students’ familiarity with them,
the feedback they give to students,
the willingness of other people to create opportunities for students to engage in SRL and practice independently,
these peoples’ experience in and motivation for teaching,
the engagement of students in the team and
the social support students receive from the team.9,11,13
이전의 연구는 학생들이 임상 환경에서 자신의 성과를 비교하고 정체성을 개발하기 위해 또래를 사용하는 방법 등 클리닉에서 학생들의 학습에 영향을 미치는 사회적 요인의 구체적인 측면에 초점을 맞추었다. 그러나 목표 설정, 다양한 규제 메커니즘 및 규제 평가를 포함하여 임상 환경에서 다른 사람들이 자율 규제 학습 과정에 어떻게 영향을 미치는지에 대한 연구는 없는 것으로 알고 있다.6
Previous research has focused on specific aspects of social factors that influence student learning in a clinic, such as how students use peers to compare their performance and develop an identity in a clinical environment.17–19 However, to our knowledge there have not been any studies on how others influence the process of self-regulated learning in clinical settings, including goal setting, various regulatory mechanisms and regulatory appraisals.6
본 연구에서는 특히 학생들의 SRL에 영향을 미치는 임상 환경의 사람들이 누구인지, 이러한 사람들이 어떤 영향을 미치는지, 어느 정도인지에 대해 관심을 가졌다. In this study we were specifically interested in: who are the people in a clinical environment affecting students’ SRL, how these people have an influence and to what extent.
방법 METHOD
설계 Design
우리는 현실이 주관적이고 맥락에 특정하며 궁극적인 진실은 없다고 믿고 [구성주의 패러다임]에 우리 스스로를 위치시킨다.24 SRL 참여에 영향을 미치는 관계에 대한 참가자의 관점을 체계적으로 분석하기 위해 근거 이론 방법론에서 질적 연구 차입 방법을 수행했으며, 목적적 샘플링을 사용하여 이론적 충분성에 도달할 때까지 반복적으로 데이터를 수집 및 분석하였다. 우리는 학생들이 자유롭게 자신의 개인적인 경험을 상세히 설명할 수 있는 안전한 환경을 만들기 위해 데이터 수집에 대한 개별 접근 방식을 선택했습니다. We position ourselves in a constructivist paradigm, believing that reality is subjective and context-specific and that there is no ultimate truth.24 We carried out a qualitative study borrowing methods from grounded theory methodology in order to do a systematic analysis of participants’ perspectives on relationships that are influential in their engagement in SRL, using purposive sampling and iteratively gathering and analysing data until theoretical sufficiency was reached.25 We chose an individual approach for the data collection to create a safe environment in which students would feel free to elaborate on their personal experiences.
세팅 Setting
우리는 매년 350명의 코호트에 입학하는 네덜란드의 한 의과대학의 의대생을 모집했다. 의료 커리큘럼에는 임상 전 단계(1~3년)와 임상 단계(4~6년)가 포함된다. 임상 단계는 3주에서 16주 사이의 순환 임상실습으로 구성됩니다. 이러한 임상실습에서 의대생들은 환자 진료와 관련된 다양한 활동에 참여합니다. 모든 학생은 비슷하게 지원받고 세심한 감독을 받는다. We recruited medical students from one large Dutch medical school with entering cohorts of 350 students per year. The medical curriculum includes a preclinical phase (years 1–3) and a clinical phase (years 4–6). The clinical phase consists of rotational clerkships ranging from 3 to 16 weeks. During these clerkships, medical students participate in a wide range of activities regarding patient care. All students are supported similarly and are closely supervised.
참여자 Participants
다양한 경험을 보장하기 위해 참가자들에게 연령, 성별, 경력 및 현재 임상실습과 관련된 의도적 표집을 실시하였다. To ensure a wide variety in experiences, the participants were purposively sampled regarding age, gender, experience and current clerkship.
우리는 14명의 학생들을 포함했다. 참가자에 대한 자세한 내용은 표 1에 나와 있습니다. 면접이 끝난 후 참가자들은 시간 보상으로 10유로의 상품권을 받았다. We included 14 students. Details of the participants are given in Table 1. After the interview, participants were given a €10 gift certificate as compensation for their time.
자료 수집 Data collection
첫 번째 저자가 모든 인터뷰를 진행했습니다. 그는 최근에 임상실습들을 직접 경험했기 때문에 학생들의 이야기를 공감하고 그들의 경험을 구상할 수 있었다. The first author conducted all the interviews. Because he has recently experienced the clerkships himself, he was able to relate to the students’ narratives and envision their experiences.
첫 번째 저자의 SRL 연구 경험은 Sitzmann과 Ely가 설명한 다양한 SRL 이론과 관련된 구조에 대한 구체적인 질문을 가능하게 했다. 부정적 영향은 후속 질문의 초점이 너무 맞추어져 있거나 개인적 경험에 의해 채색되어 있는 것일 수 있다.
The first author’s experience in SRL research allowed for specific questions regarding constructs related to various SRL theories as described by Sitzmann and Ely.6 A possible adverse effect might have been that follow-up questions were too focused or coloured by personal experiences.
면접관은 인구통계 및 의료적 이해관계에 대한 사전동의와 배경정보를 얻은 후 자기조절학습은 [목표설정, 계획, 모니터링, 진척상황 반성, 미래학습에 대한 생각을 통해 스스로 학습 방향을 지시하는 것]을 의미한다고 간략히 설명했다. 다음으로, 그는 참가자들에게 킹 외 연구진들이 묘사한 픽터 기법에 따라 특정한 환경에서 다른 사람들의 역할과 관계를 표현하도록 요청하였다. 학생들은 자율 학습에 영향을 미치는 모든 사람이나 집단을 화살표 모양의 접착식 노트에 기록하고 이 노트를 큰 종이에 붙여 화살에 그려진 사람들에게 영향을 받은 SRL의 시각적 표현이나 이야기를 작성하도록 지시받았다. 참가자들은 그들의 경험을 묘사하는데 있어서 어떤 면에서도 제한되지 않았다. 이들은 설명 단어, 화살표 또는 기타 시각적 도구를 포함하도록 요청받았으며 인터뷰 내내 픽터 차트를 변경할 수 있었습니다. 우리는 참가자들이 말뿐만 아니라 시각적으로도 이야기를 할 수 있도록 시각적 표현을 활용했습니다. 픽터 차트 작성 후 진행된 인터뷰는 약 1시간 동안 진행되었습니다. After obtaining informed consent and some background information regarding demographics and medical interests, the interviewer briefly explained that self-regulated learning refers to directing ones’ own learning through goal setting, planning, monitoring, reflecting on progress and thinking about future learning. Next, he asked participants to construct a representation of roles and relationships of other people in a specific setting following the Pictor technique as originally described by King et al.23 Students were instructed to write all people or groups influencing their self-regulated learning on arrow shaped adhesive notes and to stick these notes to a large sheet of paper, creating a visual representation or story of how their SRL was influenced by the people depicted on the arrows. Participants were not limited in any way in portraying their experiences. They were invited to include explanatory words, arrows or other visual tools and were allowed to change their Pictor chart throughout the interview. We used the visual representation as a prompt to help participants tell their stories not only through words but also visually. The interviews following the creation of the Pictor charts lasted for approximately 1 hour.
인터뷰는 음성녹음 후 전사되었다. 우리는 모든 학생들에게 가명을 주었다. 첫 번째 작성자는 인터뷰가 끝날 때마다 예비 분석을 실시했으며, 참가자들에게 member check이 가능하도록 인터뷰 요약을 반 페이지씩 제공했다. 참가자들은 또한 차트 사진을 받았고, 추가적인 변화가 필요한지 질문을 받았다.
The interviews were audio-recorded and transcribed verbatim. We gave all students an alias. The first author performed a preliminary analysis after each interview and provided participants with a half-page summary of the interview to enable a member check. Participants also received a picture of their charts and were asked if any supplemental changes were desired.
자료 분석 Data analysis
각 인터뷰가 끝난 후 첫 번째 저자(JB)는 스크립트와 픽터 차트를 모두 지속적인 비교를 통해 개방코딩하였고, 스크립트와 픽터 차트의 데이터를 검토하고 일치시키고자 했다. 인터뷰 기록과 픽터 차트는 오픈 코딩을 사용하여 지속적으로 유도적으로 비교되었습니다. 새로운 개념을 사용하여 다른 참가자들과의 다음과 같은 인터뷰를 안내했습니다. 개방 코딩 이후 축 코딩 및 해석 분석이 수행되었습니다. After each interview, the first author (JB) open coded both the transcripts and the Pictor charts using constant comparison to review and match the data in the transcript and Pictor chart. The interview transcripts and Pictor charts were constantly inductively compared using open coding. Emerging concepts were used to guide the following interviews with other participants. Open coding was followed by axial coding and interpretive analysis.
첫 번째 및 두 번째 저자(JB 및 EH)는 4개월의 기간 동안 격주로 분석의 대본, 픽터 차트 및 새로운 개념에 대해 논의했습니다. 또한, 분석 및 작성이 진행되는 동안 새롭게 떠오른 아이디어와 흥미로운 발견에 대해 연구 그룹과 총 6회에 걸쳐 논의했습니다. 우리의 해석을 추적하기 위해, 첫 번째 저자는 메모와 새로운 아이디어와 개념을 모두 기록할 수 있는 일지를 작성했습니다. 브리지와 버틀러에 의한 SRL의 위치 사회문화 이론과 SRL에 관련된 구성을 분석의 sensitizing concept으로 사용했으며, Sitzmann과 Ely의 메타 분석에서 보고되었다. The first and second author (JB and EH) discussed the transcripts, Pictor charts and emerging concepts of the analysis biweekly during a period of 4 months. Additionally, we discussed the emerging ideas and interesting findings with the research group during the analysis and writing-up, six times in total. To keep track of our interpretations, the first author kept memos and a log to record all emerging ideas and concepts. We used the situated sociocultural theory of SRL by Brydges and Butler and the constructs involved in SRL as reported in Sitzmann and Ely’s meta-analysis, as sensitising concepts supplementary to our analysis.6,9,26
Ethical considerations
결과 RESULTS
사람들은 역할 명확화, 목표 설정, 학습 기회, 자기 성찰, 감정 대처에 영향을 미침으로써 학생들의 SRL에 영향을 미칠 수 있습니다. 경험이 많은 학생들 중 다수는 임상실습을 거치면서 직장 내 다른 사람들의 역할과 관계에 대한 인식에 큰 변화를 느꼈다고 표현했습니다.
People could influence students’ SRL through affecting role clarification, goal setting, learning opportunities, self-reflection and emotional coping. Many of the more experienced students expressed that they perceived large changes in their perceptions of the roles of, and relationships with, others in the workplace as they progressed through the clerkships.
임상실습 초기 학생 Novice students in clerkships
초보 학생은 [핀볼이 핀볼 기계로 발사되는 것]을 비유적으로 특징 지을 수 있다. 학생들은 임상실습으로 옮겨졌고 뚜렷한 궤적 없이 임상 환경에서 앞뒤로 움직였으며, 이는 말론의 픽터 차트(그림 1)에 나타나 있습니다. 그는 지식이 보통 컨설턴트로부터 전공의들을 통해 자신에게로 흘러간다고 어떻게 생각하는지 묘사했다. 이 과정에서 많은 사람들이 그와 상호작용했고 양방향 화살표로 시각화된 그의 SRL에 영향을 주었다. 그의 Pictor 차트는 얼마나 많은 초보 학생들이 레지던트 및 동료들과 긴밀한 관계를 맺고 있는지를 보여줍니다. 임상 환경에서 환자, 간호사, 컨설턴트 등 타인이 초보자 SRL에 미치는 영향은 훨씬 작았다. 따라서 우선 레지던트들과 또래들이 초보 학생들의 SRL에 어떤 영향을 미쳤는지를 먼저 살펴보고, 이후에는 컨설턴트, 간호사, 환자가 어떤 영향을 미칠 수 있는지에 초점을 맞출 것이다. A novice student metaphorically can be characterised by a pinball being shot into a pinball machine. Students were launched into clerkships and they bounced back and forth in a clinical setting without a clear trajectory, which is illustrated by the Pictor chart of Marlon (Fig. 1). He portrayed how he perceived that knowledge usually flows from consultants through residents to him. During this process, many people interacted with him and influenced his SRL, visualised by the bidirectional arrows. His Pictor chart illustrates how many novice students describe having close relationships with residents and with peers. The influence of others, such as patients, nurses and consultants, in a clinical environment on novice students’ SRL was much smaller. We will therefore first focus on how residents and peers influenced novice students’ SRL and afterwards on the influence consultants, nurses and patients could have.
초보자 학생들의 SRL에는 대부분의 시간을 함께 보내는 사람인 전공의들이 결정적인 역할을 했다. 전공의는 SRL의 측면을 용이하게 할 수 있다. 레지던트는
초보자 학생들이 어떤 목표를 세워야 할지 결정할 수 있도록 도와줌으로써 초보자 학생들의 목표 설정에 영향을 미쳤고,
질문을 던짐으로써 반응적 on-the-spot 학습을 자극했으며,
학생들에게 피드백을 주고 간단한 질문(오늘 무엇을 배웠나요?)으로 성찰을 자극했기 때문에 자기 성찰에 중요한 역할을 했다.
Residents played a decisive role in novice students’ SRL because they are the people students spend most of their time with. Residents could facilitate aspects of SRL. Residents
influenced novice students’ goal setting through helping students decide what goals they should be working on,
stimulated reactive on-the-spot learning through the questions they asked, and
played an important role in aiding self-reflection because they gave feedback to students and stimulated reflection by simple questions such as: What did you learn today?
초보자 학생들은 [자신의 역량에 대한 자기평가 기준]으로 [전공의의 행동과 역량]을 어떻게 활용했는지를 설명하였다. 많은 초보자 학생들이 전공의로서 기능을 발휘하는 것이 얼마나 큰 목표였는지를 보여준다.
Novice students explained how they used residents’ behaviours and competencies as a standard of reference for self-assessment of their own competencies, indicating how a major goal of many novice students was to be able to function as a resident.
[동료peers]들은 많은 초보 학생들의 SRL에서 중요한 역할을 한 또 다른 그룹의 사람들이었다. 전공의와 마찬가지로 동료들도 SRL의 모든 측면을 촉진할 수 있다. 초보자 학생들이 새로운 역할에 대한 불확실성에 직면하고 그들에게 무엇을 기대해야 할지 모를 때, 그들은 종종 더 경험이 많은 또래들에게 그들을 안내해 달라고 부탁했다. 기본적인 소개 외에도, [무엇이 현실적인 학습목표]가 될 수 있는지, 특정 부서에서 구체적으로 해야 할 일과 하지 말아야 할 것에 대한 생각을 주었습니다. 학생들은 동료들에게 도움을 요청하는 데 있어 낮은 장벽을 경험했으며, 동료들은 서로에게 질문을 함으로써 반응적 현장 학습을 촉발할 수도 있습니다. 일부 고성능 동료는 역할 모델 역할을 할 수도 있습니다. 마지막으로 또래들은 사회적 비교를 통해 자기평가 기준을 정하고 질문을 통한 성찰을 자극하는 등 SRL의 자기성찰 과정에서 전공의들과 유사한 역할을 했다. 여기에 더해 또래들은 임상환경에서의 경험으로 인한 감정반응에 대처하는데 도움을 줄 수 있기 때문에 초보자 학생들의 SRL에서 독특한 역할을 했다. 또래와 정서적 경험을 나누는 것은 사회적 지지의 중요한 원천으로 경험되었다. 그러나 일부 학생들은 경쟁심을 느껴 SRL을 방해하는 또래 학생들도 있다고 보고했다. Peers were the other group of people who played an important role in many novice students’ SRL. Similar to residents, peers could also facilitate all aspects of SRL. When novice students faced uncertainty in their new roles and were unclear of what was expected of them, they often asked more experienced peers to show themaround. Besides a basic introduction, this gave themsome idea of what realistic learning goals may be and the specific dos and don’ts of the department. Students experienced a low barrier to asking peers for help, and peers could also trigger reactive on-the-spot learning by asking each other questions. Some high-functioning peers could even serve as role models. Lastly, peers played a similar role to residents in the self-reflection process of SRL by setting a standard of reference for selfassessment through social comparison and by stimulating reflection through questions. Additionally to this, peers played a unique role in novice students’ SRL because they could assist in coping with emotional reactions resulting fromexperiences in a clinical environment. Sharing emotional experiences with their peers was experienced as an important source of social support. However, some students also reported peers hindering their SRL because they experienced a feeling of competition.
또한픽토 차트에서 초보자 학생들은 그들의 SRL에 영향을 미치는 것으로 컨설턴트, 간호사, 환자를 언급했지만, 그 정도는 덜했다.
초보자 학생들은 컨설턴트와 거의 접촉하지 않았다고 설명했지만, 컨설턴트는 초보자 학생들에게 자신이 할 수 있는 목표에 대해 알려줄 수 있었다.
목표 설정 외에도 컨설턴트와 간호사가 안전한 학습 환경과 긍정적인 분위기를 조성하고 학생들이 팀에 참여하는 데 중요한 역할을 했습니다. 이것은 초보 학생들의 SRL 전략을 촉진시켰는데, 이는 그들이 실수를 저지르고, 질문을 하고, 학습 기회를 만들고, 피드백을 구할 수 있게 해주었기 때문이다.
초보 학생들은 컨설턴트나 간호사 등 다른 사람들을 관찰하며 배우기도 한다. 이 롤모델 함수는 메건의 인용문에 예시되어 있습니다.
환자의 문제가 학습 기회의 내용을 결정했기 때문에, 환자의 영향은 학습 기회에 영향을 미치는 것으로 제한되었습니다. 컨설턴트와 간호사의 질문과 마찬가지로 환자와 그 가족의 질문도 반응적 현장 학습을reactive on-the-spot learning 시작할 수 있다.
In their Pictor charts novice students also referred to consultants, nurses and patients as influencing their SRL, but to a lesser extent.
Consultants could instruct novice students about the goals they could be working on, although novice students explained that they rarely had contact with consultants.
Besides goal setting, consultants and nurses played an important role in creating a safe learning environment and a positive atmosphere and engaging students in the team. This facilitated novice students’ SRL strategies because this permitted themto make mistakes, ask questions, create learning opportunities and seek feedback.
Novice students also learned by observing others such as consultants and nurses. This role model function is exemplified in the quote by Megan.
A patient’s influence was limited to affecting learning opportunities because a patient’s problemdetermined the content of learning opportunities. Questions from patients and their families, similar to questions from consultants and nurses, could also initiate reactive on-the-spot learning.
경험이 쌓인 임상실습생 Experienced students in clerkships
초심자novice 학생을 핀볼머신의 핀볼로 특징지을 수 있다면, 경험 많은experienced 학생은 내리막길을 굴러가는 눈덩어리라고 생각할 수 있다. 이 학생들은 학습의 궤적이 명확해지면서 구르면서 더욱 강력해지고, 중요한 장애물만이 그들의 진로에서 벗어나게 만든다고 설명했습니다. Laci의 Pictor 차트(그림 2)는 이를 시각적으로 보여줍니다. 화살에 근접해 있다는 것은 그녀가 자신의 SRL에 도움이 되는 의사 보조원이나 간호사 등 많은 다른 사람들을 어떻게 인식했는지를 나타냅니다. Laci의 Pictor 차트는 Marlon의 차트보다 더 체계적이며 그녀가 임상 환경을 이해하고 임상 팀의 진정한 구성원처럼 느꼈던 방식을 상징합니다.
If novice students can be characterised as pinballs in a pinball machine, experienced students can be thought of as snowballs rolling downhill. These students explained a clear trajectory in their learning, becoming more powerful whilst rolling, and that only significant obstacles could deviate them from their path. The Pictor chart of Laci (Fig. 2) illustrates this visually. The proximity of the arrows to herself portrays how she perceived many others, such as physician assistants and nurses, to be beneficial to her SRL. Laci’s Pictor chart is also more structured than Marlon’s and symbolises how she understood the clinical environment and felt like a true member of the clinical team.
그녀는 자신의 그림 차트에 있는 모든 사람들을 자신의 학습에 유익하게 사용하는 전략을 논의했습니다. 이러한 전략들 때문에, 일반적으로 한 사람single person이 SRL에 미치는 영향은 초보 학생들에 비해 작았다. 경험 많은 학생들은 종종 어떤 의사가 되고 싶은지 분명한 목표를 가지고 있었습니다. 목표 설정을 돕기 위해 동료가 필요하지 않았지만 컨설턴트의 도움에 더 의존하여 적절한 학습 기회를 창출했습니다. 이는 말론의 차트와 비교했을 때 라시의 픽터 차트에 잘 나타나는데, 이는 동료와 자신의 화살표 사이의 거리가 더 큰 반면 컨설턴트를 나타내는 화살표는 자신과 더 가깝고 다른 전문 분야의 컨설턴트도 언급되기 때문이다. 초보생과 같은 순서로 레지던트, 또래, 컨설턴트, 간호사, 환자 등의 역할을 논의한다. She discussed having strategies to use all people in her Pictor chart to benefit her learning. Because of these strategies, the influence a single person had on her SRL in general was smaller than for novice students. Experienced students often had a clear objective of what kind of doctor they wanted to become. They did not need peers to help with goal setting, but were more dependent on the help of consultants to assist them in creating adequate learning opportunities. This is illustrated in Laci’s Pictor chart, compared with Marlon’s chart, as the distance between the arrow representing peers and her own is larger, whereas the arrows representing consultants are closer to her own and consultants of other specialties are also mentioned. We will discuss the roles of residents, peers, consultants, nurses, patients and others in the same order as for the novice students.
(Novice와 비교했을 때) Experienced student에게는 전공의의 역할이 달랐다. 왜냐하면 이들은 전공의를 near-peers로 생각하기 시작했기 때문이다. 이로 인해 전공의는 SRL의 모든 측면에 영향을 미치지만, 경험 많은 학생의 SRL에 결정적이지는 않았다. 또한, 전공의들은 정서적 경험에 대처하는 것을 지지할 수 있고 사회적 지원의 감정을 조성할 수 있다. Experienced 학생들은 또한 그들의 개인적인 목표를 전공의들과 공유할 가능성이 더 높았다. 이는 전공의들이 최근 비슷한 상황에 처했을 가능성이 높기 때문에 특정 목표에 도달하기 위한 효과적인 전략을 제공할 수 있다는 것을 깨달았기 때문이다. 인터뷰에서 (experienced) 학생들은 전공의들이 [학생들에게 해야 하거나 배워야 하는 것을 지시하는 것]이 아니라, (경험 많은 학생들에게는) SRL을 지원하기 위해 필요한 [자율성과 책임을 제공하는 것]이 중요하다고 강조했다. The role of residents is different for experienced students compared with novice students, because experienced students started to regard residents as near-peers. This resulted in residents affecting all aspects of SRL, but not being decisive in the SRL of experienced students. Additionally, residents may also support coping with emotional experiences and may create a feeling of social support. Experienced students were also more likely to share their personal goals with residents. This was because they realised the residents might be able to provide effective strategies to reach certain goals, as residents were likely to have recently been in a similar situation. In the interviews, students emphasised that it was important that residents provided experienced students with the autonomy and responsibilities they require in order to support their SRL, instead of just directing what students had to do or learn.
초보 학생들과 마찬가지로 경험 많은 학생들도 SRL을 위해 또래들을 자주 이용했다. 피어는 SRL의 모든 측면에 영향을 줄 수 있지만 그 영향은 작았다. 또래 학생들은 목표 설정에 큰 영향을 미치지 않았고, 경험 많은 학생들은 임상 환경의 정서적 경험에 대처할 수 있었기 때문에 정서적 지지의 필요성이 적었다. Jennifer가 설명했듯이, 동료들은 예를 들어, frame of reference로 기능함으로써, experienced students의 SRL에 상당한 영향을 미친다influential role. Similar to novice students, experienced students also frequently used peers for their SRL. Peers could influence all aspects of SRL, but their influence was smaller. Student-peers did not have a large influence on their goal setting and experienced students were able to cope with the emotional experiences of a clinical environment; therefore, the need for emotional support was smaller. Peers do have an influential role in experienced students’ SRL, for instance by functioning as a frame of reference, as Jennifer explained.
Experienced students는 (초보 학생의 SRL에 있어서) 레지던트 역할을 부분적으로 수행했기 때문에, 컨설턴트의 역할이 초보자보다 훨씬 컸다.
컨설턴트는 목표 설정에는 거의 영향을 미치지 않았지만 학생들에게 가장 흥미롭고 도전적인 학습 기회를 부여할 수 있는 전문가로 평가되어 학습 기회와 전략에 큰 영향을 미쳤다. 컨설턴트와 전공의들은 [경험 있는 학생들의 SRL을 위한 기회]에 큰 영향을 미쳤다.
대부분의 경험 많은 학생들은 컨설턴트, 레지던트, 동료들이 만든 [학습 환경의 안전성에 대한 의존도가 낮다]고 설명했다.
원하는 것이 무엇인지 알고 있기 때문에, 필요하다고 느낄 때 집중적인 피드백을 요청하였으며, [평가보다는 학습에 더 신경]을 쓴다고 설명했다.
경험이 많은 학생들은 동기부여가 낮은 컨설턴트, 레지던트, 또래, 간호사들이 자신들이 쏟는 노력을 방해할 수 있지만, [학생 스스로 본질적인 동기부여와 목표, 학습전략을 가지고 있다]고 설명했다.
특히 많은 경험 많은 학생들의 SRL은 자율감, 목표와 함께 책임감 증가, 자극적인 사람들에 둘러싸여 있다는 느낌이었다.
The role of consultants in the learning of experienced students was much bigger than for novice students because they partially fulfill the role residents’ play in novice students’ SRL.
Consultants had little influence on goal setting, but had a large impact on learning opportunities and strategies because consultants were regarded as experts who could grant students the most interesting and challenging learning opportunities. Together, consultants and residents had a major influence on experienced students’ opportunities for SRL.
Most experienced students described a smaller dependence on the safety of the learning environment created by consultants, residents and peers.
Because they knew what they wanted, they would ask for focused feedback when they felt they needed it, and explained that they cared more for learning than assessment.
Experienced students explained that consultants, residents, peers and nurses with low motivation could hinder the amount of effort they put in, but that students themselves still had their own intrinsic motivation, goals and learning strategies to rely on.
Especially important for many experienced students’ SRL was a feeling of autonomy, getting increasing responsibilities in line with their goals, and being surrounded by stimulating people.
초보자에 비해, 임상환경에서 (간호사, 기획담당자 등) 타인이 Experienced students의 SRL에 미치는 영향은 크다. 경험이 많은 학생들은 [임상 팀의 일원]으로서 더 많은 것을 느꼈고 SRL 전략에 [다른 사람들을 참여시키는 방법]을 배웠습니다. 경험이 많은 학생들은 동료, 컨설턴트, 간호사를 포함한 많은 다른 학생들과 목표를 공유하며 자신의 지식을 사용하여 목표를 달성하기 위해 어떤 전략을 사용할지 논의합니다.
The influence of others, such as nurses and the people in charge of the planning, on experienced students’ SRL in a clinical environment is large in comparison to novice students. Experienced students felt more a part of a clinical team and knew how to involve others in their SRL strategies. Experienced students would share their goals with many others, including peers, consultants and nurses, using their knowledge to discuss which strategy to use to achieve their goals.
초보자에서 숙련된 학생으로 전환 Transitioning from novice into an experienced student
자신의 임상실습을 돌아보며, 많은 경험 많은 학생들은 그들이 어떻게 변했는지를 설명했는데, 그 이유는 [그들 스스로 자신의 학습에 대해 통제해야 한다는 것]을 깨달았기 때문이다. [학습의 주도권]을 쥐게 되면서 학습 목표에 더욱 집중하게 되고, 보다 효율적인 학습 전략을 사용하며, 학생들이 필요하다고 느끼는 역량을 성취하는 데 대한 피드백을 요청하게 되었다. 학생들이 이 과정을 설명하는 방법에는 여러 가지가 있었다. 많은 경험 많은 학생들은 임상실습에서 3~6개월을 보낸 후 이런 일이 일어났다고 설명했다. Looking back on their clerkships, many of the experienced students explained how they had changed because they gradually realised they needed to take control of their learning. Taking control of one’s learning led to more focused learning goals, using more efficient learning strategies, and asking for feedback on achieving the competencies students felt they needed. There were multiple ways students described this process. Many experienced students explained that this happened after 3–6 months in the clerkships.
그 시점에 그들은 자신이 어떤 의사가 되고 싶은지 깨닫기 시작했고, 그에 따른 학습 목표를 설정했다.
그들은 임상 환경에서 더 편안함을 느꼈고, 자신들이 '방해꾼'이 아닌 임상 팀에 부가가치가 될 수 있다는 것을 깨달았다.
많은 학생들은 정서적 임상 상황에 대처하기 위한 효과적인 전략을 가지고 있다고 설명했습니다.
그들은 [질문을 하고, 학습 기회와 피드백을 요청함으로써] 더 자주 학습에 많은 사람들을 참여시켰습니다.
이들은 컨설턴트와 대화할 때 위계적 장벽을 덜 느꼈고, 전공의들은 더 이상 우상화되지 않았으며, 종종 더 경험이 많은 동료로 여겨지기도 했다.
At that point they started to realise what type of doctor they wanted to become and set learning goals accordingly.
They felt more comfortable in a clinical environment and realised they could be of added value to a clinical team, instead of being a ‘nuisance’.
Many students described having effective strategies to cope with emotional clinical situations.
They frequently involved many people in their learning by asking questions, and asking for learning opportunities and feedback.
They experienced less of a hierarchical barrier when talking to consultants and residents were no longer idolised, but often seen as more experienced near-peers.
고찰 DISCUSSION
본 연구는 역할 설명, 목표 설정, 학습 기회, 자기 성찰, 정서 대처에 영향을 미침으로써 임상 환경에서 다른 사람들이 학부생들의 SRL에 어떻게 영향을 미치는지 통찰합니다. Our study provides insight into how other people influence undergraduate medical students’ SRL in a clinical environment through affecting role clarification, goal setting, learning opportunities, self-reflection and emotional coping.
[초보자]로서, 학생들의 사회적 맥락은 그들이 함께 일하는 의료팀에만 국한된다. 그 결과, 초보자 학생들의 SRL은 종종 [전공의과 동료들의 지원에 크게 의존]한다. 이것은 그들과 상호작용하는 누군가에 의해 쉽게 영향을 받을 수 있으며, 따라서 그들의 SRL은 종종 [핀볼과 같은 예측 불가능한 궤적]을 가질 수 있다. As novices, students’ social contexts are limited to the medical teamthey work with. As a result, novice students’ SRL often heavily relies on the support of residents and peers. It can be easily affected by anyone interacting with them, and therefore their SRL may often have the unpredictable trajectory of a pinball.
[경험이 많은 학생들]은 임상 환경에 대한 이해가 더 높기 때문에, 사회적 맥락을 더 잘 탐색하고 특정 목표에 도달하는 데 도움을 받을 수 있습니다. 이러한 학생들이 임상 환경에서의 학습을 파악해나가고, 자신의 역할이 무엇인지 알고, 자신이 되고자 하는 사람이 누구인지 알게 되기 때문에 SRL이 더 잘 이뤄진다. experienced students appear to be able to enhance their understanding of a clinical environment, enabling themto better navigate the social context and find support in reaching specific goals. Their SRL is further supported as these students get a grasp of learning in a clinical environment, knowing what their role is, and knowing who they want to become.
학생들이 다른 사람들이 자신의 SRL에 영향을 미친다고 인식하는 방식은 문화, 교육학, 사회 환경을 다르게 해석하는 데서 비롯되는 것으로 보인다.
초보 학생들은 자신의 역할에 대한 이해가 부족하여 임상 직장 문화를 탐색하지 못하는 경우가 많습니다. 초보 학생들은 다른 사람들이 자신의 학습에 적극적으로 관여하기를 기대합니다. 초보 학생 스스로가 SRL에 자주 교류하는 사람들만 적극적으로 참여시킨다.
반면에 경험 많은 학생들은 함께 일하는 많은 사람들과 관계를 쌓기 위해 노력했습니다. 그들은 컨설턴트를 그들의 학습에 관여시키고, 그것으로부터 이익을 얻으려고 더 적극적으로 노력했습니다.
How students perceive others to influence their SRL seems to result from interpreting culture, pedagogy and a social environment differently.
Novice students are often unable to navigate a clinical workplace culture because of a lack of understanding of their role in it. Novice students expect others to actively engage in their learning. Novice students themselves only actively involve people they have frequent interactions with in their SRL.
Experienced students on the other hand tried to build relations with many people they worked with. They more actively tried to engage consultants in their learning and benefit from it.
초보 학생들은 [자신의 added value가 거의 없거나, 심지어 임상 팀에 성가신 존재라는 느낌] 때문에 SRL이 방해를 받는다고 보고했다. 이러한 느낌은 그들의 전임상 교육에서 비롯될 수 있으며, 한 개인의 SRL은 [역사와 경험의 영향]을 받기 때문에, 이 학생들이 역사적으로 어떻게 학습하도록 훈련받았는지를 반영한다. 초보 학생들은 이런 감정적인 스트레스를 다루기 힘들어했는데, 이는 스스로를 unwanted한 사람으로 느끼게 했기 때문이다. 그들은 이러한 감정이 SRL을 하려는 동기를 감소시킬 수 있으며, 이러한 감정을 극복하기 위해서는 동료들의 정서적인 지원이 필요하다고 설명했다. 하지만 학생들 사이에 경쟁이 느껴진다면feeling of competition 또래들의 [정서적 지지]가 억제될 수 있다.
Novice students reported their SRL to be hindered by a feeling of being of little added value or even being a nuisance to a clinical team. This feeling may be founded in their preclinical education and reflect how they are historically trained to learn, as a person’s SRL is influenced by history and experiences.9 Novice students had difficulty coping with this emotional stress because it made them feel unwanted. They explained that this could decrease their motivation for SRL and required emotional support from peers to overcome these feelings. Emotional support by peers could be inhibited if there was a feeling of competition among students.
강점과 한계 Strengths and limitations
교육 및 연구 함의 Implications for practice and future research
우선, 우리의 연구 결과는 초보 학생들이 새로운 환경에서 완전히 자율적으로 학습하기를 기대하는 것이 많은 사람들에게 매우 어려울 수 있다는 믿음을 강화합니다. 따라서 초보자도 타인의 적극적인 지원으로 효익을 얻을 수 있다. 또한 초보 학생들은 컨설턴트와 거의 교류하지 않는 것으로 나타났습니다. 따라서 이러한 맥락에서 개발 이니셔티브는 전공의가 학생의 SRL을 효과적으로 지원할 수 있도록, 전공의에게 더 잘 초점을 맞출 수 있다. 임상 환경에서 학생의 학습에 대한 [전공의와 동료의 중요성]은 역할 모델링 및 사회적 비교에 대해 이전에 설명되었습니다. 우리의 결과는 (특히 초보자 학생들에게) 이러한 중요성을 더욱 강조합니다. 왜냐하면 학생들이 [또래와 전공의들이 목표 설정, 기회, SRL 전략 및 자기 성찰에 가장 큰 영향을 미친다]고 보고했기 때문입니다.
First of all, our findings strengthen the belief that expecting novice students to fully self-regulate their learning in a new environment may be very difficult for many. Thus, novices may benefit fromactive support by others. Our results also show that novice students report rarely interacting with consultants. In this context, development initiatives may therefore be better focused on residents to enable themto effectively support students’ SRL. The importance of residents and peers for students’ learning in a clinical environment has been described before regarding role modelling and social comparison.18,32 Our results emphasise this importance even more (especially for novice students) because students reported that peers and residents have the largest impact on their goal setting, opportunities, SRL strategies and self-reflection.
아마도 가장 중요한 것은 임상 환경에서 [초보 학생의 '핀볼']에서 [경험많은 학생의 '스노볼']로, 그리고 뒤이은 SRL로의 전환은 [임상 환경에서 편안함]을 느끼는 것에서 기인하며, 궁극적으로는 [개인적 목표를 향해 작업work]하는 것을 촉진한다. 따라서 종단적 통합 임상실습 및 조기 임상 노출의 원칙에 따라 임상실습에서의 학생 배치를 늘림으로써 임상 환경에서 학생들의 SRL을 지원할 수 있다. 이를 통해 학생들은 어휘를 포함한 공동체 문화에서 길을 찾을 수 있고, 전환의 스트레스를 줄일 수 있으며, 초보 학생들이 자신의 역할을 이해하도록 돕고, 궁극적으로 학생들이 건강관리팀의 일원이 될 수 있도록 도와준다.
Perhaps most importantly, a student’s transition from a novice ‘pinball’ to an experienced ‘snowball’ and subsequent SRL in a clinical environment appears to result fromfeeling comfortable in a clinical environment and facilitates working towards personal goals. Therefore supporting students’ SRL in a clinical environment could be improved by lengthening student placements in a clerkship, following principles of longitudinal integrated clerkships and early clinical encounters. This enables students to find their way in the culture of the community, including the vocabulary, reduces the stress of transitions, helps novice students understand their role and ultimately helps students become part of the health care team.28,33–35
6 Sitzmann T, Ely K. A meta-analysis of self-regulated learning in work-related training and educational attainment: what we know and where we need to go. Psychol Bull 2011;137 (3):421–42.
23 King N, Bravington A, Brooks J, Hardy B, Melvin J, Wilde D. The Pictor technique: a method for exploring the experience of collaborative working. Qual Health Res 2013;23 (8):1138–52.
Med Educ. 2017 Mar;51(3):269-279.
doi: 10.1111/medu.13131.Epub 2016 Nov 23.
How clinical medical students perceive others to influence their self-regulated learning
1Center for Evidence-Based Education, Academic Medical Center (AMC-UvA), University of Amsterdam, Amsterdam, The Netherlands.
2Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, The Netherlands.
3Department of Obstetrics and Gynecology, VU University Medical Center, VU University Amsterdam, Amsterdam, The Netherlands.
4Center for Research and Innovation in Medical Education, University Medical Center Groningen, University of Groningen, Groningen, The Netherlands.
Objectives:Undergraduate medical students are prone to struggle with learning in clinical environments. One of the reasons may be that they are expected to self-regulate their learning, which often turns out to be difficult. Students' self-regulated learning is an interactive process between person and context, making a supportive context imperative. From a socio-cultural perspective, learning takes place in social practice, and therefore teachers and other hospital staff present are vital for students' self-regulated learning in a given context. Therefore, in this study we were interested in how others in a clinical environment influence clinical students' self-regulated learning.
Methods:We conducted a qualitative study borrowing methods from grounded theory methodology, using semi-structured interviews facilitated by the visual Pictor technique. Fourteen medical students were purposively sampled based on age, gender, experience and current clerkship to ensure maximum variety in the data. The interviews were transcribed verbatim and were, together with the Pictor charts, analysed iteratively, using constant comparison and open, axial and interpretive coding.
Results:Others could influence students' self-regulated learning through role clarification, goal setting, learning opportunities, self-reflection and coping with emotions. We found large differences in students' self-regulated learning and their perceptions of the roles of peers, supervisors and other hospital staff. Novice students require others, mainly residents and peers, to actively help them to navigate and understand their new learning environment. Experienced students who feel settled in a clinical environment are less susceptible to the influence of others and are better able to use others to their advantage.
Conclusions:Undergraduate medical students' self-regulated learning requires context-specific support. This is especially important for more novice students learning in a clinical environment. Their learning is influenced most heavily by peers and residents. Supporting novice students' self-regulated learning may be improved by better equipping residents and peers for this role.
시험을 마친 후의 의과대학생의 자기조절의 영향 (Med Educ, 2012) Influences on medical students’ self-regulated learning after test completion Sacha Agrawal,1 Geoffrey R Norman2 & Kevin W Eva3
도입 INTRODUCTION
최근 몇 년 동안 [assessment practice]는 점점 더 [성과를 측정할 수 있는 기회]뿐만 아니라 [그 자체로 교수 및 학습 활동]으로 간주되고 있다. 오랫동안 '평가 꼬리가 커리큘럼 개를 좌우한다'는 주장이 제기되어 왔으며, 그 중에서도 뉴블과 예거는 선택한 평가 전략이 학생들의 학습 활동에 영향을 미칠 것임을 입증해 왔다. 그러나 이 대화의 초점은 최근 들어 발전했다. 보다 확립된 담론은 일반적으로 [시험]은 학습자가 [더 큰 부담stakes에 부합하는 영역]에서 [좋은 성과를 보장]하기 위하여 [학습 접근 방식과 우선순위를 변경]하는 방식을 통해 학습에 간접적인 영향을 미친다는 개념에 초점을 맞추고 있습니다. 예를 들어, Newble과 Jaeger가 학생들의 공부 행동1에 집중하는 것과 시험이 임박했을 때 [학습량이 증가한다]는 것을 보여주는 다양한 연구2에서 이러한 사실이 입증된다. 그러나 최근에는 시험이 학생 학습에 미치는 직접적인 영향에 대한 추가적인 논의가 있었으며, 이러한 대화 중 가장 두드러진 것은 '시험 강화 학습test-enhanced learning'으로 알려진 현상에 초점을 맞추고 있다.3 In recent years there has been a considerable increase in the extent to which assessment practices are thought of not only as opportunities to measure performance, but as teaching and learning activities in their own right. It has long been argued that ‘the assessment tail wags the curriculumdog’, and Newble and Jaeger,1 among others, have demonstrated that the assessment strategies chosen will influence students’ learning activities. The focus of this conversation, however, has evolved of late. The more established discourse has generally centred on the notion that testing has indirect effects on student learning by leading learners to change their study approach and priorities to ensure good performance in the domains that align with greater stakes. This is evidenced, for example, in Newble and Jaeger’s focus on students’ study behaviour1 and in a variety of studies2 demonstrating that the amount of studying increases when tests are imminent. More recently, however, there has been additional discussion of the direct effects of testing on student learning and the most prominent of these conversations has focused on a phenomenon known as ‘test-enhanced learning’.3
시험 강화 학습은 아마도 1620년에 쓴 프란시스 베이컨(4)의 말에 가장 잘 묘사되어 있을 것이다. '[한 개의 텍스트를 20번 읽는 것]보다 [외우려고 시도하면서, 그리고 잘 안 외워지면 원문을 찾아보며 10번을 읽을 때]더 많이 배울 것이다'. Roediger와 Karpicke5는 이 인용문을 사용하여 [시험이 학습을 향상시키는 것은 단순히 학습이 반복적으로 이뤄지기 때문만은 아니다]라는 개념이 새롭지 않음을 보여줬다. 다만, 공식 교육 환경에서 과소평가되고 충분히 활용되지 못했을 뿐이다. 그들은 테스트 효과가 단순히 [작업 시간time on task]에만 기인하지는 않는다는 것을 명확히 보여주는 심리학에 관한 광범위한 문헌을 검토한다. 이는 (Bacon의 격언에서 제시된 바와 같이) 소재에 대한 노출이 반복적인 학습을 위해 편향된 경우에 조차 종종 [시험의 효익]이 나타나기 때문이다. Test-enhanced learning is perhaps best described in the words of Francis Bacon,4 who, in 1620, wrote: ‘If you read a piece of text through twenty times, you will not learn it by heart so easily as if you read it ten times while attempting to recite it from time to time and consulting the text when your memory fails.’ Roediger and Karpicke5 use this quote to demonstrate that the notion that testing improves learning beyond that afforded by repeated study is not new despite the fact that the phenomenon has been underappreciated and underutilised in formal educational settings. They review an extensive literature in psychology that clearly indicates the testing effect cannot be attributed simply to time on task as the benefits of testing are often seen even when the exposure to the material is biased in favour of repeated study, as suggested by Bacon’s maxim.
시험 강화 학습에 대한 일반적인 연구에서는 학습자에게 일련의 학습 자료를 제시하며 학습 자료를 여러 번 학습하거나 한 번 학습한 후 시험을 완료하도록 랜덤화됩니다. 그런 다음 실험 세션 직후(예: 5분) 또는 더 상당한 지연 후(예: 1주) 최종 테스트가 주어집니다. In a typical study of test-enhanced learning, learners are presented with a set of material and are randomised to study the material multiple times or to complete a test after studying the material once. Students are then given a final test shortly (e.g. 5 minutes) after the experimental session or after a more substantial delay (e.g. 1 week).
일반적으로 Roediger와 Karpicke가 보고한 바와 같이, (단순 반복 학습과 비교했을 때) [사전 테스트prior testing]는 [즉각적 테스트immediate testing] 조건에서 차이가 없거나, 심지어는 더 점수가 낮은 경우에도, [지연된 테스트delayed test]에서 더 나은 인출을 보여주기 때문이다. Generally, as reported by Roediger and Karpicke,6 prior testing yields better recall on delayed tests relative to repeated study even when differences do not exist or may be reversed in immediate testing conditions.
현재 선호되는 이러한 편익이 발생하는 메커니즘은 인식cognition의 현재 모델에 의존하며, 이는 회상 가설retrieval hypothesis로 알려져 있다. 회상 가설이란 기억에서 정보를 검색하는 행위가 메모리 추적을 강화하여 미래에 필요할 때 정보를 검색할 수 있도록 한다는 것이다. 이러한 개념적 프레임워크는 학습을 위해 시험을 최적으로 구현하는 방법에 대한 유용하고 구체적인 제안을 도출하는 많은 실험 연구로 이어졌다. 예를 들어, Larsen 등은 테스트가 자주 반복되고 시간이 지남에 따라 간격을 두어야 한다고 지적했다. 테스트는 가능한 한 항상 [정보의 생성]을 요구해야 하며, [정답에 대한 피드백]을 즉시 제공할 필요는 없지만 제공해야 한다. 즉, (비록 두 형식이 학습을 개선하는 것으로 나타났지만) 간단한 객관식 문제 시험보다 단답형 시험이 선호된다.
The presently favoured mechanism by which this benefit is thought to occur (known as the retrieval hypothesis) draws on current models of cognition by suggesting that the act of retrieving information from memory strengthens the memory trace and, thus, makes the information more likely to be retrievable when it is needed in the future. This conceptual framework has led to many experimental studies that have yielded useful and concrete suggestions as to how testing might optimally be implemented for learning. For example, Larsen et al.3 have indicated that tests should be frequent, repeated and spaced out over time; they should require the production of information whenever possible (i.e. short-answer tests are preferred over simple multiplechoice question tests, although both formats have been shown to improve learning), and feedback about the correct answers should be provided, although not necessarily immediately.
보건 전문 교육 커뮤니티 내에서, 심리학의 [시험 강화 학습]에 대한 연구의 성장은 적절한 시기에 성장했다. 바로 보건 전문 교육자들이 [(성과 개선 노력이 뒷받침될 수 있는 토대로서) 자기-평가]의 가치에 대해 점점 회의적이 되어가고 있던 시기였다. 동시에 이들은 [외부적으로 유도된externally derived 데이터가 제공하는 교육적 가치]에 대한 인식을 높일 것을 요구했습니다. Within the health professional education community, the growth of research into test-enhanced learning in psychology proved timely as it emerged at a time when health professional educators were growing increasingly sceptical of the value of self-assessment as the foundation on which performance improvement efforts can be built7,8 and were calling for greater awareness of the pedagogic value provided by externally derived data.9
의대 교육이 [시험 강화 학습]의 적용으로 혜택을 받을 수 있다는 라르센 외 연구진의 제안이 발표된 이후 비교적 짧은 기간 동안, 연구자들은 다음을 확인했다. 이러한 효과가 의학적 지식에도 일반화될 수 있으며, 스킬 학습에도 동일하게 적용될 수 있고, 관찰된 편익이 일반적으로 실험실 기반 실험에서 연구되는 것보다 훨씬 더 오래(최대 6개월) 지속될 수 있다는 것이다. 나아가, [발달 시험progress test]의 구현이 커리큘럼 수준에서 달성된 학습 성과에 어떻게 큰 영향을 미칠 수 있는지를 설명하기 위해 시험 강화 학습 프레임워크를 사용해 왔다.
In the relatively short period since the publication of Larsen et al.’s3 suggestion that medical education could benefit fromthe application of test-enhanced learning, researchers have confirmed that the effects do generalise to medical knowledge,10 that they are equally applicable to skills learning,11 and that the benefits observed may last much longer (up to 6 months) than is typically studied in laboratory-based experiments.12 Furthermore, the test-enhanced learning framework has been used to help elucidate how the implementation of progress testing is able to have a major impact on learning outcomes achieved at a curricular level.13
그러나 시험 강화 학습이 실제로 연구 대상 자료의 [원시 기억력raw memorability]을 변화시켜 [직접적인 영향]을 미치는지, 또는 [학습 행동study behavior]을 변화시켜 (실제로 뉴블과 예거의 개념과 더 잘 부합하는 방식으로) [간접적인 영향]을 미치는지 여부는 여전히 불분명하며, 이것이 결과적으로 장기적인 성과로 이어진다.
설명하자면, 시험의 간접적인 효과는 일반적으로 [전향적 현상prospective phenomena]으로 간주됩니다. 즉, 학생들은 시험을 기대하게 되고 그 결과, 시험을 준비하기 위해 학습 행동을 변화시킵니다.
그러나 이러한 테스트 효과를 [후향적인retrospective 것]으로 볼 수도 있다. 즉, 학생들은 시험을 보았고, 그 결과 자료에 대해서 생각하고, 틀린 것에 대해 혼란스러워하고, 정답을 정확히 이해하는데 도움이 될 수 있는 정보를 찾찾으며 더 많은 시간을 자료를 가지고 보냈다.
It remains unclear, however, whether test-enhanced learning truly has a direct effect by altering the raw memorability of the material being studied, or whether it may actually have an indirect effect more compatible with the notions of Newble and Jaeger1 by altering study behaviour, which, in turn, leads to better long-term performance.
To explain, indirect effects of testing are usually thought of as prospective phenomena: students expect to be tested and, as a result, they alter their study behaviours in preparation for the test.
It is possible, however, that such testing effects may just as readily be retrospective: students have been tested and, as a result, they spend more time thinking about the material, puzzling over what they got wrong, and seeking information that might help them understand (or debate) the accuracy of the answer key.
즉, 시험 강화 학습은 [인출]에 의한 것인가 혹은 [리허설]에 의한 것인가? In other words, is test-enhanced learning yielded by retrieval or by rehearsal?
이 [리허설 가설]은 현존하는 데이터와 일치한다. 즉, 테스트의 이점이 나타나는 데는 시간이 걸린다. [지식의 생성]을 요구하는 시험이(이런 시험은 종종 큰 인지 활동을 유도하며) 때때로 정답의 [인식을 요구하는 시험]보다 더 나은 학습 결과를 산출한다. 그리고 피드백이 너무 빨리 주어지면 해가 될 수 있다(올바른 응답을 배우기 전에 수신자가 정보에 대해 고민할 필요성을 축소시키기 때문이다). This rehearsal hypothesis is consistent with the extant data: the benefit of testing takes time to emerge; tests that require generation of knowledge (and, hence, sometimes induce greater cognitive activity) sometimes yield better learning outcomes than tests that require recognition of the correct answer, and feedback can be detrimental if it is given too soon (thus reducing the recipient’s need to puzzle over the information prior to learning the correct response).14
시험 강화 학습이 발생할 수 있는 가능한 메커니즘을 구분한다고 해서 이 점을 초래한 작업의 중요성이 감소하거나 교육자가 시험을 교육학적인 개입으로 활용해야 한다는 제안의 정확성이 저하되는 것은 아니다. 그러나 테스트를 가장 효과적으로 사용하는 방법을 결정하려면 테스트에 영향을 미치는 방법을 이해하는 것이 중요합니다. Differentiating between the possible mechanisms by which test-enhanced learning might occur does not reduce the importance of the work that has led to this point or decrease the accuracy of the suggestion that educators should utilise testing as a pedagogic intervention. It is important, however, that we understand the means by which testing has an effect if we are to determine how to use testing most effectively.
그렇다고 위에서 설명한 표준 시험 강화 학습 패러다임을 사용하여 '인출' 가설과 '리허설' 가설을 분리하는 것은 어렵습니다. 왜냐하면 시험 학습의 영향이 측정되는 실험 세션과 최종 테스트 사이의 2일에서 6개월 지연 기간 동안 학생들의 사고 과정과 학습 활동을 정확히 통제하거나 포착하는 것은 어렵기 때문입니다. That said, it is difficult to tease apart the ‘retrieval’ and ‘rehearsal’ hypotheses using the standard test-enhanced learning paradigm described above because it is difficult to accurately control or capture the thought processes and learning activities of students during the 2-day to 6-month delay between the experimental session and the final test on which the impact of test-enhanced learning is measured.
테스트의 장점을 고려할 때, 이 정보를 측정하는 것은 [추가적인 인출 또는 리허설을 유도할 수 있기 때문에] 중립적인 exercise로 간주될 수 없다. 따라서, 우리는 우선 학생들이 시험을 보는 것에 대응하여 참여하는 자율적인 검토 관행과 그러한 관행에 영향을 미치는 변수들을 검토하는 중간 단계를 선택하였습니다.
Given the benefits of testing, measuring this information cannot be considered a neutral exercise as it may induce further retrieval or rehearsal. As a result, we have chosen to first take an intermediate step of examining the self-regulated review practices in which students engage in response to sitting a test and the variables that influence those practices.
방법 METHODS
참여자 Participants
연구 샘플은 McMaster University MD 프로그램의 최종 학년 학생 코호트에서 모집했다. 참가 당시 피험자는 임상 사무직 교대를 완료했으며 졸업이 약 1개월 정도 남아 있었고 캐나다 의료 위원회 자격 검사(MCCQE) 파트 1(캐나다에서 의학을 수행하기 위한 면허 취득 과정의 일부를 구성하는 컴퓨터 기반 검사)을 시도하고 있었다. The study sample was recruited from the final-year cohort of students on the McMaster University MD programme. At the time of participation, subjects had completed their clinical clerkship rotations and were approximately 1 month away from graduation and attempting the Medical Council of Canada Qualifying Examination (MCCQE) Part 1 (a computer-based examination that constitutes part of the process for gaining a licence to practise medicine in Canada).
연구자료 Materials
실험은 컴퓨터 기반 플랫폼(RunTime Revolution Version 2.8.0; RunTime Revolution Ltd, 영국 Edinburgh)을 사용하여 수행되었습니다. 모든 피험자가 하루에 세 번의 세션 중 한 번의 세션 동안 절차를 완료했습니다. 참가자들은 6가지 임상 분야(심장학, 내분비학, 위장내과, 산부인과, 신경과, 정신의학)에서 각각 10개의 객관식 질문에 대답하도록 요청받았다. 이 항목은 시험-재시험 신뢰도가 0.7 >이고 MCCQE 점수와 잘 연관되는 것으로 나타난 교육 내 평가에 사용되는 문항 은행으로부터 도출되었습니다.18 The experiment was delivered using a computerbased platform (RunTime Revolution Version 2.8.0; RunTime Revolution Ltd, Edinburgh, UK). All subjects completed the procedure during one of three sessions held on a single day. Participants were asked to answer 10 multiple-choice questions from each of six clinical domains (cardiology, endocrinology, gastroenterology, obstetrics and gynaecology, neurology, psychiatry). The items were drawn from a bank of questions used for in-training assessment that has been shown to have test–retest reliability > 0.7 and to correlate well with MCCQE scores.18
각각의 예는 표 1에 나와 있습니다. 항목 유형에 대한 분류 체계의 평가자간 신뢰성은 독립적인 독자(경험이 많은 내부 전문가)의 도움을 받아 확인되었습니다. An example of each is given in Table 1. The inter-rater reliability of the classification scheme for item type was confirmed with the assistance of an independent reader (an experienced internist).
절차 Procedure
절차를 시작할 때 참가자들은 자신이 가장 자신 있다고 느끼는 도메인을 선택하라는 요청을 받았다. 그런 다음 해당 도메인 내에서 올바르게 답변할 수 있는 질문 수를 예측하라는 요청을 받았습니다. 다음으로, 참가자들은 그 도메인에서 한 번에 하나씩 10개의 질문을 랜덤 순서로 받았다. 오답에 대해 보정correction factor이 이뤄진다는 안내를 받고 상대적으로 자신 있는 문제만 시도하도록 했다. 질문지를 본 참가자들은 화면에서 해당 버튼을 클릭하여 항목을 시도attempt하거나 연기defer하도록 요청받았다. At the beginning of the procedure, participants were asked to select the domain about which they felt most confident. They were then asked to predict how many questions (out of 10) they would answer correctly within that domain. Next, participants were presented with 10 questions fromthat domain, one at a time, in random order. They were advised that a correction factor would be imposed for incorrect answers and instructed to attempt only questions for which they felt relatively confident of their response. Once they had seen the question stem, participants were asked to attempt or defer the item by clicking the corresponding button on the screen.
[화면에 문항줄기가 나타난 시간]과 시도 또는 연기 버튼 클릭 사이에 경과된 시간을 시도/연기 결정을 내리는 데 필요한 시간으로 기록했습니다. The time that elapsed between the stem appearing on the screen and the clicking of the attempt or defer button was recorded as the time required to make the attempt ⁄ defer decision.
참가자가 항목 시도를 선택한 경우, 네 가지 응답 옵션이 제공되고 가장 적합한 응답을 선택하라는 요청을 받았습니다. '제출' 버튼을 클릭하기 전에 경과된 시간이 응답 시간으로 기록되었습니다. 그런 다음 참가자들은 0과 100으로 고정된 시각적 아날로그 척도에서 응답에 대한 신뢰도를 평가하도록 요청받았다(0은 신뢰도가 없고 100은 총 신뢰도를 나타냄). 참가자들은 10개의 질문을 모두 본 후 나머지 모든 도메인에서 절차를 반복했다.
If participants chose to attempt the item, they were presented with four response options and asked to select the best response. The time that elapsed prior to the clicking of a ‘submit’ button was recorded as the answer time. Participants were then asked to rate their confidence in their response on a visual analogue scale anchored with 0 and 100 (0 indicating no confidence and 100 indicating total confidence). After seeing all 10 questions, participants repeated the procedure through all remaining domains.
다음 단계에서는 처음에 이연deferred되었던 질문들을 다시 제시하였다. 참가자들은 더 이상 correction factor가 있지 않다는 것을 알게 되었다. 각 질문에 대해 최고의 응답을 제공하고 각 응답에 대한 신뢰도를 평가하도록 지시받았습니다. 모든 질문을 완료한 후 참가자들은 각 도메인에서 몇 개의 항목을 올바르게 답했는지 추정하고, 향후 각 도메인에서 10개의 질문을 더 시도할 경우 몇 개의 항목을 올바르게 답할 것인지 예측하라는 질문을 받았다. In the next phase, the questions that had been initially deferred were presented again. Participants were informed that the correction factor was no longer in place. They were instructed to give their best response for each question and to rate their confidence in each response. When they had completed all questions, participants were asked to estimate how many items they had answered correctly in each domain and to predict how many they would answer correctly if they were to attempt another 10 questions from each domain in the future.
마지막으로, 응시자들이 시험 상황에 대응하여 참여하는 자율적인 검토 과정을 검토하기 위해, 참가자들은 방금 제시된 항목들을 검토할 수 있는 기회가 주어졌습니다. 정답을 강조하여 [일반적인 피드백]은 제공했지만, 학생들에게 자신의 답변을 다시 보여주지는 않았다. 참가자들은 각 항목을 검토하는 시간을 조절하고 시간을 기록했습니다. 검토를 완료한 후, 참가자들은 각 영역 내에서 최근에 완료한 성과와 향후 성과에 대한 추정치를 제시하도록 다시 요청받았다. Finally, to examine the self-regulated review process in which candidates engage in response to a test situation, participants were given an opportunity to review the items they had just been presented with. Generic feedback was given by highlighting the correct answers, but students were not reminded of their own responses. Participants controlled the length of time they spent reviewing each item and this time was recorded. After completing their review, participants were asked again to give estimates of the accuracy of their recently completed and future performance within each domain.
분석 Analysis
평균 비교에 대한 효과 크기는 Cohen의 d = (평균 [1] - 평균[2]) / 표준 편차를 사용하여 계산되었습니다. Effect sizes for comparisons of means were calculated using Cohen’s d = (mean[1] - mean[2]) ⁄ standard deviation.
자기조절적 검토 행동을 조사하기 위해 인구통계학적, 실험적, 반응 변수 간의 관계와 테스트 문제당 검토 시간의 결과를 조사하기 위해 다중 선형 회귀 분석과 분산 분석을 적용했습니다. Tabachnik과 Fidell의 19가지 엄격한 공선성 기준 < 0.10을 초과할 경우 다중 공선성을 검사하고 서로 밀접한 관련이 있는 변수를 분석에서 제거했다. 기존에 검토했던 문제를 학생들이 자유롭게 재방문할 수 있었던 만큼, 문제를 처음 검토했을 때 검토하는 시간과 총 검토 시간을 고려했다. 이 변수들 사이의 상관관계는 매우 높았고(r = 0.95) 따라서 총 검토 시간만 보고되었다.
To investigate self-regulated review behaviours, multiple linear regression and ANOVA were applied to examine the relationships among demographic, experimental and response variables and the outcome of review time per test question. Multi-collinearity was examined and variables that were closely related to one another were removed from the analysis if Tabachnik and Fidell’s19 stringent criterion of tolerance < 0.10 was exceeded. As the students had been free to revisit questions previously reviewed, we considered the amount of time a question was reviewed the first time it was considered and the total amount of time the question was reviewed. The correlation between these variables was very high (r = 0.95) and thus only total review time is reported.
윤리 Ethics
결과 RESULTS
참여자 Participants
연구 샘플은 McMaster MD 프로그램의 졸업생 67명으로 구성되었습니다. 40명(60%)은 여성이었다. 연구 표본의 중위수 연령은 25세(범위: 23~41세)였습니다. 이에 비해 클래스 코호트 전체(n = 149)도 60% 여성이고 중위수 연령은 25세(범위: 22~42)였습니다. 의학적 지식의 지표인 참가자의 진도 시험 점수는 학급 전체와 동등했다. 성별은 측정된 변수에 영향을 미치지 않았습니다. The study sample consisted of 67 individuals fromthe graduating class of the McMaster MD programme. Forty (60%) were female. The median age in the study sample was 25 years (range: 23–41 years). By comparison, the class cohort as a whole (n = 149) was also 60% female and its median age was 25 years (range: 22–42 years). Participants’ progress test scores, an indication of medical knowledge,18 were equivalent to those of the class as a whole. Gender had no effect on any of the measured variables.
참가자 성과 및 자체 평가 Participant performance and self-assessment
자가 모니터링 Self-monitoring
학생들은 60개 항목 중 55개를 중간값으로 시도하기로 했다. 이런 높은 시도율에도 불구하고 미수품과 이연품목의 차이distrimination은 여전히 뚜렷했다. 짝지은 비교 분석을 허용하기 위해 모든 항목을 시도한 16명의 학생에 대한 데이터를 제외했을 때, 학생들은 지연된 항목(40%)에 비해 시도된 항목(71%)의 더 큰 비율에 대해 올바르게 답한 것으로 밝혀졌다(차이 = 31%, 95% 신뢰 구간 [CI] 24–38, 효과 크기 [ES] = 1.2, 쌍체 t-검정[50] = 8.8).; p < 0.001). 모든 아이템을 시도한 사람들의 평균 정확도는 72%였습니다. 항목 유형(사실 대 비넷 기반)은 이 변수에 영향을 주지 않았습니다. Students chose to attempt a median of 55 of 60 items. Despite this high attempt rate, discrimination between attempted and deferred items was still apparent. When data for the 16 students who attempted all items were excluded in order to permit a paired comparison analysis, students were found to have correctly answered a larger proportion of attempted items (71%) relative to those they deferred (40%) (difference = 31%, 95% confidence interval [CI] 24–38, effect size [ES] = 1.2, paired t-test[50] = 8.8; p < 0.001). The mean accuracy of those who attempted every item was 72%. Item type (fact versus vignette-based) had no effect on this variable.
그림 1은 각 빈에 동일한 수의 관측치를 생성하기 위해 정의된 빈에 의사결정 시간을 묶어서 이러한 관계를 보여줍니다. 지연된 항목이 거의 없기 때문에 학생당 지연된 항목에 대한 관측치의 수는 작았습니다. Figure 1 illustrates these relationships by bundling decision time into bins defined to create equal numbers of observations in each bin. Because few items were deferred, the number of observations for deferred items per student was small.
개별 항목에 대한 신뢰 등급은 0에서 100 사이였으며 중위수가 65이고 큰 피크가 50과 100인 바이모달 분포를 따랐습니다. 참가자들은 잘못 답한 항목(46.0)(차이 = 24.1, 95% CI 22–26, ES = 2.7, 쌍체 t-검정[66] = 22.3; p = 0.001)보다 자신이 답한 항목에 더 높은 평균 신뢰도를 부여했다. Confidence ratings for individual items ranged from 0 to 100 and followed a bimodal distribution with a median of 65 and large peaks at 50 and 100. Participants assigned higher mean confidence to items they answered correctly (70.1) than to items they answered incorrectly (46.0) (difference = 24.1, 95% CI 22–26, ES = 2.7, paired t-test[66] = 22.3; p < 0.001), which aligned well with their actual accuracy.
자율규제 검토시간 Self-regulated review time
62명의 학생들이 절차의 검토 부분에 들어가기로 선택했다. 전체 정확도(68.3%)는 검토에 참여하지 않은 참가자 5명(68.0%)과 동일했다. 항목을 검토하는 데 소요된 시간은 문제당 0.0초에서 81.5초 사이였습니다. Sixty-two students chose to enter the review section of the procedure. Their overall accuracy (68.3%) was identical to that of the five participants who did not engage in review (68.0%). The time spent reviewing items was skewed and ranged from 0.0 to 81.5 seconds (median = 3.0 seconds) per question.
자율 규제 검토 시간과의 연관성을 결정하기 위해 10개 변수를 다중 회귀 분석에 투입했다. 두 변수는 인구 통계학(성별, 연령), 두 변수는 실험(세션: 오전 또는 오후 대 저녁; 질문 유형: 사실 대 비녜트 기반) 및 6개 항목은 참가자의 응답 패턴(질문이 제시된 순서, 시도 또는 답변 연기 결정, 결정 시간, 시도 또는 연기 결정이 내려진 후 질문에 답변하는 시간, 주어진 답변의 정확성, 답변에 대한 신뢰)을 기준으로 측정되었습니다. Ten variables were submitted to a multiple regression analysis to determine their association with self-regulated review time:
two were demographic (Gender, Age);
two were experimental
(Session: Morning or Afternoon versus Evening;
Question type: Factual versus Vignette-based), and
six were measured based on the participants’ response pattern
(Order in which questions were presented;
Decision to attempt or defer responding;
Time to make that decision;
Time to answer the question once the decision to attempt or defer was made;
Accuracy of the answer given;
Confidence in the answer given).
전체 모형은 통계적으로 유의했지만 약한 연관도(r = 0.34, p = 0.001)를 보였습니다. 자기조절 검토 시간과 관련된 특정 변수는 다음과 같다.
정확도(정답에 대한 평균 검토 시간 = 4.0초, 오답에 대한 평균 검토 시간 = 8.3초, 표준 베타 = ) 0.281, p = 0.001)
의사결정 시간과 응답 시간(자율 규제 검토에 소요된 시간이 더 길었고, 표준화된 베타 = 각각 0.08과 0.11, 각 사례에서 p < 0.001).
The overall model was statistically significant, but showed weak degrees of association (r = 0.34, p < 0.001). The specific variables that were associated with self-regulated review time were
Accuracy (mean review time for correctly answered questions = 4.0 seconds, mean review time for incorrectly answered questions = 8.3 seconds; standardised beta = ) 0.281, p < 0.001),
Decision time and Answer time (longer times were associated with longer time spent inself-regulatedreview; standardisedbeta = 0.08 and 0.11, respectively, p < 0.001 in each instance).
Accuracy는 질문에 대한 응답을 시도하거나 연기하기로 한 결정과 밀접한 관련이 있는 것으로 밝혀졌기 때문에 반복 측정 양방향 분산 분석을 사용하여 Accuracy가 검토 시간에 미치는 영향을 추가로 조사했습니다. Because Accuracy was found to strongly relate to the Decision to attempt or defer responding to a question, we further explored the influence of Accuracy on review time using a repeated-measures two-way ANOVA.
그림 2에서 알 수 있듯이, 각 정확도 수준 내에서 참가자들은 [시도 지연 의사결정과 정확도가 불일치하는 항목(즉, attempt하였지만 틀렸거나, defer하였지만 맞춘 문항)]을 검토하는 데 [이러한 변수가 일치한 항목(즉, 시도되고 정답이 맞거나 이연되고 오답이 나온 항목)보다] 더 오랜 시간을 소비했다. As Fig. 2 illustrates, within each level of accuracy, participants spent longer reviewing items for which the attempt ⁄ defer Decision and Accuracy were discordant (i.e. items that were attempted but answered incorrectly, or deferred but answered correctly), compared with items for which these variables were concordant (i.e. items that were attempted and answered correctly, or deferred and answered incorrectly). [주어진 영역에서 검토 시간]을 [개인의 해당 영역에서의 강점strength]에 대한 일반적인 인식과 비교하기 위해 범주 내 항목의 평균을 구한 결과, 이 두 변수는 서로 무관한 것으로 밝혀졌다(r = ) 0.17 ~ 0.19; 중위 r = ) 0.01). Averaging across items within category to compare review time with individuals’ general perceptions of their strengths in a given domain revealed these two variables to be unrelated to one another (r = ) 0.17 to 0.19; median r = ) 0.01).
고찰 DISCUSSION
시험 완료 후 의대생들 간의 자율 학습 Self-regulated learning among medical students post-test completion
의대생들이 방금 테스트한 항목을 검토(그리고 각 항목을 얼마나 오래 검토했는지 측정)할 수 있는 테스트 절차의 마지막에 기회를 포함함으로써, 우리는 비록 제한된 맥락에서 명확하게나마 학생들의 자기조절 학습 경향에 미치는 영향을 경험적으로 조사할 수 있었다. 학생들은 잘못 답한 문항에 대해 더 오랜 시간을 복습했으며, 더 흥미롭게도 검토 전략이 정확성과 기대치의 일치에 의해 조정되었음을 보여주었다. 정확도의 양측 모두에서(즉, 정답인 경우와 오답인 경우 모두) 내에서 학생들은 [자신이 잘못 판단한 문항]을 검토하는 데 더 많은 시간을 보냈습니다. By including an opportunity at the end of the testing procedure for medical students to review the items on which they had just been tested (and measuring how long they reviewed each item), we were able to empirically examine influences on students’ self-regulated learning tendencies, albeit clearly in a circumscribed context. Students spent longer reviewing items they had answered incorrectly and, more interestingly, showed indications that their review strategies were moderated by the congruence between their accuracy and their expectations. Within both levels of accuracy (i.e. for correctly and incorrectly answered items), students spent more time reviewing items for which they had misjudged their knowledge.
즉, 학생들은 [시도하였고 정답을 맞춘 항목보다] [(정답을 제공할 수 있다고 생각했기 때문에) 자신이 답을 시도했지만 틀린 문항]에서 더 오랜 시간을 보냈습니다. 또한 이연하고 오답한 항목에 비해 이연했지만 정답이 아닌 항목을 검토하는 데 더 많은 시간을 할애했다. 더욱이 응답 여부를 결정하는 데 필요한 시간과 답변을 제공하는 데 필요한 시간은 모두 개별 항목을 검토하는 데 소요된 시간과 긍정적인 관련이 있었다. That is, students spent more time reviewing items they had attempted to answer (because they thought they could provide the correct answer) but had then answered incorrectly compared with items they had attempted and answered correctly. They also spent more time on reviewing items they had deferred but answered correctly, compared with items they had deferred and answered incorrectly. Furthermore, the amount of time required to decide whether or not to respond and the amount of time required to provide an answer were both positively related to the amount of time spent reviewing an individual item.
일반적으로, 이러한 결과([i] 참가자의 신뢰도, [iii] 참가자의 인구통계, [iii] 질문 순서 및 유형, 세션 개최 시기 등)는 테스트 절차에 의해 제공된 데이터나 피드백이 참가자를 지시하는 데 지배적인 역할을 수행했음을 시사한다. 비록 이것이 정답correct response이 무엇인지 식별해주는 것에 불과했음에도 자기조절학습 행동을 directing한 것이다.
In general, these findings (combined with the lack of influence of other variables including: [i] participants’ confidence; [ii] participants’ demographics; [iii] the order and type of questions, and [iv] when the session was held) suggest that the data or feedback provided by the testing procedure played a dominant role in directing participants’ self-regulated learning behaviour although it consisted solely of the identification of the correct response.
성능 향상에서 자가 모니터링의 역할 The role of self-monitoring in performance improvement
Moulton 등.20은 전문가가 [자동 실행 모드]에서 공식적 판단을 적용할 수 있는 [노력적이고 분석적인 모드]로 전환하는 것을 나타내는 전문지식의 정의적 특징defining feature을 나타낸다고 주장했다. 그림 1은 참가자들이 항목에 정확하게 답변하는 데 필요한 지식을 보유하고 있는지 여부에 대해 의문을 가질 때 속도를 줄였다는 것을 보여준다. 이는 Moulton 등이 설명한 모델에서 '상황적에 반응적으로situationally responsive' 속도가 느려지는 것과 유사하다. 또한, 응답 시간과 정확성 사이의 관계는 Moulton et al.21에 의해 정의된 'When you should' 기준에 따르는 responsiveness에 잘 맞는다. Moulton et al.20 have argued that ‘slowing down when one should’ represents a defining feature of expertise that indicates the expert shifting from an automatic mode of practice to an effortful and analytic mode that enables her to apply formal judgement. Figure 1 illustrates that participants did slow down when they had some doubt about whether or not they possessed the knowledge necessary to correctly answer the item; this is analogous to the ‘situationally responsive’ slowing down in the model described by Moulton et al.21 Further, the relationship between response time and accuracy indicates responsiveness in a manner that speaks to the ‘when you should’ criterion defined by Moulton et al.21
이것은 Eva와 Regehr가 개발한 자가 모니터링 모델을 보건 직업의 맥락으로 확장하여 임상 영역에서 수행된 연구와 실험실 기반 유사체로 수행된 연구를 더욱 밀접하게 조정하는 최초의 통제된 연구이다. [면허 시험 준비의 일환으로 시험을 잘 치르도록 동기부여된 의대생 표본] 내에서 이전 작업을 복제한 연구에서, [자기 모니터링]은 [자기 평가]와 다르며, [자기 모니터링]이 더 정확한 심리 과정이라는 추가 증거를 제공합니다. (즉, 자기평가란 특정 영역에서 자신의 강점을 총괄적으로 판단하는 과정). 응답 대기 시간, 신뢰도 및 응답 정확도 사이의 강력한 관계에 대한 추가 증거는 광범위한 평가 문헌에 있습니다. This is the first controlled study to extend the model of self-monitoring developed by Eva and Regehr15,16 to the health professions context, thus more closely aligning studies performed in the clinical domain and those conducted with laboratory-based analogues. The replication of that previous work within a sample of medical students who were motivated to perform well on the test as part of their preparation for licensing examinations provides further evidence that self-monitoring importantly differs from and is a more accurate psychological process than self-assessment (i.e. the process of making a summary judgement of one’s strength in a particular domain). Further evidence for a strong relationship between response latency, confidence and response accuracy resides in the broader assessment literature.22,23
(여러 연구와 맥락에 걸친) 일관된 연구 결과와, [자기 모니터링 지표]가 합리적으로 안정적인 개인 차이를 제공하는 것으로 보이는 정도와, 여기서 관찰된 [자기 모니터링 지표]와 [자기조절적 검토 간의 관계]를 고려했을 때, [자기 모니터링]은 [자기조절 학습 및 성과 개선 모델]에서 중심적인 역할을 할 가치가 있음을 시사합니다. 이는 임상 전문의와 비임상 전문의 모두 도메인 수준에서 지식과 능력에 대한 전반적인 추정치를 도출하는 데 서툴다는 결론을 도출한 과거의 수십 건의 연구 결과와 대조되며, 이 연구에서 다시 한 번 확인되었다.
The consistency of the findings (across study and context), the extent to which the reported selfmonitoring indices appear to provide reasonably stable individual differences24 and the relationship observed here between the self-monitoring indices and self-regulated review suggest that self-monitoring deserves a central role in models of self-regulated learning and performance improvement. This is by contrast with the results of dozens of previously published experiments (replicated again in the present study) that have led to the conclusion that clinicians and non-clinicians alike are poor at generating overall estimates of their knowledge and ability at a domain level.
바람직한 어려움 조성 Creating desirable difficulties
현존하는 문헌들은 [사람들이 가장 주의가 필요한 분야]를 파악하지 못하면, [최적의 학습 활동]을 파악하지 못하기 때문에, 자신의 학습을 direct하려는 노력이 종종 misdirected될 수 있음을 시사한다. 학습자가 종종 학습 활동의 가치를 잘못 판단한다는 주장을 뒷받침하는 경험적 발견은 [교육자의 역할이 학생들을 '바람직한 어려움'의 위치에 놓이게 하는 상황을 만드는 것]이라는 Bjork의 주장에 기초를 제공합니다. (즉, 학습자가 경험을 통해 자신의 한계를 발견할 수 있는 상황을 조성하여 학습자의 [실수를 유도하는 것]이다.) The extant literature suggests that efforts to direct one’s own learning may often be misdirected as people’s failures to identify the areas most in need of attention lead to failures to identify optimal learning activities. Empirical findings supportive of the contention that learners often misjudge the value of learning activities provide the foundation for Bjork’s25 claim that the educator’s role is to create situations for students that place themin a position of ‘desirable difficulty’ (i.e. to induce mistakes by creating situations that enable learners to discover their limits through experience25,26).
과다뇰리와 리가 제시한 [도전점 프레임워크challenge point framework]는 학습이 학습자의 역량의 가장자리edge에 있을 때 학습이 최적의 속도로 발생한다는 것을 시사한다.
최적의 도전 지점 아래로 떨어지는 과제는 연습 중에 더 나은 성과를 낼 수 있지만 장기적으로 더 적은 학습으로 이어집니다.
최적의 도전 지점 위에 있는 과제는 더 낮은 연습과 더 낮은 학습으로 이어집니다.
The challenge point framework, put forward by Guadagnoli and Lee,27 suggests that learning occurs at an optimal rate when the difficulty of the task being practised lies at the edge of the learner’s competence.
Tasks that fall below the optimal challenge point will enable better performance during practice, but result in less learning in the long term;
tasks that lie above the optimal challenge point will result in both poorer practice and poorer learning.
시험 강화 학습 이해 Understanding test-enhanced learning
우리는 이 연구에서, (시험을 완료하기보다는 단지 자료를 학습하도록 요청받았을 경우에), 수집된 데이터로는 [시험 자체에 의해 유발된 검토 시간]과 [학생들이 다양한 문제에 소비했을 검토 시간]을 직접 비교할 수 없음을 알아야 합니다.
따라서 우리는 우리 결과가 서론에 요약된 [리허설 가설]을 뒷받침한다고 확실하게 말할 수 없다(즉, "시험이라는 행위가 있음으로써 (없을 때보다) 훨씬 더 많이 연습하거나 자료를 탐색하도록 촉진하기 때문에 테스트 강화 학습이 발생한다"고 말할 수 없다).
그러나 그들은 일반적으로 받아들여지는 [인출 가설](즉, 검색 행위가 기억 추적을 직접적으로 강화하기 때문에 시험 강화 학습이 발생한다는 것)에 대한 대안을 제기한다.
We must note that the data collected in this study do not allow us to make a direct comparison between the amount of review time prompted by the test itself and the amount of review time students would have spent on the various questions had they been asked merely to study the material rather than to complete a test.
Therefore, we cannot say withcertainty that the results support the rehearsal hypothesis outlined in the introduction (i.e. that test-enhanced learning occurs because the act of testing prompts individuals to rehearse or explore material to a greater extent than they would do otherwise).
They do, however, raise an alternative to the commonly accepted retrieval hypothesis (i.e. that test-enhanced learning occurs because the act of retrieval directly strengthens the memory trace).
어떤 메커니즘이 정확한지(또는 둘 다 정확한지)에 관계없이 테스트는 유용한 교육학적 전략을 제공하는 것으로 볼 수 있습니다. Regardless of which mechanismis accurate (or whether both are), testing can be seen as providing a useful pedagogic strategy.
결론 CONCLUSIONS
Med Educ. 2012 Mar;46(3):326-35.
doi: 10.1111/j.1365-2923.2011.04150.x.
Influences on medical students' self-regulated learning after test completion
Context:The inadequacy of self-assessment as a mechanism to guide performance improvements has placed greater emphasis on the value of testing as a pedagogic strategy. The mechanism whereby testing influences learning is incompletely understood. This study was performed to examine which aspects of a testing experience most influence self-regulated learning behaviour among medical students.Results:Students correctly answered a larger proportion of attempted items than deferred items (71% versus 40%; p < 0.001), and indicated a higher mean confidence in responses to items they answered correctly compared with items they answered incorrectly (70 versus 46; p < 0.001). They spent longer reviewing items they had answered incorrectly than correctly (8.3 versus 4.0 seconds; p < 0.001), and paid particular attention to items for which the attempt/defer decision and accuracy were discordant (p < 0.01). The amount of time required to make a decision on whether or not to answer a test question was also related to reviewing time.
Conclusions:Medical students showed a robust ability to accurately and consciously self-monitor their likelihood of success on multiple-choice test items. By focusing their subsequent self-regulated learning on areas in which performance and self-monitoring judgements were misaligned, participants reinforced the importance of providing learners with opportunities to discover the limits of their ability and further elucidated the mechanism through which test-enhanced learning might be derived.
Methods:Sixty-seven medical students participated in a computer-based, multiple-choice test. Initially, participants were instructed to attempt only items for which they felt confident of their response. They were then asked to indicate their best responses to deferred items. Students were then given an opportunity to review the items, with correct responses indicated. Accuracy, the attempt/defer decision and the time taken to reach this decision were recorded, along with participants' ratings of their confidence in each response and the time spent reviewing each item on completion of the test.
의학교육에서 젠더는 중요하다 (Med Educ, 2013) Gender matters in medical education Alan Bleakley
소개: 의료진의 여성화 Introduction: the feminising of the medical workforce
이 글은 의학 교육에는 거의 적용되지 않지만 문화학 등 다른 학문 분야에서도 잘 정립되어 있는 현대 사회과학의 사고의 흐름을 논하고 있다: 후기 구조주의 페미니즘.1, 2 이러한 사고의 흐름은 성(性)을 다시 생각하는 데 귀중한 시각을 제공한다. 의학 교육 이론과 실천에 관한 쟁점들, 그리고 사회 과학의 현대적 생각들이 어떻게 의학 교육의 혁신을 형성할 수 있는지를 보여준다. 중요한 것은, 후기 구조주의 페미니즘은 남성 페미니스트를 포함하고 현대 의학과 의학 교육을 지배해온 습관적인 가부장적 관행에 도전하는 접근방식이다. This article discusses a stream of thought in contemporary social science that is rarely applied to medical education, but is well established in other academic fields, such as cultural studies: post-structuralist feminism.1, 2 This stream of thought, which is fully explained later in the article, offers a valuable perspective for rethinking gender issues in medical education theory and practice, and illustrates how contemporary ideas in the social sciences can shape innovation in medical education. Importantly, post-structuralist feminism is an approach that includes male feminists and challenges habitual patriarchal practices that have dominated modern medicine and medical education.
서술적 인구학 연구는 [의학에서 여성women in medicine]에 대한 문헌을 지배하고 있으며, 이 기사의 후반부의 관심사인 후기 구조주의 페미니즘의 대체적alternative 이론적 체계를 고려하기 전에 이 연구의 틀을 감상하고, 이해하고, 비판적으로 다루는 것이 중요하다. Descriptive demographic studies dominate the literature on women in medicine, and it is important to appreciate, understand and then critically address this body of work prior to considering the alternative theoretical framework of post-structuralist feminism that is the concern of the second half of this article.
전세계적으로 남성보다 여성이 의대에 입학함에 따라 의료 인력에 여성 의사가 과반수를 차지할 것이다.3-6 이러한 인구 변화는 '의학의 여성화'라고 일컬어진다.7 그러나 의학에서 '여성화'의 의미는 인구학적 설명을 넘어 문화적 과정을 설명하는 것으로 확장될 수 있다. 나아가 의학의 페미니즘이 의학의 문화뿐만 아니라 의학교육에도 어떤 의미가 있을지 생각해 보는 것이 중요하다. 이 소개 섹션에서는 인구학적 이슈를 성별 사고 방식과 같은 인구학적, 생물학적 문제를 넘어 성 문제를 탐구할 수 있는 플랫폼으로 소개합니다.
As more women than men enter medical schools worldwide, in time the medical workforce will comprise a majority of women doctors.3-6 This demographic shift has been referred to as the ‘feminisation of medicine’.7 The meaning of ‘feminisation’ in medicine, however, can be extended beyond demographic descriptions to account for cultural processes. Further, it is important to consider what the feminising of medicine might mean not just for the culture of medicine, but also for medical education. In this introductory section, demographic issues are introduced as a platform from which to explore gender issues beyond demography and biology, such as gendered ways of thinking.
인구 이동 Demographic shifts
인구통계학은 문자 그대로 '사람에 관한 글'을 의미하며, 개인보다는 인구에 대한 연구를 말한다. 여성 및 의료: 영국 왕립 의사 대학을 위해 작성된 2009년 보고서인 Women and Medicine: The Future는 서술적 인구통계학의 좋은 예이다.5 여성 학술 사회학자가 작성한 이 보고서는 서술적 통계의 데이터셋을 자세히 설명하고 추론, 추측 또는 이론적 모델링에 거의 포함하지 않는다. 사회과학자들의 그러한 서술적 연구로부터, 트렌드를 포함한 후기 산업 국가의 의학에서의 젠더에 대해 무엇을 알 수 있을까? Demography literally means ‘writing about the people’ and refers to the study of populations rather than individuals.Women and Medicine: The Future, a 2009 report prepared for the UK Royal College of Physicians, is a good example of descriptive demography.5Written by a female academic sociologist, the report elaborates on a dataset of descriptive statistics and includes little in the way of inference, speculation or theoretical modelling. From such descriptive work by social scientists, what do we know about gender in medicine in post-industrial countries, including trends?
의학에 진입하는 여성의 수: Women entering medicine: the numbers
펜실베니아 필라델피아는 미국 최초의 의대를 유치하면서도 1960년 여성을 입학시킬 수 있는 마지막 의대(제퍼슨 의과대학)를 유치한 것이 복합적으로 구별된다. 최초의 여성은 1847년 미국의 의대에 입학했다. 2003년까지 제퍼슨은 대다수의 여자 의대생들을 입학시켰다. 1800년대 후반 미국에서 여성이 개업 의사 중 10%를 차지했지만 1920년대에 이르자 여성들은 사실상 의료 인력에서 사라졌다. 그러나 2003년까지 미국의 의과대학 입학생들은 성별의 균형을 보였고2005년까지 많은 학교들이 약 60퍼센트의 여성과 40%의 남성으로 구성된 입학 수치를 보였다. 현재 전 세계 의과대학 학생들의 대다수를 여성이 차지하고 있으며 북미, 유럽, 호주 및 러시아에서 평균 60%의 학생 섭취를 차지하고 있습니다. 영국에서는 2003년 62%로 정점을 찍은 뒤 2007년 57%로 낮아져 안정세를 보였을 수도 있다. Philadelphia, Pennsylvania has the mixed distinction of hosting the first medical school in the USA, but also of hosting the last medical school (Jefferson Medical College) to admit women, in 1960. The first woman was admitted to a medical school in the USA in 1847.6 By 2003, Jefferson was admitting a majority of women medical students (51.5%). Although women comprised 10% of practising doctors in the USA in the late 1800s, by the 1920s women had practically disappeared from the medical workforce. However, by 2003, entrants to medical school in the USA showed a gender balance and by 2005 many schools showed entrance figures comprised of around 60% women and 40% men.6 Women now constitute the majority of students in medical schools worldwide and represent an average of 60% of student intake across North America, Europe, Australia and Russia.3-10 In the UK, the numbers may have stabilised, having peaked at 62% in 2003 and fallen to 57% in 2007.5
이러한 통계는 '의학적 시한폭탄'과 같은 문구를 포함한 헤드라인을 포함한 경보주의 언론기사를 통해 공개되었다.10 인터내셔널 헤럴드 트리뷴의 1면 기사 '서양의학의 얼굴 변화'는 [젊은 여성 세대]가 '한 때 남성 중심적이었던 의대를 변화시키고, 의대를 부풀리고, 1차 진료의 최전선으로 몰아가고 있는' 과정을 자세히 다루고 있다. 미사여구는 신중하게 선택된다: '부글부글'과 '떼짓기'는 아마도 새로운 전문가 집단의 출현을 의미할 것이다.
These statistics have entered the public domain through alarmist press articles carrying headlines that include phrases such as ‘the medical timebomb’.10 A front-page article in the International Herald Tribune entitled ‘The changing face of Western medicine’ detailed how ‘Across the Western world’ a generation of young women ‘is transforming the once-male bastion of medicine, swelling medical schools and flocking to the front lines of primary care’.3 The rhetoric is carefully chosen: ‘swelling’ and ‘flocking’ perhaps signify the emergence of a new family of professionals.
남성들이 의료 지원에서 쫓겨나는 것에 대한 두려움은 근거가 없을지도 모른다. 예를 들어, 영국에서는 의과대학 지원자의 절대적인 증가로 인해 자리를 차지하는 남성의 수가 증가하였다. 2007년에는 의과대학에 1996년보다 1200명의 남자가 합격했다. 또한, 영국에서는 유학생의 수가 증가하고 있으며, 이들은 남성인 경우가 더 많다.5
A fear that men are being driven away from applying for medicine may be unfounded. For example, in the UK, because of an increase in the absolute numbers of applicants to medical schools, the number of males taking up places has increased. In 2007, 1200 more men were accepted for medical school than in 1996 (in comparison with 1760 more women).5Further, in the UK, numbers of international students are increasing and these tend to be more commonly male.5
미래에는 여성이 다수가 될 것인가? Will women be in the majority in the future?
전 세계적으로 이 질문에 대한 답은 '예'.3입니다. 영국은 현재 전체 의사의 약 40%, 일반의사(GP)의 42%, 컨설턴트의 28%를 여성이 차지하고 있다.5 그러나 영국에서는 여성이 35세 미만 의사 중 54%를 차지하고 있지만 프랑스와 스페인에서는 각각 58%와 64%를 차지하고 있다.3 2017-2022년까지 영국에서 여성은 방사선, 안과 및 수술을 제외한 모든 분야의 컨설턴트 임용으로 이동하는 전문의 대다수를 차지할 가능성이 높다.5
Worldwide, the answer to this question is ‘yes’.3In England, women currently account for approximately 40% of all doctors, 42% of general practitioners (GPs) and 28% of consultants.5However, women constitute 54% of doctors aged < 35 years in the UK, but 58% and 64% of this group in France and Spain, respectively.3By 2017–2022, in the UK, women are likely to constitute the majority of specialists moving to consultant appointments in all fields other than radiology, ophthalmology and surgery.5
전문직 여성 Women in specialties
전공과목의 트렌드는 나라마다 다릅니다. 예를 들어, 방사선학에서 2009년 미국에서는 여성이 27%를 차지했지만 라트비아, 에스토니아, 벨라루스에서는 80%, 기타 유럽 국가에서는 50-60%를 차지했다. 링크는 여성 의사가 남자 의사보다 환자 및 동료와 더 잘 소통하고 더 적은 위험을 감수하기 때문에 방사선학의 '여성화'가 환자에게 좋은 뉴스라고 지적했다. McKinstry7은 의료진의 여성화에 따른 잠재적 위험성에 주목하면서, '공감력과 의사소통 능력도 중요하지만, 효율성과 위험과 더불어 살아가는 능력도 중요하다'며 '여성화'가 긍정적이라는 데 동의하지 않는다. Specialty trends differ across countries. In radiology, for example, women constituted 27% of practitioners in the USA in 2009, but as much as 80% in Latvia, Estonia and Belarus, and 50–60% in other European countries.11 Rinck11 notes that the ‘feminisation’ of radiology ‘is good news for patients’ because women doctors communicate better with patients and colleagues and take less risk than their male colleagues. Noting potential dangers of the feminisation of the medical workforce, McKinstry7 disagrees: ‘Empathy and communication skills are important, but so are efficiency and the ability to live with risk.’
전세계적으로 여성들은 수술에서 과소대표되고 소아과와 1차 진료에서 과대대표되고 있습니다.12-14 이로 인해 향후 전문적 부족 현상이 발생할 수 있다는 우려로 이어지고 있습니다. 특히 수술에서 컨설턴트 직위로 이어지는 진로들은 전통적으로 아이를 갖기를 원하는 여성들을 위해 추구하기 어려웠다.15-17 여성은 탄력적 근무시간, 자녀양육 서비스, 지원멘토 등 일정한 구조적 요건이 충족되어야만 수술에서 커리어 사다리에 오를 수 있는 경향이 있다. 여성들은 점차적으로 강한 경쟁적 요소를 접하게 되면서 수술에 흥미를 잃을 수 있다. 왜냐하면 일반적인 여성 의사들은 더 많은 협업적 업무 맥락을 선호하기 때문이다. Worldwide, women are under-represented in surgery and over-represented in paediatrics and primary care.12-14This has led to a concern that there may be a future specialty shortfall. Career routes leading to consultant posts, particularly in surgery, have traditionally been harder to pursue for women who wish to have children.15-17Women tend to be successful on the career ladder in surgery only if certain structural requirements are fulfilled, such as the provision of flexible hours, child-minding services and supportive mentors.18Women may lose interest in surgery as they progressively encounter a strong competitive element because in general women doctors prefer more collaborative work contexts.19
인구 통계에 의해 제기된 문제 Issues raised by demographics
킬민스터 외 연구진 8은 위에서 요약한 수치와 같은 원시 인구통계 데이터가 네 가지 가능한 결과를 야기한다고 결론내렸다.
첫째, 이러한 추세는 여성들이 파트타임으로 일하고 조기 퇴사하여 잠재적인 인력 부족을 야기하기 때문에 인력 계획에 문제를 일으킬 수 있다.
둘째, 트렌드는 여성들이 남성들이 가지고 온 것과는 다른 바람직한 자질을 실천에 옮기기 때문에 좋은 것일 수 있다.
셋째, 졸업생들이 의료인력으로 진입하면서, 입학시점의 성별 차이는 줄어들even out 수 있다.
넷째, 의료문화의 구조적 불평등이 지속되어 남성의 우위가 유지될 수 있다.
여기에 자본의 지속적인 문제가 추가될 수 있다.
Kilminsteret al.8conclude that the raw demographic data, such as the figures summarised above, raise four possible consequences.
Firstly, the trend may present problems for workforce planning as women will work part-time and leave the profession early, causing a potential workforce shortage.
Secondly, the trend may be a good thing as women bring desirable qualities to practice that differ from those brought by men.
Thirdly, gender differences at intake may even out as graduates enter the workforce.
Fourthly, structural inequalities in medical culture may persist, maintaining a male dominance.
To this can be added a continuing problem in equity.
형평성 문제 Equity issues
의학에서 남녀의 기회균등이라는 측면에서 [구조적인 문제]가 있을 뿐만 아니라 형평성, 즉 정의와 공정성 문제도 존재한다. 의학계 여성은 남성과 같은 일을 하는 것에 대해 더 낮은 보상을 받는다17, 여성이 고위직의 핵심직에서 과소대표되고 있지만, 여성에게 그들의 목표를 달성하는 데 필요한 자원과 기반시설의 제공을 충분히 하지 않음으로써, Medicine은 직업적 열망을 가진 여성들을 계속 실패하게 만들고 있다.20 여의사의 수입은 academic medicine의 남성보다 적다. 여성들의 직위 상승은 더 느리게 진척되고, 리더 역할을 쉽게 달성하지 못합니다. 이는 여성들의 생산성이나 헌신의 퀄리티 문제가 아니라,구조적 제약을 받기 때문입니다.21 There is not only a structural problem in terms of equality of opportunity in medicine with regard to gender, but there also exists an equity, or justice and fairness, problem. Women in medicine are given poorer rewards for doing the same job as men17 and, although women are under-represented in key positions in the senior ranks, medicine continues to fail women with career aspirations through the poor provision of the resources and infrastructure necessary to help them achieve their goals.20 Women doctors earn less than men in academic medicine, progress through the ranks more slowly and do not readily attain leadership roles, not because of the quality of their productivity or commitment, but because they are subject to structural constraints.21
이러한 제약은 개인의 열망 수준에까지 이어진다: 설문조사에서 여성 의사들은 남성 의사들이 보고한 것보다 25% 정도 낮은 한도를 보고한다.22 전반적으로 여성 의사들은 자신들을 남성 의사들보다 능력이 떨어진다고 일관되게 평가한다.23
Such constraints are then realised at an individual level of aspiration: when asked in surveys what their potential earning power may be, women doctors report a ceiling that is around 25% lower than that reported by male doctors.22Overall, women doctors consistently rate themselves as less capable than male doctors.23
여의사들이 파트타임으로 일하는 결과 Consequences of women doctors working part-time
상당수의 여의사들이 파트타임으로 출근한다면 리더십과 의료 교육을 포함한 노동자들에게 미칠 충격은 무엇일까? 남성 동료에 비해 여성 의사들은 이미 더 많은 파트타임 근무(85%)10에 종사하고 있으며, 아이를 가질 수 있는 기회를 용이하게 해줄 보다 유연한 근무시간을 원하고 있으며, 일반적으로 여성 GP들은 남성 동료들보다 더 일찍 은퇴할 계획이다.3-6 If a significant number of women doctors come to work part-time, what will be the knock-on effects for the workforce, including in leadership and medical education? In comparison with their male colleagues, women doctors already engage in more part-time work (85%)10 and want more flexible working hours that will facilitate the opportunity to have children, and women GPs in general plan to retire earlier than their male colleagues.3-6
이에 따른 연쇄적인 효과는 여성 의사들이 임상 및 학문적 리더십과 고위 경영자 역할을 추구하는 데 덜 끌리거나 전념하는 것이다. 그러나 이러한 성별 효과가 '리더십 부족deficit'를 낳을 가능성은 낮다. 지적했듯이, 의학에 입학하는 [남학생의 절대 숫자]가 증가했기 때문이다.5 오히려 이 문제는 기회와 형평성의 평등 중 하나이다.12 Dacre12는 의학의 여성화는 현재와는 다른 (즉, 여성 후보자들을 격려하는 방식으로) 리더십 역할이 구성될 수 있도록 인력 계획을 재고하는 기회를 만들어내고 있다. A knock-on effect of this is that women doctors are less attracted or committed to seeking clinical and academic leadership and senior management roles. This gender effect is unlikely, however, to create a ‘leadership deficit’ in the future because, as noted, the absolute numbers of male students entering medicine have risen.5 The issue, rather, is one of equality of opportunity and equity.12 Dacre12 suggests that the feminisation of medicine is creating an opportunity to rethink workforce planning in a manner that may allow leadership roles to be configured differently than they are at present, encouraging women candidates.
케네스 루드머러의 미국 의학 교육 역사는 특히 '영웅들이 등장하기엔 너무 크고 단편화된' 맥락에서 현대의 '의학에서 영웅들의 실종'을 지적한다. 이것은 여성 의사들의 대표성이 심각하게 떨어지는 의학 교육의 페미니스트들에게는 좋은 소식처럼 보일 수 있다. 예를 들어 2007년 영국에서는 임상교수의 12%, 임상강사의 36%만이 여성이었으며 의과대학 34곳 중 2곳만이 여성학장이 있었다. 전체 교수로 임용되는 여의사가 15%, 학과장이 11%에 불과한 미국도 비슷한 입장이다. Kenneth Ludmerer’s classic history of American medical education points to the contemporary ‘disappearance of heroes from medicine’ in a context in which ‘academic medicine’ in particular ‘has grown too large and fragmented for “heroes” to emerge’.24 This may seem like good news to feminists in medical education, in which women doctors are severely under-represented. For example, in 2007 only 12% of clinical professors and 36% of clinical lecturers in England were women, and only two of 34 medical schools had women deans.5 The position is similar in the USA, where only 15% of women doctors are appointed as full professors and 11% as department chairs.12
그러나 의대 여학생들이 남성들보다 더 효과적인 조력자를 만드는 경향이 있지만, 여의사들이 academic research 및 teaching에 참여할 가능성은 낮다.7 이는 '영웅의 실종'에도 불구하고 새로운 의대생들의 여성 롤모델이 부족함을 보여준다. 그러나 그러한 롤모델은 필요하다. 예를 들어, 의학 학부 커리큘럼에 성별 문제가 도입되는 경우, 이러한 움직임을 시작하는 것은 여성 교수진이다.27
However, although women medical students tend to make more effective facilitators than their male counterparts,25women doctors are less likely to take up academic research26and teaching.7This presents a lack of female role models for new cohorts of medical students, despite the ‘disappearance of heroes’ from the field. Yet such role models are needed. For example, in instances in which gender issues are introduced into the medical undergraduate curriculum, it is women faculty staff who tend to initiate this move.27
컨설팅 스타일 및 커뮤니케이션: 환자를 위한 연쇄 효과 Consulting styles and communication: knock-on effects for patients
존경받는 선배의사들에 의한 역할모델링의 후배를 대상으로 한 연구에 따르면, 여성후배 의사들은 모방하고자 하는 핵심 요소로 '커뮤니케이션'을 보고한 반면, 남성후배 의사들은 의사소통이 훨씬 덜 중요하다고 여겼다고 한다.23 환자들이 궁극적으로 성별에 대해 우려하는지 여부에 대해서는 증거가 모호하지만, 여의사가 남성 동료보다 더 많은 연민과 친밀감을 가지고 환자를 치료하고 있으며, 의학의 심리적, 의사소통적 측면에 더 관심을 가지고 있다. A study in junior doctors of role-modelling by respected senior doctors found that women junior doctors reported ‘communication’ as the key element they wished to emulate, whereas male junior doctors considered communication to be much less important.23 Although evidence is equivocal as to whether patients are ultimately concerned about the gender of their doctors,23 women doctors treat patients with more overt compassion and intimacy than their male colleagues do and are more concerned with the psychosocial and communicative sides of medicine.6, 20-22, 28
[여성 의사]는 [여성 환자]에 더 잘 적응할 수 있을 것이다. 여성 환자들은, (남성 환자보다) 더 많은 질문을 하고 더 많은 정보를 주고, 더 많은 정보를 확인하고, 바꾸어 의사에게 더 명확한 설명을 강요하고, '의사 중심' 상담 스타일이 아닌 '의사 중심'을 명시적으로 요구한다. 남자의사들보다, 여의사들은 (가까운 친구들이 포함된) 지지적 환경의 제공이 업무 만족도에 더 중요하다고 평가한다.
Women doctors may be better adapted to women patients, who ask more questions and give more information than male patients, and check and paraphrase information, thereby forcing the doctor into giving clearer explanations, and explicitly demand a ‘feelings-oriented’ rather than a ‘thoughts-oriented’ consultation style.28 Women doctors also rate the provision of a supportive environment, such as one that includes close friends, as more important to their work satisfaction than do their male colleagues.16
남성 동료들에 비해 더 공감적이고 환자 중심적인 여성 의사들의 스타일은 더 나은 환자 성과를 가져온 것으로 나타났다.12 이와 함께 영국의 2001~2010년 GP 중단 조사 결과 남성이 여성보다 더 많은 불만을 유발했으며 여성보다 5배 더 많은 정직 가능성이 있는 것으로 나타났다. 그러나 McKinstry는 '효율성'과 '위험성'에 대처하는 능력은 '공감 및 소통'만큼이나 중요하다고 제안한다. 맥킨스트리는 여성 GP가 환자와 더 오랜 시간을 보내고 refer할 가능성이 높으며, 여성 컨설턴트가 남성 동료보다 환자를 더 적게 보는 경향이 있으며, 이 두 가지 모두 제한된 자원의 확장에 기여한다고 지적한다. The more empathic, patient-centred style of women doctors, compared with that of their male colleagues, has been shown to result in better patient outcomes.12 In addition, a UK study of the suspension of GPs between 2001 and 2010 found that men attracted more complaints than women and were five times more likely than women to be suspended as a result of investigations into complaints.29 However, McKinstry suggests that ‘efficiency’ and ability to deal with ‘risk’ are as important as ‘empathy and communication’.7 McKinstry points out that women GPs spend longer with patients and are more likely to refer, and that women consultants see fewer patients than their male colleagues, and that both of these tendencies contribute to the stretching of limited resources.7
이러한 원시적 서술적 인구통계학은 의학의 여성화 현상을 완전히 깨닫지 못한 것이며, 의학교육의 여성화에 대한 제한된 설명만 제공한다. 뭔가 더 필요한 게 있다. 데이터가 설명할 수 없을 정도로 발전하려면 설명이 필요하지만 의료 교육 이론과 실무의 요소를 재고할 수 있는 혁신적인 탐구를 유도해야 합니다. 이 논문의 나머지 부분에서는, 어떻게 후기 구조주의자 페미니스트 상상력이 그러한 재고를 이룰 수 있는지 논할 것입니다.
This raw descriptive demography does not fully realise the phenomenon of the feminising of medicine and certainly offers a limited description of the feminising of medical education. Something more is needed. The data clearly need explanation if they are to move beyond description, but also invite innovative explorations to rethink elements of medical education theory and practice. In the remainder of this paper, I will argue how a post-structuralist feminist imagination can achieve such a rethink.
페미니스트 이론 Feminist theory
이전 섹션에서 보면, 의학의 여성화로 인한 이득은 간단해 보일 수 있다. 여성이 대다수 인력을 대표하게 되면서 여성 의사들의 컨설팅 스타일에 기반을 둔 문화의 긍정적인 변화가 일어나 환자에게 혜택을 줄 것이다. 하지만 상황은 이보다 더 복잡하며 여성 의사들이 남성 동료들보다 효율적이지 못하고 자원 의존도가 높다는 비판을 넘어섰다. From the previous section, the benefits of the feminising of medicine may seem straightforward. As women come to represent the majority of the workforce, a positive change in culture, grounded in women doctors’ consulting styles, will occur and will benefit patients. However, the situation is more complex than this and extends beyond criticism of women doctors as being less efficient and more resource-dependent than their male colleagues.
첫째, 역사적으로 형성된 '남성' 혹은 가부장적 의학 문화는 단순히 생물학적으로 남성 의사가 많았기 때문일까?
둘째, 성별에 대한 생물학적 접근법의 한계는 무엇인가? 예를 들어, 여성들이 여성화에 독점권을 가지고 있는가, 아니면 전통적으로 가부장적이었던 문화를 여성화하는 데 있어서 남성들도 대리인 역할을 할 수 있는가?
또한, 의학과 의학교육의 여성화에 있어 게이와 레즈비언 의사의 입장은 어떠한가? 30, 31
Firstly, is the historically formed ‘masculine’ or patriarchal culture of medicine simply a result of the dominance of biologically male doctors?
Secondly, what are the limits of a biological approach to gender? For example, do women have a monopoly on feminisation, or can men also act as agents in feminising a traditionally patriarchal culture?
Further, what are the positions of gay and lesbian doctors in the feminisation of medicine and medical education?30, 31
'남성 시위' The ‘masculine protest’
우리가 '여성적' 혹은 '남성적'이라고 말할 때, 우리는 생물학적 성, 즉 본질주의에 대한 문자 그대로의 설명이 아닌 문화적인 의미로 사용한다. 그들은 [은유적]으로 활용될 수 있다. '가부장제'는 남성을 지칭하는 문화적 맥락에만 관련되는 것이 아니며, 영웅주의, 합리주의, 확실성, 지성과 거리감, 객관화, 감상 이전의 설명을 수용하는 특정한 종류의 논리에 기초한 지배적인 문화적 형태를 말한다. 이러한 논리에 의해 채택된 핵심 전략은 [반대주의]이다. 예를 들어, 논리적인 것이 비논리적인 것의 반대이며, 전자는 후자보다 우월하다. 반대주의는 화해나 협력이 아닌 갈등의 전술이다. When we talk of the ‘feminine’ or the ‘masculine’, we use these terms in a manner that is not restricted to the literal description of biological sex – essentialism – but is cultural. They can be employed metaphorically. ‘Patriarchy’ does not relate to a cultural context that refers only to men, but refers to a dominant cultural form based on a particular kind of logic that embraces heroism, rationalism, certainty, the intellect, distance, objectification, and explanation before appreciation. A key strategy employed by this logic is oppositionalism: for example, the rational is opposed to the irrational and the former is dominant over the latter. Oppositionalism is a tactic of conflict rather than of reconciliation or collaboration.
남성들이 현대의학과 의대 교육을 지배했다고 하는 것은 사실이지만, 이는 가부장제의 문화적 형태가 더 넓어진 측면이다. 미셸 푸코는 의학에서 가부장제의 구체적인 모습을 '의학적 시선'이라고 표현했는데, 이는 다양한 '남성의 시선'으로 해석된다. 32, 33 Bordo는 시체가 '여성의 영역'이라고 주장하며, 반면에 남자들은 '육체에 가까이 가지 않고, 그것을 바라보는 시각을 유지하는 것'을 원한다. 따라서 객관화된 '남성 시선'의 지배력에 관한 익숙한 논쟁을 리허설한다. Although it is a truism to say that men have dominated modern medicine and medical education, this is an aspect of the wider cultural form of patriarchy. Michel Foucault has described the specific appearance of patriarchy in medicine as the ‘medical gaze’, interpreted as a variety of the ‘male gaze’.32, 33 Bordo34 argues that the body is ‘the province of the female’, whereas men, by contrast, want ‘to stand clear of the flesh, to maintain perspective on it’, thereby rehearsing a familiar argument concerning the dominance of an objectifying ‘male gaze’.
푸코의 설명에 따르면, 진단적 시선으로 몸 속 깊숙이 '보는' 의사의 투과 눈은 투과성 팔뚝과 차가운 논리 둘 다와 관련이 있다. 이 논리는 conducting 손과 손가락질 또는 탐침 손가락의 특이하게 남성적인 확장으로서 메스까지 확장됩니다.35 게다가, 의학적 시선은 클리닉의 위생된 하얀 입방체 안에서 정당화된다. 이는 건축에 있어서 냉정한 논리의 궁극적 표현이다. 이 곳에서는 남성 의사가 낯선 여성(환자로서)에 대한 전문적인 정밀 검사를 수행하도록 허가받았으며, 이러한 것은 다른 맥락에서는 금기 사항일 수 있습니다. 페미니스트s는 이 지배적인 가부장적 콤플렉스를 '팔로고 중심적'이라고 칭하게 되었다.
In Foucault’s description, the penetrating eye of the doctor that ‘sees’ into the depths of the body in a diagnostic gaze is associated with both the penetrating phallus and a cold logic. This logic extends to the scalpel as a peculiarly masculine extension of the conducting hand and the pointing or probing finger.35 Further, the medical gaze is legitimated within the sanitised white cube of the clinic, the ultimate expression of cold logic in architecture, in which the male doctor has been sanctioned to perform professional intimate examinations of women strangers, as patients, that would be taboo in other contexts. Feminists have come to term this dominant patriarchal complex ‘phallogocentric’.1
현대의학의 제도적 가부장제는 한 세기 전 정신분석학자 알프레드 아들러가 '남성 시위'라고 묘사한 것에 대한 대가를 치르고 있다.36 무수히 반복된 주장은 [의사들은 너무 많은 고통을 보고 있기 때문에 객관화와 거리 두기를 통해 스스로를 보호해야 한다는 것]이다. 정신분석학적으로, 그들은 부정과 억압이라는 더 강력한 자아 방어 메커니즘을 사용하는 경향이 있다. 그러나 이 '남성 시위'는 궁극적으로 '공감 감소'의 형태로 역효과를 낳는다. 의대생들은 환자를 대상화objectify하는 법을 배운다.37 Modern medicine’s institutional patriarchy is bought at a price, characterising what the psychoanalyst Alfred Adler described nearly a century ago as the ‘masculine protest’.36 The well-rehearsed argument is that doctors see so much suffering that they must protect themselves, through objectification and distancing, from carrying this suffering. Psychoanalytically, they tend to use the stronger ego defence mechanisms of denial and repression. However, this ‘masculine protest’ ultimately has a counterproductive effect in the form of ‘empathy decline’, whereby medical students learn to objectify patients.37
의대생들의 공감저하 연구들은 효과를 과장했다는 비판을 받아왔으며, 공감의 심리측정이 예측가치와 같은 제한된 효용성을 제공하는 것으로 나타났다.39 '공감', 40, 41이라는 용어의 정확한 의미에 대한 논란도 있어 '측정'이 무엇인지 의문을 제기하고 있다. 그러나 공감의 정의에 대한 강력한 방어와 공감 차원에 대한 심리학적 측정의 타당성이 제시되었다.42 또한 공감 감소 현상에 대한 그럴듯한 설명이 제시되었다.43 명시적 커리큘럼 설계를 통해 공감 감소가 억제되었다는 주장이 제기되었지만 측정된 수준은 의대 남학생보다 여학생이 공감 능력이 더 큰 것으로 나타났습니다.44
Studies of empathy decline in medical students have been criticised as exaggerating the effect38 and psychometric measures of empathy have been seen to afford limited utility, such as predictive value.39 There is also debate about the precise meaning of the term ‘empathy’,40, 41 which raises questions about what is supposedly being ‘measured’. However, robust defences of both definitions of empathy and the validity of psychometric measurement of dimensions of empathy have been made.42 Further, plausible explanations for the phenomenon of empathy decline have been offered.43 Although claims are made that empathy decline has been stemmed through explicit curriculum design, measured levels of empathy remain greater in female than in male medical students.44
공감 능력이 저하되면, 특히 의대생들이 임상 기반의 학습을 진행함에 따라, 그리고 특히 남성들 사이에서 억압된 영향은 증상적인 형태로 돌아올 수 있습니다. '남성 시위'의 감염에 저항하지 못하는 의사들 사이에서 약물 남용, 탈진, 우울증, 자살 사상, 자살 등의 비교적 높은 비율이 여기에 포함된다.45, 46 '남성 시위'는 의학의 모든 프로시져에 흐르는 논리를 제공하며, 궁극적으로 수술 문화에서 정점에 도달한다. If empathy is reduced, particularly as medical students progress to clinically based learning, and particularly amongst men, repressed affect may return in symptomatic form. This includes relatively high rates of substance abuse, burnout, depression, suicide ideation and suicide amongst doctors, who are unable to resist the infection of the masculine protest.45, 46 The ‘masculine protest’ offers a logic that runs through all of medicine’s procedures and reaches its apex in the culture of surgery.
의료교육에서 가부장제의 우위에 대한 두 가지 간단한 실례가 이 부분을 마무리할 것이다. 첫 번째는 임상 기술 훈련에 사용되는 'one-sex' 마네킹의 출현에 관한 것으로, 첨단 기술인 '심맨'에 여성용 마니킨이 없다는 사실이 이를 입증한다. 두 번째는 생명윤리학자 Tod Chambers에 의해 강조되는데, 그는 [의료윤리 사례 연구]조차도 남성의 세계관에 특권을 주는 방식으로 작성되어 있으며, 특정 개인에게 무감각한insensitive 추상적 원칙에 기반을 둔 접근을 통해, '사람'이 대상화되고 분석된다고 제안한다.48
Two brief illustrative examples of the dominance of patriarchy at work in medical education will round off this section. The first concerns the rise of the ‘one-sex’ manikin used for training in clinical skills,47 demonstrated by the fact that the high-tech ‘SimMan’ does not have a female equivalent. The second is highlighted by the bioethicist Tod Chambers, who suggests that even the medical ethics case study is written in a way that privileges a male worldview, whereby the ‘person’ is objectified and analysed through an abstract principles-based approach that is insensitive to the particular individual.48
페미니즘의 부상 The rise of feminisms
[남성 시위masculine protest]에 대응하여 여성과 남성 모두를 참여시키고 가부장적 가치에 대한 도전을 명확히 하는 사회운동이 전개되었다.
19세기 말과 20세기 초의 선거권자들은 이전에 여성들에게 거부되었던 여성의 '선거권'을 지지하는 사람들이었다. 이 운동은 1960년대와 1970년대의 '제2의 물결' 페미니즘에 관련된 사람들에 의해 소급적으로 '1차 물결' 페미니즘으로 불렸다. 이 때 쟁점은 기회의 평등, 생식 주기에 대한 통제, 사회적 문제에 대한 형평성 또는 정의에 관한 것이었다. (예를 들어, 1971년 2월까지 스위스에서 여성들은 투표할 수 없었다.)
제2의 물결 페미니스트는 출산을 포함한 생식 주기가 '의학화'되었고 남성 중심의 의료 직종에 의해 통제되었다는 사실을 지적할 것이다.
In response to the masculine protest, a social movement has developed, involving both women and men, and articulating a challenge to patriarchal values.
The suffragettes of the late 19th and early 20th centuries were supporters of women’s ‘suffrage’ or the right to vote, previously denied to women. This movement was retrospectively termed ‘first-wave’ feminism by those involved in the ‘second-wave’ feminism of the 1960s and 1970s, in which the issues were largely about equality of opportunity, control over the reproductive cycle, and equity or justice in social matters (although, for example, women were not able to vote in Switzerland until February 1971).
Second-wave feminists would point to the fact that their reproductive cycles, including birth, had been ‘medicalised’ and were controlled by a male- dominated medical profession.
여성권리를 지지하는 남성도 포함됐지만, 제2의 물결에서는 남성들을 배제하는 '독재주의자separatist' 페미니즘이 생겨났다. [제3의 물결]의 페미니즘은 1980년대 동안 민족, 동성애, 문화적 정체성의 보다 광범위한 문제를 인정하기 위해 등장했고, 여성에게 기회와 형평성의 평등, 또는 정의와 권리를 촉진하기 위해 가부장제의 우위에 도전하기 위해 동정적인 남성sympathetic men들과 동맹했다. Although the suffragists included men who supported women’s rights, ‘separatist’ feminism arose in the second wave, from which men were excluded. Third-wave feminism emerged during the 1980s to acknowledge wider issues of ethnicity, gay and cultural identities and allied with sympathetic men to challenge the dominance of patriarchy to promote equality of opportunity and equity, or justice and rights, for women.
[제3의 물결 페미니즘]은 생물학적 본질주의에서 문화의 측면이 젠더, 특히 젠더고정관념을 어떻게 생산하느냐에 관심을 옮겼다. 여기서 쟁점은 [지배적 가치, 사고방식, 가부장적 사회를 재생산하는 활동]을 debate하는 것이다. 예를 들어, 철학자 윌리엄 제임스는 '터프한 마음'과 '순한 마음' 사이에 긴장이 있다는 생각을 제시한다.49 터프한 마음가짐이 더 남성적이고 '순한 마음가짐'이 더 여성스러운 것으로 인식되지만, 그렇다고 모든 남성이 터프하고 모든 여성이 마음이 여린 것은 아니다. Third-wave feminism shifted interest away from biological essentialism to focus, rather, on how aspects of culture produced gender, especially gender stereotypes. The issue here is to debate dominant values, ways of thinking and activities that reproduce patriarchal society. For example, the philosopher William James presents the idea that there is a tension between ‘tough-minded’ and ‘tender-minded’ thinking.49 Tough-minded thinking is perceived as more male and ‘tender-minded’ thinking as more female in character, but this does not mean that all men are tough-minded and all women are tender-minded.
의학문화에 이를 적용한다면 의학이 남성에게 지배되고 가치관에서도 강경했던 것은 사실이지만 그렇다고 해서 일부 남성 의사는 tender-minded하고, 일부 여성 의사는 tough-minded하다는 뜻은 아니다. 제임스는 원래 이러한 서술어를 철학의 학교에서 이성적 경험론자와 실증론자의 강인한 학파, 그리고 이성보다 감정과 직관을 높인 부드러운 낭만주의 학파를 묘사하기 위해 사용했습니다.
If we apply this to the culture of medicine, although it is true that medicine has been dominated by men and has also been tough-minded in its values, this does not mean that some male doctors will be tender-minded and some women doctors tough-minded. James used these descriptors originally for schools of philosophy to describe on the one hand the tough-minded school of rational empiricists and positivists, and on the other the tender-minded school of the romantics, who elevated feeling and intuition above reason.
후기 구조주의자 페미니즘 Post-structuralist feminism
제3의 물결 페미니즘은 문화적 담론을 통해 성 정체성이 생성되는 방법에 관심이 있다. 이건 두 갈래로 갈라져.
첫째, 당신이 여자나 남자 몸을 가지고 태어났다고 해서, 이것은 당신이 특정한 방식으로 행동하도록 운명지어져 있다는 것을 의미하지는 않는다.
둘째, 문화적 가치의 집단을 '여성적'이라고 부를 수 있다는 것은 이것이 여성이나 어머니의 전유물이라는 것을 의미하지 않는다.
Third-wave feminism is then interested in how gender identities are produced through cultural discourse. This cuts two ways.
Firstly, just because you are born with a female or a male body (and some people are born with indeterminate gender), this does not mean that you are destined to act in a particular way.
Secondly, that a group of cultural values (such as sensitivity and tenderness) can be called ‘feminine’ does not mean that these are the exclusive domain of women or mothers.
2010년 유엔교육과학문화기구(UNESCO)는 '글로벌 사회과학 풍경'과 사회과학이 국제적 이슈에 기여하는 내용을 담은 보고서를 작성했다. 이 보고서는 '사회과학이 이렇게 영향력 있는 것은 처음'이라고 시사했다. 이상하게도 400페이지가 넘는 보고서에는 사회과학이 의학이나 의학교육에 미치는 영향에 대해 구체적으로 언급되지 않고 있지만, '신체'에 대한 한 문단이 있다. 이 단락은 [역사적으로 신체는 의학과 생물학 연구의 영역이었지만, 1990년대 이후 신체는 다양한 사회과학의 학문 간 만남의 지점이 되었다]는 점에 주목한다. 이와 같이 사회과학이 신체를 연구 대상으로 전환함에 따라 [신체를 정교한 기계로 보는 의학적인 관점에 대한 비판]이 제기되었으며, 다음과 같은 생각이 도입되었습니다. '일부 페미니스트와 포스트모던 이론가들에게 신체body는 안정적인 경험의 현장이라기보다는 단지 담론의 효과일 뿐이다.'
In 2010, the United Nations Educational, Scientific and Cultural Organization (UNESCO) produced a report on the ‘global social science landscape’ and the contribution of the social sciences to international issues.50 The report suggested: ‘Never before have the social sciences been so influential.’50 Strangely, in the 400-plus pages of the report, no mention is made specifically of the influence of the social sciences on medicine or medical education, but there is one paragraph on ‘the body’. This paragraph notes that the body has, historically, been the domain of study in medicine and biology, but ‘since the 1990s, the body has been an interdisciplinary meeting point for various social sciences’.50 This turn of the social sciences towards the body as an object of study has led to a critique of the medical view of the body as a sophisticated machine and has introduced the idea that: ‘For some feminist and postmodern theoreticians, the body is just the effect of discourse rather than a stable site of experience.’50
'단지just'라는 단어는 수사학적으로 사용된 것이다; 신체는 문화적 담론과 생물학 둘 다의 효과라고 제안하는 것이 좋을 것이다. 주요 문화적 담론은 성별이며, 1960년대 이후 성 문제는 페미니스트에 특히 관심을 가져왔다. 현대 페미니스트의 사고에는 영미주의와 대륙주의, 두 가지 광범위한 흐름이 있습니다; 후자는 종종 '프랑스' 후기 구조주의로 일컬어집니다.1 영미권의 흐름은 경제적 또는 정치적 전략을 통해 해결할 수 있는 구조적 불평등의 분석에 기초하고 있다. 이 영역은 이 기사의 첫 부분에서 소개되었다. 대륙주의의 흐름은 [분석의 기반]을 [담론의 효과(문화에 기반을 둔 언어와 생각)]로 옮기고, [활동을 형성하게 된 근본적인 사고와 가치관]이 해결되지 않는다면, 구조적 사회 문제를 다루는 것은 cosmetic한 것이 될 수 있다고 주장한다. The word ‘just’ is used rhetorically; it would be better to suggest that the body is both an effect of cultural discourse and biology. A key cultural discourse is gender and since the 1960s gender issues have been of particular interest to feminists. There are two broad streams of contemporary feminist thinking, Anglo-American and Continental; the latter is often referred to as ‘French’ post-structuralism.1 The Anglo-American stream is grounded in the analysis of structural inequalities that can be addressed through economic or political strategies; this territory was introduced in the first part of this article. The Continental stream moves the ground for analysis to the effects of discourse – culturally based language and thought – and argues that addressing structural social issues can be cosmetic if fundamental ways of thinking and valuing, that come to shape activity, remain unaddressed.
후기 구조주의 페미니즘'란 무엇인가? 1, 2 구조주의는 언어학자 페르디난드 드 사우수의 생각에 근거한 20세기 전반의 가장 영향력 있는 이론적인 틀 중 하나였으며, 언어는 하나의 체계이며, 모든 언어 표현은 보편적이고 근본적인 구조 또는 생성 규칙의 집합이다. 어떤 언어로든 단어(예: '개')와 객체 자체(개)의 관계는 자의적입니다. 이 단어는 [전체 기호 분야(구조)]에서 [다른 단어(예: '고양이')]와의 차이에 의해서만 의미를 갖는다. What is ‘post-structuralist feminism’?1, 2 Structuralism was one of the most influential theoretical frameworks of the first half of the 20th century, based on the linguist Ferdinand de Saussure’s idea that language is a system, and that all language expressions are subject to a universal, underlying structure or set of generative rules. The relationship between a word in any language (such as ‘dog’) and the object itself (the dog) is arbitrary. The word bears meaning only in its difference from other words (such as ‘cat’) in an overall field of signs (the structure).
그 후, 구조주의자들은 보이지 않는 조직 분야를 반대oppositional 범주에 관한 코드로 축소했습니다. 예를 들어, 인류학자 Lévi-Strauss는 문화 전반에 걸친 복잡한 신화를 기본적인 반대 범주인 '날것과 요리된 것' 또는 자연 대 문화로 축소했다. 촘스키는 언어가 보이지 않는 기본적인 생성 규칙 집합 위에 세워져 있다고 제안했고, 피아제는 인간의 인지 발달이 불변하고 펼쳐지는 일련의 단계를 따른다고 제안했다.
Subsequently, structuralists reduced this unseen organising field to a code concerning oppositional categories. For example, the anthropologist Lévi-Strauss reduced complex mythologies across cultures to a basic oppositional category: ‘the raw and the cooked’, or nature versus culture; Chomsky suggested that language was built on a basic set of unseen generative rules, and Piaget suggested that human cognitive development followed an invariant, unfolding sequence of stages.
20세기 후반에는 [문화적 차이가 환원reduced될 수 있는 보편적 조직 구조]에 대한 생각에 의문이 제기되었다. 더 중요한 것은, 구조주의를 특징짓는 '구조' 그 자체가, 논리의 구조로서 [gendered male]로 보였다는 점이다. 또한, [반대 범주로 구조를 조직하는 것]은 언어 사용과 실제 사회 관계 모두에서 [반대되는 한 극이 다른 극을 지배하고 억압]하게 되었다는 점에서 잠재적으로 '위반'으로 보였다. 예를 들어, '남자'는 '여자'에 반대하며 지배적이다. In the latter half of the 20th century, the idea of a universal organising structure to which cultural differences could be reduced was questioned. More importantly, the ‘structures’ themselves that characterised structuralism were seen to be gendered male, as structures of logic. Further, the organisation of structures as oppositional categories was seen to be potentially ‘violating’ in its expression in that one pole of the opposition came to dominate and oppress another, both in language use and in actual social relations; for example, ‘Man’ stands in opposition to and is dominant over ‘Woman’.
구조주의에 대한 이러한 의구심이 생기면서 포스트구조주의 철학적, 문화적 비평이 등장했다. 이 운동은 예술과 인문학에서 지배적인 비평의 형태가 되었지만 아직 의학 교육에서는 채용되지 않았다. 이 운동에 따르면, [세계는 보이지 않는 보편적인 원리에 의해 조직된 것]이 아니라 [독특한 문화적 규칙을 통해 지역적으로 표현된다]고 가정한다. 중요한 것은, [후기구조주의자]들은 이러한 [지역적 표현]과 [복수적 표현]의 차이가 그저 용인tolerated될 뿐만 아니라 기념되어야celebrated 한다고 주장한다. In the wake of these doubts about structuralism, a post-structuralist philosophical and cultural critique emerged. This movement has become a dominant form of critique in the arts and humanities but has yet to be employed within medical education. It assumes that the world is not organised by unseen universal principles, but is expressed locally, through idiosyncratic cultural rules. Importantly, post-structuralists argue that difference between these local and plural expressions should not only be tolerated, but also celebrated.
언어가 실천을 형성shape한다는 점에서, 후기 문화주의자인 페미니스트들은 [언어가 가부장제의 지배적인 문화적 담론을 지지하기 위해 사용]되는 방식 및 [왜 성별 간의 차이가 기념되지 않고, 오히려, 하나의 통제 충동, 즉 남성의 그것을 지지하기 위해 확대되는지]에 특히 관심이 있다. 그들은 여성의 생식 사이클을 남성이 전유하는 것으로부터 해방되는 것과 같은 전통적인 1960년대 후기의 전통적 페미니스트에는 초점을 덜 두며, 그보다는 [사회적 실천을 형성하는 가치에 대한 기준으로 남자의 목소리에 의해서 텍스트가 어떻게 전유되는지appropriated에 ]더 관심이 있다. Where language shapes practices, post-structuralist feminists are particularly interested in the way that language is used to support the dominant cultural discourse of patriarchy and why differences between the genders are not celebrated, but, rather, are widened in support of one controlling impulse: that of the male. They are less interested in the foci of traditional post-1960s feminists, such as the liberation from male appropriation of women’s reproductive cycles, and more concerned with how text is appropriated by the male voice as a basis for the values that shape social practices.
후기구조주의자인 페미니즘은 'French'라고 불리는데, 이는 세 명의 프랑스 국가 사상가, 특히 Julia Kristeva, 51 Ellene Cixous 52-54, Luce Irigaray의 영향이다.55 하지만, 미국의 Judith Butler와 같은 다른 작가들 역시 이러한 새로운 성향을 형성하는데 영향을 미쳤습니다. Butler의 관점에서, 젠더는 운명이 아니라, 정체성을 형성하기 위해 '수행되는performed' 것이고, 이는 젠더를 단순히 생물학적 표현을 넘어, 문화적 구성cultural construction으로 이동시킨다.1
Post-structuralist feminism is often referred to as ‘French’ because of the influence of three French national thinkers in particular: Julia Kristeva,51 Hélène Cixous52-54 and Luce Irigaray.55 However, other writers such as the American Judith Butler have also been influential in shaping this new wave of feminism.1 Butler’s view is that gender is not destiny, but is ‘performed’ to construct identity, and this moves gender beyond biological expression to cultural constructions.1
후기구조주의자인 페미니즘은 세 가지 개념으로 특징지어진다.
잠재적으로 억압적인 이분법적 사고의 논리에 도전하는 것,
즉 '차이'를 존중하고 용인하는 것,
'타협적' 사고
이러한 각 우려 사항은 여기에 요약되어 있습니다.
Post-structuralist feminism is characterised by three notions:
challenging the potentially oppressive logic of binary thinking;
respecting and tolerating ‘difference’, and
‘liquid’ thinking.
Each of these concerns will be summarised here.
이분법적 사고에 도전하기 Challenging binary thinking
[젠더 연구]는 복잡한 성별 문제를 본질주의로 축소하거나, 순수 생물학적 차이 측면에서 성별을 언급하는 이분법적 사고(예: 남성 대 여성)를 활용하는 경향에 의해 손상된다. 후기구조주의자인 페미니즘은 그러한 수사학에 도전하는데,
첫째는 반대적 사고에 대한 비평이고
둘째는 생물학적 차이 이전에 [언어 사용]에 초점을 맞춘다.
[반대적 사고oppositional thinking]는 재료를 단순한 서술 범주로 축소함으로써 복잡성을 통제하기 위한 기본적인 수사학적 전략으로 볼 수 있다. Gender studies are compromised by a tendency to utilise binary thinking (such as male versus female), which reduces complex gender issues to essentialism or refers to gender in terms of purely biological differences. Post-structuralist feminism challenges such rhetoric,
firstly in a critique of oppositional thinking and
secondly in a focus upon language use prior to biological difference.
Oppositional thinking can be seen as a basic rhetorical strategy with which to control complexity by reducing material to simplistic descriptive categories.
[반대적 사고]와 그에 따른 실천에 의하면, 한 용어는 긍정적이 되고, 다른 용어는 남성/여성, 인간/동물, 성인/자녀, 백인/흑인과 같은 비대칭적인 반대에서 지배하게 된다. 예속된 용어는 지배되거나 지배될 뿐만 아니라 쉽게 경시되고 정형화되고 악마화된다.Cixous는 '담론이 어디서 구성되든' 그것은 '항상 같은 은유'이며, 위계로 이어지는 반대주의이거나 이중성duality의 것이라고 지적한다. 예를 들어, 서양의 생각은 항상 반대를 통해 작동해왔는데, 예를 들어 활동/수동성, '여성은 항상 수동성과 연관된다'와 같은 것이다. 의학은 불확실성으로 가득 차 있음에도, 의학의 특징은 subject matter를 반대 범주로 축소함으로써 이를 통제하려는 것이다. 그 예로서, 정상 대 병리학적, 건강 대 질병, 치료 대 관리와 같은 것이 있다.
In oppositionalist thinking and its subsequent practices, one term becomes the positive and comes to dominate the other in an asymmetrical opposition, such as man/woman, human/animal, adult/child, white/black. The subjugated term is not only governed, or ruled, but is easily belittled, stereotyped and demonised. Cixous points out that ‘wherever discourse is organised’ it is ‘always the same metaphor’, that of oppositionalism or duality leading to hierarchy, where Western ‘thought has always worked through opposition’, such as Activity/Passivity, and ‘woman is always associated with passivity’.56 Although medicine is riddled with uncertainty, it characteristically controls this by reducing its subject matter to oppositional categories, such as normal versus pathological, health versus illness, and cure versus care.
Kristeva51은 반대적 사고는 편견을 향해 악화될 가능성이 높다고 말한다. 일반적으로 반대는 주체/객체의 형태를 취합니다. 내가 반대하는 것은 잠재적으로 비인간적이고 비개인적인 것이다. 좌천된 '타인'은 용인할 수 없는 '천한abject' 존재로 빠르게 악마화될 수 있다. 그 천한 존재abject는 배제될 뿐만 아니라, 희생양과 같이 병리적이고 적극적으로 차별된다. 연구 결과에 따르면 의사들은 [덜 아픈 환자]를 [더 많이 아픈 환자]보다 더 호의적으로 대하는 경향이 있는 것으로 나타났다.28
Kristeva51 suggests that oppositional thinking readily deteriorates to prejudice. Typically, opposition takes the form of subject/object. Whatever I oppose is potentially de-humanised and de-personalised. The relegated ‘other’ can quickly become demonised as the ‘abject’ that is considered intolerable. The abject is not only excluded, but pathologised and actively discriminated against, such as by scapegoating. Research has shown that doctors tend to treat their less ill patients more favourably than more ill subjects.28
다름을 축하하기 Celebrating difference
의료의 민주화를 위해서는 위계에 대한 반대countered가 필요하다. 특히 '수평적' 형태의 팀워크가 환자 건강 결과에 도움이 된다는 증거에 비추어본다면 그러하다. 전문직 종사자들이 자신을 반체제적이고oppsed 위계적으로 위치시킨다면, 진정한 전문직 상호주의로 전환될 가능성은 좌절된다. Cixous와 같은 작가들은 [반대주의적 사고]의 습관에 저항해야 한다고 제안한다. ('우리와 그들' 사고방식을 생산해낸) 제국주의와 식민주의 대신, 사람 사이의 여러 가지 차이점에 초점을 맞추고 이를 축하하는 것이다. Cixous와 Clément는 '영원한 자연 그대로의 남성적 구조의 안정'과 '자연적으로' 지배적인 것에 대한 도전을 제시합니다. – 다른 사람들을 주인공protagonist의 자아로 몰아넣는 '자아의 제국'입니다.
Hierarchies need to be countered if we are to democratise medicine, especially in light of evidence that ‘horizontal’ forms of team-working benefit patient health outcomes.57The possibility of a transition to authentic interprofessionalism is frustrated by professions positioning themselves as opposed and hierarchical. Writers such as Cixous suggest that we must challenge the habit of oppositionalist thinking that has historically informed – and attempted to naturalise – imperialism and colonialism (producing an ‘us and them’ mentality) and instead focus upon, and celebrate, multiple differences among persons. Cixous54and Clément58offer a challenge to the ‘stability of the masculine structure that passed itself off as eternal-natural’ and ‘naturally’ dominant – the ‘Empire of the Selfsame’ that forces others into the mould of the protagonist’s self.
'유동적' 사고와 은유 사용 ‘Liquid’ thinking and the use of metaphor
Irigaray59와 Cixous52는 페미니즘이 자신의 언어를 주장해야 하며, 가부장적 언어의 매체를 통해 일하도록 이끌어서는 안 된다고 제안합니다. Irigaray59는 지배적인 가부장적 언어에 의해 소외된 ways of thinking and knowing을 포착하기 위해 사용될 수 있는 fluid and liquid 언어를 묘사합니다. 의학은 다른 복잡한 praxis처럼 은유와 밀접하게 연관되어 있다. 의학에서의 사고thinking in medicine는 두 가지 방식으로 작용한다. 하나는 문자 그대로 사회-현실적 서술이며, 다른 하나는 비유적 또는 은유적인 표현적 서술이다. Irigaray59 and Cixous52 suggest that feminism must claim its own language and not be drawn to work through the medium of a patriarchal language. Irigaray59 describes a fluid or liquid language that is highly metaphorical that might be used to capture ways of thinking and knowing that are marginalised by the dominant patriarchal language. Medicine, like any complex praxis, is intimately bound with metaphor. Thinking in medicine works in two ways: literally, as social-realist narrative, and figuratively or metaphorically, as expressive narrative.
문자 그대로의 모습을 형상화함으로써 은유법은 환자의 경험에 더 가까워질 수 있도록 도와줄 수 있다. 예를 들어, 빈센트 램은 할아버지의 종양에 대해 다음과 같이 설명합니다. '그의 왼쪽 옆구리가 마치 풍선이 피부 밑으로 부풀어 오르는 것처럼 부풀어 올랐다. 나는 손가락 끝으로 종양을 부드럽게 눌렀다. 차가운 플라스틱처럼 단단하고 단단했다.' '풍선이 부풀어 오르는 것처럼' '차가운 플라스틱처럼'과 같은 이 텍스트 전반에 걸친 은유와 유추는 패턴 인식을 통해 전문가의 임상 판단에 어떤 것이 채택되는지employed를 반영한다. 램(남성의사)은 할아버지의 '피묻은 오줌'을 '거친 모래와 같은 응고물'을 가진 것으로 묘사한다. 이러한 근접한 인식close noticing과 문자 그대로의 접촉은 Irigaray의 특징적으로 남성적이며 환자를 수동적인 역할에 배치하는 객관적이고 추상적인 진단 시선에 대응하기 위한 전술에 대한 반응을 분명하게 보여줍니다.
By turning the literal into an image, metaphors can help us to get closer to the experience of the patient. For example, Vincent Lam describes his grandfather’s developing tumour: ‘His left flank bulged as if a balloon was being inflated under the skin… I pressed the tumour gently with the tips of my fingers. It was firm, hard like cold plasticine.’60 The metaphors and analogies throughout this text –‘like cold plasticine’, ‘as if a balloon was being inflated’– reflect those employed in expert clinical judgement through pattern recognition. Lam (a male doctor) further describes his grandfather’s ‘bloody pee’ as having ‘clots like coarse sand’.60 This close noticing and literal contact clearly illustrate a response to Irigaray’s call for tactility59 to counter the objectifying and abstracting diagnostic gaze that is characteristically male and serves to place the patient in a passive role.
수잔 손탁은 은유가 가부장제를 대신하여 전략적으로 사용될 수 있다고 지적한다.61 결핵의 전조에 따라, 암과 후천성 면역 결핍 증후군에 대한 현대적 서술은 문자 그대로의 질병의 설명을 넘어 비난적인 은유를 제공할 수 있다. 이러한 은유들은 병을 앓고 있는 사람들에게 수치심과 죄책감을 가져오고 적절한 치료를 구하는 것을 방해할 수 있습니다. 이것은 지지와 이해보다는 수치심과 희생양으로 가득찬 문화로 울려 퍼진다. 게다가, 의학은 일반적으로 '암과 싸우는 것'과 같은 일을 묘사하기 위해 [남성적인 군사적 은유]를 사용하는 상황에서, 환자들이 질병을 다루는데 도움을 주지 못할 수도 있다. 이미 지친 환자는 자신이 싸울 수 없다고 느낄 수도 있다. Susan Sontag notes that metaphors can be employed strategically on behalf of a patriarchy.61 Following the precursor of tuberculosis, contemporary descriptions of cancer and acquired immune deficiency syndrome (AIDS) can move beyond accounts of literal illness to offer accusatory metaphors.61 These metaphors bring about shame and guilt in those suffering from illness and may prevent them from seeking appropriate treatment. This resonates with cultures of shaming and scapegoating rather than of supporting and understanding. In addition, medicine may fail to help patients to deal with illness in contexts in which it typically employs masculine martial metaphors to describe its work, such as ‘fighting cancer’. The already exhausted patient may feel she is not up to the fight.
아마도 [여성화된 서술적 감수성]은 (형식적인 기계학보다는) 환자를 전체적으로 파악하고, 유동적이고 역동적인 감성을 통해 환자의 복잡성을 파악할 가능성이 더 높을 것이다. Cixous52가 'écriture feminine'이라고 표현한 유동적 사고는 세상을 은유적으로 묘사하고 있는데, 이것은 [위장된 통제 형태]도 아니고 [호혜주의에 대한 요구]도 아닌, 무조건적인 보살핌에 대한 우아한 비유이다.
Perhaps a feminised narrative sensibility is more likely to read the patient holistically and to grasp the complexity of the patient through a fluid, dynamic sensibility rather than a formal mechanics. The liquid thinking that is described by Cixous52as ‘écriture feminine’ metaphorically inscribes the world with ‘mother’s milk’, an elegant metaphor for nourishing, unconditional care that is neither a disguised form of control nor a demand for reciprocity.
젠더 텍스트로서의 커리큘럼 The curriculum as a gender text
[후기구조주의적 페미니즘]의 기본 전제를 소개한 후, 이 기사의 나머지 부분에서는 이러한 관점이 가부장제와 남성적 항의를 통해 현재 습관적으로 형성되고 있는 [의학교육을 재고하는 데 어떻게 도움을 줄 수 있는지]에 대해 논의할 것이다. 포스트 커리큘럼 페미니즘의 프레임워크를 통해 의학 커리큘럼을 어떻게 재성별할 수 있는가? 몇 가지 실례가 검토된다.
Having introduced the basic premises of post-structuralist feminism, the remainder of this article will discuss how this perspective can help us to rethink medical education that is currently habitually formed through the discourse of patriarchy and the masculine protest. How might the medicine curriculum be re-gendered through the framework of post-structuralist feminism? Several illustrative examples are considered.
커리큘럼 설계 Curriculum design
교육과정을 '성교과서gender text'로 설명하는 것은 의대에서 이례적일 것이다. 그러나 현재 커리큘럼은 남성 대 여성의 구도에서 '여성'을 열등하게 배치하는 전형적인 가부장적 장치를 통해 설계, 구현 및 평가된다. 이 기사의 첫 번째 섹션에 요약된 인구 통계에 따르면 의대생 여학생이 촉진자로서 남학생보다 뛰어나지만, 의학 교육에서 여성이 적절히 대표되지 않는다고 한다. 왜 이 미끄러짐slippage이 발생하는가? 아마도 현재의 커리큘럼 디자인은 의식적으로 또는 무의식적으로 가부장적 형태를 재현했기 때문이다. It would be unusual in medical education to describe the curriculum as a ‘gender text’,62 yet curricula are designed, implemented and evaluated through typical patriarchal devices that gender-stereotype to place ‘woman’ as the inferior in a male versus female opposition. The demographics summarised in the first section of this article note that women are not represented adequately in medical education, although female medical students outperform male students as facilitators. Why does this slippage occur? Perhaps current curriculum design consciously or unconsciously reproduces patriarchal forms.
예를 들어, 앞서 언급했듯이, [고급 임상 기술 마네킨]은 남성의 모습을 하고 있다. 생물의학자는 사회과학처럼 'Soft' 또는 tender-minded 과목으로 인식되는 것에 대해 적대적인 것으로 악명 높다.63 (역량으로 표현되)는 행동 결과 기반 학습과 같은 커리큘럼 계획에서, 현재의 정통성orthodoxy은 [합리적, 기술적, 도구적, 목표 지향적이고 냉정]하다고 볼 수 있다,64 따라서 남성적 항의masculine protest와 권위주의적 성격의 전형적인 특징을 닮았습니다. 그러한 접근법은 과정, 직관, 그리고 합법적인 학습으로서의 영향을 부정합니다. For example, as I have noted, advanced clinical skills manikins are gendered male. Biomedical scientists are notoriously hostile towards what they perceive as ‘soft’ or tender-minded subjects such as the social sciences.63 The current orthodoxy in curriculum planning, such as behavioural outcomes-based learning – expressed as competencies – can be seen as rational, technical, instrumental, hierarchical, goal-oriented and cold,64 thus resembling the classic profile of the masculine protest and the authoritarian personality. Such approaches deny process, intuition and affect as legitimate learning.
커리큘럼은 살아있는 경험입니다; 그것은 단순한 강의요목이나 내용목록을 넘어서고, 정체성을 형성하는 역할을 합니다. 의대 교육에서 정체성 관련 목표는 [의대생의 정체성]에서 [수련의사의 정체성]으로의 전환을 말한다. 그러나 만약 이 정체성 구축이 [불확실성과 모호성을 인정하는 것에 대한 방어적 태도]와 [냉소를 초래할 수 있는 감정의 무뎌짐]와 같은 남성적 항의의 고전적인 징후를 수반한다면 어떻게 될까? 이 두 가지 모두 의대생들 사이에서 '공감 감소' 현상이 잘 문서화되어 있다는 증거로, 남성 젠더적 현상male-gendered phenomenon로 읽힐 수 있다. 개인주의적인 '영웅적인' 의학의 시대는 끝났다고 말한 Ludmerer는 옳은가?
The curriculum is a lived experience; it extends beyond a mere syllabus or list of content, and serves to construct identities. In a medical education, the identity-associated goal refers to a transition from the identity of medical student to that of trainee doctor. But what if this identity construction carries with it the classic signs of the masculine protest such as defence against admitting uncertainty and ambiguity, and the hardening of feelings that can lead to cynicism? Both are signs of the well-documented phenomenon of ‘empathy decline’ amongst medical students, which can be read as a largely male-gendered phenomenon. Is Ludmerer24correct to suggest that the days of individualistic ‘heroic’ medicine are over?
성인교육 Andragogy
의학 교육에서 Andragogy 또는 성인 학습 이론의 광범위한 무비판적 수용은 언어와 사상에 근거한 제도화된 성 편견을 위장한다.65 'andragogy(그리스어: andr-)'의 어원은 '남성' 또는 '남자'를 의미한다. 의학 교육이 'gynagogy'이라면 어떻게 보일까? [자율성]을 특권화하는 이론들도 마찬가지로 협력적인 접근법을 희생시키면서, 의학의 전통적으로 영웅적이고 남성적인 입장을 반영한다.
The widespread uncritical acceptance of andragogy, or adult learning theory, in medical education, disguises an institutionalised gender bias grounded in language and thought.65The root of ‘andragogy’ (Greek:andr-) means ‘man’ or ‘male’. How might a medical education look if it were a ‘gynagogy’? Learning theories that privilege autonomy also serve to mirror medicine’s traditionally heroic, masculine stance, at the expense of more collaborative approaches.
전문성, 성찰 및 자기 지식 Professionalism, reflection and self-knowledge
의학 교육에서 전문성과 개인적 성찰의 강조가 보다 tender-minded practice을 향한 움직임을 반영하는 것처럼 보일 수 있지만, 전문직업성은 남성적 항의masculine protest의 영향 아래 놓여 있다. 여기에는 '커리큘럼 설계'로 불리는 [명시된 학습 성과를 통한 평가의 엄격한 접근 방식]을 포함한다. Although the emphasis upon professionalism and personal reflection in medical education may seem to reflect a move towards a more tender-minded practice, professionalism is subject to the influence of the masculine protest, including the supposedly rigorous approach of assessment through stated learning outcomes, referred to under Curriculum design.
교육과정에서 [전문직업성]은 학생들이 [제도화된 형태의 성찰적 실천을 통해 자신을 알게 되는 기술]로 광고되는 경우가 많다. 그러나 이는 학습자를 [개인주의적 모델] 또는 [자율적 성찰 모델]로 유도하여 Andragogy의 교리를 확인시킴과 동시에 협력에서는 더 멀어질 수 있습니다.66 Christeva는 실제로 우리는 언제나 '자신에게 낯선 사람'이기 때문에, '나를 아는 것self-knowing'이란 것은 (마스터리의 한 측면인) 잠재적 환상이라고 비판합니다.67 Professionalism in the curriculum is often advertised as a technique by which students come to know themselves through institutionalised forms of reflective practice. However, this may drive learners into individualistic or autonomy-based models of reflection that confirm the tenets of andragogy and move away from collaboration.66 Kristeva critiques such ‘self-knowing’ as potential illusory, an aspect of ‘mastery’, when in reality we are always ‘strangers to ourselves’.67
[자신의 실천, 자기 이미지,커리어 목표에 대해 더 불확실한 여성 동료들]과 비교했을 때, 남성 의사들은 [강한 자기 이미지]에 부합하고, [협소한 커리어 야망]에 부합하는 그들의 직업에 대해 [확고한 자신감]을 보인다.28 이 차이는 정신분석학적으로 읽힐 수 있는데, 여기서 [지나친 자신감]은 [불확실성의 인식에 대한 방어기제defence]가 되기 때문이다. Kristeva는 자기자신을 알게 되는 것은 역설적으로 '(자기 자신을) 모르는 것'을 통해서 이루어진다고 말한다. 즉, 자아 이미지의 기본적인 불안정성을 인식하는 것이다. 하지만, 다시 말하지만, 이것은 '마스터리'가 아니다('마스터리'역시 또 다른 배제적, 남성적 용어이다). In comparison with their female colleagues, who are more uncertain about practice, self-image and career goals, male doctors show assertive confidence in their practice congruent with strong self-image and aligned with focused career ambitions.28 This difference can be read psychoanalytically, where over-confidence can offer defence against recognition of uncertainty. Kristeva suggests that it is through ‘unknowing’, or the recognition of basic instability of self-image, that we paradoxically come to know ourselves.67 But, again, this is not ‘mastery’ (another exclusive, masculine term).
또한 [전문직업적 실천]은 주로 [상황 또는 맥락적으로 민감한 윤리]보다는 [원칙 집합을 고수하는 접근법]에 기초한 윤리적 행동에 의해 정의되어 왔다(사례 참조).68 [원칙에 기초한 접근법]은 [명확성과 획일성이라는 보다 남성적인 목적]을 위해 노력하는 반면, [상황적 접근법]은 [모호성에 대한 보다 여성적인 관용]을 허용한다.
Further, professional practice has largely been defined by ethical behaviour based on an approach that adheres to the upholding of a set of principles, rather than on a situated or contextually sensitive ethics (see Cases).68 Principles-based approaches strive for the more masculine purposes of clarity and uniformity, whereas situated approaches allow for a more feminine tolerance of ambiguity.
사례 Cases
만약 의학이 '어머니 젖'으로 글을 쓰는 것이 어떤 것인지 은유적으로 묻는 Cixous(52)에 의해 모델링된 것과 같은 여성적이고 여성적인 글쓰기의 관점에 의해 인도된다면, 그러한 윤리의 '사례'는 어떻게 보일까, 아니면 어떻게 기록될까? 이것은 환자 '사례'와 같은 글을 부성애보다는 모성애로 적는 것으로 읽힐 수 있다. 씨소스가 52번이나 '어머니 젖'을 비유로 사용한 것은 남성에게도 글쓰기에 대한 참여를 열어주고, 우리 삶의 글쓰기를 자양분이면서 표현력 있는 모유처럼 (성격이나 정체성 형성의 의미로) 얼룩지는 '표현'하게 해준다. What would such ethics ‘cases’ look like, or how would they be written up, if medicine were guided by the outlook of écriture feminine, feminine practices of writing, such as those modelled by Cixous,52 who asks, metaphorically, what it is like to write with ‘mother’s milk’? This can be read as (re)inscribing writing, such as a patient ‘case’, with maternalism rather than paternalism. Cixous’s52 use of ‘mother’s milk’ as a metaphor opens participation to men also to treat writing – and the writing out of our lives as identity performances – as nourishing and expressive, ‘expressed’ as breast milk that stains (in the sense of character or identity formation) as it sustains.
Cixous는 남성적인 문체의 지배적인 관례에 대한 저항으로 여성적인 단일한 '목소리'가 어떻게 글로 옮겨질 수 있는지를 더 자세히 설명합니다. 그녀는 어떻게 글쓰기가 지적인 글쓰기의 양식적 요구에 의해 평탄해지지 않을 수 있는지를 보여준다. 그래서 우리는 글쓰기를 숨막히게 하거나 문장과 침묵으로 만들어 낼 수 있다.69
Cixous further describes how a singular, feminine ‘voice’ might be brought into writing by resistance to the conventions of a dominant masculine style. She shows how writing might not be flattened by the stylistic demands of intellectual writing (the scientific report, the ‘case’ presentation) so that we might ‘make the text gasp or form it out of suspenses and silences’.69
돌봄 Care
Martha Nussbaum의 관점에서, 보건의료(예: 자원 분배)에는 ['돌봄'의 질에 대한 여성적 우려]보다 ['정의' 문제에 대한 중요한 남성적 우려]가 더 특권적 위치에 있다.70 우리는 이것이 2008년 영국 의학 저널에 발표된 남성 의사인 McKinstry와 여성 의사인 Dacre 사이에 펼쳐진 토론에서 볼 수 있다., 12 앞서 언급한 바와 같이, McKinstry는 의학의 여성화 지지자들이 [환자와의 의사소통(관리 품질) 향상에 중점을 두는 것]은, 의료인들이 환자와 더 많은 시간을 보내고 더 많은 의뢰를 제공하는 것을 수반하기 때문에, [자원에 대한 압박과 같은 정의 문제]와 상충된다고 제안합니다. 물론 두 가지 성향 모두 중요하지만, 반대되는 남성적 항의가 대표적이다. 그러나 누스바움은 정의의 윤리가 보살핌의 윤리보다 지속적으로 특권을 누리고 있으며, 이는 불평등을 초래하는 성 편견으로 읽힐 수 있다고 주장한다.70
For Martha Nussbaum, there is an overarching male privileging of issues of ‘justice’ in health care (such as in the distribution of resources) over a female concern with issues of quality of ‘care’.70We see this played out in the debate published in theBritish Medical Journalbetween McKinstry, a male doctor, and Dacre, a female doctor, in 2008.7,12As noted earlier, McKinstry suggests that the focus placed by supporters of the feminisation of medicine on improved communication with patients (quality of care) is at odds with justice issues such as pressure on resources because it involves practitioners in spending more time with patients and offering more referrals. Of course, both orientations are important, but it is typical of the masculine protest to place them in opposition. However, Nussbaum argues that an ethic of justice is persistently privileged over an ethic of care, and this can be read as a gender bias leading to inequalities.70
가계 Household
얼마 전까지만 해도 1년차 주치의(주니어 레지던트로 인턴이 진급)를 부르는 용어로서, 병동 팀이라는 맥락에서의 '회사'라는 기술어의 의미, 'house officer'과 'houseman'의 의미를 따지려 했던 의사는 거의 없었을 것이다. 영국에서는 이제 'firm'라는 개념이 사라지고 'foundation doctor'라는 용어가 'house officer'을 대체하게 되었다. 남근적 용어인 'firm'은 이제 무기력flaccid해졌으며, 오히려 유연해지고 유동적이 되었다. 그리고 점차 주니어 의사들은 더 유목적이고 되었고, 덜 'attached'되었다. Not so long ago, few doctors would have bothered to question the meaning of the descriptors ‘firm’ in the context of the ward team, or ‘house officer’ and ‘houseman’ with reference to the first-year junior doctor (intern progressing to junior resident). In the UK, the notion of the ‘firm’ has now disappeared and the term ‘foundation doctor’ has replaced ‘house officer’. The phallic ‘firm’ is now flaccid or, rather, flexible and ‘liquid’ as junior doctors learn to become more nomadic and less ‘attached’.
이제 대다수의 주니어 의사가 여성인 상황에서, 전형적으로 여성의 영역이었던 household를 어떻게 꾸릴 것인가? 예를 들어, 그들은 사업 가치('firm'은 일반적으로 상업적 벤처나 법률적 설립을 묘사한다)보다 Domestic한 '돌봄' 가치를 더 중요하게 여기며, 돌봄은 비지니스로, 환자는 고객으로 프레임해온 현재의 경영주의 담론에 반대하여 일할 것인가?71 병원을 무조건적 '환대hospitality'를 제공하는 장소라는 근본적 의미로 되돌릴 것인가? 'Firm'은, 우리가 알고 있듯이, 견고하고, 단단하며, 흔들리지 않는 특성을 의미하며, 이는 [상대를 뚫고 들어가는penetrating 의학적 시선]과 쉽게 연결된다. 여성 의사들이 (수적) 우위에 있을 때 그러한 전형적인 남성적, 혹은 남근phallogocentric 중심적인 가치들이 다른 가치들의 집합으로 대체될까?
How will the new female majority of junior doctors establish the household, which is, stereotypically, the woman’s domain? Will they, for example, see domestic ‘care’ values as more important than business values (the ‘firm’ typically describes a commercial venture or a legal set-up) and work against a current discourse of managerialism that frames care as a business and patients as customers?71Will they return the hospital to its root meaning of a place that offers unconditional ‘hospitality’? ‘Firm’, as we know, also means solid, stiff, unyielding and steadfast, characteristics that are readily linked with the penetrating medical gaze. Will such archetypally masculine, or phallogocentric, values be replaced by a different set of values when women doctors are in the ascendant?
센터 Centres
의학 교육 연구는 협업보다는 자원 경쟁을 계속 강조하고 있다. 보다 민주적인 '네트워크'보다는 연구를 위한 '중심'이 여전히 가장 인기 있는 서술자인데, 이는 협업 모델이 보다 여성적인 어조로 보일 수 있는 구조를 내포하고 있다.
Medical education research continues to emphasise competition for resources rather than collaboration. A ‘centre’ for research is still the most popular descriptor, rather than the more democratic ‘network’, which implies a structure in which collaborative models can be seen to be more feminine in tone.
결론: 의학의 민주주의를 향하여 Conclusions: towards democracy in medicine
의료 교육에 대한 [후기구조주의적 페미니즘]의 기여는 의학에서의 [민주적 습관의 촉진]으로 요약될 수 있다. 의학 교육은 (아마도 논쟁의 여지는 있으나) 역사적으로 [습관적으로남성적 시위에 근거해온, 역사적이고 끈질긴 독재적 의료 문화]에 민주주의를 도입해온 것으로 기술될 수 있다. 이러한 [민주화 프로세스]가 설득력을 확보하여 동료와의 협업과 환자 중심의 협업을 통해 환자 안전과 환자 관리를 개선할 수 있는 수단이 되도록 하는 것이 필수적입니다. The contribution of post-structuralist feminism towards medical education can be summarised as the facilitation of democratic habits in medicine. Medical education can be described, perhaps controversially, as the means whereby democracy can be brought to a historically and persistently autocratic medical culture habitually grounded in the masculine protest. It is essential that such a democratising process gains traction so that collaborative teamwork with colleagues and patient-centred collaborations become the means through which patient safety and then patient care can be improved.
이 프로젝트는, 분명히, 후기구조주의 페미니스트 사상을 의학 교육에 고용하는 것보다 더 광범위하다. 그러나 이러한 사고방식은 [인구통계학적 경향에 국한된 여성화]를 넘어서, [민주화 프로젝트] 측면에서 의학교육을 재고할 수 있는 급진적인 플랫폼을 제공한다. 미래의 의학교육은 가부장적 프레임워크의 규약에 의해 가장 잘 알려지는 것이 아니라, 현대 성별 연구와 중요한 페미니즘 분야에 익숙한 의학교육에 의해 가장 잘 알려질 수 있다.
This project, admittedly, is wider than the employment of post-structuralist feminist thought to medical education. However, such a mode of thought offers a radical platform for rethinking medical education in terms of a democratising project that extends beyond a version of feminising that is limited to demographic trends. A future medical education may not be best informed by the conventions of a patriarchal framework, but by a medical education familiar with the fields of contemporary gender studies and critical feminisms.
Context:Women are in the majority in terms of entry to medical schools worldwide and will soon represent the majority of working doctors. This has been termed the 'feminising' of medicine. In medical education, such gender issues tend to be restricted to discussions of demographic changes and structural inequalities based on a biological reading of gender. However, in contemporary social sciences, gender theory has moved beyond both biology and demography to include cultural issues of gendered ways of thinking. Can contemporary feminist thought drawn from the social sciences help medical educators to widen their appreciation and understanding of the feminising of medicine?Conclusions:Women doctors entering the medical workforce can resist and reformulate the current dominant patriarchy rather than reproducing it, supported by male feminists. Such a feminising of medicine can extend to medical education, but will require an appropriate theoretical framework to make sense of the new territory. The feminising of medical education informed by post-structuralist frameworks may provide a platform for the democratisation of medical culture and practices, further informing authentic patient-centred practices of care.
Discussion:Post-structuralist feminist critique, drawn from the social sciences, focuses on cultural practices, such as language use, that support a dominant patriarchy. Such a critique is not exclusive to women, but may be described as supporting a tender-minded approach to practice that is shared by both women and men. The demographic feminising of medicine may have limited effect in terms of changing both medical culture and medical education practices without causing radical change to entrenched cultural habits that are best described as patriarchal. Medical education currently suffers from male biases, such as those imposed by 'andragogy', or adult learning theory, and these can be positively challenged through post-structuralist feminist critique.
'나는 이 공간에 있을 가치가 없어요': 의과대학생에게 수치의 근원(Med Educ, 2020)
‘I'm unworthy of being in this space’: The origins of shame in medical students William E. Bynum IV1 | Lara Varpio2 | Janaka Lagoo3 | Pim W. Teunissen4
1 | 소개 1 | INTRODUCTION
'인간 경험에 편재하는 마스터 감성master emotion'(P34)으로 불려온 수치심은 개인에게 파괴적인 영향을 미칠 수 있다. 자신에 대한 전 세계적인 부정적 평가로 인해 수치심은 상당한 고통을 야기할 수 있으며 회피, 숨기기, 방어, 자책감을 조장할 수 있습니다. 의학 교육의 수치심 경험에 대한 겸손한 연구는 졸업후 의학 교육에 초점을 맞추었고, 연구들은 전공의의 수치심이 다음을 포함한 부정적인 결과를 유발하는 '감정적 사건'이 될 수 있다는 것을 보여준다: 심리적 고통(예: 번아웃), 고립, 직무 성과 저하, 공감 장애, 전문적이지 못한 행동 및 학습으로부터의 이탈. Shame, which has been called 'a master emotion because of its ubiquity in human experience’(P34),1 can have devastating effects on individuals. Resulting from a global, negative evaluation of the self, shame can cause significant distress and promote avoidance, hiding, defensiveness and self-blame.2 The modest body of research on experiences of shame in medical education has focused on graduate medical education,3-6 with studies showing that shame in residents can be a ‘sentinel emotional event’6 that triggers negative outcomes, including psychological distress (eg, burnout), isolation, poor job performance, impaired empathy, unprofessional behaviour and disengagement from learning.5,6
그러나 수치심 경험은 레지던트 훈련에만 국한되지 않는다. 의대생들은 학대, 학업 투쟁, 과도기 등 많은 수치심을 유발하기 때문에 수치심에 노출되기 쉽다. 더 나아가 의대생들은 계급의 최하위에 있기 때문에, 학생들은 수치심 반응을 유발하는 상황에 노출되거나, 수치심이 유발되는 자기평가를 겪을 가능성이 높다. 수치심과 관련된 부정적인 결과를 고려할 때, 의대생들이 이러한 감정을 어떻게 경험하는지 이해하는 것이 필수적입니다. However, shame experiences are not confined to residency training; medical students are likely susceptible to shame because they are exposed to many of the same shame triggers, including mistreatment,7 academic struggle and transition periods.8,9 Furthermore, medical students' position at the lower end of the medical hierarchy may expose them to situations and predispose them to self-evaluative tendencies that lead to shame reactions.10,11 Given the negative outcomes with which shame is associated, it is essential that we understand how medical students experience this emotion.
[교육적 안전]의 개념(심리적 안전이라는 용어에 기반한 표현으로써, 자신의 자기-이미지나 지위에 대한 부정적인 결과를 두려워하지 않고 업무에 참여할 수 있는 정도를 의미함)은 의대생들에게 수치심을 연구할 필요성을 더욱 강조합니다. Tsuei 등은 최근 '[교육적 안전]'을 다음과 같이 제안했다. The notion of educational safety12—a term built upon psychological safety, or the degree to which an individual can engage at work without fearing negative consequences to their self-image or status13—further underscores the need to study shame in medical students. Tsuei et al recently proposed ‘educational safety’ as:
학습자가 자신의 투사된 이미지를 스스로 모니터링할 필요 없이, 학습 과제 참여에 진정하고 전적으로 집중할 수 있도록, 타인의 판단 의식에서 해방된 주관적 상태입니다. The subjective state of feeling freed from a sense of judgment by others such that learners can authentically and wholeheartedly concentrate on engaging with a learning task without a perceived need to self-monitor their projected image.
쯔이 외 연구진 자료에 따르면 교육 안전은
[다른 사람에게 역량을 발휘할 필요가 있다는 느낌]과 관련이 있다.
학생들이 타인의 기대에 반하여against 지속적으로 자기평가 한다고 느끼는 정도에 영향을 받습니다.
개인이 유능한 자기이미지를 보여줄 필요가 덜하다고 느낄 때 촉진됩니다.12
Tsuei et al's data suggest that educational safety
is related to the feeling of needing to display competency to others;
is affected by the degree to which students feel compelled to continuously self-assess against others' expectations; and
is facilitated when an individual feels less need to present a competent self-image.12
(개인 스스로가 부족하고 무능하며 가치가 없다고 판단할 때 발생하는) 수치심은 교육 안전의 구조와 밀접하게 반비례한다. 수치심은 이탈, 고립, 심리적 고통, 판단의 공포를 초래하기 때문에, 수치심을 느끼는 사람은 교육 안전 수준이 낮다고 인식하기 쉽다. 마찬가지로, 교육 안전 수준이 낮으면 수치심의 위험이 높아질 수 있습니다. 그 결과 자기이미지에 부정적인 영향을 미치고 인식된 판단을 유발할 수 있습니다. 낮은 교육 안전과 높은 수치심의 환경에서는 학습, 환자 관리 및 웰빙에 잠재적으로 심각한 다운스트림 효과가 뒤따를 수 있습니다.
Shame—which occurs when an individual assesses themselves to be deficient, incompetent and/or unworthy2—is intimately and inversely linked with the construct of educational safety. Due to its tendency to cause disengagement, isolation, psychological distress and fear of judgment,6 an individual experiencing shame is likely to perceive low levels of educational safety. Likewise, low levels of educational safety—which may negatively impact self-image and cause perceived judgment—are likely to increase the risk of shame.14 In settings of low educational safety and high amounts of shame, potentially profound downstream effects on learning, patient care and well-being may follow.12,14,15
따라서, 교육적으로 안전한 환경을 조성하고, 의료 훈련에서 안전한 환자 관리를 보장하고, 학습자의 참여와 웰빙을 촉진하기 위해, 우리는 수치스러운 경험과 이를 전파하는 힘에 적응해야 합니다. 그러나 의대생들이 수치심을 어떻게 경험하고 이러한 경험이 어떻게 발전하는지에 대해서는 알려진 바가 거의 없다.
Thus, to facilitate educationally safe environments, ensure safe patient care in medical training and promote learner engagement and well-being, we must be attuned to the presence of shame experiences and the forces that propagate them. However, little is known about how medical students experience shame and how these experiences develop.
2 | 방법 2 | METHODS
2.1 | 헤르메네틱 현상학 2.1 | Hermeneutic phenomenology
해석적(헤르메네틱) 현상학은 어떤 현상을 묘사하고 그 근본적인 의미를 살아있는 경험의 맥락 안에서 전달하는 것을 목적으로 하는 질적인 방법론이다.16 헤르메네틱 현상학은 현상을 형성하는 '살아 있는 경험의 구조'를 통해 전달되는 현상의 의미에 대한 풍부한 설명을 만들어낸다. Hermeneutic phenomenology is a qualitative methodology aimed at describing a phenomenon and conveying its underlying meaning within the context of lived experience.16 Hermeneutic phenomenology produces a rich description of the meaning of a phenomenon, conveyed through the ‘structures of lived experience’ that shape the phenomenon.17
우리는 해석적 현상학을 연구에 사용했다. 왜냐하면
해석적 현상학은 살아 있는 맥락에서 개인의 경험을 강조하기 때문이다.
해석적 현상학은 인간 경험의 숨겨진 측면을 드러내는 능력이 있기 때문이다.
해석적 현상학은 연구자들이 그 현상에 대해 살아 있는 경험을 분석 과정에 도입할 것을 요구하기 때문이다.
We used hermeneutic phenomenology in our research because of
its emphasis on individuals' experiences in their lived contexts;
its ability to reveal hidden aspects of human experience18; and
its requirement that researchers bring their own lived experience with the phenomenon into the analytic process.19
이러한 특징들은 우리의 조사에 중요한 이유는 수치심은 맥락적으로 영향을 받는 감정이기 때문이다. 수치심은 종종 깊이 간직되어 있고 공개적으로 공유되거나 쉽게 이해되지 않습니다. 게다가, 우리는 개인으로서 우리를 형성하고 우리가 이 연구 프로그램에 참여하도록 동기부여하는 우리 자신의 수치스러운 경험들을 믿을 수 있게 분류할 수 없습니다.
These characteristics are important to our investigation because shame is a contextually influenced emotion6 that is often deeply held and not openly shared nor easily understood. Furthermore, we cannot reliably bracket off our own shame experiences, which shape us as individuals and motivate us to engage in this program of research.
2.2 | 참가자 모집 2.2 | Participant recruitment
우리는 미국의 한 사립 의과대학에서 16명의 자원봉사자를 모집했습니다. We recruited 16 volunteer participants from a private medical school in the United States.
2.3 | 반사율 2.3 | Reflexivity
학술 가정의학과 의사인 WB가 인터뷰를 진행하며 연구 과정의 모든 측면을 주도했으며 의학 교육의 수치심을 조사하는 연구 프로그램이 활발하게 진행되고 있다. 따라서 그는 의대생, 레지던트, 주치의 및 배우자로 경험했던 자신의 수치심 경험을 연구에 가져왔습니다. 이는 의대생들의 데이터가 전공의 자신의 경험 및 데이터와 어떻게 일치하고 다른지에 대해 WB를 민감하게 만들었다. 이런 데이터는 모두 이 연구의 이론적 및 개념적 분석에 도움이 되었다. WB, an academic family medicine physician, conducted the interviews, led all aspects of the research process, and has an active program of research investigating shame in medical education. Accordingly, he brought his own experiences of shame—experienced as a medical student, resident, attending physician and spouse—to the study. This sensitised WB to how the data from medical students aligned with and differed from his own experiences and data collected in residents,6 both of which informed this study's theoretical and conceptual analyses.
JL은 가정의학과 레지던트이자 의대생으로서 수치스러운 경험을 통해 데이터 분석에 대한 관점과 기여도를 알게 되었습니다. PT는 산부인과 의사이자 의학 교육 분야의 연구자입니다. 그는 의대생, 레지던트, 주치의, 배우자로서의 수치스러운 경험을 이용했다. LV는 의학 교육 분야에서 10년 이상의 경력을 가진 박사 교육을 받은 자질 연구자입니다. LV는 임상의가 아니며 관리자로서 수치심을 경험하지 않았지만, 데이터에 대한 자신의 관점에 기여한 배우자, 부모, 친구 및 학자로서의 수치심을 여러 번 경험했습니다.
JL is a family medicine resident whose shame experiences as a resident and medical student informed her perspectives on, and contributions to, the data analysis. PT is a gynaecologist and researcher in the field of medical education. He drew on his shame experiences as a medical student, resident, attending physician and spouse. LV is a PhD-trained qualitative researcher with over 10 years of experience in the fiel d of medical education. LV is not a clinician and has not experienced shame as a care provider; however, she has experienced several shame experiences as a spouse, parent, friend and scholar that contributed to her perspectives on the data.
2.4 | 데이터 수집 2.4 | Data collection
우리는 각 참가자와 개별적으로 3부로 된 데이터 수집 프로세스를 수행했습니다. 2시간 동안의 단일 데이터 수집 세션에서, 참가자들은 먼저 성찰적 글쓰기(부록 S1)을 작성하도록 요청받았다. 그들은 심리학으로부터 수치심의 정의를 제공받았고 의과대학에서 수치심이 느껴질 때의 구체적인 경험에 대해 쓰라고 요청받았다. We engaged in a three-part data collection process individually with each participant. In a single, 2-hour data collection session, participants were first asked to compose a written reflection ( Appendi x S1) . They were provi ded wi th a definition of shame from psychology and asked to write about a specific experience in medical school when they felt shame.
마지막으로, WB는 인터뷰 후 참가자가 정서적 고통의 존재 여부를 평가하고, 지지적 리소스(원하는 경우 당일 또는 일상적인 상담 포함)을 제공하고, 참가자의 연구에 대한 기여에 대한 통찰력과 감사를 제공하는 보고 기간을 통해 참가자를 이끌었다. Finally, after the interview, WB led the participant through a debriefing period during which he assessed for the presence of emotional distress, provided resources for support (which included same-day or routine counselling if desired) and provided insights about, and appreciation for, the participant's contributions to the study.
2.5 | 데이터 분석 2.5 | Data analysis
이 과정에서 우리는 코딩 노트(데이터에 대한 이해의 진화를 위해 개발한 시각화 및 은유 포함)와 연구 회의록 작성을 통해 상세한 감사 추적을 유지했습니다. 우리는 해석적 방법을 고수했고 과거의 수치심 경험을 포함하여 데이터에 대한 우리의 반응을 공개적으로 논의함으로써 성찰성을 달성했습니다. 왜냐하면, 그녀의 해석적 철학자 마틴 하이데거에 따르면, 언어는 인간의 의식과 인식을 형성하기 때문이다, 22 우리는 참여자들이 수치심을 느낄 때 어떻게 자신을 묘사하는지, 그리고 그들이 이러한 감정을 설명할 때 사용한 은유 등을 포함하여, 우리는 참여자들이 사용하는 언어에 주의 깊게 주목했다. 첫 번째 연구에서 우리가 개발한 전문 지식과 이해력과 결합했을 때, 이 초점들은 데이터에 대한 효율적이고 깊은 몰입감을 촉진했습니다.
Throughout this process, we maintained a detailed audit trail through coding notes (including visualisations and metaphors we developed to frame our evolving understandings of the data) and written minutes of research meetings. We adhered to the hermeneutic method and achieved reflexivity by openly discussing our reactions to the data, including our own past shame experiences. Because, according to hermeneutic philosopher Martin Heidegger, language shapes human consciousness and perception,22 we carefull y attended to the language used by participants, including how they described themselves when feeling shame and the metaphors they used to explain these feelings. When combined with the expertise and understanding we developed in the first study,6 these foci facilitated an efficient and deep immersion into the data.
2.6 | 참가자 익명성 보호 2.6 | Protecting participant anonymity
참가자의 수치 경험의 독특한 특성은 독특한 문제를 제기했습니다. 어떻게 하면 참가자의 익명성을 보호하는 동시에 조사 결과에 대한 증거를 제공하기 위해 데이터를 보고할 수 있을까요? 참가자의 독특한 이야기나 장황한 발췌 데이터를 공유하는 것은 참가자를 알아볼 수 있게 하기 때문에 가능하지 않았다. 따라서 여러 참여자의 데이터에서 경험과 발췌한 내용을 통합하여 익명성을 유지하면서 수집된 데이터를 정확하게 보고하는 3가지 예시 내러티브를 구성하였습니다. The idiosyncratic nature of our participants' shame experiences posed a unique challenge: how could we report our data to provide evidence of our findings while simultaneously protecting the anonymity of our participants? Presenting participants' unique stories or lengthy, verbatim data excerpts was not possible because sharing those data would render participants recognisable. Therefore, we constructed three illustrative narratives within which we integrated experiences and excerpts from multiple participants' data, simultaneously preserving their anonymity and accurately reporting the collected data.
원고를 완성한 후 참가자들에게 논문 최종 초안을 보내 익명을 지키면서 수치심 요소를 정확하고 진실하게 제시했는지를 물었다. 15명의 참가자가 만족스러운 익명화와 정확성을 확인했으며, 한 명은 우리가 채택한 사소한 제안을 요청했습니다.
After completing the manuscript, we sent participants the final draft of the paper and asked if we had correctly and truthfully presented elements of their shame experiences while also protecting their anonymity. Fifteen participants confirmed satisfactory anonymisation and accuracy, and one requested a minor suggestion that we adopted.
3 | 결과 3 | RESULTS
참가자들이 묘사한 부끄러움 경험은 개인과 환경 간의 동시적-다층적 상호작용으로 구성되었습니다. 이러한 상호작용의 의미를 찾으면서 우리는 불fire의 은유를 통해 참가자들의 수치심을 이해하게 되었습니다. 불이 기질에 미칠 수 있는 잠재적 영향과 같이, 수치심은 우리의 참가자들에게 깊은 영향을 미칠 수 있습니다: 대부분은 세계적으로 부정적인 자기 평가로 구성된 강렬하고, 음흉하며, 매우 골치아픈 수치 반응을 경험한다고 보고됩니다. 학생들은 자신을 '좋지 않다'(P10), '완전히 가치가 없다'(P12), '부적절한 의대생'(P15)이 '작다'(P8, P11), '멍청하다'(P6)고 말했다. 수치심의 감정적인 경험은 종종 압도적이었다.
The shame experiences described by participants consisted of simultaneous, multi-layered interactions between the individual and their environment. In seeking the meaning of these interactions, we came to understand participants' shame experiences through the metaphor of fire. Like the potential impact of fire on a substrate, shame could profoundly affect our participants: most reported experiencing intense, insidious and/or deeply troublesome shame reactions that consisted of globally negative self-assessments. Students reported viewing themselves as ‘no good’ (P10), ‘completely worthless’ (P12), ‘an inadequate medical student’ (P15) feeling ‘small’ (P8, P11) and feeling ‘stupid’ (P6). The emotional experience of shame was often overwhelming:
이름 없는 이 부정적인 감정에 빠져드는 것 같았어요. (P15) I felt like I was drowning in this negative emotion that I didn't have a name for. (P15)
3.1 | 수치심 트리거 3.1 | Shame triggers
수치심 트리거는 우리가 스파크에서 화재가 발생한다고 인식하는 것처럼, 수치심 반응을 촉발하는 구체적인 사건, 행동 또는 사건이었다. 즉, 참가자들은 이러한 사건의 발생과 동시에 수치심(전 세계적으로 결함이 있거나 부족하거나 가치가 없다는 느낌)이 발달했다고 보고하였다. Shame triggers, which we conceptualised as the sparks that initiated a fire, were the specific events, actions or incidents that precipitated shame reactions. In other words, participants reported that feelings of shame (ie, a sense of being globally flawed, deficient or unworthy) developed upon the occurrence of these events.
참가자들이 보고한 수치심 유발은 주로 다른 사람과의 상호작용과 학습과 관련이 있었다.
다른 사람과의 상호작용과 관련된 수치심 트리거는 네 가지 범주로 나뉩니다.
감독의사의 학대(예: 경멸적 발언, 신체 수치심),
동료의 학대(예: 무시적 취급, 경멸적 논평),
자신에 대한 개인적인 것을 다른 사람에게 드러내는 것(예: 성적 정체성 드러내기, 감정 드러내기)과
환자와의 상호작용에 대한 도전(예: 부담이 되는 느낌, 잘못된 환자에게 검사 수행)
Shame triggers reported by participants were primarily related to interactions with others and learning. Shame triggers related to interactions with others were broken into four categories:
supervisor mistreatment (eg, derogatory comments, body shaming),
우리가 화재 추진제로 개념화한 [수치심 촉진제]는 수치심 반응의 발생 위험을 높이거나 이미 촉발된 수치심 반응의 강도나 지속시간을 증폭시켰다. Shame promoters, which we conceptualised as fire propellants, increased the risk of developing a shame reaction or amplified the intensity or duration of an already triggered shame reaction.
우리의 분석에 따르면 세 가지 유형의 수치심 유발자가 나왔다.
개인적 수치심 촉진자는 주로 개인과 연결되었고 과소 표현, 성과 기반 자존감, 완벽주의, 고정적 사고방식, 임포스터 증후군을 포함했습니다.
환경적 수치심 촉진자는 사람들은 주로 주변 환경과 관련이 있었고 심리적으로 안전하지 않은 환경, 기관의 기대, 의료 훈련의 혹독함을 포함했습니다.
관계적 수치심 촉진자는 개인과 환경 간의 상호작용에서 발생하였으며 타인과의 비교, 판단에 대한 두려움, 정체성 이동 및 소속감 저하를 포함하였다.
Our analysis yielded three types of shame promoters.
Intrapersonal shame promoters were primarily connected to the individual and included underrepresentation, performance-based self-esteem, perfectionism, fixed mindsets and imposter syndrome.
Environmental shame promoters were primarily connected to the surroundings and included psychologically unsafe environments, institutional expectations and the rigours of medical training.
Interactive shame promoters arose from the interaction between the individual and their environment and included comparisons to others, fear of judgment, shifting identity and impaired belonging.
Table 3.
3.3 | 수치심 유발과 촉진자가 수치심 반응에서 어떻게 상호작용하는지 3.3 | How shame triggers and promoters interact in a shame reaction
수치심과 같은 복잡한 현상을 별개의 요소로 줄이는 것은 본질적으로 인위적인 과정이다. 참가자들의 생생한 경험 속에서 위의 요소들(예: 개인, 환경, 유발자 및 촉진자)은 복잡하고 혼합된 독특한 방식으로 상호작용하여 수치심을 유발합니다. 참가자들의 경험의 본질을 전달하기 위해 연구 참여자들이 공유하는 구체적인 수치심 경험의 측면을 포함하는 세 가지 내러티브를 만들었습니다. 이러한 내러티브는 우리가 식별한 모든 수치심 유발자 또는 촉진자를 묘사하지 않습니다(표 1과 2) 대신, 수치심으로 이어지기 위해 특정 요소들이 어떻게 상호작용할 수 있는지를 보여줍니다.
Reducing a complex phenomenon like shame into discrete elements is an inherently artificial process. Within the lived experience of our participants, the elements above (eg, the individual, environment, triggers and promoters) interacted in a complex, amalgamised and unique fashion to lead to shame. To convey the essence of our participants' experiences, we created three illustrative narratives wherein we have included aspects of the specific shame experiences shared by our research participants. These narratives do not depict all of the shame triggers or promoters that we identified (Tables 1 and 2); instead, they illustrate how specific elements can interact to lead to shame.
3.3.1 | 서술 #1: 과소표현, 임포스터 증후군 및 수치심 3.3.1 | Narrative #1: Underrepresentation, imposter syndrome, and shame
모니크의 수치스러운 경험은 학업 부진에서 비롯된다. 그러나 Monique의 수치 경험의 기원은 수많은 개인적, 환경적, 상호작용적 요인(즉 수치심을 조장하는 요인)에 의해 채워집니다. 과소대표는 모니크의 수치심에 가장 큰 기여자이다. 아프리카계 미국인이자 작은 주립대 출신의 1세대 대학생인 그녀의 배경은 의대에 입학할 만한 가치가 있다는 것을 증명해야 한다는 압박감을 증폭시켰다. underrepresented 배경을 가진 참가자도 비슷하게 다음과 같이 언급했다. Monique's shame experience is triggered by academic underperformance. However, the origins of Monique's shame experiences are fuelled by numerous intrapersonal, environmental and interactive factors (ie, shame promoters). Underrepresentation is a central contributor to Monique's shame. Her background as an African-American and first-generation college student from a small state university has ratcheted up the pressure to prove herself worthy of admission to medical school. A participant from an underrepresented background similarly recounted:
다수의 참가자들은 인종적/민족적 소수자, 퀴어적/레즈비언적, 트랜스젠더, 공립대학에서 학부 과정 이수하고, 낮은 사회경제적 계층 출신, 특정 지역에서 성장 등이 자신들의 수치심 경험에 기여하는 형태로 과소표현의 형태를 보고하였다. Multiple participants reported forms of underrepresentation as contributing to their shame experiences, including being a racial/ethnic minority, being queer/lesbian, being transgender, completing undergraduate studies at a public university, coming from a low socio-economic demographic and growing up in a certain region of the country.
의대에 도착한 모니크는 자신보다 남들이 똑똑하다고 인식하는 환경을 접하게 되고 자신과 비슷한 배경을 가진 사람들을 찾기 위해 고군분투하며 소속감과 자기 의구심, 자기 표현에 대한 거부감을 심화시킨다. 모니크의 수치심 반응은 1학기 내내 계속되는 추세인 1차 시험에서 평균보다 훨씬 낮은 점수를 받았을 때 불을 붙인다. 그녀의 수치심은 다른 학생들과 비교했을 때, 그리고 다른 참가자들에 의해 비슷하게 표현된, 덜 대표적인 학생이 되는 것의 무게로 인해 더욱 악화됩니다. Upon arriving to medical school, Monique encounters an environment in which she perceives others as smarter than her, and she struggles to find people with similar backgrounds to hers, deepening her questions of belonging, feelings of self-doubt and unwillingness to express herself. Monique's shame reaction ignites when she scores well below average on the first test, a trend that continues throughout the first semester. Her shame feelings are further inflamed by comparing to other students and the weight of being an underrepresented student, tendencies similarly articulated by other participants:
모니크의 소속감을 더욱 악화시키고 수치심을 동반한 것은 의과대학 그녀가 기존에 소속되어있던 공동체와의 관계 상실과 지원 관계의 상실이었다. 한 아프리카계 미국인 참가자는 자신의 삶의 여러 영역에 소속감이 손상되고 수치심이 스며드는 경향을 비슷하게 반영했다. Further exacerbating Monique's sense of impaired belonging and accompanying shame were the loss of supportive relationships and connection with the communities with which she was affiliated prior to medical school. An African-American participant similarly reflected on the tendency for impaired belonging and shame to seep into multiple areas of his life:
요약하자면, 모니크의 수치심은 의과대학에 입학하여 평균 이하의 시험 성적을 기록함으로써 촉발triggered되었다. 그녀의 수치심은 과소표현, 임포스터 증후군, 기관의 기대, 의료 훈련의 엄격함, 소속감 손상, 타인과의 비교와 관련된 현상으로 인해 촉진promoted되었다.
In summary, Monique's shame was triggered by arriving to medical school and making a below-average test score. Her shame was promoted by phenomena related to underrepresentation, imposter syndrome, institutional expectations, the rigours of medical training, impaired belonging and comparisons to others.
3.3.2 | 서술 #2: 성과 기반 자존감, 고정적 사고방식, 객관적 평가 및 수치심 3.3.2 | Narrative #2: Performance-based self-esteem, fixed mindsets, objective assessment, and shame
USMLE 1단계 시험을 준비하는 데 어려움을 겪으면서 John의 수치심이 촉발되었습니다. 그의 수치심의 근원은 자긍심의 원천, [그에 대한 다른 사람들의 인상]과 [다른 학생들과의 비교]에 있다. 이것들은 모두 수치심 촉진자promoter이다. 존은 '똑똑하게 보이는 것'에 높은 가치를 두는데, 이는 수행능력-기반 자기존중감을 나타내며, 초기 교육 경험에서 기인하는 성향이다. John's shame is triggered by difficulty preparing for the USMLE Step 1 examination. The origins of his shame lie in his sources of selfworth, need to manage others' impressions of him and comparisons to other students—all shame promoters. The high value that John places on being seen as smart—and the degree to which his self-worth relies on feeling intelligent—indicates the presence of performance-based self-esteem, a tendency that some participants ascribed to early educational experiences:
자존감을 유지하기 위해 존은 시험에서 계속 좋은 점수를 받아야 하고, [다른 사람들이 그에게 가지는 인상]을 관리해야 한다는 압박감을 느낀다. 즉, 그들이 존을 똑똑하고 능력 있는 사람으로 보기를 바란다. 자신을 최고의 학생이라고 알게 하기 위해서, 그리고 이러한 이미지를 반 친구들에게 투영project하기 위해서, 존은 자주 자신을 다른사람과 비교하고, 다른사람을 능가해야 한다고 느낀다. 수많은 참가자들은 자존심을 강화하려는 것 때문에 비슷한 경쟁적 압박이 있었다고 보고했지만, [상대적 우월감을 느끼고자 하는 마음]이 수치심을 유발한다는 사실도 인정했습니다. To maintain his self-esteem, John feels pressure to continue scoring well on tests and to manage the impressions that others have of him, namely that they see him as clever and capable. To know himself as a top student, and to project this image to classmates, John feels compelled to frequently compare himself against and outperform them. Numerous participants reported similar competitive pressures stemming from a need to bolster self-worth, but they also acknowledged that the need to feel superior drove feelings of shame:
John이 USMLE 1단계 준비과정에서 상당한 어려움을 겪을 때, 이러한 수치심 촉진자promoters들은 각각 큰 수치심 반응을 일으킵니다. 존은 주변 사람들이 모두 여유 있게 준비하고 있다고 생각하며, 어려움을 겪는 자신의 모습이 어떤 모습으로 비춰질지 깊은 우려를 가지고 있다. USMLE 1단계 점수에 대한 학교의 기대와, 이 시험점수가 그의 미래 커리어 계획에 미치는 영향력이 크다는 점이 수치심을 증폭시킨다. 복수의 참가자들은 1단계에서 높은 점수를 얻어야 한다는 강한 압박감을 보였으며, 그 원인에는 자문 학장, 학생들의 이전 수업, 종종 공표되는 학교 평균 등이 있었다. 이로 인해 한 참가자는 Step 1 시험을 '당신이 임포스터가 될지 훌륭한 레지던트 지원자가 될지, 그것을 만들거나 무너뜨리는 것 위대한 이퀄라이져'이라고 표현했다(P14). When John encounters significant struggle preparing for USMLE Step 1, each of these shame promoters fuel a major shame reaction. John perceives that everyone around him is preparing with ease, and he has deep concerns over how he'll be viewed in the midst of his struggle. Amplifying his shame are the institution's expectations about USMLE Step 1 performance and the heavy influence the test has on his future career plans. Multiple participants reported intense pressure to achieve a high score on Step 1, the sources of which included advisory deans, prior classes of students and the oft-publicised school average. This caused one participant to describe the test as ‘the great equalizer [that] makes or breaks you as an imposter or a good residency applicant’ (P14).
존은 또한 Step 1 시험에서 어려움을 겪는 것이 '나는 시험을 잘 볼 수 있는 능력을 가지고 있지 않으며', 이것을 변화시키기 위해서 스스로 할 수 있는 것은 없다는 숨겨진 진실을 드러낸다고 믿는다. 이러한 [고정 마음가짐]의 증거로는 '느린 프로세서'(P3), '절대 나아지지 않을 것'(P4)과 '[성공할] 배경 없음'(P10)과 같은 느낌을 재조명한 다른 참가자들에게서 나타났다. [고정 마음가짐]은 수치심 트리거(예: 낮은 성과)가 [본질적으로 변하지 않는 자신의 부족한 점] 때문이라는 믿음을 심화시키는 것으로 나타났다. John also believes that his struggle with Step 1 reveals a hidden truth: that he does not possess the ability to perform well on the test and that nothing he can do will change that. Evidence of this fixed mindset was present in other participants who recounted feeling like ‘a slow processor’ (P3), ‘never going to get better’ (P4) and ‘not having the background to [be successful]’ (P10). Fixed mindsets appeared to deepen the belief that a shame trigger (eg, low performance) was due to an inherent, unchangeable deficiency of the self:
요약하자면, John의 수치심은 낮은 모의고사 점수와 USMLE 1단계 준비 과정에서의 어려움으로부터 비롯되었습니다. 그의 수치심은 성과에 기초한 자존감, 판단에 대한 두려움, 제도적 기대, 타인과의 비교, 고정된 사고방식과 관련된 현상들에 의해 촉진되었다.
To summarise, John's shame was triggered by his low practice scores and struggle to prepare for USMLE Step 1. His shame was promoted by phenomena related to performance-based self-esteem, fear of judgment, institutional expectations, comparisons to others and a fixed mindset.
3.3.3 | 서술 #3: 학대, 정체성 이동 및 수치심 3.3.3 | Narrative #3: Mistreatment, shifting identity, and shame
Peyton의 수치심은 상사의 학대(여러 참가자들이 보고한 수치심 유발)로 촉발되며 심리적으로 안전하지 않은 환경, 높은 개인적 성공 기대감 및 현재 로테이션에서 받는 평가의 고부담성 때문에 촉발됩니다. 사실 페이튼은 경쟁이 심한 레지던트 자리를 노리고 있고, 임상실습 첫 번째 해의 성적은 P/F로 판정되기 때문에, 임상 로테이션에서 Honor 이하의 성적을 받는 것은 사실상 실패Fail라고 믿고 있다. Peyton's shame is sparked by mistreatment from a supervisor—a shame trigger reported by multiple participants—and fuelled by a psychologically unsafe environment, high personal expectations of success and the high-stakes nature of assessment on her current rotation. In fact, because Peyton is seeking a competitive residency, and because the first year is pass/fail, she believes that anything less than honours on a clinical rotation is a failure.
게다가, 페이튼은 항상 좋은 사랑을 받았기 때문에, 그녀는 주변 사람들과 교류할 수 있는 그녀의 능력에 큰 자부심을 부여한다. 환자와의 관계를 희생하면서라도, 점수를 잘 받고, 레지던트에게 호감을 받고자 하는 이 강렬한 욕구는 페이튼이 지금의 자신을 바라보는 방식(즉, 자신의 교육과 성적에 지나치게 신경을 쓰는 방식)과 페이튼이 의대에 입학했을 때 자신을 바라보는 방식(즉, 환자를 모든 것보다 우선하려는 욕구) 사이에 긴장을 불러일으킨다. '환자를 위해 자신을 완전히 바꿔야 한다'(P9)는 말처럼, 참여자들은 페이튼과 비슷한 정체성 변화가 수치심 경험을 촉진했다고 이야기했다.
Further, because Peyton has always been well liked, she attaches a great deal of self-worth to her ability to interact with those around her. This intense desire to receive a good evaluation and be liked by the resident, which come at the expense of her relationships with patients, creates tension between the way Peyton views herself now (ie, as overly concerned with her own education and grades) and the way Peyton viewed herself upon entering medical school (ie, as desiring to prioritise the patient above all else). Multiple participants reported similar identity shifts as promoting their shame experiences, including one who felt that ‘you have to completely change yourself for someone else, for the better of the patient’ (P9).
페이튼의 경험은 참가자가 보고한 수많은 수치심 유발 학대 중 하나로, 신체 수치심, 미세-공격성, '펌핑', 불필요하게 거친 커뮤니케이션, 지식 기반, 훈련 수준 또는 선택한 진로에 대한 비하 발언 등이 포함된다. Peyton's experience is one of numerous types of shame-catalysing mistreatment reported by participants, including body shaming, microaggressions, ‘pimping’,23 unnecessarily harsh communication and disparaging comments about knowledge base, level of training or chosen career path.
참가자들은 또한 동료들로부터 수치심을 유발시키는 학대를 보고했으며, 이는 다음과 같은 형태를 취했다.
자신의 전공 선택 또는 학부 기관에 대한 경시.
직무 윤리에 대한 비판
시험에서 어려움을 겪은 후 지능에 대한 의심
개인적 삶의 선택에 대한 비판(예: 개인적 관계)
Participants also reported shame-triggering mistreatment from peers, which took the form of
belittlement about their specialty choice or their undergraduate institution;
critiques of their work ethic;
questions about their intellect after struggling on a test; or
criticisms about personal life choices (eg, personal relationships).
요약하자면, 페이튼의 수치심은 감독관의 학대mistreatment와 환자와의 단절로 촉발되었다. 그녀의 수치심은 심리적으로 안전하지 않은 환경, 소속감 손상, 완벽주의, 타인과의 비교, 정체성의 변화 등과 관련된 현상에 의해 촉진되었다. In summary, Peyton's shame was triggered by supervisor mistreatment and disconnection with patients. Her shame was promoted by phenomena related to a psychologically unsafe environment, impaired belonging, perfectionism, comparisons to others and a shifting identity.
4 | 토론 4 | DISCUSSION
우리의 분석 과정을 통해 발전된 [불의 비유]는 참가자들의 수치심 반응의 기원의 복잡성과 의미를 이해하는 데 도움을 주었습니다. 이러한 은유를 통해 [의과대학의 경험]을 가연성combustible 물질로 개념화하고, 수치심이 발생하게 prime 되어 있다고 개념화할 수 있었다. 다시 말해, 많은 의대 학습자들에게 의대 환경을 탐색하는 것은 수치심을 경험할 수 있는 상당한 위험(필연적인 위험은 아님)을 야기하는 것으로 보입니다. The metaphor of fire, developed throughout our analysis processes, helped us understand the complexity and meaning of the origins of participants' shame reactions. Through this metaphor, we came to conceptualise the medical school experience as being combustible and primed for the development of shame. In other words, for many medical learners, navigating the medical school environment appears to incur substantial—but not inevitable—risk of experiencing shame.
우리의 자료는 이러한 위험과 의대생들의 수치심 발달에 [환경적 요인]이 기여한다는 것을 강하게 시사하고 있습니다. 학대mistreatment는 강력하고 (학생과 전공의에게) 공통적인 수치심 트리거로서, 환경적 요인 중 하나입니다. 참가자가 보고한 괴롭힘, 체면치레, 핌핑, 모욕적 처우, 그리고 학문적 투쟁에 대한 지나치게 가혹한 반응은 유감스럽게도 의학 교육에서 흔하며, 학습 환경에서 불필요하게 수치심의 위험을 증가시키는 것으로 보인다. 본 연구에서는 강조하는, 현재 상당히 과소평가하고 있다고 생각하는 것은, 이러한 mistreatment가 의학 학습자에게 미칠 수 있는 엄청난 감정적 영향입니다. 실제로, 많은 참여자들은 때로는 다른 사람들을로부터, 교육학적 전략(예: 핌핑)을 가장하여, [상당한 권력이나 영향력을 가진 감독관]들의 손에 의해, 학대당하는 심대하고 장기간 지속된 수치심을 경험했습니다.
Our data strongly suggest that factors from the environment contribute to this risk and the development of medical students' shame. Mistreatment, a potent and common shame trigger in both our participants and residents,4-6 is one such environmental factor. The harassment, body shaming, pimping, derogatory treatment and overly harsh responses to academic struggle that our participants reported are unfortunately common in medical education24,34,35 and appear to unnecessarily increase the risk of shame in the learning environment. What our study emphasises—and what we believe is significantly underrecognised—is the overwhelming emotional impact this treatment can have on medical learners. Indeed, many of our participants experienced significant and prolonged shame upon being mistreated by others, sometimes under the guise of pedagogical strategy (eg, pimping) and often at the hands of supervisors with significant power or influence over them.
의대생들의 수치심은 단순히 환경의 특성 이상의 영향을 받는 것으로 보인다. 본 연구에서는 수많은 참가자들이 의학을 배우는 과정에서 정상적이고 충분히 있을 수 있는 사건(답을 틀리거나, 여러 사람 앞에서 struggle하거나, 부정적 피드백 을 받는 것 등)으로 촉발된 수치심 반응을 보고했습니다. 이러한 사건들이 수치심을 유발하는 경향은 고정된 사고방식의 존재와 성과에 기초한 자존감 같은 [개인적 특성]에 영향을 받는 것으로 보였다. 지적 능력은 고정되어 있고 바꿀 수 없다는 믿음으로 정의되는 고정(즉, 실체적entity) 마음가짐은 수치심의 위험을 증가시키는 것으로 보였으며(예: '나는 결코 충분히 똑똑하지 않을 것이다; 그러므로 나는 멍청하다'), 수치심 반응은 고정 마음가짐(예: '나는 멍청하다; 그러므로 결코 똑똑하지 않을 것이다')을 고착시키는 것으로 보였다. Shame in medical students appears to be influenced by more than just the nature of the environment. In our study, numerous participants reported shame reactions triggered by events considered normal and expected in the course of learning medicine, such as being wrong, struggling in public and receiving negative feedback. The tendency for these events to cause shame appeared to be influenced by personal characteristics such as the presence of fixed mindsets and performance-based self-esteem. Fixed (ie, entity) mindsets, defined as the belief that intellectual ability is fixed and unchangeable,36 appeared to increase the risk of shame (eg, ‘I'll never be smart enough do this; therefore, I'm stupid’), and shame reactions appeared to entrench fixed mindsets (eg, ‘I'm stupid; therefore, I'll never be smart enough to do this’).
많은 참가자들에게, [고정 마음가짐]의 존재는 정상적인 학습의 어려움을 자신에 대한 전체적인 무가치함이나 약점(수치심)의 증거로 변화시켰다. (개인의 자긍심이 성취감과 수행능력 인식 수준에 따라 좌우되는 자긍심의 한 유형으로 정의되는 )[수행능력-기반 자존감]도 연구에서 정상적인 학습 사건과 관련된 수치심을 증폭시켰다. 연구 결과에 따르면 관찰, 평가 및 수행능력 사이의 경계가 모호해지면 불안, 임포스터리즘, 자기-의심을 유발할 수 있습니다.27, 39 우리의 데이터는 이러한 발견을 반복하며 수치심을 목록에 추가할 것을 시사합니다.
For many participants, the presence of a fixed mindset turned a normal learning struggle into proof of global unworthiness or deficiency (ie, shame). Performance-based self-esteem, defined as a type of self-esteem in which an individual's self-worth is contingent upon their sense of accomplishment and perceived level of performance,37, 38 also amplified shame related to normal learning events in our study. Research has shown that the blurred lines between observation, assessment and performance can drive anxiety, imposterism and self-doubt.27, 39 Our data reiterate these findings and suggest that shame be added to the list.
이론적으로수치심의 위험을 줄이기 위해서 [수행능력-기반 자존감]과 [고정 마음가짐]과 같은 특성은 [수정가능]하다 (아래 참조). 다만, 참가자가 수치심에 기여했다고 보고한 인종/인종, 성적 성향, 성 정체성, 종교적 신념, 고향, 학문적 혈통 등 [수정불가능]한 요인도 확인하였습니다. 중요한 것은 참가자들의 수치심을 자극한 것은 단순히 이러한 인구통계적 요인의 존재가 아니었다. 오히려, 이러한 인구통계학적 요인들이 (잘 표현되지 않는) 환경과의 상호작용을 통해 수치심이 유발되고 지속되었다. 우리의 underrepresent background을 가진 많은 참가자들에게, 면접 날이나 수업 첫날에 의과대학에 들어가는 것만으로도 상당한 수치심과 소속감에 대한 질문을 불러일으켰습니다. 일단 입학한 후에도, 자기-가치를 보호해주는 원천의 상실(예: 소셜 네트워크, 취미 및 가정과의 근접성), [새로운 문화 규범에 동화되어야 한다는 압박], 의대에 입학할 만큼의 [가치가 있음를 입증해야 한다는 압박]은 기존의 수치심을 증폭시키거나 새롭게 촉발시키는 데 도움을 주었다. Characteristics such as performance-based self-esteem and fixed mindsets can theoretically be modified to reduce the risk of shame (see below). However, we also identified non-modifiable factors that participants reported as contributing to their shame, including race/ethnicity, sexual orientation, gender identity, religious beliefs, hometown and academic pedigree. Importantly, it was not simply the presence of these demographic factors that precipitated participants' shame. Rather, their shame was often triggered and sustained through interactions with an environment in which these demographic factors were underrepresented. For many of our participants from underrepresented backgrounds, simply walking into medical school on interview day or the first day of classes precipitated significant shame feelings and questions of belonging. Once enrolled, loss of protective sources of self-worth (eg, social networks, hobbies and proximity to home), pressure to assimilate to new cultural norms and the need to prove one's worthiness to be in medical school amplified existing shame or helped to trigger it anew.
마지막으로, 우리는 [표준화된 시험]과 [비표준화된 시험]을 모두 포함하여 [평가]가 참가자들의 수치심 경험에 상당한 영향을 미친다는 것을 발견했습니다. 객관적 평가가 동료와의 비교를 위한 명확한 측정 척도를 제공했을 뿐만 아니라, 많은 참가자는 객관적 수행능력의 실수를 스스로의 무가치함, 소속성 결여, 임포스터 증후군에 대한 결정적인 증거로 해석했다. 객관적 평가는 전공의에 대한 최근 연구에서 간헐적인 수치심 유발 요인이었지만, 객관적 평가에서 주관적 평가로의 전환(상대적 측정 막대 부족으로 정의됨)은 특히 객관적 지표 대신 지나치게 가혹한 자기 평가에 의존할 때 전공의의 수치심에 더 큰 기여를 했다.6 따라서 의대에서 자긍심을 평가하기 위해 객관적인 수행방안에 의존하는 것은 자긍심이 성과에 좌우되지만 객관적인 조치는 사라졌을 때 레지던트에서 정서적 고통을 선사할 수 있다. Finally, we found that assessment—including both standardised and non-standardised testing—exerted substantial influence on our participants' shame experiences. Not only did objective assessment provide a clear measuring stick for peer-to-peer comparisons, but numerous participants interpreted lapses in objective performance as definitive proof of their perceived unworthiness, lack of belonging and imposter syndrome. While objective assessment was an infrequent shame trigger in the recent study on residents, the transition from objective to subjective assessment—defined by the relative lack of a measuring stick—was the greater contributor to resident shame, especially when they relied on overly harsh self-assessments in the place of objective markers.6 It is thus possible that relying on objective performance measures to assess self-worth in medical school presages emotional distress in residency when self-worth remains contingent on performance but objective measures disappear.
4.1 | 의과대학에서 수치심의 위험 해결 및 완화 4.1 | Addressing and mitigating the risk of shame in medical school
수치심의 위험을 줄이고, 수치심을 느끼는 학생들을 지원하고, 교육 안전을 강화하기 위해 우리는 제안합니다.
(a) [진정한 포용성]을 보장하고, 우리의 학습 환경에서 [진정한 자기 표현]을 촉진한다.
(b) [성장 마인드셋]을 촉진하고 성과가 아닌 [리허설]을 장려한다.
(c) 우리 기관의 [학대 및 의도적인 수치심 주기shaming를 제거]하는 것.
To dampen the risk of shame, support students experiencing shame and enhance educational safety, we suggest
(a) ensuring true inclusivity and promoting authentic self-expression in our learning environments,
(b) facilitating growth mindsets and encouraging rehearsal, not performance, in our students and
(c) eliminating mistreatment and intentional shaming in our institutions.
underrepresentation이 수치심을 유발할 수 있다는 사실을 감안할 때, 점점 더 다양한 학생들을 의과대학에 모집하려는 노력에도 불구하고, (우리가 아직) 진정한 소속감, 포용감, 진정한 자기표현을 촉진할 수 있는 환경을 조성하지 못하고 있을 수 있다고 생각합니다. 수치심의 위험을 줄이고 수치심의 회복력을 높이기 위해, 특히 URM의 학생들을 위해, 우리는 [자기표현]과 [개인적 정체성 형성]을 전문적 표준의 내면화(즉, 직업적 정체성 형성)와 같은 중요도로 높여야 합니다. Given our finding that underrepresentation can promote shame, we believe, like others,40 that despite efforts to recruit increasingly diverse students into medical school, we may be failing to create environments that promote true belonging, inclusion and authentic self-expression. To reduce the risk of shame and promote shame resilience, particularly for students from underrepresented backgrounds, we should elevate self-expression and personal identity formation to the same level of importance that we ascribe to the internalisation of professional standards (ie, professional identity formation).41
[개인 정체성 형성]을 육성하기 위한 구체적인 이니셔티브는 다음을 포함할 수 있다.
학생들이 학습 환경 내에서 문화적, 개인적 정체성의 측면을 실제로 표현하고 통합할 수 있는 배출구 제공.
학생들이 자신의 정서적 경험을 공유할 수 있는 안전하고 지지적인 공간을 만듭니다.
학습 환경을 최적화하고 [microaggression 및 공공연한 인종차별]과 같은 수치심 유발에 직면한 학생들을 지원하기 위한 암묵적 편견, allyship, 반인종주의에 대한 교수 훈련.
부족한 학생들의 경험을 공감하고 지원할 수 있는 멘토의 존재를 보장합니다.
Specific initiatives to nurture personal identity formation could include
providing outlets for students to authentically express and integrate aspects of their cultural and personal identities within the learning environment;
creating safe, supportive spaces for students to share their emotional experiences;
faculty training on implicit bias,42 allyship43 and anti-racism44 to optimise the learning environment and support students confronted with shame triggers such as microaggressions and overt racism; and
ensuring the presence of mentors who can relate to and support the experiences of underrepresented students.45
이러한 노력이 underrepresented 학생들에게 집중될 수 있지만, 기관의 모든 구성원들에게까지 확대되어야 한다. While these efforts may focus on underrepresented students, they should extend to all members of the institution.
[성장 마음가짐] 구축과 [학습을 (성과가 아닌) 리허설rehearsal로 재구성하는 것]은 학업적 어려움으로 인한 수치심의 위험을 줄이기 위한 두 가지 전략이다. 연구에 따르면 적어도 일시적으로만이라도 자신의 고유 역량에 대한 개인의 사고방식이 바뀔 수 있다.36 교육자는 아래 활동을 통해 성장 마음가짐을 촉진할 수 있다.
현실적인 기대치를 유지하고,
학업적 고군분투를 성장 기회로 재구성하고,
학습 환경에서 심리적 안전성을 확립하고,
근본적인 수치심을 탐색하고 해소하는 것.
Establishing growth mindsets36 and reframing learning as rehearsal, not performance, are two strategies to reduce the risk of shame in the midst of expected academic struggle. Research indicates that individuals' mindsets about their inherent capabilities can be changed, at least temporarily.36 Educators can facilitate growth mindsets by helping learners
maintain realistic expectations,
reframing academic struggle as a growth opportunity,
establishing psychological safety in the learning environment and
identifying and addressing underlying shame.
또한 학습자에게 수행perform이 아닌 리허설을 권장함으로써 탐색, 투쟁, 실패를 허용하고, 동시에 이러한 어려움에 내재된 학습 가치를 강조합니다.
Furthermore, by encouraging learners to rehearse—rather than perform—we grant them permission to explore, struggle and fail, simultaneously emphasising the learning value inherent in this struggle.
의학교육의 공동 목표가 [역량있고, 참여적이며, 공감적이고, 회복탄력적인] 의사를 배출하는 것이라고 가정할 때, 우리 교육 시스템에서수치심을 유발하는 학대(특히 의도적으로 부과된 학대)는 설 자리가 없으며, 반드시 제거되어야 합니다. 그러나 이러한 행동의 근절을 복잡하게 만드는 것은 우리가 확인한 많은 [수치심 유발자와 촉진자]가 어느정도 의학과 의학교육의 문화에 내재되어 있을 수 있기 때문이다. 학대, 가혹한 교육방법, 포괄성 결여, 높은 수준의 경쟁, 성과에 대한 과도한 의존, 완벽주의, 개인 정체성 형성에 대한 낮은 강조 등이 그것이다. 수치심 치료를 없애기 위한 노력과 함께 의학에서 수치심 문화가 존재할 가능성을 고려하고 탐구해야 한다.
Assuming that our shared goal in medical education is to produce competent, engaged, empathic and resilient physicians, shame-inducing mistreatment—especially that levied intentionally—has no place in our education system and must be eliminated. Complicating the eradication of these behaviours, however, is the degree to which many of the shame triggers and promoters we identified may be embedded in the culture of medicine and medical education, including mistreatment, harsh teaching tactics, lack of inclusivity, high levels of competition, excessive reliance on objective measures of performance, perfectionism and low emphasis on personal identity formation. Alongside efforts to eliminate treatment intended to shame, we should consider and explore the potential existence of a shame culture in medicine.
4.2 | 한계 4.2 | Limitations
5 | 결론 5 | CONCLUSION
사실, 그것은 정상적인 인간의 감정이기 때문에, 수치심의 위험을 완전히 없애는 것이 우리의 목표가 되어서는 안 되며, 그렇게 할 수도 없습니다. 대신 우리는 이러한 위험의 원인을 식별하고 불필요한 위험 요소를 제거하며 학습자가 남아 있는 위험 요소에 완전하고 확실하게 참여할 수 있도록 지원해야 합니다. In fact, because it is a normal human emotion, complete elimination of the risk of shame should not—and likely cannot—be our goal. We should instead strive to identify the sources of this risk, eliminate those that are unnecessary and support learners in fully and authentically engaging with those that remain.
12. Tsuei SH, Lee D, Ho C, Regehr G, Nimmon L. Exploring the construct of psychological safety in medical education. Acad Med. 2019;94(11S):S28-S35.
Med Educ. 2021 Feb;55(2):185-197.
doi: 10.1111/medu.14354.Epub 2020 Sep 13.
'I'm unworthy of being in this space': The origins of shame in medical students
Objectives:Shame results from a negative global self-evaluation and can have devastating effects. Shame research has focused primarily on graduate medical education, yet medical students are also susceptible to its occurrence and negative effects. This study explores the development of shame in medical students by asking: how does shame originate in medical students? and what events trigger and factors influence the development of shame in medical students?Results:Data analysis yielded structural elements of students' shame experiences that were conceptualised through the metaphor of fire. Shame triggers were the specific events that sparked shame reactions, including interpersonal interactions (eg, receiving mistreatment) and learning (eg, low test scores). Shame promoters were the factors and characteristics that fuelled shame reactions, including those related to the individual (eg, underrepresentation), environment (eg, institutional expectations) and person-environment interaction (eg, comparisons to others). The authors present three illustrative narratives to depict how these elements can interact to lead to shame in medical students.
Conclusions:This qualitative examination of shame in medical students reveals complex, deep-seated aspects of medical students' emotional reactions as they navigate the learning environment. The authors posit that medical training environments may be combustible, or possessing inherent risk, for shame. Educators, leaders and institutions can mitigate this risk and contain damaging shame reactions by (a) instilling a true sense of belonging and inclusivity in medical learning environments, (b) facilitating growth mindsets in medical trainees and (c) eliminating intentional shaming in medical education.
Methods:The study was conducted using hermeneutic phenomenology, which seeks to describe a phenomenon, convey its meaning and examine the contextual factors that influence it. Data were collected via a written reflection, semi-structured interview and debriefing session. It was analysed in accordance with Ajjawi and Higgs' six steps of hermeneutic analysis: immersion, understanding, abstraction, synthesis, illumination and integration.
감정적 사건의 보초병: 전공의의 수치심 경험의 특징, 트리거, 효과(Acad Med, 2019) Sentinel Emotional Events: The Nature, Triggers, and Effects of Shame Experiences in Medical Residents William E. Bynum IV, MD, Anthony R. Artino Jr, PhD, Sebastian Uijtdehaage, PhD, Allison M.B. Webb, MD, and Lara Varpio, PhD
[수치심]은 실수를 하거나 학대를 경험하는 것과 같은 부정적인 사건에 반응하여 발생하는 강력한 감정입니다.1–3 수치심이 의학 학습자에게 미치는 영향을 조사한 연구는 거의 없습니다. 우울증, 불안, 외상 후 스트레스 장애, 중독 등 정신 건강 문제와 관련된 수치심이 일반인에서 흔히 발생하는 점을 감안하면 이러한 부주의가 문제가 된다.4 Shame is a powerful emotion that occurs in response to negative events such as making mistakes or experiencing mistreatment.1–3 Little research has investigated the influence of shame on the medical learner. This inattention is troubling, given the common occurrence of shame in the general population and its association with mental health problems, including depression, anxiety, post-traumatic stress disorder, and addiction.4
수치심리학에 대한 연구는 이러한 감정, 특히 트레이시와 로빈스의 작품을 이해하는 귀중한 이론적 기반을 제공합니다.7-9 [자의식적 감정]으로서, 개인이 부정적인 사건에 대응하여 자기 평가를 할 때 수치심이 생긴다. 7,10 수치스러운 개인은 촉발된 사건을 [자신의 지적 능력]이나 [전체적인 능력] 등 [전반적이고 변하지 않는 무언가]에 귀속시킨다. 또한 자아를 행동으로부터 구분하지 못하게 된다.11 따라서 수치심은 자신에 대한 전체적인 부정적인 평가와 연관되며, 수치심을 느끼게 되면 스스로에 대해 결함, 결핍, 무가치함, 손상받음 등을 느끼는 어려움을 겪는다.2 Research into the psychology of shame provides a valuable theoretical foundation for understanding this emotion, particularly the work of Tracy and Robins.7–9 As a self-conscious emotion, shame arises when an individual engages in self-evaluation in response to a negative event, such as a perceived transgression or failure to reach an expectation.7,10 Shamed individuals attribute a triggering event to something global and unchanging about themselves, such as their intellect or overall capability, and fail to distinguish the self from the behavior.11 Thus, shame is associated with negative evaluations about the entire self,12 and the shamed individual struggles with feeling defective, deficient, unworthy, and/or damaged.2
중요한 것은 수치심은 죄의식guilt과 다르다.13 죄의식을 느끼는 사람은 죄의식을 느끼는 사람은 자신의 행동이나 노력 수준과 같이 자신의 구체적이고 변화 가능한 것에 탓한다.1,10 [죄책감]을 느끼는 사람은 "나는 나쁜 행동을 했어"라고, [수치심]을 경험하는 사람은 "나는 나빠"라고 말할 것이다. Importantly, shame is different from guilt.13 Although guilt also occurs following a transgression or failure to meet an expectation, individuals experiencing guilt blame the transgression on something specific and changeable about themselves, such as their behavior or level of effort.1,10 Whereas the person experiencing guilt would say, “I did a bad thing,” the person experiencing shame would say, “I am bad.”
임상 환경에서 학습자는 일반적으로 수치심을 유발할 수 있는 상황을 경험한다: 오류를 범하거나, 지식 부족을 발견하거나, 어려운 피드백을 받거나, 낮은 환자 결과를 접하거나, 높은 수준의 성과를 달성하지 못하는 경우. 5,14–18 수치심의 영향에 대한 의학적 학습자의 민감도는 다음의 영향을 받을 수 있다.
신체적 특성(예: 완벽주의 및 성격 유형 19),
환경적 영향(예: 열악한 심리적 안전 및 학습자 학대 20,21),
제도적 한계(예: 정신 건강 자원에 대한 접근 불량 22).
In clinical environments, learners commonly experience situations that could trigger shame: making errors, uncovering knowledge deficits, receiving difficult feedback, encountering poor patient outcomes, and failing to meet high standards of performance.5,14–18 Medical learners’ susceptibility to the effects of shame may be influenced by
unique personal characteristics (e.g., perfectionism and personality type19),
environmental influences (e.g., poor psychological safety and learner mistreatment20,21), and
institutional limitations (e.g., poor access to mental health resources22).
방법 Method
해석적 설계 Hermeneutic design
전공의들의 수치심 체험에 영향을 미치는 요소들에 대한 풍부한 이해를 쌓고 싶어서 현상학적 연구를 선택하게 되었습니다. 우리의 연구 방법으로 우리는 [살아있는 경험의 의미와 그것을 형성하는 맥락적 힘을 탐구]하는 [해석적 현상학]을 선택했다. 우리는 다음의 이유로 [서술적 접근법]이나 [초월적 접근법]보다 이것을 선택했다.
참가자의 경험을 완전히 이해하는 데 있어 맥락(예: 임상 학습 환경)의 중요성
이러한 경험의 깊고 잠재적으로 숨겨진 층을 탐구할 필요성
연구자가 데이터 분석 프로세스에서 개인적인 경험(이 연구에서는 '수치심')을 "괄호칠" 수 없음
Because we wanted to construct a rich understanding of the factors that influence residents’ experiences of shame, we chose to conduct a phenomenological study. As our study method, we selected hermeneutic phenomenology, which explores the meaning of lived experience and the contextual forces that shape it.23,24 We chose this over descriptive or transcendental approaches because it recognizes
the importance of context (e.g., the clinical learning environment) in fully understanding participants’ experiences;
the need to explore the deeper, potentially hidden layers of these experiences23; and
the inability for researchers to “bracket off ” their personal experiences—in this case, with shame—from the process of data analysis.23,25,26
따라서 참가자들에게 자신의 가정을 조사probe하고 맥락적 힘을 포함하여 수치심 경험의 세부사항을 찾는 질문을 했습니다. 우리의 [개인적인 수치심 경험]이 우리의 해석 노력에서 빠질 수 없다는 것을 인식하고, 우리는 [서로의 수치심 경험에 대해 토론]했고, 이것은 참가자들의 경험을 이해하고 소통할 수 있는 능력을 높여주는 연습이기도 했다.
Therefore, we asked participants questions that probed their assumptions and sought details of their shame experiences, including contextual forces. Recognizing that our personal shame experiences could not be removed from our interpretation efforts, we discussed our own shame experiences with one another, a practice that enhanced our ability to connect with and understand our participants’ experiences.
연구참여자 Participants
이번 연구는 미국 대형 교수병원 내과 레지던트들에게 이메일과 정오 보고서 공지, 공통 지역에 게시된 전단지를 통해 '전공의 기간 중 경험한 감정 탐구'로 알려졌다.
The study was publicized to internal medicine residents in a large U.S. teaching hospital as “an exploration of emotions experienced during residency” through e-mails, noon report announcements, and flyers posted in common areas.
자료 수집 Data collection
2016-2017년에는 참가자들과 개별적이고 반구조적인 인터뷰를 실시하여 각각 약 2시간 동안 진행되었습니다. 각 인터뷰는 과거의 수치심 경험에 대한 적극적인 반성을 자극하기 위한 서면 성찰 연습으로 시작되었습니다.26 참가자는 "수련 중에 자신의 부족함, 결점, 무가치함 느끼게 하는 특정 상황에 대해 작성"하도록 요청받았습니다. 우리가 '수치심'이라는 단어 대신, 이러한 표현들을 사용한 것은 [스티그마를 트리거링 하지 않기 위함]이면서, [죄책감과 같이 '수치심'과 연관된 구인construct 사이의 혼동을 피하기 위해서]였다. 참가자는 30분 동안 자신의 성찰을 작성해야 했다. During 2016–2017, we conducted individual, semi-structured interviews with participants, lasting approximately two hours each. Each interview began with a written reflection exercise to stimulate active reflection on past shame experiences.26 The participant was asked to “write about a specific situation during your medical training that caused you to feel deficient, flawed, and/or unworthy.” We used these terms—all characteristics of shame from the psychology literature2,5— instead of the word shame to avoid triggering stigmas and to avoid confusion between shame and related constructs such as guilt.13 The participant had 30 minutes to write his or her reflections.
그 직후, 참가자는 면접관(W.E.B.)을 만났다. 참가자가 기다리는 동안 인터뷰 진행자는 성찰 내용을 읽고 이어지는 반구조적 인터뷰 동안 심층적인 조사를 위한 영역을 파악했습니다.26 인터뷰 가이드의 샘플 질문은 보충 디지털 부록 1)에 제시되어 있습니다. Immediately thereafter, the participant met with the interviewer (W.E.B.). While the participant waited, the interviewer read the reflection and identified areas for deeper probing during the semi- structured interview that followed.26 Sample questions from the interview guide are presented in Supplemental Digital Appendix 1 at http://links.lww.com/ACADMED/A609.
인터뷰는 음성녹음, 외부 전사자에 의해 기록되었고 전사에서 개인을 식별되지 않게 하였다. (참고: W.E.B.는 연구를 수행한 부서의 구성원이 아니며, 참여자에 대한 감독이나 평가를 제공한 적이 없습니다.)
Interviews were audio- recorded, transcribed by an external transcriptionist, and de-identified during transcription. (Note: W.E.B. is not a member of the department in which the study was conducted and never provided supervision for or evaluation of the participants.)
자료 분석 Data analysis
데이터 분석은 Ajawi와 Higgs에 의해 기술된 6단계의 해석적 분석을 따랐다. 이 접근방식은 "참여자의 해석과 구성의 체계적 식별(1차 구성)을 지원하며, 연구자 자신의 이해, 해석 및 구성(2차)과 계층화된다." 표 2는 이 접근법의 6단계와 각 단계에서의 우리의 구체적인 활동을 설명합니다.
Data analysis was informed by the six stages of hermeneutic analysis described by Ajjawi and Higgs.26,28 This approach supports “systematic identification of participants’ interpretations and constructs (first-order constructs), which [are] then layered with the researchers’ own understandings, interpretations, and constructs (second order).”26 Table 2 describes the six stages of this approach and our specific activities at each stage.
결과 Results
수치심 경험의 본질 The nature of shame experiences
수치심 경험의 모든 기억에서, 참가자들은 촉발된 사건에 대응하여 그들 자신을 전체적globally 결함이 있고, 부족하며, 가치 없는 존재로 평가한다고 표현했다. 수치스러운 반응 동안, 참가자들은 자신들을 다음과 같이 칭했다. In all recollections of shame experiences, participants described assessing themselves as globally flawed, deficient, or unworthy in response to a triggering event. During a shame reaction, participants (Ps) labeled themselves as
• 결핍(P7) • 부적격(P6), • 충분히 똑똑하지 못하고 여기서 가장 멍청한 사람(P2) • 최악(P5) • 불안정하고 열등함(P8) • 결점이 있고 마치 나에게 문제가 있는 것처럼(P3)
• deficient (P7), • undeserving and inadequate (P6), • not smart enough and the dumbest person here (P2), • the worst (P5), • unlikeable and inferior (P8), and • flawed and like there’s something wrong with me (P3).
수치심 반응은 격렬한 육체적, 감정적 경험일 수 있다. 한 참가자는 "완전히 다른 사람이었던 몇 시간 동안 완전히 쇠약해져 있었다"는 수치심 반응을 떠올렸고(P12), 또 다른 참가자는 "내 몸에서 수영하는 것 같았다"는 느낌(P8)을 떠올렸다. 참가자들은 수치심 유발에 따라 "공격과 배신"(P8)을 느끼고 "재판받는 것 같음"(P3)을 하는 등 수치심 반응에서 희생감victimized을 느끼는 경우가 많았다. 참가자들은 또한 단점들이 어떻게 인식될 것인가, 의사로서 얼마나 성공적일 것인가, 수치심을 유발한 후 훈련을 계속하도록 허락될 것인가에 대한 두려움도 표현했다. Shame reactions could be intense physical and emotional experiences. One participant recalled a shame reaction that was “absolutely debilitating for several hours where I was a completely different person” (P12), and another felt “like I was swimming in my own body” (P8). Participants often felt victimized during a shame reaction, feeling “attacked and betrayed” (P8) and put “on trial” (P3) following shame triggers. Participants also expressed fears: fears about how shortcomings would be perceived, how successful they would be as physicians, or whether they would be allowed to continue training following a shame trigger.
수치심 반응은 많은 참가자들에게 신체적 불편함을 포함했다. 그들은 "침몰하는 느낌"(P7)과 "당황함"(P11), "소름끼치는 것"(P8)을 묘사했다. 참가자들은 집중력 저하, 사고력 저하, 경주 및 자극적 사고, 시간 감각 변화 등 수치심 반응 시 인식에 미치는 영향을 보고했다. 그들은 또한 식은땀, 홍조, 떨림, 빈맥, 공황 등 교감 활성과 일치하는 증상들을 보고했다. 이러한 증상은 수치심 반응이 한창일 때 종종 발생하며 급성 스트레스 반응을 일으킬 수 있습니다: "그러니까 육체적으로 스트레스가 고조되어, fight-or-flight와 같은 반응입니다." (P9) Shame reactions included physical discomfort for many participants. They described “a sinking feeling” (P7), like “the wind [was] taken out of you” (P11), and “like I was crawling in my skin” (P8). Participants reported effects on cognition during shame reactions, including difficulty concentrating, slowed thinking, racing and intrusive thoughts, and an altered sense of time. They also reported symptoms consistent with sympathetic activation, including cold sweats, flushing, tremor, tachycardia, and panic. These symptoms often occurred during the height of a shame reaction and could lead to acute stress responses: “So physically there’s this … heightened sense of stress, so it’s like that fight-or-flight- type response.” (P9)
어떤 수치심 반응은 몇 달 동안 지속된 반면, 어떤 수치심은 단 몇 분 동안 지속되었고 감정적으로 덜 격렬했습니다. 참가자들은 후자의 수치심 반응에 대해 "근본적으로 문제가 있는 것이 아니라 당신이 알아차린 것"이라고 설명했다. 덜 격렬한 수치심 반응은 일반적으로 최소한의 신체적 표현과 정서적인 감정을 수반합니다. Some shame reactions lasted months, while others were short-lived (only minutes) and less emotionally intense. Participants described the latter type of shame reaction as “small bursts of shame” (P3) that are “not foundationally troubling but that you notice” (P6). The less intense shame reactions typically involved minimal physical manifestations and affective feelings.
그러나 [덜 강렬한 수치심 사건]도 [자주 발생하거나 다른 사소한 수치심 사건과 함께 발생할 경우] 더 심하고 고통스러운 수치심 반응으로 통합될 수 있었으며, additive한 영향이 있음 시사한다. 예를 들어, 한 참가자는 업무와 가정에서 반복적으로 실패를 인지하여 상당한 수치심을 경험했습니다. 이 조합은 그가 "당신이 어디를 가든, 하루 종일 실패하는 것 같은 느낌을 갖게 했다"고 말했다. 부가적인 수치심을 경험한 참가자들은 더 심한 수치심 반응을 경험한 참가자들처럼 많은 감동적인 감정과 생리적인 징후를 표현했습니다. However, less intense shame events could coalesce into more significant, distressing shame reactions if they occurred frequently or in conjunction with other minor shame events, suggesting an additive effect. For example, one participant experienced significant shame due to his perceived repeated failures at work and at home. The combination made him “feel like you’re failing all the time, no matter where you go, all day” (P9). Participants who experienced additive shame expressed many of the same affective feelings and physiological manifestations as did those who experienced more intense shame reactions.
트리거되는 이벤트 및 수치심 반응에 기여하는 요인 Events that trigger and factors that contribute to shame reactions
수치심 반응은 주로 다음과 같은 특정 사건에 의해 유발되었습니다.
환자 관리와 관련된 사건(예: 환자에게 해를 입히는 의료 오류, 환자의 고통을 덜어줄 수 없는 경우)
학습과 관련된 사건(예: 감독자에 의해 교정조치 절차, "파이프"되는" 29*),
개인의 목표와 관련된 사건(예: 수석 레지던트에 선정되지 않음, 학술지에 제출된 원고 거부)
가장 격렬한 반응은 종종 의미심장하고 단일한 사건으로 촉발되었지만, 다수의 작은 수치심 유발로 인해 발생할 수도 있습니다. 차트 1
Shame reactions were most often triggered by specific events, including
events related to patient care (e.g., a medical error causing harm to a patient, inability to relieve a patient’s suffering),
events related to learning (e.g., remediation proceedings, being “pimped”29* by a supervisor), and
events related to personal goals (e.g., failure to be selected for chief resident, rejection of a manuscript submitted to a scholarly journal).
The most intense reactions were often triggered by a significant, singular event but could also result from the accumulation of multiple, smaller shame triggers. Chart 1
다른 사람과의 비교. Comparisons to others.
자신의 능력이 떨어지거나 자신의 기대에 미치지 못했다는 인식과 더불어, 다른 사람과 자신을 비교하려는 참가자들의 성향은 수치심을 유발했다. 동료와의 비교는 특히 훈련 초기에 우세했으며, 일부 참가자는 거의 끊임없이 비교하며 평가했다. 한 참가자는 "의사로서 저는 주로 제 자신과 제 동료들을 비교했던 것 같습니다."라고 회상했다. 내 자존심은 또래에 비해 약하다는 인식에 의해 공격당했습니다." (P9) 또 다른 참가자는 "부족함을 느끼는 경우가 빈번합니다…"라고 말했습니다. 주위를 둘러보면 남들이 더 낫다는 느낌이 들기 쉽다.(P7) 타인과의 비교로 유발된 수치심은 또한 임포스터 증후군을 암시하는 감정과 함께 일어났다. Participants’ tendency to compare themselves to others, coupled with the perception that they were less capable and/or failed to meet their own expectations, contributed to feelings of shame. Comparisons to peers were particularly prevalent early in training, with some participants engaging in comparative assessments on a near-constant basis. One participant recounted, “I think as a doctor I was comparing myself versus my peers mainly.… My ego strength was assaulted aggressively by my perceived weakness relative to my peers” (P9). Another participant identified “frequent moments where I feel deficient…. Looking around, it is easy to feel like others are just better” (P7). Shame induced by comparisons to others also co-occurred with feelings suggestive of imposter syndrome:
수행능력에 집중 Focus on performance.
특히 객관적인 기준으로 측정했을 때 [높은 수준의 성과를 달성하지 못한 것]이 참가자들에게 수치심을 느끼게 했습니다. 수치심 반응의 기원을 다시 언급하면서, 한 참가자는 "성취로부터 많은 자아의 힘을 얻었다"고 인정했고, 다른 참가자는 인정했다.
Failure to achieve a high level of performance, particularly as measured by objective standards, contributed to feelings of shame in participants. In recounting the origins of shame reactions, one participant admitted “deriv[ing] a lot of ego strength from accomplishments” (P9), and another acknowledged that
주관적 기준의 어려움. Difficulty with subjective standards.
의료 교육 초기에 객관적인 성과 표준을 강조하면서 일부 참가자는 임상 영역에서 일반적으로 사용되는 주관적인 표준으로 전환하는 데 어려움을 겪었습니다. 한 참가자는 인턴 초 자신에게 "내가 맞는 수준인가? 내가 다른 사람들과 대등한가요? 왜냐하면 테스트[수행]한 것 외에 다른 방법은 없기 때문입니다."(P2). 객관적인 기준이 부족하면 자신에 대한 의심과 수치심의 문이 열리고 정확한 자기 평가는 어려워지는데, 한 참가자는 이를 "점점 측정막대를 사용하는 빈도를 줄여가면서 지속적으로 측정한다"(P3)고 설명했다. Emphasis on objective standards of performance early in medical training caused some participants to struggle with the transition to subjective standards commonly used in the clinical realm. One participant recalled asking herself early in the intern year, “Am I at the right level? Am I on par with where everyone else is? Because there’s no other way to gauge it other than … the testing that you have [done]” (P2). Lack of objective standards opened the door for self-doubt and shame and made accurate self-assessment difficult, a phenomenon one participant described as “continually measuring yourself with less and less of a measuring stick” (P3).
완벽주의 Perfectionism.
성취할 수 없는 완벽한 수행 기준을 충족시키지 못했을 때 부족함이나 결함을 느꼈던 많은 참가자들에게 완벽주의는 수치심의 원인이 되었다. Perfectionism contributed to shame for many participants, who felt deficient or flawed when they failed to meet unattainable standards of perfect performance.
수행능력 부진underperformance으로 수치심에 시달리는 한 참가자에게 수치심을 극복하는 데 어느 정도의 성과가 필요했겠느냐고 물었다. 그의 대답은 완벽주의가 그의 자기 평가를 어느 정도 물들였는지를 강조했습니다.
We asked one participant, who struggled with shame due to perceived underperformance, what level of performance would have been enough to help him overcome his shame. His answer underscored the extent to which perfectionism colored his self-evaluation:
판단에 대한 두려움. Fear of judgment.
판단(받는 것)에 대한 두려움이 참가자들의 수치심 반응에 큰 영향을 미쳤다. 참가자들은 동료, 감독관, 환자 및 가족의 다양한 판단을 두려워했습니다.
공공장소에서 질문에 부정확하게 답변(특히 정오 보고서),
M&M 컨퍼런스에서 실수를 탐문당하는 것
도움을 요청하기 위해 상사에게 접근하는 것
사랑하는 사람들과 실패에 대해 토론하는 것
Fear of judgment was a potent contributor to participants’ shame reactions. Participants feared judgment from peers, supervisors, patients, and families in a variety of forms:
answering questions inaccurately in public (particularly at noon report),
having errors scrutinized in morbidity and mortality conferences,
approaching supervisors for help, and
discussing failures with loved ones.
공개적 노출은 참가자들의 판단에 대한 두려움을 고조시켰고 수치심을 증폭시켰다. 평판은 다음과 같은 인식된 판단에 의해 유발되는 불안의 중심이었다.
Public exposure heightened participants’ fear of judgment and amplified feelings of shame. Reputation was central to the anxiety invoked by these perceived judgments:
편향된 기준 프레임 Skewed frame of reference.
참가자들은 종종 맥락적 현실과 일치하지 않는 레퍼런스 프레임을 통해 자신을 분석했습니다. '왜곡된 기준틀'을 통해 자신을 평가하는 것은 지나치게 혹독한 자기평가와 수치심으로 이어질 수 있다. 이러한 [왜곡된 기준틀]은 일부 참가자로 하여금 self-blame을 할 필요가 없는 상황적 증거에조차 저항하게 만들었다. Participants often analyzed themselves through frames of reference that were inconsistent with contextual realities. Self-evaluating through a “skewed frame of reference” could lead to overly harsh self-assessments and feelings of shame. This skewed frame of reference led some participants to resist situational evidence that challenged their self-blame.
실수를 저지른 후에 왜곡된 기준틀을 사용하게 되면, [서포트를 주고자 했던 사람에 대한 불신]을 불러올 수 있으며, 이는 고정적인 수치심 반응에 기여할 수 있다. A skewed frame of reference following an error could lead to mistrust of the people who attempted to provide support, contributing to a fixed shame reaction.
어떤 참가자들은 그들이 [충분히 훌륭하다는 증거를 무시하거나 경시함]으로써 왜곡된 참조 틀을 드러냈습니다. 한 참가자는 "긍정적인 평가를 많이 받았지만, 나는 여전히 내 자신에 대해 개똥같은 느낌이 들었다"고 회상했다. Other participants manifested a skewed frame of reference by ignoring or downplaying evidence that they were good enough. One participant recalled getting “a lot of positive reviews, but I still felt pretty shitty about myself ” (P9).
상사의 중요한 역할. The critical role of supervisors.
참가자들은 감독관과의 상호작용이 수치심 반응에 반대의 영향을 미칠 수 있다고 보고했다. 즉, 감독관에 의한 대우는 그들의 수치심 반응을 증폭시키거나 완화시킬 수 있다. 첫 중환자실 순환에서 고군분투하던 한 참가자는 그의 명백한 고군분투에 대한 반응으로 환자 회진에서 그를 "헐뜯고" "호되게 비판"한 전임의로부터 가혹한 대우를 받았다. 이것은 회진할 때 그가 이미 느끼고 있었던 낮은 퍼포먼스에 대한 수치심을 상당히 고조시켰다. 그는 이어 감독관이 만든 유해하고 "심리적으로 안전하지 않은" 환경의 영향에 대해 다음과 같이 설명했습니다. Participants reported interactions with supervisors that could have opposite effects on their shame reactions: treatment by a supervisor could either amplify or mitigate their shame reactions. A participant struggling on his first ICU rotation encountered harsh treatment from a fellow who “picked on” and “crucified” him on patient rounds in response to his obvious struggles (P5). This significantly heightened the shame he was already feeling from his perceived low performance on rounds. He went on to recount the effects of a toxic, “psychologically unsafe” environment created by the supervisor:
또 다른 참가자는 실수로 인한 수치심 반응으로 휘청거리다가 한밤중에 한 동료에 의해 호출되어 환자가 coded되었음을 알렸다. 다음날 아침, 그는 감독관에게 도움을 청하지 않아 질책을 받았고, M&M 회의가 열릴 것이라는 통보를 받았다. 이러한 치료는 그의 정서적 안녕을 평가하거나 지지를 제공하려고 시도하기 전에 일어났으며, 그의 기존 수치심(P3)의 효과를 현저하게 증가시키고 연장시켰다. Another participant, reeling from an error- induced shame reaction, was called in the middle of the night by a fellow to inform him that his patient had coded. The next morning, he was chided for not seeking help from the supervising fellow and was informed that a morbidity and mortality conference would be held. This treatment, which occurred before attempts to assess his emotional well-being or provide support, significantly heightened and prolonged the effects of his existing shame (P3).
한편 참가자들은 수치심 반응의 심각성이나 지속시간을 [완화하고 회복에 도움이 되는 감독관과의 상호작용]도 보고했다. 이러한 상호작용에는 오류 후의 디브리핑(P11), 전공의를 개인으로 이해하려는 시도(P2), 전공의가 수행능력 어려움을 겪는 것을 인정해주고 개선해야 할 행동에 초점을 맞추는 것(P5), 전공의 성과에 대한 현실적인 기대를 설정하여 참조 틀을 "바로잡으려는" 노력(P71) 등이 포함되었습니다.
On the other hand, participants also reported interactions with supervisors that mitigated the severity or duration of their shame reactions and aided in recovery. Such interactions included
a debriefing session following an error (P11),
attempts to understand the resident as a person (P2),
acknowledgement of a resident’s performance struggles and a focus on specific behaviors to improve (P5), and
efforts to “unskew” a participant’s frame of reference by establishing realistic expectations of performance (P7).
수치심 경험의 부정적 인식 효과 Negative perceived effects of shame experiences
주요 수치심 반응의 즉각적인 여파로 일부 참가자에게는 몇 시간에서 며칠, 다른 참가자에게는 몇 주부터 몇 달까지 지속되는 부정적 영향을 일관되게 표현했다. In the immediate aftermath of major shame reactions, participants consistently articulated negative effects that persisted for hours to days for some participants and from weeks to months for others.
사회적 고립과 소속감 저하. Social isolation and impaired sense of belonging.
참가자들은 수치스러운 반응 후에 외로움을 느끼고 사회적으로 교류할 의욕이 없다고 흔히 보고한다. Participants commonly reported feeling alone and unmotivated to socially interact after a shame reaction.
참가자들은 수치심 반응에 이어 의학계 내 소속감 저하를 자주 표현했다. Participants frequently expressed feelings of impaired belonging within the profession of medicine following shame reactions.
참석자들은 고립감과 소속감 때문에 다른 사람에게 도움을 청하기가 어려워져 정서적 고통이 길어지고 대인관계에 영향을 미친다고 설명했다.
Participants explained that feelings of isolation and impaired belonging made it more difficult to reach out to others for help, prolonging their emotional distress and impacting personal relationships.
배움에서 멀어짐. Disengagement from learning.
참가자들은 수치심 반응 동안 학습 의욕을 상실했다고 설명했습니다. 예를 들어, "핌핑" 29와 관련된 수치심은 한 참가자가 라운드를 두려워하게 하고, 만약 그녀가 질문에 잘못 대답하면 반사적으로 "셧다운"하게 만든다. Participants described a loss of motivation to learn during a shame reaction. For example, shame related to “pimping”29 caused one participant to fear rounds and reflexively “shut down” if she answered a question wrong (P2).
이러한 해제는 결국 그가 학습 환경에 관여하는 여러 영역으로 확대되었습니다. The disengagement eventually extended into multiple areas of his involvement in the learning environment:
정신적, 육체적 건강의 저하. Diminished psychological and physical wellness.
피로감과 우울증은 일반적으로 주요 수치심 반응을 동반한다. 부실한 경기력을 매일 느끼는 수치심에 사로잡힌 한 참가자는 "피곤하고 녹초가 됐다. 그리고 전 '내가 좋은 레지던트가 아니라는 느낌이 들 뿐' 이었습니다." (P9) Feelings of burnout and depression commonly accompanied major shame reactions. A participant whose shame revolved around daily feelings of inadequate performance recalled, “I was tired, burnt out. And I was, like, ‘I just don’t feel like I’m a good resident’” (P9).
수면 장애는 신체 건강에 가장 많이 영향을 미치는 것으로 보고되었는데, 이는 종종 수치심과 유발 사건에 대한 반성으로 인한 것이다. 어떤 참가자들은 운동을 중단했고, 어떤 참가자들은 식습관이 달라졌다. 한 참가자가 "앉아 있는 부랑자 같은 느낌"(P8)을 느끼게 한 이러한 효과는 일부 참가자에게는 몇 시간에서 며칠까지 지속되었고 다른 참가자에게는 몇 주 동안 지속되었다. Impaired sleep was the most commonly reported effect on physical wellness, often due to intrusive thoughts of shame and ruminations about the triggering event. Some participants stopped exercising, and some changed their eating habits. These effects, which led one participant to “feel kind of like a sedentary bum” (P8), lasted from hours to days in some participants and weeks in others.
자기 규제와 비전문적 행동의 감소. Reduced self-regulation and unprofessional behavior.
참가자들은 수치심이 분노와 방어감, 정서적 자기조절 상실을 통해 전문직업적이지 못한 행동으로 이어질 수 있다고 재조명했다. 한 참가자는 "나는 용기가 전혀 없었다"며 수치심을 호소했다. 나는 스스로 조절하고 내 감정을 억누를 탄력성이 전혀 없었다"고 말했다. 이는 주치의에 대한 부적절한 행동(분노의 표출)을 유발했습니다. Participants recounted that shame could lead to unprofessional behaviors via feelings of anger and defensiveness and a loss of emotional self-regulation. A participant experiencing a major shame reaction recounted its effects: “I just had zero fortitude. I had zero resilience to self-regulate and to hold back my true feelings” (P8). This contributed to unprofessional behavior (lashing out in anger) toward an attending:
수치심 반응과 관련된 다른 비전문적 행동에는 다음이 포함되었습니다.
실패를 깨달았을 때 다른 사람을 비난하고,
부정적인 피드백에 맞서 방어적인 태도를 취하며,
환자 진료 책임에서 손을 떼는 것
Other unprofessional behaviors associated with shame reactions included
blaming others for perceived failures,
being defensive in the face of negative feedback, and
disengaging from patient care responsibilities.
공감 장애. Impaired empathy.
[공감의 손상]은 수치심 경험의 또 다른 부정적인 영향이었다. 인턴 기간 내내 성적 부진으로 인한 만성적인 수치심을 경험했던 한 참가자는 (환자와의) 정서적 연결를 희생하면서 성적에 집착하게 되었습니다. 이러한 감정적 실수는 결국 심각한 공감 장애, 환자에 대한 경멸, 고조된 수치심 반응으로 이어졌습니다. Impaired empathy was another negative effect of shame experiences. One participant who experienced chronic shame from perceived underperformance throughout his intern year became obsessed with performance at the cost of his emotional connectedness. This emotional blunting eventually led to severely impaired empathy, disdain for his patients, and a heightened shame reaction:
수치심 경험의 긍정적 인식 효과 Positive perceived effects of shame experiences
참가자들은 수치심 경험의 부정적인 영향을 더 많이 경험했지만 긍정적인 효과도 인정했습니다. 긍정적인 효과로는 회복탄력성 향상, 취약해지려는 의지 증가, 관계 개선, 다른 학습자가 수치심 반응을 처리하도록 돕고자 하는 욕구가 포함되었습니다. 시간, 감독자 지원, 도움 요청, 그리고 수치심 반응의 해결과 긍정적인 결과 개발에 도움이 되는 더 정확한 자기 평가 능력. Although participants more commonly experienced negative effects of their shame experiences, they also acknowledged positive effects. Positive effects included
enhanced resilience,
increased willingness to be vulnerable,
improved relationships, and
a desire to help other learners process shame reactions.
Time, supervisor support, reaching out for help, and the ability to more accurately self-assess aided in resolution of the shame reaction and development of positive outcomes.
참가자들은 수치심이 학습에 미치는 긍정적인 영향에 대해서도 성찰했다. 참가자들은 높은 수준의 감정으로 인해 기억력이 향상되었기 때문에 수치심 경험으로부터 더 많은 것을 배웠다고 느꼈다. Participants also reflected on the positive effects of shame on learning. Participants felt that they learned more from shame experiences because the intensity of the emotion enhanced their memory:
어떤 이유로든 수치심은 더 많은 것을 기억하게 만든다. 폐렴에 걸려 더 잘 치료하고 떠난 환자를 더 깊이 생각해야 할 것 같아요. 하지만 내가 너무 미안했던 건, 모든 걸 다 기억하고 있어. (P3) For whatever reason, shame makes you remember things more. I would have to think a lot harder about the patient that came in with pneumonia that we treated and left better. But the one that I feel so bad about, I remember every detail. (P3)
다른 참가자들은 로테이션에 대한 보다 세심한 준비, 도움 요청, 인지 편향 해소 등 구체적인 학습 행동을 개선함으로써 수치심에 반응했다. 특히 참가자들은 주요 수치심 경험의 장기적인 효과는 긍정적일 수 있지만, 이와 관련된 정서적 고통은 학습 행사로서의 전반적인 가치를 감소시켰다고 강조했다.
Other participants reacted to shame by improving specific learning behaviors, including more attentive preparations for rotations, reaching out for help, and attempting to address cognitive biases. Notably, participants emphasized that although long-term effects of major shame experiences could be positive, the associated emotional distress diminished their overall value as learning events.
고찰 Discussion
참가자들은 심리학 문헌에 기술된 것과 유사한 방식으로 수치심을 경험했습니다. Our participants experienced shame in ways similar to those described in the psychology literature:
그러나, 우리의 분석은 또한 전공의들에게 수치심이 어떻게 발생할 수 있는지에 대한 새로운 통찰력을 제공하는 독특한 맥락적, 개인적 요소들을 밝혀냈다. However, our analysis also revealed unique contextual and personal factors that provide novel insights into how shame may occur in medical residents.
학습자에게 미치는 영향 Implications for learners
우리는 수치심 반응이 의학 학습자들에게 민감한 감정 사건일 수 있다는 것을 관찰했다. 보건의료에서 보초 사건sentinel event이란 [환자에게 사망이나 심각한 신체적 또는 심리적 부상을 초래하는 사건]이며, 질병의 자연적 과정과는 관련이 없습니다.32 마찬가지로 수치심 반응은 예상치 못한 것일 수 있으며, 의료 학습자의 건강, 학습 환경에서의 참여, 직업 내 소속감 등 신체적 및 심리적으로 중대한 결과를 초래할 수 있습니다. We observed that shame reactions may be sentinel emotional events for medical learners. Sentinel events in health care are events that cause death or serious physical or psychological injury to a patient and are unrelated to the natural course of illness.32 Similarly, shame reactions can be unexpected, jarring experiences that can have significant physical and/or psychological consequences for medical learners, including negative impacts on their well-being, engagement in the learning environment, and sense of belonging within the profession.
우리의 자료는 우울한 기분, 피로감, 감정의 손상, 그리고 사회적 고립이 수치심 경험과 맞물려 있을 수 있음을 암시합니다. 이와 같이 수치심은 medical learners 사이에서의 높은 탈진 및 우울증 비율, 공감 장애, 자살률 등 지속적인 의학교육의 도전에서 공통적인 실마리가 될 수 있으며, 나아가 심리적 고통을 겪는 학습자의 도움을 구하는 데 장애물이 될 수 있다.38,39 Our data suggest that depressed mood, burnout, impaired empathy, and social isolation may be interwoven with shame experiences. As such, shame may be a common thread in persistent challenges in medical education, including high rates of burnout and depression,33–36 impaired empathy,37 and suicidality in medical learners36; further, it may be a barrier to help-seeking in learners experiencing psychological distress.38,39
우리의 자료는 수치심이 의학 학습자들의 마음 속 깊은 곳에 자리한, 고통스럽고 종종 숨겨진 감정일 수 있음을 시사합니다. 교육자들의 수치심을 인식하는 능력과 의욕은 의학 학습자의 주요 수치심 반응 중에 의미 있게 개입할 수 있게 할 수 있다. 잠재적인 수치심 유발에 따라 학습자에게 단순히 체크인을 하는 것은 학습자가 수치심을 공유하도록 장려할 수 있습니다. 교육자들은,
표면적인 수준의 질문(예: "어떻게 지내세요?")을 넘어서야 한다.
학습자가 자기 평가를 어떻게 하고 있는지 더 깊이 평가해야 한다 (예: "자기에 대해 어떻게 느끼십니까?").
수치심을 정상화하고, 죄책감 반응으로 전환(즉, 바뀔 수 있는 특정 행동에 초점을 맞춘)하는 것도 학습자의 건설적인 정서적 반응을 촉진할 수 있습니다.5
Our data suggest that shame may be a deep-seated, painful, and oft-hidden emotion in medical learners; educators’ ability—and willingness—to recognize shame could enable them to meaningfully intervene during a major shame reaction in a medical learner. Simply checking in with a learner following a potential shame trigger may encourage the learner to share feelings of shame; however, we suggest that
educators go beyond surface level inquiries (e.g., “How are you doing?”) and
more deeply assess how a learner may be self-evaluating (e.g., “How are you feeling about yourself?”).
Normalizing the shame and redirecting it to a guilt response (i.e., focused on specific actions that can be changed) might also facilitate a more constructive emotional response in a learner.5
더욱이, 참여자들이 보고한 수치스러운 경험은 대부분(전부는 아님) 이행transition 기간 동안 발생했다. 의대 초, 의대생으로서 임상 학습 환경으로의 전환, 인턴 연도 전체(특히 연초), 그리고 선임 레지던트로서 새로운 책임을 떠맡은 직후였다. 주관적 기준과의 어려움, 자신과 타인을 비교하는 경향, 소속감 저하, 임포스터 증후군 경험 등 이행기에는 수많은 기여요인이 결합했다. 따라서 이행기간 동안 학습자가 보고한 정서적 고통과 부정적인 결과에는 수치심이 깔려 있을 수 있다.40~42 Furthermore, most—but not all—shame experiences reported by our participants occurred during transition periods: the beginning of medical school, the transition into the clinical learning environment as a medical student, all of the intern year (but particularly early in the year), and soon after assuming new responsibilities as a senior resident. Numerous contributing factors also coalesced during transition periods, including difficulty with subjective standards, a tendency to compare one’s self to others, a sense of impaired belonging, and experiencing imposter syndrome. Thus, shame may underlie the emotional distress and negative outcomes reported by learners during transition periods.40–42
마지막으로 수치심은 정상적인 학습 과정에서 발생할 수 있는 것으로 보인다: 우리의 연구에서 많은 수치심 유발은 비록 종종 예상하지 못했지만, 실수를 하고, 학문적으로 고군분투하고, 집단 앞에서 틀리는 것과 같은 학습 사건들이 흔했다. 학습의 정상적인 부분이 되어서는 안 되는 학대와 같은 다른 트리거는 참가자들에게 심각하고 불필요한 정서적 고통을 야기했습니다.
Finally, it appears that shame can occur during the normal course of learning: many of the shame triggers in our study were common, albeit often unexpected, learning events such as making mistakes, struggling academically, and being wrong in front of a group. Other triggers, such as being mistreated—which should never be a normal part of learning—caused significant, unnecessary emotional distress in participants.
교육자에게 미치는 함의 Implications for educators
데이터에 따르면 이행기는 학습자가 수치심을 느낄 가능성이 높은, 특히 위험한 시기일 수 있습니다. 이전의 연구들은 이행기에 있는 의대생들에게서 높은 수준의 정서적 스트레스가 나타났으며, 여기에는 부족한 지식 보유, 더 큰 지적 능력을 가진 학생들과의 경쟁, 그리고 덜 교육적인 교수법으로의 전환이 포함된다.41 여러 보고에 따르면, 스트레스의 영향에는 교감신경 활성화, 집중력 상실, 정서적 후퇴, 일에 대한 열의 감소, 비전문적 행동이 포함됩니다.42 이러한 스트레스 요인 및 결과는 참가자들의 수치 반응의 기여자와 영향을 매우 유사합니다. Our data suggest that being in a transition period may be a particularly high-risk period for learners to experience shame. Previous studies have shown higher levels of emotional stress in medical students at transition periods,40,41 and reported transition- related stressors, include possessing insufficient knowledge, competing with students who have greater intellectual ability, and transitioning to less didactic methods of teaching.41 The reported impacts of these stressors include sympathetic activation, loss of concentration, emotional retreat, reduced enthusiasm for work, and unprofessional behavior.42 These stressors and outcomes closely resemble the contributors to and effects of our participants’ shame reactions.
수치심이 분노, 방어, 해방을 포함한 전문가답지 않은 행동으로 가장masquerade될 수 있다는 연구결과는 의미심장한 의미를 가지고 있다. 이러한 비전문적 행동을 외견상 투영하는 학습자들은 내심 큰 수치심 반응에 시달리고 있을 가능성이 있다. 그림 1은 외부 세계가 보는 행동과 개인의 수치스러운 개인적 경험을 처리하는 자기 평가와 사고 사이의 이분법을 보여준다.
Our finding that shame may masquerade as unprofessional behavior, including anger, defensiveness, and disengagement, has significant implications. It is possible that learners who outwardly project these unprofessional behaviors are inwardly suffering from major shame reactions. Figure 1 depicts the dichotomy between the behaviors the outside world sees and the self-evaluations and thought processes the shamed individual privately experiences.
환자에게 미치는 영향 Implications for patients
수치심은 학습자로 하여금 고립되고, 이탈되고, 단절된 느낌을 갖게 하는 경향이 있기에, 결과적으로 역량있고 공감적인 환자 진료를 방해할 수 있습니다. 학습자가 학습 환경에서 탈퇴하는 것은 누락, 소통 불량, 공감 부족 등의 오류를 통해 환자 치료에 [즉각적이고 직접적인 영향]을 미칠 수 있습니다. 학습 동기 상실로 인한 [간접적이고 지연된 영향]을 미칠 수 있습니다. Shame may impede competent and empathic patient care through its tendency to cause learners to feel isolated, disengaged, and disconnected. A learner’s withdrawal from the learning environment may have immediate, direct effects on patient care through errors of omission, poor communication, and lack of empathy; it may have indirect, delayed effects from loss of motivation to learn.
[의도적인 수치심을 주는 학습 환경]이나, [수치심 반응의 정도가 완화되지 않는 환경]은낮은 수준의 심리적 안전감을 초래할 수 있습니다. 이는 결국 학습자가 목소리를 높이거나, 오류를 인정하거나, 필요한 질문을 하려는 의지를 저해함으로써 환자 치료에 대한 다운스트림 효과로 이어진다. 예를 들어, [수치심 반응 중에 숨고 싶은 마음]은 전공의의 거의 3/4이 환자에게 의료 오류를 인정하지 않는다는 사실을 설명하는 데 도움이 될 수 있다.
Learning environments with high degrees of intentional shaming or unmitigated shame reactions may engender low levels of psychological safety and hinder learners’ willingness to speak up, admit errors, or ask necessary questions, with downstream effects on patient care.48,49 For example, the desire to hide during a shame reaction may help explain the finding that nearly three-fourths of medical residents fail to admit medical errors to patients.50,51
수치심은 "방 안에 있는 코끼리"에 비유되어 왔습니다. 즉, "계속 부딪히고 있음에도, 볼 수조차 없을 정도로 크고 불안하게 만드는 것."이다. 52 참가자는 수치심이 혼란스럽고, 불안하고, 거슬릴 수 있습니다. 하지만 놀랍게도 그들은 자신의 이야기를 공개적이고 사실적으로 공유했습니다.
Indeed, shame has been likened to the “elephant in the room: something so big and disturbing that we don’t even see it, [even though] we keep bumping into it.”52 Our participants reported similar experiences—shame could be disorienting, disturbing, and intrusive—and yet, somewhat to our surprise, they shared their stories openly and authentically.
제한사항 및 향후 방향 Limitations and future directions
Acad Med. 2019 Jan;94(1):85-93.
doi: 10.1097/ACM.0000000000002479.
Sentinel Emotional Events: The Nature, Triggers, and Effects of Shame Experiences in Medical Residents
1W.E. Bynum IV is assistant professor, Department of Community and Family Medicine, Duke University School of Medicine, Durham, North Carolina. A.R. Artino Jr is professor, Department of Medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland. S. Uijtdehaage is professor, Department of Medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland. A.M.B. Webb is a fourth-year resident, Walter Reed National Military Medical Center Internal Medicine-Psychiatry Residency, Bethesda, Maryland. L. Varpio is professor, Department of Medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland.
Purpose:This study explores an under-investigated topic, how medical residents experience shame within clinical learning environments, by asking residents to reflect on (1) the nature of their shame experiences; (2) the events that triggered, and factors that contributed to, those shame experiences; and (3) the perceived effects of those shame experiences.Results:Participants' shame experiences ranged from debilitating emotional and physical reactions to more insidious, fleeting reactions. Participants reported shame triggers relating to patient care, learning processes, and personal goals; numerous factors contributed to their shame experiences. The effects of shame reactions included social isolation, disengagement from learning, impaired wellness, unprofessional behavior, and impaired empathy. Positive effects of shame reactions included enhanced learning, increased willingness to reach out for help, and improved relationships.
Conclusions:Shame reactions can be sentinel emotional events with significant physical and/or psychological effects in medical learners. This study has implications for learners, educators, and patients, and it may pave the way toward open, honest conversations about the role shame plays in medical education.
Method:In this hermeneutic phenomenology study, the authors recruited 12 (self-nominated) residents from an internal medicine residency at a large teaching hospital in the United States. Data collection from each participant in 2016-2017 included (1) a written reflection about an experience during medical training in which the participant felt "flawed, deficient, or unworthy," and (2) a semi-structured interview that explored the participant's shame experience(s) in depth. The data were analyzed according to hermeneutic traditions, producing rich descriptions about participants' shame experiences.
웰니스가 의사의 핵심 역량이 되어야 하는가? (Acad Med, 2020) Should Wellness Be a Core Competency for Physicians? Erene Stergiopoulos, MD, MA, Brian Hodges, MD, PhD, FRCPC, and Maria Athina (Tina) Martimianakis, MA, MEd, PhD
"의사 웰니스"의 개념은 최근 기억에서 의료 문화의 가장 큰 변화 중 하나입니다. 지난 몇 년 동안 지역 위원회, 국가 태스크포스 및 의사 건강 및 웰빙에 대한 국제 컨퍼런스가 등장하여 의료계의 전통적 스토아주의에 도전하고 있으며, 의료진의 웰빙에 대한 이전에 들어보지 못한 대화를 촉진하고 있습니다.1–3 2018년 10월, 국제 의사 건강 컨퍼런스는 500명 이상의 참석자를 소집하여 의사 건강 증진을 위한 개인 및 시스템 차원의 전략을 논의했습니다.4 The concept of “physician wellness” represents one of the biggest shifts in medical culture in recent memory. Over the past few years, local committees, national task forces, and international conferences on physician health and wellness have emerged and have called for action, challenging the medical profession’s traditional stoicism while promoting previously unheard conversations about the well-being of its providers.1–3 In October 2018, the International Conference on Physician Health convened more than 500 attendees to discuss individual- and systems-level strategies for improving physician wellness.4
의사에게 "역량으로서의 웰니스"라는 개념은 커리큘럼, 평가, 입학 및 자격증, 그리고 교사와 학습자에게 깊은 영향을 미칩니다. The concept of “wellness as a competency” for physicians holds profound implications for curricula, evaluations, admissions, and licensure, and for teachers and learners.
그러나 '역량으로서의 웰니스' 개념이 완전히 새로운 것은 아니다. 1999년 초에, 대학원 의학 교육 인증 위원회(ACGME)는 미국 거주자를 위한 6가지 핵심 역량을 정의했다. 여섯 번째 역량인 전문직업성professionalism은 "감정, 신체적, 정신적 건강을 유지하고 지속적인 개인 및 직업적 성장을 추구"하는 하위 역량과 "자신의 건강한 라이프스타일을 유지"함으로써 "환자의 본보기가 될 수 있는" 역할 모델이라는 과제를 의사에게 제시한다. Yet the idea of wellness as a competency is not entirely new. As early as 1999, the Accreditation Council for Graduate Medical Education (ACGME) defined 6 core competencies for residents in the United States. The sixth competency, professionalism, includes the subcompetency of “maintaining emotional, physical, and mental health and pursu[ing] continual personal and professional growth”5 and tasks the physician with becoming a role model who can “set an example for their patients” by “maintaining their own healthy lifestyle.”5
마찬가지로 캐나다 왕립 의사 및 외과 대학(Royal College of Physicians and Surginals of Canada)은 7가지 CAN MED 역할 또는 핵심 의사 역량에 대해 간략히 설명했습니다. 2015년에 발표된 CanMEDs Physical Competency Framework 제3판에서는 특히 'Professional' 카테고리 내에서 의사 웰빙에 중점을 두고 있습니다. 여기서 의사들은 "최적의 환자 치료를 촉진하기 위해 의사 건강과 웰빙에 대한 헌신을 보여야 합니다."6 의사 웰빙의 하위 역량 하에서 예상되는 행동에는 다음을 수행할 수 있는 능력이 포함됩니다.6
자기 조절,
자기 인식 표시,
적절한 자기 돌봄 사용,
건강 및 환경 요인의 부정적 영향 완화
Similarly, the Royal College of Physicians and Surgeons of Canada has outlined 7 CanMEDS roles or core physician competencies. The third edition of the CanMEDS Physician Competency Framework, released in 2015, notably places an increased emphasis on physician well-being within the role of professional, in which doctors must “demonstrate a commitment to physician health and well-being to foster optimal patient care.”6 The expected behaviors under the subcompetency of physician well-being include the physician’s ability to self-regulate, exhibit self- awareness, use appropriate self-care, and mitigate negative effects of physical and environmental factors on wellness.6
의과대학 커리큘럼 수준에서도 웰빙을 역량으로 인식하는 방향으로의 전환이 이루어졌다. A shift toward framing wellness as a competency has also taken place at the level of medical school curricula.
의과대학과 레지던시 프로그램이 웰빙을 어떻게 평가로 운영하여 이 영역에서 학습자의 역량을 평가할지는 불분명합니다.
It is unclear how medical schools and residency programs will operationalize wellness into evaluations to assess learners’ competence in this domain.
장애 및 "건강"을 정의하는 데 어려움이 있는 의학 학습자 Medical Learners With Disabilities and Challenges to Defining “Wellness”
미국 의과대학 협회는 2018년 학습자와 장애의사에 대한 획기적인 보고서를 발표했다.8 In 2018, the Association of American Medical Colleges released a groundbreaking report on learners and doctors with disabilities.8
2019년 미국 의대생의 4.6%가 학교에 장애를 스스로 드러내고 편의accommodation을 신청해 2016년 2.7%에 비해 증가했지만, 여전히 공개 장벽을 고려하면, 과소보고되었을 가능성이 높다.9 In 2019, 4.6% of U.S. medical students self-disclosed a disability to their school and registered for accommodations, an increase from 2.7% in 2016, though this is still likely underreported given existing barriers to disclosure.9
개인화된 편의시설은 일반적으로 의과대학의 전용 접근성 서비스accessibility services 오피스의 관할인 시설입니다. 이는 장애 학생이 자신의 학문적 및 임상적 역할에 참여하고 수행할 수 있도록 해주는 시설이다. 이 시설의 담당자는 종종 모든 학생들의 "웰니스"를 촉진하는 오피스와 같은 오피스인 경우가 있다. [참여와 수행에 대한 장벽을 제거하는 방법]으로 웰니스에 접근하면 장애의 공개여부와 무관하게 [모든 학습자]에게 혜택을 줄 수 있습니다.
Personalized accommodations, which allow students with disabilities to participate and perform in their academic and clinical roles, are typically the purview of dedicated accessibility services offices at medical schools—which are often the same offices that promote “wellness” among all students. Approaching wellness as a way to remove barriers to participation and performance has the potential to benefit all learners, including those learners with disclosed or undisclosed disabilities.
그러나 건강한 식사, 규칙적인 운동, 그리고 자기 관리를 위한 활동에 초점을 맞추는 웰니스에 대한 대화에는 [장애를 가진 학습자를 위한 편이accommodations시설]이 종종 빠져 있다. AAMC의 2018년 보고서에서 전국의 학습자와의 인터뷰를 통해 감독관과 동료들로부터 장애에 대한 낙인이 자주 찍히고, 학습자가 편의/도움의 필요성을 밝히기를 주저하는 교육환경이 드러났다. 실제로, 지난 20년 동안 회의와 워킹 그룹의 보고서는 의료 문화를 강조해 왔다. 장애가 있는 의사와 학습자는 휴가를 내지 말아야 한다는 압박감을 느끼고, 도움을 요청하는 것으로부터 discourage되며, '질병은 훈련의 요구에 제대로 대처하지 못하는 것을 반영한다'는 널리 알려진 의학에 대한 믿음때문에 오명stigma을 받는다. 이러한 공개와 지지 추구에 대한 장벽은 의료계의 보편적인 "완벽의 문화culture of perfection"를 반영한다. 즉, 이곳에서의 학습자는 의사가 어떻게 수행하고 행동해야 하는지에 대한 인식된 이상perceived ideals에 기반하여 질문하기를 두려워하게 된다.
Yet accommodations for learners with disabilities are often absent from conversations about wellness, which tend to focus on healthy eating, regular exercise, and activities for self-care. In the AAMC’s 2018 report, interviews with learners across the country revealed educational environments where disability is often stigmatized by supervisors and peers and where learners are hesitant to disclose their need for accommodations. Indeed, reports from conferences and working groups over the last 2 decades have highlighted a medical culture where doctors and learners with disabilities feel pressured to not take time off, get discouraged from asking for help, and face stigma from widely held beliefs in medicine that illness reflects an inability to cope properly with the demands of training.10–12 These barriers to disclosure and support-seeking reflect a prevailing “culture of perfection”13 in medicine, where learners hesitate to ask for help based on perceived ideals of how a doctor should perform and behave.13,14
그렇다면 우리는 웰니스를 역량으로 간주하는 것이 [장애를 가진 학습자에 대한 낙인]을 영구히 남길 수 있다고 우려한다. 즉, "well"와 "unwell"에 대한 표준화된 기대치를 설정함으로써, 우리는 장애를 가진 학습자가 의료 행위를 하기에 부적합하다는 개념을 무심코 다시 포장하고 있는 것일 수 있습니다. 이번에는 "유능하지 않다"고 표시함으로써 말입니다. We worry, then, that framing wellness as a competency may perpetuate stigma against learners with disabilities. That is, by setting standardized expectations for “well” and “unwell,” we may inadvertently be repackaging the notion that learners with disabilities are unsuitable to practice medicine—this time, by labeling them as “not competent.”
그러나 이는 "역량"을 정의하는 방법과 "웰니스"의 의미에 따라 달라집니다. 최근 연구에서 우리 142명(E.S., M.A.T.M.)은 대학교 정책, 제도적 웰빙 및 학생 서비스 웹사이트, 웰빙과 관련된 학생 블로그에 대한 심층 인터뷰와 분석을 통해 캐나다 의과대학의 장애 학생들의 경험을 탐구했다. 우리는 웰빙에 대한 다양한 담론이 수련생들의 "이상적인" 의대생에 대한 인식된 기대를 어떻게 형성하는지 관찰했습니다.
어떤 경우에는, 웰니스는 균형을 이루기 위한 수단으로 프레임되었다. 즉 그 자체로 바람직한 [목적]이다.
다른 경우에, (기관 웹 사이트와 학생 블로그 모두에서) 웰니스는 최고의 학업 성과를 달성하고, 산만함을 최소화하며, 학업 문제에 대처하고, 효율성을 높이기 위한 [수단]으로 제시되었습니다.
어떤 경우에, 웰니스는 ["이상적인" 학생 지위]를 달성하는 방법이 되었습니다. 이는 장애 학습자가 [학업 성과]와 [자기 건강]을 모두 관리해야 한다는 경쟁적 요구를 고려할 때 거의 불가능한 것이었다. 실제로 이러한 방식으로 "웰니스"를 정의하면 [장애를 가진 학습자]는 [역량을 갖추지 못한 것]으로 평가될 수 있습니다.
But this depends on how we define “competency” and what we mean by “wellness.” In a recent study,14 2 of us (E.S., M.A.T.M.) explored the experiences of medical students with disabilities at English-speaking Canadian medical schools, using in-depth interviews and analysis of university policies, institutional wellness and student affairs services websites, and student blogs related to wellness. We observed how various discourses of wellness framed trainees’ perceived expectations for the “ideal” medical student.
In some cases, wellness was framed as a means to achieve balance—a desirable end unto itself.
In other cases—both in institutional services websites and student blogs—wellness was framed as a means to achieve peak academic performance, to minimize distractions, to cope with academic challenges, and to increase efficiency.
Wellness became a method to achieve “ideal” student status—something that learners with disabilities found nearly impossible, given the competing demands of managing both their academic performance and their health.
Indeed, defining “wellness” in this way might lead these learners to be evaluated as not competent.
그러나 의학 교육에서 학습자가 접하는 "웰니스"의 정의 중 많은 부분이 이러한 강점을 강화하지 못한다. Dyrbye 등이 미국 의대를 대상으로 전국 설문조사를 실시한 결과, 웰빙 커리큘럼을 시행한 학교 중 가장 보편적인 것은 명상 훈련, 신체 활동을 위한 행사, 강의 또는 재정 관련 회의, 사회 활동 조직 등이 포함된 것으로 나타났다.7 학교는 일반적으로 의무 활동과 비의무 활동을 함께 제공하며, 학습자는 종종 요가, 명상, 학생 주도 사회, 전담 상담사와의 회의와 같은 자기 관리 활동 메뉴에서 선택할 수 있습니다.15
Many of the definitions of “wellness” that learners encounter in medical education do not reinforce this strength, however. Dyrbye et al’s national survey of U.S. medical schools found that among schools that had implemented well-being curricula, the most common offerings included mindfulness meditation training, organized events for physical activity, lectures or meetings related to finances, and organized social activities.7 Schools typically offer a combination of mandatory and nonmandatory activities,7 and learners can often select from a menu of self-care activities like yoga, meditation, student-led socials, and meetings with dedicated counselors.15
그러나 "웰니스"를 이러한 [자기 관리 활동에 참여하는 것]으로 정의하는 것은 [장애를 안고 살면서 개인의 건강을 관리해야하는 요구 때문에 이러한 활동에 시간을 할애할 수 없는 학습자]를 배제할 위험이 있다. 게다가, 여기에 "역량"을 추가하면, "웰니스"는 막연한 이상에서 [일련의 표준화된 기대치]로 전환되어 평가 및 라이센스에 대한 깊은 의미를 갖습니다.
However, defining “wellness” as participation in these self-care activities risks singling out learners who cannot spend time on such activities because of the demands of living with a disability and managing their personal health. And if we then add “competency” to the mix, “wellness” transforms from a vague ideal into a series of standardized expectations, with profound implications for evaluation and licensure.
역량 문제 The Question of Competency
"역량"은 "웰니스"와 "장애"와 같은 많은 의미를 가지고 있습니다. 즉, 역량으로서 중요한 것은 임상, 문화 및 지리적 맥락에 따라 달라진다.16,17 국제 의학 문헌으로부터, 우리 중 한 사람(B.H.)은 역량 담론이 훈련과 평가의 구조와 내용에 대한 [물질적 효과]와 함께 얼마나 다른 [내재적 가치]를 내포하는지를 보여주었다.16 예를 들어, 우리가 보는 경우 [지식으로서의 역량]은 객관식 시험을 통해 측정할 수 있는 사실 축적 능력을 통해 학습자의 역량을 결정할 수 있습니다. 반대로 [역량을 수행능력]로 볼 경우, 학습자가 역량을 달성하기 위해 수행하는 구체적인 행동을 식별해야 하며, 일반적으로 시뮬레이션과 관찰된 만남을 통해 평가됩니다. “Competency,” like “wellness” and “disability,” has many meanings. That is, what counts as competency varies by clinical, cultural, and geographic context.16,17 Drawing from the international medical literature, one of us (B.H.) has shown how different discourses of competency imply different inherent values with material effects for the structure and content of training and evaluation.16 For example, if we view competency as knowledge, we can determine a learner’s competence through their ability to accumulate facts, which we might measure via a multiple- choice test. If we view competency as a performance, in contrast, we must identify specific behaviors performed by the learner to achieve competence, usually evaluated via simulations and observed encounters.
즉, 우리가 "역량"을 정의하는 방식에 따라, 학습자에게서 무엇을 평가하는지, 어떻게 평가하는지, 그리고 누가 역량있다고 생각하는지가 결정됩니다. In other words, the way we define “competency” determines what we evaluate in our learners, how we evaluate it, and who is considered competent.
[객관식 시험에서 좋은 점수를 획득한 학생]은 어떤 의미에서는 유능할 수 있지만 객관적인 구조화된 임상 검사에 직면했을 때처럼 다른 의미에서는 유능하지 않을 수 있습니다. [역량 담론을 웰빙에 적용]하면 학습자가 달성하고자 하는 것이 정확히 무엇인지 확인하는 것이ascertainig 과제가 됩니다. 모든 학습자가 번아웃을 예방하는 테크닉 목록을 암송할 수 있어야 합니까? 그들이 정기적으로 운동을 해야 하는가? 자체 보고한 번아웃 척도에 대한 점수를 사용하여 "잘 있다" 또는 "잘 있지 않다"를 평가해야 하는가? The student who achieves a good grade on a multiple-choice test may be competent in one sense, but not competent in another, such as when faced with an objective structured clinical examination. When we apply the discourses of competency to wellness, the challenge becomes ascertaining what, exactly, we want learners to accomplish. Should all learners be able to recite lists of techniques for avoiding burnout? Should they be required to exercise regularly? Should their scores on self- reported burnout scales be used to assess whether they are “well” or “unwell”?
만성 건강, 정신 건강, 학습, 감각 또는 거동 관련 장애를 가진 학생들에게 "웰니스"와 "역량"의 정의는 어떤 영향을 미칩니까?
what effect would these definitions of “wellness” and “competency” have on students with chronic health, mental health, learning, sensory, or mobility- related disabilities?
역량으로서의 웰니스: 이제 어디로 가야 하지? Wellness as a Competency: Where Do We Go From Here?
학습자의 의료 경력 초기에 웰빙을 강조하는 데에는 분명한 이점이 있습니다. 실제로 웰빙을 역량으로 인식하는 것은 모든 의사에게 있어 개인 건강을 우선시하는 방법이 될 수 있다. 기존의 완벽주의 문화에 도전하고, 더 많은 학습자들이 어려움에 처했을 때 도움을 구하도록seek 유도할 수 있는 잠재력을 가지고 있다. 그러나 웰니스 목표와 전략의 개발, 정의 및 실행에 있어 학습자와 장애 교직원이 참여하는 것은 매우 중요합니다. 그렇게 하면 장애인들이 자신의 필요에 따라 "웰니스"를 정의할 수 있습니다. There are clear benefits to emphasizing wellness early in learners’ medical careers. Indeed, framing wellness as a competency could be a way of legitimizing personal health as a priority for all physicians. It has the potential to challenge the existing culture of perfection in medical education and to encourage more learners to seek support when in distress. It is critical, though, that institutions involve learners and faculty with disabilities in the development, definition, and execution of wellness goals and strategies. Doing so will ensure that people with disabilities can help define “wellness” relative to their own needs.
요가 수업과 학생 사회 외에 의대 교육의 웰빙에 대한 대안 모델도 가능하다. Bodenheimer와 Sinsky19가 "4중 목표"에서 제안했듯이, 의료 기관은 의료 전반을 개선하기 위해 의료진과 의료진의 일과 웰빙을 개선하기 위한 [시스템 수준]에서 작업해야 합니다. 웰빙 향상을 위해 새로운 자원을 추가하는 대신 [웰빙을 저해하는 장벽을 제거하는 것]을 제안합니다. Alternative models of wellness in medical education, beyond yoga classes and student socials, are also possible. As Bodenheimer and Sinsky19 suggest in their “quadruple aim,” health organizations should work at a systems level to improve the work–life and well- being of clinicians and health care staff to improve health care overall. Rather than adding new resources to improve wellness, they propose removing the barriers that impede wellness in the first place.
의료 교육에 이러한 [시스템 수준의 접근방식]을 적용하는 것은 [보편적 설계universal design]의 개념을 적용하는 것을 의미한다. 웰빙에 대한 어떤 장벽을 제거할 수 있으며, 이러한 장벽을 제거하는 것이 모든 학습자에게 어떻게 도움이 될 수 있을까요? 20 의학교육 환경에서 보편적 설계 접근방식은 커리큘럼에서 일정을 조정할 수 있는 유연성을 포함할 수 있으며, 학습자가 appointments에 참석하거나, 건강 요구 사항을 충족할 수 있도록 빈 공간blank space을 할당할 수 있습니다. 결정적으로, 웰빙에 대한 [보편적 설계 접근법]은 모든 학습자에게 유익할 것이다. 그들은 장애를 가진 학생이나전공의를 선별하거나 배제하지 않을 것이다. Applying this systems-level approach to medical education would mean applying concepts of universal design: What barriers to wellness could we remove, and how might removing these barriers benefit all learners?20 Universal design approaches in the medical education setting might include flexibility in the curriculum to adjust schedules, with blank space allotted to allow learners to attend appointments or attend to their health needs. Critically, universal design approaches to wellness would benefit all learners; they would not single out or exclude students or residents with disabilities.
궁극적으로, 현재의 역량 기반 의료 교육 시대에 우리는 '웰니스'와 '역량'의 의미 변화를 주의 깊게 살펴보고 이들 중 어느 것이 지배적인지를 이해해야 한다. 우리는 또한 [새로운 학습 활동과 웰니스에 대한 평가]가 어떠한 방식으로 새로운 "이상적인" 학생을 표현하는지, 일부 학습자에게 의도하지 않은 장벽을 만들고 있지는 않은지에 주의를 기울여야 합니다. 결국, 이는 [누가 유능한 의사로 간주되고] [누가 의도치 않게 직업에서 배제될 수 있는지]를 결정할 수 있다.
Ultimately, in the current era of competency-based medical education, we must be careful to take stock of the shifting meanings of “wellness” and “competency” and understand which among these are dominant. We must also pay attention to the ways in which new learning activities and evaluations of wellness articulate a new “ideal” student and perhaps create unintended barriers for some learners. In the end, these meanings may determine who is considered a competent physician—and who may be inadvertently excluded from the profession.
Acad Med. 2020 Sep;95(9):1350-1353.
doi: 10.1097/ACM.0000000000003280.
Should Wellness Be a Core Competency for Physicians?
1E. Stergiopoulos is a first-year resident, Department of Psychiatry, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada.
2B. Hodges is professor, Faculty of Medicine and Ontario Institute for Studies in Education, University of Toronto, and chief medical officer and executive vice president of education, University Health Network, Toronto, Ontario, Canada.
3M.A. Martimianakis is associate professor and director of medical education scholarship, Department of Pediatrics, and scientist and associate director, The Wilson Centre, University of Toronto, Toronto, Ontario, Canada.
There has been a recent rise in calls for action around wellness and physician health. In medical education, wellness has been proposed as a physician competency. In this article, the authors review the history of the "wellness as a competency" concept within U.S. and Canadian residency programs and medical schools. Drawing from literature on the discourses of wellness and competence in medical education, they argue that operationalizing wellness as a physician competency holds profound implications for curricula, admissions, evaluation, and licensure. While many definitions of "wellness" and "competency" are used within medical training environments, the authors argue that the definitions institutions ultimately use will have significant impacts for trainees who are considered "unwell." In particular, medical learners with disabilities-including those with mental health, chronic health, learning, sensory, and mobility disabilities-may not conform to dominant conceptions of "wellness," and there is a risk they will become further stigmatized or even be considered unsuitable to practice in the profession. The authors conclude that framing wellness as a competency has the potential to legitimize support-seeking and prioritize physician health, yet it may also have the potential unintended effect of excluding certain learners from the profession. They propose a universal design approach to understand wellness at a systems level and to remove barriers to wellness for all medical learners.
임상술기와 지식의 학습과 전이에 있어서 감정의 역할(Acad Med, 2012) The Role of Emotion in the Learning and Transfer of Clinical Skills and Knowledge
Meghan M. McConnell, PhD, and Kevin W. Eva, PhD
의사가 되기 위한 훈련은 학생들이 지식과 기술을 배우고 새로운 환경에 전이하는 방법에 영향을 미칠 수 있는 광범위한 느낌과 감정을 수반합니다. 일반적인 정서적 경험에는 시간의 압박, 불확실성 또는 비현실적인 기대, 만성적인 질병 환자 치료에 따른 절망, 실패에 대한 두려움 또는 책임감 증가, 그리고 환자의 죽음이나 인식된 성과에 대한 죄책감과 동정이 포함됩니다.1-5 이 목록과 일관되게, 의학 교육의 감정에 관한 대부분의 문헌은 부정적인 감정에 초점을 맞추고 있다. 연구자들은 그러한 부정적인 상태가 종종 의료 훈련생들의 높은 번아웃 발생률과 연관되기 때문에 이러한 초점을 정당화한다.6,7 그러나 자부심, 흥분, 감사, 행복과 같은 긍정적인 감정도 의료 훈련생들에게 중요한 경험을 동반한다.1
Training to become a physician involves a broad range of feelings and emotions that can influence how students learn and transfer knowledge and skills to new settings. Common emotional experiences include stress from time pressures, uncertainty, or unrealistic expectations; hopelessness from treating chronically ill patients; fear of failure or increasing responsibility; and guilt and sympathy over the death of patients or perceived poor performance.1–5 Consistent with this list, most of the literature on emotion in medical education focuses on negative emotions. Researchers justify this focus because such negative states are often associated with the high incidence of burnout among medical trainees.6,7 However, positive emotions—such as pride, excitement, gratitude, and happiness—also accompany important experiences for medical trainees.1
감정이란 무엇인가? What Is Emotion?
감정은 정의하기가 다소 어렵다. 연구자들은 감정, 기분, 영향, 태도, 감정을 포함한 다양한 경험적 개념을 개념화했습니다. 우리는 감정이라는 용어를 가장 일반적인 의미, 즉 정서적인 내용, 상태 및 경험을 지칭하기 위해 사용했습니다. Emotion is somewhat difficult to define. Researchers have conceptualized a variety of experiential concepts, including emotion, mood, affect, attitudes, and feelings. We used the term emotionin its most general sense—to refer to affective contents, states, and experiences.
연구자들은 감정을 가장 잘 정의하는 방법에 대해 논의했지만, 일반적으로 감정이 감정가valence과 각성의 두 가지 차원에 따라 다르다는 데 동의합니다.
발렌스는 물리학 및 화학8에서 차용한 용어로, 감정이 긍정적이거나 부정적이거나 유쾌하거나 불쾌하거나 좋거나 나쁘거나 하는 정도로 인식되는 정도를 말한다.
발렌스가 종종 감정 상태를 정의하는 특징으로 여겨지지만, 각성 또한 중요한 구성요소입니다.
각성은 감정이 활성화되거나 비활성화되는 정도를 말합니다. 예를 들어, 높은 각성 상태(예: 두려움, 불안, 흥분)는 낮은 각성 상태(예: 우울증, 침착함)와 구별됩니다.
Although researchers have debated how to best define emotion, they generally agree that emotions vary along two dimensions—valence and arousal.
Valence is a term borrowed from physics and chemistry8 that refers to the extent to which an emotion is perceived as being positive or negative, pleasant or unpleasant, good or bad.
Although valence is often considered the defining feature of emotional states, arousal is also an important component.
Arousal refers to the extent to which an emotion is experienced as activating or deactivating. For example, high arousal states (e.g., fear, anxiety, excitement) are differentiated from low arousal states (e.g., depression, calmness).
방법 Method
초점을 폭넓게 고려할 때, 체계적이고 포괄적인 검토를 시도하는 것보다 다양한 관련 연구 결과의 비판적 통합이 더 적절하다고 판단했다.9 그러한 검토는 좁게 정의된 연구 질문과 관련된 근거의 완전한 요약을 생성하기보다는 넓은 주제에 관한 문헌의 선별적인 요약을 독자들에게 제공하기 위한 것이다.
Given the breadth of focus, we decided that a critical synthesis of a variety of relevant research findings was more appropriate than attempting a systematic and comprehensive review.9 Such a review is intended to provide readers with a selective summary of the literature around a broad topic rather than generating an exhaustive summary of the evidence relevant to a narrowly defined “Does it work?” type of research question.
결과 Results
인식과 정보 처리 Perception and information processing
[긍정적인 분위기]에 있을 때, 사람들은 상황의 보다 광범위하고 일반적인 구성 요소에 초점을 맞춤으로써 "큰 그림"을 더 잘 볼 수 있다는 것을 많은 연구가 증명했습니다. 반면에, 사람들이 [부정적인 기분]에 있을 때, 그들은 구체적인 세부사항들에 더 집중합니다.10-13 다시 말하면, 긍정적인 감정은 사람들이 숲을 볼 수 있도록 격려하는 반면 부정적인 감정은 나뭇잎에 집중하도록 이끈다. 어떤 것이 다른 것보다 나은지는 특정 업무에 가장 유용한 정보를 사용할 수 있는 수준에 따라 달라지지만, 상당히 미묘한 영향도 영향을 미칠 수 있음은 분명하다. A plethora of research has demonstrated that, when in positive moods, individuals are more likely to see the “big picture” by focusing on the broader, more general components of the situation (e.g., global processing). On the other hand, when people are in negative moods, they are more likely to focus on specific details (e.g., local processing).10–13 In other words, positive emotions encourage people to see the forest, whereas negative emotions lead them to focus on the leaves. Whether one is better than the other depends on the level at which the most useful information is available for a particular task, but it is clear that even fairly subtle influences can have an effect.
예를 들어, 프레드릭슨과 브래니건 14,15는 참가자들이 감정을 불러일으키는 영화 클립을 보게 함으로써 긍정적인 감정(예: 기쁨, 평온, 놀이, 만족)과 부정적인 감정(예: 두려움, 불안, 분노, 슬픔)의 범위를 유도했다. 또한 참가자들에게 감정을 유도하지 않는 영화(즉, 색 막대기가 쌓이는 추상적 표시)를 보게 함으로써 중립적인 통제 조건도 포함시켰다. 연구자들은 국소적인 세부사항과 전체적 맥락을 분리하는 작업을 통해 감정이 기본적인 지각 처리에 영향을 미치는지 여부를 조사할 수 있었습니다. 이를 위해 참가자들에게 표적과 두 개의 비교 항목인 세 개의 기하학적 도형으로 구성된 디스플레이를 보여주었다(그림 1 참조). For example, Fredrickson and Branigan14,15 induced a range of positive (e.g., joy, serenity, amusement, contentment) and negative emotions (e.g., fear, anxiety, anger, sadness) by having participants watch emotionally evocative film clips. They also included a neutral control condition by having participants watch a film intended to elicit no emotion (i.e., an abstract display of colored sticks stacking up). Using a task that dissociated the local details from the global context, the researchers were able to examine whether emotion had an influence on basic perceptual processing. To do so, they showed participants a display consisting of three geometric figures—a target and two comparison items (see Figure 1).
긍정적인 감정을 경험하는 참가자는 전체적 특징(예: 그림 대상의 삼각형 구조)에 따라 항목을 분류할 가능성이 더 높았고, 부정적이거나 중립적인 상태를 경험하는 참가자에 비해 국지적 특성에 기초하여 선택했다(Stimulus의 동그라미를 가지고 Comparison item 2를 선택) Participants experiencing positive emotions were more likely to categorize items on the basis of their global features (e.g., the triangular structure of the illustrated target, leading to a selection of comparison item 1; see Figure 1) relative to participants experiencing negative or neutral states, who were more likely to categorize items on the basis of their local features (e.g., the circles used to create the stimulus in Figure 1, leading to selection of comparison item 2).
개인의 정보 인식 및 처리 방식에 대한 정서적 상태의 이러한 영향은 학습 및 지식의 전이에 중요한 영향을 미칠 수 있습니다. [글로벌 프로세싱 스타일](즉, "큰 그림"에 초점을 추는 것)은 서로 관련이 있는 학습 사건 사이에서 연관성 및 관계적 연결로 이어지며, 이는 개인이 새로운 작업 전반에 걸친 유사성을 감지할 수 있도록 함으로써 지식을 새로운 상황으로 이전하는 것을 촉진해야 합니다. This influence of emotional states on how individuals perceive and process information can have important implications for learning and knowledge transfer. Global processing styles (i.e., focusing on the “big picture”) appear to lead to more associative and relational connections between relevant learning events, which should promote the transfer of knowledge to new situations by enabling individuals to detect analogies across novel tasks.
예를 들어 브랜드와 동료 16,17이 실시한 최근 일련의 연구에서는 긍정적 감정과 부정적 감정이 지식 전이에 서로 다른 영향을 미치는지 여부를 조사했습니다. 이러한 실험의 학습 단계에서 참가자들은 하노이의 탑(ToH)을 푸는 법을 배웠다. For example, a recent set of studies conducted by Brand and colleagues16,17 examined whether positive and negative emotions have differential effects on knowledge transfer. During the learning phase of these experiments, participants learned to solve the Tower of Hanoi (ToH)
참가자들은 미리 정의된 마스터 수준에 도달할 때까지 디스크 3, 4개 ToH 퍼즐을 풀었습니다. 이후 연구원들은 참가자들에게 '행복하고 긍정적인' 혹은 '슬프고 부정적인' 인생 사건에 대해 쓰도록 함으로써 참가자들의 기분을 조작했다. 무드 인덕션에 이어 참가자들에게 근위부 문제 1개(5디스크 ToH)와 전이문제 2개 과제를 풀도록 했다. Participants solved three- and four-disk ToH puzzles until they reached a predefined mastery level. Afterwards, the researchers manipulated the participants’ mood by having them write about a “happy and positive” or “sad and negative” life event. Following the mood induction, they asked participants to solve one proximal (five-disk ToH) and two transfer tasks.
그 결과는 감정적 발렌스가 전이에 있어 중요한 요소라는 것을 보여주었다. 참가자가 긍정적인 감정을 느끼도록 유도하는 2가지 전이과제의 성과가 향상되었고 부정적인 감정을 느끼는 참가자에게는 장애가 되었다. The results showed that emotional valence is an important factor in transfer. Performance on the two transfer tasks was improved for participants induced to experience positive emotions and was impaired for those experiencing negative emotions.
긍정적이고 부정적인 감정(예를 들어, 세계적인 대 지역)에 스타일 처리의 차이 그nonanalytic(시스템 1)적(시스템 2)추론 과정 사이에 혼동하지 않아야 한다. 연구진은 기껏해야 시스템1에만 감정처리가 특정하며 시스템2 처리는 감정적 영향이 없다는 가설을 세워왔다.20 긍정적 감정은 전역적 세부사항의 자동처리를 부추기는 반면 부정적 감정은 국소적 세부사항의 자동처리를 유도한다. The differences in processing styles for positive and negative emotions (e.g., global versus local) should not be confused with those between nonanalytic (System 1) and analytic (System 2) reasoning processes. At most, researchers have hypothesized that emotional processing is specific to System 1 and that System 2 processing is free from emotional influence.20 Therefore, positive emotions likely encourage the automatic processing of global details, whereas negative emotions lead to the automatic processing of local details.
일부 경험적 뒷받침은 감정적 발렌스에 따라 인지적 편견을 저지를 가능성에 영향을 줄 수 있다고 시사하지만, 이러한 효과의 유병률에 대한 감정의 영향은 다양한 것으로 보인다. 예를 들어,
고정 편견(즉, 전체 상황을 이해하는 대신 하나의 특성이나 정보에 초점을 맞춘다)은 학습자가 부정적인 감정 상태에 있을 때 발생할 가능성이 더 높습니다. 반면,
근본적인 귀인 편향(즉, 상황적 힘을 과소평가하고 처분 요인을 과대평가하려는 경향)과 정의로운 세계 편향(즉, 사람들이 받을 만한 결과를 얻는다는 믿음)은 사람들이 긍정적인 감정 상태에 있을 때 더 많이 발생한다.
Some empirical support suggests that emotional valence can influence the likelihood of committing cognitive biases, but the influence of emotion on the prevalence of this effect appears to vary. For example,
anchoring biases (i.e., focusing on one trait or piece of information at the expense of understanding the whole situation) are more likely to occur when learners are in negative emotional states.21,22 On the other hand,
the fundamental attribution bias (i.e., the tendency to underestimate situational forces and overestimate dispositional factors) and the just world bias (i.e., the belief that people get the outcomes they deserve) are more likely to occur when people are in positive emotional states.23,24
정보 해석 Interpreting information
인지적 유연성 Cognitive flexibility.
연구에 따르면 긍정적인 감정은 개인의 유연한 사고 능력을 촉진하고 다른 전략과 해결책을 발견하는 데 도움이 됩니다.예를 들어, Gasper28은 당면한 문제의 맥락에 따라 개인의 사고방식 전환 능력에 긍정적 감정과 부정적 감정이 서로 다른 영향을 미치는지 조사하였다. Studies have shown that positive emotions facilitate an individual’s ability to think flexibly and discover alternative strategies and solutions.25–27 For example, Gasper28 examined whether positive and negative emotions have different influences on an individual’s ability to switch mindsets according to the context of the problem at hand.
개스퍼는 부정적인 감정을 경험하는 개인들이 그것이 부적절하다는 피드백을 받기 전까지 확립된 문제 해결 전략에 의존한다는 것을 발견했다. 반면 긍정적인 감정을 경험하는 사람들은 스스로 수립된 전략을 포기하는 경우가 훨씬 더 많았다. Gasper found that individuals experiencing negative emotions relied on the established problem-solving strategy until they received feedback that it was inadequate. On the other hand, those experiencing positive emotions were much more likely to abandon the established strategy on their own accord.
개스퍼의 연구 결과는 [긍정적인 감정]이 머리 속에 떠오르는 잠재적 해결책의 수를 늘리며, 오래된 것에 대한 개인의 의존도를 낮추고, 잠재적으로 불충분한 문제 해결 전략을 줄임으로써 문제 해결을 촉진한다는 것을 시사한다. 브랜드 외 연구진에 따르면, [유연한 사고]는 "하위 구조가 동일하거나 유사한 표면 특성을 가진 서로 다른 전이 과제 간의 유사성을 감지하는 데 특히 유리하다"고 한다. 분명히, 이러한 인지적 유연성은 의학처럼 연구자들이 [조기 종결]가 진단 정확성에 대한 주요 도전과제로 지적한 분야에서 중요한 의미를 가질 수 있다. 실제로, 진단 의사결정을 연구하는 에스트라다, 이센, 그리고 동료들은 [긍정적인 감정]이 진단 정확도 증가, 호기심 증가, 그리고 정보의 통합 강화와 연관되어 있다고 보고했습니다.
The results of Gasper’s28 study suggest that positive emotions promote problem solving by increasing the number of potential solutions that come to mind and by decreasing an individual’s reliance on old, and potentially inadequate, problem-solving strategies. According to Brand et al,16 flexible thinking “should be particularly favorable for detecting analogies between different transfer tasks with similar or dissimilar surface features with identical substructure.” Clearly, such cognitive flexibility can have important implications in a field like medicine where researchers have identified premature closure as a major challenge to diagnostic accuracy.29,30 Indeed, Estrada, Isen, and colleagues,21,31,32 studying diagnostic decision making, have reported that positive emotions are associated with increased diagnostic accuracy, greater curiosity, and enhanced integration of information.
기억 인출 Memory retrieval.
모든 기억이 동등하게 만들어지는 것은 아닙니다. [고도의 감정적 경험]은 잘 기억되는 경향이 있는데, 특히 감정적 경험에 대한 강한 기억을 발생 후 수년 만에 흔히 보고하는 임상의에게는 놀라운 일이 아니다. [정서적 사건과 경험]이 [중립적 사건]보다 기억에서 더 안정적으로 인출된다는 많은 연구가 있지만, 정서적 경험이 기억 형성에 이처럼 큰 영향을 미치는 이유는 상대적으로 덜 알려져있다.. All memories are not created equal. Highly emotional experiences tend to be well remembered, which should come as no surprise to clinicians who themselves commonly report strong memories of particularly emotional experiences many years after their occurrence. Although plenty of research has shown that emotional events and experiences are retrieved more reliably from memory than neutral events,33,34 what is less recognized is why emotional experiences have such a strong impact on memory formation
감정적인 사건에 대한 기억력 향상에 대한 한 가지 가능한 설명은, 감정적인 반응을 경험하는 사람은 정신적으로 연습을 하거나 그 사건에 대해 "골똘히 생각할" 가능성이 더 높다는 것입니다.35–37 이 가설은 최근 연구에서 Ferree와 Cahill35에 의해 뒷받침되었다. 그들은 사람들이 무의식적으로 비감정적 사건과 관련된 감정적 사건을 다시 찾는 비율을 조사했다. 놀랍게도, 그들의 연구는 감정적이지 않은 것보다 [감정적인 경험]에서 의도하지 않은 사건들의 회수가 일어날 가능성이 더 높은지를 체계적으로 조사한 최초의 연구들 중 하나였다. One potential explanation for enhanced memory of emotional events is that an individual who experiences an emotional reaction is more likely to mentally rehearse or “mull over” the event.35–37 This hypothesis was supported by Ferree and Cahill35 in recent research. They examined the rate at which people involuntarily revisit emotional events relative to nonemotional events. Surprisingly, their study was one of the first to systematically examine whether unintentional retrieval of events was more likely to occur for emotional experiences than for nonemotional ones.
연구원들은 이 질문을 연구하기 위해 참가자들에게 일련의 감정적 혹은 중립적 영화를 보여주면서 "완전히 무감정적"에서 "극도의 감정적"에 이르는 10가지 형용사 척도를 사용하여 각 영화의 '감정성emotionality'에 대해 주관적으로 평가해 줄 것을 요청했다. 작가들은 긍정적인 감정과 부정적인 감정을 구분하지 않았다. To study this question, the researchers showed participants a series of either emotional or neutral films and asked them to subjectively rate each film for its “emotionality” using a 10-point adjectival scale ranging from “completely unemotional” to “extremely emotional.” The authors did not distinguish between positive and negative emotions.
다양한 조치들에 걸쳐 참가자들은 중립적인 영화보다 감정성이 높았던 영화에 대해 더 많이 기억했다. 게다가 참가자들은 중립영화보다 감성영화에 대한 "자발적인 침입적 회상(SIR)"이 거의 3배 더 많으며, SIR의 빈도는 상기된 세부사항의 양과 긍정적으로 상관관계가 있다고 보고했다. 이러한 결과에 기초하여, Ferree와 Cahill은 SIR이 어떤 사건의 암호화된 버전에 대한 은밀한 검색을 촉진하고, 결과적으로 정서적 경험에 대한 기억을 향상시킨다고 결론지었다. Across the various measures, participants remembered more about the emotional films than the neutral films. Furthermore, participants reported nearly three times more “spontaneous intrusive recollections” (SIRs)for the emotional films than for the neutral films, and the frequency of SIRs was positively correlated with the amount of detail recalled (but only for emotional films). On the basis of these results, Ferree and Cahill concluded that SIRs promote covert retrieval of encoded versions of an event, which subsequently enhances memory for emotional experiences.
다른 연구에서는 부정적인 사건이 긍정적인 사건보다 자발적으로 더 자주 기억되는 것으로 나타났다.38,39 예를 들어, Bernsten40은 대학생들의 매우 부정적인 사건과 매우 긍정적인 사건에 대해 비자발적인 기억을 비교했다. 결과는 부정적인 사건과 긍정적인 사건 모두 비자발적인 회복의 대상이라는 것을 보여주었다. 그러나, 매우 부정적인 인생 사건과 관련된 비자발적인 기억은 매우 긍정적인 사건에 대한 비자발적인 기억보다 더 우세했다. Other research has shown that negative events are spontaneously remembered more frequently than positive events.38,39 For example, Bernsten40 compared involuntary memories for highly negative and highly positive events among undergraduate students. The results demonstrated that both negative and positive events are subject to involuntary retrieval; however, the involuntary memories associated with highly negative life events were more prevalent than the involuntary recollections of highly positive ones.
이처럼 [부정적으로 자극되는 감정적 사건의 반복적 인출]은 의학 교육 연구자들이 의학 훈련 중에 흔히 보고되는 [공감의 감소]를 이해하고 의사의 번아웃에 대해서도 빛을 비줘출 수 있다.6,7,42 즉, 의료연수생과 전문직 종사자가 모두 부정적인 사건(즉, 까다로운 환자, 경솔한 임상 오류 및 실패, 또는 어려운 내부 또는 전문가 간 상호작용)을 기억하고 회상할 가능성이 높다면, 그들의 인식은 시간이 지남에 따라 편향될 수 있으며, 이는 긍정적인 경험보다 부정적인 관행 측면이 훨씬 더 보편적으로 나타난다(기억하기 쉽기 때문이다).
Such repeated retrieval of negatively arousing emotional events may help medical education researchers understand the commonly reported decline in empathy41 that occurs during medical training, as well as shed light on issues of physician burnout.6,7,42 That is, if medical trainees and professionals alike are more likely to remember and recall negative events, then their perception may be biased over time, whereby negative aspects of practice (i.e., demanding patients, imprudent clinical errors and failures, or difficult intra- or interprofessional interactions) appear to be much more common (because of the ease of recall) than positive experiences.
동시에 이러한 연구 결과는 [부정적인 사건]이 직업에 대한 [다양한 불만족 지표]를 불러일으킬 수 있는 동시에 [학습을 유도하는 데 특히 가치가 있다]는 점에서 어려운 역설을 만들어낸다. At the same time, these findings establish a difficult paradox in that negative events might prompt various indications of dissatisfaction with the profession while being particularly valuable for inducing learning.
정보에 대한 작업 Acting on information
지금까지 우리는 감정이 개인의 인식과 기억을 어떻게 조절하는지에 초점을 맞춰왔지만, 감정 또한 사람들이 다른 [학습 사건에 어떻게 행동하고 반응하는지]에 영향을 미치는 것으로 보인다. 예를 들어, 감정은 [피드백 개입]에 대응하여 개인이 피드백을 탐색하고 이에 대해서 적절하게 행동하는 정도를 변화시킬 수 있는 것처럼 보입니다.
To this point in our report, we have focused on how emotions moderate individual perceptions and memories, but emotions also appear to influence how people act and respond to different learning events.47,48 For example, emotions appear capable of altering the extent to which individuals seek out and act appropriately in response to feedback interventions.
피드백은 의학 교육 환경에서 중요한 교육학적 개입으로 작용한다.49 학생들에게 성과 피드백을 이끌어내고 받을 기회를 제공하고, 자신의 성과에 대한 인식을 알리기 위해 외부 데이터를 찾는 것의 중요성을 강조하는 것은 일반적으로 학습과 지식 전달을 촉진하는 것으로 생각된다.그러나 긍정적인 피드백(예: 성공에 대한 정보)과 부정적인 피드백(예: 실패에 대한 정보)이 학습자의 동기 부여에 서로 다른 영향을 미치는지에 대한 연구는 긍정적인 피드백과 부정적인 피드백 모두 동기 부여와 성과를 동등하게 증가시키거나 감소시킬 수 있다는 것을 시사했습니다.50–52 Feedback serves as an important pedagogical intervention in medical education settings.49 Providing students with the opportunity to elicit and receive performance feedback and stressing on them the importance of seeking external data to inform their perceptions of their own performance is commonly thought to promote learning and knowledge transfer. However, research on whether positive (e.g., information about success) and negative (e.g., information about failure) feedback has different effects on a learner’s motivation has suggested that both positive and negative feedback can equally increase and decrease motivation and performance.50–52
자기 조절 초점 이론 53,54는 두 개의 독립된 조절 방향 또는 "마음의 상태" 즉, 촉진 시스템과 예방 시스템을 제안한다.
촉진 시스템 하에서, 개인은 승진 기회, 보상, 성취를 지향합니다. 반대로,
예방 시스템은 개인을 보안, 처벌, 부정적인 결과 회피로 향하게 합니다.
프로모션에 초점을 맞춘 개인은 긍정적인 결과의 유무에 민감하므로 숙련된 성과로 인한 보상에 특히 민감해야 한다.
그러나 예방에 초점을 맞추면 부정적인 결과의 유무에 민감하기 때문에 성과가 저조할 경우 처벌에 민감해야 한다.55–57
Self-regulatory focus theory53,54 proposes two separate, independent regulation orientations or “states of mind”—the promotion system and the prevention system.
Under the promotion system, individuals are oriented toward advancement opportunities, rewards, and accomplishments.
In contrast, the prevention system orients individuals toward security, punishment, and avoiding negative outcomes.
With a promotion focus, individuals are sensitive to the presence or absence of positive outcomes and, therefore, should be particularly sensitive to rewards that result from skilled performance.
With a prevention focus, however, individuals are sensitive to the presence or absence of negative outcomes and, therefore, should be sensitive to punishments that accompany poor performance.55–57
히긴스 53,54는
[승진 초점] 하에서 성공(예: 긍정적인 피드백)은 긍정적일 뿐만 아니라 정서적 자극(예: 흥분, 행복)이 높은 감정을 생성하는 반면, 실패(예: 부정적인 피드백)는 부정적이지만 각성(예: 무관심, 낙담)이 낮은 감정을 생성한다고 제안했다. 반면,
[예방 초점] 아래의 성공/긍정적 피드백은 각성이 낮은 긍정적인 느낌(예: 침묵, 이완)과 관련이 있는 반면, 실패/부정적 피드백은 각성이 높은 부정적인 느낌(예: 동요, 긴장)을 생성한다.
따라서 히긴스의 이론은 피드백에 더 잘 수용하고 변화에 더 동기부여를 받게 하는 것은 정서적 (valence보다는) arousal이라는 것을 시사한다.
Higgins53,54 suggested that
under a promotion focus, success (i.e., positive feedback) produces feelings that are not only positive but are also high in emotional arousal (e.g., excitement, happiness), whereas failure (i.e., negative feedback) produces feelings that are negative but are also low in arousal (e.g., apathy, discouragement).
On the other hand, success/positive feedback under a prevention focus is associated with positive feelings that are low in arousal (e.g., quiescence, relaxation), whereas failure/negative feedback produces negative feelings that are high in arousal (e.g., agitation, tension).
Higgins’ theory, therefore, suggests that it is emotional arousal that leads to an individual being more receptive to feedback and more motivated to change rather than emotional valence.
동기 부여에 대한 정서적 각성arousal의 잠재적 영향은 Van Dijk와 Kluger 55-57에게 피드백 가치(부정적 대 긍정적)와 규제 초점 사이의 상호작용과 이러한 상호작용이 개인이 받은 피드백에 대해 행동하도록 동기를 부여하는 정도에 영향을 미치는지 여부를 직접 검토하도록 영감을 주었다. 참가자들에게 자신의 (그리고 히긴스의) 가설을 시험하기 위해, 그들은 직장에서 일하고 있는 시나리오를 상상하게 하고 그들의 감독자는 그들의 업무 수행에 대해 논평하게 했습니다.56 The potential influence of emotional arousal on motivation inspired Van Dijk and Kluger55–57 to directly examine the interaction between feedback valence (negative versus positive) and regulatory focus and whether this interaction influences the extent to which an individual is motivated to act on the feedback that he or she has received. To test their (and Higgins’) hypothesis, they had participants imagine a scenario in which they were working at a job and their supervisor commented on their task performance.56
조절 초점을 조작하기 위해 참가자의 절반은 재정적 의무(예방 초점) 때문에 지켜야 할 일을 하고 있다는 말을, 나머지 절반은 항상 갖고 싶어하고 자신의 직위(승진 초점)에 진출하고 싶은 일을 하고 있다는 말을 들었다. 피드백 valence를 조작하기 위해 각 조건의 참가자 중 절반은 작업 수행에 실패했다고 랜덤하게 말했고, 나머지 절반은 성과가 뛰어났다는 말을 들었다. To manipulate regulatory focus, half the participants were told that they were working at a job that they had to keep because of financial obligations (prevention focus), whereas the other half were told that they were working at a job that they had always desired to have and wanted to advance at their position (promotion focus). To manipulate feedback valence, half of the participants in each condition were randomly told that they had failed in their task performance, whereas the other half were told that they had excelled in their performance.
[동기부여 등급]은 부정적인 피드백을 받은 사람에 비해 긍정적인 피드백을 받은 사람이 더 높았지만, 참가자가 [촉진 초점]을 둔 경우에만 그러했다. [예방에 초점]을 둔 대상자에 대해서는 효과가 역전되었으며, (긍정적 피드백을 받은 대상자에 비해) 부정적인 피드백을 받은 대상자가 동기 부여가 더 높았다.
Motivation ratings were higher for those who received positive feedback relative to those who received negative feedback, but only when participants were under promotion focus. The effects were reversed for those under prevention focus, with motivation being higher for those who received negative feedback relative to those who received positive feedback.
고찰 Discussion
우리는 몇 가지 결론을 도출할 수 있다. we can draw several conclusions.
1. [부정적인 감정]은 개개인이 학습 시나리오와 관련된 개별 [세부 사항]에 집중하도록 장려하며, 세부 사항에 대한 강한 주의가 필요한 작업에 도움이 될 수 있습니다. 반면에 [긍정적인 감정]은 개인들로 하여금 학습 행사의 [큰 그림]에 집중하도록 장려한다. 이러한 전체적 처리 스타일은 학습자가 관련 학습 이벤트 간의 연관성 및 관계적 연결을 만들어, 지식 및 기술을 새로운 상황으로 전이transfer할 가능성을 높일 수 있습니다. 1. Negative emotions encourage individuals to focus on the individual details associated with a learning scenario, which may be beneficial in tasks that require a strong attention to detail. On the other hand, positive emotions encourage individuals to focus on the big picture of a learning event. This global processing style may enable learners to create associative and relational connections between relevant learning events, thereby increasing the likelihood of transferring knowledge and skills to new situations.
2. [부정적인 감정]은 [익숙한 문제 해결 전략에 대한 개인의 의존도]를 높일 수 있으며, 이러한 전략이 잠재적으로 부적절할 때 적응하기가 더 어려워질 수 있습니다. [긍정적인 감정]은 정보에 대한 [인지 유연성과 개방성]을 촉진하고, 이를 통해 학생들이 과제 간의 유사성을 감지하여 임상 기술과 지식을 전이할 수 있도록 합니다. 연구자들은 이러한 유연성이 조기 종결으로 인한 [오류 발생 가능성을 줄이는 데 중요]하다고 생각합니다.59 2. Negative emotions may increase an individual’s reliance on familiar problem-solving strategies, which may make it more difficult for him or her to adapt when such strategies are potentially inadequate. Positive emotions facilitate cognitive flexibility and openness to information, which may enable students to detect similarities between tasks, thereby enhancing the transfer of clinical skills and knowledge. Researchers believe that such flexibility is valuable for reducing the likelihood of errors attributable to premature closure.59
3. [감정적 경험], 특히 부정적인 경험은 비감정적 경험보다 더 자주 떠오를 가능성이 높습니다. 이러한 의도하지 않은 감정적 사건과 반응의 검색은 비록 전이transfer에는 방해될 수 있지만, 개인이 긍정적인 경험에 비해 부정적인 학습 경험을 기억으로부터 더 많이 인출할 가능성을 증가시킬 수 있으며, 그러한 (부정적 경험의) 인출은 공감과 만족도를 낮추는 데 기여할 수 있습니다. 3. Emotional experiences, particularly negative ones, are more likely to be mulled over than nonemotional experiences. This unintentional retrieval of emotional events and reactions can increase the likelihood of an individual further retrieving his or her negative learning experiences from memory relative to positive experiences, though transfer may be impeded, and such retrieval may contribute to lowering empathy and satisfaction.
4. 긍정적 감정과 부정적 감정의 차이는 피드백 받는 사람의 심리 상태에 따라 달라집니다. 프로모션 및 예방 규제 시스템은 동기 부여 및 개선에 영향을 미치기 위해 피드백 가치(부정/실패 대 긍정/성공)와 상호 작용한다. [승진 초점] 아래서 부정적인 피드백을 받는 사람보다 긍정적인 피드백을 받는 사람이 동기부여가 더 높습니다. [예방 초점]에서는 긍정적인 피드백을 받는 사람보다 부정적인 피드백을 받는 사람이 동기부여가 더 높습니다. 4. The difference in effects of positive and negative emotions is dependent on the feedback recipient’s state of mind. The promotion and prevention regulatory systems interact with feedback valence (negative/failure versus positive/success) to influence motivation and improvement. Under promotion focus, motivation is higher for those who receive positive feedback relative to those who receive negative feedback. Under prevention focus, motivation is higher for those who receive negative feedback relative to those who receive positive feedback.
이러한 결과를 종합해 보면 긍정적인 감정과 부정적인 감정 모두 학습과 지식 전달에 중요한 역할을 한다는 것을 알 수 있습니다. 이러한 발견은 학생들이 복잡한 지식과 기술을 배우고 이 지식을 새로운 임상 환경으로 전이할 수 있도록 최선의 준비를 하는 방법에 대해 의학 교육자들에게 중요한 의미를 지닙니다. 담당 의사나 상급 레지던트가 후배에게 일련의 어려운 질문을 하는 일반적인 교육학적 기법을 생각해 보십시오. 이러한 핌핑pimping 경험은 굴욕감, 당황감, 흥분감, 그리고 불안감을 포함한 다양한 감정과 연관되어 있으며, 교육자들은 이러한 감정적 상태가 핌핑pimping 경험을 통한 학습을 촉진시킨다는 이론을 세워왔다.60,61 실제로, 대부분의 학생들은 이러한 핑핑 세션을 꽤 잘 기억한다 – 이는 일부 교육자들이 핌핑을 교육의 방식으로 사용하는 것을 촉진하는 사실 중 하나이다. Taken together, these results demonstrate that both positive and negative emotions play an important role in learning and knowledge transfer. These findings have important implications for medical educators regarding how best to prepare students to learn complex knowledge and skills and to transfer this knowledge into novel clinical settings. Consider the common pedagogical technique known as “pimping,” whereby attending physicians or senior residents ask junior colleagues a series of challenging questions. These pimping experiences are associated with a variety of emotions, including humiliation, embarrassment, excitement, and anxiety, and educators have theorized that these emotive states promote learning during the pimping experience.60,61 Indeed, most students recall these pimping sessions quite well—a fact that is used by some educators to promote the use of pimping as a form of teaching.
하지만, 우리는 핌핑이 언제, 왜, 왜 효과가 있는지 아직 완전히 이해하지 못했습니다.
학생들이 이런 사건들을 떠올리는 성격 때문에 머리 속에서 재현할 가능성이 더 많은가?
특정 핌핑 사건에 대응하여 관련 정보를 더 많이 찾을 수 있습니까?
포주가 지식 유지에 미치는 영향은 학생들이 긍정적 대 부정적 감정을 경험하는지 또는 자극적 대 비흥분적 상태를 경험하는지에 따라 달라지는가?
핌핑이 새로운 임상 사례로 지식과 기술을 이전하는 것을 촉진하거나 방해합니까?
However, we do not yet have a complete understanding of whether, why, or when pimping works.
Are students more likely to replay these events in their heads because of their evocative nature?
Are they more likely to look up relevant information in response to a particular pimping event?
Does the impact of pimping on knowledge retention depend on whether students experience positive versus negative emotions or arousing versus nonarousing states?
Does pimping promote or impede the transfer of knowledge and skills to new clinical cases?
이 글에서 검토한 문헌은 [학생들이 학습 상황을 위협적이거나 두려운 것으로 인식]할 때 인지 리허설과 정교함으로 인해 정서적 사건에 대한 기억력이 더 좋을 수 있지만, 더 넓은 연관성을 가질 가능성이 낮기 때문에 학습된 정보를 다른 임상상황에 전이하는 것을 방해할 수 있음을 시사한다. 따라서, 비록 핌핑이 특정 상황에 대한 기억을 향상시켜 영향력 있는 교육/학습의 인상을 만들 수 있더라도, 실제로 새로운 맥락에 습득한 지식을 적용하는 것을 방해할 수 있습니다. The literature reviewed in this article suggests that, when students perceive a learning situation as threatening or frightening, they may have better memory of the emotional event because of cognitive rehearsal and elaboration, but they may be less likely to make broader connections, thereby precluding transfer of the learned information to other clinical settings. Therefore, although pimping may enhance memory for certain situations, creating the impression of influential teaching/learning, it may actually impede the application of knowledge gained to new contexts.
물론 그러한 지식이 훈련과 연습에 영향을 미치기 위해서는 감정과 그것이 성과에 미치는 영향이 효과적으로 조절될 수 있는지 알아야 한다. 어떤 증거는 일단 개인이 잠재적인 기분 영향을 알게 되면 감정이 그들의 수행에 영향을 미치는 정도를 조절할 수 있다는 것을 암시한다. 결과적으로, 의학 교육자들은 의사들이 그들의 [감정 상태와 그들의 감정이 어떻게 인식, 해석, 행동을 편향시킬 수 있는지를 인식하도록 훈련]시킬 수 있을 것입니다. Of course, for such knowledge to have an impact on training and practice, we must know whether emotion and its influence on performance can be modulated effectively. Some evidence suggests that once individuals are made aware of potential mood effects, they are able to modulate the extent to which emotion influences their performance.10,62,63 As a result, medical educators may be able to train physicians to be aware of their emotional states and how their emotions may bias perceptions, interpretations, and actions.
이와 관련하여 자기 성찰 체크리스트와 포트폴리오의 구성요소로써 학습자의 정서 상태에 대한 관심을 분명히 유도하는 것이 유용할 수 있습니다.
또는, 시뮬레이션된 상황을 사용하면 학생들이 언제, 어느 정도까지 감정이 결정을 통제하는지 알 수 있습니다. 학생들에게 일련의 시뮬레이션을 시킨 다음, 학생들이 어떻게 느끼는지 지속적으로 모니터링하도록 요구함으로써, 의료 훈련생들은 그들의 감정 상태를 더 잘 모니터할 수 있습니다.
다양한 감정상태와 그 감정상태가 학습에 미치는 영향을 파악할 수 있는 능력을 함양함으로써, 의료전문가와 교육생은 자신이 언제 가장 잘 학습하고 있는지, 그렇지 않은지에 대한 인식을 이상적으로 발전시킬 수 있을 것이다.
Explicitly drawing attention to learners’ emotional states by making them components of self-reflective checklists and portfolios may be useful in this regard.64
Alternatively, the use of simulated situations may help students become aware of when and to what extent emotions regulate their decision making. By subjecting students to a series of simulations and then requiring them to continuously monitor how they are feeling, medical trainees may become better at monitoring their emotional states.
By fostering the ability to identify different emotional states and their effects on learning, medical professionals and trainees will ideally develop an awareness of when they are learning and performing at their best and when they are not.
마지막으로 우리는 감정이 얼마나 강력해질 수 있는가에 대해 명시적으로 보강할 가치가 있다고 생각합니다. 본 리뷰에서 설명한 분위기 유도 절차는 매우 미미합니다. 짧은 필름 클립이 효과가 있다면, 의료 훈련과 관리에서 흔히 볼 수 있는 것과 같이 더 극단적인 경험을 한 후에 얼마나 더 극적인 변화가 일어날 수 있을까? 말하자면, 우리가 유도된 감정 상태에 대해 논의한 후 참가자들에게 감정적으로 중립적인 작업(예: 전역/지역 처리 작업; ToH 퍼즐)을 완료하도록 한 많은 연구들에 주목해야 한다.
Finally, we think it is worth explicitly reinforcing just how powerful emotions can be. The mood induction procedures that we have described in this review are quite minimal. If a brief film clip has an effect, how much more dramatic might the change be after a more extreme experience, like those common in medical training and care? That being said, it is important to note that many of the studies that we discussed induced emotional states and then had participants complete emotionally neutral tasks (e.g., global/ local processing tasks; ToH puzzle).
훈련생들이 학습 환경에 가져오는
내생적 정서 상태(즉, 스트레스, 긴장, 흥분)
특정 학습 사건에 대응하여 발생하는 감정 상태(즉, 첫 삽관 수행과 관련된 스트레스, 유아의 탄생을 관찰함으로써 유발되는 흥분)
...를 구별할 가치가 있을 수 있다.
It may be worth differentiating between
endogenous emotional states that trainees bring into a learning environment (i.e., stress, nervousness, excitement) and
the emotional states that are brought about in response to specific learning events (i.e., stress associated with performing one’s first intubation, excitement induced by observing the birth of a infant).
우리가 검토한 문헌들은 개인의 감정 상태가 학습/전이 사건과 얼마나 연관되어 있는지가 얼마나 중요한지에 대해 우리에게 알려주지 않았다. 의료 환경에서 두 사례가 모두 잠재적으로 높은 유행률을 보인다는 점을 고려할 때, 내인성 및 외인성 정서 경험의 구별은 의료 교육의 맥락에서 특히 중요할 수 있다.
The literature that we reviewed did not inform us about the extent to which it matters whether an individual’s emotional state is tied to the learning/transfer event. The distinction between endogenous and exogenous emotional experiences may be particularly important in the context of medical education, given the potentially high prevalence of both instances in health care settings.1
향후 연구를 위한 권고사항 Recommendations for future research
오히려 의과대학 시절뿐만 아니라 경력 전반에 걸쳐 경험했던 감정들이 의료전문가와 연수생들의 높은 수준의 수행 능력에 상당한 영향을 미칠 수 있다. 보렐-캐리오와 엡스타인65가 최근 밝힌 것처럼 "의사들이 임상 상황에서 더 잘 기능할 수 있도록 정서적 자기 인식과 주의력 자기 조절을 습관화 할 수 있다"고 밝혔다.
Rather, the emotions experienced not only during medical school but throughout one’s career may have a significant impact on health care professionals and trainees’ capacity to perform at a high level. As Borrell-Carrió and Epstein65 recently stated, “emotional self-awareness and self-regulation of attention can be consciously cultivated as habits to help physicians function better in clinical situations.”
Acad Med. 2012 Oct;87(10):1316-22.
doi: 10.1097/ACM.0b013e3182675af2.
The role of emotion in the learning and transfer of clinical skills and knowledge
1Centre for Health Education Scholarship, University of British Columbia Faculty of Medicine, Vancouver, British Columbia, Canada. meghan.mcconnell@ubc.ca
Purpose:Medical school and residency are emotional experiences for trainees. Most research examining emotion in medicine has focused on negative moods associated with physician burnout and poor quality of life. However, positive emotional states also may have important influences on student learning and performance. The authors present a review of the literature on the influence of emotion on cognition, specifically how individuals learn complex skills and knowledge and how they transfer that information to new scenarios.Results:The authors found articles that show that emotion influences various cognitive processes that are involved in the acquisition and transfer of knowledge and skills. More specifically, emotion influences how individuals identify and perceive information, how they interpret it, and how they act on the information available in learning and practice situations.
Conclusions:There are many ways in which emotions may influence medical education. Researchers must further explore the implications of these findings to ensure that learning is not treated simply as a rational, mechanistic process but that trainees are effectively prepared to perform under a wide range of emotional conditions.
Method:From September 2011 to February 2012, the authors searched Medline, PsycInfo, GoogleScholar, ERIC, and Web of Science, as well as the reference lists of relevant articles, for research on the interaction between emotion, learning, and knowledge transfer. They extracted representative themes and noted particularly relevant empirical findings.
When I say . . . 젠더 (Med Educ, 2019) When i say . . . gender Alice Cavanagh1,2
최근에 방문 진료 대합실에서 서류 뭉치를 들고 나와 보니 예상외로 어려운 질문에 직면하게 되었습니다. '현재 주소'와 '약물 알레르기' 사이에 끼어 있는 것은 저의 '생물학적 성별/성별'을 제공하라는 요청이었습니다. 'Circle One: M/F/기타/대답 안 함' 옵션은 내가 식별한 성별에 대해 묻거나 내 옷차림과 행동으로 표현하는지를 묻는 질문에 답변하기 위한 시도를 방해했습니다. 내 성별에 대해서? 어떻게 정의해야 할까? 호르몬, 염색체, 생식기? Presented, recently, with a sheaf of forms in a walk-in clinic waiting room, I found myself faced with an unexpectedly challenging question. Wedged between ‘Current Address’ and ‘Medication Allergies’ was a request to provide my ‘Biological Gender/Sex’. The options – ‘Circle One: M/F/Other/Prefer Not to Answer’ – stymied my attempts to answer: were they asking about the gender I identify with or that I express with my dress and behaviour? About my sex? In that case – defined how? By hormones, by chromosomes, by genitals?
건강과 건강 관리에 관한 한, gender과 sex이 모두 매우 중요하다는 것이 밝혀졌습니다. When it comes to health and health care, it turns out that gender and sex both matter – a lot.
젠더Gender는 '남성' 또는 '여성'으로 생각되는 행동과 표현 방식에 의해 대표되는 사회적 역할로서, 우리가 노출되는 건강 해악, 의료 제공자와의 의사소통 방식, 의료 참여에 대한 접근 방식을 규범적으로 형성한다.1
섹스Sex 은 '남성' 또는 '여성'으로 특징지어지는 다른 이형적 생물학적 특징들을 포함하며, 그들이 제시할 수 있는 무수한 다른 방법들과 함께 우리 몸을 구성하는 구조, 호르몬, 염색체를 가리킨다.
Gender – a social role typified by behaviours and ways of presenting thought of as ‘masculine’ and/ or ‘feminine’ – normatively shapes health harms we are exposed to, our ways of communicating with care providers, and the approaches we take to participating in health care.1
Sex – encompassing different dimorphic biological features characterised as ‘male’ or ‘female’– refers to the structures, hormones and chromosomes that compose our bodies, along with myriad different ways they can present.
'Gender는 귀 사이에 있고 Sex은 다리 사이에 있다'는 격언은 이러한 구별을 도입하기 위해 사용되는 하나의 일반적인 속어이다. 겉보기에는 용어가 분명하고 경계가 뚜렷하지만, 과연 그럴까?
The adage that ‘gender is between your ears and sex is between your legs’ is one common (and contested) shorthand used to introduce this distinction. Seemingly, the terms are clear and the boundaries distinct but are they really?
'섹스'과 '젠더'이라는 용어에 대한 혼란은 클리닉, 의료 교실 및 사회 전반에서 일반적이다. 임상적 가이드라인에 따르면, 에스트로겐을 통한 고혈압에서 여성 성별의 보호 효과와 문제 음주 행동 선별에서 남성성의 중요성을 설명한다.2 의학 교육에서 ['젠더 의학' 운동]은 지금껏 의학 교과서에 규범적으로 (백인) 남성의 삽화를 사용해온 것에 대응하여 '여성 신체'의 이미지를 포함시키는 것을 지지한다.1 이러한 각각의 예에서, 언어는 [섹스와 젠더에 대한 생각을 흐리게] 하고, 궁극적으로 [신체와 행동이 일치하는 방식에 직선을 긋는 결정론자들의 담론]에 기여한다.
Confusion around the terms ‘sex’ and ‘gender’ is common in the clinic, the medical classroom and in society at large: clinical practice guidelines describe the protective effects of female gender in hypertension via oestrogen and the importance of male sex in screening for problem drinking behaviour.2 In medical education, the movement for ‘gender medicine’ advocates for the inclusion of images of ‘female bodies’ in response to the normative use of illustrations of (white) men in medical textbooks.1 In each of these examples, language is used that blurs ideas of sex and gender, ultimately contributing to determinist discourses that draw a straight line between how bodies and behaviours align.
이것은 모든 사람들에게 여파를 미친다: 남성들이 아이를 양육하는 능력이 떨어지거나 호르몬의 불안정성이 여성을 나쁜 의사 결정자로 만든다는 주장의 사회적, 정치적 파장을 고려하라. 그러나 이러한 사고방식은 [젠더 정체성]이 [출생 시 적용되는 섹스에 따른 젠더]가 서로 동일하지 않은 트랜스 및 non-binary people에게 더 큰 위험이 된다. 이러한 사람들에게 있어서, [성별의 제도화된 측면]은 사회적 규범, 문화적 관행 및 물리적 공간뿐 아니라 의료 및 그 이상에서 분명히 [차별적인 태도와 정책]으로서 [신체적, 정신적 건강과 웰빙에 가해지는 치명적 손실]이다. This comes with consequences for all people: consider the social and political ramifications of the assertion that men are less capable of nurturing children or that hormonal instability makes women bad decision makers. This way of thinking poses particular risks, however, for trans and non-binary people, whose gender identity diverges from the gender normatively associated with the sex designation applied to them at birth. For these people, institutionalised aspects of gender – gendered social norms, cultural practices and physical spaces, as well as explicitly discriminatory attitudes and policies in health care and beyond – exact gruelling tolls paid in physical and mental health and well-being.
궁극적으로 [섹스와 젠더에 대한 관념의 흐릿한 경계]를 무시할 수 없는 존재로 여기는 것은, (비록 이러한 더 큰 체계적 과제를 해결하기에 불충분하더라도), 젠더 부적합자gender non-conforming people를 돌볼 수 있는 의사 양성에 필요한 부분이다.
Ultimately, reckoning with blurry boundaries between ideas of gender and sex is insufficient to address these larger systemic challenges, but is a necessary part of training physicians who are capable of caring for gender non-conforming people.
의대생들이 [젠더와 섹스에 대해 더 정교한 어휘를 갖도록 훈련시키는 것] 또한 트랜스 및 비 바이너리 사람들을 돌보는 맥락을 넘어서는 의미를 갖는다. 예를 들어, 골다공증을 생각할 때 때, [젠더 영향]을 고려하는 의학 학습자는 골다공증이 에스트로겐 생산의 감소로 인한 '여성병woman's disease'이라는 [기존의 아이디어에 대하여 생각이 복잡해질 것]이다. 그들은 [뼈 리모델링의 생리학적 과정]이 [어떻게 행동과 신체에 대한 젠더적 아이디어]에 의해 깊이 형성된 식이요법, 운동 그리고 기계적 스트레스의 패턴의 산물인지 배울 수 있다. 비록 행동과 생물학이 뼈에 미치는 구체적인 영향을 깔끔하게 나누는 것은 불가능할 수 있지만, 학생들이 이 상호작용과 씨름하도록 하는 초청은 비판적인 성찰의 기회를 향해 더 나아가기 위한 제스처입니다. Training medical students to deploy a more nuanced vocabulary around sex and gender also has implications that extend beyond the context of caring for trans and non-binary people. Considering osteoporosis, for instance, a medical learner accounting for gender effects would complicate conventional thinking about osteoporosis as a ‘woman’s disease’ driven by declines in oestrogen production; they might learn how physiological processes of bone remodelling are also a product of patterns of diet, exercise and mechanical stress that are profoundly shaped by gendered ideas about behaviour and bodies.3 Although neatly dividing the specific influences of behaviour and biology on bones might prove impossible, the invitation to students to grapple with this interplay gestures towards further opportunities for critical reflection.
의학 교육에서 '성'에 대해 이야기할 때 [세계와의 신체접촉에 대한 대화]를 시작하여, [건강과 질병의 사회적, 생물학적 기초에 대한 비판적 탐구 공간을 만들 것]을 제안한다. 보다 정확한 언어를 찾기 위해 ['생물학적 젠더/섹스'을 풀어내는 것]은 인종, 성, 장애, 연령을 포함한 사회적 정체성의 다른 축을 중심으로 문화와 생물학에 대한 대화의 문을 열어주는 역할을 할 것이다. 또한 이는 의학 학습자들에게 [인간의 건강을 형성하는 데 있어 사회적 범주가 미치는 광범위한 효과]를 무시할 수없는 존재로 여기는 광범위한 개념 체계(사회 구성주의)를 도입할 것이다. [젠더와 섹스에 대해 이야기하는 것]은 학습자들이 여성과 남성에게 심장마비를 다르게 경험한다는 가르침에 의문을 품게 하고, 생물 의학 지식의 다른 측면의 기초가 되는 생물학과 문화의 상호작용을 풀어나가도록 한다.
I suggest that when we talk about ‘gender’ in medical education, we start a conversation about the interface of bodies with the world, creating space for critical inquiry into the social and biological basis of health and illness. Untangling ‘biological gender/sex’ in search of more precise language serves as a gateway to dialogues about culture and biology around other axes of social identity, including race, sexuality, (dis)ability and age; it also introduces medical learners to a widereaching conceptual framework – social constructionism – for reckoning with the pervasive effects of social categories in shaping population health. Talking about gender and sex propels learners to question the teaching that women experience heart attacks differently to men and to try untangling the interplay of biology and culture that underlies other aspects of biomedical knowledge.4
의대생들에게 성별에 대해 이야기하도록 하는 것은 또한 [사회적 정체성]이 (전문적 노동의 분할과 직업 기회의 접근을 포함하여) [보건과 의료의 다른 측면을 어떻게 구조화하는지] 강조하는 데 도움이 될 수 있다. 의학의 '성 주류화gender mainstreaming' 캠페인은 의학 커리큘럼과 의학의 모든 측면에서 젠더에 대한 고려사항을 포함시키려 했지만, 더 많은 여성을 입학시켜서 의학의 '여성화feminising'라는 목표를 가지고 직업적 성평등을 자주 conflate한다는 비판을 받아왔다. 비록 이 운동이 일부 여성들의 의료계 진출을 돕는데 성공했지만, 비평가들은 이 운동이 인종을 포함한 성별과 교차하는 정체성의 다른 측면과 관련된 직업적 소외를 해결하는데 충분하지 않았다고 주장한다. 젠더와 섹스가 건강관리와 건강을 형성하는데 중요한 요소이지만 그 자체로 완전한 이야기는 하지 않는다.
Asking medical students to talk about gender can also help highlight how social identity structures other aspects of health and health care, including professional divisions of labour and access to career opportunities. Campaigns for ‘gender mainstreaming’ in medicine have attempted to embed considerations of gender into all aspects of medical curricula and medicine, but have been critiqued for frequently conflating professional gender equity with the aim of ‘feminising’ medicine by admitting more women.5 Although this movement has been successful in helping some women enter the medical profession, critics argue that this push has not done enough to address professional marginalisation related to other aspects of identity that intersect with gender, including race. Although gender and sex are important factors in shaping health care and health, neither in itself tells a complete story.
Bleakley A. Gender matters in medical education. Med Educ 2013;47 (1):59–70.
여자지원자가 남자지원자보다 MMI 점수가 더 높은가? 캘거리 대학 결과(Acad Med, 2017) Are Female Applicants Rated Higher Than Males on the Multiple Mini-Interview? Findings From the University of Calgary Marshall Ross, MD, Ian Walker, MD, Lara Cooke, MD, MSc, Maitreyi Raman, MD, MSc, Pietro Ravani, MD, PhD, Sylvain Coderre, MD, MSc, and Kevin McLaughlin, MBChB, PhD
의대에 입학하는 학생의 약 95%가 궁극적으로 졸업하기 때문에, 의대 입학 과정은 많은 사람들에게 의대 진로를 위한 "이상적인" 지원자를 선택할 수 있는 최선의 (그리고 아마도 유일한) 기회로 여겨진다.1,2 지원자들에게 면접 과정은 삶의 결정적 순간일 수 있으며, 이는 주어진 지원자가 동료들보다 CanMED-proficient한 의사로 성숙할 가능성이 더 높은지 예측하는 것이기 때문에 선발 과정에 참여하는 우리 중 누구에게나 큰 부담이 될 수 있습니다. 그러한 예측은 어렵고 부정확하기로 악명 높지만, 사회가 의사를 필요로 하기 때문에 (또한 의과대학에 지원한 지원자가 채용 가능한 숫자보다 훨씬 많기에) 우리는 의사 선발 과정이 필요하며 가능한 한 신뢰할 수 있고 타당하며 "공정"하게 만들기 위해 노력해야 합니다.
Since approximately 95% of students entering medical school will ultimately graduate, the medical school admissions process is considered by many as our best (and perhaps only) opportunity to select the “ideal” candidates for a career in medicine.1,2 For applicants, the interview process may be a life-defining moment, a fact that weighs heavily on those of us involved in the selection process as we try to predict whether a given applicant is more likely to mature into a CanMEDS- proficient physician than his or her peers.3 Such predictions are notoriously difficult and inaccurate,4,5 but because society needs physicians—and there are many more applicants to medical school than positions available—we need a selection process and must strive to make this as reliable, valid, and “fair” as possible.
대부분의 의과대학은 이전의 학업성취도 및 비학업적 특성의 지표를 평가하는 shor-listing 과정 외에도, 미래의 의사와 관련이 있을 수 있는 다른 속성을 평가하기 위한 형태의 인터뷰도 사용한다. 과거에는, 각 후보자에 대해 단일 인터뷰를 실시하는 선정 위원회가 필요했으며, 그 구체적인 방법(위원회의 구성, 논의되는 내용, 인터뷰의 구조화 정도, 최종 합격자를 뽑는 과정)에는 여러 기관 내 및 여러 기관 간 상당한 차이가 있었습니다. 그리고 이러한 접근방식은 편리했지만, 단일 면접의 제한된 범위와 면접관에 기인하는 점수차이의 비율을 고려할 때 이 과정의 [공정성에 대한 우려]가 제기되었다.
In addition to a short-listing process that rates indicators of prior academic performance and nonacademic attributes, most medical schools also use some form of interview to assess other attributes that may be relevant for future physicians. Historically, this involved a selection committee conducting a single interview of each candidate, and there was often significant variation—both within and between centers—in the makeup of committees, the content discussed, the degree of structure of the interviews, and the process of selecting the best candidates.6,7 And, although this approach was convenient, concerns arose about the fairness of this process given the limited scope of a single interview and the proportion of variance in scores attributable to the interviewers.8,9
의대 입학 과정에 MMI를 포함함으로써 지원자들은 기존의 면접 형식보다 더 신뢰성이 높고, 더 수용 가능하며, 덜 의존적이며, 미래 성과를 더 예측하는 것으로 보이는 선발 과정이 이루어졌다. MMI의 타당성과 차원성에 대한 지속적인 우려에도 불구하고, 이러한 인상적인 연구 결과는 북미, 유럽 및 호주의 많은 의과대학에서 MMI를 선발 과정에 포함시키는 것을 촉진했습니다. 그러나 모든 변화는 [의료계의 인구학적 특성을 바꾸는 것]과 같은 의도하지 않은 결과의 가능성을 수반한다. The inclusion of the MMI to the medical school admissions process has resulted in a selection process that appears to be more reliable,10,14–16 more acceptable to applicants,13,14 less rater dependent,10 and more predictive of future performance than the traditional interview format.14,15,17,18 Despite ongoing concerns regarding the validity and dimensionality of the MMI,14,19 these impressive findings have fomented the incorporation of the MMI into the selection process in many medical schools in North America, Europe, and Australia.11–13 Yet every change carries the possibility of unintended outcomes, such as changing the demographic characteristics of the medical profession.
예를 들어, 이 기술을 신뢰성 있게 평가할 수 있는 순간, 일반적으로 여성이 남성보다 높은 평가를 받기 때문에, 의사소통이 수반되는 업무에 대한 지원자의 성과를 평가할 때마다 여성이 남성보다 더 높은 성과를 낼 것이라고 예측할 수 있다. McMaster에서 MMI를 처음 시험했을 때 이 초기 연구의 표본 크기가 상대적으로 작았지만(n = 117) 신청자 성별과 MMI 등급 사이에는 유의한 연관성이 없었다. 후속 연구에서도 여성 지원자와 남성 지원자의 등급 차이는 없다고 보고했지만, 다시 한 번 이러한 연구의 표본 크기는 작았고, 남성 지원자도 30명 미만인 경우가 많았다. For example, because females are typically rated higher than males in communication as soon as this skill can be reliably assessed,20 one might predict that females would outperform males whenever we assess the performance of applicants on tasks that involve communication.21,22 When the MMI was first piloted at McMaster there was no significant association between applicant gender and MMI ratings, although the sample size in this initial study was relatively small (n = 117).10 Subsequent studies also reported no difference in ratings of female and male applicants,23–26 although, once again, the sample size in these studies was small, with studies often including fewer than 30 male applicants.24–26
캘거리 커밍 의과대학에서 MMI를 소개할 때, 브라우넬과 동료는 지원자와 면접관 모두의 의견으로 MMI가 "성 편견이 없었다"고 보고했고, 이후 연구에서도 이러한 결론이 도출되었다. 흥미롭게도 스코틀랜드의 한 센터에서 실시한 보다 최근의 연구에서 10개 스테이션 MMI가 신뢰할 수 있는 것으로 보고되었으며, 이 과정은 "모든 당사자가 수용할 수 있다" (후보와 평가자의 90% 이상이 공정성 진술에 동의하거나 강력하게 동의)고 하였다.
When introducing the MMI at the University of Calgary Cumming School of Medicine, Brownell and colleagues11 reported that, in the opinion of both applicants and interviewers, “the MMI was free of gender bias,” and this conclusion was also drawn in subsequent studies.15,16,25 Interestingly, in a more recent study from a single center in Scotland, a 10-station MMI was reported as reliable, and the process was “acceptable to all parties” (more than 90% of candidates and raters agreed or strongly agreed with a fairness statement).13
여기서는 여성 및 남성 지원자의 MMI 등급을 의과대학과 비교하고 MMI 등급이 지원자 순위에 미치는 영향을 탐색한 두 가지 연구를 설명합니다.
Here we describe two studies in which we compared MMI ratings for female and male applicants to our medical school, and explored the impact of MMI ratings on the ranking of applicants.
연구 1 Study 1
방법 Method
참여자 Participants.
재료 Materials.
절차 Procedures.
통계뿐석 Statistical analysis.
우리는 평균과 SD를 표준화된 평균 차이로 변환하고 효과 크기 계산을 위해 Hedges g를 사용했습니다.28 그런 다음 STATA 버전 11 통계 소프트웨어(STATA Corporation, College Station, 텍사스)를 사용하여 랜덤 효과 모델을 사용한 누적 메타 분석을 수행했다.
We converted means and SDs into standardized mean differences and used Hedges g for our effect size calculation.28 We then performed cumulative meta-analysis using the random-effect model, using STATA version 11 statistical software (STATA Corporation, College Station, Texas).
연구결과 Results of Study 1
고찰 Discussion of Study 1
우리의 연구 결과는 MMI에서 여성이 남성보다 높은 평가를 받고 있음을 시사한다. 시간이 지남에 따라 [표준화된 평균 차이]가 변한다는 것은 2012년에 이러한 결론을 도출하기에 충분한 데이터가 있었다는 것을 의미하며 후속 데이터를 추가하면 이러한 결과를 더 정확하게 확인할 수 있다는 것을 의미한다. Our findings suggest that at our medical school, females are rated higher than males on the MMI. The change in the standardized mean difference over time implies that there were sufficient data to draw this conclusion in 2012 and that the addition of subsequent data simply confirms this finding with greater precision.
연구 2 Study 2
방법 Method
참여자 Participants.
재료 Materials.
본 연구에 사용된 데이터는 본 의과대학의 입학 전형 과정의 일환으로 전진적으로 수집되었습니다. 이러한 데이터에는 지원자 파일의 등급과 후속 MMI 등급이 포함되었습니다. 지원자의 파일 데이터에는 이력서, 학력(학부 성적 평균[GPA]), 적성 시험 성적(MCAT]), 추천서 등이 포함되어 있었다. 또한 지원자의 성별과 나이를 기록했으며, 각 MMI 방송국별로 면접관의 성별과, 면접관이 수습생인지 여부를 기록했습니다. MMI의 12개 스테이션 각각에 대해 우리가 평가하고자 하는 단일 속성이 있었으며, 대상 속성의 전체 목록은 다음과 같았다.
갈등 관리/통신
학습에 대한 태도
피드백에 대한 반응성.
의사결정 능력/데이터 해석
연구 윤리
의사소통 기술,
문화적 역량
공감;
시각적 관찰 및 창의적 사고
자원 관리/프로젝트 계획;
정직과 진실,
오류 공개
The data used for this study were collected prospectively as part of our admissions selection process. These data included ratings of applicants’ files and subsequent MMI ratings. Applicants’ file data included their curriculum vitae, academic record (undergraduate grade point average [GPA]), performance on an aptitude test (Medical College Admission Test [MCAT]), and letters of reference. We also noted the gender and age of applicants, and for each MMI station we noted the gender of the interviewer and whether the interviewer was a trainee. For each of the 12 stations on the MMI there was a single attribute that we intended to assess, and the complete list of target attributes was as follows:
conflict management/communication;
attitude towards learning;
responsiveness to feedback;
decision-making ability/data interpretation;
research ethics;
communication skills;
cultural competency;
empathy;
visual observation and creative thinking;
resource management/project planning;
honesty and integrity; and
disclosure of error.
MMI에 대한 성과는 체크리스트와 전지구적인 평가 척도를 조합하여 평가되었으며, 이는 주어진 관측소에 대한 최종 평가에도 동일하게 기여하였다. Performance on the MMI was rated using a combination of a checklist and a global rating scale, which then contributed equally to the final rating for a given station.
절차 Procedures.
각 지원자의 파일은 7개 CanMED 역량을 나타내려는 7개 영역에 대해 주관적인 점수를 제공한 60명의 패널로부터 4명의 독립 검토자에 의해 검토되었다.3 예를 들어, 학업 성적은 전문가 역할의 일부로 평가되었고, 관리자 역할을 평가할 때 리더십 경험이 고려되었습니다. 그런 다음, 파일 검토 점수는 다음과 같은 가중치를 사용하여 작성되었다: 7개의 CanMED 역량을 나타내는 각 도메인에 대해 10%, GPA에 대해 20%, MCAT의 구두 추론 구성요소에 대해 10%이다. 평균 파일 검토 점수를 기준으로 지원자의 순위를 매기고 상위 526명의 지원자를 MMI에 초대했습니다. MMI 스테이션은 7분이며 단일 면접관이 평가했습니다. Each applicant’s file was reviewed by 4 independent reviewers, from a panel of 60, who provided subjective scores for seven domains that were intended to represent the seven CanMEDS competencies.3 For example, academic record was rated as part of the Expert Role, and leadership experience was considered when rating the Manager Role. The file review scores were then compiled using the following weighting: 10% for each of the domains representing the seven CanMEDS competencies, 20% for GPA, and 10% for the verbal reasoning component of the MCAT. We ranked applicants based on mean file review scores and invited the top 526 applicants to attend our MMI. Our MMI stations were seven minutes long and were rated by a single interviewer.
통계 분석 Statistical analysis.
여성 및 남성 지원자에 대한 MMI 등급을 비교하기 위해 Cohen d와 함께 독립 표본 t 검정을 효과 크기 측정값으로 사용했습니다. 다른 잠재적 설명 변수에 대한 조정 후 신청자 성별과 MMI 등급 간의 연관성을 연구하기 위해 다중 선형 회귀 분석을 수행했다.
지원자의 나이,
내신,
MCAT 점수(언어 추론, 물리, 생물)
면접관의 성별, 그리고
면접관이 훈련생(의대생 또는 레지던트)이었는지 여부.
To compare MMI ratings for female and male applicants, we used an independent-sample t test with Cohen d as our measure of effect size. We performed multiple linear regression to study the association between applicant gender and MMI ratings after adjustment for other potential explanatory variables:
applicant’s age,
GPA,
MCAT score (for verbal reasoning, physical sciences, and biological sciences),
interviewer’s gender, and
whether the interviewer was a trainee (medical student or resident).
우리는 회귀 모형에 지원자와 면접관 변수 간의 교호작용을 포함시키고 교호작용 항부터 시작하여 유의하지 않은 설명 변수를 제거하기 위해 후진 제거를 수행했습니다.
We included interactions between applicant and interviewer variables in our regression model and performed backward elimination to remove nonsignificant explanatory variables, beginning with interaction terms.
MMI 등급에 부여된 가중치가 의과대학원 직책을 제안받을 확률에 미치는 영향을 조사하기 위해, 각 지원자에 대한 파일 검토 점수와 MMI 등급을 결합한 민감도 분석을 수행했다. To explore the impact of the weighting given to the MMI rating on the odds of female applicants being offered a medical school position, we performed a sensitivity analysis where we combined file review scores and MMI ratings for each applicant.
결과 Results of Study 2
여성 신청자와 남성 신청자에 대한 평균 MMI 등급은 각각 6.60 (SD 1.75)과 6.34 (SD 1.88)이었다 (P = 0.01, d = 0.14). 지원자와 면접관의 성별(P =.94) 간의 상호작용을 포함하여 우리의 회귀 모델에서 상호작용은 없었지만, 지원자의 성별, 지원자의 나이, 면접관의 지위(연수생 대 비훈련생), 언어 추론 및 생물 과학에 대한 MCAT 점수는 MMI 등급과 관련이 있었다. 다른 변수에 대해 조정한 후에도 여성 신청자와 MMI 등급 사이에는 유의한 양의 연관성이 있었습니다(회귀 계수 0.23, 95% CI [0.14, 0.33, P < 0.001]). 이러한 데이터는 표 1에 나와 있습니다. The mean MMI rating for female and male applicants was 6.60 (SD 1.75) and 6.34 (SD 1.88), respectively (P < .01, d = 0.14). There were no interactions in our regression model, including no interaction between gender of applicant and interviewer (P = .94), but applicant’s gender, applicant’s age, interviewer’s status (trainee vs. nontrainee), and MCAT scores for verbal reasoning and biological science were associated with MMI rating. After adjusting for other variables, there was still a significant positive association between being a female applicant and MMI rating (regression coefficient 0.23, 95% CI [0.14, 0.33], P < .001). These data are shown in Table 1.
민감도 분석에서, 서류점수 검토만을 기반으로 한 상위 150명의 지원자의 성별 구분(즉, MMI 등급이 전체 지원자 점수에 기여하지 않은 경우)이 원래 지원자 코호트의 성별 구분과 크게 다르지 않다는 것을 발견했다. (지원자가 여성이었던 비율 1.32; 95% CI[0.92, 1.91] P =.11) MMI 등급에 부여된 가중치를 변화시킬 때, MMI 등급이 전체 점수의 10% 이상을 기여할 때마다, 여성 지원자가 남성 지원자보다 상위 150명 안에 들 확률이 상당히 높았다. 이러한 데이터는 그림 2에 나와 있습니다.
In our sensitivity analysis, we found that the gender breakdown of the top 150 applicants based solely on file review scores (i.e., when MMI rating did not contribute to overall applicant score) was not significantly different from that of the original application cohort (odds ratio of an applicant being female was 1.32; 95% CI [0.92, 1.91], P = .11). When varying the weight given to MMI rating, we found that whenever the MMI rating contributed 10% or more of the overall score, the odds of a female applicant being ranked in the top 150 students were significantly higher than for male applicants. These data are shown in Figure 2.
고찰 Discussion of Studies 1 and 2
만약 MMI에서 여성이 남성보다 높은 평가를 받는다면, 우리는 그 이유를 이해하려고 노력해야 한다. 우리는 MMI의 타당성에 대해 서로 다른 의미를 갖는 두 가지 가능한 설명을 제안할 것이다. 첫 번째는 MMI가 포착하려는 속성을 여성들이 더 잘 보여줄 가능성이 높다는 것이다. 일반적으로, 남성과 비교했을 때, 여성이 더 나은 의사소통 기술을 보일 때, 20-22는 비판적 사고의 특정 측면(예: 열린 마음, 성숙도)에서 더 높은 평가를 받고, 18,29 그리고 더 많은 윤리적 결정을 내린다.30,31 If females are rated higher than males on the MMI, then we should try to understand why. We would propose two possible explanations that have divergent implications for the validity of the MMI. The first is that females are more likely to demonstrate the attributes that the MMI is intended to capture. In general, when compared with males, females typically demonstrate better communication skills,20–22 are rated higher on certain aspects of critical thinking (such as open-mindedness and maturity),18,29 and make more ethical decisions.30,31
이러한 업무에서 여성이 남성보다 높은 성과를 낼 것으로 예상하기 때문에, MMI에서 여성이 남성보다 높은 등급을 받는다는 사실이 [MMI의 타당성 원천]이라고 주장할 수 있다. 그러나 또 다른 설명으로 가능한 것은 여성이 의사소통, 비판적 사고, 윤리적인 모습을 [더 잘할 것으로 기대하기 때문에] MMI에서 더 높은 평가를 받는다는 것이다. 만약에 후자의 경우라면, 여성은 MMI 점수의 타당성을 감소시키는 편견의 일종인 [관찰자 기대]의 결과로 더 높은 등급을 받은 것이다.
Because we expect females to outperform males on these tasks, one could argue that the fact that females are rated higher than males on the MMI is a source of validity for the MMI.32 However, the alternative explanation is that females are rated higher on the MMI because we expect them to be better at communication, critical thinking, and ethical decision making. In this scenario, females are rated higher as a result of observer expectancy, a type of bias that would reduce the validity of MMI ratings.
[관찰자 기대] 또는 [확증 편향(또는 "자기 충족 예언"33)]은 기존의 신념이 이러한 기존 신념을 뒷받침하는 방식으로 데이터의 해석에 무의식적으로 영향을 미치는 과정을 말하며, 심리학 문헌에는 관찰자 기대 편향의 예가 많다.36
예를 들어, 근지구력 과제에서 남성과 여성의 성과를 평가해 달라고 요청했을 때, 남녀 대학생 모두 남성의 성과를 과대평가하고 여성의 성과를 과소평가하는 경향이 있었다.
동영상에서 남성과 여성의 웃는 정도를 평가해 달라는 질문에 심리학과 학생들은 남성에 비해 여성의 웃는 모습을 과대평가했다.
Observer expectancy or confirmation bias (also referred to as “self-fulfilling prophecy”33) refers to a process where preexisting beliefs subconsciously influence interpretation of data in a way that supports these preexisting beliefs,34,35 and there are many examples of observer expectancy bias in the psychology literature.36
For example, when asked to rate the performance of males and females on a muscular endurance task, both male and female college students tended to overestimate the performance of males and underestimate the performance of females,37
whereas when asked to rate the amount of smiling of males and females on video clips, psychology students overestimated smiling of females relative to males.38
이러한 성별 기반 고정관념은 자동으로 생성되며 컴퓨터의 음성 출력이나 가상 인간의 인식된 성별과 같은 미묘한 조작에 의해 유발될 수 있습니다. [관찰자의 기대]는 대체로 잠재의식 수준에 존재하는 것이므로, 감지하기 어렵고 마찬가지로 억제하기도 어려울 수 있습니다. —특히 관측자에게 8분 MMI 관측소와 같이, 노출이 제한된 상황에서, ill-defined 구인에 대한 평정을 해야 하는 경우 그렇다.
These gender-based stereotypes are generated automatically and can be triggered by subtle manipulations, such as altering the voice output of computers or perceived gender of virtual humans.39,40 Being largely subconscious, observer expectancy may be difficult to detect and equally difficult to suppress—especially when observers are asked to rate ill- defined constructs based upon limited exposure, such as an eight-minute MMI station.41–43
MMI(또는 다른 데이터 출처)의 포함이 의대 입학에서 성비 불균형을 야기하는지 우려해야 하는가? 이 질문에 대한 답은 취해진 관점에 따라 달라지며, 우리는 의과대학 입학 과정에 변화가 미치는 영향을 판단할 수 있는 가장 의미 있는 방법으로 [환자 중심의 결과]를 제안할 것이다. 선발 과정의 변화를 통해서 양질의 의료 서비스를 제공하는 인력이 양성된다면, 성별 불균형이 허용될 수 있다. 심지어는 의료 서비스 제공 개선을 위하여 필요할 수도 있습니다. Should we be concerned if the inclusion of the MMI (or any other source of data) creates a gender imbalance in medical school admissions? The answer to this question depends on the perspective taken, and we would propose patient-centered outcomes as the most meaningful way to judge the impact of any change to the medical school admissions process. If changes to the selection process produce a workforce that delivers higher-quality health care, a gender imbalance may be acceptable— and may even be necessary to improve health care delivery.
그러나 동등하거나 더 나쁜 의료 결과로 성비 불균형을 초래하는 입학 과정은 용납될 수 없다. 이전의 연구들은 여성 의사들이 환자와 상호작용할 때 일반적으로 남성보다 더 큰 공감을 보이고 더 많은 긍정적인 진술을 사용하며, 이러한 유형의 의사소통은 더 나은 과거 데이터를 제공하고, 더 나은 만족도와 정신건강을 보고하고, 덜 사용하는 환자와 관련이 있다고 제안했다. 45–48 그러나 이러한 유형의 데이터는 어떤 유형의 입학 절차를 지원하는 직접적인 증거를 제공하지 않는다.
But an admissions process that creates a gender imbalance with equal or worse health care outcomes is unacceptable. Previous studies have suggested that female physicians typically demonstrate greater empathy and use more positive statements than males when interacting with their patients21,44 and that this type of communication is associated with patients providing better historical data, reporting enhanced satisfaction and psychosocial health, and using less health care resources.45–48 However, these types of data do not provide direct evidence in support of any type of admissions process.
그렇다면 선발 프로세스가 의료 결과에 미치는 영향을 어떻게 입증할 수 있는가? 의료 성과 개선을 목적으로 설계된 인터벤션은 지속적으로 도입되고 있으므로 선택 프로세스의 사전/사후 비교는 다른 개입으로 인하여 confound될 수 있다. 두 가지의 성발 과정을 종단적으로 추적하여 무작위 비교하는 것이 이상적이지만, 이러한 유형의 다중 센터 연구는 많은 의과대학에서 수용되거나 가능하지 않을 수 있다.
So, how can we demonstrate the impact of the selection process on health care outcomes? Interventions designed to improve health care outcomes are being implemented continuously, so a pre/post comparison of selection processes would be confounded by other interventions. A randomized comparison of different selection processes with longitudinal follow-up would be ideal, but this type of multicenter study may not be acceptable or feasible for many medical schools.
분명히 우리는 입학 과정이 측정 가능하고 의미 있는 결과에 미치는 영향을 입증하는 데 있어 중대한 도전에 직면해 있습니다.5 MMI가 보건의료 성과에 미치는 영향을 알지 못하면 MMI 등급의 성별 차이가 허용 가능한지 여부를 말할 수 없다. — 그러나 우리는 의과대학 입학에서 성 불균형의 기원을 MMI의 역사보다 훨씬 더 거슬러 올라갈 수 있다는 것을 알고 있다. 미국에서는 남성이 지속적으로 여성 졸업생 수를 앞섰다.49 1993-1994년(MMI가 나오기 10년 전) 이후, 캐나다에서는 지난 22년 동안 2년을 제외한 모든 기간에서 여학생이 남학생보다 많았다. 그 전 22년동안에는 반대로 여성은 늘 상대적으로 소수였다 50 이러한 성별 불균형의 이유와 의료 제공에 미치는 영향은 알려지지 않았지만, 추가 탐구할 가치가 있다.
Clearly, we face significant challenges in demonstrating the impact of the admissions process on outcomes that are both measurable and meaningful.5 Without knowing the impact of the MMI on health care outcomes, we cannot say whether gender differences in MMI ratings are acceptable or unacceptable— but we do know that the origins of gender imbalance in medical school admissions can be traced back much further than the history of the MMI. In the United States, males have consistently outnumbered female graduates.49 Since 1993–1994 (10 years before the description of the MMI), in Canada female students have outnumbered males in all but 2 years— after being consistently in the minority in the preceding 22 years.50 The reason for these gender imbalances and their impact on health care delivery are unknown, but are also worthy of further exploration.
결론 Conclusions
우리는 이것이 먼저 확인되고 설명되어야 할 중요한 발견이라고 생각합니다. 특히 MMI에서는 커뮤니케이션, 비판적 사고, 윤리적 의사결정 능력이 향상되어 여성 지원자를 선발하는 것인지, 아니면 추가 설명이 필요한 대안적 설명 때문에 여성 지원자를 더 높게 평가하는 것인지 알 필요가 있다.
We feel that this is an important finding that needs first to be confirmed and then explained. In particular, we need to know if we are selecting female applicants because during the MMI we observe better communication, critical thinking, and ethical decision-making skills, or if we rate female applicants higher because of alternative explanations that need to be further elucidated.
Acad Med. 2017 Jun;92(6):841-846.
doi: 10.1097/ACM.0000000000001466.
Are Female Applicants Rated Higher Than Males on the Multiple Mini-Interview? Findings From the University of Calgary
1M. Ross is a resident, Department of Emergency Medicine, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada. I. Walker is clinical associate professor, Department of Emergency Medicine, and director of admissions, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada. L. Cooke is associate professor, Department of Clinical Neurosciences, and associate dean of continuing medical education, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada. M. Raman is clinical associate professor, Department of Medicine, and associate director of admissions, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada. P. Ravani is professor, Department of Medicine, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada. S. Coderre is professor, Department of Medicine, and associate dean of undergraduate medical education, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada. K. McLaughlin is professor, Department of Medicine, and assistant dean of undergraduate medical education, Cumming School of Medicine, University of Calgary, Calgary, Alberta, Canada.
Purpose:The multiple mini-interview (MMI) improves reliability and validity of medical school interviews, and many schools have introduced this in an attempt to select individuals more skilled in communication, critical thinking, and ethical decision making. But every change in the admissions process may produce unintended consequences, such as changing intake demographics. In this article, two studies exploring gender differences in MMI ratings are reported.Results:Females were rated higher than male applicants (standardized mean difference 0.21, 95% CI [0.11, 0.30], P < .001). After adjusting for other explanatory variables, there was a positive association between female applicant and MMI rating (regression coefficient 0.23 [0.14, 0.33], P < .001). Increasing weight assigned to MMI ratings was associated with increased odds of females being ranked in the top 150 applicants.
Conclusions:In this single-center study, females were rated higher than males on the MMI, and the odds of a female applicant being offered a position increased as more weight was given to MMI ratings. Further studies are needed to confirm and explain gender differences in MMI ratings.
Method:Cumulative meta-analysis was used to compare MMI ratings for female and male applicants to the University of Calgary Cumming School of Medicine between 2010 and 2014. Multiple linear regression was then performed to explore gender differences in MMI ratings after adjusting for other variables, followed by a sensitivity analysis of the impact of varying the weight given to MMI ratings on the odds of females being ranked in the top 150 applicants for 2014.
Clinical Performance Evaluations of Third-Year Medical Students and Association With Student and Evaluator Gender Alison Riese, MD, MPH, Leah Rappaport, MD, Brian Alverson, MD, Sangshin Park, DVM, MPH, PhD, and Randal M. Rockney, MD
의대 졸업생을 레지던트 과정으로 선발하는 것은 여러 가지 요인에 의해 추진된다. 그러나 프로그램 책임자에 따르면 가장 중요한 선발 기준은 필수 핵심 임상실습의 성적이다.1 대부분의 핵심 임상 임상실습에서 의대생을 위한 평가 및 채점 도구로 임상 성과 평가(CPE)가 사용된다. 의대생들과 함께 일하는 임상의들은 지식 및 전문직업성은 물론, 병력 청취, 사례 발표 등 각 학생의 기본적인 임상 능력에 대한 공식적인 평가를 완료해야 한다. 대부분의 임상실습에서 이러한 평가는 표준화된 서면 검사 및 객관적인 구조화 임상 검사(OSCE)와 함께 학생들의 최종 임상실습 성적이 결정되는 데이터를 제공합니다. Selection of graduating medical students into residency programs is driven by multiple factors. However, according to program directors, the most important selection criteria are students’ grades on required core clerkships.1 Clinical performance evaluations (CPEs) are used in most core clinical clerkships as assessment and grading tools for medical students. Clinicians who work with medical students are asked to complete formal evaluations of each student’s basic clinical skills, such as history taking and case presentation, as well as fund of knowledge and professionalism. In most clerkships, these evaluations, along with standardized written examinations and objective structured clinical examinations (OSCEs), provide the data from which students’ final clerkship grades are determined.
의대에 입학하는 과정과 임상실습 이전학년에 걸쳐 발생하는 수많은 평가는 대체로 표준화되었으며, 평가자-의존적 편향을 보이지 않을 것 같다. 반면 임상실습 성과에 대해서는 보다 주관적인 방식으로 평가된다. The numerous evaluations that occur over the course of attaining entrance to medical school and during the preclinical years are largely standardized and unlikely to exhibit grader-dependent bias. In contrast, medical students are evaluated in a more subjective manner when being assessed on their clinical performance.
교육 분야의 문헌에 따르면, 학생의 성별은 종종 학생들을 대하고 점수를 매기는 데 있어 중요한 역할을 한다.5,6
초등학교에서는 비슷한 시험 점수에도 불구하고 여학생들이 남학생들보다 더 좋은 점수를 받게 되는데, 일부 연구자들은 이러한 점수를 "비인지적 기술"로 보고 있다. 구체적으로 말하자면, "배움에 대한 더 발전된 태도"입니다.
또한, 교사의 성별은 교육 역량과 성과에 대한 [기대와 인식]에 영향을 미칠 수 있습니다.
나아가, 연구들은 성별 짝짓기가 "역할 모델 효과"를 통해 학생들의 참여와 행동을 향상시킬 수 있다고 제안한다. 반대로 성별 불일치는 "고정관념 위협"을 유발할 수 있다. 부정적인 고정관념을 확인시켜줄 것 같은 불안감이 성능 저하로 이어질 수 있다.
Literature from the education field has shown that student gender often plays a role in how students are treated and graded.5,6
In primary schools, girls are awarded better grades than boys, despite similar test scores, which some researchers attribute to “noncognitive skills”—specifically, “a more developed attitude towards learning.”6
Additionally, teachers’ gender can affect their expectations and perceptions of educational competence and performance.7,8
Furthermore, studies9–11 suggest that gender pairing can enhance, through a “role-model effect,” student engagement and behavior, or, conversely, gender noncongruence may induce “stereotype threat,” in which anxiety that one will confirm a negative stereotype can lead to a decrement in performance.
일부 소규모 연구는 표준화된 환자(SP)에 의한 의대생들의 OSCE에 대한 임상 성과 시뮬레이션의 점수에서 학생과 평가자 성별 간의 상호작용을 제안했다. A few small studies12–14 have suggested an interaction between student and evaluator gender in the grading of medical students’ simulated clinical performance on OSCEs by standardized patients (SPs).
학생과 평가자의 성별에 대한 유사한 점수 차이가 nonsimulated 임상 환경에 대한 몇 가지 소규모 연구에서 발견되었다.
작은 연구결과, 남자 프리셉터가 여학생들에게 가장 높은 평균 점수를 매긴 것으로 나타났다. 그리고 가장 낮은 평균 점수는 여자 프리셉터가 남학생에게 준 점수였다.
내과 레지던트 평가 연구에서는, 남성 레지던트는 (여성 주치의보다) 남성 주치의에게서 더 높은 점수를 받았다.
반대로 산부인과 의대생 평가에 대한 연구 결과 여학생들이 필기시험과 OSCE에서 더 나은 성적을 보였지만, 교수에 의한 평가는 남학생들이 받은 점수와 비슷했다.
Similar disparities in grading regarding student and evaluator gender have been found in a few small studies of nonsimulated clinical settings.15,16
A small study showed that the highest mean grade was given by male preceptors to female students, and the lowest mean grade was given by female preceptors to male students.
In a study of evaluations of internal medicine residents, male residents received higher grades from male attendings than from female attendings.17
Conversely, a study of medical student grading in obstetrics– gynecology18 found that female students performed better on written exams and OSCEs; however, they were graded similarly to male students by their faculty evaluators.
임상등급 과제의 객관성을 높이기 위한 모든 노력의 첫 단계로, 평가자의 학생 임상성적 채점에 어떤 문제가 영향을 미치는지 충분히 이해할 필요가 있다.
As a first step in any effort to increase objectivity in clinical grade assignment, it is necessary to fully understand what issues influence evaluators’ grading of student clinical performance.
방법 Method
이것은 Alpert 의과대학(AMS)에서 시행된 후향적 연구였다. 2013-2014학년도 동안 3학년 핵심 임상실습에서 의과대학 채점 데이터베이스(OASIS)에 기록된 CPE 4,462개가 처음에 포함되었다. AMS에서 핵심 임상실습과 연구 기간 동안의 기간은 내과(12주)와 수술, 산부인과, 가정의학과, 소아과, 정신의학과(매 6주)로 구성되었다. This was a retrospective study conducted at the Alpert Medical School (AMS). All 4,462 CPEs recorded in the medical school’s grading database (OASIS) from third-year core clerkships during the 2013–2014 academic year were initially included. At AMS, the core clerkships and their duration during the study period consisted of internal medicine (12 weeks) and surgery, obstetrics– gynecology, family medicine, pediatrics, and psychiatry (each 6 weeks).
CPE 이수시점에 각 평가자가 선택할 수 있는 성적은 '특수', '기대 이상', '기대 미달', '기대 미달'이었다. 중복 항목이거나 일차 결과 또는 예측 변수에 대한 데이터가 불완전할 경우 평가는 제외되었습니다. 또한, "기대 미만" 등급의 CPE는 이 등급의 드문 발생(<1%) 때문에 제외되었다. The possible grades that could be selected by each evaluator completing a CPE were “exceptional,” “above expectations,” “meets expectations,” and “below expectations.” An evaluation was excluded if it was noted to be a duplicate entry or if data were incomplete for the primary outcome or predictor variables. Additionally, CPEs with a grade of “below expectations” were excluded because of the rare occurrence (< 1%) of this grade.
우리는 식별되지 않은 데이터를 제공받았기 때문에 객관적인 비임상 평가와 그 데이터를 일치시킬 수 없었다. 그러나 우리는 2015년 수업의 미국 의료면허시험(USMLE) 1단계 점수를 남성과 여성의 점수로 비교했다. Because we were provided deidentified data, we were not able to match those data with any objective nonclinical evaluations. However, we did compare the United States Medical Licensing Examination (USMLE) Step 1 scores for men versus women in the class of 2015.
모든 통계 분석은 SAS 9.4(SAS Institute, Carry, North Carolina)를 사용하여 수행되었다. P 값 ..05는 통계적으로 유의한 것으로 간주되었다. 이 연구에서는 카이-제곱 검정을 사용하여 최종 등급과 성별 및 공변량과의 연관성을 조사했습니다. 계층적 순서형 회귀 모형화는 학생과 평가자 특성이 학생의 성적에 미치는 영향("예외", "기대 이상", "기대 충족")을 조사하기 위해 수행되었으며, 둘 이상의 학생을 평가한 평가자의 비독립성 또는 "클러스터링"에 대해 조정되었습니다.
All statistical analyses were performed using SAS 9.4 (SAS Institute, Cary, North Carolina). A P value < .05 was considered to be statistically significant. This study examined the associations of final grade with gender and covariates using chi-square tests. Hierarchical ordinal regression modeling was conducted to examine the effects of student and evaluator characteristics on a student’s grade (“exceptional,” “above expectations,” or “meets expectations”), adjusting for nonindependence, or “clustering,” of evaluators who rated more than one student.
일변량 모형에서 P 값이 .05인 성별 및 공변량은 단계적 선택 절차에 의해 구축된 다중 변수 회귀 모형에 통합되었습니다. 잔차 분산을 유의하게 감소시킨 변수는 최종 모형에서 유지되었습니다. Gender and covariates with a P value < .05 in the univariable model were incorporated into a multivariable regression model, which was built by the stepwise selection procedure. Variables that significantly reduced residual variance were retained in the final model.
동시성을 피하기 위해 두 독립 변수에 대해 파이 계수를 추정했습니다. 변수 간의 높은 공리성이 관측된 경우(r > 0.6) 다중 변수 모형화에 대한 학생의 성적과 가장 관련된 변수를 선택했습니다. 가정의학과 정신의학 분야에서의 평가 횟수가 적기 때문에, 다변수 모델링을 위해 이러한 전문 분야의 데이터가 결합되었습니다. 주효과 모형을 만든 후 유의성에 대한 교호작용 항이 탐색되었습니다. To avoid colinearity, phi coefficients were estimated for two independent variables. If high colinearity among variables was observed (r > 0.6), we selected the most relevant variable to the student’s grade for multivariable modeling. Because of the small number of evaluations in family medicine and psychiatry, data from these specialties were combined for the multivariable modeling. After the main effects model was built, interaction terms were explored for significance.
결과 Results
따라서 최종 연구 데이터 세트는 4,272개의 CPE로 구성되었으며, 이는 155명의 학생의 성과와 관련하여 829명의 평가자가 완료하였다. 평균(SD) USMLE 단계(학생 및 평가자 통계는 표 1 참조) Thus, the final study dataset comprised 4,272 CPEs, which were completed by 829 evaluators regarding the performance of 155 students. The mean (SD) USMLE Step (See Table 1 for student and evaluator demographics.)
학생당 CPE 수(중간값 27, IQR 6–39)와 평가자당 CPE 수(중간값 3, IQR 1–7)에 변동이 있었다. 각 임상실습, 학생 및 평가자 특성은 받은 성적 분포에서 통계적으로 유의한 차이와 관련이 있었다. (표 2 참조) There was variability in the number of CPEs per student (median 27, IQR 6–39) and CPEs per evaluator (median 3, IQR 1–7). Each clerkship, student, and evaluator characteristic examined was associated with a statistically significant difference in the distribution of grades received. (See Table 2.)
단일 변수 모형에서는 모든 예측 변수가 등급과 연관되었습니다. 교수 연령과 교육 수준(파이 계수 0.84) 간의 상관관계가 높기 때문에 다변수 모형에는 평가자 연령만 고려되었습니다. 점수 변동의 총 32.9%는 다중 변수 모델에서 within-evaluator nesting of grades(내포 등급 상관 계수 = 0.329, P < 0.001)에 의해 설명되었다. 일변량 모형의 모든 유의한 차이는 다변량 모형에서 유지되었습니다. 다중 변수 모형에서 여학생 성별은 더 높은 성적과 연관되었습니다(수정 오즈비[AOR], 1.30; 95% CI, 1.13–1.50). 여성 교수진의 성별은 낮은 성적과 관련이 있었다(AOR, 0.72, 95% CI, 0.55–0.93). 관찰 시간이 길어진 것, 학생 연령이 높은 것, 평가자 연령이 낮은 것 모두 높은 성적과 관련이 있었다. 내과 평가자는 더 나은 점수를 줄 확률이 가장 높았고 산부인과 평가자는 가장 낮았다. (표 3 참조) In univariable models, all predictors were associated with the grade. Because of high correlation between faculty age and training level (phi coefficient 0.84), only evaluator age was considered for the multivariable model. A total of 32.9% of the variability in the grades was accounted for by within-evaluator nesting of grades in the multivariable model (intraclass correlation coefficient = 0.329; P < .001). All significant differences in the univariable models were retained in the multivariable model. In the multivariable model, female student gender was associated with higher grades (adjusted odds ratio [AOR], 1.30; 95% CI, 1.13–1.50). Female faculty gender was associated with lower grades (AOR, 0.72; 95% CI, 0.55–0.93). Longer observation time, older student age, and younger evaluator age were all associated with higher grades. Evaluators in internal medicine had the highest odds of giving a better grade, while those in obstetrics–gynecology had the lowest odds. (See Table 3.)
다른 모든 주효과에 대해 보정했을 때, [학생과 교수 성별 간의 교호작용]도 유의했습니다(P = 0.03; 그림 1 참조). 남성 평가자는 남학생과 여학생의 점수(P = .29)에서 큰 차이는 없었지만, 여성 평가자는 여학생에 비해 남학생에게 낮은 점수를 주었다(P <.001). The interaction between student and faculty gender, adjusted for all other main effects, was also significant (P = .03; see Figure 1). Male evaluators did not significantly differ in their grading of male and female students (P = .29); however, female evaluators gave lower grades to male students compared with female students (P < .001).
또한,[교수 연령과 교수 성별 간에 유의한 교호작용]이 발견되었으며(P = .047), 나이 든 남성 평가자는 젊은 남성(P = 0.001)에 비해 현저히 낮은 점수를 주었지만(P = .71) 여성 연령대의 성적 차이는 유의하지 않았다. (그림 2 참조). 학생 성별과 학생 연령 사이에는 교호작용이 없었습니다(P = .63). Additionally, a significant interaction between faculty age and faculty gender was found (P = .047), with older male evaluators giving significantly lower grades than younger men (P = .001), while there was no significant difference in grading for the female age groups (P = .71). (See Figure 2). There was no interaction between student gender and student age (P = .63).
고찰 Discussion
그러나, 우리의 연구 결과는 의대생과 의대생 사이의 임상실습 성적등급의 불일치discrepancy가 주로 여성 평가자에 의해 발생했음을 보여준다. However, our findings show that the discrepancy in clinical performance grades between male and female medical students was driven primarily by female evaluators.
의대생 임상성과에 대한 남녀 평가자의 평가 차이가 가장 복잡하다. 의대생들의 임상 성과는 의학적 지식과 임상 통찰력 이외의 속성에 의해 영향을 받는다. 실제로 두 연구에서 공감을 보인 의대생들이 임상평가에서 더 좋은 평가를 받았고, 여성이 남성보다 공감 척도에서 더 높은 점수를 받았다고 보고했다. The discrepancy between male and female evaluators’ assessment of medical students’ clinical performance is most perplexing. Medical students’ clinical performance is influenced by attributes outside of medical knowledge and clinical acumen. Indeed, two studies22,23 reported that medical students who showed empathy received better clinical evaluations, and women scored higher on empathy scales than men did.
임상환경에서 여성이 남성을 능가한다는 문헌의 본문을 적용한다면,
여성 평가자는 여학생에서 우수한 성적을 정확하게 검출한 반면
남성 평가자는 이러한 차이를 감지하지 못했거나 채점방식에 치우쳤다는 것을 알 수 있다.
If the body of literature showing that women outperform men in the clinical setting is applied, our findings suggest
that female evaluators accurately detected superior performance in their female students,
while male evaluators either were unable to detect these differences or were biased in their grading methods.
그러나 이번 연구 결과는 성별과 학업 성취도, 평가 간의 훨씬 더 복잡한 상호작용을 부각시킬 가능성이 높다. 초등교육계와 마찬가지로 여학생의 '학습 태도'도 한몫할 수 있고, 동성 평가자의 역할 모델 가능성과 이성 평가생의 고정관념적 위협도 있어 평가자의 성별에 따라 학생에게 영향을 미칠 수 있다. 또 다른 문제가 될 수 있는 것은 환자가 학생의 성별에 따라 의대생과 다르게 상호작용할 수 있다는 점이며, 이로 인해 의대생들의 성과 평가에도 영향을 미칠 수 있다는 점이다. However, it is likely that this finding highlights an even more complicated interplay between gender and academic performance and assessment. As in the primary education world, female students’ “learning attitude” may also play a role, as well as the possible role modeling of same-gender evaluators and the stereotype threat of opposite-gender graders, which may influence students to perform differently depending on the gender of their evaluators. Another potential complicating matter is that patients may interact differently with medical students depending on the student’s gender, which could also affect the assessment of their performance.
원인이 무엇이든 간에, 우리의 연구결과는 남녀 학생들이 각기 다른 임상성과를 경험하고 있으며, 평가자의 성별이 이러한 차이를 일으키는 독립적인 동인임을 시사하고 있다는 점에서 우려된다. Whatever the cause, it is concerning that our study findings suggest that male and female students experience different gradings of their clinical performances, and that the gender of the evaluator is an independent driver of this difference.
우리의 데이터는 또한 [평가자 연령과 성별 간에 유의한 상호작용]을 발견했으며, 젊은 남성 평가자가 모든 연령 그룹에서 나이 든 남성 평가자보다 높은 점수를 수여했다. 젊은 평가자들이 다른 연구에서 더 관대한 학년인 것으로 밝혀진 반면, 우리가 아는 바로는 연령-성별 상호작용은 다른 연구에서는 조사되지 않았기에, 이러한 발견은 추가적인 조사를 필요로 한다. 다시 한 번, 내적 평가자의 특성이 학생들의 차별성 평가를 초래했다는 점을 우려한다. 평가자들에 대한 훈련이 필요하거나, [평가자가 공정한 임상실습 점수를 줄 능력이 있는지]를 고려할 때 [평가자의 특성]을 고려해야 한다. Our data also found a significant interaction between evaluator age and gender, with younger male evaluators awarding higher grades than older male evaluators and than female evaluators in all age groups. While younger evaluators have been found to be more lenient graders in other studies,27,28 to our knowledge the age–gender interaction has not been examined elsewhere, and this finding warrants additional investigation. Again, it is concerning that intrinsic evaluator characteristics have led to differential grading of students. Either improved training of graders is needed, or the characteristics of the evaluators must be taken into account when considering their ability to give fair clerkship grades.
우리의 자료는 또한 우리 학교의 임상실습에서 [전공과목별로 평가등급에 상당한 차이]를 보여주는데, 이 결과는 다른 많은 학교에도 적용될 것이다. CPE에 대한 일관된 접근법을 제공하기 위해 이러한 가변성을 검사해야 한다. CPE를 살펴볼 때 학생들이 평가자와 함께 보내는 시간뿐만 아니라 서로 다른 핵심 임상실습의 구조와 기간의 차이를 고려해야 한다. Our data also demonstrate substantial differences in the way clerkship students are graded by department at our school, a finding that we suspect applies to many schools. This variability should be examined to provide a consistent approach to CPEs. Differences in the structure and duration of the different core clerkships, as well as the time students spend with evaluators, must be taken into consideration when looking at CPEs.
데이터 집합에서 개별 수준 데이터를 사용할 수 없기 때문에 임상 성과 등급을 표준화된 테스트 점수와 조정하거나 비교할 수 없었습니다. 또한, 우리는 성별 표현과 2013-2014년 의과대학에서의 성별 상호작용이 성별 관계와 세대 차이가 다른 방식으로 데이터를 왜곡할 수 있는 예년과 매우 다를 수 있다는 것을 인정한다.
We were not able to adjust for or compare clinical performance grades with standardized test scores, since the individual-level data were not available in our dataset. Further, we recognize that gender representation, and thus gender interactions at a medical school in 2013–2014, might be very different from what was obtained in previous years, when gender relationships and generational differences would perhaps skew data in other ways.
Acad Med. 2017 Jun;92(6):835-840.
doi: 10.1097/ACM.0000000000001565.
Clinical Performance Evaluations of Third-Year Medical Students and Association With Student and Evaluator Gender
1A. Riese is assistant professor, Department of Pediatrics and Medical Science, Section of Medical Education, Alpert Medical School of Brown University, Providence, Rhode Island.L. Rappaport is a first-year pediatrics resident, University of Michigan Medical School, Ann Arbor, Michigan.B. Alverson is associate professor, Department of Pediatrics and Medical Science, Section of Medical Education, Alpert Medical School of Brown University, Providence, Rhode Island.S. Park is postdoctoral research associate, Alpert Medical School of Brown University and Center for International Health Research at Rhode Island Hospital, Providence, Rhode Island.R.M. Rockney is professor, Department of Pediatrics, Family Medicine, and Medical Science, Section of Medical Education, Alpert Medical School of Brown University, Providence, Rhode Island.
Purpose:Clinical performance evaluations are major components of medical school clerkship grades. But are they sufficiently objective? This study aimed to determine whether student and evaluator gender is associated with assessment of overall clinical performance.Results:Female students were more likely to receive a better grade than males (adjusted odds ratio [AOR] 1.30, 95% confidence interval [CI] 1.13-1.50), and female evaluators awarded lower grades than males (AOR 0.72, 95% CI 0.55-0.93), adjusting for department, observation time, and student and evaluator age. The interaction between student and evaluator gender was significant (P = .03), with female evaluators assigning higher grades to female students, while male evaluators' grading did not differ by student gender. Students who spent a short time with evaluators were also more likely to get a lower grade.
Conclusions:A one-year examination of all third-year clerkship clinical performance evaluations at a single institution revealed that male and female evaluators rated male and female students differently, even when accounting for other measured variables.
Method:This was a retrospective analysis of 4,272 core clerkship clinical performance evaluations by 829 evaluators of 155 third-year students, within the Alpert Medical School grading database for the 2013-2014 academic year. Overall clinical performance, assessed on a three-point scale (meets expectations, above expectations, exceptional), was extracted from each evaluation, as well as evaluator gender, age, training level, department, student gender and age, and length of observation time. Hierarchical ordinal regression modeling was conducted to account for clustering of evaluations.
동기적 & 비동기적 이러닝(EDUCAUSE Quarterly, 2008) Asynchronous and Synchronous E-Learning
Stefan Hrastinski
e-러닝 이니셔티브가 성공하기 위해서는 조직과 교육 기관이 서로 다른 e-러닝 기술과 방법의 이점과 한계를 이해해야 합니다. 연구는 다양한 요소가 이러닝의 효율성에 미치는 영향을 연구함으로써 실무자들을 지원할 수 있습니다. 일반적으로 비동기식 및 동기식의 두 가지 기본 e-러닝 유형을 비교합니다. 최근까지 e-러닝 이니셔티브는 주로 비동기적인 교육 및 학습 수단에 의존했다.3 그러나 최근의 기술 향상과 대역폭 기능 증가로 동기식 e-러닝의 인기가 높아지고 있습니다.4
For e-learning initiatives to succeed, organizations and educational institutions must understand the benefits and limitations of different e-learning techniques and methods. Research can support practitioners by studying the impact of different factors on e-learning's effectiveness. Two basic types of e-learning are commonly compared, asynchronous and synchronous. Until recently, e-learning initiatives mainly relied on asynchronous means for teaching and learning.3However, recent improvements in technology and increasing bandwidth capabilities have led to the growing popularity of synchronous e-learning.4
비동기식 및 동기식 이러닝 정의 Defining Asynchronous and Synchronous E-Learning
비동기식 e-러닝과 동기식 e-러닝의 유용성에 대해 지속적인 토론이 이루어집니다. An ongoing debate addresses the usefulness of asynchronous versus synchronous e-learning.
[비동기식 e-러닝]은 이메일과 토론 게시판 같은 미디어에 의해서 장려되며, 참가자들이 동시에 온라인에 접속할 수 없는 경우에도 학습자와 교사 간의 업무 관계를 지원합니다. 따라서 비동기식은 유연한 e-러닝의 핵심 구성요소입니다. 사실, 많은 사람들이 일과 가족, 그리고 다른 약속들과 교육을 결합하는 비동기적인 성격 때문에 온라인 강좌를 듣는다. 비동기식 e-러닝을 통해 학습자는 언제든지 e-러닝 환경에 로그온하여 문서를 다운로드하거나 교사 또는 동료에게 메시지를 보낼 수 있습니다. 학생들은 자신의 기여contribution을 다듬는데 더 많은 시간을 할애할 수 있고, 이는 (동기식 의사소통에 비해) 일반적으로 더 사려 깊다고 여겨진다.
Asynchronous e-learning, commonly facilitated by media such as e-mail and discussion boards, supports work relations among learners and with teachers, even when participants cannot be online at the same time. It is thus a key component of flexible e-learning. In fact, many people take online courses because of their asynchronous nature, combining education with work, family, and other commitments. Asynchronous e-learning makes it possible for learners to log on to an e-learning environment at any time and download documents or send messages to teachers or peers. Students may spend more time refining their contributions, which are generally considered more thoughtful compared to synchronous communication.7
[동기식 e-러닝]은 보통 화상 회의와 채팅과 같은 미디어를 통해 지원되며, 학습 커뮤니티의 발전에 있어 e-러너를 지원할 수 있는 잠재력을 가지고 있습니다. 학습자와 교사는 동기식 e-러닝을 보다 사회적으로 경험하고 실시간으로 질문하고 답함으로써 좌절을 피할 수 있습니다.8 동기식 세션은 학습자가 스스로를 고립자isolates보다 참여자participants로 느낄 수 있도록 도와줍니다. Synchronous e-learning, commonly supported by media such as videoconferencing and chat, has the potential to support e-learners in the development of learning communities. Learners and teachers experience synchronous e-learning as more social and avoid frustration by asking and answering questions in real time.8 Synchronous sessions help e-learners feel like participants rather than isolates:
특히 동기적으로 더 지속적인 접촉을 통해 고립이 극복될 수 있고, 컴퓨터와 통신하는 고립된 개인이 아닌 공동체의 구성원으로서 자신을 인식함으로써 극복될 수 있습니다.9 Isolation can be overcome by more continued contact, particularly synchronously, and by becoming aware of themselves as members of a community rather than as isolated individuals communicating with the computer.9
(동기식과 비동기식의 구분은) 사용자의 사용 방법에 따라 결정된다는 것이 중요하다. 예를 들어, 사용자가 로그인한 상태로 전자 메일을 계속 모니터할 때 전자 메일이 거의 동기적으로 사용되는 경우가 있습니다.11 따라서 비동기식 전자 학습과 동기식 전자 학습의 차이는 종종 [정도의 차이]일 수 있다. Note also that the users decide how to use a medium. For example, in some instances e-mail is used near-synchronously when users remain logged in and monitor their e-mail continuously.11Thus, the difference between asynchronous and synchronous e-learning is often a matter of degree.
세 가지 유형의 통신 Three Types of Communication
Haythornhwaite12는 특히 e-러닝 커뮤니티를 구축하고 유지하기 위해 콘텐츠 관련 커뮤니케이션, 과제 계획, 사회적 지원 등 세 가지 유형의 커뮤니케이션이 중요하다고 주장합니다(표 1 참조).
첫째, [수업 내용]과 관련된 의사소통은 학습에 필수적입니다. 기존 교육에서처럼 전자 학습자도 질문을 하고 정보와 아이디어를 공유할 수 있어야 합니다.
두 번째로, 특히 학습자들이 동료들과 협력하여 과제와 같은 종류의 제품을 생산할 때, [과제 계획]에 대한 지원은 필수적입니다.
마지막으로, [사회적 지지] 관계는 협력적 학습을 촉진하는 분위기 조성에 바람직합니다.
Haythornthwaite12argues that three types of communication in particular are important for building and sustaining e-learning communities: content-related communication, planning of tasks, and social support (see Table 1).
Firstly, communication related to the course content is essential for learning. Just as in traditional education, e-learners need to be able to ask questions and share information and ideas.
Secondly, support for planning tasks is essential, especially when learners produce some kind of product, such as an assignment, in collaboration with peers.
Finally, social support relations are desirable for creating an atmosphere that fosters collaborative learning.
연구 배경 Research Background
제 박사 학위 논문에서 13 저는 비동기식 및 동기식 e-러닝을 비교했습니다. In my PhD thesis,13 I compared asynchronous and synchronous e-learning.
나는 모든 문장들을 표 1에 기술된 세 가지 교환 유형에 따라 분류했다. I classified every written sentence according to the three types of exchanges described in Table 1.
비동기식 e-러닝의 이점 및 제한 사항 Benefits and Limitations of Asynchronous E-Learning
세미나 논의의 문장 분류는 표 2에 제시되어 있다. [소규모 집단]에서 이뤄진 비동기식 논의의 거의 모든 문장과 [대규모 집단]의 방대한 다수의 문장이 [내용 관련 문장]으로 분류되었다. 이는 놀라운 결과입니다. 캠퍼스에서 학습자가 수업 내용과 관련된 문제를 토론하는 데 시간의 90% 이상을 할애했다고 가정해 보십시오. 하지만 이런 결과는 골칫거리로 해석될 수도 있다. e-러너들이 얼굴을 거의 마주치지 않고 교사들이 주로 비동기 e-러닝에 의존한다면, 학생들은 고립감을 느낄 수 있으며, 이는 협업과 학습에 필수적인 학습 커뮤니티의 일부가 아니다.15 소규모 학급과 소수의 참가자들과 비동기식 토론을 진행하는 것은 어려워 보인다. 이전 연구에 의해 지지되었다.16 The classification of sentences from the seminar discussions is presented in Table 2. Almost every sentence in the asynchronous discussions of the smaller group, and a vast majority of sentences in the larger group, were classified as content-related. This is a remarkable result—imagine if learners on campus spent more than 90 percent of their time discussing issues related to course content. These results can also be interpreted as troublesome, however. If e-learners seldom meet face-to-face and teachers mainly rely on asynchronous e-learning, students might feel isolated and not part of learning communities, which is essential for collaboration and learning.15 When comparing the smaller to the larger class, it seems difficult to get asynchronous discussions going with few participants, a finding supported by previous research.16
로버트와 데니스17가 제안한 [미디어 선택의 인지 모델]은 비동기적 의사소통이 사람의 정보 처리 능력을 증가시킨다는 이론을 세운다. 바로 답변을 해야되는 것이 아니므로 수신자는 메시지를 이해하는 데 더 많은 시간을 쓸 수 있다. 제 인터뷰는 다음과 같은 인용구를 통해 이러한 주장을 뒷받침합니다. The cognitive model of media choice proposed by Robert and Dennis17 theorizes that asynchronous communication increases a person's ability to process information. The receiver has more time to comprehend a message because an immediate answer is not expected. My interviews support this argument, as illustrated by the following quote:
[비동기식 토론]에서는 몇 가지 사실을 더 쉽게 찾고, 책을 보고, 더 철저한 게시물을 작성하는 것이 좋습니다. In the [asynchronous discussions] it is easier to find some more facts, maybe have a look in a book and do more thorough postings.
실제로 Kock의 추산에 따르면, 600개의 단어를 주고받는 데, 대면 상황에서 복잡한 그룹 작업을 할 때는 약 6분이 소요되며, 같은 수의 단어를 이메일로 주고받으려면 약 1시간이 소요된다고 한다.
In fact, according to Kock's estimate,18an exchange of 600 words requires about 6 minutes for complex group tasks in face-to-face settings, while exchanging the same number of words over e-mail would take approximately one hour.
동기식 e-Learning의 이점 및 제한 사항 Benefits and Limitations of Synchronous e-Learning
표 2를 보면, 동기식 e-러닝이 비동기식 e-러닝보다 [(내용 외의) 다른 유형의 소통]을 더 많이 지원한다는 것이 명백해집니다. 내용 관련 문장의 약 60%가 내용과 관련되어 있으며, 1/3정도는 업무 계획과 관련되어 있다. 이는 이러한 토론이 시간에 의해 제한되었다는 사실로 설명할 수 있습니다. 즉, 참가자들은 예정된 3시간 동안 예상대로 진행되었는지 확인해야 했습니다. 동시 토론에서 참가자들은 과정 작업 이외의 사항도 논의했습니다. 이것은 특히 각 논의의 시작과 끝에서 명확했다. 동기식 논의에서 작은 그룹과 큰 그룹 사이의 뚜렷한 차이는 없었다. When studying Table 2, it becomes apparent that synchronous e-learning supports other types of communication more often than does asynchronous e-learning. Almost 60 percent of the sentences related to content, while a third of the sentences related to planning of tasks. This can be explained by the fact that these discussions were limited by time—the participants had to make sure they did what was expected during the scheduled three hours. In synchronous discussions, participants also discussed things other than course work. This was especially evident at the beginning and end of each discussion. No apparent difference could be discerned in the synchronous discussions when comparing the smaller and larger classes.
Kock의 [미디어 자연성 가설]은 [동기적인 의사소통이 심리적 자극을 증가시킨다]고 예측한다. 마찬가지로, 로버트와 데니스의 [미디어 선택 인지 모델]은 동기적인 의사소통이 동기motivation를 증가시킨다고 예측합니다. 코크는 "자연스러운" 미디어를 특징짓는 각각의 요소들(예를 들어, 얼굴 표정과 몸짓을 전달하고 관찰할 수 있는 것)이 심리적 각성arousal에 기여한다고 주장한다. 그러나 이러한 요소들이 억제된다면 심리적 자극의 감소는 예상할 수 있다. Kock's media naturalness hypothesis19 predicts that synchronous communication increases psychological arousal. Similarly, Robert and Dennis's20 cognitive model of media choice predicts that synchronous communication increases motivation. Kock argues that each element that characterizes "natural" media (for example, the ability to convey and observe facial expressions and body language) contributes to psychological arousal. If these elements are suppressed, however, a decrease in psychological arousal can be expected.
많은 학습자들이 비동기식 커뮤니케이션에 비해 [동기식 커뮤니케이션이 "대화에 더 가깝다"고 느낀다]는 사실이 인터뷰에서 밝혀졌다. 동기식 커뮤니케이션은 [사회적 지지]를 나누거나, 덜 복잡한 문제를 논의하는 것에 더 적합한 것으로 보였다. 따라서 동기적으로 의사소통할 때 문장 수가 더 많아지는 것(표 2 참조)은 이러한 유형의 커뮤니케이션이 대면 커뮤니케이션과 더 유사하기 때문에 전자 학습자들이 심리적으로 더 자극받고 동기부여를 받았다는 사실로 설명할 수 있다. 이러한 발견은 특히 소그룹에서 두드러졌다. The interviews revealed that many e-learners felt that synchronous communication was "more like talking" compared with asynchronous communication. It seemed more acceptable to exchange social support and discuss less "complex" issues. Consequently, the higher sentence counts when communicating synchronously (see Table 2) can be explained by the fact that the e-learners felt more psychologically aroused and motivated, since this type of communication more closely resembles face-to-face communication. This finding was especially evident in the smaller class.
동기식 커뮤니케이션은 [메시지에 대한 수신자의 반응을 모니터]할 수 있게 해주며, 이는 수신자가 메시지를 읽고 대답하는 데 더 헌신적이고 동기부여가 되도록 합니다.21 제 경험적 연구의 일환으로 실시된 인터뷰가 이러한 주장을 뒷받침했습니다:
Synchronous communication enables monitoring the receiver's reaction to a message, which makes the receiver more committed and motivated to read and answer the message.21The interviews conducted as part of my empirical studies supported this argument:
비록 내가 그 사람을 볼 수 없더라도, 나는 그 사람과 직접 대화하고 즉각적인 답변을 얻기 위해 그렇게 글을 씁니다. Even if I cannot see the person, I write so to speak to the person directly and get an immediate answer.
또한 발신자 입장에서도 반응이 돌아올 가능성이 높다는 것을 알기 때문에, 심리적으로 더 각성aroused되고 동기부여가 될motivated 것으로 예상할 수 있다. 동기식 e-러닝에서 학습자는 대화를 방해하지 않기 때문에 빠르게 응답합니다. 인터뷰에서 드러나는 [단점은 종종 질보다는 양에 초점을 맞춘다]는 것입니다. 즉, "다른 누군가가 내가 하려던 말을 할 것이기 때문에 무언가를 빨리 쓰려고 합니다."
It can also be expected that the sender becomes more psychologically aroused and motivated because he or she knows a response is likely. In synchronous e-learning, learners respond quickly because they do not want to disrupt the conversation. A downside revealed in the interviews is that the focus is often on quantity rather than quality—that is, trying to write something quickly because "someone else will say what I was going to say."
온라인 학습의 인지 및 개인 차원 Cognitive and Personal Dimensions of E-Learning
앞의 섹션에서 저는 동기적인 커뮤니케이션을 통해 메시지에 대한 수신자의 반응을 모니터할 수 있게 되어, 수신자가 메시지를 읽고자 하는 의욕과 의욕을 더 느낄 수 있도록 한다고 제안했습니다. 그러나 비동기식 소통에서 발신자는 [즉각적인 응답을 기대하지 않기 때문에], 수신자는 메시지를 이해하는 데 더 긴 시간을 가지게 된다. 따라서 동기식 e-러닝은 [자극과 동기]를 증가시키는 반면, 비동기식 e-러닝은 [정보 처리 능력]을 증가시킵니다. In the previous section, I suggested that synchronous communication makes it possible to monitor the receiver's reaction to a message, making the receiver feel more committed and motivated to read it. When communicating asynchronously, however, the receiver has more time to comprehend the message, since the sender does not expect an immediate answer. Thus, synchronous e-learning increases arousal and motivation, while asynchronous e-learning increases the ability to process information.
[개인 참여]와 [인지 참여]의 개념은 비동기식 및 동기식 e-러닝에 의해 지원되는 학습의 차원을 설명한다(그림 1 참조).
[개인 참여]는 [업무 계획 및 사회적 지원을 포함한, 덜 복잡한 정보 교환에 적합한, 보다 각성적 유형의 참여]이다
[인지 참여]는 [복잡한 문제에 대한 논의에 적합한 더 성찰적 참여 유형]이다
The concepts of personal participation and cognitive participation describe the dimensions of learning supported by asynchronous and synchronous e-learning (see Figure 1).
Personal participation describes a more arousing type of participation appropriate for less complex information exchanges, including the planning of tasks and social support.
Cognitive participation describes a more reflective type of participation appropriate for discussions of complex issues.
나는 동기식 e-러닝이 개인 참여를 더 잘 지원하고 비동기식 e-러닝이 인지 참여를 더 잘 지원한다고 제안한다. I suggest that, other things being equal, synchronous e-learning better supports personal participation and asynchronous e-learning better supports cognitive participation.
여기에서 논의된 연구는 비동기식 및 동기식 e-러닝이 서로를 보완한다는 것을 보여준다. 이것이 교수자에게 시사하는 바는 [여러 유형의 비동기 및 동기식 커뮤니케이션을 제공하여 서로 다른 학습 활동에 적절한 수단을 사용할 수 있어야 한다는 것]입니다. 이러한 두 가지 유형의 온라인 학습의 조합은 학습자와 교사가 정보를 교환하고, 업무에 대한 협업을 하며, 서로에 대해 알아갈 수 있는 여러 가지 방법을 지원합니다. The research discussed here demonstrates that asynchronous and synchronous e-learning complement each other. An implication for instructors is to provide several types of asynchronous and synchronous communication so that appropriate means are available for different learning activities. The combination of these two types of e-learning supports several ways for learners and teachers to exchange information, collaborate on work, and get to know each other.22
앞서 언급했듯이, 많은 학습자들이 비동기적인 특성 때문에 온라인 과정에 등록하는데, 이러한 점을 고려해야 합니다.
복잡한 문제를 논의하는 경우에, [화상 회의, 인스턴트 메시징 및 채팅과 같은 미디어에 의한 동기식 e-러닝과 상호 보완으로 대면 회의를 마련하는 것]은 학생들이 [서로 친해지고, 과제를 계획]할 수 있도록 지원하는 데 필수적일 수 있습니다.
다만 성찰할 시간을 필요로 하는 복잡한 사안을 논의할 때는, 비동기식 e러닝으로 전환해 이메일, 토론 게시판, 블로그 등 미디어를 이용하는 것이 바람직하다.
As stated earlier, many learners enroll in online courses because of their asynchronous nature, which needs to be taken into account.
For the discussion of complex issues, synchronous e-learning, by media such as videoconferencing, instant messaging and chat, and arranging face-to-face meetings as a complement, may be essential as support for students to get to know each other and for planning the tasks at hand.
However, when discussing complex issues, in which time for reflection is needed, it seems preferable to switch to asynchronous e-learning and use media such as e-mail, discussion boards, and blogs.
표 3은 동기식 e-러닝 대비 비동기식 e-러닝을 사용하는 시기, 이유 및 방법을 요약합니다. Table 3 summarizes when, why, and how to use asynchronous versus synchronous e-learning.
의과대학이라는 형상화된 세계에서 의사가 되기 전 정체성 저술하기(Perspect Med Educ, 2018)
Authoring the identity of learner before doctor in the figured world of medical school Evangeline Stubbing1 · Esther Helmich2 · Jennifer Cleland3
도입 Introduction
정체성 형성이란 다음에 대한 것이다
사람들이 어떻게 자기 자신을 이해하게 되는지,
자기자신을 [자신이 속한 '세계'와 및 세계 내외부에 존재하는 다른 사람들과 상호작용하면서]자신이 누구인지 어떻게 '추정figure' out할 것인지
Identity formation is about
how people come to make sense of themselves,
how they ‘figure’ out who they are as they interact with the ‘world’(s) they are part of and with others who both exist within and outside of these worlds [1, 2].
의대생은 여러 세계 사이에 위치한다. [환자라는 일반인 세계lay world의 성인으로서being adolescents]와 [의사 및 전문직이 되어가는 것becoming] 사이에 위치한다. 이러한 과도기적 입장의 결과는 의대생들이 [자신의 교육 및 미래의 의사]와 관련하여 [자신이 누구라고 생각하고, 다른 사람들에게 자신을 어떻게 표현할지]에 대해 지속적으로 협상하거나 자신의 정체성을 작성authoring하는 것입니다 [5].
Medical students are positioned between worlds, between being adolescents [3] in the lay world of patients and becoming doctors and professionals [4]. A consequence of this transitional position is that medical students are continually negotiating or authoring their identities in terms of who they think they are and how they portray themselves to others in relation to their training and as future doctors [5].
지금까지의 연구는 정체성 형성과 관련된 의학교육의 세계 속에 존재하는 [외부적 사회적 요인]들을 밝혀냈다. 예를 들어, 의과대학 문화로의 사회화[6–8] 또는 환자와의 만남의 정서적 경험[9–11]이 그것이다. Research to date has illuminated the external social factors within the world of medical education implicated in identity formation: for example, socialization into the culture of medical school [6–8] or the emotional experience of patient encounters [9–11].
더 최근의 연구는 [내부 요인]의 영향을 탐구했다. 이러한 내부 요인에는 의대생들이 의사의 정체성과 이타적으로 연관짓는 [초기 선입견이나 상상력]이 포함된다(예: 사람들을 돕고 아픈 사람들을 치료하는 것). 하지만 여기에는 바람직하지 않은 선입견(예: 권력과 지위를 소유하는 것)도 있습니다. 학생들이 world of medicine 내에서 자신이 누구인지 '추정figure'하려고 할 때, 초기 선입견preconception은 강화되거나(유익한 '조화'), 경쟁될 수 있습니다(정서적으로 충돌하는 '불화'). More recent studies have explored the influence of internal factors. These internal factors include the early preconceptions or imaginations that medical students associate altruistically with the identities of a doctor (such as to help people and cure the sick) [4, 12–15], but also less desirable preconceptions (for example to possess power and status) [13–15]. As students try to ‘figure’ who they are within the world of medicine their early preconceptions may be reinforced (beneficial ‘consonance’), or contested (emotionally conflicting ‘dissonance’) [16, 17].
불화dissonance 경험의 결과로 학생들은 자신의 세계관과 포부를 의심하고, 자신의 가치를 의심하며, 전문직에서 요구되는 바를 충족시키기 위해 고군분투할 수 있습니다 [16]. 따라서, 전문가 정체성에 대한 이러한 지속적인 협상은 [정서적 비용]을 수반하지만, 정체성 형성에 관련된 감정은 의학교육 연구에서 종종 간과된다[18]. As a consequence of the experience of dissonance students may doubt their world-views, aspirations, question their self-worth and may then struggle to succeed in meeting the requirements of their profession [16]. It is clear, therefore, that this continual negotiation of a professional identity has an emotional cost, yet the emotions involved in identity formation are often overlooked in medical education research [18].
더욱이 학생들이 의과대학에서 [(의사가 되는 것에 대한) 초기 선입견]을 자신의 정체성과 통합하려고 할 때 긴장감이나 불화가 있는 경우, 초기 선입견은 전문직 정체성 형성에 (도움을 주기보다는) 방해가 될 수 있다. Moreover, where there is tension or dissonance as students attempt to integrate their early preconceptions about being a doctor with their developing identities once at medical school (for example; when being unable to cure the sick [4] and when facing the expectation that a clinician should be emotionally detached) [19, 20], early preconceptions may hinder rather than help students form their professional identities.
의대생들이 의대에 '빈 석판'으로 입학하는 것이 아니라면, 그러한 내부 긴장과 관련 감정을 어떻게 경험하고 관리하는지를 더 깊이 탐구하는 것이 중요하다. 이러한 현상에 대한 우리의 이해를 증진시키면 복잡한 정체성 형성 과정에 대한 새로운 통찰을 제공하고 교육자들이 이러한 경험을 통해 학생들을 가장 잘 지원할 수 있는 방법을 도울 수 있을 것입니다. If medical students are not entering medical school as ‘blank slates’, it is crucial to explore further how such internal tensions and associated emotions are experienced and managed. Advancing our understanding of this phenomena will provide new insights into the complex process of identity formation and assist educators in how best to support students through this experience.
따라서 [의대 내에서 감정의 역할]을 인정해야 한다는 요구에 대응하고자, 우리의 목표는 의대 학생들이 의대 초기에 새로운 신분을 형성하기 시작할 때 경험하는 감정을 탐구하는 것이었다. 우리는 정체성 형성과 감정 사이의 연결을 명확히 하고[22] 우리의 발견을 일관성 있게 설명하기 위해 '그림화된 세계' 이론[1]을 사용했습니다. Thus, and responding to calls to acknowledge the role of emotion within medical education [17, 18, 21], our aimwas to explore the emotions medical students experience when starting to form new identities early in medical school. We used ‘figured worlds’ theory [1] to help make explicit the links between identity formation and emotions [22], and to help us explain our findings in a coherent way.
방법 Methods
연구 패러다임/방법론 Study paradigm/methodology
이는 구성주의적 인식론에 의해 뒷받침된 질적 해석적 연구였다[23]. This was a qualitative, interpretative study underpinned by a constructivist epistemology [23].
컨텍스트 Context
이 연구는 5년제 학부 과정을 제공하는 영국의 한 의과대학에서 이루어졌다. 이 프로그램은 시스템과 사례 기반이며, 급성 병원 병동에 조기에 임상적으로 노출되고 첫 해에 환자가 가정을 방문합니다.
The study took place at one medium-sized UK medical school offering a five-year undergraduate program (the norm in the UK). The program is systemsand case-based, with early clinical exposure to acute hospital wards and a patient home visit in the first year.
참가자 Participants
2013년에는 전체 학급 프레젠테이션, 포스터 광고 및 학급 이메일을 통해 1학년 의대생 169명이 5년 종별 연구에 참여하도록 초대되었습니다 [24]. In 2013, all 169 first year medical students were invited to participate in a five-year longitudinal study via a wholeclass presentation, poster advert, and class email [24].
데이터 수집 Data collection
데이터 수집을 위해 포커스 그룹을 사용하여 참가자들이 대응, 토론을 주도할 수 있도록 하고 [26] 접근 불가능한 잠재적 사고를 자극했다[27]. 23명의 참가자는 최적의 그룹 크기에 기초하여 네 개의 포커스 그룹으로 구성되었습니다 [23]. 6인 2조, 5인 1조, 4인 1조로 구성됐다. 이후 4인 1조로 참석할 수 없는 참가자 2명이 짝을 지어 인터뷰했다. 모든 참가자들이 참여했으며, 연구 내내 같은 그룹/쌍에 머물렀다. 데이터 수집은 두 가지 포커스 그룹으로 구성되었습니다. 첫 번째 포커스 그룹은 의대를 시작한 지 몇 주 내에 이루어졌고 두 번째 포커스 그룹은 1학년 말에 이루어졌습니다. 약 1시간 동안 지속된 포커스 그룹은 의과대학 구내에서 수행되었다. 참가자들은 간단한 다과를 제공받았지만 다른 인센티브는 받지 않았다. ES는 참가자의 경험과 감정을 유도하기 위해 반구조적이고 개방형 질문 가이드를 사용하여 포커스 그룹을 수행했습니다 [28]. We used focus groups for data collection to allow participants to lead responses, discussion [26],andalsotostimulate potentially inaccessible thoughts [27]. The 23 participants were formed into four focus groups on the basis of optimal group size [23]. Two groups of six, one group of five and a group of four were formed. Two participants unable to attend with the group of four were interviewed later as a pair. All participants attended and remained in the same groups/pairs throughout the study. Data collection was longitudinal with two sets of focus groups: the first within a few weeks of starting medical school and the second at the end of Year 1. Focus groups, lasting around 1 h, were undertaken on medical school premises. Participants received light refreshments but no other incentives. ES conducted the focus groups using a semi-structured and openended question guide to elicit participants’ experiences and emotions [28].
데이터 관리 및 분석 Data management and analysis
포커스 그룹은 텍스트 데이터에 익명으로 참여하기 위해 이름을 제거하여 음성 메시지를 녹음하고 기록했습니다 [29]. Focus groups were audio recorded and transcribed verbatim, with names removed, to engage anonymously with textual data [29].
책임연구자(ES)가 예비 코딩 과정을 맡았다. 그런 다음, 작성자 팀이 이 코드를 논의하고 포커스 그룹 집합 전체에 걸쳐 그리고 종방향으로 분석을 수행하기 위해 포커스 그룹 데이터 집합 1차(2013년 10월)와 포커스 그룹 데이터 2차(2014년 6월) 각각에 대해 하나씩, 두 개의 별도 '코딩 템플릿'을 개발하는 데 사용했다. 이러한 템플릿은 참가자 계정의 반복적 특징에 대한 기반과 구성 수단을 형성했습니다 [32]. 코딩과 분석은 반복적이고 귀납적이었다: 데이터에 대한 풍부한 표현이 있을 때까지 템플릿을 수정하기 위한 팀 토론이 정기적으로 있었다[33]. The lead researcher (ES) undertook the process of preliminary coding. These codes were then discussed by the author team and used to develop two separate ‘coding templates’, one for each set of focus groups, the first round (October 2013) and second round of focus group data (June 2014) to conduct analysis both across the set of focus groups and longitudinally. These templates formed the foundation and means of organization for recurrent features of the participant accounts [32]. Coding and analysis were iterative and inductive: with teamdiscussions at regular intervals to modify the templates until we had a rich representation of the data [33].
정성적 데이터의 해석은 연구자의 관점과 연구가 수행되는 사회적 맥락에 따라 달라진다 [33]. 구성주의적 관점에서 [연구 결과]는 [연구자의 편견, 가정 및 특성]과 결코 분리되지 않을 것이다 [34]. 따라서, 연구 내내 ES는 성찰 일지를 유지했고, 팀으로서 우리는 이러한 일지가 연구 과정과 결과에 어떻게 영향을 미칠 수 있는지를 인지하는 우리의 입장과 가능한 편견을 정기적으로 고려했다. Interpretation of qualitative data is dependent upon the researcher standpoint and the social context in which the research is undertaken [33]. From a constructivist perspective, research outcomes will never separate from the biases, assumptions and the characteristics of the researcher [34]. Thus, throughout the study, ES maintained a reflexive diary and as a team we regularly considered our stances and possible biases recognizing how these may be influential to the research process and findings.
이론적 프레임워크 Theoretical framework
Holland 외 연구진들은 '형상화된 세계figured worlds'를 광범위하게 '사회적으로 생산되고, 문화적으로 구성된 활동'(P. 40-41)으로 정의했으며, 이 곳에서 사람들은 [새로운 자기 이해(정체성)를 생산(수행)]한다. [형상화된 세계]는 개인의 가능성의 장소, 즉 'as if' 세계의 장소이지만, 홀랜드 등은 형상화된 세계는 문화적, 사회적 기반을 갖기 때문에, 일상 활동에 수반되는 [권력, 지위, 계급 관계]에 의해 조정된다는 점을 분명히 한다. 다시 말해, 이러한 [형상화된 세계] 또는 맥락 안에서, [특정한 사회적 행위는 의미]를 가지며 [사람들의 위치가 중요]합니다. Holland et al. broadly defined figured worlds as ‘socially produced, culturally constituted activities’ (P. 40–41) where people produce (perform) new self-understandings (identities). Figured worlds are sites of individual possibility, or ‘as if’ world(s) but Holland et al. also make clear that because figured worlds are culturally and socially based, they are mediated by relations of power, status, and rank, implicated through daily activities. In other words, within these figured worlds, or contexts, certain social acts have significance and people’s positions matter.
각 [형상화된 세계]는 사회적으로 구성된 [마스터 내러티브] 또는 [세계의 바탕이 되는 선입견]에 의해 조직됩니다(예: 의사들이 병자를 치료할 수 있어야 함). 일상적인 사회적 관행과 활동은 이러한 서술에 반하여against 해석됩니다. 형상화된 세계는 [일상적인 행동]과 ['위치성positionality'의 과정]을 통해 구성되고 재구성됩니다. '위치성Positionality'이란, 특정한 형상화된 세계(예: 환자, 의사 또는 의대생)에 있는 사람들에게 그들이 받아들이거나 거부하거나 협상할 수 있도록 '제공offered'되는 위치position을 말한다. [형상화된 세계 이론]에서 이것은 '저작의 공간space of authoring'으로 지칭되며, 이는 사람들이 그들에게 제공된 정체성을 받아들이거나/거부하거나/협상함으로써 응답하고 대답하는 것이다. Each figured world is organized by socially constructed master narratives or preconceptions on which the world is based (such as doctors should be able to cure the sick). Day-to-day social practices and activities are interpreted against these narratives. Figured worlds are constructed and reconstructed through daily actions and a process of ‘positionality’; that is, the positions ‘offered’ to people in a certain figured world (such as patient, doctor or medical student) which they may accept, reject, or negotiate. This is referred to in figured worlds theory as the ‘space of authoring’, or of people answering and responding by accepting, rejecting or negotiating the identities offered to them.
즉, 사람들은 자신이 누구인지 '자기 저술'한다.
그들이 중요하게 여기는 활동들을 통해서,
이 상상된 세계를 채우는 사회적 유형들과 관련하여,
이 세계를 수행하는 사람들과의 사회적 관계에서,
In other words, people ‘self-author’ who they are
through activities that they attach significance to,
in relation to the social types that populate these figured worlds and
in social relationships with the people who perform these worlds.
예를 들어 의사가 되는 것은 [병자를 치료하는 것 뿐만 아니라 편안하고 품위 있는 죽음을 보장해주는 것]이라는 선입견처럼, [형상화된 세계]가 [원래 만들어진 것]과 다를 때 도전이나 긴장을 불러일으킬 수 있다. 그러한 긴장에 대응하여, 자기자신을 세상에 대하여 재작성re-write하는 자기-저술self-authroing이 일어날 수 있다. 이를 통해서 개개인은 사회적 자원을 사용하여 반응을 만들어낸다.
Figured worlds can create a challenge or tension when they are different to what was originally constructed, as in preconceptions, for example, that being a doctor is not only about curing the sick but is also about providing support to ensure a comfortable and dignified death. In response to such tensions, ‘self-authoring’ may take place, where individuals use their social resources to craft a response, to re-write themselves into the world [1].
윤리 Ethics
결과 Results
템플릿 분석 결과, 세 가지 중요한 주제와 관련된 하위 주제가 발견되었습니다.
의사가 되는 것에 대한 선입견(예: 변화를 돕고 리더가 되는 것)
선입견으로 경험하는 긴장감(변화를 만들거나 돕지 못하는 것, 변화를 만들거나 도와야 하는 압박감, 무력감)
긴장과 자기저술 정체성self-authoring identities을 협상하는 참가자들의 모습이 드러났습니다.
Template analysis revealed three overarching themes and associated subthemes:
preconceptions of being a doctor, e. g. to help/make a difference and to be a leader.
Tensions experienced with preconceptions included being unable to help/make a difference, feeling a sense of pressure to help/ make a difference and lacking power.
Moreover, analysis revealed participants negotiating tensions and self-authoring identities.
의사가 되는 것에 대한 선입견 Preconceptions of being a doctor
의대에 도착하자마자, 초기 정체성 형성의 일환으로 참가자들은 [의학의 세계]와 [의사의 위치]와 관련된 많은 선입견을 형성했다. 두 가지 유의적인 선입견이 표현되었다.
첫 번째는 다소 이타적인 것으로, 의사가 되기 위한 근본적인 것이었다: '나의 관점은 국경 없는 의사와 같은 존재가 되기 위해 노력하는 것이며, 무력한 사람들을 돕겠다는 생각'이었다.
둘째, 참가자들은 의사가 '리더'가 되는 것이라고 생각했다: '하지만 진정한 변화를 만들기 위해서는 의사가 되어야 한다고 생각한다. 왜냐하면 팀 리더이기 때문이다. 그들은 결정을 내리고 모든 것은 그들로부터 따라온다.
On arrival to medical school, as part of their early identity formation participants had formed a number of preconceptions associated with the figured world of medicine and the position of a doctor. Two significant preconceptions were expressed.
The first somewhat altruistic, participants considered ‘to help/make a difference’ was fundamental to being a doctor: ‘I think my angle will be trying to be something like a doctor without borders or something like that, and so the idea of helping the helpless’ (MP11-FG2-T1).
Second, participants considered that a doctor is ‘to be a leader’: ‘But I think to make a real difference, you have to be a doctor because they’re the team leader; they make the decisions and everything follows down from them’ (FP2FG1-T1).
선입견으로 인한 긴장감 Tensions experienced with preconceptions
'도움을 주고 변화를 만드는' 의사라는 선입견과 '리더'라는 선입견과 달리, 새롭게 경험하는 의학계의 현실은 [분명한 긴장감]을 만들어냈다. In contrast to their preconceived figured world of a being a doctor to ‘help/make a difference’ and a ‘to be a leader’, the realities of the newly experienced world of medicine created an evident tension (dissonance).
1학년 내내 참가자들은 [부족한 지식]과 관련하여 '도움이 안 되고 변화를 일으킬 수 없는 것'에 대해 토론했다. '아직도 경험이 없는 1학년 의대생이고 아무것도 할 수 없고 아무것도 할 수 있는 지식이 없는 것 같다.'(FP16-FG3-T1) 그리고 '저희들은 제가 그것에 대해 잘 모르거나 어떻게 치료해야 할지 모른다는 사실에 정말 짜증이 났습니다.' (MP10-FG2-T2) Participants throughout their first year discussed ‘being unable to help/make a difference’ with reference to a lack of knowledge: ‘I’ll still feel like I’m an inexperienced first year medical student and I can’t do anything and I don’t have the knowledge to do anything’ (FP16-FG3-T1). And ‘We were really annoyed by the, uh, fact that I don’t know much about it, or don’t know how to treat it (referring to a patient condition) ...’ (MP10-FG2-T2).
1학년 말에도 참가자들은 지식이 부족하여 변화를 도울 수 없음에도 불구하고, [환자들이 여전히 신뢰를 부여했다고 생각]했다. 이로 인해 '도움을 주어야 한다는 하는 압박감'이 생겼고 긴장감을 더했습니다.
'당신이 무엇을 하고 있는지 알고 있다는 (환자들의) 믿음입니다. 사실, 나는 아마 아는 것이 없는데도...' (MP8-FG2-T2)
아니면, '... 한 사람에게 많은 신뢰를 주는 것은 그 사람에게 부담을 줄 수 있고, 만약 실수를 하게 되면 그 환자가 당신을 정말 믿었기 때문에 기분이 백만 배 더 나빠질 것이다.' (FP17-FG3-T2)
At the end of Year 1 participants considered that, despite lacking the knowledge and thus being unable to help/make a difference, patients still granted them their trust. This created ‘feeling a sense of pressure to help/make a difference’ and added to the tension.
‘It’s that trust that you know what you’re doing, when in actual fact, you probably don’t [laughs]’ (MP8-FG2-T2).
Or: ‘... putting so much trust in a single person can add pressure to that person too and if you mess up then you’ll feel a million times worse because that patient really trusted you’ (FP17-FG3-T2).
1학년 내내 참가자들은 [의대 1학년이라는 그들의 위치]와 [의학계의 리더]라는 초기 선입견 사이에 긴장감을 표현했다.
이런 긴장감은 '생각만큼의 파워가 없다는 것을 깨닫게 된다'(MP8-FG2-T1)는 인식을 통해 표출됐다.
존경심이 부족하다는 인식도 '권한이 부족하다'는 긴장의 원인이 되었다. '넌 아무도 널 존중하지 않을 어린 소녀야'
Throughout their first year participants expressed a tension between their position as a first year medical student and their earlier preconception of being a leader in the figured world of medicine.
This tension was expressed through their recognition of ‘lacking power’: ‘You realize you don’t have as much power as you think’ (MP8-FG2-T1).
A perceived lack of respect also contributed to the tension of ‘lacking power’: ‘I got told ... you’re a little girl no one will ever respect you’ (FP5-FG1-T2).
긴장의 협상 및 자체 작성 Negotiating tensions and self-authoring
참가자들은 의과대학 1학년을 여행하면서 [self-authoring 과정]을 통해 위에서 설명한 긴장감을 협상했다. 1년 말, 참가자들은 [자신들의 부족한 지식들을 해결하기 위해 열심히 하는 것]만으로는 [변화를 일으킬 수 없다는 긴장감]을 협상하려는 시도를 표현했다. 이것은 의학이라는 형상화된 세계에 자신을 써넣는 방법이었다.
'더 많은 것을 알고 더 많은 것을 할 수 있기를 바라는 것 같다' (FP4-FG1-T2)
동시에 참가자들은 이 긴장감을 해소하려면 [자기 위치의 재구성이 필요로 한다는 것]을 깨달았다. 이 단계에서 그들은 모든 것을 알 수 없다는 것은 인식하고 받아들여야 했다. '우리도 인간이다. 우리가 모든 걸 알 수는 없다'
As the participants journeyed through Year 1 at medical school, they negotiated the tensions outlined above through a process of self-authoring. By the end of Year 1, participants expressed an attempt to negotiate the tension of being unable to help/make a difference by being eager to address their lack of knowledge, a way in which to write one’s self into the figured world of medicine:
‘I kind of feel like I want to be able to know more and start to be able to do more’ (FP4-FG1-T2).
At the same time, participants realized that addressing this tension required reconstructing their position, by recognizing and accepting they cannot know everything at this stage: ‘It’s only human. We, we can’t know everything’ (MP7-FG2-T2).
1학년 말에 참가자들은 의대생으로서의 자신의 위치가 의사의 권위와 리더십이 아니더라도 [책임이 부여된다는 것]을 깨달았다. '아마도, 의과대학생으로서, 권한은 가질 수 없지만, 책임은 있습니다' (MP9-FG2-T2) 참가자들은 '2학년은 좀 더 높은 지위가 있고, 사람들은 의학 지식이 있고, 자신들이 무엇을 하고 있는지 안다'는 생각을 하며, 리더로서의 개념을 강화할 수 있는 더 강력한 한 해를 내다본다. By the end of Year 1 participants also recognized that their position as a medical student does grant responsibilities, if not the authority and leadership of a doctor: ‘Maybe, now that you’re, like, a medical student ... you can have, not authority, but you’ve got responsibility ...’ (MP9-FG2-T2). Participants look to the year ahead imagining a stronger position that might enhance the notion of being a leader: ‘I think second year has more of a standing, people are like, oh they’ve got some medical knowledge, they know what they’re doing’ (FP1-FG1-T2).
고찰 Discussion
우리는 학생들이 의학의 세계로 들어갈 때 [의대생으로서의 위치적 정체성]과 [변화를 돕고 선도하는 의사라는 초기 내부 선입견 또는 상상력] 사이에서 긴장을 느낀다는 것을 발견했다. 그 대신 의대 1학년 학생들은 스스로가 변화를 돕고 이끌 지식과 힘이 부족하다는 것을 알게 되었다. We found that, on entering the figured world of medicine, students experience tensions between their positional identities as medical students and their earlier internal preconceptions or imaginations of being doctors who help/make a difference and are leaders. Instead, being ‘just’ first year medical students they found themselves lacking both the knowledge and power to be able to help/make a difference and to lead.
의과대학 1학년이 끝날 무렵, 비록 지식과 권력은 부족하지만, 우리의 학생들은 지식과 권력의 한계를 인정하는 법을 배우면서 그들이 경험했던 긴장감을 해소하는 것처럼 보입니다. 그러나 의과대학은 그들에게 [특권과 책임을 부여]해 주지만 [아직 권한은 부여하지 않았습니다]. By the end of the first year of medical school, although still lacking knowledge and power, our students appear to resolve the tensions they had experienced, learning to acknowledge limitations of knowledge and power, yet recognized that being a medical student granted them privileges and responsibilities (but not yet authority).
의사라는 'as if'나 상상 속의 정체성에만 초점을 맞추지 않고, 학습자와 의대 1학년이라는 self-authored 정체성으로 위치를 재정비했다. 의대 1학년 학생으로서의 정체성은, 그 이상도 이하도 아닌, 우리 학생들에게 합법적인 지위를 부여했고, 그 결과 그들은 미래의 직업적 정체성을 더욱 발전시킬 수 있는 의학의 세계로 진입할 수 있게 되었습니다.
Instead of focusing only on the ‘as if’ or imagined identities of being a doctor, they re-aligned their position into the self-authored identity as learner and first year medical student. The very identity as a first year medical student, nothing more, nothing less, granted our students a legitimate position, which in turn allowed them to enter the world of medicine in which they could further develop their future professional identities.
환자들로부터 신뢰를 받는 것은 우리 참가자들에게 부적절하게 느껴졌다. [신뢰는 전문가 지위의 기초]이며 환자와 의사 사이의 사회적, 도덕적 계약의 일부로 인정됩니다 [42, 43]. 그러나 1학년 학생들은 필요한 지식과 기술이 부족하여 이 '계약'을 이행할 수 없었다. 이로 인해 긴장감이 생겼고, 압력감으로 표현되었습니다. 이는 초기 연구(예: Lingard 등)의 연구 결과를 반영합니다. 이 연구에서는, 사례 발표 중의 불확실성과 지식의 한계와 관련한 의대 3학년 학생들의 긴장을 식별했다. Being trusted by patients felt inappropriate to our participants. Trust is fundamental to the status of a professional, and granted as part of a social and moral contract between patients and doctors [42, 43]. Yet, year 1 students felt unable to fulfil their end of this ‘contract’, because of lacking necessary knowledge and skills. This resulted in a tension, articulated as a sense of pressure. This reflects the findings of earlier studies: for example Lingard et al. (2003) identified tensions in third year medical students, concerning uncertainty and limitations of knowledge during case presentations ([44], see also [45]).
참가자가 보기에 [신뢰는 획득해야 하는 것]이며, 역량(충분한 지식)이라는 수단으로 얻어야 한다. 또한 [사람들을 돌보고자 하는 희망(환자를 돕고 변화를 만드는 것)]이나 [변화를 만들 수 있도록 의사에게 부여된 지위나 힘]을 통해 얻을 수 있어야 합니다. 이러한 '토론' 중 두 가지는 이전에 McLeod(2011)가 설명했으며, 그녀는 학생들이 [(지배적인) 역량 담론]과 [(덜 가치롭게 여겨지는) 돌봄 담론] 사이에서 긴장을 경험할 수 있는 방법을 탐구했다[20]. 우리의 연구는 학생들이 'as if' 정체성에 대해 협상할 때 사용될 수 있는 세 번째 이슈를 추가하는데, 이 이슈는 [권력의 담론]이라고 불릴 수 있다. In the eyes of our participants, trust needs to be gained, by means of competence (having enough knowledge), in their wish to take care for people (helping patients, making a difference), or through the position or power granted to doctors enabling them to make a difference. Two of these ‘discourses’ were previously described by MacLeod (2011), when she explored how students may experience tensions between the dominant discourse of competence, and the less valued discourse of caring [20]. Our study adds a third issue that might be in play when students negotiate ‘as if’ identities, one which might be called a discourse of power.
우리가 아는 한, 우리의 연구는 학생들이 [의과대학에 입학할 때 이미 가지고 있는 선입견의 일부]이며, 의과대학 1학년 때 경험하는 [긴장감의 중심에는 권력 부족이 있다는 것]을 보여주는 첫 번째 연구에 속한다. 이전의 연구에서는 '권한/권력'을 부정적인 선입견으로 식별했다[13–15]. 그러나, 우리의 참가자들에게 힘은 다른 사람들보다 지배적이고 우월한 위치를 차지하거나, 그 자체로 지위를 갖는 것에 대한 것이 아니라, 변화를 만드는 수단으로서 여기는 것처럼 보였다. 이것은 더 조사해 볼 가치가 있다.
As far as we know, our study is among the first showing that power is already part of the preconceptions students have as early as entering medical school, and that lacking power is central to the tensions they experience in the first year of medical school. Previous studies have identified ‘power’ as a negative preconception [13–15]. However, for our participants power seemed less about assuming a dominant and superior position over others, or having status per se, and more as a means to make a difference. This merits further investigation.
의학 교육에서 [형상화된 세계 이론]을 사용한 연구는 일반적으로 담론[22, 40] 또는 언어 분석 형식을 채택했다[38]. 그러나, 우리의 연구에서와 같이, 그림화된 세계 이론과 다른 방법론의 결합은 더 넓은 문헌에서 성공적으로 활용되었습니다 [35–37]. 이러한 방법론적 '가져오기importing'(한 분야에서 잘 알려지지 않은 다른 분야로 개념과 도구를 이전하는 것)는 오래된 문제를 새로운 방식으로 해결할 수 있는 기회를 제공하기 때문에 가치가 있다[49]. Studies using figured worlds theory in medical education have typically employed discourse [22, 40] or linguistic forms of analysis [38]. However, the combination of figured worlds theory and other methodologies, as in our study, has been successfully utilized in the wider literature [35–37]. This methodological ‘importing’ (the transference of concepts and tools from one field where it is well known to another field where it is less known) is valuable because it provides opportunities for addressing old problems in new ways [49].
[도움을 줄 충분한 지식과 힘이 없다는 긴장감]은 학생들이 [의사에 대해 상상한 'as if' 정체성]과는 반대로, 학습자로서 그들의 [위치적 정체성]에 대해 더 강한 확신을 갖도록 돕는 것의 중요성을 시사한다. 이는 의과대학에 입학한 첫 달 동안의 정체성 형성 과정에 대한 학생들의 인식을 높이고 이 과정에 대한 성찰을 장려함으로써 뒷받침될 수 있다[50]. 개인적 성찰을 통해 정체성 형성 과정에 대한 인식을 높이는 것은 학생들이 초기 내부 정체성 및 선입견과 관련된 딜레마와 긴장을 극복하는 데 도움이 될 수 있습니다. 이것은 전문적 정체성에 대한 긍정적인 개발을 향상시킬 수 있다[19]. The tension of not having enough knowledge and power to help suggests the importance of helping students to affirm a stronger sense of their positional identity as a learner as opposed to an imagined ‘as if’ identity of a doctor. This may be supported through increasing students’ awareness of the process of identity formation in their first months of medical school, and encouraging reflection on this process [50]. Raising awareness of the process of identity formation through personal reflection may help students to work through dilemmas and tensions associated with early internal identities and preconceptions. This may enhance positive development for a professional identity [19].
40. Helmich E, Yeh HM, Yeh CC, de Vries J, Tsai DF, Dornan T. Emotional learning and identity development in medicine: a cross-cultural qualitative study comparing Taiwanese and Dutch medical undergraduates. Acad Med. 2017;92:853–9.
Perspect Med Educ. 2018 Feb;7(1):40-46.
doi: 10.1007/s40037-017-0399-0.
Authoring the identity of learner before doctor in the figured world of medical school
1School of Medicine, Medical Sciences and Nutrition, University of Aberdeen, Foresterhill, Aberdeen, UK. evangeline.stubbing@abdn.ac.uk.
2Center for Education Development and Research in Health Professions, University Medical Center Groningen, Groningen, The Netherlands.
3Centre for Healthcare Education Research and Innovation, Institute of Education for Medical and Dental Sciences, University of Aberdeen, Foresterhill, Aberdeen, UK.
Introduction:Students enter the 'figured world' of medical school with preconceptions of what it means to be a doctor. The meeting of these early preconceptions and their newly developing identities can create emotional tensions. The aim of this study was to advance our understanding of how such tensions were experienced and managed. Using figured worlds as a theoretical framework we explored students' interactions of preconceptions with their newly developing professional identities in their first year at medical school. Advancing our understanding of this phenomena provided new insights into the complex process of identity formation.
Methods:This was a qualitative study underpinned by a constructivist epistemology. We ran biannual focus groups with 23 first year students in one UK medical school. Data were recorded, transcribed and then template analysis used to undertake an inductive, iterative process of analysis until it was considered the template provided a detailed representation of the data.
Results:Significant preconceptions associated with the identity of a doctor were 'to help' and 'to be a leader'. These early preconceptions were in conflict with realities of the figured world of medical school creating the emotional tensions of 'being unable to help' and 'lacking power', with implications for interactions with patients. By the end of year one students' negotiated tensions and 'self-authored' their identity as a learner as opposed to an imagined 'as if' identity of a doctor.
Discussion:We revealed how preconceptions associated with becoming a doctor can conflict with a newly developing professional identity highlighting the importance of supporting students to embrace the formation of a 'learner' identity, a necessary part of the process of becoming a doctor.
Keywords:Emotion; Figured worlds; Medical students; Professional identity formation; Qualitative research.
의사의 정체성 이행: '이도저도 아닌' 상태에 있기로 선택하다 (Med Educ, 2019)
Doctors’ identity transitions: Choosing to occupy a state of ‘betwixt and between’ Lisi Gordon1,2 | Charlotte E. Rees2,3 | Divya Jindal-Snape4
1 | 소개 1 | INTRODUCTION
의료 전문가는 자신의 경력 동안 수많은 이행transition을 경험한다.1-3 [사회 구성주의 관점]에서 이행은 [맥락, 대인 관계 및 정체성의 변화로 인해 시간이 지남에 따라 발생하는 심리, 사회 및 교육적 적응의 지속적인 과정]으로 정의할 수 있다.4 의사들의 전이 경험을 다중적이고 복잡하고 지속적인 것으로 개념화함으로써, 우리는 이러한 경험을 집중적인 학습을 위한 시기로 간주할 수 있다.4-10 Health care professionals experience numerous transitions during his or her career.1-3 From a social constructionist viewpoint, transitions can be defined as ongoing processes of psychological, social and educational adaptations over time necessitated by changes in context, interpersonal relationships and identities.4 By conceptualising doctors’ experiences of transitions as multiple, complex and ongoing, we can regard these experiences as times for intensive learning, but also as periods of increased stress and burnout.4-10
이전의 이행 연구는 [새로운 역할에 대한 공식 및 비공식 학습 기회의 증가]를 중심으로, [의사의 이행에 대한 개인화된 접근 방식]을 우선시하는 것으로 나타났습니다. 이는 의사 입장에서 [이행 경험을 탐색하는 과정]으로써, 의사의 안녕과 조직, 그리고 궁극적으로 환자에게 필수적인 것으로 여겨집니다. 이전의 연구는 [의사들의 과도기 경험]에 대한 지원과 도전들에 초점을 맞추었다면, 본 연구는 상위 단계 수련생의 [전문직업적 정체성 전환]과, 이 수련생들이 [이행 중의 의사]에 대한 이해를 높이고, 이에 대비하기 위해 [어떻게 한계성liminality을 경험하는지]에 초점을 맞추어 연구를 확대한다.
Previous transitions research suggests that priority be given to personalised approaches to doctors’ transitions, with increased opportunities for formal and informal learning about new roles.8 This is seen as fundamental to doctors’ well-being, to his or her organisation and ultimately to patients as doctors navigate transition experiences.8 Whereas previous research has centred on the support for, and challenges of, doctors’ transition experiences,5-10 this study extends this research by focusing on higher-stage trainees’ professional identity transitions and how such trainees experience liminality in order to better enhance understandings of, and provisions for, doctors in transition.
즉각적인 명확화를 위해, [사회 구성주의 관점]에서, 우리는 [전문직업적 정체성]을 [역동적으로, 대화와 상호작용을 통해 형성되고 재형성formed and reformed되는 것]으로 개념화합니다(정체성 작업identity work이라고도 함, 아래 참조).11 전통적 인류학적 의미에서 [한계성liminality]은 (여성 사춘기 통과의례와 같이) [의식화된 사건이 기존의 지위에서 새로운 지위로의 전환을 용이하게 하는 맥락에서 두 지위(예: 소녀도 아니지만, 아직 여성이 아닌) 사이에 존재하는 상태]를 설명하는 것으로 정의된다.12,13 따라서 상급 단계 수련생의 이행과정이라는 맥락에서, 리미널리티는 [수련생에서 훈련받은 의사로 이행하는 동안(예: 의사가 컨설턴트가 되는 경우)] 경험하게 되며, 이 때 의사에 대한 기대치의 변화가 수반된다. 그러나 우리는 한계성을 이 인류학적 정의보다 더 복잡한 방식으로 개념화하며, 이것을 아래에 상세히 기술한다. To offer immediate clarification, from a social constructionist perspective, we conceptualise professional identities as dynamic, and as formed and reformed through dialogue and interaction (also known as identity work; see below).11 Liminality, in the traditional anthropological sense, is defined as describing the condition of being betwixt and between two positions (eg, as not a girl but not yet a woman) in a context in which a ritualised occurrence facilitates the shift from an old to a new status, such as in female puberty rites of passage.12,13 Thus, within the context of higher-stage trainees’ transitions, liminality may be experienced during the transition from trainee to trained doctor (such as when a doctor becomes a consultant), alongside changing expectations of doctors that support these liminal experiences. We conceptualise liminality in a more complex manner than this anthropological definition, however, and we articulate this in detail below.
1.1 | 신원 확인 작업 1.1 | Identity work
첫째, 우리는 '정체성 작업identity work'이 의미하는 바를 명확히 표현합니다. 정체성 작업은 [전문직과 같은 특정 사회 집단의 구성원이 되는 사람들이 경험하는 지향적 과정orienting process]이라고 볼 수 있다.14 직업적 전환기 동안에 정체성 작업은 전면에 드러납니다.
개인적, 가족 구성원과 같은 중요한 타인으로써(개인적),
옛 동료와 새 동료로서(전문직업적),
여러 영역에서 복잡하고 역동적인 변화의 씨름으로써(사회적, 문화적, 심리적, 물리적).
First, we articulate what we mean by ‘identity work.' Identity work can be considered an orienting process experienced by people through which people become members of particular social groups such as professional ones.14 During times of workplace transition, identity work comes to the fore as
individuals and his or her significant others such as family members (personal), and
old and new colleagues (professional),
grapple with complex and dynamic changes in multiple domains (eg, social, cultural, psychological and physical).4,8
사회 구성주의 관점에서, [정체성]은 [언어, 상징, 의미와 가치의 집합을 포함한 다양한 방법으로 개인적 경험, 타인 및 조직을 통해 함께 그려진다].15 [정체성 작업]은 '...사람들이 그들의 정체성을 형성, 수리, 유지, 강화 및 수정하는 데 관여하는 것'을 말한다.16 From a social constructionist perspective, identities are drawn together through personal experiences, others and organisations in numerous ways, including through language, symbols, sets of meanings and values.15 Identity work refers to ‘… people being engaged in forming, repairing, maintaining, strengthening and revising their identities.'16
따라서, [정체성 작업]은 새로운 정체성을 개발하고, 묘사하고, 지원하기 위한 노력이다. 또한 정체성 작업은 [경합적인 대화]와 [다양한 경험] 사이의 상호작용에서 의미가 도출되는 성찰적 서술로 개념화할 수 있다. 개인은 특정 정체성 투사project할 수 있으며(즉, 정체성 주장claim identities), 다른 사람들은 이렇게 '투사된 정체성projected identities'를 진실authentic하다고(또는 진실되지 않다고) 지지하거나(예: 허용grant), 혹은 주장되거나 거절될claimed or rejected 특정한 정체성을 개개인에게 부여bestow on할 수도 있다. Thus, identity work endeavours to develop, portray and support new identities, and can be conceptualised as a reflexive narrative in which meaning is derived from interaction between contending dialogues and a range of experiences.17 Individuals will project certain identities (ie, claim identities), as others simultaneously support (ie, grant) those projected identities as authentic (or not) and may also bestow on individuals certain identities that may be either claimed or rejected.17-20
정체성 구성 과정에서 필수적인 요소로서, 이러한 [정체성 주장과 허용claims and grants]은 자아로부터 비롯되거나, 다른 사람의 말에서부터 비롯되거나, 그리고 비언어적 커뮤니케이션에서 비롯될 수 있다.21,22 그러한 정체성 구성은 그것이 [공동 구성]이든 [다른 사람과 경쟁을 벌이는 것]이든 간에 개인의 [자기 서술]의 일부가 된다.20,23 따라서 정체성 작업의 성과는 '맥락적 담론의 강점과 유연성pliability'에 의해 협상되고, 부여된 정체성에 대한 개개인의 해석을 통해 협상된다. 더욱이, 정체성 작업을 [개개인이 안전한secure 자아 의식sense of self을 위해 노력하는 일시적인, 선형적 과정]으로 개념화하는 것은 옳지 않다. 실제로, [직업적 불안]이나 [경력 전환]과 같은 상황은 사람들이 '자기 의식을 만들고, 확인하고, 분쇄하기 위해' 노력을 기울이는 정체성 작업를 촉진할 수 있다.
As vital elements in identity construction processes, these identity claims and grants can stem from self and other talk, plus non-verbal communication.21,22 Such identity construction, whether it is co-constructed or contested by others, becomes part of an individual’s self-narrative.20,23 The outcomes of identity work are, therefore, negotiated by the ‘strength and pliability of contextual discourses’ and through individual interpretations of identities granted.20 Furthermore, conceptualisations of identity work as a transient, linear process in which individuals strive towards a secure sense of self can be challenged.24 Indeed, situations such as job insecurity or career transitions may actually catalyse identity work, whereby people expend efforts to ‘create, confirm and disrupt a sense of self.'24
1.2 | 정체성과 경계성 1.2 | Identities and liminality
더 넓은 문헌을 탐구하면서 우리는 [커리어 전환]은 종종 ['내가 누구인가']에 대한 감각이 ['내가 누가 되고 있는가']라는 감각에 자리를 내주는 [역동적인 경계 단계dynamic liminal phase]에 의해 정의될 수 있음을 발견한다.25 경계성liminality에 대한 기존의 선형적 개념에서 벗어나, 현재는 [정체성 전환]이 덜 의식화되며, 새로운 정체성으로의 집합은 종종 불완전하게be partial 이뤄진다고 본다.
예를 들어, 경영학 문헌의 한 연구는 [낙하산 대원 지망생]에서 [낙하산 대원]으로의 전환을 묘사하고 있는데, 새로운 정체성에 대한 인식은 [대중 앞에서의 임관식]을 거치며 만들어지는 것이 아니라, [조용한 심사숙고 중]에 일어난다.
마찬가지로 영국(영국)에서도 의사들의 transitions out of traning은 교육 수료증(CCT)을 발급받고 전문의 등록부에 포함되는 [의례적인 절차]를 수반한다. 그러나, 의사들은 이러한 전환을 [지속적이고 복잡한 것]으로 경험하며, 단순히 CCT를 받는 것을 넘어서, [자기자신의 전문의로서의 새로운 의사 정체성을 인지]하는 데 어느정도의 시간이 걸린다는 것을 암시합니다.
Exploring the wider literature, we find that career transitions can often be delineated by a dynamic liminal phase, in which the sense of ‘who I am’ gives way to a sense of ‘who I’m becoming.'25 Moving away from traditional, linear notions of liminality, current conceptualisations suggest that identity shifts are less ritualised and aggregation to new identities can often be partial.26
For example, a study from the management literature articulates the shift from aspiring paratrooper to paratrooper, in which recognition of the new identity happens during quiet contemplation rather than through a public passing out ceremony.27
Similarly, in the United Kingdom (UK) doctors’ transitions out of training involve the ceremonial process of receiving a certificate of completion of training (CCT) and inclusion on the specialist register.
However, our research suggests that doctors experience this transition as ongoing and complex such that his or her personal recognition of his or her new specialist doctor identity takes time beyond the simple receiving of a CCT.8
이러한 [중간상태in-betweenness]는 시공간적으로 한정되어 불확실성과 연계되어 있는 듯 하다.26-30 따라서, [리미널리티]는 종종 '사회 제도에서 자신의 내면적 자아와 위치에 대한 현저한 교란'으로 묘사된다. 26-30 연구자들은 그러한 교란이 개인들로 하여금 [강렬한 정체성 작업]을 통해 [리미널(경계적) 지위를 해결할 필요]가 있게 할 수 있다고 주장한다.30 실제로, 개인은 이러한 [경계 공간을 가로질러 이동]하기 위해 자신과 다른 사람들에게 중요한 방식으로 정체성을 개발합니다. Beech는 상당한 경계 기간을 경험하는 사람들은 과거, 현재, 미래를 언급함으로써 [시간순적으로 위치를 잡기도position themselve 한다]고 주장한다. [(과거에 대한) 자기 성찰]과 [미래 자아 투사]를 통해 리미너liminar는 리미너 공간liminal space을 벗어나기 위해 [앞뒤를 동시에 바라보는 것]으로 볼 수 있다. 이러한 방식으로 개념화된 리미널리티는 ['일시적'인 것]으로 생각된다. This state of in-betweenness is seen as bounded in space and time and linked to uncertainty.26-30 Thus, liminality is often portrayed as something that ‘significantly disrupts one’s internal sense of self and place in a social system.'26-30 Researchers argue that such disruptions can bring individuals to need to resolve his or her liminal status through intense identity work.30 Indeed, individuals develop identities in ways that are important to themselves and others in order to move across these liminal spaces.23,26 Beech argues that people experiencing significant periods of liminality also position themselves chronologically by referring to the past, present and future.26 Through engagement in self-reflection and projecting a future-self, these liminars can be seen as simultaneously looking forwards and backwards in order to move out of the liminal space. Liminality, conceptualised in this way, is thought to be 'temporary.'26,31,32
그러나 Ybema 등은 [영구적 리미널리티perpetual liminality]의 개념을 도입함으로써 리미널리티에 대한 보다 복잡하고 사회적인 이해를 설명하였다. [영구적 경계성]은 개인이 [상황적, 사회적, 시간적 관련성relevant을 갖기 위해 정체성 확인 작업을 수행하는 상태]를 말한다.23 영구적 경계성은 [비정규직 근로자(예: 대리 의사)]와 [이중 역할 전문가(예: 의사-관리자)]와 같이 지속적인 중간 상태를 경험하는 근로자에게 가장 뚜렷하게 나타난다.32-34 일시적 경계성은 '더 이상 X-가 아니지만 아직 Y도 아니다'라는 느낌을 만드는 반면, 영구 한계성은 'X-도 아니고 Y도 아닌 존재' 또는 'X-와 Y가 모두 되는 것'이라는 [지속적인 느낌]을 만들어낸다.23 일시적 경계성과 마찬가지로, 영구적 경계성은 흔히 다른 사람들에 의해 부과되며, 소위 경계의 브리콜루어(브리콜라지를 하는 사람)라고 불리는 사람이 되는 것이다. 브리콜루어는 [정체성 작업]을 사용하여 '시시각각 시간에 서로 다른 관객들에 따라 자신에게 다른 역할을 주기cast and recast'를 한다.
Ybema et al,23 however, have described more complex and social understandings of liminality by introducing the notion of perpetual liminality. Perpetual liminality is a state in which individuals undertake identity work to make themselves contextually, socially and temporally relevant.23 This perpetual liminality is most evident in workers experiencing enduring in-betweenness, such as impermanent workers (eg, locum doctors) and dual-role professionals (eg, clinician-managers).32-34 Whereas temporary liminality creates a feeling of ‘not-X-anymore-butnot-yet-Y,' perpetual liminality creates an ongoing sense of ‘being neither-X-nor-Y’ or ‘being both-X-and-Y.'23 As with temporary liminality, perpetual liminality is often imposed by others, with individuals becoming so-called boundary bricoleurs, who use identity work to ‘cast and re-cast themselves to different audiences at different times.'23,35
[일시적 경계성]에 대한 이해가 선형적이라면, [영구적 경계인]은 [이전과 새로운 자아에 대한 시간적 성찰에 덜 의존]한다.23 대신, 그들은 [지속적으로 정체성을 전환]함으로써 즉각적인 경쟁적 요구와 충성도에 대응하고, 따라서 [지속적인 예측 불가능을 경험]하고 사회적인 '노맨스 랜드'에 거주하는 것에 익숙해진다. 그들은 '노맨스 랜드'를 '충성을 쌓는 운영 기반'으로 활용한다. 문헌에 따르면, 이러한 장기간 지속되는 경계감은 [불확실성과 중간성의 지속적인 감정]을 통해서 [부정적인 정서적 결과]를 초래할 수 있다.
In a manner that differs from more linear understandings of temporary liminality, perpetual liminars rely less on temporal reflections of their old and new selves.23 Instead, they respond to immediate competing demands and loyalties by continuously switching identities, thus experiencing lasting unpredictability and growing accustomed to inhabiting a social ‘no-man’s land,' which they employ as an ‘operating base to build allegiances.'23 The literature suggests that this long-lasting sense of liminality can lead to negative emotional consequences as a result of ongoing feelings of uncertainty and in-betweenness.'29, 35
1.3 | 리미날리티 및 의료 교육 1.3 | Liminality and health care education
상위 의학 교육 저널의 키워드 검색('리미날*' 용어를 사용)에서는 학습자가 전문적 정체성을 개발하는 데 어려움을 겪는 어려운 지식troublesome knowledge에 어떻게 직면하는지에 대해 [학부 학습의 임계값 개념]에 대해 상당한 연구가 존재한다는 것을 보여줍니다.36,37 [지식의 임계값 개념]은 학습자가 (종종 적절하다고 여겨지는 행동을 모방하는 것처럼) 진실성 부족을 경험할 때 [반드시 거쳐야 하는 포털]에 비유되며, [경계성 시기liminal phase]로 묘사될 수 있다.38 학습자의 초점은 이러한 [문턱을 넘어서 학습자가 개념과 세계를 인식하는 방식을 바꾸는 [변혁적 학습]]에 있습니다. .37 이러한 의료 교육 연구 영역은 종종 정확한 임계 개념의 목록(예: 돌봄 또는 책임)을 얻는 데 초점을 맞춘다.39-42 A keyword search (using the term ‘liminal*’) of top medical education journals reveals that considerable research exists around threshold concepts in undergraduate learning with reference to how learners are confronted with troublesome knowledge that challenges his or her developing professional identities.36,37 The notion of knowledge as threshold is likened to a portal through which learners must travel when experiencing a lack of authenticity, often imitating behaviours considered appropriate, and described as a liminal phase.38 The focus for learners is on moving through these thresholds and on to transformational learning, which changes the ways learners perceive concepts and the world around them.37 This sphere of health care education research often centres on obtaining a definitive list of threshold concepts (eg, caring or responsibility).39-42
그러나 여기에는 확인되지 않은 질문이 있다. 바로 학습자가 [문제 지식]에서부터 [경계 단계]를 거쳐 [혁신적 학습]에 다다를 것이라는 생각(즉, 일시적 경계성)이다. 예를 들어, 브라운 외 연구진은 두 정체성 사이의 일시적 경계성 단계를 stressful하다고 표현하기 위해 [의료 전문가에서 교육자로의 전환]에 대한 선형적 개념화를 사용했다.43 다른 이들은 논의 물리적 공간을 [경계적liminal]이라고 초점을 두었다. 예를 들어서, 병원 복도와 같은 곳을 토론과 지식 교환과 비공식 학습을 위한 [경계성 공간]으로 본다거나, 어떻게 새로운 의과대학 건물이 [전문직]과 [대학] 사이의 경계 공간이 되는가를 연구했다.44,45
Relevant here, however, is the unquestioned notion in this literature that learners will progress from troublesome knowledge through a liminal phase to transformational learning (so, temporary liminality).36 For example, Browne et al used a linear conceptualisation of the transition from medical professional to educator to describe the temporary liminal phase between the two identities as stressful.43 Others have focused on physical spaces as liminal, such as the hospital corridor as a liminal space for discussion, knowledge exchange and informal learning, or how a new medical school building becomes a liminal space between the profession and the university.44,45
1.4 | 연구 목적 및 연구 질문 1.4 | Study aims and research questions
우리의 연구 질문은 다음과 같습니다. Our research questions are:
1. 수련생이 훈련한 전환 과정을 거치면서 의사가 설명하는 경계적 경험(및 이와 관련된 정체성 작업)은 무엇입니까? 1. What liminal experiences (and associated identity work) do doctors narrate as he or she moves through trainee-trained transitions?
2. 훈련생으로 전환되는 동안 경계적 경험(및 이와 관련된 정체성 작업)은 시간이 지남에 따라 어떻게 변화합니까?2. How do liminal experiences (and associated identity work) change over time during trainee-trained transitions?
2 | 방법 2 | METHODS
2.1 | 연구 설계 2.1 | Study design
본 논문은 수련생으로 양성된 의사들의 전환을 탐구하는 보다 폭넓은 종단적 서술연구에서 나온 것이다.8 종단적서술 탐구를 통해 시간이 지남에 따라 각 참가자들의 독특한 경험을 탐구할 수 있었다.46 종방향 오디오 다이어리(LAD)는 스토리텔링을 전경화하고 출입구 인터뷰와 함께 참가자가 세로 방향으로 깊이 있는 경험을 탐색할 수 있도록 지원하기 때문에 변경 시 감지 도구로 특히 적합합니다.46,47 This paper comes from a wider longitudinal narrative study exploring trainee-trained doctors’ transitions.8 Longitudinal narrative inquiry allowed us to explore the unique experiences of each participant over time.46 Longitudinal audio-diaries (LADs) are particularly applicable as sense-making tools during times of change because they foreground storytelling and, used alongside entrance and exit interviews, help participants to explore his or her experiences in depth longitudinally.46,47
2.2 | 샘플링 및 모집 2.2 | Sampling and recruitment
영국 의사들은 대학 졸업 후 일반적으로 2년간의 Foundation 교육을 받은 후 [전공과목specialty 교육]으로 옮기기 시작하는데, 전문 분야에 따라 3년에서 8년 사이의 기간이 소요될 수 있습니다. 전문대학 평가의 성공적인 완료에 따라, 수습생은 [CCT를 취득]하고 [전문의 등록부specialty register]에 등록됩니다. 우리는 의도적으로 향후 6개월 이내에 CCT를 확보할 것으로 예상되는 영국의 수련의들을 표본 추출하여 수련의들이 수련을 받은 경험을 종적으로 탐구할 수 있도록 했습니다. 본 논문의 목적상, 우리는 이러한 의사들을 전체적으로 '훈련된 의사들trained doctor'이라고 설명한다. 훈련 완료 후 여러 가능한 목적지를 설명하는 일반 용어이기 때문이다(예: 컨설턴트, 일반의사 [GP], 임상 펠로우).
Following university graduation, UK doctors typically begin postgraduate training with 2 years of Foundation training before moving to specialty training, which can take anything between 3 and 8 years (depending on the specialty). Following the successful completion of specialty college assessments, the trainee achieves a CCT and is placed on the specialty register. We purposely sampled UK trainee doctors expected to secure CCTs within the following 6 months to allow us to longitudinally explore doctors trainee-trained experiences. For the purposes of this paper, we describe these doctors throughout as ‘trained doctors’ as this is a generic term accounting for multiple possible destinations following completion of training (eg, consultant, general practitioner [GP], clinical fellow).
2.3 | 데이터 수집 2.3 | Data collection
초기 면접에서 참가자들은 전환에 대한 이해도와 다가오는 전환에서 기대하는 바를 질문 받았다. 참가자들은 또한 지금까지의 훈련 경험을 되새기고, 훈련된 전환 준비에 어떤 영향을 미쳤는지에 대해 토론했습니다. 그런 다음 참가자들은 LAD 단계에 참여하도록 초대되었습니다. 이 단계에서 참가자들은 6~9개월에 걸쳐 훈련받은 전환 경험과 관련된 이야기, 생각, 성찰 등을 기록하도록 요청받았다. At entrance interview, participants were asked about his or her understanding of transitions and what he or she expected from his or her upcoming transitions. Participants also reflected on his or her training experiences to date and discussed what influenced his or her readiness for trainee-trained transitions. Participants were then invited to participate in the LAD phase. During this phase, participants were asked to record stories, thoughts and reflections pertaining to trainee-trained transition experiences over 6-9 months.
표 1은 세 단계에 걸쳐 수집된 데이터와 각 참가자에 대한 인구통계 정보를 보여줍니다. Table 1 depicts the data collected across the three phases, as well as demographic information for each participant.
2.4 | 데이터 분석 2.4 | Data analysis
우리는 먼저 프레임워크 분석을 사용하여 데이터 집합의 광범위한 테마를 유도적으로 식별했다.51 이 테마 분석에는 여러 단계가 포함되었다.
(a) 광범위한 연구팀(승인서 참조)의 구성원은 반복적인 기록 탐사와 오디오 녹음을 통해 데이터에 익숙해졌다.
(b) 주제 프레임워크는 각 연구팀이 데이터의 하위 집합을 별도로 분석하고 주요 테마를 제안하도록 한 다음, 팀이 코딩 프레임워크에 대한 고차 주제를 함께 협상할 수 있도록 함으로써 개발되었다.
(c) 이러한 고차 테마는 atlas.ti 버전 7.0(ATLAS.ti, 과학 소프트웨어 개발 GmbH, 독일 베를린)을 사용하여 모든 데이터를 코드화하기 위해 사용되었다. 가장 중요한 주제는 의사 수련생이 훈련한 전환의 다양한 경험에 보다 광범위하게 초점을 맞추고 전환에 대한 촉진자 및 억제자를 식별했다.8
We first used framework analysis to inductively identify broad themes in our dataset.51 This thematic analysis involved several stages:
(a) members of the wider research team (see Acknowledgements) familiarised themselves with the data through repeated explorations of transcripts and audiorecordings;
(b) a thematic framework was developed by having each research team member separately analyse a subset of data and propose key themes and then allowing the team to negotiate higher-order themes for the coding framework together, and
(c) these higher-order themes were utilised to code all data using atlas.ti Version 7.0 (ATLAS.ti, Scientific Software Development GmbH, Berlin, Germany). The overarching themes focused more broadly on the multiple experiences of doctors’ trainee-trained transitions, identifying facilitators and inhibitors to transitions.8
3 | 결과 3 | RESULTS
세 가지 학습 단계를 모두 마친 참가자들은 [전공의trainee]에서 [전문의trained doctor]로의 이행과정에서 자신의 정체성과 관련된 경계성을 경험했다. 이전 문헌과 일관되게 데이터 분석을 통해 참가자의 경험에서 일시적이고 영구적인 경계성을 파악할 수 있었습니다. 그러나 참가자의 정체성 대화에 대한 세분화된 분석을 통해 우리는 새로운 한계 경험, 즉 훈련된 의사 지위와 관련된 [다른 사람들로부터의 정체성 부여를 적극적으로 거부]하는 일부 참가자의 여정에서 포인트를 식별할 수 있었습니다. 대신, 참가자들은 (수련생도 훈련된 의사도 아닌) 자신의 [경계적 지위를 유지]하거나 [적극적으로 수련생 신분을 유지]하는 정체성 작업에 착수했다. 우리는 이러한 새로운 유형의 리미날리티를 [점유적 리미날리티occupying liminality]로 설명한다. All participants completing the three study stages experienced liminality related to his or her identity as he or she moved from trainee to trained doctor. Consistent with previous literature, our data analysis enabled us to identify temporary and perpetual liminality in participants’ experiences. However, fine-grained analysis of participants’ identity talk also enabled us to identify novel liminal experiences: points in some participants’ journeys at which he or she actively rejected identity grants from others associated with his or her trained doctor status. Instead, participants undertook identity work that either maintained his or her liminal positions (as neither trainee nor trained doctor) or that actively maintained a trainee identity; we describe this novel type of liminality as occupying liminality.
3.1 | 일시적인 한계성을 설명하는 의사들 3.1 | Doctors narrating temporary liminality
대부분의 의사들은 자신의 이행단계에 걸쳐 [일시적 경계성 정체성]을 서술했다; 이것은 이미 자리trained post를 확보했지만, 아직 시작을 기다리고 있는 의사들에게 특히 관련이 있었다. 이 시점에서 이들 참가자들은 CCT에 대한 서류 작업을 완료하고 새로운 역할에 대한 기대를 가지고 있었지만, 또한 경험에 대한 반성을 하고 있었다. 예를 들어, Andrew는 [정체성 작업]을 통해 컨설턴트로서 첫 당직 근무를 할 수 있다는 자신감을 나타냈습니다(표 2, 견적 1). 돌이켜보면, 그는 (다른 사람들이 그에게 컨설턴트 신분을 부여하는 것과 함께) 컨설턴트 역할을 했던 이전의 경험이 자신을 잘 준비시켜주었다는 것을 깨달았다.
Most doctors narrated temporary liminal identities at some point across his or her transitions; this was particularly pertinent for doctors who had already secured trained posts but were waiting to start them. At this point, these participants had completed the paperwork for the CCT and were looking forward to the new roles but were also reflecting backward on the experiences. For example, Andrew used identity work to project his confidence in doing his first on-call shift as a consultant (Table 2, Quote 1). Looking backwards, he recognised that his previous experiences of acti ng up as a consul tant (wi th others granti ng hi m a consul tant identity) had prepared him well.
[일시적 경계성 단계]에서, 일부 의사들은 [공식적인 CCT 서류 작업]이 어떻게 완료되었는지 설명했지만, 아직 공식적인 역할을 시작하지는 못했다고 말했습니다([서류 작업 완료]와 [실질적인 '훈련된trained' 직책을 맡는 것] 사이의 이 시차time lag는 영국에서 일반적이다). Steven's와 Arun의 경험에서 확인된다 (표 2, 인용문 2, 3). 임상진료clinical practice에 초점을 맞춘 이러한 각각의 경험에서, 두 의사는 자신의 [훈련된 의사]의 신분을 주장하면서도, 여전히 다른 사람의 신분을 허락받기를 기다리고 있었다. Some doctors in this temporary liminal phase described how his or her formal CCT paperwork was complete, but that he or she were yet to start his or her formal roles (this time lag between the completion of paperwork and the taking up of a substantive ‘trained’ post is common in the UK), as illustrated by Steven’s and Arun’s experiences (Table 2, Quotes 2 and 3). In each of these experiences, focused on clinical practice, both doctors claimed his or her trained doctor identities but were still waiting for others’ grants of these identities.
다른 의사들은 이 경계성 기간liminal period 동안 그들이 새로운 [컨설턴트 신분]을 주장할 수 있도록 돕는 [의식ritual의 중요성]을 설명했습니다. 이는 특히 George가 논의한 바와 같이, 아직 수련 현장에 남아 있는 상황에서 [시니어 역할]로 이동하는 것을 보여준다signify는 점에서 중요했습니다(표 2, 인용 4). Other doctors described the importance of rituals (eg, celebrations with colleagues) in helping them claim his or her new consultant identities through this liminal period. This was especially important to signify doctors moving into senior roles in contexts in which he or she remained at the site of his or her training, as discussed by George ( Table 2, Quote 4).
어떤 이들은 일시적인 경계성의 경험을 [긍정적으로 묘사]한 반면(예: Andrew, Steven, Arun 및 George[표 2, 인용문 1-4]), 다른 이들은 [trained doctor 신분의 부여가 다른 사람들에 의해 억제된다]고 인식하면서 좌절감을 경험했다. 예를 들어, 헤더는 자신이 컨설턴트로서 기능하고 있다고 설명함으로써 컨설턴트 신분을 스스로 주장했지만, 그녀는 또한 자신이 여전히 훈련생이라고 설명했으며, 다른 사람들이 [중요한 의사결정 회의에서 자신을 배제함]으로써 컨설턴트 정체성 인정identity grants를 보류했다고 보고했다(표 2, 인용 5). Whereas some described the experiences of temporary liminality positively (eg, Andrew, Steven, Arun and George[Table 2, Quotes 1-4]), others experienced frustration as he or she perceived that grants of trained doctor identities were withheld by others. For example, although Heather claimed a consultant identity for herself by explaining that she was functioning as a consultant, she also described that she was still a trainee and reported that others withheld consultant identity grants to her by excluding her from important decision-making meetings (Table 2, Quote 5).
어떤 의사들은 종종 [이중 역할의 소유]를 통해 [영속적 경계성]을 이야기했다. 예를 들어, 임상 관리자 역할을 맡았던 Petra는 다른 사람들이 다양한 환경에서 자신을 어떻게 보는지에 대해 논의했습니다(표 3, 인용문 1). 영국에서 새로 교육을 받은 의사에게 이러한 역할은 드문 일이지만, 국유화되지 않은 의료 시스템에서 의사가 교육 후 즉시 관리 책임을 지는 것은 드문 일이 아닙니다. 먼저, 페트라는 managerial role을 수행함에 있어서, 자신이 그 팀이나 직장의 [확고한fixed 구성원이 아니라는 점]을 감안하여 임상의로서의 [집중적인 정체성 작업]을 사용하여 [다른 임상의와 관계를 구축]하는 방법에 대해 이야기했습니다. Some doctors narrated perpetual liminality, often through the possession of dual roles. For example, Petra, who had a clinical manager role, discussed how others saw her in the different environments (Table 3, Quote 1). Note that although this role is unusual in the UK for a newly trained doctor, it is not unusual in non-nationalised systems of health care for doctors to have management responsibilities immediately post-training. First, Petra talked about how, in her managerial role, she used intensive identity work as a clinician to build relationships with other clinicians given that she was not a fixed member of that team or workplace.
둘째, 패트라는 자신이 운영회의management meeting에 참석했을 때 다른 사람들이 자신을 매니저로만 생각해서, 그녀도 임상의라는 사실을 잊은 채 어떻게 다른 임상의들에 대해서 불만을 늘어놓았는지를 이야기했다. 그러나 페트라는 자신을 임상의이자 관리자로 보았고, 이러한 두 세계의 경험을 통해 [서로 다른 집단의 관점을 중개하려고 노력]했습니다. 또 다른 참가자인 [GP 임상 학자clinical academic]인 프레디는 Petra와는 다른 방식으로 영구적 경계성을 경험했습니다. 가정의학 개업의 자격을 갖춘 GP로 매주 하루씩 소속된 Freddie는 근무 시간 이외의 회의에 참석하는 등 임상 팀의 일원으로 자리매김하기 위해 정체성 작업에 착수했습니다(표 3의 인용문 2). 이와 함께 그는 임상학자의 역할 8개월 만에 연구 기간이 끝날 때까지 임상학자clinical academic로서 자신의 정체성에 의문을 품었다. 실제로, 그의 정체성 투쟁은 [임상 실무의 정규직]도 아니고, [학계의 정회원도 아닌] 그의 감정을 반영했다(표 3, 인용 3). Second, she described how, when sitting in management meetings, others saw her as a manager, forgetting that she was also a clinician as the others complained about clinicians. Petra, however, saw herself as someone who was both a clinician and a manager and used this experience of both worlds to try and broker the different group views. Another participant, Freddie, a GP clinical academic, experienced perpetual liminality in a different way to Petra. Affiliated for 1 day per week as a qualified GP to a family medicine practice, Freddie undertook identity work to try to establish himself as part of the clinical team, such as by going to meetings outside his working hours (Table 3, Quote 2). Alongside this, he questioned his identity as a clinical academic until the very end of his time in the study, 8 months into his clinical academic role. Indeed, his identity struggles mirrored his feelings of being neither a full-time member of the clinical practice nor a full member of the academic community (Table 3, Quote 3).
일부 참가자가 [점유적 경계성]을 서술하는 것으로 판명된 한 가지 방법은, [영구적 경계인]으로 능동적으로 포지셔닝하는 커리어 선택을 통해서였다. 이러한 선택의 이유에는 [훈련된 의사 책임]에 대해 더 준비가 되어 있다고 느낄 때까지 기다리려는 욕구와 유연하게 일하고 싶은 욕구가 있었다. 예를 들어, Julie는 자신을 '물 건너가기treading water'라고 표현했습니다(더 영구적인 자리를 원할 때까지 지역 훈련 기관에서 시간제로 일하도록 지원하는 GP). 그녀는 아직 자녀가 매우 어리고, 파트타임으로 일했기 때문에, GP 파트너가 됨으로써 따르는 책임을 원치 않았고, 그래서 그녀는 경계적인 역할을 선택했습니다(표 4). 인용문 1).
One way by which we identified some participants as narrating occupying liminality was through his or her career choices as participants actively positioned themselves as perpetual liminars. The reasons for these choices included a desire to wait until he or she felt more ready for trained doctor responsibilities and a wish to work flexibly. For example, Julie described herself as ‘treading water’ as a retained GP (a GP funded by the local training body to work part-time until he or she wants a more permanent position), and as choosing to be in a liminal role as she did not want the responsibility of being a GP partner as her children were very young and she worked part-time (Table 4, Quote 1).
마찬가지로, 외과의사인 루시는 자신의 전공분야specialty에 머물고 싶은지 결정하기 위해 1년 동안 임상연구원을 선택했다(표 4, 인용문 2). 또 다른 GP인 Jason은 업무 유연성을 유지하고 다양한 직업 환경을 경험하기 위해 대리의사locum으로 일하기로 결정했습니다(표 4, 견적 3). 흥미롭게도, 모든 종단적 데이터 집합에서, 우리는 연구참여자들이 [훈련된 의사로서의 정체성에 대한 주장 또는 인정을 거부rejected]한 무수한 사례를 확인할 수 있었다. 예를 들어, Morag와 Megan은 [전문의 정체성의 수여grants를 거부하기 위해] 정체성 작업을 사용했다.
Similarly, Lucy, a surgeon, chose to be a clinical fellow for a year in order to decide whether she wanted to stay in her specialty (Table 4, Quote 2). Another GP, Jason, chose to work as a locum to maintain work flexibility and to experience different occupational environments (Table 4, Quote 3). Interestingly, across our longitudinal dataset, we were able to identify numerous occurrences within and across participants in which he or she rejected claims and/or grants of his or her trained identities. For example, both Morag and Megan used identity work to reject grants of the consultant identities;
더욱이, 일부 참여자들은 [과거에 동료]였지만 [지금은 후배]가 된 동료들과의 관계 변화에 대응하기 위해 정체성 작업을 수행했음을 이야기했다. 예를 들어, Anna는 동료들 중 한 명이 이제 Anna가 컨설턴트가 된 것을 '무서워했음'을 알게 되었다고 설명했으며, Anna는 이러한 동료 관계를 유지하기 위해 정체성 작업을 사용했다고 한다(표 4, 인용 6). 에이미의 일기장에서, 그녀는 이전에 그녀의 [교육 감독관]이었던 컨설턴트 동료와의 관계가 변한 것에 대해 논의했다. 이 일기들을 통해 에이미는 이런 상황에서, 자신의 [컨설턴트 정체성을 거부하는 것을 선택]했다고 밝히면서, 이전 교육 감독관과의 관계에서는 연습생trainee 정체성을 차지occupy하는 것을 선호했다. 에이미는 자신의 다이어리에 정체성 작업을 통해 이를 통해 컨설턴트 동료의 지원을 여전히 원하지만, [더 이상 감독받고자 해서는 안 된다는 생각]에 대해서 어려움을 겪고 있다고 주장했다(표 4, 인용문 7). Moreover, some participants discussed undertaking identity work in order to respond to changing relationships with colleagues who had previously been peers but were now more junior. For example, Anna explained that one of her peers found it ‘scary’ that Anna was now a consultant, and Anna employed identity work to try and maintain this peer relationship (Table 4, Quote 6). In Amy’s diaries, she discussed the changed relationship she had with a consultant colleague who had previously been her educational supervisor. Through these diaries, Amy revealed that she was choosing to reject her consultant identity in this circumstance, preferring to occupy a trainee identity in her relationship with her previous educational supervisor. Amy employed identity work in her diaries to talk through this, positioning herself as a trainee by claiming that she still wanted support from her consultant colleague and was struggling with the (self-imposed) notion that she should not be seeking supervision anymore (Table 4, Quote 7).
3.4 | 카렌의 종단적 이야기 3.4 | Karen’s longitudinal story
3.4.1 | 카렌의 일시적 한계: 더 이상 연습생도 아니고 컨설턴트도 아닙니다. 3.4.1 | Karen’s temporary liminality: No longer a trainee but not a consultant either
카렌이 연구를 시작한 지 두 달째 되던 해, 그녀는 CCT를 받는 공식적인 의식을 거쳤다. 그녀는 그것을 '약간의 안티-클라이막스(LAD 4)'라고 묘사했고, 그녀의 훈련 병원에서의 유예 기간grace period으로 들어갔다(그림 1). 이번 유예기간 동안 카렌은 경계적이었다. 더 이상 trainee는 아니었지만, 아직 consultant도 아니었다. 이 경계 단계(시간 제한적이고 일시적) 동안, Karen은 자신을 유능하고 대학적인 사람으로 강조함으로써 미래의 컨설턴트 자신을 투영하기 위한 자신의 정체성 작업을 설명했습니다(표 5, 인용문 2, 3). In Karen’s second month in the study, she moved through the formal ritual of receiving her CCT, which she described as ‘a slight anticlimax’ (LAD 4) and into her grace period at her training hospital (Figure 1). Through this grace period, Karen was liminal; she was no longer a trainee, but she was not yet a consultant. During this liminal phase (time-bound and thus temporary), Karen described her identity work to project her future consultant self through emphasising herself as competent and collegiate (Table 5, Quotes 2 and 3).
카렌이 이 유예 기간을 거치면서, 그녀의 어조는 리미나로서의 불확실성을 강조하기 위해 바뀌었다. 카렌은 자신이 유예기간에 갇혔으며 컨설턴트로서의 일을 제안하기 위해 (높은 지위의) 다른 사람들에게 완전히 의존하고 있다고 자신을 표현했다.
As Karen moved through this grace period, the tone of her LADs shifted to emphasise her uncertainty as a liminar (and its associated stresses). Karen presented herself as trapped in her grace period and as having complete reliance on others (of higher status) to offer her work as a consultant.
이 기간 동안 카렌은 자신의 유예 기간이 끝날 때까지의 기간에 대해 모든 일기에서 언급했다(표 5, 인용문 4).또한, 카렌의 정체성 작업은 가속화되었습니다. 예를 들어, 그녀는 자신이 팀 플레이어이며 일을 완수하는 리더임을 보여줄 수 있는 기회로 보았기 때문에 연례 직원 이벤트를 이끌겠다고 자원했습니다(예: 시간이 제한에도 불구하고). 게다가 카렌은 자신의 일기에서 자신의 훈련 환경에서 컨설턴트 자리를 확보할 수 있는 가능성에 대해 많은 대화를 나누었다고 보고했다.
During this, Karen remarked in every diary on how long it was until the end of her grace period (Table 5, Quote 4). Additionally, Karen’s identity work accelerated; for example, she volunteered to lead an annual staff event (despite having limited time) because she saw this as an opportunity to show herself to be a team player and a leader who gets things done (Table 5, Quote 5). Furthermore, Karen reported in her diaries numerous conversations about the possibility of securing a consultant position in her training setting.
카렌의 정체성 작업을 볼 때, 카렌이 (스스로를) 그 부서 내에서 '컨설턴트 의사'로 주장하였음을 볼 수 있는데, 이 주장은 의사결정 과정에서 중요한 다른 이해관계자들에 의해 인정되고 있었다(표 5, 인용문 6). 카렌은 일자리를 찾기 위한 다른 사람들의 불확실한 '망토와 단도' 성격으로 묘사된 것과 씨름했다. 정보에 부분적으로만 접근할 수 있었던 그녀는 정보를 공유하는 데 다른 사람들에게 의존했고, 선임 컨설턴트로부터 중요한 리더십 정체성 부여를 거절당했음이 틀림없었다(표 5, 견적 7).
In terms of her identity work in her audio-diaries, we can see Karen’s claims as ‘consultant doctor’ within that unit, which were being acknowledged by other stakeholders important in the decision-making process (Table 5, Quote 6). Karen struggled with what she described as the uncertain ‘cloak and dagger’ nature of others’ attempts to find her a job. Having only partial access to information, she relied on others to share information, and was arguably denied important leadership identity grants from senior consultants (Table 5, Quote 7).
마침내, 다행스럽게도, 그녀의 유예 기간이 끝난 다음날 그녀는 안식년을 보내는 또 다른 컨설턴트의 자리를 대신할 하숙 컨설턴트 자리를 제안받았다. 이것은 캐런이 새로운 컨설턴트 일을 시작하는 것과 그녀가 대신할 사람의 퇴사 사이에 겹치는 것을 의미했다. 카렌은 이 소식에 의기양양했지만 일기장에서 유예기간이 얼마나 스트레스가 많았는지 되새겨 보았다(표 5, 인용문 8).
Finally, and much to Karen’s relief, the day after her grace period ended she was offered a job as a locum consultant, covering for another consultant who was going on sabbatical. This meant that there was an overlap between Karen’s starting of her new consultant job and the leaving of the individual she was replacing. In her diary entry, although elated by this news, Karen reflected back on how stressful the grace period had been (Table 5, Quote 8).
3.4.2 | 카렌은 경계성을 점유하였다: 컨설턴트가 되지만 아직 컨설턴트가 되지 않음 3.4.2 | Karen occupies liminality: Being a consultant but not yet becoming a consultant
새로운 컨설턴트 역할을 시작한 후, 카렌은 한 달 동안 오디오 일기를 제출하지 않았다. 다음 일기에서 그녀는 컨설턴트로서 첫 경험을 되새겼다. 카렌의 정체성 작업은 그녀가 유능하고 팀플레이어이며 리더라는 것을 입증하는 일에서 '컨설턴트라고 불리는 것이 마치 거짓말을 하는 것 같음'를 느끼고, 다른 사람들이 자신에게 컨설턴트 신분을 부여하는 것을 거부하였다. 실제로, 그녀는 [간단한 환자를 맡고 싶다는 자신의 희망]과 [복잡한 환자를 맡아서 변화를 일어켜주길 바라는 동료의 신념]을 대조했다. 따라서 우리는 그녀가 다른 사람이 부여하는 컨설턴트 정체성을 거절하는 것을 목격하였으며, 카렌은 스스로 이 정체성을 주장할 때 까지는 시간이 필요하다고 말한다(표 5, 인용구 9). After starting her new consultant role, Karen did not submit an audio-diary for a month. In her next diary, she reflected on her first experiences as a consultant on call. Karen’s identity work shifted in emphasis from working to demonstrate that she was competent, a team player and a leader (as discussed previously) to someone who ‘felt a bit of a fraud being called the consultant’ and rejected others’ grants of her new consultant identity (LAD 15, Month 9). Indeed, she contrasted her hopes for simple cases when on call with her colleague’s beliefs that she should be hoping for complicated cases so that she could make a difference. We therefore see her rejecting others’ granting of her consultant identity, stating that she requires time to claim this identity for herself (Table 5, Quote 9).
카렌은 직장 내 선배 trainee들과의 관계와 컨설턴트가 되는 데 내재된 교육자 역할에 자신이 발을 들여놓을 것이라는 기대감에 대해서도 이야기했다. 캐런은 퇴사 인터뷰에서, 현재 다른 사람이 자신에게 [교육자-컨설턴트 정체성]을 부여하는 것을 거부하고 있으며, 자신의 외과적 자신감과 전문지식을 키우기 위해 시니어 수련생들과 어려운 수술 사례를 놓고 경쟁하고 있다고 설명했습니다(표 5, 인용문 10). Karen also talked about her relationships with senior trainees within the workplace and the senior trainees expectations that she would step into the educator role inherent in being a consultant. In her exit interview, Karen simultaneously claimed a learner-trainee identity and rejected others’ grants of her now educator-consultant identity, describing herself as in competition with her senior trainees for difficult theatre cases in order to develop her own surgical confidence and expertise (Table 5, Quote 10).
마지막으로, [자기 자신]과 [그녀가 대신하는 동료] 간의 오버랩은 캐런이 직장 내에서 자신의 위치에 대해 느끼는 감정에 영향을 미치는 것으로 보였습니다. 카랜은 [점유적 경계성] 상태일 뿐만 아니라, 대리의사라는 지위 때문에 [영구적 경계인 상태]이기도 했다. 카렌은 이러한 중복된 지원에 안도감을 표시했다. 비록 이러한 오버랩때문에 그녀는 아직도 '조금은 registrar처럼 느꼈다'라고 하지만, registrar처럼 행동해서는 안 되었고, 따라서 self-imposed occupation of liminality에 대한 불안을 보였다.
Finally, the overlap between herself and the colleague she was replacing seemed to affect how Karen felt about her position within the workplace. As well as occupying liminality here, she was also a perpetual liminar as a result of her locum status. Karen expressed relief in the support this overlap provided. Although this overlap meant that she still felt ‘a bit like a registrar,' she felt she should not be behaving like a registrar, thus indicating her anxieties about her self-imposed occupation of liminality (Table 5, Quote 11).
4 | 토론 4 | DISCUSSION
우리는 훈련된 전환 과정을 통해 의사들에 의해 서술된 한계적 경험을 탐구했다. 첫 번째 연구 질문에 답한 결과, 참가자들은 세 가지 방법으로 한계성을 경험했다는 것을 알게 되었습니다.
첫째, 가장 많은 사람들이 어느 순간 [일시적 경계성]을 경험했다. 정체성 작업을 통해 참가자들은 이러한 또는 그녀의 새로운 정체성으로의 전환을 촉진하기 위해 자기 성찰에 참여하고 과거, 현재, 미래의 자신을 고려하며, 종종 한계에서 벗어나기 위해 타인의 '컨설턴트' 정체성 부여에 의존합니다.
둘째, 일부 의사들은 이중 역할 속에서 지속적인 중간 관계in-betweenness를 겪으며, 즉 [영속적 경계성]을 경험했음을 시사한다.23 참가자들은 상황별로 그리고 사회적으로 관련성을 갖기 위해 정체성 작업을 사용하는 것으로 보였으며, 지속적으로 정체성을 전환함으로써 경쟁하는 충성심과 요구에 대응하는 경계선 브리콜러가 되었다.예를 들어, 임상에서 학술에 이르기까지).
셋째, 이것은 리미널리티에 대한 이론적 개념에 있어 새로운 것으로, 개인들은 때때로 경계성의 적극적인 창조와 유지를 통해 [경계성을 의도적으로 점유]하곤 했다. 예를 들어, 의사들은 훈련된 의사와 훈련된 의사 사이의 경계 공간을 의도적으로 차지하기 위해 [훈련된 신임의사trained doctor 정체성이 부여되는 것을 거부]하는 정체성 작업을 수행하였다. 우리는 일시적 경계성이나 영구적 정체성이 외부적으로 부여되는 것external imposition과는 달리, 개인이 [경계인liminar]이 되는 것을 적극적으로 선택할 수 있으며, 이에 따라 자신의 리미널리티에 대한 행위자성과 통제권을 행사할 것을 제안한다.
We explored liminal experiences narrated by doctors across traineetrained transitions. Answering our first research question, we found that participants experienced liminality in three ways.
First, most experienced temporary liminality at some point. Through identity work, participants engaged in self-reflection and considered past, present and future selves in order to expedite shifts towards this or her new identity, often relying on ‘consultant’ identity grants from others to move them out of liminality. 26
Second, our findings suggest that some doctors experienced perpetual liminality, undergoing enduring in-betweenness through dual roles.23 Participants were seen to use identity work to make themselves contextually and socially relevant, becoming boundary bricoleurs responding to competing loyalties and demands by continuously switching identities (eg, from clinician to academic).23,32–35
Third, and novel to theoretical notions of liminality, individuals would sometimes purposely occupy liminality through its active creation and maintenance. For example, doctors would engage in identity work to reject grants of his or her new trained doctor identities in order to purposely occupy the liminal space between trainee and trained doctor. We suggest that, in a manner contrary to the external imposition of temporary and perpetual liminality, individuals can and do actively choose to be liminars, thereby exerting agency and control over his or her own liminality.
두 번째 연구 질문의 관점에서, [하나의 전문적 정체성(예: 수련 의사)]에서 [다른 전문적 정체성(예: 훈련된 의사)]으로 정체성이 선형적으로 진행된다는 것은, 지나치게 경계성을 단순화하여 개념화한 것임을 밝혀냈다. 실제로, 종단적 데이터셋 전체에 걸친 개인의 경험에 대한 시간적 분석 결과, 참가자들이 [항상 리미날 단계를 통해 선형으로 진행되지는 않는다는 점]에 주목했다. Karen의 경험이 보여주듯이, 맥락, 관계(대인관계와 조직관계 모두)와 시스템은 종종 이리저리로 오락가락하는 우리의 참가자들에 의해 [주장되고 부여된claimed by, and granted to 직업적 정체성]에 영향을 주었고, 따라서 항상 훈련된 의사 정체성으로 곧바로directly 진척되지는 않았습니다. In terms of our second research question, our analysis revealed that a conceptualisation of liminality as a linear progression from one professional identity (eg, trainee doctor) to another (eg, trained doctor) is overly simplistic. Indeed, through our temporal analysis of individuals’ experiences across the longitudinal dataset, we noted that participants did not always proceed in a linear manner through the liminal phase. As Karen’s experiences illustrate, context, relationships (both interpersonal and organisational) and systems also influenced the professional identities claimed by, and granted to, our participants, which often fluctuated from one diary to the next, and thus did not always progress directly towards a trained doctor identity.
[왜 사람들이 경계성을 점유하기로 선택했는지]에 대해서, 우리는 [어떻게 transition이 개념화되는가]를 생각해볼 필요가 있다. Jindal-Snape는 이행transition을 다차원적(다차원적 및 다차원적 전환 이론)으로 간주하며, 개인의 삶의 한 맥락(예: 새로운 직업)에서의 전환이 다른 맥락(예: 홈 무브)에서의 전환을 트리거한다고 보았다.4 의사들의 직업 전환에 대한 연구는 이러한 개념적 사고와 일치하며, 그러한 과도기적인 단계들을 [복잡하고 종종 비선형적]이라고 파악한다.5-10 When we consider why people might choose to occupy liminality, we need to return to how transitions are conceptualised. Jindal-Snape considers transitions as multiple and multidimensional (multiple and multidimensional transitions theory), with transitions in one context of an individual’s life (eg, a new job) triggering transitions in other contexts (eg, a home move).4 Research on doctors’ career transitions aligns with this conceptual thinking, identifying such transitional phases as complex and often non-linear.5-10
호이어와 슈타이어트는 커리어의 변화기간에 사람들은 때때로 [일관성]과 [모호함]에 대한 상반된 욕구를 가지고 있다고 제안한다. 여기에는 불안과 상실감이 끼어들고, 개개인은 그러한 감정에 방어적인 반응을 보인다. [경계성 공간]은 이러한 감정에 대응하기 위하여 개인이 머물 수 있는 장소를 나타낸다고 할 수 있다. 실제로 [경계성 공간]은 중요한 다중 전환의 복잡성을 경험하면서 [개인의 성찰과 계획에 안전한 공간]이 될 수 있다. 우리의 종적 사례를 사용하여 이 점을 설명하기 위해, 카렌은 자신의 [경계성 공간]을 컨설턴트로 일했던 초기 경험과 이 새로운 컨설턴트 정체성에 익숙해진 경험을 되새기는데 사용했습니다. 따라서, [경계성 공간]을 점유하는 것은 (연구참여자들이) 자신의 정체성을 발전시킬 수 있는 시간을 가질 수 있게 했다.
Hoyer and Steyaert suggest that during career changes, individuals sometimes have conflicting desires for coherence and ambiguity, which can be punctuated by feelings of anxiety and loss, with individuals developing defensive responses to such feelings.28 We suggest, therefore, that liminal spaces can come to represent places in which individuals can dwell to respond to these feelings. Indeed, liminal spaces can become safe spaces for individuals’ reflection and planning as he or she experience the complexity of significant multiple transitions. To illustrate this point using our longitudinal case, Karen used her liminal space to reflect on her early experiences of being a consultant and getting used to this new consultant identity. Therefore, we argue that occupying of liminal spaces, as our data illustrate, allowed our participants time to make sense of his or her developing identities.
4.1 | 과도기 및 한계성 문헌에 대한 기여 4.1 | Contribution to the literature on transitions and liminality
요약하자면, 이 연구는 수련생으로 전환되는 동안 의사들이 겪었던 종말적 경험을 종적으로 탐구한 최초의 연구입니다. 또한, 우리의 연구 결과는 [경계성 점유]에 대한 개념을 추가하여 경계성에 대한 보다 광범위한 문헌에 새로운 기여를 한다. [점유적 경계성occupying liminality]는 개개인이 새로운 경험을 성찰하고 이해하여 경계적 정체성을 능동적으로 유지할 수 있는 안전한 공간이다. To summarise, this study is the first of its kind to explore longitudinally the liminal experiences of doctors during trainee-trained transitions. Furthermore, our findings make a novel contribution to the wider literature on liminality23,35 by adding this notion of occupying liminality, whereby individuals actively maintain liminal identities as safe spaces in which to reflect and make sense of new experiences.
4.2 | 방법론적 강점과 한계 4.2 | Methodological strengths and limitations
우리의 연구는 다양한 방법론적 강점을 가지고 있다.
첫째, 우리의 정성적 데이터는 비교적 크고 다양한 표본(예: 성별 및 전문성)에서 방대한 종적 데이터(인터뷰 및 다이어리)를 수집했기 때문에 충분한 정보력을 가지고 있으며, 이는 연구 결과가 다른 영국 의사들에게 전달될 가능성을 증가시킨다.50
둘째, 이 연구의 세로적 성격은 또한 시간이 지남에 따라 참가자들의 독특한 경험을 탐구할 수 있게 해주었습니다. 실제로, 일기는 참가자들이 성찰을 위한 안전한 공간(그리고 어쩌면 그 자체로 한계 공간)을 확보할 수 있는 중심 메커니즘이 되었다. 이는 자신의 전환과 관련된 생각과 느낌을 공유하고 다시 볼 수 있는 영역입니다.
셋째, 다이어리 내에서 수집된 데이터는 현재의 생각과 감정이었고, 따라서 인터뷰, 특히 사건이 발생한 지 오래 후에 수행된 인터뷰에서는 이러한 것들이 자주 있기 때문에 기억에 의해 필터링되지 않았다.
넷째, 출구면접을 포함함으로써 우리는 참가자들과 함께 다이어리로 돌아갈 수 있었고, 그들은 시간이 지남에 따라 경험을 명확히 하고 확장할 수 있었다.
마지막으로, 데이터 분석에 대한 팀 기반 접근방식은 엄격함과 반사성을 장려했다.52 실제로 모든 연구자(LG, CER, DJ-S)가 여성이지만, 우리의 다양한 배경(예: 임상, 심리학, 교육 등)은 분석에 다양성을 가져와서 데이터에 대한 보다 다면적인 해석으로 이어졌다.53
Our study has various methodological strengths.
First, our qualitative data have sufficient information power because we collected voluminous longitudinal data (interviews and diaries) from a relatively large and diverse sample (eg, in terms of gender and specialty), which increases the potential transferability of the findings to other UK doctors.50
Second, the longitudinal nature of this study also allowed us to explore participants’ unique experiences over time.46,47 Indeed, the diaries became a central mechanism through which participants were able to secure a safe space for reflection (and possibly a liminal space in itself), in which he or she could share (and revisit) his or her thoughts and feelings pertaining to his or her transitions.8
Third, the data collected within the diaries were current thoughts and feelings, and therefore were not filtered by memory as these so often are in interviews, particularly those conducted long after events have taken place.46,47
Fourth, the inclusion of exit interviews allowed us to return to the diaries with participants, enabling them to clarify and expand on his or her experience over time.46
Finally, our team-based approach to data analysis encouraged rigour and reflexivity.52 Indeed, although all of the researchers (LG, CER and DJ-S) are female, our diverse backgrounds (eg, clinical, psychology, education, etc.) meant that we brought diversity to the analysis, leading to a more multifaceted interpretation of the data.53
4.3 | 교육 실천에 미치는 영향 4.3 | Implications for education practice
우리의 연구 결과는 [의사들이 중요한 커리어 전환 동안 복잡하고 종종 비선형적인 방법으로 경계성을 경험할 것]이라는 것을 인식할 필요가 있음을 강조한다. 따라서 우리의 연구 결과는 이행 중in transition인 개인을 지원하는 개인화된 접근법에 우선순위를 부여할 것을 시사한다.8 실제로, 데이터의 사례 연구는 전환 경험에 대한 공개 토론을 용이하게 하기 위해 학습자와 교육자에게 한계성의 다양한 측면을 설명하는 데 도움이 될 수 있습니다. Our findings emphasise a need to recognise that doctors will experience liminality in complex and often non-linear ways during significant career transitions. Our findings suggest therefore that priority be given to personalised approaches to supporting individuals in transitions.8 Indeed, case studies from our data could be used for teaching purposes to help explain the different facets of liminality to learners and educators in order to facilitate open discussion about transition experiences.
따라서 의사들이 경험하고 직업 여정 동안 적극적으로 점유할 수 있는 리미널리티에 대한 준비와 수용도를 높여 수련생과 트레이너 모두 리미너 이전과 수련생이 리미너일 때 모든 우려를 성찰하고 표현하는 기회로 활용해야 한다. 예를 들어 멘토, 동료 및 경험이 풍부한 동료와의 지원 대화를 통해 이를 달성할 수 있습니다. Increased preparation for and acceptance of the liminality doctors will experience and may actively occupy during his or her career journey should thus be developed amongst trainees and trainers alike and used as an opportunity to reflect on and articulate any concerns before and when trainees are liminars. This could be achieved through, for example, supportive conversations with mentors, peers and more experienced colleagues.
또한, (이중 또는 임시 역할을 수행하는 경우와 같이) 영구적 경계성 경험에 대한 인식을 개선하면 그러한 영구성과 여러 역할이 수반되는 책임을 관리하는 방법에 대한 멘토링 논의를 용이하게 할 수 있습니다. 복수의 전환에 적응하기 위한 경계성 점유의 가능성도 강조해야 한다. 실제로 [경계성 점유occupying liminality]는 [의료 경력 전반에 걸친 고위험적 전환에 대한 반응]으로써, 조직과 시스템이 인식하고 지원해야 할 사항이다. 더 계획적이고 지지적인 접근법은 의사들이 한계 경험을 긍정적으로 활용하고 동시에 어떤 도전도 헤쳐나갈 수 있도록 해야 한다.
Additionally, better awareness of perpetual liminal experiences (such as when undertaking dual or temporary roles) should facilitate mentorship discussions around how to manage such perpetuity and the responsibilities that come with multiple roles. The possibility of occupying liminality to adapt to multiple transitions shoul d also be emphasised. Indeed, occupying liminality, as a response to high-stakes transitions across medical careers, is something that organisations and systems should recognise and support. A more planned and supportive approach should allow doctors to make positive use of liminal experiences and simultaneously navigate any challenges.
4.4 | 추가 연구를 위한 의미 4.4 | Implications for further research
Med Educ. 2020 Nov;54(11):1006-1018.
doi: 10.1111/medu.14219.Epub 2020 Jun 23.
Doctors' identity transitions: Choosing to occupy a state of 'betwixt and between'
1Centre for Medical Education, School of Medicine, University of Dundee, Dundee, UK.
2Monash Centre for Scholarship in Health Education (MCSHE), Faculty of Medicine, Nursing and Health Sciences, Monash University, Clayton, Victoria, Australia.
3College of Science, Health, Engineering and Education (SHEE), Murdoch University, Murdoch, Western Australia, Australia.
4Transformative Change: Education and Life Transitions (TCELT) Research Centre, School of Education and Social Work, University of Dundee, Dundee, UK.
Context:During transitions, doctors engage in identity work to adapt to changes in multiple domains. Accompanied by this are dynamic 'liminal' phases. Definitions of liminality denote a state of being 'betwixt and between' identities. From a social constructionist perspective, being betwixt and between professional identities may either involve a sense of disrupted self, requiring identity work to move through and out of being betwixt and between (ie, temporary liminality), or refer to the experiences of temporary workers (eg, locum doctors) or those in dual roles (eg, clinician-managers) who find themselves perpetually betwixt and between professional identities (ie, perpetual liminality) and use identity work to make themselves contextually relevant. In the health care literature, liminality is conceptualised as a linear process, but this does not align with current notions of transitions that are depicted as multiple, complex and non-linear.Results:All participants experienced liminality. Our analysis enabled us to identify temporary and perpetual liminal experiences. Furthermore, fine-grained analysis of participants' identity talk enabled us to identify points in participants' journeys at which he or she rejected identity grants associated with his or her trained status and instead preferred to remain in and thus occupy liminality (ie, neither trainee nor trained doctor).
Conclusions:This paper is the first to explore longitudinally doctors' liminal experiences through trainee-to-trained transitions. Our findings also make conceptual contributions to the health care literature, as well as the wider interdisciplinary liminality literature, by adding further layers to conceptualisations and introducing the notion of occupying liminality.
Methods:We undertook a longitudinal narrative inquiry study using audio-diaries to explore how doctors experience liminality during trainee-to-trained transitions. In three phases, we: (a) interviewed 20 doctors about his or her trainee-to-trained transitions; (b) collected longitudinal audio-diaries from 17 doctors for 6-9 months, and (c) undertook exit interviews with these 17 doctors. Data were analysed thematically, both cross-sectionally and longitudinally, using identity work theory as an analytical lens.
Emotions and identity in the figured world of becoming a doctor Tim Dornan,1 Emma Pearson,2 Peter Carson,3 Esther Helmich4 & Christine Bundy5
도입 INTRODUCTION
[다른 사람을 보살피고자 하는 바람]은 젊은이들이 의사가 되도록 동기를 부여한다.1 보살피는 법을 배우면 환자와 가족의 건강, 질병, 죽음, 회복에 대한 감정적인 반응에 노출된다. 의대생들은 그 결과 강한 감정을 경험할 수 있다. 관심을 가지기 위해서는, 그들은 유능해져야 합니다. MacLeod1은 학생들이 유능함과 자상함을 동시에 드러내는 것이 어렵다는 것을 알게 되었다. 감정의 표출은 배려하는 정체성과 관련이 있었지만 의과대학에서 가장 가치 있는 능력 있는 정체성의 유형은 비감정적인 유형이었다. 샤피로에 따르면, Net result는 의학 교육이 학생들을 감정에 민감하게 하기보다는 둔하게 한다는 것이다. A wish to care for other people motivates young people to become doctors.1 Learning how to care exposes them to patients’ and their families’ emotional reactions to wellness, illness, death and recovery. Medical students can experience strong emotions as a result. In order to care, they must become competent. MacLeod1 found it was hard for students to show themselves as both competent and caring. Displays of emotion were associated with a caring identity, but the type of competent identity most valued in medical school was an unemotional type. The net result, according to Shapiro,2 is that medical education blunts rather than sensitises students to emotions.
[감정]은 학생들이 배운 것을 사회적이고 도덕적으로 적절한 방법으로 적용할 수 있도록 돕기 때문에, 감정은 모든 종류의 학습에 밀접하게 관여합니다. 4. 의학과도 명백히 관련이 있습니다.
감정은 정보 처리5와 학업 성취도에 영향을 미칩니다.6-9
의사가 되는 것은 긍정적인 감정과 부정적인 감정을 이끌어낸다. 5,9–15 한 가지 상황이 두 가지 유형의 감정을 모두 이끌어 낼 수 있기 때문에 학생들은 정서적 갈등을 해결해야 한다.18
연구 간행물은 주로 의사가 되는 것과 관련된 부정적인 감정을 강조해 왔으며, 이는 교사에 의한 학대, 환자의 고통을 경험, 어려운 상황에서 전문성을 유지하는 것 등이 원인이 된다
학생들은 감정을 인정하고 표현하며 관리하는 것보다, 감정을 억압하는 것을 더 많이 배우며, 이는 정서적으로 미감한 의사가 되는 발달을 혼란스럽게 합니다.
Emotions are intimately involved in any sort of learning because they help students apply what they learn in socially and morally appropriate ways,4 which is self-evidently relevant to medicine.
Emotions influence information processing5 and academic achievement.6–9
Becoming a doctor elicits positive and negative emotions.5,9–15 A single situation can elicit both types of emotion16,17 and therefore students are required to resolve emotional conflict.18
Research publications have mainly emphasised the negative emotions associated with becoming a doctor, which result from being abused by teachers,19,20 experiencing patients’ suffering,14,18 and remaining professional in challenging situations.21–24
Students learn more about suppressing than acknowledging, expressing and managing emotions, which confounds their development as emotionally sensitive physicians.14,18,20,23
감정이 의대생들의 정체성 발달과 관련이 있다는 것을 이전에 관찰했듯이, 11,15 우리는 감정과 정체성이 서로 어떻게 연관되는지 더 잘 이해하고 싶었고, 이는 직장 학습 중에 경험하는 감정이 의대생들의 정체성 발달과 어떻게 연관되는가 하는 연구 질문으로 이어졌다.
Having previously observed that emotions were related to medical students’ identity development,11,15 we wanted to better understand how emotions and identity relate to one another, which led to the research question: how do emotions experienced during workplace learning relate to medical students’ identity development?
방법 METHODS
연구윤리 승인 및 참여자 신원보호 Research ethics approval and protection of participants’ identities
개념적 지향 Conceptual orientation
비판적 담론 분석 Critical discourse analysis
McNaughton25와 MacLeod1 모두 의학 교육에서 담화 연구를 지배하는 경향이 있는 Michel Foucault의 연구에서 도출된 비판적 담론 분석의 형태를 사용했다(예 26). 그러나 수학교육과 같은 다른 분야들은 대체 담론 전통을 잘 활용해왔다.27 다른 전통들은 푸쿨드 전통에서 사용되는 것과 다른 방식으로 '담론'이라는 용어를 사용한다. 예를 들어, Gee는 [담론]을 '사용 중인 언어의 모든 인스턴스'와 '특징적인 표현 방식, 행동 방식, 존재 방식'으로 정의했다.28 Both McNaughton25 and MacLeod1 used a form of critical discourse analysis derived from the work of Michel Foucault, which has tended to dominate discourse research in medical education (e.g.26). Other fields such as mathematics education, however, have made good use of alternative discourse traditions.27 Those other traditions use the term ‘discourse’ in a manner that differs from its use in the Foucauldian tradition. Gee, for example, defines discourse as ‘any instance of language in use’ as well as ‘characteristic ways of saying, doing, and being’.28
바크틴은 혁명 이후 러시아 발효 이후 비고츠키가 사회 문화 이론을 창안하도록 자극한 담론 전통을 만들었다. 바크틴의 사고의 중심은 '대화론'이었다. 이것은 [언어 및 상징과 기호]가 인간의 모든 인식을 매개한다고 가정합니다.29 언어와 문화가 밀접하게 연관되어 있기 때문에 우리는 [우리의 세계]를 [우리 문화의 관점]에서 인지하지 않을 수 없다. 우리의 삶을 살아가면서, 우리는 다른 사람들의 목소리에 의해 다뤄진다.29 바크틴의 관점에서, 우리는 그러한 목소리에 반응하는 것 외에 다른 대안이 없다. 그리고 목소리에 반응한다는 것은, 우리 자신을 개인으로서 창조하는 반응을 '저작authoring'(하나의 반응을 선택함)하는 것이다.29 Bakhtin fathered a discourse tradition in the same post-revolutionary Russian ferment that stimulated Vygotsky to originate socio-cultural theory. Central to Bakhtin’s thinking was ‘dialogism’. This assumes that language and other symbols and signs mediate all human perception.29 As language and culture are intimately related to one another, we cannot but perceive our world from the perspective of our own culture. As we go about our lives, we are addressed by the voices of other people.29 From a Bakhtinian point of view, we have no alternative but to respond to those voices. It is by ‘authoring’ our responses (choosing one response rather than another) that we create ourselves as individuals.29
우리는 삶의 이야기를 하면서telling the stories 정체성을 창조한다.29 그러므로 담론과 정체성은 서로 뗄 수 없는 관계이다. 의대생들의 정체성 발달에 있어서 그들의 언어행동(바흐티니아어로 된 '발언utterances')은 결코 독창적이지 않다. 그러나 학생들은 정체성을 [자신이 마주치는 담론에 의해 수동적으로 형성]하기보다는, [다른 사람의 말utterances에 대한 반응을 저술authoring] 함으로써 각자의 정체성을 발전시킨다. 이러한 개념적 오리엔테이션을 채택하면 담론 분석을 통해 학생들의 학습 과정에 접근할 수 있다고 가정할 수 있습니다. 학생들이 [의과대학에서 듣는 모든 다양한 목소리에 대한 반응]을 어떻게 저술하는지author가 [그들이 어떻게 그들의 정체성을 창조하는지]를 말해준다. We create our identities by telling the stories of our lives.29 Therefore, discourse and identity are inseparable from one another. In the identity development of medical students, their speech acts (‘utterances’ in Bakhtinian language) are never truly original. However, such students develop different identities by authoring their responses to other people’s utterances,29 rather than being passively formed by the discourses they encounter. Adopting this conceptual orientation allows us to assume that conducting discourse analysis gives access to students’ processes of learning. How they author their responses to all the different voices they hear in medical school tells us how they create their identities.
형상화된 세계 Figured worlds
[형상화된 세계 이론]은 바크틴의 연구에 깊이 뿌리를 두고 있다. 그것은 (다른 사회문화 이론보다) [감정]과 [정체성 발달]을 연계하는 쪽으로 나아가는 정체성 이론이다. 그것은 비판적 담론 분석을 위한 사회 문화적 플랫폼을 제공합니다. Figured Worlds의 관점에서 의대생들은 학장, 의사, 환자, 동료 및 간호사들이 의사가 되는 것에 대해 동적으로 변화하고 잠재적으로 모순되는 방식으로 말하는 목소리를 듣는다. 학생들은 학습 환경에서 접한 특정 목소리와 그 밖의 징후와 상징을 선택할 수 있는 [행위자성agency(세상에서 행동할 수 있는 역량)]을 가지고 있으며, 자신의 정체성이 발전하는 이야기를 들려줍니다. 학생의 담론 속에서, 개인(학생이 식별하거나 식별하지 못한 의사)은 figures가 된다. Figured Worlds theory30 is deeply rooted in the work of Bakhtin. It is an identity theory, which goes further towards linking emotions and identity development than other socio-cultural theories. It provides a socio-cultural platform for critical discourse analysis. From a Figured Worlds perspective, medical students hear the voices of deans, doctors, patients, peers and nurses speaking about being a doctor in dynamically changing and potentially contradictory ways. Students have agency (capacity to act in the world) to choose certain voices and other signs and symbols they have encountered in their learning environments to tell the stories of their own developing identities. Individuals – such as doctors with whom students have been (un)able to identify – become figures in students’ discourses.
Figured Worlds 이론은 의학교육과 같은 사회적 과정이 [위계, 권력, 특권]의 영향을 받는다고 본다. 의사와 다른 영향력 있는 사람들의 연설은 학생들을 특정 행동과 궁극적으로 접근할 수 있는 정체성으로 '위치'시킨다. 그러나 학생들이 자신에게 주어진 위치에 의해 행위자성의 범위가 제한되어 있더라도, 그들은 상상력을 발휘하고 미래의 가능성에 대해 말할 수 있다는 점에서 '조물주worldmakers' 30이 될 수 있다.
Figured Worlds theory sees social processes like medical education as being influenced by hierarchy, power and privilege. The speech of doctors and other influential people ‘positions’ students in ways that make certain actions and, ultimately, identities (in)accessible. However, even when the scope for demonstrating agency is limited by the positions students are given, they can become ‘worldmakers’30 in that they can use their imaginations and speak about worlds of future possibilities.
맥락 Context
유럽의 거대 산업도시에서 주요 학술기관인 맨체스터 대학이 연구 맥락을 제공했다. 그것의 대규모 학부-진학 의료 프로그램은 강력하게 통합되고 문제 기반입니다. The University of Manchester, which is a major academic institution in a large, traditionally industrial European city, provided a context for the research. Its large undergraduate-entry medical programme is strongly integrated and problem-based.
방법론 및 연구 설계 Methodology and study design
이 연구는 기존 데이터셋에 대한 이차 분석입니다. This study was a secondary analysis of an existing dataset.
표본 추출 및 모집 Sampling and recruitment
우리는 주로 이론적인 학습에서 실습 기반 학습으로 전환하는 동안 정체성 발달이 강한 감정을 이끌어내기 때문에 임상실습 3년 중 처음 2년(5년 과정의 3년과 4년제)의 학생을 참가자로 선택했다.31 우리는 또한 [저학년 임상실습생]들이 임상실습의 잠재 교육과정에 덜 사회화되었을 것이라고 생각했기에, 따라서 [고학년 임상실습생]보다 직무현장의 실천에 대해서 더 비판적인 관찰자일 것으로 생각했다. We chose students in the first two of three clerkship years (Years 3 and 4 of a 5-year programme) as participants because identity development during the transition from predominantly theoretical to practice-based learning elicits strong emotions.31 We also thought junior clerks would be less fully socialised to the hidden curriculum of clerkships19 and therefore more critical observers of workplace practices than senior clerks.
연구의 윤리적 민감성을 인정하여 중립적 당사자(EP, 심리학과 졸업자 및 커리큘럼에 관여하지 않는 박사과정 학생)는 병원에서 임상실습에 진입하는 코호트의 모든 학생들에게 설명을 했다. 강요를 피하기 위해 참석 예정자 전원에게 제3자로부터 이메일을 보내 연구 내용을 설명하는 짧은 대화에 초대하고 의전서, 동의서, 참가자 정보지 등을 담은 안내팩을 포함시켰다. 비참여나 참여 철회는 의료 프로그램을 통한 그들의 진행에 부정적인 영향을 미치지 않을 것임을 분명히 했다. Acknowledging the ethical sensitivity of the research, a neutral party (EP, a psychology graduate and PhD student, not involved in the curriculum) addressed all students in a cohort entering clerkships in the hospital. To avoid coercion, all prospective participants were sent an e-mail by a third party, which invited them to a short talk explaining the study and included an information pack containing the protocol, consent form and participant information sheet. It was made clear that non-participation or the withdrawal of participation would have no negative consequences on their progress through the medical programme.
데이터 수집 절차 Data-gathering procedures
광범위한 데이터 세트를 생성하기 위해 세 가지 보완 절차를 사용했다. 여기에는 반구조화 인터뷰(SSI), 인지 인터뷰(CI) 및 요청된 오디오 일지(AD)가 포함된다. SSI는 표 1의 프롬프트를 사용했으며, 이어서 개방형 질문이 제시되어 참가자의 답변을 넓히고 심화시켰다. Three complementary procedures were used to generate a broad dataset; these included semi-structured interviews (SSIs), cognitive interviews (CIs) and solicited audio-diaries (ADs). The SSIs used the prompts in Table 1, which were followed by open questions to broaden and deepen participants’ responses.
분석 Analysis
각 참가자는 연구자 번호를 가지고 있었는데, 이 번호는 EP만이 사용할 수 있어 다른 연구자가 참가자의 신분을 알 수 없었다. 참가자들의 목소리가 우연히 확인되는 것을 피하기 위해 다른 연구원들은 오디오 녹음 자료를 듣지 않았다. Each participant had a study number, the key to which was available only to EP so that no other researcher knew participants’ identities. To avoid the accidental identification of participants’ voices, other researchers did not listen to audio-recorded material.
인터뷰와 일지 내용은 구두로 기록되었고 연구 번호로만 식별되었다. 이 접근방식에는 감정적으로 중요한 에피소드를 나타내는 텍스트 블록을 식별하고, 먼저 에피소드별 및 참가자별로 데이터를 분석하여 개인 내부 및 개인 간 응답 패턴을 탐색할 수 있도록 하는 것이 포함되었습니다. 연구자 3명이 모든 자료를 면밀히 검토한 후, 우리는 분석에 포함될 에피소드를 파악하기 위해 다음과 같은 기준을 사용했다. Interview and diary contents were transcribed verbatimand identified only by study numbers. The approach involved identifying blocks of text representing emotionally salient episodes and first analysing the data by episode and participant in order to allow us to explore intra-individual as well as interindividual patterns of response. After all of the materials had been closely read by three researchers, we used the following criteria to identify episodes for inclusion in the analysis.
이러한 모든 에피소드가 식별되고 각 에피소드의 전체 텍스트가 템플릿으로 복사되어 앞에서 설명한 Figured Worlds 개념의 적용을 구성했습니다. TD와 PC는 모든 에피소드를 독립적으로 분석하고 서로의 템플릿을 검토하여 토론으로 차이를 해결하고 해석에 합의하였다. All such episodes were identified and the whole text of each episode was copied into a template, which structured the application of the Figured Worlds concepts described earlier. TD and PC independently analysed all episodes and reviewed each other’s templates, resolving differences by discussion and agreeing an interpretation.
결과. RESULTS
정체성 개발의 복합적인 감정 The mixed emotions of identity development
그림 1은 에밀리가 서술하는 텍스트의 축약된 버전을 제시하며, 연구의 주요 결과를 예시하고 Figured Worlds 개념을 설명하기 때문에 이 텍스트가 일부러 선택되었습니다. 이것과 다음 두 단락은 에밀리의 감정의 기원을 에밀리의 정체성 발달과 연결짓는다. 동시에, 에밀리는 [공감적으로 슬퍼하는 부정적인 감정]과 [동지애의 긍정적인 감정], [환자의 자신감으로 받아들여지는 영광스러운 감정]을 경험했다. Figure 1 presents an abbreviated version of text narrated by Emily, purposively selected because it exemplifies the main findings of the study and illustrates Figured Worlds concepts. This and the next two paragraphs link the origins of Emily’s emotions to her identity development. At the same moment, Emily experienced the negative emotion of feeling empathically sad and the positive emotions of camaraderie and feeling honoured to be taken into a patient’s confidence.
[피규어 월드 이론]에 따르면, 사람들은 그들이 이용할 수 있는 담론을 '조율orchestrating'함으로써 그들의 정체성을 발전시킨다. 마치 작곡가가 음악을 조율하듯이, 그들은 다양한 담론를 이끌어내어 그들의 정체성에 대한 다양한 목소리를 내는 공연을 합니다. 에밀리는 환자들에게 지배적이고 정서적으로 긍정적인 목소리와 함께 환자들과 관계를 형성하는 운 좋은 의사들을 orchestrate했습니다. 그녀는 [의사와 환자 모두]가 [그녀를 미래의 의사라는 정체성을 가진 사람으로 포지셔닝해준 것]으로부터 도움을 받았다. According to Figured Worlds theory, people develop their identities by ‘orchestrating’ the discourses available to them. Like a composer orchestrating music, they draw different discourses together into a multi-voiced performance of their identities. Emily orchestrated fortunate doctors building relationships with patients as a dominant and emotionally positive voice alongside a non-dominant and emotionally negative voice of sadness towards patients. She was helped to do so by both the doctor’s and patient’s positioning of her as someone with the identity of doctor-to-be.
제인이 심장마비 환자 곁에 있었던 경험도 마찬가지로 복잡한 감정으로 이어졌고, 이번에는 충격, 두려움, 기쁨, 슬픔의 시기였습니다. Jane’s experience of attending a cardiac arrest, likewise, led to mixed emotions, this time of shock, fear, pleasure and sadness:
일반인이라면 심장마비 현장을 떠날 것을 요청받았을 것이지만, 제인은 남아 있었다. 의대생이라는 신분이 그녀를 그 현장에 적합하게 만들었다. 에밀리와 다른 참가자가 여기에 언급되지 않은 것처럼, 제인은 치료 과정을 긍정적인 감정의 원인으로 확인했습니다. 그녀는 슬픔을 저술하기도authored 했지만, 심장마비가 '중요한 일a big thing'인 세상에서 '진보progress'를 하고 있었기 때문에 그녀의 지배적인 감정은 긍정적이었다. Whereas a lay person would have been asked to leave the scene of a cardiac arrest, Jane stayed. The status of a medical student positioned her within practice. Just like Emily and other participants not cited here, Jane authored her identification with the process of care as a cause of positive emotions. She also authored sadness, but her dominant emotion was positive because she was ‘making progress’ in a world in which cardiac arrests are ‘a big thing’.
지금까지의 해석은 의사, 학생, 환자의 신분이 다른 세상에서 참가자들이 자신의 정체성을 형성했다는 것인데, 이는 참여자들의 [애매한 입장]과 [감정의 협상]으로 드러난다. 그들의 dominant voices는 (예비)의사라는 empowered position에 대해 긍정적인 감정을 저술했다. 그들의 nondominant voices는 [무력한 환자에 대한 슬픔]을 자아냈다. 이것은 [사람들은 자신의 정체성을 형성]하고 [권력을 가진 분야에서 감정을 경험]하게 된다는 점에서 피규어 세계 이론에 부합한다. 예를 들어, 의사들은 [아버지 같은 인물fatherly figure]이 됨으로써 환자를 매우 편안하게 함으로써 긍정적인 방식으로 힘을 행사했다(그림 1).
Our interpretation thus far is that participants formed their identities in a world in which doctors, students and patients had different levels of status, made apparent by participants’ negotiation of their ambiguous positions and emotions. Their dominant voices authored positive emotions towards the empowered position of doctors(-to-be). Their nondominant voices authored sadness towards disempowered patients. This is consonant with Figured Worlds theory, according to which people form their identities and experience emotions in fields of power. Doctors exercised power in positive ways (thus far at least) by, for example, making a patient very comfortable by being a fatherly figure (Fig. 1).
위치 정체성의 감정 The emotions of positional identities
긍정적인 감정과 위치적 정체성을 부여받음 Positive emotions and being granted a positional identity
의사, 환자, 동료 및 자기자신의 행동들은 실무의 세계world of practice에서 지위position를 부여했다. 지위를 얻는 것은 지속적으로 긍정적인 감정을 유발했습니다. 농담을 나누는 것과 같은 간단한 일 조차 그러했다. Actions by doctors, patients, peers and participants themselves granted positions in the world of practice. Gaining a position consistently caused positive emotions. Such a simple thing as sharing a joke did so:
한 전공의의 행동은 루시를 in practice로 위치시켰고, 이는 긍정적인 감정을 유발했다. A resident’s behaviour positioned Lucy in practice and caused positive emotions:
루시의 이야기는 중요한 발견을 보여준다: 참가자가 학습뿐만 아니라 환자 진료에도 중요한 일을 하고 있다고 느꼈을 때 가장 정서적으로 긍정적이었다. Lucy’s story illustrates an important finding: being given a position was most emotionally positive when the participant felt that he or she was doing something that ‘mattered’ to patient care as well as to learning.
[의사]만이 지위position를 부여하는 것이 아니었다. '모든 것을 잘 설명해 준 [조산사]가 [소니아]가 임신한 배에 대한 많은 검사를 할 수 있게 해주었기 때문에 '신생아에게 관여할' 수 있었다. 마찬가지로, [간호사]는 관계를 맺어 나타샤가 간호사와 협력적으로 일할 의사가 될 미래를 만들 수 있게 해주었습니다. It was not just doctors who granted positions. A midwife who ‘explained everything well ... allowed [Sonia] to do lots of examinations of pregnant tummies’, which made it possible ‘to get involved with newborn babies’. Likewise, a nurse built a relationship, which allowed Natasha to author a future in which she was a doctor who would work cooperatively with nurses:
[환자]들도 (학생들에게) 자신들을 털어놓음으로써 참가자들을 within practice에 position하였다. 에밀리처럼(그림 1), 젬마는 그것을 발견했다: Patients positioned participants within practice by confiding in them. Like Emily (Fig. 1), Gemma found it:
[환자의 니즈]도 position을 생성하였다: Patients’ needs created positions:
이 모든 사례에서 [workplace 내 다른 사람들의 간단한 행동]은 학생들이 임상실무에 참여할participate in practice 힘을 실어주었고, 이는 긍정적인 감정을 불러 일으켰다. 피규어 월드의 관점에서 참가자들은 환자들이 솔직한 이야기를 털어놓을 수 있고, 병동을 운영할 수 있는 [책임감 있고 신뢰할 수 있고, 참여적인 인물]로서의 정체성을 저작authoring하면서 그러한 감정을 경험했습니다. In all of those examples, rather simple actions by other people in workplaces empowered students to participate in practice, which resulted in positive emotions. From a Figured Worlds perspective, participants experienced those emotions whilst authoring the identity of a responsible, trusted, involved person in whom patients could confide and who was able to run a ward.
부정적인 감정과 직책을 부여받지 못하는 것 Negative emotions and not being granted a position
참가자는 [불리한 위치에 놓이거나 실무에서 어떠한 지위도 부여받지 않았을 때], 전적으로 부정적인 감정을 경험했으며, 자신의 정체성 개발을 저술author하지 않았다. Participants experienced wholly negative emotions and did not author their identity development when they were positioned unfavourably or granted no position in practice at all
다음 발췌문에서는 참가자의 담론은 혼합되지 않은 부정적인 감정으로 이루어졌으며, 이는 환자의 요구에 반응하지 않는 의사의 무력한 관찰자로 자리 잡은 결과였다.
주니어 의사들은 이리저리 뒤척이며 "넌 누구니?"라고 말하곤 했다. 간호사들은 "왜 우리 병동에 오는 거야?"라고 말하곤 했죠. 그리고 당신과 함께 있으면 정말 야단법석을 떨죠. 후배 의사들은 이렇게 말하곤 했다. "우리는 정말 바빠... 너한테 쓸 시간이 없어." (소니아, SSI) The junior doctors would shuffle about; they’d be like “who are you?” The nurses would be like “why are you in the way on our wards?” and get really narky with you. The junior doctors would say: “We’re really busy ... we don’t ... have time for you.” (Sonia, SSI)
다음 발췌문에서는 참가자의 담론은 순수히 부정적인 감정으로 이루어졌으며, 이는 [환자의 요구에 반응하지 못하는 무력한 의사]로 포지션된 결과였다.
In the next excerpt, a participant’s discourse was of unmixed negative emotions, which resulted from being positioned as a helpless observer of a doctor who did not respond to a patient’s needs:
때때로 [환자를 돕는 것이 전혀 불가능]한 것이 참가자가 부정적인 감정을 저술하도록 이끌었다. Sometimes it was the sheer impossibility of helping a patient that led a participant to author negative emotions:
이 글들은 참가자들이 [empowered 또는 disempowred한 상황]]이 의사와 긍정적인 감정과 부정적인 감정으로 각각 발전하도록 이끌었다는 우리의 새로운 이론에 들어맞습니다. These texts fit our emerging theory that participants’ empowered or disempowered situations led them to develop or not develop the identity of a doctor and to positive and negative emotions, respectively.
부정적인 감정과 입장을 취할 수 없는 것 Negative emotions and being unable to take up a position
소니아는 [환자의 살이 썩어가는 것에 혐오감을 느낀 자기자신의 모습]에 의기소침해졌고 죄책감을 느꼈다. Sonia was disempowered by her disgust at a patient’s flesh rotting away, which made her feel guilty:
그의 다리는 본질적으로 썩어가고 있어서 냄새가 지독하고 끔찍해 보였다. 결국 나는 그 모든 것에 너무 스트레스를 받아서 밖으로 걸어나갔고 울음을 터뜨렸다.나는 그것이 꽤 역겨웠다. 그것은 끔찍한 말이다. 왜냐하면... 당신은 개방적인 사람이어야 하는데... 전 그냥 너무 많은 걸 발견했어요. 내가 의사일 때 3년, 4년 만에 알게 돼서 정말 미안했어... 내가 그렇게 할 수 있는 방법은... 네 자신을 실망시켰다는 느낌이 들어. (Sonia, CI) His legs were essentially rotting away so it smelt horrible and looked horrible. In the end, I got so stressed out by it all [that I walked] out ... and burst into tears. ...I was quite disgusted by it, which is a horrible thing to say because ... you’re supposed to be very open minded ... but I did just find it all a bit too much. I did feel bad leaving because I know in 3 or 4 years time when I’m a doctor ... there’s no way I’d be able to do that... It’s a sense that you’ve sort of let yourself down. (Sonia, CI)
나타샤의 감정은 수치심과 죄책감이었다. Natasha’s emotions were shame and guilt:
이 3개의 본문은 참가자들이 [도전적인 임상 상황에 대한 반응을 감당하지 못할 때] 자기자신을 예비 의사로 authoring하지 못하였음을 보여줌으로써, 해석을 뒷받침하고 더욱 정교하게 설명하며, 이는 순수한 부정적인 감정으로 이어졌다.
These three texts support the interpretation and further elaborate it by showing how participants were unable to author themselves as doctors-to-be when they were unable to handle their reactions to challenging clinical situations, which led to unmixed negative emotions.
형상화된 정체성 Figured identities
긍정적인 감정과 형상화된 정체성 제작 Positive emotions and authoring a figured identity
일반의와 동일시할 수 있었던 에밀리처럼, 안과 의사와 수술 간호사는 나타샤의 세계에서 가장 유명한 인물figures이었다. 그녀는 미래의 외과의사의 정체성을 저술하고, 강한 긍정적인 감정을 경험했으며, 연구 동기를 부여받았습니다.
Like Emily (Fig. 1), who was able to identify with the figure of a general practitioner, an ophthalmic surgeon and a scrub nurse were figures in Natasha’s world. She authored the identity of a future surgeon, experienced strongly positive emotions, and was motivated to study:
컨설턴트는... 정말 예리하고 열정적이었어요... 모든 학생들에게 봉합할 기회를 줬어요 수술실 간호사가 내 봉합이 얼마나 좋았는지 말해줬어 난 그 점이 꽤 우쭐했어 왜냐하면... 제대로 봉합해 본 적이 없어서... 외과의사에게 말했죠 수술에 별로 관심이 없었지만... 그녀는 나에게... 내가 훌륭한 외과의사가 될 수 있다는 피드백... 몇 가지 아이디어가 떠올랐죠. 그리고 그게 내 뇌리에 박혀있어 왜냐면 그녀는 정말 친절하고 긍정적이었으니까... 저도 기분이 좋아서 부서에 얼굴을 내밀려고 노력했어요. 그래서 흥미롭기도 했고... 최근 것보다 더 많은 일을 했어
A consultant ... was ... really keen and enthusiastic... She gave every student the opportunity to do some suturing... The ... scrub nurse ... commented on how good my suturing was... I was quite flattered by that cos ... I’ve never sutured properly before... I told [the surgeon] I wasn’t really too keen on surgery but ... she gave me ... feedback that I might make quite a good surgeon... It opened up a few ideas ... and it just sticks in my mind cos she was really nice and positive... I was feeling good about myself ... so I made an effort to show my face around the department ... and so it was also quite interesting as well so ... I just put more work into that [placement] than my most recent one. (Natasha, SSI)
시니어 의사들은 개인으로서 담론을 생생하게 형상화하였으며figured, 레지던트, 간호사, 산파 및 다른 전문 의사들은 [참여자들에게 개방해준 가능성]의 관점에서 주로 형상화하였다. 때때로, 한 사람이 아니라, 심정지 팀, 특정 교대 근무자, 또는 마취사와 마취 간호사와 같은 전체 팀에 의해 세상은 형상화된다world was figured. 임상적 인물의 동정적 행동과 그들의 작업을 능숙하게 수행하는 방식은 긍정적인 감정을 이끌어냈습니다.
Senior doctors figured the discourse vividly as individuals, whereas residents, nurses, midwives and other professionals figured it more in terms of the possibilities they opened up for participants. Sometimes, rather than by one person, the world was figured by a whole team of people, such as a cardiac arrest team, the people staffing a particular shift, or an anaesthetist and anaesthetic nurses. The compassionate behaviour of clinical figures and the proficient way in which they did their work elicited positive emotions:
학생은 [자신의 임상 작업을 칭찬하고 지지적이었던 의사]와 자신을 동일시하였다. Participants identified with doctors who were supportive and who praised their clinical work:
[어떤 figure와 자신을 동일시하는 것]은 참가자들이 [그 figure의 전공]을 자신의 커리어 선택으로 author하고, 더 성실하게 공부하도록 격려했다. 이 예외는 긍정적인 수치에도 불구하고 참가자가 그림 세계에서 자신을 에이전트로 작성할 수 없을 때 발생했습니다.
Identification with a figure encouraged participants to author the doctor’s specialty as a career choice and to study conscientiously. An exception to this occurred when, despite positive figuring, participants were unable to author themselves as agents in the figured world:
부정적인 감정과 Figures와 동일시하지 못하는 것 Negative emotions and being unable to identify with figures
Rashida는 직원들이 (잘 확립된 윤리적 관행에 반하는) 환자와 먼저 상의하지 않은 채 'DNR' 명령을 내려 혼란스러웠다. Rashida was confused by staff issuing ‘do not resuscitate’ orders without first discussing them with patients (contrary to well-established ethical practice):
DNR이 소생하지 않는 형태가 생각나서 "오 하느님" 이라고... 4개월 동안 내 컨설턴트가 DNR 양식을 작성하는 걸 봤는데, 그는 오직 한 가지 DNR 양식에 대해서만 논의했어요. 여성 환자 중 한 명의 손녀와요. 그 시점에 저는 그에게 "이 양식에 대해 환자와 의논하지 말아야 하나요?"라고 물었던 것을 기억합니다. 그리고 그는 "아니오"라고 대답했고, 저는 이렇게 생각했습니다. "저는 [다른 병원]에 있었는데... 우리는 그들과 의논해야 한다고 들었습니다. 환자나 적어도 그들의 가족... 그 시점에서... 나는 정말 혼란스러웠다 "그럼 내가 뭘 해야 할까?" (라시다, CI) I just remember the DNR [do not resuscitate] form and thinking “Oh God” ... During the four months I’ve seen my consultant filling out DNR forms, he only discussed one DNR form ... with the grand-daughter of one of the female patients. At that point I remember asking him: “Should you not discuss these forms with patients?” and he said, “No,” and I’m thinking ... “I was at [a different hospital] and ... we were told we should discuss them with ... the patient or at least their family... At that point... I was really confused ... thinking: “Well what would I do?” (Rashida, CI)
참가자들이 Figures와 동일시하지 못할 때 부정적인 감정을 경험하는 경우가 많았다.
[아시아 여성 라시다] 씨는 상담 도중 [아시아 남성 의사]가 베일을 쓴 [아시아 여성 환자]에게 반대object하자 안타까움과 충격, 실망감을 느꼈다.
[개인적인 정신병력] 때문에 로빈은 화가 났고, [정신병 환자를 '사냥'한 의사]와 동일시할 수 없었다.
나타샤는 의사들이 병원 규칙을 어기고 환자가 감염될 위험을 높였을 때 부정적인 감정을 경험했다.
소니아는 학생들에게 짜증을 내고, 도움을 주지 않으며, 환자들에 대해 무례한 태도를 보이는 의사와 간호사들을 자신과 동일시할 수 없었다. 그녀는 '상상의 세계imagined world'를 저술했는데, 그녀는 (자격을 갖춘 의사로서) 의대생들에게 지지적으로 행동할 것입니다.
There were many instances in which participants experienced negative emotions when they could not identity with figures.
Rashida, an Asian woman, felt sad, shocked and disappointed when a male Asian doctor objected to an Asian female patient wearing a veil during a consultation.
A personal history of mental ill health made Robin angry and unable to identify with a physician who ‘shunned’ a mentally ill patient.
Natasha experienced negative emotions when doctors broke hospital rules and increased the risk for patients becoming infected.
Sonia could not identify with doctors and nurses who were irritable and unhelpful towards students and rude about patients. She authored an ‘imagined world’ in which, as a qualified doctor, she would behave supportively towards medical students:
이 마지막 섹션에서 감정, 이해 및 정체성 발전 사이의 관계는 매우 간단해 보입니다. 참가자들은 그들이 동일시할 수 있는 인물들과 마주쳤을 때, 그리고 자기 자신의 정체성을 author할 수 있을 때 긍정적인 감정을 경험했습니다. 그 반대도 사실이었다.
The relationships among emotions, figuring and identity development in this final section seem quite simple: participants experienced positive emotions when they encountered figures with whom they could identify and when they could author their own identities. The reverse was also true.
고찰 DISCUSSION
주요 결과 및 의미 Principal findings and meaning
참가자의 [감정]은 [정체성 발달]과 직접적으로 관련이 있습니다. 의료의 세계에서 자신의 위치를 획득having a position하고, 어떤 인물과 동일시할 수 있다는 것은 긍정적인 감정을 불러일으켰고, 그 반대의 경우도 마찬가지였습니다. 참가자들은 모든 의사, 간호사, 레지던트들과 동일시하지 않았다. 그들은 학생을 지지하고, 환자에게 윤리적 또는 동정적으로 행동하고, 문화적으로 민감하거나, 손 위생에 신중한 인물들과 동일시하였다. Participants’ emotions related directly to their identity development. Having a position in the world of medicine and being able to identify with a figure generated positive emotions, and vice versa. Participants did not identify with every doctor, nurse or resident. They identified with figures who were supportive of students, behaved ethically or compassionately towards patients, were culturally sensitive, or were careful with hand hygiene.
비판적 담론 분석에서는 또 다른 중요한 사실을 밝혀냈습니다. 즉, 참가자들은 Field of power 내에서 자신의 정체성을 발전시켰습니다. 의사들은 상대적으로 힘이 있었다empowered. 환자들은 상대적으로 권력이 없었다disepowered. 참가자들의 순감정은 [환자의 이익을 위해 자신의 힘을 사용하는 의사]와 동일시했을 때 더 긍정적이었다. 그러한 인물들이 참가자들의 떠오르는 정체성에 대한 이야기에서 가장 두드러진 자리를 차지하고 있었다. Critical discourse analysis uncovered something else important: participants developed their identities within a field of power. Doctors were relatively empowered. Patients were relatively disempowered. Participants’ net emotions were positive when they identified with doctors who used their power to the benefit of patients. Such figures occupied the most prominent places in participants’ stories of their emerging identities.
장점과 한계 Strengths and limitations
다른 연구와의 관계 Relationship to other research
[관계적 상호의존성relational interdependence]에 대한 빌렛의 [사회문화 이]론에 따르면, [직장 학습workplace learning]은 두 가지 주요 요인에 의해 영향을 받는다. 즉, [직장에서 제공되는affored 사회적 가능성]과 [학습자들이 일에 참여하면서 이러한 가능성을 받아들이는uptake 것]이다. 많은 참가자들이 의사, 간호사, 조산사 및 다른 사람들의 행동이 [그들이 어떻게 실무practice를 수행하며, 어떻게 그로부터 배울 수 있도록 하는지]를 설명했기 때문에 우리의 연구 결과는 Billett의 이론과 일치합니다. 따라서, 의대생들의 정체성 발달과 감정은 (빌렛의 말로) [개인적 행위자성과 사회적 행위자성individual and social agency 사이의 관계적 상호의존]에 의해 영향을 받는다. According to Billett’s socio-cultural theory of relational interdependence,34 workplace learning is influenced by two main factors: the social possibilities afforded by workplaces, and learners’ uptake of those possibilities as they engage themselves in work. Our findings fit Billett’s theory because many of our participants described how behaviour on the part of doctors, nurses, midwives and other people made it more or less possible for them to engage in practice and learn from it. Thus, medical students’ identity development and emotions are influenced by, in Billett’s words,34 relational interdependence between individual and social agency.
우리의 연구 결과는 기존 연구에서
[긍정적인 감정]이 환자 및 동료와의 연관성, 노력한 공로를 인정받는 것, 다른 사람들로부터 정서적 지지를 받는 것에서부터, 생겨난다는 것을 보여준 것과 부합한다.
[어려운 감정]은 불확실성, 무력감, 책임감, 존중의 결여, 가치관의 차이에서 비롯된다는 것을 보여주었다.
이에 더하여, 우리의 연구 결과는 [어려움(슬픔)과 긍정적인 감정 모두 하나의 경험에서 비롯될 수 있다]는 카스만 외 연구진의 관찰을 반영한다.
Our findings fit closely with those in an influential publication by Kasman et al.,16 which showed
how positive emotions resulted from connections with patients and colleagues, from being recognised for one’s efforts, and from the receipt of emotional support from others, whereas
difficult emotions resulted from uncertainty, powerlessness, responsibility, lack of respect and a difference in values.
Our findings, moreover, echo the observation of Kasman et al. that both difficult (sadness) and positive emotions can result from a single experience.16
효과의 규모에 대한 논란이 있지만, 의대생들의 교육 진행에 따라 공감도가 떨어질 수 있다는 우려가 나온다.36 원인에는 학생들의 취약성, 부적절한 역할 모델, 괴로움 및 부적절한 대처 메커니즘이 포함된다.36 의대생들은 [잠재적으로 상충하는 인물figures과 지위positions] 사이에서 자신의 정체성을 발전시키면서 많은 긍정적이고 부정적인 감정을 경험한다는 것을 보여준다. 참가자들은 환자의 disempowered 상태에 공감적으로 반영하였고, 공감적 인물과 자신을 동일시하였다. 어떤 학생들은 비공감적으로 반응했을 가능성이 높고, 비공감적 인물과 동일시했을 수 있지만, 그들은 이러한 유형의 연구에 자원할 것 같지는 않을 것이다. Although there is debate about the size of the effect,35 there is concern that medical students become less empathic as their education progresses.36 Causes include students’ vulnerability, inappropriate role models, distress and inadequate coping mechanisms.36 Our research shows that medical students experience many positive and negative emotions as they develop their identities among potentially conflicting figures and positions. Our participants responded empathically to patients’ disempowered conditions and identified with empathic figures. It is likely that other students may have responded non-empathically and may have identified with non-empathic figures, but they would be unlikely to volunteer for a study of this type.
환자를 돌보는 것이 의학의 목표이고, 돌보는 법을 배우는 것이 의대 교육의 목표라는 데 동의하지만, 의대생 정체성 발달에 있어서 의사와 다른 사람들의 중요한 역할로 인하여 [환자에 대한 집중이 흐트러지는 것]은 원치 않을 것이다. [의대생들의 정체성이 'knotworks'에서 어떻게 발전하는지]를 고려하는 Bleakley의 최근 연구는 이러한 우려를 해결한다.39 사회적 상호작용이라는 매듭knotwork은 현대 의료에서 의료전달에 관여하는 모든 개인을 포함하기에, '의사가 가장 잘 안다'는 사고방식이 지배적인 한, 환자 중심의 지향을 유지할 수 없다.
Albeit that we agree that caring for patients is the goal of medicine, and learning to care for them is the goal of medical education, we would not want a sole focus on patients to distract from the vital roles of doctors and other people in medical students’ identity development. More recent work by Bleakley, which considers how medical students’ identity develops in ‘knotworks’, addresses this concern.39 The knotwork of social interactions involves all the individuals who deliver contemporary medical care, but a patientcentred orientation cannot be maintained if a ‘doctor knows best’ mentality prevails.
연구 및 실무에 미치는 영향 Implications for research and practice
교육 실천의 가장 분명한 의미는 의사, 레지던트, 의대생들의 감정에 대해 이야기하는 것이 어떻게 정당화될 수 있는지, 그리고 그러한 감정이 권력과 정체성 발달과 어떻게 연결되는지를 탐구해야 한다는 것이다. 의사들 사이의 개입에 있어 발린트 접근법의 필수적인 요소이기 때문에 의학 커리큘럼에서 감정의 담론을 분명히 하는 것은 사실 새로운 아이디어가 아니다. 영국의 한 의과대학은 많은 의대생들이 발린트 그룹에 참여할 수 있는 기회를 제공함으로써 의과대학에서 감정에 대해 배울 수 있도록 도왔습니다.3
The clearest implication for educational practice is that we should explore how it can be made legitimate to talk about physicians’, residents’ and medical students’ emotions, and how those emotions link to power and identity development. Making the discourse of emotions explicit in medical curricula is not, in fact, a new idea because it is an essential component of the Balint approach to intervision among physicians. One UK medical school has helped large numbers of its medical students learn about emotions in medical practice by offering them opportunities to participate in Balint groups.3
Med Educ. 2015 Feb;49(2):174-85.
doi: 10.1111/medu.12587.
Emotions and identity in the figured world of becoming a doctor
Context:There is little room in clerkship curricula for students to express emotions, particularly those associated with the development of a caring identity. Yet it is recognised that competence, alone, does not make a good doctor. We therefore set out to explore the relationship between emotions and identity in clerkship education. Our exploration was conceptually oriented towards Figured Worlds theory, which is linked to Bakhtin's theory of dialogism.Results:Students' emotions were closely related to their identity development in the world of medicine. Patients were disempowered by their illnesses. Doctors were powerful because they could treat those illnesses. Students expressed positive emotions when they were granted positions in the world of medicine and were able to identify with the figures of doctors or other health professionals. They identified with doctors who behaved in caring and professionally appropriate ways towards patients and supportively towards students. Students expressed negative emotions when they were unable to develop their identities.
Conclusions:Critical discourse analysis has uncovered a link between students' emotions and their identity development in the powerful world of becoming and being a doctor. At present, identity development, emotions and power are mostly tacit in undergraduate clinical curricula. We speculate that helping students to express emotions and exercise power in the most effective ways might help them to develop caring identities.
Methods:Nine female and one male member of a mixed student cohort kept audio-diaries and participated in both semi-structured and cognitive individual interviews. The researchers identified 43 emotionally salient utterances in the dataset and subjected them to critical discourse analysis. They applied Figured Worlds constructs to within-case and cross-case analyses, supporting one another's reflexivity and openness to different interpretations, and constantly comparing their evolving interpretation against the complete set of transcripts.
'역량바탕의학교육의 도입: 평가의 문화를 변화시키고 있는가? (Med Teach, 2019)
Competency-based medical education implementation: Are we transforming the culture of assessment? Jane Griffithsa, Nancy Dalgarnob, Karen Schultza , Han Hanc and Elaine van Mellea,d
도입 Introduction
CBME는 근본적으로 결과 지향적인 패러다임 전환이며, 평가에 대한 전체적이고 종단적인 접근 방식을 통해 관련 역량에 근거합니다. CBME is a paradigm shift fundamentally oriented to outcomes, grounded by relevant competencies, with a holistic, longitudinal approach to assessment
또한 CBME는 학습자의 진행 상황을 지속적으로 모니터링하고 개별화된 학습 계획을 수립하며 역량 개발에 대한 종합적 의사결정을 제공하기 위해 AA(Academic Advisor) 또는 역량 위원회의 형성평가 데이터의 통합과 해석을 요구합니다. CBME also requires synthesis and interpretation of formative assessment data by an Academic Advisor (AA) or Competency Committee to provide ongoing monitoring of learners’ progress, creation of individualized learning plans and summative decisions about competency development
의미 있는 CBME를 달성하려면 효과적인 작업장 기반 평가를 위해서는 완전히-관여된engaged 지도자와 AA 또는 역량코치가 필요하다. Effective workplace-based assessments require fully engaged preceptors and AAs or competency coaches if meaningful CBME is to be achieved
이 연구는 두 가지 이론적 체계를 채택하고 있다. Theory U는 [개인이 새로운 행동을 할 때 유의미한 인식의 변화를 설명하는 수단]이며, 프로그램 문화가 시간에 따라 발생하는 가정, 행동, 프로세스 및 제품의 의도적인 변화에 의해 영향을 받는 변화 개념(Kezar 및 Eckel 2002)을 제공합니다. The research employs two theoretical frameworks; Theory U which provides a means of describing significant changes in awareness as individuals engage in new behaviors (Scharmer 2016), and the concept of transformative change, whereby the culture of a program is affected by an intentional change in assumptions, behaviors, processes, and products that occur over time (Kezar and Eckel 2002).
좀 더 구체적으로, 이론 U는 다음의 세 가지 측면으로 구성됩니다(그림 1). (Sengeetal.2004)
감지(서스펜딩),
존재(시프트),
실현(변신)
More specifically, Theory U consists of three aspects:
sensing (suspending),
presencing (shifting), and
realizing (transforming) (Figure 1).
"모든 학습 프로세스에서 일어나는 일의 확장"으로 설명되는 [U 이론 학습자]는
처음에 과거의 경험(U의 하향 부분)에 기초한 전통적인 정신 모델을 사용하여 변화에 inform하기 위한 정보를 수집합니다. 그러면 학습자들은 전통적인 모델을 버리고 자아와 미래의 가능성에 대한 인식을 키우기 시작합니다.
학습자가 [U를 올라갈수록] 새로운 시각과 행동 방식을 향한 ["공동 창조"와 "공동 진화"]에 대한 감각이 커집니다(Senge et al. 2004; Scharmer 2016).
[근본적인 변화]가 발생할 때 이해관계자들은 기존의 체계와 체계를 실질적으로 재구성해야 한다. 이런 [변혁적 변화]가 가장 어렵다(2014년 Marris). 개인의 사전 지식과 신념은 이해를 행동으로 전환하는 방법에 영향을 미치며 변화 과정을 방해할 수 있습니다.
Described as “extensions of what happens in all learning processes”, in Theory U learners
initially gather information to inform change using traditional mental models based on past experiences (the downward part of the U). Learners then begin to let go of traditional models and develop a greater awareness of self and future possibilities.
As learners move up the U, there is a greater sense of “co-creating” and “co-evolving” into a new way of seeing and doing (Senge et al. 2004; Scharmer 2016).
When fundamental changes are undertaken, stakeholders must substantively restructure existing schemas and frameworks. This kind of transformational change is the most challenging (Marris 2014). An individual’s prior knowledge and beliefs influence how one translates understanding into action and can impede the change process.
주요 문화 변화를 구현하는 것은 단순히 개인의 기술과 인식의 기능이 아니라 전문가, 개인 및 상황 요인의 상호작용이다(Spillane et al. 2002).
Implementing major culture change is not simply a function of an individual’s skill and cognition, but rather the interaction of experts, individuals, and the situational factors (Spillane et al. 2002).
본 논문의 목적상, [평가의 문화]는 "학생 학습 성과 평가"(Weiner 2009)를 지원하는 기관 내 개인의 태도, 행동 및 신념으로 정의된다. For the purpose of this paper, assessment culture is defined as the attitudes, behaviors, and beliefs of individuals within an institution that support “the assessment of student learning outcomes” (Weiner 2009).
평가 문화의 변화는 CBME로의 전환을 지원하기 위해 중요하지만, 변화의 가장 어려운 측면 중 하나이다(Perguson et al. 2017). A change in assessment culture is crucial to support the transition to CBME, yet is one of the most challenging aspects of change (Ferguson et al. 2017).
방법 Method
우리는 CBME 채택 과정 시작 시와 시행 후 3년을 인터뷰하여 질적 근거이론(Strauss and Corbin 1990; Creswell and Creswell 2017; Glaser and Strauss 2017)을 채택했다. 지속적인 비교 방법(Strauss and Corbin 1990)을 사용하여, 임상 지도자와 AA, 전공의에 대한 평가가 어떻게 변화했는지에 대한 프리셉터/AA의 CBME에 대한 이해와 그들의 생각을 살펴보았다. We adopted a qualitative grounded theory (Strauss and Corbin 1990; Creswell and Creswell 2017; Glaser and Strauss 2017) method by interviewing preceptors/AAs at the beginning of the CBME adoption process and three years after implementation. Using the constant comparative method (Strauss and Corbin 1990), we explored preceptor/ AA’s understanding of CBME and their thoughts on how assessment had changed for clinical preceptors, AAs, and residents.
필드 노트 Field Notes (FNs)
컨텍스트 Context
이 연구는 온타리오 대학의 한 가정의학과(DFM)에서 이루어졌다. 이 프로그램은 약 150명의 졸업생이 참여하는 2년 간의 가정의학 교육 프로그램입니다. 2010년 이후, 이 부서는 여러 지도자에 의한 빈번한 고부담 형성적 평가, 어려움에 처한 전공의의 조기 식별, 교육 코칭, EPA, 개별 전공의 요구에 맞는 맞춤 학습을 제공하는 CBME 평가의 핵심 원칙을 채택했다. This study took place in one medium-sized Department of Family Medicine (DFM) at an Ontario university. It is a twoyear Family Medicine training program with approximately 150 postgraduate learners. Since 2010, this department has embraced key principles of the CBME assessment that features
providing frequent low stakes formative assessments by multiple preceptors and across different contexts,
early identification of residents in difficulty, academic coaching, EPAs, and
tailoring learning to individual resident needs (College of Family Physicians of Canada 2011; McEwen et al. 2015).
FN은 약 36개의 벤치마크 EPA(Schultz et al. 2015)로 구성되며, CFPC 커리큘럼 및 평가 프레임워크에 따라 수집 및 대조되며, AA와 전공의가 4개월마다 검토하고 해석한다. 프리셉터는 작업장에서 정기적인 형성평가를 문서화합니다. The FNs are organized around 36 benchmarked EPAs (Schultz et al. 2015), are collected and collated according to the CFPC curricular and assessment frameworks, and are reviewed and interpreted by the AA and resident every four months. Preceptors document regular formative assessment in the workplace.
자료 수집 Data collection
각 인터뷰는 약 60분이었으며, 음성 녹음 및 녹음되었습니다. 연구팀(ND)의 한 구성원이 인터뷰를 진행하고 메모를 작성하며 주요 사항을 반복하여 응답(구성원 확인)을 검증했습니다. 가명이 참가자의 모든 식별 정보를 대체했습니다.
Each interview was approximately 60minutes, audiorecorded and transcribed verbatim. One member of the research team (ND) conducted the interviews, wrote notes, and reiterated main points to validate responses (member checking). Pseudonyms replaced all identifying information of the participants.
자료 분석 Data analysis
두 명의 팀 구성원(HH, ND)은 파트 1과 파트 2에서 각각 두 개의 스크립트를 독립적으로 코드화하고 결과를 비교했으며, 초기 코드북이 개발될 때까지 합의와 의미를 공유하기 위해 코드를 논의했다. 이어 한(HH) 연구원이 나머지 기록물, 새롭게 개발된 새로운 주제 코드를 코딩하고 인터뷰 및 초기 코딩(ND)을 진행한 사람들과 새로운 코드를 확인했는데, 기록물의 의미가 모두 소진되고 코딩된 상태에서 새로운 코드가 나타나지 않아 [코드 포화]가 이루어졌다(Hennink et al. 201).7). 그런 다음 모든 코드를 유사한 범주와 중요한 주제로 분류하여 연구팀이 개인적 및 긴장을 다룰 수 있는 기회를 제공하고 reflexitivy를 다루고 프로세스에 대한 엄격성을 보장할 수 있도록 했다(Barry et al. 1999; Hesse-Biber and Leavey 2010).
Two team members (HH, ND) independently coded two transcripts respectively from Part 1 and Part 2, compared results, and discussed the codes to ensure consensus and shared meaning until an initial codebook was developed. One (HH) then researcher coded the remaining transcripts, the new developed codes on emerging themes, and checked the new codes with those who conducted the interviews and initial coding (ND). Code saturation was achieved when all meanings in transcripts were exhausted and coded, and no new codes appeared across all transcripts (Hennink et al. 2017). All codes were then grouped into similar categories and overarching themes through multiple discussions which allowed the research team biases opportunities to address personal and tensions thereby addressing reflexivity and ensuring rigor to the process (Barry et al. 1999; Hesse-Biber and Leavy 2010).
결과 Results
2013년 12개의 AA가 1부(응답률 60%)에 참여하였고, 9개의 AA가 2016년 2부(응답률 50%)에 참여하였다. 네 개의 AA가 연구의 두 부분 모두에 참여하였다(표 1). Twelve AAs participated in Part 1 of the study in 2013 (60% response rate) and nine AAs participated in Part 2 in 2016 (50% response rate). Four AAs participated in both parts of the studies (Table 1).
주제 1: 평가 문화의 변화 확인 Theme 1: Identified shifts in assessment culture
CBME에 대한 이해. Understanding of CBME.
참가자들은 CBME에 대해 상당히 잘 이해하고 있었다. 그러나 파트 1에서, 목소리들은 주로 잠정적이었고 일부 핵심 원칙(예: 시간에 따른 평가, 형성평가의 중요성, 성과 지향성)이 누락되었다. Participants had a reasonably good understanding of CBME. In Part 1, however, the voices were primarily tentative and missing some key principles (e.g. assessment over time, importance of formative assessment, and outcomes orientation).
파트 2에서 참가자들은 CBME에 대한 이해를 강화하였고, CBME를 정의해달라는 요청을 받았을 때 보다 상세하고 다면적인 CBME에 대한 설명을 사용하였다. In Part 2, participants had a stronger understanding of CBME, used more detailed and multi-faceted descriptions of CBME when asked to define it.
학습자의 역할 전환. Shift in role of learners.
파트 1 참가자의 설명 중 대다수는 [평가 관련 작업의 증가]를 식별하고, 이에 대한 [책임을 학습자에게 돌렸습니다]. The majority of Part 1 participants’ descriptions identified an increase in assessmentrelated work, and placed the onus for this on the learner.
파트 2의 대부분의 참가자들은 학습자들이 평가에 더 적극적으로 참여하고 피드백 추구를 증가시켰다고 느꼈습니다. 그들은 학습자들이 더 자기 성찰적이고 자신의 학습을 통제하는 것으로 인식했습니다. 참가자들은 학습에 대한 형성적 피드백과 평가의 효용과 성격에 대해 잘 이해하고, 학습을 가이드할 [공동 책임]을 파악했습니다. 그들은 CBME의 많은 핵심 원칙을 그들의 진술을 근거로 삼았다. Most participants in Part 2 felt the learners were more engaged in assessment and described increased feedbackseeking. They perceived the learners as being more selfreflective and in control of their learning. Participants demonstrated a good understanding of the utility and nature of formative feedback and assessment for learning, identifying a shared responsibility for guiding learning. They used many of the key principles of CBME to ground their statements.
프리셉터의 역할의 변화. Shift in role of preceptors.
1부 참가자들 중 다수는 일상 평가 요구 사항의 세분화된 성격을 선지자로서 이해하고 있었지만, 일상적 형식적 평가를 완료하려는 노력을 기울이지 않는 경우가 많았다. FN은 유용한 것으로 인식되지 않았으며, 사용할 때 주로 긍정적인 피드백을 제공하는 데 초점을 맞추었다. Many of the Part 1 participants understood, in their role as a preceptor, the granular nature of their daily assessment requirements, but were often not inclined to make the effort to complete daily formative assessment. FNs were not perceived as helpful and when used, were primarily directed at giving positive feedback.
그러나 파트 2에서는 [모든 참가자가 평가 과정의 지도자로서 자신의 역할을 포괄적으로 이해하였다]. 이들은 시간이 지남에 따라 여러 전문가로부터 여러 데이터 포인트를 수집하는 것이 중요하다는 것을 이해했습니다. 그들은 더 많은 피드백을 제공하고 FN을 통해 이를 문서화하는 데 초점을 두고 보다 직접적인 관찰을 수행하는 것을 설명했습니다. 또한 [학습에 대한 평가의 가치를 인식]하여 학습 성과가 달성될 때까지 과제를 수행할 때마다 피드백을 제공했습니다. In Part 2, however, all participants had gained a comprehensive understanding of their role as preceptors in the assessment process. They understood the importance of collecting multiple data points from multiple experts over time. They described doing more direct observation with a focus on providing more feedback and documenting it through FNs. They also recognized the value of assessment for learning – giving feedback each time the task is performed until the learning outcomes are achieved.
AA의 역할 전환. Shift in role of AA.
AA의 역할에서, 모든 파트 1 참가자는 전공의와의 협력을 바탕으로 역량 결정을 내릴 수 있을 뿐이라고 설명했으며, 전자 시스템에서 수집된 증거를 불신하는 경향이 있었다.
In their role as AAs, all Part 1 participants described only being able to make a competency decision based on working with a resident and were inclined the to distrust the evidence collected in electronic system.
파트 2 참가자의 대다수는 시간이 지남에 따라 수집된 종합적 평가 데이터를 활용하여 전체 학습자 역량을 평가할 때 얻을 수 있는 이점을 이해한다고 말했다. The majority of Part 2 participants stated that they understood the benefits of utilizing the synthesized assessment data collected over time, from a number of assessors, to assess overall learner competence.
주제 2: 평가 문화의 변화를 뒷받침하는 요인 Theme 2: Factors supporting the shifts in assessment culture
의무적인 의학교육 개혁. Mandated medical education reform.
평가 문화의 변화를 뒷받침하는 한 가지 요인은 인증 기관인 CFPC가 의무적으로 시행한 국제적인 의료 교육 개혁이었습니다. CFPC는 국가 역량 기반 트리플 C 커리큘럼을 만들고 2011년 CBME 원칙을 프로그램의 인증 요건에 통합했다(College of Family Physicians 2011). 모든 인터뷰 대상자가 확인한 바와 같이, 이러한 직접적인 권한은 우리가 새로운 역량 기반 평가 프로세스를 개발하도록 자극했습니다. A factor supporting the shift in assessment culture was the overarching international reform in medical education that was mandated by our accrediting body – the CFPC. The CFPC created its national competency-based Triple C curriculum and incorporated the principles for CBME into programs’ accreditation requirements in 2011 (College of Family Physicians of Canada 2011). As identified by all the interviewees, this direct mandate was what prompted us to develop a new competency-based assessment process.
부서 지원. Departmental support.
DFM은 체계적인 평가 프로세스를 개발하고 유지하기 위한 시간, 인력, 인프라 지원 및 할당을 통해 평가 문화의 변화를 촉진했습니다. 1부 참가자들 중 다수는 형성적 평가에 익숙해지고 이를 채택하는 데 걸리는 시간에 초점을 맞추었다. The DFM facilitated the change in assessment culture through support and allocation of time, personnel, and infrastructure to develop and sustain a systemic assessment process. Many of the Part 1 participants focused on the amount of time it took to become familiar with and adopt the formative assessment.
반면, 파트 2의 참가자들 대부분은 부서 지원의 가치에 초점을 맞췄다. Whereas, most of the participants in Part 2 focused on the value of departmental support.
리더십 Leadership.
평가의 변화를 이끄는 리더십의 가용성은 평가 문화 혁신을 이끄는 데 있어 핵심적인 요소였습니다. 거의 모든 참가자들이 리더에게 도움이 되는 특성(접근성, 열정, 참여성, 효과적, 듣기 능력)에 대해 언급했습니다.
The availability of leadership guiding the changes in assessment was a key factor in driving assessment culture transformation. Almost all of the participants commented on the characteristics they saw as being helpful in that leader – accessible, enthusiastic, engaged, effective, good listening skills.
정보 기술 향상. Information technology improvement.
[IT 개발과 지원]은 평가의 변화를 위한 기반을 닦았습니다. 파트 1 참가자들은 평가 시스템이 보다 사용자 친화적이어야 하고 시간이 덜 걸려야 한다고 생각했다. IT development and support paved the way for change in assessment. Part 1 participants thought that the assessment system should be more user-friendly and less time-consuming.
3년 후, 모든 참가자는 IT 개선에 더 만족한다고 답했으며, 평가 프로세스가 기능 및 인프라 측면에서 더 잘 지원된다는 것을 알게 되었습니다. Three years later, all the participants indicated that they were more satisfied with the IT improvement and found the assessment process was better supported in terms of functionality and infrastructure.
교수개발 Faculty development.
FD는 CBME 구현의 핵심이었습니다. 파트 1 참가자의 대다수는 학습자를 관찰하고 피드백을 제공하며 형성평가를 위해 작업장 기반 평가를 효과적으로 사용하는 방법에 대한 교육이 필요하다고 느꼈습니다. FD was a key to implementing CBME. The majority of Part 1 participants felt that they needed training on how to observe learners, give feedback and effectively use workplace-based assessment for formative assessment.
파트 2에서, 그들은 더 많은 FD 기회와 그들의 역할과 효과적인 평가를 제공할 수 있는 능력에 대한 자신감을 언급했습니다. In Part 2, they noted more FD opportunities, and confidence in their role and ability to provide effective assessments.
주제 3: 평가 문화의 변화 결과 Theme 3: Outcomes of the shift in assessment culture
학습 강화. Enhanced learning
1부 참가자들은 [목적은 명확히 이해하지 못한 채 학습자가해야 할 일의 양]에만 초점을 맞췄다. Part 1 participants focused on the amount of work the learners had to do without apparent understanding of the purpose.
2부에서는 거의 모든 참가자들이 학습자가 자신의 학습 및 모니터링에 앞장서면서 보다 자기 주도적으로 학습함으로써 평가 시스템에서 어떤 이점을 얻을 수 있는지에 대해 풍부하게 설명했습니다. 이들은 더 많은 피드백을 받고 학습자들이 피드백을 검토할 수 있는 기회를 설명했으며, 이를 통해 학습이 향상되었다고 느꼈습니다. 참가자들은 더 많은 피드백을 찾는 학습자에 대해 설명했습니다. In Part 2, almost all of the participants gave rich descriptions of how learners benefit from the assessment system by being more self-directed with learners taking the lead on learning and monitoring their own progress. They benefiting from more feedback and described learners opportunities to review feedback, which they felt enhanced their learning. Participants described learners seeking more feedback.
가르침 강화. Enhanced teaching.
1부 참가자들은 자신의 지도자의 역할을 하면서 FN이 학습자에게 보다 자세하고 건설적인 피드백을 제공하는 데 도움이 된다고 믿었습니다. Part 1 participants, in their preceptor role, believed FNs facilitated giving learners more detailed and constructive feedback.
파트 2에서, 참가자들은 더 많은 관찰로 인해 그들의 피드백이 더 직접적으로 신뢰된다고 설명했다. 이들은 FN을 작성하는 것이 학습자들에게 더 많은 학습기회를 만들어 줄 뿐만 아니라, 정기적인 피드백에 집중된 자신의 가르침에 대한 성찰 능력을 통해 향상시켰다고 설명했다. 그들은 평가에 대한 이 새로운 접근법이 그들을 더 나은 지도자로 만들었다고 믿는다. In Part 2, participants described their feedback as being direct more credible due to more observation. They explained that writing FNs not only created more learning opportunities for learners, but also improved through their own ability to reflect on their teaching focused attention to regular feedback. They believe this new approach to assessment has made them better preceptors.
표준을 사용하여 성능 수준을 결정합니다. Use of standards to make level of performance decisions.
1부에서는 모든 참가자들이 학습자의 수행 수준을 결정하는 데 있어 [자신의 실천 방식을 벤치마크로 사용]했습니다. 그들은 이러한 의사결정에 대한 기준이 부족하다는 점에 주목하였다. In Part 1, all of the participants in their role as preceptors, used their own practice as a benchmark in determining a learner’s level of performance. They noted the lack of standards for these decisions.
파트 2에서 각 참가자는 여전히 학습자의 성과에 대한 판단이 대부분 직관에 기초하고 있다고 설명했지만, 확신할 수 없을 때 결정을 확인하거나 경계선 성과에 대한 결정을 정당화하기 위해 기준(EPA)을 사용했습니다. In Part 2, each participant still described their judgments of learner’s performance as being largely based on intuition but used the standards (EPAs) to confirm decisions when unsure or to justify a decision about a borderline performance.
학습자의 성과에 대한 더 넓은 그림. Broader picture of learner’s performance.
1부에서는 참가자들 중 누구도 [형성적 피드백을 문서화하여 수집함으로써 얻을 수 있는 이점]을 보지 않았으며 오히려 학습자에게 [무가치한 추가 작업]으로 보았다.
In Part 1, none of the participants saw the benefit of documenting and collecting formative feedback, rather, they saw it as additional work without value for learners.
그러나 3년 후 연구에 참여한 학생들은 FN을 완료하는 것이 일상적인 일이라고 여겼으며 평가 시스템이 제공하는 학습자의 전반적인 성과를 보다 포괄적으로 파악해 주었다.
Those that participated in the study three years later, however, viewed completing FNs as routine, and appreciated the more comprehensive picture of the learners’ overall performance afforded by the assessment system.
모든 평가를 위한 중앙 저장소. Central repository for all assessments.
파트 2에서 모든 참가자는 접근, 검토 및 문서화를 쉽게 할 수 있도록 [모든 평가 데이터를 하나의 중앙 위치에 두는 것의 이점]을 높이 평가했습니다. 전자 기능은 데이터 정리 및 데이터 수집에 편리한 것으로 나타났습니다. 2013년 한 해 동안 참가자들은 중앙 리포지토리와 관련된 혜택에 대해 설명하지 않았습니다. In Part 2, all of the participants appreciated the benefits of having all assessment data in one central location for ease of access, review, and documentation. The electronic functionality was found to be convenient in organizing and collating data. In 2013, participants did not describe any benefits related to the central repository.
성능 추적 및 문서화 개선. Better tracking and documentation of performance.
2부에서는 대부분의 참가자들이 학습자의 궤적을 더 잘 추적하고 진행 상황을 모니터할 수 있게 되었습니다. 총괄 평가와 역량 결정이 더 많은 정보를 제공한다고 느꼈습니다. 이들은 평가 시스템이 학습 궤적이나 학습 공백이 있는 학습자를 [조기에 식별하고 문서화하여 시기적절하고 효과적인 개입]을 촉진한다고 느꼈습니다. CBME 이전 평가 시스템에서, 이러한 격차는 레지던트 프로그램이 끝날 무렵에 더 자주 확인되었습니다. In Part 2, most participants felt better able to track learners’ trajectory and monitor progress. Summative assessments and competence decisions felt more informed. They felt the assessment system supported early identification and documentation of learners with stalled learning trajectories or gaps in their learning, which, in turn, facilitated timely, effective intervention. In the pre-CBME assessment systems, gaps these were more often identified near the end of the residency program.
한 가지 추가 발견은 CBME가 전공의에게 미칠 수 있는 부정적 영향에 대한 일부 선관/AA의 추측이었다. 2부에서 일부 참가자들은 FN에 대한 지나친 요구가 전공의들의 독립성을 저해하고 자기성찰 능력을 떨어뜨릴 수 있다는 우려를 표명했다. One additional finding was speculation by some preceptors/AAs of a potential negative impact of CBME on residents. In Part 2, some participants expressed their concerns that too much demand for FNs might discourage residents’ independence and decrease their self-reflection skills.
고찰 Discussion
이 연구는 시간이 지남에 따라 우리의 역량 기반 평가 문화에서 지속적이지만 긍정적인 변화를 보여 줍니다. 참가자들은 CBME에 대한 이해와 가치를 향상시켰습니다. 그들은 형성적 피드백의 가치를 설명하고 그것을 제공하는 경향이 더 강하다고 설명했습니다. 그들은 자신들의 피드백이 더 신빙성이 있고 형성적피드백에 더 많이 참여하기 때문에 더 나은 교사라고 믿었다. AA로서, 그들은 학습자의 성과에 대한 넓은 그림을 제공하는 평가 데이터를 위한 중앙 저장소에 접근함으로써 역량에 대한 요약적 의사결정을 내릴 수 있는 능력에 대해 더욱 자신감을 갖게 되었다. 시간이 지남에 따라 성능을 더 잘 추적하면 학습 문제를 조기에 식별, 문서화 및 처리할 수 있습니다. This research demonstrates an ongoing, but positive transformation in the culture of our competency-based assessment over time. Participants improved their understanding and valuing of CBME. They described the value of formative feedback and being more inclined to provide it. They believed their feedback was more credible and they were better teachers because of more engagement in formative feedback. As AAs, they became more confident in their ability to make summative decisions about competence, through access to a central repository for assessment data offering a broad picture of learner’s performance. Better tracking of performance over time affords the opportunity to identify, document and deal with learning issues earlier.
평가 문화의 전환을 지원한 주요 요소로는
규제 기관의 요구,
지역 리더십,
부서 지원,
교수 개발,
최종 사용자의 요구에 대응하는 전자 플랫폼 등이 있었다.
The major factors that supported the shift in assessment culture included
the mandate of regulatory bodies,
local leadership,
departmental support,
faculty development and
an electronic platform responsive to the needs of end-users.
이러한 구성요소는 [긴박감 확립]에서 [협력적 리더십], [새로운 접근법의 제도화]에 이르는 성공적인 혁신 변화와 관련된 잘 알려진 요인과 일치합니다.
These components are aligned with well-known factors related to the successful transformational change from establishing a sense of urgency to collaborative leadership to institutionalizing new approaches (Kotter 1996; Kezar and Eckel 2002; Fullan 2007).
본 연구의 참가자들은 이론 U와 관련된 구조물에 의해 틀에 잡힌 변화 과정,
다운로드(과거 패턴 일시 중단),
제시(변화를 반영 및 전환),
수행(실천 및 인프라를 통한 변환 결과)(Sharmer 2016)을 거쳤습니다.
The participants in this study journeyed through the process of transformational change framed by the constructs associated with Theory U:
downloading (suspending patterns from the past);
presencing (reflecting and shifting to the change); and
performing (transforming results through practices and infrastructures) (Scharmer 2016).
Figure 2 그림 2
[U의 왼쪽부분]에서 아래로 이동함에 따라, 그들은 평가에 대한 전통적인 믿음을 중단하기 시작했고, 새로운 평가 전략을 이해하려고 시도했으며, 그리고 나서 CBME 이전의 규범을 놓기 시작했습니다.
[U의 바닥부분]에서 역량 기반 평가의 목적을 이해함으로써 평가 문화의 변화를 나타낸다.
[U의 우측부분]으로 이동하면, 그들은 새로운 역량 기반 평가 모델에 대해 더 익숙해진된다. 새로운 지식은 시스템 전체에 내재되어 있기 때문에, 새로운 접근방식은 학습자와 이중 역할 모두를 위해 궁극적으로 가치를 인정받았다(Spillane et al. 2002).
Moving down the left side of the U, they began to suspend traditional beliefs about assessment, attempting to make sense of new assessment strategies, and then begin to let go of pre-CBME norms.
The bottom of the U represents a shift in assessment culture through an understanding of the purpose of competency-based assessment.
Moving up the right side of the U, they become more and more cognitively enculturated in the new competency-based assessment model and ultimately recognized value in the new approach both for themselves in their dual roles and for learners, as the new knowledge became embedded in the system as a whole (Spillane et al. 2002).
맥러플린(1990)의 "일단 행동을 하면, 다음에 이해가 따라올 수 있다"는 격언이 이 연구에서 강조된다. 이러한 문화적 변화는 CBME 평가 과정에 대한 진화하는 이해를 통해 시간이 지남에 따라 발생합니다. 초기 연구에서 참가자들은 변화를 수용하는 것을 꺼려했다. CBME에 대한 이해는 잠정적이었고, FN에 만족하지 않았으며, 평가 접근방식의 격차를 일부 확인했기 때문에 로드맵으로서 벤치마킹이 필요함을 시사했다. McLaughlin’s (1990) adage “understanding can follow action” is highlighted in this study. This cultural transformation occurs over time through an evolving understanding of CBME assessment processes. In our study, at the beginning, participants showed reluctance to embrace change; their understanding of CBME was tentative, they were not satisfied with FNs, and some identified gaps in the assessment approach, suggesting they needed benchmarks as a roadmap.
긍정적인 관점에서 이러한 불만과 제안은 어느 정도 그들의 변화 참여를 시사하였다. 분노와 불만은 사람들이 문화적 불협화음을 경험하고 있다는 것을 의미할 수 있다(번즈 앤 제임스 1995; Bickel and Jensen 2012). 이러한 불협화음에서 생각과 성찰이 나오고 문화적 변화를 형성하는데 도움이 될 수 있다. 본 프로그램에서는 프리셉터/AA가 해결해야 할 문제를 찾아내고, 이러한 문제를 해결함으로써 사람들이 변화의 이점을 보고, CBME를 더 잘 이해하며, 새로운 평가 문화를 수용하게 되었습니다. On a positive note, these dissatisfactions and suggestions to some extent indicated their engagement in change. Resentment and dissatisfaction may mean that people are engaged and experiencing a cultural dissonance (Burnes and James 1995; Bickel and Jensen 2012). Thoughts and reflections may come from such dissonance and help shape the cultural shifts. In our program, it was through engagement that the preceptors/AAs found the issues that needed to be addressed, and it was through addressing those issues that people saw the benefits of change, gained a better understanding of the CBME, and embraced the new culture of assessment.
이 연구는 변화가 완벽하게 구현되기를 기대하지 않고, 변화로 인해 발생하는 이슈들을 신속하게 해결해야 하며, 문화적 전환에 시간이 걸린다는 점을 강조한다. 우리의 연구 결과는 그들의 기관에서 평가나 커리큘럼의 변화를 계획하는 사람들의 진로를 안내하는 조명입니다. This study highlights not to expect change to be implemented perfectly, that issues arising from change do need to be addressed quickly and that cultural transition takes time. The results of our study shed light to guide the path of those who plan a change in assessment or curriculum in their institutions.
Purpose:Adopting CBME is challenging in medicine. It mandates a change in processes and approach, ultimately a change in institutional culture with stakeholders ideally embracing and valuing the new processes. Adopting the transformational change model, this study describes the shift in assessment culture by Academic Advisors (AAs) and preceptors over three years of CBME implementation in one Department of Family Medicine.Methods:A qualitative grounded theory method was used for this two-part study. Interviews were conducted with 12 AAs in 2013 and nine AAs in 2016 using similar interview questions. Data were analyzed through a constant comparative method.Results:Three overarching themes emerged from the data: (1) specific identified shifts in assessment culture, (2) factors supporting the shifts in culture, and (3) outcomes related to the culture shift.Conclusions:In both parts of the study, participants noted that assessment took more time and effort. In Part 2, however, the effort was mitigated by a sense of value for all stakeholders. With support from the mandate of regulatory bodies, local leadership, department, faculty development and an electronic platform, a cultural transformation occurred in assessment that enhanced learning and teaching, use of embedded standards for performance decisions, and tracking and documentation performance.
Growth mindset in competency-based medical education Denyse Richardsona,b , Benjamin Kinnearc , Karen E. Hauerd , Teri L. Turnere , Eric J. Warmc , Andrew K. Hallb,f , Shelley Rossg , Brent Thomab,h and Elaine Van Melleb,i; On behalf of the ICBME Collaborators
Introduction
보건 직종에 걸쳐 역량 기반 의료 훈련 교육(CBME)을 지속적으로 채택하면서(Carracio et al. 2002), 역량 개발을 지원하는 평가 관행에 대해 많은 내용이 작성되었다(Frank et al. 2010; Holmboe et al. 2010; Harris et al. 2017; Lockkyer et al. 2017; Iobst and Holmboe 2020). 그러나 개인의 발전을 지원하는 교육 관행과 학습 경험에 동등한 관심을 기울여야 한다(Van Melle et al. 2019). CBME는 의학적 정교함의 연속을 따라 누적 학습을 요구하므로(McGaghie et al. 1978), CBME가 성공적으로 구현되기 위해서는 학습자가 숙달이라는 평생 목표를 가지고 개별화되고 지속적인 학습을 통해 자신의 성장을 형성하는 파트너가 되어야 합니다. In the ongoing adoption of competency-based medical training education (CBME) across health professions (Carraccio et al. 2002), much has been written about assessment practices that support competency development (Frank et al. 2010; Holmboe et al. 2010; Harris et al. 2017; Lockyer et al. 2017; Iobst and Holmboe 2020). However, equal attention must be given to instructional practices and learning experiences that support individual development (Van Melle et al. 2019). As CBME calls for cumulative learning along a continuum of increasing medical sophistication (McGaghie et al. 1978), its successful implementation requires learners to be partners in shaping their own growth through individualized, ongoing learning with the lifelong goal of mastery.
개인의 학습 접근 방식은 CBME 프로그램의 성공에 큰 영향을 미칠 것입니다. 최근에는 Dweck의 자기이론, 즉 성장마인드(Growth Mind)에 대한 관심이 높아지고 있다(Teunissen and Bok 2013, Khalkhali 2018, Shapiro and Dembitzer 2019, Chadha 2020). Dweck는 개인이 지능과 능력에 대해 암묵적인 견해나 사고방식을 가지고 있으며, 고정된 특성(고정 사고방식)인지 변화 가능한(성장 사고방식)인지에 대해 보고하고 있습니다(Dweck 2016). 성장 마인드를 가진 학습자는 역량과 숙달로 나아가는 길이 발전적 진전임을 인식합니다.
An individual’s approach to learning will significantly affect their success in a CBME program. Recently, there has been increasing interest in Dweck’s self theory, or growth mindset, as an important underpinning value of health professions education (Teunissen and Bok 2013; Khalkhali 2018; Shapiro and Dembitzer 2019; Chadha 2020). Dweck reports that individuals have implicit views, or mindsets, regarding intelligence and abilities and whether they are fixed traits (fixed mindset) or changeable (growth mindset) (Dweck 2016). Learners with the growth mindset recognize that the road to competence and onward to mastery is a developmental progression.
성장 마인드셋이란 무엇입니까? What is the growth mindset?
사고방식Mindset이란 '특정한 생각의 방식'이다. 그것들은 성격과 습관적으로 생각하고 행동하는 방식을 강력하게 형성하는 태도, 전망, 신념의 집합체입니다. 사고방식의 토대는 개인의 신념이다. 기본 신념을 면밀히 검토하면 이러한 기본 신념과 관련된 인지 과정과 그것이 행동에 어떻게 영향을 미치는지 그리고 그러한 행동에 대한 개인의 자기 해석, 분석 및 라벨링에 대한 보다 명확한 이해를 제공할 것이다. Mindsets have been described as a ‘particular way of thinking’ ( ). They are a collection of attitudes, outlooks, and beliefs that powerfully shape personality and how one habitually thinks and acts. The foundation of a mindset is one’s beliefs, Closely examining underlying beliefs will provide a clearer understanding of the cognitive processes linked to these underlying beliefs and thereby how they affect behaviours and the individual’s self-interpretation, analysis, and labelling of those behaviours.
즉, [우리의 행동]은 [우리의 신념을 반영하는 관찰 가능하고 측정 가능한 행동]입니다. Dweck의 사고방식 이론에 따르면, 이러한 자기관념은 '우리가 원하는 것과 그것을 얻는 데 성공하느냐'에 깊은 영향을 미칠 수 있습니다(Dweck and Leggett 1988; Dweck 2016). In other words, our behaviours are the observable and measurable actions that reflect our beliefs. According to Dweck’s mindset theory, these self-conceptions can profoundly ‘affect what we want and whether we succeed in getting it’ (Dweck and Leggett 1988; Dweck 2016).
성장 마인드를 가진 개인은 속성(예: 지능)이 유연하고 개선될 수 있다고 믿습니다.
고정 마인드를 가진 사람은 속성을 바꿀 수 없고 자신의 가치에만 내재한다고 믿는다(Hong et al. 1999; Dweck 2016).
An individual with the growth mindset believes attributes (e.g. intelligence) are malleable and can be improved, while
someone with the fixed mindset believes attributes are unchangeable and inherent to their self-worth (Hong et al. 1999; Dweck 2016).
학습자의 사고방식은 목표 지향성(Locke 및 Latham 2002)에 영향을 미칠 수 있으며, 이는 학습자의 행동에 반영됩니다. A learner’s mindset can influence their goal orientation (Locke and Latham 2002), which is reflected in their behaviour.
고정관념의 학습자는 자신의 가치를 재확인하고 실패를 피하기 위해 '좋아 보이는' 방식으로 행동합니다.
성장 마인드 학습자들은 숙달하기 위한 역량 향상에 초점을 맞추고, 실패를 발전 과정의 일부로 봅니다.
Fixed-mindset learners behave in a way that makes them ‘look good’ to reaffirm their selfworth and avoid failure, while
growth-mindset learners focus on improving their competence in the pursuit of mastery and see failure as a part of the developmental process.
성장 마인드는 호기심과 질문 의지를 촉진하는 반면,
고정된 사고방식은 무능해 보일까 봐 호기심을 억누른다.
The growth mindset promotes curiosity and a willingness to ask questions, while
the fixed mindset subdues curiosity for fear of appearing incompetent.
성장 마인드를 가진 학습자는 광범위한 자가 모니터링에 참여하며 단순히 달성한 진도가 아니라 노력한 노력을 바탕으로 만족도를 높입니다. 외부 소스의 의견을 구하고 개선을 위한 제안을 환영합니다.
고정된 사고방식을 가진 학습자들은 피드백이나 비판에 더 저항적입니다.
Learners with the growth mindset engage in extensive self-monitoring and base their satisfaction on effort exerted rather than simply on progress achieved. They seek input from external sources and welcome suggestions for improvement, while
learners with the fixed mindset are more resistant to feedback or criticism.
성장 마인드를 가진 개인은 도전에 직면할 경우 자신에게 동기를 부여하고, 노력을 증가시키며, 학습에 다른 전략을 사용합니다. 그들은 역경과 실패에 대응하기 위해 끈기를 보여주고 끈기를 발휘합니다.
고정된 사고방식을 가진 학습자는 장애 앞에서 무력하게 반응한다(Dweck 1975; Dweck and Leggett 1988; Klein et al. 2017; Osman et al. 2020).
If faced with challenges, growth-minded individuals use setbacks to motivate themselves, increase their efforts, and use different strategies for learning. They demonstrate tenacity and persevere in response to adversity and failure.
Learners with the fixed mindset react helplessly in the face of obstacles (Dweck 1975; Dweck and Leggett 1988; Klein et al. 2017; Osman et al. 2020).
성장 마인드를 가지면 학습의 비선형 궤적과 불가피한 실패를 여정의 일부로 수용할 수 있습니다. 너무 빨리 포기하지 말고 현실적으로 상황을 평가하는 것도 포함된다. 성장의 과정은 지속적인 자기 반성, 자기 평가, 불완전성에 대한 자기 수용을 필요로 합니다. 성장 사고방식을 가진 사람은 성장 사고방식이 없는 사람보다 더 정확하게 자기 평가를 하며 실패 후에도 자신을 성공적이라고 볼 가능성이 높습니다(Diener와 Dweck 1980). Having the growth mindset allows one to embrace the nonlinear trajectory of learning and the inevitable failures as a part of the journey. It includes not giving up too soon but also realistically assessing the situation. The process of growth requires continual self-reflection, self-assessment, and selfacceptance of imperfections. Individuals with the growth mindset more accurately self-assess than those without the growth mindset and are more likely to view themselves as successful even after failure (Diener and Dweck 1980).
성장 마인드 및 CBME: 이론과 실천을 연결합니다. Growth mindset and CBME: connecting theory to practice
성장 마인드는 CBME의 기초가 되는 두 가지 구성 요소, 즉 [숙달 학습]과 [의도적 연습]의 핵심 요소입니다. Growth mindset is a key ingredient to two constructs that are foundational in CBME: mastery learning and deliberate practice.
[숙달 학습]은 베스트 프랙티스의 지속적이고 빠른 진화를 감안할 때, 21세기 의학의 실천에 필수적인 평생 학습 경로를 강조한다. 계획된 특정 학습 경험은 발달적 진전 및 약점을 극복하기 위해 시퀀싱됩니다. 학습자는 성과 데이터를 통해 정보를 제공받고, 감독자의 안내를 받으며 세심한 반성을 통해 개선해야 할 부분을 파악할 수 있습니다. 의료 전문가는 남은 경력 동안 실무 역량을 유지하기 위해 이러한 기술을 계속 요구합니다(McGaghie 2015). Mastery learning emphasizes the lifelong learning pathway that is essential for the practice of medicine in the twenty-first century, given the constant and rapid evolution of best practice. Planned, specific learning experiences are sequenced for developmental progression and/or to overcome weaknesses. The learner, informed by performance data and guided by a supervisor, is able to identify areas for improvement through careful reflection. Health care practitioners require these skills to continue to maintain competence for practice for the rest of their career (McGaghie 2015).
에릭슨의 '의도적 연습' 개념은 학습이 특정 영역의 성과를 개선하는 것을 지향하는 고도로 구조화된 활동으로 특징짓는다. 의도적인 연습은 어떤 작업을 무심코 반복하기보다는 잘 정의된 목표에 도달하기 위해 집중적인 접근 방식을 사용합니다. 실제적 구현에는 다음이 필요하다.
(a) 의도된 인지 또는 정신운동 기술의 반복적 수행,
(b) 더 경험이 많은 개인의 능력의 엄격한 관찰,
(c) 개선을 위한 제안을 포함한 특정 정보 피드백
Ericsson’s concept of ‘deliberate practice’ characterizes learning as a highly structured activity that is explicitly directed at improving performance in a particular domain. Rather than mindless repetition of a certain task, deliberate practice uses a focused approach to reach well-defined goals. Practical implementation includes
(a) repetitive performance of intended cognitive or psychomotor skills,
(b) rigorous observation of abilities by a more experienced individual, and
(c) specific informative feedback, including suggestions for improvement (Ericsson 2015).
[숙달 학습]과 [의도적 연습]에 토대를 둔 CBME 프로그램은 자연스럽게 성장을 배움의 중심이라고 생각합니다. 모든 학생, 레지던트 및 의사는 지속적으로 학습하고 개선해야 합니다. 학습의 점진적 순서는 [비록 각각의 학습자가 시간에 따라 서로 다른 역량에서 강점을 보이며, 과제가 시간에 따라 달라지더라도] 일정한 궤적을 경험할 것임을 나타낸다(Van Melle et al. 2019). 교육자의 일은 학습자와 협력하여 학습 진척도와 학습 계획을 파악하고 모니터링하며, 숙달은 모든 학습자가 [동일한 방식으로 경험하는 하나의 사건]이 아니라 [하나의 과정]이라는 관점을 강화하는 것입니다. 이러한 학습자 중심의 접근방식은 의사가 환자의 선호도와 의료 상태에 따라 치료를 조정하는 환자 중심의 치료와 유사합니다. A CBME program founded on mastery learning and for deliberate practice naturally situates the expectation growth as central to learning. All students, residents, and practising physicians must continue to learn and improve. The progressive sequencing of learning explicates that all learners will experience a trajectory, although their relative strengths in different competencies and tasks will vary over time (Van Melle et al. 2019). The job of an educator is to work with learners to identify and monitor their progress and learning plans and reinforce the view that mastery is a process, not a single event that every learner experiences the same way. This learner-centred approach is analogous to patient-centred care wherein a physician tailors their care to a patient’s preferences and medical condition(s).
CBME의 성장 마인드에 초점을 맞추면 보건 직업 교육의 오랜 가정과 관행에 대한 재검토가 촉진될 것입니다. A focus on the growth mindset in CBME should prompt the re-examination of some long-standing assumptions and practices in health professions education.
첫째, 성장 마인드는 의학에서 수월성에 대한 기존의 관점은 재정립할 필요성을 요구한다. 전통적으로 [수월성]은 동료에 비해 우수한 성과를 나타내는 높은 점수로 정의되고 인정되어 왔습니다. 수월성을 특징 짓기 위해 [시험 점수]를 강조하면, [커뮤니케이션, 환자 및 팀 구성원과의 관계, 전문성, 건강 시스템 기술, 평생 학습 등] 대등하게 중요한 실무 역량을 평가절하할 수 있다(Razack et al. 2019). 전통적으로 Excellence는 타고난 (혹은 타고나지 않은) 능력으로 간주됩니다. 그러다보니, 훈련생들에게 이는 [유능해 보여야 하며 약점이나 질문을 숨기면서 높은 점수를 받아야 한다]는 암묵적인 메시지를 전달한다(Pintrich et al. 2003; Bullock et al. 2019). 그러나 CBME에서 우수성은 코치의 지원을 받아 고의적인 연습을 통해 배양된 역동적인 특성 및 행동 집합으로 재구성되어, [모든 학습자가 우수성을 지속적으로 추구할 수 있는 기회]를 창출합니다(Sternberg 2001; Ericson 2015). First, established views of excellence in medicine require reframing. Traditionally, excellence has been both defined and recognized by high grades indicating superior performance relative to peers. The emphasis on test scores to characterize excellence can devalue other equally important competencies for practice, including communication, relationships with patients and team members, professionalism, health systems skills, and lifelong learning (Razack et al. 2019). Excellence is traditionally viewed as an ability one naturally has or does not have (Sternberg 2001). The implicit message to trainees is that they must appear competent and should seek high grades while hiding weaknesses or questions (Pintrich et al. 2003; Bullock et al. 2019). In CBME, however, excellence is reframed as a dynamic set of traits and behaviours cultivated through deliberate practice with the support of a coach, thereby creating the opportunity for all learners to continually pursue excellence (Sternberg 2001; Ericsson 2015).
둘째, [개선을 중시하기보다는 결점 없는 성과를 기대하는] 전통적 문화에 대한 의문이 제기되고 있다. 성장 마인드에 초점을 맞추는 것은 의료 종사자의 경력 전반에 걸쳐 필요한 평생 학습과 일치하고 이를 지원합니다. [지속적인 학습과 개선의 필요성을 받아들인다는 것]은 재교육remediation이라는 개념에 대한 도전이라고 볼 수 있다. 왜냐하면, 재교육에는 전통적으로 [결함을 식별하고 해결하는 것]을 포함하기 때문이다. [결핍과 실패에 초점을 맞추는 것]은 [모든 학습자의 발전과 성장에 대한 기대]와 상충한다. Second, the traditional culture, which expects flawless performance rather than valuing improvement, is called into question. A growth-mindset focus aligns with and supports the necessary lifelong learning throughout any health care practitioner’s career. Acceptance need for of the continual learning and improvement challenges the concept of remediation, which traditionally involves identifying and addressing deficiencies (Hauer et al. 2009). The focus on deficiencies and failure is at odds with the expectation for development and growth for all learners.
Ellaway와 동료들은 이러한 긴장을 인정한다.
'교정 조치remedial action'는 예상대로 진행되지 않는 [학습자에 대한 지원을 강화]하기 위해 취해질 수 있는 방법으로 정의하였으며,
공식적인 '교정 조치remediation'는 [lack of progression]과 [프로그램에서의 퇴출되어야 할 가능성]에 대한 심각한 우려concern를 나타내는 흔치 않은 상황이라고 정의하였다(Ellway et al. 2018)
Ellaway and colleagues acknowledge this tension by defining how
‘remedial action’ can be undertaken to strengthen support for a learner who is not progressing as expected, whereas
formal ‘remediation’ signals the uncommon situation of serious concern about lack of progression and the potential for recommended removal from a program (Ellaway et al. 2018).
그렇다고 성장 마인드를 가진 사람들은 모두가 같은 수준에 도달할 수 있다고 생각하지 않는다. 오히려, 그들은 모두가 발전할 수 있다고 믿는다. That said, those with a growth mindset do not assume that everyone is capable of reaching the same level. Rather, they believe that everyone can improve.
교정조치의 탈낙인화(destigmatizing)는 [개별 학습 요구를 최대한 조기에 식별하려는 노력]과 결합하여, 개선을 가치있게 여기는 문화에 기여할 수 있다(Chou et al. 2019). 성장 중심의 CBME 프로그램에서는 모든 '교정 조치'가 목표 학습 계획에 포착된 개인 개발의 정상적인 부분으로 재구성되어야 하며, 모든 학습자가 서로 다른 속도로 진척되고 개선이 필요한 영역을 보유해야 합니다. 그렇다고 모든 학습자에게 역량을 입증할 수 있는 [무한한 시간이 주어져야 한다는 것]은 아닙니다. 목표한 학습 계획 및 지원에도 불구하고 진전이 없는 특정 경우를 위해, '교정remediation'이라는 용어는 남겨두어야 합니다.
Destigmatizing remediation, coupled with efforts to identify individual learning needs as early as possible, can contribute to a culture in which improvement is valued (Chou et al. 2019). In a growth-oriented CBME program, all ‘remedial action’ should be reframed as a normal part of individuals’ development, captured in their targeted learning plan, with the understanding that all learners will progress at different rates and have areas that need improvement. This is not to say that all learners must be given infinite time to demonstrate competence; rather, the term ‘remediation’ should be reserved for those specific instances where progress is not being made, despite targeted learning plans and support.
성장 마인드로 CBME 구현에 미치는 영향 Implications for implementing CBME with a growth mindset
의학교육 초기 성장마인드 함양 Fostering growth mindset early in medical education
현재 학부 의학 교육(UME)은 학습자가 성과 결손을 숨기고(Williams et al. 2003; McGaghie 2018) 가능한 최고 등급과 순위를 달성하기 위해 '역량의 외피cloak of competence'로 자신을 감싸면서 인상을 관리하려는 [고정 마인드적 실천]을 강화하는 경우가 많다. Currently, undergraduate medical education (UME) often reinforces the fixed-mindset practice of impression management, with learners keeping themselves wrapped in a ‘cloak of competence’ to hide performance deficits (Williams et al. 2003; McGaghie 2018) and achieve the highest possible grade and ranking.
학생들은 또래와의 [상대적 비교]를 걱정하는, 대신 자신의 향상에 집중할 수 있어야 한다. 성장 마인드를 가진 학생들은 남들이 힘들어하는 것을 두려워하지 않고 바람직한 어려움을 받아들일 수 있다. 이를 위해 고정 마인드를 강화하는 인센티브를 제거해야 합니다. Pass/Fail 평가 시스템과 상대적 비교를 최소화하는(또는 제거하는) 준거 기반 표준화 테스트로 이동하면 학생들이 성적에 덜 집중하고 성장에 더 집중할 수 있다(Line et al. 2020).
Instead of worrying about normative comparisons with peers, students could focus on their improvement. Students with a growth mindset could embrace desirable difficulties, unafraid of others seeing them struggle . For this to be possible, incentives that reinforce fixedmindsets must be removed. Moving to pass/fail rating systems and criterion-based standardized tests that minimize(or eliminate) normative comparisons may help studentsfocus less on grades and more on growth (Lin et al. 2020).
학부에서 대학원 의학 교육으로 전환하는 성장 사고방식 Growth mindset in the transition from undergraduate to graduate medical education
UME가 성장 마인드로 전환하기 위해서는, 졸업후 의학교육(GME)도 이에 발맞춰야 한다. 현재, UME에서 GME로의 전환 프로세스는 고정된 사고방식을 가진 학습자에게 유리합니다. 많은 GME 프로그램 책임자들은 성장 잠재력은 거의 고려하지 않고 '최고의' 지원자를 찾고 레지던트에서 성공할 사람을 예측하는 방법을 지속적으로 찾고 있습니다(Green et al. 2009; Nallasamy et al. 2010; Makdisi et al. 2011; Weissbart et al. 2015). 실제로 학습자 '개선'은 레지던트 선발에서 [바람직하지 않은 것]으로 간주된다(Saudek et al. 2019). If UME moves toward a growth mindset, graduate medical education (GME) must act in sync. Currently, the transition process from UME to GME favours learners with the fixed mindset. Many GME program directors continually search for ways to find the ‘best’ applicants and predict who will succeed in residency, with little regard for growth potential (Green et al. 2009; Nallasamy et al. 2010; Makdisi et al. 2011; Weissbart et al. 2015). In fact, learner ‘improvement’ is viewed as undesirable in residency selection (Saudek et al. 2019).
모든 GME가 성장 마인드를 충분히 받아들인다면, ['최고의' 지원자를 찾는 것]에서 벗어나, (종적 코칭 프로그램이나 사회적 개입과 같은) 학습자의 잠재력을 극대화하는 데 도움이 되는 노력에 자원을 더 투입할 수 있습니다(Walton and Cohen 2011; Palamara et al. 2015). UME 프로그램이 졸업생들의 강점과 약점을 투명하고 개방적일 수 있을 만큼 성장 마인드를 수용하고 GME 프로그램들이 각 지원자들의 학습 요구에 맞춰 프로그램의 강점을 맞추려고 노력했다고 상상해 보십시오. 이러한 시스템은 CBME의 진정한 정신을 바탕으로 학습자의 장기적인 성장을 극대화할 것이다. 또한 시스템의 초점도 [누가 '최고'인지를 결정하는 것]에서 [프로그램의 요구 및 접근방식과 학습자의 학습 요구와 목표 사이의 매칭이 적합한지good match]로 초점이 전환될 것이다. If all of GME were steeped in the growth mindset, resources could be shunted away from finding the ‘best’ applicants and toward efforts that help learners maximize their potential, such as longitudinal coaching programs or social-belonging interventions (Walton and Cohen 2011; Palamara et al. 2015). Imagine if UME programs embraced the growth mindset enough to be transparent and open about their graduates’ strengths and weaknesses, and GME programs tried to match their program’s strengths to each applicant’s learning needs. Such a system would maximize a learner’s long-term growth in the true spirit of CBME. The focus would shift from determining who is ‘best’ to establishing whether there is a good match between the needs and approaches of the program and the learning needs and goals of the learner.
제도적 성장 사고방식 Institutional growth mindset
[학습자가 성장을 수용하기를 기대하기에 앞서서], 기관장과 일선 교수진이 먼저 성장 사고방식을 채택하고 모델링해야 합니다. 교수진은 교육의 목표가 졸업시에 완벽한 의사를 배출하고 지속적인 성장과 학습에 능통한 학습자를 배출하는 것이라는 잘못된 생각을 버려야 한다. 비교와 경쟁을 강화하는 상대적normative 평가 시스템은 최소화하거나 제거해야 한다. Institutional leaders and front-line faculty must first adopt and model the growth mindset before learners can be members expected to embrace growth. Faculty should reject the false notion that the goal of training is to produce perfect physicians at graduation and embrace the need to produce learners who are adept at continuous growth and learning. Normative assessment systems that reinforce comparison and competition should be minimized or removed.
Toxing quizzing을 통해 위계를 강화하고 학습자를 경시하는 오랜 방법인 '핌핑'은 없애야 한다(나가루르 외. 2019). 이러한 관행은 성과에 근거하여 누군가의 자존심을 떨어뜨리는 전형이며, 고정된 사고방식을 강화합니다. ‘Pimping,’ a long-held method of reinforcing hierarchy and belittling learners through toxic quizzing, should be eliminated (Nagarur et al. 2019). This practice is the epitome of reducing someone’s self-worth on the basis of performance and reinforces the fixed mindset.
아마도 가장 어려운 점은 보건의료전문직 훈련에서 실패의 부담stakes of failure을 줄여야 한다는 것이다. 미국과 영국을 두 가지 예로 들 수 있는 많은 국가의 의대생들은 막대한 금융 부채(Ercolani et al. 2015; AAMC 2020)가 발생하므로 실패를 방어할 수 없다. 이 때문에 의사 훈련의 동정적 오프램프compassionate off-ramps가 항상 존재하는 것은 아니다(Belini et al. 2019). Perhaps most challenging, the stakes of failure in health professions training must be reduced. Medical students in many countries, with the United States and United Kingdom as two examples, incur large amounts of financial debt (Ercolani et al. 2015; AAMC 2020), making failure untenable. Compounding this, compassionate off-ramps from physician training do not always exist (Bellini et al. 2019).
성장 마인드는 일부 학습자가 '역량을 못 갖춤'으로 라벨링되는 임의의 [시간 기반 결승선]을 강화하는 대신, 학습자가 숙달해야 하는 시간을 제공하여 '아직 역량을 못 갖춤'이라는 라벨링으로 바꿀 것이다.
Rather than reinforcing an arbitrary time-based finish line where some learners may be labelled with ‘competence not realized,’ the growth mindset affords learners the time they need to gain mastery, changing the label to ‘competence not yet realized.’
CBME 성장마인드 채택 전략 Strategies for adopting the growth mindset in CBME
[개인 학습자]의 수준에서는, 수년 간의 암기와 표준화된 평가 관행(Shapiro 및 Dembitzer 2019)으로 강화되어 있는 고정적 사고방식을 극복하는 것이 과제입니다. 학습자에게 성장 사고방식을 채택하는 근거와 실천요강을 소개하는 것만으로도 효과적일 수 있습니다(Klein et al. 2017). 학습자 중심의 개별화된 학습 계획 및 프로세스를 구현하면 원하는 행동을 강화할 수 있다(Ramani et al. 2019). For individual learners, the challenge is to overcome a tendency toward the fixed mindset reinforced by years of rote memorization and standardized assessment practices (Shapiro and Dembitzer 2019). Simply introducing learners to the rationale and practices for adopting the growth mindset can be effective (Klein et al. 2017). Implementing a learner-initiated, individualized learning plan and process can also reinforce desired behaviours (Ramani et al. 2019).
[개별 교수진]들은 그들의 언어가 그들의 행동과 주변 사람들의 행동에 깊은 영향을 미칠 수 있다는 것을 인식할 필요가 있습니다(Kegan과 Lahey 2001). 그들이 사용하는 단어들은 그들이 가지고 있는 사고방식을 나타낸다(Ricotta et al. 2019).
예를 들어, '당신은 소통이 잘 돼요'라고 말하는 대신 (고정 속성을 강조)
성장지향적인 코치는 '나는 네가 의사소통 능력을 키우기 위해 열심히 노력했다고 생각한다. 당신은 환자 및 다른 팀원들과 의사소통을 잘합니다.'
Individual faculty members need to recognize that their language can profoundly affect their behaviour and the behaviour of those around them (Kegan and Lahey 2001). The words that they use indicate the mindset they hold (Ricotta et al. 2019). For example,
instead of saying ‘You’re a good communicator’ (emphasizes fixed attribute),
a growth-oriented coach might say ‘I imagine that you’ve worked hard to develop your communication skills. You communicate well with patients and other team members.’
교직원들이 이러한 방식으로 관찰과 피드백을 수용하고 일상적인 평생 학습의 추구와 같은 성장 사고방식에 부합하는 다른 행동을 할 때, 학습자도 같은 행동을 하도록 더욱 장려될 수 있다. 개인의 오해도 해결해야 한다. 예를 들어, 일부 교수들은 성장 사고방식이 주로 정동적affective 영역(예: 공감과 동정)이 아닌 인지cognitive 영역(예: 임상적 추론)에 적용된다고 생각합니다. 반드시 직접 가르침이 아니더라도, [세심한 사회적 상호작용을 통해 정동적 영역affective domain의 역량을 개발할 수 있다는 점]을 교수진과 학습자 모두가 이해하도록 하는 것이 중요합니다. When faculty embrace observation and feedback in this way, as well as other behaviours consistent with the growth mindset, such as the pursuit of daily lifelong learning, they encourage their learners to engage in the same behaviours. Individual misperceptions must also be addressed. For example, some faculty think that the growth mindset applies primarily to the cognitive domain (e.g. clinical reasoning) as opposed to the affective domain (e.g. empathy and compassion) (Pal et al. 2020). It is important to ensure that both faculty and learners understand that competencies in the affective domain can be developed, although not necessarily through direct teaching but through careful cultivation of social interactions (Ekman and Krasner 2017; Lavelle et al. 2017).
또한, 교수진이 [자신의 지속적인 학습 및 개선과 관련하여 자신의 신념과 실천을 검토]할 때 학습자와의 상호작용에 대한 상당한 통찰력을 얻을 수 있습니다. 지속적인 학습을 모델링하고 오류나 도전적인 상황에 대한 성장 마인드의 접근 방식에 대해 명확한 대화를 나누는 것은 학습 환경에 영향을 미치며 이러한 행동을 장려하기도 합니다. 또한, 교수진이 학습자의 발전에 대한 노력을 학습자에게 알릴 경우, 교육 파트너십을 구축하고 안전한 학습 환경을 조성할 수 있습니다(Eva et al. 2012; Telio et al. 2016). Additionally, when faculty examine their beliefs and practices with respect to their own continuous learning and improvement they can gain significant insight into their interactions with their learners. Role modelling continuous learning and having explicit conversations about a growth-mindset approach to errors or challenging situations will have an impact on the learning environment and even encourage these behaviours. Furthermore, if faculty make learners aware of their commitment to the learners’ development it will support the establishment of an educational partnership and signify a safe learning environment (Eva et al. 2012; Telio et al. 2016).
[관계적 차원]에서, 성장 사고방식은 [학습이라는 사회적 맥락]에서 대인관계 차원에서 개념화될 수 있다(오스만 외 2020). 예를 들어, CBME의 효과적인 구현의 중심에는 [목적적 피드백과 코칭]이 있다. [의미 있는 외부적 관점]은 개별화된 학습 목표(Dweck 2016)의 식별을 통한 학습의 점진적 성장을 지원합니다. 데이터의 품질이 중요한 것은 분명합니다. 예를 들어, 학습자 성과에 대한 풍부한 서술적 설명은 효과적인 피드백의 기초가 됩니다(McConnell et al. 2016).
At the relational level, the growth mindset can be conceptualized on the interpersonal level in the social context of learning (Osman et al. 2020). For example, purposeful feedback and coaching is central to the effective implementation of CBME. Meaningful external perspective supports progressive growth in learning through the identification of individualized learning goals (Dweck 2016). Clearly, the quality of the data matters. For example, rich narrative descriptions of learner performance are foundational to effective feedback (McConnell et al. 2016).
[시스템 수준]에서, [어떻게 평가 및 보상 결정을 하는지]가 성장 마인드를 촉진하거나 파쇄시킬 수 있습니다. CBME는 평가의 이중 목적dual-purposing을 장려하는데, 이는 [학습을 위한 평가]와 [학습의 평가] 사이에 긴장을 조성한다. 당연하게도 [역량을 입증하는 데]만 집중하는 평가 시스템을 만든다면 성장 마인드의 행동을 저해할 것입니다. 학습자는 개선해야 할 부분에 대해 [솔직한 피드백]을 구하기보다는, 감독관에게 잘 보이기 위한 수행만을 하려고 시도할 것이다(LaDonna et al. 2017). At the systems level, it is within our processes of assessment and promotion that the growth mindset can either be cultivated or crushed. CBME encourages the dual-purposing of assessment, which sets up a tension between the use of assessment for learning and of learning (Lockyer et al. 2017; Watling and Ginsburg 2019). Understandably, if we create assessment systems that focus only on demonstrating competence, we will discourage growth-mindset behaviours. Learners will be tempted to perform for their supervisors rather than to seek honest feedback about areas for improvement (LaDonna et al. 2017).
마찬가지로 중요한 것은, 우리의평가 시스템이 성장을 장려하는 방식으로 교사들에게 보상을 해주어야 한다는 것입니다. 학습자의 개선을 위하여 [정기적인 관찰과 코칭을 제공하는 임상 교사]는 적절한 인정을 받아야 합니다. 적어도 개선의 문화가 정착되고 있는 초기에는, [학습자에게 고품질의 서술적 피드백과 개선을 위한 단계]를 제공하고 기록하는 것에 대한 인센티브를 주는 것이 성장 지향적 행동을 장려할 것이다.
Equally important, our systems of assessment must reward our teachers in ways that encourage growth. Clinical teachers who provide regular observation and coaching for improvement to learners need to be appropriately acknowledged. Incentives to provide and record high-quality narrative suggestions and steps for improvement to learners will also encourage such growth-oriented behaviour, at least early on when a culture of improvement is being established
학습 궤적을 반영하기 위해서는, [척도의 전체 범위]를 사용하는 것은 매우 중요하며, 그렇게 하도록 요구되어야 한다. Watling and Ginsburg(2019)가 언급했듯이, '[평가에 초점을 맞춘 학습 문화]는 학습자의 탐구, 실험, 때로는 실패에 대한 안전 의식을 제한할 수 있다.' 교육생이 자신의 역량을 입증하는 특정 수의 평가를 획득해야 한다면, [개선을 위한 피드백을 얻을 수 있는 취약성 상황moments of vulnerability의 평가]를 더 받아야 할 인센티브가 과연 무엇인가요? 부족한 점이나 개선의 여지를 강조하는 평가가 '중요하지 않다'거나, 더 나쁘게는 진행 결정에 부정적으로 기여하는 경우, 수련생들은 '강점 상황moments of strength'에서만 평가를 받고자 할 것입니다. Use of the entire spectrum of scales to reflect the trajectory of learning is critical and needs to be the expectation. As stated by Watling and Ginsburg (2019), ‘a learning culture focused on assessment may limit learners’ sense of safety to explore, to experiment, and sometimes to fail.’ If trainees must simply acquire a certain number of assessments that demonstrate their competence, what incentive do they have to seek out assessment in moments of vulnerability to get feedback so they can improve? If assessments that highlight deficiencies or room for improvement ‘don’t count’ or, even worse, contribute negatively to progression decisions, then trainees will seek assessment only at moments of strength.
[시스템 수준]에서 조직의 가치와 리더십은 조직/제도 문화에 깊은 영향을 미치고 이에 따라 어떤 행동이 권장되는지에도 영향을 미칩니다. 따라서 이러한 [건설적 목표 설정 관계]의 존재는 기존 조직 문화와 가치에 크게 의존한다(Watling et al. 2014; Ramani et al. 2017). 우리의 교육 및 의료 시스템의 문화는 성장 마인드를 반영하는 활동과 행동을 지원하고 장려할 필요가 있습니다. 예를 들어, [오류]를 [책임을 지우려는 목적]이 아니라 [품질 개선의 기회]로 접근하는 조직은 성장 문화를 촉진한다고 볼 수 있다. 리더십 지원은 성장 마인드 채택에 매우 중요하며, 이론과 조직 관행을 연결하는 다각적 접근법을 사용하는 것이 이상적인 전략이다(Derler et al. 2018, Halvorson et al. 2017). 긍정적인 학습 풍토 구축은 성장 지향 피드백 관행을 육성하는 데도 중요합니다(Ramani et al. 2017). 새로운 조직 문화를 채택하는 것은 어려운 과제이며, 필요한 포괄적인 접근 방식을 사용하는 조직은 거의 없다(Derler et al. 2018, Halvorson et al. 2017). Additionally, at the systems level, organizational values and leadership profoundly influence the organizational/ institutional culture and thereby what behaviour is encouraged. Hence, the existence of these constructive goalsetting relationships is highly dependent upon the existing organizational culture and values (Watling et al. 2014; Ramani et al. 2017). The culture in our systems of education and health care needs to support and encourage activity and behaviours that reflect the growth mindset. For example, an organization that approaches an error as an opportunity for quality improvement rather than with the goal of assigning blame would be promoting a growth culture. Leadership support is critical to the adoption of the growth mindset, and using a multipronged approach that connects theory to organizational practice is an ideal strategy (Derler et al. 2018, Halvorson et al. 2017). Establishing a positive learning climate is also critical for fostering growth-oriented feedback practices (Ramani et al. 2017). Adopting a new organizational culture is a challenging task, with few organizations using the required comprehensive approach (Derler et al. 2018, Halvorson et al. 2017).
A call for research on growth mindset in CBME
결론 Conclusion
우리는 능력을 개발의 여지가 있다고 보는 성장 마인드와 숙달에 중점을 두는 CBME 채택 사이에서 자연스러운 시너지를 주장해 왔습니다. 의대 교육에서, 전통적으로 ['보기 좋은looking good' 것을 최우선 관심사로 하는 고정적 마인드]를 강화하는 경향이 있다는 것이 성장 마인드를 도입할 때 특히 어려운 과제이다.
We have argued for a natural synergy between the growth mindset, where abilities are viewed as being open to development, and the adoption of CBME, where the emphasis is on working toward mastery. That traditional approaches to medical education tend to reinforce a fixed mindset, where ‘looking good’ is an overriding concern, is a particular challenge when introducing the growth mindset.
Rich JV, Fostaty-Young S, Donnelly C, Hall AK, Dagnone JD, Weersink K, Caudle J, Van Melle E, Klinger DA. 2020. Competency-based education calls for programmatic assessment: But what does this look like in practice? J Eval Clin Pract. 26:1087–1095. XXX
Ricotta D, Huang G, Hale A, Freed J, Smith C. 2019. Mindset theory in medical education. Clin Teach. 16(2):159–161.
Abstract
The ongoing adoption of competency-based medical education (CBME) across health professions training draws focus to learner-centred educational design and the importance of fostering a growth mindset in learners, teachers, and educational programs. An emerging body of literature addresses the instructional practices and features of learning environments that foster the skills and strategies necessary for trainees to be partners in their own learning and progression to competence and to develop skills for lifelong learning. Aligned with this emerging area is an interest in Dweck’s self theory and the concept of the growth mindset. The growth mindset is an implicit belief held by an individual that intelligence and abilities are changeable, rather than fixed and immutable. In this paper, we present an overview of the growth mindset and how it aligns with the goals of CBME. We describe the challenges associated with shifting away from the fixed mindset of most traditional medical education assumptions and practices and discuss potential solutions and strategies at the individual, relational, and systems levels. Finally, we present future directions for research to better understand the growth mindset in the context of CBME.
발달적 평가에 필수적인 것은 무엇인가? (American Journal of Evaluation, 2016)
What is Essential in Developmental Evaluation? On Integrity, Fidelity, Adultery, Abstinence, Impotence, Long-Term Commitment, Integrity, and Sensitivity in Implementing Evaluation Models Michael Quinn Patton1
Bob Williams는 시스템 접근 방식을 평가하는 데 기여한 누적 공로로 2014 AEA Lazarsfeld Theory Award를 수상했습니다. 밥은 덴버에서 열린 어워즈 런천에서 400명 이상의 평가자들이 참석한 가운데 단어 시스템의 기원에 대해 설명했다. Bob Williams was awarded the 2014 AEA Lazarsfeld Theory Award for his cumulative contributions bringing systems approaches into evaluation. In accepting at the Awards Luncheon in Denver, attended by more than 400 evaluators, Bob explained the origin of the word system.
'시스템'이라는 단어는 '함께 서다'라는 뜻의 그리스어 synhistonai 에서 유래했다. 그래서 모든 분이 잠시 서 계셨으면 합니다. The word ‘system’ comes fromthe Greek word synhistonai (a verb incidentally, not a noun) meaning ‘to stand together’. So I’d like to invite all that can do so to stand for a moment.
이제 몇 분 앉으시라고 하겠습니다. 저는 평가 관행에 어떤 형태나 형태, 더 크든 덜 크든 시스템과 복잡성 아이디어를 적용했다고 생각하는 모든 분은 그대로 서 계십시오. I’m now going to ask some of you to sit down. I’d like to remain standing anyone who to some extent feels that you have applied systems and complexity ideas—of whatever shape or formand to a greater or lesser extent—in your evaluation practice.
평가에서 시스템 사고의 적용에 대한 질문은 거의 모든 접근법에 적용될 수 있습니다. 이 글에서는 뚜렷한 평가 접근 방식을 구현함에 있어 충실도 과제의 범위를 제시하고, 구체적인 사례를 제시하며, 개발 평가(DE)를 사용하여 충실도에 대한 새로운 사고 방식과 대처 방식을 도입할 것입니다. The questions about application of systems thinking in evaluation could be applied to almost any approach. This article will lay out the scope of the fidelity challenge in implementing distinct evaluation approaches, illustrate the challenge with specific examples, and use developmental evaluation (DE) to introduce a newway of thinking about and dealing with fidelity.
차별화된 평가 접근 방식을 구현하는 데 있어서의 충실도 과제 The Fidelity Challenge in Implementing Distinct Evaluation Approaches
경험이 많은 DE 실무자가 최근 제게 '발달평가DE를 하고 있다고 말하는 경우가 많지만, 실제로는 그렇지 않다'고 말했습니다. An experienced DE practitioner recently told me: ‘‘More often than not, I find, people say they are doing Developmental Evaluation, but they are not.’’
[충실도fidelity 과제]는 [특정 평가를 지정된 명칭으로 부르는 것을 정당화하기 위해, 전반적인 접근법의 핵심 특성을 충분히 포함하는 정도]에 관한 것이다. [충실도]가 [효과적인 프로그램을 새로운 장소 복제하려는 노력의 중심 문제]인 것처럼(복제품은 기초가 되는 오리지널 모델에 충실한가?), 특정 모델을 따르는 평가자가 해당 모델의 모든 핵심 단계, 원칙 및 프로세스를 이행하는 데 충실한지 여부를 평가한다. The fidelity challenge concerns the extent to which a specific evaluation sufficiently incorporates the core characteristics of the overall approach to justify labeling that evaluation by its designated name. Just as fidelity is a central issue in efforts to replicate effective programs to new localities (are the replications faithful to the original model on which they are based?), evaluation fidelity concerns whether an evaluator following a particular model is faithful in implementing all the core steps, principles, and processes of that model.
형성적-총괄적 구별에 대한 충실도 Fidelity to the Formative–Summative Distinction
충실성의 과제를 설명하기 위해 가장 오래되고, 가장 기본적이며, 가장 신성불가침적인 구분인 형성적, 총괄적 특성을 고려하십시오. [형성적-총괄적 구분]은 철학자이자 평가자인 Michael Scriven(1967)에 의해 학교 커리큘럼 평가를 위해 처음 개념화되었다. 그는 총괄 평가의 광범위한 채택, 정상급 결정 또는 효과의 요약에 대한 승인을 얻고 보급해야 하는지를 결정하기 위한 커리큘럼의 평가를 촉구했다. To illustrate the challenge of fidelity, consider our oldest, most basic, and most sacrosanct distinctions: formative and summative. The formative–summative distinction was first conceptualized for school curriculumevaluation by philosopher and evaluator extraordinaire Michael Scriven (1967). He called evaluating a curriculum to determine whether it should be approved and disseminated for widespread adoption of a summative evaluation, evoking a summit-like decision or a summing-up of effectiveness.
원래의 [총괄평가]는 purpose에 대한 용어였다. 즉, 교육과정, 프로그램, 제품, 개입의 미래 결정(중단, 축소, 지속 등)에 inform하기 위한 목적을 위해, 이들의[장점, 가치, 중요성에 대한 주요 결정]을 내리는 것으로 시작되었다. 그러나 총괄평가라는 용어는 빠른 속도로 [프로그램이나 프로젝트가 끝날 때 실시되는 평가]를 지칭하는 방식으로 확장되었습니다. Summative evaluation began as a purpose designation, the purpose being to inform a major decision about the merit, worth, and significance of a curriculum, program, product, or other intervention to determine its future (kill it, cut it back, continue as is, enlarge it, and take it to scale). But the term summative evaluation quickly expanded to designate any evaluation conducted at the end of a program or project.
(총괄평가의 정의에서) [뚜렷하고 중요한 목적]이 [프로그램 종료라는 타이밍] 지정designation으로 변형되었습니다. 이것은 아이러니할 뿐만 아니라 왜곡적이다. 왜냐하면 대부분의 [총괄적 결정]은 최종 총괄평가 보고서가 제출되기 훨씬 전에, 즉 [실제 프로그램이 종료되기 몇 달 전에 미리 이루어져야 하기 때문]입니다. 나는 매년 "총괄적"이라는 라벨이 붙은 수십 개의 보고서를 검토하는데, 그 중 거의 어떤 보고서도 식별 가능한 [총괄적 의사결정자들]에 의한 [실제 총괄 결정]에 inform하는 방식으로 작성되거나 기록되지 않는다. 내가 보기에, "총괄"의 원래 의미에 대한 충실성은 이미 많이 상실되었다. A distinct and important purpose morphed into a timing designation: end of a program. Which is ironic—and distorting—since most summative decisions must be made months before the actual end of a program, long before evaluation final summative reports are submitted. I review scores of reports labeled ‘‘summative’’ every year, virtually none of which are written or timed in such a way as to informan actual summative decision by identifiable summative decision-makers. Fidelity to the original meaning of summative has been largely lost from my perspective.
그럼 형성 평가는 어떠한가? 스크리븐은 커리큘럼을 총괄 평가하기 전에, [엄격한 총괄평가를 할 수 있으려면], [개정과 개선의 기간을 거쳐야 하며, 버그와 문제를 해결하고, 빈틈을 메우고, 학생의 반응을 얻어야 한다]고 지혜롭게 주장했다.즉, 형성 평가의 목적은 모델을 [form, shape, standardize, and finalize]하여 종합 평가를 위한 준비를 갖추는 것이었다. 그러나 총괄평가가 그러했듯, 프로그램 개선을 위한 평가라면 어떤 것이든 형성평가라는 레이블을 적용하면서, 형성평가는 본래 목적에서 탈피하게 되었다.
And what of formative evaluation? Scriven argued wisely that before a curriculum was summatively evaluated, it should go through a period of revision and improvement, working out bugs and problems, filling in gaps, and getting student reactions, to ensure that the curriculum was ready for rigorous summative testing. The purpose of formative evaluation was to form, shape, standardize, and finalize a model so that it was ready for summative evaluation. But, as happened with summative evaluation, the idea of formative evaluation morphed from its original purpose as the label came to be applied to any evaluation that improves a program.
비록 형성적 designation과 총괄적 designatino이 (원래는) 함께 개념화되었지만, 형성적 지정의 목적은 총괄적 준비를 위한 것이지만, 그러한 기대는 종종 달성되지 않는다. [명확한 목적]에서 [시점(프로그램 종료)의 문제]로 총괄평가가 변형된 것처럼, 이제는 단순히 [자금 지원 주기의 중간]에 평가가 이루어진다는 이유만으로 '형성(평가)'라는 이름으로 불리는 중간평가(midterm evaluation)가 매우 많다. 이러한 '형성적' 평가는 종종 프로그램이 [구현 규격]을 준수하고 있고, [이정표 성과 척도]를 충족하고 있는지를 결정하는, 중간시점의 책무성 연습(midterm accountability exercise)에 불과하다. 내가 보기에, [형성평가]의 원래 의미에 대한 충실도는 크게 떨어졌습니다. 예를 들어, 교수 평가 워크숍에서 나는 [형성 평가]와 [과정process 평가], [총괄 평가]와 [결과outcome 평가]를 동일시하는 참가자를 정기적으로 보곤 한다. 하지만 이들은 서로 다르다.
Though formative and summative designations were conceptualized hand in glove, the purpose of formative being to get ready for summative, that expectation often goes unfulfilled. Just as summative morphed froma clear purpose to a matter of timing (end of program), I now see a great many midterm evaluations designated as ‘‘formative’’ simply because the evaluation takes place in the middle of a funding cycle. These supposedly ‘‘formative’’ evaluations are often midterm accountability exercises determining whether the program is adhering to implementation specifications and meeting milestone performance measures. From my perspective, fidelity to the original meaning of formative has been largely lost. For example, in teaching evaluation workshops, I regularly find participants equating formative evaluation with process evaluation and summative evaluation with outcomes evaluation. Not so.
다시 한 번 말씀드리겠습니다. Scriven은 [평가의 목적]은 [모델을 점검하고 판단하는 것]이라는 가정 하에 형성적-총괄적 평가라는 구별을 만들었다.
원래의 형성 평가는 [모델을 개선하기 위한 것]이었습니다.
원래의총괄 평가는 [모델을 테스트]하고 [모델이 원하는 성과를 생성하는지 여부에 근거하여 장점, 가치, 중요성을 판단]하기 위한 것이었으며, 그러한 성과는 프로그램에 귀속될be attributed to수 있다.
Let me reiterate. Scriven originated the formative–summative distinction under the assumption that the purpose of evaluation is to test and judge a model.
Formative evaluations were meant to improve the model.
Summative evaluations were meant to test the model and judge its merit, worth, and significance based on whether it produces the desired outcomes and those outcomes can be attributed to the program.
[형식적]이라는 용어와 [총괄적]이라는 용어가, 평가 내에서 그리고 자금을 조달하고 사용하는 사람들 사이에서 지배적이 되었습니다. 그러나 평가 실무자들은 무엇이 실제로 형성적 또는 종합적 평가를 구성하는지와 둘 사이의 연관성에 대해 허술해졌다.
The terms formative and summative have become dominant both within evaluation and among those who fund and use it. But evaluation practitioners have become sloppy about what actually constitutes a formative or summative evaluation and the connection between the two.
DE의 출현 Emergence of DE
DE는 [형성 평가]와 [총괄 평가]의 충실성을 존중하겠다는 나의 약속에서 나왔습니다. 저는 자선 재단의 리더십 프로그램을 평가하기 위해 5년 계약을 맺었고, 2.5년은 형성적이고, 모델을 안정시키고 표준화하며, 2.5년은 모델의 효과를 테스트하고 판단하기 위한 계약을 맺었습니다. [형성 기간] 동안, 선임 프로그램 직원들과 재단 지도부는 자신들이 [표준화된 모델]을 만들고 싶지 않다는 것을 깨닫게 되었습니다. 대신, 그들은 세상이 변함에 따라 [리더십 프로그램을 지속적으로 적응할 필요가 있다는 것]을 깨달았습니다. 리더십 개발 프로그램을 적절하고 의미 있게 유지하려면 시간이 지남에 따라 다음의 것들을 지속적으로 업데이트하고 적응해야 한다는 결론을 내렸습니다.
그들이 한 일;
누가 어떻게 사람들을 프로그램에 모집했는지,
신기술 사용
공공 정책, 경제 변화, 인구학적 전환 및 사회 문화적 변화에 주의를 기울이고 이를 통합합니다.
DE emerged from my commitment to respect the fidelity of formative and summative evaluation. I had a 5-year contract to evaluate a philanthropic foundation leadership program, and 2.5 years were to be formative, to stabilize and standardize the model, followed by 2.5 years to test and judge the model’s effectiveness. During the formative period, the senior program staff and foundation leadership came to realize that they didn’t want to create a standardized model. Instead, they realized that they would need to be continuously adapting the leadership programas the world changed. To keep a leadership development program relevant and meaningful, they concluded, they would need, over time, to continuously update and adapt
what they did;
who and how they recruited people into the program;
use of new technologies; and
being attentive to and incorporating developments in public policy, economic changes, demographic transitions, and social–cultural shifts.
그들은 자신들의 열망이 [모델을 개선]하거나 [테스트]하거나 [모델을 배포]하는 것에 있지 않다는 것을 깨닫게 되었습니다. 대신, 그들은 프로그램을 계속 개발하고 적응하기를 원했다. 이들은 무엇을 변경, 확장, 종료 또는 더 발전시킬 것인지에 대한 [지속적인 적응과 시기적절한 결정을 지원하는 접근 방식]을 원했습니다. 이것은 형성평가와는 달랐다. 그리고 그들은 총괄적으로 평가될 수 있는 표준화된 모델이 없기 때문에 절대 종합 평가를 의뢰하지 않을 것이라고 결론지었다. 그들이 원하고 필요로 하는 것이 무엇인지에 대한 우리의 논의는, [지속적인 적응과 개발]을 중심으로 응집되었으며, 이를 DE 접근법이라고 불렀다.
They came to understand that they didn’t want to improve a model or test a model or promulgate a model. Instead, they wanted to keep developing and adapting the program. They wanted an approach that would support ongoing adaptation and timely decisions about what to change, expand, close out, or further develop. This was different from formative evaluation. And they concluded that they would never commission a summative evaluation because they wouldn’t have a standardized model that could be summatively evaluated. Our discussions about what they wanted and needed kept coalescing around ongoing adaptation and development so we called the approach DE. (For more details about this designation and how the DE terminology emerged, see Patton, 2011, pp. 2–4.)
DE의 틈새 및 목적 The Niche and Purpose of DE
DE는 복잡한 역동적 환경에서 적응적 발달을 알리기 위해 사회 혁신가에게 평가 정보와 피드백을 제공합니다. DE는 평가 질문을 하고, 평가 논리를 적용하고, 프로젝트, 프로그램, 이니셔티브, 제품 및/또는 조직 개발을 지원하기 위해 평가 데이터를 수집하고 보고하는 프로세스를 혁신과 적응에 도입합니다. DE provides evaluative information and feedback to social innovators to inform adaptive development in complex dynamic environments. DE brings to innovation and adaptation the processes of asking evaluative questions, applying evaluation logic, and gathering and reporting evaluative data to support project, program, initiative, product, and/or organizational development with timely feedback.
DE niche는 복잡하고 역동적인 환경의 혁신을 평가하는 데 초점을 맞춥니다. 왜냐하면 그 영역이야말로 사회 혁신가들이 활동하고 있는 영역이기 때문입니다. 이들은 주요한 방식major way으로 사물의 방식을 바꾸고자 하는 사람들이다. 여기서 사용되는 혁신은 다루기 어려운 문제에 대한 새로운 접근법, 변화된 조건에 대한 지속적인 프로그램 적응, 새로운 맥락에 대한 효과적인 원칙 적응(스케일링), 시스템 변경 및 위기 상황에서의 신속한 대응 적응을 포함하는 광범위한 틀입니다. 사회 혁신은 복잡한 문제에 대한 모든 종류의 긴급/창의/적응적 개입을 단축하는 것입니다. The DE niche focuses on evaluating innovations in complex dynamic environments because that’s the arena in which social innovators are working. These are people who want to change the way things are in major ways. Innovation as used here is a broad framing that includes creating new approaches to intractable problems, ongoing program adaptation to changed conditions, adapting effective principles to new contexts (scaling), systems change, and rapid response adaptation under crisis conditions. Social innovation is shorthand for any kind of emergent/creative/adaptive interventions for complex problems.
필수 원칙을 민감화 개념으로 취급 Treating Essential Principles as Sensitizing Concepts
DE의 필수 원칙을 열거하기 전에, DE를 식별하는 데 사용되는 개발 접근법에 대해 설명하겠습니다. DE 실무자의 핵심 그룹은 대화형, 명확화 및 개발 프로세스에서 아이디어와 반응을 공유했습니다. 우리는 DE에 대해서 (핵심 개념과 척도의 조작화에 기반한) 레시피 또는 체크리스트 접근 방식을 피하고 싶었습니다. 대신, 우리는 이러한 필수 원칙을 DE에서 명시적으로 다루어야 하는 민감한 개념으로 보지만, 이 원칙을 다루는 방법과 원칙 활용의 정도는 상황과 맥락에 따라 달라진다. Before listing the essential principles of DE, let me describe the developmental approach used to identify them. A core group of DE practitioners shared ideas and reactions in an interactive, clarifying, and developmental process1. We wanted to avoid a recipe-like or checklist approach to DE based on operationalizing key concepts and dimensions. Instead, we view these essential principles as sensitizing concepts that must be explicitly addressed in DE, but how and the extent to which they are addressed depends on situation and context.
이는 "충실성"에 대한 일반적인 접근 방식에서 크게 벗어난 것이다. "충실성"은 전통적으로 매번 정확히 동일한 방식으로 접근 방식을 구현하는 것을 의미했다. 충실도는 레시피를 고수하는 것이며, 매우 규범적인 단계와 절차를 준수하는 것을 의미했다. 이와는 대조적으로 DE의 필수 원칙은 상황별로 해석되고 적용되어야 하는 지침을 제공한다. 그러나 평가가 진실하고 완전히 발전적인 것으로 간주되려면 어느 정도 그리고 어느 정도 적용되어야 한다.
This is a critical departure fromthe usual approach to ‘‘fidelity,’’ which has traditionally meant to implement an approach operationally in exactly the same way each time. Fidelity has meant adherence to a recipe or highly prescriptive set of steps and procedures. The essential principles of DE, in contrast, provide guidance that must be interpreted and applied contextually—but must be applied in some way and to some extent if the evaluation is to be considered genuinely and fully developmental.
[DE 충실도 준거]를 조작화하는 대신, 저는 이 접근법, 즉 [명시적 민감도 정도]를 평가하는 것을 지정designating하려고 한다. 충실함 대신, 나는 [접근법의 진실성integrity를 검사하는 것]을 선호한다. DE가 integrity을 가지려면 필수 DE 원칙이 프로세스와 결과, 그리고 결과 설계와 결과 사용 모두에서 명백하고 맥락적으로 명시되어야 한다. 따라서 DE 보고서를 읽거나, DE 관련자들과 대화를 나누거나, 학회에서 DE 프레젠테이션을 들을 때, DE의 필수 원칙이 어떻게 수행되고 어떤 결과를 초래하는지/감지/이해할 수 있어야 합니다. In lieu of operationalizing DE fidelity criteria, I am designating this approach: assessing the degree of manifest sensitivity. In lieu of fidelity, I prefer to examine the integrity of an approach. For a DE to have integrity, the essential DE principles should be explicitly and contextually manifest in both processes and outcomes, in both design and use of findings. Thus, when I read a DE report, talk with those involved in a DE, or listen to a DE presentation at a conference, I should be able to see/ detect/understand how these essential principles of DE informed what was done and what resulted.
좀 더 자세히 설명하면 이러하다. [핵심 원칙에 대한 명시적 민감도manifest sensitivity 정도]를 평가함으로써 [접근법의 integrity을 판단]한다는 개념은, [민감화 개념sensitizing concept]에 의해 유도되는 현장작업의 개념에서 비롯된다(Patton, 2015a). [민감화 개념]은 무언가에 대한 의식을 높이고, 그 관련성을 주의하도록 경고하며, 특정 맥락에서 현장 작업 전반에 걸쳐 개념을 참여하도록 상기시킵니다. [DE의 기본 원칙]은 우리로 하여금 [DE 실무에 무엇을 포함해야 하는지]에 민감해지도록 만든다.
Let me elaborate just a bit. The notion of judging the integrity of an approach by assessing the degree of manifest sensitivity to essential principles flows from the notion of fieldwork guided by sensitizing concepts (Patton, 2015a). Asensitizing concept raises consciousness about something, alerts us to watch out for its relevance, and reminds us to engage with the concept throughout our fieldwork within a specific context. Essential principles of DE sensitize us to what to include in DE practice.
[혁신]이라는 개념을 생각해보자. DE는 혁신에 중점을 두고 있으며, 이는 잠시 후 설명할 DE의 필수 원칙 중 하나이다. 다음은 혁신의 개념이 DE 프로세스에서 수행하는 작업입니다. 그것은 사회 혁신가, 즉 큰 변화를 가져오려는 사람들에게 우리의 관심을 집중시킨다.
우리는 그들이 무엇을 하는지('혁신') 그들이 무엇을 의미하는지 알아내기 위해 그들의 정의에 기민하다.
우리는 그들이 무엇을 하고 있는지 그리고 그들이 무엇을 하고 있는지에 대해 어떻게 말하는지 주목하고 기록한다.
현재 진행 중인 상황과 노력의 의미 및 문서화된 결과에 대해 고객과 상호 작용합니다.
우리는 전개되고 떠오르는 것에 대한 데이터를 수집합니다.
우리는 실제로 일어나고 있는 일이 기대와 희망에 어떻게 부합하는지 관찰하고 피드백을 제공합니다.
우리는 관련자들과 협력하여 현재 일어나고 있는 일을 해석하고, 효과가 있는지 없는지 판단하여 적응하고, 배우고, 나아가고 있습니다.
Consider the concept innovation. DE is innovation-focused, one of the essential principles I’ll elaborate in a moment. Here is what the concept of innovation does in a DE process. It focuses our attention on social innovators, that is, people who are trying to bring about major change.
We are alerted by their definition of what they are doing (‘‘innovation’’) to find out what they mean.
We pay attention to and document what they are doing and how they talk about what they are doing.
We interact with them about what is going on and the implications of their efforts and documented results.
We gather data about what is unfolding and emerging.
We observe and provide feedback about how what is actually happening matches expectations and hopes.
We work with those involved to interpret what is happening and judge what is working and not working and thereby adapt, learn, and move forward.
이를 통해 우리는 "혁신"이라는 개념에 대해 그들과 협력하고 그러한 맥락에서 혁신이 의미하는 바에 대한 그들의 이해와 우리의 이해를 심화시키고 있습니다. 혁신의 정의와 의미는 DE inquiry의 일부로 진화, 심화 및 변형될 가능성이 높습니다.
In so doing, we are engaging with them around the notion of ‘‘innovation’’ and deepening both their and our understanding of what is meant by innovation in that context. The definition and meaning of innovation is likely to evolve, deepen, and even morph as part of the DE inquiry.
이 프로세스에서 DE는 변화 프로세스 자체의 일부가 되고 개입의 일부가 됩니다. 이렇게 진행된다. 상황 및 특정 변경 중심 이니셔티브 내에서 혁신의 의미를 조사하고 학습된 내용과 생성된 추가 질문에 대한 피드백을 제공함에 있어 DE는 혁신 프로세스와 결과에 영향을 미치고 변경한다. In this process, DE becomes part of the change process itself, part of the intervention. It happens like this: In inquiring into the meaning of innovation within a context and particular change-focused initiative, and providing feedback about what is learned as well as further questions generated, DE affects and alters the innovation process and outcomes.
통합 접근 방식으로서의 DE DE as an Integrated Approach
"DE"라는 라벨에 걸맞은 평가를 위해서는 표 1의 모든 원칙이 어느 정도 그리고 어느 정도 다루어져야 한다. 표 1에서 언급한 바와 같이, 이 목록은 pick-and-choose 목록이 아닙니다. 모두 필수입니다. 이는 DE 과정에서 이러한 필수 원칙이 어떤 의미 있는 방식으로 다루어졌거나 특정한 상황적 이유로 명시적으로 통합되지 않았다는 증거가 있다는 것을 의미한다. 예를 들어, "복잡성"이라는 단어를 싫어하는 사회적 혁신가 및/또는 기금가와의 작업을 상상해보자. 그래서 DE 프로세스는 복잡성 용어를 명시적으로 사용하지 않지만 출현, 적응 및 비선형성을 명시적으로 다룬다. 그러한 협상은 상황 민감도와 적응성의 일부이며 필수적인 DE 학습 프로세스의 일부이므로 보고되어야 한다. For an evaluation to merit the label ‘‘DE,’’ all of the principles in Table 1 should be addressed to some extent and in some way. As noted in Table 1, this is not a pick-and-choose list. All are essential. This means that there is evidence in the DE process and results that these essential principles have been addressed in some meaningful way or, for specific contextual reasons, not incorporated explicitly. For example, let’s imagine working with a social innovator and/or funder who hates the word ‘‘complexity,’’ thinks it is overused jargon, so the DE process avoids explicitly using the termcomplexity but does explicitly address emergence, adaptation, and nonlinearity. Such negotiations are part of contextual sensitivity and adaptability and part of the essential DE learning process and should be reported.
더욱이, 필수적인 원칙들은 상호 연관되어 있고 상호 보강되어 있다. Moreover, the essential principles are interrelated and mutually reinforcing.
EE(권한 부여 평가)를 반대 사례로 사용 또는 사용 안 함 Empowerment Evaluation (EE) as a Contrary Example, or Not
라벨 권한 부여를 정당화하기 위해 EE에 포함되어야 하는 것은 무엇입니까? Miller와 Campbell(2006)은 1994년부터 2005년 6월까지 발표된 47건의 "권력 평가"를 체계적으로 검토했다. 10가지 역량 강화 원칙은 (1) 개선, (2) 지역사회 소유, (3) 포함, (4) 민주 참여, (5) 사회 정의, (6) 공동체 지식, (7) 증거 기반 전략, (8) 역량 강화, (9) 조직 학습 및 (10) 책임과 같다. What must be included in an EE to justify the label empowerment? Miller and Campbell (2006) systematically examined 47 evaluations labeled ‘‘empowerment evaluation’’ published from 1994 through June 2005. The 10 empowerment principles are as follows: (1) improvement, (2) community ownership, (3) inclusion, (4) democratic participation, (5) social justice, (6) community knowledge, (7) evidence-based strategies, (8) capacity building, (9) organizational learning, and (10) accountability.
아, 하지만 그 마지막 삽입구의 해명이 문제의 핵심을 찌릅니다. 필수 파트 말이다. 필수란: ''절대적으로 필요한 것'' (온라인 사전, 2015) 필수적인 것은 절대 언급되지 않는다. 그와는 정반대로, (필수가 아니라) [선택]인 것들이 제공됩니다. 고를 수 있는 것이다. "제스탈트 또는 그것을 작동시키는 전체 포장"이라고 가정되는 것은 결국 본질이 없기 때문에 덧없는 것이다. Ah, but that last parenthetical clarification gets to the heart of the matter. Essential parts. Essential: ‘‘a thing that is absolutely necessary’’ (Online dictionary, 2015). What is essential is never stated. Quite the contrary, a menu of options is offered. Pick-and-choose. The supposed ‘‘gestalt or whole package that makes it work’’ is ultimately ephemeral because the essence is absent.
내가 느끼는 바는, 포괄적이고, 반응적이고, 융통성 있게 되기 위한 노력의 일환으로, EE 이론가들과 옹호자들은 많은 가능한 재료들로 구성된 [은유적인 과일 샐러드]를 만들어냈다는 것입니다. 그것들 중 필수적인 것은 아니지만, 몇몇 재료들이 과일인 한, 그것은 과일 샐러드라고 불릴 수 있다. 그렇긴 하지만, 페터맨(2005)은 더 많은 권한 부여 원칙을 통합하는 것이 더 적은 것보다 낫다고 언급했습니다.
My sense is that in an effort to be inclusive, responsive, and flexible, EE theorists and advocates have created a metaphorical fruit salad of many possible ingredients, none of which is essential, but as long as some of the ingredients are fruit, it can be called a fruit salad. That said, Fetterman (2005) has stated that incorporation of more empowerment principles is better than fewer.
일반적으로 원칙의 수는 시너지 효과이기 때문에 원칙의 개수에 따라 [권한 강화 평가]의 질이 증가한다. 이상적으로는 각 원칙이 어느 정도 시행되어야 한다. 그러나 각 권한 부여 평가에서 특정 원칙이 다른 원칙보다 더 우세할 것이다. 지배하는 원칙은 평가의 지역적 맥락과 목적과 관련이 있을 것이다. 주어진 시간이나 프로젝트에 대해 모든 원칙이 동일하게 채택되는 것은 아니다(9페이지). As a general rule, the quality [of an empowerment evaluation] increases as the number of principles are applied, because they are synergistic. Ideally each of the principles should be enforced at some level. However, specific principles will be more dominant than others in each empowerment evaluation. The principles that dominate will be related to the local context and purpose of evaluation. Not all principles will be adopted equally at any given time or for any given project. (p. 9)
DE 무결성 평가 과제에 대한 민감한 개념 접근법의 정교화 Elaboration of a Sensitizing Concept Approach to the Challenge of Evaluating DE Integrity
[개념을 조작화하는 것]은 [그것을 구체적인 척도로 변역하는 것]이다. 이것은 경험적 연구에 대한 잘 확립된 학문적 접근방법이다. 그러나 혁신, 복잡성, 출현 및 적응과 같은 개념은 [정량적 연구]의 전통이 아니라, [정성적 연구]의 조사 전통에서 민감한 개념sensitizing concept으로 가장 잘 취급된다(Patton, 2015a). [민감화sensitizing] 대 [개념 조작화]의 구분은 평가 접근법에서 [충실성과 무결성 문제]에 중요하기 때문에, 이러한 구별과 DE의 필수 원칙을 다루기 위한 의미를 설명하는 것이 유용할 수 있다. (이것은 민감화 개념으로서 프로세스 사용에 대한 나의 이전 논의를 재현한다; Patton, 2007.) Operationalizing a concept involves translating it into concrete measures. This constitutes a wellestablished, scholarly approach to empirical inquiry. However, concepts like innovation, complexity, emergence, and adaptation are best treated as sensitizing concepts in the tradition of qualitative inquiry, not as operational concepts in the tradition of quantitative research (Patton, 2015a). Since the distinction between sensitizing versus operational concepts is critical to the issue of fidelity and integrity in evaluation approaches, it may be useful to explicate this distinction and its implications for dealing with the essential principles of DE. (This reprises my previous discussion of process use as a sensitizing concept; Patton, 2007.)
세 가지 문제가 조작화를 방해합니다. Three problems plague operationalization.
첫째, "underdetermination"은 "시험 가능한 명제가 이론을 완전히 적용할 수 있는지"을 결정하는 문제이다(Williams, 2004, 페이지 769). 노숙, 자급자족, 탄력성, 소외감 등 사회적 맥락에 따라 다양한 의미를 갖는 개념들이 대표적이다. 예를 들어, "홈리스"가 의미하는 것은 역사적으로나 사회적으로 다릅니다.
두 번째 문제는 객관적인 학문적 정의가 어떤 것을 경험하는 사람들의 주관적 정의를 포착하지 못할 수도 있다는 것입니다. 빈곤이 그 예입니다. 한 사람이 가난하다고 여기는 것, 다른 사람은 꽤 괜찮은 삶이라고 볼 수도 있다. '빈곤 완화' 사명을 띠고 있는 노스웨스트 지역 재단은 결과 평가를 위해 빈곤을 운영하기 위해 고군분투하고 있다. 게다가, 그들은 아이오와와 몬태나와 같은 주에서 가난에 대한 모든 공식적인 정의에 맞는 꽤 가난한 많은 사람들이 스스로를 가난하다고 보지도 않고, 더구나 "빈곤"이라고 보지도 않는다는 것을 발견했다.
세 번째는 핵심 개념을 어떻게 정의하고 운영해야 하는지에 대한 사회과학자들의 의견 불일치 문제입니다. 예를 들어, 지속가능성은 건강한 시스템의 지속 또는 시스템의 적응 능력으로 정의할 수 있습니다.
First, ‘‘underdetermination’’ is the problem of determining ‘‘if testable propositions fully operationalize a theory’’ (Williams, 2004, p. 769). Examples include concepts such as homelessness, self-sufficiency, resilience, and alienation that have variable meanings according to the social context. For example, what ‘‘homeless’’ means varies historically and sociologically.
A second problem is that objective scholarly definitions may not capture the subjective definition of those who experience something. Poverty offers an example: What one person considers poverty, another may viewas a pretty decent life. The Northwest Area Foundation, which has as its mission ‘‘poverty alleviation,’’ has struggled trying to operationalize poverty for outcomes evaluation; moreover, they found that many quite poor people in states such as Iowa and Montana, who fit every official definition of being in poverty, do not even see themselves as poor, much less ‘‘in poverty.’’
Third is the problem of disagreement among social scientists about how to define and operationalize key concepts. Sustainability, for example, can be defined as continuation of a healthy system or the capacity of a system to adapt (Gunderson & Holling, 2002, pp. 27–29; Patton, 2011, p. 199).
두 번째와 세 번째 문제는 한 연구자가 두 번째 문제를 해결하기 위해 국지적이고 상황별적인 정의를 사용할 수 있다는 점에서 관련이 있지만, 이 상황별 정의는 다른 맥락에서 탐구하는 다른 연구자들이 사용하는 정의와 다르고 상충할 가능성이 있다. 조작화 문제를 해결하는 한 가지 방법은 [복잡성과 혁신을 민감한 개념으로 간주]하고 [표준화되고 보편적인 조작화된 정의의 탐색을 포기하는 것]입니다. 이는 모든 특정 DE가 평가의 목적과 목적에 맞는 정의를 생성한다는 것을 의미합니다. The second and third problems are related in that one researcher may use a local and context-specific definition to solve the second problem, but this context-specific definition is likely to be different from and conflict with the definition used by other researchers inquiring in other contexts. One way to address problems of operationalization is to treat complexity and innovation as sensitizing concepts and abandon the search for a standardized and universal operational definition. This means that any specific DE would generate a definition that fits the specific context for and purpose of the evaluation.
사회학자 허버트 블루머(1954년)는 현장 연구를 지향하기 위해 "sensitizing concept"의 아이디어를 창안한 것으로 인정받고 있다.
[민감화 개념]에는 피해자, 스트레스, 낙인 및 학습 조직과 같은 개념이 포함되며, 이 개념은 특정 장소 또는 상황에서 어떻게 의미가 부여되는지 질문할 때 연구에 초기 방향을 제공할 수 있습니다(Schwandt, 2001).
관찰자는 [민감화 개념]과 [사회 경험의 실제 세계] 사이를 이동하며 개념에 형태와 실체를 부여하고 개념의 다양한 표현으로 개념 체계를 정교하게 만듭니다.
이러한 접근방식은 사회적 현상의 구체적인 발현은 시간, 공간, 상황에 따라 다르지만, 민감화 개념은 패턴과 의미를 더 잘 이해하기 위해 이러한 발현을 포착, 보유 및 검사하는 용기라는 것을 인식합니다.
Sociologist Herbert Blumer (1954) is credited with originating the idea of ‘‘sensitizing concept’’ to orient fieldwork.
Sensitizing concepts include notions like victim, stress, stigma, and learning organization that can provide some initial direction to a study as one inquires into howthe concept is given meaning in a particular place or set of circumstances (Schwandt, 2001).
The observer moves between the sensitizing concept and the real world of social experience, giving shape and substance to the concept and elaborating the conceptual framework with varied manifestations of the concept.
Such an approach recognizes that although the specific manifestations of social phenomena vary by time, space, and circumstance, the sensitizing concept is a container for capturing, holding, and examining these manifestations to better understand patterns and implications.
평가자는 일반적으로 [상황에 대한 이해에 inform하기 위해] 민감화 개념을 사용한다. [맥락context]라는 개념을 생각해보세요. 모든 평가는 어떤 맥락에서든 설계되며, 우리는 맥락을 고려하고, 상황에 민감하며, 맥락의 변화에 주의해야 합니다. 하지만 맥락이란 무엇인가? System thinkers에 따르면, 시스템 경계는 본질적으로 자의적이라고 주장하며, 따라서 [평가의 즉각적인 범위 안에 있는 것]과 [그 주변 맥락 안에 있는 것]을 정의하는 것도 자의적임은 불가피하지만, 그 구별은 여전히 유용하다. 실제로 평가의 즉각적인 행동 영역과 포괄적 맥락에 있는 것을 결정하는 데 있어 의도적인 것은 조명하는 연습이 될 수 있으며, 이해관계자들의 관점이 크게 다를 수 있다. 그런 의미에서 '맥락'이라는 개념은 sensitizing concept이다.
Evaluators commonly use sensitizing concepts to inform their understanding of a situation. Consider the notion of context. Any particular evaluation is designed within some context, and we are admonished to take context into account, be sensitive to context, and watch out for changes in context. But what is context? Systems thinkers posit that system boundaries are inherently arbitrary, so defining what is within the immediate scope of an evaluation versus what is within its surrounding context is inevitably arbitrary, but the distinction is still useful. Indeed, being intentional about deciding what is in the immediate realm of action of an evaluation and what is in the enveloping context can be an illuminating exercise—and stakeholders might well differ in their perspectives. In that sense, the idea of context is a sensitizing concept.
고추론 대 저추론 변수 및 개념 High-Inference Versus Low-Inference Variables and Concepts
[원칙]을 민감화 개념으로 생각하고 이해하는 또 다른 방법은 원칙을 "고-추론 개념"으로 처리하는 것이다. 고-추론과 저-추론 변수의 구별은 고등교육의 교사 효과 연구(Rosenshine & Furst, 1971)에서 비롯되었다.2 Another way to think about and understand principles as sensitizing concepts is to treat them as ‘‘high-inference concepts.’’ The distinction between high-inference and low-inference variables originated in studies of teacher effectiveness research in higher education (Rosenshine & Furst, 1971).2
[높은 추론 교사]의 특성은 "명확히 설명"하는 것과 같이 추상적이거나 좋은 관계를 가지고 있다. 반면, [낮은 추론 교사]의 특성은 특이적이고 구체적인 교육행동입니다. 예를 들어 "한 주제에서 다음 주제로의 전환을 설명합니다." '개별 학생 이름 표시' (후자는)관찰자의 입장에서 추론이나 판단을 거의 하지 않고 기록될 수 있습니다. High inference teacher characteristics are global, abstract such as ‘‘explains clearly’’ or has good rapport, while low-inference characteristics are specific, concrete teaching behaviors, such as ‘‘signals the transition fromone topic to the next,’’ and ‘‘addresses individual students by name,’’ that can be recorded with very little inference or judgment on the part of a classroom observer. (Murray, 2007, pp. 146–147).
교사 효율성에 대한 연구의 추진력은 관찰자 측의 상당한 판단이 필요한 [높은 추론 변수]와, 반대로 최소 해석이 필요한 [낮은 추론 변수]를 강조하는 것이었다(Cruickshank & Kennedy, 1986). 반대로 [원칙에 초점을 맞춘 실무]는 필연적으로 [높은 추론]이다. 명시적 민감도 정도를 다루는 것은 특정 평가 접근법을 따르고 있다는 주장을 평가할 때 충실도와 무결성을 평가하는 높은 추론 접근법이다.
The thrust of the research on teacher effectiveness has been to emphasize low-inference variables that require minimuminterpretation as opposed to high-inference variables that require considerable judgment on the part of the observer (Cruickshank & Kennedy, 1986). In contrast, principles-focused practice is necessarily high inference. Addressing degree of manifest sensitivity is a high-inference approach to assessing fidelity and integrity when assessing claims that a particular evaluation approach is being followed.
강체 및 비강체 지정자 Rigid and Nonrigid Designators
언어철학자들은 서로 다른 목적을 위한 언어의 다양한 사용에 상당한 관심을 쏟았다. 한 가지 중요한 구별은 강성 지정자와 비강성 지정자 간이다.
경직 지정자는 매우 구체적이고, 맥락에 무관하며, 조작적 정의 또는 규칙에 해당합니다.
비경직 지정자는 용어의 해석이 말하는 사람이 의도하는 상황과 목적을 고려해야 하는 의미에 대한 맥락에 의존한다.
Philosophers of language have devoted considerable attention to different uses of language for different purposes. One critical distinction is between rigid and nonrigid designators.
A rigid designator is highly specific and context free, the equivalent of an operational definition or rule.
A nonrigid designator depends uponcontext for meaningsuchthat the interpretationof a termmust take intoaccount the situation and the purpose intended by the person speaking.
비강성 지정자는 다음에 적용됩니다. "단어만으로는 얻을 수 없는 의미의 부를 분석하는, 실용주의의 지저분한 사회-사회학적 세계. 그러나 말이 만들어지는 맥락으로부터, 중요한 것은, 연설자의 의도를 포함하여, 연설자는 자신의 마음에서 벗어나 청중들의 마음 속으로 더 나아가게 된다."
Nonrigid designators apply to the ‘‘messy social-psychological world of pragmatics, analyzing the wealth of meaning that must be gleaned not from the words alone but fromthe context inwhichthe words are produced, including, importantly, the speaker’s intentions in uttering them, which furthermore take the speaker outside of his own mind and intothe mind of his audience’’ (Goldstein, 2015, p. 50).
경직성 대 비경직성 지정자 및 절대성 대 실용성(맥락적) 정의와 의미는 시대와 상황 변화에 대한 해석의 문맥적 적응 대 엄격한 헌법 구성주의(원래의 의도에 초점을 맞춘다)의 영역으로 우리를 안내한다.
[Rigid versus nonrigid designators] and [absolute versus pragmatic (contextual) definitions and meanings] take us into the territory of [strict constitutional constructionism (focusing on original intent) versus contextual adaptation of interpretation to changing times and situations].
충실도, 무결성 및 매니페스트 민감도에 대한 위협 Threats to Fidelity, Integrity, and Manifest Sensitivity
평가 접근법에 대한 충실도를 곰곰이 생각하고 평가를 '발전적developmental'이라고 부르는 데 있어 무엇이 integrity을 구성하는지를 성찰하면서 fidelity와 integrity에 어떤 위협이 나타날 수 있는지 생각하게 되었다. 저는 간통, 금욕, 처녀성, 발기불능, 콤플렉서스 방해, 이혼, 평가 전염병, 실적 부진, 경계 관리 불량, 조증 등 10가지 위협을 확인했습니다. 표 2는 위협을 제시하고 일반적인 증상을 식별합니다. 이것들은 심각한 위협이고, 잠재적으로 구석구석에 숨어있을 수 있습니다. 두려워하라. 매우 두려워하라. 하지만 또한 준비하세요. 표 2는 위협에 대응하기 위한 전략을 제공합니다.
Pondering fidelity to evaluation approaches and reflecting on what constitutes integrity in calling an evaluation ‘‘developmental’’ have led me to consider what threats to fidelity and integrity may emerge. I have identified 10 threats: adultery, abstinence, virginity, impotence, complexus interruptus, divorce, evaluation transmitted disease, poor performance, poor boundary management, and mania. Table 2 presents the threats and identifies common symptoms. These are serious threats, potentially hiding around every corner. Be afraid. Be very afraid. But also be ready. Table 2 provides strategies for countering the threats.
결론 Conclusion
장미는 장미다 장미는 장미다. —Gertrude Stein, Sacred Emily (1913; 페이지 3) A rose is a rose is a rose is a rose. —Gertrude Stein, Sacred Emily (1913; p. 3)
그리고 DE는 DE이고 DE는 DE입니다. 그랬다면. 하지만, 사실, 상황에 따라 다르다. 이는 8가지 필수 DE 원칙 모두가 명시적이고 효과적으로 다루어진 정도에 따라 달라진다. 그것이 이 글의 요점입니다. 평가에 ''발달적'' 또는 ''활용-중심''과 같은 라벨을 붙이는 것이 평가를 그렇게 만드는 것이 아니다. 접근법의 무결성을 판단하려면 모델의 필수 원칙에 대한 명백한 민감도의 평가가 필요하다. 끝으로, 대장내시경 검사를 예로 들며 경고하는 이야기가 왜 중요한지 설명하겠습니다. And a DE is a DE is a DE. Would that it were so. But, actually, it depends. It depends on the extent to which all eight of the essential DE principles have been explicitly and effectively addressed. That’s the point of this article. Labeling an evaluation ‘‘developmental’’ or ‘‘utilizationfocused’’ doesn’t make it so. An assessment of manifest sensitivity to a model’s essential principles is necessary to judge the integrity of the approach. In closing, let me illustrate why this matters using colonoscopies as an example and cautionary tale.
대장내시경은 대장내시경이다. 아니면 그러한가? 변형이 있나요? 그 과정이 어떻게 이루어지느냐가 중요한가요? 대장내시경은 대장암을 일으킬 수 있는 용종을 찾아내기 위해 내시경이라고 불리는 유연한 스코프로 대장을 검사하는 것이다. 경험이 풍부한 인증받은 전문의 12명을 민간 진료로 조사한 결과, 그 중 어떤 의사들은 암으로 변할 수 있는 용종인 선종을 발견하는데 다른 사람들보다 10배나 뛰어났다고 한다. 더 효과적인 대장 내시경 검사와 덜 효과적인 대장 내시경 검사를 구분하는 한 가지 요인은 의사가 대장을 검사하는 데 드는 시간(노력 평가 포함)이었다. 속도를 늦추고 시간이 더 걸린 사람들이 용종을 더 많이 발견했다. 5분도 안 되는 시간에 수술을 마친 사람도 있고 20분 이상 걸린 사람도 있었다. 보험사들은 의사들이 얼마나 많은 시간을 보내더라도 똑같이 급여를 지급한다. 하지만 환자에게는 위험 부담이 큽니다. 매년 4백만 명 이상의 미국인들이 대장암으로부터 자신을 보호하고자 대장내시경 검사를 받는다. 매년 약 55,000명의 미국인이 사망하는 이 암은 미국에서 암 사망의 두 번째 주요 원인이다.
A colonoscopy is a colonoscopy is a colonoscopy. Or is it? Are there variations? Does it matter how the process is done? A colonoscopy is an examination of the colon with a flexible scope, called an endoscope, to find and cut out any polyps that might cause colon cancer. A study of 12 highly experienced board-certified gastroenterologists in private practice found that some were 10 times better than others at finding adenomas, the polyps that can turn into cancer. One factor distinguishing the more effective from less effective colonoscopies was the amount of time the physician spent examining the colon (which involves an effort evaluation). Those who slowed down and took more time found more polyps. Some completed the procedure in less than 5 min, and others spent 20 min or more. Insurers pay doctors the same no matter howmuch time they spend. But the stakes are high for patients. More than four million Americans a year have colonoscopies, hoping to protect themselves from colon cancer. The cancer, which kills about 55,000 Americans a year, is the secondleading cause of cancer death in the United States (Kolata, 2006a, 2006b).
What is Essential in Developmental Evaluation? On Integrity, Fidelity, Adultery, Abstinence, Impotence, Long-Term Commitment, Integrity, and Sensitivity in Implementing Evaluation Models
Fidelity concerns the extent to which a specific evaluation sufficiently incorporates the core characteristics of the overall approach to justify labeling that evaluation by its designated name. Fidelity has traditionally meant implementing a model in exactly the same way each time following the prescribed steps and procedures. The essential principles of developmental evaluation (DE), in contrast, provide high-inference sensitizing guidance that must be interpreted and applied contextually. In lieu of operationalizing DE fidelity criteria, I suggest addressing thedegree of manifest sensitivityto essential principles. Principles as sensitizing concepts replace operational rules. This means that sensitivity to essential DE principles should be explicitly and contextually manifest in both processes and outcomes, in both design and use of findings. Eight essential principles of DE are identified and explained. Finally, 10 threats to evaluation model fidelity and/or degree of manifest sensitivity are identified with ways to mitigate those threats.
Understanding the Needs of Department Chairs in Academic Medicine Susan Lieff, MD, MEd, MMan, FRCPC, Jeannine Girard-Pearlman Banack, MEd, PhD, Lindsay Baker, MEd, Martina Martimianakis, MA, MEd, PhD, Sarita Verma, LLB, MD, Catharine Whiteside, MD, PhD, FRCPC, and Scott Reeves, PhD, MSc
학문의학에서 학과장/주임교수(department chair)의 역할은 다면적이다. 그들은 다양한 임무를 감독하고, 모집과 유지를 지도하며, 학술 인프라를 관리하고, 기금을 모금하고, 학교의 인지도를 유지한다.1 이들은 종종 자신들이 "진퇴양난between a rock and a hard place"에 있음을 깨닫게 되고, 의과대학과 병원의 리더로부터 지지를 이끌어내고, 동시에 다른 교수들로부터 신뢰를 얻고 유지해야 한다. 의료 개혁, 의료 전달 모델, 경제적 제약, 의료 및 교육 혁신, 과학 이해, 기술, 의료 교육의 미래와 발전을 위한 권고 사항의 변화에 대응하여 그들의 역할은 끊임없이 진화한다.4–10
The role of the department chair in academic medicine is multifaceted. They oversee a variety of missions, guide recruitment and retention, administer the academic infrastructure, raise funds, and maintain the school’s profile.1 They often find themselves “between a rock and a hard place,”2 eliciting support from leaders at the medical school and teaching hospitals while at the same time gaining and maintaining the confidence of faculty.3 Their role constantly evolves in response to the changing landscape of health care reform, care delivery models, economic constraints, health care and educational innovations, scientific understanding, technology, and recommendations for the future and advancement of medical education.4–10
방법 Method
주임교수/학과장의 요구에 대한 이해를 돕기 위해 탐구적 [질적 사례 연구] 접근방식을 채택했다. 개인, 그룹 또는 사건의 심층 조사에 사용되는 [사례 연구 방법론]은 연구자가 연구 중인 현상을 더 잘 이해할 목적으로 데이터를 지속적으로 분석할 수 있도록 합니다. 우리는 의과대학의 주임교수의 경험을 탐구했다. 특히, 우리는 그들이 성공을 위해 필수적이라고 느꼈거나, 특히 도전적이거나, 더 많은 지원이나 개발이 필요하다고 느꼈던 분야를 설명하고자 했습니다.
To help us understand the needs of chairs, we adopted an exploratory qualitative case study approach.18 Case study methodology, used for in-depth investigation of individuals, groups, or events, allows researchers to continuously analyze data with the purpose of better understanding the phenomenon they are studying.18 We explored the experiences of department chairs in a faculty of medicine.19 Specifically, we wanted to describe the areas they felt were essential for success, were particularly challenging, or required more support or development.
세팅 Setting
기초과학, 임상, 재활과학, 학제간 학과 규모는 9명에서 919명까지 다양합니다. 교수진은 의과대학, 교수병원, 연구소 등 다양한 환경에 위치하고 있다. These basic science, clinical, rehabilitation science, and interdisciplinary departments range in size from 9 to 919 faculty members. Faculty are situated in a variety of settings, including the medical school, teaching hospitals, and research institutes.
경쟁력 있는 동료 평가 절차에 의해 선정된 주임교수는 5년 임기를 수행하며, 이는 성공적인 검토가 있을 때까지 갱신될 수 있습니다. [주임교수]는 연구, 교육, 서비스라는 학문적 사명은 담당하지만, 병원에서 [(임상)과장]의 책임인 임상 진료의 질은 담당하지 않는다. Department chairs, selected by a competitive peer-review process, serve five-year terms, which may be renewed once pending a successful review. Chairs are responsible for the academic missions of research, education, and service, but not for quality of clinical care, which rests with the hospitals’ clinical leadership.
자료 수집 Data collection
자료 분석 Data analysis
우리는 새로운 이슈와 주제를 탐구하기 위해 데이터에 대한 귀납적 주제 분석을 실시했습니다. 연구자 2명이 독립적으로 대본을 읽고 잠정적인 이슈와 코드를 파악해 예비 범주로 정리했다. 프로젝트 팀은 이러한 초기 코드와 카테고리에 대해 논의하고 개선하기 위해 자주 만났습니다. 결국, 팀은 코드 관련 및 그룹화를 반복하는 과정을 통해 NVivo 정성적 데이터 분석 소프트웨어를 사용하여 주요 주제와 요인으로 나누어진 코딩 구조를 식별했다.
We conducted an inductive thematic analysis of the data to explore emerging issues and themes. Two researchers independently read the transcripts and identified tentative issues and codes, organizing them into preliminary categories. The project team met frequently to discuss and refine these initial codes and categories. Eventually, through an iterative process of relating and grouping of codes, the team identified a coding structure divided into major themes and factors22 using NVivo qualitative data analysis software.
윤리 및 연구 퀄리티 Ethical and quality issues
[연구의 rigour]는 질적 연구결과인 전달성, 신뢰성, 확인성, 신뢰성에 대해 확립된 '신뢰성'의 차원에 따라 확립되었다.23
조사대상 현상에 대한 풍부한 설명을 통해 데이터의 전달성을 주로 달성하였다.
데이터 분석에 대한 팀 접근 방식은 결과의 신뢰성을 향상시켰습니다.
조사과정을 처음부터 끝까지 투명하게 설명하는 감사추적을 통해 확인가능성이 향상되었습니다.
마지막으로, 조사자의 삼각측정이 신뢰성을 확립하는 데 도움을 주었다.
Research rigor was established according to the dimensions of “trustworthiness” established for qualitative research findings: transferability, dependability, confirmability, and credibility.23
Transferabilityof the data was achieved primarily through rich descriptionof the phenomenon under investigation.
The team approachto data analysis enhanced the dependabilityof findings.
Confirmabilitywas improved through an audit trailwhich provided a transparent description of the research process from start to finish.
Finally, investigator triangulationassisted in establishing credibility.
결과 Results
서포트의 네트워크 Network of support
참여 주임교수들은 [주임교수라는 역할에 따르는 책임]과 [자기의 커리어 및 교수 개인으로서의 책임] 사이에서 균형을 맞추는 어려움을 절실히 인식하고 있었습니다. 그들은 지원 네트워크가 이러한 과제를 해결하기 위해 필수적이라고 주장했다. 각 네트워크의 구성은 개인과 필요에 따라 달랐지만, 중요한 요소에서 공통점을 발견했습니다. The participating chairs were acutely aware of the challenges of balancing multiple responsibilities within the role as well as responsibilities to their careers and themselves. Networks of support, they claimed, were essential to meeting these challenges. Although the makeup of each network was unique to the individual and his or her needs, we found commonalities in their critical elements.
조직 내부와 외부의 [과거 주임교수 및 다른 리더들과 관계]를 형성함으로써 주임교수들은 조언을 이끌어 내고, 정보를 교환하며, 전략을 용이하게 할 수 있었습니다. [권력층places of power]의 인맥connection을 쌓는 것은 그들의 부서에 대한 비전을 이루기 위해 필요했습니다. 주임교수들은 또한 업무량 관리를 돕기 위해 [효과적인 행정팀]을 구성하는 것의 중요성을 강조했다. [신뢰할 수 있고 위임할 수 있는 사람들]을 자신의 주변에 두는 것은 그들의 여러 책임을 관리하는 데 있어 매우 중요했습니다. Forming relationships with past chairs and other leaders within and outside the organization allowed the chairs to elicit advice, exchange information, and facilitate strategy. Forging connections with people in places of power was necessary for accomplishing their visions for their departments. The chairs also highlighted the importance of assembling effective administrative teams to help manage the volume of work. Surrounding themselves with people they could trust and to whom they could delegate was critical to managing their multiple responsibilities.
그들의 네트워크 구축에도 [감정적 차원]이 돋보였다. 주임교수들은 네트워크가 어떻게 고립감과 외로움을 이겨내는 데 도움이 되었는지 공유했다. 소규모의 주임교수 그룹이 자발적으로 비공식 그룹을 만들어 교수진, 학생 및 시스템에 관한 어려운 문제를 논의하기 위해 정기적으로 모였습니다. 그들은 그러한 의사타진집단(sounding board)를 이상적인 네트워크에서 필수적인 요소로 인식했지만, 대부분의 주임교수들은 그러한 또래 집단을 형성하지 못했습니다. 많은 주임교수들은 또한 [가족과 친구]들에게 의지했다; 지지적인 가정 환경은 그들의 성공에 필수적인 것처럼 보였다. An emotive dimension also stood out in the construction of their networks. The chairs shared how networks helped combat feelings of isolation and loneliness. A small group of chairs spontaneously created an informal group that met regularly to discuss difficult issues regarding faculty, students, and systems. Although they recognized such sounding boards as an essential element in their ideal network, the majority of chairs had not established such a community of peers. Many chairs also turned to their families and friends; a supportive home environment seemed essential to their success.
인프라 성장 및 개발 Infrastructure growth and development
그들은 [학생 등록, 교직원 채용, 프로그램 수, 공간, 연구 역량] 측면에서 교실의 성장을 논의했다. 많은 사람들이 [교실원의 수와 질]로 그들의 성공을 측정했다. 그들은 "적절한" 사람들이 합류시키는 것on board이 부서를 발전시키는데 도움이 될 것이라고 느꼈다. 또한 다른 부서 및 조직과의 협업 측면에서도 성장을 검토하여 귀중한 리소스에 대한 접근성을 높였습니다. 이와 관련, 더 많은 학생과 교직원 채용과 협업 기회를 활성화하기 위해서는 [소속 부서의 이미지를 홍보하고 관리하는 것]이 중요했다. They discussed the growth of their departments in terms of student enrollment, faculty recruitment, number of programs, space, and research capacity. Many measured their success by the number and quality of individuals in their department. They felt that having the “right” people on board would help move the department forward. They also viewed growth in terms of collaborations with other departments and organizations, which increased access to valuable resources. Related to this was the importance of promoting and managing the image of their department, through which they hoped to recruit more students and faculty members and stimulate opportunities for collaboration.
그들은 또한 [재정적 지원]의 필요성에 대해 논의했다. 이들은 [(가용) 자금]과 [비전 달성을 위한 비용] 사이의 불일치를 인식했을 때 수익을 창출할 창의적인 방법을 제시했습니다. 외부교부금 신청, 교수진에게 성과급으로 전환하도록 설득, 이윤을 위한 교육자료 제공, 실험실 공간 이전, 등록증가, 산업계와의 유대관계 구축 등이 그것이다. They also discussed the necessity of financial support. When they perceived a discrepancy between their funding and the cost of achieving their vision, they came up with creative ways to generate revenue. These included applying for external grants, persuading faculty to switch to merit-based salaries, providing educational materials for profit, relocating laboratory space, increasing enrollment, and forging ties to industry.
마지막으로, [리더 양성 문제]가 주요 주제로 떠올랐다. 학과장들은 학과 내 교수들이 리더 역할을 맡도록 격려하는 것이 중요하다고 느꼈다. 특히, 그들은 승계 계획과 부서 비전을 이어갈 수 있는 사람을 갖는 것에 대해 걱정했습니다. Finally, the cultivation of leaders emerged as a major theme. The chairs felt it important to encourage faculty within their departments to take on leadership roles. In particular, they were concerned with succession planning and having someone who could carry on their vision for the department.
대인 관계 기술 Interpersonal skills
주임교수들은 그들의 성공에 필수적인 것으로 [대인관계 기술]을 이야기했다. 특히 어떤 이슈에 대한 교직원, 전공의, 학생 등과의대화가 [학과의 '맥박pulse']을 감지하는 데 도움이 돼 새로운 니즈와 우선순위를 발굴하고 관리할 수 있다고 느꼈다. 그들은 특히 [사람을 소중하게 여기고, 그들의 강점을 식별하며, 그들의 성과를 인식하는 것은 물론, 잠재적인 약점을 파악하고 적절한 지원을 제공하는 것]이 중요하다고 생각했습니다. 다양한 역량으로 효과적으로 다른 사람들과 일하는 것이 매우 중요한 것으로 보였지만, 몇몇 주임교수들은 그들이 [얼마나 많은 시간을 대인 업무로 소비했는지]에 놀랐다. The chairs discussed interpersonal skills as being essential to their success. In particular, they felt that talking to faculty members, residents, and students about their issues helped them sense the “pulse” of the department, enabling them to uncover and manage emerging needs and priorities. They found it particularly important to value people, identify their strengths, and recognize their accomplishments, as well as to identify potential weaknesses and provide appropriate supports. Although effectively working with others in various capacities was seen as critical, some chairs were surprised by how much time they spent on interpersonal work.
주임교수들은 어려운 상황에 대처하고 갈등을 관리하는 능력을 어렵지만 필수적인 역할로 논의했다. 교수진 간 갈등, 학생·교직원의 생존 실패, 다른 교수들이 강압적인 행동을 한 사례 등을 공유했다. 많은 이들이 이런 상황에 대처하는 데 따른 정서적 부담에 대해 논의했다. 마지막으로, 주임교수들은 [의사소통의 기술]을 그들의 성공에 필수적인 것으로 명명했습니다. 여기에는 [적극적 경청, 올바른 질문, 교실 문제에 대해 명확하고 간결하게 정보를 전달하는 능력]이 포함되었습니다.
The chairs discussed the ability to deal with difficult situations and manage conflicts as an essential, though difficult, part of their role. They shared stories of conflicts between faculty, failures of students or faculty to thrive, and instances where faculty engaged in coercive behaviors. Many discussed the emotional burden of dealing with such situations. Finally, the chairs named communication skills as essential to their success. These included such capabilities as active listening, asking the right questions, and clearly and concisely conveying information about departmental issues.
문화적, 구조적 인식 Cultural and structural awareness
주임교수의 주제는 병원, 학원, 대학뿐만 아니라 그들 [교실의 문화적 풍경cultural landscape을 탐색하는 능력]이었다.그들은 [명시적 문화]와 [(뉘앙스적) 암묵적 문화] 둘 다에 주목했다. 여기에는 병원, 학과, 대학 내 역사, 사회규범, 가치관 등이 포함되었습니다. 문화의 이러한 측면을 받아들이는 것은 그들의 일에 매우 중요했습니다. 이는 외부 조직이나 부서에서 온 주임교수들에게 특히 어려운 일이었습니다. 그들은 변화를 위해 교실을 동원mobilize하기 위해서는, 그에 앞서 자기 스스로 교실의 중심 가치를 알아내는 "숙제를 먼저 하는 것"의 중요성을 강조했다. A dominant theme for the chairs was the ability to navigate the cultural landscape of their department, as well as the hospitals, institutes, and university. They noted both an explicit and an implicit culture that was nuanced. This included such things as history, social norms, and values within the hospital, their department, and the university. Appreciating these aspects of the culture was critical to their work. This proved particularly challenging for chairs coming from outside organizations or departments. They highlighted the importance of “doing their homework” and uncovering the values of the department before making any attempt to mobilize the department for change.
또한 병원, 소속 부서, 대학 내 구조와 과정 등 전반적인 시스템에 대한 심층적인 이해와 시각이 필수적이라고 생각했습니다. 가용 리소스, 연락처 및 기존 인프라에 대한 인식은 잠재력을 최대한 발휘하는 데 필수적이었습니다. 여기에는 [채용, 검토, 테뉴어, 재무 및 인증 프로세스, 홍보 및 학술 부정 행위 문제, 인적 자원 시스템의 이해] 등이 포함되었습니다. 특히 참여자들은 [교실 밖에서 더 큰 그림을 이해하는 것]이 중요하다고 강조했다. 다수의 공동 파트너십, 학술 병원, 대학, 정부 간의 관계, 다양한 연구 기관의 역할 등이 '매트릭스'로 표현됐다. 성공하기 위해 참가자들은 이 매트릭스가 어떻게 기능하고 그 안에서 어디에 적합한지 평가하는 것이 중요하다고 강조했습니다. In addition, they believed it essential to have an in-depth understanding and perspective of the overall system, including the structures and processes within the hospital, their department, and university. Having an awareness of the available resources, contacts, and existing infrastructure was essential to their ability to perform to their full potential. This included understanding processes of recruitment, review, tenure, finance, and accreditation; promotional and academic misconduct issues; and human resource systems. In particular, participants highlighted the importance of understanding the bigger picture outside their department. The multitude of joint partnerships, the relationship between the academic hospitals, the university, and government, and the roles of the various research institutes were described as a “matrix.” To be successful, participants highlighted the importance of appreciating how this matrix functioned and where they fit within it.
영향력 행사 능력 Ability to influence
많은 참가자들이 [변화를 만들기 위해] 주임교수가 되었습니다. 그들의 조직에 의미 있는 변화를 주고자 했습니다. 실제로, 대부분의 사람들은 [변화에 대해 명확하게 정의된 비전이나 아이디어]를 공유합니다. 많은 이들에게 주임교수가 되려는 동기는 일반 교수일 때보다 [그 자리에서 자신의 비전을 더 잘 이룰 수 있을 것이라는 믿음]이었다. 그들은 [성취는 필연적으로 위험을 동반하며, 때로는 대부분이 싫어하는 결정을 요구한다는 것]을 깨달았고, 이는 다시 용기를 요구하는데, 이것이야말로 주임교수라는 역할의 어려운 측면이다. 몇몇 주임교수들은 [모두를 기쁘게 하고 싶어하는 것]에서 [부서 전체의 이익을 위해 힘든 결정을 내리는 것]으로의 변화를 논의했습니다. 이것은 [리스크를 감수해야 할 필요성]과 [전반적인 지지를 얻어 교실원을 참여시켜야 할 필요성] 사이에서 균형을 이루어야 했습니다. [교실과 조직 안에서 주임교수가 신뢰를 받는 것]은 종종 shared ownership를 장려하여, 교직원과 학생들이 변화의 비전을 지지하도록 하는 데 도움을 준 것으로 보인다. Many of the participants became departmental chairs to make a difference; they wanted to make meaningful changes to their organization. Indeed, most shared clearly defined visions or ideas for change. For many, the motivation to become chair arose from the belief that they would be better able to accomplish their visions from that position rather than as faculty members. They recognized that achievement required risky, sometimes unpopular decisions, which in turn demand courage, a difficult aspect of the role. Some chairs discussed the shift from wanting to please everyone to making tough decisions in the best interests of the department as a whole. They had to balance the need to take such risks with the need to garner overall support and engage their departments. It appeared that the credibility of the chair within the department and organization often encouraged shared ownership, helping to encourage faculty and students to support the vision of change.
많은 이들이 [목표를 달성하기 위해 영향력이 필요하다]고 표현했다. 일부 교실 소속 교수들이 둘 이상의 기관(병원 및 대학)으로부터 책임을 요구받기 때문에, 주임교수들이 종종 상충하거나, 심지어는 양립 불가능한 여러 안건을 아울러야만 했다. 이러한 분해된 거버넌스 모델disaggregated governance model의 상황에서, 일부 주임교수들은 자기자신의 "권한의 부족lack of power"으로 인한 당혹스러움과 좌절감을 느꼈다. 이에 대응하여, 그들은 시스템 내의 힘의 원천과 종류를 파악하고, 일을 성사시키기 위해 누구에게 이야기해야 할지 알아야 할 필요성을 느꼈다.
Many expressed a need for influence to accomplish their goals. Some chairs expressed surprise and frustration over their “lack of power,” a result, they felt, of the disaggregated governance model in which faculty members are accountable to more than one institution (hospital and university) and chairs often straddle competing, even incompatible, agendas. In response, they felt the need to identify the sources and types of power within the system and to know whom to talk to in order to get things done.
고찰 Discussion
주임교수의 역할과 책임에 대한 설명에서 [리더십과 경영 기술의 개발] 및 [지지적 네트워크 구축]이 필요한 복잡하고 상호 연관된 여러 니즈의 그룹들을 확인했다. 이 네트워크 범위는 다음과 같습니다.
적절한 행정적 인프라(비즈니스 세계에 주어지지만 항상 후임 의장에게 제공되는 것은 아님)
신뢰할 수 있는 동료, 가족 및 친구의 정서적 백업(특히 새로 온 사람에게 가치 있음, 종종 직면하게 될 고립과 압박에 대비하지 않음)
존경받고 신뢰받는 학술 지도자에게 조언을 구할 수 있는 기회(도전적인 상황 및 개인을 다룰 때 필수적)
From the participating chairs’ narratives about their roles and responsibilities, we highlighted complex, interrelated groups of needs that will require the development of leadership and management skills and the construction of networks of support. These networks will range
from adequate administrative infrastructure (a given in the business world, but not always provided to incoming chairs)25
to emotional backup from trusted colleagues, family, and friends (of particular value to newcomers, who are often unprepared for the isolation and pressures they will encounter)26,27
to opportunities to solicit advice from respected and trusted academic leaders (essential when dealing with challenging situations and individuals).28
게다가, 성공적인 주임교수들은 효과적인 대인관계 기술을 가지고 있어야 합니다. 무엇보다 교직원, 전공의, 학생의 니즈를 파악하고 관리하고, 교실 구성원을 소중히 여기고, 효과적으로 소통하며, 갈등을 성공적으로 해결할 필요가 있다. 그들은 종종 타인의 불만, 좌절, 분노의 대상이 되기 때문에, 이러한 감정의 예측을 관리하면서 효과적인 관계를 구축해야 합니다. In addition, successful chairs must have effective interpersonal skills. Among other things, they need to uncover and manage the needs of faculty, residents, and students, value members of their department, communicate effectively, and successfully deal with conflict. Because they are often targets of others’ dissatisfactions, frustrations, or anger, they must build effective relationships while managing the projections on them of these emotions.26,29
또한 부서 내에서 인프라와 성장을 개발하기 위해서는 주임교수가 자원을 확보하고 다른 사람을 채용하고 육성해야 합니다. 이를 위해서는 조직의 구조와 과정을 이해하고, 사회적 규범과 가치를 높이 평가하고, 전반적인 시스템 관점을 가져야 합니다. 하버드 대학교에서 사용된 모델과 유사한 세분화된 거버넌스 모델은 회원 기관의 독특한 풍경을 감상해야 하는 복잡성을 가지고 있다. Furthermore, to develop infrastructure and growth within their departments, chairs must secure resources and recruit and cultivate others. For this, they need to understand organizational structure and process, appreciate social norms and values, and have an overall system perspective. The disaggregated governance model, similar to the model used at Harvard University,21 has complexities that require appreciation of the unique landscapes of its member institutions.
마지막으로, 주임교수들은 [비전을 촉진하기 위한 영향력]을 필요로 하였다. 이러한 상황에서 영향력은 특정 의제의 용역을 위해 다양한 힘의 원천을 활용할 수 있는 능력을 수반한다. 우리의 데이터는 영향력에는 용기, 타인의 참여, 전력 시스템에 대한 접근이 필요하다는 것을 암시합니다. Finally, the need for influence to facilitate their vision emerged from our data. Influence in this circumstance involves the ability to leverage various sources of power in service of a particular agenda. Our data suggest that influence requires courage, the engagement of others, and their access to power systems.
학술의학계 주임교수들에게 전환, 멘토링과 발전, 동료 커뮤니티를 위한 지원과 과정을 제공하는 데 관심을 기울이면 이들의 욕구를 해소하기 시작할 것임을 시사하는 자료다. The data suggest that if attention is paid to providing chairs in academic medicine with supports and processes for transition, mentorship and development, and communities of peers, it will begin to address their needs.
이행 과정 Transition
우리의 연구 결과는 일반 교수가 [주임교수 역할]로 전환하기 위해서는, 오리엔테이션 프로세스와 지원을 제공하는 것이 필수적으로 필요함을 강조한다.
우선 해당 부서에서 사용할 수 있는 현재 리소스와 그 안에 있는 현재 인프라를 소개할 수 있습니다.
때로는 혼란스러운 병원, 연구소, 학과 및 대학 구조, 프로세스를 포함하기 위해서, 교실 구조에 대한 오리엔테이션을 넘어, 지역 거버넌스와 권력 구조를 포함한 시스템 개괄까지 제공해야 한다.
개인은 역할에 필수적인 직무와 역량을 습득하거나 학습에 전념할 수 있도록 역할에 대한 요구와 기대를 이해해야 합니다.
문화적 관점에서, 그들은 부서 내외의 주요 개인과 그룹과 연결될 수 있었다.
주임교수는 학과의 역사와 학과가 가지고 있는 사회적 규범과 가치를 이해할 수 있기 위한 지원도 필요하다.
Our findings highlight the essential need to provide chairs with orientation processes and supports to enable their transition into the role.
An orientation could introduce them to the current resources available to their department and the current infrastructure within which they are situated.
However, the structural orientation must go beyond their department alone to include the sometimes confusing array of hospitals, research institutes, department and university structures, and processes and provide a system overview including the local governance and power structures.
Individuals need to understand the demands and expectations of the roles going in so that they can ensure they are either capable or commit to learning the tasks and capabilities essential to the role.
From a cultural perspective, they could be connected with key individuals and groups within and beyond their departments.
Effort must be made to assist chairs in appreciating the history of the department and its existing social norms and values.
이 방향은, 이상적으로, 그들이 주임교수로 자리를 잡기 전에 이루어져야 한다. 특히, 나가는 주임교수가 제자리에 있는 동안 들어오는 주임교수가 겹치거나 여러 번 방문하는 전환을 가능하게 하는 것은 문화의 맥박을 얻고 주요 개인과의 관계를 발전시킬 수 있는 기회를 제공할 것입니다. 일단 그들이 그 자리에 앉게 되면, 좀 더 공식적인 오리엔테이션 및 자료들은 그들이 직면하게 될 일반적인 프로세스와 문제들, 그리고 그것들을 다루는 데 사용할 수 있는 전략과 자원들을 다룰 수 있습니다. This orientation, ideally, should take place before they assume the position as chair. In particular, enabling a transition whereby the incoming chair would overlap or have multiple visits whilst the outgoing chair is still in place would provide opportunity to get the pulse of the culture as well as develop relationships with key individuals. Once they have assumed the position, a more formal orientation and/or materials might address common processes and problems that they will encounter and strategies and resources available to deal with them.
또한, 주임교수직 인수와 성공을 위해서는 행정적 인프라가 필수적이라고 보아야 한다. 비즈니스 분야와 달리 주임교수들은 도착 전에 부서 세부사항에 대한 인식이 미미함에도 불구하고 필요한 지원을 위해 협상할 것으로 보인다. 적절한 행정 지원 기준은 들어오는 주임교수에 대한 요구 사항이어야 한다. In addition, administrative infrastructure must be seen as essential to enable chair transition and success. In contrast to the business sector, chairs are expected to negotiate for necessary supports in spite of the fact that many have minimal awareness of departmental details prior to their arrival. An adequate standard of administrative support must be a requirement for incoming chairs.
멘토링 및 개발 Mentorship and development
학술 의학 분야의 강좌는 가치가 있으며, 멘토의 형태를 취할 수 있는 지속적인 지원 및 조언으로부터 임기 내내 혜택을 받을 수 있습니다. 멘토에는 과거 주임교수 또는 더 많은 수석 주임교수, 교수진 내의 다른 리더, 조직 외부의 리더 또는 임원 코치가 포함될 수 있습니다. 실제로, 주임교수는 다양한 요구를 충족시키기 위해 둘 이상의 멘토나 조언자를 필요로 할 수 있으며, 장기 및 단기 관계의 조합을 선호할 수 있습니다.30,31 Chairs in academic medicine value and would benefit throughout their terms from ongoing support and advice, which could take the form of mentorship. Mentors may include past chairs or more senior chairs, other leaders within the faculty, leaders external to the organization, or executive coaches. Indeed, chairs may require more than one mentor or advisor to fulfill their various needs and may prefer a combination of longand shortterm relationships.30,31
과거의 주임교수 또는 더 많은 고위 주임교수는 새로운 주임교수가 자신의 역할과 부서 및 조직에 고유한 사회적 규범과 가치 및 기대되는 행동을 탐색하는 데 도움을 줄 수 있습니다. 주임교수들은 문화적 이슈를 파악하고 그 [의도, 비전, 변화 노력]에 대한 함의를 고려하기 위해, [관찰된 행동, 지지된 가치, 공유된 암묵적 가정] 수준에서 문화를 받아들이는 전략을 교육해야 한다.32 A past chair, or more senior chair, would be able to help chairs navigate the social norms and values and expected behaviors that are unique to their role and specific to their department and organization. Chairs need to be educated about strategies to appreciate culture at the levels of observed behaviors, espoused values, and shared tacit assumptionsin order to identify cultural issues and consider the implications for their intentions, vision, and change efforts.32
학술문화에도 나름의 언어와 행동, 의식, 상징이 있기 때문에, 문화통역자로 활동할 수 있는, 아직 조직의 문화에 속해immersed있는 사람과 연결되는 것도 유용할 수 있다. 이는 외부 리더가 제공할 수 있는 외부인 또는 "신선한 시선"의 가치를 떨어뜨리는 것이 아니라, [국지적local 조직의 가정]을 인식하도록 하기 위한 것입니다. 멘토가 [정식으로 배정되어야 하는지] 아니면 [개인이 필요에 따라 비공식적으로 찾아내야 하는지]는 아직 논쟁이 있다.33 It may be useful to be connected with someone who is still immersed in the culture of the organization to act as a cultural interpreter, because even academic cultures have their own language, behaviors, rituals, and symbols. This is not to diminish the value of an outsider or “fresh eyes” perspective that a leader from outside the organization may provide but, rather, to enable them to perceive the local organizational assumptions. Whether a mentor should be formally assigned or whether individuals should informally seek them out on the basis of need is a debate within the literature.33
Academic medicine 분야에서는 아직 상대적으로 미개척 분야지만, [경영진 코치executive coach]는 기업 내에서 광범위하게 사용됩니다.34 겸손, 강점과 약점에 대한 인식, 일과 삶의 균형, 협업 등 핵심 리더십 기술의 개발을 촉진할 수 있습니다.35 코치는 도전적인 아이디어와 상황을 통해 즉각적인 피드백과 지원을 제공할 수 있으며 다른 학습 기회를 보완할 수 있습니다. Although still relatively untapped within the academic medicine landscape, executive coaches are used extensively within the corporate world.34 They can facilitate the development of key leadership skills, including humility, awareness of strengths and weaknesses, work–life balance, and collaboration.35 A coach can provide immediate feedback and support with challenging ideas and situations and can complement other learning opportunities.
많은 주임교수들이 일찍부터 리더십 발전에 대한 열망을 표현했다. 이들 주임교수들은 자신의 '아마추어 관리자' 역할을 인정했고, 일부는 자기주도적 독서나 리더십 계발에 참석하는 등 독자적인 발전을 추구했다.36 그러나 대부분은 그러한 경험을 통해 효익을 얻을 것이라고 생각하지 않았다.
주임교수들이 인식하는 요구와 그 자리에서 요구받는 도전적인 대인관계를 고려한다면, 그러한 프로그램은 리더십의 대인관계 측면을 최우선 과제로 삼아야 할 것입니다.
또한, [자기 인식과 회복탄력성, 후계 계획, 학제 및 거버넌스, 변화, 인적 자원, 그리고 조직 업무와 영향력의 정치 및 문화적 측면]에 대한 토론이 그들의 요구를 충족시킬 것입니다.
한 사람이 주임교수이 될 때까지 기다리기보다는, 주임교수 역할을 열망하는 '잠재력이 높은' 교수진들이 성공을 위해 자신을 포지셔닝할 수 있는 개발 기회를 모색하도록 격려해야 한다.
각 부서와 교수진도 이러한 리더십 역량을 갖춘 후보자를 심사해야 합니다.
Many chairs articulated their desire for leadership development early in their position. These chairs recognized their “amateur administrator” role, and some pursued their own development by self-directed reading or attending leadership development.36 Most had not, however, and felt that they would benefit from such experiences.
Given their perceived needs and the challenging interpersonal demands of the job, such a program would need to make interpersonal aspects of leadership a top priority.
Additionally, discussions about self-awareness and resilience, succession planning, academic systems and governance, change, human resource, and political and cultural aspects of organizational work and influence would address their needs.
Rather than wait until one becomes a chair, “high potential” faculty who aspire to these roles should be encouraged to seek out development opportunities that would position them for success.
Departments and faculties should also screen candidates for these leadership capabilities.
피어 커뮤니티 Community of peers
주임교수의 복잡한 요구를 지원할 때 고려해야 할 세 번째 영역은 [동료들의 공동체] 개념이다. 코칭 및 지원 네트워크의 중요성이 데이터에서 강조되었습니다. 실제로, 일부 참가자들은 그들만의 비공식 동료 커뮤니티를 만드는 것에 대해 논의했다. 이는 [동료 코칭]이 자극되고 장려될 수 있는 기회를 창출하는 비공식적인 공간을 제공하는 것의 중요성을 보여줍니다. [동료 코칭]은 "직업적 목표를 달성하기 위해, 그 안에 있는 개개인을 지원하려는 명확한 목적을 가진, 발전적 관계"로 묘사되어 왔다. 동료 코칭은 다음을 필요로 한다.
(1) 파트너들 간의 동등한 지위
(2) 동료의 개인 및 전문적 발전에 초점
(3) [집중해야 할 결정적 사건]을 식별하기 위하여 [실무에 대한 성찰reflection on practice]을 통합.
(4) [리더십 스킬 개발]과 [가속화된 커리어 학습]을 촉진하기 위하여 [내용과 프로세스]를 둘 다 강조
A third area to consider in supporting the complex needs of chairs is the notion of communities of peers. The importance of a network of coaching and support was highlighted in the data. Indeed, some participants discussed creating their own informal community of peers. This illuminates the importance of providing informal spaces that create opportunities in which peer coaching can be stimulated and encouraged.37 Peer coaching has been described as a “developmental relationship with the clear purpose of supporting individuals within it to achieve their job objectives.”38 It requires
(1) equal status of partners,
(2) focus on personal and professional development of both peers,
(3) integration of reflection on practice to identify critical incidents for focus, and
(4) emphasis on process as well as content that facilitates leadership skill development and accelerated career learning.
정기적인 비공식 모임과 회의는 그러한 관계를 발전시킬 수 있는 사회적 기회를 제공할 수 있습니다. Regular informal gathering and meetings can provide social opportunities whereby such relationships can develop.
결론 Conclusions
그들이 처음 시작할 때, 주임교수들은 종종 그들의 역할의 요구에 불충분하게 준비된다. 고위 리더에게 높은 리스크와 중요한 포트폴리오를 관리하도록 하는 신뢰는 조직의 리더가 자신의 명령을 이행할 수 있는 능력과 지원을 보장할 책임이 있습니다. 역할의 복잡성과 정서적 부담을 감안할 때, 적절한 행정적 지원과 더불어 동료의 오리엔테이션, 리더십 개발, 멘토링, 지역사회 제공은 조기 성공 가능성을 높여줄 것이다.
When they first begin, chairs are often insufficiently prepared for the demands of their roles. The trust placed in these senior leaders to manage high risk and significantly important portfolios places the responsibility on the organization to ensure their leaders are capable and supported to deliver their mandates. Given the complexities and emotional burden of the role, provision of adequate administrative support as well as opportunities for orientation, leadership development, mentorship, and communities of peers will enhance the likelihood of early success.
Acad Med. 2013 Jul;88(7):960-6.
doi: 10.1097/ACM.0b013e318294ff36.
Understanding the needs of department chairs in academic medicine
1Centre for Faculty Development, University of Toronto, Li Ka Shing International Healthcare Education Centre, St. Michael's Hospital, Toronto, Ontario, Canada. s.lieff@utoronto.ca
Purpose:The challenges for senior academic leadership in medicine are significant and becoming increasingly complex. Adapting to the rapidly changing environment of health care and medical education requires strong leadership and management skills. This article provides empirical evidence about the intricate needs of department chairs to provide insight into the design of support and development opportunities.Results:These participants were initially often insufficiently prepared for the demands of their roles. They identified a specific set of needs. They required cultural and structural awareness to navigate their hospital and university landscapes. A comprehensive network of support was necessary for eliciting advice and exchanging information, strategy, and emotional support. They identified a critical need for infrastructure growth and development. Finally, they stressed that they needed improvement in both effective interpersonal and influence skills in order to meet their mandate.
Conclusions:Given the complexities and emotional burden of their role, it is necessary for chairs to have a range of supports and capabilities to succeed in their roles. Their leadership effectiveness can be enhanced by providing transitional processes and supports, development, and mentoring as well as facilitating the development of communities of peers.
Method:In an exploratory case study, 21 of 25 (84%) department chairs within a faculty of medicine at a large Canadian university participated in semistructured interviews from December 2009 to February 2010. The authors conducted an inductive thematic analysis and identified a coding structure through an iterative process of relating and grouping of emerging themes.