질적 내용분석: Trustwothiness에 초점을 두고(SAGE Open, 2014)
Qualitative Content Analysis: A Focus on Trustworthiness 
Satu Elo1, Maria Kääriäinen1,2, Outi Kanste3, Tarja Pölkki1, Kati Utriainen1, and Helvi Kyngäs1,2

 

질적 내용 분석은 간호과학 연구에서 일반적으로 사용되지만, 그 사용의 신뢰성은 아직 체계적으로 평가되지 않았다. 콘텐츠 분석 연구를 평가하기 위한 효과적이고 간단한 전략에 대한 지속적인 요구가 있다. 특히 질적 내용분석보다 정량적 내용분석의 타당성과 신뢰성에 대한 여러 논문이 발표된 만큼 질적 내용분석 결과의 질에 대한 보다 집중적인 논의도 필요하다. 정량적 내용분석을 수행하기 위해 표준화된 절차를 많이 이용할 수 있지만(Baxter, 2009) 질적 내용분석은 그렇지 않다.
Although qualitative content analysis is commonly used in nursing science research, the trustworthiness of its use has not yet been systematically evaluated. There is an ongoing demand for effective and straightforward strategies for evaluating content analysis studies. A more focused discussion about the quality of qualitative content analysis findings is also needed, particularly as several articles have been published on the validity and reliability of quantitative content analysis (Neuendorf, 2011; Potter & Levine-Donnerstein, 1999; Rourke & Anderson, 2004) than qualitative content analysis. Whereas many standardized procedures are available for performing quantitative content analysis (Baxter, 2009), this is not the case for qualitative content analysis.

질적 내용분석은 현재 데이터를 분석하고 의미를 해석하기 위해 사용할 수 있는 몇 가지 질적 방법 중 하나이다(Schreier, 2012). 연구 방법으로서, 그것은 현상을 설명하고 수량화하는 체계적이고 객관적인 수단을 나타낸다(Downe-Wamboldt, 1992; Schreier, 2012). 성공적인 내용분석을 위한 전제조건은 범주, 개념, 모델, 개념 시스템 또는 개념 맵을 만듦으로써 데이터가 연구 현상을 설명하는 개념으로 축소될 수 있다는 것이다(Elo & Kyngäs, 2008; Morgan, 1993; Weber, 1990). 연구 질문은 무엇을 분석하고 무엇을 만들 것인지를 명시한다. 질적 내용분석에서 추상화 과정은 개념이 생성되는 단계이다. 일반적으로 과정의 일부 측면은 쉽게 설명될 수 있지만, 부분적으로 연구자의 통찰력이나 직관적인 행동에 의존하며, 이는 다른 사람들에게 설명하기가 매우 어려울 수 있다(Elo & Kyngäs, 2008; Graneheim & Lundman, 2004). 타당성 관점에서 결과가 어떻게 만들어졌는지 보고하는 것이 중요하다. 독자는 분석과 결과적 결론을 명확하게 따를 수 있어야 한다(슈라이어, 2012). 
Qualitative content analysis is one of the several qualitative methods currently available for analyzing data and interpreting its meaning (Schreier, 2012). As a research method, it represents a systematic and objective means of describing and quantifying phenomena (Downe-Wamboldt, 1992; Schreier, 2012). A prerequisite for successful content analysis is that data can be reduced to concepts that describe the research phenomenon (Cavanagh, 1997; Elo & Kyngäs, 2008; Hsieh & Shannon, 2005) by creating categories, concepts, a model, conceptual system, or conceptual map (Elo & Kyngäs, 2008; Morgan, 1993; Weber, 1990). The research question specifies what to analyze and what to create (Elo & Kyngäs, 2008; Schreier, 2012). In qualitative content analysis, the abstraction process is the stage during which concepts are created. Usually, some aspects of the process can be readily described, but it also partially depends on the researcher’s insight or intuitive action, which may be very difficult to describe to others (Elo & Kyngäs, 2008; Graneheim & Lundman, 2004). From the perspective of validity, it is important to report how the results were created. Readers should be able to clearly follow the analysis and resulting conclusions (Schreier, 2012).

질적 내용분석은 귀납적 또는 연역적 방법으로 사용될 수 있습니다. 귀납적 및 연역적 내용분석 프로세스에는 세 가지 주요 단계가 포함됩니다: 결과의 준비, 구성, 보고

  • 준비 단계는 콘텐츠 분석에 적합한 데이터를 수집하고 데이터를 이해하며 분석 단위를 선택하는 것으로 구성된다. 
  • 귀납적 접근법에서 조직 단계는 개방형 코딩, 범주 생성, 추상화를 포함한다. 
  • 연역적 접근법에서 조직 단계범주 매트릭스 개발을 포함하며, 여기서 모든 데이터는 내용에 대해 검토되고 식별된 범주에 대한 대응 또는 예시를 위해 코딩된다(Political & Beck, 2012). 범주 매트릭스은 범주가 개념을 적절하게 표현하고, 타당성의 관점에서 범주화 행렬이 의도한 바를 정확하게 포착한다면 유효한 것으로 간주할 수 있다(Schreier, 2012). 
  • 보고 단계에서 결과는 선택된 접근법(연역적 또는 귀납적)을 사용하여 현상을 설명하는 범주의 내용에 의해 설명된다.

Qualitative content analysis can be used in either an inductive or a deductive way. Both inductive and deductive content analysis processes involve three main phases: preparation, organization, and reporting of results.

  • The preparation phase consists of collecting suitable data for content analysis, making sense of the data, and selecting the unit of analysis.
  • In the inductive approach, the organization phase includes open coding, creating categories, and abstraction (Elo & Kyngäs, 2008).
  • In deductive content analysis, the organization phase involves categorization matrix development, whereby all the data are reviewed for content and coded for correspondence to or exemplification of the identified categories (Polit & Beck, 2012). The categorization matrix can be regarded as valid if the categories adequately represent the concepts, and from the viewpoint of validity, the categorization matrix accurately captures what was intended (Schreier, 2012).
  • In the reporting phase, results are described by the content of the categories describing the phenomenon using a selected approach (either deductive or inductive).


질적 연구 타당성을 평가하기에 가장 적합한 용어(강성, 타당성, 신뢰성, 신뢰도)에 대해 많은 논쟁이 있었다(Koch & Harrington, 1998). 신뢰성과 타당성 기준은 신뢰도를 평가할 때 양적 연구와 질적 연구에서 모두 사용됩니다. 그러한 용어들은 주로 연구의 실증적 개념에 뿌리를 두고 있다. 슈라이어(2012)에 따르면 [질적 내용 분석]과 [양적 내용 분석] 사이에 명확한 구분선이 없고, 신뢰성과 타당성에 대한 유사한 용어와 기준이 자주 사용된다.

There has been much debate about the most appropriate terms (rigor, validity, reliability, trustworthiness) for assessing qualitative research validity (Koch & Harrington, 1998). Criteria for reliability and validity are used in both quantitative and qualitative studies when assessing the credibility (Emden & Sandelowski, 1999Koch & Harrington, 1998Ryan-Nicholls & Will, 2009). Such terms are mainly rooted in a positivist conception of research. According to Schreier (2012), there is no clear dividing line between qualitative and quantitative content analysis, and similar terms and criteria for reliability and validity are often used. 

연구자들은 내용분석에서 타당성 측면을 평가할 때 주로 질적 기준을 사용해 왔다(Kyngás 등, 2011). 질적 내용분석을 평가하기 위해 가장 널리 사용되는 기준은 링컨과 구바(1985)가 개발한 기준이다. 그들은 신뢰성trustworthiness라는 용어를 사용했다. 질적 조사에서 신뢰성trustworthiness의 목적은 조사의 발견이 "주의할 가치가 있다"는 주장을 뒷받침하는 것이다(Lincoln & Guba, 1985). 이론 기반 범주화 매트릭스 없이 원시 데이터에서 범주가 생성되기 때문에 귀납적 내용 분석을 사용할 때 특히 중요하다. 따라서, 우리는 데이터 수집, 분석, 콘텐츠 분석 결과의 발표의 신뢰성trustworthiness에 영향을 미치는 요소를 파악할 때 이러한 전통적인 질적 연구 용어를 사용하기로 결정했습니다.

Researchers have mainly used qualitative criteria when evaluating aspects of validity in content analysis (Kyngäs et al., 2011). The most widely used criteria for evaluating qualitative content analysis are those developed by Lincoln and Guba (1985). They used the term trustworthiness. The aim of trustworthiness in a qualitative inquiry is to support the argument that the inquiry’s findings are “worth paying attention to” (Lincoln & Guba, 1985). This is especially important when using inductive content analysis as categories are created from the raw data without a theory-based categorization matrix. Thus, we decided to use such traditional qualitative research terms when identifying factors affecting the trustworthiness of data collection, analysis, and presentation of the results of content analysis.


질적 연구를 위해 몇 가지 신뢰도 평가 기준이 제안되었다. 그러나 이러한 기준의 공통점은 내용분석 과정을 정확하게 보고함으로써 신뢰도를 지원하고자 한다는 것이다. 링컨과 구바는 credibility, dependability, conformability, and transferability라는 질적연구에서 trustworthiness 평가를 위한 네 가지 대안을 제안해 왔다. 1994년에서 저자들은 5기준에 진정성authenticity을 덧붙였다.

  • Credibility의 확립을 위한 관점에서, 연구원들은 연구에 참여하고 정확하게 묘사했다 확인되도록 해야 합니다.
  • Dependability 데이터의 시간과 다른 조건에 따라 안정성을 말한다.
  • Conformability 그것이 객관성을 말한다, 일치에 대한 데이터의 정확성, 타당성, 또는 의미에 대해 두 이상의 독립적인 사람들의 가능성.
  • Transferability 추정에 대한 가능성에 말한다. 그것은 논거는 발견이나 다른 설정 또는 그룹에 편입이 개괄될 수 있는에 의존하고 있다.
  • 마지막 기준, authenticity는, 연구자들 공정하고 충실히, 현실의 범위(링컨&Guba, 1985;Polit&벡, 2012년)을 보여 주는 정도로 말한다.

Several other trustworthiness evaluation criteria have been proposed for qualitative studies (Emden, Hancock, Schubert, & Darbyshire, 2001; Lincoln & Guba, 1985; Neuendorf, 2002; Polit & Beck, 2012; Schreier, 2012). However, a common feature of these criteria is that they aspire to support the trustworthiness by reporting the process of content analysis accurately. Lincoln and Guba (1985) have proposed four alternatives for assessing the trustworthiness of qualitative research, that is, credibility, dependability, conformability, and transferability. In 1994, the authors added a fifth criterion referred to as authenticity.

  • From the perspective of establishing credibility, researchers must ensure that those participating in research are identified and described accurately.
  • Dependability refers to the stability of data over time and under different conditions.
  • Conformability refers to the objectivity, that is, the potential for congruence between two or more independent people about the data’s accuracy, relevance, or meaning.
  • Transferability refers to the potential for extrapolation. It relies on the reasoning that findings can be generalized or transferred to other settings or groups.
  • The last criterion, authenticity, refers to the extent to which researchers, fairly and faithfully, show a range of realities (Lincoln & Guba, 1985Polit & Beck, 2012)

 

연구자들은 종종 질적 연구 결과의 신뢰도를 손상시키는 문제와 씨름한다. 본 기사에서 설명하는 연구의 목적은 주요 질적 콘텐츠 분석 단계를 기반으로 신뢰도를 설명하고 콘텐츠 분석 연구의 신뢰도를 평가하기 위한 체크리스트를 작성하는 것이었다. 가장 중요한 연구 질문은 "각 단계에서 콘텐츠 분석 연구의 신뢰도를 향상시키기 위해 노력하는 연구자들에게 필수적인 것은 무엇인가?" 제시된 지식은 초기 연구의 서술적 문헌 검토, 우리 자신의 경험, 방법론적 교과서를 통해 확인되었다. 다음과 같은 키워드를 사용하여 Medline(Ovid)과 CINAHL(EBSCO)의 복합 검색이 수행되었다. 신뢰성, 엄격함 또는 타당성, 질적 컨텐츠 분석.
Researchers often struggle with problems that compromise the trustworthiness of qualitative research findings (de Casterlé, Gastmans, Bryon, & Denier, 2012). The aim of the study described in this article was to describe trustworthiness based on the main qualitative content analysis phases, and to compile a checklist for evaluating trustworthiness of content analysis study. The primary research question was, “What is essential for researchers attempting to improve the trustworthiness of a content analysis study in each phase?” The knowledge presented was identified from a narrative literature review of earlier studies, our own experiences, and methodological textbooks. A combined search of Medline (Ovid) and CINAHL (EBSCO) was conducted, using the following key words: trustworthiness, rigor OR validity, AND qualitative content analysis.

다음은 포함 기준으로 사용되었다: 영어로 출판된 건강과학 분야의 질적 내용 분석에 초점을 맞춘 방법론적 논문이며 연도에 제한이 없다. 이 검색에서는 데이터베이스와 참조 목록 검사에서 12개의 방법론적 내용 분석 기사가 확인되었다. 선정된 논문의 참고목록도 확인했고, 검토 종합서 작성 시 질적 연구방법론 교재가 활용됐다. 이 글의 논의는 내용 분석을 유효하고 이해할 수 있는 방식으로 보고하는 방법을 명확히 하는 데 도움이 되며, 이는 과학 논문 검토자에게 특히 도움이 될 것으로 예상한다.

The following were used as inclusion criteria: methodological articles focused on qualitative content analysis in the area of health sciences published in English and with no restrictions on year. The search identified 12 methodological content analysis articles from databases and reference list checks (Cavanagh, 1997; Downe-Wamboldt, 1992; Elo & Kyngäs, 2008; Graneheim & Lundman, 2004; Guthrie, Yongvanich, & Ricceri, 2004; Harwood & Garry, 2003; Holdford, 2008; Hsieh & Shannon, 2005; Morgan, 1993; Potter & Levine-Donnerstein, 1999; Rourke & Anderson, 2004; Vaismoradi, Bondas, & Turunen, 2013). The reference list of selected papers was also checked, and qualitative research methodology textbooks were used when writing the synthesis of the review. The discussion in this article helps to clarify how content analysis should be reported in a valid and understandable manner, which, we expect, will be of particular benefit to reviewers of scientific articles.

콘텐츠 분석 연구 준비단계에서의 신뢰도
Trustworthiness in the Preparation Phase in Content Analysis Study

문헌 검색 결과를 바탕으로 작성 단계의 주요 신뢰도 이슈는 데이터 수집 방법의 신뢰도, 샘플링 전략, 적절한 분석 단위 선정으로 파악되었다. 연구 결과를 바탕으로 각 단계에서 콘텐츠 분석 연구의 신뢰도 향상을 시도하는 연구자를 위한 점검표를 작성했다(표 1).

Based on the results of the literature search, the main trustworthiness issues in the preparation phases were identified as trustworthiness of the data collection method, sampling strategy, and the selection of a suitable unit of analysis. Based on the findings, we have compiled a checklist for researchers attempting to improve the trustworthiness of a content analysis study in each phase (Table 1).

 

데이터 수집 방법
Data Collection Method

데이터 수집의 신뢰성trustworthiness에 대한 입증은 연구의 신뢰성에 관한 연구자의 궁극적인 주장을 뒷받침하는 한 측면이다(Rourke & Anderson, 2004). 내용분석의 신뢰성을 보장하기 위해서는 가장 적절한 데이터 수집 방법의 선택이 필수적이다(Graneheim & Lundman, 2004). 신뢰성credibility은 연구의 초점을 다루며 [데이터가 의도한 초점을 얼마나 잘 설명하는지address]에 대한 자신감를 의미한다(Political & Beck, 2012). 따라서 연구자는 내용분석에 가장 적합한 데이터를 수집하는 방법에 대해 많은 고민을 해야 합니다. 내용분석의 신뢰성을 보장하기 위한 전략은 관심 있는 연구 질문에 답할 수 있는 [최선의 데이터 수집 방법]을 선택하는 것에서부터 시작된다. 내용 분석이 사용되는 대부분의 연구에서 수집된 데이터는 비구조적이며, 인터뷰, 관찰, 일기, 기타 서면 문서 또는 다른 방법의 조합과 같은 방법으로 수집된다. 그러나 연구의 목적에 따라 수집된 데이터는 개방적이고 반구조적일 수 있다. 귀납적 내용분석을 사용하는 경우 데이터가 가능한 한 구조화되지 않은 것이 중요하다(Dey, 1993; Neuendorf, 2002).
Demonstration of the trustworthiness of data collection is one aspect that supports a researcher’s ultimate argument concerning the trustworthiness of a study (Rourke & Anderson, 2004). Selection of the most appropriate method of data collection is essential for ensuring the credibility of content analysis (Graneheim & Lundman, 2004). Credibility deals with the focus of the research and refers to the confidence in how well the data address the intended focus (Polit & Beck, 2012). Thus, the researcher should put a lot of thought into how to collect the most suitable data for content analysis. The strategy to ensure trustworthiness of content analysis starts by choosing the best data collection method to answer the research questions of interest. In most studies where content analysis is used, the collected data are unstructured (Elo & Kyngäs, 2008; Neuendorf, 2002; Sandelowski, 1995b), gathered by methods such as interviews, observations, diaries, other written documents, or a combination of different methods. However, depending on the aim of the study, the collected data may be open and semi-structured. If inductive content analysis is used, it is important that the data are as unstructured as possible (Dey, 1993; Neuendorf, 2002).


신뢰성trustworthiness의 관점에서 핵심 질문은 "사전 구성과 데이터 수집 방법의 관계는 무엇인가, 즉 연구자가 서술형 또는 반구조형 질문을 사용해야 하는가"이다. 오늘날 질적 내용분석은 면담 전사본과 같은 구두 데이터에 가장 자주 적용된다(Schreier, 2012). 서술적 데이터 수집을 하는 경우, 경험의 다양성을 통제하는 것이나, 면접관의 편향과 한 가지 유형의 정보 또는 분석적 관점의 특권을 방지하는 것은 종종 어려울 수 있다(Warr & Pyett, 1999). 예를 들어 "당신은 어떻게 자신을 돌볼 수 있는지 말씀해 주시겠습니까?"와 같은 서술형 질문을 사용할 때, 연구자는 데이터 수집의 목적을 고려하고 이를 위해 데이터를 추출하려고 노력해야 합니다. 다만 연구자가 반구조적 데이터 수집 방식을 선택할 경우 참여자의 답변을 지나치게 조종해 귀납적 데이터를 얻지 않도록 주의해야 한다. 면담 질문을 "비판적 참조 그룹critical reference group"과 연계하여 개발하는 것이 유용할 수 있다. 비판적 참조 그룹은 참여적 행동 연구에 사용되며 연구 및 평가가 주로 이익을 얻기 위한 그룹을 총칭하는 용어이다(Wadsworth, 1998). 면담질문을 이런 집단의 평가에 붙이는 것은 '올바른 방식으로 올바른 질문'을 함으로써 공부한 현상을 더 잘 이해할 수 있는 질문을 구성하는 데 도움이 될 수 있다.

From the perspective of trustworthiness, a key question is, “What is the relationship between prefiguration and the data collection method, that is, should the researcher use descriptive or semi-structured questions?” Nowadays, qualitative content analysis is most often applied to verbal data such as interview transcripts (Schreier, 2012). With descriptive data collection, it can often be challenging to control the diversity of experiences and prevent interviewer bias and the privileging of one type of information or analytical perspective (Warr & Pyett, 1999). For example, when using a descriptive question such as “Could you please tell me, how do you take care of yourself?” the researcher has to consider the aim of data collection and try to extract data for that purpose. However, if the researcher opts for a semi-structured data collection method, they should be careful not to steer the participant’s answers too much to obtain inductive data. It may be useful for the interview questions to be developed in association with a “critical reference group” (Pyett, 2003). Critical reference groups are used in participatory action research and is a generic term for those the research and evaluation is intended primarily to benefit (http://www.aral.com.au/ari/p-ywadsworth98.html" data-mce-href="https://journals.sagepub.com/doi/full/10.1177/2158244014522633#">Wadsworth, 1998). Subjecting the interview questions to evaluation by this kind of group may help to construct understandable questions that make better sense of the studied phenomenon by asking the “right questions in the right way.”

신뢰성credibility의 관점에서 연구자의 자기 인식은 필수적이다(Koch, 1994). 사전 면담은 면접 질문이 제안된 연구 질문에 답하는 풍부한 데이터를 얻는 데 적합한지 판단하는 데 도움이 될 수 있다. 예를 들어, "내가 참가자를 조작하거나 이끌었는가?", "너무 광범위하거나 구조적인 질문을 했는가?"와 같은 질문이 연구자 자신의 행동을 비판적으로 평가하기 위해 면밀하게 검토되어야 한다. 이러한 평가는 연구를 시작할 때 시작할 뿐만 아니라 콘텐츠 분석의 신뢰성을 보장하기 위해 지속적인 성찰이 뒷받침되어야 한다.
From the viewpoint of credibility, self-awareness of the researcher is essential (Koch, 1994). Pre-interviews may help to determine whether the interview questions are suitable for obtaining rich data that answer the proposed research questions. Interview tapes, videos, and transcribed text should be examined carefully to critically assess the researcher’s own actions For instance, questions should be asked such as “Did I manipulate or lead the participant?” and “Did I ask too broad or structured questions?” Such evaluation should not only begin at the start of the study but also be supported by continuous reflection to ensure the trustworthiness of content analysis.

데이터를 관리하기 위해서는 정량적 연구 못지않게 정성적 연구에서도 분석방법의 사전검사가 중요하다. 연역적 내용분석 접근 방식을 사용할 경우, 파일럿 단계에서 분류 매트릭스도 사전 테스트해야 한다(Schreier, 2012). 이것은 특히 두 명 이상의 연구원이 코딩에 관여할 때 필수적이다. 시험 코딩에서 연구자들은 독립적으로 새로 개발된 행렬의 코딩(Schreier, 2012)을 시도하고 행렬을 사용하는 데 있어 명백한 어려움과 그들이 다르게 해석한 코딩 단위를 논의한다(Schreier, 2012). 그들의 논의에 기초하여, 필요한 경우 분류 매트릭스가 수정된다.
To manage the data, pre-testing of the analysis method is as important in qualitative as in quantitative research. When using a deductive content analysis approach, the categorization matrix also needs to be pretested in a pilot phase (Schreier, 2012). This is essential, especially when two or more researchers are involved in the coding. In trial coding, researchers independently try out the coding of the newly developed matrix (Schreier, 2012) and then discuss any apparent difficulties in using the matrix (Kyngäs et. al., 2011) and the units of coding they have interpreted differently (Schreier, 2012). Based on their discussion, the categorization matrix is modified, if needed.

 

샘플링 전략
Sampling Strategy

표본 추출 전략의 관점에서 다음과 같은 질문을 하는 것이 필수적이다.

  • 내 연구를 위한 가장 좋은 표본 추출 방법은 무엇인가요?
  • 내 연구에 가장 적합한 정보원은 누구이며, 참가자를 선정할 때 어떤 기준을 사용해야 합니까?
  • 제 샘플이 적절한가요?
  • 내 데이터가 잘 포화되었습니까?

타당성 기준으로서의 철저성Thoroughness 은 [데이터의 적정성]을 나타내며, 건전한 샘플링과 포화에 의존하기도 한다(Whittemore, Chase, & Mandle, 2001). 정성 연구에 사용되는 샘플링 방법을 고려하는 것이 중요하다(Creswell, 2013). 우리의 연구에 따르면, 표본 추출 방법은 질적 내용 분석 연구에서 거의 언급되지 않는다. 질적 연구에서 표본 추출 전략은 보통 연구 결과의 일반화 필요성에 의해가 아니라 방법론과 주제에 기초하여 선택된다(Higginbottom, 2004). 질적 샘플링은 편의적, 목적적, 이론적, 선택적, 사례 내 및 눈덩이 샘플링을 포함한다. 그러나 표본은 적절해야 하며 연구 주제를 가장 잘 대표하거나 알고 있는 참가자로 구성되어야 한다.

From the viewpoint of sampling strategy, it is essential to ask questions such as the following:

  • What is the best sampling method for my study?
  • Who are the best informants for my study and what criteria to use for selecting the participants?
  • Is my sample appropriate?
  • Are my data well saturated?

Thoroughness as a criterion of validity refers to the adequacy of the data and also depends on sound sampling and saturation (Whittemore, Chase, & Mandle, 2001). It is important to consider the sampling method used in qualitative studies (Creswell, 2013). Based on our research, the sampling method is rarely mentioned in qualitative content analysis studies (Kyngäs et. al., 2011). In qualitative research, the sampling strategy is usually chosen based on the methodology and topic, and not by the need for generalizability of the findings (Higginbottom, 2004). Types of qualitative sampling include convenience, purposive, theoretical, selective, within-case and snowball sampling (Creswell, 2013; Higginbottom, 2004; Polit & Beck, 2012). However, the sample must be appropriate and comprise participants who best represent or have knowledge of the research topic.

내용분석 연구에서 가장 일반적으로 사용되는 방법은 목적적 샘플링이다. 의도적 샘플링은 연구자가 연구 주제에 관한 최고의 지식을 가진 정보 제공자에게 관심이 있는 질적 연구에 적합하다. 목적적 샘플링을 사용할 경우, 샘플링을 누가 또는 무엇이 샘플링되는지, 어떤 형태를 취해야 하는지, 그리고 얼마나 많은 사람이나 사이트를 샘플링해야 하는지에 대한 결정을 내려야 한다(Creswell, 2013). 그러나 목적적 표본 추출의 단점은 완전한 세부사항이 제공되지 않을 경우 독자가 표본 추출의 신뢰도를 판단하기 어려울 수 있다는 것이다. 연구자는 어떤 유형의 목적적 샘플링을 사용하는 것이 가장 적합한지 결정해야 하며(Creswell, 2013) 표본 추출 방법에 대한 간략한 설명이 제공되어야 한다.

The most commonly used method in content analysis studies is purposive sampling (Kyngäs, Elo, Pölkki, Kääriäinen, & Kanste, 2011): purposive sampling is suitable for qualitative studies where the researcher is interested in informants who have the best knowledge concerning the research topic. When using purposeful sampling, decisions need to be made about who or what is sampled, what form the sampling should take, and how many people or sites need to be sampled (Creswell, 2013). However, a disadvantage of purposive sampling is that it can be difficult for the reader to judge the trustworthiness of sampling if full details are not provided. The researcher needs to determine which type of purposeful sampling would be best to use (Creswell, 2013), and a brief description of the sampling method should be provided.



Dependability 데이터의 시간과 다른 조건에 따라 안정성을 말한다. 따라서 다른 맥락으로의 결과 전이가능성transferability을 평가할 수 있도록 [참가자를 선정할 때 사용하는 원칙과 기준을 명시]하고, [참가자의 주요 특성을 상세히 기술]하는 것이 중요하다. 곧, "동일하거나 유사한 참여자와 같은 맥락에서 조사 결과가 복제된다면 반복될 것인가"라는 것이 주된 질문이다. 신뢰성을 확립하기 위한 링컨과 구바의 1985년 기준에 따르면, 연구자들은 연구에 참여하는 사람들이 정확하게 식별되고 설명되도록 해야 한다. 신뢰할 수 있는 데이터를 수집하기 위해 다양한 연구에서 다른 샘플링 방법이 필요할 수 있다.
Dependability refers to the stability of data over time and under different conditions. Therefore, it is important to state the principles and criteria used to select participants and detail the participants’ main characteristics so that the transferability of the results to other contexts can be assessed (e.g., see Moretti et al., 2011). The main question is then, “Would the findings of an inquiry be repeated if it were replicated with the same or similar participants in the same context (Lincoln & Guba, 1985; Polit & Beck, 2012)?” According to Lincoln and Guba’s (1985) criteria for establishing credibility, researchers must ensure that those participating in research are identified and described accurately. To gather credible data, different sampling methods may be required in different studies.

내용물 분석 연구의 신뢰성credibility을 보장하기 위해 가장 [적절한 표본 크기]를 선택하는 것이 중요하다(Graneheim & Lundman, 2004). 표본이 적절한지 평가할 때 표본 크기에 대한 정보는 필수적이다. 최적의 표본은 연구의 목적, 연구 질문 및 데이터의 풍부함에 따라 달라지기 때문에 질적 연구에 일반적으로 허용되는 표본 크기는 없다. 질적 내용 분석에서는 연구 참가자의 동질성 또는 그룹 간에 예상되는 차이를 평가한다. 예를 들어, 주택 거주 노인의 웰빙과 부양적 신체환경 특성에 대한 연구는 상당히 이질적인 데이터를 생성할 가능성이 높으며 예를 들어 85세 이상의 노인이나 농촌에 거주하는 노인만 연구하는 것보다 더 많은 참여자가 필요할 수 있다.
Selection of the most appropriate sample size is important for ensuring the credibility of content analysis study (Graneheim & Lundman, 2004). Information on the sample size is essential when evaluating whether the sample is appropriate. There is no commonly accepted sample size for qualitative studies because the optimal sample depends on the purpose of the study, research questions, and richness of the data. In qualitative content analysis, the homogeneity of the study participants or differences expected between groups are evaluated (Burmeister, 2012; Sandelowski, 1995a). For example, a study on the well-being and the supportive physical environment characteristics of home-dwelling elderly is likely to generate fairly heterogeneous data and may need more participants than if restrictions are applied, for example, studying only elderly aged above 85 years or those living in rural areas.

데이터의 포화도가 최적의 표본 크기를 나타낼 수 있다고 제안되었다(Guthrie 등, 2004; Sandelowski, 1995a). 정의에 따라, 포화된 데이터는 범주 내 복제를 보장하며, 이는 다시 이해와 완전성을 검증하고 보장합니다. 데이터의 포화가 불완전하면 데이터 분석에 문제를 일으킬 수 있고 항목 간 연동을 방해할 수 있다(Cavanagh, 1997). 잘 포화된 데이터는 분류와 추상화를 용이하게 한다. 데이터가 최소한 사전 수집과 분석이 동시에 이뤄지면 포화 상태를 인지하기가 더 쉽다. 모든 데이터가 먼저 수집되고 나중에 분석되는 것이 일반적이다. 우리는 예를 들어 몇 번의 인터뷰 후에 예비 분석을 시작할 것을 권고한다. 포화도가 달성되지 않으면 데이터를 그룹화하고 개념을 만드는 것이 종종 어려워 완전한 분석을 방해하고 단순화된 결과를 생성한다(Harwood & Garry, 2003; Weber, 1990).

It has been suggested that saturation of data may indicate the optimal sample size (Guthrie et al., 2004; Sandelowski, 1995a). By definition, saturated data ensure replication in categories, which in turn verifies and ensures comprehension and completeness (Morse, Barrett, Mayan, Olson, & Spiers, 2002). If the saturation of data is incomplete, it may cause problems in data analysis and prevent items being linked together (Cavanagh, 1997). Well-saturated data facilitates its categorization and abstraction. It is easier to recognize when saturation is achieved if data are at least preliminarily collected and analyzed at the same time (Guthrie et al., 2004; Sandelowski, 1995a, 2001). It is common that all data are first collected and then analyzed later. We recommend that preliminary analysis should start, for example, after a few interviews. When saturation is not achieved, it is often difficult to group the data and create concepts (Elo & Kyngäs, 2008; Guthrie et al., 2004; Harwood & Garry, 2003), preventing a complete analysis and generating simplified results (Harwood & Garry, 2003; Weber, 1990).

 

적합한 분석 단위 선정
Selection of a Suitable Unit of Analysis

데이터 수집의 성공 여부는 [특정 연구 질문 및 연구 목적]과 관련하여 평가되어야 합니다. 준비 단계에는 [적절한 분석 단위 선정]도 수반되는데, 이는 내용분석의 신뢰성을 확보하는 데도 중요하다. 예를 들어, [의미 단위]는 글자, 단어, 페이지의 문장 부분 또는 단어가 될 수 있다(롭슨, 1993) 분석 단위가 너무 넓으면 관리가 어렵고 다양한 의미를 가질 수 있다. 의미 단위를 너무 좁히면 조각화될 수 있습니다. 가장 적합한 분석 단위는 [전체라고 보기에 충분히 크지만, 분석 과정 동안 관련 의미 단위가 될 수 있을 만큼 충분히 작은 것]이다. 분석 프로세스를 보고할 때 의미 단위를 충분히 기술하여 독자들이 분석의 신뢰도를 평가할 수 있도록 하는 것이 중요하다(Graaneheim & Lundman, 2004). 그러나 이전 과학 논문에서 분석 단위는 종종 부적절하게 설명되어 사용된 의미 단위가 얼마나 성공적이었는지 평가하기 어려웠다(Kyngás 등, 2011).
The success of data collection should be assessed in relation to the specific research questions and study aim. The preparation phase also involves the selection of a suitable unit of analysis, which is also important for ensuring the credibility of content analysis. The meaning unit can, for example, be a letter, word, sentence portion of pages, or words (Robson, 1993). Too broad a unit of analysis will be difficult to manage and may have various meanings. Too narrow a meaning unit may result in fragmentation. The most suitable unit of analysis will be sufficiently large to be considered as a whole but small enough to be a relevant meaning unit during the analysis process. It is important to fully describe the meaning unit when reporting the analysis process so that readers can evaluate the trustworthiness of the analysis (Graneheim & Lundman, 2004). However, in previous scientific articles, the unit of analysis has often been inadequately described, making it difficult to evaluate how successful was the meaning unit used (Kyngäs et al., 2011).

내용분석 연구에서의 조직 단계의 신뢰도
Trustworthiness of Organization Phase in Content Analysis Study


모레티 외 연구진(2011)에 따르면, 질적 연구의 장점은 수집된 데이터가 풍부하다는 것이며, 그러한 데이터는 타당하고 신뢰할 수 있는 방식으로 해석되고 코딩되어야 한다. 다음 섹션에서는 조직organization 단계와 관련된 신뢰도 문제에 대해 논의합니다. 이 단계에서는 범주가 잘 만들어졌는지, 해석 수준은 어느 정도인지, 분석의 신뢰도는 어떻게 점검할 것인지 등을 고려하는 것이 필수적이다.

According to Moretti et al. (2011), the advantage of qualitative research is the richness of the collected data and such data need to be interpreted and coded in a valid and reliable way. In the following sections, we discuss trustworthiness issues associated with the organization phase. In this phase, it is essential to consider whether the categories are well created, what the level of interpretation is, and how to check the trustworthiness of the analysis.

조직 단계의 일환으로 [개념이나 범주가 어떻게 만들어지는지]에 대한 설명이 제공되어 연구의 신뢰도를 나타내야 한다. 특히 연구자가 데이터를 추출하지 않았거나 너무 많은 유형의 항목이 함께 분류된 경우 개념과 개념의 생성 방법을 설명하는 것은 종종 어려울 수 있다. 또한 [지나치게 많은 수의 개념]은 일반적으로 연구자가 데이터를 그룹화하지 못했음을 의미한다. 즉, 추상화 과정이 불완전하고 범주도 겹칠 수 있다(Kyngäs 등, 2011). 이 경우, 연구자들은 범주 내에서의 유사성과 범주 간의 차이를 식별하기 위해 그룹화를 계속해야 합니다. 

As part of the organization phase, an explanation of how the concepts or categories are created should be provided to indicate the trustworthiness of study. Describing the concepts and how they have been created can often be challenging, which may hinder a complete analysis, particularly if the researcher has not abstracted the data, or too many different types of items have been grouped together (Dey, 1993; Hickey & Kipping, 1996). In addition, a large number of concepts usually indicates that the researcher has been unable to group the data, that is, the abstraction process is incomplete, and categories may also overlap (Kyngäs et al., 2011). In this case, the researcher must continue the grouping to identify any similarities within and differences between categories.

Graneheim과 Lundman(2004)에 따르면, 질적 내용 분석 결과의 신뢰성에 대해 논의할 때 필수적인 고려사항은 텍스트에 접근할 때 어느 정도의 해석이 항상 있다는 것이다. 모든 연구자는 조직 단계의 신뢰성credibility과 적합성Conformability을 확인하는 방법을 고려해야 합니다. 조사 결과의 적합성Conformability은 데이터가 참여자가 제공한 정보를 정확하게 나타내는 것이며, 연구자에 의해서 발명invented 된 것이 아님을 의미한다(Political & Beck, 2012). 이는 연구자가 명백한manifest 내용에 추가하여 잠재된latent 내용(침묵, 한숨, 웃음, 자세 등)을 분석하기로 결정한 경우 특히 중요하다(Elo & Kyngäs, 2008). 데이터의 포괄성을 높이고 건전한 해석을 제공하기 위해 한 명 이상이 분석을 수행하는 것이 좋습니다. 그러나 연역적 데이터 분석에 둘 이상의 코더가 관여하는 경우 높은 인터코더 신뢰성(ICR)이 필요하다. Burla, Knierim, Barth, Duetz 및 Abel(2008)은 질적 내용 분석에서 코드화를 개선하기 위해 ICR 평가를 사용하는 방법을 보여주었다. 이것은 분류 행렬이나 코딩 방식에 기반한 연역적 내용 분석을 사용할 때 유용합니다.

According to Graneheim and Lundman (2004), an essential consideration when discussing the trustworthiness of findings from a qualitative content analysis is that there is always some degree of interpretation when approaching a text. All researchers have to consider how to confirm the credibility and conformability of the organization phase. Conformability of findings means that the data accurately represent the information that the participants provided and the interpretations of those data are not invented by the inquirer (Polit & Beck, 2012). This is particularly important if the researcher decides to analyze the latent content (noticing silence, sighs, laughter, posture etc.) in addition to manifest content (Catanzaro, 1988; Robson, 1993) as it may result in over interpretation (Elo & Kyngäs, 2008). It is recommended that the analysis be performed by more than one person to increase the comprehensivity and provide sound interpretation of the data (Burla et al., 2008; Schreier, 2012). However, high intercoder reliability (ICR) is required when more than one coder is involved in deductive data analysis (Vaismoradi et al., 2013). Burla, Knierim, Barth, Duetz, and Abel (2008) have demonstrated how ICR assessment can be used to improve coding in qualitative content analysis. This is useful when using deductive content analysis, which is based on a categorization matrix or coding scheme.

다만 두 명 이상의 연구자가 [귀납적 내용 분석]을 할 경우 신뢰도를 어떻게 점검해야 하는지에 대한 권고안은 아직 발표되지 않았다. 우리는 한 명의 연구원이 분석을 담당하고 다른 연구원들이 전체 분석 과정과 분류를 세심하게 추적하는 것을 제안한다. 이후에 모든 연구자들이 모여 앞에서 언급한 시범 단계와 같이 분류와 관련된 다양한 의견을 논의해야 한다. 예를 들어, 우리의 연구에서는, 두 명의 연구원이 분석의 적절성을 확인하고 가능한 보완을 요청했다(Kyngás 등, 2011).
However, there are no published recommendations on how the trustworthiness should be checked if the inductive content analysis is conducted by two or more researcher. Our suggestion is that one researcher is responsible for the analysis and others carefully follow-up on the whole analysis process and categorization. All the researchers should subsequently get together and discuss any divergent opinions concerning the categorization, like in the pilot phase mentioned earlier. For example, in one of our studies, two research team members checked the adequacy of the analysis and asked for possible complements (Kyngäs et al., 2011).


한 연구(Kyngäs 등, 2011)는 특히 [귀납적 내용분석]을 사용할 때 가장 흔히 데이터가 한 명의 연구자에 의해 분석된다고 제안했다. 이 경우 데이터 전체의 대표성representativeness을 확인함으로써 분석의 신뢰성을 확인할 수 있다(Thomas & Magilvy, 2011). Pyett(2003)에 따르면, 우수한 질적 연구자는 해석이 데이터에 사실인지와 식별된 특징들이 다른 인터뷰를 통해 입증되는지 확인하기 위해 [계속해서 데이터로 돌아가게 되며], 이렇게 시간이 많이 걸리는 작업을 피할 수 없다. 안면 타당도는 연구의 신뢰도를 추정하는 데에도 사용되어 왔다. 이 경우, 결과는 연구 주제에 익숙한 사람들에게 제시되고, 그들은 그 결과가 현실과 일치하는지 평가한다. 연역적 접근법을 사용하는 경우, 이중 코딩은 종종 분류 매트릭스의 품질을 평가하는 데 도움이 된다. 슈라이어(2012)에 따르면, 코드 정의가 명확하고 하위 범주가 겹치지 않는 경우, 두 라운드의 독립성 코딩은 대략적으로 동일한 결과를 생성해야 한다.

One study (Kyngäs et al., 2011) has suggested that data are most often analyzed by one researcher, especially when using inductive content analysis. In such a case, the credibility of the analysis can be confirmed by checking for the representativeness of the data as a whole (Thomas & Magilvy, 2011). According to Pyett (2003), a good qualitative researcher cannot avoid the time-consuming work of returning again and again to the data, to check whether the interpretation is true to the data and the features identified are corroborated by other interviews. Face validity has also been used to estimate the trustworthiness of studies (Cavanagh, 1997; Downe-Wamboldt, 1992; Hickey & Kipping, 1996). In this case, the results are presented to people familiar with the research topic, who then evaluate whether the results match reality. If the deductive approach is used, double-coding often helps to assess the quality of categorization matrix. According to Schreier (2012), if the code definitions are clear and subcategories do not overlap, then two rounds of independence coding should produce approximately the same results.

공동 연구자들 사이의 대화의 가치는 종종 강조되어 왔으며, [참여자의 연구 결과]에 대한 인식은 신뢰도 또는 적합성credibility or conformability을 나타내는 데 사용될 수 있다고 제안되어 왔다. 그러나 이 작업은 주의하여 수행하도록 권고되었다(Ryan-Nicholls & Will, 2009). 일부 연구는 참가자들이 자신의 경험에 충실하기 위해 연구 결과를 확인하는 [멤버 체크]를 사용한다. 비록 링컨과 구바(1985)가 멤버 체크를 데이터 분석 동안 연속적인 과정으로 설명했지만(예: 참가자들에게 가상의 상황에 대해 질문함으로써), 연구자들은 대체로 멤버 체크를 참가자들과 전체적인 결과를 검증하기 위해 사용해 왔다. 결과를 원래 참석자에게 돌려 검증하는 것이 매력적으로 보일 수 있지만, 확립된 검증 전략은 아니다. 여러 방법론자들은 연구의 [독자, 참여자 또는 잠재적 사용자가 분석이 정확하다고 판단하는지의 여부에 기초하는 검증]을 하지 말라고 경고했다. 이것이 오히려 타당도 위협으로 작용하기 때문이다.(Morse 등, 2002). Pyett (2003)은 연구 참가자들이 자신의 행동과 동기를 항상 이해하는 것은 아니며, 연구자들은 논증에 비판적 이해를 적용해야 할 더 많은 역량과 학문적 의무가 있다고 주장했다.
The value of dialogue among co-researchers has often been highlighted and it has been suggested that the participant’s recognition of the findings can also be used to indicate the credibility or conformability (Graneheim & Lundman, 2004; Saldaña, 2011). However, it has been recommended that this be undertaken with caution (Ryan-Nicholls & Will, 2009). Some studies have used member checks, whereby participants check the research findings to make sure that they are true to their experiences (Holloway & Wheeler, 2010; Koch, 1994; Saldaña, 2011; Thomas & Magilvy, 2011). Although Lincoln and Guba (1985) have described member checks as a continuous process during data analysis (e.g., by asking participants about hypothetical situations), it has largely been interpreted and used by researchers for verification of the overall results with participants. Although it may seem attractive to return the results to the original participants for verification, it is not an established verification strategy. Several methodologists have warned against basing verification on whether readers, participants, or potential users of the research judge the analysis to be correct, stating that it is actually more often a threat to validity (Morse et al., 2002). Pyett (2003) has argued that the study participants do not always understand their own actions and motives, whereas researchers have more capacity and academic obligation to apply critical understanding to accounts.

내용분석 신뢰도 관점에서 보고 단계
Reporting Phase From the Viewpoint of Content Analysis Trustworthiness

글쓰기는 어떤 것을 사라지게 했다가 다시 단어에 나타나게 합니다. 이것은 간호과학에서와 같이 풍부한 데이터 집합에서 항상 달성하기 쉬운 것은 아니다. 글쓰기의 문제는 모든 표현을 벗어날 수 있는 현상을 정확하게 단어로 표현할 필요가 있다는 것이다(van Manen, 2006). Holdford(2008)에 따르면, 내용분석의 분석 및 보고 구성요소는 [의미 있고 유용한 방법으로 독자가 발견을 이해하도록 만드는 것]을 목표로 해야 한다. 그러나 정성 연구의 가장 중요한 요소인 보고서에 연구 결과를 제시하는 것에는 거의 주의를 기울이지 않았다(Sandelowski & Leeman, 2011). 다음 섹션에서는 보고 결과, 방법 및 분석 프로세스와 관련된 신뢰도 문제에 대해 논의한다.
Writing makes something disappear and then reappear in words. This is not always easy to achieve with rich data sets, as encountered in nursing science. The problem with writing is that phenomena that may escape all representation need to be accurately represented in words (van Manen, 2006) According to Holdford (2008), the analysis and reporting component of content analysis should aim to make sense of the findings for readers in a meaningful and useful way. However, little attention has been paid to the most important element of qualitative studies: the presentation of findings in the reports (Sandelowski & Leeman, 2011). In the next sections, we discuss trustworthiness issues associated with the reporting results, methods, and analysis process.

결과 보고
Reporting Results

내용분석 결과 보고는 특히 전이가능성, 적합성 및 신뢰성transferability, conformability, and credibility과 관련이 있습니다. 결과는 체계적이고 신중하게 보고되어야 하며, 데이터와 결과 사이의 연관성이 보고되는 방법에 특히 주의를 기울여야 한다. 그러나 결과를 체계적으로 보고하는 것은 종종 어려울 수 있다(Kyngäs 등, 2011). 보고 결과의 문제는 분석 실패의 결과일 수도 있고, 추상화 과정을 설명하는 데 어려움이 있을 수도 있있다. 왜냐하면, 추상화 과정이란 부분적으로 연구자의 통찰력이나 직관에 달려 있기 때문이다.
Reporting results of content analysis is particularly linked to transferability, conformability, and credibility. Results should be reported systematically and carefully, with particular attention paid to how connections between the data and results are reported. However, the reporting of results systematically can often be challenging (Kyngäs et al., 2011). Problems with reporting results can be a consequence of unsuccessful analysis (Dey, 1993; Elo & Kyngäs, 2008) or difficulties in describing the process of abstraction because it in part depends on the researcher’s insight or intuitive action, which may be difficult to describe to others (Elo & Kyngäs, 2008; Graneheim & Lundman, 2004).

내용분석에 의해 만들어진 개념의 내용과 구조는 명확하고 이해하기 쉬운 방식으로 제시되어야 한다. 전체 결과의 개요를 제공하기 위해 수치를 제공하는 것이 종종 유용합니다. 이 연구의 목적은 분석 과정을 통해 어떤 연구 현상들이 개념화되는지 지시한다. 그러나 개념conception은 목적이 다양할 수 있다.

  • 예를 들어, 이 연구의 목적은 단지 개념을 식별하는 것일 수 있다.
  • 반대로, 모델을 구성하는 것이 목표라면, 결과는 개념, 계층 구조 및 가능한 연결의 개요를 설명하는 모델로 제시되어야 한다.

내용 분석 그 자체에는 개념을 연결하는 기술이 포함되어 있지 않습니다. 결과의 구조가 동등하고 목표와 연구 질문에 답하도록 하는 것이 주요 고려사항이다.
The content and structure of concepts created by content analysis should be presented in a clear and understandable way. It is often useful to provide a figure to give an overview of the whole result. The aim of the study dictates what research phenomena are conceptualized through the analysis process. However, conception may have different objectives. For example, the aim of the study may be merely to identify concepts. In contrast, if the aim is to construct a model, the results should be presented as a model outlining the concepts, their hierarchy, and possible connections. Content analysis per se does not include a technique to connect concepts (Elo & Kyngäs, 2008; Harwood & Garry, 2003). The main consideration is to ensure that the structure of results is equivalent and answers the aim and research questions.

신뢰성trustworthiness의 관점에서, 주요 질문은 "독자가 결과의 전이가능성transferability을 어떻게 평가할 수 있는가?"이다. 전이가능성은 연구 결과가 다른 설정이나 그룹으로 전달될 수 있는 정도를 의미합니다. (코치, 1994; 폴리티 & 벡, 2012). 저자들은 전이가능성에 대한 제안을 할 수도 있지만, 보고된 결과가 다른 맥락으로 전달될 수 있는지 여부에 대해서는 궁극적으로 독자의 판단에 달려 있다(그래인하임 & 런드먼, 2004). 이는 고품질 결과를 보장하고 분석 프로세스를 보고하는 것의 중요성을 강조한다. 참가자들의 문화, 맥락, 선정, 특징 등을 명쾌하게 서술하는 것도 가치가 있다. 독자가 대체 해석을 찾을 수 있는 방식으로 결과가 제시되면 신뢰성이 높아진다(그래인하임 & 룬드먼, 2004). 우리는 질적 방법이 민감한 해석 능력과 연구자의 창의적인 재능을 필요로 한다는 반 마넨(2006)의 의견에 전적으로 동의한다. 따라서 과학적인 글쓰기는 다른 사람의 분석 결과를 쓰고 비교함으로써 향상되어야 하는 기술입니다.

From the perspective of trustworthiness, the main question is, “How can the reader evaluate the transferability of the results?” Transferability refers to the extent to which the findings can be transferred to other settings or groups. (Koch, 1994; Polit & Beck, 2012). Authors may offer suggestions about transferability, but it is ultimately down to the reader’s judgment as to whether or not the reported results are transferable to another context (Graneheim & Lundman, 2004). Again, this highlights the importance of ensuring high quality results and reporting of the analysis process. It is also valuable to give clear descriptions of the culture, context, selection, and characteristics of participants. Trustworthiness is increased if the results are presented in a way that allows the reader to look for alternative interpretations (Graneheim & Lundman, 2004). We fully agree with van Manen (2006) that qualitative methods require sensitive interpretive skills and creative talents from the researcher. Thus, scientific writing is a skill that needs to be enhanced by writing and comparing others’ analysis results.

결과의 신뢰도를 나타내기 위해 인용문의 사용이 필요하다는 주장이 제기됐다. 적합성Conformability 은 [객관성]을 가리키며, [참가자들이 제공한 정보와 그 데이터에 대한 해석이 질문자에 의해 발명된 것이 아니라는 것]을 의미한다연구 결과는 [연구자의 편견, 동기 또는 관점]이 아닌 [참여자의 목소리와 연구 조건]을 반영해야 한다. 저자들이 특히 데이터와 결과 사이의 연관성을 보여주기 위해 대표적인 인용구를 자주 제시하는 한 가지 이유가 바로 이것이다 (Graneheim & Lundman, 2004). 예를 들어, 각각의 주요 개념은 인용문에 의해 데이터에 연결되어야 합니다. 가능한 한 많은 참여자들이 인용한 예들은 데이터의 풍부함뿐만 아니라 결과와 데이터 사이의 연관성을 확인하는 데 도움이 된다. 다만 인용문의 체계적 사용은 세심한 주의가 필요하다. 이상적으로, 인용문은 최소한 모든 주요 개념과 연결되어 있고 표본의 광범위한 대표성을 갖는 것을 선택해야 한다. 다만 인용구가 과도하게 사용돼 분석을 약화시킬 위험이 있다. 예를 들어, 결과 섹션에서 따옴표가 너무 많이 사용된 경우 분석 결과가 불분명할 수 있습니다.
It has been argued that the use of quotations is necessary to indicate the trustworthiness of results (Polit & Beck, 2012; Sandelowski, 1995a). Conformability refers to objectivity and implies that the data accurately represent the information that the participants provided and interpretations of those data are not invented by the inquirer. The findings must reflect the participants’ voice and conditions of the inquiry, and not the researcher’s biases, motivations, or perspectives (Lincoln & Guba, 1985; Polit & Beck, 2012) This is one reason why authors often present representative quotations from transcribed text (Graneheim & Lundman, 2004), particularly to show a connection between the data and results. For example, each main concept should be linked to the data by a quotation. Examples of quotations from as many participants as possible help confirm the connection between the results and data as well as the richness of data. However, the systematic use of quotations needs careful attention. Ideally, quotations should be selected that are at least connected to all main concepts and widely representative of the sample. However, there is a risk that quotations may be overused, thus weakening the analysis (Downe-Wamboldt, 1992; Graneheim & Lundman, 2004, Kyngäs et. al., 2011). For example, if quotations are overused in the Results section, the results of the analysis may be unclear.

Sheh와 Shannon(2005)에 따르면, 중요한 문제는 [맥락을 완전히 이해하지 못해 주요 범주를 식별하는 데 실패하는 것]이다. 이러한 경우, findings은 데이터를 정확하게 나타내지 못한다. 신뢰성trustworthiness과 특히 결과의 신뢰성credibility을 보장하기 위해서는 [범주가 데이터를 얼마나 잘 다루는지] 평가하고, [범주 내 유사성과 차이점이 있는지 ]확인하는 것이 중요하다. 또한 분석 추상화 과정을 완료하지 못하는 것은 개념이 상호 배타적이지 않은 결과로 제시되어 지나치게 단순한 결론으로 이어진다는 것을 의미할 수 있다(Harwood & Garry, 2003; Weber, 1990). 불완전한 분석은 분석 결과를 보고하기보다는 일상적인 표현이나 응답자의 진술 및 그들의 의견의 반복을 포함할 수 있다(Kyngás et al., 2011).
According to Hsieh and Shannon (2005), an important problem is failure to develop a complete understanding of the context, resulting in failure to identify the key categories. In such a case, findings do not accurately represent the data. To ensure the trustworthiness and especially credibility of the results, it is important to evaluate how well categories cover the data and identify whether there are similarities within and differences between categories. In addition, failure to complete the analysis abstraction process may mean that concepts are presented as results that are not mutually exclusive, leading to oversimplistic conclusions (Harwood & Garry, 2003; Weber, 1990). An incomplete analysis may involve the use of everyday expressions or repetition of respondents’ statements and/or their opinions rather than reporting the results of the analysis (Kyngäs et al., 2011).

분석 프로세스 보고
Reporting the Analysis Process

[분석에 대한 완전한 설명]과 [개념의 논리적 사용에 대한 설명] 없이는 결과가 어떻게 생성되었는지와 그 신뢰도를 평가하는 것이 불가능하다(Guthrie 등, 2004). [분석에 대한 정확한 설명]과 [결과와 원본 데이터 간의 관계]를 통해 독자는 결과의 신뢰성에 관한 결론을 내릴 수 있다. 간호과학에서는 지난 10년 동안 책과 과학 기사에 게재된 내용 분석과 관련된 방법들이 상당히 증가했다. 이것은 내용 분석 과정에 대한 보고서의 품질을 향상시켰을 수 있다. 이제 연구의 분석, 결과 및 신뢰도를 평가하는 방법에 대한 설명에 더 많은 관심이 쏠리고 있다. 결과적으로, 이것은 독자들이 연구의 신뢰도를 더 쉽게 평가할 수 있게 한다.
Without a full description of the analysis and logical use of concepts, it is impossible to evaluate how the results have been created and their trustworthiness (Guthrie et al., 2004). An accurate description of the analysis and the relationship between the results and original data allow readers to draw their own conclusions regarding the trustworthiness of the results. In nursing science, the number of methods concerning content analysis published in books and scientific articles has increased considerably over the last decade (Elo & Kyngäs, 2008; Harwood & Garry, 2003; Hsieh & Shannon, 2005; Neuendorf, 2002; Schreier, 2012). This may have led to improvements in the quality of reports on the process of content analysis. More attention is now paid to descriptions of the analysis, results, and how to evaluate the trustworthiness of studies. Consequently, this makes it easier for readers to evaluate the trustworthiness of studies.

최초 연구자가 사용한 [의사결정 흔적을 다른 연구자가 쉽게 따라갈 수 있다면] 연구의 신뢰성dependability이 높다(Thomas & Magilvy, 2011). 휘트모어 외 연구진(2001)은 생생함vividness는 데이터에서 두드러진 주제를 강조하는 풍부하고, 생생하고, 충실하고, 기교적인 묘사의 제시를 수반한다고 주장했다. 분석 프로세스는 조사 결과를 제시하는 데 사용되는 방법에 관계없이, 적절한 방식으로 보고되어야 한다. 내용 분석의 신뢰성trustworthiness을 보장하기 위해 연구 보고서에 신뢰성credibility을 입증하는 조치를 취해야 한다. 모노그래프 연구 보고서는 분석 과정에 대한 상세한 설명과 분류 과정을 설명하기 위한 수치, 표 및 첨부의 사용을 용이하게 한다. 우리의 경험에 따르면, 분석 과정에 대한 설명이 불충분하기 때문에 독자로서 결과의 신뢰성에 대한 평가는 종종 어려울 수 있다. 저널 기사는 일반적으로 내용 분석 과정을 설명하기 보다는 결과에 초점을 맞춘다. 질적 내용분석의 활용은 방법론 부분에서 간략하게 언급될 뿐이어서 독자들이 그 과정을 평가하기가 쉽지 않은 경우가 많다. 중요한 질문은, "연구논문에서 신뢰성은 얼마나 자세히 제시되어야 하는가?"—특히 단어 제한이 적용되는 경우가 많습니다.

The dependability of a study is high if another researcher can readily follow the decision trail used by the initial researcher (Thomas & Magilvy, 2011). Whittemore et al. (2001) have argued that vividness involves the presentation of rich, vivid, faithful, and artful descriptions that highlight the salient themes in the data. The analysis process should be reported in an adequate manner regardless of the methods used to present the findings (see Moretti et al., 2011). Steps should be taken to demonstrate credibility in research reports to ensure the trustworthiness of the content analysis. Monograph research reports facilitate detailed descriptions of the analysis process and the use of figures, tables, and attachments to explain the categorization process. Based on our experiences, evaluation of the trustworthiness of results as a reader can often be difficult because of insufficient description of the analysis process (Kyngäs et. al., 2011). Journal articles generally focus on the results rather than describing the content analysis process. All too often, the use of qualitative content analysis is only briefly mentioned in the methodology section, making it hard for readers to evaluate the process. A key question is, “In what detail should trustworthiness be presented in scientific articles?”—particularly as word limits often apply.

내용분석 결과를 보고할 때 사진이 말보다 더 명확하게 결과를 전달할 수 있다는 점을 염두에 둬야 한다. 특히 개념 분석의 목적과 과정을 설명할 때, 콘텐츠 분석 결과를 보고할 때 수치를 사용하는 것이 매우 효과적일 수 있다. 예를 들어, [개념이나 범주의 계층 구조를 보여주는 다이어그램]은 분석 과정에 대한 통찰력을 제공할 수 있다. 결과를 보고한 후 분석의 신뢰성에 대한 논의를 제공해야 한다. 그것은 각 질적 내용 분석 단계에 대해 논리적으로 따르는 일련의 정의된 기준에 근거해야 합니다.

The fact that pictures may convey results more clearly than words should be borne in mind when reporting content analysis findings. The use of figures can be highly effective when reporting content analysis findings, especially when explaining the purpose and process of the analysis and structure of concepts. Very often, these aspects can be shown in the same figure, for example, a diagram that illustrates the hierarchy of concepts or categories may also give an insight into the analysis process (see, for example, Timlin, Riala, & Kyngäs, 2013). After reporting the results, a discussion of the trustworthiness of the analysis should be provided. It should be based on a defined set of criteria that are followed logically for each qualitative content analysis phase.

논의
Discussion

이 글의 주요 목적은 질적 콘텐츠 분석 연구의 신뢰도에 영향을 미치는 요소를 논의하고 강조하는 것이었다. 여기서 사용된 문헌평은 체계적인 평론이 아니어서 몇 가지 제약이 있다. 첫째, 우리는 이것이 신뢰성에 대한 완전한 설명이 아니며 일부 요점이 누락되었을 수 있다는 것을 인식한다. 예를 들어, 언어 제한이 연구 결과에 영향을 미쳤을 수 있습니다. 
다른 언어의 연구들은 우리의 설명에 새로운 정보를 더했을지도 모른다. 과학저널의 내용분석 보고를 체계적으로 평가하기 위해, 즉 연구자들이 질적 콘텐츠 분석 연구의 신뢰도를 보고할 때 강조했던 것과 신뢰도 기준이 이러한 연구에 의해 어떻게 해석되어 왔는지를 검토하기 위해 추가 연구가 필요하다. 이는 질적 내용분석에서 신뢰성에 대한 보다 완전한 설명을 개발하는 데 도움이 될 수 있다. 그러나 이번 방법론 논문은 내용분석법을 사용한 경험이 풍부한 여러 저자들이 작성한 것이다. 여기에 석박사 학생들의 연구자, 교사, 감독자로서의 저자들의 경험도 우리의 논의에 힘을 실어준다.

The main purpose of this article was to discuss and highlight factors affecting trustworthiness of qualitative content analysis studies. The literature review used here was not a systematic review, so there are some limitations. First, we recognize that this is not a full description of trustworthiness and some points may be missing. For example, the language restrictions may have influenced the findings; research studies in other languages might have added new information to our description. Further studies are needed to systematically evaluate the reporting of content analysis in scientific journals, that is, to examine what researchers have emphasized when reporting the trustworthiness of their qualitative content analysis study, and how criteria of trustworthiness have been interpreted by those studies. This may help to develop a more complete description of trustworthiness in qualitative content analysis. However, the present methodological article was written by several authors who have extensive experience in using the content analysis method. In addition, the authors’ experience as researchers, teachers, and supervisors of master’s and doctoral students lends weight to our discussion.

Holloway와 Wheeler(2010)는 연구자들이 종종 질적 연구의 신뢰도를 판단하는 방법에 대해 합의하는 데 어려움을 겪는다고 말했다. 이 글의 목적은 데이터 수집과 결과 보고의 관점에서 질적 내용분석 신뢰성에 영향을 미치는 요인을 파악하는 것이었다. 질적 연구자들은 연구의 신뢰도를 높이기 위해 체계적이고 잘 조직되어야 한다(Saldana, 2011). 슈라이어(2012)에 따르면, 내용 분석은 다음과 같아야 체계적이다.

  • 모든 관련 소재가 고려할 경우
  • 분석 과정에서 일련의 단계를 따를 경우
  • 연구자는 코딩의 일관성을 확인할 경우

본 논문에서 제시된 정보는 내용분석의 사용 및 개발에 대한 중요한 문제를 제기합니다. 프로세스의 모든 단계(준비, 조직, 보고)에 대해 철저히 문서화되면 신뢰도 기준의 모든 측면이 향상된다.

Holloway and Wheeler (2010) have stated that researchers often have difficulty in agreeing on how to judge the trustworthiness of their qualitative study. The aim of this article was to identify factors affecting qualitative content analysis trustworthiness from the viewpoint of data collection and reporting of results. Qualitative researchers are advised to be systematic and well organized to enhance the trustworthiness of their study (Saldaña, 2011). According to Schreier (2012), content analysis is systematic because

  • all relevant material is taken into account,
  • a sequence of steps is followed during the analysis, and
  • the researcher has to check the coding for consistency.

The information presented here raises important issues about the use and development of content analysis. If the method is thoroughly documented for all phases of the process (preparation, organization, and reporting), all aspects of the trustworthiness criteria are increased.

분석 방법을 선택하기에 앞서 연구자는 대상 연구 질문에 가장 적합한 방법을 선택하고, 내용분석을 활용하기에 [데이터 풍부성이 충분한지] 고려해야 한다. 그 방법을 사용하기 전에, 연구자는 질문을 해야 한다. "이 방법이 목표 연구 질문에 가장 잘 대답할 수 있는 방법입니까?" 어떤 분석 방법에도 단점이 없지만, 각각은 특정한 목적을 위해 좋을 수 있다. 강력한 분석 절차를 사용하면 연구의 신뢰성이 증가하기 때문에 데이터 분석을 시작하기 전에 내용 분석을 수행하기 위해 사용할 접근방식을 설명하는 것이 중요하다(Hsieh & Shannon, 2005).

Before choosing an analysis method, the researcher should select the most suitable method for answering the target research question and consider whether the data richness is sufficient for using content analysis. Prior to using the method, the researcher should ask the question, “Is this method the best available to answer the target research question?” No analysis method is without drawbacks, but each may be good for a certain purpose. It is essential for researchers to delineate the approach they are going to use to perform content analysis before beginning the data analysis because the use of a robust analytic procedure will increase the trustworthiness of the study (Hsieh & Shannon, 2005).

질적 내용 분석은 문서 자료를 분석하는 데 널리 사용되는 방법이다. 이것은 그 방법을 사용하여 광범위한 품질에 걸친 결과를 얻었음을 의미한다. 내용분석은 이를 이용하는 연구자들이 데이터의 신뢰성에 대한 강력한 근거를 만들어야 하는 방법론이다. 모든 finding은 가능한 한 신뢰할 수 있어야 하며, 연구는 소견을 생성하는 데 사용된 절차와 관련하여 평가되어야 한다(Graneheim & Lundman, 2004). 많은 연구에서 내용 분석은 [설문지의 개방형 질문에 대한 답변]을 분석하는 데 사용되어 왔다(Kyngäs 등, 2011). 그러나 이러한 답변은 종종 너무 간단하여 콘텐츠 분석을 효과적으로 사용하기 어렵다. 환원reduction, 그룹화, 추상화에는 풍부한 데이터가 필요하다. 또한 그동안 논문은 연구에서 얻은 질적 데이터보다는 정량적 데이터의 분석을 주로 보도하는 데 초점을 맞췄기 때문에 신뢰도를 평가하기 어려운 경우가 많았다. 이것이 결과의 신뢰성에 영향을 미치는지 여부는 추측만 할 수 있다. 다만 연구자가 내용 분석을 통해 개방형 질문에 대한 답을 분석할 경우 독자가 쉽게 신뢰도를 평가할 수 있도록 적절한 설명을 제공해야 한다. 내용 분석은 또한 개방형 질문에 대한 답을 분석하기 위해 정량적 연구에서 일반적으로 사용되어 왔다.

Qualitative content analysis is a popular method for analyzing written material. This means that results spanning a wide range of qualities have been obtained using the method. Content analysis is a methodology that requires researchers who use it to make a strong case for the trustworthiness of their data (Potter & Levine-Donnerstein, 1999; Sandelowski, 1995a). Every finding should be as trustworthy as possible, and the study must be evaluated in relation to the procedures used to generate the findings (Graneheim & Lundman, 2004). In many studies, content analysis has been used to analyze answers to open-ended questions in questionnaires (Kyngäs et al., 2011). However, such answers are often so brief that it is difficult to use content analysis effectively; reduction, grouping, and abstraction require rich data. In addition, trustworthiness has often been difficult to evaluate because articles have mainly focused on reporting the analysis of quantitative rather than qualitative data obtained in the study. Whether this affects the trustworthiness of the results can only be speculated upon. However, if researchers use content analysis to analyze answers to open-ended questions, they should provide an adequate description so that readers are able to readily evaluate its trustworthiness. Content analysis has also been commonly used in quantitative studies to analyze answers to open-ended questions.

질적 내용분석을 할 때 자기비판과 좋은 분석력이 필요하다. 질적 분석은 연구의 시작부터 [연구자의 지속적인 성찰과 자기 비판]을 포함해야 한다(Pyett, 2003; Thomas & Magilvy, 2011). 연구자의 개별적인 속성과 관점은 분석 과정에 중요한 영향을 미칠 수 있습니다. 분석 능력이 부족해도 어떤 방법을 사용해도 간단한 결과를 얻을 수 있다(Weber, 1990). Neuendorf(2002)에 따르면 내용분석 방법은 딱 연구자가 허용하는 만큼 한 쉬울 수도, 어려울 수도 있다. 많은 연구자들은 여전히 이것을 단순한 방법으로 인식하고 있으며, 따라서 널리 사용되고 있습니다. 그러나 경험이 부족한 연구자는 필요한 지식과 기술을 가지고 있지 않기 때문에 정확한 분석을 수행하지 못할 수도 있습니다. 이는 연구자들이 연구의 [진정성authenticity]에 영향을 미칠 것이며, 진정성이란 공정하고 충실하게 다양한 현실을 보여주는 정도를 가리킨. 연구자가 그 결과를 올바르게 사용하고 보고할 수 없는 경우에는 단순화된simplified 결과밖에 얻지 못할 것이다.

There is a need for a self-criticism and good analysis skills when conducting qualitative content analysis. Any qualitative analysis should include continuous reflection and self-criticism by the researcher (Pyett, 2003; Thomas & Magilvy, 2011) from the beginning of the study. The researcher’s individual attributes and perspectives can have an important influence on the analysis process (Whittemore et al., 2001). It is possible to obtain simplistic results using any method even when analysis skills are lacking (Weber, 1990). According to Neuendorf (2002), the content analysis method can be as easy or as difficult as the researcher allows. Many researchers still perceive it as a simple method, and hence, it is widely used. However, inexperienced researchers may be unable to perform an accurate analysis because they do not have the knowledge and skills required. This can affect the authenticity (Lincoln & Guba, 1985; Whittemore et al., 2001) of the study, which refers to the extent to which researchers fairly and faithfully show a range of realities. A simplified result may be obtained if the researcher is unable to use and report the results correctly.


또한, 내용 분석 프로세스의 보고는 분석의 각 단계에서의 자기 비판적 사고를 기반으로 해야 합니다. Whittemore 외 연구진(2001)은 해석이 타당하고 데이터에 근거한다는 것을 보장하려면, [지속적인 자기반성과 자기검열에 의해 무결성이 입증된다]고 주장했다. 데이터 검증에 도움이 되는 분석에 대한 충분한 설명이 제공되어야 할 뿐만 아니라, 연구자는 [연구의 한계]에 대해서도 공개적으로 논의해야 한다. 질적연구에서 validation은 [연구원과 참가자가 가장 잘 설명한 결과의 정확성을 평가하기 위한 시도]라는 Creswell(2013)의 의견에 동의한다. 이것은 모든 연구 보고서는 저자의 표상represenstaion이라는 것을 의미한다. 연구의 신뢰성에 대한 논의는 논리적으로 따르는 일련의 정의된 기준에 기초해야 한다. 질적 연구의 신뢰도를 평가하기 위해 많은 기준이 제안되었지만 거의 지켜지지 않았다. 예를 들어 신뢰성, 검증 및 진정성과 같은 많은 유형의 질적 validation 용어가 있으므로 저자들은 검증 용어를 명확하게 정의할 것을 권고한다(Creswell, 2013).
Furthermore, the reporting of the content analysis process should be based on self-critical thinking at each phase of the analysis. Whittemore et al. (2001) have argued that integrity is demonstrated by ongoing self-reflection and self-scrutiny to ensure that interpretations are valid and grounded in the data. Not only should a sufficient description of the analysis be provided to help validate the data, but the researcher should also openly discuss the limitations of the study. We agree with Creswell’s (2013) comment that validation in a qualitative study is an attempt to assess the accuracy of the findings, as best described by the researcher and the participants. This means that any report of research is a representation by the author. Discussion of the trustworthiness of a study should be based on a defined set of criteria that are followed logically. Although many criteria have been proposed to evaluate the trustworthiness of qualitative studies, they have rarely been followed. It is recommended that authors clearly define their validation terms (see example from Tucker, van Zandvoort, Burke, & Irwin, 2011) because there are many types of qualitative validation terms in use, for example, trustworthiness, verification, and authenticity (Creswell, 2013).

결론
Conclusion

내용분석 결과의 신뢰성은 풍부하고 적절하며 잘 포화된 데이터의 가용성에 따라 달라진다. 따라서 데이터 수집, 분석 및 결과 보고는 모두 서로 밀접하게 관련되어 있다. 콘텐츠 분석의 신뢰도 향상은 연구에 앞서 철저한 준비에서 시작되며 데이터 수집, 콘텐츠 분석, 신뢰도 토론, 결과 보고 등의 고급 기술이 필요하다. 데이터 수집의 신뢰성은 샘플링 방법과 참가자의 설명에 대한 정확한 세부사항을 제공함으로써 검증할 수 있다. 여기서는 내용 분석을 유효하고 이해할 수 있는 방식으로 보고할 수 있는 방법을 보여 주었는데, 이는 과학 기사의 작성자와 검토자 모두에게 도움이 될 것으로 예상한다. 중요한 질적 연구 결과가 모노그래프 보고서로 보도되는 경우가 많은 만큼, 콘텐츠 분석이 활용되는 출판된 기사를 분석하기 위한 추가 연구가 필요하다. 이것은 내용 분석 작성자들이 더 효과적인 방법으로 그들의 연구를 발표하는 데 도움이 되는 추가 정보를 생산할 수 있다.

The trustworthiness of content analysis results depends on the availability of rich, appropriate, and well-saturated data. Therefore, data collection, analysis, and result reporting go hand in hand. Improving the trustworthiness of content analysis begins with thorough preparation prior to the study and requires advanced skills in data gathering, content analysis, trustworthiness discussion, and result reporting. The trustworthiness of data collection can be verified by providing precise details of the sampling method and participants’ descriptions. Here, we showed how content analysis can be reported in a valid and understandable manner, which we anticipate will be of benefit to both writers and reviewers of scientific articles. As important qualitative research results are often reported as monograph reports, there is a need for further study to analyze published articles where content analysis is used. This may produce further information that helps content analysis writers present their studies in a more effective way.

 


Article Information

Volume: 4 issue: 1,

Article first published online: February 11, 2014; Issue published: January 1, 2014
This article is part of the following special collection(s): Behavioral Sciences , Data Processing and Interpretation , Reliability and Validity , Nursing
Satu Elo1, Maria Kääriäinen1, 2, Outi Kanste3, Tarja Pölkki1, Kati Utriainen1, Helvi Kyngäs1, 2
1University of Oulu, Finland
2Medical Research Center, Oulu University Hospital, Finland
3National Institute of Health and Welfare, Oulu, Finland

Corresponding Author:

Satu Elo, Senior University Lecturer, Institute of Health Sciences, Medical Research Center Oulu, Oulu University Hospital and University of Oulu, Box 5000, 90014, Finland. Email: satu.elo@oulu.fi

This article is distributed under the terms of the Creative Commons Attribution 3.0 License (http://www.creativecommons.org/licenses/by/3.0/) which permits any use, reproduction and distribution of the work without further permission provided the original work is attributed as specified on the SAGE and Open Access page (http://www.uk.sagepub.com/aboutus/openaccess.htm).

Abstract

Qualitative content analysis is commonly used for analyzing qualitative data. However, few articles have examined the trustworthiness of its use in nursing science studies. The trustworthiness of qualitative content analysis is often presented by using terms such as credibility, dependability, conformability, transferability, and authenticity. This article focuses on trustworthiness based on a review of previous studies, our own experiences, and methodological textbooks. Trustworthiness was described for the main qualitative content analysis phases from data collection to reporting of the results. We concluded that it is important to scrutinize the trustworthiness of every phase of the analysis process, including the preparation, organization, and reporting of results. Together, these phases should give a reader a clear indication of the overall trustworthiness of the study. Based on our findings, we compiled a checklist for researchers attempting to improve the trustworthiness of a content analysis study. The discussion in this article helps to clarify how content analysis should be reported in a valid and understandable manner, which would be of particular benefit to reviewers of scientific articles. Furthermore, we discuss that it is often difficult to evaluate the trustworthiness of qualitative content analysis studies because of defective data collection method description and/or analysis description.

인식론, 문화, 정의, 권력: 의학 훈련을 위한 비-생물과학적 지식(Med Educ, 2017)
Epistemology, culture, justice and power: non-bioscientific knowledge for medical training
Ayelet Kuper,1,2,3 Paula Veinot,3 Jennifer Leavitt,4 Sarah Levitt,5 Amanda Li,3 Jeannette Goguen,3,6 Martin
Schreiber,3,6 Lisa Richardson1,3,7 & Cynthia R. Whitehead1,8,9

 

 

소개
Introduction

역량 프레임워크는 미래 및 현재 의사의 훈련과 평가를 안내하는 이상적인 방법으로 널리 받아들여지고 있다. 이러한 프레임워크는 국제적으로 개발, 적응 및 규제 권한이 주어졌다.1-8 의사 역량에 대한 가장 초기적이고 가장 영향력 있는 포괄적 정의 중 하나는 의사가 실천하기 위해 유능해야 하는 7가지 역할을 요약한 캐나다 CanMEDS 프레임워크이다. 이 프레임워크는 캐나다에서 상당한 규제 권한을 얻었으며 캐나다 왕립의과대학(RCPSC)에 의해 성문화되었으며, 캐나다 가정의과대학(CCFP)의 승인을 받았으며, 학부(의과대학) 및 대학원(거류지) 의료 교육의 인증 표준에 채택되었다. CanMEDS 의 역할은 전 세계적으로 채택되고 채택되어 현재 '세계에서 가장 널리 사용되는 역량 프레임워크 중 하나'를 나타내고 있다. 이들은 상당한 공개적, 전문적인 상담을 통해 개발되었으며, 따라서 현재 유능한 의사들의 사회적 기대를 대변하는 것으로 간주되고 있다. 따라서 의료 훈련에서 사회적 책임에 대한 현재 강조는 모든 7개의 캔메드 역할의 효과적인 교육을 지원하기 위해 적절한 내용을 의료 커리큘럼에 포함하는 것의 중요성을 더욱 강조한다.

Competency frameworks have become widely accepted as representing an ideal way to guide the training and assessment of future and current physicians. These frameworks have been developed, adapted and given regulatory power internationally.1-8 One of the earliest and most influential comprehensive definitions of physician competence is the Canadian CanMEDS framework, which outlines seven roles in which physicians must be competent in order to practise.1, 2 This framework has gained significant regulatory authority in Canada and has been codified by the Royal College of Physicians and Surgeons of Canada (RCPSC),1, 2, 9 endorsed by the Canadian College of Family Physicians (CCFP),10 and adopted in accreditation standards for both undergraduate (medical school) and postgraduate (residency) medical education. The CanMEDS roles have also been adopted and adapted worldwide, such that they now represent ‘one of the world's most widely used competency frameworks’.11 They were developed with significant public and professional consultation and are therefore currently seen as representing societal expectations of competent physicians.12-15 The current emphasis on social responsibility16, 17 in medical training thus further underscores the importance of including in medical curricula appropriate content to support the effective teaching of all seven CanMEDS roles.

CanMEDS 는 필요하긴 하지만 의사가 의료 전문가 역할에 포함되는 생물의학 지식과 기술력만을 보유하도록 훈련하는 것으로는 충분하지 않다는 것을 분명히 한다. 오히려 교육생들이 잘 협력하고 효과적으로 소통하며 개별 환자와 시스템 변화를 옹호하는 학문적이고 인정 많은 전문가가 되도록 해야 한다. 정의에 따르면, 그러한 역량은 단순히 타고난 개인적 자질이나 태도일 뿐만 아니라, 가르치고 그들의 습득을 평가할 수 있어야 한다. 그러나 한 세기 이상 동안 의학 교육은 의학을 생물의학과 동일시했고, 환자 치료를 위한 생명과학의 객관적인 사용으로서 그 실천을 구축했다. 의과대학과 레지던트 커리큘럼이 주로 생물과학 지식으로 구성되는 것과 같이 역사적으로 제한적으로 수용 가능한 커리큘럼 콘텐츠를 생각하고 아는 특권적인 방법들이다. 물론 의학계의 생체과학 지식 증가로 임상관리가 크게 개선됐지만, 많은 의학 교육자들은 현대 의학 교육과정이 생명과학만으로는 충분하지 못함을 강조해 왔다. 특히, 6개의 비의료 전문가(때로는 '내과적'11이라고도 함) CanMEDS 역할의 대다수는 생명과학이 아닌 사회과학 및 인문(SSH)에 기반을 두고 있기 때문에, 우리는 CanMEDS 가 주로 생체과학 지식으로 구성된 커리큘럼에서 적절하게 가르치고 평가되기를 기대할 수 없다.
CanMEDS makes clear that, although necessary, it is not sufficient to train physicians to possess only the biomedical knowledge and technical skills encompassed in the Medical Expert role. Rather, we must also ensure that trainees become scholarly, compassionate professionals who collaborate well, communicate effectively, and advocate for individual patients and systems change.1, 2 By definition, such competencies cannot merely be innate personal qualities or attitudes, but must be able to be taught and their acquisition assessed.18-20 Yet for over a century medical education equated medicine with biomedical science and constructed its practice as the objective use of bioscience for patient care.21-28 These particular privileged ways of thinking and knowing22-24, 28-31 historically limited acceptable curricular content28, 32-34 such that medical school and residency curricula continue to be comprised primarily of bioscientific knowledge. Although clinical care has, of course, greatly improved as a result of the medical community's ever-increasing bioscientific knowledge, many medical educators have highlighted the insufficiency of bioscience as the sole basis for contemporary medical curricula.21, 26, 35-40 In particular, as the majority of the six non-Medical Expert (sometimes called ‘Intrinsic’11) CanMEDS roles are based in the social sciences and humanities (SSH) rather than in bioscience,21 we cannot expect them to be taught and assessed adequately in a curriculum comprised primarily of bioscientific knowledge.

최근 출판물 및 보고서는 비의료 전문가 역할의 현재 교수 및 평가의 부적절성에 대한 의사의 인식을 강조하고 있다. 레지던트들과 그들의 프로그램 책임자들은 비의료 전문가 역할을 가르치기 위해 종종 사용되는 지나치게 단순화된 접근법에 대한 우려를 특히 확인했으며, 많은 임상의 교육자들은 이러한 역할을 지원하기 위해 무엇을 가르쳐야 하는지 모른다는 주장을 하고 있다. 이러한 격차를 해소하기 위해, 그리고 현재 역량 프레임워크의 내용 중 많은 부분에 대한 비생물학적 기반을 인식하여, 최근 의료 커리큘럼에 필요한 비생물학적 지식의 측면을 문서화하려는 여러 시도가 있었다. 이러한 노력은 필요한 지식 자체를 탐구하기 보다는 비생물학적 지식을 잘 이해해야 할 수 있는 교육 주제(예: 담배 사용, 가정 폭력, 생명 윤리)의 목록으로 이어졌다. CanMEDS 의 역할을 뒷받침하는 데 필요한 지식에 대한 철저한 이해는 아직 개발되지 않았다. 현재까지 CanMEDS 역량 프레임워크의 기초가 되는 비생물학적 지식에 대한 설명은 본 논문의 주요 저자가 2011년에 발표한 '사고 실험'으로서 문헌에 존재했다. 
Recent publications and reports have highlighted physician perceptions of the inadequacy of current teaching and assessment of all six non-Medical Expert roles.14, 41-45 Residents and their programme directors have especially identified concerns about overly simplistic approaches that are often employed to teach the non-Medical Expert roles,44, 46-50 and many clinician-educators claim simply not to know what to teach to support these roles. To address this gap, and in recognition of the non-bioscientific bases of much of the content of current competency frameworks, there have been several attempts recently to document aspects of necessary non-bioscientific knowledge for medical curricula. These efforts have led to the listing of curricular topics (e.g. tobacco use, domestic violence, bioethics) that might require non-bioscientific knowledge to be well understood,51-55 rather than exploring the necessary knowledge itself. A thorough understanding of the knowledge required to underpin the CanMEDS roles has not yet been developed; to date, the delineation of the non-bioscientific knowledge underlying the CanMEDS competency framework has existed in the literature only as a ‘thought experiment’ published in 2011 by the principal author of this paper.21

따라서 이 연구의 전반적인 프로그램의 목표는 CanMEDS 프레임워크로 대표되는 의사 역량에 대한 캐나다 사회적 기대를 충족시키는 의사를 훈련시키고 이러한 발견의 이행을 보급, 합법적, 번역, 구현 및 평가하기 위해 의료 커리큘럼에 필요한 지식을 식별하는 것이다. 본 논문에서, 우리는 다음의 연구 질문에 답하는 이 연구 프로그램의 1단계 결과를 제시한다. 여섯 가지 non-Medical Expert CanMEDS 역할에 완전히 역량을 갖춘 의사의 개발을 가장 잘 지원하기 위해 어떤 형태의 지식이 의료 커리큘럼에 포함되어야 하는가?

The goal of this overall programme of research is therefore to identify the knowledge needed in medical curricula to train physicians who meet Canadian societal expectations of physician competency, as represented by the CanMEDS framework, and to disseminate, legitimate, translate, implement and evaluate the implementation of those findings. In this paper, we present the results of Phase 1 of this research programme, in which we answer the following research question: What forms of knowledge beyond bioscience should be included in medical curricula to best support the development of physicians who are fully competent in the six non-Medical Expert CanMEDS roles?

방법들
Methods

CanMEDS 를 의료 역량 모델로 사용하여 SSH 내에서 생체 과학 외부의 광범위한 학문 분야의 전문가를 식별하여 각 비의료 전문가 CanMEDS 역할을 지원하기 위해 각 분야의 전문 지식을 구체적으로 식별하기 위해 의료 전문가를 제외한 모든 의사 역량 영역에서 작업했다. 우리는 CanMEDs 2005에서 설명한 역할을 사용했지만, 2015년에 있을 몇 가지 변화에 대해 점점 더 잘 알고 있었습니다(J R Frank, [전화로], 2011). 우리의 의도는 의료 커리큘럼에 추가하기 위해 전체 학문 SSH 과정을 만들지 않는 것이었다. 의학 교육자들이 역사적으로 의학 전문가 역할을 지원하기 위해 의료 커리큘럼에 통합된 물리 또는 화학의 측면을 식별한 것처럼, 우리는 SSH에서 의료 커리큘럼에 유사하게 통합될 경우 현재 정의된 역량있는 의사의 개발을 지원할 수 있는 요소를 식별하려고 했다. 참가자들에게 요약된 바와 같이, 이러한 요소에는 다음이 포함됩니다.

  • 지식의 형태: 인식론적 토대57 및 권위에 대한 철학적 주장 
  • 이론
    • 광범위한 사회적 힘에 대해 말하는, 보편적인 적용 가능성을 주장하는 거시적 수준의 이론들63; 
    • 특정 분야 또는 분야에서 사용되는 중범위 및 미시적 수준의 이론들,
    • 그리고 객관적 패러다임과 관련된 실증주의,
  • 사실: 절대 진리의 객관적 개념 안에서 개념화된 사실들뿐만 아니라 특정 맥락 내에서 합의될 수 있는 사회적으로 구성된 사실들.68

Using CanMEDS as our model of medical competency, we identified experts in a wide range of academic disciplines outside bioscience – within the SSH – to work through all domains of physician competency except that of Medical Expert in order to concretely identify the knowledge from each of their area(s) of expertise to support each non-Medical Expert CanMEDS role. We used the roles as delineated in CanMEDS 2005,2 but we were also increasingly aware (J R Frank, personal communication [by telephone], 2011) of some of the changes that were to come in 2015.56 Our intention was not to create full disciplinary SSH courses to add to medical curricula. Much as medical educators have historically identified aspects of physics or chemistry that are integrated into medical curricula to support the Medical Expert role, we sought to identify those elements from the SSH that, if similarly integrated into medical curricula, would support the development of competent physicians as currently defined. As outlined to our participants, these elements included:

  • forms of knowledge: epistemological underpinnings57 and philosophical claims to authority;58, 59
  • theories: macro-level theories60-62 that speak to broad social forces63 and make claims to universal applicability;64 mid-range and micro-level theories that are used in specific disciplines or fields,65, 66 and the positivism associated with the objectivist paradigm,67 and
  • facts: facts conceptualised within an objectivist notion of absolute truth, as well as socially constructed facts that can be agreed on within a particular context.68

연구팀
Research team

우리 연구팀은 우리의 연구 질문과 관련된 몇 가지 관점을 대표합니다. SSH 분야의 석박사 학위를 가진 개업 의사가 주도하고 있으며, 대규모 의학부 내에서 임상 실습과 연구가 이루어진다. 연구팀의 다른 세 명의 구성원은 SSH 석사 학위를 가진 의사 교수진(보건 직업 교육 2명, 페미니스트 과학 연구 1명)이며, SSH 박사 학위를 가진 네 번째 의사 교수진은 상급 교육 및 리더십에서 근무했다. 교수진과 대학에서의 역할. 우리 팀원 중 3명이 의대생으로 더 참여하게 되었다. (한 명은 과학사 석사 과정을 밟았다.) 그들 모두 현재 상주 내과 의사이다. 저희 팀의 최종 인원은 건강 증진에 이력이 있는 건강 분야의 경험 많은 정성 연구자입니다. 임상의로서, 우리는 모두 환자와 그들의 가족과 공동체의 질병 상태뿐만 아니라 사회적 맥락과 개인의 필요를 해결하는 온정의료의 중요성에 대한 깊은 헌신을 공유한다; 연구자로서, 우리는 의료 훈련생들에게 지식과 기술을 확인하고 주입하기 위한 혁신적인 방법을 찾으려고 노력한다.이러한 훌륭한 보살핌을 제공해야 한다.
Our research team represents several points of view relevant to our research question. It is led by a practising physician with masters and doctoral degrees in SSH disciplines whose clinical practice and research take place within a large faculty of medicine. Three other members of the research team are physician faculty members with SSH masters degrees (two in health professions education, one in feminist science studies) who are heavily involved in medical education administration and curriculum design; a fourth physician faculty member with an SSH PhD has served in senior educational and leadership roles in both the faculty and the university. Three more of our team members became involved as medical students (one following a masters degree in the history of science); all of them are now resident physicians. The final member of our team is an experienced qualitative researcher in the health domain with a background in health promotion. As clinicians, we all share a deep commitment to the importance of compassionate medical care that addresses the social contexts and individual needs, as well as the disease states, of our patients and their families and communities; as researchers, we try to find innovative ways to identify and to instil in medical trainees the knowledge and skills required to provide such excellent care.

샘플링 전략
Sampling strategy

우리는 (대학 웹사이트 및 기관 데이터베이스 부여를 통해) 지역 대학 교수진에 대한 목적적 샘플링을 사용하여 다음과 같은 초기 참가자를 식별했다.

  • (i) non-Medical Expert CanMEDS 역할과 잠재적으로 관련이 있다고 간주된 광범위한 SSH 분야 중 하나에 대한 공식적인 전문 지식(즉, PhD 또는 동등한 말단 학위) 
  • (ii) 의료, 기타 보건 직업 또는 건강과 질병의 다른 측면에 대한 학문적 관심 

We identified initial participants using purposive sampling (through university websites and granting agency databases) for local university faculty members with:

  • (i) formal expertise (i.e. a PhD or equivalent terminal degree) in one of a broad range of SSH disciplines we considered to be potentially relevant to the non-Medical Expert CanMEDS roles, as well as
  • (ii) an academic interest in medicine, other health professions, or other aspects of health and disease.

SSH 전문가들 중 일부는 건강 직업 교육을 연구했지만, 대부분은 건강, 질병, 질병, 장애, 건강 관리 시스템 또는 건강 직업을 연구했다. 우리 스스로 임상의로서 우리는 SSH에서 광범위한 대학원 교육을 받았지만 그럼에도 불구하고 의학계의 지배적인 의학 교육에 대한 견해에 익숙해졌다는 사실을 유념했다. 따라서 임상의사가 작성한 많은 기존 의료 커리큘럼에 대한 논문을 보완하기 위해 커리큘럼에 대한 새로운 아이디어를 도출할 뿐만 아니라 허용 가능한 의료 커리큘럼과 의료 지식의 한계에 대한 임상의 선입견을 피하기 위해 임상 교육을 받은 참가자를 제외했다. 

Some of these SSH experts studied health professions education, but most studied health, illness, disease, disability, the health care system or the health professions. As clinicians ourselves, we were mindful of the fact that although many of us have extensive graduate training in the SSH, we had nonetheless all been acculturated into the medical community's dominant views of medical education. We therefore excluded participants with clinical training in order to avoid such clinician preconceptions about the limits of the acceptable medical curriculum and medical knowledge, as well as to elicit fresh ideas about the curriculum in order to complement the many existing papers on medical curricula written by clinicians.

비록 우리는 잠재적으로 관련이 있는 학문(사회학, 인류학, 역사학, 정치학, 경제학, 철학, 윤리, 교육, 심리학, 수사학, 언어학, 문학 연구, 종교, 고전, 음악, 드라마)의 초기 목록을 만들고 의도적으로 개인들을 찾아내는 것에서 시작했다. 그런 다음 눈덩이 샘플링을 통해 이 초기 목록을 확장했다(추가 참가자를 찾기 위해 초기 참가자의 조회에 의존하는 비확률적 방법). 수집된 관점의 편차를 극대화하고 의료 교육과 관련된 분야에 대한 우리의 가정에 대해 완화할 수 있도록 훈련 분야와 특정 개인 모두에 대한 것이다. 우리는 단일 분야 내에서 다양한 의견을 수렴하고, 주요 분야의 다양한 목소리를 보장하며, 여러 기관의 다양한 연구 영역에서 전문 지식을 활용하기 위해 여러 지역 대학에서 참가자를 모집하는 것으로 시작했다. 우리는 궁극적으로 우리 지역 내에 더 멀리 있는 여러 대학을 포함하도록 표본을 확장했다.

Although we began with an initial list of potentially relevant disciplines (sociology, anthropology, history, political science, economics, philosophy, ethics, education, psychology, rhetoric, linguistics, literary studies, religion, classics, music and drama) and purposively identified individuals, we then expanded this initial list by snowball sampling (a non-probability method that relies on referrals from initial participants to find additional ones69-71) both for disciplines and for specific individuals in order to maximise variation in the perspectives gathered and to mitigate against our own assumptions about disciplines relevant to medical education. We began by recruiting participants from multiple local universities in order to gather a range of opinions within single disciplines, to ensure multiple voices from key disciplines, and to take advantage of pockets of expertise in different research areas at different institutions; we ultimately extended our sampling to include several universities further afield within our region.

데이터 수집
Data collection

우리는 데이터 수집 프로세스 초기에 55개의 반구조적 인터뷰와 1개의 소규모 포커스 그룹을 수행했다. 첫째, 참가자들이 거의 중앙 위치에 올 수 없었고, 둘째, 포커스 그룹은 동일한 수의 참가자들과의 개별 인터뷰보다 더 적은 정보를 생성했기 때문에 우리는 추가 포커스 그룹을 수행하지 않았다. 전체적으로, 개인들은 우리의 포커스 그룹에 인터뷰하거나 참여했습니다. 참가자들은 인터뷰에 앞서 CanMEDs 의사 역량 프레임워크가 포함된 정보 패키지를 받았는데, 이는 의료 교육에서 CanMEDs 역할의 역사, 정의 및 현재 용도를 설명하는 프로젝트 팀이 작성한 문서, 그리고 그 연구의 수석 조사관이 우리의 연구 프로젝트의 목표를 요약한 기사가 담겨 있다. 우리는 참가자가 선택한 장소 또는 전화로 인터뷰를 진행했습니다. 우리는 참가자들의 허락을 받아 모든 인터뷰를 녹음했습니다.

We conducted 55 semi-structured interviews72-75 plus one small focus group76, 77 early in the data-gathering process. We conducted no additional focus groups because, firstly, participants were rarely available to come to a central location and, secondly, the focus group generated less information than individual interviews with the same number of participants. In total, 58 individuals were either interviewed or participated in our focus group. Participants received an information package in advance of the interview containing the CanMEDS Physician Competency Framework,1 a shorter document written by the project team describing the history, definitions and current uses of the CanMEDS roles in medical education, and a published article by the principal investigator of the study outlining the goals of our research project.21 We conducted interviews at a location of the participant's choosing or by telephone. We audio-recorded all interviews with the permission of participants.

각 인터뷰는 질적 연구 방법에 대해 스스로 훈련받은 의대생이나 질적 연구에 경험이 있는 연구 보조원이 CanMEDS 의 역할에 대해 직접 가르치며 진행했다. 각 인터뷰 동안, 인터뷰 진행자는 참가자에게 비의료 전문가 역할을 설명한 다음, 반구조적인 인터뷰 가이드를 사용하여 각 역할에 대한 철저한 이해를 뒷받침하는 학문적 전문지식 영역의 지식, 이론 및 사실 형태에 대한 토론에 인터뷰 대상자를 참여시켰다. 우리는 또한 참가자들에게 그들이 우리와 공유하고 있는 자료와 관련된 유용한 커리큘럼 자료, 텍스트 및 교육학적 기술을 식별하도록 요청했다. 우리는 동시 분석을 바탕으로 연구 내내 인터뷰 가이드를 반복적으로 조정했습니다. 우리 스스로 또는 눈덩이 샘플링을 통해 식별된 모든 관점이 적절히 표현되고 주제적 포화가 달성될 때까지 인터뷰는 계속되었다.

Each interview was conducted either by a medical student trained by ourselves in qualitative research methods or by a research assistant experienced in qualitative research and taught by ourselves about the CanMEDS roles. During each interview, the interviewer described each non-Medical Expert role to the participant and then, using a semi-structured interview guide, engaged the interviewee in a discussion of the forms of knowledge, theories and facts from his or her area(s) of academic expertise that would underpin a thorough understanding of each role. We also asked participants to identify any useful curricular resources, texts and pedagogical techniques relevant to the material they were sharing with us. We iteratively adjusted the interview guide throughout the study based on our concurrent analysis. Interviewing continued until all the perspectives identified by ourselves or through snowball sampling had been adequately represented and thematic saturation70, 78, 79 had been achieved.

분석.
Analysis

한 연구원은 각 인터뷰의 오디오테이프를 듣고 연구 참가자가 제안한 비생물학적 형태의 지식, 이론, 사실이 포함된 인터뷰 부분을 각 non-Medical Expert CanMEDS 역할에 따라 옮겨 적었습니다. 우리는 의미 응축과 직접 인용을 사용하여 대본을 추가로 추출하여 약 300페이지의 관련 데이터를 산출했다. 우리는 데이터를 정리하기 위해 이 추상화된 스크립트를 nvivo Version 10.0(QSR International Pty Ltd, 멜버른, Vic, Australia)에 업로드했습니다. 우리는 데이터 수집과 동시에 하향식(CanMEDs 역할에 의한) 및 상향식(구조주의 비판적 프레임워크 내에서) 접근 방식을 사용하여 데이터를 코드화했으며, 데이터 수집이 진행됨에 따라 상향식 주제별 코딩 구조를 지속적으로 수정하고 이전 스크립트로 반복적으로 돌아왔다. 우리가 포화 상태에 도달했다고 생각했을 때(샘플에 포함할 분야에 대한 눈덩이 샘플링을 모두 소진하고 캔 MED 역할 또는 주제 부호화 구조와 관련하여 참가자들로부터 더 이상 새로운 개념을 도출하지 않았을 때), 광범위한 학문적 경험을 가진 두 명의 연구 팀 구성원(AK, CW)은SSH와 건강 영역(PV)의 경험 많은 정성 연구원이 분석을 전면 검토했다. 우리는 확립된 범주에 도전하고 참가자들, CanMEDS 역할 및 테마에 걸쳐 데이터를 비교했다. 

  • (i) 데이터의 개념 모델을 공식화한다. 
  • (ii) 실제로 포화 상태에 도달했는지 확인한다. 
  • (iii) 상향식 주제 간 및 이러한 주제와 CanMEDS 의 역할 간 관계를 설정한다.

One researcher listened to the audiotape of each interview and transcribed the sections of that interview that contained the non-bioscientific forms of knowledge, theories and facts suggested by the research participant for each non-Medical Expert CanMEDS role. We further abstracted the transcripts using meaning condensation and direct quotations, resulting in approximately 300 pages of relevant data. We uploaded these abstracted transcripts into nvivo Version 10.0 (QSR International Pty Ltd, Melbourne, Vic, Australia) in order to organise the data. We coded the data using both top-down (by CanMEDS role) and bottom-up (thematically within a constructivist critical framework) approaches concurrently with data collection, constantly revising our bottom-up thematic coding structure as data collection progressed, as well as returning iteratively to earlier transcripts. When we thought we had reached saturation (when we had exhausted our snowball sampling for disciplines to include in our sample and were no longer eliciting novel concepts from our participants in relation to either the CanMEDS roles or our thematic coding structure), two members of the research team (AK, CW) who are MDs with extensive academic training in SSH, as well as an experienced qualitative researcher in the health domain (PV), reviewed the analysis in full; we challenged established categories and compared data across participants, across CanMEDS roles and across themes to:

  • (i) formulate a conceptual model of the data;
  • (ii) ascertain that we had indeed reached saturation, and
  • (iii) establish relationships among bottom-up themes and between these themes and the CanMEDS roles.

분석을 통해 데이터 수집 프로세스가 마무리되었음을 확인한 후, 데이터로부터 예비 기밀 보고서를 작성하고 두 그룹과 공유했다. 

  • (i) 최종 공식 입력(연구 과정에 대한 지속적인 참여에 더하여)을 위한 전체 연구 팀(의대생 및 SSH 대학원 교육을 받은 의사) 
  • (ii) 회원 확인에 자원한 인터뷰 참가자 58명 중 18명(우리가 그들의 생각을 정확하게 표현했는지, 그들이 우리의 보고서에 '자신의 목소리를 낼 수 있는지' 확인하기 위해) 

이 두 그룹의 피드백은 보고서의 사소한 수정(주로 캐나다 원주민 보건과 관련된 올바른 명명법을 명확히 하고 다양한 SSH 용어의 정의를 추가)을 필요로 했다.

Once we had confirmed through our analysis that we had concluded our data-gathering process, we created a preliminary confidential report from our data that was shared with two groups:

  • (i) the full research team (medical students and physicians with interest or graduate training in SSH) for their final formal input (in addition to their ongoing involvement over the course of the study), and
  • (ii) 18 of our original 58 interview participants who volunteered to take part in member checking80 (to ascertain that we had accurately represented their ideas and they could ‘hear their own voices’ in our report).

The written feedback from these two groups necessitated only minor modifications to the report (primarily clarifying correct nomenclature related to Canadian Aboriginal health and adding definitions of various SSH terms).

수정된 예비 기밀 보고서는 SSH Phds를 가진 서로 다른 보건 직업의 7명의 임상의에 의해 검토되었으며, 연구 결과를 구현할 가능성이 가장 높은 커뮤니티 내에서 구성원 검사를 받을 수 있도록 허용되었다. 이는 우리의 연구팀의 보고서 이외의 임상의의 목소리를 분석에 추가했다. 다시 한번 말하지만, 이전에 연구에 참여하지 않았던 이 마지막 그룹의 서면 피드백은 보고서에 사소한 수정(다양한 용어의 정의를 더 명확히 하고 지분성 및 반사성과 같은 개념의 중요성에 더 중점을 두는 등)만을 필요로 했다.

The modified preliminary confidential report was then reviewed by seven clinicians from different health professions (including medicine) with SSH PhDs in order to allow it to be member-checked within the community most likely to implement its findings; this added further clinician voices to our analysis beyond those of our research team. Again, written feedback from this last group, the members of which were not previously involved in our study, necessitated only minor modifications to the report (such as further clarifying definitions of various terms and adding more emphasis to the importance of concepts such as equity and reflexivity).

 

윤리
Ethics

이 프로젝트는 캐나다 Tri-Council 정책 성명 2.1조에 따라 토론토 대학의 연구 윤리 사무소에서 윤리 승인 요건을 면제받았다. 인간을 포함하는 연구를 위한 윤리적 행동, 즉 '어떤 경우에는, 연구는 정보를 얻기 위해 연구의 초점이 아닌 개인들과의 상호작용을 포함할 수 있다. […] 이러한 개인은 본 정책의 목적을 위한 참가자로 간주되지 않는다.'81 그럼에도 불구하고 우리는 모든 연구 참가자에게 서면 사전 동의를 구했고 이를 받았다. 최종 간행물에서 인정을 받고자 하는 참가자는 본 문서의 승인 섹션에 나열되어 있습니다.
This project was formally exempted from requirements for ethics approval by the University of Toronto's Research Ethics Office under Article 2.1 of the Canadian Tri-Council Policy Statement: Ethical Conduct for Research Involving Humans, which states, in part: ‘In some cases, research may involve interaction with individuals who are not themselves the focus of the research in order to obtain information. […] Such individuals are not considered participants for the purposes of this Policy.’81 We nonetheless sought and received written informed consent from all study participants. Those participants who wished to be acknowledged in our final publication are listed in the Acknowledgements section of this paper.

 

결과.
Results

비의료 전문가 CANMED 역할과 관련된 여러 SSH 분야
Multiple SSH disciplines relevant to non-Medical Expert CanMEDS roles

처음에 non-Medical Expert CanMEDS 역할과 관련된 지식을 포함할 가능성이 높은 분야(예: 보건 사회학, 의료 역사, 중요 장애 연구)에 전문 지식을 보유한 24명 이상의 지역 SSH 연구자를 식별했다. 그 후, 우리의 참가자들은 (우리가 처음에 고려하지 않았던) 다른 관련 전문 분야와 다양한 분야의 포함 기준에 맞는 (그리고 눈덩이 샘플의 일부로 접촉한) 우리 시와 지역 내 대학의 다른 SSH 연구원의 긴 목록을 식별할 수 있었다. 58명의 참가자들이 근무하고 있는 대학과 그들의 학문 전문 분야는 표 1에 제시되어 있다.

We initially identified more than two dozen local SSH researchers who had expertise in disciplines (e.g. sociology of health, history of medicine, critical disability studies) that were a priori likely to encompass knowledge relevant to the non-Medical Expert CanMEDS roles. Our participants were then able to identify other relevant areas of expertise (some of which we had not initially considered), as well as a long list of names of other SSH researchers at universities within our city and region who fit our inclusion criteria in various disciplines (and whom we contacted as part of our snowball sample). The universities at which our 58 participants work and their areas of academic expertise are listed in Table 1.

Table 1. Participants’ universities and areas of academic expertise
Universities Areas of academic expertise

McMaster University

Ontario College of Art and Design
Ryerson University
University of Ottawa
University of Toronto
University of Waterloo
York University
Anthropology
Architecture (inc. landscape architecture)
Art education
Art history
Behavioural medicine/science
Comparative literature
Critical disability studies
Education
English
Environmental planning
Ethics
Fine arts
Gender/women's studies
Geography
Health economics
Health policy/health systems
Health promotion
Health psychology
History
Labour
Law
Performance arts (inc. music and theatre)
Philosophy
Philosophy of science
Planning
Political science
Religious studies
Rhetoric
Social psychology
Social science and health
Sociology
  • Note that some participants identified academic expertise in more than one area

 

비의료 전문가 캔메이드 역할과 관련된 SSH의 통합 지식 개념 모델
Integrated conceptual model of knowledge from the SSH relevant to non-Medical Expert CanMEDS roles

우리는 non-Medical Expert CanMEDS역할을 뒷받침하는 SSH의 지식의 통합 개념 모델을 형성하는 12개의 상호 관련 테마를 데이터에서 식별했다. 이 주제들은 학문분야 범위를 넘나들었고 여러 개의 대화록으로 잘 표현되었다. 이러한 주제들 중에서, [(사회적 지식의 구성된 본질과 다양한 패러다임에서 지식이 어떻게 생산되는지를 포함한) 지식의 본질(인식론)]에 대한 이해는 다른 주제들이 적절하게 가르쳐지거나 이해될 수 없는 기초적인 교육적 요소로 여겨졌다. 나머지 11개 테마 중, 우리의 연구 결과는 상호 연관된 세 가지 앵커링 테마를 강조했다. 문화, 정의, 권력. 이러한 앵커링 테마는 CanMEDS의 모든 역할에 다양한 정도로 필수적이며, 또한 모두 나머지 8개의 교차 주제, 즉 미래의 의사가 세상과 (다른 사람과 관련된 대상) 그리고 자신(개인에게 적용되는 측면)과의 관계에 대한 일련의 풍부한 콘텐츠 영역과 연결된다. 이 모든 주제와 그 사이의 관계는 그림 1에 나타나 있다. 인식론, 문화, 정의, 권력이라는 근본적이고 앵커링된 주제에 좀 더 폭넓게 초점을 맞추고 나머지 8개 주제에 대해서는 간략히 짚어보는 등 각 주제를 차례로 다룰 예정이다. 이러한 각 주제는 온라인 부록 S1에 훨씬 더 자세히 설명되어 있다.

We identified 12 interrelated themes in our data that form an integrated conceptual model of the knowledge from the SSH that underpins the non-Medical Expert CanMEDS roles. These themes cut across disciplinary lines and were well represented in multiple transcripts. Of these themes, an understanding of the nature of knowledge (Epistemology), including the constructed nature of social knowledge and how knowledge is produced in various paradigms, was seen as the foundational curricular component without which the other themes could not be appropriately taught or understood. Among the remaining 11 themes, our findings highlighted three interrelated anchoring themes: Culture, Justice and Power. These anchoring themes are essential to all of the CanMEDS roles to varying degrees; they also all link in turn to each of the remaining eight cross-cutting themes, a series of rich content areas about the future physician's relationships to the world (aspects related to others) and to the self (facets applying to the individual him/herself). All of these themes, and the relationships between them, are represented in Fig. 1. We will address each theme in turn, focusing more extensively on the foundational and anchoring themes of Epistemology, Culture, Justice and Power, and touching briefly on the remaining eight themes. Each of these themes is also described in much greater detail in Appendix S1, online.

 

 

인식론은 지식의 본질과 범위를 가리킨다. 지식이란 무엇이며, 어떻게 습득할 수 있는지, 주어진 주제나 실체가 어느 정도까지 알 수 있는지에 대해 질문한다. 교차된 주제로서의 인식론은 사실상 모든 인터뷰 대상자에 의해 확인되었다. 구성주의에 상당한 강조가 있었다: 하나의 고정된 진리는 없고 현실에 대한 우리의 인식은 우리의 역사적, 사회적, 경제적, 문화적, 성별, 계급적 위치에 기초하여 구성된다는 개념이다. 이 주제는 지식이 무엇인지, 다양한 형태의 지식에 대한 한계, 아는 사람이 제거될 수 없는 특정 사회, 역사, 문화적 맥락에서 지식이 어떻게 창조되는지에 대한 이해를 포함한다. 우리의 데이터에서, 이 주제 내에서 중요한 초점 영역은 다음을 포함한다: 

  • 객관성과 주관성 사이의 긴장, 
  • 증거로서의 '무엇'이 중요한지에 대한 질문,
  • 경험적 지식의 한계,
  • 다른 직업에서 아는 방법,
  • 특히 환자들 사이에서 지식의 내러티브 형태,
  • 건강 지식을 정의하는 데 있어 문화와 위치의 역할

Epistemology refers to the nature and scope of knowledge. It questions what knowledge is and how it can be acquired, and the extent to which any given subject or entity can be known. Epistemology as a cross-cutting theme was identified by virtually all interviewees. There was considerable emphasis on constructivism: the notion that there is no single fixed truth but that our perceptions of reality are constructed based on our historical, social, economic, cultural, gender and class locations. This theme includes understanding of what knowledge is, the limitations of different forms of knowledge, and how knowledge is created in certain social, historical and cultural contexts from which the knower cannot be removed and which affect what he or she is able to perceive and how he or she interprets phenomena. In our data, prominent areas of focus within this theme include:

  • the tension between objectivity and subjectivity;
  • the question of what ‘counts’ as evidence (what is privileged, included or excluded);
  • limits to empirical knowledge;
  • ways of knowing in other professions;
  • narrative forms of knowledge, particularly among patients, and
  • the roles of culture and location in defining health knowledge.

 

는 특정 집단의 공유된 행동, 이상, 가치, 신념으로 정의될 수 있다. 이것은 타당하다고 여겨지게 된 기본적인 가정들의 패턴이며, 새로운 그룹 구성원들에게 느끼고 지각하고 행동하는 방법으로 암시적으로 가르쳐진다. 의학은 그 자체로 하나의 문화이다(표 2의 의학적 정체성/문화 참조). 참가자들은 의학 문화가 사회의 만연하고 체계적인 사회적 불평등에 어떻게 기여할 수 있는지를 의대생들에게 조명하는 것이 도움이 될 것이라고 제안했다. 그러나 문화는 건강 결과에 직간접적인 영향을 미치는 건강의 사회적 결정 요인이기도 하다. 문화가 건강에 미치는 영향, 개인의 건강 관리에 접근하는 능력, 그리고 건강에 대한 개인의 신념뿐만 아니라 문화적 차이에 대한 인식과 존중을 명시적으로 함양하고 존중하기 위한 의료 커리큘럼의 필요성에 대한 강한 지지가 있었다. 이러한 점에서 다른 문화에 대한 가정, 즉 명시적이고 암묵적인 편견에 대한 반사적인 인식은 매우 중요한 것으로 느껴졌다. 문화적 역량, 문화적 겸손, 문화적 안전의 연계된 개념도 이러한 맥락에서 강조되었다. 성공적인 의사소통 및 환자와 의사 관계와의 관련성은 특히 강조되었다. 마침내, 문화적 헤게모니, 또는 지배의 개념은 다른 직업에 대한 의학의 전통적인 지배와 식민지화의 매개체로서의 지속적인 레거시과 관련된 많은 참여자들에 의해 제기되었다. 이는 캐나다 원주민 공동체와 관련하여 특히 중요하지만 다른 소수민족 집단에게 돌봄을 전달하는 의미도 내포하고 있다.

Culture can be defined as the shared behaviours, ideals, values and beliefs of a particular group. It is a pattern of basic assumptions that have come to be considered valid and are implicitly taught to new group members as ways to feel, perceive and behave. Medicine is itself a culture (see also Medical identity/Culture in Table 2); participants suggested it would be helpful to illuminate for medical students how medical culture can contribute to their society's pervasive, systematic social inequities. However, culture is also a social determinant of health with direct and indirect effects on health outcomes. There was strong support of the need for medical curricula to explicitly foster awareness of, and respect for, cultural differences, as well as knowledge of the impact of culture on health, on an individual's ability to access health care, and on an individual's beliefs about health. A reflexive awareness of one's assumptions about other cultures – of one's explicit and implicit biases – was felt to be critical in this regard. The linked concepts of cultural competence, cultural humility and cultural safety were also highlighted in this context; their relevance to successful communication and to the patient–physician relationship was particularly emphasised. Finally, the concept of cultural hegemony, or dominance, was raised by many participants, relating both to medicine's traditional dominance over other professions and to its ongoing legacy of use as an agent of colonisation, which is particularly significant in Canada in relation to Aboriginal communities but also has implications for the delivery of care to other minoritised groups.

우리의 참여자들은 두 가지 상호 연계된 방식으로 정의를 논의하였다.

  • (i) 공정성과 형평성과 같은 개념을 언급했던 도덕성, 법률, 직업윤리, 
  • (ii) 사회 정의

'도덕성'으로서 정의의 범위 내의 쟁점들은 다음을 포함한다.

  • 행동 강령 및 기타 규정된 윤리 행동 규칙
  • 전문직업성에 대한 사회계약 관점
  • 정직, 공감, 진실성과 같은 원칙을 통합한 윤리적 상상력의 개발
  • 특정 집단이 다른 집단에 대해 특혜를 주는 도덕적 기준을 인식하고 의문을 제기할 수 있는 능력
  • 환자와 신체로부터 파생된 지식의 적절한 소유권을 포함한 연구 윤리의 이해, 그리고
  • 연구 및 임상 실무에서 산업계의 영향력을 인정

Justice was discussed by our participants in two interlinked ways:

  • (i) as morality, law and professional ethics, which referred to concepts like fairness and equity, and
  • (ii) as social justice. 

Issues within the purview of justice as morality included:

  • codes of conduct and other prescribed rules of ethical behaviours;
  • the social contract view of professionalism;
  • the development of an ethical imagination that incorporates principles such as honesty, empathy and integrity;
  • the ability to recognise and question moral standards that privilege certain groups over others;
  • an understanding of research ethics, including the appropriate ownership of knowledge that is derived from patients and their bodies, and
  • a recognition of industry influence in research and clinical practice.

다양한 윤리적 틀이 논의되었다. 절차적 정의(예: 자원의 분배에 관한 의사결정 과정의 공정성)와 분배적 정의(예: 자원의 실제 분배의 공정성)의 구별과 같은 것이다. 또한 응용 철학(예: 결과적 추론 대 원리 기반 추론)이기도 했다. 교육생들에게 윤리적 문제를 토론할 수 있는 보다 강력한 언어를 제공하기 위한 방법으로 몇 가지 도덕 이론(예: 공리주의, 페미니스트 윤리, 가치 윤리)도 제안되었다.

A variety of ethical frameworks were discussed, such as the distinction between procedural justice (e.g. fairness in the decision-making process regarding the distribution of resources) and distributive justice (e.g. fairness in the actual distribution of resources), as was applied philosophy (e.g. consequential reasoning versus principle-based reasoning). Several moral theories (e.g. utilitarianism, feminist ethics, value ethics) were also suggested as ways to provide trainees with more robust language with which to be able to discuss ethical issues.

정의의 두 번째 측면인 사회정의는 모든 사람들의 이익을 위한 사회의 사회적 경제적 자원의 분배로 정의될 수 있다. 이 영역 내에서 참가자들은 정의와 권력의 관계(의사가 사회적 변화를 옹호하기 위해 자신의 영향력과 권한을 사용할 수 있다는 개념 포함)와 계층과 건강 사이의 연관성을 강조했다. 정의와 경제적 원동력 사이의 긴장감은 [효율성과 비용 효과성]이나, [개별 환자를 옹호하고 사회 전반의 자원을 보존해야 하는 의사의 책임 사이]의 double-agency conflict을 지적했다. 참여자들은 또한 사회 정의를 다양성과 연결시켜 일부 환자들이 다른 환자들보다 의료 및 기타 서비스에 접근하는 데 더 많은 장벽을 경험한다고 지적하고, 그러한 사회적 불이익이 여러 소수자 집단에 속한 개인들에게 복합적으로 작용했다고 강조했다.
The second aspect of Justice, social justice, can be defined as the distribution of a society's social and economic resources for the benefit of all people.82 Within this area, participants highlighted the relationship between justice and power (including the notion that physicians might use their influence and authority to advocate for social change) and the link between class and health. They pointed out the tension between justice and economic drivers such as efficiency and cost-effectiveness, as well as the related double-agency conflict between a physician's responsibilities to advocate for individual patients and to preserve the resources of society at large. Participants also linked social justice to diversity, pointing out that some patients experience more barriers to accessing health care and other services than others, and emphasising that such social disadvantage was compounded for individuals belonging to multiple minoritised groups.

권력은 개인, 집단 또는 기관의 신념, 행동, 가치에 영향을 미치거나 통제하는 것으로 정의되며, 데이터 내에서 세 번째 고정 주제였다. 우리의 참가자들은 건강 관리의 네 가지 특정 측면과 관련된 힘의 문제를 분명히 밝혔다. 

  • (i) 환자와 의사 사이의 관계 
  • (ii) 의사와 다른 보건 전문가 간의 관계 
  • (iii) 의료 시스템 내의 제도적 계층 구조 
  • (iv) 국가와 사법 시스템을 포함한 법률 및 정책 환경 

Power, which can be defined as having influence or control over the beliefs, behaviours and values of individuals, groups or institutions, was the third anchoring theme within our data. Our participants articulated issues of power related to four specific aspects of health care:

  • (i) relationships between patients and physicians;
  • (ii) relationships between physicians and other health professionals;
  • (iii) institutional hierarchies within the health care system, and
  • (iv) legal and policy environments including the state and the judicial system.

환자-의사 관계의 관점에서 참가자들은 지식과 언어, 비언어적 의사소통 형태에 내재된 힘뿐만 아니라 신뢰, 관계, 기관 및 공유된 의사 결정의 문제를 포함하여 환자와 의사 사이의 권력 차이의 여러 측면에 크게 초점을 맞췄다. 이들은 의사가 자신의 권한을 인정하고 책임질 필요가 있다고 지적했다. 그리고 그렇게 하기 위해서는 계층, 성별, 민족성 및 기타 차이점 원천과 같은 개인과 그룹 간의 권력 차이에 inform하는 사회적 구조에 대한 이해가 필요하다. (차이/이중값, 표 2 및 부록 S1 참조). 참가자들은 또한 의사와 의사가 아닌 동료들 사이의 권력 역학에 대해 토론하며, 의사가 다른 건강 전문가에 비해 갖는 권위의식과 훈련 중 사회화되는 권위의식을 지적했다.

In terms of the patient–physician relationship, participants focused heavily on multiple aspects of the power differential between patients and their physicians, including the power inherent in knowledge, in language, and in non-verbal forms of communication, as well as issues of trust, rapport, agency, and shared decision making. They pointed out that physicians need to acknowledge and take responsibility for their own authority and that, in order to do so, they need to have an understanding of the social constructs that inform variations in power among individuals and groups, such as class, gender, ethnicity and other sources of difference (see also Difference/Binaries, Table 2 and Appendix S1). Participants also discussed the power dynamics between physicians and their non-physician colleagues, pointing to the traditional position of power held by physicians over other health professionals and to the sense of authority to which they are socialised during their training.

개인과 그룹 간의 상호작용에 대한 논평 외에도, 참가자들은 병원, 의료 시스템 전체 및 국가와 같은 기관과 관련하여 '권력'을 개념화했다. 국가가 의사들에게 부여한 정당성의 한 형태인 의료계의 자율성에 대한 개념은 많은 참석자들에 의해 논의되었다. 그들은 의사들이 의료 시스템의 문지기이자 합법적인 질병과 치료의 정의의 중재자로서 엄청난 권한을 부여받았으며, 이러한 권한과 자원에 대한 접근은 의사들이 그들의 힘을 (변화를 옹호하는 것을 포함하여) 공공의 이익을 위해 긍정적으로 활용할 책임을 부여한다고 설명했다. 그들은 이 권력의 역사적 뿌리와 진화는 환자 기대, 의료 전문가의 실천 범위, 자본주의 경제에서 의료 자금 지원 조직의 변화라는 맥락에서 주목했다. 그들은 의사들이 국가에 대한 그들의 권력에 대해 인식하고 그들의 일을 형성하기 위해 의학의 정치적 차원에 대한 지식을 사용할 필요가 있다고 강조했다. 따라서 그들은 의대생들에게 공공 정책의 기초, 정책 변화의 과정, 그리고 그들의 관할 구역에서 입법 과정을 가르칠 것을 제안했다.

In addition to commenting on the interactions between individuals and groups, participants conceptualised Power in relation to institutions, such as hospitals, the health care system as a whole, and the state. The notion of the self-regulation of the medical profession, a form of legitimacy granted to physicians by the state, was discussed by many participants. They explained that physicians have been granted immense authority as gatekeepers to the health care system and as arbiters of the definitions of legitimate diseases and their treatment, and that this authority and access to resources gives physicians the responsibility to leverage their power positively in the interests of the public, including by advocating for change. They noted the historical roots and evolution of this power in the context of changes in patient expectations, in health professional scopes of practice, and in the organisation of health care funding in capitalist economies. They emphasised that physicians need to be aware of their power with respect to the state and to use this knowledge of the political dimension of medicine to shape their work. They therefore suggested that medical students be taught the basics of public policy, of the process of policy change, and of the legislative process in their jurisdictions.

인식론, 문화, 정의, 권력을 넘어, 나머지 8개의 교차 주제는 미래 의사가 세계와 관계(맥락화, 사회경제적 지위 및 차이/이질) 및 자신과의 관계에 초점을 맞추고 있다(그림 1). 이러한 주제는 표 2에 간략하게 설명되어 있으며 부록 S1에 훨씬 더 자세히 설명되어 있다.

Beyond Epistemology, Culture, Justice and Power, the remaining eight cross-cutting themes focus on the future physician's relationships with the world (Contextualisation, Socio-economic status and Differences/Binaries) and with the self (Ambiguity, Knowledge evolving, Medical identity/Culture, Physician role conflict and Self-awareness) (Fig. 1). These themes are described briefly in Table 2 and in much greater detail in Appendix S1.

 

 

비의료 전문가 CanMEDs 역할과 관련된 SSH 지식의 교차 특성
The cross-cutting nature of SSH knowledge with respect to non-Medical expert CanMEDS roles

우리는 처음에 데이터에서 식별된 주제 중 어떤 것이 non-Medical Expert CanMEDS 역할과 관련이 있는지를 구별하고자 했다. 하지만 이것이 불가능하다는 것이 금세 우리에게 분명해졌다. 비록 몇몇 주제들이 다른 주제들보다 일부 역할과 더 밀접하게 관련되어 있지만, 그 주제들은 정말로 교차적이었다: 즉, 모든 주제들은 비의료 전문가 역할과 연결되었다. 우리는 (nvivo 10.0에서 이미 코딩한 추상화된 스크립트 데이터의 약 300페이지 내에서) 각 횡단 테마에 대해 상향 코딩한 데이터 청크와 각 캔 MED 역할에 대해 하향 코딩한 데이터 청크를 비교하여 이 교차점을 추가로 탐색했다. 표 3에 수치로 제시된 이 비교의 결과는, 비록 일부 주제와 CanMEDS 의 역할이 특히 밀접한 관련이 있지만(예: 문화와 커뮤니케이터 역할, 권력과 콜라보레이터 역할, 의사 역할 충돌 및 건강 옹호자 역할), 12개 주제 각각에는 6개 역할 각각과 관련하여 별도로 코딩된 자료가 포함되어 있다. 이 흥미로운 발견은 non-Medical Expert CanMEDS 역할의 개념적 통합을 지지하는 증거를 제공할 수 있다.

We had initially intended to distinguish which of the themes identified in our data were linked to each of the non-Medical Expert CanMEDS roles. However, it quickly became clear to us that this would not be possible. Although some themes related more closely to some roles than to others, the themes were truly cross-cutting: that is, every theme was linked to all of the non-Medical Expert roles. We explored this intersection further by comparing (within the approximately 300 pages of abstracted transcript data we had already coded in nvivo 10.0) the chunks of data that we had coded bottom-up for each cross-cutting theme with the chunks of data we had coded top-down for each CanMEDS role. The results of this comparison, which are presented numerically in Table 3, confirmed that although some themes and CanMEDS roles are particularly closely related (e.g. Culture and the Communicator role, Power and the Collaborator role, Physician role conflict and the Health Advocate role), each of the 12 themes includes material that had also been coded separately as relating to each of the six roles. This intriguing finding may provide evidence in support of a conceptual integration of the non-Medical Expert CanMEDS roles.

 

 

특정 비의료 전문가 캔메이드 역할과 관련된 SSH의 구체적인 커리큘럼 내용
Concrete curricular content from the SSH relevant to particular non-Medical expert CanMEDS roles

12개의 교차 주제에 대한 개념적으로 풍부한 기초를 넘어, 우리의 데이터는 참가자들이 non-Medical Expert CanMEDS역할과 각각 관련된 것으로 식별한 방대한 양의 구체적인 커리큘럼 콘텐츠를 포함한다. 이 자료의 폭과 다양성을 유지하기 위해 좀 더 간략하게 요약하기보다는 역할별로 분류해 교육과정 기획에 활용할 수 있도록 6개의 대형 문서로 정리했다. 표 4는 참가자들이 각 역할과 관련이 있다고 생각하는 지식의 간략한 표본을 보여줍니다. 표 4의 예는 필요하거나 충분하지 않다. 즉, 모든 의료 교육 맥락에서 각 역할의 적절한 교육에 필요한 지식의 결정적 형태도 아니며, 참가자들이 특정 역할에 대해 중요하다고 인식되는 유일한 자료도 아니다. 오히려, 그것들은 독자들에게 우리의 다양한 데이터의 맛을 제공하는 예시이다.

Beyond the conceptually rich basis for our 12 cross-cutting themes, our data contain an immense amount of concrete curricular content identified by our participants as being related to each of the non-Medical Expert CanMEDS roles. In order to maintain the breadth and variety of this material, rather than summarising it more briefly, we have sorted it by role and compiled it into six large documents for use in curriculum planning. Table 4 contains a brief sampling of the knowledge our participants thought was relevant for each role. It is important to note that the examples in Table 4 are intended to be neither necessary nor sufficient; that is, they are neither the definitive forms of knowledge that would be required for the appropriate teaching of each role in every medical education context nor the only material our participants perceived as important for that particular role. Rather, they are illustrative examples that provide the reader with a flavour of our diverse data.

논의
Discussion

우리의 연구는 non-Medical Expert CanMEDS 역할에 대한 개념적 토대를 형성하고 의사 역량에 대한 캐나다 사회적 기대를 충족하는 의사를 훈련시키기 위해 의료 교육 내에서 필요한 비생물학적 콘텐츠 유형에 대한 경험적 증거를 제공하는 정의 가능한 지식이 있음을 보여준다. 비록 이 내용의 많은 부분이 대부분의 의학 교육 맥락에서 참신해 보이지만, 대학의 다른 곳에서 우리의 학문적 동료들은 적절한 순서 지정과 실질적으로 그것을 가르친 엄청난 경험을 가지고 있다. 우리는 훈련생과 실무자들이 CanMEDS 의 역할을 보다 정교하게 제정함에 따라 의과대학에서 레지던트에 이르기까지 의학교육 연속체의 다양한 단계에 적합한 재료의 깊이를 결정할 때 그러한 경험을 활용할 수 있다.
Our study shows that there is a definable body of knowledge that forms the conceptual underpinnings for the non-Medical Expert CanMEDS roles, and provides empirical evidence for the types of non-biomedical content required within medical education to train practitioners who meet Canadian societal expectations of physician competency. Although much of this content appears novel within most medical education contexts, our academic colleagues elsewhere in the university have enormous experience in both appropriately sequencing and practically teaching it. We can draw on that experience as we determine the depth of materials appropriate to various stages of the medical education continuum, from medical school through to residency and then to continuing medical education, as trainees and practitioners become more sophisticated in their enactment of the CanMEDS roles.

우리의 방법론은 의료 교육자들이 사용할 수 있는 실질적인 실질적인 자료를 제공했다(부록 S1). 우리는 많은 구체적인 커리큘럼 선택권을 제공하는 이와 같은 연구를 통해 교육자들이 비의료 전문가 역할을 가르치는 것이 덜 벅차기를 바란다. 의료 전문가 역할 이외의 역량 교육을 지원하려면 프레임워크에 포함시킨 것과 같이 SSH의 엄격한 콘텐츠 지식을 통합하는 커리큘럼 변화가 절대적으로 필요하다. 이러한 분야의 전문가인 의학 교육자의 상대적 부족은 다음의 필요성을 지적한다.

  • 광범위한 학술 의사 채용
  • 대학 전체의 교수진과의 파트너십(많은 의과대학이 이미 기초의학과 학과와 제휴하고 있는 것처럼)
  • 교수개발.

그러나 이러한 내부 전문지식의 부족은 (다른 새로운 의약품 관련 영역에서 그랬던 것처럼) 극복할 수 있는 과제이다.

Our methodology has provided a substantial body of practical materials for use by medical educators (Appendix S1). We hope that studies such as this, which provide many concrete curricular options, will make it less daunting for educators to teach the non-Medical Expert roles. Curricular change that incorporates rigorous content knowledge from the SSH, such as we have included in our framework, is absolutely necessary if we are to support the teaching of competencies other than those of the Medical Expert role. The relative lack of medical educators who are experts in these areas points to the need

  • for broader academic physician recruitment,
  • for partnership with faculty members from across the university (just as many medical schools already partner with basic biomedical science departments), and
  • for significant faculty development.

However, this lack of internal expertise is a challenge that can be overcome (as it has been in other novel medicine-related domains83).

좀 더 이론적 수준에서, 우리의 데이터(역할과 6개 모두를 가로지르는 주제 사이에 내용이 겹친다)는 non-Medical Expert CanMEDS 역할의 개념적 통합에 대한 명확한 증거를 제공한다. 출판된 문헌에서는 이러한 역할이 인위적인 분할이며, 이러한 역할의 교육과 평가의 통합에 대한 주장이 제기되어 왔다. 다른 곳에서 지적되었듯이, CanMEDS 의 역할은 오늘날 존재하며(그리고 시간이 지남에 따라 변화) 좋은 의사에 대한 우리의 현대적 개념에 맞는 사회적 구조이며 자연스럽지도 않고 불가피하지도 않다. 현재 의사 역량의 해부도는 시간이 지남에 따라 감소할 수 있다. 그 사이에 우리의 발견들, 특히 우리의 횡단 테마는 전체론적으로 의사 역량의 기초를 가르치는 데 교육학적으로 유용한 메커니즘을 제공한다.

On a more theoretical level, our data (both the content overlap between roles and the themes that cut across all six of them) provide clear evidence for the conceptual integration of the non-Medical Expert CanMEDS roles. There have been complaints in the published literature that these roles are artificial divisions – that the constructs they represent are all deeply interrelated – and arguments for the integration of the teaching and assessment of these roles.42, 44, 84 As has been pointed out elsewhere, the CanMEDS roles as they exist today (and as they have shifted over time)1, 2, 9 are social constructs that fit with our contemporary conception of the good physician and are neither natural nor inevitable.44, 85 It may be that the current anatomisation of physician competence will decrease over time. In the interim, our findings, particularly our cross-cutting themes, provide a pedagogically useful mechanism for teaching the underpinnings of physician competence in a holistic way.

제한사항Limitations


이 연구에는 몇 가지 중요한 한계가 있습니다. 예를 들어, 우리는 우리의 연구 결과가 CanMEDS 가 개발되고 연구가 수행된 영어권, 북미, 유럽 중심 환경에 매우 구체적이라는 것을 인정해야 한다. 이것은 우리가 사용한 역량 프레임워크의 적용 가능성뿐만 아니라 다른 문화적 맥락에서 의사와 환자에 대한 우리의 응답자들에 의해 요약된 지식의 형태의 관련성에 중요한 제한을 둔다. 즉, 본 논문에서 제시된 개념 모델과 그에 수반되는 교육 자료 모두 본질적으로 문화적-특이적이다. 그러므로 우리는 다른 문화적 밀리에우스에서 그들의 문맥에 적합한 자료들을 도출하기 위해 유사한 방법론의 사용을 탐구하는데 관심이 있는 협력자들을 매우 환영할 것이다.
There are several important limitations to this study. We must, for example, acknowledge that our findings are very specific to the English-speaking, North American, Eurocentric environment in which CanMEDS was developed and in which our study was conducted. This places important limits not only on the applicability of the competency framework we used,86 but also on the relevance of the forms of knowledge outlined by our respondents to physicians and patients in other cultural contexts; in other words, both the conceptual model presented in this paper and its accompanying curricular materials are innately culturally specific. We would therefore very much welcome collaborators who would be interested in exploring the use of a similar methodology in different cultural milieus to derive materials appropriate for their contexts.

마찬가지로, 우리는 매우 널리 사용되는 역량 프레임워크에 초점을 맞췄지만, 문화적으로 우리와 꽤 일치하는 관할 구역에서는 다른 역량 프레임워크가 사용됩니다. 그럼에도 불구하고 캔메드에 표현된 많은 역량은 이러한 다른 프레임워크에도 존재하며, 이는 잠재적으로 우리의 발견의 광범위한 관련성을 지적한다. 또한, 우리의 방법론의 간단한 특성으로 인해 다른 사람들이 자신의 특정 상황에 대한 우리의 발견을 개선하기 위해 우리의 연구를 확장할 수 있어야 한다.
Similarly, although we focused on a very widely used competency framework,11 other competency frameworks3, 4, 6 are used in jurisdictions that are culturally quite congruent with our own. Nonetheless, many of the competencies represented in CanMEDS are also present in these other frameworks, which points to the potentially broader relevance of our findings. In addition, the straightforward nature of our methodology should allow others to extend our work in order to refine our findings for their own specific contexts; again, we would very much welcome collaborators interested in doing this.


마지막으로, 지난 몇 년 동안 CanMEDS 의 역할과 주변 언어의 세부 사항 중 일부가 바뀌었다는 점에 주목해야 한다. 이 과정은 연구를 시작한 시점과 거의 동시에 시작되었으며(J R Frank, 개인 커뮤니케이션 [전화로], 2011), 2015년 10월에 CanMEDs 2015를 출시했다. 우리는 RCPSC 웹사이트에 요약되어 있고 개념적 재구성이 아닌 일관성과 실제 적용에 초점을 맞추고 있는 2005년과 2015년 캔 MED 문서 사이의 변경 사항을 면밀히 검토했다. SSH 외부의 분야를 이용하는 하나의 주요 새로운 콘텐츠 영역(환자 안전 및 품질 개선)을 제외하고, 대부분의 변경 사항(지도자 역할의 가장 명백한 명칭 포함)은 언어와 조직의 명확화이다. 역할 간에는 몇 가지 사소한 내용 변화가 있지만(예: 비-의사 의료 전문가와의 커뮤니케이션이 이제 공동작업자 역할로 보다 명시적으로 이동됨) 이러한 변화는 참여자들이 언급한 개념적 중복을 크게 완화하지는 못합니다. 마지막으로, 우리는 참여자들이 2005년에 암묵적으로 식별한 몇 가지 개념(예: 문화적 안전)의 2015년 CanMEDS에서 명시적인 인정을 받았으며, 이를 위해 커리큘럼 및 교육학 자료를 이미 개발했다.

Finally, it should be noted that some of the details of, and language around, the CanMEDS roles have changed over the past several years. This process began at about the same time that we initiated our study (J R Frank, personal communication [by telephone], 2011) and culminated in the release of CanMEDS 2015 in October 2015.2 We have closely examined the changes between the 2005 and 2015 CanMEDS documents, which are summarised on the RCPSC website56 and which focus on coherence and practical application rather than a conceptual reframing. The vast majority of changes (including the most obvious, the renaming of the Manager role as the Leader role) are clarifications of language and organisation, with the exception of one major new content area (patient safety and quality improvement) which draws on disciplines outside the SSH. There are some minor shifts of content between roles (e.g. communicating with non-physician health care professionals has now moved more explicitly into the Collaborator role), but these do not substantially mitigate the conceptual overlaps noted by our participants. Finally, we note the explicit recognition in CanMEDS 2015 of a few concepts (e.g. cultural safety) identified by our participants as implicit in 2005 and for which we have already developed curricular and pedagogical materials.

미래 방향
Future directions

비록 이 연구는 원래 지적 연습에서 출발했지만, 우리는 결국 우리의 발견을 실행하고자 하는 프로그램을 찾을 수 있기를 바랐다. 교육과정 갱신에 대한 현지의 관심과 캐나다 인증 요건에서 CanMEDs의 지속적인 사용으로 인해, 우리는 실제로 여러 캐나다 학부 및 대학원 프로그램에서 자발적인 협력자(관리자, 교육자 및 학생)를 찾았다. 또한 CanMEDS 이후 자신의 역량 프레임워크를 모델링한 전문 분야의 다른 보건 전문가를 양성하는 프로그램에서도 협력자를 찾았다. 이 협력자 팀과 함께, 우리는 각 프로그램에 특화된 커리큘럼 콘텐츠의 다중 사이트 롤아웃을 시작했고, 현재 단일 기관에서 서로 다른 수준의 교육(의대, 레지던트, 교수진 개발) 간에 SSH 콘텐츠를 나선화하는 모델 커리큘럼을 구축하고 있다.

우리가 개발한 새로운 커리큘럼 자료에 대한 표준 평가와 더불어, 학장에서 의대생에 이르는 커리큘럼 이해관계자들의 의견을 수렴하여 복잡한 개입에 대한 구현 과정에 대한 엄격한 현실주의 평가를 수행하고 있다. 우리는 이 연구의 발견을 향후 출판물에 공유하고자 한다.

Although this study originally grew out of an intellectual exercise,21 we had hoped that we would eventually locate a programme willing to implement our findings. Due perhaps to current local interest in curriculum renewal and to the continued use of CanMEDS in Canadian accreditation requirements at multiple levels, we have indeed found willing collaborators (administrators, educators and students) at multiple Canadian undergraduate and postgraduate programmes, as well as in programmes that train other health professionals in professions that have modelled their own competency frameworks after CanMEDS. Together with this team of collaborators, we have begun a multi-site rollout of curricular content specific to each programme and are now building model curricula that will spiral SSH content between different levels of education (medical school, residency, faculty development) at a single institution. In addition to a standard evaluation of the novel curricular materials we have developed, we are also conducting a rigorous realist evaluation of the implementation process for this complex intervention, gathering input from curricular stakeholders ranging from deans to medical students; we intend to share the findings from this work in future publications.

 

 


Med Educ. 2017 Feb;51(2):158-173.

 doi: 10.1111/medu.13115. Epub 2016 Nov 15.

Epistemology, culture, justice and power: non-bioscientific knowledge for medical training

Affiliations collapse

Affiliations

1Wilson Centre, University Health Network/University of Toronto, Toronto, ON, Canada.

2Department of Medicine, Sunnybrook Health Sciences Centre, Toronto, ON, Canada.

3Department of Medicine, University of Toronto, Toronto, ON, Canada.

4Department of Family Practice, University of British Columbia, Vancouver, BC, Canada.

5Department of Psychiatry, University of Toronto, Toronto, ON, Canada.

6Department of Medicine, St Michael's Hospital, Toronto, ON, Canada.

7Department of Medicine, University Health Network, Toronto, ON, Canada.

8Department of Family & Community Medicine, Women's College Hospital, Toronto, ON, Canada.

9Department of Family & Community Medicine, University of Toronto, Toronto, ON, Canada.

PMID: 27862175

DOI: 10.1111/medu.13115

Abstract

Context: While medical curricula were traditionally almost entirely comprised of bioscientific knowledge, widely accepted competency frameworks now make clear that physicians must be competent in far more than biomedical knowledge and technical skills. For example, of the influential CanMEDS roles, six are conceptually based in the social sciences and humanities (SSH). Educators frequently express uncertainty about what to teach in this area. This study concretely identifies the knowledge beyond bioscience needed to support the training of physicians competent in the six non-Medical Expert CanMEDS roles.

Methods: We interviewed 58 non-clinician university faculty members with doctorates in over 20 SSH disciplines. We abstracted our transcripts (meaning condensation, direct quotations) resulting in approximately 300 pages of data which we coded using top-down (by CanMEDS role) and bottom-up (thematically) approaches and analysed within a critical constructivist framework. Participants and clinicians with SSH PhDs member-checked and refined our results.

Results: Twelve interrelated themes were evident in the data. An understanding of epistemology, including the constructed nature of social knowledge, was seen as the foundational theme without which the others could not be taught or understood. Our findings highlighted three anchoring themes (Justice, Power, Culture), all of which link to eight more specific themes concerning future physicians' relationships to the world and the self. All 12 themes were cross-cutting, in that each related to all six non-Medical Expert CanMEDS roles. The data also provided many concrete examples of potential curricular content.

Conclusions: There is a definable body of SSH knowledge that forms the academic underpinning for important physician competencies and is outside the experience of most medical educators. Curricular change incorporating such content is necessary if we are to strengthen the non-Medical Expert physician competencies. Our findings, particularly our cross-cutting themes, also provide a pedagogically useful mechanism for holistically teaching the underpinnings of physician competence. We are now implementing our findings into medical curricula.

자율성과 의사의 성장: 자기결정이론으로 슈퍼비전을 다시 그려보기(Med Educ, 2022)
Autonomy and developing physicians: Reimagining supervision using self-determination theory
Adam P. Sawatsky1 | Bridget C. O’Brien2 | Frederic W. Hafferty3

 

1 소개
1 INTRODUCTION

이 글에서는 [임상학습 환경에서 감독과 자율성의 관계]를 탐구함으로써 '의사발달에 있어 자율성의 역할은 무엇인가'라는 질문을 다룬다. 감독으로부터의 독립성으로서 자율성을 벗어나 자기결정론에 근거한 자율성 지원에 기반을 둔 감독 개념을 지향하는 이러한 관계의 재개념화를 제안한다.  그렇게 함으로써, 우리는 자율적이고 자율적인 직업으로서 의학의 지위를 개념화하는 것의 사회적, 법적 의미와 환자 자율성과 환자 중심 치료의 문제를 포함한 의학 내 자율성에 대한 다른 논의를 무시한다. 이것들은 중요한 대화이지만, 우리는 특히 의사-훈련자를 위한 임상 훈련의 맥락에서 자율성과 감독에 초점을 맞추기로 결정했다.
In this article, we address the question, ‘What is the role of autonomy in physician development?’ by exploring the relationship between supervision and autonomy in the clinical learning environment. We propose a reconceptualisation of this relationship that moves away from autonomy as independence from supervision and towards a concept of supervision grounded in autonomy support based on self-determination theory.1 In doing so, we ignore other discussions on autonomy within medicine, including the social and legal implications of conceptualising medicine's status as an autonomous, self-regulating profession2 and issues of patient autonomy and patient-centred care.3, 4 While these are important conversations, we have chosen to focus specifically on autonomy and supervision within the context of clinical training for physician-trainees.

우리는 또한 '의사의 발달physician development'이 의미하는 바를 정의할 필요가 있습니다. 의학교육은 필요한 지식, 기술 및 직업적 정체성을 가진 효과적인 의료인의 형성을 다루는 발달 과정이다.5 PIF(Professional Identity formation)라고 알려진 이러한 발전은 [개인, 심리적 수준]뿐만 아니라 [집단적, 사회적 수준]에서도 일어나며 경험, 롤모델, 멘토를 통해 얻은 직업의 가치와 규범을 (의식적으로 그리고 무의식적으로) 습득하는 것이 특징이다. 자율성은 학습자의 자율성을 학습자의 자신감 향상, 임상 의사결정 능력 향상, 환자의 책임감과 소유 의식 향상, 독립적 실무 준비성 향상, 직업적 정체성 향상과 연계하여 오랫동안 연구되어 왔다. 임상 학습 환경에서 [자율성]은 [학습자가 환자 치료를 위한 '진정한' 결정을 내릴 수 있는 기회]를 제공하여, [임상 의사 결정에 대한 신뢰]와 [환자 관리에 대한 책임]의 개발을 촉진한다. 반대로 자율성이 떨어지면 학습자에게 양면성이 형성돼 책임감이 떨어지고 의사 역할을 맡을 기회도 줄어들어 '전문직이 되어간다professional becoming'는 의식이 줄어들 수 있다. 이러한 연구 결과는 자율성이 의사 발달에 동기 부여의 역할을 할 수 있으며, 의학교육이 발달과 동기를 통합한 자율성의 정의로부터 이익을 얻을 수 있음을 시사한다.
We also need to define what we mean by ‘physician development’. Medical education is a developmental process, addressing the formation of effective medical practitioners with the necessary knowledge, skills and professional identity.5 That development, known as professional identity formation (PIF), happens at both an individual, psychological level, as well as a collective, sociological level, and is characterised by the conscious and unconscious acquisition of values and norms of the profession gained through experience, role models and mentors.6, 7 Autonomy has long been studied in conjunction with the development of physicians in training, linking learner autonomy with increased learner confidence, improved clinical decision-making skills, increased sense of patient responsibility and ownership, increased readiness of independent practice and an enhanced development of professional identity.8-12 Within the clinical learning environment, autonomy provides opportunities for learners to make ‘real’ decisions for patient care, facilitating the development of confidence in clinical decision making and responsibility for patient care.8 Alternatively, decreased autonomy can foster feelings of ambivalence in learners leading to decreased feelings of responsibility along with a decreased sense of ‘professional becoming’ due to decreased opportunity to take on the role of physician.8, 13 These findings suggest that autonomy may play a motivational role in physician development and that medical education may benefit from a definition of autonomy that incorporates development and motivation.

자율성의 인식된 이점과 부재의 위험을 고려할 때, 훈련생 감독 강화를 요구하는 [환자 안전 운동]이 임상 학습 환경 내에서 학습자의 자율성을 위협한다는 우려가 커지고 있다. 이러한 우려는 감독 강화가 학습자의 자율성을 떨어뜨려 독립적이고 전문적인 의사의 발전을 방해할 수 있다는 두려움에 근거한다. 감독 강화, 독립성 저하, 이에 따른 훈련생 자율성의 감소에 대한 이러한 우려는 우리를 '임상 훈련의 감독성과 자율성 사이에 무슨 관계가 있는가?'라는 질문으로 이끈다.
Given the perceived benefits of autonomy and the risks of its absence, there is growing concern that the patient safety movement, with its calls for increased trainee supervision, threatens learner autonomy within the clinical learning environment.9, 10, 14 Such concerns are based on fear that increased supervision will reduce learners’ autonomy and thus might interfere with the development of independent, expert physicians.10, 15 These concerns over increased supervision, decreased independence and the subsequent decrease in trainee autonomy lead us to the question: ‘What is the relationship between supervision and autonomy in clinical training?’

2 감독과 자율성 사이의 복잡한 관계
2 THE COMPLEX RELATIONSHIP BETWEEN SUPERVISION AND AUTONOMY

의학 교육 문헌은 감독과 자율성 사이의 단순한 역관계(감독이 증가함에 따라 자율성은 감소한다)를 가정한다. 역량 프레임워크 내에서 자율성은 독립성과 동의어로 사용되며 따라서 훈련의 최종 목표로 간주된다. 자율성에 대한 이러한 이해는 의료 교육 연구 내에서 임상 지도와 학습자 자율성 사이의 관계에 대한 상반된 증거로 이어졌다. 따라서, 우리는 감독 내에서 자율성 지원이 가능한 감독과 자율성 사이의 보다 복잡한 관계를 제안한다.
The medical education literature posits a simple inverse relationship between supervision and autonomy (ie as supervision increases, autonomy decreases). Within competency frameworks, autonomy is used synonymously with independence and therefore viewed as the end goal of training. This understanding of autonomy has also led to conflicting evidence about the relationship between clinical supervision and learner autonomy within medical education research. Thus, we propose a more complex relationship between supervision and autonomy that allows for autonomy support within supervision.


현재의 역량 기반 의료 교육(CBME) 프레임워크는 감독과 자율성 사이의 역 관계를 암시하는 언어를 사용하며, 자율성을 나타내기 위해 다양한 다른 문구에 의존하는 경우가 많다. 예를 들어, 대학원의료교육인증협의회(ACGME)는 레지던트 연수를 '의과대학과 자율적인 임상 실습 사이에 존재하는 전문적 발전의 중요한 단계'로 개념화한다. 전공의 수련은 전공의가 직장 학습 환경에서 환자를 돌보는 곳으로써, '교수의 적절한 지도와 조건부 독립성을 갖춰, 전공의가 자율적인 의료행위에 필요한 지식, 기술, 태도, 공감을 얻을 수 있도록'하는 목적이 있다. 

Current competency-based medical education (CBME) frameworks use language that implies an inverse relationship between supervision and autonomy, often relying on a variety of different phrases to represent autonomy. For example, the Accreditation Council for Graduate Medical Education (ACGME) conceptualises residency training as ‘the crucial step of professional development between medical school and autonomous clinical practice’16 where residents care for patients in a workplace learning environment ‘with appropriate faculty supervision and conditional independence, allowing residents to attain the knowledge, skills, attitudes, and empathy required for autonomous practice’.16 

ACGME 프레임워크 내에서

  • 역량 기반 목표와 목표는 '자율적 실천을 향한 궤도에서의 발전을 촉진하도록 설계'되며,
  • 전공의의 발달상황에 대한 평가는 [역량과 신뢰의 언어]를 사용하며, '감독되지 않은 실천에 대한 준비'로 간주되는 전공의로 끝맺게 된다.
  • 교직원은 전공의를 평가하고 '점진적 권한과 책임, 조건부 독립성 및 환자 진료에 대한 감독 역할의 특권'을 위임하는 한편,
  • '점진적 자율성의 촉진'은 전공의의 웰빙을 해결하기 위한 전공의 프로그램 책임의 일부분으로 인식된다.
  • 레지던트 교육이 끝나면 '4년자 전공의는 (치프 레지던트 역할 수행, 외래 진료소 운영, 자율성 증대 및 타인 교육 등) 자율적 의료행위로 전환할 준비가 되어 있음을 입증해야 한다'.

Within the ACGME framework,

  • competency-based goals and objectives are ‘designed to promote progress on a trajectory to autonomous practice’, and
  • assessments of resident progress utilise the language of competence and trust, ending with residents deemed ‘ready for unsupervised practice’.1617 
  • Faculty members assess residents and delegate the ‘privilege of progressive authority and responsibility, conditional independence and a supervisory role in patient care’,16 
  • while recognising that ‘promoting progressive autonomy’ is part of the responsibility of the residency programme to address resident well-being.16 
  • At the end of residency training, ‘the senior trainee should demonstrate readiness to make the transition to autonomous practice: for example, acting as a chief resident, running an ambulatory clinic, performing procedures with increasing autonomy and teaching others’.18 

[자율성]을 대면하는 개념은 [독립성 증가, 감독 감소 및 환자 관리에 대한 책임 증가]와 같은 문구와 '자율성'이라는 단어를 번갈아 사용하면서 CBME 프레임워크에 스며든다. 이 용어들을 번갈아 사용하는 것은 감독과 자율성의 역관계를 의미하는데, 교육의 목표는 감독을 줄이고 자율성을 높이는 것이다. 이로 인해 대학원 의학교육에서 감독 및 자율성의 역할에 대한 오해가 생길 수 있다.

Concepts that represent autonomy permeate CBME frameworks, using the word ‘autonomy’ interchangeably with phrases like increasing independence, decreasing supervision and increasing responsibility for patient care.14, 16-21 Using these terms interchangeably implies an inverse relationship between supervision and autonomy, where the goal of education is to decrease supervision and increase autonomy.22 This may lead to misconceptions of the role of supervision and autonomy in graduate medical education.

단순한 역관계의 개념은 의료 교육 문헌으로 확장되며, 여기서 감독 증가에 대한 우려는 지도 수준과 학습자 자율성 인식 사이의 연관성을 탐구하는 연구를 촉발시켰다. 자율성의 교육적 역할에 대한 대규모 검토에서 [자율성]은 '독립적으로 또는 감독 없이 기능하는 자'로 정의되었다. 그러나 감독과 자율성의 관계를 조사하는 연구는 감독성과 자율성의 관계에 대한 상반된 증거를 보여준다. 한 연구 결과에 따르면 입원 중인 야간 부유식 순환에 대한 교직원의 감독 강화로 교대의 교육 수준이 향상되었으며 주민 자율성에는 차이가 없는 것으로 나타났다. 이에 비해 감독 강화로 교대로 인턴 투입량이 의사결정에 제한되고 인턴과 레지던트들의 자율성이 제한된다는 연구결과도 있다. 이러한 상반된 연구는 감독과 자율성의 관계가 단순한 역관계가 아님을 시사한다.
The notion of a simple inverse relationship extends into the medical education literature, where concerns about increasing supervision have prompted studies exploring the association between levels of supervision and perceptions of learner autonomy. Within a large scoping review on the educational role of autonomy, autonomy was defined as ‘one who functions independently or without supervision’.11 However, studies examining the relationship between supervision and autonomy demonstrate conflicting evidence about the relationship between supervision and autonomy.11 One set of studies found that increased faculty supervision of an inpatient night float rotation improved the educational quality of the rotation, with no difference in residents’ autonomy.23, 24 By contrast, other studies indicate that rotations with increased supervision limit the amount of intern input into decision making and limit interns’ and residents’ sense of autonomy.25, 26 These conflicting studies suggest that there is not a simple inverse relationship between supervision and autonomy.

이 관계의 복잡성에는 몇 가지 이유가 있을 수 있다. 

첫째, 감독에 관한 문헌을 살펴보면, 모든 감독이 동일한 것은 아니다. 레지던트들은 '마이크로 매니저'에서부터 거주자와 거리를 두고 독점적인 의사 결정권을 허용하는 '자리비운' 주치의에 이르기까지 광범위한 교수 감독 관행을 설명한다. 해당 스펙트럼 내에서 감독 유형은 다음과 같이 특징지어질 수 있다. 

  • '일상적 감독'(연수생 임상 작업의 사전 계획된 모니터링),
  • '반응적 감독'(임상 우려에 의해 촉발된 관여),
  • '백스테이지 감독'(연수생이 직접 인지하지 못하는 감독) 또는
  • '직접 환자 관리', 슈퍼바이저가 환자를 넘겨받는 것

There may be several reasons for the complexity of this relationship. First, examining the literature on supervision, not all supervision is created equal—there are many models for the type and amount of supervision provided. Residents describe a wide range of faculty supervision practices, from ‘micro-manager’—dictating the plan to residents and allowing few autonomous decisions—to the ‘absentee’ attending physician who distances themself from the residents and allows exclusive decision-making power.27 Within that spectrum, types of supervision can be characterised into

  • ‘routine oversight’ (preplanned monitoring of trainees’ clinical work),
  • ‘responsive oversight’ (engagement triggered by clinical concerns),
  • ‘back-stage oversight’ (oversight of which the trainee is not directly aware) or
  • ‘direct patient care’, where the supervisor takes over the care of the patient.28 

감독은 역동적이어서, 특정 상황에 맞게 '핸즈온' 전략과 '핸즈오프' 전략 사이에서 전환되며, 감독은 감독관과 임상 환경에 따라 달라질 수 있는 다양한 감독 모드를 포함할 수 있다.29

Supervision is dynamic, shifting between ‘hands-on’ and ‘hands-off’ strategies to suit specific contexts, and supervision can cover a range of oversight modes that can vary across supervisors and clinical settings.29

둘째, 감독 모델 내에서는 자율성의 여지가 있다. 예를 들어, 한 연구에서 전공의들은 자율성을 허용하고 독립적인 학습을 자극하는 것을 품질 감독의 특징으로 확인했다. 감독 구조와 지원 안에서 전공의가 의미 있는 임상 결정을 할 수 있도록 한 것은 전공의의 자율성을 뒷받침했다.8 [자율성 지지적 감독autonomy-supportive supervision]의 핵심 구성 요소로는 전공의가 환자진료를 위한 의사결정을 할 수 있도록 하고, 환자진료를 책임감을 느끼며, 협력자로서 환자진료에 참여하고, 직접감독에서 간접감독으로 전환하는 내용 등이 포함됐다. 게다가, 전공의가 더 많은 자치권을 원하는 것이 항상 감독으로부터 독립하려는 열망과 일치하지는 않는다. 사실 레지던트들은 임상 훈련 중에 독립적으로 행동하고 '자급자족'해야 한다는 과도한 압박을 느끼곤 하는데, 이는 독립적으로 행동하는 것이 의사 정체성의 일부라는 암묵적인 메시지에서 비롯된다. 자율성은 단순한 역관계에서 벗어나 감독 모델 내에 존재할 수 있다.

Second, within models of supervision, there is room for autonomy. For example, in one study, residents identified allowing for autonomy and stimulating independent learning as features of quality supervision.30 Allowing residents to make meaningful clinical decisions within the structure and support of supervision supported residents’ feelings of autonomy.8 Key components of autonomy-supportive supervision included allowing residents to make decisions for patient care, feeling responsible for the care of patients, engaging in patient care as a collaborator and moving from direct supervision to indirect supervision.12 In addition, residents desire for more autonomy does not always align with a desire for independence from supervision. In fact, residents often feel an undue pressure during their clinical training to act independently and be ‘self-sufficient’, a pressure that arises from implicit messaging that acting independently is part of the identity of a physician.31 Autonomy can exist within models of supervision, pointing away from a simple inverse relationship.

요약하자면, 감독과 자율성 사이의 관계는 특히 임상 학습 환경에서 훈련생 개발과 관련될 때 복잡하다. [학습자 자율성 함양]은 교육생 역량에 맞춰 감독 양을 조정하는 것만큼 간단하지 않을 수 있다. 역량 프레임워크와 의학 교육 문헌에서 자율성, 독립성 및 감독 감소라는 용어가 번갈아 사용되지만, 이러한 개념적 얽힘은 학습자의 발전에 의도하지 않은 결과를 초래할 수 있음을 시사한다.

In summary, the relationship between supervision and autonomy is complex, particularly when related to trainee development in the clinical learning environment. Fostering learner autonomy may not be as simple as tailoring the quantity of supervision to the level of trainee competence. While the terms autonomy, independence and decreased supervision are used interchangeably in competency frameworks and medical education literature, we suggest these conceptual entanglements might have unintended consequences for learners’ development. 

역량 체계와 의학 교육 문헌에서 자율성은 두 가지 다른 방식으로 사용되어 왔다.

  • 첫째, 자율성은 [독립성과 동의어]로 사용되며, [교육생의 성과에 대한 판단]으로 개념화되며, 감독 수준은 지표(또는 지표)로 사용된다.
  • 둘째, 자율성은 [훈련생들이 배우도록 동기를 부여하고 의사로서의 정체성을 개발할 기회를 주는 것]으로 개념화할 수 있다.

이러한 관점에서 자율성은 단순히 감독의 역이 아니다. 이 두 번째 관점은 자율성에 대한 심리적 관점을 제공하며, 우리는 의학 교육에서 그 명성을 높이기를 바라면서 이 글의 나머지 부분에 대해 고려한다.

Within the competency frameworks and medical education literature, autonomy has been used in two distinct ways.

  • First, autonomy is used synonymously with independence and is conceptualised as a judgement of a trainees’ performance, with level of supervision used as an indicator (or metric).
  • Second, autonomy can be conceptualised as a source of motivation that drives trainees to learn and gives them opportunities to develop their identity as a physician. In this view, autonomy is not simply the inverse of supervision.

This second perspective offers a psychological view of autonomy, which we consider for the remainder of this article in hopes of elevating its prominence in medical education.

3 자율성과 자기 결정 이론
3 AUTONOMY AND SELF-DETERMINATION THEORY

자기결정이론(self-determination theory)은 자율성과 감독 사이의 관계, 그리고 개발 과정에서의 훈련자 참여와의 연관성을 이해하기 위한 틀을 제공할 수 있는 인간 동기 부여 및 개인 개발 이론이다. SDT에 따르면, 인간 동기와 개발의 기반에는 능력, 관계성, 자율성의 세 가지 선천적 심리적 욕구가 있다. 동기부여는 이 세 가지 기본적인 심리적 욕구를 지지하거나 방해하는 만큼 환경적 요인에 의해 지지되거나 방해된다. SDT에서 자율성은 [자신의 내면에 따라 자신의 의지와 뜻대로 행동하는 것]으로 정의된다. 따라서 [행동 조절]의 진정한 동기는 상황적 지원에 의해 생성된 자율성 또는 통제의 느낌이다.32 SDT의 몇 가지 요약을 사용할 수 있으며, 표 1에 SDT의 주요 교리를 개략적으로 설명한다.

Self-determination theory (SDT) is a theory of human motivation and personal development that can provide a framework for understanding the relationship between autonomy and supervision, and their association with trainee engagement in the development process.1, 32, 33 According to SDT, at the foundation of human motivation and development are three innate psychological needs—competence, relatedness and autonomy.32, 33 Motivation is supported and hindered by environmental factors in as much as they support or hinder those basic psychological needs.32 Within SDT, autonomy is defined as the quality of behaving of one's own volition and will, in accord with one's inner self.1, 32 As such, one driver of authentic motivation for behavioural regulation is a feeling of autonomy or control created by contextual support.32 Several summaries of SDT are available32, 33; and we outline the main tenets of SDT in Table 1.

표 1 자기결정론의 주요 교리 
TABLE 1 Main tenets of self-determination theory32,33

  • 인간은 성장 지향적이며, 심리적 요소를 개발하고 내면화하며 통합되고 통일된 자아의 감각을 구축하려는 자연스러운 경향이 있다. 이러한 자연적인 발달 경향은 내외부의 힘에 의해 자극되거나 방해될 수 있다. 
  • 성장과 통합을 촉진하는 데 중요한 세 가지 선천적 심리적 욕구가 있다: 역량, 자율성, 타인과의 관련성.
  • [자율성]은 인과관계의 내적 인식의 중심지로 정의된다; 자율성을 위한 선택과 기회를 제공하는 것은 사람들에게 자율성을 더 크게 느끼게 할 수 있다.
  • 인간의 동기는 인간의 행동을 유도하고, 내부 또는 외부 압력으로부터 파생될 수 있으며, 무동기, 외적 동기, 내재적 동기의 스케일로 존재한다.
    • 내재적 동기 부여는 외부의 통제에서 자유로운 것으로서, 관심, 흥분, 자신감 증가와 연결돼 성과와 지속성, 창의성을 높인다.
  • 내재적 동기 부여가 지속되려면 지지적 조건을 필요로 하고, 이것이 [역량과 자율성]이다. 역량의 느낌을 촉진하는 사건들은 본질적인 동기를 강화시킬 수 있다.
  • 우리의 행동이 외적 동기부여에 의해 움직이는 많은 사회적 맥락이 있다; 외적 동기 내에서 [다양한 수준의 상대적 자율성]이 있을 수 있다. 더 높은 수준의 자율성은
    • 식별(다른 사람이 만든 규칙에 대한 이해 확대)과
    • 통합(규칙을 개인의 규범과 가치에 연결)으로 이어지고,
    • 자기 결정으로 이어진다.
  • 통합은 '확인된 규정이 자신과 완전히 동화될 때' 발생하며, 이는 자신의 다른 가치와 요구에 부합하고 평가되었을 때 발생한다.
  • 관계성, 즉 타인과 소속감과 연결성을 느끼는 필요성은 내면화internalisation에 있어 중심적으로 중요하다.
  • Humans are growth-oriented and naturally inclined to develop, internalise and integrate psychological elements to build an integrated and unified sense of the self. This natural developmental tendency can be stimulated or hampered by internal and external forces. 
  • There are three innate psychological needs that are important in facilitating growth and integration—competence, autonomy and relatedness to others.
  • Autonomy is defined as an internal perceived locus of causality; providing choice and opportunities for self-direction can allow people a greater feeling of autonomy.
  • Human motivation drives human behaviour, can be derived internally or from external pressures and is present on a scale from amotivation, extrinsic motivation and intrinsic motivation.
    • Intrinsic motivation, which is free from external control, is linked to increased interest, excitement and confidence, which enhances performance, persistence and creativity.
  • Intrinsic motivation requires supportive conditions to sustain—namely competence and autonomy; events that promote feelings of competence can enhance intrinsic motivation.
  • There are many social contexts where our behaviour is driven by extrinsic motivation; there can be various levels of relative autonomy within extrinsic motivation, which higher levels of autonomy leading to
    • identification (sincere understanding of a rule made by others) and
    • integration (connecting rules to personal norms and values),
    • leading to self-determination. 
  • Integration occurs ‘when identified regulations are fully assimilated to the self, which means they have been evaluated and brought into congruence with one's other values and needs’.
  • Relatedness, the need to feel belongingness and connectedness with others, is centrally important to internalisation.

자율성과 발전을 고려할 때, SDT는 다음의 문제를 다룬다. 

  • 동기부여(무동기에서, 외적 동기부여, 내재적 동기부여로), 
  • 조절 스타일(외적 조절에서 내부 조절로)  
  • 인지된 인과관계 중심(외부에서 내부로)

SDT는 관련 동기, 규제 스타일 및 인지된 인과 관계 중심과 함께 비자체 결정에서 완전한 자기 결정으로 이어지는 행동 제어의 중요한 연속체를 설명한다(그림 1). 의학 교육 내에서 학습자가 하는 일의 거의 대부분이 엄격하게 내부적으로 동기 부여를 받지 않기 때문에, 이 연속체를 이해하는 것은 (슈퍼비전과 외적 동기 부여 내에서조차) 학습자 선택권의 제공이 어떻게 내부적 통제internal locus of control와 직업의 규칙 및 규범의 통합으로 이어질 수 있는지에 대한 통찰력을 제공한다. 

When considering autonomy and development, SDT addresses issues of

  • motivation (from amotivation to extrinsic motivation to intrinsic motivation),
  • styles of regulation (from external to internal regulation) and
  • perceived locus of causality (from external to internal).32 

SDT describes an overarching continuum of behavioural control from non-self-determined to completely self-determined, with associated motivation, regulatory styles and perceived locus of causality (Figure 1).32 Since little of what learners do within medical education is strictly internally motivated, understanding this continuum provides insight into how provision of learner choice, even within supervision and extrinsic motivation, can lead to an internal locus of control and integration of the rules and norms of the profession.32 

레지던트 교육에서, 역량 프레임워크는 [역량의 형태]로 학습자에게 직업에 대한 규칙, 가치, 규범을 제공한다. 의학 교육자들은 이러한 규칙, 가치, 규범들이 훈련생의 직업적 정체성에 통합되기를 희망한다. SDT는 [역량, 관계성 및 자율성에 대한 교육생의 요구를 지원하는 것]이 어떻게 [전문직업적 행동의 통합적 조절integrated regulation 발달]을 위한 [규칙, 가치 및 규범의 내면화]를 통해 정체성 형성에 이르게 할 수 있는지를 조명한다. SDT를 의료교육에 적용하기 위한 핵심은 자율성을 함양하고 전문성 기준을 통합 정체성으로 내실화 및 통합을 촉진하는 맥락적 요소에 대한 생각에서 비롯된다. 감독이라는 맥락 안에서 선택의 제공, 감정의 인정, 그리고 자기 지도에 대한 기회들은 모두 자율성을 강화시키는 역할을 한다. 이러한 방식으로 SDT는 감독 내 자율성의 개념화를 지지한다.

Within residency training, competency frameworks provide the rules, values and norms for the profession to learners in the form of competencies. Medical educators hope that these rules, values and norms become integrated into the professional identity of the trainee. SDT illuminates how supporting a trainees’ needs for competence, relatedness and autonomy can lead to identity formation through the internalisation of these rules, values and norms to develop an integrated regulation of professional behaviour.32 The key to the application of SDT to medical education takes root in thinking about the contextual factors that foster a sense of autonomy and promote the internalisation and integration of the standards of professionalism into an integrated identity. Within the context of supervision, the provision of choice, acknowledgement of feelings and opportunities for self-direction all serve to enhance feelings of autonomy.32 In this way, SDT supports the conceptualisation of autonomy within supervision.

 

4 의료 교육에 대한 SDT의 적용 및 자율성
4 APPLICATION OF SDT AND AUTONOMY TO MEDICAL EDUCATION

SDT의 렌즈를 통해 자율성을 개념화하면 교육 개입과 감독 및 자율성에 대한 향후 연구의 길이 열린다. 자율성을 인과관계의 내적 인식의 중심지로 정의하면 자율성이 독립성, 감독 감소, 학습자에게 부여된 책임 증가라는 구조적 문제로부터 분리된다. 자율성 지원, 의료교육에서의 자율성 지원과 코칭의 관계, 향후 연구에 대한 시사점 등에 대해 논의할 예정이다.

Conceptualising autonomy through the lens of SDT provides an avenue for education interventions and future research on supervision and autonomy. Defining autonomy as an internal perceived locus of causality separates autonomy from the structural issues of independence, decreased supervision and increased responsibility granted to learners as they progress through medical education. We will discuss autonomy support, the relationship between autonomy support and coaching in medical education, and implications for future research.

4.1 감독구조 내 자율지원
4.1 Autonomy support within supervision structures

우리는 SDT를 의료 교육 감독에 적용하기 위해 [자율성 지원]의 개념을 그립니다. [자율성 지원]은 대인관계를 지향하는 교육으로서, 교육자는 학습자에게 [선택권, 선택을 위한 정보, 제안된 행동에 대한 의미 있는 이유, 학습자의 감정에 대한 인정, 선택과 지속의 장려]를 제공한다.1 의학 교육에서 자율적 동기 부여는 통제된 동기(외압이나 보상으로 인한 동기 부여)보다 더 나은 학습 노력과 전략, 더 나은 학업 성과, 그리고 덜 소진되는 것과 관련이 있다. (학습자 자율에 대한 교사 지원 등) 보건의료 분야의 자율성 지원은 자율적 동기부여를 유발하고 자율적 조절의 개발을 유도한다. 

We draw on the concept of autonomy support to apply SDT to supervision in medical education. Autonomy support is an interpersonal orientation to education where educators provide learners with choices, information to make those choices, meaningful rationales for suggested actions, acknowledgement of learners’ feelings and encouragement to choose and to persist.1 Within medical education, autonomous motivation has been associated with better learning effort and strategy, better academic performance and less exhaustion than controlled motivation (ie motivation from external pressures or rewards).34 Autonomy support in the health professions, including teacher support of learner autonomy, generates autonomous motivation and encourages the development of self-regulation.35, 36 

자율성을 [감독으로부터의 독립성] 이상으로 보는 교육자들은, 자율성을 지원하는 임상 지도와 교육을 더 잘 제공할 수 있다. 학습자에게 선택권을 주고 그 선택을 지원하는 것은 교수진과 수습생 개발 과정을 연결시켜줍니다. 이는 전공의의 PIF에게 중요한 질문으로 이어진다. 즉, 감독자가 감독 요청을 준수하면서 임상 학습 환경에서 선택과 합법적인 의사 결정 기회를 제공할 수 있는 방법은 무엇인가? 임상 환경에서 자율적 지원을 제공하는 다양한 방법이 있다. 예로는 다음이 포함된다.

  • 학습자의 목표와 니즈를 탐색하고,
  • 지속적인 토론에 참여하며,
  • 학습에 대한 더 큰 책임감을 장려하고,
  • 가이드를 제공하고,
  • 최적의 과제를 제시하며,
  • 효과적인 피드백을 제공하고,
  • 최적의 지원을 제공하며,
  • 궁극적으로 학습자의 성장과 발전에 대한 관심과 투자를 보여준다.

Viewing autonomy as more than independence from supervision, educators can better provide autonomy-supportive clinical supervision and teaching. Giving learners choices and supporting those choices links faculty to the process of trainee development. This leads to a key question for resident PIF—how can supervisors provide opportunities for choice and legitimate decision making in the clinical learning environment while still abiding by supervisory requirments?8, 34 Providing autonomy support in the clinical environment is multi-faceted. Examples include

  • exploring a learner's goals and needs,
  • engaging learners in ongoing discussion,
  • encouraging greater responsibility for learning,
  • providing guidance,
  • presenting optimal challenges,
  • offering effective feedback,
  • providing optimal support and
  • ultimately demonstrating interest and investment in learners growth and development.37 

이러한 자율 지원 사례는 새로운 것이 아니며, 최적의 도전과 지원을 통해 학습자 성장을 장려하는 멘토링 모델로 되돌아간다.38 슈퍼바이저가 과도한 도전을 아무런 지원 없이 제공할 경우 학습자 후퇴 또는 탈진으로 이어질 수 있다. 반면에, 감독자가 도전 없이 높은 지원을 제공할 경우, 학습자는 성장이 없는 확신만 갖게 될 수 있다.38 자율 지원을 제공하는 것은 역량, 관련성 및 자율성의 요구를 촉진하기 위해 도전과 지원을 모두 최적화하는 것을 수반한다.

These examples of autonomy support are not novel, and they hearken back to mentoring models of encouraging learner growth through providing optimal challenge and support.38 When supervisors provide high challenge with no support, this may lead to learner retreat or even burnout. On the other hand, when supervisors provide high support with no challenge, this can lead to confirmation without learner growth.38 Providing autonomy support entails optimising both challenge and support to facilitate the needs of competence, relatedness and autonomy.

슈퍼비전의 자율성 지원을 한발 더 나아가면, 자율지원이 어떻게 다른 유형의 감독에 정보를 줄 수 있는지를 가시화할 수 있다. 감독 유형에 대한 이전의 논의로 돌아가서, 전공의는 '마이크로 매니저'에서 '부재자'까지 감독 범위를 파악했다. 이 두 극단 모두 자율성을 지지하지 않는다.

  • [마이크로 매니저]는 레지던트 선택권을 제공하지 않는 반면,
  • [자리 비운 주치의]는 의학적 의사결정에 대한 선택을 서포트하지는 않으면서 독립성만을 제공한다.

Taking the application of autonomy support to supervision a step further, we can visualise how autonomy support can inform different types of supervision. Going back to our previous discussion of types of supervision, residents identified a spectrum of supervision from ‘micro-manager’ to ‘absentee’ attending.27 Neither of these extremes are autonomy-supportive.

  • The micro-manager does not provide resident choice, while
  • the absentee attending provides independence with no support for choice over medical decision making.

우리는 감독에 대한 이해를 높이기 위해, 감독 범위에 대한 [자율적 지원]의 유무 ['핸즈 온'에서 '핸즈 오프']로 오버레이할 수 있다. 이는 적절한 자율성 지원을 받는 'hands-on' 접근 방식이 코칭 관계로 이어지는 반면, 자율 지원에 대한 'hands-off' 접근 방식은 동료와의 상호작용에서 확인할 수 있음을 보여줍니다(그림 2). 자율성 지지적, 핸즈 온 감독의 좋은 예는

  • 학습자의 요구를 평가하고,
  • 학습자에게 적절히 첼린지하며,
  • 학습자가 의사 결정을 내리고 자신의 추론을 탐구하도록 하고,
  • 개입할 때 허락을 먼저 받고, 임상 진료를 롤 모델하는 것.

이렇게 해야만, 마이크로 매니징에서 자율성-지지적, 핸즈-온 슈퍼비전으로 나아갈 수 있을 것이다.

We can overlay the presence or absence of autonomy support on this spectrum of supervision from ‘hands on’ to ‘hands off’ to augment our understanding of supervision.29 This demonstrates how a ‘hands-on’ approach with appropriate autonomy support can lead to a coaching relationship, while a ‘hands-off’ approach to autonomy support can be seen in the interaction of colleagues (Figure 2). A great example of autonomy-supportive, hands-on supervision is a faculty member who

  • assesses learners’ needs,
  • challenges learners appropriately,
  • pushes learners to make decisions and probes their reasoning, and
  • asks permission to step in and role model aspects of clinical care.39 

These strategies help to differentiate autonomy-supportive, hands-on supervision from micromanaging in the clinical training environment.

 

 

4.2 의료교육 자율지원 및 지도
4.2 Autonomy support and coaching in medical education

의학 교육 문헌에서 슈퍼비전에 대한 자율성 서포트가 적용되는 모습을 암묵적으로 볼 수 있는 한 곳은 피드백과 코칭에 대한 현재의 논의이다. SDT를 렌즈로 사용하는 것은 [시기적절하고 건설적인 피드백의 제공]이 의학 교육에서 역량의 감정을 뒷받침하는 데 매우 중요하며 자율적 지원과 연계되면 더 높은 형태의 자율 규제를 촉진할 수 있다. 학습을 위한 평가AfL 및 형성적 피드백이 CBME의 목표이지만, 평가에 대한 학습자의 인식이 효과적인 피드백 제공을 통해 학습자 개발을 방해할 수 있는 평가와 피드백 사이에는 단절이 남아 있다. 이러한 과제를 해결하기 위해 감독자와 학습자가 피드백을 탐색하고, 목표를 설정하고, 피드백을 받고, 이를 실천에 통합하는 [피드백 협업 모델]을 지원하는 의학 교육 관련 문헌이 증가하고 있다. 

One place we implicitly see the application autonomy support to supervision in the medical education literature is the current discussions on feedback and coaching. Using SDT as a lens, the provision of timely and constructive feedback is crucial to supporting feelings of competence in medical education,35 and when linked to autonomy support can promote higher forms of self-regulation.36 While assessment for learning and formative feedback are goals of CBME,40 there remains a disconnect between assessment and feedback, where learner perceptions of evaluation may hinder learner development through the provision of effective feedback.41 To address these challenges, there is a growing body of literature in medical education supporting a collaborative model of feedback, where the supervisor-as-teacher and learner are engaged in seeking, setting goals for, receiving and integrating feedback into practice.42-47 

그러나 양질의 피드백을 구현하고 교사와 학습자를 피드백 대화에 참여시키는 것에는 중대한 과제가 남아 있다. [학습자와의 관계 형성]에 참여하고 투자하는 교수진과의 관계 발전과 참여에 대한 더 큰 관심은 피드백 대화의 질을 향상할 수 있는 가능성을 가지고 있습니다. [피드백 대화]라는 개념은 [교사와 학습자 간 양질의 형성적 피드백 대화를 촉진하기 위한 특정한 형태의 협력 관계]로서 코칭을 도입시켰다. CBME의 공식적인 부분은 아니지만, 코칭은 학습자의 역량 개발을 지원하기 위한 수단으로서 설득력을 얻고 있으며, 캐나다 왕립의과대학은 CanMEDS의 역할을 보완하기 위한 코칭 모델까지 개발했습니다. 
Yet, there remain significant challenges to implementing high-quality feedback and engaging teacher and learner in feedback conversations.48 Greater attention to relationship development and engagement, with faculty members who are involved and invested in building relationships with learners, hold promise for improving the quality of feedback conversations.47, 48 The concept of feedback conversations has led to the introduction of coaching as a specific form of collaborative relationship to promote high-quality, formative feedback conversations between teacher and learner.49-55 While not a formal part of CBME, coaching is gaining traction as a means to support developing competence in learners, and the Royal College of Physicians and Surgeons of Canada has even developed a model of coaching to complement the CanMEDS roles.49 


https://www.royalcollege.ca/rcsite/cbd/implementation/wbas/coaching-and-cbd-e

cbd-coaching-model-handout-en.pdf
0.68MB
cbd-coaching-model-slides-en.pptx
6.25MB
work-based-assessment-practical-implications-implementation-guide-e.pdf
0.51MB
work-based-assessment-practical-implications-clinical-teachers-e.pdf
0.16MB


 

코칭에 대한 개념적 프레임워크는 임상 코치와의 작업으로부터 도출되었으며, 코칭 모델은 관계 형성을 지원하고 피드백 대화를 용이하게 하기 위해 특별히 개발되었다. 의학 교육 내 코칭의 개념화를 살펴보면 SDT(표 2)에서 도출한 '자율정 지원autonomy support'과 상당 부분 겹친다. '자율성 지원'의 개념은 '교육적 파트너십'으로 의료교육에서 코칭 및 피드백 대화의 개념을 통합한다.1 역량 개발 및 통합 직업적 정체성 형성을 촉진하기 위해 CBME 내에서 코칭 통합의 타당성에 대한 논쟁이 남아있지만, SDT 개념을 코칭에 적용하면 전문적 정체성 형성을 지원하기 위한 임상 학습 환경에서 코칭에 추가적인 신빙성을 제공할 수 있다.

A conceptual framework for coaching has been derived from work with clinical coaches50 and models of coaching have been developed specifically to support relationship-building and facilitate feedback conversations.51-53 When we examine the conceptualisation of coaching within medical education, we see significant overlap with ‘autonomy support’ derived from SDT (Table 2). The conceptualisation of autonomy support as an ‘educational partnership’ unifies the concepts of coaching and feedback conversations in medical education.1 Although there remains debate about the feasibility of integrating coaching within CBME to promote the development of competence and the formation of an integrated professional identity,54, 55 applying SDT concepts to coaching can provide additional credence to coaching in the clinical learning environment to support professional identity formation.

 

의사 개발로 돌아가면, 우리는 의학교육에서 자율성 지원의 역할을 '통합'을 지지하는 것으로 본다. 이 '통합'은 '동일시되었던 규제가 자신의 다른 가치 및 요구와 일치하도록 평가되고 받아들여졌다는 것'을 의미한다. 이 통합의 과정은, 자율성 지원과 합해졌을 때, 의학교육에서 말하는 명시적 목표인 PIF에 부합한다 - 즉 미래 의사라는 정체성에 전문직의 가치와 태도를 통합하는 것을 반영한다. 의학교육에서 PIF는 멘토와 경험에 의해 영향을 받고 성찰에 의해 중재되는 사회화 과정이다.7 전공의에게 진정한 책임을 주고, 환자진료를 위한 실질적인 의사결정을 하게 만듦으로써 환자 진료에서 전공의의 자율성과 참여도를 높이고, [환자 진료를 둘러싼 책임과 오너십의 가치]를 중심으로 정체성이 형성되도록 지원할 수 있다. 코칭은 의학 교육에서 전문적인 정체성 형성을 위한 이상적인 환경을 제공합니다. 코칭 모델을 SDT 원칙과 일치시키면 교수 감독관이 학습자에 대한 자율적 지원을 제공하고 핵심 역량을 전문적 정체성 형성에 대한 전체론적 관점으로 통합하는 임상 감독 내에서 관계 형성에 대한 정보를 제공할 수 있습니다.

Circling back to physician development, we see the role of autonomy support in medical education as supporting ‘integration’, which occurs when ‘identified regulations are fully assimilated to the self, which means they have been evaluated and brought into congruence with one's other values and needs’.32 This process of integration, supported by autonomy, echoes the stated goal of PIF in medical education—the incorporation of the values and attitudes of the professional into the identity of the aspiring physician.56 PIF in medical education is a socialisation process that is influenced by mentors and experiences and moderated by reflection.7 Engaging residents by providing real responsibility and supporting them to make real decisions for patient care increased residents’ autonomy and engagement in patient care, supporting identity formation around the values of responsibility and ownership for patient care.8 Coaching offers an ideal setting to foster professional identity formation in medical education.54 Aligning coaching models with SDT principles can inform relationship-building within clinical supervision, where faculty supervisors provide autonomy support for learners and facilitate the integration of core competencies into a holistic view of professional identity formation.

요약하자면, 독립성과 감독에 대한 전통적인 개념을 넘어, 자율성의 동기 부여와 발달적 개념화를 포함하는 것으로 자율성을 확장한다면 감독자와 훈련생 사이의 미묘한 관계를 검토할 수 있는 렌즈를 제공한다. 감독의 양quantity이 학습자 자율성에 역할을 하는 반면, 감독관은 코칭과 같은 감독 모델을 통해 교육생들에게 자율성 지원을 할 수 있고, 수련기간동안 직업의 규범과 가치를 통합할 수 있는 기회를 제시할 수 있다. 자율성 지원은 감독관이 [(독립성을 높이고 감독을 줄이는) 게이트키퍼 역할]에서 [발달 과정에서 교육생의 가이드 역할]로 바꿔준다.
In summary, expanding autonomy beyond traditional notions of independence and supervision to include a motivational and developmental conceptualisation of autonomy provides a lens to examine the nuanced relationship between supervisor and trainee. While the quantity of supervision does play a role in learner autonomy, supervisors can provide autonomy support to trainees through models of supervision like coaching and present opportunities for integration of the norms and values of the profession throughout training. Providing autonomy support moves supervisors from the role of gatekeeper of increasing independence and decreased supervision, to the role of guide for trainees through the developmental process.

 

4.3 의학교육 연구의 자율성 및 감독
4.3 Autonomy and supervision in medical education research

SDT를 사용하여 자율성을 개념화하는 것은 몇 가지 가능한 연구 질문을 제공한다.

  • 첫째, 감독자의 어떤 행동이 교육생들로 하여금 자율성을 인식하게 하는가? 이것은 단순화된 감독 개념과 자율성 사이의 연관성을 찾는 것에서 벗어나 이러한 개념의 복잡성을 탐구하는 것으로 옮겨진다.
  • 둘째, 훈련 프로그램은 임상 교육과 자율성 지원을 어떻게 통합합니까? 학습자 동기를 포함한 정서적 영역은 의학 교육 내의 커리큘럼 개발에서 종종 간과된다. 연구자들은 훈련 프로그램이 코칭과 같은 자율지원 모델을 임상훈련에 어떻게 통합할 수 있는지를 이해하기 위해 임상훈련의 구조를 계속 검토할 필요가 있다.
  • 마지막으로, 교수가 자율성 지원을 더 잘 하도록 어떻게 훈련시킬 수 있을까요? 임상 학습 환경에서 자율적 감독을 위한 교수진 개발에 대한 더 많은 연구가 필요하다.

임상 교육 내 자율 지원의 중요성과 통합에 대한 연구는 의료 교육에서 자율 지원의 역할에 대한 광범위한 이해를 제공하기 위해 학습자 궤적, 전문 분야 및 기관에 걸쳐 다양한 환경에서 연구되어야 한다.

Conceptualising autonomy using SDT offers several possible research questions.

  • First, what supervisor behaviours lead to trainees’ perceptions of autonomy? This moves research away from seeking associations between simplified notions of supervision and autonomy to exploring the complexity of these concepts.
  • Second, how do training programs integrate autonomy support into clinical teaching? The affective domain, including learner motivation, is often overlooked in curriculum development within medical education.57 Researchers need to continue to examine the structure of clinical training to understand how training programmes can integrate models of autonomy support, like coaching, into clinical training.
  • Lastly, how do we train faculty to be more autonomy-supportive? More research is needed on faculty development for autonomy-supportive supervision in the clinical learning environment.

Research on the importance and integration of autonomy support within clinical teaching should be studied in diverse settings, across learner trajectories and across specialties and institutions, to provide a broad understanding of the role of autonomy support in medical education.1

5 결론
5 CONCLUSIONS

임상 환경에서 교육생의 성장과 발전을 위해서는 자율성이 중요하다. 의사, 교육자, 연구자가 발전하는 과정에서 자율성의 역할을 더 잘 이해하기 위해서는 [감독과 자율성의 관계]에 대한 생각을 [순수한 역관계]가 아니라, [학습자에게 자율성을 늘이거나 줄이는 '슈퍼비전'을 제공하는 방법을 인식]하는 것으로 확장해야 한다. 그럼으로써 배움과 성장을 위한 동기부여에 영향을 줄 수 있을 것이다.

Autonomy is critical for the growth and development of trainees in the clinical environment. To better understand the role of autonomy in the developing physician, educators and researchers need to expand their thinking about the relationship between supervision and autonomy, from a purely inverse relationship to one that recognises ways of providing ‘supervision’ that can give learners more or less autonomy and thereby affect their motivation to learn and grow.

SDT는 자율성을 보편적인 심리적 욕구로 분류하고 동기를 강화하고 직업의 규범과 가치를 통합된 행동 규제로 내실화하는 것을 촉진하기 위해 학습자 자율성을 지원하는 것의 중요성을 강조한다. 의료교육 분야가 지속적으로 발전함에 따라 SDT는 교육자와 연구자가 피드백과 코칭 영역에서 자율지원의 역할을 이해할 수 있는 틀을 제공할 수 있어 학습자 중심의 교육 및 전문적 정체성 형성에 대한 CBME의 약속을 이행하고자 함에 따라 교육현장의 발전을 도울 수 있다. 지도자의 적절한 양과 질과 연계하여 자율적 지원을 함으로써 학습자가 전문적 정체성이 잘 발달되어 있고 상호의존적인 의술을 실천할 준비가 되어 있는 의사로 발전하는 것이 촉진될 것이다.

SDT classifies autonomy as a universal psychological need and highlights the importance of supporting learner autonomy to enhance motivation and facilitate the internalisation of the norms and values of the profession into an integrated regulation of behaviour. As the medical education field continues to develop, SDT can provide a framework for educators and researchers to understand the role of autonomy support in the areas of feedback and coaching, helping to move the field forward as it seeks to fulfil the promises of CBME for learner-centred education and professional identity formation. Providing autonomy support in connection with appropriate quantity and quality of supervision will facilitate the development of learners into a physician with a well-developed professional identity and ready for the interdependent practice of medicine.

 


Med Educ. 2022 Jan;56(1):56-63.

 doi: 10.1111/medu.14580. Epub 2021 Jun 20.

Autonomy and developing physicians: Reimagining supervision using self-determination theory

Affiliations collapse

Affiliations

1Division of General Internal Medicine, Mayo Clinic, Rochester, MN, USA.

2Department of Medicine and Center for Faculty Educators, University of California, San Francisco, CA, USA.

3Program in Professionalism and Values, Mayo Clinic, Rochester, MN, USA.

PMID: 34091940

DOI: 10.1111/medu.14580

Abstract

In this article, we address the question, 'What is the role of autonomy in physician development?' Medical education is a developmental process, and autonomy plays a motivational role in physician development. Calls for increased supervision of residents have raised concerns that the resulting decreased autonomy might interfere with resident development, leading the authors to explore the relationship between supervision and autonomy. The medical education literature posits a simple inverse relationship between supervision and autonomy. Within competency frameworks, autonomy is operationalised as independence and viewed as the end goal of training. Alternatively, there is emerging empirical literature describing autonomy and supervision as dynamic and developmental constructs and point towards more complex relationship between supervision and autonomy. Self-determination theory (SDT) presents a framework for understanding this dynamic relationship and the role of autonomy in physician development. Within SDT, autonomy is a fundamental psychological need, associated with motivation for learning, self-regulation and an internal locus of control. Supporting learner autonomy can afford learners the opportunity to internalise the values and norms of the profession, leading to an integrated regulation of their behaviours and actions. Conceptualising autonomy through the lens of SDT provides an avenue for education interventions and future research on supervision and autonomy. Educators can integrate supervision and autonomy support in the clinical setting, seeking to motivate learner development by balancing optimal challenge and support and integrating autonomy support with 'hands-on' approaches to supervision. SDT also provides a theoretical framework relevant to current discussions regarding feedback conversations and coaching in medical education. Lastly, conceptualising autonomy using SDT opens new avenues for investigation, exploring the complex relationship between supervision and autonomy and developing efforts to integrate autonomy support with clinical supervision.

표상, 상호작용, 해석. 임상추론 이해하기 (Med Educ, 2022)
Representation, interaction and interpretation. Making sense of the context in clinical reasoning
Charilaos Koufidis1,2 | Katri Manninen1,3 | Juha Nieminen1 | Martin Wohlin4 | Charlotte Silén1

1 | 소개
1
|
INTRODUCTION


모든 사고는 일종의 맥락에서 일어나고, 그래서 맥락과 임상적 추론 사이의 관계를 중요한 문제로 만든다. 그러나 1-3 맥락은 의학 교육에서 악명높게 모호하고 논쟁적인 의미를 갖는다. 우리는 우리의 맥락에 너무 익숙해서 문자 그대로 우리에게 보이지 않게 된다. 맥락에 대한 다양한 해석이 제시되었다. 컨텍스트는 임상 상황의 상호작용 패턴의 상호작용, 활동의 신생 산물 또는 개인을 둘러싼 요소 등 서로 다른 요소를 '함께 엮는' 직물로 정의되기도 했다. (의료 사례 또는 물리적 환경의 임상 플롯을 구성하고, 헌신과 참여를 동원(또는 그렇지 않음)하는 것의 중요성과 같은) 맥락의 특정 측면을 강조하는 연구자도 있다.

All thinking occurs in some sort of context, rendering the relation between context and clinical reasoning a matter of significant interest. 1-3 Context, however, has a notoriously vague and contested meaning in medical education. We are so accustomed to our contexts that they literally become invisible to us.4 Various interpretations of context have been put forward.

  • Context has been defined as a fabric ‘weaving together’ the different elements of the clinical situation,2 an interplay of dynamically interacting patterns,4 an emergent product of activity or an element surrounding the individual.5
  • Others have emphasised particular aspects of context such as constituting the clinical plot of a medical case or the physical settings and its importance in mobilising (or not) commitment and engagement.6,7

맥락에 기인하는 이 의미에서의 심오한 불일치는 실망스러울 수 있지만, 놀랄 일은 아니다. 실제로, 임상 추론은 인지 심리학, 의학 인류학 또는 의학 사회학과 같은 다양한 학문 분야에서 주장하는 연구 대상을 구성한다. 각 분야는 임상적 추론을 이해하기 위한 합법적인 방법인 특정 세계관을 수용하는 다양한 상충하는competing '연구 전통'을 수용하며, 타당한 연구 질문 및 방법론뿐만 아니라 사고, 가치, 이론 및 개념의 뚜렷한 습관에 의해 제한된다. 연구 전통은 (암묵적으로든 명시적으로든) 지식의 본질과 관련된 근본적인 인식론적 가정에 기초한다. 이러한 '지도 가정guiding assumption'은 무엇을 지식으로 간주할 것인지를 결정할 뿐만 아니라, 지식 창조를 위한 합법적인 방법론을 지지한다. 
This profound disaccord in the meaning ascribed to context may be frustrating, but should come as no surprise. Indeed, clinical reasoning constitutes an object of study claimed by diverse academic disciplines, such as cognitive psychology, medical anthropology or medical sociology. Each discipline accommodates various competing ‘research traditions’ each embracing a certain worldview, a legitimate way of understanding clinical reasoning, bounded by distinct habits of thinking, values, theories and concepts as well as valid research questions and methodologies.
8 These research traditions are grounded, tacitly or explicitly, on fundamental epistemological assumptions concerning the nature of knowledge and knowing. Such ‘guiding assumptions’8 not only authorise what counts as knowledge but also endorse legitimate methodologies for knowledge creation.9


[인식론적 주장]은 서로 다른 연구 전통이 어떻게 임상적 추론과 결과적으로 맥락을 개념화하는지 중요하게 결정한다. 맥락에 관한 우리의 이해를 증진시키기 위해서는 임상적 추론의 인식론적 토대를 고려해야 한다. 이런 점에서 맥락은 고정된 실체와는 거리가 멀다. 대신, 맥락의 의미는 다양한 연구 전통의 담론 내에서 능동적으로 생산, 협상 및 정당화된다.10 맥락의 의미를 이해하는 것은 임상적 추론이 개념화되는 방법에 대한 이해가 필요하다. 

Epistemological claims determine importantly how different research traditions conceptualise clinical reasoning and consequently context. Advancing our understanding regarding context requires then taking the epistemological underpinnings of clinical reasoning into consideration. Context, in this respect, is far from being a fixed entity. Instead, its meaning is actively produced, negotiated and legitimised within the discourses of different research traditions.
10 Understanding the meaning of context necessitates understanding of how clinical reasoning is conceptualised.11

1.1 | 왜 맥락이 정말 중요한가?
1.1
|
Why does context really matter?

최근 몇 년 동안, 많은 연구자들은 맥락을 다룰 것을 요구해 왔다.  그러나 우리는 맥락이 임상적 추론에 미치는 영향(또는 그렇지 않은)을 조사하는 경험적 증거는 맥락에 기인하는 의미에 대한 참조 없이 해석될 수 없다고 주장한다. 또한 맥락을 이해하는 것은 (한 상황에서 임상적 문제의 성공적인 수행이 다른 상황에서 성공적인 수행을 제대로 예측하지 못하는) 맥락 특이성이라는 널리 관찰되는 현상에 중요한 영향을 미친다. Eva가 언급했듯이, 맥락 특이성은 중요한 문제를 제기한다. 인지 능력(임상 추론 포함)이 정말로 고정된 성향인지 아니면 오히려 맥락에 묶인 상태인지의 역량에 대한 평가에 대한 공명적인 함의를 지니기 때문이다. 이 이슈는 분명히 많은 관심을 끌었다.  우리는 앞으로 나아가는 길이 맥락의 의미를 관점에 두는 것을 수반한다고 주장한다. 마지막으로, 의료 교육에서 학습 환경의 다양화가 증가하는 시대에 맥락을 조사하면 이러한 다양한 학습 맥락이 임상 추론 학습에 미치는 잠재적 영향을 발견할 수 있다.4
In recent years, many researchers have called for addressing context.
3,12,13 We argue, however, that empirical evidence examining the impact (or not) of context on clinical reasoning cannot be interpreted without reference to the meaning ascribed to context. Furthermore, making sense of context has important implications for the widely observed phenomenon of context specificity where successful performance in a clinical problem in one situation is poorly predictive of successful performance in a different situation.14,15 As Eva remarks, context specificity raises a crucial matter with resonating implications for the assessment of competences of whether cognitive skills (including clinical reasoning) are indeed stable dispositions or rather context-bound states.14 This issue has obviously attracted much attention. 13,14,16 We argue that the path forward involves putting the meaning of context into perspective. Lastly, in an era of growing diversification of learning environments in medical education, examining context could reveal the potential implications these diverse learning contexts have on the learning of clinical reasoning.4

 

2 | 맥락의 인식론적 차원
2
|
EPISTEMOLOGICAL DIMENSIONS OF CONTEXT

임상 추론과 관련된 맥락의 세 가지 주요 인식론적 차원을 제안한다; '표상', '상호작용', '해석'이며, 이 셋은 각각 '앎의 근본적인 패턴'에 해당한다. (그림 1) 각 차원 아래에서, 우리는 임상 추론(특정 연구 전통에 해당하는)의 주요 이론을 식별한다.인식론적 주장에 따라 그림 삼각형 안에 배치한다(그림 2). 표 1과 2는 중요한 점을 요약하고 있다. 이론은 정적인 구조가 아니라 끊임없이 발전하고 수정되고 다른 방식으로 해석된다. 이 점에서, 그림 2에서 삼각형 내부의 다른 이론들의 위치는 정확한 좌표로 이해되지 않고 대략적인 근사치로 이해되어야 한다.

We suggest three main epistemological dimensions of context in relation to clinical reasoning; ‘Representation’, ‘Interaction’ and ‘Interpretation’, each of them corresponding to ‘fundamental patterns of knowing’.18 (Figure 1) Under each dimension, we identify the main theories of clinical reasoning (corresponding to particular research traditions) and position them inside the illustrated triangle, according to their epistemological claims (Figure 2). Tables 1 and 2 summarise important points. Theories are not static constructs but are constantly advanced, modified and interpreted in different ways. In this respect, the positions of different theories inside the triangle in Figure 2 should not be understood as exact coordinates but as rough approximations.

 

 

3 | 표상 차원
3
|
REPRESENTATIONAL DIMENSION


(임상추론에 관한) 지배적인 사고방식은 인지과학의 문제해결 전통에서 비롯되며 임상추론을 범주화categorization 행위로 간주한다. 의사는 질병의 두드러진 특징을 인식하며, 이는 결국 이러한 특징에 가장 잘 맞는 해당 범주의 장기 기억에서 호출을 활성화한다. 패턴 인식은 비분석적 추론의 근간이며, 의사가 '특정한 종류의 자극과 사건에 대하여 [이전 경험에서 얻은 지식]으로부터' 귀납적 추론을 할 수 있게 한다. 이는 (과거의 지식이) '미래의 유사한 자극과 사건에 대한 의미를 부여하고 기대를 유도'하기 때문이다. 비분석적 추론은 이전에 접한 환자에서 관찰된 특징을 기반으로 새 환자에 대한 예측(예측)을 가능하게 한다.
A dominant line of thought originates from the problem-solving tradition in cognitive science and considers clinical reasoning an act of categorisation. The physician recognises salient features of a disease, which, in turn, activates the recall from long-term memory of the corresponding category that best fits these features.19,20 This pattern recognition constitutes the basis of non-analytical reasoning, affording the physician to make inductive inferences from knowledge acquired ‘from previous experience with respect to a given class of stimuli and events’ which ‘gives meaning and guides anticipation with respect to similar stimuli and events in the future’.21 Non-analytical reasoning enables making a prediction (diagnosis) for a new patient based on features observed in previously encountered patients.

인지과학의 많은 연구는 [장기 기억에 과거경험을 구성할 책임이 있는 인지 구조]를 식별하는 데 집중되어 왔다. 이러한 인지 구조 또는 정신적 스키마는 특정한 방식으로 조직된 이전 경험의 정신적 표현을 구성한다. 프로토타입, 예시, 의미론적 한정자 및 질병 스크립트는 정신적 표현이 기억에서 조직되는 방법에 대한 다른 접근 방식을 나타낸다. 

Much work in cognitive science has concentrated on identifying the cognitive structures responsible for the organisation of past experience in long-term memory. Such cognitive structures, or mental schemas, constitute mental representations of previous experiences organised in particular ways. Prototypes, exemplars, semantic qualifiers and illness scripts represent different approaches to how mental representations are organised in memory.
19,20,22,23

모든 추론이 비분석적인 것은 아니다. 멘탈 스키마와는 별개로, 연구자들은 이러한 도식을 회수하고 변형시키고 저장하는 인지 과정의 존재를 가정해 왔다. 예를 들어, [가설연역적사고]에서 진단 문제는 초기 가설을 추론하거나 반박하기 위해 후속 임상 데이터 수집을 결정하는 제한된 수의 잠정 가설의 생성에 의해 초기에 해결된다. 최근 몇 년 동안 분석 경로와 비분석 경로를 모두 수용하는 [이중 프로세스 이론]이 인기를 얻고 있다. 이중 프로세스 이론은 별개의 연구 전통, 즉 범주화로서의 진단이 아닌 불확실성 조건에서의 의견 수정과 관련된 행동적 의사결정 연구로부터 비롯된다. 이 이론들은 두 가지 마음의 공존을 가정한다; 하나는 암묵적이고, 빠르고 직관적이며, 다른 하나는 분석적이고, 노력적이며, 의식적이다. [이중 프로세스]와 [지식 조직 이론] 간의 중복이 논의되고 있는 가운데, 두 연구 전통 모두에서 의사가 [진단 문제에 직면할 때 분석적 전략과 비분석적 전략을 번갈아 사용한다]는 공감대가 증가하고 있다. 
Not all reasoning is non-analytical. Apart from mental schemas, researchers have postulated the existence of cognitive processes that retrieve, transform and store these schemas.
24 In Hypothetico-deductive thinking, for example, a diagnostic problem is solved by the generation initially of a limited number of tentative hypotheses that determine subsequent clinical data collection to deduce or refute these initial hypotheses. In recent years, dual-process theories embracing both analytical and non-analytical pathways have gained increasing popularity. Dual-process theories originate from a separate research tradition, namely behavioural decision-making research that is not concerned with diagnosis as categorisation, but as opinion revision under conditions of uncertainty.25,26 These theories postulate the coexistence of two minds; one tacit, rapid and intuitive, and the other analytical, effortful and conscious.27 While the overlap between dual-process and knowledge organisation theories is debated,28 there is growing consensus in both research traditions that physicians employ analytic and non-analytic strategies interchangeably when facing a diagnostic problem.15

이 두 이론 사이에는 이 글의 범위를 벗어난 중요한 차이점이 있다. 그럼에도 불구하고, 두 이론 모두 [정신적 표상으로 재구성된 외부적이고 미리 주어진 세계의 존재]를 암묵적으로 인정하기 때문에 공통의 인식론적 토대를 공유한다. 실용주의 철학자 리처드 로티는 '저 밖에서 일어나는 일'과 '머리에서 일어나는 일' 사이의 정신세계의 이분법을 훌륭하게 표현했다.
There are significant differences between these two theories that are beyond the scope of this article. Nevertheless, they share common epistemological ground as both implicitly acknowledge the existence of an external, pre-given world, reconstructed in mental representaions.
29 The pragmatist philosopher Richard Rorty wonderfully articulated this mind-world dichotomy between ‘stuff happening out there’ and mental operations ‘inside the head’:30

아는 것은 마음 밖에 있는 것을 정확하게 표현하는 것이다. 그러므로 지식의 가능성과 본질을 이해하는 것은 마음이 그러한 내적 표현을 구성할 수 있는 방법을 이해하는 것이다. 
To know is to represent accurately what is outside the mind; so to understand the possibility and nature of knowledge is to understand the way in which the mind is able to construct such [internal] representations.31



이러한 관점에서, 연구는 의사가 머리(마음) 속에 [어떻게 미리 주어진 세계를 표현하고 그러한 표현에 따라 행동하는지에 대한 본질적인 '원리']를 풀기 위해 노력한다. 이러한 원칙은 엄격하게 통제된 실험 조건에서 개별 변수를 체계적으로 조작함으로써 구현된다. 실험 방법의 근거는 맥락을 환원하고 통제하여 조사 중인 특정 정신 과정에 대한 자극으로만 작용하도록 하는 것이다. 인지적 연구가 맥락의 영향을 완전히 거부한다고 주장하는 것은 불공평할 것이다. 그러나 맥락은 연구하는 정신적 과제에 대한 자극(입력)과 관련이 있는 범위 내에서만 중요한 것으로 다뤄진다. 일부에서는 '일부 맥락은 종종 [인지의] 구성요소를 평가하는 데 요구되지만, 그러한 맥락이 얼마나 복잡해야 하는지에 대한 경계는 항상 존재한다'고 주장한다. 맥락은 단순해야 하고 연구 중인 인지 과제와 관련이 있어야 한다. 이러한 관점에서 자연주의적 환경에서 추론을 공부하는 것은 기껏해야 문제가 있다. '실제' 복잡성이라는 환원되지 않은 맥락은 '현상이 복잡할수록 통제된 조건에서 연구할 필요성이 커지고 자연적 복잡성은 더 적어진다'는 관점을 병렬적으로 강조하는 너무 광범위하고 비특이적인 자극으로 작용할 것이다.33 더욱이 그러한 (실제의) 복잡성은 작업기억력을 압도하고 학습을 손상시킬 위험이 있다. 이 환원되지 않은 형태의 맥락은 필연적으로 노이즈로 무시된다.
From this perspective, research endeavours to unravel the essential ‘principles’ of how the physician's mind represents the pre-given world and acts upon such representations. These principles are carved out by systematically manipulating individual variables under tightly controlled experimental conditions. The rationale of the experimental method is to reduce and control context so that it acts solely as a stimulus for the particular mental process under investigation. It would be unfair to claim that cognitive studies reject the impact of context entirely. Context, however, assumes significance inasmuch as it is relevant as a stimulus (input) for the mental task under investigation. As some claim ‘while some context will often be required to assess a component [of cognition], there are always bounds on how complex such a context need be’.32 Context should be kept simple and relevant to the cognitive task under study. From this point-of- view, studying reasoning in naturalistic settings is problematic at best. Unreduced context from ‘real-life’ complexity would serve as a too broad, non-specific stimulus eliciting a multitude of mental operations in parallel underlining the view that ‘the more complex a phenomenon, the greater the need to study it under controlled conditions, and the less it ought to be studied in its natural complexity’.33 Furthermore, such complexity risks overwhelming working memory and impair learning. Context in this non-reduced form is inevitably disregarded as noise.34

[인지 과학의 전통을 따르는 임상 추론 연구]는 주로 엄격하게 조작된 실험 조건에서 수행되며, 여기서 맥락은 환원되고 측정 가능한 요소로 객관화된다. 맥락이 인간의 활동 및 인식과 명확하게 경계를 지을 수 있어서, 외부 세계는 '요인화가능factorable'하고 '수량화가능quantifiable'한 특징을 갖는다고 가정한다. 측정 가능한 요소들은 다양한 상황과 문화에 걸쳐 분명한 의미를 갖는 것으로 간주되며, 그것들은 보편적으로 타당하다. 맥락적 요인이 의사의 진단 정확도(문제 해결을 위한 프록시) 또는 규범적 합리성 모델(의사 결정을 위한 프록시)에 미치는 영향을 조사하는 연구가 풍부하다. 정량화 가능한 요인의 예로는 시간 압박, 반복적인 업무 중단, 장애 행동을 가진 환자, 환자의 인구 통계, 의사의 경력 년수, 특정 질병에 대한 미디어 정보에 대한 최근 노출이 포함된다. 
Clinical reasoning research in line with the tradition of cognitive science is predominantly conducted under strictly manipulated experimental conditions, where context is reduced and objectified into measurable factors. Context assumes the quality of a ‘factorable’ and ‘quantifiable’ external world sharply demarcated from human activity and cognition. The measurable factors are regarded as having unambiguous meaning across different situations and cultures; they are universally valid. There is an abundance of studies investigating the impact of contextual factors on physicians’ diagnostic accuracy (proxy for problem-solving) or on prescriptive models of rationality (proxy for decision-making). Examples of quantifiable factors include time pressure,
35,36 repeated work interruptions,37 patients with disruptive behaviours,38,39 patients’ demographics, physician's years of experience,40 or recent exposure to media information about a particular disease.41

 

4 | 상호작용 차원
4
|
INTERACTIONAL DIMENSION

최근 몇 년간 다른 관점을 취하는 연구들이 급증하고 있다. 이러한 연구들은 인지주의cognitivism의 정신-세계mind-world 이분법에 대한 강한 회의론을 공유한다. 그들은 대신 인지cognition란 [활동 안에서 자신을 드러내는 것이며, 마음과 세계의 상호작용에 달려있는 것]으로 본다. 그들은 상황성 이론Situativity Theories과 실용주의 철학자 듀이, 제임스, 미드와 심리학자인 바틀렛의 연구에서 이론적 틀을 끌어낸다. [지식]은 [(외부 세계와 뚜렷하게 구분가능한) 정신의 조직화된 인지 구조]에만 존재하는 것이 아니다. 이런 의미에서, 지식은 활동 내에 위치해situated in activity 있기 때문에 세상과 분리될 수 없으며, 오직 마음 세계와의 상호작용을 통해서만 현실화actualized될 수 있다. 알고 행하는 이분법을 극복하는 것은 주어진 상황의 특수성에서 지식과 인지력이 나오는 것을 수반한다. 

Recent years have seen a surge of studies that take a different perspective.2,42-44 These studies share a strong scepticism towards the mind-world dichotomy of cognitivism. They view instead cognition as manifesting itself in activity and as contingent on mind-world interaction. They draw their theoretical framework from Situativity Theories and on the work of the pragmatist philosophers Dewey, James and Mead and the psychologist Bartlett.24,30,45,46 Knowledge is not something solely residing in organised cognitive structures in a mind sharply demarcated from an external world. In this sense, it cannot be divorced from the world as it is situated in activity and can only be actualised through mind-world interaction. Overcoming the dichotomy of knowing and doing entails that knowledge and cognition emerge from the particularities of the given situation.47

이러한 인식론적 변화는 분석 단위를 [개인의 마음]에서 [마음과 환경의 관계]로 이동시키는 것이 분명한 영향을 미친다. [임상적 추론]은 '[머리 속에 저장된 어떤 것(표현 또는 도식)에서 읽어내는 것]이 아니라 [즉석에서 의미를 창조하는 활동]으로 구현된다.48 이것은 상황성 이론가들이 인지 구조의 존재를 부정한다는 것을 의미하지 않는다. 오히려 그들은 이러한 인주구조를 개인과 맥락 사이의 상호작용에 위치시킨다. 환자에게 간호를 제공하는 활동을 의사의 지식과 분리해낼 수 없다. 

This epistemological shift from moving the unit of analysis from the individual mind to the relation between the mind and its environment has clear repercussions. Clinical reasoning embodies an activity of creating meaning ‘on the fly, rather than reading it back from something (representation or schematic) stored in the head’.48 This does not mean that situativity theorists deny the existence of cognitive structures. Rather they place these structures in the interaction between the individual and the context. The physician's knowledge is entangled in the activity of providing care for the patient.49


우리는 위치 인식, 생태 심리학 및 분산 인지뿐만 아니라 위치 학습 및 활동 이론의 개별 연구 전통을 의학 교육의 임상 추론과 관련이 있는 이론으로 식별한다. 그러나 여기서 강조해야 할 것은 그들이 이 글의 범위를 벗어난 정신 세계 상호 작용의 구조에 관한 다양한 주장과 함께 [이론의 집합체agglomeration of theories]를 구성한다는 것이다. 이러한 이질성을 더 잘 설명하기 위해, 그림 2에서 여러가지 상황성 이론들을 삼각형의 '상호작용' 변을 따라 분산해두었다. 예를 들어,

  • 활동 이론과 위치 학습과 같은 '해석' 측면에 근접한 이론들은 사회 세계(마음 속의 사회)에 우선권을 부여하며, 다음 절에서 논의될 것이다.
  • 생태심리학뿐만 아니라 분산 및 위치 인식은 사회와 정신 사이의 균형 잡힌 위치를 차지하기 때문에 삼각형의 '상호작용' 측면의 중간에 놓이게 된다. 

We identify Situated Cognition,24 Ecological Psychology50 and Distributed Cognition,51 as well as the separate research tradition of Situated Learning and Activity Theory52 as theories having relevance to clincial reasoning in medical education. It should be emphasised here, however, that they make up an agglomeration of theories with varying claims regarding the structure of mind-world interaction, which is beyond the scope of this article. To better illustrate this heterogeneity, the different Situativity Theories have been dispersed accordingly along the ‘Interaction’ side of the triangle accordingly in Figure 2. Those theories placed in proximity to the ‘Interpretation’ side, such as

  • Activity Theory and Situated Learning give primacy to the social world (society in the mind), and will be discussed in the following sections.
  • Distributed and Situated Cognition as well as Ecological Psychology, discussed in this section, take a balanced position between society and mind and are therefore placed in the middle of the ‘Interaction’ side of the triangle.51

 

  • [상황화된 인지(Situated Cognition)]임상적 추론(인지)이 매 순간 환경과의 상호작용에서 나온다고 주장한다.
  • [생태심리학]에서 환경은 특정 유형의 개인 활동(이펙티비티)을 결정하지는 않지만, 특정한 가능 조건(어포던스)을 제공한다.
  • [분산인식distributed cognition]은 상호작용하는 사람과 인공물의 상호관계에서 임상적 추론이 분산되어, 시스템 자체의 속성이 되는 시스템적systemic 관점을 가정한다. 이 점에서 개개인 수준의 임상 추론은 시스템 수준에서 운영되는 임상 추론의 작은 일부에 불과하다. 
  • Situated Cognition argues that clinical reasoning (cognition) emerges from moment-by- moment interaction with the environment. 46
  • In Ecological Psychology, the environment provides certain enabling conditions (affordances) that make possible but do not determine certain types of individual activity (effectivities).53
  • Distributed Cognition assumes a systemic perspective where clinical reasoning is distributed in the interrelations of interacting people and artefacts, becoming a property of the system itself. In this respect, clinical reasoning at the individual level constitutes only a small piece of clinical reasoning operated at the system level.54

이 세 가지 이론은 분석의 초점은 다르지만, [임상추론은 특정 상황에 특정한 시스템의 다양한 요인(의사, 환자, 인공물, 물리적 환경)의 상호 의존성에 의해 결정된다는 관점]을 공유한다. 이로 인하여 비선형성이 발생하며, 모든 상황(예측 가능성)에서 임상 추론의 성과를 결정하는 데 분명한 한계를 둔다. 
While these three theories differ in their focus of analysis, what they share in common is the view that clinical reasoning is determined by the interdependency of the various factors of the system (physician, patient, artefacts, physical settings) specific to the particular situation. This affords for non-linearity and places clear limitations on determining the outcome of clinical reasoning in every situation (predictability).
34

명백히, 이와 같은 인식론적 주장은 [맥락의 의미]에 중요한 함의를 갖는다. [환경]은 그것을 수용reception하는 것이 [자동적으로 특정한 인지 작동을 촉발하는 객관적이고 측정 가능한 입력의 고정된 원천]으로 간주되지 않는다. 환경은 '대리인agent의 행동에 상호작용하고 반응한다'는 의미를 지니기에 활동으로부터 맥락이 창발emerge한다. [에이전트]와 [환경] 간의 이러한 상호관계에서 [컨텍스트]는 [행동성을 가능하게 하거나 제한하는 활동의 공동 구성자]로서 [에이전트와 동등한 기반] 위에 둔다. 다시 말해, 맥락은 ''그냥 그 곳에 존재하는 것'이 아니라, 지금 수행하는 활동의 과정에서 능동적으로 생성, 유지, 집행'되는 것이다.55 이러한 각도에서, 연구자들은 임상 사례의 진단 결과가 의사의 이펙티비티가 문제해결에서 어포던스와 어떻게 관련이 있는지(생태 심리학) 또는 환자-의사 상호 작용의 진단 결과를 변화시키는 상황적 요인(상황 인지)은 무엇인지 연구했다.

Invariably, such epistemological claims have significant consequences for the meaning of context. The environment is not regarded as a fixed source of objectified and measurable inputs whose reception triggers cognitive operations. Context emerges from activity in the sense that the environment ‘is instead interactive and responsive to the agent's actions’.46 This reciprocity between agent and environment places context on equal footing with the agent as a co-constructor of the activity whereby context enables or restraints this acticity.2 Context in other words ‘isn't just there, but is actively produced, maintained, and enacted in the course of the activity at hand’.55 From this angle, researchers have investigated how the diagnostic outcome of a clinical case is related to the idiosyncratic attunement of the particular affordances with the effectivities of the physician solving it (Ecological Psychology) or to the contextual factors that alter the diagnostic outcome of patient-doctor interaction (Situated Cognition).12,56,57

4.1 | 표상과 상호작용의 교차로
4.1
|
Crossroads of representation and interaction


자연주의 의사 결정(NDM)은 일상 생활에서의 의사 결정을 조사하는 뚜렷한 연구 전통이다. NDM에서 더 잘 알려진 이론적 프레임워크 중 하나는 Klein의 인식 기반 의사결정 모델(RPD)로, 불확실한 조건에서 복잡한 실제 상황을 관리하는 소방관, 군인, 중환자 간호사와 같은 전문가에 대한 경험적 연구를 기반으로 한다. RPD 모델에 따르면, 의사들은 [이전의 경험으로부터 형성된 광범위한 정신적 도식의 레퍼토리]를 이용한다. 눈앞에 닥친 상황에 맞는 스키마가 직관적으로 활성화된다. 이러한 스키마를 통해 실무자는 스키마에 인코딩된 인과 관계 패턴, 적절한 목표 및 실행 계획을 제안함으로써 상황을 이해할 수 있다. 스키마가 채택되기 전에 실행 계획의 적합성을 평가한다. 추론은 두 단계적biphasic 특성을 가지고 있다: 초기에는 관련성있는 스키마를 직관적으로 '숙련된 인식'을 하고, 그 다음에 의도적인deliberate 평가 행동이 뒤따른다.
Naturalistic decision-making (NDM)
, is a distinct research tradition examining decision-making everyday practice settings.
58,59 One of the better known theoretical frameworks in NDM is Klein's recognition-primed decision model (RPD),60 based on empirical work on experts such as firefighters, military personnel and intensive care nurses managing complex real-life situations under conditions of uncertainty. According to the RPD model, practitioners draw on a wide repertoire of mental schemas formed from previous experience. Schemas fitting the situation at hand are intuitively activated. Such schemas enable practitioners to make sense of the situation, by suggesting patterns of causal relations, appropriate goals and action plans encoded in the schema itself. The suitability of the action plan is assessed before the schema is adopted. Reasoning has a biphasic character: an initial intuitive ‘skilled recognition’ of the appropriate schema followed by a deliberate act of assessment.


NDM은 두 인식론적 차원 사이의 교차로에 있다.

  • [외부세계의 경험이 지식구조(정신체계)에 통합된다는 것]을 주창함으로써 [마음-세계의 이분법을 인정하고, 앎에 대한 표상적 관점represenational view]을 수용한다. 이에 따라, NDM은 일반화될 수 있는 인지적 규칙과 원칙을 만들어내기 위해carve out 노력한다.
  • 반면, 실험심리학과는 구별되는 점은 [행동의 역할role of action을 강조함으로써, 맥락이 인식에 미치는 영향을 인정한다]는 것이다. 인식은 인식이 발생하는 환경과 분리될 수 없다. 60 

NDM lies at the crossroads between two epistemological dimensions.

  • It acknowledges the mind-world divide and embraces a representational view of knowing by advocating that the experience of an external world becomes consolidated in knowledge structures (mental schemas). Likewise, it strives to carve out generalisable cognitive rules and principles.
  • On the other hand, it distinguishes itself from experimental psychology in the sense that it recognises the pervasive impact of context on cognition by emphasising the role of action. Cognition cannot be separated from the environment inside which it occurs.60

전문가들은 잘 정의되지 않는 복잡한 문제에 직면하게 되는데, 이 때 시간은 제한되어있고, 정보는 불완전하다. 따라서 목표는 종종 상충하거나 변화하며, 깔끔하게 떨어지는 명확한 해결책은 없다. 61 전문가가 해결해야 하는 문제는 본질적으로 복잡하고, 변덕스럽고, 역동적인 불확실성의 조건에서 작동한다. 이러한 측면에서 임상추론은 [특정 맥락에서 최선의 정당화된 조치를 취하는 것]이 된다.64 실험적으로 통제된 환경에서 그러한 인지 프로세스를 연구하면 이러한 자연적 복잡성이 인지에 어떻게 영향을 미치는지를 등록할 수 있는 기회가 박탈된다.

Experts face ill-defined complex problems, under time constraints, with only incomplete information, thus burdening them with often competing or shifting goals and no clear-cut solutions.61 They operate, under conditions of uncertainty that are inherently complex, volatile and dynamic.62,63 Clinical reasoning in this respect involves taking the best justified action in a specific context.64 Studying such cognitive processes in experimentally controlled settings deprives the opportunity to register how this natural complexity impinges on cognition.

[인지 과학과 NDM의 차이]는 실험실의 생태학적 타당성에 대한 단순한 방법론적 논쟁을 넘어선다. 그것은 맥락의 중요성과 관련된 두 가지 뚜렷한 연구 전통 사이의 깊은 불화를 강조한다. NDM 연구에서, [더 높은 인지 기능을 실행으로 옮기도록 만들어주는 것]은 [완전한 복잡성을 담은 진정한 세계]이다. 잘못 정의되고 복잡한 실제 상황으로 구현된 맥락은 상황 인식, 계획, 문제 감지, 불확실성 관리와 같은 '거시적 인지적 프로세스'의 출현을 가능하게 한다. [맥락은 인지를 유도한다]라는 말은, 인지가 실험실에서 고립되어 연구될 수 없음을 암시한다. 환원론적 실험 기법에서는 [맥락을 관리 가능한 입력 단위로 분해]하고, 이러한 ['맥락에 따른 인지적 시스템'을 실제의 삶에 가져오는 바로 그 현상을 제거]한다. 이러한 이유로 NDM은 삼각형의 왼쪽 아래 각도에 배치됩니다(그림 2). NDM은 수술 중 의사 결정, 복강경, 응급의학, 중요 치료와 같은 다양한 의료 관련 맥락에서 전문가의 의사 결정 연구에 적용되어 왔다. 
This difference between cognitive science and NDM lies beyond a mere methodological dispute on the ecological validity of laboratory experiments.
63 It highlights a deeper rift between two distinct research traditions that concerns the importance of context. In NDM research, it is the authentic world in its full complexity that puts higher cognitive functions into action. Context, embodied by the ill-defined, complex real-life situations, enables the emergence of ‘macro-cognitive processes’, such as situation awareness, planning, problem detection, and uncertainty management.65,66 Context drives cognition implying that cognition cannot be studied in isolation in the experimental laboratory. Reductionistic experimental techniques break down context in manageable input units, and eliminate the very phenomenon that actually brings these ‘cognitive systems in context’ to life.67 For this reason, NDM is positioned at the lower left angle of the triangle (Figure 2). NDM has been applied in the study of experts’ decision-making in various healthcare-related contexts, such as intra-operative decision-making, 68 laparoscopy,69 emergency medicine,70,71 and critical care.72,73

5 | 해석적 차원
5
|
INTERPRETATIONAL DIMENSION

의학사회학, 의학인류학, 인문학의 렌즈를 통한 임상추론의 학술활동은 다른 길을 걷는다. 임상적 추론은 문화에 내재되어, 언어를 통해 존재하는, 해석적 사회적 행위로 간주된다. [언어]는 정보(내용)를 전달하는 중립적인 언어 매체로 간주될 뿐만 아니라, 의사가 어떻게 추론하는지에 대한 연구의 중심 역할을 담당한다. 언어에 의해 전달되는 의미는 사회적, 문화적으로 위치하며 특정한 사회적, 문화적 맥락에 의존한다. 그러나 언어 또한 사회적 행위이다. '허가된sanctioned 대화법을 배우는 것'은 전문직 사회로의 진입을 정당화합니다. 의사처럼 생각하는 법을 배우는 것은 의사처럼 말하는 법을 배우는 것을 수반한다. 언어와 사상은 분리할 수 없다. 이러한 의미에서 언어는 위치하는 동시에 위치하는 언어입니다. 그것은 그것이 봉사하는 문화 공동체를 반영하고 건설한다. 이러한 사고, 언어 및 문화의 근본적인 얽힘은 임상적 추론과 맥락에 가시적인 영향을 미친다. 단순히 [말하는 것(내용)]이 아니라 [어떻게 말하는지]가 중요해진다. 
The scholarship of clinical reasoning through the lens of sociology of medicine, anthropology of medicine and the humanities follows a different path. Clinical reasoning is regarded as an interpretative social practice, embedded in culture and coming into existence through language.74 Language is not merely considered a neutral linguistic medium conveying information (content) but assumes a central role in the study of how physicians reason. Meaning imparted by language is socially and culturally situated and dependent on the particular social and cultural contexts.75 Language, however, is also a social act. ‘Learning sanctioned ways of talking’ legitimise entry into a professional community.76 Learning to think like a physician entails learning to talk like a physician. Language and thought are inextricable.77 Language in this sense is both situated and situating. It both reflects and constructs the cultural community it serves.78 This fundamental entanglement of thought, language and culture has tangible implications for clinical reasoning and context. It is not simply what is said (the content) but how it is said that becomes important.79,80

특히 주의를 기울이는 언어의 두 가지 형태는 [수사학]과 [내러티브]이다. [수사학]은 언어적, 서면적 의사소통의 설득력에 초점을 맞춘다. [상황, 청중, 커뮤니케이션 목적]과 같은 커뮤니케이션의 맥락적 요소가 가장 중요하다. 예를 들어, 연구원들은 어떻게 의대생들이 발표를 할 때 (신뢰를 얻기 위한 수단으로서) 특정한 수사적 전략을 암묵적으로 익히는지를 보여주었다. 이러한 수사적 전략을 숙달하는 것은 의료계에 대한 정당한 접근을 허용하는 직업적 정체성을 개발하는 데 필수적인 측면이 된다. 중요한 것은 수사적 행위는 어떤 추론 전략이 더 신뢰할 수 있는지에 대한 암묵적인 가정을 반영한다는 것이다. 학생들은 의료계에 교화되는indoctrination 동안 이러한 전략을 내면화한다. 실제로, 실무자들이 그들의 강연을 '청중, 맥락, 목적에 부합하도록' '구성'함에 따라, 그들의 서술은 과학계에서 정당성을 갖는 합리성의 가정을 구체화하는 특정한 추론 방법을 암묵적으로 선호하게 된다. 링가드의 표현을 조금 바꿔본다면, 가설연역적 추론과 같은 추론 전략들은, 허가된 사고와 대화 방식을 의미한다.76

Two forms of language of particular attention are rhetoric and narrative.81 Rhetoric concentrates on the persuasive nature of verbal and written communication. Contextual elements of communication such as the occasion, audience and purpose of the communication assume primary importance.82 Researchers for example have demonstrated how medical students tacitly learn to master specific rhetorical strategies in case presentations as a means of achieving credibility.78 Mastering such rhetoric strategies becomes an integral aspect of developing a professional identity allowing legitimate access to the medical community. Importantly, rhetoric acts reflect tacit assumptions concerning which reasoning strategies are more credible. Students internalise these strategies during their indoctrination into the medical profession.83 Indeed, as practitioners ‘construct’ their talk ‘to match the audience, context and purpose’84 their narratives come to implicitly favour particular ways of reasoning, which embody assumptions of rationality, that have legitimacy in the scientific community.84-87 Reasoning strategies such as hypothetico-deductive reasoning signify, to paraphrase Lingard, sanctioned ways of thinking and talking.76

내러티브 추론은 브루너가 가설연역적 추론과 신중하게 구별하는 것으로서, 내러티브의 구성과 해석을 포함하는 근본적인 사고 방식을 나타낸다. 의료행위는 환자에 대해 이야기하거나(내러티브 구성) 환자와 대화하는(내러티브 해석) 내러티브로 넘쳐난다. 내러티브 지식narrative knowing은 환자의 질병 경험을 의미 있는 플롯meaningful plot으로 통합하는 서술의 회고적 구성을 구현하는데, 이 플롯에서 [사건, 믿음, 동기 및 행동]은 [경험을 그럴듯하고 이해할 수 있게 만드는] [시간적이고 의미 있는 (인과causal) 관계]로 배치된다. [플롯]은 개별 사건을 이해할 수 있게 만들고, 인간 기관이 이해될 수 있는 배경을 제공한다. 많은 저자들이 임상 실무에서 서술적 추론과 특히 실무자의 서술이 특정 추론 전략을 강조하는 방법을 조사했다. 
Narrative reasoning which Bruner carefully distinguishes from hypothetico-deductive reasoning denotes a fundamental way of thinking involving the construction and interpretation of narratives.
75 Medical practice is awash in narratives of talking about patients (narrative construction) or talking with patients (narrative interpretation).87 Narrative knowing embodies a retrospective construction of a narrative integrating the patient's illness experience into a meaningful plot where events, beliefs, motives and actions are placed in a temporal and meaningful (causal) relation that render the experience plausible and comprehensible to the practitioner.85 It is the plot that makes the individual events comprehensible88 and provides the background against which human agency can be understood. A number of authors have investigated narrative reasoning in clinical practice and how, in particular, the practitioners’ narratives emphasise particular reasoning strategies.86,87,89

이러한 인식론적 차원에 기반을 둔 맥락은 경험의 세계를 표현하거나, 샌드버그와 츠카스가 언급한 것처럼, '실천자들이 특정한 방식으로 이미 중요한 사물, 사람, 행동 및 선택지에 몰두하는 의미 있는 전체성'을 표현한다. 이러한 의미에서 [임상적 추론]은 (그러한 축적deposition이 존재하는 세계를 고려하지 않은 채로) 인지적 성향에만 초점을 맞추어서는 설명할 수 없다.

Context grounded in this epistemological dimension, expresses the world of experience or, as Sandberg and Tsoukas remark, ‘the meaningful totality into which practitioners are immersed […] in which things, people, actions and options already matter in specific ways’.90 Clinical reasoning in this sense cannot be accounted for solely by focusing on intrapsychic (cognitive) dispositions without taking account of the world in which such depositions exist.75

이 시점에서 두 가지 설명을 해야 한다. 첫째, 다른 연구 전통이 임상적 추론에서 해석의 가치를 무시한다고 주장하는 것은 불공평할 것이다. 이전 절에서 자세히 설명한 대부분의 이론들은 [상황적 자극에 대해 개인이 의미를 부여하는 방식의 중요성]을 인정한다. 인지과학 담론에서 이러한 우려는 [자신의 주관적 이해에 비춘 정보의 해석]을 강조하는 [해석construal]이라는 개념에 반영되어 있다. 이 개념은 '지능은 스스로 조직하여 세상을 정리한다'는 피아제의 명언에 그 뿌리를 두고 있으며, 이는 정신은 앎의 범주를 제공하는 반면, 경험은 콘텐츠를 제공한다는 것을 의미한다. 인지 구조는 미래에 유사한 자극을 경험하고 예상하는 데 의미를 부여한다. 그러나, 이 절에 내포된 해석interpretation의 의미는 분류의 행위로서 임상 추론의 이러한 대표적 기반representational ground를 벗어난 것이며, 그보다는 [임상 추론]을 [환자의 질병 경험을 이해하는 상호 주관적이고 사회적인 관행을 구현하는 현상학적-해석적 인식론]으로 채택한다.

Two clarifications should be made at this point. First, it would be unfair to claim that other research traditions dismiss the value of interpretation in clinical reasoning. The majority of theories elaborated in previous sections do indeed acknowledge some significance to how individuals give meaning to contextual stimuli of the situation.21,32,91 This concern in cognitive science discourse is reflected in the concept of construal, which signifies the interpretation of information in light of one's own subjective understandings.92 It has its roots in Piaget's famous words that ‘intelligence organizes the world by organizing itself’ signifying that the mind provides the categories of knowing while experience provides the content.93 Cognitive structures give meaning to experience and guide anticipation of similar stimuli in the future.21 The meaning of interpretation implied in this section, however, departs from this representational ground of clinical reasoning as an act of categorisation and adopts a phenomenological-hermeneutical epistemology where clinical reasoning embodies the intersubjective, social practice of making sense of the patient's illness experience.


다른 점은 [해석적interpretative 차원]과 [대화형 인식론적interactive epistemological 차원]을 구별하는 결정에 관한 것이다. '사회 세계의 참여'로 보이는 [해석interpretation]은 이 세계와 상호작용하는 요소도 전제하지 않는가? 네, 그렇습니다. 그러나 이전 섹션에서 논의한 [상호작용interaction]의 의미는 연결주의적connectionist 측면을 강조한다. 여기서 임상적 추론은 [인식과 환경의 요소(상황 인지 및 생태 심리학)의 상호작용] 또는 [에이전트와 인공물의 네트워크를 통한 인지 작동의 분포(분산 인지)]에 의해 결정되는 창발적 상태이다. 대조적으로, 이러한 관점의 임상적 추론은 사회 세계에 대한 참여와 참여engagement and participation를 강조한다. 이러한 참여적 함축은 앞서 설명한 연결주의(상호작용) 차원과 구별된다.
The other point concerns the decision to discriminate the interpretative from the interactive epistemological dimension. Does not interpretation, seen as participation in a social world, presuppose an interactive element with this world as well? Indeed, it does. However, the meaning of interaction discussed in the previous section emphasises a connectionist aspect, whereby clinical reasoning is an emergent state determined by the interaction of cognition with elements in the environment (Situated Cognition and Ecological Psychology) or by the distribution of cognitive operations over a network of agents and artefacts (Distributed Cognition). On the contrary, clinical reasoning in this view emphasises engagement and participation in a social world. This participatory connotation distinguishes it from the connectionist (interactive) dimension described previously.

 

5.1 | 상호작용과 해석의 교차로
5.1
|
Crossroads of interaction and interpretation

[해석]과 [상호작용]의 교차점에 두 가지 관련 이론이 있다. 학습 및 활동 이론의 위치. 이러한 이론들은 비고츠키, 루리아, 레온티예프의 업적에서 비롯되고 라베, 콜, 엥게스트룀에 의해 발전된 역사문화심리학에서 그 경로를 가지고 있다. 두 이론 [의미와 상호작용 모두]에 특별히 중점을 둔다. 학습 이론이 되는 위치 학습은 임상 추론 학습과 관련하여 나중에 논의될 것입니다.
Two relevant theories lie at the intersection between interpretation and interaction:
Situated Learning and Activity Theory. These theories have their routes in historical-cultural psychology originating from the works of Vygotsky, Luria and Leontief and further developed by Lave,94 Cole95 and Engeström.52 Both theories place particular emphasis on both meaning and interaction. Situated Learning, being primary a learning theory, will be discussed later in relation to learning of clinical reasoning.

[활동 이론]은 인지라는 것을 [인지가 embedded된 더 넓은 활동 체계를 고려하지 않고는 이해할 수 없는 목표 지향적인 행동]으로 간주한다. 활동 시스템은 개인의 목표(목표)를 달성하는 동시에 문화적, 사회적, 조직적 규범(규칙, 공동체, 노동분담)에 의해 정보를 제공받는 개인(대상)과 도구(예술)를 포함한다. 이러한 상호 연결된 시스템 요소들은 서로 충돌할 가능성이 있으며, 이것이 활동 시스템의 불안정성과 변동성을 강조하게 된다. 목표, 계획, 행동은 대상의 마음속에 고립되어 존재하지 않는다. Engeström이 언급했듯이, '"상황"이라는 개념만으로는 임상 인지의 맥락 분석 단위로서 불충분하다'. 그는 대신 임상적 인식을 '더 넓은 제도적 문화와 발전과 변화의 장기적 역사적 궤적'에 내재된 것으로 본다.
Activity Theory regards cognition as goal-oriented action that cannot be understood without considering the broader activity system in which it is embedded. An activity system includes individuals (subjects) and tools (artefacts) to achieve the individual's goals (objects) while simultaneously being informed by cultural, social and organisational norms (rules, community, division of labour). These interconnected systemic elements have the potential to conflict with each other underlining the instability and volatility of activity systems.96 Goals, plans and actions do not exist in isolation in the subject's mind; they are embedded in a system of relations within a sociocultural context from which they derive their meaning.94 As Engeström remarks, ‘the notion of situation is alone insufficient as a unit of contextual analysis of clinical cognition’.52 He sees clinical cognition instead as being embedded in ‘broader institutional cultures and long-term historical trajectories of development and change’.

[행동을 통해 발현되는 인식]은 그것이 발생하는 시스템에서 의미를 도출하고(해석적 차원), 활동 시스템의 요소에 걸쳐 분포한다(상호작용 차원). 임상적 추론은 광범위한 역사-문화 시스템에서 분산된 활동이 된다. 활동 체계에서 일어나는 것은 맥락이며, 열거할 수 없는 외부 요인들로 환원될 수 없지만, 시스템의 활동 제정enactment을 통해 구성된다. 활동 이론이 제공하는 강력한 이론적 프레임워크에도 불구하고 의학 교육에서 경험적 연구의 놀라운 희소성이 있다는 것을 주목할 필요가 있다.97

Cognition manifested through action derives its meaning from the system in which it occurs (interpretative dimension) and is distributed across the elements of the activity system (interactional dimension). Clinical reasoning becomes a distributed activity in wider historical-cultural systems.97 What takes place in the activity system itself is the context, irreducible to enumerable external factors but yet constituted through the enactment of the activity in the system.42 It is worth noting that despite the robust theoretical framework provided by Activity Theory there is a surprising scarcity of empirical studies in medical education.97

6 | 맥락 특이성에 대한 성찰
6
|
REFLECTIONS ON CONTEXT SPECIFICITY

맥락 특이성의 까다로운 문제는 만족스럽고 널리 받아들여지는 설명 없이 오늘날에도 남아 있다. 그러나 맥락의 특수성이 애초에 문제로 여겨져야만 하는가? 연구자들이 보편적인 문제 해결 전략의 존재에 대해 상정하던 시기에, 이 문제(맥락 특이성)를 인식하게 된 것은 엘스타인의 선구적인 연구였다. 엘스타인의 연구는 의사들이 임상 문제를 해결하기 위해 가설연역적 추론 방법을 사용했다는 것을 입증했다. 그러나 그 방법은 너무 일반적이고 구체적이지 않았다. 전문성 수준에 상관없이 모두가 똑같은 일을 하고 있었다. 더 중요한 것은, 그것이 더 나은 진단 정확도와 상관관계가 없다는 것이다. 한 경우의 성공이 다음 경우의 성공을 예측하기 어려운 것이었다.
The thorny issue of context specificity remains even today without a satisfying and broadly accepted explanation.
13,98 But should context specificity be regarded as a problem in the first place? At a time when researchers were postulating on the existence of universal problem-solving strategies, it was Elstein's pioneering work that brought the problem into awareness.99 Elstein's work demonstrated that physicians employed the hypothetico-deductive method to solve clinical problems. The method, however, was all too general and non-specific. Everybody was doing the same thing irrespective of level of expertise.20 More importantly, it did not correlate with better diagnostic accuracy.100 Success at one case was a poor predictor for success in the next.


이 발견을 해석하려고 시도하면서, 그는 효과적인 문제 해결은 '사용된 계획 및 문제 해결 휴리스틱의 차이보다' '장기 기억으로 정리된 [의사] 경험의 레퍼토리에서 발견될 수 있다'는 것을 암시하는 현상을 [내용 특이성]이라 명명하였다. 이 생각은 [마음속에 있는 지식의 조직]에 대한 연구를 자극하기에 충분히 영향력이 있는 것으로 증명되었다. 올바른 진단을 찾아내는 것은 [내용 지식], 즉 [기억 속의 정신적 표상으로 조직된 이전 경험의 지식 구성]의 문제가 되었다. 그러나 곧 진단 정확성을 위해 [컨텐츠에 대한 숙달]은 필요했지만, 이러한 case-to-case 수행능력 변화를 설명하기에 충분하지 않다는 것이 명백해졌다. 예를 들어, 증거는 임상 사례의 제시를 약간 수정하거나 심지어 다른 경우에 정확히 같은 사례를 제시하는 것이 진단 정확도에 영향을 미친다고 제안했다. 특정 사례에서 [콘텐츠가 '프레임'된 방식]은 의사가 사례에 대응하는 방식에 영향을 미쳤다.

Attempting to interpret this finding, he labelled the phenomenon content-specificity suggesting that effective problem-solving was ‘to be found in the repertory of their [physicians’] experiences, organized in long-term memory’ rather ‘than in differences in the planning and problem-solving heuristics employed’.99 This idea proved influential enough to stimulate research on the organisation of knowledge in the mind.101-104 Finding the correct diagnosis became an issue of organisation of content knowledge, in essence knowledge from previous experience organised as mental representations in memory.19,26,100,105,106 However, it soon became evident that while mastery of the content was necessary for diagnostic accuracy, it was not sufficient to explain this case-to- case variation in performance.16,98,106 For example, evidence suggested that slightly modifying the presentation of a clinical case or even presenting exactly the same case on a different occasion affects diagnostic accuracy. 16,107 The way content was ‘framed’ in a particular case affected how physicians responded to the case.108

한 가지 설명은, [내용 지식의 평가]의 방법론적 결함을 지적한다. [서로 다른 사례case에 걸친 성과 변동variance의 원인]이 주로 사례 내에서 클러스터링된 내용 지식 때문이 아니라, 각 사례 내에서 평가된 항목이 너무 적기 때문이라는 것이다. 인지과학의 대표적representational 세계관의 렌즈를 통해 볼 때, 그 문제는 충분히 혼란스러우면서도, 정말로 정당해 보인다. 그러나 다른 두 가지는 무시한 채 [맥락의 표현적 차원]을 고려하는 문맥에 대한 이러한 편협한constraining 시각이 잘못된 방향으로 나가는 것일지도 모른다는 생각을 갖게 한다. Engeström이 언급했듯이, '엘슈타인과 그의 동료들은 문제 특수성을 보다 맥락적이고 포괄적인 틀에서 문제 자체를 이해하기 위한 도전challenge이라기보다는 개별 실무자의 지식의 문제로 해석한다.'

One suggersted explanation implicated methodological flaws in the assessment of content knowledge suggesting that the cause of variance in performance across different cases was not primarily due to content knowledge clustered within cases but instead due to too few items assessed within each case.16 Seen through the lens of the representational worldview of cognitive science, the problem seems puzzling enough and indeed legitimate. It is tempting to wonder, however, if this rather constraining view of context that takes into consideration the representational dimension of context while ignoring the other two, might be a step in the wrong direction. As Engeström remarks, ‘Elstein and his colleagues themselves interpret problem specificity as an issue of the individual practitioner's knowledge rather than as a challenge to understand the problems themselves in a more contextual and comprehensive framework’.52


또 다른 설명은 문제를 해결할 수 있는 몇 가지 잠재적인 방법이 있을 수 있으며, 어떤 전략을 선택할지를 결정하는 것은 맥락이라는 것이다. 문제에 대한 낮은 상관관계는 이론적으로 문제 해결 전략의 다른 선택(분석 대 비분석)을 반영할 수 있다.  엘스타인 자신은 자신의 초기 연구를 회고적으로 성찰하면서 '실험 설정이 의사들이 특정한 방식으로 반응하도록 편향시켰을 가능성'에 주목했다. 내용 외에도 [상황적 요인의 영향]이 있다는 인식이 점차 높아지는 것을 반영하기 위해, 그 현상은 현재 [상황 특이성]으로 널리 재명명relabelled되고 있다. 이 방향의 연구는 환자-의사의 만남에서 [맥락적 요인]이 임상적 추론을 어떻게 방해하거나 용이하게 하고 진단 결과를 어떻게 변화시키는지 조사한다. 그러한 견해는 현상에 대한 우리의 이해를 부인할 수 없을 정도로 진전시킨다. 그들은 [내용]에서 [맥락]으로, 또는 이 논문에서 사용한 인식론적 프레임워크의 언어로 표현하자면, [표현적 차원]에서 [상호작용적 차원]으로 논의를 이동시킨다.

Another explanation put forward is that there may be several potential ways to solve a problem and it is the context that determines the strategy chosen. Low correlation across problems could theoretically reflect a different choice of problem-solving strategy (analytical vs. non-analytical). 15,106,109 Elstein himself reflecting retrospectively on his earlier work, noted the possibility that ‘the experimental setting biased the physicians to respond in a particular way’.100 To reflect this growing recognition of the impact of contextual factors other than content, the phenomenon is now widely relabelled as context specificity.43 Research in this direction investigates how contextual factors in patient-doctor encounters impede or facilitate clinical reasoning,43 and alter the diagnostic outcome.12,56,57 Such views undeniably advance our understanding of the phenomenon. They shift the discussion from content to context, or in the language of our epistemological framework, from the representational to the interactional dimension.

[맥락 특이성]은 임상 상황의 특이적 요소에 대한 강력한 지표이다.

  • [상호작용적 인식론]의 관점에서, 임상적 추론은 지식 조직이나 문제 해결의 고정된 원칙에 의해 지배되는 안정적인 성향이나 기술을 나타내기보다, 대신 특정한 임상 만남에서 일어나는 특이적 상호작용에 의존하는 상태, 즉 위치된situated 활동을 나타낸다. 지식은 활동과 얽히게 되고, [맥락 특이성]은 이 유대를 강하게 예시한다.
  • [해석적 인식론]의 관점에서, 임상적 추론은 의사와 환자의 상호주관성에 의해 추진되는 해석적 행위이다. 의사가 '지식이 상황에 따라 달라지는 상황에서' 최선의 행동 방침을 결정할 수 있도록, [환자의 질병 경험에 의미를 부여하는 활동enterprise]이다. 의사가 마주치는 각각의 상황은 실로 특이적specific이고 맥락에 내재되어embedded 있다. 듀이의 말을 인용하면, '우리는 맥락의 역할을 명시적으로 인식하지 못한다. 우리의 모든 발언utterance은 맥락으로 포화되어 있어서, 우리가 무엇을 말하고 들을지의 의미를 형성하기 때문이다.' 더 깊이 생각해 보면, 맥락 특이성이 존재한다는 것은 놀랄 일이 아니다. 오히려 그렇지 않다면 그것이 역설일 것이다.

Context specificity is a powerful indicator of the idiosyncratic elements of the clinical situation.

● In the light of an interactional epistemology, clinical reasoning does not denote a stable disposition, or skill, governed by fixed principles of knowledge organisation or problem-solving but instead a situated activity, a state contingent to the idiosyncratic interactions taking place in the specific clinical encounter.13,14,34 Knowledge becomes entangled with activity, and context specificity strongly exemplifies this bond.49

● In the light of an interpretative epistemology, clinical reasoning is an interpretative act driven by the intersubjectivity of physician-patient encounter. It is an enterprise assigning meaning to the patient's illness experience that enables physicians to determine the best course of action ‘when knowledge depends on the circumstance’.110 Each situation the physician encounters is specific and embedded in context. Quoting Dewey, ‘we are not explicitly aware of the role of context just because our every utterance is so saturated with it that it forms the significance of what we say and hear’.4 On deeper thought, it should hardly be surprising that context specificity exists. It would actually be a paradox if it did not.


누군가는 왜 엘스타인의 날카로운 관찰이 반세기 전처럼 오늘날에도 여전히 관련이 있는지 궁금해 할 것이다. 그럴듯한 대답은 그들이 제기하는 문제들이 과학의 경계를 초월하여 임상 추론의 인식론의 영역으로 나아간다는 것이다. 우리는 특정 주장을 뒷받침하기 위해 제시된 증거들 중 일부를 간략히 제시했습니다. 그러나, 우리의 확신은 아마도 그 현상에 대한 진정한 설명은 없을 것이라는 것이다. 우리는 분명히 어떤 것이 진행된다는 것을 암시하려는 것은 아니다. 아직 멀었지요 단지 옳고 그름의 개념은 기준점에 의해 결정되어야만 할 뿐이다. 실용적인 언어와 브루너를 바꾸어 말하면, 사람들은 '만약 내가 어떤 인식론적 주장을 믿는다면, 나는 임상적 추론을 거기에 맞게 전념하고 있는가?' 75 기억 속의 지식의 구성, 상황적 상호작용으로 인한 비상 활동, 또는 의미에 대한 상호 주관적 해석 등, 임상적 추론에 대한 각 인식론적 주장은 상황 간 좋지 않은 상관관계에 대한 엘스타인의 관찰과 씨름하고 맥락이 어떻게 처리되는지를 결정한다.

One might wonder why Elstein's sharp observations are still today as relevant as they were half a century ago. A plausible answer would be that the issues they raise transcend the borders of science towards the realm of epistemology of clinical reasoning. We have briefly presented some of the evidence put forward in support of particular claims. However, our conviction is that there is probably not one true explanation of the phenomenon. We surely do not mean to imply that anything goes. Far from it. It is just that the notions of right or wrong should be determined by the points of reference. In a pragmatic language and to paraphrase Bruner, one should wonder ‘what epistemological claims of clinical reasoning am I committing myself to if I believed that?’ 75 Be it organisation of knowledge in memory, emergent activity from the situational interaction, or intersubjective interpretation of meaning, each epistemological claim about clinical reasoning determines how context is treated and grapples with Elstein's observation of poor correlation between situations.

7 | 학습에 대한 시사점
7
|
IMPLICATIONS FOR LEARNING

모든 학습 이론은 지식에 대한 가정과 앎의 본질에 대한 가정에 기초한다. 이는 맥락과 관련된 임상 추론의 인식론적 인식은 다른 사람이 다른 사람의 생각에 대해 어떻게 생각했는지에 대한 이론적 연습이 수반될 뿐만 아니라 임상 추론의 학습에도 중요한 영향을 미친다는 것을 의미한다.
All learning theories rest on assumptions of knowledge and the nature of knowing.
94 This implies that the epistemological awareness of clinical reasoning in relation to context entails not only a theoretical exercise of thinking about what others thought about others thinking but also carries important implications for the learning of clinical reasoning.

7.1 | 인지 지식 및 기술 구성
7.1
|
Constructing cognitive knowledge and skills

표상적 이론은 무엇을 배워야 하는지(내용)와 어떻게 배워야 하는지(실습)를 명확히 구분한다. 그러한 접근법은 임상 추론 기술을 숙달하기 위해 학습자가 [정신적 표현]을 개발하는 데 도움이 되는 교수 방법을 신중하게 고려한다. 맥락은 훈련하고자 하는 특정한 정신 전략mental strategies을 자극하는 통제된 입력으로 축소된다. 강의실에서 임상 추론을 가르치는 선호하는 방법은 다양한 교육 형식(즉, 종이와 비디오)의 의료 사례에 의존한다. 일부 대학은 이를 위해 임상추론과정을 개설하기도 한다. 
Representational theories make a clear distinction between what should be learned (content) and how it should be learned (practice). Such approaches take careful consideration of the instructional methods that facilitate the learner in developing mental representations to master the skill of clinical reasoning.24 Context is reduced to controlled inputs that stimulate the particular mental strategies one wishes to train. The preferred way to teach clinical reasoning in the classroom relies on medical cases in various instructional formats (ie paper and video). Some universities even offer clinical reasoning courses for this purpose.111

진단역량을 촉진하는 대표적인 교육방법은 크게 두 가지 방향으로 나뉜다.

  • 학습자가 '구조화된 성찰', '표상의 스캐폴드' 또는 '스키마 기반 교육'의 구현과 같은 자신의 [지식 구조를 구성]할 수 있도록 지원하는 교육 방법
  • 다양한 추론 전략을 고려하도록 명시적으로 가르치거나, '대조적contrastive 학습'과 같은 학습자의 추론 과정을 훈련하는 방법. 

임상환경과 같은 실생활 맥락에서의 교육은 [신중하게 선택한 의료 사례]와 [학생이 공부한 내용을 적용할 수 있는 통제된 상황]에 초점을 맞춰야 한다. 구조화되지 않으면 학생의 작업기억력을 압도할 위험이 있고 학습에 지장을 줄 수 있다.

Representative examples of instructive methods promoting diagnostic competence fall in two main directions;

  • instructional methods facilitating learners to construct their own knowledge structures, such as the implementation of ‘structured reflection’, ‘representation scaffolds’ or ‘schema-based instruction’112-115 and
  • methods training learners’ reasoning processes such as explicit instructions to consider various reasoning strategies or ‘contrastive learning’.116,117

Instructions in real-life contexts such as the clinical environment should focus on carefully chosen medical cases and controlled situations in which the students can apply what they have studied. If unstructured, they risk overwhelming the student's working memory and impair learning.

 

7.2 | 콘텐츠를 넘어서기
7.2
|
Going beyond content


상호작용적 이론과 해석적 이론은 다른 교육학적 방향을 가정한다. 이러한 이론은 학습 내용과 학습 방법(실습)의 분리를 인위적으로 간주한다. 학습 상황은 '활동을 통해 지식을 공유한다고 말할 수 있다'. 연구자들은 훈련되는 정신 작용에 [가장 적절한 교육 방법]을 결정하기보다는, [학습 맥락을 제공하는 사회적 참여]에 대해 질문한다. 이러한 지향은 자연주의적이고 실제적 임상 환경에서 학습하는 것을 우선시하며, 교육 활동을 계획할 때 교육 환경을 신중하게 고려한다. Greeno가 말했듯이, '…모든 활동의 배열arrangement는 [학습이 일어나는 상황과 실천]을 제공하며, 모든 학습은 [어떤 상황]에서 이루어진다. 다른 배열arrangement에서 배우는 것이 만들어내는 차이는 [배움이 situated 되었는지 여부]가 아니라 [어떤 방식으로 배움이 situated 되었느냐]이다.'

Interactional and interpretative theories assume a different pedagogical orientation. Such theories regard the separation of learning content and learning method (practice) as artificial. Learning situations ‘might be said to co-produce knowledge through activity’.118 Rather than determining the most appropriate instructional method for the mental operation being trained, researchers inquire about the social engagements that provide the context for learning.119 This orientation prioritises learning in naturalistic, authentic clinical environments and takes careful consideration of the educational settings when planning educational activities. As Greeno remarks, ‘…all arrangements of activity provide situations and practices in which learning occurs, and all learning occurs in some situation. The difference between learning in different arrangements is not whether learning is situated or not, but how it is situated’.24

이 관점은 가르치는 것을 쓸모없는 것으로 여기지 않지만, 임상적 추론 학습은 교육이나 가르침과 무관하게 이루어지며, 따라서 강조점을 교육적 방법에서 학습 환경(맥락)으로 이동시킨다. 이러한 관점은 [학습의 결과]가 지도instruction에 의해 미리 결정될 수 없다는 것을 인정한다. 대신, [학습자와 환경 사이의 독특한 상호작용]은 종종 비선형 방식으로 학습을 의도하지 않고 예측할 수 없는 결과로 이끈다. 학생과 환자의 만남에 대한 우리의 연구는 맥락이 임상 추론 학습을 어떻게 촉진하는가에 초점을 맞춘다. 우리는 임상 상황이 자신의 기준 프레임과 일치하지 않기 때문에 학습자가 이해가 깨질 때 긴장을 경험해야 한다고 제안한다. 이러한 분류는 의사 결정 진단 및 치료에 대한 기존 가정에 도전하지만 학습자가 이러한 문제가 있는 가정을 수정할 수 있는 상당한 학습 잠재력을 제공합니다.

While this view does not regard teaching as obsolete, it argues that learning clinical reasoning takes place irrespective of teaching or instruction, thus shifting the emphasis from instructional methods to the learning environment (context). This view acknowledges that the outcome of learning cannot be predetermined by instruction. Instead, the idiosyncratic interaction between the learner and the environment drives learning often in a non-linear fashion to unintended and unpredictable outcomes.34,53 Our own research on student-patient encounters concentrates on how context drives learning of clinical reasoning. We suggest that learners experience tensions when their understanding breaks down because the clinical situation is inconsistent with their own frames of reference.120 These breakdowns challenge their held assumptions about diagnosing and treating decisions but present significant learning potential affording learners to revise these problematic assumptions.

그러나 주의를 요하는 것은 학습 활동의 [즉각적인immediate 맥락]만이 아니다학습활동이 내재된 더 넓은 [사회문화적 환경]도 보완할 필요가 있다. 임상적 추론을 배우는 것은 전문직업적 사회화를 통해 이루어진다는 연구 결과가 있다. 전화 상담이나 사례 프레젠테이션에 초점을 맞춘 연구는 초보자들이 특정 의사소통 전략을 개발함으로써 임상 불확실성을 관리하는 방법을 보여준다. 초보novice 의료 전문가들이 특정한 방식으로 말하는 법을 배울 때, 그들은 또한 특정한 방식으로 생각하는 법을 배우고 있다.
It is not only, however, the immediate context of the learning activity that demands attention. The wider sociocultural settings in which learning activities are embedded also need to be adressed.
120 Research shows that learning clinical reasoning takes place through professional socialisation.121 Studies concentrating on telephone consultations or case presentations demonstrate how novices learn to manage clinical uncertainty by developing particular communication strategies.76,122 When novice healthcare professionals learn how to talk in a certain way, they are also learning to think in a certain way.


임상 환경에서 임상 추론 학습에 대한 문헌은 제한적이며, 직장 학습에 대한 이용 가능한 연구는 임상 추론을 특정 학습 결과로 인정하지 않는 경우가 많다는 점에 유의해야 한다. 내용을 넘어 환자의 질병 경험을 이해할 수 있게 되면 임상 추론 학습자에게 중요한 학습 이정표가 구현될 수 있다. 향후 연구는 학습자가 임상적 만남의 맥락을 어떻게 탐색하고 이것이 그들의 추론에 어떤 영향을 미치는지 다루어야 한다.

It should be noted that the literature about learning clinical reasoning in clinical environments is limited and available research on workplace learning often fails to acknowledge clinical reasoning as a specific learning outcome. Being able to go beyond content and make sense of the patient's illness experience could embody an important learning milestone for the learner of clinical reasoning. Future research should address how learners navigate the context of the clinical encounter and how this impacts on their reasoning.

8 | 마무리 의견
8
|
CONCLUDING REMARKS


결론적으로, 맥락에 대한 연구는 임상 추론의 인식론에 대한 연구로 볼 수 있다. 일상적인 의료행위의 중심에는 '이 환자에게 무슨 일이 일어나고 있는 걸까?'라는 질문이 있다. 이것은 단순히 증거 기반 지침과 같은 이론적 지식을 적용하는 것 이상의 것을 포함한다. 아리스토텔레스의 프로네시스 감각에서 지혜는 전개되는 상황의 두드러지고 모호한 특징들을 개척하고 상황에 적합한 행동 과정을 숙고하여 만드는 능력을 의미한다.  이 점에서 [맥락의 숙달]은 의료행위의 핵심 활동이 된다. [맥락을 숙달한다는 것]은 맥락의 인식론적 차원 안에서 탐색하고, 불확실성을 용인하고, 우리가 살고 있는 세상을 다양한, 때로는 상충하는 방식으로 잉태할 수 있는 능력을 상정한다. 의료 프락시스(관행)는 결국 프로네시스 행위이다.

At the bottom line, the study of context may be viewed as the study of the epistemology of clinical reasoning. At the heart of everyday medical practice lies the question, ‘what is going on here with this patient?’123 This involves much more than simply applying theoretical knowledge such as evidence-based guidelines.124 Wisdom in the Aristotelian sense of phronesis (practical reasoning) denotes the capability to carve out the salient and ambiguous features of the situation unfolding and to craft through deliberation a course of action appropriate for the circumstances.125 Mastery of the context in this respect becomes a core activity of medical practice. It presupposes the capacity to navigate inside the epistemological dimensions of context, to tolerate uncertainty and to conceive the world we are living in (Umwelt) in multiple and sometimes competing ways. Medical praxis (practice) is, after all, an act of phronesis.  

 


Med Educ. 2022 Jan;56(1):98-109.

 doi: 10.1111/medu.14545. Epub 2021 May 26.

Representation, interaction and interpretation. Making sense of the context in clinical reasoning

 

Affiliations

1Department of Learning, Informatics, Management and Ethics, Karolinska Institutet, Stockholm, Sweden.

2Centre for Research and Development, Uppsala University/Region Gävleborg, Gävle, Sweden.

3Department of Infectious Diseases, Karolinska University Hospital, Huddinge, Sweden.

4Department of Medical Sciences, Uppsala University, Uppsala, Sweden.

PMID: 33932248

DOI: 10.1111/medu.14545

Abstract

Background: All thinking occurs in some sort of context, rendering the relation between context and clinical reasoning a matter of significant interest. Context, however, has a notoriously vague and contested meaning. A profound disagreement exists between different research traditions studying clinical reasoning in how context is understood. However, empirical evidence examining the impact (or not) of context on clinical reasoning cannot be interpreted without reference to the meaning ascribed to context. Such meaning is invariably determined by assumptions concerning the nature of knowledge and knowing. The epistemology of clinical reasoning determines in essence how context is conceptualised.

Aims: Our intention is to provide a sound epistemological framework of clinical reasoning that puts context into perspective and demonstrates how context is understood and researched in relation to clinical reasoning.

Discussion: We identify three main epistemological dimensions of clinical reasoning research, each of them corresponding to fundamental patterns of knowing: the representational dimension views clinical reasoning as an act of categorisation, the interactional dimension as a cognitive state emergent from the interactions in a system, while the interpretative dimension as an act of intersubjectivity and socialisation. We discuss the main theories of clinical reasoning under each dimension and consider how the implicit epistemological assumptions of these theories determine the way context is conceptualised. These different conceptualisations of context carry important implications for the phenomenon of context specificity and for learning of clinical reasoning.

Conclusion: The study of context may be viewed as the study of the epistemology of clinical reasoning. Making sense of 'what is going on with this patient' necessitates reading the context in which the encounter is unfolding and deliberating a path of response justified in that specific context. Mastery of the context in this respect becomes a core activity of medical practice.

의학교육에서 자신감-역량 정렬과 자기확신의 역할: 개념 리뷰(Med Educ, 2022)
Confidence-competence alignment and the role of self-confidence in medical education: A conceptual review
Michael Gottlieb1 | Teresa M. Chan2 | Fareen Zaver3 | Rachel Ellaway4 

1 | 소개
 1 |
INTRODUCTION

의심은 당신에게 동기를 부여할 수 있으니 두려워하지 마세요. 자신감과 의심은 양 끝에 있고, 당신은 둘 다 필요합니다. 그들은 서로 균형을 잡는다. –바바라 스트라이샌드
Doubt can motivate you, so don’t be afraid of it. Confidence and doubt are at two ends of the scale, and you need both. They balance each other out. –Barbra Streisand

지난 10년 동안 보건 직업 교육(HPE)에서 역량 기반 의료 교육에 대한 강조가 증가하고 있다. 이는 시간 기반 교육 및 평가에서 관찰 가능한 역량으로 관심이 이동했음을 반영한다. 관찰된 행동에만 기반한 역량에 대한 접근법은 [잘못된 인식과 속성]을 놓칠 수 있다.1 학습자가 역량에 대해 공개하거나 행동할 충분한 확신이 있는 경우에만 명확해질 것이다. 간단히 말해서, 오직 역량에만 집중하는 것은 자신감의 중요한 차원을 무시합니다.
There has been an increasing emphasis on competency-based medical education (CBME) in health professions education (HPE) in the last decade.
1,2 T his reflects a shift of attention f rom t ime-based teaching and assessment to observable competence. Approaches to competence that are solely based on observed actions may miss aberrant perceptions and attributions,1 which will only become apparent if a learner is sufficiently confident to disclose or act on them.3 Simply put, focusing solely on competence neglects the important dimension of confidence.

자신감은 많은 것을 의미할 수 있지만, 일반적인 정의는 '사람이나 사물을 신뢰하거나 의지하는 마음가짐; 어떤 사실이나 문제에 대해 자신하거나 확신하는 마음가짐'이다. 자신감은 행동과 인식을 바꿀 수 있습니다. 불행하게도, 기술에 대한 개인의 자기평가는 형편없고, 이것은 자신감과 역량의 공통적인 불일치를 반영한다. 자기조절이 성과 개선의 한 방법으로 제안되었지만, 여전히 개인의 자신감과 기술에 대한 확실한 이해에 달려 있다.7 자신감과 역량이 맞지 않을 때 문제가 생긴다. 예를 들어, 자신감이 부족한 의사는 필요할 때 결정을 내리는 것을 망설일 수 있는 반면, 자신감이 부족한 의사는 그들의 행동의 결과에 무모하거나 맹목적일 수 있다. 두 가지 상황 모두 환자에게 해를 끼칠 수 있다.8,9 이와 비슷하게, 과소-자신감은 이미 알려진 정보에 과도한 시간을 소비할 수 있는 반면, 과다-자신감은 학습 기회를 놓치고 피드백에 대한 수용성이 저하될 수 있습니다. 안전한 임상 실천을 위해서는 훈련, 경험 및 임상 복잡성의 수준에 따라 적절한 수준의 자신감이 필요하다.
Confidence can mean many things, but a common definition is ‘the mental attitude of trusting in or relying on a person or thing; feeling sure or certain of a fact or issue’.
4 Confidence can change behaviours and perceptions.5 Unfortunately, individual self-assessment of skills is poor,6 which reflects a common mismatch between confidence and competence. Although self-regulation has been proposed as a way of improving performance, it is still contingent on a robust understanding of one's confidence and skills.7 When confidence and competence are out of sync, problems arise. For instance, a physician who is underconfident may still hesitate to make decisions when needed, whereas an overconfident physician may be reckless or blind to the consequences of their actions; either situation could lead to patient harm.8,9 Similarly, underconfidence may lead to spending excessive time on information already known, while overconfidence may lead to missed learning opportunities and decreased receptivity to feedback. Safe clinical practice requires an appropriate level of confidence based on the level of training, experience and clinical complexity.

자신감은 스트레스, 불확실성, 감정, 인지 부하 및 그룹 역학을 포함한 많은 요인에 의해 영향을 받는다. 이러한 개별 차원이 어느 정도 주목을 받긴 했지만, 신뢰와 그것이 성과와 어떤 관련이 있는지 구체적으로 본 사람은 거의 없다.
Confidence is influenced by many factors including stress,
10 uncertainty,11,12 emotion,13 cognitive load14 and group d ynamics.15 Although these individual dimensions have received some attention, few have specifically looked at confidence as a multidimensional construct and how it relates to performance.

 

2 | 방법
2
|
METHODS


우리는 의학 교육뿐만 아니라 HPE 전반에 걸쳐 자신감과 역량에 대한 자신감의 교정을 탐구하기 위한 개념적 검토를 수행했다. 우리는 관심 있는 현상을 탐구하기 위해 문헌 검토와 이해관계자 협의를 이끌어내며 반복적인 발산 및 수렴 접근법(증거, 의견 및 이론의 차이점과 유사성을 탐구)을 채택했다. 
We undertook a conceptual review16 to explore confidence and the calibration of confidence against competence not just in medical education but across HPE. We employed an iterative divergent and convergent approach (exploring differences and similarities in evidence, opinion and theory), drawing on a literature review and a stakeholder consultation to explore our phenomena of interest.17,18 

2.1 | 팀
2.1
|
The team

연구팀은 응급의학 분야의 임상 교육자 3명과 박사과정 과학자 1명으로 구성됐으며 이들 모두 HPE 분야의 연구자로 확인됐다. 임상의에게는, 한 명의 저자가 그녀의 첫 몇 년간의 임상 실습에 있었고, 두 명은 그들의 학문적인 경력에 더 가까웠다. 한 교육자는 그녀의 지역 역량 위원회에 참여했고 거의 10년 동안 CBME에 몰두해 왔다. 우리의 박사 교육 과학자는 HPE 연구의 여러 영역에 광범위하게 익숙하며 임상의 교육자들이 반사성과 이론에 대한 참여를 유지할 수 있도록 돕는 데 초점을 맞추고 있다. 우리는 과정 전반에 걸쳐 핵심 현상에 대한 가정과 개념화를 선언하고 해제함으로써 반사적인 구성 요소를 연구에 내장했다.
The study team was composed of three clinician educators in the field of Emergency Medicine and one PhD scientist, all of whom also identify as researchers within the field of HPE. For the clinicians, one author was in her first few years of clinical practice and two were further along in their academic careers. One educator has participated in her local competence committee and has been immersed in CBME for nearly a decade. Our PhD education scientist is broadly familiar with multiple domains of HPE research and focused on helping the clinician educators maintain their reflexivity and engagement with theory. We built a reflexive component into the study through declaring and unpacking our assumptions and conceptualisations of our core phenomena throughout the process.

2.2 | 팀 토론
2.2
|
Team discussions

첫 번째 단계는 우리의 이론적 작업에 대한 민감한 개념으로 사용하기 위해 HPE 내부와 외부의 이론을 식별하기 위한 파일럿 문헌 검토를 포함했다. 반복적인 그룹 토론을 통해 확인된 용어에는 자기 효능감, 자가 평가, 직업적 정체성 형성, 쇤의 행동반영/행동반영25 개념 및 임포스터 증후군이 포함되었다. 이것은 우리의 초기 아이디어와 후속 문학 리뷰를 비계화 할 수 있게 해주었다. 다음으로, 우리는 협업 메모잉과 개념 쌓기를 사용하여 귀납적 추론과 연역적 추론을 번갈아 할 수 있는 일련의 대화식 토론에 참여했습니다. 우리의 목표는 명료성이 부족한 아이디어들을 질문하고 재구성하는 것뿐만 아니라 아이디어화와 이론적 합성을 지원하는 것이었습니다. 

The first step involved a pilot literature review to identify theories from within and beyond HPE to use as sensitising concepts for our theoretical work.19 Terms identified through iterative group discussion included self-efficacy, 20 self-assessment, 7,21-23 professional identity formation,24 Schön's concepts of reflection-in- action/ reflection-on- action25 and imposter syndrome.26 This enabled us to begin scaffolding our initial ideas and subsequent literature reviews. Next, we engaged in a series of interactive discussions that allowed us to alternate between inductive and deductive reasoning using collaborative memo-ing and concept-building. Our goal was to support ideation and theoretical synthesis, as well as question and reframe ideas which lacked clarity. 

2.3 | 문헌검토 및 작성
2.3
|
Literature review and writing

초기 개념화를 만든 후, 우리는 좀 더 심층적이고 표적화된 문헌 검토를 시작했다. 우리는 HPE 및 인접 도메인/분야(예: 심리학, 비즈니스, 비보건 전문직 교육)의 문헌을 활용하여 문제 공식과 새로 제안된 이론적 프레임워크에서 설명한 개념을 삼각측량하고 강화했다. 본 논문을 위해 검토한 개념의 전체 목록은 부록 S1에 포함되어 있다. 기사는 그룹 토론과 합의를 바탕으로 선정되었습니다. 그런 다음 기존 개요와 프레임워크를 텍스트와 그림으로 변환했습니다. 우리는 글의 흐름과 개념이 일치하고 반영될 수 있도록 논평, 토론, 편집을 통해 반복적인 수정에 참여했다. 우리는 식별된 주요 주제를 요약하기 위해 일반적인 공리를 만들었다.
After creating our initial conceptualisations, we began a more in-depth, targeted literature review. We utilised literature in the field of HPE and adjacent domains/fields (eg psychology, business, non-health professions education) to triangulate and augment the concepts that we described in our problem formulation and our new proposed theoretical frameworks. A full list of the concepts reviewed
for this paper is included in the Appendix S1. Articles were selected based upon group discussion and consensus. We then converted the existing outlines and frameworks to text and figures. We engaged in iterative revisions through comments, discussion and edits to ensure that the flow and concepts were congruent and reflective of the literature. We created general axioms to summarise the key themes identified.

2.4 | 이해관계자 협의
2.4
|
Stakeholder consultation

검토 범위 지정에 사용된 방법과 유사하게, 우리는 다음으로 전문가(예: HPE 분야의 과학자 및 학자)와 일선 개인(예: 임상의사 교육자, 동료 의사, 레지던트 의사 및 의대생)으로부터 잠정적 발견에 대한 조형적 피드백을 구했다. 기관, 국가, 전문성, 훈련 단계 등 다양성이 포함될 수 있도록 의도적으로 이해관계자를 선정했습니다. 이해관계자들에게 연락하여 원고 초안을 제공했다. 8명의 개인이 광범위한 서면 의견과 선택적인 화상 상담을 통해 잠정적인 결과에 대한 의견을 제공했습니다. 주로 설명과 다른 연구와의 교차에 초점을 맞춘 이러한 의견을 바탕으로, 우리는 시사점을 논의하고 피드백을 반영하기 위해 섹션을 다시 작성했다. 이해관계자 피드백의 한 예는 분산 신뢰에 대한 논의를 가시적인 사례로 확장하는 것이었다.

Similar to methods used in scoping reviews, we next sought formative feedback on our provisional findings from experts (eg scientists and scholars in the field of HPE) and frontline individuals (eg clinician educators, fellow physicians, resident physicians and medical students).27-29 We intentionally selected the stakeholders to include diversity of institution, country, specialty and stage of training. Stakeholders were contacted and provided a draft of the manuscript. Eight individuals provided their reflections on our provisional findings via extensive written comments and optional video consultation. Based on these comments, which focused primarily on clarifications and intersections with other research, we discussed the implications and rewrote sections to incorporate their feedback. One example of the stakeholder feedback was to expand the discussion of distributed confidence with a tangible example.

3 | 결과
3
|
RESULTS

3.1 | 현상으로서의 신뢰도
3.1
|
Confidence as a phenomenon

[확실성]은 주로 지식을 중심으로 구성된 인식론적 현상인 반면, [자신감]은 행동에 중점을 둔다. 무언가에 대해 확신하는 것은 [행동할 수 있는 자신감]을 만들 수 있습니다. 시간이 지남에 따라, 행동의 결과가 확신감을 강화한다면, 확신은 자신감을 시작하고 그것을 유지할 수 있다. 과학철학에서 [인식론적 자신감]은 [지식]과 [다른 조건에서 지식을 검증하는 능력]을 모두 반영한다. 인식론적 자신감은 (지식과 앎의 한계를 인식하는 온건한 덕목인) [인식론적 겸손]에 의해 조절되며, 그래야 한다. [인식론적 자신감]은 검증 가능한 확실성과 신뢰성을 반영해야 하지만, 자신감이 검증 가능성을 초과하면 오만이나 무모함으로 이어질 수 있다. 다른 때에는, 자신감이 검증 가능한 확신 아래로 떨어져 [소심함]이나 [불안정]으로 이어질 수 있다. 자신감은 주관적이고 감정적이며 해석적입니다. 그것은 이성이나 논리에 끌릴 수도 있고 끌리지 않을 수도 있는 것에 대한 게슈탈트 감각이다.

While certainty is an epistemic phenomenon primarily constructed around knowledge, confidence centres on action. Being certain about something can create the confidence to act.30,31 Over time, if the outcomes of the action reinforce the sense of certainty, then certainty can initiate confidence and sustain it.32 In the philosophy of science, epistemic confidence reflects both knowledge and the ability to verify that knowledge in different conditions.33 Epistemic confidence is (or should be) regulated by epistemic humility, a moderating virtue that recognises the limits of knowledge and knowing. Although epistemic confidence should reflect verifiable certainty and reliability, if confidence exceeds verifiability then it can lead to arrogance or recklessness. At other times, confidence may fall below verifiable certainty and lead to timidity or insecurity. Confidence is subjective, emotional and interpretive. It is a gestalt sense about something that may or may not draw on reason or logic.

자신감은 역동적입니다(그림 1). 그것은 다른 modifier에 반응하여 빠르게 변할 수 있는데, 그 수식어 중 일부는 자신감(예: 용기, 확신)을 증폭시킬 수 있는 반면 다른 modifier들은 그것을 완화시킬 수 있다(예: 의심, 겸손). 더욱이, 자신감 수준은 개인이 처한 특정 상황의 역학을 반영해야 한다. 일상적인 신뢰도의 작은 차이(예: 비상 상황에서의 해결 또는 불확실성이 증가하는 상황에서의 주의)가 보장되는 반면, 신뢰의 상당한 초과나 부재(예: 명확성 앞에서의 소심함, 위험 앞에서의 무모함)는 피해야 한다. 
Confidence is dynamic (Figure 1). It can change rapidly in response to different modifiers, some of which can amplify confidence (eg, courage, conviction) while others moderate it (eg, doubt, humility). Moreover, the level of confidence should reflect the dynamics of the specific situation that an individual finds themselves in. Small variances in routine confidence are often warranted (eg, resolution in the face of an emergency or caution in the face of growing uncertainty),
11 whereas significant excesses or absences of confidence should be avoided (eg, timidity in the face of clarity, recklessness in the face of risk).6,26,34

공리: 자신감은 우리가 현실에서 어떻게 행동하는지 형성하며, 현실과 밀접하게 일치할 때 최적화됩니다.
AXIOM: Confidence can shape how we act in our reality and is optimised when it closely corresponds to reality
.

3.2 | 자신감
3.2
|
Self-confidence

우리는 모두 자신감을 표현합니다; 다른 사람들, 교육 및 보건 시스템, 그리고 광범위한 기술 및 사회 시스템에. 그러나 교육 문헌에 대한 자신감은 자기 효능감, 즉 '특정 활동을 성공적으로 수행할 수 있다는 믿음'이라는 측면에서 더 자주 형성되어 왔다. 자기효능감은 종종 과제에 따라 다르지만, 긍정적이거나 부정적인 [자신감]의 축적은 개인의 전반적인 역량 감각을 형성할 수 있다. 그것은 또한 그들의 동기부여, 감정적 반응, 사고와 행동을 형성할 수 있다. 그동안 반두라 등이 '자기효능감'이라는 용어를 사용했지만, 우리는 그것이 사실상 자신감과 동의어라는 것을 발견했고, 일관성을 위해 후자를 사용했다. 자신감이 얼마나 중요한지는 개인이 감독 없이 주어진 일을 수행할 수 있는 책임이 얼마나 많은지에 달려있다. 우리에게 더 많은 선택권을 줄수록, 우리의 자신감은 더 중요하다. [더 개인주의적이고 모호함을 견뎌야 하는 맥락]은 [규칙 기반 또는 위계적 맥락]보다 더 많은 자신감을 요구할 수 있다. 따라서 자신감은 이러한 행동을 성공적으로 완수할 수 있는 능력뿐만 아니라 행동의 방향을 지시하는directing 것입니다.

We all express levels of confidence; in other people, in our educational and health systems and in our broader technical and societal systems. However, confidence in the educational literature has more often been framed in terms of self-efficacy, ‘the belief that one can successfully execute a specific activity’.35 While self-efficacy is often task-specific (ie one can be adept at one thing and inept at another), an accumulation of positive or negative confidences can shape an individual's overall sense of competence. It can also shape their motivation, emotional reactions, thinking and behaviours.5 While Bandura and others have used the term ‘self-efficacy’, we found that it was effectively synonymous with self-confidence, and we used the latter term for the sake of consistency. The degree to which self-confidence matters depends upon how much responsibility an individual is afforded to carry out a given task without supervision; the more options available to us, the more our self-confidence matters.5 Contexts that are more individualistic and tolerant of ambiguity may require more self-confidence than those that are more rule-based or hierarchical. Self-confidence is therefore about directing actions as well as the ability to complete these actions successfully.

자신감은 개인의 성격, 경험, 기대, 사회적 문화적 조건에 의해서도 형성된다. 개인의 이전 경험과 기준 자신감은 미래의 자신감을 알려주기 때문에 자신감이 긍정적이거나 부정적인 방식으로 스스로 쌓일 수 있다. 예를 들어, 자신을 이끌거나 믿도록 문화화된enculturated 사람은 그렇지 않은 사람보다 더 자신감을 가질 가능성이 높다. 낮은 사회적 지위에 있는 사람들은 (아무리 구성되어 있더라도) 자신감이 더 낮을 수 있으며, 특히 높은 사회적 지위에 있는 사람들(예: 교사 대 학습자, 전문가 대 비전문가)과 비교될 수 있다. 이러한 현상은 젠더, 성별, 인종, 민족성, 장애 및 사회-경제적 지위에 대한 사회적 불평등에 의해 더욱 악화될 수 있다. 예를 들어, 성별 간 자신감의 비대칭은 동등한 능력에서도 설명되었다. 이러한 능력에서 내면화된 자신감은 편견, 고정관념, 역할, 노동의 분할 및 보상에 의해 영향을 받을 수 있다. [지배적인 집단]에 속한 사람들은 종종 [덜 지배적인 집단]에 속한 사람들보다 더 큰 자신감을 갖게 된다.

Self-confidence is also shaped by an individual's character, experiences, expectations and social and cultural conditioning. An individual's prior experiences and baseline confidence can inform their future confidence, such that confidence can build upon itself in a positive or negative manner. For instance someone who has been enculturated to lead or believe in themselves is likely to have more self-confidence than someone who has not. Individuals of lower social standing (however constructed) may be conditioned or expected to have less confidence, particularly around and compared to those of higher social status (eg teachers vs learners, experts vs non-experts). 36 This phenomenon may be further exacerbated by social inequity around gender, sexuality, race, ethnicity, (dis)ability and socio-economic status. For example asymmetries of confidence between genders have been described even in light of equivalent abilities.37 I n t his c apacity, internalised self-confidence can be impacted by biases, stereotypes, roles, division of labour and rewards; those in more dominant groups are often afforded greater self-confidence than those in less dominant groups.

공리: 자신감은 직무에 특화되어 있지만 또한 개인의 자아 개념화, 주변 시스템 및 사회에 의해 불가분의 영향을 받습니다.
AXIOM: Self-confidence is task-specific but also inextricably influenced by the individual self-conceptualisation, the surrounding system and society
.

3.3 | 관계 신뢰도
3.3
|
Relational confidence

자신감은 학습자가 위치한 시스템뿐만 아니라 함께 일하는 개인들 간의 [관계 역학]을 반영할 수 있다. 팀 기반 환경에서는 여러 팀 구성원 간에 신뢰를 공유할 수 있으므로, [팀 구성원]은 개인 간 자신감 수준의 차이를 보완하거나 다른 팀 구성원의 기저 자신감 수준을 바꿔놓을 수 있습니다. 예를 들어, 더 젊은 주치의가 더 경험이 많은 간호사와 함께 일한다면 더 높은 자신감을 경험할 수 있다. 마찬가지로, 지도 의사가 도움을 주지 않는다면 학습자는 더 낮은 자신감을 경험할 수 있습니다. 주변 사람들에 대한 개인의 자신감은 또한 이러한 개인들이 계획하는 자신감에 의해 영향을 받을 수 있다. 따라서 개인의 내적 자신감이 반영되지 않을 수 있는 ['예측된 신뢰']와 그룹 역학의 산물로서 자신감이 어떻게 변화하는지 반영하는 ['분산된 신뢰']를 고려해야 한다. 
Confidence can reflect the relational dynamics between individuals working together, as well as the system in which the learner is situated. In a team-based setting, confidence can be shared across multiple team members, allowing team members to compensate for differences in individual confidence levels or alter the baseline confidence among other team members. As an example, a more junior attending physician may experience increased confidence if they are working alongside a more experienced nurse. Similarly, a learner may experience more diminished confidence if their supervising physician is not supportive. A person's confidence in those around them may also be influenced by the confidence these individuals project. We should therefore consider ‘projected confidence’, which may not reflect an individual's internal confidence, and ‘distributed confidence’ that reflects how confidence changes as a product of the group dynamic.5,31

의료 지도자들(예: 의사, 교사)은 일반적으로 다른 사람들이 그들을 따르도록 자연스럽게 설득하는 자신감을 투영하도록 기대되지만, 부하들은 비판으로부터 그들 자신을 보호하기 위해 그들의 실제 자신감을 평가절하 할 수 있다. 이는 일부 교육생들이 현재 [CBME 환경을 고부담으로 보는 관점]으로 인해 복합적으로 해석될 수 있으며, 학습learning보다 성과performance를 중요시하는 인식이 반영되어 있다. 학습자는 학습 능력과 피드백을 받는 능력에 지장을 줄 수 있는 [과도한 자신감]은 피하면서, 적절한 수준의 자율성을 개발할 수 있는 [충분한 자신감]을 가져야 한다. 실제로, 자신감 부족을 감추기 위해 과도한 자신감을 보이는 학습자들은 역량의 위험뿐만 아니라 학습 기회를 더욱 제한하고 있을 수 있다. 

Medical leaders (eg attending physicians, teachers) are typically expected to project confidence which naturally convinces others to follow them, while subordinates may downplay their actual confidence to protect themselves from criticism.38,39 T his c an b e c ompounded by the high-stakes view of the current CBME environment taken by some trainees, reflected in a perceived emphasis on performance over learning.38,40 In this capacity, learners must have sufficient confidence to develop appropriate levels and forms of autonomy, while avoiding overconfidence that may interfere with their ability to learn and receive feedback. Indeed, learners who exhibit excessive confidence to mask a lack of self-confidence may be further limiting their learning opportunities as well as risking dyscompetence.41

마지막으로 자신감의 [관계적 특성]은 자신감을 형성하는 많은 상황적, 우발적 요소에 반영된다. 예를 들어, 학습자가 엄격한 위계구조와 제한된 지원을 받는 부적응maladaptive 시스템에 있다면, 학습자의 자신감은 더 도움이 되는 학습 환경에 있을 때보다 더 낮을 수 있다. 그림 2는 반복 분석을 기반으로 신뢰도에 기여하는 몇 가지 주요 내부 및 외부 구성요소를 강조한다. [불확실성]이 클수록 자신감은 일상적이거나 단순한 상황보다 낮아지는 경향이 있다. 앞서 언급한 바와 같이 문화와 환경과 같은 맥락적 요소들이 모든 상황에 필연적으로 스며들기 때문에 그림 2에는 포함되지 않았다. 자신감은 [행동-후-성찰과 행동-중-성찰]에 의해서도 영향을 받는데, 그 결과 빠르게 진행할 때와 속도를 늦춰야 할 때를 조절할 수 있게 된다. 최악의 경우 자신감이 현실과 완전히 괴리될 경우 소시오패스(sociopathy)를 반영할 수 있다.
Finally, the relational nature of confidence is reflected in the many contextual and contingent factors that can shape it. For example, if the learner is in a maladaptive system with a strict hierarchy and limited support, their confidence may be lower than if they were in a more supportive learning environment. Figure 2 highlights some of the key internal and external components contributing to confidence based upon our iterative analyses. When there is greater uncertainty, confidence will tend to be lower than in routine or simple situations.
11,12 As stated before, the contextual factors such as culture and environment inevitably permeate all situations, and thus have not been included in Figure 2. Confidence is also influenced by reflecting-on- action and reflecting-in- action, 42 moderating when one might proceed with ease or should slow down.7,43 In the worst-case scenario, it can reflect sociopathy if confidence becomes fully dissociated from reality.


공리: 자신감은 많은 외부 요인과 상황의 맥락에 의해 형성됩니다.

AXIOM: Confidence is shaped by many external factors and the context of the situation
.

3.4 | 자신감 보정
3.4
|
Calibrating confidence

우리는 자신감이 당면한 상황을 반영해야 한다고 주장해왔다; 개인의 자신감은 상황이 변함에 따라 변해야 한다. 우리는 또한 확실성certainty이 자신감에 대한 직접적인 아날로그는 아니지만, 자신감의 전구체precursor라고 제안했다. 일반적으로, 더 큰 확신을 가지게 되면, 자신감이 증가해야 한다. 그러나 자신감은 감정, 위계, 경험을 포함한 광범위한 외부 요인에 의해 수정될 수 있다. [자신이 처한 상황을 인지하고 해석하는 능력]은 [이러한 인식과 해석에 대해 행동하는 능력]과 직결된다. 이 단계가 중단되면 피드백 루프가 중단될 수 있습니다.
We have argued that confidence should reflect the circumstances on hand; an individual's confidence should change as their situation changes. We have also suggested that certainty is a precursor for, but not a direct analogue for confidence. Generally, with greater certainty, confidence should increase. However, confidence may be modified by a wide range of external factors including emotion, hierarchy and experience.44,45 The ability of an individual to perceive and interpret the situations they find themselves in is directly linked to their ability to act on these perceptions and interpretations. If any stage of this is interrupted, then the feedback loop can be disrupted.

자신감 수준은 다양한 심리 측정 도구를 사용하여 측정할 수 있습니다. 자신감 평가를 위한 검증된 도구는 많지만, 특정 애플리케이션(예: 근골격계 검사, 학생 학습 기술)으로 제한되는 경우가 많다. 따라서, 사용된 새로운 자신감 평가 도구에 대한 적절한 타당성 증거를 확립할 필요가 있을 것이다. 중요한 것은, 이 자신감 수준의 결과는 어느 정도 수준의 자신감이 특정 개인과 상황에 적합한지에 대한 이해를 필요로 한다는 것이다. 이러한 [비례성]과 [맥락화]는 비록 간접적이지만 CBME에서 자주 사용되는 위임 척도에 반영된다(예: CBME에서 자주 사용되는 위탁 척도에 대해 이야기하고, 설득하고, 만일의 경우를 대비해서 방에 있어야 하며, 거기에 있을 필요가 없다). 특정 도구와 별개로, 변화하는 상황에 대한 자신감을 설명할 수 있는 능력은 위임을 확립하는 데 어느 정도의 확실성이 필요하다
Levels of confidence can be measured using different psychometric instruments.
46-48 While there are a number of validated tools for assessing confidence, they are often limited to specific applications (eg musculoskeletal examination, student learning skills).47,48 Therefore, it would be necessary to establish proper validity evidence for any new confidence assessment tools used. Importantly, the ramifications of this confidence level require an understanding of what levels of confidence are appropriate to the particular individual and situation. This proportionality and contextualisation is reflected, albeit tangentially, in the entrustment scales often used in CBME (eg had to do, had to talk them through, had to prompt them, needed to be in the room just in case, did not need to be there).49,50 Regardless of the exact tool, the ability to account for confidence in response to changing circumstances, need and degree of certainty is a necessary part of establishing entrustment.

앞에서 언급한 많은 도구들은 자신감의 자기평가에 의존한다. 이들은 일반적으로 '전혀 자신감이 없다'와 '매우 자신감 있다'와 같은 용어로 고정될 수 있는 리커트 척도를 사용하여 측정된다. 자신감을 평가할 때, 우리는 [자신감self-confidence]과 [인지된 자신감]을 모두 고려하는 것이 중요하다고 믿는다. 전자의 관점에서 후자의 개념은 묘사된 자신감과 실제 신뢰도의 차이를 식별하고 적절한 경우 정렬을 유도하기 위해 고려될 수 있다(예: 과도한 자신감은 팀이 잘못된 정보에 의문을 갖지 않도록 이끈다). 인간이 자기 평가에 악명 높기로 악명 높은 것을 감안할 때, 적절한 수준의 자신감을 유지하는 것은 전적으로 개인에게 맡겨서는 해결하기 어려울 수 있다. 

Many of the aforementioned tools rely upon self-assessment of confidence. These are typically measured using Likert scales that can be anchored by terms such as ‘not at all confident’ and ‘very confident’. When assessing confidence, we believe it important to consider both self-confidence and perceived confidence. The latter concept may be considered in light of the former to identify differences in portrayed versus actual confidence and guide alignment when appropriate (eg the perception of overconfidence leading the team to avoid questioning incorrect information). Given that humans are notoriously bad at self-assessment, maintaining appropriate levels of confidence can be challenging if left entirely to the individual to resolve.21-23,51,52


자신감은 [독립적인 변수나 구성으로서 측정하기보다는] 역량과 연결되어 있다고 생각할 수 있다. HPE에 대한 자신감과 역량의 상호작용은 오랫동안 고려되어 왔으며, 개인은 자신감과 역량이 분리될 때 문제가 있다고 본다. 역량과 자신감은 독립적으로 평가하기 어렵지만, 비율로 더 추적하기 쉬울 수 있다. 이는 주어진 기술에 대한 역량 점수에 대한 자신감의 비율(리커트 척도를 사용하여 평가)로 계산할 수 있다. 대안적으로, 교육자들은 자신감 앵커를 역량 앵커에 매핑하여 역량 단계를 통한 진행을 반영할 수 있습니다. 이상적으로는 자신감이 역량에 부합되어야 하며, 능력 있는 사람일수록 자신감이 있어야 하며, 그 반대의 경우도 마찬가지입니다(그림 3, 표 1). 다만 CCR이 잘못 보정됐을 때 문제가 발생할 수 있다. 

Rather than measuring confidence as an independent variable or construct, we can consider it as being linked to (but not as a surrogate for) competence. The interaction of confidence and competence in HPE has long been considered,53-58 and individuals are viewed to be problematic when confidence and competence are decoupled.37 While competence and confidence are hard to assess independently,21,56 they may be more trackable as a ratio. This may be calculated as the ratio of self-confidence (assessed using a Likert scale) to a competence score for a given skill. Alternatively, educators could map confidence anchors to competence anchors, such that they mirror the progression through stages of competency. Ideally, confidence should align with competence, such that the more competent a person is, the more confident they are and vice versa (Figure 3, Table 1). However, it is when the CCR is miscalibrated that problems can arise.6,26,34

 

CCR은 일반적으로 [자신감을 역량에 따라오는 것]으로 표현하며, 자신감은 행동적 성향이고, 역량이 더 중요하고 필수적인 구조라고 본다. 주장의 핵심은 이 둘이 정렬되고 비례해야 한다는 것이다. 이들이 정렬하면 일이 예상대로 진행돼 자신감도 관심사로 후퇴한다. CCR이 과신이나 저신뢰로 표류할 때 우리는 균형을 다시 잡으려고 한다. 그러므로 우리는 자신감이 역량의 중재자라고 제안합니다. 연습생은 기술적으로 유능할 수 있지만 자신감이 부족하다면 그러한 잠재적 역량을 사용할 수 있는 능력이 손상되어 다음과 같은 일반적인 공식이 제시된다.
The CCR is typically articulated such that confidence needs to follow competence, with the former being a behavioural disposition, while the latter is the more critical and essential construct. The argument is that they should be aligned and proportional. When they are aligned, things proceed as expected and confidence recedes as a concern. It is when the CCR drifts towards overconfidence or underconfidence that we seek to re-establish the balance. We, therefore, suggest that confidence is a mediator of competence. A trainee might be technically competent but if they lack confidence then their ability to use that potential competence is compromised, suggesting a general formula such as:



예를 들어, 과신하는 학습자(높은 CCR 값)는 잘못된 진단 계획을 과도하게 추구하고 잠재적인 인지 편향을 무시함으로써 역량이 낮아질 수 있다. 한편 학습자의 임포스터 증후군(즉, 낮은 CCR 값)은 정답을 억제하거나 적절한 계획에서 벗어나 자신을 재추측하는 것으로 나타날 수 있다. 따라서 교육자와 전문가들은 독립적인 변수로서의 자신감보다는 CCR 구성에 더 집중해야 한다.
For example an overconfident learner (ie high CCR value) may manifest lower competence by over-aggressively pursuing an incorrect diagnostic plan and ignoring potential cognitive biases. Meanwhile, a learner's imposter syndrome (ie a low CCR value) may manifest with holding back on correct answers or second-guessing themselves out of an apt plan. Educators and professionals should therefore be more focused on the CCR construct than on confidence as an independent variable.

공리: 자신감은 역량과 함께 고려되어야 합니다.
AXIOM: Confidence must be considered in conjunction with competence
.

3.5 | CCR 및 CBME
3.5
|
CCR and CBME

CCR은 역동적이다(그림 4). 과도한 자신감과 과소한 자신감의 균형을 유지하는 것이 목표다. 이상적인 CCR은 개인과 상황에 따라 약간 다를 수 있다. 개인 수준에서 일부 학습자는 약간 과하거나 자신감이 부족한 영역에서 탁월할 수 있으며, 이는 보다 균형 잡힌 팀을 만드는 데 도움이 될 수 있습니다. 또한 복잡한 의료 사례나 희귀 진단과 같은 일부 영역은 낮은 CCR을 필요로 할 수 있는 반면, 어떤 경우(예: 중요한 환자의 소생 유도, 새로운 리더십 위치)는 자신감을 표현하기 위해 더 높은 CCR을 필요로 할 수 있다. 임상의사 역량에 대한 현재 관점은 능력의 여러 영역이 있으며 각 영역에 대해 초보자에서 마스터까지 해당하는 스펙트럼이 있음을 시사한다. 따라서 자신감은 각 영역에 대한 역량의 정도를 반영하도록 adapt할 수 있어야 합니다. 그러나 이상적인 CCR에서 멀어질수록 CCR의 중앙으로 진로를 되돌려야 할 필요성이 커진다.

The CCR is dynamic (Figure 4). The goal is to maintain a balance between overconfidence and underconfidence. The ideal CCR may vary slightly by person and situation. At the individual level, some learners may excel in areas of slight over-or under-confidence, and this may in fact be beneficial for creating a more balanced team. Moreover, some areas such as complex medical cases or rare diagnoses may require a lower CCR, while other scenarios (eg leading a resuscitation of a critical patient, assuming a new leadership position) may need a higher CCR to portray confidence. The current view of clinician competence suggests that there are multiple domains of ability and for each domain there is a corresponding spectrum from novice to master.59 Thus, confidence must be able to adapt to reflect the degree of competence for each domain. However, as one drifts farther from their ideal CCR, there is a greater need to revert course back towards the centre of their CCR.

따라서 우리는 학습자를 평가할 때 자신감은 역량과 함께 추적되어야 한다고 주장한다. 이러한 측정은 지식 평가를 위한 시험 중 질문의 일부로, 그리고 시뮬레이션 사례 및 보다 포괄적인 학습자 평가 모델의 일부로써 실제 환자와의 만남에서 수집될 수 있다. 이는 CBME 내의 각 위탁 가능한 전문 활동(EPA)에 매핑되어 자신감과 역량이 각 구성요소에 대해 유사한 궤적을 따르도록 보장할 수 있다.
We therefore argue that confidence should be tracked alongside competence when assessing learners. These measurements could be gathered as part of the questions during examinations for knowledge assessment, as well as in simulation cases and real-life patient encounters as part of a more comprehensive learner assessment model. This could then be mapped to each entrustable professional activity (EPA) within CBME, ensuring that confidence and competence follow a similar trajectory for each component.

CCR의 deviation이 확인되면, 보다 균형 잡힌 CCR로 개인을 복귀시키기 위한 노력을 기울여야 한다. CCR의 교정 노력은 종종 역량 향상에 초점을 맞추고 있지만, 교정 및 일상적인 교육에서 자신감도 다루어야 한다고 제안한다. 자신감이 주체감과 밀접하게 묶여 있다는 점에서 지식에만 집중하는 것 또한 부족할 것이다. 오히려 CCR의 균형을 재조정하는 작업이 그들의 어려움을 해결하는 데 더 효과적일 수 있다. 대안적으로, 과신하는 학습자들이 [자신감이 과도한 부분을 파악할 수 있도록 돕는 것]은 그들이 더 열심히 생각하고 편견을 버리고 주어진 주제에 대한 더 깊은 이해를 찾도록 도전하게 할 수 있다. 
When a deviation in CCR has been identified, efforts should be made to return the individual to a more balanced CCR. While remediation efforts are often focused on improving competence, we propose that confidence should be addressed in remediation as well as in day-to- day teaching. Given that self-confidence is intimately tied to one's sense of agency,
20,30,60 concentrating on knowledge alone will also be insufficient. Rather, working to rebalance their CCR could be more effective in addressing their difficulties. Alternatively, helping overconfident learners identify where their confidence may be excessive may challenge them to think harder, discard biases and seek out a deeper understanding of a given topic.61-65


따라서 과소한 자신감과 과도한 자신감은 모두 학습자가 자신감과 역량 피드백 루프를 개발하도록 유도하는 것을 목표로 하는 목표targeted 피드백과 코칭 노력의 혜택을 받을 수 있습니다. 이를 위해 특정 사건 및 성과 데이터의 지원을 통해 학습자가 성공과 한계를 확인할 수 있도록 돕는 것은 특히 자신감과 역량의 정도를 연결하는 데 유용할 수 있다. 5,26,68-71 표 2는 학습자의 CCR 재정렬에 도움이 될 수 있는 전략을 제시한다.

Both underconfidence and overconfidence may therefore benefit from targeted feedback and coaching efforts,5,66,67 with a goal of guiding learners to develop their own confidence-competence feedback loops. To that end, helping learners identify their successes and limitations with the support of specific incidences and performance data may be particularly valuable for linking confidence to their degree of competence.5,26,68-71 Table 2 sets out some strategies that could be employed to help realign learners’ CCR.

AXIOM: CCR은 시간이 지남에 따라 바뀔 수 있다. CCR을 측정하고 학습자와 협력하여 CCR을 이상적인 비율로 재조정하는 것이 중요합니다.
AXIOM: CCR is dynamic over time. It is important to measure CCR and work with learners to realign their CCR towards their ideal ratio
.

 

4 | 토론
4
|
DISCUSSION

본 논문에서, 우리는 HPE에서, 특히 CBME의 현재 컨텍스트 내에서 신뢰와 역량이 어떻게 연결되어 있는지 살펴보았다. In this paper, we have explored how confidence and competence are linked within HPE, specifically within the current context of CBME.

자신감과 역량의 관계는 [언어 행위 이론]과 [수행성performativity]의 개념의 맥락에서 볼 때 특히 흥미롭다. 예를 들어, 오스틴은 [말이 행동을 완성하는 역할을 할 수 있다]고 제안했다. 어떤 것을 선언함으로써, 그것은 실제로 특정한 경우에 행동을 구성할 수 있다(예를 들어, 환자를 입원시키거나 퇴원시키는 것을 선택한다). 이 개념은 버틀러에 의해 이와 관련된 권력과 정체성 형성에 대해 논의하기 위해 확장되었다. 이것에 비추어 볼 때, 자신감은 말에 영향을 미치며, 이는 나중에 행동을 유도할 수 있다. 따라서 CCR이 잘못 정렬되면 행위action에 직접적인 영향을 미칠 수 있습니다.
The concept of confidence and the relationship with competence is particularly interesting when viewed in the context of the speech act theory and the concept of performativity.72,73 For instance, Austin proposed that words could serve to consummate an action.72 By declaring something, it can actually constitute the action in certain cases (eg choosing to admit or discharge a patient). This concept was expanded upon by Butler to discuss the subsequent power and identity formation associated with this.73 When viewed in light of this, confidence influences speech, which can subsequently drive action. Therefore, when the CCR is misaligned, there can be a direct impact on action.

이는 신뢰와 CCR을 CBME에 대한 접근법에 반영해야 한다는 우리의 주장을 뒷받침한다. CCR 교정에 대한 적절한 관심이 없다면 역량 개발은 관리되기 어려울 것이다. 우리는 CCR이 CBME 프레임워크 내에서 일상적으로 평가되고 추적되어야 한다고 제안한다. 모의사례는 자신감과 역량에 대한 부수적인 평가로 수행될 수 있으며, 보다 표적화된 교정조치 전략을 안내할 수 있다. 피드백에는 역량만 고립해서 보기보다는 아닌 [자신감의 맥락에서 역량에 대한 논의]도 포함해어야 하며, CCR은 EPA에 통합되고 진급advancement 의사결정에 반영되어야 한다. 또한 CCR 불균형을 사용하여 '니어미스'를 식별하고 예측함으로써 나쁜 결과가 발생하기 전에 학습할 수 있는 순간을 식별할 수 있다. 정확하게 보정된 CCR은 학습자가 자신의 ZPD과 가장 잘 일치하도록 도와 성장률을 극대화할 수 있다. 
This reinforces our argument that confidence and the CCR need to be factored into our approach to CBME. Without adequate attention to CCR calibration, the development of competency will likely be harder to manage. We propose that CCRs should be routinely assessed and tracked within the CBME framework. Simulated cases could be performed with concomitant assessments of confidence and competence, guiding more targeted remediation strategies. Feedback should include a discussion of competency in the context of confidence, as opposed to competency in isolation and CCRs should be incorporated into EPAs and factored into advancement decisions. Moreover, CCR imbalances could be used to identify and predict ‘near misses’, thereby identifying a teachable moment before a bad outcome occurs. An accurately calibrated CCR could also help a learner best align with their zone of proximal development to maximise their growth.
74

추가 연구는 자신감 측정을 위한 이상적인 도구를 개발하는 것, 및 자신감이 상황에 따라 달라지는지 여부를 식별해야 한다(예: 시뮬레이션 사례, 절차, 실제 시나리오). 연구는 CBME 내의 CCR과 학습자와 환자의 결과에 영향을 미칠 수 있는 특정 CCR 임계값이 있는지 여부를 추가로 평가해야 한다. 이것은 어떤 CCR 수준이 개입이나 교정조치를 촉발해야 하는지를 알리는 데 사용될 수 있다. CBME에서 핵심 역할을 하는 기존의 임상 역량 위원회는 '신뢰 및 역량 위원회'로 재구성되어 학습자의 기술 집합에 대한 자신감을 평가하고 위임 의사 결정과 연결할 수 있다. 이는 아마도 CCBMC(역량 및 자신감 기반 의학교육)일지도 모른다.

Further research needs to identify the ideal tools for measuring confidence and whether this varies by situation (eg simulated cases, procedures, real-life scenarios). Studies should further assess CCRs within CBME and whether there are specific CCR thresholds that may impact outcomes for learners, as well as for patients. This could be used to inform what CCR levels should trigger interventions or remediations. The traditional clinical competency committees that play a key role in CBME could be reframed as ‘confidence and competency committees’, assessing learners' confidence in their skill sets and linking them to entrustment decisions—perhaps as part of CCBME (competency and confidence-based medical education).

또한 자신감을 가르치고 다른 사람들이 그들의 자신감을 스스로 교정하도록 지도하는 가장 효과적인 접근법이 무엇인지 결정해야 한다. 여기에는 개인화된 코칭 및 시뮬레이션 기반 전략이 포함될 수 있습니다. 자신감과 역량의 관계는 또한 우리의 학습자들 사이에 심리적 안전을 보장하고, 가짜 증후군과 이와 유사한 보증되지 않는 불안을 겪고 있는 사람들을 위한 완화 전략을 개발하는 것의 중요성을 강조한다. 
Research should also determine what are the most effective approaches for teaching confidence and guiding others to self-calibrate their confidence. This could include personalised coaching and simulation-based strategies. The relationship between confidence and competence also emphasises the importance of ensuring psychological safety among our learners and developing mitigation strategies for those suffering from imposter syndrome and similar unwarranted anxieties.
26


또한, 수련 종료 후 이를 지속적인 전문성 개발(CPD)에 통합하는 방법을 평가해야 한다. 현재 피드백은 종종 덜 강력하기 때문에 지속적인 임상 우수성 추구의 일환으로 개선이 필요한 영역을 식별하는 데 이상적인 영역을 제시한다. 향후의 노력은 훈련 후 신뢰도 보정을 위한 CPD 노력을 구축하고 지원하는 최선의 방법을 결정해야 한다. 여기에는 동료 관찰이나 레지던트 회의일 동안 환자 또는 외과 케이스의 공동 관리가 포함될 수 있다. 게다가, 전문 학회는 자격증 시험에 신뢰도 평가를 통합하는 것을 고려해야 합니다.
Additionally, studies should assess how to incorporate this into continuing professional development (CPD) after completion of training. As feedback is often less robust at this time,
75 it presents an ideal arena to identify areas for improvement as part of the continuous pursuit of clinical excellence. Future efforts should determine how best to build and support CPD efforts to calibrate confidence post-training. This could include peer observation or co-management of patients or surgical cases during resident conference days. Moreover, professional societies should consider incorporating confidence assessment into certification examinations.


마지막으로, 자신감과 역량의 관계적인 측면은 흥미로운 탐구 영역입니다. 트레이너와 훈련생 사이의 관계는 개인의 자신감과 겉으로 보이는 자신감에 대한 외부 인식 사이의 관계뿐만 아니라 더 완전하게 검토하는 데 중요할 것이다. 분산된 신뢰도를 이해하고 조직과 팀에 걸쳐 공유된 신뢰의 상호작용을 이해하면 보다 효과적이고 균형 잡힌 팀을 구성할 수 있을 뿐만 아니라 팀을 활용하여 구성원 간의 신뢰 보정을 강화할 수 있는 방법을 알 수 있습니다.

Finally, the relational aspects of confidence and competence are an exciting area to explore. The relationships between trainers and trainees will be crucial to more fully examine, as well as the relationship between an individual's self-confidence and external perceptions of their apparent confidence. Understanding distributed confidence and the interaction of shared confidence across organisations and teams could inform the creation of more effective and balanced teams, as well as how teams can be utilised to strengthen confidence calibration across members.

5 | 제한사항
5
|
LIMITATIONS

이 작품에는 몇 가지 한계가 있습니다. '과학의 상태' 논문으로서, 우리는 앞으로 이 연구의 영역에 직면하는 문제들을 추론적으로 탐색하고 반영하려고 노력해 왔다. 이 논문은 경험적으로 고려될 수 있는 것을 강조하기 위한 것이며, 이 시점에서 생겨나야 하는 과학적 연구를 대체하거나 대체하려고 하지 않는다. 또한 필드 내에서 잘 정의된 도메인을 조사하지 않기 때문에 체계적인 검토나 범위 지정 검토가 아니었습니다. 실제로 이러한 유형의 검토에 익숙한 사람들은 신흥 분야에서 이러한 유형의 지식 합성을 수행하는 것이 부적절하거나 시기상조라는 점에 주목한다
This work has several limitations. As a ‘state of the science’ paper, we have sought to deductively explore and reflect on issues that face this domain of research going forward. This paper is meant to highlight what might be considered empirically and does not seek to supplant or replace the scientific work that must spring forth from this juncture. Additionally, this was not a systematic or a scoping review, as we are not looking to examine a well-defined domain within a field. Indeed, those with the familiarity of these types of reviews would note that in an emerging field it would be either inappropriate or premature to conduct these types of knowledge syntheses.

우리의 리뷰는 다른 사람들이 우리가 제기한 문제들을 고려하고 향후 작업을 위한 방법을 제안하도록 영감을 주기 위한 것이다. 우리는 또한 우리의 현재 개념이 이전의 많은 담론, 이론 및 탐구 영역과 겹친다는 것을 완전히 인정한다. 이 경우 HPE 분야 내에서 다른 저명한 업무 기관과의 연계를 끌어내고 연역적 과정을 통해 해당 분야를 발전시켜 이전에 왔던 아이디어를 결합하고 재방문하는 새로운 방법을 추가하는 것이 우리의 의도였다. 마지막으로, 우리가 포용력을 가지기 위해 노력해왔지만, 우리의 이론적이고 개념적인 제품들은 그 분야 전문가들로부터 피드백을 받는 작가팀의 공동 구성입니다. 그러므로 우리는 보건 분야와 그 너머에서 온 문헌에 대한 우리 자신의 인식에 의해 제한을 받는다.

Our review is meant to inspire others to consider the issues we have brought forth and suggest a way forward for further work. We also admit fully that our current concepts overlap with many preceding discourses, theories and areas of inquiry. It was our intention in this case to draw linkages to other prominent bodies of work within the field of HPE and advance the field through our deductive process, adding new ways to combine and revisit ideas that have come before. Finally, while we have tried to be inclusive, our theoretical and conceptual products are co-constructions of the authorship team with feedback from experts within the field. We are, therefore, limited by our own awareness of the literature from within the health professions and beyond.

6 | 결론
6
|
CONCLUSION

자신감은 개인에서 사회 전반에 이르기까지 다양한 수식어와 상황에 의해 영향을 받을 수 있는 구조이다. CBME는 현재 주로 자신감에 중점을 두고 역량에 초점을 맞추고 있다. 그러나 자신감은 역량 평가의 필수 요소이며 CCR의 일부로 두 가지를 함께 고려하는 것이 중요하다고 생각한다. 이상적인 CCR에서 벗어나기 시작할 때 학습자가 어느 한 쪽에도 접근하지 않도록 이를 인식하고 개입하는 것이 중요하다. 향후 연구는 CCR을 평가하기 위한 전략, 신뢰도를 가르치고 자가 교정을 지도하기 위한 모범 사례 및 CBME, CPD 및 팀 간 CCR의 역할을 평가해야 한다.

Confidence is a construct that can be influenced by a variety of modifiers and circumstances, ranging from the individual to society at-large. CBME currently focuses primarily on competency with limited emphasis on confidence. However, confidence is an integral component of competency assessment and we believe it is important to consider them both in conjunction as part of the CCR. As one begins to deviate from the ideal CCR, it is important to recognise this and intervene to guide the learner to avoid approaching either extreme. Future research should evaluate strategies for assessing CCR, best practices for teaching confidence and guiding self-calibration, and the role of CCR in CBME, CPD and among teams.

 


 

Med Educ. 2022 Jan;56(1):37-47.

 doi: 10.1111/medu.14592. Epub 2021 Jul 20.

Confidence-competence alignment and the role of self-confidence in medical education: A conceptual review

Affiliations

1Department of Emergency Medicine, Rush University Medical Center, Chicago, IL, USA.

2Division of Emergency Medicine, Department of Medicine, McMaster University, Hamilton, ON, Canada.

3Department of Emergency Medicine, University of Calgary, Calgary, AB, Canada.

4Department of Community Health Sciences and Director of the Office of Health and Medical Education Scholarship, Cumming School of Medicine, University of Calgary, Calgary, AB, Canada.

PMID: 34176144

DOI: 10.1111/medu.14592

Abstract

Context: There have been significant advances in competency-based medical education (CBME) within health professions education. While most of the efforts have focused on competency, less attention has been paid to the role of confidence as a factor in preparing for practice. This paper seeks to address this deficit by exploring the role of confidence and the calibration of confidence with regard to competence.

Methods: This paper presents a conceptual review of confidence and the calibration of confidence in different medical education contexts. Building from an initial literature review, the authors engaged in iterative discussions exploring divergent and convergent perspectives, which were then supplemented with targeted literature reviews. Finally, a stakeholder consultation was conducted to situate and validate the provisional findings.

Results: A series of axioms were developed to guide perceptions and responses to different states of confidence in health professionals: (a) confidence can shape how we act and is optimised when it closely corresponds to reality; (b) self-confidence is task-specific, but also inextricably influenced by the individual self-conceptualisation, the surrounding system and society; (c) confidence is shaped by many external factors and the context of the situation; (d) confidence must be considered in conjunction with competence and (e) the confidence-competence ratio (CCR) changes over time. It is important to track learners' CCRs and work with them to maintain balance.

Conclusion: Confidence is expressed in different ways and is shaped by a variety of modifiers. While CBME primarily focuses on competency, proportional confidence is an integral component in ensuring safe and professional practice. As such, it is important to consider both confidence and competence, as well as their relationship in CBME. The CCR can serve as a key construct in developing mindful and capable health professionals. Future research should evaluate strategies for assessing CCR, identify best practices for teaching confidence and guiding self-calibration of CCR and explore the role of CCR in continuing professional development for individuals and teams.

보건의료전문직 교육의 평가 - 성과 측정은 충분한가? (Med Educ, 2022)
Evaluation in health professions education—Is measuring outcomes enough?
Louise M. Allen1 | Margaret Hay1 | Claire Palermo2

 

1 | 소개
1 |
INTRODUCTION

평가 프로세스는 프로그램의 개발, 구현 및 결과에 대한 정보를 수집, 분류 및 해석하는 것을 목표로 한다. 평가는 다양한 목적이 있다. 여기에는 다음이 포함될 수 있다

  • 시행 전에 프로그램의 타당성 판단,
  • 프로그램이 의도한 대로 구현되었는지 판단,
  • 프로그램의 영향측정 (개인을 중심으로 다양한 수준에서 또는 모집단 수준에서 훨씬 더 광범위한 수준일 수 있음),
  • 프로그램 성과로 이어지는 메커니즘을 이해.

Evaluation processes aim to collect, sort and interpret information about the development, implementation and outcomes of programmes.1 Evaluations can have a range of goals. These may include

  • determining the feasibility of a programme prior to implementation,
  • determining if a programme was implemented as intended,
  • measuring the effects of a programme (this can be at a variety of levels, focusing on individuals, or much broader at the population level) and
  • understanding the mechanisms that lead to programme outcomes.1,2

건강 직업 교육(HPE)에서 평가는 필수적이다. 이를 통해 개입의 내용과 전달을 개선하고, HPE의 장단기 영향을 평가하고, 자금 할당에 대한 결정을 내릴 수 있습니다. 이상적으로 평가는 다음의 두 가지를 모두 의미한다.

  • 프로그램 결과와 영향을 측정하는 것(성과 평가)
  • 프로그램 평가로 이어지는 기본 프로세스를 이해하는 것(프로그램 평가)

Evaluation in health professions education (HPE) is essential. It allows us to improve the content and delivery of interventions, to assess a range of short and long-term impacts of HPE, and to make decisions on the allocation of funding. Ideally, evaluation refers to not only

  • measuring programme outcomes and impacts (outcome evaluation), but also
  • understanding the underlying processes that lead to them (programme evaluation).

HPE 연구에서, 엄격하고 이론을 활용하는 보다 강력한 접근법으로 향하는 경향이 증가하고 있다. 평가에 있어서, 이것은 [평가를 가이드하는 프레임워크 또는 모델을 사용하는 것]으로 해석된다. 다양한 평가 모델이 HPE에서 사용됩니다. 여기에는 다음이 있다.

  • 성과 평가 모델(많이 인용된 커크패트릭 모델 및 건강 또는 HPE 설정에 대한 다양한 수정모델)
  • 현실주의 평가와 같은 어떤 성과가 발생한 방법과 이유를 이해하는 것을 목표로 하는 보다 엄격한 프로그램 평가 모델(CIPP, 이론 중심 평가, 기여 분석, 계층 분석, 그리고 RE-AIM 프레임워크.)

Increasingly in HPE research, there has been a trend towards more robust approaches that are rigorous, and utilise theory.3,4 For evaluation, this has translated to the use of frameworks or models to guide evaluation. A range of evaluation models are used in HPE. These include

  • outcome evaluation models such as the heavily cited Kirkpatrick Model5,6 and its various modifications specifically for the health or HPE settings,7–17 as well as
  • more rigorous programme evaluation models that aim to understand how and why outcomes have occurred such as realist evaluation; Context, Input, Process and Product (CIPP) evaluation; theory-driven evaluation; contribution analysis; layered analysis; and the RE-AIM framework.

HPE에서 성과평가 모델의 사용은 점점 더 대중화되고 있다. 아마도 단순성 때문일 것이다. 그러나 복잡한 HPE 환경에서 결과 평가 모델을 사용하는 것에 대한 출판된 주의사항, 프로그램이 어떻게 그리고 왜 작동했는지에 초점을 맞추는 것을 넘어서야 한다는 요구, 결과 평가 모델에 대한 수많은 비판에도 불구하고, 그 사용은 계속 증가해 왔다.

The use of outcome evaluation models in HPE is becoming increasingly popular, perhaps due to their simplicity. However, despite published cautions of the use of outcome evaluation models in the complex HPE environment,18,19 calls to move beyond focusing on outcomes (did it work) to how and why programmes worked and what else happened,20 and a number of criticisms of outcome evaluation models,18,2129 their use has continued to increase.

이 기사에서는 [성과 평가]와 [프로그램 평가]의 차이를 살펴본다. 우리는 광범위한 수용과 사용을 고려할 때 특히 커크패트릭 모델에 초점을 맞추어 결과 평가 모델의 사용을 검토하고 비판하며, 결과가 어떻게 그리고 왜 발생하는지를 이해하는 데 도움이 되는 평가 모델의 사용을 옹호하는 것을 목표로 한다.

In this article, we explore the difference between outcome evaluation and programme evaluation. We aim to review and critique the use of outcome evaluation models, with a particular focus on the Kirkpatrick Model given its wide acceptance and use, and advocate for the use of evaluation models that help us understand how and why outcomes are occurring.

 

2 | 프로그램 평가와 비교한 결과 평가 개요
2 |
BRIEF OVERVIEW OF OUTCOME EVALUATION COMPARED WITH PROGRAMME EVALUATION

이름에서 알 수 있듯이, 성과 평가는 주어진 개입의 결과나 영향에 초점을 맞추고 '그것이 효과가 있었는가?'라는 질문에 답하려고 한다. 30 성과 평가는 일반적으로 적용하기가 쉽고 결과를 분류하는 복잡한 방법을 제공하는 인기 있는 커크패트릭 모델과 같은 분류법에 의해 안내된다. 실무에서, 이것은 종종 개입의 효과를 결정하는 것을 목적으로 하는 평가로 귀결되는데, 여기서 그 효과는 [미리 결정된 결과가 달성되었는지]를 결정함으로써 입증된다.20

As the name suggests, outcome evaluation focuses on the outcomes or impacts of a given intervention and seek to answer the question Did it work?30 Outcome evaluations are usually guided by a taxonomy, such as the popular Kirkpatrick Model, which is easy to apply and provides an uncomplicated way to classify outcomes.20,25 In practice, this often results in evaluations aimed at determining the effectiveness of an intervention, where effectiveness is demonstrated by determining if predetermined outcomes have been achieved.20

성과 평가는 특정 개입이 원하는 효과를 얻었는지에 대한 중요한 정보를 제공할 수 있지만, 교육 개입의 복잡한 성격과 결과, 장기적 결과 및 의도하지 않은 결과로 이어지는 프로세스를 무시하는 경향이 있다. 교육개입 연구의 대다수가 큰 차이를 보이지 않는 이유일 것이다. 
While outcome evaluations can provide important information about if a specific intervention had the desired effect, they tend to neglect the complex nature of educational interventions and the processes that lead to outcomes, longer term outcomes and unintended outcomes. This is likely the reason that the vast majority of studies of educational interventions show no significant differences.
30

반면 프로그램 평가는 '그것이 작동했는가?'를 넘어 '어떻게, 왜 작동했는가?'에 대답하는 것을 추구한다. 프로그램 평가는 [프로그램 성과] 외에 [프로그램의 설계 및 구현]과 관련이 있다.26 프로그램 평가의 목적은 '프로그램 내부와 외부 모두에서 프로그램 결과의 변동 원인을 식별하는 동시에, 이러한 변화의 출처(소스) 또는 성과 자체의 타당성을 판단하는 것'이다.따라서 HPE 연구의 초점이 되는 [복잡한 개입과 복잡한 시스템]을 평가하는 데 사용하는 것이 더 적절한 접근법이다. HPE에서 결과 평가의 사용이 매우 보편적이기 때문에, 다음 절에서는 HPE에서의 결과 평가의 사용에 대한 검토를 제공한다.

Programme evaluation on the other hand seeks to go beyond answering Did it work?to How and why did it work?. Programme evaluation is concerned with the design and implementation of the programme, in addition to the programme outcomes.26 The aim of programme evaluation is to identify the sources of variation in program outcomes both from within and outside the program, while determining whether these sources of variation or even the outcome itself are desirable or undesirable(p. 289).26 It is therefore a more appropriate approach to use in evaluating the complex interventions and systems that are usually the focus of HPE research. As the use of outcome evaluation is so prevalent in HPE, the following section provides a review of the use of outcome evaluations in HPE.

3 | HPE의 결과평가 모델 사용에 대한 비판적 검토 - KirkPatrick 모델 예시
3 | A CRITICAL REVIEW OF USING OUTCOME EVALUATION MODELS IN HPE—
THE KIRKPATRICK MODEL EXAMPLE

3.1 | 커크패트릭 모델 개요
3.1 |
Overview of the Kirkpatrick Model

위에서 언급한 바와 같이, 커크패트릭 모델은 HPE의 평가에 널리 사용되어 왔습니다. 의대생, 레지던트 및 의사의 시뮬레이션, 간호 시뮬레이션, 전문가 간 학습, 지속적인 전문 개발, 온라인 학습 및 커리큘럼 평가를 포함한 다양한 교육 프로그램을 평가하는 데 사용되어 왔다. 이 모델은 1959년과 1960년 도널드 커크패트릭이 4개의 기사로 된 시리즈로 처음 발표했는데, 이는 인간관계 교육 책임자들이 평가 노력을 높일 수 있도록 지침을 제공하는 것을 목표로 했다. [뉴 월드 커크패트릭 모델]은 원래 커크패트릭 모델을 기반으로 제작되었으며 도널드 커크패트릭의 아들과 며느리(제임스 커크패트릭과 웬디 커크패트릭)가 2008년부터 2010년 사이에 모델을 현대화하기 위해 개발했다. 오리지널 및 뉴월드 커크패트릭 모델의 요약과 비교는 표 1에서 볼 수 있다. 궁극적으로 오리지널 모델과 뉴월드 모델은 모두 참여, 태도, 지식 및 기술, 행동 변화 및 전반적인 프로그램 결과에 초점을 맞춘 4단계 결과 평가 모델이다. 모델의 기원은 모델이 어떻게 개발되었는지에 대한 설명이나 커크패트릭의 출판물 또는 박사학위 논문의 이론적 또는 과학적 토대에 대한 언급이 없는 실용주의적인 것으로 보인다.

As mentioned above, the Kirkpatrick Model has been widely used in evaluation in HPE. It has been used to evaluate a range of education programmes including simulation in medical students, residents and physicians3133; simulation in nursing34,35; interprofessional learning36; continuing professional development3739; online learning40; and curriculum evaluation.41,42 The model was first published by Donald Kirkpatrick as a series of four articles in 1959 and 1960,4346 which aimed to provide guidance to human relations training directors to increase their evaluation efforts. The New World Kirkpatrick Model builds on the original Kirkpatrick Model and was developed by Donald Kirkpatrick's son and daughter in law (James and Wendy Kirkpatrick) to modernise the model, sometime between 2008 and 2010.6,47 A summary and comparison of the original and New World Kirkpatrick Models can be seen in Table 1. Ultimately, both the original and the New World Model are four-level outcome evaluation models that focus on participation; attitudes, knowledge and skills; behaviour change; and overall programme results. The origins of the model are likely pragmatic, with no description of how the model was developed or reference to theoretical or scientific underpinnings of the model in any of Kirkpatrick's publications,5,6,43-46,48 or in his PhD.

 

3.2 | HPE에서 Kirkpatrick 모델의 사용
3.2 |
Use of the Kirkpatrick Model in HPE


커크패트릭 모델은 HPE 평가에 널리 사용되어 왔다. HPE에서 Kirkpatrick 모델의 사용에 대한 개요를 얻기 위해 다음 검색자를 사용하여 네 개의 데이터베이스(OVID medline, Scopus, CINAHL 및 Pubmed)에 대한 체계적인 문헌 검색을 2020년 6월에 수행했다.

The Kirkpatrick Model has been used widely in the evaluation of HPE. To obtain an overview of the use of the Kirkpatrick Model in HPE, a systematic literature search of four databases (OVID medline, Scopus, CINAHL and Pubmed) was conducted in June 2020 using the following searchers:

1. ('의학교육' 또는 '건강교수*교육') 및 커크패트릭
1. (‘medical education’ OR ‘health prof* education’) AND Kirkpatrick

2. 평가 및 커크패트릭
2. Evaluation AND Kirkpatrick

검색에 적용된 날짜 범위가 없습니다. 반환된 모든 논문의 제목과 요약은 HPE 설정에서 Kirkpatrick Model을 추상적으로 참조하는 경우 선별되어 포함되었다. 이어 주요 의료교육 관련 기사가 빠지지 않도록 하기 위해 '커크패트릭(Kirkpatrick)'이라는 용어를 사용하여 HPE 저널(학술지, 의학교육지, BMC의학교육지, 보건과학교육지, 의료교육의 진보 및 관점)을 손으로 검색했다. 연구 또는 개입, 평가, 데이터 수집 또는 데이터 분석의 설계에서 Kirkpatrick 모델을 사용합니다. 

No date range was applied to the search. Titles and abstracts of all returned papers were screened and included if the abstract referenced use of the Kirkpatrick Model in an HPE setting. Following this, to make sure no major articles were missed key medical education and HPE journals (Academic Medicine, Medical Education, Medical Teacher, BMC Medical Education, Advances in Health Science Education and Perspectives on Medical Education) were hand searched using the term Kirkpatrickwith all full texts searched for reference to the use of the Kirkpatrick Model in the design of the research or intervention, evaluation, data collection or data analysis.

이 조사는 커크패트릭 모델을 이용한 603개의 연구를 반환했다. 이 중 2000년 이전에 발표된 것은 3건(0.5%)에 불과해 HPE에서 커크패트릭 모델이 지난 20년 동안 주로 사용되었음을 알 수 있다. 커크패트릭 모델 사용은 2000년 이후 꾸준히 증가해 2018년(65편)과 2019년(110편) 사이에 69% 증가에 해당하는 가장 큰 증가폭을 보였다(그림 1). 표준화된 평가의 커크패트릭 방법, 커크패트릭의 이론, 검증된 커크패트릭의 모델, 커크패트릭의 평가 피라미드의 계층적 모델, 커크패트릭의 4단계 평가의 이론적 프레임워크, 복잡한 열차 평가를 위한 커크패트릭 프레임워크를 포함한 많은 용어들이 커크패트릭 모델을 언급하기 위해 사용됩니다.개입, 커크패트릭 커리큘럼 평가 프레임워크 및 커크패트릭 계층 구조. 

The search returned 603 studies that utilised the Kirkpatrick Model in some way. Of these, only three (0.5%) were published prior to 2000, showing that the use of the Kirkpatrick Model in HPE has largely occurred in the last 20 years. Since 2000, the use of the Kirkpatrick Model has steadily increased, with the largest increase seen between 2018 (65 papers) and 2019 (110), which equates to a 69% increase (Figure 1). Many terms are used to refer to the Kirkpatrick Model, including the Kirkpatrick method of standardised evaluation, Kirkpatrick's theory, the validated Kirkpatrick's model, Kirkpatrick's hierarchical model of evaluation pyramid, the theoretical framework of Kirkpatrick's four levels of evaluation, Kirkpatrick framework for evaluating complex training interventions, the Kirkpatrick curriculum evaluation framework and the Kirkpatrick hierarchy.

커크패트릭 모델을 지칭하는 데 사용되는 이 용어는 일관성이 없으며 이론적 프레임워크 또는 검증된 모델이라는 오해를 증가시킨다.

This terminology used to refer to the Kirkpatrick Model is inconsistent and increases the misconception that it is a theoretical framework or validated model.

 

위에서 검색한 많은 연구는 오리지널 Kirkpatrick 모델을 사용합니다. 앞서 언급했듯이, 건강 또는 HPE 설정을 위해 특별히 만들어진 모델의 많은 개조도 있었다. 이러한 수정된 버전의 커크패트릭 모델의 요약은 표 2에서 볼 수 있다. 대부분의 경우, 이러한 수정된 버전은 원래 모델과 동일한 4단계 구조를 유지하고 있으며, 레벨이 어떻게 구성되는지에 대해서는 약간의 차이가 있다. 이러한 수정된 버전의 커크패트릭 모델 간의 주요 차이점은 레벨 4(결과)를 나타내는 방식이 다르다는 것입니다. 수정된 버전마다 다양한 조합을 사용하고 있다.

  • 조직 관행의 변화,
  • 환자 또는 서비스 사용자에 대한 혜택,
  • 전문직 관행의 변화,
  • 의료의 질의 변화,
  • 학생과 교육생의 변화,
  • 동료 간의 변화,
  • 지역사회에 대한 혜택 및 사회 변화

A number of the studies returned in the above search use the original Kirkpatrick Model. As mentioned previously, there have also been a number of adaptations of the model created specifically for the health or HPE settings. A summary of these modified versions of the Kirkpatrick Model can be seen in Table 2. For the most part, these modified versions retain the same four-level structure as the original model, with some variations as to how the levels are structured. The main difference between these modified versions of the Kirkpatrick Model is the different ways they represent Level 4 (results). The various modifications look at various combinations of

  • change in organisational practice,
  • benefits to patients or service users,
  • change in professional practice,
  • change in quality of care,
  • change among students and trainees,
  • change among colleagues,
  • benefits to the community and societal changes.

보건 및 HPE 분야에 더 특화된 이러한 많은 각색에도 불구하고 2020년에 발표된 55개 논문 중 오직 6개(11%)만이 이러한 수정된 버전 중 하나를 사용하고 있으며, 그 해에 발표된 논문의 대부분은 원래의 커크패트릭 모델 버전(n = 35, 64%)을 참조하고 있고, 7개(13%)만이 '뉴월드' 버전을 참조하고 있다. 또한 2020년에 발표된 55개의 논문이 커크패트릭 모델(또는 각색 버전 중 하나)을 어떻게 사용했는지 살펴보면, 커크패트릭 모델이 프로그램 개발에 사용된다는 보고가 거의 없으며, 그 중 1개 논문(1.8%)만이 그렇게 하고 있다. 이것은 [개입의 설계에 사용되어야 한다]는 모델의 핵심 원칙 중 하나와 모순된다. 모델의 일관되지 않은 적용이 분명히 있으며, 이는 결과의 일반화를 문제시한다.

Despite these many adaptations that are more specific to the health and HPE fields, of the 55 papers published in 2020, only six (11%) use one of these modified versions, with the majority of papers published that year referencing a version of the original Kirkpatrick Model (n = 35, 64%), and only seven (13%) referencing the New Worldversion. Furthermore, when looking at how the 55 papers published in 2020 used the Kirkpatrick Model (or one of the adapted versions), it is seldom reported that the Kirkpatrick Model is used in the development of programmes, with only one paper (1.8%) doing so. This contradicts one of the key principles of the model, which states that it should be used in intervention design. There is clearly an inconsistent application of the model, which make generalisations of findings problematic.

 

 

보건 분야의 교육 개입을 평가하는 데 사용될 뿐만 아니라, 커크패트릭 모델은 의료 교육에서 일반적으로 사용되는 품질 평가 도구인 MERSQI(의료 교육 연구 품질 기구)의 일부를 형성한다. 2007년에는 실험, 준실험, 관측 연구의 품질을 측정하기 위해 MERSQI가 개발되었다. MERSQI의 내용은 '… 연구 저자들 간의 연구 품질 및 비판적 토론과 도구 개정에 대한 보고서의 종합적인 문헌 검토에 의해 결정된다'(1003쪽). 커크패트릭 모델은 MERSQI의 10번 문항이며, 환자 또는 건강 결과가 가장 높고 만족도 및 태도 결과가 가장 낮은 점수 기반 시스템을 사용하여 결과를 분류한다.

In addition to being used to evaluate educational interventions in the health professions, the Kirkpatrick Model also forms part of a commonly used quality assessment tool in medical education, the Medical Education Research Study Quality Instrument (MERSQI). In 2007, the MERSQI was developed to measure the quality of experimental, quasi-experimental and observational studies.49 The content of the MERSQI was determined by a comprehensive literature review of reports on research quality and critical discussion and instrument revision among the study authors(p. 1003).49 The Kirkpatrick Model forms item 10 of the MERSQI, which classifies outcomes using a points based system where patient or health outcomes score the highest and satisfaction and attitude outcomes score the lowest.

세계보건기구(WHO)도 훈련 평가 가이드의 기초로 커크패트릭 모델을 채택했다. 그리고 커크패트릭 모델의 수정된 버전은 BEME(Best Evidence Medical Education)에 의해 채택되었으며 검토 코딩 시트의 일부를 형성한다. 코딩 시트는 의도된 결과와 의도되지 않은 결과를 고려하는 것을 포함하지만, 이러한 결과는 연구자들이 그들의 평가에서 의도하지 않은 결과를 고려할 때에만 포착할 수 있다. BEME 검토 프레임워크는 앞서 언급한 바와 같이 교육 개입의 영향을 분류하거나 분류하는 데 도움이 되는 커크패트릭 모델을 주로 사용한다.BEME 검토자들은 커크패트릭 모델을 품질 지표로서가 아니라 근거를 정리organize하기 위해 사용한다.51 그러나, 어떤 리뷰는 커크패트릭 모델을 위계로 언급하여 상위 수준의 중요성을 암시하는 반면, 어떤 리뷰들은 인과관계나 위계질서가 가정되지 않는다고 말한다. 또한 일부 BEME 리뷰에서는 연구의 질을 평가하기 위해 MERSQI를 사용하기도 하는데, 위에서 언급한 것처럼 MERSQI의 구성 요소 중 하나가 커크패트릭 모델이다. 

The World Health Organisation (WHO) also adopted the Kirkpatrick Model as the basis for their training evaluation guide.50 And a modified version of the Kirkpatrick Model has been adopted by the Best Evidence Medical Education (BEME) and forms part of their review coding sheet. The coding sheet does include considering intended and unintended outcomes, but these can only be captured when researchers consider unintended outcomes in their evaluations. The BEME review framework largely uses the Kirkpatrick Model to aid in classifying or categorising impacts of educational interventions, as has been previously statedBEME reviewers use the Kirkpatrick Model to organise evidence, rather than as a quality indicator.51 However, there is some inconsistency in its use, with some reviews referring to the Kirkpatrick Model as a hierarchy, implying increasing importance with increasing levels,10,5263 whereas others state that no causality or hierarchy are assumed. Furthermore, some BEME reviews use the MERSQI to assess study quality, and as mentioned above, one component of the MERSQI is the Kirkpatrick Model.

MERSQI, BEME 및 WHO가 커크패트릭 모델을 사용하는 것은 커크패트릭 모델이 프로그램 평가의 gold standard라는 믿음이나 오해에 기여한다. 따라서 커크패트릭 모델을 MERSQI, BEME, WHO의 일부로 사용하는 것은 재고될 필요가 있다. 더 높은 수준의 커크패트릭 모델을 품질 지표로 사용하는 것은 커크패트릭 자신이 레벨이 계층 구조로 간주되어서는 안 된다고 언급하면서 부적절하다.

The use of the Kirkpatrick Model by the MERSQI, BEME and WHO contribute to the myth or misconception that the Kirkpatrick Model is the gold standard for programme evaluation. As such, the use of the Kirkpatrick Model as part of the MERSQI, BEME and WHO needs to be reconsidered. Using the higher levels of the Kirkpatrick Model as an indicator of quality is inappropriate with Kirkpatrick himself stating that the levels should not be considered a hierarchy.

 

3.3 | Kirkpatrick 모델의 비판
3.3 |
Critiques of the Kirkpatrick Model

커크패트릭 모델이 HPE 평가에 널리 사용되는 것은 분명하지만, HPE 분야에 대해 내외부에서 모델에 대한 많은 비판이 있었다. 다음 단락은 모델에 대한 주요 비판 사항을 간략하게 요약한 것입니다.

  • 첫째, 모델은 성과에 중점을 두기 때문에 훈련 과에 영향을 미칠 수 있는 개인 및 환경 요소를 고려하지 못한다. 성과에 영향을 미치는 근본적인 메커니즘을 탐구하는 것을 허용하지 않는다. 게다가, 집중의 결과는 단기적이고 수량화 가능한 결과입니다. 장기적으로는 수준 3과 수준 4에서 예상되는 것과 같은 복잡한 결과를 평가하기 어려우며, 수준 1과 수준 2가 수준 3과 4보다 더 자주 측정된다는 사실이 이를 증명한다.
  • 둘째, 이 모형은 수준 사이에 양의 인과 관계가 있다고 가정합니다. 즉, 호의적인 반응이 학습 향상에 기여하여 행동 변화와 긍정적인 프로그램 결과로 이어진다. 하지만, 배우는 것은 불편하고 좌절감을 주지만 여전히 배움으로 이어질 수 있습니다. 게다가, 학습을 실천으로 옮기는 우리의 능력에 영향을 미치는 많은 요인들이 있습니다. 이와 같이 긍정적인 인과 관계를 가정할 수 없다.
  • 셋째, 높은 레벨의 성과일수록 중요하다는 가정이 있습니다. 이는 반드시 그런 것은 아니며 평가의 목적에 따라 달라진다. 만약 평가가 교육 개입의 내용과 전달을 개선하는 것을 목표로 한다면, 레벨 1의 결과는 매우 유용할 것입니다. 평가가 실제로 스킬의 이행을 측정하는 것을 목표로 한다면, 레벨 3 결과가 가장 유용할 것입니다.
  • 마지막으로, 커크패트릭 모델은 교육 개입의 의도된 결과에 초점을 맞추고, 모델에 의해 분류되지 않은 영향과 의도하지 않은 영향을 무시한다.

While the Kirkpatrick Model is clearly widely in used in HPE evaluation, there have been a number of criticisms of the model, both within and external to the field of HPE.18,2129 The following paragraph provides a brief summary of the major criticisms of the model.

  • First, the model is outcomes focused, and as such, it fails to consider individual and environmental factors that can impact training outcomes.22–26 It does not allow for the underlying mechanisms that influence outcomes to be explored.23–26 Furthermore, the outcomes of focus are short-term, quantifiable outcomes. Longer term, complex outcomes, such as those expected in Level 3 and Level 4 are challenging to evaluate, evidenced by the fact that Levels 1 and 2 are measured more frequently than Levels 3 and 4.11,16,18
  • Second, the model assumes that there are positive causal linkages between the levels. That is, that favourable reactions contribute to greater learning, leading to behaviour change and positive programme results. However, learning can be uncomfortable and frustrating yet still lead to learning. In addition, there are many factors that affect our ability to transfer learning to practice. As such, positive causal linkages cannot be assumed.
  • Third, there is an assumption that the higher the level, the more important the outcome. This is not necessarily the case and depends on the objective of the evaluation. If the evaluation is aiming to improve the content and delivery of the education intervention, then Level 1 outcomes will be highly useful. If the evaluation is aiming to measure the implementation of a skill in practice, then Level 3 outcomes will be most useful.
  • Finally, the Kirkpatrick Model focuses on intended outcomes of the educational intervention, neglecting impacts not categorised by the model as well as unintended impacts:



"결과 X는 의도한 대로 이루어졌는가, 그렇지 않은가?" "이 개입의 결과는 무엇이었는가?" 임상에 비교한다면, (커크패트릭 모델은) 신약에 대해서 부작용은 빼고 의도된 효과만을 측정하는 임상시험이 될 것이다. (p. 100)64
Was outcome X achieved as intended, or not?rather than What were the outcomes of this intervention?A clinical parallel would be a clinical trial that measured only the intended effects of a new drug and not its side-effects. (p. 100)64

이 비평들은 커크패트릭의 아들이 커크패트릭 모델을 신세계 커크패트릭 모델로 개정하기 전에 출판되었다. 이러한 문제들 중 일부는 뉴월드 모델에서 다루어지지만, 몇 가지 짧은 의견들이 남아 있다.

  • 모델은 여전히 훈련 프로그램의 [의도하지 않은 성과를 다루지 못하기] 때문에 가치있는 임팩트가 포착되지 않을 가능성이 있다.
  • 레벨 3에 필요한 동인을 포함하면 평가자가 변화 가능자enablers를 고려하도록 유도하지만, 변화에 대한 장벽barriers은 거의 강조하지 않으며, 이것이 종종 학습이 실천으로 이전되지 않는 이유이다.
  • 모델은 여전히 학습 성과에 영향을 미칠 수 있는 [사회 규범, 정치적 영향, 교육 정책 및 학습에 대한 미디어의 역할]과 같은 개인 외부의 광범위한 요소를 고려할 수 없다.
  • 무엇보다 오리지널이든 뉴월드든 커크패트릭 모델의 일부로 명확하게 표현되지 않지만 매우 중요한 임팩트에 해당하는 것들이 있다. 예를 들어, 연결, 네트워크 및 커뮤니티의 개발, 그리고 정체성(또는 정체성) 등은 보건 전문가들에게 점점 더 중요한 것으로 나타나고 있다. 그러나 커크패트릭 모델은 연결의 강화 또는 개발, 그리고 정체성을 교육 개입의 중요한 영향으로서 인식하지 못한다.

These critiques were published before the revision of the Kirkpatrick Model to the New World Kirkpatrick Model by Kirkpatrick's son. While some of these issues are addressed in the New World Model, there remain a number of short comings.

  • The model still fails to address unintended outcomes of training programmes, as such there is the potential that valuable impacts are not being captured.
  • The inclusion of required drivers in Level 3 prompts evaluators to consider enablers to change but places little emphasis on barriers to change, which are often why transfer of learning to practice does not occur.
  • There is no capacity of the model to consider broader factors outside the individual that may be influencing learning outcomes, such as social norms, political influences, education policy and the role of media on learning.
  • Furthermore, there is a range of important impacts that are not clearly articulated as part of the original, or New World Kirkpatrick Model. For example, the development of connections, networks and, a community; and identity (or identities) are being shown to be increasingly important to health professionals.65-67 Yet, the Kirkpatrick Model fails to recognise the strengthening or development of connections, and identity as important impacts of educational interventions.

 

4 | 결과 평가만으로는 충분하지 않음—결과 평가를 넘어 프로그램 평가로 넘어가는 방법
4 | OUTCOME EVALUATION IS NOT ENOUGH—
HOW TO MOVE BEYOND OUTCOME EVALUATION TO PROGRAMME EVALUATION


성과 평가 모델이 수많은 이유로 프로그램 평가의 황금 표준이 되어서는 안 된다는 것은 커크패트릭 모델의 예로부터 명백하다. 우리는 연구자와 평가자 모두에게 미리 결정된 결과에 초점을 맞추고 결과가 발생하는 방법과 이유를 탐구하지 못하는 결과 평가에서 벗어나 HPE 개입의 복잡성을 포착할 수 있는 프로그램 평가 모델로 이동할 수 있는 권한을 부여해야 한다. HPE에서 사용할 수 있는 많은 다른 평가 모델이 있지만, Kirkpatrick 모델보다 덜 자주 사용되지만 HPE에서 발생하는 복잡한 프로세스를 평가하는 데 더 적합하다. 표 3은 의도하지 않은 결과, 프로그램 구현 및 영향이 발생하는 방법 및 이유를 탐색할 수 있는 능력을 위해 선택된 6개의 모델을 요약한 것이다. 표 3은 각 모델에 대한 설명과 이 모델을 잘 사용한 연구의 예를 보여줍니다. 예시는 존재하는 HPE 또는 존재하지 않는 다른 건강 관련 분야에서 도출되었다.

It is clear from the example of the Kirkpatrick Model that outcome evaluation models should not be the gold standard for programme evaluation for a myriad of reasons. We need to empower both researchers and evaluators to move away from outcome evaluation that focuses on predetermined outcomes and fails to explore how and why the outcomes occur, to programme evaluation models that are capable of capturing the complexities of HPE interventions. There are a number of other evaluation models that can be used in HPE, that while used less frequently than the Kirkpatrick Model, are better placed to evaluate the complex processes that occur in HPE. Table 3 presents a summary of six of these models, which were chosen for their ability to explore unintended outcomes, programme implementation, as well and how and why impacts occur. Table 3 includes a description of each model and an example of research that has used the model well. Examples have been drawn from HPE where they exist, or from other health-related fields where they do not.


컨텍스트, 입력, 프로세스 및 제품(CIPP) 평가
Context, Input, Process and Product (CIPP) evaluation

이름에서 알 수 있듯이 다음으로 구성된다.

  • 컨텍스트 평가(평가 요구, 문제, 자산 및 기회, 관련 컨텍스트 조건 및 역학),
  • 투입 평가(대안 접근 방식을 식별 및 평가하고 타당성 및 잠재적 비용 효과 평가),
  • 프로세스 평가(모니터 및 프로그램의 구현 평가: 의도와 요구대로 구현되었는지, 그리고 이것이 결과에 어떤 영향을 미칠 수 있는지),
  • 산출 평가(비용과 성과의 평가 - 의도하거나 의도하지 않은 것, 단기 및 장기).68

As the name suggests consists of

  • context evaluation (assess needs, problems, assets, and opportunities, plus relevant contextual conditions and dynamics),
  • input evaluation (identifies and assesses alternative approaches and assesses feasibility and potential cost-effectiveness),
  • process evaluation (monitors and assesses implementation of the programme—was it implemented as intended and required, and how this may have effected outcomes) and
  • product evaluation (assess costs and outcomes—intended, unintended, short and long term).68

CIPP 평가모형의 모든 부분은 프로그램 기간 동안 완료되며, 여기에는 중요한 성과를 달성하지 못할 때의 문제를 해결하기 위한 중간 산출 평가도 포함한다.

All parts of the CIPP evaluation model are completed throughout the duration of the programme, including interim product evaluation to address any issues resulting in important outcomes not being achieved.68

현실주의 평가
Realist Evaluation

Pawson과 Tilley에 의해 기술된 바와 같이, 70 현실주의 평가는 '누구를 위해, 어떤 맥락에서, 어떻게, 왜 그리고 언제, 왜 그렇지 않은가'를 설명하고자 한다. 즉, 실제 사회 과정real social process을 설명하는 것입니다. 이 접근방식은 단순히 측정 가능한 것을 설명하는 것에 그치지 않으며, 프로그램 성과에 영향을 미치는 상황적 조건을 찾고 설명하는 것을 목표로 한다. 현실주의 평가는 [무엇이 변화를 가져오는지에 대한 기저 이론]을 이해하고자 하며, 데이터 수집은 프로그램 이론의 테스트를 가능하게 할 필요가 있으므로 '프로그램 영향프로그램 구현 프로세스, 프로그램 결과에 영향을 미칠 수 있는 프로그램 컨텍스트의 특정 측면 및 어떻게 특정 컨텍스트가 변화를 유발하는 특정 메커니즘을 형성하는지'에 대한 데이터를 포함해야 한다. 그런 다음 이 정보는 특정 컨텍스트가 메커니즘에 영향을 미치고 결과로 이어지는 방법을 나타내는 CMO(Content-Mechanism-outcome) 구성으로 표현된다. 

As described by Pawson and Tilley.70 Realist evaluation seeks to explain ‘what kinds of outcomes, for whom, in what respects, in what contexts, how, why and when not, why not?’71 That is, to explain real social processes. The approach is concerned with going further than describing what can be measured, aiming to find and explain contextual conditions that affect programme outcomes.72 Realist evaluation seeks to understand the underlying theories about what is leading to change, data collection needs to enable testing of programme theories and therefore should include data on ‘programme impacts and the processes of programme implementation, the specific aspects of programme context that might impact on programme outcomes, and how these contexts shape the specific mechanisms that might be creating change’.73 This information is then expressed in content-mechanism-outcome (CMO) configurations, which refers to how a particular context impacts a mechanism and leads to an outcome.73 

이론 중심 평가
Theory-driven evaluation

현실주의 평가와 유사하게, 결과를 평가할 때 프로그램의 구현근본적인 인과 메커니즘 모두를 고려한다. 75 이론 중심 평가는 변화 모델(프로그램 근거), 실행 모델(프로그램 계획) 또는 두 가지 모두에 초점을 맞춘다.

  • 변화모델은 '개입과 성과의 근간을 이루는 인과적 과정에 관한 일군의 서술적 가정'을 언급하는 반면,
  • 실행모델은 '프로그램 설계자와 기타 주요 이해관계자가 프로그램의 성공에 필요하다고 생각하는 구성요소 및 활동'을 언급한다. 

Similarly to realist evaluation considers both the implementation of a programme and the underlying causal mechanisms when assessing outcomes.75 It seeks to understand what outcomes are occurring and the ‘hows and whys of programme success or failure’.75 Theory-driven evaluation focus on a change model (programme rationale), an action model (programme plan) or both.

  • The change model refers to ‘the set of descriptive assumptions made about causal processes underlying intervention and its outcomes’, while
  • the action model refers to the ‘components and activities that the programme designers and other key stakeholders see as necessary to a programme's success’.

이론 중심 평가의 핵심 요소는 다음과 같다.
The key elements of theory-driven evaluation are:

1. 결정 요인—'니즈 충족을 위해 치료나 개입을 개발하게 하는 레버리지 메커니즘 또는 문제의 원인'(20페이지) 
1. Determinants—‘a leverage mechanism or cause of a problem upon which it can develop a treatment or intervention to meet a need’ (p. 20).75

2. 개입—'결정요인에 대한 직접적 변화를 목표로 하는 프로그램의 모든 활동
2. Intervention—‘any activity or activities of a programme that aims directly at changing a determinant’ (p. 22).75

3. 결과—프로그램 목표의 '구체적이고 측정 가능한 측면'
3. Outcomes—‘concrete, measurable aspects’ of the programme goals.

기여도분석
Contribution analysis

그러나 보건 전문직 교육 연구에 사용되지는 않았지만, '복잡한 조건에서 신뢰할 수 있는 주장을 하는 체계적인 방법'으로 제안되었다.77 프로그램이 구현된 방법과 이유를 이해하는 것이 기여 분석의 핵심이다. 그것은 '프로그램이 관찰된 결과에 얼마나 많은 차이(또는 기여)를 가져왔는가?'를 이해하고자 한다.

Yet to be used in health professions education research, but proposed as a ‘systematic way to make credible claims under conditions of complexity’.77 Understanding how and why the programme has been implemented is key to contribution analysis. It seeks to understand ‘How much of a difference (or contribution) has the programme made to the observed outcomes?’78

레이어드 분석 
Layered analysis 


'그것이 효과가 있었느냐'는 질문 대신, 계층 분석은 영향의 보다 근본적인 질문을 탐구하기 위해 철학, 원리, 기법에 대한 다층적 검사를 포함한다: "의도된 개입이, "실제로", 일어났는가?" (792쪽)30 성과 달성은 '개입이 오직 의도한 대로 전달되었을 경우에만' relevant한 것이다"는 이해에 기초한다

‘Instead of asking, “Did it work?” layered analysis comprises a multilevel examination of philosophy, principle, and technique in context to explore a more fundamental question of impact: “Did the intended intervention, in fact, occur?”’ (p. 792)30 It is based on the understanding that outcome achievement are only relevant if the intervention was delivered as intended.30

RE-AIM 프레임워크 
RE-AIM framework 

5개 차원으로 구성된 평가 프레임워크81:
1. 도달 범위—개입에 참여한 목표 인구의 비율
2. 효과—잠재적인 부정적 영향, 삶의 질 및 경제적 결과를 포함한 중요한 결과에 대한 개입의 영향(성공 또는 실패에 대한 이유 포함) 
3. 채택—이 개입을 채택할 설정, 관행 및 계획의 비율
4. 구현—실제 단어에서 의도한 대로 개입이 구현되는 범위
5. 유지보수—시간이 지남에 따라 프로그램이 지속되는 범위
개입의 궁극적인 영향은 이 5개 영역의 결합 효과 때문이다.
An evaluation framework consisting of five dimensions81:
1. Reach—proportion of the target population that participated in the intervention
2. Effectiveness—impact of an intervention on important outcomes, including potential negative effects, quality of life and economic outcomes (includes reasons for success or lack of such) 
3. Adoption—proportion of settings, practices, and plans that will adopt this intervention
4. Implementation—extent to which the intervention is implemented as intended in the real word
5. Maintenance—extend to which a programme is sustain over time
The ultimate impact of an intervention is due to its combined effects of these five domains.


이러한 모델은 성과 평가보다 더 복잡하고 시간 소모가 클 수 있으며, 이는 모델을 덜 자주 사용하는 이유에 기여하는 요인일 가능성이 높다. 그러나, 우리는 HPE의 복잡한 개입과 함께 작업하며, 이러한 모델들은 개입 결과와 그것들이 어떻게 그리고 왜 일어나거나 일어나지 않는지를 더 잘 이해할 수 있는 다른 것들 중에서 [내부 및 외부 요인, 의도하지 않은 결과, 이론 및 프로그램 구현]을 모두 고려할 수 있게 한다. 이러한 유형의 프로그램 평가 접근방식을 사용하지 않고는 개입이 의도한 대로 구현되었는지 확신할 수 없으며 개입이 성공했는지 또는 실패했는지 설명할 수 없다. 

These models are more complex and can be more time consuming than outcome evaluations, which is likely a contributing factor to why they are used less frequently. However, we work with complex interventions in HPE, and these models allow us to consider both internal and external factors, unintended outcomes, theory and programme implementation, among other things that enable greater understanding of intervention outcomes and how and why they do and do not occur. Without using these types of programme evaluation approaches, we cannot be sure that interventions have been implemented as intended, nor can we explain why interventions have, or have not, been successful.

그림 2와 같이 이러한 프로그램 평가 모델 중 일부의 사용이 증가하는 추세로 서서히 변화하고 있다. 이 수치는 위에서 설명한 4개의 데이터베이스와 6개의 저널에 대한 체계적인 문헌 검색을 반복하여 생성되었지만 커크패트릭 대신 6개의 프로그램 평가 모델의 이름을 사용하여 생성되었다. 2020년 6월 9일까지 HPE에 603개의 출판물이 있었던 커크패트릭 모델과 비교하면, 6개의 프로그램 평가 모델은 2021년 8월 16일까지 57개의 출판물이 있다. 57개의 출판물 중 56개가 그림 2에 나타나 있으며, 2000년 이전에 발표된 논문은 단 1개뿐이어서 그림에 포함되지 않았다. 이러한 모델들의 느린 사용 증가에도 불구하고, 커크패트릭 모델의 사용은 여전히 상당히 높으며 그림 1에서 볼 수 있듯이 훨씬 더 빠른 속도로 성장하고 있다. 

 There is a slow shift to the increasing use of some of these programme evaluation models, as shown in Figure 2. The figure was generated by repeating the systematic literature search of four databases and the six journals described above but using the names of the six programme evaluation models in the place of Kirkpatrick. Compared with the Kirkpatrick Model, which up until 9 June 2020 had 603 publications in HPE, the six programme evaluation models have 57 publications up until 16 August 2021. Fifty-six of the 57 publications are depicted in Figure 2, with only one paper published prior to 2000 and hence not included in the figure. Despite this slow increase in the use of these models, the use of the Kirkpatrick Model is still substantially higher and continues to grow at a much faster rate as demonstrated in Figure 1.

우리는 Kirkpatrick 모델을 사용하여 수행된 것과 같은 결과 평가가 금본위제라는 이 신화를 불식시키고 프로그램이 의도대로 전달되는지, 결과가 어떻게 그리고 왜 발생하는지를 이해하는 데 도움이 되는 프로그램 평가 접근법의 사용을 옹호하기 위해 WHO, MERSQI, BEME 및 보건 및 HPE의 다른 리더가 필요하다.표 3에 기술된 것과 같은 프로그램 평가 접근방식을 사용할 경우, 평가를 위한 계획을 조기에 수행하는 것이 필수적이다. 그것을 사후적인 생각이나 개입의 마지막에 일어나는 것으로 생각하기보다는 HPE 개입을 설계하고 실행하는 과정으로 연계할 필요가 있다.

We need WHO, MERSQI, BEME and other leaders in health and HPE to dispel this myth that outcome evaluations such as those done using the Kirkpatrick Model are the gold standard and to advocate for the use of programme evaluation approaches that help us understand if programmes are being delivered as intended, as well as how and why outcomes are occurring. When using programme evaluation approaches such as those described in Table 3, it is imperative that planning for evaluation is done early. Rather than thinking of it as an afterthought, or something that happens at the end of an intervention, it needs to be interwoven into the processes of designing and implementing HPE interventions.

 


Med Educ. 2022 Jan;56(1):127-136.

 doi: 10.1111/medu.14654. Epub 2021 Sep 16.

Evaluation in health professions education-Is measuring outcomes enough?

Affiliations

1Monash Centre for Professional Development and Monash Online Education, Monash University, Clayton, Victoria, Australia.

2Monash Centre for Scholarship in Health Education, Monash University, Clayton, Victoria, Australia.

PMID: 34463357

DOI: 10.1111/medu.14654

Abstract

Introduction: In an effort to increase the rigour of evaluation in health professions education (HPE), a range of evaluation approaches are used. These largely focus on outcome evaluation as opposed to programme evaluation. We aim to review and critique the use of outcome evaluation models, using the Kirkpatrick Model as an example given its wide acceptance and use, and advocate for the use of programme evaluation models that help us understand how and why outcomes are occurring.

Methods: We systematically searched OVID medline, Scopus, CINAHL and Pubmed, and hand searched six leading HPE journals to provide an overview of the use of the Kirkpatrick Model as well as a range of programme evaluation models in HPE. In addition to this, we synthesised the existing critiques of the Kirkpatrick Model as an example of outcome evaluation, to highlight the limitations of such models.

Results: The use of the Kirkpatrick Model in HPE is widespread and increasing; however, studies focus on categorising outcomes, rather than explaining how and why they occur. The main criticisms of the model are as follows: it is outcomes focused and fails to consider factors that can impact training outcomes; it assumes positive casual linkages between the levels; there is an assumption that the higher-level outcomes are more important; and unintended impacts are not considered. The use of the Kirkpatrick Model by the MERSQI, BEME and WHO contribute to the myth that the Kirkpatrick Model is the gold standard for programme evaluation.

Discussion: Moving forward, evaluations of HPE interventions must shift from focusing largely on measuring outcomes of interventions with little consideration for how and why these outcomes are occurring to programme evaluation that investigates what contributes to these outcomes. Other models that facilitate the evaluation of the complex processes that occur in HPE should be used instead of Kirkpatrick's.

맥락 속의 자기조절학습: 자기-, 공동-, 사회적으로 공유된 학습의 조절(Med Educ, 2021)
Putting self-regulated learning in context: Integrating self-, co-, and socially shared regulation of learning
Derk Bransen1 | Marjan J. B. Govaerts2 | Ernesto Panadero3,4 | Dominique M. A. Sluijsmans5 | Erik W. Driessen2 

 

 

1 소개 및 문제 설명
1 INTRODUCTION AND PROBLEM STATEMENT

양질의 의료 및 평생 학습과의 긍정적인 연관성 때문에 의료 전문가들이 학습을 조절regulate할 필요성이 널리 인정되고 있다. 예를 들어, 의료 분야에서 높은 표준을 보호하려면 의사가 지속적으로 빠르게 변화하는 의료 관행에서 이뤄지는 발전을 모니터링하고, 적절한 학습 기회를 개인 학습 요구 및 학습 목표에 맞춰야 합니다.3 따라서 의사는 역량을 개발하고 유지하기 위해 자기조절학습(SRL)에 참여해야 한다. 일반적으로, 자기 조절 학습자는 "자신의 학습에 메타인지적, 동기 부여적, 행동적으로 적극적인 참여자"로 간주된다. 목표를 추구하며 목표를 달성하기 위해 이러한 목표에 부합하는 전략을 설계 및 실행하고, 목표를 향한 진행을 모니터링하며, 성찰과 (해당되는 경우) 새로운 학습 목표를 수립합니다.
The necessity for healthcare professionals to regulate their learning is widely acknowledged due to positive associations with high-quality healthcare and lifelong learning.1, 2 For example, safeguarding high standards in healthcare requires physicians to monitor relevant developments in continuously and rapidly changing healthcare practices and to align appropriate learning opportunities with personal learning needs and learning goals.3 Hence, physicians have to engage in self-regulated learning (SRL) to develop and maintain competence.4 Generally, self-regulated learners are considered to be “meta-cognitively, motivationally, and behaviourally active participants in their own learning”.5 In pursuit of and committed to their goals, they design and implement strategies aligned with these goals, monitor progression towards these goals, followed by reflection and – when applicable – formulation of new learning goals.6, 7

교육 및 실습과의 관련성 때문에, 그리고 SRL 기술은 가르치고 배울 수 있기 때문에, 보건의료전문직 커리큘럼은 학생들의 SRL 개발을 지원하고 촉진하기 위한 요소를 구축한다. 예를 들어 많은 커리큘럼이 진도를 성찰하거나 개인 학습 계획을 수립하도록 자극하거나 요구하는 포트폴리오 시스템을 구현하거나, 학생의 자기주도성을 자극하기 위해 문제 기반 학습 원리를 포함한다. 연구 결과는 꾸준히 개인의 학습과 전문성 개발을 조절하는 능력이 긍정적인 결과와 연관되어 있다는 것을 보여준다. 예를 들어, SRL은 의대생들의 임상 기술 성과, 그들의 전반적인 학업 성취도, 그리고 학생들의 안녕과 긍정적으로 연관되어 있다. 다만 보건직 교육·연구가 학생들을 적절히 실습준비를 시키고, 전문직 종사자들이 역량을 유지·개발할 수 있도록 돕기 위해 자신을 뛰어넘을 필요와 책임이 있다고 주장한다.
Because of its relevance for education and practice, and as SRL skills can be learnt and therefore taught, health professions curricula build in elements to support and facilitate the development of students’ SRL.8-10 For example, many curricula implement portfolio systems that stimulate or require students to reflect on progress and formulate personal learning plans,11 or include problem-based learning principles to stimulate students’ self-directedness.12, 13 Research findings consistently show that the ability to regulate one's learning and professional development is associated with positive outcomes.14 For example, SRL has been related positively to medical students’ clinical skill performance,15, 16 their overall academic achievement,17 and student well-being.18 However, we argue that there is a need and responsibility for health professions education and research to look beyond the self in order to adequately prepare students for practice, and to help professionals maintain and develop competence.

보건 직업 교육(및 보건의료 실습)은 전통적으로 [개인]에 초점을 맞추고 있다. 교육은 광범위한 개인 평가 후 개별적으로 자격을 부여하고, 개인 수준에서 학습 과정과 활동을 규제하도록 가르치는 [개인 학습자]에게 초점을 맞추고 있다. 보건직 교육은 교육과정과 평가 틀에 '협업'과 같은 역량 영역을 포함시킴으로써 개인을 뛰어넘는 것을 목표로 한다고 주장할 수 있다. 그러나 '협력자collaborator' 역할을 '최적의 환자 진료를 달성하기 위해 의료 팀 내에서 효과적으로 일하는 것'으로 설명하면서도, 그 숙련도는 (비록 협력 상황에서 평가되더라도) 여전히 개인의 성과에 기초한다. 
Health professions education (and healthcare practice, for that matter) has traditionally been characterised by a focus on the individual; education focuses on individual learners whom we licence individually after extensive individual assessment, and whom we teach to regulate their learning processes and activities on an individual level.19 One might argue that health professions education aims to move beyond the individual by including competency domains such as “Collaboration” in curriculum and assessment frameworks.20 However, while described as effectively working within a healthcare team to achieve optimal patient care, learners’ proficiency as collaborators is still primarily based on their individual performance, even when evaluated in collaborative situations.21 

그러나 오늘날의 의료 서비스는 점점 더 팀 기반화되어 의료 팀에 의해 제공되고 있으며, 종종 전문 분야와 전문 분야를 넘나들며 협업하는 의료 전문가들로 구성됩니다. 보건 직업 교육의 주요 목적은 학생들이 이러한 협력적 실습을 할 수 있도록 준비하는 것이기 때문에, '학습의 조절'이라는 개념이 의료 팀에서 학습하고 일하는 조직의 요구와 일치하도록 하는 것이 필수적이다.

Notwithstanding, present-day healthcare is increasingly team-based, delivered by healthcare teams, often consisting of healthcare professionals collaborating across specialities and professions.22, 23 As the main purpose of health professions education is to prepare students for this collaborative practice, it is essential that conceptualisations of regulation of learning align with the organisation and demands of learning and working in healthcare teams.

양질의 의료 서비스를 제공하는 데 있어, [헬스케어 팀]에 대한 의존도가 높아짐에 따라, HPE 연구는 '집단 역량'의 개념을 탐구하기 시작했다. 집단적 역량의 본질은 [전체는 그 부분의 합보다 더 많을 수 있고(또는 덜할 수 있다)]는 것에 있다. 또한 집단적 역량이란 '역동적, 상황-의존적, 분산적 역량으로서, 특정한 한 명의 구성원의 기여를 역추적하기 어렵다'는 것과도 관련이 있다. 다시 말해, '팀원 한 명이 무능하더라도 팀은 유능할 수 있고, 유능한 개인을 모아서 무능한 팀을 구성할 수 있다'는 것이다. 개별 의사의 역량을 보장하는 것이 필수적이며 여전히 중요하지만, 고품질의 의료 서비스를 제공하기 위해서는 의료 팀의 [집단적 역량]에 대한 보장이 필요합니다. 
Geared to the growing reliance on healthcare teams for high-quality healthcare delivery, health professions education research has started to explore the concept of collective competence.22-24 The essence of collective competence is that the whole can be more (or less, for that matter) than the sum of its parts, and relates to the ‘dynamic, context-dependent, distributed capacity of a team, which is difficult to trace back to any one individual team member’.25 In other words, ‘teams can be competent when one team member is incompetent, and competent individuals can form an incompetent team’.19 Although ensuring an individual physician's competence is and remains essential, providing high-quality healthcare thus requires assurance of the healthcare team's collective competence.

집단 역량을 유지하고 발전시키기 위해서는 의료 팀이 지속적인 [협력적 학습]에 참여할 수 있어야 합니다. [협력적 학습collaborative learning]은 [공동의 목표를 가진 팀원들이, 목표를 달성하기 위해, 그리고 일련의 통합된 실천을 발전시키기 위해, 공유된 과제의 특징에 대해 상호작용할 때 발생하는 학습]을 말한다. 이와 같이, 협력 학습은 개인을 넘어 팀 구성원들 간의 [상호 의존성]을 강조한다. 예를 들어, 협업 학습은 외상 팀의 의료 제공 평가 중, 외과 팀이 새로운 기술을 구현하기 시작할 때, 또는 학생이 학습 과제를 수행하는 데 협업할 때 발생할 수 있다. 협력적 학습이 필수적이라고 여겨질 때마다, 팀이 스스로 학습을 조절하는 능력도 마찬가지로 중요해진다. 양질의 돌봄이 의료팀의 협력적 학습에 달려 있음에 동의한다면, [집단적 역량을 개발하고 유지하는 데 효과적인 학습의 조절을 어떻게 촉진할 것인가]에도 초점을 맞춰야 한다는 얘기다. 

To maintain and develop collective competence, it is essential that healthcare teams are able to engage in ongoing collaborative learning. Collaborative learning refers to learning that occurs when team members who have a collective goal interact about features of their shared tasks in order to attain their goals and by means of which they develop a set of integrated practices.26, 27 As such, collaborative learning stretches beyond the individual and emphasises the interdependence among team members.28 Collaborative learning may, for example, occur during trauma teams’ evaluation of healthcare delivery, when surgical teams start implementing new technology, or when students collaborate in performing learning tasks. Whenever collaborative learning is considered essential, the team's ability to regulate their learning becomes of equal importance. In other words, if we agree that high-quality care hinges upon collaborative learning in healthcare teams, we should also focus on how to foster effective regulation of learning in order to develop and maintain collective competence. 

 

2 학습조절의 개념화
2 CONCEPTUALISATIONS OF REGULATION OF LEARNING

2.1 자기조절학습: 개인에 집중하기
2.1 Self-regulated learning: Focus on the individual

연대순으로, 학습의 조절에 대한 이론에서 처음 등장한 개념은 자기 자신, 즉 개별 학생이나 전문가가 개인 학습을 어떻게 규제하는가에 초점을 맞췄다. 학습의 조절을 개념화하려는 초기 시도들 중 일부는 1980년대 후반 짐머만과 Boekaerts에 의해 이루어졌으며, 그 이후로 SRL 모델이 적용, 확장 및 추가 연구에 사용되었다. 첫 번째 SRL 모델은 (메타)인지적, 동기부여적, 감정적 측면을 강조하는 개인 내의 과정을 학습 규제의 운영양식modus operandi으로 분류했다. 결과적으로, 자기조절학습에 관심이 있는 연구자들은 [개인 내에서 일어나는 과정을 분석 단위로] 초점을 맞췄다. 마찬가지로, SRL에 대한 연구의 대부분은 (의료 교육의 맥락 내외 모두에서) 자가 보고 데이터 수집을 통해 수행된다. [개인에 초점]을 맞춘 의료(교육) 환경에서 학습조절에 대한 연구는 개별화된 학습 계획 및 성과 자체 모니터링과 같은 SRL의 하위 구성요소에 초점을 맞춘 연구에 반영된다. 
Chronologically, the first conceptualisations in the regulation of learning theory focussed on the self, that is, on how an individual student or professional regulates his or her individual learning. Some of the earliest attempts to conceptualise the regulation of learning were made in the late 1980s by Zimmerman5, 29 and by Boekaerts,30, 31 with their SRL models having been adapted, expanded, and used for further research ever since.10 The first SRL models labelled processes within the individual – varying in their emphasis on either (meta)cognitive, motivational, or emotional aspects – as modus operandi of regulation of learning. Consequently, researchers interested in self-regulation of learning focussed on processes within the individual as the unit of analysis.32 Likewise, the majority of research (both within and outside the context of healthcare education) into SRL is conducted through collecting self-reported data.33 Research on regulation of learning within healthcare (educational) settings with a strong focus on the individual is reflected in studies focussing on sub-components of SRL such as individualised learning plans,34-37 and self-monitoring of performance.38-40

2.2 공동 조절 학습: 개인과 컨텍스트 간의 상호 작용에 초점을 맞춥니다.
2.2 Co-regulated learning: Focus on interaction between individual and context

학습 조절의 초기 개념화(즉, "자기"조절학습)는 개별 학습자 내에서의 과정을 강조했지만, 1990년대 말, 공동조절학습(CRL)이라는 용어가 [학습 조절에 대한 사회적, 맥락적 영향]을 포착하기 위해 만들어졌다. CRL의 개념은 학습자의 인식, 정서, 학습 동기가 환경에서 타인과의 사회적 상호작용을 통해 어떻게 매개되는지에 초점을 맞춘 사회문화학습이론에서 나왔다. 따라서 CRL은 [학습조절을 제대로 설명하려면, 개인 내부의 조절 과정을 넘어서야 한다는 개념]을 기반으로 하며, CRL의 분석 단위는 항상 개인과 (다른) 맥락 사이의 상호작용이다. 보다 구체적으로, CRL은 '공동조절자co-regulator'가 '피-공동조절자co-regulated'의 조절를 안내하는 조절과정과 활동에 대한 비호혜적non-reciprocal 참여를 의미한다. 
While early conceptualisations of regulation of learning (ie self-regulation of learning) emphasise processes within the individual learner, the term co-regulated learning (CRL) was coined in the late 1990s to capture the social and contextual influences on the regulation of learning.41-43 The concept of CRL emerged from sociocultural learning theories that focus on how learners’ cognitions, emotions, and motivation for learning are mediated through social interactions with others in the environment.41 CRL thus builds on the notion that we need to go beyond regulatory processes within the individual in order to describe the regulation of learning satisfactorily, and the unit of analysis in CRL always is the interaction between the individual and (others in) the context.32 More specifically, CRL refers to non-reciprocal engagement in regulatory processes and activities, with the ‘co-regulator’ guiding the regulation of the ‘co-regulated’.

따라서 개념적으로 CRL은 [한 명 또는 여러 명의 집단 구성원이 집단 내 다른 개인의 학습 활동을 조절]한다는 점에서 ['불균등하게 퍼져있는unevenly distributed' 형태의 사회적 조절]로 간주된다. CRL의 필수 요소는 학습자 또는 전문가 간의 사회적 상호 작용입니다. 이 상호작용은 (학습의 조절과 관련된 과정을 포함하여) 학습 프로세스를 매개한다. 즉, '공동조절자co-regulator'는 타인의 조절활동(목표 설정, 성과 모니터링, 성찰 등)에 관여함으로써 '피공동조절자co-regulated'의 메타인지 및 인지활동을 매개mediates(즉, 공동조절)하고, 그 결과 학습 프로세스의 조절에 영향을 미칩니다. 공동조절자가 CRL을 촉발하는 방법으로는, 요약을 해주거나, 정보를 요청하거나, 설명을 하거나, 패러프레이징을 하거나, 학습에 대한 판단을 요구하거나, 사고와 성찰에 대한 자극을 주는 것 등이 있다. 상자 1은 예를 제공합니다.

Conceptually, CRL is therefore considered an ‘unevenly distributed’ form of social regulation, in that a single or multiple group member(s) regulate(s) the learning activities of other individuals in the group.44 Essential to CRL are social interactions between learners or professionals through which their learning processes, including processes relevant for the regulation of their learning, are mediated.45, 46 Thus, through engaging in others’ regulatory activities – such as goal setting, performance monitoring, and reflection – the ‘co-regulator’ mediates (ie co-regulates) the metacognitive and cognitive activities of the ‘co-regulated’, thereby influencing the regulation of his or her learning processes.41, 45 Students or professionals can trigger CRL by summarising, requesting information, or giving explanations,47 or through paraphrasing, requesting judgements of learning, giving prompts for thinking and reflection.41 Box 1 provides an example.

==================================================

BOX 1. 수술 후 상처를 봉합하는 방법을 배우는 공동 조절
BOX 1. The co-regulation of learning how to close a wound after surgery

한 학생이 상처 봉합 기본 기술을 익히는 것을 목표로 하는 학습 목표를 설정했습니다. 지도 외과의는 학생이 상처를 봉합하는 절차를 시작할 수 있도록 함으로써 학생들에게 이 목표를 추구할 기회를 제공한다. 지도 외과의의 역할은 학생의 학습조절(공동조절)에 적극적으로 참여하는 것으로 구성된다. 학생이 시작하기 전에 외과의는 학생이 상처를 성공적으로 봉합하기 위해 취해야 할 조치(전략적 계획의 공동조절)에 대해 물을 수 있다. 마찬가지로, 학생이 적극적으로 상처를 닫을 때, 외과의는 학생이 지금까지 올바른 방향으로 가고 있는지 물어볼 수 있다(모니터링의 공동조절). 학생이 상처를 다 봉합한 후, 외과의는 학생이 겪었을 수 있는 잠재적인 어려움과 미래의 노력(성찰와 적응의 공동조절)에 대해 물어볼 수 있다. 지도자와 공동 조절적 상호작용을 한 후, 학생은 (여기서 배운) 학습조에 관련된 기술을 [다른 감독되지 않은 학습 과제]로 전이transfer하고자 학습 활동에 적극적으로 참여하고 반영할 수 있다. 지도 외과의는 학생들의 학습규제에 참여함으로써 자율적 학습능력의 응용과 발전을 지원한다.

A student formulated a learning goal aimed at mastering basic techniques of wound closure. The supervising surgeon provides the student with the opportunity to pursue this goal by allowing the student to start the procedure of closing the wound. The role of the supervising surgeon consists of actively participating in the student's regulation of learning (ie co-regulation).

  • Before the student starts, the surgeon may ask about the steps the student intends to take to close the wound successfully (co-regulation of strategic planning).
  • Similarly, when the student is actively closing the wound, the surgeon may ask if the student is on the right track thus far (co-regulation of monitoring).
  • After the student finishes closing the wound, the surgeon may ask about potential difficulties the student may have experienced and how he or she may improve future efforts (co-regulation of reflection and adaptation).

After co-regulatory interactions with her supervisor, the student may then actively engage in and reflect on learning activities with the aim of transferring relevant skills for regulation of learning to other, unsupervised, learning tasks. Through engaging in the students’ regulation of learning, the supervising surgeon helps to support the application and development of self-regulatory learning skills.

==================================================

중요한 점은, CRL은 학습 과제, 설정, 공동조절자와 학습자 사이의 관계에 따라 형태가 달라질 수 있다는 것이다. 예를 들어, 위계적 관계에서의 권력 역학 또는 전문 지식 수준의 (인식된) 차이는 CRL의 특성 및 잠재적으로 효과에 영향을 미칠 수 있다. 따라서 친구/동료에 의한 공동조절은, 목표 및 결과 측면에서 상급감독자와의 CRL과 상당히 다를 수 있다. 보건 직업 교육에서 학습의 공동 규제에 대한 새로운 연구는 CRL 참여의 다양한 징후와 초점에 대한 통찰력을 제공하고 있다. 
Importantly, CRL can take different forms, depending on the learning task, setting and/or relationships between co-regulator and learner. For example, power dynamics in hierarchical relationships or (perceived) differences in the level of expertise may influence the nature – and potentially effectiveness – of CRL. Co-regulation by peers may therefore differ substantially from supervisors’ CRL in terms of goals and outcomes. Within health professions education, emergent research on co-regulation of learning is providing insight into the different manifestations and foci of CRL engagement.

연구 결과에 따르면 의대생들은 다른 사람의 CRL에 참여하려는 목적뿐만 아니라 참여 대상도 다르다. 예를 들어, 초보 학생들은 학습 목표를 토론하기 위해 [동료를 선호]하는 반면, 경험이 많은 학생들은 전문적인 정체성 형성에 반영하기 위해 [경험이 많은 의료 전문가를 선호]하는 것으로 보인다.48 CRL에 대한 다른 연구는 소셜 네트워크 관점을 채택하고, 조절에서의 네트워크 구축의 특성을 검토했다. 그들의 학문. 특히 CRL에 참여하는 다른 사람들과의 상호작용 빈도는 학생들이 스스로 보고하는 학습능력 조절과 긍정적으로 관련이 있다는 사실이 연구결과 밝혀졌다.49

Research findings suggest that medical students differ in whom they engage as well as the purpose of engaging others’ CRL. For instance, novice students seem to favour peers to discuss their learning goals, whereas experienced students favour more experienced healthcare professionals to reflect on professional identity formation.48 Other studies into CRL adopted a social network perspective, and examined characteristics of the networks students’ deploy when regulating their learning. Findings revealed that, in particular, the interaction frequency with which others are engaged in CRL positively relates to students’ self-reported regulation of learning proficiency.49

 

2.3 사회적으로 공유되는 학습 규정: 상황에 맞게 팀에 집중
2.3 Socially shared regulation of learning: Focus on the team within context

21세기 초에 협력 학습의 중요성과 필요성에 힘입어, 집단들이 어떻게 [집단적 학습과 성과를 분산적으로distributed 조절]하는지 탐구하기 시작했다. 사회적 공유 학습 조절(SSRL)라는 용어는 그러한 규제 조치를 설명하기 위해 만들어졌다. 일반적으로 SSRL은 팀이 협력적 학습을 조절하는 방법을 설명하고, 팀 구성원 간의 상호 의존성을 강조한다. SSRL은 팀원들이 [공동으로 구성된 목표를 추구하기 위하여 집단적 학습 활동의 조절을 공유하는 과정]에 초점을 맞추고 있다. CRL과 유사하게, SSRL은 [학습의 조절이 여러 개인 사이에서 공유되는 조절방식]을 반영한다. 그러나 주요 차이점은

  • CRL은 한 명 이상의 집단 구성원이 개별 학습자의 조절을 가이드guide하는 데 관여한다는 것이다('불평등한unevenly distributed' 형태의 사회적 조절로 만든다).
  • 반면, SSRL은 그룹 구성원의 규제 활동 및 과정에 상호 관여reciprocal engagement하는 것이 특징이다. 따라서 SSRL은 '고르게 분포된evenly distributed' 형태의 사회적 조절로 간주되며, 이러한 조절은 집단 구성원 간의 상호작용을 통해 형성된다. 따라서 SSRL의 분석 단위는 집단, 시스템 및 시스템 내의 개인입니다. 

At the start of the 21st century, fuelled by the increasing importance and need for collaborative learning, research started exploring how groups regulate their collective learning and performance in a distributed fashion. The term socially shared regulation of learning (SSRL) was coined to explain such regulatory actions. Generally, SSRL describes how teams regulate their collaborative learning and emphasises interdependency among members of a group or team. SSRL focuses on processes through which team members share the regulation of their collective learning activities, directed towards the pursuit of their jointly constructed goals.41, 50 Similar to CRL, SSRL reflects a mode of regulatory learning in which the regulation is shared between individuals. The main difference, however, is that

  • CRL involves one (or more) group members to guide the regulation of an individual learner (making it an ‘unevenly distributed’ form of social regulation), whereas
  • SSRL is characterised by group members’ reciprocal engagement in regulatory activities and processes. SSRL is therefore considered an ‘evenly distributed’ form of social regulation in which the regulation is shaped by and arises through the interactions between members of the group.44 Therefore, the units of analysis in SSRL are the collective, the system, as well as the individual within the system.3251

의료 실무에서의 협력적 학습은 어려움을 겪을 수 있다. 예를 들어, 팀 구성원의 지속적으로 변동, 시간 제약, 의료 팀 내의 위계적 구조 등의 요인이 협력적 학습의 구현 정도에 영향을 미칠 수 있습니다. 이러한 학습에 대한 협력적 조절은 나중에 훨씬 더 어려울 수 있다. 해드윈, 예르벨레, 밀러는 SSRL 이론 모델을 최초로 기술하였다. 이들이 개념화한 [협력적 학습 조절collaborative regulation of learning]에는 SSRL의 작동 방식을 네 가지 단계로 설명한다. 특히, 이러한 단계는 Winne 및 Hadwin의 SRL 모델의 네 가지 단계에 대략 일치한다.

  • 1단계: 팀이 당면한 (학습) 과제에 대한 공통된 이해 또는 인식의 공동 구성 및 협상에 참여합니다.
  • 2단계: 팀들이 공동의 목표를 구성하여, 효과적으로 과제를 완료하고 공동으로 과제를 해결하는 방법을 계획합니다.
  • 3단계: 팀은 목표를 향해 나아가는 과정을 감시한다. 이 때 협력은 전략적으로 잘 조정coordinated되어야 한다. 과제, 목표, 전략 또는 계획에 대한 인식과 이해는 목표 진행에 대한 집단 모니터링을 기반으로 조정될 수 있다.
  • 4단계: 팀은 프로세스를 평가한다. 평가의 결과는 후속 조절, 학습, 수행을 적응adaptation하는 데 필요한 투입이 된다.

Collaborative learning in medical practice may be prone to challenges. For example, fluid healthcare teams in which team members reshuffle constantly, time constraints, or hierarchy within healthcare teams may influence the extent to which collaborative learning is actually taking place. Collaborative regulation of such learning may subsequently be even more difficult. Hadwin, Järvelä, and Miller52 were among the first to describe a theoretical model SSRL. Their conceptualisation of collaborative regulation of learning includes four phases that jointly describe the modus operandi of SSRL.52 Notably, these phases roughly correspond to the four phases in Winne and Hadwin's SRL model.53 

  • In phase one, teams engage in the co-construction and negotiation of a shared understanding or perception of the (learning) task at hand.
  • In phase two, teams co-construct shared goals to effectively complete the task and design a plan for how to tackle the task collectively.
  • In phase three, the team monitors their progression towards the goal, to which collaboration is strategically coordinated. Perceptions and understanding of the task, their goal(s), strategies, or plans might be adjusted based on their collective monitoring of goal progression.
  • Lastly, in phase four, teams evaluate the process, which might provide input for adaptation of future regulation, learning and performance.

박스 2는 신기술 도입이 팀워크에 어떤 영향을 미치는지에 대한 Edmondson의 연구를 바탕으로 헬스케어 팀이 [사회적으로 공유되는 학습조절SSRL]에 어떻게 참여할 수 있는지를 보여주는 예를 제공합니다. 우리는 박스 2의 예제가 일상적인 실천을 반영하지 않을 수 있다는 것을 인정한다. 그러나, 이 예제가 기반으로 하는 연구는 SSRL이 임상 작업장에서 어떻게 발생할 수 있는지를 잘 설명해준다. SSRL은 어떤 의료 팀이 여태껏 해왔던 학습 노력의 방향을 전환하게 만드는 파괴적인 사건의 경우에 특히 중요하지만(박스 2의 예와 같이), 그러한 사건에만 필요한 것은 아니다. SSRL 또는 SSRL 구성 요소에 대한 팀들의 참여에 호소할 수 있는 건강 직업 교육 및 실습의 다른 예로는 기업 훈련 시스템의 평가, 실무 협력 커뮤니티 구축, 팀 성찰 또는 학습 과제에 대한 공유된 인식을 구축하는 데 의대생이 협력하는 것이 포함된다.

Drawing on Edmondson's work about how introducing new technology influences teamwork, Box 2 provides an example of how healthcare teams may engage in socially shared regulation of learning.54 We acknowledge that the example in Box 2 may not reflect common, day-to-day practice. However, the research the example is based on, lends itself well to explain how SSRL may occur in clinical workplaces. Although SSRL may be particularly relevant in cases of disruptive events that force healthcare teams to re-direct their learning endeavours (such as in the example in Box 2), SSRL is not exclusive to such events. Other examples in health professions education and practice that may appeal to teams’ engagement in SSRL or components of SSRL include evaluation of corporate training systems, the building of collaborative communities of practice,55 team reflection, or medical students’ collaborating in co-constructing a shared perception of their learning tasks.

SSRL을 딱 구별되는distinct 단계로 구분하는 것은 이론적으로 이상적인 상황이다. 하지만 실무에서, 특히 의료 서비스의 예측 불가능하고 역동적인 맥락에서, 의료팀은 위의 네 단계를 순서대로 단계를 거치지 않거나, 일부 단계를 병합할 수 있다(박스 2의 예). 하지만, 연구결과에 따르면, 이러한 단계를 거치는 팀들이 새로운 상황에서 배우고 적응하는데 더 성공적인 경향이 있다는 것을 시사한다. SSRL에 대한 의료 교육 연구는 팀 학습에 대한 연구(예: 팀 성찰성)에서 유사한 개념이 등장했지만 제한적이다. 의료 서비스의 질이 의료 팀의 학습 및 작업 품질과 관련이 있다는 점을 고려할 때 SSRL이라는 개념은 [조절 프로세스가 어떻게 협력적 학습을 서포트하는지]를 더 잘 이해할 수 있는 귀중한 렌즈를 제공합니다.
It is important to note that describing SSRL in terms of distinct phases refers to a theoretically ideal situation. In practice – especially in the unpredictable and dynamic context of healthcare practice – teams might not go through the phases in the abovementioned order, or might merge phases (as in the example in Box 2). However, research suggests that teams that go through these phases tend to be more successful in learning in and adapting to new situations.54 Healthcare education research into SSRL is limited, although seemingly similar concepts emerged from research on team learning (eg team reflexivity).56-58 Given that healthcare quality is associated with the quality of learning and working in healthcare teams,19, 59 the conceptualisation of SSRL provides a valuable lens through which we might be better able to examine and understand how regulatory processes support collaborative learning.

==================================================

BOX 2. 신기술 채택 시 SSRL
BOX 2. SSRL when adopting new technologies

새로운 기술을 채택하는 것은 루틴에 지장을 줄 수 있기 때문에 의료 팀에 문제를 일으킬 수 있다. 새로운 기술을 채택하려면, 팀은 학습 과정을 거쳐야 한다. 여기에는 신기술을 사용하기 위한 [공유된 의지]뿐만 아니라(motivation), 신기술이 함의하는 [공유된 정신 모델]까지를 포함한다. 공유된 정신모델은 이는 [새로운 지식과 기술], 그리고 잠재적으로 변화할 [팀 구성원의 업무와 책임] 측면까지도 포괄한다 (SSRL 1단계)  

Adopting new technology may raise challenges to healthcare teams, as habitual routines may be disrupted. Teams then have to go through a learning process, which involves creating a shared willingness to start using the technology (motivation) as well as a shared mental model of what the new technology implies, not just in terms of new knowledge and skills but also in terms of potentially changing tasks and responsibilities of team members (SSRL phase 1).

최소 침습적 심장 수술 혁신의 구현에 관한 논문에서, 에드먼드슨은 수술 팀이 이 기술을 구현하는 법을 어떻게 배우는지에 대해 설명했다. 

  • 그녀의 연구 결과는 새로운 현실에 효과적으로 적응하는 팀들이 모든 팀원들을 (지적으로나 정서적으로) 팀 노력에 참여시키는 데 시간을 할애하고, 팀의 목표, 역할 및 책임에 대한 명확한 정의를 내리는 데 시간을 할애한다는 것을 보여주었다(1단계와 2단계).
  • 그 후 성공적인 수술 팀은 시험 세션과 구현 프로세스의 지속적인 모니터링과 같은 학습을 위한 전략을 공동으로 개발하여 진행하였다. (SSRL 2단계 및 3단계)
  • 그런 다음, 수술 팀은 학습하기 위해 새로운 행동을 시도하고 보고(반성 및 보고) 과정을 통해 진행 상황을 지속적으로 모니터링하고 성찰한다(SSRL 4단계).

In her paper about implementation of a minimally invasive cardiac surgery innovation, Edmondson described how surgical teams engaged in learning to implement this technology.

  • Her findings showed that teams who were effective in adapting to a new reality, spent time on engaging all team members in the team effort (both intellectually and emotionally) as well as creating a clear definition of the team's goals, roles, and responsibilities in the implementation process (SSRL phases 1 and 2).
  • Successful OR teams then proceeded by jointly developing strategies for learning such as trial sessions and ongoing monitoring of the implementation process (SSRL phases 2 and 3).
  • Then, OR teams continually engaged in monitoring of and reflection on their progress, through processes of attempting new behaviours and debriefing (reflection and debriefing) in order to learn (SSRL phase 4).

==================================================

 

3 교육 및 의료 분야에서 학습에 대한 자체, 공동 및 사회적 공유 규제 통합
3 INTEGRATING SELF-, CO-, AND SOCIALLY SHARED REGULATION OF LEARNING IN EDUCATION AND HEALTHCARE

협업 학습 상황에서 팀과 팀 구성원은 학습에 대한 사회적으로 공유된 조절 뿐만 아니라 자기조절과 공동조절에 참여할 수 있다. [조절 프로세스 및 활동에 대한 협력 팀 내에서의 균형]은 개별 팀원의 특성, 팀 구성 및 팀 구성원 간의 관계, 사회적 연결성, 업무와 맥락의 특징에 따라, 개인 간에, 시간이 지남에 따라 바뀔 수 있다. 이러한 균형의 이동은 조절참여도가 팀 구성원 전체에 고르게 분포되어 있는지 또는 불균일하게 분포되어 있는지에 따라 SRL, CRL, SSRL의 수준을 변화시킬 수 있다. 예제는 상자 3을 참조하십시오.
During collaborative learning situations, teams and team members may engage in self-, co-, as well as socially shared regulation of learning. The balance within collaborating teams regarding their engagement in regulatory processes and activities may shift across individuals and over time, based on characteristics of individual team members, the team composition and relationships between team members, social connectedness, as well as features of task and context. This shifting balance may subsequently result in varying levels of SRL, CRL or SSRL, depending on whether regulatory engagement is evenly (SSRL) or unevenly (CRL) distributed across team members. See Box 3 for an example.

  • 집단이 생산적으로 기능하려면, 개인 수준의 SRL이 집단적 목표를 지향하는 것이 중요하다. 팀이 협력적 학습에 engage할 때, 개별 팀원은 자신의 학습 과정과 활동을 스스로 조절합니다. 심지어 협력적 학습 중에도, 개별 팀 구성원은 개별적으로 전략을 활성화하고 개인의 노력을 모니터링하고 규제합니다.
  • 팀 수준의 CRL은 협력적 학습 중에 나타날 수 있으며, [개개의 팀 구성원이 다른 구성원의 조절 과정이나 활동을 통제하거나 자극하는 경우]에 발생한다. 이와 같이 CRL은 [생산적인 자기 조절를 향한 매개적 또는 이행기적 역할]을 할 수 있다. 또한, 만약 CRL이 집단으로서의 팀의 조절(SSRL)에 맞춰져 있다면 shared regulation of learning을 생산적으로 만들 수도 있다. 예를 들어, 박스 3의 팀 구성원은 모든 집단 목표가 적절하게 평가되는지 여부에 대한 우려를 표하고 있다. 이런 우려는 학습조절의 agency가 집단을 지향하는 공동조절 메커니즘의 역할을 한다. 
  • 협력 중 SSRL은 [모든 팀 구성원이 목표나 과제 인식의 공동구축과 같은 학습 과정을 집단적으로 규제할 때] 나타날 수 있다. 팀이 SSRL에 참여할 때, 팀 구성원은 자신의 업무 완료 요건에 따라 행동, 인식 및 동기를 조정하여 팀의 업무를 메타인지적으로 통제한다.52
  • To function productively as a collective, individual SRL geared towards collective goals is crucial.52 When teams engage in collaborative learning, individual team members will therefore engage in self-regulating their own learning processes and activities; even during collaborative learning, individual team members will activate strategies individually and monitor and regulate their individual efforts.60 
  • Team-level CRL may emerge during collaborative learning in cases when an individual team member takes control of or stimulates another team member's regulation processes or activities.60 As such, CRL can play a mediational or transitional role towards productive self-regulation, yet also shared regulation of learning, depending on whether co-regulation is geared towards an individual team member's regulation (SRL) or the regulation of team as a collective (SSRL).52 The team member in Box 3 who expresses concerns about whether all of their collective goals are adequately evaluated, for example, serves as a co-regulatory mechanism through which the agency of regulation of learning shifts towards the collective.
  • SSRL during collaboration may emerge when all team members regulate learning processes collectively, such as co-constructing goals or task perceptions. When teams engage in SSRL, team members collectively take metacognitive control of the team's tasks by means of adjusting behaviours, cognitions, and motivations, based on requirements for completion of their tasks.52

==================================================

BOX 3. 학습에 대한 자체, 공동 및 사회적 공유 규제 통합
BOX 3. Integrating self-, co-, and socially shared regulation of learning

협업 학습 중 서로 다른 수준의 학습 규제 통합을 명확히 하기 위해서는 박스 2의 신기술 구현으로 돌아가는 것이 도움이 될 수 있다.

  • 개별 팀원은 노력 조절, 과업 모니터링 및 성과(SRL)와 같은 개인별 조절프로세스를 활성화한다.
  • 팀원들이 협상과 토론을 통해 팀으로서 과제에 대한 공유된 인식을 구축하고, 과제 달성을 위한 집단적 목표와 전략을 수립한다.
  • 새로운 기술을 처음 사용한 후 평가하는 동안, 한 팀원은 다른 팀원이 필수 기술을 습득하지 못하고 있다는 것을 알아차리고 절차 내내 다른 학습 전략을 채택하고 성과를 더 잘 모니터링하도록 도울 수 있습니다.
  • 마찬가지로, 한 팀원[팀이 집합적]으로 설정한 목표 중 하나를 평가하는 것을 간과하고 있다는 것을 알아차릴 수 있으며, 팀의 주의를 이 목표에 집중시킨다(CRL은 팀의 SSRL을 목표로 한다).

따라서, 팀은 SRL, CRL 및 SSRL에 대한 동시적concurrent 참여를 통해 협력 학습 노력을 조절할 수 있습니다.

To elucidate the integration of different levels of regulation of learning during collaborative learning, returning to the implementation of new technology in Box 2 might be helpful.

  • Each individual team member of the surgical team activates individual regulatory processes such as effort regulation, individual monitoring of the task and his or her performance (SRL).
  • Through negotiations and discussions, the team members co-construct a shared perception of the task as a team, and collectively formulate goals and strategies to accomplish the task (SSRL).
  • During evaluation after the first attempts of using the new technology, one team member may notice that another team member is not picking up essential skills and helps him to adopt another learning strategy and to better monitor his performance throughout the procedure. (CRL aimed at other's SRL).
  • Similarly, one team member may notice that the team is overlooking evaluating one of their collectively set goals and draws the team's attention to this goal (CRL aimed at the team's SSRL).

As such, the team is able to regulate their collaborative learning efforts through concurrent engagement in SRL, CRL and SSRL.

==================================================

협력 학습에서, 순간적인 CRL 상호작용은 SSRL과 SRL가 발생하는 순간에도 일어날 수 있다. 따라서 학습자는 동시에 다양한 형태의 조절에 참여할 수 있습니다. 따라서 세 가지 수준의 규제 학습(SRL, CRL, SSRL)은 협력 학습 상황에서 서로 내장된 것으로 가장 잘 간주될 수 있다. 협력 학습 중에 팀은 CRL 또는 SSRL(또는 SRL)에 항상 관여하지 않을 수 있습니다. 팀이 CRL 또는 SSRL(또는 둘 다)에 참여할지 여부는 상황에 따라 달라진다. 예를 들어, 팀 리더(박스 3)가 학습 조절을 완전히 가이드하는 매우 지시적인 사람이라면(즉, CRL), 학습은 SSRL 없이 조절될 가능성이 높다. 따라서 CRL이 다른 조절모드로 전환되는지 여부는, [학습 과제 요건]뿐만 아니라 [팀과 팀 리더십 내의 역학 관계]에 따라 달라진다.
In any collaborative learning, engagement in momentary co-regulatory interactions may occur within episodes of both SSRL and SRL. Thus, learners may concurrently engage in different forms of regulation. The three levels of regulatory learning (SRL, CRL, and SSRL) may therefore best be considered as embedded in one another during collaborative learning situations.41, 44 During collaborative learning, teams may not always engage in either CRL or SSRL (or SRL for that matter). Whether a team will engage in either CRL or SSRL (or both) is context- and situation-specific. For example, if the team leader (Box 3) is highly directive, fully guiding the regulation of learning (ie CRL), learning will likely be regulated without engagement in SSRL. Therefore, whether CRL is transitional towards other modes of regulation depends on dynamics within the team and team leadership as well as requirements of the learning task.

4 나아갈 방향
4 A WAY FORWARD

4.1 연구에 미치는 영향
4.1 Implications for research

중요한 것은 이 글에서 개념화한 학습조절은 이상적이고 이론적인 상황을 의미하며, 실제 작업 환경과 다를 수 있다. 그러나 그러한 모델은 협력적 환경에서 학습의 조절이 어떻게 발생할 수 있는지를 분리하기 위한 향후 연구에 유용한 프레임워크를 제공할 수 있다. 건강 직업 교육 연구에서 다양한 수준의 조절적 학습regulatory learning이 점점 더 연구되고 있지만, [주로 개인 또는 개인 내의 과정]에 초점을 맞추고 있으며, 상대적으로 [팀 수준에서 어떻게 협력 학습을 조절하는가]는 덜 다룬다. 현재 의료 분야의 협력에 대한 요구를 고려할 때 규제 학습에 대한 우리의 시각을 넓히는 것이 중요하다.
Importantly, conceptualisations of regulation of learning in the present article refer to an idealised and theoretical situation, which may differ from actual work settings. However, such models may provide useful frameworks for future research to disentangle how regulation of learning may occur in collaborative settings. While various levels of regulatory learning are increasingly explored in health professions education research,45, 48, 61-63 studies predominantly focus on processes within the individual or the individual in interaction and less on how teams regulate their collaborative learning. Given the demands for collaboration in current healthcare, it is important to widen our views of regulatory learning.


이는 학습 조절에 관심이 있는 연구자라면, 현재 SRL이 지배하고 있는 방정식에 SSRL을 추가해야 한다는 것을 의미한다. 최근 HPE의 맥락에서, 협력적 학습을 이해하기 위하여 사회적 조절에 집중해야 한다는 점이 강조되고 있다. Team reflexivity과 같은 관련 개념을 기반으로 하는 HPE 연구는 팀 차원 조절프로세스와 활동으로 관심을 전환할 수 있으며, (개별 팀 구성원뿐만 아니라) 팀 수준에서 집단적 목표에 따라 어떻게 학습을 조절하는지를 이해하는 것을 목표로 한다. 또한 후속 연구는, 협력적 학습 중 SRL, CRL 및 SSRL의 상호 관련성을 분해entangle하여 학습 조절에 대한 이해를 개선하는 것을 목표로 할 수 있다. 특히, 연구자들은 생산적인 SRL과 SSRL에 대한 [CRL의 매개 역할], 그리고 조절적 상호작용이 학습과 성과에 어떻게 영향을 미치는지 탐구하고자 할 수 있다. CRL은 다른 방식의 규제에 대한 부담과 제약을 제공할 수 있기 때문에, CRL이 어떻게 영향을 미치는지 그 메커니즘에 대한 철저한 이해가 필수적이다. 

This first and foremost implies that researchers interested in the regulation of learning should add SSRL to the equation that is currently dominated by SRL, and to a lesser extent, by CRL. The importance of focussing on social regulation to understand collaborative learning has recently been underlined in the context of health professions education.64 Building on related concepts, such as team reflexivity,57, 58 health professions education research could shift attention to team-level regulatory processes and activities, aiming to understand how teams – as well as individual team members – shape their regulation towards their collective goals. Furthermore, to improve our understanding of the regulation of learning, future studies could aim to disentangle the interrelatedness of SRL, CRL, and SSRL during collaborative learning. Specifically, researchers may want to explore the mediating role of CRL towards productive SRL and SSRL, and how regulatory interactions affect learning and performance. Because CRL can provide the affordances and constrains for other modes of regulation, a thorough understanding of the mechanisms by which it may exert its influence is essential.

HPE 연구의 SRL 데이터(및 CRL 데이터)는 대부분 주관적인 자기보고서를 통해 수집되며, 참여자의 [조절 활동에 대한 인식]을 탐구한다. 그러나 종종 이러한 인식은 실제 행동과 같지 않다. 이러한 한계를 극복하기 위해 최근의 경향은 기술 발전을 통한 [다중 모드 데이터 수집]을 가리키고 있다. 여기에는 서로 다른 데이터 채널(즉, 양식)에서 데이터(예: 객관적 생리학적 및 주관적 자가 보고 데이터)를 수집하여, 연구자들이 복잡한 협력적 학습 상황에서 조절학습의 특징과 단계를 검토할 수 있게 한다. 객관적 데이터 수집을 통해 SRL, CRL, SSRL의 에피소드 동안 일어나는 (노력 조절, 주의력 증가, 혼란과 같은) 보이지 않는 것들을 보이는 것으로 만들 수 있다.

Much of the SRL data in health professions education research (and CRL data for that matter) is collected through subjective self-reports,33 exploring participants’ perceptions of their regulatory activities. However, these perceptions often differ from their actual behaviour.65 To overcome these limitations, recent trends draw on technological advancements and point to collecting multimodal data.52, 66 This involves collecting data from different data channels (ie modalities),52 for example objective physiological and subjective self-report data, allowing researchers to examine features and phases of regulatory learning in complex collaborative learning situations.67 Through collecting objective data, we are able to make visible what otherwise remains invisible, such as effort regulation, increased attention, and confusion that may take place during episodes of SRL, CRL, and/or SSRL.

예를 들어, 최근의 연구는 360도 카메라와 전피 측정과 같은 데이터 소스를 사용하여 그룹 구성원의 협업 학습에 대한 공유 모니터링을 검사하거나, 협업 학습 상황에서 심박수 및 피부 전도 측정과 같은 생리학적 데이터(예: 감정 반응 측정)를 수집한다. 서로 다른 출처의 데이터(객관적 데이터와 주관적 데이터 모두)를 삼각측량하면 다양한 환경에서 학습 규제의 수준과 결과를 더 잘 설명하는 데 도움이 될 수 있다. 협업 중 학습 규제에 대한 이해를 높이기 위해 시뮬레이션 기반 연구를 할 수 있으며, 테크놀로지로 쉽게 통합할 수 있다. 따라서 시뮬레이션 기반 연구 환경은 규제 학습 과정과 같이 밝혀내기 어려운 복잡한 현상을 분석하고 분리하는 데 학자들이 매우 적합한 것으로 보인다.

For example, recent studies use data sources such as 360-degree cameras and electro-dermal measures to examine group members’ shared monitoring of collaborative learning,68 or collect physiological data such as heart rate and skin conductance measures (eg to measure emotional reactions) during collaborative learning situations.66 Triangulating data from different sources (both objective and subjective data), may help us to better describe levels and outcomes of regulation of learning in various settings. To improve our understanding of the regulation of learning during collaboration, we can draw on simulation-based research, in particular,69 as this more easily allows incorporation of technology. Simulation-based research settings seem therefore eminently suitable for helping scholars analyse and disentangle complex phenomena that are difficult to uncover,70 such as regulatory learning processes.

민족지학 연구는 규제 학습 과정에 대한 우리의 이해를 증진시킬 수 있는 독특하고 새로운 기회를 제공할 수 있다. 실제 환경이나 시뮬레이션 환경에서 의료팀을 직접 관찰하면, 실제 작업을 수행하는 동안 발생하는 조절행동과 서로 다른 조절형태가 어떻게 내재될 수 있는지에 대한 탐구를 가능하게 할 수 있다. 또한, 조절행동을 관찰하면 unevenly distributed CRL과 evenly distributed SSRL의 차이를 조사할 수 있다. 
Ethnographic research might offer unique and new opportunities to further our understanding of regulatory learning processes. Direct observation of healthcare teams, either in real-life settings or in simulation settings, may enable exploration of regulatory behaviour as it occurs during the performance of authentic tasks and how different regulatory forms may be embedded in one another. Additionally, observing regulatory behaviour allows for examination of the distinction of unevenly distributed CRL and evenly distributed SSRL. 

 

4.2 보건직 교육에 대한 시사점
4.2 Implications for health professions education

의료 전문가들에게 [협력적 학습]이 중요하다면, [협력적 학습의 조절]은 마찬가지로 중요해진다. 따라서 [협력적 학습의 조절을 지원하고 자극하며 촉진하는 요소]가 HPE 커리큘럼에 스며들어야 한다. 무엇보다 다양한 조절수준에 대한 인식 제고가 필수다. 현재 대부분의 HPE 커리큘럼은 CRL과 SSRL보다 SRL에 더 관심을 갖는 것으로 보인다. 팀원들이 서로의 지식, 활동, 감정, 동기, 집단으로서의 기능에 대한 관점을 높이는 것은 CRL과 SSRL의 발전을 지원하기 위한 중요한 출발점이다. 예를 들어 시뮬레이션 기반 팀 훈련 세션의 보고 세션에서 팀 구성원의 자체 및 기타 규제 학습 프로세스에 대한 인식에 초점을 맞춘 논의를 촉진할 수 있다. 

When collaborative learning is considered important for healthcare professionals, regulation of collaborative learning becomes equally important. Therefore, elements that support, stimulate, and facilitate the regulation of collaborative learning should permeate healthcare professions curricula. First and foremost, increasing awareness of different regulatory levels is vital. Currently, most healthcare professions curricula seem to pay more attention to SRL than to CRL and SSRL. Increasing team members’ awareness of each other's knowledge, activities, emotions, motivation, and views of the group's functioning as a collective is a crucial starting point to support development of CRL and SSRL.50 To help make explicit what often remains implicit, discussions that focus on team members’ awareness of own and other regulatory learning processes could be stimulated during debriefing sessions of simulation-based team training sessions, for example.71, 72


만약 HPE의 목표 중 하나가 [협력적 학습을 촉진하는 것]이라면, 커리큘럼은 [협력적 학습] 뿐만 아니라 [협력적 학습의 조절]을 요구하는 과제까지도 포함해야 한다. 이러한 학습 과제는 학생들에게 그러한 기술을 개발하는 것과 관련된 정보를 제공해야 한다. 그런 다음 특정 자체, 공동 및 공유 규제 학습 프로세스와 활동을 명시적으로 목표로 하는 피드백 제공에 주의를 기울여야 한다. 

If one of the aims of healthcare professions education is to promote collaborative learning, curricula must include learning tasks that require collaborative learning as well as regulation of that learning. These learning tasks should provide students with information that is relevant for developing such skills. It is then crucial that attention is paid to the provision of feedback that is explicitly aimed at specific self-, co-, and shared regulatory learning processes and activities.73

5 결론
5 CONCLUSION

건강 직업 영역 내에서 학습(따라서 학습의 조절)은 서로 다른 수준의 학습과 함께 서로 다른 수준에서 이루어진다. 의료 전문가를 위한 협업 및 집단 역량의 중요성은 점점 더 인식되고 있지만, 의료 팀이 협업 학습을 규제하는 방법에 대한 관심은 아직 탄력을 받지 못하고 있다. 그러므로 우리는 [자기조절학습을 최적화하는 방법]에만 배타적으로 초점을 두는 것에서, [학습이 일어나는 수준에 맞춘 가장 효과적인 조절]이라는 더 넓은 관점으로 전환해야 한다. 따라서 의료 영역 내에서 학습의 규제를 진정으로 완화한다는 것은 학습의 자체, 공동 및 사회적으로 공유되는 규제 수준을 완화한다는 것을 의미한다. 그래야 미래의 의료 전문가들이 복잡하고 예측 불가능하며 협업적인 의료 제공 환경에서 생산적으로 작동하는 데 필요한 기술을 개발할 수 있습니다.

Learning – and therefore regulation of learning – within the health professions domain takes place at different levels, with different levels of regulation of learning being embedded in one another. While the importance of collaboration and collective competence for healthcare professionals is increasingly recognised, attention to how healthcare teams regulate their collaborative learning has yet to gain momentum. We, therefore, may want to shift from an exclusive focus on how to optimise self-regulation of learning, to the broader perspective of how to most effectively regulate learning, depending on the level at which it takes place. Truly unravelling regulation of learning within the healthcare domain therefore means unravelling the levels of self-, co-, and socially shared regulation of learning. Only then are we able to help future healthcare professionals to develop the skills that are necessary to function productively within the complex, unpredictable, and collaborative context of healthcare delivery.

 

 


 

 

Med Educ. 2022 Jan;56(1):29-36.

 

 doi: 10.1111/medu.14566. Epub 2021 Jun 7.

 

Putting self-regulated learning in context: Integrating self-, co-, and socially shared regulation of learning

Affiliations collapse

Affiliations

1School of Health Professions Education (SHE), Maastricht University, Maastricht, The Netherlands.

2Department of Educational Development and Research, Faculty of Health, Medicine and Life Science, Maastricht University, Maastricht, The Netherlands.

3Facultad de Psicología y Educación, Universidad de Deusto, Bilbao, España.

4IKERBASQUE, Basque Foundation for Science, Bilbao, Spain.

5Faculty of Social Sciences, Radboud University, Nijmegen, The Netherlands.

PMID: 33988857

DOI: 10.1111/medu.14566

Abstract

Processes involved in the regulation of learning have been researched for decades, because of its impact on academic and workplace performance. In fact, self-regulated learning is the focus of countless studies in health professions education and higher education in general. While we will always need competent individuals who are able to regulate their own learning, developments in healthcare require a shift from a focus on the individual to the collective: collaboration within and between healthcare teams is at the heart of high-quality patient care. Concepts of collaborative learning and collective competence challenge commonly held conceptualisations of regulatory learning and call for a focus on the social embeddedness of regulatory learning and processes regulating the learning of the collective. Therefore, this article questions the alignment of current conceptualisations of regulation of learning with demands for collaboration in current healthcare. We explore different conceptualisations of regulation of learning (self-, co-, and socially shared regulation of learning), and elaborate on how the integration of these conceptualisations adds to our understanding of regulatory learning in healthcare settings. Building on these insights, we furthermore suggest ways forward for research and educational practice.

효과적으로 질적연구 결과 섹션을 쓰는 세 가지 원칙 (Focus on Health Professional Education, 2021)
Three principles for writing an effective qualitative results section
S. Cristancho, C. J. Watling & L. A. Lingard

 

 

도입 Introduction

우리의 글쓰기와 학문적 글쓰기에 대한 가르침은 중요한 전제에 달려 있다. 괜찮은decent 연구 논문은 [연구study]를 보고하지만, 훌륭한great 연구 논문은 [이야기story]를 들려준다. 명확하게 하기 위해, 우리는 연구와 이야기가 더 두드러지는 연구 논문의 부분을 구분했습니다. 우리는 [이야기가 크게 도입/고찰]이고 [연구는 방법/결과]라고 말해왔다. 그러나 이러한 구분을 너무 엄격하게 적용하지 않는 것이 중요합니다. 좋은 결과 섹션은 결과를 보고할 뿐만 아니라 독자가 결과에 참여할 수 있도록 도와줍니다. 좋은 결과 섹션은 스토리와 공부의 요소가 모두 필요하고, 그것들을 공존시키는 것은 결과 섹션을 쓰기가 어려운 이유일 것이다. 본 논문에서, 우리는 질적 논문의 저자들이 결과 부분에서 연구/이야기 난제와 씨름하는 데 도움이 되는 세 가지 원칙인 과학적 스토리텔링, 진정성 및 주장을 논의한다. 
Our writing, and our teaching about academic writing, hinges on a key premisea decent research paper reports a study, but a great research paper tells a story (Lingard & Watling, 2016). For the sake of clarity, we have distinguished the sections of a research paper where study and story are more prominent. We have said that story is largely introduction/discussion and study is methods/results. Its important, however, not to apply this distinction too rigidlya good results section not only reports findings but also helps the reader to engage with them. A good results section needs elements of both story and study, and making them coexist is, likely, why a results section is so difficult to write. In this paper, we discuss three principlesscientific storytelling, authenticity and argumentto help writers of qualitative papers grapple with the study/story conundrum in their results sections. 

원칙들
The principles

1. 과학적 스토리텔링
1. Scientific storytelling

"이야기"라는 단어는 과학과 함께 놓이기 불편한 단어이다. 과학은 그 자체로 설득력이 있다는 믿음 때문에 불편함을 만듭니다. 따라서, 연구 보고를 윤색하는 것처럼 보이는 것은 무엇이든 잘못인 것처럼 느껴집니다. 우리가 "이야기"라는 단어를 사용하는 것은 과학의 장식을 선호하기 위한 것이 아니라, 독자들이 [연구의 결과를 설득력 있게 만드는 것]이 무엇인지 쉽게 인식하도록 하기 위함이다. 과학적 스토리텔링의 원리는 그러한 목표를 향한 몇 가지 지침을 제공할 수 있습니다.
The word
story sits uneasily alongside science (Should scientists tell stories?, 2013). It creates discomfort because of the belief that science is persuasive on its own. Therefore, anything that seems like embellishing the reporting of a study feels wrong. Our use of the word story is not to favor embellishment of science but, rather, to ensure that readers readily recognise what makes the results of a study compelling. The principle of scientific storytelling can offer some guidance towards such a goal.

많은 작가들이 직면하는 어려운 점은 [무엇이 당신의 결과를 구성하는지]를 결정하는 것이다. 만약 독자들이 여러분의 연구에 참여하도록 강요하는 것이 목표라면, 여러분의 결과 섹션은 여러분이 그 구성 요소의 목록보다 더 많이 연구하고 있는 문제에 대한 개념적인 이해를 그들에게 제공해야 합니다. 훌륭한 연구자들은 독자들에게 의미를 부여하기 위해 해석하고 맥락화하며, 그러한 맥락화는 과학적 스토리텔링의 기초가 된다.
A struggle many writers face is deciding what constitutes your results. If the goal is to compel readers to engage with your study, then your results section should offer them a conceptual understanding of the issue that you
re studying more than an inventory of its components. Good researchers interpret and contextualise to make meaning for their readers, and such contextualisation is the basis of scientific storytelling.

일반적으로 좋은 이야기는 환기시키고evocative, 참신하며 기억에 남아야 한다(Simmons, 2019).

  • 과학적 스토리텔링에서, 환기시킨다는 것은 글이 감정을 자극한다는 것을 의미하지 않는다; 대신, 그것은 마음을 사로잡고 울려 퍼지게 하는 결과를 의미한다.
  • 마찬가지로, 새롭다는 것이 항상 획기적인 발견을 제시하는 것은 아니다. 그것은 또한 알려진 현상에 대해 다른 관점을 제공하는 것에 관한 것이다.
  • 그리고 기억에 남는다는 것은 독자들이 신문의 모든 세부사항을 기억할 것이라는 것을 의미하는 것이 아니라, 오히려 중요한 발견이 그들을 돋보이게 할 것이라는 것을 의미한다. 

As a general rule, a good story should be evocative, novel and memorable (Simmons, 2019).

- In scientific storytelling, evocative doesnt mean the writing stirs emotion (although it might); instead, it refers to results that captivate and resonate.

- Similarly, novel is not always about presenting a groundbreaking discovery. It is also about offering a different perspective on a known phenomenon.

- And memorable doesnt mean that your readers will remember every single detail of the paper but, rather, that the key findings will stand out for them. How do you organise your story with these features in mind?

여기서부터 시작하는 것은 시작 단락입니다. 대부분의 질적 연구가 주제를 식별하는 것을 포함하기 때문에, 흔히 다음과 같이 시작하는 단락을 쓰는 경향이 있을 것이다: "우리는 다섯 가지 주제를 발견했다: 테마 1, 테마 2, … 테마 5. 주제 1은 … 주제 5는 … 각 주제는 참가자들의 인용문을 사용하여 아래에 설명되어 있습니다." 이러한 유형의 문단은 결과에 대한 큰 그림 설명을 제공하는 것으로 생각할 수 있지만 그렇지 않습니다. 이것은 테마의 목록입니다. 그리고 틀린 것은 아니지만, 할 이야기가 있는 것 같지는 않다. 대신 수치 경험에 대한 바이넘 외 연구진(2021)의 논문의 이 첫 단락을 생각해 보자.
A place to start is the opening paragraph. As most qualitative studies involve identifying themes, we might be inclined to write an opening paragraph that reads like:
We found five themes: theme 1, theme 2, theme 5. Theme 1 refers to theme 5 refers to Each theme will be described below using quotes from participants. You might think of this type of paragraph as providing a big picture description of the results, but it does not. Thats an inventory of themes. And while it is not wrong, it doesnt feel like there is a story to be told. Consider instead this opening paragraph from Bynum et al.s (2021) paper on experiences of shame.

참가자들이 묘사한 수치 경험은 개인과 그들의 환경 사이의 동시적이고 다층적인 상호작용으로 구성되었다. 이러한 상호작용의 의미를 모색하면서, 우리는 '불의 은유'를 통해 참가자들의 수치심을 이해하게 되었습니다. 불이 기질에 미치는 잠재적인 영향처럼, 수치심은 우리의 참가자들에게 깊은 영향을 미칠 수 있다: 대부분의 보고는 세계적으로 부정적인 자기 평가로 구성된 강렬하고, 음흉하고, 그리고/또는 매우 골치 아픈 수치 반응을 경험한다. 학생들은 스스로를 '좋지 않다'(P10), '전혀 가치가 없다'(P12), '부적절한 의대생'(P15), '작다'(P8, P11), '멍청하다'(P6)고 생각한다고 보고했다. "이름도 없는 이 부정적인 감정에 빠져드는 것 같았다"(P15)는 수치심의 감정적 경험이 종종 압도적이었다. 참가자가 겪어낸 수치심 경험의 기원에 대한 두 가지 광범위한 구조, 즉 수치심 유발자와 수치심 촉진자를 식별했다. (188쪽)
The shame experiences described by participants consisted of simultaneous, multi-layered interactions between the individual and their environment. In seeking the meaning of these interactions, we came to understand participants’ shame experiences through the metaphor of fire. Like the potential impact of fire on a substrate, shame could profoundly affect our participants: most reported experiencing intense, insidious and/or deeply troublesome shame reactions that consisted of globally negative self-assessments. Students reported viewing themselves as “no good” (P10), “completely worthless” (P12), “an inadequate medical student” (P15), feeling “small” (P8, P11) and feeling “stupid” (P6). The emotional experience of shame was often overwhelming: “I felt like I was drowning in this negative emotion that I didn’t have a name for” (P15). We identified two broad structures of the origins of participants’ lived experiences of shame: shame triggers and shame promoters. (p. 188)

이 단락을 읽으면, 여러분은 결과 파트에서 [수치심을 유발하고 촉진하는 것]을 다룰 것이라는 느낌을 받게 됩니다. 하지만, 그것이 다가 아닙니다. 저자들은 이 단락에 이야기 풍미를 불어넣기 위해 [두 가지 추가 전략]을 사용했다. 주제 간 관계가 [메타포의 형태로 묘사될 것이라는 기대]를 독자들에게 준비시키고, [메타포를 엿볼 수 있는 짧은 인용구]를 주입하는 동시에 독자들의 시선을 사로잡았다.
In reading this paragraph, you get a sense that the results will be about triggers and promoters of shame. However, that
s not all. The authors used two additional strategies to instill a story flavor in the paragraph. They prepared readers to expect that the relationships among themes will be described in the form of a metaphor, and they infused evocative short quotes to provide a glimpse of the metaphor, while at the same time, capturing readers attention.

문단을 여는 것만이 당신의 결과의 스토리를 묘사하는 유일한 방법은 아니다. [시각 지향적인 도표]를 사용하여 독자가 아이디어 간의 연결을 볼 수 있습니다. 다음은 예입니다.
Opening paragraphs are not the only way to portray the story of your results. In the event that you are more visually oriented, you could also use diagrams to help readers see the connections between your ideas. Here is an example:



임상 학습 과정은 도표를 사용하여 표현되었다(Watling 등, 2012). 저자들은 모델의 각 핵심 요소를 입증하고자 했기 때문에 결과 섹션의 시작 부분에 도표를 포함하기로 명시했다. 그렇게 함으로써, 그 다이어그램은 독자들이 앞으로 다가올 것과 각각의 요소들이 어떻게 연결되어 있는지에 대한 방향을 제시하는데 도움을 주었다. 
The process of clinical learning was represented using a diagram (Watling et al., 2012). Since the authors intended to evidence each key element of the model, they made the explicit decision to include the diagram at the beginning of the results section. By doing so, the diagram helped orient readers to what was to come and to how each element was connected. 

시작 문단 및 도표는 [이야기의 큰 그림]을 그리는데 도움이 된다. 결과 섹션의 나머지 부분에서는 의도한 스토리가 스터디와 어떤 관련이 있는지 설명합니다. 시작하기 전에, 모든 주제가 과학 이야기에서 동등하게 표현되어야 하는 것은 아니라는 것을 기억하라. 모든 주제 간의 관계를 설명할 수 있지만, 때때로 하나의 핵심 주제를 중심으로 이야기를 진행하기로 결정할 수도 있습니다. 이것은 임의적인 결정이 아닙니다. 테마가 이야기를 의미 있게 진전시키는지, 그리고 그것을 뒷받침할 충분한 자료가 있는지 여부에 달려 있다. 이는 전통적인 결과 표시가 아니므로, 작성자들은 이 사례에서 예시된 바와 같이 의사결정을 명시적으로 표현하는 것을 고려해야 한다.
Opening paragraphs or diagrams help lay out the big picture of the story. The rest of the results section is about describing how your intended story relates to your study. To start, remember that not all themes must figure equally in a scientific story. While you could describe all the relationships among all your themes, sometimes you might decide to center your story around one key theme. This is not a random decision. It hinges on whether the theme(s) advances the story in a meaningful way and on whether you have enough data to support it. As this is not a traditional presentation of results, writers should consider explicitly articulating their decision making, as illustrated in this example.

우리는 두 가지 주요 발견을 확인했다. 첫 번째 범주는 아래에 설명된 원칙과 선호도의 한계인 핵심 범주입니다. 두 번째는 참가자들이 이러한 문턱에 직면했을 때 어떻게 반응했는지에 대한 이론적 프레임워크입니다. 연구 결과를 더 강력하게 표현해야 한다는 최근의 요구에 따라(26–28) 우리는 그 구축을 이끈 모든 범주와 코드를 요약하는 대신 [핵심적 이론 구조]를 환기하는 핵심 내러티브를 사용하기로 결정했다. (Apramian 등, 2015, 페이지 S71)
We identified two key findings. The first is the core category—thresholds of principle and preference—as described below. The second is a grounded theoretical framework of how our participants responded to encountering these thresholds. Following recent calls to represent research findings more powerfully (26–28) we have elected to use core narratives that evoke the central theoretical constructs rather than outlining all categories and codes that led to their construction. (Apramian et al., 2015, p. S71)

저자들은 결과 이야기를 '문턱 원칙과 선호'라는 핵심 주제에 집중하기로 했을 뿐만 아니라 그 구성 요소를 짧은 인용구가 아닌 내러티브의 형태로 설명하기로 했다. 아래의 주장의 원칙이 이 전략에서 확장될 것입니다.
Not only did the authors decide to focus the story of the results on the key theme of
thresholds of principle and preference, but they also chose to illustrate its components in the form of narratives, not short quotes. The principle of argument, below, will expand on this strategy.

문단이나 도표를 여는 용도, 주제 간 관계를 어떻게 탐구할 것인지 등을 고려하는 것 외에도, [결과 부분을 어떻게 마무리할지]에 대해서도 어느 정도 고민해야 한다. 요약 단락, 기억할 만한 인용문 또는 간단한 전환 문장을 사용할 수 있습니다. 자신의 선호도와 단어 수 제한과 상관없이, 중요한 것은 가장 취약한 지점weakest point으로 끝나지 않는 것입니다. 첫 번째 초안 후에 이야기의 흐름을 다시 돌아보는 습관을 들이고 수사적인 목적을 위해 재정렬하세요.
In addition to considering the use of opening paragraphs or diagrams and how you will explore the relationships among your themes, some thought should be given to the ending of the results section. You may use a summary paragraph, a memorable quote or simply a transition sentence. Regardless of your preference and word count limit, what
s important is that you dont end with your weakest point. Make a habit of revisiting the flow of the story after your first draft, rearranging for rhetorical purposes.

과학적 스토리텔링의 원리를 이용하면서, 작가들이 마주치는 또 다른 어려움은 [결과와 토론 사이의 연결성]에 대해 결정하는 것이다. 저자는 잘못이 없다. 이런 어려움을 만드는 것은 질적 연구의 비선형성 때문이다. 질적 연구는 반복적이고 진화하는 것이다; 연구자들은 그들의 데이터를 읽고 해석하는 것 사이를 왔다 갔다 한다. 그리고 그것들을 작성하는 것도 마찬가지입니다. 이렇게 하면, 때때로 검토자로부터 해당 문장이 토론 섹션에 속하는지 궁금하거나 질문을 받을 수 있습니다. 보건전문교육(HPE) 논문의 전통적인 IMRD(서론, 방법, 결과, 토론) 구조에서 [결과 섹션]은 참가자들이 어떻게 경험했는가라는 질문에 답하고, [토론 섹션]은 참가자들의 경험을 알게 되었으니, 우리는 이 지식으로 무엇을 할 수 있는가라는 질문에 답한다.
In using the principle of scientific storytelling, another struggle writers encounter is deciding about the connection between the results and the discussion. The writer is not at fault here. What creates this struggle is the non-linear nature of qualitative studies. Qualitative studies are iterative and evolving; researchers go back and forth between reading and interpreting their data. And the same applies to writing them up. In doing so, you might sometimes wonder or get asked by a reviewer whether a statement belongs to the discussion section. In the traditional IMRD (Introduction, Methods, Results, and Discussion) structure for health professional education (HPE) papers, while

  • a results section answers the question How did participants experience this?,
  • a discussion section answers the question Now that we know about their experiences, what can we do with this knowledge?

결과 중 한 조각이 토론에 속하는지를 빠르게 점검해보는 요령은 [문장의 시제]를 확인하는 것입니다. 우리는 참가자들의 관점을 설명할 때 과거형을 사용하고, 우리의 해석을 제공할 때 현재형을 사용하는 경향이 있습니다. 만약 그러한 해석이 [참가자들이 말한 것을 어떻게 해야 하는지에 대한 권고]로 넘어가게 된다면, 당신은 경계를 넘은 것이다. 예를 들어, 아래 첫 번째 문장은 참가자들이 조정된 치료 계획을 해결책으로 식별했음을 암시한다. 두 번째 문장은 현재 시제로 인해 권고와 혼동될 수 있다.
A quick test to identify if a piece of the results belongs to the discussion is to check the tense of your sentences. We tend to use past tense when describing participants
perspectives and present tense when providing our interpretation. If such interpretation slips into recommendations of what to do with what participants said, then you have crossed the boundary. For instance, the first sentence below implied that participants had identified the coordinated care plan as a solution. The second sentence, by virtue of its present tense, can be confused with a recommendation.

많은 참가자들이 환자의 의료 필요성의 반복적인 문제에 대한 "정밀한 해결책"으로서 조정된 진료 계획을 언급했다. 따라서 그러한 계획의 일상적인 채택은 전문가 간 의사소통을 개선하고 환자와 가족[작업의 시사점]의 관리에 있어 차질을 줄이기 위한 전략을 나타낼 수 있다.
Many participants spoke of coordinated care planning as a “sophisticated solution” to the recurring problem of patients’ healthcare needs “falling through the cracks” [participants’ experiences]. The routine adoption of such plans may, thus, represent a strategy to improve interprofessional communication and reduce disruptions in care for patients and families [implications of the work].

 

마찬가지로, 레퍼런스가 필요할 수도 있다고 생각되는 문장이나, 독자들이 그들의 실천에서 (적용)할 수 있는 것과 관련된 진술은 아마도 결과 섹션에 속하지 않을 것이다.
Similarly, if you write a statement that you think may need a reference, or a statement that has to do with what readers might do in their practice, those statements probably dont belong in the results section.

이러한 빠른 테스트가 [결과 대 고찰]의 딜레마를 반드시 해결하는 것은 아니지만, 특히 결과와 토론이 관례적으로 혼합된 분야에서 온 경우 HPE 분야에서 글을 쓰는 연습에 자신을 적응시키는 데 도움이 될 것입니다. 최소한, 이 테스트들은 발견에 대한 묘사가 추천이나 함축적인 향을 가지고 있는지 자신에게 물어보거나 피드백을 요청하도록 유도해야 한다. 그런 경우 데이터로 돌아가서 소견으로 확인하거나 토론으로 이동해야 합니다.
While these quick tests will not necessarily solve the results versus discussion dilemma, it should help you orient yourself into the practices of writing in the HPE field, particularly if you come from a discipline where results and discussion are conventionally blended. At a minimum, these tests should prompt you to ask yourself or ask for feedback on whether a description of a finding has a recommendation or implication flavour. If so, then you should either go back to your data to confirm it as a finding or move it to the discussion.

 

2. 진실성—이야기에 가장 적합한 인용문 선택
2. Authenticity
selecting the best quotes for the story

연구에서 코딩하고 분석한 내용 중에서 가장 좋은 인용문을 선택하는 것은 보기보다 어렵습니다. 당신에게는 아마 선택지가 아주 많을 것이고, 그 중 일부는 당신이 꽤 좋아하는 것이다. [진실성의 원칙]은 각 인용문이 독자들에게 데이터의 지배적인 패턴에 대한 직접적인 접근을 제공하도록 당신의 선택을 안내할 수 있다. 진실성을 확보하려면 데이터에 대한 요점을 설명해주면서, 데이터 패턴을 나타내는 인용문을 선택하십시오.
Selecting the best quotes from among all those you
ve coded and analysed in your study is harder than it looks. You likely have a wealth to choose from, some of which youre quite fond of. The principle of authenticity can guide your selection to ensure that each quote offers readers firsthand access to dominant patterns in the data. To achieve authenticity, select quotes that are illustrative of the point youre making about the data, reasonably succinct and representative of the patterns in data.

인용문이 설명이 되는가?
Is the quote illustrative?

독자들은 여러분의 주장의 요점과 여러분이 증거로 제시한 인용문을 연결하기 위해 노력할 필요가 없습니다. 가장 좋은 인용구는 암묵적인 설명보다는 [명시적인 설명]입니다. 다음 예를 생각해 보십시오.
Readers should not have to work to connect the point in your argument and the quote youve offered as evidence. The best quote is an explicit illustration rather than an implicit one. Consider the following examples:

훈련 프로그램을 마친 뒤 참가자들은 "내가 내린 결정 중 가장 어려운 결정이었고, 하고 나니 기분이 나아지지 않았다"며 깊은 혼란과 방향감각을 드러냈다. (P5)
After leaving their training program, participants expressed profound confusion and disorientation: “It was the most difficult decision I’ d ever made, and I didn’t feel any better after making it”. (P5)

훈련 프로그램을 마친 뒤 참가자들은 자신들이 바라던 안도감이 바로 드러나지 않았다고 표현했다. "내가 내린 결정 중 가장 어려웠고, 하고 나니 기분이 나아지지 않았다." (P5)
After leaving their training program, participants expressed that the relief they
d hoped for wasnt immediately apparent: It was the most difficult decision I d ever made, and I didnt feel any better after making it. (P5)

첫 번째 예에서, 인용문은 "혼란과 방향 상실"의 요점을 명시적으로 증명하지 않는다. 두 번째 예시는 인용문과의 연결을 타이트하게 만들고 있다.
In the first example, the quote doesn
t explicitly evidence the point of confusion and disorientation. The second example alters the lead up to the quote to tighten the connection.

때로는 작가로서 스스로가 할 수 없는 말을 인용구를 이용해 하고 싶을 때가 있다. 이 경우, 인용문은 당신의 주장을 입증하는 것이 아니라 당신을 대신해서 주장을 하는 것입니다. 다음 예를 들어 다음과 같습니다.
Sometimes, you may also want to use a quotation to say something that you, as the writer, can
t say yourself. In this case, the quote isnt so much evidencing your point, its making a point on your behalf. Consider this example:

워크숍과 초청 연사와 같은 형평성 및 다양성 이니셔티브는 소수 교수진에 의해 "립 서비스"(P7)로 간주되었으며, 특히 기관의 더 큰 구조가 변경되지 않은 경우 더욱 그러했다.
Equity and diversity initiatives such as workshops and invited speakers were often viewed as
lip service (P7) by minority faculty, particularly if larger structures in the institution remained unchanged.

"립 서비스"라는 용어는 특히 소수 교수진 참가자의 입에서 나온 강력한 비판이다. 이것은 번역이 같은 영향을 미치지 않았을 때입니다. 독자들은 이러한 강한 입장이 참가자들로부터 직접 나온다는 것을 알아야 합니다.
The term
lip service is a powerful critique, particularly coming from the mouth of a minority faculty participant. This is a moment where paraphrasing would not have had the same impactreaders need to know that this strong position comes directly from participants.

 

그 인용문은 간결합니까?
Is the quote succinct?

인터뷰 녹취록을 읽어본 사람이라면 그들이 구불구불하고 재귀적이며 타원과 갑작스러운 전환으로 가득 차 있다는 것을 안다. 이 때문에 요점을 설명하기 위한 짧은 인용문을 찾는 것이 어려울 수 있으며, 더 긴 인용문을 타이트하게 줄여야 합니다. 한 가지 조임tightening 기법은 주요 문구를 추출하여 인용문의 도입 문장에 통합하는 것이다.
Anyone who has ever read an interview transcript knows that they are meandering and recursive, full of ellipses and abrupt transitions. Because of this, it can be difficult to find a short quote to illustrate a point, and you need to tighten up a longer one. One tightening technique is to extract key phrases and integrate them into your own introductory sentence to the quote.

훈련 프로그램을 떠난 참가자들은 "어려운 결정"이었다고 반성을 했고, 직후에는 "기분이 나아지지 않았다."고 밝혔다 (P5)
Participants who had left their training program reflected that it was a
difficult decision, immediately after which they didnt feel any better. (P5)

또 다른 해결책은 줄임표를 사용하여 인용문의 일부를 오려냈다는 신호를 보내는 것입니다.
Another solution is to use the ellipsis to signal that you have cut part of the quote out:

대학원 훈련 경로는 "컨베이어 벨트처럼 단단하고 자동적이다. … 뛰어내릴 수는 있지만, 그 후에 다시 타는 것은 정말 쉽지 않습니다." (P13)
Postgraduate training pathways were described as
rigid and automatic, like a conveyor belt. You can jump off, but getting back on afterwards is really not easy. (P13)

  • 첫 번째 줄임표는 문장 중간에 무언가가 제거되었다는 신호입니다. 이 경우 이 누락된 자료는 내용을 추가하지 않았습니다. "그러니까, 알잖아요, 그 단어가, 내가 하려던 말은..." 
  • 두 번째 줄임표는 완전한 정지를 따르며, 따라서 적어도 한 문장이 제거되었거나 그 이상이 될 수 있다는 신호를 보낸다. 
  • The first ellipsis signals that something mid-sentence has been removed. In this case, this missing material did not add content: “like, you know, um, what’s the word I’m looking for, like you’re on a”.
  • The second ellipsis follows a full stop, and therefore signals that at least one sentence has been removed and perhaps more.

줄임표를 사용할 때, 인용구의 의미에 중요한 뉘앙스를 가진 물질을 제거하지 않도록 주의하세요. 참가자가 원하는 바를 말할 때까지 단편적인 내용을 담아내는 것이 목적이 아니며, 목표는 전체 인용문의 요지에 충실한 표현입니다.
When using an ellipsis, be careful not to remove material that importantly nuances the meaning of the quote. The goal is not to snip bits and pieces until participants say what you want them to; it is a representation that remains faithful to the gist of the full quote.

앞의 예에서 알 수 있듯이, 여러분은 간결함을 돕기 위해 구술을 정돈하기를 원할지도 모릅니다. 인용문의 문구를 바꾸는 것은 항상 진실성 원칙에 위배될 위험이 있기 때문에 신중해야 한다. 인터뷰 전사본은 언어학자들이 "필러" 또는 "후회 표시자"라고 부르는 것, 소리 및 단어, 예를 들어 "아/어/음/좋아요/당신이 알고 있는/맞아요"(Tottie, 2016)로 가득 차 있다. 만약 당신이 담론과 서술적 분석을 한다면, 당신은 반드시 그러한 [망설임의 표현]조차도 의미의 일부로 분석하게 될 것입니다. 그러나 다른 연구 방법론에서는 언어적 특성이 참가자를 식별할 수 있게 한다는 우려와 같은 가독성 또는 윤리적 이유로 일부 "라이트 정리"를 선택할 수 있습니다(Corden & Sainsbury, 2006).
As the previous example shows, you may wish to tidy up oral speech to help with succinctness. Changing the wording of a quotation always risks violating the authenticity principle, so writers must do it thoughtfully. Interview transcripts are replete with what linguists refer to as
fillers or hesitation markers, sounds and words such as ah/uh/ um/like/you know/right (Tottie, 2016). If youre conducting discourse and narrative analysis, you will necessarily analyse such hesitations as part of the meaning. However, in other research methodologies, you may opt to do some light tidying up for readability or ethical reasons, such as the concern that linguistic features might make participants identifiable (Corden & Sainsbury, 2006).

마지막으로, 문장의 문법적 무결성을 유지하기 위해 인용구의 문구를 변경할 필요가 있을 수 있습니다. 작가들은 일반적으로 일관된 시제나, 동사와 주어 또는 대명사와 선행의 합치성을 위해 인용부호를 변경할 필요가 있다. 적절한 문법 흐름을 보장하기 위해 동사 시제를 과거에서 현재로 변경한 예에서와 같이 대괄호를 사용하여 이러한 변화를 나타냅니다.
Finally, you may need to alter the wording of a quote to maintain the grammatical integrity of your sentence. Writers commonly need to alter quotes for consistent tense or for agreement of verb and subject or pronoun and antecedent. Use square brackets to signal such changes, as in this example in which verb tenses were changed from past to present to ensure appropriate grammatical flow:

임상 감독관들은 "직접 관찰이 항상 가능한 것은 아니다.", 특히 "우리는 훈련생과 함께 일하지 않는다"와 "선배가 학생들의 직접적인 감독 중 일부를 하고 있다." (P2)
Clinical supervisors understood that
direct observation [isnt] always feasible, particularly in settings where we [dont] work side by side with the trainee and
seniors [are doing] some of the direct supervision of the students. (P2)

간결함을 위한 또 다른 전략은 인용문을 표에 넣는 것이다. 질적 연구자들은 표 형식이 주는 제약(그리고 '표'라는 것의 실승주의적 뿌리)에 대해 불평할 수 있지만, 복잡한 결과를 한눈에 보여주기 위해 전략적으로 사용될 수 있다. 이 예에서 긴즈버그 외 연구진(2015)은 참가자가 교육 중 평가 보고서에 대한 의견을 해석할 때 고려한 요소를 정의하고 설명한다(그림 2 참조).
Another strategy for succinctness is to put the quotes into a table. While qualitative researchers may chafe at the constraints (and positivist roots) of the table format, it can be used strategically to present complex results at a glance. In this example, Ginsburg et al. (2015) name, define and illustrate the factors their participants considered when interpreting comments on in-training evaluation reports (see Figure 2).


정성 분석의 주요 결과를 스냅샷하는 데 표를 사용할 수 있지만, 결과 본문에서 서술적 설명을 대체하거나 중복되어서는 안 됩니다. 이것은 의문을 제기한다: 어떤 인용구가 본문에 속하고 어떤 인용구가 표에 속할까? 결정하는 한 가지 방법은 "힘power"과 "증명proof" 인용구를 구별하는 것입니다.

  • 파워 인용문은 가장 설득력 있는 인용문이며,
  • 입증 인용문은 해당 인용문이 반복되었거나 다소 다면적이라는 추가 증거입니다(Pratt, 2008, 2009).

While tables can be used to snapshot the key findings from a qualitative analysis, they should not replace your narrative explanation in the body of the results, nor should they be duplicated. This begs the question: which quotes belong in the body and which belong in a table? One way to decide is to distinguish between power and proof quotes.

  • Power quotes are the most compelling ones, the quotes that most effectively illustrate your points, while
  • proof quotes are additional evidence that the point was recurrent or, perhaps, somewhat multifaceted (Pratt, 2008, 2009).

 

그 인용문이 대표적이니?
Is the quote representative?

모든 질적 연구자들은 그들이 빨리 논문을 작성하고 싶은 환상적인 인용문을 찾아냈다. 그러나 초안을 수정하다 보면 데이터가 잘못 전달되어 삭제되어야 하는 경우가 있습니다. 선택한 인용문은 데이터의 강력한 패턴을 반영해야 합니다. 모순되는 예는 중요한 목적을 수행하지만, 그 사용은 전략적이고 명확해야 합니다. 또한, 인용문 선택은 한 두 명의 매우 명확한 참가자로부터 나와서는 안 됩니다. 경우에 따라 차선의 또는 차차선의 모범적 예시문을 사용하더라도 여러 참가자에게 분산시킴으로써 데이터 집합 전체를 더 잘 표현할 수 있습니다.
Every qualitative researcher has identified a fantastic quote they just can’t wait to put into a paper. Sometimes, however, you discover as you revise the draft that it misrepresents the data, and it has to be removed. The quotes you choose should reflect strong patterns in the data. Discrepant examples serve an important purpose, but their use should be strategic and explicit. Furthermore, your quote selection shouldn’t come from the same one or two highly articulate participants. Distributing your choices across participants better represents the dataset as a whole, even if it means using the second- or third-best example in some instances.

주요 결과를 나타낼 인용문을 선택할 때 독자가 의미를 정확하게 추론할 수 있도록 충분한 맥락을 유지해야 합니다. 때때로 이것은 [참가자의 답변]뿐만 아니라, [면접관의 질문]도 포함한다는 것을 의미합니다. 그룹 토론에 중점을 두는 포커스 그룹 연구에서는 개별 의견을 추출하는 것보다 참가자 간의 교류를 인용하는 것이 필요할 수 있다. 다음의 공개된 예(Greenhalgh 등, 2004)는 이 기술을 설명한다.
As you select quotes to represent main findings, be sure that you retain sufficient context so that readers can accurately infer their meaning. Sometimes this means including the interviewers question as well as the participants answer. In focus group research, where the emphasis is on the group discussion, it might be necessary to quote an exchange among participants rather than extracting individual comments. The following published example (Greenhalgh et al., 2004) illustrates this technique.

그러나 부유하지 못한 학생들 사이에서는 높은 사회 계층과 특권 교육이 입학 과정에 유리하다는 인식이 강했다.
However, there was a strong perception among less affluent pupils that high social class and a privileged education would confer an advantage in the admissions process:

[왜 학생이 의대에 입학하는 것을 쉽게 느낄 수 있는지에 대한 질문에 대한 답변]
[in response to a question about why a pupil might find it easy to get into medical school]

"그녀의 자기 자신과 성적은... ...잘하면 면접을 보는 것처럼요."
The way she carries herself and her grades . . . like at interview if she does well.

"어떻게 스스로를 감당하겠어?"
[facilitator]
How would she carry herself?

"각각, 제대로 말하고, 적절한 옷을 입고, 자신감이 넘친다."
Respectively [sic], talking properly, and dressing appropriately, alot of confidence.

"일반적인 억양이 아니라 제대로 말하세요."
Not saying it in a common accent, say it properly.

말을 잘하면 더 교육받은 것처럼 보일 것이다.(B학교 남학생들)
If they speak well, then they ll look more well-educated. (Boys from school B)

이 발췌문은 단일 참가자의 답변보다는 질문에 대한 그룹 참여를 효과적으로 나타냅니다.
This excerpt effectively represents the group engagement with the question rather than a single participant response.

3. 논쟁
3. Argument


예를 들어, 가장 대표적인 인용문조차도 스스로 설명하지는 않습니다. 글쓴이는 문법적으로나 수사적으로나 [인용문을 자신의 텍스트에 포함]해야 합니다. 문법 통합의 경우 인용된 자료는 인용되지 않은 자료와 동일한 문법 및 구두점 규정을 적용한다는 것만 기억하면 됩니다. 이 예제를 큰 소리로 읽어보십시오.
Even an illustrative, representative quote does not speak for itselfwriters must incorporate the quote, both grammatically and rhetorically, into their own text. For grammatical incorporation, you need only remember that quoted material is subject to the same sentence-level conventions for grammar and punctuation as non-quoted material. Read this example aloud:

사무국장들은 "전문성 문제가 반복될 때 아마 그 역할에서 가장 어려운 부분일 것"이라며 비전문적인 행동을 바로잡기 위해 고군분투했다(P8)
Clerkship directors struggled to remediate unprofessional behavior,
its probably the most difficult part of the role, when you come across a recurring professionalism problem. (P8)

쉼표를 사용하여 인용구를 작가의 문장에 결합하면 쉼표 스플라이스와 런온 문장이 생성되는데, 이는 눈이 즉시 인식하지 못하더라도 귀가 들을 가능성이 높다. 인용구를 삽입한 문장을 큰 소리로 읽어서 문법적 편입을 확인하세요. 간단한 수정은 [쉼표를 콜론으로] 바꾸는 것입니다.
Using a comma to join the quote to the writer
s sentence creates a comma splice and a run-on sentence, which your ear likely hears even if your eye doesnt instantly recognise it. Read aloud sentences where youve inserted a quote to check grammatical incorporation. A simple correction is to replace the comma with a colon.

사무국장들은 비전문적인 행동을 바로잡기 위해 고군분투했다. "전문성 문제가 반복되는 것이 그 역할에서 가장 어려운 부분일 것이다." (P8)
Clerkship directors struggled to remediate unprofessional behavior:
its probably the most difficult part of the role, when you come across a recurring professionalism problem. (P8)

[콜론]은 인용된 물질을 통합하기 위한 기본 메커니즘입니다. 그리고 그것은 문법적으로 많은 시간을 충분합니다. 그러나, 그것이 항상 수사적으로 충분한 것은 아니다. 왜냐하면 독자에게 [연구자가 하려는 말]과 [인용된 말] 사이의 관계를 유추하게 남겨두기 때문이다. 인용문이 글쓴이의 논점을 완벽하게 전달할 때, 콜론은 충분할 뿐만 아니라 인용문을 산만하게 집중 조명한다. 하지만, 인용문은 당신의 논점을 완벽하게 만드는 경우는 거의 없다; (인용문을 이해하는 데에는) 보통 약간의 추론이 필요하며, 독자들은 작가가 의도하는 바를 추론하지 못할 수도 있다. 독자들이 자신만의 해석을 하도록 내버려둘 것이 아니라, 작가들은 그들의 해석을 분명하게 해야 한다. 이러한 맥락화는 모로(2005)가 해석과 인용의 "균형balance"이라고 부르는 것을 달성하기 위한 요건이다.
The colon is a default mechanism for integrating quoted material. And it suffices grammatically much of the time. However, it doesn
t always suffice rhetorically, because it leaves the reader to infer the relationship between the point being made and the quoted illustration. When the quote perfectly makes the writers point, the colon not only suffices, it spotlights the quote without distraction. However, only rarely do quotes perfectly make your point; usually some inference is required, and readers might not infer what the writer intends. Instead of leaving readers to come to their own interpretations, writers should make explicit their interpretation. Such contextualising is a requirement for achieving what Morrow (2005) calls the balance of interpretation and quotation.

연구자들의 해석과 인용문 사이에 이러한 균형을 이루기 위한 많은 기술들이 있다. 다음 예에서 콜론 앞의 자료가 견적서에 대해 점진적으로 더 많은 맥락화를 제공하는 방법에 주목하십시오.
There are many techniques for achieving this balance between researcher interpretations and supporting quotations. Note in the following examples how the material before the colon provides progressively more contextualisation for the quote:

한 주민은 "표준 훈련 경로에서 벗어날 수 있지만, 다시 타는 것은 보장되지 않습니다."라고 말했다. (P21)
One resident said:
You can get off the standard training pathway, but getting back on isnt guaranteed. (P21)

한 주민은 "표준적인 훈련 경로에서 벗어날 수 있지만, 다시 승선하는 것은 보장되지 않는다."라고 단언했다. (P21)
One resident asserted:
You can get off the standard training pathway, but getting back on isnt guaranteed. (P21)

포커스 그룹의 한 주민은 훈련 경로가 CBME[역량 기반 의료 교육]의 맥락에서 개별화되고 유연하다는 생각에 동의하지 않았다. "표준 훈련 경로에서 벗어날 수 있지만, 다시 복귀하는 것은 보장되지 않습니다." (P21)
One resident in the focus group disagreed with the idea that training pathways were individualised and flexible in the context of CBME [competency-based medical education]: You can get off the standard training pathway, but getting back on isnt guaranteed. (P21)

포커스 그룹 참가자들은 CBME의 맥락에서 훈련 경로의 유연성에 대해 토론했다. 일부는 훈련이 "더디게 갈 필요가 있거나 더 빨리 갈 수 있거나, 거주자의 길에서 조금 벗어나고 싶은 경우" (P19) 반면 다른 이들은 "표준 훈련 경로에서 벗어날 수 있다"고 주장했다. 하지만 다시 탈 수 있다는 보장은 없습니다." (21)
Focus group participants debated the flexibility of training pathways in the context of CBME. Some anticipated that training
can be adjusted, for if you need to go slower or youre able to go faster or you want to do something a bit off the beaten path of residency (P19), while others contested that you can get off the standard training pathway, but getting back on isnt guaranteed. (P21)


증가하는 문맥화는 중립적인 "말한said"을 사용하는 첫 번째 예와 참가자의 어조를 감지하기 위해 "주장된asserted"을 사용하는 두 번째 예 사이의 동사 변화에서 시작된다. 세 번째는 [포커스 그룹 토론의 맥락]에 그것을 배치함으로써 인용문의 의미를 더욱 해석한다. 네 번째 예시는 두 개의 인용구를 [문장의 서술 구조에 직접 통합]하여 참여자들 사이에서 일어나고 있는 토론을 보여준다. 그리고 콜론을 사용하지 않음으로써, 마지막 예는 작가가 인용문을 그들의 논증에 엮기 위해 더 열심히 일하도록 강요한다. 이러한 직조는 [인용문의 의미를 수사적으로 강하게 통제]한다.
The increasing contextualisation begins with a shift in verb between the first example, which uses the neutral
said, and the second example, which uses asserted to give a sense of the participants tone. The third interprets the meaning of the quote even more by situating it in the context of a focus group debate. The fourth example integrates two quotes directly into the narrative structure of the sentence to show the debate that was occurring among participants. And by not using a colon, the last example forces the writer to work harder to weave the quotes into their argument. Such weaving exerts strong rhetorical control over the quotes meaning.

초안을 쓸 때는 때는 기본적으로 콜론을 사용하는 편이 낫다. 각각의 조각을 어떤 자리에 고정하는 데 이상적이다. 하지만 수정할 때는 더 다양하고 스타일을 지향하세요. 이렇게 하면 결과 섹션이 점-콜론-인용, 점-콜론-인용, 점-콜론-인용 등의 로봇적 운율을 넘어 향상되고 인용문이 여러분이 주장하는 요점을 뒷받침하고 발전시킬 수 있습니다.
Use the default colon when you’re drafting—it’s perfect for just getting the pieces into place. But when you revise, aim for more variety and style. This will elevate your results sections beyond a robotic cadence of point-colon-quote, point-colon-quote, point-colon-
. And it will ensure that the quotes support and develop the points you’re making.

때때로 당신은 자신의 문장에 통합할 수 없는 더 긴 인용구를 포함하기를 원할 것이다. 이러한 인용문은 독자들에게 인터뷰의 분위기를 느낄 수 있게 하거나 아이디어들 사이의 복잡한 상호관계를 엿볼 수 있게 할 수 있으며, 당신은 이러한 차원을 잃어버릴 정도로 그것들을 자르고 싶어하지 않을 것이다. 하지만, 인용문이 길어질수록 독자의 관심이 당신이 의도한 것과는 다른 무언가에 걸릴 가능성이 더 커진다는 것을 명심하라. 결과 작성에 있어 이러한 모순을 방지하기 위해 인용 샌드위치 기법(인용문 앞의 문맥에 적용하고 그 뒤의 해석을 요약하는 것)을 고려하십시오. 다음 그림(Emerton-Coughlin et al., 2017)에서 비디오 발췌문 필사본은 3번 박스에서 설명되는 내용과 포인트에 대한 자세한 분석을 제공하는 요약 텍스트로 구성된다.
Sometimes you will want to include a longer quote that cannot be integrated into your own sentence. Such quotes can offer readers a sense of the mood of the interview, or a glimpse of the complex interrelationship among ideas, and you don
t want to cut them back to the point that this dimension is lost. Keep in mind, though, that the longer the quote, the greater the chance that the readers attention will snag on something other than what you intend. To guard against this source of incoherence in your results writing, consider applying the quotation sandwich technique (Graff & Birkenstein, 2018) to contextualise before the quotation and summarise your interpretation after it. In the following illustration (Emmerton-Coughlin et al., 2017), the transcription of a video excerpt is set off in Box 3, sandwiched by introductory text that sets up whats being illustrated and summary text that provides detailed analysis of the point:

다음 예는 통제 역학의 양방향 특성을 보여줍니다. 의사가 수술 기법을 수정하라는 지침을 시작합니다(상자 3 참조).
The next example typifies the bidirectional nature of control dynamics. The surgeon initiates an instruction to modify the surgical technique (see Box 3).

 

외과의사의 지침을 올바르게 이행하려면 훈련생이 올바른 표현을 해석해야 합니다. "상단 부분"과 "하단 부분"이 있습니다. 훈련생은 다시 데히스를 사용하여 "이것이 바로 여기입니까?"라고 응답하고 주어진 지침에 대한 자신의 해석을 확인하기 위해 현지화 기동을 합니다. 외과의는 명령을 승인한 다음 추가 정보와 추가 지시로 자신의 신체적 제스처 동작을 추가하며 더 정교하게 다듬는다. 이는 핵심 구조물인 담관을 식별하고 보호하는 것과 관련된 고난도의 순간 동안 교육생이 강사에게 준 엄격한 수준의 통제를 강조합니다.
Correct implementation of the surgeon’s instruction relies on the trainee’s correct interpretation of the deictic expressions: “the top part” and “the bottom part”. The trainee responds, again using deixis, “This right here?” and pairs with it a physical localising manoeuvre in order to confirm her interpretation of the instruction given. The surgeon ratifies and then goes on to further refine the instruction with additional information and additional deictic instruction, adding his own physical gesturing manoeuvre. This back and forth highlights a concession by the trainee of a tight degree of control to the instructor during this high-stakes moment involving the identification and protection of a key structure, the bile duct.


이 예제는 또한 인용문의 내용을 단순히 반복하지 않고 요약하는 방법을 보여줍니다. 독자는 이미 인용문을 읽었는데, 인용문은 지시적인 표현들을 강조하기 위해 주석을 달았다. 그 뒤의 텍스트는 이 교환의 "양방향성"에 대한 시작점을 예시하며, 예제의 진행 상황에 대한 설명에서 "대응", "확인", "뒤로"와 같은 용어를 사용한다.

This example also demonstrates how to summarise the quote without simply repeating what it says. The reader has already read the quote, which is annotated to highlight the deictic expressions. The text after it exemplifies the opening point about “the bidirectional nature” of this exchange, by using terms such as “responds”, “confirms”, “ratifies” and “back and forth” in the explanation of what’s going on in the example.

한 요점을 뒷받침하기 위해 여러 개의 인용문을 사용하는 것은 피해야 합니다. 여러 인용구를 사용하는 편이 더 좋은 경우는 단 하나의 인용구만으로는 정당하지 않은 층위나 뉘앙스가 있을 때 뿐이다
Using multiple quotations to support a single point should be avoided. More is only better when there are layers or nuances that a single quote doesn’t do justice to.

웰니스(Wellness)는 참가자들에게는 미묘한 아이디어였습니다.
Wellness was a nuanced idea for our participants:

"걸어다니는 좀비가 되지 않기 위해 규칙적으로 먹고, 잠을 자는 것." (P2)
“Eating regularly, getting some sleep, so that you’re not a walking zombie.” (P2)

"건강하지 않을 때, 불안하거나 우울할 때, 인간관계가 고통받고 있을 때, 곁에 있을 수 없다는 것을 깨닫는다."(P11)
“Recognising when you’re not well, you’re anxious or depressed, your relationships are suffering, you’re impossible to be around.” (P11)

"기본적인 행복이요, 제게 더 이상 기쁨이 없는 것처럼요? '나는 임상적으로 우울하다'가 아니라 '나는 내 작품에 더 이상 없을 뿐이다.' (P12)
“Basic happiness, like is there any joy in this anymore for me? Not, ‘I’m clinically depressed’ but sort of, ‘I’m just not present in my work anymore.’” (P12)

"미묘한 아이디어"라는 표현이 독자에게 여러 인용문이 이러한 뉘앙스를 보여주기 위한 것임을 경고하지만, 이 예는 독자로 하여금 [인용문 사이의 (비어있는) 공간을 스케치를 하도록] 만든다. 다음과 같이 바꾸는 것이 수사적으로 더 효과적이다.
While “nuanced idea” alerts the reader that the multiple quotes are intended to demonstrate this nuance, this example makes the reader do the work of sketching in the space between the quotes. The following revision is more rhetorically effective.

웰니스(Wellness)는 우리의 참가자들에게는 미묘한 아이디어였다. 많은 이들이 "걸어다니는 좀비가 되지 않기 위해 규칙적으로 먹고, 잠을 자는 것"의 중요성을 인정하는 가운데, 참가자들의 설명에서 신체 건강의 차원이 두드러졌다(P2). 정신건강도 특히 "건강이 좋지 않을 때, 불안하거나 우울할 때, 인간관계가 고통받고 있을 때, 곁에 있을 수 없을 때" (P11)에 대해 논의했습니다. 건강은 또한 신체적, 정신적 건강에 대한 전통적인 개념을 넘어 "기본적인 행복, 나에게 더 이상 기쁨이 없는가?"라는 질문으로까지 확장됩니다. '나는 임상적으로 우울하다'가 아니라 '나는 더 이상 내 일에 있지 않을 뿐이다' (P12).
Wellness was a nuanced idea for our participants. Dimensions of physical health were prominent in participants’ explanations, with many acknowledging the importance of “eating regularly, getting some sleep, so that you’re not a walking zombie” (P2). Mental health was also discussed, in particular “recognising when you’re not well, you’re anxious or depressed, your relationships are suffering, you’re impossible to be around” (P11). And wellness was also understood to extend beyond the conventional notions of physical and mental health, into questions of “basic happiness, like is there any joy in this anymore for me? Not, ‘I’m clinically depressed’ but sort of, ‘I’m just not present in my work anymore’” (P12).

이 버전에서 작가는 독자를 위한 이 세 인용구 사이의 관계를 설정하면서 '물리적', '정신적', '그 너머'를 명시적으로 명명한다.
In this version, the writer explicitly names “physical”, “mental” and “beyond” as they establish the relations between these three quotes for the reader.

우리가 논의할 마지막 예는 결과를 설명하기 위해 복합 내러티브를 사용하는 것입니다. 복합 서술은 여러 인터뷰나 관찰로부터 얻은 데이터를 사용하여 하나의 상세한 이야기를 들려준다. 복합 내러티브는 인용구가 아니다; 그것들은 구성이고, 따라서 작가들에게 상당한 수준의 수사적 통제를 제공한다. 그것들을 효과적으로 사용하기 위해서, 작가들은 그 구성 요소들이 무엇을 나타내는지 그리고 발견을 설명하기 위해 어떻게 사용되는지를 설명하면서 독자들의 방향을 잡아야 한다. 다음 단락은 그러한 지향성이 어떻게 보일 수 있는지를 보여준다.
The final example we will discuss is the use of composite narratives to illustrate your results. A composite narrative uses data from multiple interviews or observations to tell a single, elaborated story. Composite narratives are not quotations; they are constructions and, thus, offer writers a significant degree of rhetorical control. To use them effectively, writers must orient readers, explaining what the composites represent and how they are used to illustrate findings. The following paragraph illustrates how such orienting might look.

데이터 분석 결과를 바탕으로 3가지 복합 내러티브가 생성되었는데, 참가자들의 3가지 구분된 그룹 각각에 대해, GP 교육을 마친 직후 학문적 역할에 입문한 GP들이 전임 임상을 원하지 않는다고 결정한 경험의 복합체인 '내러티브 1, '알렉스'l post; 교육이나 연구에 관심을 가지고 학문적 역할에 입문한 GP의 경험을 종합한 서사 2, '로빈', 그리고 경력 중후반에 학계에 입문한 GP의 경험을 종합한 서사 3, '조'로, 임상 실습에 대한 대안을 모색하고 있다.무식한 일 경험이 스스로 식별된 성별 범주를 넘나들었다는 것을 반영하여, 이러한 서술에 성 중립적인 이름이 할당되었다. 연구 결과는 복합 서술에서 발췌한 것으로 설명된다. (McElhinney & Kennedy, 2021, 페이지 3) 
Based on the findings of the data analysis, three composite narratives were produced, one for each of the three distinct groups of participants identified: Narrative 1, ‘Alex’, a composite of the experiences of GPs who had entered an academic role immediately after completion of GP training, having decided that they did not want a full-time clinical post; Narrative 2, ‘Robin’, a synthesis of the experiences of GPs who entered an academic role mid-career, having been a GP partner, with an interest in education or research; and Narrative 3, ‘Jo’, synthesising the experiences of GPs who entered academia mid to late career, looking for an alternative to clinical practice to run in parallel to clinical work. Gender-neutral names were assigned to these narratives, reflecting that the experiences crossed self-identified gender categories. The findings are illustrated with excerpts from the composite narratives.
(McElhinney & Kennedy, 2021, p. 3)

 

Willis (2019)에 따르면, 복합 내러티브은 세 가지 주요 이점을 제공한다: 

  • 원자적인 범주나 주제보다 복잡하고, 위치된 설명을 제공한다;
  • 익명성을 보장한다;
  • 효용성과 접근성을 극대화할 수 있다. 특히 학계 밖의 독자들을 위한 질적 연구 결과.

필자는 복합물이 주요 데이터의 톤과 내용에 충실하도록 보장해야 하며 복합 서사를 작성하기 위한 적절한 절차를 따라야 한다. 그들의 결과를 설명하기 위해 복합 사례를 시도하는 데 관심이 있는 저자들의 경우, 아파르미안 외 연구진(2015)과 팩 외 연구진(2020)은 이 접근방식을 사용하는 두 가지 다른 방법을 보여준다.

According to Willis (2019), composite narratives offer three main advantages:

  • they present complex, situated accounts rather than atomistic categories or themes;
  • they ensure anonymity; and
  • they may maximise the utility and accessibility of qualitative findings, particularly for readers outside academia.

Their main limitation relates to authenticity—the writer must ensure that the composite is faithful to the tone and content of the primary data and should follow appropriate procedures for creating their composite narrative. For writers interested in trying a composite case to illustrate their results, Apramian et al. (2015) and Pack et al. (2020) demonstrate two different ways of employing this approach.

 

복잡성의 인정
An acknowledgement of complexity


우리는 효과적인 질적 결과 섹션의 작성을 안내하는 데 도움이 되는 세 가지 원칙을 제시했습니다: 스토리텔링, 진실성 및 논쟁. 이러한 원칙들을 고정된 규칙으로 보아서는 안 된다. 많은 요인들이 이러한 요인들이 어떻게 적용될 수 있는지에 영향을 미칩니다. 연구 방법론은 중요하다. 예를 들어, 서술적 탐구, 구성주의 기반 이론 및 비판적 담론 분석은 각자 바람직한 방식이 다를 것이다. 저널도 중요합니다. 많은 경우 이러한 원칙을 성공적으로 적용하는 방법을 이해하려면 반드시 참조해야 할 저자 지침이 있습니다. 

We have offered three principles to help guide the writing of an effective qualitative results section: storytelling, authenticity and argument. These principles should not be viewed as static rules. A number of factors influence how they might be applied. Research methodology matters; for example, narrative inquiry, constructivist grounded theory and critical discourse analysis will look—and sound—distinct. The journal also matters. Many have author guidelines you should consult to understand how to adapt these principles successfully.

마지막으로, 역사는 중요합니다. 질적 연구가 정당성을 얻으면서 우리 분야의 관습이 변화하고 있다. 방법론적 용어가 변화하고 있는 것처럼(Varpio 등, 2017) 결과를 제시하는 관례도 변화하고 있다. 이 원고를 작성하면서 우리의 논문을 되돌아보면서, 우리는 우리의 접근 방식의 변화를 깨달았다. 예를 들어, 우리는 각 주제 범주의 인스턴스 수를 열거하는 테이블을 더 이상 거의 사용하지 않는다(Lingard, 2004). 그러나 20년 전에는 데이터 코딩에 관련된 여러 연구자에 대한 평가자 간 신뢰도 계수를 포함시키는 것이 흔한 일이었다. 따라서 이러한 원칙을 지침으로 사용하고, 설득력 있는 질적 결과 섹션을 만들 때 수사적 상황에 주의를 기울이십시오.

Finally, history matters. Conventions in our field are changing over time as qualitative research gains legitimacy. Just as methodological terms are shifting (Varpio et al., 2017), so too are conventions for presenting results. Looking back at our papers in the writing of this manuscript, we realised shifts in our own approaches. For instance, we rarely use tables enumerating the number of instances of each thematic category (Lingard, 2004) anymore, but that was commonplace 20 years ago, as were inter-rater reliability coefficients for multiple researchers involved in coding data. So use these principles as a guide, and stay attentive to your rhetorical situation as you work to craft a compelling qualitative results section.

 


Abstract

 

Writing an effective qualitative results section can be a daunting task. How do you report the findings of the study and tell a compelling story? It is this delicate balance that we strive to navigate in this paper. We offer three principles—storytelling, authenticity and argument—to help writers envision the story they will tell, select the data as evidence for that story and integrate quotations to guide the reader’s interpretation. Practical advice and concrete illustrations make the principles easy to apply to your own writing. Finally, by reflecting on how historical, methodological and disciplinary elements shape their application, you will be able to use these principles to enhance the persuasiveness of your qualitative results section.

 

의학교육의 프로그램적 평가가 헬스케어에서 배울 수 있는 것(Perspect Med Educ, 2017)
What programmatic assessment in medical education can learn from healthcare
L. Schuwirth1,2 · C. van der Vleuten2 · S. J. Durning1,3

 

 

배경
Background

의학 교육에서 평가에 대한 새로운 접근 방식인 프로그램 평가라고 불리는 것이 등장하고 있다. [프로그램적 평가]는 학습자의 역량과 진도에 대한 일상적인 정보를 지속적으로 수집하고 분석하며, 필요한 경우 학습자와 멘토에게 최대한의 정보를 제공하고, 훈련 종료 단계에서 고부담 의사 결정을 허용하기 위해 의도적으로 수집된 추가 평가 정보로 보완하는 접근법이다. 이를 위해 다양한 평가 도구가 일반적으로 사용됩니다 [1–3]. 
A new approach to assessment is emerging in medical education, called programmatic assessment. Programmatic assessment is an approach in which routine information about the learner’s competence and progress is continually collected, analyzed and, where needed, complemented with purposively collected additional assessment information, with the intent to both maximally inform the learner and their mentor and allow for high-stakes decisions at the end of a training phase. For this, a variety of assessment instruments are usually used [13].

프로그램적 평가는 거의 전적으로 [학습의 평가AoL]에 초점을 맞춘 전형적인 '모듈 테스트module-test' 구성 요소를 사용하는 [기존의 평가 프로그램과]는 상당히 다르다. 우리는 프로그래밍 방식의 평가가 실제로 다양한 관점에서 더 타당하다고 생각하며 왜 그렇게 생각하는지 설명하기 위해 임상 의학과의 유사성을 사용하고자 합니다. 

Programmatic assessment is quite different from more traditional assessment programs with the typical ‘module-test’ building blocks focussing almost entirely on assessment of learning. We think that programmatic assessment actually makes more sense from various perspectives and we want to use analogies with clinical medicine to explain why we think so. 

프로그래램적 평가 접근법에서, 각 평가는 학습자에게 [의미 있는 피드백]을 제공합니다. 이러한 피드백은 양적, 질적 또는 둘 다일 수 있다. 각 개별 평가는 처음에는 '고부담 판단'을 위한 것이 아니라, 학습자가 자신의 성과를 분석하고 구체적인 학습 목표를 수립하고 입증할 수 있도록 달성하기 위해 사용해야 한다. 개별 평가는 (예를 들어 포트폴리오에서) 수집될 구성요소로 사용되며, 그런 다음 교수진이나 위원회가 이를 분석하여 방어 가능한 고부담 결정을 내릴 수 있는 [풍부한 진단적 그림rich diagnostic picture]을 만듭니다. 일반적으로 모든 정보는 내용에 의해 의미 있는 방식으로 다양한 출처의 정보를 결합하여, 총괄적 결정을 위해 주기적으로 평가 위원회에 의해 검토된다[1, 2, 7]. 이 검토를 바탕으로 재교육remediation 계획이 제공된다. 학습자와 전담 교원(기관에 따라 멘토, 감독 또는 코치라고 함) 간의 지속적인 대화는 피드백, 역량 개발 분석, 교정 및 개인 개발에 초점을 맞춘다. [고부담 객관식 시험을 치른 후 합격-불합격 결정을 내리는 것과 같은 기존의 평가]가 아니라, 프로그램적 평가는 달성된 역량 수준과 그 발달 과정을 모두 다룬다. 
In the programmatic assessment approach, each assessment produces meaningful feedback to the learner. This feedback may be quantitative, qualitative or both. Each individual assessment is not initially meant for ‘high-stakes’ decision-making, but has to be used by the learner to analyze their own performance, formulate concrete learning goals and demonstrably attain them. Individual assessments are used as components that are to be collected, for example in a portfolio, and then analyzed by a faculty member or committee into a rich diagnostic picture that will allow defensible high-stakes decisions. Typically, all information is periodically reviewed by an assessment committee for summative decisions, combining information from various sources in a way that is meaningful by content [1, 2, 7]. So, for example, results on parts of a multiple-choice examination may be combined with parts of a mini-CEX or OSCE examination to draw conclusions as to the examinee’s progress in a domain of performance. Based on this review, remediation plans are provided. A continuous dialogue between the learner and a dedicated staff member (called either mentor, supervisor or coach in different institutes) further scaffolds the focus on feedback, analysis of competence development, remediation and personal development. Instead of a conventional assessment such as taking a high-stakes multiple-choice examination followed by a pass-fail decision, programmatic assessment addresses both the attained competence levels and their developmental processes. 

 

유사성
Analogies

유사 1: '건강' 개념과 마찬가지로 역량competence의 개념은 정의하기 어려울 수 있지만 평가, 홍보 및 개선될 수 있습니다.
Analogy 1: Like the concept ‘health’, the concept of competence may be difficult to define but it can be evaluated, promoted and improved

세계보건기구(WHO)의 건강 정의는 '완전한 신체적, 정신적, 사회적 안녕 상태이며, 단순히 질병이나 질병이 없는 것만이 아니다'이다[8]. [역량]에 대한 일반적인 정의는 '(의사가) 복무할 개인 및 공동체의 이익을 위해 의사소통, 지식, 기술 기술, 임상 추론, 감정, 가치, 성찰을 일상 실무에서 습관적이고 현명하게 사용하는 것'이다[9]. 두 정의 모두 이해를 전달하지만 실제 실행에는 도움이 되지 않습니다. 건강의 정의는 특정 환자를 진단하고 치료하는 데 도움이 되지 않으며 역량의 정의는 특정 학습자의 평가와 교육에 도움이 되지 않는다(학생, 레지던트 또는 실제 의사). 그러나 이들의 공통점은 '건강'과 '역량' 둘 다 정의하기가 거의 불가능하다는 사실에도 불구하고 여전히 평가되고 향상될 수 있다는 것이다. 의사는 '건강하지 않음'을 진단할 수 있으며, 마찬가지로 전문 평가자도 '무능력'을 진단할 수 있다[10]
The WHO definition of health is: ‘a state of complete physical, mental, and social well-being and not merely the absence of disease or infirmity’ [8]. A popular definition of competence is ‘the habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individual and the community being served’ [9]. Both definitions convey an understanding, but do not really help in actual practice. The definition of health does not help in diagnosing and treating specific patients and the definition of competence is not helpful for the assessment and education of specific learners at any level (students, residents, or physicians in practice). What they have in common, though, is that despite the fact that both ‘health’ and ‘competence’ are almost impossible to define, they can still be evaluated and improved. Doctors are able to diagnose ‘ill-health’, and likewise it is possible for expert assessors to diagnose ‘dyscompetence’ [10].

물론 대부분의 건강관리 영역(그러나 정신건강에서는 덜 그렇다)에서 질병은 직접적으로 관찰 가능한 임상적 특징을 가질 수 있는 반면, 역량은 항상 우리가 관찰할 수 있는 것에서 추론되어야 한다. 그러나 다른 한편으로, 완전한 범위에서 질병을 진단할 수 있는 단일 도구가 없는 것처럼, 모든 '역량'을 평가할 단일 도구가 없다는 점으로 유추가 확장될 수 있다. 의료 진단은 병력, 신체 검사, 실험실 테스트, 병리학 또는 방사선 연구와 같은 다양한 출처로부터 정보를 신중하게 수집하고 수집하는 것을 포함한다. 마찬가지로, 프로그램적 평가는 수험자의 역량을 진단할 뿐만 아니라 역량을 증진하고 향상시키기 위해 다양한 출처로부터 정보를 신중하게 수집하고 수집하는 것이다.

Of course there are also differences in that in most domains of healthcare (but less so in mental health) the illness may have directly observable clinical features whereas competence always has to be inferred from what we can observe. But, on the other hand, the analogy can be extended in that much like there is no single instrument that will diagnose any illness in its full scope, there is no single instrument that will assess ‘competence’ in its entirety. Diagnosing in healthcare involves the careful collection and collation of information from various sources such as the history, physical examination, lab tests, pathology or radiographic studies. Likewise, programmatic assessment is the careful collection and collation of information from various sources not only to diagnose the examinee’s competence but also to promote and improve their competence.

유사 2: 평가에서 구조화되고 표준화된 테스트만 사용하는 것은 환자를 실험실 가치만으로 진단하는 것과 같습니다.
Analogy 2: Merely using structured and standardized testing in assessment is like diagnosing a patient on lab-values alone

전통적인 평가 모델에서 일반적으로 논의되는 주제는 양적 또는 질적 중 어떤 정보를 가장 잘 사용할 수 있는지와 관련이 있다. 정량적 접근법은 심리측정적 특성으로 인해 고부담 평가일수록 우선된다. 그러나 프로그램 평가에서 논쟁은 양적 정보가 질적 정보보다 나은지(또는 그 반대인지)가 아니라, 개별 학습자에게 그 [두 가지 정보를 어떻게 결합하는 것이 가장 좋은지]에 대한 것이다. 순수하게 실험실 테스트에 기반한 의료 시스템은 이상적이지 않으며, 반대로 실험실 테스트에 액세스할 수 없는 시스템도 마찬가지입니다. 평가에서 질적 정보를 포함하는 것은 종종 [비구조화된(질적) 평가는 심리측정적으로 품질을 보장할 수 없기 때문에 표준화된 테스트만큼 엄격하지 않다]는 우려를 제기한다. 그러나 다시 한 번, 의료행위와 강력한 유사성이 있다.
A commonly debated topic in traditional assessment models relates to which information best to use: quantitative or qualitative; with quantitative approaches being given priority for higher stakes assessments due to their psychometric properties. The debate in programmatic assessment, however, is not whether quantitative information is better than qualitative or vice versa, but how best to combine them for each individual learner. A healthcare system that is based purely on lab testing would not be optimal but neither would a system that has no access to lab testing. In assessment, the inclusion of qualitative information often raises concerns that unstructured assessments are not of the same rigour as the standardized tests, because the latter can be quality assured with psychometrics and the former cannot [11]. But, again, the analogy with healthcare practice is powerful.

환자의 헤모글로빈 수준을 검사할 때, 일반적으로 헤모글로빈 수준에 대한 실험실 분석가의 의견에는 관심이 없지만 수치 값(예: 12.2 g/dl(7.57 mmol/l)만 알고자 합니다. 측정의 신뢰성(및 타당성)은 실험실 장비의 품질, 모집단 데이터 및 95% 신뢰 구간과 같은 특성에 의해 결정됩니다. 반면에, 우리가 조직병리학 보고서를 요청할 때에는, 병리학자의 전문가의 의견을 원하는 것이지 숫자를 원하는 것이 아니다. 그 결과의 신뢰성(및 타당성)은 임상 질문에 관한 보고서의 설득력cogency, 병리학자의 교육에 대한 신뢰trust, 결론의 개연성plausibility, 신중한 문서화에 의해 결정된다. 수치 측정에 관한 품질기준을 병리 보고서에 적용하거나, credibility criteria를 실험실 수치에 적용하는 것은 말도 안 된다. 마찬가지로, 프로그램적 평가 프로그램에서 [평가의 품질 보증]은 전적으로 심리측정에만 기초할 수 없으며, 신중한 문서화, 근거의 설득력, 평가 전문성 개발을 통합해야 한다[12].

When we order a haemoglobin level for a patient we are generally not interested in the lab analyst’s opinion about the haemoglobin level but merely want to know the numerical value, for example 12.2 g/dl (7.57 mmol/l). The reliability (and validity) of the measurement are determined by characteristics such as the quality of the lab equipment, population data and 95% confidence intervals. When, on the other hand, we order a histopathology report we are not interested in receiving a number but we want the pathologist’s expert opinion. The reliability (and validity) of that outcome is determined by the cogency of the report with respect to the clinical questions, the trust in the education of the pathologist, the plausibility of his/her conclusions and their careful documentation. It is nonsensical to apply the measurement-type quality criteria to this report or the credibility criteria to the lab value. In a programmatic assessment program quality assurance of the assessments likewise cannot be purely based on psychometrics and will have to incorporate careful documentation, cogent underpinnings of decisions and assessment expertise development [12].

국가 차원에서도 이러한 비유는 유효하다. 프로그래밍 방식의 평가는 결코 국가단위 시험에 반대하는 주장이 아니다. 국가단위 의료 시스템은 (적절한 진단 후속 조치가 있는 경우) 국가단위 스크리닝 프로그램의 혜택을 받는 경우가 많다. 따라서, [국가단위 시험에서 성적이 저조한 수험생]에 대하여 동등한 '진단적' 후속 조치가 있거나, 다음과 같은 질문에 답할 수 있다면, 국가 시험에 결과를 포함시킴으로써 프로그램 평가의 이점이 있을 것이다. 

  • '역량부족dyscompetence'의 유병률은 어느 정도인가? 
  • '스크리닝 도구가 충분히 민감하거나 특이합니까?' 
  • '스크리닝을 했을 때의 결과가 그렇지 않은 경우보다 나은가?' 그리고 
  • '치료/해치에 필요한 숫자는 무엇인가?'가 제시되어 있다.

At the national level the analogy also holds. Programmatic assessment is by no means an argument against national testing. National healthcare systems often benefit from national screening programs provided there is suitable diagnostic follow-up. So would a programmatic assessment benefit from including the results on national testing, provided there is an equivalent suitable ‘diagnostic’ follow-up of those examinees who underperform at this level, and questions like:

  • ‘What is the prevalence of the disease ’dyscompetence‘?’,
  • ‘Is the screening tool sensitive/specific enough?’,
  • ‘Is the outcome of the disease with screening better than without?’ and
  • ‘What is the number needed to treat/harm?’ are addressed.

 

유사 3: 진단만으로는 환자를 치료하기에 충분하지 않은 것처럼, 시험만으로는 효과적으로 학습자의 역량 수준을 높이기에 충분하지 않습니다.
Analogy 3: Testing alone is not enough to effectively lead to higher competence levels of learners like merely making a diagnosis is not enough to cure a patient

이 개념을 표현하는 대표적인 금언은 '환자의 체온을 재는 것만으로는 치료할 수 없다'는 것이다. 순수하게 환자를 진단하는 것 자체가 충분하지 않다; 그것은 치료 활동과 결합되어야 한다.
The typical aphorism to express this concept is the statement that ‘merely taking a patient’s temperature is not enough to cure them’. Purely diagnosing a patient, in itself, is not enough; it has to be combined with therapeutic actions.

평가 또한 '치료적'이어야 한다. 건강관리에서의 진단 절차가 단지 '건강/건강하지 않은' 결정으로 귀결된다면, 임상의는 치료 계획을 결정하기 위해 행동할 것이 거의 없을 것이다. 이것이 의료에서 진단적-워크업이 일반적으로 정확히 무엇이 잘못되었는지, 얼마나 심각한지, 그리고 최선의 행동 방침이 무엇인지 진단하기 위해 의도적으로 계획되는 이유이다. 임상의가 아무런 치료도 하지 않고서, 단순히 모든 검사를 몇 주 후에 다시 실행하여 수치가 정상화되었는지 확인할 가능성은 거의 없습니다. 그러나 전통적인 시험에서 이것은 종종 원래 테스트의 반복적인 측정일 뿐인 재시험에서 종종 발생합니다.  또한, 이러한 테스트는 문제의 잠재적인 근본적인 원인에 대한 정보를 제대로 제공하지 못하며, 교정적 전략 제공도 제한적이다. 물론 시험이 학습에 미치는 영향, 특히 시험 강화 학습 효과[13, 14]를 무시할 수는 없지만, 목적한 정보targeted information가 없이 시험-강화 학습의 효과에만 의존하는 것은, "의도적인 연습"이라 불리는 피드백과 표적 실습targeted practice의 역할의 중요성을 고려한다면, 저조한 효과만을 보일 것이다.

Assessment also needs to be ‘therapeutic’. If diagnostic procedures in healthcare were to just result in a ‘healthy/not healthy’ decision, the clinician would have very little to act on to determine his/her therapeutic plan. This is why in healthcare, diagnostic work-ups are typically purposefully planned to diagnose exactly what is wrong, how severe the condition is, and what the best course of action is. It is unlikely that a clinician would simply run all the tests again a couple weeks later to see whether they have normalized without any therapy. Yet in traditional testing this is often what happens with re-examinations which are often merely a repeated measurement of the original test. Further, these tests are not optimally informative as to potential underlying causes of the problem – they offer limited strategies for remediation in and of themselves. Of course, one cannot ignore the effects of tests on learning – in particular the test-enhanced learning effect [13, 14] – but the reliance on these effects without targeted information is likely to make the whole process less effective as the importance of the role of feedback and targeted practice – deliberate practice – is generally accepted [15].

프로그램적 평가에서 학습자와 교수진에게 [어떤 특정한 재교육 활동이 필요한지]에 대한 정보를 제공하기 위해, [의도적으로 서로 다른 유형의 정보의 조합]을 사용한다. 예를 들어, [복부 해부학에서 객관식 질문]에 대한 결과는 [복부 검사의 OSCE 스테이션] 및 [복부 통증이 있는 환자에 대한 미니 CEX]의 결과와 결합하여 학습자가 다음 중 어떤 문제를 가지고 있는지를 결정할 수 있다.

  • 기술 부족(따라서 더 많은 연습이 필요함), 
  • 해부학적 지식 부족(따라서 해당 도메인 교정 필요) 또는 
  • 불충분한 환자 상담 기술 

In programmatic assessment, the combination of different types of information is deliberately used to inform the learner and faculty alike about what specific remedial activity would be needed. For example, the results on multiple choice questions (from a larger test) on abdominal anatomy can be combined with those on an OSCE station on abdominal examination and a mini-CEX with a patient with abdominal pain to determine whether the learner has

  • insufficient technique (and therefore just requires more practice),
  • insufficient anatomical knowledge (and therefore requires remediation in that domain) or
  • insufficient patient consultation skills.

이러한 방식이 ['무릎 검사'에 대한 OSCE 스테이션 성적]으로 [복부 검사에 대한 OSCE 스테이션 성적]을 보완하는 것보다 훨씬 말이 된다. 다시 말하지만, 이러한 정보 결합 방식은 의료 서비스의 표준입니다. 임상의는 환자에게 불행하게도 그들의 HB 수치가 너무 낮지만, 다행히도 그들의 포도당이 너무 높아서 평균적으로 그들의 실험실 수치는 괜찮다고 절대 말하지 않을 것이다. 임상의는 단순히 수학적으로 평균을 내기보다는, [피로, 다혈증, 다뇨증에 대한 불만과 포도당 수준]을 결합하고, [상처 치유력이 떨어지는 동맥 맥박의 부재]를 결합하여 정보를 이해할 것이다(진단이든 치료든). 

This makes much more sense than compensating poor performance on an OSCE station on, for instance, abdominal examination with good performance on an OSCE station on ‘knee examination’. Again, this way of combining information is the norm in healthcare; a clinician would never tell a patient that unfortunately their Hb level is too low but fortunately their glucose is too high and so, on average, their lab values are ok. The clinician would combine the glucose level with complaints about fatigue, polydipsia and polyuria and absent arterial pulses with poor wound healing to make sense of the information (both diagnosis and treatment of a specific problem) rather than to merely mathematically average it.

유사 4: 질병을 진단하는 것이 단순히 체크박스 작업이 아닌 것처럼, 체크박스 작업을 가지고 역량부족dyscompetence를 진단하는 것도 효과가 없습니다.
Analogy 4: Like diagnosing a disease is not merely a tick box exercise ‘diagnosing’ dyscompetence using a tick box exercise does not work either

현재, 다양한 교육 및 라이선스 기관들이 '역할roles' 또는 '역량competencies'의 관점에서 결과를 발표했다. 이들은 항상 이러한 역량을 더 상세한 하위 역량 또는 더 깊은 수준의 세부 역량('하위 역량')으로 구분해 왔다. 평가의 관점에서 이것은 종종 두 가지 이유로 인해 문제가 있다고 여겨진다.
Currently, various educational and licencing organizations have published outcomes in terms of ‘roles’ or ‘competencies’. Invariably they have divided these competencies further into more detailed sub-competencies or at even deeper levels of detail (‘sub-sub-competencies’). From an assessment point of view, this is often seen as problematic because of two reasons.

첫째, 그것은 결코 충분하지 않다는 일반적인 느낌이 있습니다. 의학은 거의 무한한 영역이며, [언제나 하위역량 목록에는 추가될 수 있는 다른 항목들이 존재한다. 이는 종종 무엇을 포함시키고 무엇을 빠뜨릴지에 대한 광범위한 토론으로 이어진다. 이는 면허기관뿐만 아니라 의과대학이 교육과정의 내용을 결정하는 데 있어서도 해당된다.
First, there is a general feeling that it is never enough. Medicine seems to be an almost infinite domain and there are always other items that can be added to the list of sub-competencies, often leading to extensive discussions about what to include and what to leave out. This is not only true for licencing bodies but also for medical schools in determining the content of their curriculum.

둘째, '전체'는 '부분'의 합보다 커야 합니다. 그러므로, 역량이 분리된 상세한 항목들의 목록으로 해부될 때, 역량을 평가하기 위해 그것들을 재조합하는 적절한 방법을 찾는 것은 정말 어려운 일입니다. 대부분의 경우에서 [역량 있는 학습자]라면 [방대한 목록의 모든 항목에 체크를 받으리라고 예상하는 체크리스트 접근법]은 작동하지 않을 것이 분명하다.

Second, the ‘whole’ has to be more than the sum of the ‘parts’. So, when dyscompetence is dissected into lists of separate detailed items, finding a proper way to recombine them – to glue them back together again – in order to assess ‘dyscompetence’ is a real challenge. It is clear that a checklist approach, expecting the competent candidate to tick all the items on the extensive lists will not work in most cases.

여기서도 의료와 유사한 점이 도움이 될 수 있습니다. 보건의료에서 모든 진단은 징후와 증상으로 기술될 수 있으며, 교과서는 종종 각각의 진단에 대한 징후와 증상의 긴 목록을 제공한다. 그러나, 환자가 특정 질병으로 진단받기 위해 그것들을 모두 가지고 있을 필요는 없다; 즉, 체크리스트의 모든 항목에 '체크'될 필요는 없다. 대부분의 경우 전문 임상의는 통합된 '게스탈트' 기반으로 진단을 내리고, 그 징후와 증상, 그리고 그/그녀의 평가를 구두로 설명하여 하향식 처리 활동으로서 근거를 설명할 수 있다[16]. 이러한 [게슈탈트 진단 능력gestalt diagnosis]이 없다면, 임상의는 미분 진단에서 각각의 진단에 대해, 모든 징후와 증상에 대한 정확한 PPV와 NPV를 알고, 완전한 상향식 처리를 통해서, 가장 가능성이 높은 진단을 생성하기 위해, 머리속으로 매우 복잡한 수학을 처리해야 할 것이다. 그러나 임상의는 수년간의 훈련을 통해, [휴리스틱과 가이드라인]을 통해 안내된 경험과, [점진적인 탈비계화gradual descaffolding]를 거치며 전문지식을 개발할 수 있는 기회를 가졌다. 평가자들에게도 같은 것이 적용되어야 할 것이다. 이상적으로는 [평가 문해력assessment literacy] 개발에 유사한 접근방식이 평가자에게 적용될 것이다[17].

Here too, an analogy with healthcare can be helpful. In healthcare, every diagnosis can be described in signs and symptoms, and textbooks often provide long lists of signs and symptoms for each diagnosis. But, a patient does not have to have them all to be diagnosed with a certain illness; there is no need to ‘tick all the items’. In most cases the expert clinician makes an integral ‘gestalt’ diagnosis, and is able to verbalize the signs and symptoms and his/her evaluation to explain their rationale, as a top-down processing activity [16]. Without this ability for gestalt diagnosis, the clinician would have to know all the exact positive and negative predictive values of all signs and symptoms for each diagnosis in the differential diagnosis, and do the complex mathematics mentally to produce the most likely diagnosis as a complete bottom-up processing. Yet, the clinician has had the opportunity to develop this expertise through years of training, with the use of heuristics and guidelines, with guided experience and a gradual descaffolding. The same would have to apply to assessors. Ideally a similar approach to the development of assessment literacy would be applied to assessors [17].

그러나 게슈탈트 타입의 하향식 프로세싱을 하더라도, 개별적인 징후와 증상들은 매우 유용하다; 그것들은 환자의 건강 상태를 묘사하고 평가하고 실제로 개선하는데 필요하다. 우리의 '질병'과 '역량부족' 사이의 첫 번째 유사점에 따라, 역량, 하위 역량, 심지어 하위 역량의 긴 목록은 사소한 것이 아니라, 증상 및 findings과 동등한 것으로 사용되어야 한다.  즉, 학습자의 역량을 설명, 평가 및 개선하기 위한 신호인 것이다. 학습자는 모든 하위 역량이 충족되지 않거나, 심지어 평가받지 않아도 매우 competent할 수 있다. 이는 환자가 모든 증상과 소견이 발견되지 않는 상태에서도 특정 진단을 받을 수 있는 것과 매우 비슷하다. 따라서 역량 프레임워크를 체크리스트로 사용하는 대신 평가자의 전문가 판단을 설명하고 지원하는 데 더 잘 사용될 수 있다.

But even with the gestalt-type, top-down processing, individual signs and symptoms are very useful; they are needed to describe, evaluate and actually help improve the patient’s health status. In line with our first analogy between ‘illness’ and ‘dyscompetence’, the long lists of competencies, sub-competencies and even sub-sub-competencies are not trivial, but they are to be used as the equivalent of signs, symptoms and findings to describe, evaluate and improve the learner’s dyscompetence. Of course, a learner can be highly competent despite not all sub-competencies being met or even assessed, much like a patient can have a certain diagnosis without all the symptoms and findings being present or being diagnosed. So instead of using competency frameworks as checklists they are probably better used to explain and support the assessors’ expert gestalt judgements.

유사 5: 의료 및 평가 시스템은 모두 [전문가]에게 의존하며, 이들은 개발과 육성이 필요하다.
Analogy 5: Healthcare and assessment systems both rely on expert practitioners that must be developed and nurtured

어떤 의료 조직도 의료진의 전문성expertise 없이는 작동하지 못한다는 것은 명백합니다. 조직 내 절차의 표준화 및 구조화가 의료의 품질에 매우 유익하지만(예를 들어 증거 기반 의학은 의료 의사결정에 더 많은 정보를 제공하는 데 있어 중요한 역할을 해왔다) 전문성expertise을 대체하지는 못합니다. 환자 차트의 포맷이 우수하다면, 임상의가 상담을 원활히 수행하도록 지원해준다는 점에서 유용하지만, 형식 자체가 의사의 전문성을 대체하지는 못한다. 더욱이, Hb 예와 같이, 데이터 수집은 객관적으로 이루어질 수 있지만, 데이터 해석은 결코 그렇지 않다. 동일한 Hb 수치는 한 환자에서 우려의 원인이 될 수 있고 다른 환자에서 낙관론의 이유가 될 수 있다.
It is clear that no medical organization can function without the expertise of its healthcare staff. Although standardization and structuring in procedures in the organization has been very beneficial to the quality of healthcare – evidence-based medicine for example has been instrumental in ensuring that medical decisions are more evidence informed – they do not provide a substitute for expertise. A good format for a patient chart is helpful when it supports the clinician in doing a consultation but the form in itself does not replace the physician’s expertise. Moreover, as with the Hb example, data collection can be done objectively, but data interpretation never is. The same Hb level can be cause for concern in one patient and reason for optimism in another.

평가에 대해서도 마찬가지다. 전통적인 평가에 대한 미신 중 하나는 평가가 객관적이어야 한다는 것이나, 평가는 결코 객관적이지 않다. 가장 구조화된 객관식 시험조차도 수많은 인간 판단의 결과이다: 어떤 주제를 다루어야 하는지, 시험 사이의 주제 구분 - 청사진 - 포함시킬 실제 항목, 항목의 문구 등. 객관화된 것은 오직 마지막 부분인 데이터 수집일 뿐이다. 그저 [전문가의 주관적인 판단이 모조리 시험지 제작에 사용되었기 때문에], 양식의 배포, 답안지를 수거, 심지어 점수 계산까지 어린이도 할 수 있을 뿐이다. [직장 중심의 평가WBA]는 정반대이기 때문에, [관찰]에 전문성이 필요하다. 평가 양식의 구체적 디자인은 상대적으로 덜 중요하고, 전문 심사관이 업무를 수행하는 데 도움이 되는지가 더 중요하다. 분명히 우리는 어린이가 WBA를 수행하거나, 심지어 전무성 없는 성인이 WBA를 수행하는 것은 꿈조차 꾸지 않을 것이다.
The same applies to assessment; a common myth with the traditional approach is that assessment should be objective, but assessment actually never is. Even the most structured multiple choice examination is the result of numerous human judgements: what topics to cover, the division of topics among the test – the blueprinting –, the actual items to include, the wording of the items, etc. It is only the final part, the data collection, which is objectified. Young children would be able to hand out the forms, take in the answer sheets and even calculate the scores, simply because all the subjective expert judgments have been used in the production of the test paper. With workplace-based assessment it is exactly the other way around, the expertise is needed when the observation is made. The specific design of the form is relatively unimportant as long as it facilitates the expert examiner in their task. Clearly we would not dream of having our young children perform a workplace-based assessment, or even an adult with no specific expertise.

결론은, 모든 유형의 평가에서, [(다양한 보건 전문가 영역에서) 전문성을 가진 인간의 판단이 필요]하며, 이 판단은 [충분한 내용 전문성]과 [평가 전문성]을 기반으로 하는 경우에만 타당하고 신뢰할 수 있다는 것이다[12, 18]. 전문가를 효과적이고 효율적으로 지원하고 촉진하며 신중성과 투명성, 문서화, 대학간 협의가 이뤄질 수 있는 절차를 갖춘 조직의 지원을 받아야 한다. 따라서 이러한 조직은 [교수 개발]과 [평가 전문성 개발]에 자원을 투입해야 합니다. 이것의 궁극적인 결과는, 평가가 단순한 [측정 문제]가 아니라 [교육 설계와 직원 개발 문제]라는 것이다.
The bottom line is that in every type of assessment expert human judgement – from various health professional domains – is needed and this judgement is only valid and reliable if it is based on sufficient content and assessment expertise [12, 18]. It must be supported by an organization that will effectively and efficiently support and facilitate the expert and that has procedures in place to ensure carefulness, transparency, documentation, and inter-collegial consultations. Therefore, such an organization will need to devote resources to staff development and development of assessment expertise. The ultimate corollary of this is that assessment is not merely a measurement problem, but an educational design and staff development issue.

결론
Conclusion

이러한 유사성을 통해 우리는 평가에서 현재의 발전 이면에 있는 사고와 의료 사고방식에 의해 실제로 어떻게 높은 정보를 얻을 수 있는지를 설명하려고 노력했습니다. 우리가 길게 다루지 않은 유사점 중 하나는 [돌봄care의 연속성]에 대한 것이다. 건강health과 마찬가지로, 최적의 역량competence 개발을 위해서는 [지속성longitudinality]이 중요하며, 여러 기관 간 인수인계가 필수적입니다. 충분한 정보가 기록된 문서가 없다면, 인계는 거의 불가능하며, 여러 교육 단계 간의 '인계'도 마찬가지입니다. 학부부터 대학원, 그리고 지속적인 의학 교육에 이르기까지, 프로그래밍 방식의 평가는 역량 개발을 모니터링하고 최적화하는 통로가 될 것입니다. 

With these analogies we have tried to illustrate the thinking behind current developments in assessment and how it is actually highly informed by the thinking in healthcare. One of the analogies we have not discussed in length is the one with continuity of care. For optimal development of competence, as with health, longitudinality is important and hand-overs for example between echelons are essential. Hand-over without an informative document is nearly impossible and so would be the ‘hand-over’ between stages of training. From undergraduate to postgraduate to continuing medical education, programmatic assessment would be the conduit through which competence development is monitored and optimized.

그러나, 솔직히 말하면, 교육 개념으로서의 프로그램적 평가가 [현실적 맥락]과 맞닿아야 하는 부분이 여기에 있다. 전세계적으로 성공적인 프로그램적 평가 구현의 사례가 있지만, 이는 중요한 의제로 다뤄져야 한다. [5, 7] 이에 대한 이유는 정확히 프로그램 평가와 건강관리 사이의 유사성이 실패하는 측면에 있다. 가장 중요한 차이점은 다른 문화이다;

  • [환자들은 일반적으로 의사를 그들의 지지자supporter]로 보지만, [평가를 받는 학습자들은 종종 평가자를 그들의 상대opponent]로 본다.
  • [환자들은 진단과 치료 과정으로서 건강관리의 실천에 익숙]하며, 그것은 그들이 의사와 상담할 때 기대하는 것입니다. 반면 교육생, 학습자, 교사들의 교육 경험은 프로그램 평가와는 상당히 달라왔기에, PAL을 시행하기 전에, 무엇이 [정상 평가normal assessment]를 구성하는지에 대한 교수자와 학습자의 생각이 바뀌어야 할 것이다.

But, to be frank, here is where programmatic assessment as an educational concept has to come to grips with the practical context. Despite the successful implementations of programmatic assessment around the world, this is the aspect that should be put high on the agenda [5, 7]. The reason for this lies precisely in the aspects in which the analogy between programmatic assessment and healthcare fails. The most important difference is the different cultures;

  • in healthcare, patients generally see their doctor as their supporter but in assessment learners often see their examiner as their opponent.
  • Also, patients are used to the practice of healthcare as a diagnostic and therapeutic process and it is what they expect when they consult a doctor. The experiences with education of trainees, learners and teachers on the other hand, have been quite different from programmatic assessment and therefore their ideas about what constitutes normal assessment will need to change before PAL can be implemented.

비록 제한적이더라도, 우리가 [프로그램적 평가]와 [건강관리] 사이의 유사성이 평가 개발자와 감독자/학생/훈련자 사이의 보다 공통적인 언어를 개발하는 데 도움이 될 수 있기를 바라는 이유이다. 우리는 [공유된 의사 결정을 통해 환자를 건강관리에 참여시키는 것]처럼, 이러한 [공유된 언어]가 평가 과정에 교수자와 학습자의 참여를 더욱 자극하기를 바란다.

This is why we hope that these analogies between programmatic assessment and healthcare, limited as they may be, can help in developing a more common language between assessment developers and supervisors/students/trainees. We hope further that such a shared language would stimulate their involvement in the assessment process, much like involving patients in management through shared decision making.


Perspect Med Educ. 2017 Aug;6(4):211-215.

 doi: 10.1007/s40037-017-0345-1.

What programmatic assessment in medical education can learn from healthcare

Affiliations collapse

Affiliations

1Prideaux Centre for Research in Health Professions Education, School of Medicine, Flinders University, Adelaide, South Australia, Australia. l.schuwirth@maastrichtuniversity.nl.

2Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands. l.schuwirth@maastrichtuniversity.nl.

3Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands.

4Prideaux Centre for Research in Health Professions Education, School of Medicine, Flinders University, Adelaide, South Australia, Australia.

5Department of Medicine and Pathology, F. Edward Hébert School of Medicine, Uniformed Services University, Bethesda, USA.

PMID: 28397009

PMCID: PMC5542889

DOI: 10.1007/s40037-017-0345-1

CBME에서 프로그램적 평가의 계획과 설계(Med Teach, 2021)
Key considerations in planning and designing programmatic assessment in competency-based medical education
Shelley Rossa,b , Karen E. Hauerc , Keith Wycliffe-Jonesd , Andrew K. Halle,f , Laura Molgaardg , Denyse Richardsonf,h , Anna Oswaldf,i , and Farhan Bhanjif,j ; On behalf of the ICBME Collaborators 

 

소개
Introduction

역량 기반 의료 교육(CBME) 맥락에서 평가에 대한 효과적인 접근방식을 설계하고 구현하는 것은 어려운 노력이다(Lurie 2012). 2017년 해리스 외 연구진(2017)은 평가 프로그램(프로그래밍 평가)의 설계를 고려해야 한다고 결론내리며, 그 이유를 어떤 하나의 평가도 모든 역량에 대한 타당한 평가를 할 수 없기 때문이라고 설명했다. 오히려, [바람직한 성과]와 [평가]를 연결하는 프로세스를 가진 명확한 프레임워크 내에서, [목적에 적합한 여러 관찰과 도구의 의도적인 결합] 또는 [프로그래밍적 평가]가 아마도 앞으로의 방법일 것이다(Iobst and Holmboe 2020; Lockyer et al. 2017).
Designing and implementing an effective approach to assessment in competency-based medical education (CBME) contexts is a challenging endeavour (Lurie 2012). In 2017, Harris et al. (2017) concluded that designing a program of assessment (programmatic assessment) warrants consideration, because no one tool or single assessment will result in valid assessment of all competencies. Rather, programmatic assessment, or the intentional combining of multiple observations and tools fit for purpose, within a clear framework with processes to link assessments to desired outcomes, is probably the way forward (Iobst and Holmboe 2020; Lockyer et al. 2017).

Van Der Vleuten과 Schwirth(2005)에 의한 건강 전문직 교육의 맥락에서 프로그램 평가에 대한 첫 번째 설명은 [다수의 평가 사례에 걸친 표본 추출 증가의 필요성]과 [통합적 평가 프로그램의 필요성]에 대한 이전의 제안을 바탕으로 작성되었다(Van Der Vleuten 1996). 2011년에 CBME의 글로벌 도입은

  • 학습자 중심의 접근방식을 활용하고
  • 역량에 초점을 맞추고
  • 학습의 평가와 학습을 위한 평가 모두를 고려하고,
  • 역량을 평가하고 학습자의 진행 궤적을 결정하기 위해 복수의 평가자가 완료한 여러 도구를 통합하는

...평가 프레임워크를 요구했다.

The first description of programmatic assessment in the context of health professions education by van der Vleuten and Schuwirth (2005) built on earlier proposals about the need for increased sampling across multiple assessment occasions (Van Der Vleuten 1996) and the need for an integrated assessment program (Baartman et al. 2007). In 2011, the global introduction of CBME called for assessment frameworks that

  • utilize a learner-centred approach,
  • focus on competencies,
  • consider assessment both for learning and of learning, and
  • incorporate multiple tools completed by multiple assessors to assess competence and determine a trajectory of progress for the learner (Ross et al. 20112012; McEwen et al. 2015).

기존 관행과 크게 다른 새로운 아이디어 또는 보건 직업의 접근방식을 채택하면 위험과 이점이 모두 존재한다. 이론이나 증거에서 적용으로의 이동은 종종 도전과 장애로 가득 찰 수 있다. 
With any adoption of new ideas or approaches in health professions education that differ significantly from existing practices there are both risks and benefits. The move from theory or evidence to application can often be fraught with challenges and obstacles. 

임상 교육에서 개념으로서의 프로그램 평가는 여전히 새로운 개념이며, [프로그래밍 평가에 대해 발표하는 학계]와 [이론을 실행에 옮기는 책임을 지는 일선 임상 교육자]들 사이에 단절이 있을 수 있다(Bok 등 2013; Bate 등 2020). 따라서, 필수적인 시작은 모든 사람이 그러한 새로운 아이디어나 혁신적인 관행과 이를 뒷받침하는 원칙에 대한 통일된 이해를 공유하도록 하는 것이다. 
Programmatic assessment as a concept is still novel for many in clinical education, and there may be a disconnect between the academics who publish about programmatic assessment and the front-line clinical educators charged with putting theory into practice (Bok et al. 2013; Bate et al. 2020). Therefore, an essential beginning is to ensure that everyone shares a unified understanding of such new ideas or innovative practices and the principles that underpin them. 

 

프로그래밍식 평가란 무엇인가?
What is programmatic assessment?

[프로그램 평가]는 '합목적성을 최적화하기 위해 계획된 평가 방법의 배열'이다(van der Vleuten et al. 2012, 페이지 205). [개별 평가 방법을 개별 과정이나 임상로테이션이나 역량을 위해 별도로 고려하는 기존 접근법]보다 [교육 설계에 더 가까운 접근법]으로서, [세 가지 필수 평가 기준(신뢰성, 타당성, 학습에 미치는 영향)]을 충족하는 다른 평가 방법과 도구의 의도적인 결합이다. 또한, 평가도구는 [도구를 통해 수집된 증거의 조합이, 정의된 성과의 집합에 걸쳐, 학습자의 역량에 대한 방어가능한 평가를 수행하도록 보장]하는 동시에, [학습을 위한 평가를 극대화]하기 위하여 선택된다. 평가 시스템은 학습자의 [역량 향상의 진전에 대한 정보를 수집]하고, [학습을 지원]하는 [이중적인 목적]을 갖는데, 이는 보건 직업 교육과 평가에 대한 생각의 시프트를 나타낸다. 따라서 학습자의 성장과 발전은 프로그램 평가 설계 시 필수적인 고려사항이다.
Programmatic assessment is ‘an arrangement of assessment methods planned to optimize its fitness for purpose’ (van der Vleuten et al. 2012, p. 205). It is the intentional combining of different assessment methods and tools that meet three essential assessment criteria (reliability, validity, impact on learning) in an approach that is closer to instructional design than to traditional approaches that consider individual assessment methods in isolation for separate courses, clinical rotations, or competencies (van der Vleuten and Schuwirth 2005). Further, the choice of tools is intended to maximize assessment for learning, while ensuring that the combination of evidence collected through the tools will result in a defensible assessment of the competence of a learner across a defined set of outcomes (Dijkstra et al. 2010). This dual purpose of the assessment system–to both support learning and capture information about the progress of learners toward competence–represents a shift in thinking about health professions education and assessment (van der Vleuten et al. 2012; Schuwirth and van der Vleuten 2019). The growth and development of learners thus constitutes an integral consideration in designing programmatic assessment (Schuwirth and Van der Vleuten 2011; Heeneman et al. 2015; Van Der Vleuten et al. 2015; Swan Sein et al. 2020).

[프로그램 평가의 설계]에는 [특정 도구를 선택하고, 그 도구를 선택한 이유를 포함해야 하며, 선택된 도구에 의해 산출된 데이터를 사용하는 '의사결정 프로세스'의 구체적이고 상세한 설명]을 포함해야 한다. '의사결정 프로세스'는

  • 복수의 관찰에서 나온 평가 데이터를 결합하는 방법뿐만 아니라
  • 어떻게 해당 데이터를 해석(그리고 누구에 의해 해석)하며
  • 그 결과 어떻게 역량에 대한 진전 또는 입증에 대한 의사결정에 도달하는 지로 구성된다.

표 1은 프로그램 평가가 무엇인지와 아닌지에 대한 그림을 형성하기 위한 프로그램 평가의 필수 요소를 보여줍니다.
Programmatic assessment design includes both the selection of tools, including the rationale for the selection, and a specific detailed description of the decision-making process that uses the data yielded by the selected tools. The decision-making process consists of

  • the way assessment data from multiple observations will be combined, as well as
  • how that data will be interpreted (and by whom),
  • to arrive at a decision about progress toward, or demonstration of, competence (Tweed and Wilkinson 2019; Zoanetti and Pearce 2020).

Table 1 lists the essential elements of programmatic assessment to form a picture of what programmatic assessment is–and what it is not.

 

표 1. 프로그램 평가의 필수 요소.
Table 1. Essential elements of programmatic assessment.

프로그래밍 방식 평가는 이런 것이다.
- 여러 평가 도구를 사용하여 여러 데이터 지점을 기반으로 의사 결정
- 여러 가지 평가 방법
- 데이터 점의 수가 결정의 이해 관계와 비례적으로 관련된 의사결정
- 학습자가 자신의 성과에 대한 데이터를 사용하여 학습 코치의 도움을 받아 자신의 학습을 반성하고 지도하도록 유도
- 여러 관찰자로부터 수집된 증거에 대한 전문적인 판단(전문가 그룹 또는 위원회에 의한)에 기초한 진행 결정

Programmatic assessment IS
- Decision-making based on multiple data points using multiple assessment tools
- Multiple methods of assessment
- Decision-making in which the number of data points is proportionally related to the stakes of a decision
- Encouraging learners to use data about their performance to self-reflect and direct their own learning with the support of learning coaches
- Progression decisions based on professional judgment (by a group of experts or committee) of the compiled evidence from multiple observers

프로그래밍 방식 평가는 이런 것이 아니다.
- 한 번의 검사 - '모든 것'을 검사하는 경우에도 마찬가지입니다.
- 단일 도구로 모든 데이터 수집 (예: 시험만 또는 EPA만 또는 OSCE만)
- 그저 긍정적이고 고무적인 피드백의 모음

Programmatic assessment is NOT
A single examination–even if the examination covers ‘everything’
A single tool for all data collection (e.g. only examinations or only Entrustable Professional Activities or only Objective Structured Clinical Examinations)
A collection of only positive and encouraging feedback

Dijkstra et al. 2010; Eva et al. 2016; Schuwirth and van der Vleuten 2019; Tweed and Wilkinson 2019; van der Vleuten et al. 2012; Van Der Vleuten 1996; van der Vleuten and Schuwirth 2005; Zoanetti and Pearce 2020.

 

 

프로그램 평가 설계를 위한 제안된 지침
Suggested guidelines for the design of programmatic assessment

Norcini 등(2018)이 설명한 좋은 평가를 위한 프레임워크를 기반으로 하는 CARVE 원칙(Bhanji 등. 2020)은 설계자가 평가 도구를 선택하고 도구가 이행되는 목적을 고려할 때 수행해야 하는 초기, 가장 중요한 심의를 알려준다. 특정 평가의 목적에 따라 평가 프로그램을 설계할 때 CARVE가 기술한 다섯 가지 서로 다른 개념과 개별 개념의 목적적합성과 가중치가 달라질 수 있다. 평가 프로그램이 작동되면 CARVE 원칙은 프로그램의 지속적인 품질 개선에도 활용될 수 있습니다.

The CARVE principle (Bhanji et al. 2020), which is based on the framework for good assessment described by Norcini et al. (2018), informs the initial, overarching deliberations that planners must undertake as they select assessment tools and consider the purpose the tools are fulfilling. Depending on the purpose of the particular assessment, the relevance and weighting of each of the five different and separate concepts described by CARVE may vary when designing an assessment program. Once the assessment program is functioning, the CARVE principle can also be utilized in the continuous quality improvement of the program.

  • C = 비용 효과성. 실제 평가 비용, 인적 비용 또는 '적합성' 비용, 실용성 및/또는 실현 가능성을 포함한 비용 효과. 또한, C는 평가 프로그램의 포괄적이고 응집력 있는 성격을 나타낼 수 있습니다.
  • A = 수용성. 학습자, 교수진, 전문 분야 및 사회 전반에 대한 수용성.
  • R = 신뢰성. 평가 결정의 일관성으로 가장 잘 개념화할 수 있습니다.
  • V = 타당성 또는 평가 프로그램의 의도된 구성 측정.
  • E = 교육적 영향
    • 개인 레벨: 도구 또는 평가 전략이 학습 및/또는 학습자에게 피드백을 얼마나 잘 제공하는지
    • 시스템 레벨: 교육과정 설계자에게 정보를 제공하여 품질 개선을 통해 촉매적 효과를 얻을 수 있음

  • C = cost-effectiveness, including actual dollar costs of the assessment, the human or ‘opportunity’ cost, the practicality and/or feasibility. Additionally, C can represent the comprehensive and cohesive nature of the assessment program.
  • A = acceptability to the learners, the faculty, the specialty/discipline, and importantly society at large.
  • R = reliability, which can best be conceptualized as the consistency in the decisions of the assessment.
  • V = validity, or measuring the intended construct(s), of the program of assessment.
  • E = educational impact, both at the
    • individual level (how well the tool or assessment strategy would drive learning and/or feedback to the learner) and
    • systems level (providing information to curriculum designers, which can have a catalytic effect through quality improvement).

평가 프로그램 설계에는 여러 가지 추가 요소가 고려되어야 합니다. 

Multiple additional factors must be considered in designing programs of assessment. 

 

Van Der Vleuten과 Schwirth(2005)가 언급한 바와 같이, 

  • 프로그래밍 방식 평가는 '일관적이고 신뢰할 수 있는 방식으로 교육 훈련 프로그램을 개발하기 위해 채택되는 체계적인 프로세스'인 [교수설계instructional design]와 같은 방식으로 접근해야 합니다.
  • 프로그램 평가는 [결과를 염두에 두고 구축]되어야 한다. 이는 [교육과정 설계]가 [사전에 결정된 역량의 학습과 개발을 지원하기 위해 경험과 콘텐츠를 선택하기 위해 계획되어야 하는 것]과 같은 방식이다. (Torre et al. 2020).
  • 프로그램 평가에서, 선택된 도구와 프로세스는
    • 목적에 적합해야 하며(즉, 진척도나 역량을 결정하는 데 필요한 특정 정보를 수집하는 데 적합해야 함),
    • 커리큘럼 전체에 통합되어야 하며,
    • 방어 가능하고, 타당하며, 신뢰할 수 있는 정보를 제공하기 위해 의도적으로 선택되어야 한다.
      • 그럼으로써 훈련의 진행과 완료에 관한 고부담의 결정에 대한 적절한 서포트를 제공할 수 있다.

As stated by van der Vleuten and Schuwirth (2005),

  • programmatic assessment should be approached in the same way as instructional design, which is ‘a systematic process that is employed to develop education and training programs in a consistent and reliable fashion’ (Reiser and Dempsey 2012, p.11).
  • Programmatic assessment should be built with outcomes in mind in the same way that curricular design should be planned around selecting experiences and content to support learning and development of predetermined competencies (Torre et al. 2020).
  • With programmatic assessment, the tools and processes that are chosen should be
    • fit for purpose (i.e. well suited to collecting the specific information needed to determine progress or competence),
    • integrated across the curriculum, and
    • deliberately selected to give defensible, valid, and reliable information
      • that will provide adequate support for high-stakes decisions around progress and completion of training (van der Vleuten et al. 20122015).

종종 간과되는 프로그래밍 평가의 중요한 출발점은 [맥락의 중요성]이다(Bates and Ellaway 2016; Berkhout et al. 2018). 프로그래밍식 평가를 위한 'one size fits all' 설계는 없다. 고도로 집중된 전문 분야에 가장 적합한 도구와 프로세스는 보다 일반적인 실무에는 적합하지 않을 수 있습니다. 마지막으로, 프로그래밍 평가 설계는 임상 전 훈련과 임상 훈련 사이에 차이가 있을 것이다. 
A crucial starting point for programmatic assessment that is often overlooked is the importance of context (Bates and Ellaway 2016; Berkhout et al. 2018). There is no ‘one size fits all’ design for programmatic assessment; the tools and processes that are best suited to a highly focused specialty may well not be as suitable for a more generalist practice. Finally, programmatic assessment design will differ between preclinical and clinical training. 

 

1단계: 목적 설명
Step 1: Articulate the purpose

프로그래밍 평가 설계에서 [첫 번째이자 가장 어려운 단계]는 모든 이해당사자를 식별하고 평가 프로그램의 목적에 동의하는지 확인하는 것이다.

  • 학습과 교육적 영향(CARVE 원칙의 E)에 초점을 맞추고 있는가?
  • 또는 평가의 주요 관심사는 (대학원 교육 과정에서의 선행과 마찬가지로) 의사결정의 타당성과 방어 가능성입니까?

The first, and arguably most difficult, step in designing programmatic assessment is to identify all stakeholders and ensure they agree on the purpose of the program of assessment.

  • Is the focus on learning and the educational impact (the E of the CARVE principle)?
  • Or is the primary concern of the assessment the validity and defensibility of the decisions (as in advancement to postgraduate training)?

이 첫 번째 단계의 과제는 목적의 모든 측면이 고려되고 논의되고 분명하게 표현되도록 하는 것입니다. 이 단계에서는 다음 사항에 대한 논의와 합의가 필요합니다.
The challenge with this first step is ensuring that all aspects of the purpose are considered, discussed, and articulated. This step requires discussion and agreement on:

  • (1) 평가 시스템의 전반적인 초점 또는 의도
  • (2) '기준 설정'(시스템 내 학습자의 최종 목표) 및
  • (3) 발생해야 하는 평가 유형.

(1) the overall focus or intention of the assessment system;

(2) ‘setting the bar’ (the end goal for learners within the system); and

(3) the types of assessment that should occur.

전통적으로, 의학 교육의 평가 접근법은 훈련 프로그램에서 학습자의 순위를 매기거나 분류하는 것, 또는 학습 능력이 떨어지는 학습자를 식별하는 것에 초점을 맞추었다. CBME(Van der Vleuten and Schwirth 2005; Dijkstra et al. 2010)에 대해 프로그램 평가가 기술되고 정의되었듯이, [평가 프로그램의 목적]은 [역량의 학습과 개발을 촉진하는 방식으로 평가와 교육 및 교육 설계를 통합하는 것]이어야 한다. 문헌에서 이러한 프로그램 평가의 프레임(즉, 성과의 우열을 식별하기 보다는, 모든 학습자의 역량 개발을 목적으로 함)은 일관되지만, 프로그램 평가 설계자와 프로그램 평가가 구현될 커리큘럼 내에서 이 초점을 분명히 표현할 필요가 있다. Cronbach alpha와 같은 신뢰성에 대한 전통적인 접근법(CARVE원칙의 R)은 학습자 간의 점수 분포에 의존하므로 역량 기반 모델에 사용하기에 적합하지 않을 수 있다. 
Traditionally, assessment approaches in medical education have focused on ranking or classifying learners in training programs, or on identifying learners who are underperforming. As programmatic assessment has been described and defined for CBME (van der Vleuten and Schuwirth 2005; Dijkstra et al. 2010), the purpose of the program of assessment should be to integrate assessments with curricular and instructional design in a way that facilitates learning and development of competence (Schuwirth and Ash 2013). Although this framing of programmatic assessment is consistent in the literature, this focus–on development of competence for all learners rather than on identifying superior or inferior performance–does need to be articulated among programmatic assessment designers and within the curriculum where programmatic assessment will be implemented. Traditional approaches to reliability (the R of the CARVE principle), such as the Cronbach alpha, rely on a spread of scores among learners, and therefore may not be suitable for use in competency-based models.

또한, [평가 프로그램의 최종 목표]에 대한 결정이 필요합니다. 이러한 목표는 상황에 따라 달라질 수 있습니다.

  • 임상 전 훈련의 경우 학습자가 특정 지식 및 기술의 숙달도를 입증하는 것이 목표일 수 있습니다.
  • 임상훈련의 경우 학부 의학교육(UME)과 졸업후의학교육(PGME)에 따라 기준이 다를 것이다.
  • UME에서 바는 학습자가 정의된 역량에 대해 특정 수준의 역량을 입증하는 것이고,
  • PGME의 경우 학습자가 특정 전문 분야에 대한 감독되지 않은 실습에 대한 역량을 입증하는 것입니다.

In addition, decisions need to be made about the end goal for the program of assessment. This goal will differ depending on context:

  • for preclinical training, the goal may be for learners to demonstrate mastery of a specific set of knowledge and skills.
  • For clinical training, setting the bar will be different between undergraduate medical education (UME) and postgraduate medical education (PGME).
  • In UME, the bar will be for learners to demonstrate a specific level of competence for a defined set of competencies;
  • for PGME, the bar will be for learners to demonstrate competence for unsupervised practice in a particular specialty.

평가 프로그램의 목적에 대한 최종 고려사항은, 특히 CBME에서, [평가가 학습과 통합되고 지원되는 방식으로 프로그램이 전체적으로 설계되도록 하는 것]이다. 잘 설계된 평가 프로그램은 다음과 같은 세 가지 주요 유형의 평가를 모두 통합한다. 학습 평가, 학습을 위한 평가, 학습으로서 평가(Box 1)가 그것이다. 
The final consideration of the purpose of the program of assessment is to ensure that the program overall is designed in such a way that assessment is integrated with and supports learning (Van Der Vleuten 1996; Schuwirth and Ash 2013), especially in CBME. A well-designed program of assessment will incorporate all three major types of assessment: assessment of learning (Black and Wiliam 1998), assessment for learning (Black and Wiliam 1998; Schuwirth and Van der Vleuten 2011), and assessment as learning (Torrance 2007) (Box 1).

프로그램 평가를 설계할 때 평가 도구의 [이중 활용]을 고려할 때 주의해야 합니다. 학습에 대한 여러 평가의 집계가 전반적인 학습 평가와 관련된 결정을 뒷받침하는 증거의 일부로 방어적으로 사용될 수 있지만, 학습자가 모든 평가가 고부담 평가라고 받아들이며, 피드백, 코칭, 성장을 위해서 반드시 필요한 [약점의 노출]을 하지 않으려고 할 상당한 위험이 있다. 따라서 평가의 목적이 모든 관련자에게 명확하고 투명하며, 모든 이해 당사자가 평가 환경과 프로세스를 안전하다고 인식하고 학습자가 완전히 참여하도록 하는 것이 중요하다(Watling and Ginsburg 2019).

In designing programmatic assessment, it is important to be cautious when considering the dual-purposing of assessment tools. Although the aggregations of multiple assessments for learning can be defensibly used as part of the evidence to support a decision associated with an overall assessment of learning, there is substantial risk that learners may assume all assessments are high stakes and may not engage in the exposure of deficiencies or struggles necessary for effective feedback, coaching, and growth. It is, therefore, crucial that the purpose of assessment be clear and transparent to all involved, to ensure that all stakeholders perceive the assessment environment and process to be safe and that learners fully engage with it (Watling and Ginsburg 2019).


박스 1 평가의 세 가지 주요 유형.
Box 1 
The three main types of assessment.

학습의 평가 = 학습자가 개념 또는 기술을 익혔는지에 대한 엔드포인트 측정

Assessment of learning = an end-point measure of whether a learner has mastered a concept or skill

학습을 위한 평가 = 학습자의 [역량 수준에 대한 저부담 수준의 정보]를 제공하여, 학습자에게는 무엇을 잘 했고 어떻게 개선할지에 대해, 교수자에게는 학습경험을 조정하고 각 학습자에게 줄 피드백에 대해 정보를 제공한다.

Assessment for learning = low-stakes information about a learner’s level of competence that gives the learner information about what went well and how to improve, and informs teachers to enable them to adjust learning experiences and feedback to each learner

학습으로서 평가 = 학습자가 자신의 학습을 모니터링하고 반영할 수 있는 기회를 제공하는 도구 또는 프로세스

Assessment as learning = tools or processes that give the learner opportunities to monitor and reflect on their own learning


2단계: 평가 대상 결정
Step 2: Determine what must be assessed


계획자들은 평가 대상을 결정할 때 여러 가지 고려를 할 필요가 있다. 여기에는 다음이 포함된다.

  • 전반적인 성과와 평가 대상 및 주제의 정렬,
  • 맥락에 대한 고려,
  • 평가 기회를 우선함으로써 방어 가능한 진급 결정을 지원하기 위해 역량에 대한 올바른 증거가 수집되도록 함

Planners need to take a number of considerations into account when determining what must be assessed. These include

  • the alignment of assessment targets and topics with overall outcomes,
  • consideration of the context, and
  • prioritizing assessment opportunities to ensure the right evidence of competence is collected to support defensible progress decisions.

1단계에서, 기획자들은 프로그래밍 방식의 [평가의 최종 목표나 성과]를 결정합니다. 2단계에서, 그들은 그 결과를 더 작은 수준에서 고려한다. 용어는 참조된 문헌에 따라 다를 수 있지만, '활성화 역량Enabling competencies'라는 개념을 사용할 것입니다. 이는 ACGME가 프로그램 평가 설계의 이러한 측면을 논의할 때 사용하는 용어인 '하위 역량subcompetencies'과 비교된다.

  • 활성화 역량Enabling competencies은 학습자가 자신의 교육 프로그램에 의해 설정된 기준 레벨에서 유능하다고 간주되기 위해 입증해야 하는 기술, 행동 및 지식입니다.
  • 활성화 역량Enabling competencies은 거시적 수준의 역량의 전체를 구성하는 부분으로 볼 수 있으며, 훈련 프로그램이 설정한 거시적 수준의 역량에 따라 일부 중복되는 부분이 있다. 

In Step 1, planners determine the end goal or outcome of the programmatic assessment. In Step 2, they consider that outcome at a more micro level. While the terminology may differ depending on the literature consulted, we will use the concept of ‘enabling competencies’ (Redwood-Campbell et al. 2011; Lacasse et al. 2014); it is comparable to ‘subcompetencies,’ the term used by the Accreditation Council for Graduate Medical Education (Edgar et al. 2020) in discussing this aspect of designing programmatic assessment.

  • Enabling competencies are those skills, behaviours, and knowledge that learners must demonstrate to be considered competent at the level of the bar set by their training program.
  • Enabling competencies can be considered as the parts that make up a whole of a macro-level competency, and some of them overlap under the macro-level competencies set by a training program.

프로그래밍 방식 평가를 설계할 때, 반드시 [평가되어야 하는 역량들을 명확하게 표현]하는 것뿐만 아니라, 그러한 [역량들이 평가되어야 하는 맥락들을 명확히 하는 것]이 필수적이다. 예를 들어,

  • 학습자가 유능한 성인 환자와 함께 일하는 데 필요한 의사소통 기술과
  • 아이들과 함께 일하는 데 필요한 의사소통 기술은 다를 것입니다.

프로그래밍 방식의 평가 도구와 프로세스는 맥락의 차이를 허용해야 한다. 그래야 학습자가 자신의 전문 분야에 필요한 기술, 행동 및 지식을 적절하게 평가받기 위해 최소한의 역량을 입증해야 하는 맥락의 대표적인 표본에 걸쳐 평가받을 수 있을 것이다.

In designing programmatic assessment, it is essential to articulate the enabling competencies that must be assessed, as well as to clarify in which contexts those competencies must be assessed. For example,

  • the communication skills learners need to work with competent adult patients will be different from
  • the communication skills they need to work with children.

The programmatic assessment tools and processes should allow for differences in context to ensure that learners are adequately assessed in the necessary skills, behaviours, and knowledge of their specialty, across at least a representative sampling of the contexts in which competence must be demonstrated.

또한, 프로그램 평가 설계는 [평가될 모든 역량에 평가 기회를 분배]해야 한다. 이것은 전문분야의 요구되는 모든 역량에 대해 동일한 수의 평가가 수행되어야 한다는 것을 의미하지는 않습니다. 오히려 평가자에게 [무엇을 평가해야 하는지]와 [무엇이 역량의 충분한 증거를 구성하지는에 대한 기대]가 명확한 가이드라인으로 있어야 한다는 의미이다.

  • 예를 들어, 학습자는 [전원요청서]나 [차트]를 평가할 때 필요한 횟수와 [임상 추론]이나 [환자 관리management]를 평가할때 필요한 횟수가 다를 것이다.
    • 전자의 경우, 대부분의 학습자가 제한된 수의 관찰에서 역량을 입증할 수 있습니다. 일단 학습자가 몇 번의 관찰을 통해 적절한 전원요청서를 작성하거나 차트 항목을 작성할 수 있다는 것을 보여주면 학습자가 계속해서 역량 있는 행동과 기술을 입증할 수 있다는 것을 신뢰할 수 있습니다.
    • 그러나 임상추론 역량에 대해서는, 충분한 증거가 축적되기 위해서는 다양한 임상표현에 걸친 임상적 추론의 다중 평가가 필요하다.

Further, design of programmatic assessment should distribute assessment opportunities across all competencies to be assessed. This does not mean that equal numbers of assessments need to occur for every required competency of a specialty. Rather, there should be clear guidelines for assessors about what should be assessed and about expectations regarding what constitutes sufficient evidence of competence.

  • For example, a learner would not need the same number of assessments of referral letters or charts as they would of examples of clinical reasoning or management.
    • In the former case, most learners could demonstrate competence in a limited number of observations–once a learner shows that they can write a good referral letter or chart entries appropriately over a few observations, that learner can probably be trusted to continue to demonstrate that competent behaviour and skill.
    • However, multiple assessments of clinical reasoning will be needed across a variety of presentations in order for sufficient evidence of competence to be accumulated.

계획하는 프로그램 평가는 [모든 역량이 충분히 평가]될 것을 기대하는지에 대해 명확해야 한다. 의료교육은 [임상지식이나 전공 특이적 술기]를 우선시하고, 전문직업성, 환자중심 진료, 의사소통 능력 등 다른 역량에 중점을 두지 않는 경향이 있다(Poulton and Rose 2015). 그러나 후자의 역량은 환자 안전 관점 또는 환자 만족도 관점에서 안전한 의료 실행에 필수적이다. 데이스 등은 'adverse outcome이나 near-miss outcome에 기여하는 가장 일반적인 요인은 의사소통 장애와 부적절한 관리 조정이었다'고 언급했다. 잘 설계된 프로그램 평가는 [모든 역량에 대한 평가의 필요성]을 분명히 해야 하며, 핵심 이해관계자를 구성하는 환자와 공공에 대한 수용성(CARVE 원칙의 A)의 중요성에 부합해야 한다.

Those planning programmatic assessment should be clear about whether it is expected that all competencies will be sufficiently assessed. There is a tendency in medical education to prioritize clinical knowledge or specialty-specific skills and to place less emphasis on other competencies such as those related to professionalism, patient-centred care, and communication skills (Poulton and Rose 2015). However, the latter competencies are essential to the safe practice of medicine, whether from a patient safety perspective (Levinson et al. 1997; Ambady et al. 2002) or a patient satisfaction perspective (Montini et al. 2008; Lee et al. 2010). Deis et al. (2008) noted that ‘the most common factors contributing to adverse or ‘near-miss’ outcomes … were communication failures and inadequate coordination of care.’ Well-designed programmatic assessment should make explicit the need for assessment of all competencies and aligns with the importance of acceptability (the A of the CARVE principle) to patients and the public, who constitute a key stakeholder group.

 

3단계: 용도에 맞는 도구 선택
Step 3: Choose tools fit for purpose

Iobst와 Holmboe(2020)가 언급한 바와 같이, '정확하고 효과적으로 수행된다면, 프로그램적 평가는 학습을 최적화하고, 원하는 결과를 향한 학습자 진급에 관한 의사결정을 용이하게 하며, 프로그램의 품질 개선 활동에 정보를 제공해준다'. 이러한 목표를 달성하려면, [복수의 평가 도구]가 필요하며, 이 도구들은 [특정 도메인과 맥락에서 학습자 역량에 관한 정보를 수집하기에 가장 적합한 것]으로 의도적으로 선택해야 한다.

As stated by Iobst and Holmboe (2020), ‘done accurately and effectively, effective programmatic assessment optimizes learning, facilitates decision-making regarding learner progression toward desired outcomes, and informs quality improvement activities of the program.’ To achieve these aims, multiple assessment tools are needed, intentionally chosen to ensure that each tool is the most appropriate one to collect information about learner competence in a specific domain and context.

위탁 가능한 전문 활동(EPA) 및 현장 노트와 같이, 일부 도구는 매우 다용도적이어서 다수의 역량multiple competencies을 평가할 수 있다. 그러나 특정 도구가 얼마나 유혹적이고 편리하게 보일지 몰라도, 모든 역량을 동등하고 효과적으로 평가할 수 있는 완벽한 도구는 없다. 프로그래밍 방식 평가는 감당할 수 없을 정도로 많은 평가 도구를 보유하는 것을 의미하지 않는다. [제한된 수의 서로 다른 도구]라도 적절하게 선택되면, 여러 역량에 걸쳐 강력한 평가를 할 수 있으며, 비용 효율적일 수 있습니다(CARVE 원칙의 C).

Some tools, such as assessments of entrustable professional activities (EPAs) (Ten Cate 2005) and field notes (Donoff 1990, 2009), are highly versatile in assessing multiple competencies; however, there is no one perfect tool that will equally and effectively allow for assessment of every competency, despite how tempting and convenient that prospect might be. Programmatic assessment does not mean having an unwieldy number of assessment tools; even a limited number of different tools, appropriately selected, will often allow for robust assessment across competencies and will be cost-effective (the C of the CARVE principle).

프로그램 평가 설계에 포함할 도구를 결정할 때, 계획자는 [모든 역량을 학습 활동 및 평가 도구에 매핑]해야 한다. 이 매핑은 각 활동에 가장 적합한 도구의 선택을 안내합니다. 

  • 임상 지식(학습자가 아는 것)은 필기 시험을 통해 가장 잘 평가된다. 
  • 임상 지식의 적용(학습자가 보유한 지식을 사용하는 방법)은 객관적 구조 임상 검사(OSCE), 직장 기반 평가 또는 미니 임상 검사(Mini-CEX)와 같은 다른 도구를 통해 더 잘 평가된다.
  • 환자 중심의 관리 및 의사소통 기술과 같은 일부 역량은 학습자가 실습하는 임상 환경에서 학습자를 직접 또는 간접적으로 관찰함으로써 가장 잘 평가된다.
  • 전문직업성은 단순히 좋은 전문직업성이 어떤 모습이어야 하는지에 대한 학습자 리포트가 아니라, 실제 행동을 포착하는 평가 방법이 필요하다.

In determining which tools to include in programmatic assessment design, planners must map all of the competencies to learning activities and assessment tools. This mapping guides selection of the most appropriate tool for each activity.

  • Clinical knowledge (what a learner knows) is often best assessed with written examinations.
  • Application of clinical knowledge (how a learner uses the knowledge that they possess), however, is better assessed through different tools, such as objective structured clinical examinations (OSCEs), workplace-based assessments, or Mini Clinical Examinations (Mini-CEX).
  • Some competencies, like patient-centred care and communication skills, are best assessed through direct or indirect observation of a learner in the clinical environment in which they practise.
  • Professionalism, in particular, requires assessment methods that capture actual behaviour, and not just a learner’s report of what good professionalism should look like.

 

4단계: 평가의 이해관계를 고려합니다.
Step 4: Consider the stakes of assessment

학습을 최적화하고 의사결정을 용이하게 하기 위한 프로그래밍 평가의 목표를 유지하기 위해 잘 설계된 프로그래밍 평가에는 아래의 두 가지가 모두 포함되어야 한다. 

  • 저부담 평가(학습을 위한 평가, 학습으로서 평가)
  • 고부담 평가(학습의 평가, 학습으로서 평가)

In keeping with the goal of programmatic assessment to both optimize learning and to facilitate decision-making, well-designed programmatic assessment must include both

  • low-stakes assessment (assessment for learning; some assessment as learning) and
  • high-stakes assessment (assessment of learning; some assessment as learning).

저부담 평가는 학습자의 발달 궤적을 추적하는 데 유용하며, 안전하고 지지적인 학습 환경에서 실수를 할 수 있는 기회를 제공하며, 이를 통해 환자 안전을 위험에 처하게 만들지 않으면서도 교육 프로그램을 통해 전반적인 진척을 이룰 수 있다. 따라서 저부담 평가는 다음과 같은 역할을 할 수 있다. 

  • 학습을 위한 평가(학습자는 자신의 강점과 격차가 어디에 있는지 알고, 교수자에게 학습자의 진척도와 gap에 대한 정보를 준다) 
  • 학습으로서 평가(학습자가 자신의 역량에 대한 판단을 돌아보고, 해당 정보를 사용하여 학습을 계속 집중할 수 있음).

Low-stakes assessments are useful for tracking the developmental trajectory of learners and offer an opportunity for learners to make mistakes in a safe and supportive learning environment, from which they can learn without jeopardizing their overall progress through a training program and without putting patient safety at risk. Low-stakes assessments can thus serve

  • as assessment for learning (letting a learner know where their strengths and gaps might be and informing teachers about learners’ progress and gaps)
  • as well as assessment as learning (allowing learners to reflect on judgments made about their competence and use that information to focus their learning going forward).

고부담 평가도 필요하다. 고부담 평가는 교육 프로그램 동안 학습자와 교육 프로그램 모두에게 진척도에 대한 중요한 정보를 제공하며, 공식적인 교육 과정에서의 성적표 또는 직장에서의 성과 보고서와 같은 진행 상황 또는 부족 상황을 보여주는 최종 의사결정 포인트로 작용한다. 고위험 평가는 학습에 강력한 동기 부여 요인으로 작용할 수 있으므로, 교육적 효과에 매우 결정적이다(트로터 2006).

High-stakes assessments are also necessary during a training program to provide important information to both a learner and a training program about progress and act as definitive decision points that chart progress or lack thereof–like report cards in formal schooling, or performance reports in the workplace. High-stakes assessments may also serve as powerful motivators for learning and are therefore critical for their educational effects (Trotter 2006).

저부담 평가와 고부담 평가의 필요성에 대한 사례가 쉽게 만들어지지만, 둘 사이의 균형을 결정하는 것은 간단하지 않다. 프로그램 평가의 이러한 측면을 설계할 때, 계획자는 여러 가지 이슈를 고려해야 한다.

  • 얼마나 많은 저부담 평가가 필요한가? 얼마나 자주 그리고 얼마나 정기적으로 이뤄져야 하는가?
  • 어떤 교육자 및 관찰자가 저부담 평가에 기여해야 하는가? 환자? 동료들? 아니면 그냥 교관들?

While the case is easily made for the need for both low- and high-stakes assessment, determining the balance of the two is less straightforward. In designing this aspect of programmatic assessment, planners must weigh multiple issues:

  1. How many low-stakes assessments should be expected? How often and how regularly should they occur?
  2. Which educators and/or observers should be contributing low-stakes assessments? Patients? Peers? Or just preceptors?

마지막으로, 학습자와 임상 교육자에게 개별 수준에서의 저부담 평가(low-staks assessment)가 오로지 형성적formative인 것인지 명확히 해야 한다(Watling and Ginsburg 2019). 그러나 학습자 역량에 대한 의사결정에 있어 모든 저부담 평가를 배제하기는 거의 불가능하다. 저부담 평가는 그것을 전체적으로 합하여aggregate 개별 학습자의 역량에 대한 발전(또는 그 결여)의 누적 기록으로 작용한다. 프로그램 리더는 이러한 (저부담) 평가가 어떻게 사용될 것인지에 대해 학습자와 교수진에게 투명해야 합니다.
Finally, it must be made clear to learners and to clinical educators whether low-stakes assessments at an individual level are intended to be solely formative (Watling and Ginsburg 2019). However, it is nearly impossible to exclude all low-stakes assessments in making decisions about learner competence–in aggregate, low-stakes assessments act as a cumulative record of progress (or lack thereof) toward competence for an individual learner. Program leaders need to be transparent with learners and faculty about how these assessments will be used.

 

5단계: 평가 데이터 해석 프로세스 정의
Step 5: Define the process for interpreting assessment data

프로그램 평가의 중요한 구성요소는 [학습자의 역량 향상 및 달성에 대한 의사결정]에 있어 [수집된 평가 데이터가 고려되거나 해석되는 과정을 결정하고 명확하게 설명하는 것]이다. 프로세스를 구축하면 프로그램이 많은 평가 증거를 수집한 다음 이를 이해하는 방법을 고민하는 잠재적 문제를 피할 수 있다. 더 많은 프로그램이 임상 역량 위원회를 포함하는 CBME 모델로 이동함에 따라 이 문제는 덜 만연해졌다(Friedman 등 2016; Kinnear 등 2018). 프로그램 평가 계획 및 설계의 good practice는 [의사결정 프로세스의 명확성]을 포함해야 한다(Van der Vleuten 및 Schwirth 2005).
A crucial component of programmatic assessment is to determine, and clearly describe, the process by which the assessment data collected will be considered and/or interpreted in making decisions about learner progress toward, and attainment of, competence. Establishing a process avoids the potential problem where programs collect a great deal of assessment evidence and then struggle with how to make sense of it. This problem has become less prevalent as more programs shift toward CBME models that include clinical competence committees (Friedman et al. 2016; Kinnear et al. 2018). Good practice in planning and designing programmatic assessment must include clarity of the decision-making process (van der Vleuten and Schuwirth 2005).

[투명한 의사결정 프로세스]는 [모든 학습자의 형평성]에 기여할 뿐만 아니라, 평가 시스템에 기여하는 [관찰자 간의 이해와 준수uptake and compliance]를 촉진할 수 있다(Rich et al. 2020). 학습자가 자신의 학습에 통제감을 갖는 환경을 구축하기 위해서는, 평가 순간(예: 직장 기반 평가를 통한 단일 관찰)과 의사결정 사건(예: 임상 역량 위원회)의 차이를 명확하게 구분하는 것을 포함하여, [수집된 모든 평가 요소가 어떻게 사용될 것인지에 대한 명확한 지침]을 설정하는 것이 필수적이다. 
Transparency about decision-making processes not only contributes to equity for all learners, it can also facilitate uptake and compliance among observers who contribute to the assessment system (Rich et al. 2020). Setting clear guidelines about how all assessment elements collected will be used, including articulating the distinctions between assessment moments (such as single observations with a workplace-based assessment) and decision events (such as a clinical competence committee meeting), is essential to establish a learning environment where learners have a sense of control over their own learning (Schut et al. 2018).

결론
Conclusion

본 문서에서는 CMBE 교육 프로그램이 프로그램 평가를 설계 또는 재설계하는 데 도움이 되는 일반적인 템플릿을 간략히 설명했습니다. 우리는 프로그램 평가에 대한 다양한 권고 사항을 단순화하려고 시도했고, 프로그램 평가에 대한 몇 가지 신화를 불식시키기를 희망합니다. 특히, 우리는 프로그램 평가가 'one size fits all'가 아니라는 개념을 계속 지지한다. 오히려 프로그램 평가의 공통 원칙이 공유되어 있지만, 개별 프로그램은 특정 맥락에 맞는 자신만의 맞춤형 프로그램 평가 모델을 계획하고 설계해야 한다. 이를 통해 CBME 훈련 프로그램에서 확립된 프로그램 평가 접근방식을 검토하여 지침을 찾고 학습한 교훈으로부터 이익을 얻는 것이 유용할 수 있다(Ross et al. 2011; McEwen et al. 2015; Rich et al. 2020).

In this paper, we have outlined a general template to help CMBE training programs as they look to design–or redesign–programmatic assessment. We have attempted to simplify the various recommendations about programmatic assessment, and we hope to have dispelled some myths about programmatic assessment. In particular, we continue to support the notion that programmatic assessment is not ‘one size fits all’; rather, while there are shared common principles of programmatic assessment, individual programs need to plan and design their own bespoke model of programmatic assessment that aligns with their particular context. In doing this, it can be useful to look at established programmatic assessment approaches in CBME training programs to seek guidance and to benefit from the lessons they learned (Ross et al. 2011; McEwen et al. 2015; Rich et al. 2020).

 

 

 


Med Teach. 2021 Jul;43(7):758-764.

 doi: 10.1080/0142159X.2021.1925099. Epub 2021 Jun 1.

Key considerations in planning and designing programmatic assessment in competency-based medical education

Affiliations collapse

 

Affiliations

1Department of Family Medicine, University of Alberta, Edmonton, Canada.

2Canadian Association for Medical Education, Edmonton, Canada.

3University of California, San Francisco, CA, USA.

4Department of Family Medicine, Cumming School of Medicine, University of Calgary, Calgary, Canada.

5Department of Emergency Medicine, Queen's University, Kingston, Canada.

6Royal College of Physicians and Surgeons of Canada, Ottawa, Canada.

7University of Minnesota College of Veterinary Medicine, St. Paul, MIN, USA.

8Division of Physiatry, Department of Medicine, University of Toronto, Toronto, Canada.

9Department of Medicine and CBME lead for the Faculty of Medicine & Dentistry, University of Alberta, Edmonton, Canada.

10Pediatrics at McGill University, Montreal, Canada.

PMID: 34061700

DOI: 10.1080/0142159X.2021.1925099

Abstract

Programmatic assessment as a concept is still novel for many in clinical education, and there may be a disconnect between the academics who publish about programmatic assessment and the front-line clinical educators who must put theory into practice. In this paper, we clearly define programmatic assessment and present high-level guidelines about its implementation in competency-based medical education (CBME) programs. The guidelines are informed by literature and by lessons learned from established programmatic assessment approaches. We articulate five steps to consider when implementing programmatic assessment in CBME contexts: articulate the purpose of the program of assessment, determine what must be assessed, choose tools fit for purpose, consider the stakes of assessments, and define processes for interpreting assessment data. In the process, we seek to offer a helpful guide or template for front-line clinical educators. We dispel some myths about programmatic assessment to help training programs as they look to design-or redesign-programs of assessment. In particular, we highlight the notion that programmatic assessment is not 'one size fits all'; rather, it is a system of assessment that results when shared common principles are considered and applied by individual programs as they plan and design their own bespoke model of programmatic assessment for CBME in their unique context.

Keywords: Assessment (general); assessment (clinical); phase of education (general); profession (General); profession (Medicine).

 

신뢰와 통제 사이: 프로그램적 평가에서 교수의 평가에 대한 개념화(Med Educ, 2020)
Between trust and control: Teachers' assessment conceptualisations within programmatic assessment
Suzanne Schut1 | Sylvia Heeneman1,2 | Beth Bierer3 | Erik Driessen1 | Jan van Tartwijk4 | Cees van der Vleuten1

 

 

1. 소개
1. INTRODUCTION

의학교육에서 평가를 학습에 활용하는 것에 대한 관심이 높아지고 있으며 그 혜택에 대한 기대도 높다. 프로그램 평가는 [연속적인 평가 부담continuum of assessment stakes]을 제안함으로써 [형성적 또는 총괄적 평가 목적의 전통적인 이분법을 극복]하려고 시도한다. 이러한 일련의 평가 부담은 다양하다.

  • 저부담 평가 (정보와 피드백을 통해 교사와 학습자를 유익하게 하고 지원하기 위한 빈번한 평가)
  • 고부담 평가 (평가 데이터의 집계에 기초한 진행 결정)

Interest in using assessment for learning is increasing in medical education and expectations of its benefits are high.1 Programmatic assessment attempts to overcome the traditional dichotomy of assessment purposes as either formative or summative by proposing a continuum of assessment stakes.2, 3 This continuum of assessment stakes ranges from

  • low (frequent assessments to benefit and support teachers and learners with information and feedback) to
  • high (progress decisions based on the aggregation of assessment data).

저부담 평가의 주요 목표는 학습자의 진도를 지원하는 것입니다. 따라서 한 번의 낮은 평가 결과가 학습자에게 제한적이어야 합니다. 그러나 여러 평가 결과가 집계되면 학습자에게 상당한 영향을 미치는 높은 평가 수행 결정을 알리는 데 사용할 수 있습니다. 실제로 학습자는 학습에 도움이 되는 저부담 평가의 가치를 인식하지 못하는 경우가 많습니다. 대신, 그들은 저위험 평가의 잠재적인 종합 결과에 초점을 맞추는 경향이 있다. 이러한 이유로, 학습을 지원하기 위해 프로그래밍 방식의 평가를 사용하는 것은 여전히 어려운 일입니다.

The primary goal of low‐stake assessment is to support learners' progress. Thus, one low‐stake assessment should have limited consequences for learners. When multiple low‐stake assessments are aggregated, however, they can be used to inform high‐stake performance decisions that have substantial consequences for learners.4 In practice, learners often do not appreciate the value of low‐stake assessments to guide their learning. Instead, they tend to focus on the potential summative consequences of low‐stake assessments.5, 6 For this reason, using programmatic assessment to support learning remains challenging in practice.1, 7, 8

교사들은 (특히 프로그램 평가의 학습 잠재력을 충족시키거나 약화시키는 데 있어) 강력한 역할을 하는 것으로 보인다. 프로그램 평가의 많은 기본 원칙이 새로운 것은 아닐 수 있지만, [평가에 대한 체계적인 접근법]과 [두 가지 목적을 가진 평가 부담의 연속성]은 [전통적인 총괄평가 접근법]과 근본적으로 다르다.9 교사가 평가의 의미와 목적을 완전히 이해하지 못하거나 평가의 기본 철학에 동의하지 않는 경우, 저부담 평가와 저부담 평가의 잠재적 학습 이익은 사소해질 가능성이 높다.4 저부담 평가에서와 같이 평가 목적이 복잡하고 중첩된 상호 작용을 하는 경우, 평가 프로세스는 더욱 복잡해진다. 
Teachers appear to play a particularly powerful role in fulfilling or undermining the learning potential of programmatic assessment.7 Although many of the underlying principles of programmatic assessment may not be novel, the systematic approach to assessment and the continuum of assessment stakes with dual purposes fundamentally differ from traditional, summative approaches to assessment.9 If teachers do not fully understand the meaning and purpose of assessment or do not agree with its underlying philosophy, low‐stake assessments and their potential learning benefits are likely to become trivialised.4 The complex and overlapping interplay of assessment purposes, such as in low‐stake assessments, adds to the already complicated assessment processes.10, 11 

학부 교육의 맥락에서, 사무엘로비츠와 베인은 교사들이 근본적인 이유로 '변혁적' 평가방법에 저항할 수 있으며, 교육적 신념과 가치관을 바꿀 때까지 평가의 혁신을 수용하지 않을 수 있다고 경고한다. 
In the context of undergraduate teaching, Samuelowicz and Bain13 warn that teachers may resist ‘transformative’ assessment methods for fundamental reasons and may not embrace innovation in assessment until they also shift their educational beliefs and values.14 

더 나아가, 교사가 평가를 어떻게 개념화하는지는 [교육 이론이나 기관의 평가 정책]보다는, [교사 개인의 평가 경험]에 더 영향을 받는다. 이러한 신념과 실천 사이의 차이은 특히 교사가 [프로그램 평가에 사용되는 저부담 평가와 같은 이중 목적 평가]에 직면할 때 나타날 가능성이 높다. 예를 들어, 교사는 아래의 두 가지 역할 사이에서 중요한 딜레마를 경험할 수 있다.

  • 학습자의 개발 및 촉진에 대한 지지자 역할
  • 학습자의 성과와 성취도에 대한 평가자로서 판단의 책임.

Furthermore, teachers' assessment conceptualisations are often informed by their personal assessment experiences rather than by educational theory or the institution's assessment policies.10, 12 These differences between beliefs and practices are especially likely to emerge when teachers encounter dual‐purpose assessments,15 such as the low‐stake assessments used in programmatic assessment. For instance, teachers may experience significant dilemmas when navigating between

  • their supportive roles as they monitor and facilitate learners' development and
  • their judgemental responsibilities as assessors of learners' performance and achievement.1101617

 

2. 방법
2. METHODS

우리는 교사들의 평가 개념화와 프로그램 평가 내의 평가 관계를 탐구하기 위해 구성주의자 근거이론 접근법을 사용했다.
We used a constructivist grounded theory approach19, 20 to explore teachers' assessment conceptualisations and assessment relationships within programmatic assessment.

2.1. 샘플
2.1. Sample

프로그램 평가에 대한 중요한 통찰력을 제공하는 것으로 알려진 고유한 연구 설정을 선택하기 위해 극단적인 사례 샘플링 전략을 채택했다.21 우리는 평가의 목적이 저부담과 고부담 모두인 상황에서, 교사가 저부담 평가를 사용해야 하는 연구 설정을 선택했다. 이러한 구현을 위한 포함 기준은 다음과 같다. 

  • (a) 학습 정보를 제공하기 위한 저부담 평가의 사용 
  • (b) 낮은 평가의 집계를 바탕으로 학습자의 진행 상황에 대한 높은 의사 결정을 내린다. 
  • (c) 최소 5년의 장기 프로그램 평가 시행

An extreme case sampling strategy was employed to select unique research settings known to provide significant insights about programmatic assessment.21 We selected research settings that required teachers to use low‐stake assessment in contexts in which assessments have both low‐ and high‐stake purposes. The inclusion criteria for these implementations were:

  • (a) the use of low‐stake assessment to provide information for learning;
  • (b) the making of high‐stake decisions on learners' progress based on the aggregation of those low‐stake assessments, and
  • (c) a long‐term programmatic assessment implementation of at least 5 years.

해당 분야 전문가들의 이전 연구와 제안을 바탕으로 두 개의 의학전문대학원을 선정했다.
Based on previous research and suggestions by experts within the field, we selected two medical schools with graduate‐entry medical programmes:

  • the Physician‐Clinical Investigator Programme at Maastricht University, the Netherlands (Setting A) and
  • the Physician‐Investigator Programme at the Cleveland Clinic Lerner College of Medicine at Case Western Reserve University, Cleveland, Ohio, USA (Setting B).

이러한 의사-연구자 프로그램은 생물의학 연구와 임상 실습의 발전에 중요한 자기 주도 학습 기술을 주입하는 것을 목표로 한다. 두 프로그램 모두 역량 기반 학생(<50명의 학습자)의 소규모 코호트이며, 학습을 육성하기 위해 프로그램 평가 접근 방식을 사용한다. 두 프로그램의 구조와 특성은 표 1과 같다. 추가적으로, 두 프로그램 모두 다른 곳에 자세히 설명되어 있습니다.

These physician‐investigator programmes aim to instil self‐directed learning skills critical for the advancement of both biomedical research and clinical practice. Both programmes are competency‐based, enrol small cohorts of students (<50 learners), and use programmatic assessment approaches to foster learning. The structure and characteristics of both programmes are shown in Table 1. Additionally, both programmes are described in detail elsewhere.5, 22, 23

우리는 기준과 최대 변동 샘플링 전략을 사용하여 의도적으로 참가자를 샘플링했다. 선정된 연구현장에 등록된 학습자 또는 주요 책임이 높은 평가로 학생을 안내하는 피드백 제공에 관련된 학습자를 대상으로 공식적인 책임을 지고 있는 교사를 초빙하였습니다. 

We purposefully sampled participants using criterion and maximum variation sampling strategies. We invited

  • teachers with formal responsibilities as assessors of low‐stake assessment tasks for learners enrolled in the selected research sites or
  • those whose main responsibilities involved providing feedback to guide students towards high‐stake evaluation.

최대 변동은 다음을 기준으로 구되었다. 

  • (a) 프로그램에서 공식적인 역할(예: 튜터, 코치, 의사 고문/교수, 강사, 조정자, 강사/강사) 
  • (b) 저학점 평가 유형(예: 표준화된 강의 과정 시험, 논술, [학점] 과제, 직접 관찰), 
  • (c) 학습자와의 관계의 다양한 길이(짧은 만남에서 종적 관계에 이르기까지)

Maximum variation was sought based on:

  • (a) formal role in the programme (eg, tutor, coach, physician advisor/mentor, lecturer, coordinator, preceptor/supervisor);
  • (b) type of low‐stake assessment (eg, standardised in‐course tests, essays, [research] assignments, direct observations), and
  • (c) variable lengths of relationships with learners (ranging from brief encounters to longitudinal relationships).

 

2.2. 데이터 수집 및 분석
2.2. Data collection and analysis

수석 조사관(SS)은 선별된 모든 참가자들에게 연구를 설명하고 현장에서 반구조적인 개별 인터뷰에 자발적으로 참여하도록 초대하는 이메일을 배포했다. 연구팀은 프로그램 평가와 교사 평가 개념화에 대한 이론적 토대를 바탕으로 개방형 질문으로 구성된 인터뷰 가이드를 설계했다. 이 인터뷰 가이드에는 참가자들에게 다음과 같은 질문이 포함되어 있습니다. 

  • (a) 프로그래밍된 평가 시스템 내에서 저수준 평가의 개념을 설명하고 반영한다. 
  • (b) 프로그래밍 평가에서 교사와 학습자의 역할과 책임을 논의한다. 
  • (c) 프로그램 평가의 맥락에서 학습자와의 상호 작용을 반영한다. 
  • (d) 평가와 학습에 대한 그들의 가치와 신념을 분명하게 표현한다. 

The lead investigator (SS) distributed an email to all selected participants describing the study and inviting them to participate voluntarily in semi‐structured individual interviews on site. The research team designed an interview guide consisting of open‐ended questions based on theoretical underpinnings of programmatic assessment and teachers' assessment conceptualisations. This interview guide included questions that asked participants to:

  • (a) describe and reflect upon the concept of low‐stake assessment within a programmatic assessment system;
  • (b) discuss the roles and responsibilities of the teacher and learner in programmatic assessment;
  • (c) reflect upon their interactions with learners in the context of programmatic assessment, and
  • (d) articulate their values and beliefs about assessment and learning.

 

부록 S1은 초기 인터뷰 지침을 제공합니다. 면접은 프로그램 평가 시행 내 평가와 평가 부담에 초점을 맞췄지만, 참가자는 연구팀이 교사의 평가 개념화와 경험을 완전히 이해할 수 있도록 [과거 평가 경험을 되새기도록reflect upon] 장려했다. 모든 인터뷰는 직접적인 식별자 없이 녹음되고 문자 그대로 옮겨졌다.

Appendix S1 provides the initial interview guide. Although interviews focused upon assessment and assessment stakes within the implementation of programmatic assessment, participants were encouraged to reflect upon previous assessment experiences in order to help the research team fully understand teachers' assessment conceptualisations and experiences. All interviews were recorded and transcribed verbatim without direct identifiers.

데이터 수집과 분석은 반복적으로 수행되어 인터뷰 질문 및 후속 인터뷰에 대한 샘플링 전략의 수정에 필요한 적응을 가능하게 했다.

  • 처음 네 번의 인터뷰초기 코드 개발을 목적으로 오픈 코딩 전략을 사용하여 SS와 SH에 의해 독립적으로 분석되었다. 각 인터뷰에 이어 SS와 SH는 코드와 코드 간의 관계에 대해 논의했습니다.
  • 이러한 논의를 바탕으로, 초기 코드는 주요 개념 주제와 하위 테마 중심으로 구성되었다. 데이터를 조사하고 재조사함으로써 주요 범주 간의 관계를 탐구했다.
  • 초기 코드는 예시반례가 있는 개념 코드로 진화했다. 연구팀(SS SH, BB, ED, JvT 및 CVDV)은 개념 코드를 논의하였다.
  • 예비 분석을 자세히 설명하기 위해, 우리는 이론적 샘플링을 계속 사용하여 프로그램 평가에서 저부담 평가에 대한 추가 관점을 수집했다. 구체적으로는 교사들의 프로그램 평가 경험과 교사 배경(기초과학 배경을 가진 교사 대 임상의)을 바탕으로 표본을 확대했다.
  • 이론적 충분성theoretical sufficiency에 도달할 때까지 데이터 수집과 분석은 계속되었는데, 이는 분석이 프로그래밍 평가의 맥락에서 교사의 평가 개념화를 이해할 수 있는 충분한 통찰력을 제공할 때까지 이러한 데이터 수집 과정을 계속했다는 것을 의미한다.
  • 총 23명의 교사가 참여해 수석조사관(SS)과의 일대일 대면면접에 참여했으며, 표2는 이들 참가자의 특징을 요약한 것이다.

Data collection and analyses were performed iteratively, allowing for necessary adaptations to interview questions and modifications of the sampling strategy for subsequent interviews.20, 24 

  • The first four interviews were independently analysed by SS and SH using an open coding strategy with the aim of developing initial codes. Following each interview, SS and SH discussed the codes and relationships between codes.
  • Based on these discussions, the initial codes were organised around key conceptual themes and sub‐themes. Relationships amongst major categories were explored by examining and re‐examining data.
  • Initial codes evolved into conceptual codes, with examples and counter‐examples. The research team (SS SH, BB, ED, JvT and CvdV) discussed the conceptual codes.
  • To elaborate upon our preliminary analysis, we continued the use of theoretical sampling to gather additional perspectives about low‐stake assessments in programmatic assessment. Specifically, we expanded our sample based on the teachers' experience in programmatic assessment and on teachers' backgrounds (teachers with basic science backgrounds versus clinicians).
  • Data collection and analysis continued until theoretical sufficiency25 was reached, meaning that we continued this data collection process until the analysis provided enough insight to understand teachers' assessment conceptualisations in the context of programmatic assessment.
  • In total, 23 teachers participated in one‐to‐one, in‐person interviews with the lead investigator (SS). Table 2 summarises the characteristics of these participants.

 

SS는 데이터 수집과 분석 과정에서 분석 메모와 도표를 만들어 과정이 논리적이고 체계적이 되도록 했다. 이 메모와 도표들은 연구팀 내에서 논의되었다. 데이터는 2018년 12월부터 2019년 5월 사이에 수집 및 분석되었다. 네덜란드 의학 교육 윤리 검토 위원회(NVMOmoERB 참조 2018.7.4)와 클리블랜드 클리닉 기관 검토 위원회(IRB 참조 18 ref1516)에서 윤리 승인을 받았다.
During data collection and analysis, SS created analytic memos and diagrams to ensure the process was logical and systematic. These memos and diagrams were discussed within the research team. Data were collected and analysed between December 2018 and May 2019. Ethical approval was obtained from the Dutch Association for Medical Education Ethical Review Board (NVMO‐ERB ref. 2018.7.4) and the Cleveland Clinic's Institutional Review Board (IRB ref. 18‐1516).

2.3. 성찰성
2.3. Reflexivity


우리는 연구자로서 이러한 데이터를 수집, 분석 및 해석하는 데 있어 우리가 한 역할을 인정한다. 편견을 완화하기 위해 다학제 연구팀으로 일했습니다. SS는 수석 연구원으로 활동했습니다. SS는 교육과학에 경험이 있고, 연구지 중 한 곳에서 교직원으로 일하며, 선정된 프로그램에 직접적으로 관여하지 않았다. ED와 CVDV는 의료 교육 및 평가 분야의 전문가입니다. 또한 CVDV는 의학 교육에서 프로그램 평가의 이론적 모델의 창시자 중 하나로 간주된다. SH는 보건 과학에 대한 공식적인 훈련과 경험을 가지고 있고, BB는 교수와 연구 방법에 대해 동등한 배경을 가지고 있다. SS와 BB는 모두 선정된 프로그램의 설계와 구현에 프로그램 디렉터로 참여하였으며, CVDV는 전문가로 참여하였다. SH와 BB는 데이터를 수집하는 동안 참가자들과 직접 접촉하지 않았다. JvT는 사회학자로 훈련을 받았으며 교사 교육 전문가입니다. JvT는 터널 비전과 확인 편향을 좌절시키는 데 도움이 되는 외부 관점을 제공하고 사례와 반례를 검토했으며 코드 구축과 데이터 해석 과정을 지원했다.

We acknowledge the roles that we, as researchers, played in collecting, analysing and interpreting these data. To help mitigate bias, we worked as a multidisciplinary research team. SS functioned as the lead researcher. SS has a background in educational sciences, works as a faculty member at one of the study sites, and had no direct involvement in the selected programme. ED and CvdV are experts in the field of medical education and assessment. Furthermore, CvdV is considered as one of the founding fathers of the theoretical model of programmatic assessment in medical education. SH has formal training and experience in the health sciences and BB has an equivalent background in teaching and research methods. Both SS and BB were involved as programme directors in the design and implementation of the selected programmes, as was CvdV as an expert. SH and BB had no direct contact with the participants during data collection. JvT is trained as a sociologist and is an expert in teacher education. JvT provided an outsider perspective to help thwart tunnel vision and confirmation bias, reviewed examples and counter‐examples, and supported the process of code construction and data interpretation.

 

 

3. 결과
3. RESULTS

그 결과, 교사들은 세 가지 다른, 그러나 관련성이 있는 방식으로 [평가의 목적]을 개념화하는 것으로 나타났다. 

  • (a) 학습을 자극하고 촉진하게 하기 위해,
  • (b) 학습자를 다음 단계로 준비시키기 위해, 그리고
  • (c) 교사 자신의 효과를 측정하기 위한 피드백으로 사용하기 위해, 

The results showed that teachers conceptualise the purpose of low‐stake assessment in three different, yet related ways:

  • (a) to stimulate and facilitate learning;
  • (b) to prepare learners for the next step, and
  • (c) to use as feedback to gauge the teacher's own effectiveness.

결과적으로 이러한 관점은 평가를 제공하거나 토론할 때 학습자에 대한 관여에 영향을 미쳤다. 
Consequently, these views influenced their engagement with learners when providing or discussing assessments. 

3.1. 저부담 평가의 개념화
3.1. Conceptualisations of low‐stake assessments

3.1.1. 학습 자극 및 촉진
3.1.1. Stimulating and facilitating learning

교사의 공식적인 위치(예: 튜터, 코치, 의사 조언자 또는 멘토, 과정 감독, 평가자, 교육자)의 차이에도 불구하고, 우리는 저부담 평가의 목적에 대해 [일차적으로 공유된 개념]은 [학습을 촉진하고 용이하게 하는 것]으로 식별했다. 이 개념은 [저부담 평가의 결과가 minimal하다는 점]에 영향을 받았다. '학습자는 이 평가로 fail을 받지 않는다', '등급이 매겨지지 않는다', '저부담 평가는 주로 성과 향상에 관한 것이다'와 같은 문장은 낮은 평가 개념을 반영할 때 참가자 모두가 내렸다. Grades의 사용은 고부담 평가와 밀접한 관련이 있었고, 대부분의 참가자들은 성적 배정이 학습learning에 이롭다고는 생각하지 않았다. 대신, Grades은 순위를 매기고 학습자를 비교하는 평가 목적과 연관되었다. 학습자가 [저부담 평가를 학습의 목적]으로 사용하게 하려면, 교수자는 학습 자극을 주고, 개선을 촉진하기 위해 학습자에게 서술적 피드백을 제공하는 것이 중요하다고 강조했습니다.
Despite the differences in teachers' formal positions (eg, tutor, coach, physician advisor or mentor, course director, assessor, preceptor), we identified a shared primary conceptualisation of the purpose of low‐stake assessments as being to stimulate and facilitate learning. This conception was influenced by the perceived minimal consequences of low‐stake assessment. Statements like: ‘learners can't fail them,' ‘they are not graded’ and ‘low‐stake assessments are primarily about improving performance’ were given by all participants when reflecting on the concept of low‐stake assessments. The use of grades was strongly associated with high‐stake assessments, and most participants did not regard assigning grades beneficial for student learning. Instead, grades were associated with the assessment purposes of ranking and comparing learners. To enable learners to use low‐stake assessments for learning, teachers highlighted the importance of providing learners with narrative feedback in order to stimulate learning and facilitate improvement:

학생들의 석차는 나에게 별로 의미가 없다. 이런 환경에서 [학점을 사용하지 않는 프로그래밍식 평가]가 잘못될 염려가 별로 없으며, [학습자] 그들은 이 시스템으로 석차 등급을 받기 위해 영리하게 보이려고 노력하지 않는다고 생각합니다. (B5, 임상의) 
The rank ordering of students is not that meaningful to me. […] In this environment [programmatic assessment without the use of grades] there is not a fear of being incorrect as much, I think, and they [learners] are not trying to look smart in order to get rank order grades with this system. (B5, clinician)

 

프로그램 수준에서 [성과나 개선에 대한 증거를 수집할 수 있는 기회의 수]는 교사의 평가 개념화와 학습 기회에 영향을 미쳤다.
At a programme level, the number of opportunities for collecting evidence on performance or improvement influenced teachers' assessment conceptualisations and opportunities for learning:

이 프로그램에는 단 한 번의 기회만 주어지기 때문에 진급 위원회는 학습자들이 포트폴리오에 이 평가 결과를 사용할 것으로 예상할 것이다. 
There's only one chance in the programme, and so the progress committee will expect them [learners] to use it [the result of this assessment] in their portfolios, so that raises the stakes tremendously. (B7, basic scientist)

 

프로그램이 다수의 저부담 평가를 촉진하여야, 교사들은 자신들의 책임을 [학습자가 스스로 평가 근거의 경향이나 패턴을 발견하도록 지원하는 것, 성찰을 자극하는 것, 학습 목표와 잠재력에 도달하기 위한 학습자의 개선 계획을 가능하게 하는 것]으로 개념화할 수 있었다. 또한, 다수의 저부담 평가에 따른 결과는 제한적이라고 인식했기 때문에, 교사들이 학습자에게 정직하고 건설적인 피드백을 제공할 수 있는 더 나은 기회를 만들었다.
When the programme facilitated multiple low‐stake assessments, teachers conceptualised their responsibility as being to support learners in discovering trends or patterns in assessment evidence, to stimulate reflection, and to enable learners' improvement plans for reaching learning goals and perceived potential. Furthermore, multiple low‐stake assessments created better opportunities for teachers to provide learners with honest and constructive feedback because they perceived limited consequences:

왜냐하면 누군가 처벌받지 않고도 향상될 수 있다는 것을 안다면, 문제가 되는 것에 대한 정보를 주지 않을 이유가 없다. 반면 다른 환경에서는 '누구도 곤경에 빠뜨리고 싶지 않은 마음'때문에, 학습자가 잘하고 있는 것만 부각시키고, 잘 하지 못하는 것에 대해서는 침묵하는 습관이 생긴다고 생각한다. 
I think it's liberating in a lot of ways, because if you know that somebody can improve without being punished, there is no reason to not give them the information about something that is problematic. Whereas I think that in other settings, it feels like people get into the habit of highlighting things that learners are doing well and just being quiet about things that are problematic because ‘I don't want anybody to get in trouble.' (B8, clinician)


3.1.2. 학습자 다음 단계 준비
3.1.2. Preparing learners for the next step

학습learning에 더하여, 교사들은 저부담 평가를 [학습자가 고부담 평가나 향후 실습을 대비할 수 있는 방법]으로 생각했다. 이러한 평가 개념화는 교사들이 학습을 촉진하는 방식에 큰 영향을 미쳤다. 교사들은 학습자들이 '적절한 준비를 하고 있는지' 확인하기 위해서는 보다 [직접적인 접근]이 필요하다고 생각했다. 중요한 것으로 여겨지는 것은 기초 과학자와 임상의 사이에 차이가 있었다.
In addition to learning, teachers also thought of low‐stake assessments as a way to prepare learners for high‐stake assessments or for future practice. This assessment conceptualisation strongly influenced how teachers facilitated learning: teachers thought a more directive approach was required to ensure learners were ‘properly prepared.' What was considered important differed between basic scientists and clinicians.

교육과정에서 [기초과학 관련 교육]를 담당하는 대부분의 교사는 지식평가를 강조했다. 그들은 지식을 역량에 필수적인 것으로 여겼고, 대부분의 학습자는 지식 테스트를 통과할 수 있어야 한다고 믿었다.
Most teachers with teaching tasks related to the basic sciences within the curriculum emphasised assessment of knowledge. They regarded knowledge as fundamental for competence, and most believed learners should be able to pass a knowledge test:

내가 보기에 이것들은 그들이 특정한 시점에서 취해야 할 중요한 장애물들이다. […] 만약 당신이 그 기준을 충족시킬 능력이 없다면, 당신은 충분한 지식과 통찰력을 가지고 있고, 이것은 결과를 가져올 필요가 있다. (A1, 기초과학명언) 
In my view these are important hurdles which they [learners] have to take at certain points. […] If you are not capable of meeting those standards, you have insufficient knowledge and insights, which needs to have consequences. (A1, basic scientist)

 

그러나 [임상의]들은 [전반적인 임상 역량]에 초점을 맞추는 경향이 있었다. 지식 테스트는 중요하고 종종 근본적인 것으로 여겨졌지만, [지식의 차이는 학습자가 쉽게 고칠 수 있는 것]으로 인식되었다. 인터뷰한 많은 임상의에 따르면, 이러한 테스트는 학습자가 '실제' 임상 실습을 준비하는 데 덜 중요한 것으로 간주되었다.
Clinicians who participated in this study, however, tended to focus on overall clinical competence. Although knowledge testing was considered important and often fundamental, gaps in knowledge were perceived as being easy for learners to remediate. According to many of the clinicians interviewed, these tests were considered as less important for preparing learners for ‘real’ clinical practice:

나는 [지식 시험]은 [의사가 되는 것이 무엇을 의미하는지]를 반영하지는 못한다고 생각한다. 
I don't think they [knowledge tests] reflect what it means to be a physician. (B4, clinician)

 

임상의는 주로 학습자를 향후 실습에 대비시키기 위해 저부담 평가(low-stake assessment)를 사용했다.
Clinicians used low‐stake assessment mainly to prepare learners for future practice:

저는 저부담평가가 평가를 준비하는 과정에서 학생들이 기술을 향상시키는 방법들 중 하나라고 생각합니다. 그렇게 함으로써 clinical years에 맞게 최적화하게 한다. (A3, 임상명언)
I think that is one of the ways that they improve their skills [by] preparing them and making sure they are optimised for [the] clinical years. (A3, clinician)

 

[외부의 고부담 지식 평가]가 포함된 경우에서는 예외가 발견되었습니다. 모든 교사는 학습자가 졸업 또는 면허 요건을 충족시키기 위해 높은 평가를 통과해야 한다는 것을 이해했으며, 평가의 의미가 있는지 여부에 관계없이 이러한 평가에 대한 준비를 중요하게 여겼습니다.

Exceptions were found when external, high‐stake knowledge assessments were involved. All teachers understood that learners must pass high‐stake assessments to meet either graduation or licensure requirements and considered preparing learners for such assessments an important responsibility, whether they considered the assessment meaningful or not:



3.1.3. 교사에 대한 피드백으로서 낮은 평가
3.1.3. Low‐stake assessments as feedback for teachers


저부담 평가가 teaching practice과 teacher themselves에 가지는 가치가 있었다. 교사들은 저부담 평가를 학습 목표 달성에 있어 학습자의 진행 상황을 진단하고, 교정 조치가 필요하다고 생각되는 학습자를 식별하며, 학습자의 수행 기준 달성을 모니터링할 수 있는 기회로 개념화했다. 일부 교사들은 평가가 개인적, 전문적 발전에 미칠 수 있는 상호적 이익을 높이 평가했으며, 이는 성찰적인 태도를 자극했다.

Low‐stake assessment also carried value for teaching practices and teachers themselves. Teachers conceptualised low‐stake assessments as representing opportunities to diagnose learners' progress in acquiring learning objectives, to identify learners they thought required remediation, and to monitor learners' achievement of performance standards. Some teachers appreciated the reciprocal benefits low‐stake assessment may have upon their personal and professional development, which stimulated a reflective attitude:

학생에게는 배움의 기회이지만, 저에게는 배움의 기회이기도 합니다. 그것은 또한 내가 무엇을 하고 있는지, 무엇을 개선할 수 있는지에 대해 생각하게 한다. 
It's a learning opportunity for the student, but, really, it's also a learning opportunity for me. It forces me to be reflective too, and think about what I'm doing, and what could be improved. (B4, clinician)

 

선생님들은 자신의 교육적 효과성에 대한 정보를 얻기 위해 저부담 평가들에 의존했다. 교사는 저부담 평가에서 학습자의 성과를 자신의 성과를 명시적이고 직접적인 지표로 인식하여 다음과 같이 평가하였다.
Teachers relied on low‐stake assessments to inform them about their effectiveness. Teachers perceived learners' performances on low‐stake assessments as explicit and direct indicators of their own performance, thereby making these assessments of higher stakes for teachers:

저에게는 [표준화된 지식 테스트]가 매우 중요한 순간이며, 학생들이 시험을 잘 볼 때 마음이 놓이고 매우 행복합니다. 내가 잘했다는 뜻이다.
For me it's [standardised knowledge test] a high‐stake moment, and I'm relieved and very happy when students perform well on the test. It means I did a good job. (A1, basic scientist)

 

이러한 관찰은 교사가 임상실습이나 로테이션 중에 개별 학습자를 감독할 때와 같은 임상적 맥락에도 적용된다.
This observation also applied to clinical contexts, such as when teachers supervised individual learners during a clerkship or rotation:

그래서 이 학생이 저와 함께 일해왔다는 사실이, 이 학생이 바로 여기 있다는 것이 나에 대한 어떤 반영reflection인 것 같다. 그래서 마치 부담이 더 크게 느껴지기도 한다. 우리는 이 학생을 다음 preceptor에게, 그리고 결국 현실 세계로 내보내기 때문이다. (B8, 임상의)
And so this idea that this person has worked with me and this is where they are, I feel like it is a certain reflection of me and so then it feels like the stakes are higher as part of it, we are sending them out to the next preceptor and in the end, into the real world. (B8, clinician) 


3.2. 평가 관계에서 학습자와의 교사 참여
3.2. Teachers' engagement with learners in assessment relationships

3.2.1. 안전하지만 생산적인 관계 만들기
3.2.1. Creating safe but productive relationships

교사의 평가 개념화가 학습에 대한 평가 사용에 초점을 맞출 때, 교사들은 안전한 교사-학습자 관계를 만들어야 할 강한 필요성을 나타내며, 교사들은 이를 '돌봄', '따뜻함', '접근 가능', '동반자 관계'와 같은 단어를 사용하여 설명하였다. 교사들은 학습자들이 평가에 대한 인식이 다른 경우가 많다는 것을 알고 있었고, 교사들은 학습자들을 평가 시스템의 근본적인 철학에 대한 방향을 잡아야 할 책임이 있었다. 교사들은 학습자가 실패하거나 실수할 수 있는 '저부담' 학습 환경을 조성하고, 저부담 평가를 활용해 수행능력을 높이는 것이 자신들의 책임이라고 봤다. 교사들은 학습자와의 파트너십을 통해 기쁨을 얻었고, 프로그램 평가의 기본 철학이 (기존의 평가 방식보다) 실세계의 practice와 더 잘 부합한다고 여겼으며, 따라서 학습자와의 assessment practice는 더욱 의미 있고 관련성이 있었다.
When teachers' assessment conceptualisations focused on the use of assessment for learning, teachers indicated a strong need to create safe teacher‐learner relationships, which they described using words such as ‘care,' ‘warmth,' ‘accessible’ and ‘partnership.' Teachers were aware that learners often had different perceptions of assessment, and teachers took responsibility for orienting learners to the underlying philosophy of the assessment system. Teachers believed it was their responsibility to create a ‘low‐stake’ learning environment in which learners could fail or make mistakes, and to use low‐stake assessment to improve their performance. Teachers gained joy from partnering with learners and viewed the underlying philosophy of programmatic assessment as better aligned with real‐life practice than traditional assessment approaches, thereby making their assessment practices with learners more meaningful and relevant:

제가 하는 일은, 더 이상 수문장이 되거나 학생들이 졸업하지 못하게 하는 것이 아니라, 학생들이 성공할 수 있도록 돕는 것입니다. 이제 제 일은 '더 좋아지고 있나요?' 입니다. '넌 끝났어' 라고 말하는 것보다 그 역할에 대해 훨씬 더 기분이 좋다.

My job is not to be a gatekeeper anymore or keep students from graduating, but to help students be successful. My job now is: ‘Are you getting better?’ I feel much better about that role than [about] saying: ‘You are done.’ (B11, clinician)

 


그럼에도 불구하고, 교사들은 안전한 학습 환경을 유지하고 학습자와의 생산적인 작업 및 평가 관계를 유지하는 것 사이에서 올바른 균형을 이루는 데 초점을 맞췄다. 이것은 [교사-학습자 관계에서 일정 거리]를 요구하는 것으로 나타났다. 교사들은 이 관계가 전문적일 필요가 있다고 생각했다.
Nevertheless, teachers focused on striking the right balance between maintaining safe learning environments and preserving productive working and assessment relationships with learners. This appeared to require a certain distance in the teacher‐learner relationship. Teachers thought the relationship needed to be professional:

그들은 내 친구나 뭐 그런 사람들이 아니다. 나는 내가 접근하기 쉬운 것이 중요하다고 생각하지만, 
일정한 경계선이 있다; 그것은 전문적인 관계를 유지해야 한다.

They [learners] are not my friends or anything. I think it's important that I'm approachable, but there are certain boundaries; it needs to stay a professional relationship. (A19, clinician)

모든 교사들은 평가의 맥락에서 학습자들에게 너무 가까이 가거나 지나치게 친숙해지지 않는 것에 대해 명백했다.
All teachers were explicit about not getting too close to or overly familiar with learners in the context of assessment; teachers wanted to minimise undue influences of their personal biases.

 

3.2.2. 통제력 확보 대 독립성 허용
3.2.2. Taking control versus allowing independence

학습자가 학습에 대한 책임을 질 수 있도록 하겠다는 의도를 교사들이 분명히 밝혔지만, 거의 모든 교사들은 [결국 평가 과정을 통제해야 한다]고 믿었다. 교사들은 이것이 그들의 공식적인 위계적 위치와 그들의 경험과 전문지식이 학습자들의 것과 비교한 자연스러운 결과라고 지적했습니다. 이러한 통제의 필요성은 [의도된 학습 목표]와 임상적 맥락에서 [환자 안전]에 관한 교사의 고부담 책임으로 더욱 강화되었다.
Although teachers were explicit about their intention to allow learners to take responsibility for learning, almost all teachers believed that, in the end, they should control the assessment process. Teachers indicated that this was a natural consequence of their formal hierarchal position and their level of experience and expertise compared with those of learners. This need for control was further augmented by teachers' high‐stake responsibility concerning intended learning objectives and, in a clinical context, patient safety:

하지만 내가 통제하고 있다. 내 말은, 그들이 배우고 있는지 확인하는 게 내 책임이라는 것이다[…] 해야 할 일과 배워야 할 일이 있습니다. 내가 그들에게 맡긴다면… 누가 알겠어요? 그래서, 나는 정말로 그것을 통제할 수 있어야 합니다. […] 누군가가 무언가를 할 수 있도록 허락하기 전에 그 일을 할 수 있는 기술을 갖추고 있는지 확인해야 한다. (B4, 임상의명언)
But I am in control. I mean, I am, you know it is my responsibility to make sure they are learning. […] There are things that need to be done and that they have to learn. If I left it to them… who knows? So, I really need to be able to control it. […] You have to make sure that someone is skilled in doing something before you allow them to do it. (B4, clinician)

 

프로그램 평가에서 [초보 교사]들은 경험이 많은 교사들보다 [평가 과정에 대한 더 많은 통제]를 원했다. 프로그램 평가 경험이 제한적인 이들은 자신의 지식과 프로그램 요구 숙련도, 평가 시스템 전체의 효율성에 대해 불확실성의 목소리를 높였다. 그 결과, 그들은 지침과 지원의 질에 대한 높은 압력을 인식하였고, 학습자가 프로그래밍 방식의 평가에 대한 경험이 부족하기 때문에 불이익을 받을 수 있다고 우려하였다. [학습자의 자율성을 명시적으로 중시하는] 경험이 풍부한 교사일수록, 학습자가 평가 과정을 추가로 통제할 수 있도록 하는 데 더 편안해 보였다. 이는 [학습자의 능력과 역량에 대한 교사들의 신념]에 크게 영향을 받았다.
Novice teachers in programmatic assessment desired more control of assessment processes than experienced teachers. Those with limited experience with programmatic assessment voiced uncertainties about their knowledge and proficiency with programme demands and the effectiveness of the assessment system as a whole. As a result, they perceived a high level of pressure on the quality of their guidance and support and feared that learners might be penalised as a result of their lack of experience with programmatic assessment. More experienced teachers, who explicitly valued learners' autonomy, seemed more comfortable with allowing learners to take additional control over assessment processes. This was strongly influenced by teachers' beliefs in learners' abilities and competencies:

나는 학생 개개인의 필요에 적응하는 것이 중요하다고 생각한다. 독립에 대한 필요성은 시간이 지남에 따라 증가한다.
I think it's important to adapt to individual student needs […], the need for independence grows over time. (A21, basic scientist)

3.2.3. 평가관계의 충돌
3.2.3. Conflicts in assessment relationships

교사들이 교사-학습자 평가 관계에서 인지할 수 있는 [잠재적 갈등]은, 교사들이 [문제가 있거나 저조한 학습자들]과 상호작용할 때 발생할 가능성이 가장 높은 것으로 보인다. 교사들은 학습자에게 건설적이거나 비판적인 피드백을 제공하는 것에 대해 불편함을 토로하였으며, 관계를 지속하는 것에 대해 우려했다.
The potential conflicts teachers were able to perceive in teacher‐learner assessment relationships seemed most likely to occur when teachers interacted with problematic or underperforming learners. Teachers voiced discomfort about providing learners with constructive or critical feedback and worried about preserving relationships:

'내가 [그들이 해야 할 일을 하지 않았다는 것]을 밝혀야 할 사람이다'라는 불편함이 내가 의학 교육자가 되기로 선택한 이유는 아니라고 생각한다.
I think that discomfort with ‘I'm the one that is going to have to identify that they haven't done what they're supposed to do,' is not why I chose to be a medical educator. (B8, clinician)

 

게다가, 교사들은 그들의 불편함을 느끼는 이유는, 어려움을 겪고 있는 학습자들을 위해 [추가적인 미팅과 더 광범위한 피드백]과 같은 더 많은 슈퍼비전을 제공할 필요가 있다는 필요성을 느끼기 때문이라고 말했다. 이로 인해 학습자 성과에 대한 최종 고부담 의사 결정에서 실제로 평가되는 것이 무엇인지에 대한 우려가 제기되었다. 즉, 교사의 멘토링과 피드백 기술인가? 아니면 학습자의 성과와 진전인가?
Furthermore, teachers attributed their discomfort to the perceived need to provide more supervision for struggling learners, such as additional meetings and more extensive feedback. This raised concerns about what would actually be assessed in the final high‐stake decision on learner performance: the teacher's mentoring and feedback skills or the learner's performance and progress?

[진급 위원회가 고부담 성과 결정에 대한 책임을 지고, 교사-학습자 평가 관계의 외부 당사자 역할을 할 때] 어려움을 겪고 있는 학습자와의 생산적인 작업 관계는 유지하기가 더 쉬웠다. 더욱이 교사들은 프로그램적 접근법에서 평가 결정을 공유된 책임shared responsibility으로 개념화하였는데, 이는 대부분 이전의 평가 경험에서 긍정적인 변화를 나타내는 것으로 인식되었다.
A productive working relationship with struggling learners was easier to maintain when progress committees assumed responsibility for high‐stake performance decisions and functioned as external parties to teacher‐learner assessment relationships. Moreover, teachers conceptualised assessment decisions within a programmatic approach as a shared responsibility, which most perceived as representing a positive change from their previous assessment experiences:

사람이 더 필요하다. 우리는 서로의 관점을 고쳐주고, 서로에게 도움이 되는 것을 제공한다. 그것은 또한 학생들을 위해 그것을 더 안전하게 만든다. […] 다수의 지혜가 소수의 지혜보다 낫다. (B11, 임상명언)
You need more people. We kind of correct each other's perspectives on things and offer things that are helpful. That also makes it safer for the student. […] The wisdom of several is better than the wisdom of some. (B11, clinician)

 

4. 토론
4. DISCUSSION

 

프로그램 평가 내의 평가 연속체는 이론적으로 하나의 극단('평가에 대한 학습적learning 개념')에서 반대 극단('평가에 대한 결산적accounting 개념')으로 흐르지만, 각각의 단일 저부담 평가는 이중의 목적을 가지고 있다. 대부분의 교사들은 저부담 평가의 [학습적 개념]에 초점을 맞췄다. 그러나 '학습'이 학습자의 고부담 평가 준비로 인식되고, 교사가 교사의 책무성을 강조하는 상황에서, 교사들은 [결산적 개념]으로 평가를 개념화하는 쪽으로 이동했고, 보다 지시적이고 통제적인 어조를 띠었다. [고부담 평가]로 평가를 개념화하게 되면 teaching to the test의 위험을 가지고 있었으며, (그 시험이 의미가 있건 없건) 특히 외부 고부담 평가가 결부된 상황에서 그러했다.

The assessment continuum within programmatic assessment theoretically flows from one extreme (the ‘learning conception of assessment’) to the opposite extreme (the ‘accounting conception of assessment’) yet holds a dual purpose in each single low‐stake assessment.2, 3 Most teachers focused on a learning conception of low‐stake assessment. However, when ‘learning’ was conceived as preparing learners for high‐stake assessment and when teachers emphasised teachers' accountability, teachers' assessment conceptualisations actually moved towards the accounting end of the continuum and carried a more directing and controlling tone. Such conceptualisations risk teaching to the test, whether it is considered meaningful or not, especially when external high‐stake assessments are involved.

Stiggins는 외부평가의 이러한 부정적인 영향을 설명하였는데, Stiggins는 [책무성accountability에 목적을 둔 중앙집중식 평가]가 개별 교사들의 교육정보 요구를 충족할 수 없으며, assessment practice을 경시trivialising할 위험이 있다고 언급하였다. 비록 본 연구 결과에 따르면, 프로그램 평가를 도입함으로써 교사의 초점을 [학습자가 시험을 통과하는데 필요한 지식과 기술의 수용성]에서 [지속적인 전문적 발전과 임상 역량]으로 전환시킬 수 있다는 것을 보여주었지만, 고부담 시험, 특히 표준화된 시험은 이 변화shift의 발생을 가로막을 수 있다. 

This adverse impact of external assessment has been described by Stiggins,26 who notes that centralised assessment for accountability purposes cannot meet the instructional information needs of individual teachers and may run the risk of trivialising their assessment practices. Although the results showed that the implementation of programmatic assessment could enable a shift in teachers' focus on the acquiral of the knowledge and skills necessary for learners to pass a test to a focus on continuous professional development and clinical competence, high‐stake and especially standardised examinations could impede the occurrence of this shift.

이 연구의 결과는 또한 교사들이 [학습자의 수행과 진도를 바탕으로 자신의 교육 효과성을 측정]할 때, 저부담 평가의 이해관계가 교사들에게도 중요해진다는 것을 보여주었다. 이것은 왜 그렇게 많은 교사들이 양질의 학습자 성과와 수행 표준의 달성을 보장하기 위해 평가 과정을 통제하고자 하는지 설명할 수 있다. 본 연구의 교사들은 [학습자가 갖는 의존적인 입장]을 알고 있었으며, [교사-학습자 평가 관계를 설명할 때 역설을 표현]했다. 교사-학습자 파트너십, 학습자 독립성 및 학습자 자기 조절 능력에 대한 평가는 교사가 평가 과정의 통제를 줄이기에 충분하지 않은 것으로 보였다. 교사들은 [학습자의 수행능력이나 역량]이 ['좋은' 실천에 대한 교사의 인식이나 확립된 기준]과 일치해야만, [평가 과정을 통제할 수 있는 더 많은 권한을 학습자에게 부여empower했다]고 인정했다. 
The results of this study further showed that the stakes of low‐stake assessment are just as much involved for teachers when teachers gauge their effectiveness based on learners' performance and progression. This may explain why so many teachers desire to control assessment processes to ensure high‐quality learner performance and achievement of performance standards. Teachers in our study were aware of the learner's position of dependency and expressed a paradox when describing teacher‐learner assessment relationships. The valuing of teacher‐learner partnerships, learner independence and learner self‐regulation abilities did not appear to be sufficient for teachers to lessen their control of assessment processes. Teachers admitted that they empowered learners to take more control over assessment processes only when the learner's performance or competence aligned with the teacher's perceptions of ‘good’ practice or established criteria.

이렇게 [교사들이 [무엇이 good practice을 구성하는지]를 일방적으로 결정하는 것]은 [자기조절이라는 목표]와는 상충되는 것으로 보이며, 평가가 학습을 위해for 사용될 경우 역효과적으로 작용할 수 있다. 게다가, [교사가 통제에 대한 필요성을 느끼는 것]은 [학습자들이 종종 저부담 평가를 저부담으로 인지하지 못하는 이유]를 설명할 수 있다. 많은 학자들이 [학습과 평가 환경 내에서 행동하고, 통제하며, 선택을 할 수 있는 학습자의 능력]으로 정의되는 [학습자 행위자성agency]의 중요성을 강조하고 있다. 또한 학습자 스스로도 [학습을 위해 평가를 사용할 수 있는 행위자성agency의 중요성]을 제기하고 있다. 여기에도 [신뢰와 통제 사이의 긴장]이 여전하다. [학습을 위한 평가AoL를 촉진하게 하기 위해, 학습자가 안전한 저부담 환경을 누릴 수 있도록] 하려면, 교사들을 위한 [지지적 저부담 환경 조성]에도 집중해야 한다. 교사와 학습자 모두에게 이해관계가 걸려있으며, 단일 평가의 낮은 consequence만큼 간단하지 않다.

This unilateral determination by teachers of what constitutes good practice seems at odds with the objective of self‐regulation27, 28, 29 and could work counterproductively when assessment is intended to be used for learning. Furthermore, this need for control on the part of the teacher may explain why learners so often fail to perceive low‐stake assessments as being truly of low stakes and beneficial for their learning.5, 6, 7, 30 The importance of learner agency, defined as the learner's ability to act, control and make choices within the learning and assessment environment, is voiced by many scholars.1, 31, 32 Moreover, learners themselves have voiced the importance of agency to enable the potential of using assessment for their learning.7 Here too lingers the tension between trust and control. If we want learners to enjoy a safe low‐stake environment in order to facilitate assessment for learning, then we should focus on creating supportive low‐stake environments for teachers as well. Stakes are involved for both teachers and learners, and they are clearly not as straightforward as the low consequence of a single assessment.

교사들이 학습에 저부담 평가를 사용하도록 서포트하는 것으로 보이는 [두 가지 중요한 프로그램 평가 설계 특]징을 식별했다. 

  • (a) 다수의 저부담 평가를 사용하는 것. 특히 Grades를 사용하지 않는 것.
  • (b) 독립적인 제3자를 평가 관계에 도입하는 진행 위원회의 실행. 

The results also identified two important programmatic assessment design features that seemed to support teachers' use of low‐stake assessment for learning:

  • (a) the use of multiple low‐stake assessments, especially those without the use of grades, and
  • (b) the implementation of progress committees, which introduces an independent third party into the assessment relationship.

첫째, 다수의 저부담 평가와 다수의 평가자를 사용하는 원칙은 교사가 학습자에게 보다 정직하고 비판적인 피드백을 제공할 수 있게 해주었고, 의학교육의 '실패실패 failure to fail'에 비추어 볼 때 프로그래밍 평가 접근법의 유망한 설계 특징이다. 이전 연구에서는 [평가 증거가 서로 다른 맥락과 출처에서 근원했을originate 때], 진급 위원회와 학습자 모두 낮은 평가 증거의 품질을 더 높게 평가하는 것으로 나타났다. 따라서 [프로그램에서 제공되는 평가 증거 수집 기회의 숫자]는 복수의 이해관계자가 관여된 상황에서 [평가의 부담과 학습적 가치에 대한 인식]에 큰 영향을 미친다. 또한, 성적의 사용과 달리 [서술적 피드백의 강조]는 비교, 순위 및 경쟁이 아닌 숙달과 진보를 강조하기 때문에 학습 평가를 가능하게 하는 핵심 설계 요소로 인식되었다. 성적의 사용과 관련된 위험과 학습을 촉진하기 위한 서술적 피드백의 중요성은 다른 많은 사람들에 의해 강조되어 왔다. 

First, the principle of using multiple low‐stake assessments and assessors enabled teachers to provide more honest and critical feedback to learners, which, in light of medical education's ‘failure to fail’33 is a promising design feature of the programmatic assessment approach. Previous research has shown that both progress committees and learners rate the quality of low‐stake assessment evidence more highly when assessment evidence originates from different contexts and sources.34 Thus, the number of opportunities for collecting assessment evidence provided by the programme strongly influences the perceptions of assessment stakes and learning value for the multiple stakeholders involved.7, 34 Furthermore, the emphasis on narrative feedback, as opposed to the use of grades, was perceived as a key design factor to enable assessment for learning because such feedback emphasises mastery and progress instead of comparison, ranking and competition. The risks associated with the use of grades and the importance of narrative feedback to promote learning have been highlighted by many others.1, 30, 35, 36, 37 

둘째, 교사들은 평가의 맥락에서 학습자들과의 파트너십을 즐기고, 학습자들과 생산적인 업무 관계에 참여하기 위해 투자했습니다. 비록 일부 교사들에게 저부담 평가의 이중 목적이 불편한 결혼 생활unhappy marriage을 계속해서 나타낼 수 있지만, 우리의 결과는 역할 갈등이 꼭 필요한 것은 아님을 보여주었다. 프로그램 평가에서 다자 역할 멘토링에 대한 연구에서도 유사한 발견이 나타났습니다. 본 연구에서는, [어려움을 겪고 학습능력이 떨어지는 학습자]에 대해서만 갈등이 보고되었다. (임상 역량 위원회로도 사용되고 있는) [독립적인 진급 위원회의 운영]은 교사들이 평가 맥락에서 생산적인 교사-학습자 관계를 보존하면서, 이러한 갈등을 보다 쉽게 처리할 수 있는 기회를 만들었다.
Second, teachers enjoyed partnering with learners in the context of assessment and invested in engaging in productive working relationships with learners. Although for some teachers the dual purpose of low‐stake assessment may continue to represent an unhappy marriage, our results showed that a role conflict is not necessary. Similar findings emerged in a study on multiple‐role mentoring in programmatic assessment.38 Conflicts in our study were reported only in relation to struggling and underperforming learners. The implementation of independent progress committees, also in use as clinical competency committees,39 created opportunities for teachers to deal with this conflict more easily when preserving a productive teacher‐learner relationship in an assessment context.

 

우리의 연구 결과는 프로그래밍 방식의 평가의 다른 구현에 도움이 될 수 있다. 선생님들은 평가로 학습자에게 불이익이 가는 것에 대해 걱정합니다. 진급 위원회는 잘 조직되면 서포트, 전문지식, 그리고 무엇보다 프로그램 평가에 참여하는 [교사들을 위한 안전망]을 제공한다. 학생의 실패는 [집단적인 책임]이 되고, 학습자의 커리어는 [개인의 결정이나 제한된 스냅사진]에 의존하지 않는다. 이것은 교사들로부터의 압력의 일부를 제거해주는 것으로 보이며, 그들이 더 솔직한 건설적인 피드백을 제공할 수 있게 해주고, 장기간 참여prolonged engagement의 이점을 유지하면서도, 우려를 제기할 수 있게 한다. 나아가, 진급 위원회에 참여하는 것은 [평가 목표에 대한 교사들의 공통된 이해]에 기여하고, 프로그램 평가에서 평가자로서의 역할에 대한 교사들의 전문적인 발전에 도움이 되는 것으로 보인다.
Our findings may benefit other implementations of programmatic assessment. Teachers worry about disadvantaging learners with assessment. A progress committee, when organised well, provides support, expertise and, more importantly, a safety net for teachers involved in programmatic assessment. Failure of a student becomes a collective responsibility and learners' careers do not rest on decisions made by individuals or on limited snapshots. This seems to take some of the pressure from teachers and allows them to provide more honest constructive feedback or to raise concerns when preserving the benefits of prolonged engagement.4 Furthermore, participating in progress committees seems to contribute to teachers' shared understanding concerning assessment objectives and benefits teachers' professional development in their roles as assessors in programmatic assessment.

저부담 평가에 대해서 교사마다 서로 다르게 개념화한다면, 평가에 대해 다양한 믿음을 가질 가능성이 있다. 그리고 그 중 적어도 일부는 PA의 근본적인 평가 철학에 반할 수 있다. 학생들이 의료연수 중 많은 다양한 교사를 만나다 보니 프로그램에 사용되는 의도나 평가방법과 맞지 않는 평가에 대한 가치관이나 신념이 다른 교사를 만나게 될 가능성이 높다. 이는 학습자가 [양립할 수 없는 평가 목표나 메시지를 경험]하고, 냉소적으로 '그냥 해달라는 대로 해줘' 접근방식을 따르도록 유도할 가능성이 있으며, 이는 [학습을 위한 평가]의 의미 있는 활용을 방해할 수 있다. 더욱이, 교사들은 프로그램 평가와 같은 [복잡한 이중 목적 시스템]이 [그들의 근본적인 신념과 일치하지 않을 경우 거부하거나 무시]할 수 있다. 교수개발은 프로그램 평가의 기본 원칙과 교사의 평가 개념화에 초점을 맞춰야 한다. 이러한 원칙이 학습자와 평가 관계에 참여할 때 평가 실무에 영향을 미칠 수 있기 때문이다. 
The different conceptualisations of low‐stake assessment indicate that teachers are likely to hold varying beliefs about assessment, at least some of which may be contrary to the underlying assessment philosophy advocated by its developers. As students encounter many different teachers during medical training, it is likely that they will encounter teachers with different values or beliefs about assessment that do not align with the intentions and assessment methods used in a programme. This risks the possibility that learners will have experiences of irreconcilable assessment objectives or messages and lead them to follow a cynical ‘give them what they want’ approach,13 which would hinder a meaningful uptake of assessment for learning. Moreover, teachers may resist or dismiss innovative assessment methods and complex dual‐purpose systems, like programmatic assessment, if these methods and approaches do not align with their fundamental beliefs about education and teaching.13 Faculty development should focus on the underlying principles of programmatic assessment and teachers' assessment conceptualisations as these may affect their assessment practices when engaging with learners in assessment relationships. 

4.1. 제한사항
4.1. Limitations

우리의 연구결과는 여러 가지 한계점에 비추어 고려되어야 한다.

  • 첫째, 이 연구는 두 가지 고유한 프로그램 평가 구현(즉, 동기 부여가 높은 학습자와 교사 모두를 선택한 기준을 사용한 작은 코호트 크기)을 포함했다. 우리는 미래의 연구와 실습을 안내하는 교훈이 될 수 있는 메커니즘에 대한 통찰력을 제공하는 능력을 고려하여 소위 극단적인 경우를 의도적으로 조사했다.
  • 둘째, 평가는 학습자, 과제, 교사 및 상황 특성의 복잡한 상호 작용으로 다른 맥락으로의 일반화는 쉬운 일이 아니다. 교사의 역할과 책임은 프로그램, 기관, 문화적 맥락에 따라 다를 수 있다. 공식적인 역할과 평가 책임의 최대 변화를 의도적으로 추구함으로써, 우리는 프로그램 평가에서 교수와 평가의 근본적인 개념화에 초점을 맞췄다.
  • 셋째, 이 연구는 교사들의 현실에 대한 인식을 탐구했습니다. 교사들이 믿고 실천했다고 보고한 것과 실제로 믿고 실천하는 것 사이에는 차이가 있을 수 있다.
  • 마지막으로, 우리는 직접 요청 이메일에 대한 응답으로 참여를 자원한 교사들을 모집했기 때문에, 선택 편향을 도입했을 수 있습니다.

Our findings should be considered in the light of a number of limitations.

  • First, this study included two unique implementations of programmatic assessment (ie, a small cohort size, using criteria that selected both highly motivated learners and teachers). We purposefully investigated these so‐called extreme cases in view of their ability to provide insight into the mechanisms underlying implementations, which can serve as lessons to guide future research and practice.19 
  • Second, assessment is a complex interaction of learner, task, teacher and context characteristics,40 which makes generalisations to other contexts challenging.41 Teachers' roles and responsibilities can vary amongst programmes, institutions and cultural contexts. By purposefully seeking maximum variation in formal roles and assessment responsibilities, we focused on the underlying conceptualisation of teaching and assessment in programmatic assessment.
  • Third, this study explored teachers' perceptions of their reality. There may be differences between what teachers report they believe and intend to do versus what they actually believe and do.
  • Finally, we may have introduced selection bias as we recruited teachers who volunteered to participate in response to a direct solicitation email.

 

 

5. 결론
5. CONCLUSIONS


교사들의 저부담 평가 개념화는 학습에만 초점을 맞추지 않는다. [교육 효과를 모니터링하기 위한 평가의 사용]은 교사의 [평가 행위]과 교사-학습자 [평가 관계]에 긴장을 조성할 수 있다. 평가 개념화에서 교사의 관점을 이해하는 것은 학습 실무에 대한 평가와 일치하도록 그러한 개념화에 영향을 미치거나 변경하기 위한 단계를 나타낸다. [다양한 평가법 및 평가자에 걸친 표본 추출]과 [진급 위원회 도입]은 장기 참여의 편익을 보존할 때 교사들이 학습에 이익을 주는 평가를 사용할 수 있도록 지원하는 프로그래밍 방식의 평가의 중요한 설계 특징으로 식별되었다. 

However, teachers' conceptualisations of low‐stake assessments are not focused solely on learning. The use of assessment to monitor teaching effectiveness may create tension in teachers' assessment practices and the teacher‐learner assessment relationship. Understanding the position of teachers' assessments conceptualisations represents a step towards influencing and perhaps changing those conceptualisations to align with assessment for learning practices. Sampling across different assessments and assessors and the introduction of progress committees were identified as important design features of programmatic assessment that support teachers in using assessment to benefit learning, when preserving the benefits of prolonged engagement. 

 


 

 

 

Med Educ. 2020 Jun;54(6):528-537.

 

 doi: 10.1111/medu.14075. Epub 2020 Apr 6.

 

Between trust and control: Teachers' assessment conceptualisations within programmatic assessment

Affiliations collapse

Affiliations

1Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, School of Health Professions Education, Maastricht University, Maastricht, the Netherlands.

2Department of Pathology, Cardiovascular Research Institute Maastricht, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, the Netherlands.

3Education Institute, Cleveland Clinic, Lerner College of Medicine, Case Western Reserve University, Cleveland, Ohio, USA.

4Department of Education, Utrecht University, Utrecht, the Netherlands.

PMID: 31998987

PMCID: PMC7318263

DOI: 10.1111/medu.14075

Free PMC article

 

Abstract

Objectives: Programmatic assessment attempts to facilitate learning through individual assessments designed to be of low-stakes and used only for high-stake decisions when aggregated. In practice, low-stake assessments have yet to reach their potential as catalysts for learning. We explored how teachers conceptualise assessments within programmatic assessment and how they engage with learners in assessment relationships.

Methods: We used a constructivist grounded theory approach to explore teachers' assessment conceptualisations and assessment relationships in the context of programmatic assessment. We conducted 23 semi-structured interviews at two different graduate-entry medical training programmes following a purposeful sampling approach. Data collection and analysis were conducted iteratively until we reached theoretical sufficiency. We identified themes using a process of constant comparison.

Results: Results showed that teachers conceptualise low-stake assessments in three different ways: to stimulate and facilitate learning; to prepare learners for the next step, and to use as feedback to gauge the teacher's own effectiveness. Teachers intended to engage in and preserve safe, yet professional and productive working relationships with learners to enable assessment for learning when securing high-quality performance and achievement of standards. When teachers' assessment conceptualisations were more focused on accounting conceptions, this risked creating tension in the teacher-learner assessment relationship. Teachers struggled between taking control and allowing learners' independence.

Conclusions: Teachers believe programmatic assessment can have a positive impact on both teaching and student learning. However, teachers' conceptualisations of low-stake assessments are not focused solely on learning and also involve stakes for teachers. Sampling across different assessments and the introduction of progress committees were identified as important design features to support teachers and preserve the benefits of prolonged engagement in assessment relationships. These insights contribute to the design of effective implementations of programmatic assessment within the medical education context.

프로그램적 평가를 위한 오타와 2020 합의문 - 2. 도입과 실천(Med Teach, 2021)
Ottawa 2020 consensus statements for programmatic assessment - 2. Implementation and practice
Dario Torrea , Neil E. Riceb , Anna Ryanc, Harold Bokd, Luke J. Dawsone, Beth Biererf , Tim J. Wilkinsong , Glendon R. Taith, Tom Laughlini, Kiran Veerapenj, Sylvia Heenemank, Adrian Freemanb and Cees van der Vleutenk

 

 

도입
Introduction

2020년 오타와 회의에서 프로그램 평가의 12가지 이론적 원칙에 대한 합의가 이루어졌다(Heeneman et al. 2021). 합의 그룹은 이행의 과제를 인식하고(Norcini 2007 및 Burch 2007; Norcini 외 2018) 프로그램 평가와 그 원칙이 교육적 이점을 발휘하기 위해서는, 이러한 원칙이 다양한 맥락과 규제 상황에 걸쳐 어떻게 구현되는지에 대한 공통의 이해를 공유하는 것이 중요하다는 것을 확인했다. 따라서 Ottawa 2020 합의문에 따라, 가능자와 장벽을 식별하고 다른 것보다 더 쉽게 구현된 측면에 대한 통찰력을 얻기 위해 프로그램 평가의 구현에 대한 설명을 수집하기로 합의했다.
At the 2020 Ottawa conference, consensus was reached on twelve theoretical principles of programmatic assessment (Heeneman et al. 2021). The consensus group, recognising the challenges of implementation (Norcini and Burch 2007; Norcini et al. 2018), identified that, in order for programmatic assessment and its principles to exert their educational benefits, it is important to share a common understanding of how these principles are implemented across different contexts and regulatory settings. As a follow up to the Ottawa 2020 consensus statement, it was therefore agreed to collect descriptions of implementations of programmatic assessment in order to identify enablers and barriers and to gain insight into those aspects that have been more readily implemented than others.

[프로그램적 평가]는 [학습자에게 피드백을 제공하고, 신뢰할 수 있는 평가 결정에 정보를 제공하기 위해, 혼합된 평가 방법을 사용하여, 평가의 학습적 기능을 육성하고 활용하는, 종단적이고 발달적인 접근법]이다(Schuwirth 및 Van Der Vleuten 2011; Van Der Bleuten et al. 2012). 프로그래밍 방식의 평가 시스템이 진정한 교육 진보와 성과를 파악하는 데 더 효과적이고 유효할 수 있다는 의견이 제시되었다(Cook et al. 2015). 프로그래밍 평가의 타당성은 이전에 케인의 타당성 이론의 중요한 구조를 프로그래밍 평가의 구성 요소와 교리에 매핑함으로써 평가되었다. 또한 프로그램적 평가의 교육적 유익성과 이론적 tenets에 대한 증거가 증가하고 있다. 

Programmatic assessment is a longitudinal, developmental approach that fosters and harnesses the learning function of assessment, using a mix of assessment methods for the purpose of providing feedback to learners and informing credible assessment decisions (Schuwirth and Van der Vleuten 2011; Van Der Vleuten et al. 2012). It has been suggested that a programmatic assessment system may be more effective and valid for discerning true educational progress and performance (Cook et al. 2015). The validity of programmatic assessment has previously been appraised by mapping the overarching structure of Kane’s validity theory to the components and tenets of programmatic assessment (Schuwirth and van der Vleuten 2012). Furthermore, there is an increasing body of evidence about the educational benefits and theoretical tenets of programmatic assessment (Van Der Vleuten and Schuwirth 2005; Bierer et al. 2015; Heeneman et al. 2015; Schut et al. 2021).

보건 전문직 교육 프로그램은 궁극적으로 구현에 영향을 미치는 여러 상호작용 요소를 포함하는 복잡하고 역동적인 다층적 시스템을 포함한다. 다양한 교육 환경에서 프로그램 평가가 어떻게 구현되고 통합되었는지 배우는 것은, 구현implementation 프로세스에 영향을 미칠 수 있는 잠재적 enabler와 barrier를 식별하면서, 명시된 원칙이 교육 관행으로 어떻게 변환되었는지에 대한 통찰력을 얻는 데 필수적이다. 이러한 통찰력은 현재 프로그램 평가를 사용하는 교육자 및 기관 및 이를 구현할 계획 중인 교육자에게 유용할 수 있습니다. 
Health Professions Education programmes involve complex, dynamic, multilevel systems incorporating a number of interacting factors that ultimately affect implementation. Learning how programmatic assessment has been implemented and incorporated in different educational contexts is essential to gain insight on how the stated principles have been translated into educational practices, whilst identifying potential enablers and barriers that may impact implementation processes. These insights can be valuable for educators and institutions that currently use programmatic assessment and for those who are planning to implement it.

본 논문에서 우리는 프로그램 평가의 구현에 대한 설명과 서로 다른 설명이 합의문에 확립된 원칙과 어떻게 일치하고 이를 준수하는지에 대해 보고한다. 이 논문의 목적은 두 가지이다:

  • 첫째, 1단계에서 식별된 12가지 원칙 각각과 관련된 구현 구성 요소를 설명하고, 다른 기관과 교육 환경에 걸쳐 구현 전략의 잠재적 가변성을 포착하는 것.
  • 둘째, 다음과 관련된 가능 요소와 장벽에 대한 통찰력을 얻는 것이다. 프로그램 평가의 시행

In this paper we report on descriptions of implementation of programmatic assessment and how different descriptions align with and adhere to the principles established in the consensus statement. The purpose of this paper is twofold:

  • first to provide descriptions of the implementation components associated with each of the 12 principles identified in phase 1, capturing the potential variability of implementation strategies across different institutions and educational settings;
  • second, to gain insight into enablers and barriers related to the implementation of programmatic assessment.

방법들
Methods

참가자 및 데이터 수집
Participants and data collection

프로그램 평가의 측면을 구현한 헬스케어 프로페셔널스 교육(Healthcare Professional Education)의 15개 프로그램 샘플은 저자들 중 두 명(CVD, AF)에 의해 확인되었다. 표본에는 3개 대륙에 걸쳐 6개국의 학부 및 대학원 프로그램이 포함되었다. 오타와 2020 컨퍼런스에 이어, 프로그램 평가의 12가지 원칙(Heeneman et al. 2021)과 추가 프로그램 1개에 대한 합의를 이룬 그룹의 참가자들은 프로그램 평가 구현에 대한 16개 항목의 질문지를 작성하도록 초청되었다.
A sample of 15 programmes from Healthcare Professions Education that had implemented aspects of programmatic assessment was identified by two of the authors (CVD, AF). The sample included undergraduate and postgraduate programmes from six different countries across three continents. Following the Ottawa 2020 conference, the participants in the group who achieved consensus on the 12 principles of programmatic assessment (Heeneman et al. 2021), plus one additional programme, were invited to complete a 16-item questionnaire about implementation of programmatic assessment.

데이터 분석
Data analysis

설문 응답은 연역적 주제 분석을 사용하여 분석되었다(Boyatzis 1998; Braun and Clarke 2006). 프로그래밍 평가의 12가지 원칙이 유사한 이론적 토대를 공유하고(Heeneman et al. 2015; Torre et al. 2020) 높은 수준의 상호 연관성을 가진다고 가정할 때, 프로그래밍 평가 원칙은 주제 분석을 위한 프레임워크(또는 민감화 개념)로 사용되었다(Brooks et al. 2015). 반복적인 협업 주제 분석 프로세스를 사용하여, 저자 중 두 명(DT, NR)이 새로운 테마를 찾기 위해 데이터를 읽고, 이들을 만나 개발된 테마를 논의한 다음, 데이터에 대한 공통 이해를 구축하고 테마 내부 및 테마 간의 관계를 식별하기 위해 이들을 더욱 개선했다. 궁극적으로 데이터는 세 개의 전체적으로 의미 있는 클러스터로 구성되었다(그림 1).
Survey responses were analysed using a deductive thematic analysis (Boyatzis 1998; Braun and Clarke 2006). Given that the twelve principles of programmatic assessment share similar theoretical underpinnings (Heeneman et al. 2015; Torre et al. 2020) and have a high degree of interrelatedness, the programmatic assessment principles were used as a framework (or sensitizing concepts) for the thematic analysis (Brooks et al. 2015). Using an iterative collaborative thematic analysis process, two of the authors (DT, NR) read through the data looking for emergent new themes, met to discuss the themes developed, and then further refined them to build a common understanding of the data and identify relationships within and across themes. Ultimately, data were organised into three overall meaningful clusters (Figure 1).

 

결과
Results

Implementation data는 15개 프로그램(학부 의학 교육 8개, 졸업후 의학 교육 3개, 학부 치과 교육 1개, 학부 수의학 프로그램 2개)에서 수집되었다(표 1). 합의문 조사에 참여한 프로그램 중 하나를 제외한 모든 프로그램도 이행 조사에 참여했다.
Implementation data were collected from 15 programmes (eight undergraduate (primary degree) medical education, three postgraduate (residency or vocational) medical education, one undergraduate dentistry and two undergraduate veterinary programmes) (Table 1). All but one of the programmes involved in the consensus statement survey, also took part in the implementation survey.

우리는 연구 결과를 두 부분으로 나누어 발표한다. 

  • 첫째, 우리는 프로그램 전반에 걸쳐 공통적인(응답자 중 50% 이상이 언급한) 구현 구성요소에 대해 보고하는 여러 기관에 걸친 프로그램 평가 원칙의 이행을 설명하고 원칙이 교육 관행으로 어떻게 번역되었는지에 대한 예를 제공한다(1부). 
  • 둘째, 우리는 활성화 요소, 장벽, 학습된 교훈 및 프로그램 평가 구현의 의도하지 않은 결과에 대한 연구 결과를 제시한다(2부).

We present our findings in two parts.

  • Firstly, we describe the implementation of programmatic assessment principles across different institutions reporting on implementation components that were common across programmes (mentioned by more than 50% of respondents) and provide examples of how the principles were translated into educational practices (Part 1).
  • Secondly, we present findings on enablers, barriers, lessons learned, and unintended consequences of the implementation of programmatic assessment (Part 2).
 

1부 – 프로그램 평가 원칙의 이행
Part 1 – implementation of programmatic assessment principles

프로그램 평가의 12가지 원칙의 실행은 세 가지 주제로 그룹화되었다.

  • (1) 성장과 발전을 위한 학습자와의 대화를 촉진하기 위한 지속적이고 의미 있는 피드백
  • (2) 이해 관계의 연속체라는 맥락 내에서 혼합된 평가 방법
  • (3) 비례성 및 삼각측량 원칙을 포함한 공정하고 신뢰할 수 있는 의사결정 프로세스 수립.

The implementation of the 12 principles of programmatic assessment were grouped under three themes:

  • (1) Continuous and meaningful feedback to promote a dialogue with the learner for the purpose of growth and development;
  • (2) Mixed methods of assessment across and within the context of a continuum of stakes; and
  • (3) Establishing equitable and credible decision-making processes including principles of proportionality and triangulation.

 

주제 1: 성장과 발전을 위한 학습자와의 대화를 촉진하기 위한 지속적이고 의미 있는 피드백:
Theme 1:
 Continuous and meaningful feedback to promote a dialogue with the learner for the purpose of growth and development:

이 주제 아래 원칙 1, 2, 10, 11 및 12에 맞춰 9개의 실행 구성요소(표 2)가 있었다.
There were nine implementation components (Table 2) aligned with principles 1, 2, 10, 11 and 12 under this theme.

 

대부분의 프로그램은 (실시간으로 진행되든, 일정 간격으로 진행되든) 모든 평가가 피드백에 최적화된 단일 데이터 포인트에 기여하는 구현을 보고하였다. 여러 평가에서 집계된 데이터를 사용한 서술적 피드백 전달이 자주 언급되었다. 피드백은 성찰과 향후 학습을 지원하기 위해 구두 또는 서면 형태로 학습자에게 전달되었습니다. 대다수의 프로그램은 피드백 품질을 높이고 의미 있는 성찰과 목표 설정 과정을 육성하기 위해서는 [슈퍼바이저와 학습자 간의 관계 개발]이 중요하다고 강조했다.
Most programmes reported an implementation in which every assessment contributed a single data-point optimised for feedback, whether that was occurring in real time or at specific intervals. The delivery of narrative feedback using aggregated data from multiple assessments was often mentioned. Feedback was delivered to learners in verbal and/or written form, with the intent of providing support for reflection and to guide future learning. The majority of programmes highlighted the importance of developing a relationship between supervisor and learner to enhance feedback quality and foster a process of meaningful reflection and goal setting.

 

모든 프로그램은 학습자가 자신의 진도와 성취도를 지원하기 위해 [코치나 지도교수를 배정받는 시스템]의 시행을 보고했습니다. 대부분의 프로그램은 코치가 학습자들과 [분기별 또는 2년에 한 번꼴로 정기적으로 미팅]을 갖는 것으로 나타났지만, 어떤 경우에는 학습 성적 부진이나 우려에 대응하여 임시적으로 회의를 하기도 했습니다. 대부분의 프로그램은 교수-학습자 거래를 용이하게 하기 위해 평가 데이터를 수집, 저장 및 쉽게 액세스하기 위해 특정 유형의 [전자 포트폴리오]를 사용했다. [중간 검토]는 진행 상황 평가, 학습자의 종방향 학습 궤적에 대한 성찰 촉진, 학습 계획 수립 및/또는 필요한 경우 추가 교정 조치를 목적으로 수행되었다.
All programmes reported the implementation of a system in which learners were assigned a coach or advisor to support their progress and achievement. The majority of programmes indicated that coaches had recurrent meetings with learners (quarterly or biannually); however, in some instances, meetings were more ad hoc in response to poor academic performance or concerns being flagged. Most programmes used some type of electronic portfolio to gather, store, and readily access assessment data to facilitate faculty-learner transactions. Intermediate reviews were performed for the purpose of assessing progression, promoting learners’ reflection about their longitudinal learning trajectory, formulating learning plans and and/or additional remediation if needed.

대부분의 프로그램은 프로그램에 들어온 순간부터 [평가 과정에 대한 학습자의 engagement와 participation]을 보고했습니다. 어떤 경우에는 프로그램은 학습자가 자기 성찰에 중점을 두고 피드백에 반응하고 개별 학습 계획을 개발하도록 요구했습니다. 일부 프로그램에서는 개인별 학습 우선순위에 맞춰 가르치는 한편 학습자가 자기 계발을 위해 주도하도록 장려하기도 했다. 그러나 일반적으로 이 원칙은 많은 학습자를 위한 개별 학습의 병참적, 조직적 어려움으로 인해 부분적으로만 시행되었다.

Most programmes reported learners’ engagement and participation in the assessment process upon entering the program. In some cases, programmes required learners to respond to feedback and develop individual learning plans, with an emphasis on self-reflection. In some programmes, teaching was tailored to meet individual learning priorities whilst encouraging learners to take agency for their own development. Generally, however, this principle was only partially implemented due to the logistical and organisational challenges of individualising learning for a high number of learners.

주제 2: 연속적인 이해 관계의 맥락에서 혼합된 평가 방법:
Theme 2:
 Mixed methods of assessment across and within the context of a continuum of stakes:

이 주제 아래 원칙 4, 5, 6과 일치하는 네 가지 공통 구현 구성 요소(표 3)가 있었다.
There were four common implementation components (Table 3) aligned with principles 4, 5 and 6 under this theme.

 

 

모든 프로그램은 단일 유형의 평가가 모든 역량을 포착할 수 없으며, 구현에는 여러 평가 방법과 도구의 사용이 수반된다고 지적했다.
All programmes indicated that no single type of assessment can capture all competencies and that implementations involved the use of multiple assessment methods and tools.

구현된 다양한 평가는 [학습자에게 풍부하고 의미 있는 피드백을 제공하는 데 사용될 수 있는 수치 및 서술 데이터를 수집]할 수 있도록 했다. 거의 모든 프로그램에서 평가의 혼합이 역량 프레임워크에 맞추어 설계designed against되었다고 언급했으며, 많은 프로그램에서는 Miller의 피라미드를 사용하여 설계된 평가 프로그램과 건설적인 정렬을 고수하고 있음을 나타냈다. 대부분의 프로그램은 [다수의 저부담 사업장 기반 평가]가 실제 상황 역량 평가에 특히 중요한 것으로 나타났으며, 대부분의 프로그램은 지식 영역에서 시뮬레이션 평가(예: OSCE)와 서면 평가(진도 테스트 포함)의 사용을 보고했다.
The variety of assessments implemented allowed for the gathering of both numerical and narrative data that could be used to provide rich and meaningful feedback to learners. Nearly all programmes mentioned that the mix of assessments was designed against a competency framework, and many indicated adherence to constructive alignment and a programme of assessments designed using Miller’s pyramid. Most programmes indicated multiple low-stakes workplace-based assessments as particularly important for assessing real-world situational competence, and most reported the use of simulated assessments (e.g. OSCEs) and written assessments (including progress testing) in the knowledge domain.

대부분의 프로그램들은 아래의 두 가지를 조합하여 [연속적인 이해 관계의 구현]을 보고하였다.

  • 피드백의 빈번한 전달이 수반되는 다수의 저부담 평가의 사용
    (예: 직접 관찰 작업장 기반 평가 또는 순차적 미니 OSCE)
  • 커리큘럼의 주요 발달적 이행 시점에서 수행되는 고부담 평가와의 연계
    (예: 임상 순환, 최종 필기 시험 및 OSCE 또는 국가 면허 시험에 들어가기 전 진행 시험).

Most programmes reported the implementation of a continuum of stakes by

  • the use of multiple low- stakes assessments with frequent delivery of feedback
    (e.g. direct observation workplace-based assessments or sequential mini-OSCEs)
  • interwoven with high-stakes assessments performed at key developmental transition points in the curriculum
    (e.g. progression exams before entering clinical rotations, final written exams and OSCEs or national licensing exams).

이 원칙은 저부담 평가와 고부담 평가의 타이밍 및 점진적 조합과 관련하여 광범위한 형태의 시행 방식을 보였다. 더욱이 [학생들에게 평가의 이해stakes 관계에 대한 정보를 제공하고, 그러한 이해 관계의 연속체가 어떻게 운영될 것인지를 설명하는 것]은 대부분의 프로그램에서 빈번한 실행 전략이었다.

This principle had a wide range of implementations, related to timing and progressive combination of low- and high-stakes assessment. Furthermore, providing students with information about the stakes of assessment and explaining how such a continuum of stakes was going to be operationalised was a frequent implementation strategy in the majority of programmes.

많은 프로그램은 [이해관계자들이 평가를 통과/실패가 아닌 [일련의 부담stakes]에 있다고 생각하도록 권장하기 위한 정보와 지침을 제공하는 것]의 중요성을 강조하였다. 고부담 평가에 앞서 [피드백이 수반되는 다수의 저부담 평가를 구현하는 것]은 프로그램이 총괄평가 접근법이 지배하는 문화에서, stakes의 연속체 속에서 이뤄지는 ['학습을 위한 평가'라는 언어와 문화]로 전환하기 시작할 수 있도록 했다.

Many programmes highlighted the importance of providing information and guidance to encourage stakeholders to think of assessments as being on a continuum of stakes rather than pass/fail. The implementation of multiple low-stakes assessments with feedback prior to high-stakes assessments allowed programmes to begin shifting from a predominant summative assessment approach to a language and culture of assessment for learning through a continuum of stakes.

주제 3: 비례성 및 삼각측량 원칙을 포함한 공정하고 신뢰할 수 있는 의사결정 프로세스 수립:
Theme 3:
 Establishing equitable and credible decision-making processes including principles of proportionality and triangulation:

이 주제 아래 원칙 3, 7, 8 및 9와 일치하는 10개의 공통 구현 구성 요소(표 4)가 있었다.
There were ten common implementation components (Table 4) aligned with principles 3, 7, 8 and 9 under this theme.


대부분의 프로그램의 경우, 시간이 지남에 따라 수집된 여러 평가 데이터 포인트의 검토 및 집계를 기반으로 위원회가 고부담 의사결정(예: 다음 연수로의 진행 결정)을 내렸다. 고부담 결정의 시기는 프로그램에 따라 다양하며, 일부는 연 2회 또는 분기별로 발생하기도 한다. 저부담 의사 결정(예: 임상 기술에 대한 직접 관찰의 수행에 대한 결정)은 학습자의 성장과 개발을 촉진하기 위한 피드백을 제공하기 위해 시행되며, 하나 또는 소수의 평가 데이터 포인트를 기반으로 했다. 그러나 대다수의 프로그램은 [비례성 원칙]에 따라 저위험 평가가 고위험 의사결정에 기여한 데이터 포인트 중 하나가 될 것이라고 지적하였다.

For most programmes, high-stakes decisions (e.g. decisions to progress to the next year of training) were made by a committee based on the review and aggregation of multiple assessment data points collected over time. The timing of high-stakes decisions varied by programmme, with some occurring yearly and others biannually or quarterly. Low-stakes decisions (e.g. a decision on a performance of a direct observation of clinical skills) were based on a single or few assessment data points for the purpose of providing feedback to promote learners’ growth and development. However, the majority of programmes indicated that when implementing the principle of proportionality, low-stakes assessments would be one of the data points that contributed to a high-stakes decision.

대부분의 프로그램은 [고부담 의사 결정을 구현하기 위하여 어떤 형태든 위원회를 포함한다]고 보고했으며, 종종 2개 이상의 단계로 진행되는 위원회 의사 결정 프로세스를 기술하기도 했다

  • 진행 위원회는 모든 평가 데이터를 검토한 후 학습자의 성과에 대한 첫 번째 결정을 내립니다. 
    그리고 나서 시험 위원회는 최종 결정에 도달합니다.

Most programmes reported that implementation of high-stakes decisions involved some form of a committee and described some version of a two (or more) stage committee decision-making process

  • (e.g. a progress committee makes a first determination about a learner’s performance after reviewing all assessment data,
    and then an examiner committee reaches a final decision).

기술된 위원회는 일반적으로 [학습자의 평가 데이터를 검토한 후, 최종 결정에 도달하기 위해, 데이터 중심 심의에 참여하는 독립적인 훈련된 시험관trained examiner 그룹]으로 구성되었다. 대부분의 프로그램은 의사결정을 지도하고 투명성과 신뢰성을 보장하기 위해서는, [학습자가 공유된 의사결정 과정에 직접 engagement and participation]하기 위해 [잘 전달되고 사전 결정된 절차, 규칙 또는 루브릭이 필요함]을 강조하였다.

The typically described committee consisted of a group of independent, trained examiners who review learners’ assessment data, often collected in an e-portfolio, and then engage in a data-driven deliberation to reach a final decision. Most programmes highlighted the need for well communicated, pre-determined procedures, rules or rubrics to guide decision-making and to ensure transparency and credibility, often with direct learners’ engagement and participation in a shared decision-making process.

삼각측량은 대부분의 프로그램에서 고부담 의사결정 과정에서 중요한 것으로 보고되었으며, 일반적으로 이전에 가장 중요한 역량 기반 프레임워크에 매핑된 여러 평가 양식의 데이터를 종합하여 구현되었다.

Triangulation was reported by most programmes as important in the high-stakes decision-making process and was generally implemented by synthesizing data from multiple assessment modalities that had been previously mapped to an overarching competency-based framework.

모든 프로그램이 모든 학습자의 종적 성과에 대한 모니터링을 포함하는 의사결정 과정을 설명했지만, 대다수는 대부분의 의사결정이 명확하고 많은 논의를 필요로 하지 않으며, 그 결과가 교수진이나 학습자에게 '깜짝surprises'으로 다가오지 않는다고 보고했다. 대다수의 프로그램은 심층적인 위원회 논의가 성과 기준 충족에 대한 우려가 있는 상대적으로 적은 수의 학습자에게 초점이 맞춰진다고 보고했다.
Whilst all programmes described decision-making processes that included the monitoring of longitudinal performance of all learners, the majority reported that most decisions were clear-cut and did not require much, if any, discussion, with outcomes not coming as ‘surprises’ for faculty or learners. The majority of programmes reported that in depth committee discussions usually focused on a relatively small number of learners for whom there were concerns over meeting performance standards.

 

2부 - 학습자, 장벽 및 교훈
Part 2 -enablers, barriers, and lessons learned

프로그램 평가 구현의 가장 강력한 원동력은 [헌신적인 교수진이 뒷받침하는 명확한 비전을 가진 강력한 리더십]이라는 데 의견이 일치했다. 대다수의 프로그램들은 [명확하게 소통하고 접근하기 쉬운 목표와 이행 계획]이 필수적인 원동력이라고 언급하였다. 몇몇 프로그램에서는 설계와 구현 계획의 개발에 투자하는 것이 구현의 성공에 필수적이라고 언급하였다.

There was agreement that the strongest enabler for programmatic assessment implementation is strong leadership with a clear vision supported by committed faculty. The majority of programmes mentioned that having clearly communicated, accessible goals and delivery plans was an essential enabler. Several programmes mentioned that investing in the development of a design and implementation plan was fundamental to the success of the implementation.

['중앙 집중식 감독'을 '프로그램 평가의 철학을 홍보하고 모든 이해당사자를 참여시키고 소통하는 평가 워킹 그룹의 창설'과 결합하는 것]이 구현 과정의 핵심 가능자였다.

  • 평가시스템에 대한 명확한 비전
  • 평가과정 학습자 참여
  • 평가목표 수립
  • 방어 가능한 절차 및 절차 이행

...등이 모두 성공적인 시행을 위해 필요한 단계로 언급됐다.
A centralised oversight coupled with the creation of an assessment working group who would promote the philosophy of programmatic assessment and engage and communicate with all stakeholders were key enablers in the implementation process.

  • Having a clear vision of the assessment system,
  • involving learners in the assessment process,
  • establishing assessment goals, and
  • implementing defensible processes and procedures

...were all mentioned as necessary steps to enable successful implementation.

또 다른 공통 요소(및 장벽)는 구현 프로세스의 설계, 개발 및 제공에 대한 모든 이해 관계자의 참여 수준입니다. 성공의 기본은 

  • 교수진과 학습자를 대상으로 프로그램 평가의 운영 및 원칙 교육을 위한 지속적인 자원 투입
  • 피드백 전달, 학습자의 행위자성 및 의사결정을 위한 삼각측량 절차를 지원하기 위한 소프트웨어(e-Portfolios)에 대한 투자였다. 

Another common enabler (and barrier) was the level of buy-in and engagement of all stakeholders in the design, development and delivery of the implementation process. Fundamental to the success was

  • an ongoing commitment of resources to train faculty and learners on the principles, operationalisation of programmatic assessment,
  • coupled in the longer term, with a commitment to invest in software (e-Portfolios) to support feedback delivery, learners’ agency, and triangulation procedures for decision-making.

구현의 일환으로 [지속적인 교수진 개발 프로그램]을 만든 것이 중요한 원동력이었다. 교수개발 프로그램은 평가 문해력에 초점을 두었고, 이는 [사용되고 있는 역량 프레임워크에 대한 적절한 수준의 지식] 및 [학습을 위한 피드백을 제공하는 것] 등을 의미한다. 그러한 노력에는 자원과 리더십 지원이 분명히 포함되어 있었다. 학습자의 진도와 성취도를 평가하고 지원하기 위한 강력한 코칭 시스템 개발에 자원을 투자하는 것도 언급되었다.

The creation of an ongoing faculty development programme as part of the implementation, focusing on assessment literacy, a good knowledge of the competency framework in use and providing feedback for learning, was a critical enabler. Such effort clearly involved the leveraging of resources and leadership support. Investing resource into developing a strong coaching system to evaluate and support learners’ progress and achievement was also mentioned.

프로그램이 [새로운 프로그램]이나 [전체 커리큘럼 개편]과 연계하여 프로그램 평가를 구연하는 것이, 이미 자리잡은 시스템 내에서 통합을 시도하는 프로그램보다 분명히 더 원활한 프로세스였다. 세부 커리큘럼 매핑과 함께 [세심한 건설적 정렬은 신규 시행new implementation이 더 쉽다는 점]이 지적됐다.

Where programmes had implemented programmatic assessment in new programmes or in conjunction with a full curriculum review, it was evidently a smoother process than in programmes which were attempting to integrate within established systems. Careful constructive alignment with detailed curriculum mapping was noted as being easier in new implementations.

일반적으로 언급되는 구현의 장애요인barriers은 실행 가능요인enabler을 상당 부분 미러링했다. 변화에 대한 조직의 의지 수준, 교수 시간의 요구, 자원의 가용성은 모든 응답자들에 의해 장벽으로 언급되었지만 반드시 극복할 수는 없었다. 성공적인 구현을 위한 가장 큰 장벽은 [변화에 대한 일반적인 저항]이었으며, 대부분의 프로그램은 교수진, 교육자 및 학습자의 [내재된 교육 및 평가 문화, 기대 및 태도를 변화시키는 데 어려움]을 언급하고 있었다. 교수진의 전문적인 성장을 위한 계획 및 자원 제공의 부족과 마찬가지로 [학습자들의 평가 사고방식과 문화의 변화]가 중요한 장벽으로 확인되었다. 시스템 수준의 변화를 위해 헌신하는 [강력한 리더십의 부재]는 많은 기관들에 의해 구현에 중대한 장애물로 인식되었다.

The commonly mentioned barriers to implementation to a large extent mirrored the enablers. The level of organisational commitment to change, demands on faculty time, and availability of resources were cited by all responders as barriers, but not necessarily insurmountable ones. The biggest barrier to successful implementation was a general resistance to change, with most programmes mentioning the difficulty in changing embedded educational and assessment cultures, expectations and attitudes – of faculty, educators and learners. A shift in the mindset and culture of assessment among learners was identified as a significant a barrier, as was a lack of planning and provision of resources for faculty professional growth. The lack of strong leadership committed to making changes at the system level was recognised as a significant obstacle to implementation by many institutions.

기관 정책과 인가 및 규제 기관의 요구사항이 잠재적 장벽으로 보고되었다. 예를 들어, 교육 중 어느 시점에 높은 점수를 받는 국가 면허 시험에 합격해야 한다는 요구 사항은 이론적 원리에 반하는 것이며, 프로그래밍 방식의 평가에 대한 학습자의 참여 가능성과 참여를 방해하는 요인으로 간주되었다. 그러나 대부분의 프로그램은 대학 정책 및 국가 인증 기관이 정한 경계와 규정 내에서 변화를 이루거나, 프로그램 평가를 구현하는 것이 가능했다.
Institutional policies and requirements from accreditation and regulatory bodies were reported as potential barriers. For example, the requirement on learners to pass a high-stakes national licensing exam at some point in their training was seen as counter-intuitive to the theoretical principles and as a hindering factor to the acceptability of and learners’ buy-in to programmatic assessment. However, most programmes were able to make changes and implement programmatic assessment within the boundaries and regulations set by university policies and national accreditation bodies.

프로그램 평가의 시행은 학습자, 교수진, 그리고 그들의 교육 시스템과 관련된 많은 교훈을 배울 수 있는 기회를 프로그램에 제공한다. 프로그램은 학습자를 프로그램 평가 혁신에 참여시키는 것이 교수진의 참여만큼이나 중요하다는 것을 배웠습니다. 대부분의 프로그램은 프로그램 평가 구현이 평가의 학습 기능을 활용하는 데 도움이 되고, [어려움을 겪고 있는 학습자를 조기에 식별할 수 있는 기회]를 더 많이 제공하므로 개선은 물론, [표적화된 강력한 개입]에 더 많은 시간을 할애할 수 있다고 설명했다. 또한 [학습자는 능동적으로 피드백을 구하고 자신의 학습에 대한 소유권을 가질 가능성]이 높은 반면, 교수진은 학습자의 진도와 성과에 대한 평가, 토론 및 의사결정을 보다 쉽게 할 수 있습니다.
The implementation of programmatic assessment afforded programmes the opportunity to learn a number of lessons related to learners, faculty, and their educational system. Programmes learnt that involving learners in programmatic assessment innovation is just as important as buy-in from faculty members. Most programmes described that implementing programmatic assessment helped leverage the learning function of assessment and provided more opportunity to identify struggling learners early on, thereby allowing more time for improvement and for targeted and robust interventions. Furthermore, learners were more likely to seek feedback proactively and take ownership of their own learning while faculty were more comfortable with assessing, discussing, and making decisions about learners’ progress and performance.

많은 프로그램들은 공유된 비전을 유지하기 위해 이해관계자들과 정기적으로 참여하는 것의 중요성을 배웠고, 왜, 무엇을, 어떻게 변화가 일어날 것인지를 자주 전달했다고 설명하였다. 대부분의 응답자들은 프로그램 평가의 교육적 이득을 구현하고 인식하기 위해서는 끈기, 강력한 리더십, 그리고 제도적 헌신이 필요하다고 보고했다. 또한 몇몇 의견제출자들은 변화의 과정을 실행시키기enact 위해서는 기관의 맥락적 요인과 문화적 지형을 이해하는 것이 필수적이라는 것을 인식하였다. 한 특정 맥락에서 발생하는 변화가 다른 상황에서는 실현 가능하지 않거나, 성공적이지 않을 수도 있다. 많은 프로그램들은 [프로그램 평가가 전통적인 평가를 근본적으로 파괴시키는 것]이며, [주요한 패러다임의 변화를 요구한다]고 지적하였다.
Many programmes described having learnt the importance of engaging regularly with stakeholders to maintain a shared vision, frequently communicating the why, what, and how change is going to occur. Most respondents reported that it took perseverance, strong leadership, and institutional commitment to implement and recognise the educational gains of programmatic assessment. Several respondents also recognised that understanding the contextual factors and the cultural landscape of the institution was vital to enact a process of change. Changes occurring in one particular context may not be feasible or as successful in another. Many programmes indicated that programmatic assessment is a fundamental disruption from traditional assessment and requires a major paradigm shift; therefore, creating a context supportive of change is imperative for success.

의견제출자들은 프로그램 평가의 시행이 의도하지 않은 몇 가지 결과를 나타내었다. 일부 프로그램의 경우, 프로그램 평가의 시행은 커리큘럼에 대한 새로운 통찰력을 제공하고 개선해야 할 영역을 식별할 수 있게 했다. 프로그래밍 방식의 평가로의 변화는 피드백 리터러시를 향상시켰고, 학생들이 교수들로부터 받은 피드백을 가장 잘 활용하는 방법을 이해하는 데 도움이 되었다.
Respondents indicated several unintended consequences of the implementation of programmatic assessment. For some programmes, implementing programmatic assessment provided a new insight into the curriculum and allowed identification of areas for improvement. The change to programmatic assessment enhanced feedback literacy and helped students understand how to best utilise the feedback they received from faculty.

한 프로그램은 ['프로그램적 평가'와 '학습을 위한 평가라는 원칙']에 따라 복수의 데이터 포인트가 있고 결정 지점이 거의 없는 것이 아니라, 어떤 이유에서인지 [의사결정 지점의 수가 증가]하여 [학생들이 지속적인 총괄평가 환경의 일부가 된다는 인식]을 갖게 되었다고 보고했다.
One programme reported that instead of having multiple data points and few decision points in accordance with programmatic assessment and assessment for learning principles, for some reason, there was an increase in the number of decision points, resulting in students’ perception of being part of an environment of constant summative assessment.

일부 프로그램은 특히 프로그램 평가 시행 초기에 교수 시간과 업무량이 증가했다고 보고했지만, 교수진(코치)과 학습자 사이의 더 나은 의사소통과 대화 측면에서 장기적인 이익이 시간 자원의 초기 투자보다 더 크다고 언급했다.
Some programmes reported an increase in faculty time and workload, particularly at the inception of programmatic assessment implementation, but noted that the longer-term benefits in terms of the better communication and dialogue between faculty (coaches) and learners outweighed the initial investment of time resource.

몇몇 프로그램들은 프로그램 평가의 시행이 [테크놀로지 강화 평가technology enhanced assessment]의 예상치 못한 증가와 일치한다고 지적하였다. 경험을 수집하기 위하여 [e-포트폴리오와 휴대용 테크놀로지]를 추가하여, 학습자들이 자신의 작업을 공유하고 성찰을 촉진하고 교수진과 상호 작용할 수 있는 안전한 환경을 만들 수 있도록 하였다.

Several programmes indicated that their implementation of programmatic assessment coincided with an unexpected increase in the use of technology enhanced assessment; the use of an e-portfolio and the addition of portable technology to collect experiences allowed learners to share their work, promoting reflection and creating a safe environment to interact with faculty.

활성화 요소와 장벽에 대한 추가 세부 사항은 보충 부록 1에 보고되어 있다.

Additional details on enablers and barriers are reported in Supplementary Appendix 1.

고찰
Discussion

서로 다른 프로그램에 걸쳐 광범위한 구현 설명이 있었지만, 전반적인 구현 요소, 가능 요소 및 장벽은 학부와 대학원 프로그램에 걸쳐 유사했다. 12가지 프로그램 평가 원칙의 실제 실행은 대부분 원래의 선언enunciation과 논리에 충실했다. 예를 들어, 대부분의 프로그램에는 [고부담 의사결정을 위한 평가 위원회]라는 형식이 있었지만, 위원회의 명칭, 데이터 분석에 사용된 절차 또는 위원회의 회의 빈도는 프로그램 전반에 걸쳐 다양한 구현 범위를 가지고 있는 것으로 밝혀졌다. 

  • 고부담 결정을 위한 검토 위원회 사용,
  • 혼합된 평가 방법의 활용
  • 모든 평가를 피드백에 최적화된 데이터 포인트로서 구현,
  • 부담의 연속체 개발

...이런 것들은 다양한 프로그램과 교육적 맥락에 걸친 실행 범위 내에서 실행으로 전환된 원칙들 중 일부에 불과했습니다.

There were a wide range of implementation descriptions across different programmes, yet overall components of implementation, enablers and barriers were similar across disciplines and undergraduate and postgraduate programmes. The actual implementation of the 12 programmatic assessment principles remained, for the most part, faithful to the original enunciation and rationale. For example, most programmes had some form of assessment committee for high-stakes decisions; however, what the committee was named, what procedure was used to analyse data, or how often the committee met was found to have a range of implementations across programmes.

  • The use of review committees for high-stakes decisions,
  • the utilisation of mixed methods of assessments,
  • the implementation of every assessment as a data point optimised for feedback, and
  • the development of a continuum of stakes

...were just some of the principles translated into practice within a range of implementations across different programmes and educational contexts.

프로그램 평가에서 구현의 중요한 역할이 논의되었으며, 구현의 품질이 프로그램 평가의 성공을 정의한다고 제안되었다. 주요 구현 요소는 다음과 같습니다. 

  • 원칙과 참여에 기반한 설계
  • 평가를 통합하기 위한 포트폴리오의 역할 
  • 고부담 의사 결정에서 위원회의 역할 
  • 평가에 대한 학생들의 인식 
  • 학습자와 교수진 사이의 관계
  • 커리큘럼과 프로그램 평가의 병행 시행 

The critical role of implementation in programmatic assessment has been discussed (Bok et al. 2013), and it has been suggested that the quality of implementation defines the success of programmatic assessment (Van Der Vleuten et al. 2019). Key implementation elements include

  • design based on principles and participation (Jamieson et al. 2017; Schuwirth et al. 2017),
  • the role of a portfolio to integrate assessments (Dannefer and Henson 2007),
  • the role of a committee in high-stakes decision-making (Van Der Vleuten et al. 2015),
  • students’ perception of the assessment (Heeneman et al. 2015; Schut et al. 2018),
  • the relationship between learners and faculty (Schut et al. 2021), and the parallel implementation of curriculum and programmatic assessment (Freeman and Ricketts 2010; Ricketts and Bligh 2011).

보다 최근에 Jamieson 등(2021)은 성공적인 프로그램 평가의 구현은 [감독자의 역할과 평가 관행에 대한 관점을 변화]시키는 동시에, [감독자-학습자 관계를 개선한다]는 것을 발견했다. 프로그램 평가의 적절한 구현은 역량중심의학교육의 성과에 대한 데이터를 제공한다는 점에서도 중요하다

More recently, Jamieson et al. (2021) found that a successful implementation of programmatic assessment transformed the supervisors’ role and their views of assessment practices, whilst enhancing the supervisor-learner relationship . Adequate implementation of programmatic assessment is also critical to provide data to inform outcomes of competency based medical education (Hauer et al. 2018; Iobst and Holmboe 2020; Misra et al. 2021).

구현은 고립된 이벤트가 아니다. 대부분의 프로그램은 프로그램 평가의 시행 과정에 시간(몇 달이 아니라 몇 년)이 걸리고, 전략적으로 잘 설계되고, 예산이 잘 책정된 계획이 필요하며, 강력한 리더십과 지원이 필요하며, 변화에 대한 공동의 비전과 교육 기업 전체의 문화 이동이 요구된다고 보고했다. 또한 지속적인 진행 상황 모니터링과 당면 과제 해결 지원과 함께 지속적인 교수진 개발 및 코칭 프로그램이 필요하다. 프로그램 평가의 실행은 핵심 구성요소의 무결성을 유지하기 위한 자원의 지속적인 헌신과 지속적인 주의를 필요로 한다.
Implementation is a process not an isolated event (Hall and Hord 2015). Most programmes reported that the implementation process of programmatic assessment

  • takes time (years not months),
  • needs a strategic well-designed and well budgeted plan,
  • requires strong leadership and support, and
  • demands a shared vision of change and a culture shift across the entire educational enterprise.

Further, it

  • involves an ongoing programme of faculty development and coaching with continuous monitoring of progress and assistance to face and resolve challenges.

Implementation of programmatic assessment

  • requires sustained commitment of resources and ongoing vigilance to maintain the integrity of its key components.

계획 설계, 리더십 지원 확보, 유연성 및 조정 기회 허용, 이해관계자 간의 관련성과 가치에 대한 공통된 믿음은 모두 변화 관리 문헌에 보고된 중요한 요소들이다(Gale and Grant 1997; Schneider 2014). 프로그램 평가의 구현에 대한 설명은 이러한 요인들 중 몇 가지와 일치하지만, 맥락과 그 복잡성에 대한 적응은 프로그램 전반에 걸친 프로그램 평가 원칙의 성공적인 구현을 위한 필수 요소로 부상하는 것으로 보인다.
Designing a plan, securing leadership support, allowing opportunities for flexibility and adjustments, a shared belief of relevance and value among stakeholders are all important factors reported in the managing change literature (Gale and Grant 1997; Schneider 2014). The descriptions of implementations of programmatic assessment are aligned with several of these factors, yet adaptation to context and its complexities seems to emerge as an essential ingredient for a successful implementation of the principles of programmatic assessment across programmes.

이해 관계의 연속체로서의 평가(원칙 6)는 특히 그 구현 방식이 광범위했다. 많은 프로그램들이 시행되고 시행되어 어떻게 운영될지 등 이 원칙의 의미에 대해 설명하고 교육할 계획이며, 성장과 개선의 문화를 조성하여 성적과 석차가 없어지는 경우도 있었다. 이러한 접근 방식은 평가 과정 속에서 학습자의 행위자성를 육성할 수 있는 기회를 만들었습니다. 이는 학습자가 이해 관계의 연속성을 복잡한 것으로 인식하고 평가 과정을 통제하고 수행할 수 있다는 인식과 밀접한 관련이 있음을 시사하는 이전의 증거와 일치했다(Bok et al. 2013; Schut et al. 2018).
Assessment as a continuum of stakes (principle 6) had a particularly wide range of implementations. Many programmes implemented and executed plans to explain and educate learners about the meaning of this principle, including how it was going to be operationalised, promoting a culture of growth and improvement that, in some cases, led to the elimination of grades and class ranks. This approach created opportunities to foster learners' agency with the assessment process. This was aligned with previous evidence suggesting that a continuum of stakes is perceived by learners as complex and is strongly related to their perception of being able to control and take agency of the assessment process (Bok et al. 2013; Schut et al. 2018).

[학습자의 행위자성learner's agency]은 복잡한 과정이다. 여기에는 [기존의 사회적 규범과 문화적 신념의 압력]에 [대응하기 위한 노력 및 멘토십과 서포트]가 필요하다(Watling et al. 2021) [교사-학습자 관계]는 학습자의 평가 인식에 중요한 역할을 한다.

  • [평가 관계에서 덜 지배적인 접근 방식을 보이는 교사]는 학습자의 에이전시를 가능하게 하여 학습 평가에 대한 긍정적인 학습자 인식을 촉진한다(Schut et al. 2020a).
  • [교사가 저부담 평가 과정에 대한 통제를 행사]하면 평가의 학습 기능을 방해하고 교사-학습자 관계에 긴장을 발생시킬 수 있다(Schut et al. 2020b).

이러한 긴장은 중요한 평가 결정이 한 개인의 결정보다는 집단적인 책임을 지는 진보 위원회나 임상 역량 위원회를 사용함으로써 완화될 수 있다. 진급progress 위원회 또는 역량competency 위원회의 사용은 프로그램 평가의 구현에 대한 거의 모든 설명에서 핵심 요소였다.
Learners’ agency is a complicated process; it takes effort and requires mentorship and support to counteract the pressure of established social norms and cultural beliefs (Watling et al. 2021). Teacher-learner relationships play a critical role in learners’ assessment perceptions;

  • teachers who show a less dominant approach in the assessment relationship enable learners’ agency, promoting a positive learner perception of assessment for learning (Schut et al. 2020a).
  • If teachers exert control over the low-stakes assessment process it can hinder the learning function of assessment and generate tensions in the teacher-learner relationship (Schut et al. 2020b).

Such tensions can be relieved in the use of progress committees or clinical competency committees, where important assessment decisions have a collective responsibility rather than that of a single individual. The use of a progress or competency committee was a key component in almost all descriptions of the implementations of programmatic assessment.

프로그래밍 평가를 도입함으로써, 학습자는 [성과 목표 지향(긍정적인 판단을 얻고 자신의 능력을 인정받거나 부정적인 피드백을 피하는 데 초점을 맞춤)]이 아닌 [학습 목표 지향(성장과 개선에 초점을 맞춤)]을 둔 피드백을 탐색 행동을 촉진하게 된다면, 학습자의 프로그램적 평가에 대한 수용을 촉진하고, 평가를 '부담의 연속체'로 인식하게끔 영향을 미칠 수 있으며, 궁극적으로 이 원칙의 이행을 촉진할 수 있다. 또한 성찰은 학습자의 자기 평가와 동떨어진 피드백을 수용하는 경로라는 의견도 제시되었다(상사 등 2008).
In the implementation of programmatic assessment, fostering a feedback seeking behaviour with a learning goal orientation (focused on growth and improvement) rather than a performance goal orientation (focused on gaining a positive judgement and garnering recognition of their own ability or on avoiding negative feedback) (Bok et al. 2013; Teunissen and Bok 2013) may promote learners’ acceptance and affect their perceptions of assessment as a continuum of stakes, ultimately facilitating the implementation of this principle. It has also been suggested that reflection is the path to acceptance of feedback that is out of line with learners’ self-assessment (Sargeant et al. 2008).

원칙 중 하나(원칙 12, 개별 학습자에 맞춘 평가)는 특히 학습자가 많은 프로그램에서 완전히 구현하기가 어려운 것으로 입증되었다. 그러나 다른 원칙의 이행은 적어도 프로그램 규모가 크기 때문에 원칙이 전혀 이행될 수 없는 정도까지는 프로그램의 크기에 크게 영향을 받지 않는 것으로 보였다.
One of the principles, (principle 12, assessment tailored to the individual learner), proved to be challenging to fully implement, particularly in programmes with a large number of learners. However, the implementation of the other principles did not seem to be significantly affected by the size of a programme, at least to the extent that a principle could not be at all implemented because of a large programme size.

널리 알려진 구현 장벽 중 하나는 리더, 학습자 및 교육자들 사이에서 조직 내 평가 문화의 패러다임 전환이 필요하다는 것이었다. 오랫동안 확립된 프로그램들은 더 많은 성공을 보고한 반면, 새로운 프로그램들은 여전히 이러한 문화적 변화를 경험하고 있으며, 맥락에 따라 그 정도에서 현저한 차이가 있었다. 프로그램의 조직적, 문화적 맥락을 이해하는 것은 모든 이해당사자들이 공유 환경의 필수적인 부분이기 때문에 개입이나 변화의 실행과 지속가능성을 위해 필수적이다. 컨텍스트는 특정 구현을 둘러싼 [수많은 상호작용 변수와 상황의 집합]으로 구성됩니다. 시스템의 맥락을 형성하는 모든 부분이 정당화되고legitimised 관여될involved 필요가 있다.
One of the widely recognised barriers to implementation was the need for a paradigm shift in assessment culture within the organisation, amongst leaders, learners and educators. Programmes which have longer-standing established implementations reported more success whereas newer implementations are still experiencing this cultural shift, and there were noticeable differences in the extent of this across contexts. Understanding the organisational and cultural context of programmes is essential for the implementation and sustainability of any intervention or change because all stakeholders are an integral part of a shared environment (Damschroder et al. 2009; Marks et al. 2010). Context consists of a number of interacting variables and set of circumstances that surround a specific implementation. All parts which shape the context of a system need to be legitimised and involved.

변화하는 문화에 대한 이해관계자의 태도에 대해서, 사회적 인지 모델을 기반으로 등장한 드웩의 [자기이론] 개념을 연결지어 볼 수 있다. 외부 속성(이러한 맥락적 교육 요소)은 이해관계자의 마음가짐에 따라 '고정적(entity theory)' 또는 '적응적(incremental theory)'으로 간주될 수 있다.

  • 이해당사자들이 incremental theoriest라면 개선을 모색하고 외부 속성이 더 좋게 변할 수 있다고 믿음으로써 변화를 긍정적으로 받아들일 가능성이 높다.
  • 반대로, 이해당사자들이 실체 이론가entity theorist라면, 그들은 변화에 참여하거나 변화를 시작하는데 더 저항할 것이다.

The emerging concepts of self-theories which impact personal motivation and growth mindset, built on the social cognitive model proposed by Dweck (Dweck and Leggett 1988) can be considered in relation to stakeholders’ attitudes to changing culture. External attributes (such contextual education factors) may be considered as ‘fixed’ (entity theory) or ‘adaptable’ (incremental theory) depending on the mindset of the stakeholder.

  • If stakeholders are incremental theorists, they are more likely to positively embrace change by seeking improvement and believing that external attributes can change for the better.
  • Conversely, if stakeholders are entity theorists, they will be more resistant to engage with or initiate change.

성장 사고방식 문화를 지지하고 채택하는 프로그램은 학습자와 교육자가 더 많은 도전을 하고 변화를 시작하고, 이해 당사자들이 '실패'를 학습 기회로 보고 혁신에 대한 자신감을 고취하도록 동기를 부여할 것이다(Dweck 2019; Canning et al. 2020). 개별 학습자, 교사, 조직적 수준에서 incremental theory 접근법과 learning goal orientation을 육성하는 것은 프로그램 평가의 실행에 도움이 될 것이다.  
Programmes that endorse and adopt a growth mindset culture will motivate learners and educators to take on more challenges and initiate change, encourage stakeholders to view ‘failures’ as learning opportunities and inspire confidence in innovation (Dweck 2019; Canning et al. 2020). Fostering an incremental theory approach and a learning goal orientation within individual learners and teachers, and at the organisational level would be beneficial for the implementation of programmatic assessment. 

결론
Conclusions

프로그램 평가의 시행은 시간이 걸리고, 강력한 리더십 헌신과 지원이 필요하며, 개인과 조직 차원의 지속적인 노력이 필요하다. [전통적인 평가 접근 방식]에서 교수진과 학생들에 의한 [프로그램식 평가 문화]로의 패러다임 전환은 대학 정책과 절차에 의해 야기되는 제약과 결합되어 중요하면서도 시행의 장벽을 넘을 수 없었다. 프로그램 평가 구현은 커리큘럼에 대한 새로운 통찰력을 제공하여, 프로그램이 개선해야 할 영역을 식별할 수 있도록 했다. 또한 학생과 교직원의 피드백 리터러시를 개선하고, 피드백 품질을 향상시키며, 어려움을 겪고 있는 학습자를 조기에 식별하고 지원할 수 있도록 했다. 프로그래밍 평가 원칙(평가 방법희 혼합, 삼각 측량, 종단성 및 비례성)을 성공적으로 구현하면 의사결정 프로세스에 사용할 수 있는 데이터가 개선되는 동시에 데이터 및 문서의 양이 관리 가능하고 의미 있게 유지된다.

Implementation of programmatic assessment takes time, needs strong leadership commitment and support, and involves a continuous effort at the individual and organisational level. A paradigm shift from the mindset of a traditional assessment approach to that of a programmatic assessment culture by faculty, and students, coupled with the constraints posed by university policies and procedures, were significant yet not insurmountable barriers to implementation. Programmatic assessment implementation provided a new insight into the curriculum, allowing programmes to identify areas for improvement. It also enhanced feedback literacy among students and faculty, improved feedback quality, and allowed early identification and support of struggling learners. Successful implementations of the principles of programmatic assessment (mix of methods of assessment, triangulation, longitudinality, and proportionality) improve the data available for decision making processes, whilst keeping the amount of data and documentation manageable and meaningful.

향후 작업에 대한 권장 사항
Recommendations for future work

향후 연구를 위한 여러 가지 권고사항이 있다.
There are a number of recommendations for future research.

첫째, 특정 원칙의 구현을 강화하기 위해 특정 원칙의 구현에 영향을 미칠 수 있는 중요한 요소를 추가로 조사합니다. 특정 원칙의 이행에 대해 외부 규제 기관(면허, 자격 시험)이 실시하는 필수 고부담 평가의 역할을 추가로 결정하고 탐구할 필요가 있다.

First, investigate further the critical factors that may influence the implementation of specific principles in order to enhance their implementation. The role of required high-stakes assessments conducted by external regulatory bodies (licensure, qualification exams) on the implementation of specific principles needs to be further determined and explored.

둘째, 프로그램 평가의 주요 측면에 대해 구현 품질을 향상시킬 수 있는 효과적인 교수개발 프로그램의 개발에 대해 탐구한다(특히 피드백 전달 및 프로그램 평가 리터러시 등). 또한, 학생의 프로그램 평가 실습에 대한 이해, 채택 및 활용을 촉진하는 방법이 모색되어야 한다. 여기에는 예를 들어 레지던트 매치의 성공과 같은 전문 훈련 프로그램의 높은 결과에 대한 현실과 같이 학습자의 인지 부조화를 유발할 수 있는 명시적이고 숨겨진 커리큘럼 메시지에 대한 검토가 포함될 수 있다.
Second, inquire about the development of effective faculty development programmes that may enhance the quality of implementation, particularly about key aspects of programmatic assessment such as feedback delivery and programmatic assessment literacy. Further, ways to promote students’ understanding, adoption, and utilisation of programmatic assessment practices should be sought. This could include examination of explicit and hidden curriculum messages that might cause learners cognitive dissonance, for example the reality of high-stakes consequences of professional training programmes, such as success in residency matches.

셋째, 구현에 영향을 미치는 주요 상황적, 문화적 요인 및 그러한 요인이 전 세계 여러 기관에 걸쳐 구현에 어떤 영향을 미치는지에 대한 추가 조사를 수행해야 한다.
Third, additional inquiries should be conducted about key contextual and cultural factors that affect implementation and how such factors influence implementation across different institutions worldwide.

마지막으로, 프로그램 평가, 학습자 역량 및 웰빙의 완전하고 효과적인 구현의 영향과 이 접근법이 궁극적으로 환자와 시스템 수준에서 의료 결과에 영향을 미치는 정도를 평가하기 위해 더 많은 연구가 필요하다.

Finally, more research is needed to evaluate the impact of a complete and effective implementation of programmatic assessment, learner competency and wellness, and the extent to which this approach ultimately impacts health care outcomes at the patient and system level.

 


 

 

 

Med Teach. 2021 Oct;43(10):1149-1160.

 

 doi: 10.1080/0142159X.2021.1956681. Epub 2021 Jul 30.

 

Ottawa 2020 consensus statements for programmatic assessment - 2. Implementation and practice

 

Affiliations

1Department of Medicine, Uniformed Services University of Health Sciences, Bethesda, MD, USA.

2College of Medicine and Health, University of Exeter Medical School, Exeter, UK.

3Department of Medical Education, Melbourne Medical School, University of Melbourne, Melbourne, Australia.

4Department of Population Health Sciences, Faculty of Veterinary Medicine, Utrecht University, Utrecht, The Netherlands.

5School of Dentistry, University of Liverpool, Liverpool, UK.

6Cleveland Clinic Lerner College of Medicine of Case Western Reserve University, Cleveland, OH, USA.

7Education unit, University of Otago, Christchurch, New Zealand.

8MD Program, Dept. of Psychiatry, and The Wilson Centre, University of Toronto, Toronto, Canada.

9Department of Family Medicine, Dalhousie University, Halifax, Canada.

10Faculty of Medicine, University of British Columbia, Vancouver, Canada.

11Department of Educational Development and Research, School of Health Profession Education, Maastricht University, Maastricht, The Netherlands.

PMID: 34330202

DOI: 10.1080/0142159X.2021.1956681

Abstract

Introduction: Programmatic assessment is a longitudinal, developmental approach that fosters and harnesses the learning function of assessment. Yet the implementation, a critical step to translate theory into practice, can be challenging. As part of the Ottawa 2020 consensus statement on programmatic assessment, we sought to provide descriptions of the implementation of the 12 principles of programmatic assessment and to gain insight into enablers and barriers across different institutions and contexts.

Methods: After the 2020 Ottawa conference, we surveyed 15 Health Profession Education programmes from six different countries about the implementation of the 12 principles of programmatic assessment. Survey responses were analysed using a deductive thematic analysis.

Results and discussion: A wide range of implementations were reported although the principles remained, for the most part, faithful to the original enunciation and rationale. Enablers included strong leadership support, ongoing faculty development, providing students with clear expectations about assessment, simultaneous curriculum renewal and organisational commitment to change. Most barriers were related to the need for a paradigm shift in the culture of assessment. Descriptions of implementations in relation to the theoretical principles, across multiple educational contexts, coupled with explanations of enablers and barriers, provided new insights and a clearer understanding of the strategic and operational considerations in the implementation of programmatic assessment. Future research is needed to further explore how contextual and cultural factors affect implementation.

Keywords: Assessment; feedback; general; portfolio; theory.

평가프로그램에 대한 오타와 2020 합의문 - 1. 원칙에 대한 합의 (Med Teach, 2021)
Ottawa 2020 consensus statement for programmatic assessment – 1. Agreement on the principles
Sylvia Heenemana, Lubberta H. de Jongb, Luke J. Dawsonc, Tim J. Wilkinsond , Anna Ryane, Glendon R. Taitf, Neil Riceg , Dario Torreh , Adrian Freemang and Cees P. M. van der Vleuteni 

 

 

 

배경
Background

2010년, 오타와 회의는 좋은 평가를 위한 일련의 합의된 기준을 만들었다(Norcini et al. 2011). 단일 평가를 넘어 후속적으로 특정 목적을 위한 증거를 제공하기 위해 통합된 일련의 개별 측정(예: 졸업 또는 다음 연도의 승진 결정)을 체계적으로 결합하는 [평가 시스템]에도 유사한 기준 세트가 필요하다는 것이 인식되었다. 따라서 오타와 2018 합의 프레임워크에서는 [평가 시스템]에 적용되는 별도의 프레임워크가 제시되었다(Norcini 등 2018). 오타와 2018 합의에서 설명한 바와 같이, 평가 시스템은 다양한 형식을 가질 수 있다. 평가 시스템은 선발 및 면허 시스템과 같은 다층적 결정을 용이하게 하기 위해 다른 정보와 결합된 일련의 평가로 구성될 수 있다. 다른 평가 시스템은 진도 시험 및 프로그램 평가와 같은 교육 및 교육 설계 접근방식을 우선시한다(Norcini et al. 2018).

In 2010, the Ottawa conference produced a set of consensus criteria for good assessment (Norcini et al. 2011). It was recognised that a similar set of criteria would be needed for systems of assessment, which goes beyond single assessments, and systematically combines a series of individual measures that are subsequently integrated to provide evidence for a certain purpose, e.g. a decision for graduation or promotion to a subsequent year. Therefore, in the Ottawa 2018 consensus framework, a separate framework applying to systems of assessment was presented (Norcini et al. 2018). As described in the Ottawa 2018 consensus, systems of assessment can have various formats. A system can consist of a series of assessments, combined with other information, to facilitate a multi-layered decision, e.g. admission and licensure systems. Other systems of assessment prioritise educational and instructional design approaches, such as progress testing and programmatic assessment (Norcini et al. 2018).

[프로그램 평가]는 개별 평가만 (합격-불합격) 결정에 사용할 경우, 모든 개별 평가 방법 또는 도구가 각자의 한계를 가지고 있기에, 타협점을 필요로한다는 원칙에 기초한다. 그러나, 흔히 사용되는 평가 접근법은 종종 모듈식이며, 기간 종료/모듈/과정 평가를 통해 등급 및 관련 합격/불합격 결정을 이끌어낸다. 평가의 [전통적인 총괄접근법]은 바람직하지 않은 학습 접근법을 추진하고, 외적 동기를 촉진하고, 주어진 피드백을 무시하는 것과 같은 여러 의도하지 않은 결과를 초래한다(van der Vleuten and Schwirth 2005). 
Programmatic assessment was introduced by van der Vleuten and Schuwirth (van der Vleuten et al. 2012; van der Vleuten and Schuwirth 2005) and is based on the principle that every individual assessment method or tool has limitations and compromises are needed if just individual assessments are used for (pass–fail) decisions. In contrast, common assessment approaches are often modular, with an end of period/module/course assessment, that leads to a grade and an associated pass–fail decision. This traditional summative approach to assessment has multiple unintended consequences, such as driving undesirable learning approaches, promoting extrinsic motivation, and ignoring any feedback that is given (van der Vleuten and Schuwirth 2005).

프로그램 평가 모델은 위에 언급된 문제들에 대한 잠재적인 해결책입니다. 프로그램 평가 모델은 [평가가 가지고 있는 학습과 의사결정 기능을 최적화하기 위하여 평가와 교육을 설계하는 특정한 접근방식]으로 정의되었다. 다양한 평가 형식의 여러 데이터 지점에서 비롯된 평가 정보와 피드백은 학습자와 스태프가 취합하여, 학습을 위한 목적으로 사용할 수도 있고, 진급 또는 인증과 같은 고부담 의사 결정에 사용될 수 있다.

The programmatic assessment model as proposed by van der Vleuten and Schuwirth, is a potential solution to the abovementioned problems. The programmatic assessment model has been defined as a specific approach to the design of assessment and education aimed at optimising the learning and decision function of assessment. Assessment information and feedback, originating from multiple data points in a variety of assessment formats, is aggregated by the learner and staff and is used for learning and for high-stakes decisions such as promotion to the next year or certification (Schuwirth and van der Vleuten 2011; van der Vleuten et al. 2015).

프로그램 평가는 다양한 핵심 논문(표 1)에 요약된 바와 같이 여러 가지 핵심 원칙에 기초한다. 그러나 프로그램 평가는 교육적 설계 접근법이며, [프로그램 평가의 수용가능성은 교육 프로그램의 가치와 제도적 요건에 의해 부과된 한계와 같은 다양한 요소에 의해 강하게 영향을 받는다]는 것을 인식해야 한다. 프로그래밍식 평가는 평가 개념이지 레시피가 아니라는 점을 유념하는 것이 중요하다. 통과가 필요한 일련의 모듈 또는 과정이 있는 전통적인 교사 중심의 커리큘럼의 맥락에서, 프로그래밍식 평가 접근법은 가치가 낮다. 교육에 대한 구성주의적 관점을 가진 학습자 중심의 커리큘럼에서, 종단적 스킬 발달을 사용하며, 평생 학습과 자기주도적 학습에 중점을 둔 경우에 프로그래밍 평가가 적합하다. 
Programmatic assessment is built on a number of key principles, as outlined in various key papers (Table 1). It is however important to realise that programmatic assessment is an instructional design approach (van der Vleuten and Schuwirth 2005) and its acceptability is strongly influenced by a variety of factors such as the values of the educational programme and limitations imposed by institutional requirements. It is critical to note that programmatic assessment is an assessment concept and not a recipe. In the context of a conventional teacher-centred curriculum with a set of modules or courses that need be passed, a programmatic assessment approach has less value. In a learner-centred curriculum with a constructivist view on education, using longitudinal skill development and with an emphasis on life-long learning and self-directed learning, programmatic assessment is a natural fit.

현재 문헌에 기술된 원칙(표 1)은 중요하지만 다양한 형태로 실현될 수 있다.
The principles as delineated in current literature (Table 1) are important, yet can be realised in many different manifestations. 

 

현행 문헌에 기술된 핵심 원칙(표 1)은 평가 및 교육 접근방식을 ['평가의 프로그램']이 아니라, [프로그램적 평가]로 특징짓는지 여부를 정의하는 데 중요하다. 모든 학교에는 평가 프로그램이 있지만 모든 학교가 프로그램화된 것은 아니다. '프로그램적'이 되기 위해서는, 이론적 원칙이 교육 및 평가 프로그램의 설계에 통합되어야 하며, 학습 기능(즉, 원칙 1/2/3/11/12)과 평가의 의사결정 기능(즉, 원칙 7/8/9/10) 모두에 관련된 원칙이 존재해야 한다. 이 Ottawa 2020 합의서의 목적은 실무와 연구의 통찰력을 사용하여 표 2에 제시된 프로그램 평가 원칙에 대한 합의를 정의하는 것이다.
The key principles as delineated in current literature (Table 1) are important for defining whether the assessment and education approach should be characterised as programmatic assessment rather than ‘programmes of assessment’. All schools have a programme of assessment, but not all are programmatic. To be programmatic, the theoretical principles should be integrated into the design of the teaching and the assessment programme, and principles pertaining to both the learning function (i.e. principle 1/2/3/11/12) and the decision function of assessment (i.e. principle 7/8/9/10) should be present. The aim of this Ottawa 2020 consensus paper is to use insights from practice and research to define agreement on the principles for programmatic assessment, which are presented in Table 2.

 

 

프로그램 평가의 이론적 원리에 대한 합의
Consensus on the theoretical principles of programmatic assessment

판 데르 블뢰텐과 슈비르트가 제안한 프로그램 평가 이론과 모델은 파트 1이 프로그램 평가의 원칙에 대한 합의에 도달하기 위한 출발점이었다.

The theory and model of programmatic assessment as proposed by van der Vleuten and Schuwirth was the starting point for part 1 to reach a consensus on the principles of programmatic assessment. 

첫 번째 단계는 프로그램에 프로그램 평가를 도입했거나 사용하고 있는 프로그램 리더나 평가 책임자와 같은 실무 경험이 있거나 학자와 교육학자 등 이론과 연구에 대한 경험이 있는 다수의 전문가를 모으는 것이었다. 
The first step was to assemble a number of experts that have experience with either the practice, such as programme leaders or directors of assessment that introduced or are using programmatic assessment in their programmes, or experience with theory and research, such as scholars and educationalists, or both. 

두 번째 단계는 인지된 구성요소, 근거 및 프로그램 평가 설계의 중요성에 대한 목록을 만드는 것이었다. 전문가 그룹은 표 1과 같이 원칙에 관한 질문을 가지고 설문조사를 완료하도록 초청되었다.
The second step was to make an inventory for the perceived components, rationale, and importance of the programmatic assessment design. The group of experts were invited to complete a survey with questions regarding the principles as shown in Table 1:

  1. 여러분은 이 원칙에 동의하나요?
  2. 이 원칙의 구성 요소는 무엇이라고 생각하십니까?
  3. 이 원칙은 프로그램 평가에서 얼마나 중요한가?
  4. 이 원칙은 지키기가 쉬운가요?
  5. 이 원칙을 프로그램에 구현한 적이 있습니까? 그렇다면 어떻게 구현합니까?
  6. Do you agree with this principle?
  7. What do you think are components within this principle?
  8. How important is this principle in programmatic assessment?
  9. Is this principle easy to adhere to?
  10. Have you implemented this principle in your programme and if yes, how?

전문가 그룹에 설문 조사와 함께 초청장을 보내기 전에 시범적으로 하위 그룹(SH, LdJ, LD, TW)이 먼저 조사를 완료했으며 토론 후 원칙 1-3, 원칙 4, 5 및 원칙 6과 7에 대한 응답을 결합하기로 결정했다. 이 조사는 3개 대륙에 걸쳐 6개국의 15개 프로그램을 대표하는 전문가들에 의해 완료되었다. 이 15개 프로그램의 특징은 표 3에 나와 있습니다.
In a pilot prior to sending the invitation with the survey to the expert group, a subgroup (SH, LdJ, LD, TW) first completed the survey and after discussion decided to combine the responses for principles 1–3, principles 4 and 5, and principles 6 and 7, given that these share similar theoretical tenets of the programmatic assessment model. The survey was completed by experts representing 15 programmes from six countries across three continents. The characteristics of these 15 programmes are shown in Table 3.

 

사전 컨퍼런스 토론에 참석한 전문가 그룹 구성원들과 공감대 초안을 분석하고 논의한 결과, [언어와 공식화]가 중요함을 알 수 있었다. 언어와 수사학의 영향은 환자 의사소통의 교육이나 '역량'이라는 단어의 해석과 같은 다른 교육 관행에서 나타났다(Lingard 2007, 2009). 원칙 9와 12의 표현은 특정한 오해를 불러일으켰고 더 명확히 하고 개선할 필요가 있었다. 그 결과, 9번과 12번 원칙은 재검토되었고, 다섯 가지 질문에 대한 전문가들의 답변은 컨퍼런스 워크숍에 앞서 다시 정리되고 분석되었다. 이 요청에 전문가 15명 중 13명이 응했다.
The analysis and discussion of the draft consensus with the members of the expert group present at the pre-conference discussion showed that language and formulation were important. The impact of language and rhetoric has been shown in other educational practices, such as the teaching of patient communication or the interpretation of the word ‘competence’ (Lingard 2007, 2009). The phrasing of principles 9 and 12 led to certain misunderstandings and needed further clarification and refinement. Consequently, principles 9 and 12 were rephrased and experts’ responses to the five questions were then recollected and reanalysed, prior to the workshop at the conference. Thirteen of the 15 experts responded to this request.

합의, 중요도, 준수 및 이행의 분류를 위한 데이터는 표 4에 요약되어 있다. 

The data for the categorisation of agreement, importance, adherence, and implementation are summarised in Table 4

  • 칙 8에서는 삼각측량 및 집계에 사용되는 프레임워크가 반드시 역량 기반 프레임워크가 아니므로 '적절한' 프레임워크로 변경되었다(원칙 8: 평가 정보는 데이터 포인트 전체에서 적절한 프레임워크로 삼각측량됨).

For principle 8, it was discussed that the framework used for triangulation and aggregation is not necessarily a competency-based framework, therefore this was changed to an ‘appropriate’ framework (principle 8: Assessment information is triangulated across data-points towards an appropriate framework).

  • 원칙 10에서는 수행자료 검토에서 학습자의 중심 역할과 중간 검토 목적을 논의했고, 표현 변경으로 이어졌다(원칙 10: 학습자와 진행에 대해 논의하고 결정하는 중간 검토).

For principle 10, the central role of the learner in the review of his/her performance data and the purpose of the intermediate review was discussed, and led to a change in the phrasing (principle 10: Intermediate review is made with to discuss and decide with the learner on their progression).

  • 원칙 11에서 멘토라는 단어는 코치라는 단어로 보충되었다.

For principle 11, the word mentor was supplemented by the word coach.

  • 원칙 5와 7의 경우, 변경사항은 주로 문법과 구문과 관련이 있다. 내러티브에 대한 주제 분석과 회의 중 피드백과 함께, 이것은 원칙에 대한 다음과 같은 합의를 이끌어냈다.

For principles 5 and 7, the changes mainly concerned grammar and syntax. Together with the thematic analysis of the narratives and the feedback during the conference, this led to the following agreement on the principles:

 
 

원리 1/2/3: 

모든 (일부) 평가는 데이터 포인트일 뿐이다/

모든 데이터 포인트는 학습자에게 의미 있는 피드백을 제공함으로써 학습에 최적화된다/

합격/실패 결정은 단일 데이터 포인트에서 내려지지 않는다.
Principle 1/2/3:

- every (part of an) assessment is but a data-point/

- every data-point is optimised for learning by giving meaningful feedback to the learner/

- pass/fail decisions are not given on a single data-point

 

이러한 원칙의 근거는 ['평가가 학습 행동을 주도한다']는 관찰에서 비롯되며, 따라서 학습 접근법에 대한 긍정적인 영향이 가장 중요해야 한다. 일반적인 모듈식 종합 평가 시스템에서 더 많은 부정적인 교육 영향이 나타난다(알 카드리 외). 2009). 평가가 학습을 어떻게 주도하는지drive는 복잡한 문제이다. 그러나 (평가) 과제와 평가 시스템 설계는 모두 [영향에 대한 학습자의 판단, 인식된 행위자성agency, 대인관계 요인]와 같은 [학습자 요인]에 의해 매개되는 중요한 메커니즘임이 분명해지고 있다(실리어 외 2012a, 2012b; Schut 외 2018). 또한 일부 전통적인 평가 시스템에서는 피드백이 무시될 수 있는 것으로 밝혀졌다(Harrison et al. 2013, 2015). 이러한 연구 결과는 평가가 의미 있는 학습을 주도하고 바람직한 학습 접근법을 육성하기 위해 프로그래밍 평가의 목표를 강화하는 데 가장 중요했다. 평가 프로그램은 의미 있는 (종종 서술적인) 피드백을 생성함으로써 평가의 학습 기능을 최적화하도록 설계되었다. 또한 단일 평가를 통과-실패 결정에 사용하지 않는다.
The rationale for these principles derives from the observation that ‘assessment drives learning behaviour’ and therefore a positive impact on learning approaches must be paramount. More adverse educational impacts are seen in typical modular, summative assessment systems (Al Kadri et al. 2009). How assessment drives learning is complex; however, it is becoming clear that both the (assessment) task and the assessment system design are important mechanisms, which are mediated by learner factors, such as the learner’s appraisal of the impact, perceived agency, and interpersonal factors (Cilliers et al. 2012a, 2012b; Schut et al. 2018). In addition, it has been found that feedback can be ignored in some traditional assessment systems (Harrison et al. 2013, 2015). These findings were paramount in reinforcing the objective of programmatic assessment to have assessment drive learning in a meaningful way and foster desirable learning approaches. The assessment programme is designed to optimise the learning function of assessment by the generation of meaningful, often narrative feedback and single assessments not being used for pass–fail decisions.

전반적인 합의가 이루어졌으며 목록을 완성한 15개 프로그램 중 대다수가 이러한 원칙을 이행하였다(표 4). 학습자에게 의미 있는 피드백을 제공해야 할 필요성이 중요한 요소로 인식되었습니다. 복잡한 스킬에 대한 피드백은 내러티브 정보(Govaerts 및 Van der Bleuten 2013)를 통해 향상되었습니다. 서술적 피드백은 또한 표준화된 평가에 의미를 더할 수 있다(Tekian et al. 2017). 또한 피드 포워드를 가능하게 하고 학습을 위한 종단적 모니터링과 가이드를 지원하기 위해 [학습 및 평가 커리큘럼 구조의 종단적 구성]이 언급되었다. 이는 또한 이러한 종단적 평가 커리큘럼 구조의 설계를 의식하는 것의 중요성을 강조했다. 이를 위해, 평가의 매핑 또는 청사진도 또한 4/5 원칙과 연결되는 중요한 구성 요소로 제시되었다. 사고방식과 평가문화에 변화가 필요하다는 지적도 나왔다. 실제로 학습을 자극하기 위한 저부담 설계와 학습자에 대한 종합적인 인식을 위한 고부담 설계 사이의 불일치가 나타났다(Bok et al. 2013; Heeneman et al. 2015). 학습자의 행위자성agency을 위한 기회와 함께 의도적인deliberate 설계, 학습자를 위한 지지적 평가 및 피드백 리터러시 프로그램은 프로그램 평가의 학습 기능을 실현하는 데 도움이 될 수 있다(Price et al. 2012; Schut et al., 2020; Sutton 2012).
There was overall agreement and the majority of the 15 programmes that completed the inventory implemented these principles (Table 4). The need to generate meaningful feedback for learners was recognised as an important component. Feedback for complex skills is enhanced by narrative information (Govaerts and van der Vleuten 2013). Narrative feedback can also add meaning to standardised assessment (Tekian et al. 2017). In addition, the longitudinal organisation of learning and assessment curricular structures was mentioned both to enable feed-forward and to support longitudinal monitoring and guidance for learning. This also highlighted the importance of being conscious of the design of these longitudinal assessment curricular structures. For this, mapping or blueprinting of assessment was also indicated as an important component, which links to principle 4/5. It was also indicated that a change in mindset and assessment culture is needed. Indeed a discrepancy between a low-stakes design to stimulate learning and a high-stakes, summative perception of learners has been shown (Bok et al. 2013; Heeneman et al. 2015). A deliberate design, with opportunities for the learners’ agency, a supportive assessment and/or feedback literacy programme for learners may help actualise the learning function of programmatic assessment (Price et al. 2012; Schut et al. 2018, 2020; Sutton 2012).

원칙 4/5: 

평가 방법은 혼합될 수 있다.

방법 선택은 해당 방법을 사용하기 위한 교육적 정당성에 달려 있다.

 

Principle 4/5:

- there is a mix of methods of assessment

- the choice of method depends on the educational justification for using that method

 

이러한 원칙에 대한 중요한 근거는 모든 평가 방법이 타당성과 신뢰성 측면에서 한계가 있으며, 밀러 피라미드에서 하나의 수준에만 사용될 수 있다는 것이다(van der Vleuten et al. 2010). 따라서, 피라미드 전체를 커버하고 신뢰성과 타당성의 적절한 조합을 보장하기 위해 정교하고 목적적인 방법의 혼합이 필요하다. 또한 평가 형식의 선택은 의도된 학습 결과 및 교육 활동에 대한 [건설적 정렬constructive alignment]에 기초해야 한다(Biggs 1996).

An important rationale for these principles is that any assessment method has its limitations in terms of validity and reliability, and can be used for only one level of Miller’s pyramid (van der Vleuten et al. 2010). Therefore, an elaborate and purposeful mix of methods needs to be used to cover the whole pyramid and to ensure an appropriate mix of reliability and validity. In addition, the choice of any assessment format needs to be based on constructive alignment with the intended learning outcome and the teaching activities (Biggs 1996).

이러한 원칙에 전반적으로 동의하였고 목록을 완성한 15개 프로그램 중 대다수가 어느 정도 이를 구현하였다(표 4). 일부 전문가들은 이 원칙이 프로그램 평가뿐만 아니라 모든 교육 및 평가 설계에서 필요하기 때문에 '부분적' 중요성을 나타냈다. 이러한 원칙을 적용하는 데 필요한 구성요소는 청사진에 부합하는 건설적 정렬의 원칙에 따라 신중하게 평가 방법을 선택하는 것입니다. 과정의 블루프린팅에 대한 가이드라인이 설명된 바 있으나, 프로그램 평가에서 이러한 청사진들은 [프로그램의 전체적인 평가 설계]를 포함해야 하며, 고위 지도부와 경영진의 거버넌스와 지원은 필수적이다. 또한 효용 모델은 이러한 원칙의 중요한 기본 개념으로 제시되었다(Van der Bleuten 1996). 이 모델은 (신뢰성, 타당성 및 교육적 영향과 같이) 평가 방법이나 도구를 판단할 수 있는 여러 요소를 개념적으로 곱하여 평가 효용성utility을 특징짓는다. 개념적 곱셈 모델은 어떤 요소가 0이면 효용이 0이라는 것을 강조한다. 전문가들은 프로그램 평가에서 모든 평가 방법이 사용될 수 있고 효용성에 가치가 있지만, 이는 전체 평가 프로그램의 맥락에서 볼 때에만 판단할 수 있다고 지적했다.

There was overall agreement with these principles and the majority of the 15 programmes that completed the inventory implemented them to some degree (Table 4). Some experts indicated a ‘partial’ importance, as this principle would be necessary in any educational and assessment design, not just in programmatic assessment. The components needed to apply these principles would be a deliberate choice of assessment methods guided by the principles of constructive alignment adhering to a blueprint. Guidelines of the blueprinting of courses have been described (Mookherjee et al. 2013; Villarroel et al. 2018), however in programmatic assessment, these blueprints need to cover the whole assessment design of the programme (Wilkinson and Tweed 2018), and governance and support by senior leadership and management is indispensable. In addition, the utility model was indicated as an important underlying concept of these principles (van der Vleuten 1996). This model characterises assessment utility by conceptually multiplying a number of elements on which assessment methods or instruments can be judged, such as reliability, validity, and educational impact. This conceptual multiplication model emphasises that if any element is zero, then the utility is zero. The experts indicated that in programmatic assessment, any assessment method can be used and be of value for the utility, but this can only be judged when seen within the context of the entire assessment programme.

원칙 6/7: 

총괄평가와 형성평가의 것의 구별은 학습자 진전에 대한 일련의 이해관계로 대체된다.

학습자 진척에 대한 의사결정은 부담에 비례한다.

 

Principle 6/7:

- the distinction between summative and formative is replaced by a continuum of stakes/

- decision-making on learner progress is proportionally related to the stakes

 

프로그램 평가에서 평가의 부담은 낮은 평가에서 높은 평가까지의 연속체로 개념화된다. 이것은 형성 평가와 총괄 평가의 전통적인 이분법과 대조된다. 저부담 평가의 결과는 합격 또는 불합격 측면에서 학습자에게 전혀 consequences가 없거나 매우 제한적으로만 consequences를 초래하며, 대신 이 데이터 포인트는 원칙 1/2/3에서 예시된 것처럼 학습에 최적화된다. 고부담 평가나 고부담 결정은 졸업이나 승진과 같은 중요한 결과로 이어진다. 많은 저부담 평가의 정보는 고부담 의사결정에 기여하며, 고부담 결정일수록 의사결정에 더 많은 데이터 포인트가 필요하다(van der Vleuten et al. 2012).
In programmatic assessment, the stakes of the assessment are conceptualised as a continuum from low- to high-stakes. This contrasts with the more traditional and binary dichotomy of formative versus summative assessment. In a low-stakes assessment, the results have no or limited consequences for the learner in terms of passing or failing, this datapoint instead is optimised for learning, as exemplified in principle 1/2/3. The high-stakes assessment or high-stakes decision, has important consequences, such as graduation or promotion. The information from many low-stakes assessments contributes to the high-stakes decision, and the higher the stakes, proportionally more data points are needed for the decision (van der Vleuten et al. 2012).

이 원칙들에 대한 전반적인 동의가 있었다. 그러나 목록을 완성한 15개 프로그램 중 여러 프로그램은 중요도의 정도와 이를 준수하기 쉬운지에 대해 엇갈린 합의를 나타냈다(표 4). 저부담 평가는 여전히 학습자들의 불안감을 유발하고, 1/2/3 원칙에서도 알 수 있듯이, 교사들이 형성-총괄이라는 이분법적 패러다임에서 저부담-고부담 연속체로 전환하기가 쉽지 않을 수 있다고 언급했다. 교사들의 인식과 관련하여, 연구는 또한 프로그램 평가의 사용이 교사들의 관행과 평가 신념을 긍정적으로 변화시킬 수 있다는 것을 보여주었다. 원칙 6/7에 따르면, 교사는 의사결정 결과가 아닌 평가의 학습 결과(원칙 1/2)에 집중할 수 있다(원칙 9 참조). 이렇게 초점이 달라지만, [교사들의 통제권]와 [학습자들의 독립 허용] 사이의 긴장은 고려해야겠지만, 역할 갈등role conflict을 줄이는 것으로 나타났다. 
There was overall agreement with these principles. However, several of the 15 programmes that completed the inventory indicated a mixed agreement about the degree of importance and whether it was easy to adhere to (Table 4). It was mentioned that a low-stakes assessment would still cause anxiety among learners, and it may not be easy for teachers to shift from a formative-summative paradigm to a low-high stakes continuum, as also indicated for principle 1/2/3. Regarding the perceptions of teachers, research has also shown that the use of programmatic assessment can positively transform teachers practices and assessment beliefs. Given principle 6/7, teachers can focus on the learning outcome of assessment (principle 1/2/3) and not the decision making outcome (see principle 9). This shift in teachers’ focus was shown to reduce role conflicts, although the tension between teachers taking control and allowing learners' independence still needs careful navigation (Jamieson et al. 2021; Schut et al. 2020).

거의 모든 프로그램은 다양한 형식을 사용하여 교육 및 평가 프로그램에서 원칙 6/7을 구현하였다. 예를 들어, 

  • 위임 가능한 전문 활동 
  • 포괄적인 연말 포트폴리오 평가에 기초한 고부담 결정
  • ITER에 기초한 학습 계획 평가와 이를 위한 역량위원회의 설치

Almost all programmes implemented principles 6/7 in their education and assessment program, using various formats, e.g.

  • entrustable professional activities (ten Cate 2005; ten Cate and Scheele 2007),
  • a high-stakes decision based on a comprehensive end of year portfolio assessment (Friedman Ben David et al. 2001; Tochel et al. 2009; van Tartwijk and Driessen 2009), and
  • assessment of learning plans based on in-training assessment reports (Dawson et al. 2015; Laughlin et al. 2012), for which ‘competence committees’ were installed (see principle 9).

워크숍 이전과 워크숍 기간 동안 전문가 및 오타와 참석자들과의 토론에서 이러한 원칙의 사용에 대한 몇 가지 주의사항이 제기되었다.

  • 한 가지는 [고부담 결정을 위한 데이터 포화 필요성]에 관한 것이다. [의사결정자들 사이의 합의]는 [필요한 최소치를 초과한 데이터 포인트의 숫자]와는 무관하다는 증거가 있으며, 이는 데이터 포화에 필요한 최소한의 숫자를 정하고, 주어진 맥락에서 얻어질 수 있음을 시사한다(de Jong 등 2019).
  • [Teaching and Working 환경에서의 심리적 안전]의 필요성도 제기됐다. 프로그램 평가가 시행되는 환경에서 심리적 안전에 대한 연구는 아직 거의 없다. 학습자는 낮은 점수를 높은 점수로 인식하고 불안감을 느낄 수 있습니다. Tsuei 외 연구진(2019)은 [학습자가 심리적으로나 교육적으로 안전하다고 느끼는 많은 특징들]이 프로그램적 평가의 원칙으로도 인정될 수 있음을 제안했다. 여기에는 동료와 멘토와의 협력적인 관계를 맺는 것, Consequences를 걱정하지 않고 학습에 집중하는 것 등이 있다. 그럼에도 불구하고, 관계적 구성relational construct로서의 [교육적 안전감]은 어떤 교육 설계에서도 주의와 인식이 필요하다.
  • 마지막으로, 프로그램적 평가의 고부담 의사결정 기능의 맥락에서도, [학습자 개발에 초점을 맞추고 성찰이 가능하도록 해야 할 필요성]이 표명되었다. 성찰과 자기 모니터링은 전문적인 발전과 성과를 위해 중요한 것으로 인식되어 왔지만, 명백한 도구적이고 의무적인 접근 방식은 학습자에게 무의미한 활동으로 이어질 수 있습니다(Murdoch-Eaton 및 Sandars 2014). 포트폴리오를 작성할 때, 역량개발에 대해 학습자가 어떤 것을 문서화하는지는 학습과 평가 사이의 긴장, 포트폴리오의 목적에 대한 학습자의 인식 등에 영향을 받을 수 있는 것으로 나타났다. 그러나 학습자는 프로그래밍 평가(원리 1/2/3)의 학습 기능 및 코치의 지침(원리 11)에 성찰 또는 자기 평가가 포함되면 학습에 도움이 된다는 것도 인지한다(Heeneman et al. 2015).

In the discussion with experts and Ottawa attendees prior to, and during the workshop, several points of attention were raised for the use of these principles.

  • One point concerned the need for data saturation for high-stakes decisions. There is some evidence that consensus amongst decision makers is independent of the number of datapoints exceeding the required minimum, suggesting that data saturation can be obtained in a given context, with a defined minimum of datapoints (de Jong et al. 2019).
  • Another point was raised on the need for psychological safety in teaching and working environments. There is little research yet on psychological safety in a setting where programmatic assessment is implemented. Learners can perceive low-stakes assessment as high-stakes and feel anxious. Tsuei et al. (2019) suggested that a number of features that learners would perceive as beneficial for feeling psychologically or educationally safe, are recognisable in the principles of programmatic assessment, such as having supportive relationships with peers and mentors and a focus on learning without considering consequences. Nevertheless, educational safety as a relational construct needs attention and awareness in any education design.
  • Finally, the need was expressed to keep a focus on learner development and enable reflection, in the context of the high-stakes decision function of programmatic assessment. Reflection and self-monitoring have been recognised as important for professional development and performance, yet an overt instrumental and mandatory approach can lead to meaningless activities for the learners (Murdoch-Eaton and Sandars 2014). It has been shown that what learners document on competency development in a portfolio can be influenced by tensions between learning and assessment, and the learners’ perceptions about the purpose of the portfolio (Oudkerk Pool et al. 2020). However, learners also perceive the embedding of reflection or self-assessment in the learning function of programmatic assessment (principle 1/2/3) and the guidance from a coach (principle 11) are helpful for their learning (Heeneman et al. 2015).

 

원칙 8: 적절한 프레임워크에 대한 데이터 포인트에 걸친 평가 정보 삼각 측량
Principle 8: assessment information triangulation across data-points, towards an appropriate framework

삼각측량의 원칙은 도메인 특이성에 기초한다. 역량과 같은 구조는 컨텐츠 도메인이 동일할 때 평가 형식보다 잘 일반화된다. 이것은 또한 [시험 형식]이 아닌 [(학습자의) 속성attribuate]에 따라 증거에 기반한 결정을 내릴 수 있는 가능성을 열어준다. 예를 들어 한 학생이 [OSCE의 구성 요소 중 병력청취 점수]를 활용하여 병력청취에 대해 요구되는 표준에 도달했는지 판단할 때, 여기에 [미니-CEX의 병력청취 구성 요소], 그리고 [환자 의견 조사에서 병력청취 구성 요소]까지도 함께 사용하는 것이다.
The principle of triangulation is based on domain-specificity; constructs such as competencies generalise well over assessment formats when the content domain is the same. This also opens up the possibility of making evidence-based decisions by attribute rather than by test format – for example determining if a learner has reached the required standard on history taking might draw on the history taking components of an OSCE, alongside the history taking components of a mini-CEX, and alongside the history taking components of a patient opinion survey.

정보 결정에서 이러한 데이터 삼각측량은 강력한 의사결정의 중요한 구성 요소이다(Norman 등 1996년; Schwirth 및 Van Der Vleuten 2019년).  따라서, 프로그램 평가에서, 동일한 내용에 관련된 평가 정보는 지식, 기술, 태도 또는 역량과 같은 구조에 삼각측량 된다. 적절한 프레임워크로 간주되는 설계와 프로그램의 국가 또는 입법 경계에 따라 달라집니다. 의학 교육에서 역량은 종종 사용된다(Frank et al. 2010).

We see this triangulation of data in informing decisions as an important component to robust decision making (Norman et al. 1996; Schuwirth and Van Der Vleuten 2019). Thus, in programmatic assessment, assessment information that pertains to the same content is triangulated, to constructs such as knowledge, skills, and attitude or competencies. It will depend on the design, and national or legislative boundaries of the programme what is considered as an appropriate framework. In medical education, competencies are often used (Frank et al. 2010).

목록을 완성한 15개 프로그램 중 일부(표 4)는 의도적인 설계, 데이터 관리를 위한 일부 기술, 교수진과 프로그램의 이해 및 지원으로 인해 준수하기가 덜 쉽다는 것을 나타냈지만, 원칙에는 전반적으로 동의하였다. 삼각측량의 개념은 종종 수치 데이터와 서술 데이터의 조합을 요구하기 때문에 교육 실습으로 변환하기가 어려울 수 있다. 최종 결과는 계산이 아니라 [학습자에 대한, 학습자를 위한 풍부한 정보가 담긴 내러티브]입니다. 이를 위해서는 교육 및 평가 설계, 정렬, 교수진 개발, 필요한 수준의 직원 평가 소양 및 전문 지식, 데이터의 전체적인 관점을 취하는 효과적인 그룹 의사결정 프로세스의 확립이 필요하다(나중에 참조).
There was overall agreement with the principle, although some of the 15 programmes that completed the inventory (Table 4) indicated that it was less easy to adhere to, due to the need for a deliberate design, some form of technology to manage the data, and an understanding and support of this concept by faculty and the programme. The concept of triangulation can be difficult to translate into educational practice, as it often asks for a combination of numerical and narrative data. The end result is not a calculation but an informative narrative about and for the learner. This requires central governance of the educational and assessment design, alignment, faculty development, a necessary level of staff assessment literacy and expertise (Prentice et al. 2020; Schuwirth and Van Der Vleuten 2019), and establishment of effective group decision making processes which take a holistic view of the data (see later).

15개 프로그램(표 4)의 목록은 대부분의 프로그램이 다음의 구성요소를 통해 이 원칙을 구현했다: 적절한 방식으로 고품질 데이터를 수집할 뿐만 아니라, 교육 활동, 평가 및 평가 도구를 신중하게 설계한다. 이를 위해서는 모든 평가와 피드백 정보를 수집하는 강력한 시스템이 필수적이다. 전자 포트폴리오와 같은 기술 지원 접근방식이 자주 사용되며, 프로그램 평가에 필요한 목적을 제공할 수 있다.

  • (1) 모든 정보의 보관소(서식, 평가 결과, 회의록),
  • (2) 평가 프로그램의 관리적administrative 목적 촉진(예: 멀티소스 피드백 도구, 다중 플랫폼을 통한 평가 및 피드백 양식 로딩, 액세스 관리)
  • (3) (적절한) 프레임워크를 사용하여 집계된 데이터 포인트의 개요를 생성하여 삼각 측량 함수를 지원한다.
  • (4) 학습자의 자기 평가 및 행위자성agency를 지원한다(Tillema 2001; van Tartwijk and Driessen 2009).

The inventory amongst the 15 programmes (Table 4) showed that most have implemented this principle with the components being: a careful design of educational activities, assessments, and assessment instruments, as well as high quality data aggregation in an appropriate manner. A robust system to collect all assessment and feedback information is essential (van der Vleuten et al. 2015). A technology supported approach, e.g. an electronic portfolio, is often used and could serve the purposes needed for programmatic assessment,

  • (1) as a depository for all information (feedback forms, assessment results, minutes),
  • (2) to facilitate administrative purposes of the programme of assessment (e.g. direct online completion of forms, such as multisource feedback tools, loading of assessment and feedback forms via multiple platforms, managing access),
  • (3) to support the triangulation function by generating overviews of aggregated datapoints using the (appropriate) framework, and
  • (4) to support learners’ self-assessment and agency (Tillema 2001; van Tartwijk and Driessen 2009).

평가와 피드백 정보를 수집하기 위해 선택한 테크놀로지 접근법은, 코치(원리 11)가 더해져서, 학습 기능(원리 1/2/3), 프로그래밍 평가의 의사결정 기능(원리 9)을 지원할 수 있다.

The technology approach chosen to collect the assessment and feedback information can, together with a coach (principle 11), support the learning function (principle 1/2/3), and the decision function of programmatic assessment (principle 9).

원칙 9: 전체론적 접근 방식을 사용하여 신뢰할 수 있고 투명한 방식으로 내린 고위험 의사 결정
Principle 9: high-stakes decisions made in a credible and transparent manner, using a holistic approach

원칙 6/7에 내재된 바와 같이, 프로그래밍 평가에서 고부담 결정은 광범위한 샘플링, 맥락, 평가 방법 및 다양한 평가자에서 비롯된 풍부한 정보에 기반한 많은 데이터포인트에 기초한다(van der Vluten et al. 2012, 2015). 고부담이라는 특성과 그에 따르는 중대한 consequences를 고려할 때, 절차는 신뢰할 수 있고 신뢰할 수 있어야 한다. 절차적 척도procedural measures에는 다음이 포함된다. 

  • 서술적 표준, 루브릭 또는 이정표를 사용할 수 있도록 교육을 받은 전문가로 구성된 평가위원회의 구성
  • 결정에 대한 정당성 제공
  • 코치나 멘토, 학습자의 멤버체킹 절차
  • 항소appeal 절차서 사용

As embedded in principle 6/7, the high-stakes decision in programmatic assessment is based on many datapoints, on rich information originating from a broad sampling, across contexts, assessment methods, and diverse assessors (van der Vleuten et al. 2012, 2015). Given the high-stakes and prominent consequences, the procedures need to be trustworthy and credible. Procedural measures could include:

  • appointment of an assessment committee of experts that are trained and can use narrative standards, rubrics or milestones;
  • the provision of a justification for the decision;
  • member-checking procedures, of the coach/mentor and the learner;
  • instatement of appeal procedures.

판 데르 블뢰텐 등은 다음과 같이 표현했다. '절차적으로 합당한 프로세스를 이루는 요인이나, 전문적인 판단의 전문성에 기여하는 요인과 같기, [어떤 척도가 법정에서도 효력이 있을지를 생각해 보는 것]이 도움이 된다. 이러한 결정은 일반적으로 신뢰성이 있고 신뢰할 수 있는 강력한 결정으로 이어진다'(p. 643)(van der Vleuten et al. 2015).

As expressed by van der Vleuten et al.: ‘it is helpful to think of any measure that would stand up in court, such as factors that provide due process in procedures and expertise of the professional judgement. These usually lead to robust decisions that have credibility and can be trusted’ (p. 643) (van der Vleuten et al. 2015).

이 원칙에 대한 일반적인 합의가 있었고 목록을 완성한 15개 프로그램(표 4) 중 대다수가 이를 이행했지만, 일부에서는 이를 준수하기가 쉽지 않다고 인식하기도 했다. 준수하기 쉽지 않은 이유는 다음과 같았다.

  • 평가 절차 및 위원회에 필요한 자원 (부재)
  • 전문가 그룹 또는 위원회의 결정을 수용하기 위해 필요한 리더십 (부재)
  • 이러한 평가 절차의 집행을 가능하게 하는 기관 정책의 권한 (부재)

Although there was general agreement on this principle and majority of the 15 programmes that completed the inventory (Table 4) have implemented it as such, it was also perceived by some as not easy to adhere to, due to

  • the resources needed for these assessment procedures and/or committees,
  • required leadership for acceptance of decisions by an expert group or committee and
  • a mandate from institutional policies to enable enactment of these assessment procedures.

많은 프로그램에서 임상 역량 위원회 또는 독립 포트폴리오 위원회와 같은 전문가 그룹을 사용하고, 멤버체킹을 위해 멘토와 학습자의 관점을 반영하여 고위험 결정을 내렸다. 이 때 [그룹 의사결정의 원칙]이 강조되었다(Hauer 등 2016). 

  • 전체론적holistic 의사결정을 위해 aggregated data를 사용한다.
  • 정신 모델을 공유하는 것이 중요하다
  • 적절한 정보 공유 방법이 필요하다.


Many programmes used a group of experts to make the high-stakes decisions, e.g. clinical competency committees (Duitsman et al. 2019; Kinnear et al. 2018) or independent portfolio committees taking the view of mentor and learner into account with a member checking procedure (Driessen et al. 2012). The principles of group-decision making were emphasised, including

  • the use of aggregated data to make an holistic decision,
  • the importance of having a shared mental model and
  • a proper method for sharing information (Hauer et al. 2016).

또한 패널은 그룹 의사결정에서 발생할 수 있는 편향에도 주의를 기울여야 한다(Tweed and Wilkinson 2019). 위원회가 피드백 및 성과 데이터 축적에 대한 overview를 관리하고 유지하는 것을 지원하고, 의사결정에 필요한 정보제공을 지원하기 위해, [수행능력 데이터의 모자이크]를 사용하고 [베이지안 네트워크]를 사용하는 접근법이 제안되었다. 신뢰성과 투명성의 필요성은 프로그램 평가에만 국한된 것이 아니며, 모든 평가 절차와 형식은 이를 필요로 한다. 그러나 프로그래밍 방식 평가에서, [전통적인 grading rules이나 심리측정학이 의사결정 과정에 적용할 가능성이 낮다는 것]을 의미하는, [다양한 형식으로 제시된 집계 데이터를 기반으로 전체론적 의사결정이 이루어진다는 것]을 깨닫는 것이 중요하다.

In addition, the panel needs to be attuned to possible sources of bias associated with group decision making (Tweed and Wilkinson 2019). Approaches using mosaics of performance data and use of Bayesian networks have been proposed to support the committees in managing and maintaining overview of accumulating feedback and performance data, and informing the decision making (Pearce et al. 2021; Zoanetti and Pearce 2021). The need for credibility and transparency is not unique to programmatic assessment, all assessment procedures and formats need this. It is however important to realise that in programmatic assessment a holistic decision is made, based on aggregated data that is presented in a variety of formats, meaning traditional grading rules or psychometrics are unlikely to be as applicable in the decision process.

원칙 10: 학습자와 진행 상황을 논의하고 결정하기 위해 중간 검토가 이루어집니다.
Principle 10: intermediate review is made to discuss and decide with the learner on their progress

기간, 연도 또는 프로그램의 말기에 고부담 결정이 상당한 결과를 가져온다는 점을 감안할 때, (결과가) 학습자에게 예상치 못한 일로 다가오지 않아야 한다(van der Vleuten et al. 2015). 따라서 학습자는 잠재적 결정에 대한 중간 피드백을 받아야 하며, 필요한 경우 개선하도록 행동할 수 있어야 합니다. 또한 이 [중간 검토intermediate review]고부담 의사결정의 신뢰성을 보장하기 위한 중요한 절차적 조치로 볼 수 있다(원칙 9 참조). (van der Vleuten et al. 2015) [중간 검토]는 더 적은 데이터 포인트(비례성, 원리 6/7 참조)를 기반으로 하며, 학습자가 어떻게 하고 무엇을 할 수 있는지 '진단' 메시지를 제공하도록 설계되었습니다. [중간 검토]를 위해 학습자가 코치/멘토(원칙 11)의 지도를 받고 피드백 대화가 마련되어 있는지 확인하는 것이 중요하다. 피드백은 대화를 포함하는 순환 과정인 '루프'일 때 가장 효과적이라는 것은 잘 알려져 있다(Boud and Molloy 2012; Carless et al. 2011). 토론과 대화를 강조하고 학습자가 행동할 수 있는 능력을 강조한 것도 오타와 컨퍼런스에서 워크숍이 끝난 후 이 원칙을 되새겨야 하는 이유였다.
Given that the high-stakes decision at the end of a period, year or programme has substantial consequences, this must not come as a surprise for the learner (van der Vleuten et al. 2015). Therefore, it is imperative that the learner receives intermediate feedback on the potential decision and can act to improve if needed. This intermediate review can also be seen as an important procedural measure for ensuring the credibility of the high-stakes decision (see principle 9) (van der Vleuten et al. 2015). The intermediate review is based on fewer datapoints (proportionality, see principle 6/7) and is designed to give a ‘diagnostic’ message, how is the learner doing and what can be done. For this intermediate review, it is important that the learner is guided by a coach/mentor (principle 11), and that a feedback dialogue is in place. It is well known that feedback is most effective, when it is a ‘loop’, a cyclical process, involving a dialogue (Boud and Molloy 2012; Carless et al. 2011). The emphasis on the discussion and dialogue and the ability of the learner to act were also the rationales for the rephrasing of this principle after the workshop at the Ottawa conference.

합의가 이루어졌고 목록을 완성한 15개 프로그램(표 4) 대부분이 구현되었지만, 일부 프로그램의 경우 필수 자원과 커리큘럼 설계에 중간 순간을 명시적으로 통합해야 할 필요성 때문에 준수하기가 쉽지 않았다. 종종 중간 순간의 순간은 일정 기간이나 한 해의 중간 정도의 공식적인 순간으로 구현되거나 멘토 미팅의 과정의 일부로 통합되거나 감독자에 의해 수행된다. 중간 검토의 존재는 학습 촉진에 있어 프로그램이 학습자를 돌본다는 것을 의미하기도 했다. 피드백을 활용하는 학습자 스스로의 역할과 피드백의 후속 조치가 매우 중요하다고 보았다.
Although there was agreement and most of the 15 programmes that completed the inventory (Table 4) have implemented, for some it was less easy to adhere to, because of the necessary resources and the need to explicitly incorporate an intermediate moment in the design of the curriculum. Often the intermediate moment was implemented as a formal moment in time halfway through a period or year, integrated as part of the process of mentor meetings, or done by the supervisors. It was also indicated that the presence of an intermediate review signified that the programme takes care of the learner, in facilitating the learning. The role of the learners themselves in using the feedback, and follow-up of feedback was seen as very important.

원칙 11: 학습자는 모든 평가 데이터의 자체 분석을 사용하여 멘토/코치와 반복적인 학습 미팅을 갖습니다.
Principle 11: learners have recurrent learning meetings with (faculty) mentors/coaches using a self-analysis of all assessment data

위에서 설명한 것처럼(원칙 1/2/3 및 10), 피드백은 학습 및 전문성 개발을 위해 필수적입니다. 학습자에 의한 피드백의 사용은 종종 자기 분석이나 성찰에 있어 중요한 역할을 한다. 학습자는 성찰 활동을 체크박스 실습 이상으로 인식하지 않습니다. 하지만, 학습자들은 성찰의 가치를 멘토와의 대화에서 찾는다. 자기 주도성과 성찰에는 멘토나 코치의 디렉션과 가이드가 필요하다는 것은 잘 알려진 사실이다. 따라서 멘토에 의한 이 지침은 프로그램 평가에서 중요한 원칙이다(van der Vleuten et al. 2012, 2015).

As indicated above (principles 1/2/3 and 10), feedback is essential for learning and professional development. The use of that feedback by the learners is often scaffolded in self-analysis or reflection (Sargeant et al. 2009). Learners do not appreciate reflective activities as more than tick-box exercises (de la Croix and Veen 2018); however, they do see the value of reflection as part of a dialogue with a mentor (Driessen et al. 2012; Heeneman et al. 2015). It is well known that self-direction and reflection require direction and guidance by a mentor or coach (Knowles 1975; Pilling-Cormick 1997). Therefore, this guidance by a mentor is an important principle in programmatic assessment (van der Vleuten et al. 2012, 2015).

전반적인 합의가 이루어졌으며 목록을 완성한 15개 프로그램(표 4) 중 대다수는 이 원칙을 구현하였다. 리소스 부족과 (훈련된) 직원 부족이 이 원칙을 고수하기 쉽지 않은 요인이었습니다. 대부분의 프로그램은 전담 스태프 멘토/코치를 사용하거나 대학원 교육에서 프로그램 책임자가 참여했습니다. 프로그램의 규모도 중요했다. 학생의 규모는 큰데, 자원이 제한적일 경우, 멘토링 시스템이 없거나 연중 연락 횟수가 제한적일 수 있다. 
There was overall agreement and the majority of the 15 programmes that completed the inventory (Table 4) implemented this principle. Lack of resources and lack of (trained) staff were factors that made this principle less easy to adhere to. Most programmes used dedicated staff mentors/coaches, or in post-graduate training the programme director was involved. It was clear that the size of the programme also mattered; if many learners were present, and resources limited, the choice could be made to have no mentoring system or a limited number of contacts throughout the year.

 

원칙 12: 프로그램 평가는 개별 학습 우선순위를 지원하도록 맞춤화된 학습을 통해 학습자의 자기 학습에 대한 행위자성과 책임감을 점진적으로 증가시키는 것을 추구한다.
Principle 12: programmatic assessment seeks to gradually increase the learner’s agency and accountability for their own learning through the learning being tailored to support individual learning priorities

평가의 학습적 기능(원리 1/2/3)을 위해 평가와 피드백이 저부담으로 설계되고, 지속적인 정보 흐름이 자기조절 학습을 촉진한다. 자기 결정 이론과 자기 조절 학습과 같은 프레임워크는 학습자의 학습 동기와 기관의 중요성을 뒷받침한다. Schut 등은 프로그램 평가의 맥락에서, 스스로 통제하고 있다는 느낌이나 행위자성agency을 갖는 것이 평가 이해 관계에 대한 학습자의 인식에 필수적이라는 것을 확인했다(Shut 등 2018). 프로그램의 몇몇 feature는 학습자가 평가를 통제하고 저부담 평가로 인식할 수 있는지에 중요했다. 즉, 프로그램에서 학습자가 [스스로 평가를 시작하거나 진행 상황에 대한 증거를 선택할 수 있도록 허용할 때], sense of agency가 장려되었다.
For the learning function of assessment (principle 1/2/3), assessment and feedback are designed as low-stakes, and the continuous flow of information fosters self-regulated learning. Frameworks such as the self-determination theory and self-regulated learning indeed support the importance of learners’ motivation and agency for learning (Panadero 2017; Zimmerman 1989). Schut et al. identified that, in the context of programmatic assessment, the feeling of being in control, or agency, was essential for the learners’ perception of assessment stakes (Schut et al. 2018). Programme features were an important factor in whether learners were able to take control over the assessment and perceive it as low-stakes, i.e. a sense of agency was encouraged when the programme allowed the learner to initiate their own assessment or select the evidence for their progress (Schut et al. 2018).

이것은 가장 복잡한 원칙으로 인식되었고 메시지와 함축된 의미를 전달하기 위해 리퍼레이싱이 필요했다. 재정비 후, 원칙과 전반적인 합의가 이루어졌는데, 이를 준수하기가 쉽지 않았고, 재고를 완료한 일부 프로그램(표 4)에서 이행이 일부 이루어졌다. 잘하는 학습자와 어려움을 겪는 학습자 모두에게 agency과 accountability가 중요함이 강조되었다. 이는 어려움을 겪는 학습자에게 특히 더 힘든데, 왜냐하면 그러한 학생일수록 코치나 스텝이 개입하여 조치를 취할 가능성이 더 높고, 재교육 조치를 스텝이 통제하고 규제하기 때문이다. 그러나 프로그램 평가에서 학습에 초점을 맞춘 것은 [이미 잘 하고 있는 사람들]이 훨씬 더 잘 할 수 있도록 지원하고 격려하며, 궁극적으로 모든 의료 종사자들에게 평생 학습의 중요성을 강화한다.
This was perceived as the most complex principle and rephrasing was needed to convey the message and implications. After rephrasing there was overall agreement with the principle, although it was not easy to adhere to, and implementation was partial in some of the programmes that completed the inventory (Table 4). It was indicated that agency and accountability are important for all learners, both for those that do well and those that struggle. This is challenging as for the learners that struggle, coaches and staff are more likely to step in and take action (Heeneman and de Grave 2017), and remediation is controlled and regulated by staff (Ellaway et al. 2018). Yet the focus on learning in programmatic assessment suggests those already doing well are supported and encouraged to do even better, reinforcing the importance of lifelong learning for all health care practitioners.

표 2는 프로그램 평가의 최종 Ottawa 2020 합의 원칙을 제시한다. 표 2의 원칙은 평가 프로그램을 프로그래밍 방식으로 호출하기 위해 이행해야 하는 체크리스트의 항목으로 간주되지 않는다. 앞서 언급한 바와 같이, 원칙은 교육, 평가 및 조정에 대한 개념적 관점을 나타낸다. 프로그램 평가는 레시피가 아니며 다양한 표현을 할 수 있다. 그럼에도 불구하고 이러한 표현은 프로그램 평가가 교육 설계를 주도하고 그러한 맥락에서 평가의 학습과 의사결정 기능을 극대화하는 프로그램으로 간주될 수 있다. 

Table 2 presents the final Ottawa 2020 consensus principles of programmatic assessment. The principles in Table 2 are not be considered as items of a checklist that need to be fulfilled in order to call the programme of assessment, programmatic. As indicated earlier, the principles represent a conceptual view on education, assessment and its alignment. Programmatic assessment is not a recipe and may have many different manifestations. These manifestations may nevertheless be considered as programmes in which programmatic assessment is leading the educational design and maximises the learning and decision function of assessment in that context. 

 

향후 작업에 대한 권장 사항
Recommendations for future work

프로그래밍 평가 원칙에 대한 이 오타와 2020 합의문(파트 1)의 작업과 진행은 여러 가지 중요한 통찰력을 제공한다.

The work and proceedings for this Ottawa 2020 consensus statement (part 1) on the principles of programmatic assessment let to a number of important insights. 

첫째, 프로그래밍 평가 모델에서 중요한 측면은 원칙의 연계이다. 예를 들어 중간 진척도 회의(원칙 10)를 위해서는, 멘토의 지도가 필요하다(원칙 11). [원칙이 서로 의존한다는 사실]은 커리큘럼의 평가와 교육 설계의 중심으로서 프로그램 평가를 선택할 때 고려해야 할 중요한 사항이다. 중요한 질문은 일정한 원칙이 있는지, 또는 평가의 학습과 의사결정 기능에 원하는 영향을 미치기 위해 설계에 필요한 구체적인 원칙이 있는지 여부이다. 다시 말해, 어떤 원칙의 부재가 시스템을 프로그래밍 방식이라고 부를 수 없게 만드는가? 프로그래밍 방식이 실현되기 전에 적용해야 할 특정 수의 원칙이 있는가?

First, a significant aspect in the programmatic assessment model is the interlinking of certain principles, e.g. for the intermediate progress meeting (principle 10), guidance by a mentor is needed (principle 11). The finding that the principles depend on each other in practice, is important to take into account in the choice for programmatic assessment as central to the assessment and educational design of a curriculum. An important question is whether there are a certain number of principles, or whether there are specific principles that are needed in the design to lead to the desired impact on the learning and decision function of assessment. In other words, are there principles without which a system could not be called programmatic and/or are there a certain number of principles that need to be applied, before a programmatic approach is realised?

여기서 여러 맥락에 걸친 다른 교육 형식의 구현과 비교하는 것은 유용할 수 있다(예: 문제 기반 학습(PBL)). PBL은 원래 의도한 모델에 대한 타협으로 인해 많은 표현 또는 하이브리드 접근법을 가질 수 있다. 연구에 따르면 PBL의 성과에 대해서는 혼재hybrid 되어있다. 마찬가지로 프로그램적 평가에서 특정 원칙을 부분적으로만 구현하면 원치 않는 부작용을 초래할 수 있다. 예를 들어, 학습자가 저부담 평가를 인식하지 못하는 것이다. 중요한 질문은 최적의 구현을 하지 못해서 결과가 하이브리드였는지, 아니면 특정 원칙이 부분적으로만 구현되었는지 여부이다. 

Here, the comparison to the implementation of other educational formats across contexts may be useful, e.g. problem-based learning (PBL). PBL can have many manifestations or hybrid approaches, as a result of compromises on the original intended model. Studies have shown that the outcome of PBL may then give a ‘hybrid’ success (Frambach et al. 2012), and also in programmatic assessment, the partial implementation of certain principles may give unwanted side effects, e.g. low-stakes assessment that is not perceived as such by the learners (Bok et al. 2013; Heeneman et al. 2015; Schut et al. 2018). An important question is whether the implementation itself was not optimal and therefore led to a hybrid outcome, or was a certain principle only partially implemented, e.g. a number of assessments are present that yield individual summative decisions, and that led to the hybrid outcome.

그러나 프로그램 평가가 커리큘럼의 평가와 교육 설계에 중심인 경우, [학습 기능(즉, 원칙 1/2/3/11/12)]과 [평가의 의사결정 기능(즉, 원칙 7/8/9/10)] 모두에 관련된 원칙이 존재해야 한다는 것이 프로그래밍 평가의 핵심 특징으로 강조되고 고려된다. 이 합의문에 기여한 전문가들이 속한 프로그램마다 실무에서는 프로그래밍 평가가 서로 다른 방식으로 구현되었으며, 혁신이 다양성에서 발생할 수 있음을 고려하면, 더 장려되어야 한다.

It is however emphasised and considered as a key feature of programmatic assessment that principles pertaining to both the learning function (i.e. principle 1/2/3/11/12) and the decision function of assessment (i.e. principle 7/8/9/10) should be present if programmatic assessment is central to the assessment and educational design of a curriculum. Different manifestations of programmatic assessment were seen in the actual practices of the experts’ programmes that contributed to this consensus statement, and this should be encouraged as innovation can arise from diversity.

둘째, 부담의 연속체 원칙(원리 6/7)과 학습자 행위자성(원리 12)은 중요성과 고수성adherence 측면에서 가장 다양한 응답이 얻어졌다(표 4). 실제로 [부담의 연속체]는 프로그램적 평가 모델의 중요한 이론적 토대이지만, 이와 같은 연속체라는 차원을 파악하고 고수하는 것은 어렵다고 여겨졌다. 예:

  • 저부담 평가는 언제 '진정한' 저부담 평가인가?
  • 의도된 학습 성과 수준에서 의미 있고 신뢰할 수 있는 고부담 결정을 어떻게 내려야 하는가?
  • (부담의) 전체 연속체를 어떻게 도입할 수 있을까?

Second, the principles on the continuum of stakes (principle 6/7) and learner agency (principle 12) gave the most varied responses in terms of importance and adherence (Table 4). Indeed the continuum of stakes is an important theoretical foundation of the programmatic assessment model, but the dimensions of this continuum were considered difficult to grasp and adhere to. For example:

  • When is a low-stakes assessment ‘truly’ low-stakes?
  • How should we come to a meaningful and reliable high-stakes decision at the level of the intended learning outcomes?
  • And how can the full continuum be employed?

원칙 12와 관련하여, 학습자의 행위자성은 중요하지만 달성하기 어려운 것으로 인식되었다. 이를 위해서는 커리큘럼과 평가 설계의 변경이 필요하며, 정렬이 더욱 중요할 것임이 분명했다(Kulasegaram et al. 2018). 와틀링 등이 보여주듯 '행위자성은 (힘든) 일'이라는 점에서, 학습자는 사회적·전문적 기대에 저항해야 할 수 있으며, 지원/코칭은 성과가 있고 필요한 것으로 판단되었다(원칙 11).

  • [기관 수준에서의 정책]과 [인증 기관]이 긴장을 유발할 수도 있다. 왜냐하면 [프로그램의 의도된 학습 성과를 달성하고 보호해야 할 필요성]과 [([학습의 자기 조절와 자기 결정의 극대화]를 위한) 학습자가 원하는 자율성 또는 행위자성] 중 어느 한 쪽이 강조되기 때문이다. 
  • 게다가, 선생님들의 역할이 중요한 것으로 나타났다: 교사들이 accounting와 control에 더 집중하는 것도 긴장을 유발할 수 있다. 교사는 학습자를 통제하는 것과 학습자의 행위자성을 허가하는 것 사이에서 어려움을 겪을 수 있다(Shut et al. 2020). 

Regarding principle 12, leaner agency was perceived as important but also difficult to achieve. It was clear that this would need a change in both the curriculum and assessment design and even more important the alignment (Kulasegaram et al. 2018). As shown by Watling et al., ‘agency is (hard) work’, learners may need to resist social and professional expectations, and support/coaching was deemed as fruitful and needed (principle 11) (Watling et al. 2021).

  • Institutional policies and accreditation bodies can create tensions by emphasising the need to attain and safeguard the intended learning outcomes of a programme versus the desired autonomy or agency of the learner to maximise self-regulation and self-determination of learning.
  • In addition, the teachers’ role was shown to be important: when teachers are more focused on the conception of accounting and control, this could lead to tensions. Teachers may struggle between being in control and permitting learner agency (Schut et al. 2020). 

셋째, 맥락이 프로그램 평가의 구현과 잠재적 결과에 매우 중요한 영향을 미친다는 것은 분명하다. 이 합의문의 전문가들은 유럽, 북미, 오스트랄라시아 지역에 근거지를 두고 있었다는 점을 주목해야 한다. 문화적 측면이 평가 신념과 제도에 영향을 미친다는 것은 잘 알려져 있다. 다른 지역의 평가 관행을 바꿔야 한다는 요구(Khan 2018)가 있으며, 다른 지역이나 문화에서의 프로그램 평가에 대한 더 많은 연구가 적극 권장된다.

Third, it is clear that the context is a very significant influence on the implementation and the potential outcomes of programmatic assessment. It is important to note that the experts of this consensus statement were based in European, North-American, and Australasia regions. It is well known that cultural aspects influence assessment beliefs and systems (Wong 2011). Calls for a change of assessment practices in other regions are made (Khan 2018) and more studies on programmatic assessment in other regions or cultures are highly recommended.

결론들
Conclusions

전문가들과 그들의 프로그램들 사이의 목록은 비록 다양한 접근법과 엄격함에도 불구하고 이러한 원칙들이 사용되고 구현되었음을 보여주었고, 이는 프로그램 평가가 구현 가능한 현실적인 평가 모델임을 시사한다. Variability는 프로그램 규모, 제도 장벽, 법률 제한, 가용 자원, 평가 문해 수준 및 변화에 대한 기본 태도와 같은 다양한 맥락적 요소와 관련이 있었다. 다양한 맥락에서 프로그램 평가가 어떻게 운영되고 있는지에 대한 지식을 공유하면 교육자가 프로그램에서 프로그램 평가의 구현 여정에 대한 현재 또는 미래의 계획을 나타내는 데 도움이 될 수 있다. 

An inventory amongst experts and their programmes showed that these principles were used and implemented, albeit with a range of approaches and rigor, suggesting that programmatic assessment is a realistic assessment model that can be implemented. The variability was related to various context factors such as programme size, institutional barriers, legislation restrictions, available resources, level of assessment literacy and underlying attitudes to change. Sharing knowledge of how programmatic assessment is being operationalised in different contexts may help educators in signifying their current or future plans for the implementation journey of programmatic assessment in their programmes. 

 

 


Med Teach. 2021 Oct;43(10):1139-1148.

 doi: 10.1080/0142159X.2021.1957088. Epub 2021 Aug 3.

Ottawa 2020 consensus statement for programmatic assessment - 1. Agreement on the principles

Affiliations collapse

Affiliations

1Department of Pathology, School of Health Profession Education, Maastricht University, Maastricht, The Netherlands.

2Department of Population Health Sciences, Faculty of Veterinary Medicine, Utrecht University, Utrecht, The Netherlands.

3School of Dentistry, University of Liverpool, Liverpool, UK.

4Education Unit, University of Otago, Christchurch, New Zealand.

5Department of Medical Education, Melbourne Medical School, University of Melbourne, Melbourne, Australia.

6MD Program, Department of Psychiatry, and The Wilson Centre, University of Toronto, Toronto, Canada.

7College of Medicine and Health, University of Exeter Medical School, Exeter, UK.

8Department of Medicine, Uniformed Services University of Health Sciences, Bethesda, MD, USA.

9Department of Educational Development and Research, School of Health Profession Education, Maastricht University, Maastricht, The Netherlands.

PMID: 34344274

DOI: 10.1080/0142159X.2021.1957088

Abstract

Introduction: In the Ottawa 2018 Consensus framework for good assessment, a set of criteria was presented for systems of assessment. Currently, programmatic assessment is being established in an increasing number of programmes. In this Ottawa 2020 consensus statement for programmatic assessment insights from practice and research are used to define the principles of programmatic assessment.

Methods: For fifteen programmes in health professions education affiliated with members of an expert group (n = 20), an inventory was completed for the perceived components, rationale, and importance of a programmatic assessment design. Input from attendees of a programmatic assessment workshop and symposium at the 2020 Ottawa conference was included. The outcome is discussed in concurrence with current theory and research.

Results and discussion: Twelve principles are presented that are considered as important and recognisable facets of programmatic assessment. Overall these principles were used in the curriculum and assessment design, albeit with a range of approaches and rigor, suggesting that programmatic assessment is an achievable education and assessment model, embedded both in practice and research. Knowledge on and sharing how programmatic assessment is being operationalized may help support educators charting their own implementation journey of programmatic assessment in their respective programmes.

Keywords: Programmatic assessment; curriculum; decision-making; feedback; learners; teachers.

평가 프로그램의 철학적 역사: 변화해온 윤곽의 추적(Adv Health Sci Educ Theory Pract. 2021)
A philosophical history of programmatic assessment: tracing shifting configurations
J. Pearce1 · W. Tavares2

 

소개: 왜 철학적 역사인가?
Introduction: why a philosophical history?


HPE에서는 프로그램 평가가 보편화되었다. 이 주제에 대한 학술 문헌이 풍부하고 의과대학과 전문 훈련대학은 점점 더 프로그래밍식 평가를 전면적으로 시행하거나 접근법의 측면을 평가 프레임워크에 통합하고 있다. 프로그래밍 접근방식은 [평가 증거를 결합하여 프로그램 수준에서 평가를 최적화]한다. 개별 평가에서 합격/불합격 결정을 제거하고(데이터포인트로 처리), 학습자가 다양한 방법으로 평가(및 지속적인 피드백 제공)를 받을 수 있도록 보장하며, 축적된 증거를 검토하는 즉시 전문 심사위원이 역량에 대한 높은 결정을 내려야 한다. 그러나, 분명해지겠지만, 이것은 상황을 설정하기 위한 프로그램 평가의 작업 정의일 뿐입니다. 우리는 프로그램 평가가 유동적인 개념이며, 프로그램 평가를 구성하는 것이 시간이 지남에 따라 변화했다고 주장한다.
Programmatic assessment has become ubiquitous in health professions education. The academic literature on the topic is abundant, and medical schools and specialist training colleges are increasingly implementing programmatic assessment in full, or incorporating aspects of the approach into their assessment frameworks. A programmatic approach in health professions education optimises assessment at a programme level by combining assessment evidence. It removes pass/fail decisions from individual assessments (treated as datapoints), ensures that learners are assessed (and given constant feedback) with a variety of methods over time, and requires high-stakes decisions regarding competence to be made by expert judges upon reviewing accumulated evidence. However, as will become clear, this is merely a working definition of programmatic assessment in order to set the scene. We argue that programmatic assessment is a fluid concept, and what constitutes programmatic assessment has changed over time.

지지자들은 초기 형태의 심리 측정 테스트에서 나온 프로그램 평가의 출현에 대한 서술적 이야기를 되짚고, 그것이 해결한 문제와 긴장을 개략적으로 설명한다(슈비르트 & 반 데르 블뢰텐, 2019). 의학 교육 교과서에는 이제 프로그래밍 평가에 관한 장이 수록되어 있다(Van der Vluten 등, 2017, 2020). 2020년 오타와 회의는 이 주제에 대한 첫 번째 '합의문'을 준비했다. 간단히 말해서, 우리는 [거의 의심받지 않는 프로그램적 접근법]으로 구성된 의학 교육의 평가의 시대로 들어섰다. 프로그램적이지 않은 평가에 대한 접근은 어떤 의미에서는 가식적이 되었다. 프로그래밍식 평가는 확고히 자리잡은 발상이 되었고, 이제는 평가 관행을 규제하고 있다. 이를 통해 그것이 언제 처음 나타났는지, 어떻게 우리가 오늘날 알고 있는 형태로 진화했는지 성찰할 수 있다.
Proponents recount narrative stories about the emergence of programmatic assessment from earlier forms of psychometric testing, and outline problems and tensions it has solved (Schuwirth & van der Vleuten, 2019). Medical education textbooks now feature chapters on programmatic assessment (Van der Vleuten et al., 2017, 2020). The 2020 Ottawa Conference prepared its first ‘consensus statement’ on the topic. In short, we have entered an era of assessment in medical education constituted by an almost unquestioned programmatic approach. Approaches to assessment that are not programmatic have become, in a sense, tendentious. Programmatic assessment has become an entrenched idea, now regulating assessment practice. This allows us to reflectively ask when it first emerged and how it evolved into the form we know today.

연구의 목적 및 구조
Purpose and structure of the study

본 논문은 이러한 문제가 다른 곳에서 다루어지기 때문에 프로그램 원칙이나 운영 접근법에 관여하는 것에서 한 발 물러섰다(Van der Vleuten et al., 2015, 2017; Wilkinson & Tweed, 2018). 대신, 우리는 메타 철학 및 역사학적 관점에서 프로그램 평가를 검토하기로 선택한다. 우리는 프로그램 평가 역사에서 상대적으로 구별되는 세 가지 단계를 식별하였다. 

  • 출현
  • 진화
  • 고착

This paper takes a step back from engaging with programmatic principles or operational approaches, as these issues are dealt with elsewhere (Van der Vleuten et al., 2015, 2017; Wilkinson & Tweed, 2018). Instead, we choose to review programmatic assessment from a meta-philosophical and historiographical perspective. We identify three relatively distinctive phases in the history of the programmatic assessment:

  • emergence,
  • evolution and
  • entrenchment.

우리는 시기phase 사이에 일어나는 것처럼 보이는 철학적 변화를 끌어내고 궤도의 변화를 이끄는 것처럼 보이는 순간에 철학적 이슈를 검토한다. 여기서, 우리는 아이디어 자체의 [비-목적론적non-teleological 변화], 즉 어떻게 그것이 필요한 엔드포인트나 목표 없이 유기적으로 진화했는지를 언급할 것이다
We draw out the philosophical shifts that seem to be occurring between phases, and also examine philosophical issues at moments that appear to be driving shifts in the trajectory. Here, we are referring to non-teleological changes in the idea itself—how it evolved organically without a necessary endpoint or goal. 

연구의 관련성
Relevance of the study

평가에 대한 방법론적 접근법이 문헌에서 일상적으로 논의되고 있지만, 평가를 형성하는 철학적 가정과 책임에는 덜 주의를 기울였다. [철학적 입장이 암묵적일 때], 뒤따르는 토론은 방법론적인 것에 집중된다. [철학적 위치]가 단순히 [데이터를 생성하는 데 사용되는 방법]을 넘어서, [평가에 대한 이해를 형성]하는 데 갖는 역할을 고려할 때(Tavares 등, 2019) 프로그램 평가와 그 내역에 대한 철학적 조사는 시기적절하다. 프로그램 평가의 역사적 궤적을 추적하면서, 우리는 그 안에서 변화하는 암묵적인 철학적 위치를 끌어낼 것이다. 

Although methodological approaches to assessment are routinely discussed in the literature, less attention has been given to the philosophical assumptions and commitments that shape assessments. When philosophical positions remain implicit, methodologically focused debates ensue. Given the role philosophical positions have in shaping an understanding of assessment beyond what methods are used to generate data (Tavares et al., 2019), a philosophical probing of programmatic assessment and its history is timely. In tracing the historical trajectory of programmatic assessment, we draw out the shifting, implicit philosophical positions within it. 

접근법의 기초 및 정당성
Basis and justification of the approach

다양한 관점(예: 지적, 사회, 문화, 경제, 정치)의 프로그래밍 평가의 완전하고 세분화된 역사는 가치가 있지만, 우리는 다른 역사적 관점에서 진행하기를 바란다. 라스무센은 과학의 역사에서 [전통적인 접근법]이 전형적으로 [이론의 발전]을 추적해왔다고 지적한다. 즉, (발명과 발견과 같은) 진보적인 해결책과 (이론과 모델과 같은) 학문 내의 질문에 대한 답에 초점을 맞추고 있다고 언급했다. 

Although a complete and fine-grained history of programmatic assessment from multiple perspectives (e.g., intellectual, social, cultural, economic, political) would be valuable, we wish to proceed from a different historiographical perspective. Rasmussen notes that traditional approaches in the history of science have typically traced the development of theories, focussing on progressive solutions (such as inventions and discoveries) and answers (such as theories and models) to questions within a discipline (Rasmussen, 1997).

자딘(Jardine)은 과학 분야의 역사에 접근하는 [대안적인 방법론]을 제시한다. 즉, [변화하는 질문, 문제, 실천 및 전제를 추적]하는 것에 초점을 맞추는 것이다(Jardine, 2000). 자딘의 질문의 목적은 변화하는 '조사의 장'이다.

  • 연구자들은 어떤 질문을 하고 있는가?
  • 그들이 걱정하는 문제들은 무엇인가?
  • 이러한 문제를 해결하기 위해 그들은 어떤 관행, 방법, 기술을 사용하는가?
  • 어떤 근본적인 철학적 전제가 조사를 인도하는가?

Jardine offers an alternative methodology for approaching the history of scientific disciplines, which instead focuses on tracing the shifting questions, problems, practices and presuppositions of inquirers (Jardine, 2000). Jardine’s object of interrogation is the shifting ‘scene of inquiry’—

  • what questions are being asked by inquirers?
  • What are the problems that concern them?
  • What practices, methods and techniques do they draw upon to solve these problems?
  • What underlying philosophical presuppositions guide inquiry?

이러한 미묘함은 시간이 지남에 따라 사라지거나, 잘못 해석되거나 의도하지 않은 방식으로 옮겨질 수 있습니다. 그럼에도 불구하고 이러한 미묘함들은 정확히 우리가 이 프로그램 평가의 역사에서 분석하게 될 것이다.

These subtleties can get lost over time, misinterpreted or taken up in unintended ways. And yet these subtleties are precisely what we will be analysing in this history of programmatic assessment.

자딘의 방법론에 따라, 우리는 메타 철학 렌즈를 통한 프로그램 평가에 대한 역사적 연구를 수행하는 과정에서, 연구자inquirer의 질문, 문제, 실천 및 철학적 전제에 초점을 맞춘다. 이 방법론적 접근은 [역사적 인식론]이라는 지적인 전통 정신을 이용한다. [역사적 인식론]은 "사물이 지식의 대상으로 만들어지는 역사적 조건과 수단"에 대한 연구이다. 근본적으로 역사적 인식론은 과학이 철학적으로 무엇인지 이해하기 위해서는 우선 비판적인 관점에서 그것의 역사를 연구해야 한다고 가정한다. 여기에는 역사적 궤적에서 철학적 조건과 자극을 이해하는 것이 포함된다(Tavares 등, 2019).

Following the methodology of Jardine, we conduct a historiographical study of programmatic assessment through a meta-philosophical lens, focussing on questions, problems, practices and philosophical presuppositions of inquirers. This methodological approach draws on the spirit of the intellectual tradition of historical epistemology. Historical epistemology is an investigation into “the historical conditions under which, and the means with which, things are made into objects of knowledge” (Rheinberger, 2010, p. 2). Fundamentally, historical epistemology posits that in order to understand what science is philosophically, we must first study its history from a critical perspective. This includes understanding the philosophical conditions and stimuli in a historical trajectory (Tavares et al., 2019).

이 접근법은, 관점주의perspectivism에 기반을 두고 있으며, [불변하거나, 시대를 초월하거나, 객관적이거나, 절대적인 형태의 합리성]을 갖춘 주장은 없다고 주장한다. 과학(그리고 과학적 탐구)은 역사적 우발성historical contingencies으로 인해 시간이 지남에 따라 단편화된다. 과학적 실천의 규범과 지식의 내용은 [특정한 철학적 우선순위]로 인해 발생하는 길고 때로는 꼬여있는 역사에 의존한다. 우리는 이러한 개념을 평가와 관련하여 유동적이고 문화적인 탐구 관행을 강조하면서 프로그램적 평가에 활용합니다.

Such an approach, grounded in perspectivism (Pearce, 2013), argues that there is no claim to unchanging, timeless, objective or absolute forms of rationality. The sciences (and scientific inquiry) become fragmented over time due to historical contingencies. The norms of scientific practice and the content of knowledge are dependent on long and sometimes convoluted histories, which arise due to specific philosophical priorities. We utilise these conceptions for programmatic assessment, underscoring the fluid, cultural practice of inquiry in relation to assessment.

현대 우주론(J. 피어스, 2017), 유기화학(Klein, 2003), 전자현미경(Rasmussen, 1997), 확률(Hacking, 1975)을 포함한 과학적 연구의 많은 측면들이 이러한 관점에서 연구되어 왔다. 간단한 예로, 암흑물질의 개념의 출현은 현재 확고하게 자리 잡고 있는 물리학 현상으로, 복잡한 궤적을 가지고 있다. 1930년대에 은하 회전곡선의 질량 불일치 문제를 해결하기 위해 제안되었지만, 1970년대까지만 해도 이 '누락missing 물질' 문제는 더 넓은 물리학계에서 문제가 되지 않았다(de Swart 등, 2017). 우주론 연구의 연구, 입자물리학과 우주론의 융합, 그리고 심지어 천문학에 대한 투자 증가와 같은 사회적, 경제적 요인에 의해 이 아이디어가 더욱 확고해졌다.
Many aspects of the history of scientific inquiry have been probed from this perspective, including modern cosmology (J. Pearce, 2017), organic chemistry (Klein, 2003), the electron microscope (Rasmussen, 1997) and probability (Hacking, 1975). By way of a brief example, the emergence of the concept of dark matter, now a firmly entrenched physics phenomenon, took a convoluted trajectory. It was proposed in the 1930s to solve a mass discrepancy problem in galaxy rotation curves, but this ‘missing matter’ problem was not seen as problematic by the wider physics community until the 1970s (de Swart et al., 2017). The entrenchment of the idea was driven more by lines of inquiry in cosmological research, the fusion of particle physics and cosmology, and even social and economic factors such as increased investment in astronomy.

우리는 [메타 철학적 렌즈]를 통해 역사를 면밀히 조사하는 과정에서, [우리 자신의 관점]에서 프로그래밍 평가의 역사에 관여engage한다. 우리는 이 논문에서 [처방적prescriptive]이 아니라, 전적으로 [서술적descriptive]이고자 함을 강조한다. 그리고 어떤 경우에는, 철학적 입장이 항상 명시적이지 않기 때문에, 우리는 우리 자신의 추론에 의존해야 합니다. 그러므로 우리는 이 철학사에서 '왜'가 아닌 '무엇'과 '어떻게'만 다루고 있다. 
We engage with the history of programmatic assessment from our own perspective, carefully investigating the history through a meta-philosophical lens. We must stress that we are being entirely descriptive in this paper, not prescriptive. And in some cases, we must rely on our own inferences, as philosophical positions are not always explicit. Thus, we are only dealing with the ‘what’ and the ‘how’ in this philosophical history, rather than the ‘why’.

우리의 설명은 완전한 역사이거나 객관적인 서술recount를 의미하지 않는다. 둘 다 역사적 인식론의 정신에 반할 것이다. 우리는 또한 특정 검색 프로토콜로 체계적인 검토를 수행하지 않는다. 주로 평가 문헌이 철학적으로 구성되어 있지 않고, 조사 장면에서 변화하는 구성을 도출하는 데 프로그래밍 평가와 관련된 모든 문헌이 관련이 없기 때문이다. 대신, 우리는 다양한 출처에서 정보를 제공하는 서술적 접근법을 사용했다.

our account is neither meant to be a complete history, nor an objective recount; both of which would go against the spirit of historical epistemology. We are also not conducting a systematic review with specific search protocols—mainly because assessment literature is not philosophically organized, nor is all literature related to programmatic assessment relevant in drawing out shifting configurations in the scene of inquiry. Instead, we used a narrative approach informed by a variety of sources.

Lingard의 말에 따르면, 우리는 "프로그램적 평가를 뒷받침하는 동기"를 발굴할 필요가 있습니다(Lingard, 2009, 페이지 627). 우리는 역사 속 핵심 주체들이 쓰고, 말하고, 행동하는 것에 집중함으로써 이것을 한다.

  • 우리의 주요 출처는 의학 교육 저널의 일차 문헌이 될 것이다. 이러한 출처는 평가 학자와 실무자가 만든 질문의 종류, 문제 및 제안된 해결책을 상세히 기술하는 조사 현장의 중요한 기록이다(Jardine, 2000).
  • 2차 자료(접근법의 지지자들에 의한 성찰적 작업 등) 또한 그들의 전제, 동기 요소, 그리고 그들이 일하고 있던 문화적 맥락을 강조하는 데 도움이 될 것이다.
  • 관련성이 있는 경우, 우리는 또한 평가에 대한 새롭고 새로운 접근법에 대한 중요한 기록을 제공하기 때문에 컨퍼런스 프레젠테이션과 진행의 예를 도출할 것이다.
  • 마찬가지로, 우리는 때때로 교과서와 교육 자원을 언급할 것이다. 이러한 객체들이 반복적으로 학문을 만들고 그 후에 분야를 통합할 것이다(Badino & Navarro, 2013; Kragh, 2013).
  • 마지막으로, 웹사이트나 온라인 강의와 같은 더 인기 있는 자료들은 장면의 구성에 대한 중요한 지표이기 때문에 언급될 것이다.

In the words of Lingard, we need to excavate “the motivations that underpin” programmatic assessment (Lingard, 2009, p. 627). We do this by focussing on what key players in the history write, say, and do.

  • Our main sources will be primary literature in medical education journals. These sources are important records of a scene of inquiry (Jardine, 2000) as they detail the kinds of questions, problems and proposed solutions made by assessment scholars and practitioners.
  • Secondary sources, such as reflective works by proponents of the approach, will also be helpful in highlighting their presuppositions, motivational factors, and the cultural contexts in which they were working.
  • Where relevant, we will also draw on examples of conference presentations and proceedings as these provide an important record of new and emergent approaches to assessment.
  • Similarly, we will at times mention textbooks and educational resources as these objects iteratively create and subsequently consolidate a discipline (Badino & Navarro, 2013; Kragh, 2013).
  • Finally, more popular material, such as websites and online lectures will also be mentioned as they are an important indicator of the configurations of a scene.

 

출현: 후기 실증주의적 관점으로 전환하여 실증주의적 '터모일' 극복(2005년 이전)
Emergence: overcoming positivist ‘turmoil’ by shifting to a post-positivist perspective (pre-2005)

씬(scene) 구성
Configurations of the scene

이 이야기의 선구자는 측정 접근법에 관한 개념적 프레임워크에서 평가에 이르는 20세기 중반으로 거슬러 올라갈 수 있지만, 우리는 이 역사에 대한 질문을 거의 틀림없이 프로그램 평가 아이디어의 첫 출현으로 제한하기로 결정했다. 2016년, 씨스 판 데르 블뢰텐은 1996년 그의 논문이 프로그램적 사고의 첫 출현이라고 밝혔다. 그러나 이러한 아이디어 중 일부는 두 개의 이전 논문에서 선행되었다는 점에 주목한다(Norman 등, 1991년; Van der Blouten 등, 1991년). 1996년, 그는 조사 현장의 현주소를 다음과 같이 기술하며 시작한다.
Although the precursors to this story can be traced back to the mid-20th Century—stemming from conceptual frameworks concerning measurement approaches to assessment—we choose to limit our interrogation of this history to what is arguably the first emergence of the idea of programmatic assessment. In 2016, Cees van der Vleuten identifies his 1996 paper as the first emergence of programmatic thinking (Van der Vleuten, 2016). However, we note that some of these ideas were foreshadowed in two earlier papers (Norman et al., 1991; Van der Vleuten et al., 1991). In 1996, he begins by describing the current state of the scene of inquiry:

교육 성취도 시험은 보건과학에서 혼란스러운 분야이다.
시험은 많은 교사, 교육과정 설계자, 교육자들에게 지속적인 문제의 원천이다.
학생 성취도에 대한 평가는 교육 회의, 회의, 워크숍에서 지속적으로 논의되고 있다.
전통과 개인적 가치관, 경험이 토론을 좌우하는 영역이다.
반면에 지난 10년 동안 평가 대상 과학 출판물의 수는 폭발적으로 증가했다.
제안된 도구의 수는, 각각 흥미로운 두문자어를 사용하는 것을 선호하며, 셀 수 없이 많다.
(Van der Bluten, 1996, 페이지 41)
Educational achievement testing is an area of turmoil in the health sciences. Examinations are a constant source of problems for many teachers, curriculum designers and educationalists. The evaluation of student achievement is continually debated at educational meetings, conferences and workshops. It is an area in which tradition, personal values, and experiences tend to dominate discussions. On the other hand, the number of scientific publications on assessment over the last decade has exploded. The number of proposed instruments, each preferably using an intriguing acronym, is countless. (Van der Vleuten, 1996, p. 41)

 

위 논문에서는 평가를 [최적화 문제]로 제시한다. 평가 방법마다 장단점이 있다. 효용 공식이 제시(그리고 종종 인용)되는데, 여기서 모든 평가 방법의 효용은 신뢰성, 유효성, 교육적 영향, 수용성 및 비용의 산물이다. 주된 주장은 단일 평가 방법이 모든 품질 기준에서 완벽할 수는 없다는 것이다. 각 평가 순간에는 타협compromise이 필요합니다. 트레이드오프는 불가피하며, 결정은 상황별 요인에 의해 영향을 받습니다.
The paper goes on to present assessment as an optimisation problem. Each assessment method has its own strengths and weaknesses. A utility formula is presented (and often cited), whereby the utility of any assessment method is a product of its reliability, validity, educational impact, acceptability and costs. The main argument is that no one single assessment method will be perfect on all quality criteria. Each assessment moment requires a compromise—trade-offs are inevitable, and decisions will be influenced by contextual factors.

"turmoil"이라는 단어의 사용은 실무자들과 이론가들 사이의 혼란스러운 장면을 스케치합니다. 의료 교육자들은 [타당성validity과 실제성authenticity을 희생하지 않고] [신뢰성reliability을 높일 수 있는 최상의 평가 방법]을 찾기 위해 고군분투하고 있었다. 끊임없이 확대되는 [평가 툴킷]을 기반으로 하는 [테스트의 시대]였다. 이 시대에는 다양한 문제들이 있었다.

  • 맥락 특이성,
  • 객관성에 대한 도전,
  • 일부 형태의 평가에서 제한된 데이터에 대한 우려
  • 가짜 데이터(예: 시험 점수의 위양성) 및
  • [임상 역량의 복잡성]과 [특성의 조합] 사이의 긴장에 관한 우려

The use of the word “turmoil” sketches a scene of confusion amongst practitioners and theorists alike. Medical educators were struggling to find the best assessment methods that would enhance reliability without sacrificing validity and authenticity. It was an era of testing, based in an ever-expanding toolkit of assessments. There were problems such as

  • context specificity,
  • challenges to objectivity,
  • concerns about limited data from some forms of assessment,
  • spurious data (such as false-positives in test scores), and
  • concerns relating to the combination of traits in tension with the complex nature of clinical competence.

이러한 문제들은 심리학자들의 문제였고, 과학적 연구의 언어로, 이 문제들은 실증주의적 원리에 기초했다. 그러나 이러한 문제들을 해결하지 못하자 새로운 접근을 위한 준비로 떠들썩한 탐구 장면이 연출되었다.

These problems were those of psychometricians, and in the language of scientific inquiry, these problems were based on positivist principles. But the failure to solve these problems resulted in a tumultuous scene of inquiry that was primed for a novel approach.

우리는 Cees van der Vleuten과 Lambert Schwirth의 2005년 논문 '전문적 역량 평가: 방법에서 프로그램까지'를 프로그래밍 평가의 출현의 결정적 순간으로 식별한다(Van der Vleuten & Schwirth, 2005). 우리가 글을 쓸 당시, 그 논문은 1237번 인용되었다. 2016년 판 데르 블뢰텐은 이 논문이 그의 평가에 대한 생각에서 획기적인 사건이라고 언급했다(Van der Blouten, 2016). 저자들의 목표는 [평가를 "측정 문제"로 취급하는 것]으로 보는 초점을 바꾸는 것이다. 그들은 "프로그램적 교육 설계"에 대해 이야기하며 "평가는 프로그램적 접근이 필요한 교육적 설계 문제"라고 주장한다. 1996년 논문에서 확인된 평가의 다양한 측면을 논의하는 효용 모델로 시작한다. 그런 다음 그들은 "개별 방법을 평가하는 것이 아니라 전체적으로 평가 프로그램의 유용성에 대한 증거를 제공해야 한다"는 설득력 있는 제안을 제시한다(Van der Bluten & Schwirth, 2005, 페이지 309).

We identify Cees van der Vleuten and Lambert Schuwirth’s 2005 paper ‘Assessing professional competence: from methods to programmes’ as a signature moment in the emergence of programmatic assessment (Van der Vleuten & Schuwirth, 2005). At our time of writing, the paper has been cited 1237 times. In 2016, van der Vleuten noted that the paper represented a landmark in his thinking around assessment (Van der Vleuten, 2016). The authors explicitly aim is to shift the focus away from treating assessment as a “measurement problem”. They talk about “programmatic instructional design” and argue that “assessment is an educational design problem that needs a programmatic approach”. They begin with the utility model, discussing the different aspects of assessment identified in the 1996 paper. They then present a compelling proposition, that “we should not evaluate individual methods, but provide evidence of the utility of the assessment programme as whole” (Van der Vleuten & Schuwirth, 2005, p. 309).

철학적 전제
Philosophical presuppositions

이 단계 동안 우리는 [평가에 관한 근본적인 철학적 입장]에 있어서의 명시적인 변화는 없는 상태에서, [심리 측정과 방법을 중심에 두는 주장과 변화]를 관찰하였다. 즉, 프로그래밍 방식의 평가는 이러한 변화의 기회가 나타나기 시작한 것은 사실이나, [새로운 온톨로지나 인식론]을 제공하기 보다는, [주로 역량을 완전히 "측정"하기 위한 다양한 방법]과 연관된다. 예를 들어, 2004년의 프로그램 평가는 [평가 방법의 타당성과 신뢰성 및 역량 측정에 대한 관심]에 의해 지배되는 개념적 공간에 분명히 위치해 있다. 비록 '프로그램적'이라는 용어는 사용되지 않았지만, 그들은 "모든 좋은 평가 프로그램은 [다양한 방법]으로 구성된다"는 개념을 밀어붙였다(Schuwirth & van der Vleuten, 2004, 페이지 975).

During this phase we observe arguments and shifts that place psychometrics and methods at the core, without necessarily making explicit shifts in underlying philosophical positions concerning assessment. That is, programmatic assessment becomes associated with a diversity of methods mainly in order to “measure” competence fully, rather than providing any new ontologies or epistemologies, even though the opportunity for these shifts start to present themselves. For instance, in 2004 programmatic assessment is clearly situated in a conceptual space dominated by concerns of the validity and reliability of assessment methods and the measurement of competence. Although the term ‘programmatic’ was not used, they pushed the notion that “any good assessment programme consists of a variety of methods” (Schuwirth & van der Vleuten, 2004, p. 975).

저자들이 새로운 접근법으로 심리측정학 문제를 극복하는 것을 명시적으로 목표로 했더라도, 2005년의 주장들 중 다수는 [심리측정학 및 측정 기반 사고에 근거]하고 있다. 예를 들면 신뢰성 추정치가 서로 다른 평가 형식에 걸쳐 시험기간에 따라 증가한다는 것을 보여주기 위해 [8개 연구에서 얻은 경험적 증거를 취합하여 신뢰성이 사실상 표본 추출 문제라고 주장]한다. 이들이 도출한 결론 중 하나는 [덜 구조화되었거나 덜 표준화된 평가]라도 "[더 구조화되고 객관적인 측정과 온전히 혹은 거의 신뢰도가 높을 수 있다]"는 것이다(Van der Bluten & Schwirth, 2005, 312쪽, 원래 강조). 신뢰할 수 있는 역량 측정을 달성하기 위해 [샘플링이 가장 중요한 원칙]으로 선정됩니다. 이것은 프로그래밍 평가에 대한 도입 발표를 지배하게 된 [픽셀 은유]가 확산된 기초이다.

Many of the 2005 arguments remain grounded in psychometric and measurement-based thinking, even if the authors explicitly aim to overcome psychometric problems with novel approaches. For example, they argue that reliability is effectively a sampling problem—they collate empirical evidence from eight different studies to demonstrate that reliability estimates all increase with testing time across different assessment formats. One conclusion they draw is that less-structured or standardised assessments “can be entirely or almost as reliable as other more structured and objective measures” (Van der Vleuten & Schuwirth, 2005, p. 312, emphasis in original). Sampling is singled out as the overarching principle to achieve a reliable measure of competence. This is the basis for the proliferation of the pixel metaphor which has come to dominate introductory presentations to programmatic assessment.

타당성 문제에 대해 제시된 논쟁은 후기실증주의, 후기-심리측정적 관점을 취한다. 즉, 역량에 대한 환원주의적 관점을 비판한 것이다. 역량이란 것은 [하위 역량의 분리된 패킷으로 분해될 수 없는] [기술과 능력의 복잡한 통합]에 기초한 [다면적인 현상]이라고 주장하였다. 따라서 좋은 품질 평가는 여러 출처와 다양한 방법의 정보와 "이 출처들에 걸친 정보를 삼각측량하여" 전체적인 판단을 구성하는 것이 필요하다고 주장한다(Van der Bluten & Schwirth, 2005, 페이지 313). 그들은 미래의 평가 개발자의 과제는 이 프로세스를 "가능한 한 엄격하게" 만드는 동시에, 의사결정에 있어 질적(정성적) 정보 출처와 전문적인 판단에 의존하는 것이라고 언급했다.

The argument presented on the issue of validity takes a post-positivist, post-psychometric perspective, criticizing the tendency towards reductionism in assessment—that competence is a multifaceted phenomenon based on a complex integration of skills and abilities which cannot be broken down into discrete packets of sub-competencies. They argue that good quality assessment requires information from multiple sources and from a variety of methods, and the constructing of overall judgments “by triangulating information across these sources” (Van der Vleuten & Schuwirth, 2005, p. 313). They note that one challenge for assessment developers of the future will be relying on qualitative sources of information and professional judgment in decision-making, while making this process “as rigorous as possible”.

반 데르 블뢰텐과 슈워스는 [의학 교육 평가의 실무자들이 심리 측정 접근법을 넘어설 필요가 있다]고 명시적으로 주장한다. 그들은 당시의 평가 문헌이 지나치게 방법에 치우쳐 있었고 "심리측정학 문제에만 몰두했다"고 지적했다(Van der Bluten & Schwirth, 2005, 페이지 315). 대신, 그들은 프로그램적 설계에서는 "단순한" 심리측정 평가로는 충분하지 않을 것이라고 언급하면서, [평가에 대한 관점의 확대]를 주장한다(Van der Bluten & Schwirth, 2005, 페이지 315). 그들이 문제해결에 있어서 [새로운 특정한 관행이나 기술로 문제를 해결]하기 보다는, [(기존의) 관점을 전환하여 문제를 극복하거나 회피하는 것]을 포함했다. 그럼에도 불구하고 흥미롭게도, [심리측정학적 접근방식을 극복]하기 위한 그들의 가장 강력한 주장은, [신뢰성과 더 큰 표본 추출의 문제]인, 심리측정학적 사고에 입각해있다. 비록 그들은 밀접하게 정렬되어 있지만, 이 둘 사이에는 미묘한 특이성이 있다. 궁극적으로, 반 데르 블뢰텐과 슈워스는 환원주의적 측정-기반 경향성을 극복하기 위해 [심리측정에 근거한 주장]을 사용한다.
Van der Vleuten and Schuwirth explicitly argue that practitioners in medical education assessment need to move beyond psychometric approaches. They note that the assessment literature of the time was overly geared towards methods and “too preoccupied with exclusively psychometric issues” (Van der Vleuten & Schuwirth, 2005, p. 315). Instead, they argue for a broadening of perspectives on assessment, noting that for the programmatic instructional design approach to work, “‘simple’ psychometric evaluation will not suffice” (Van der Vleuten & Schuwirth, 2005, p. 315). Their problem-solving move involved overcoming or circumventing problems through shifting perspectives rather than solving them with new specific practices or techniques. And yet, interestingly, their most powerful argument for overcoming psychometric approaches is one predicated on psychometric thinking—the issue of reliability and greater sampling. Although they are closely aligned, there are nuanced specificities between these two. Ultimately, van der Vleuten and Schuwirth employ an argument grounded in the psychometric in order to overcome reductionist measurement-based tendencies.

이 시기 프로그램 평가에서 [실용주의pragmatism]와 관련된 깊은 철학적 이슈도 있다. 전체적으로 평가 프로그램의 유용성을 강조함으로써 실용주의적 함의가 나타났다. 그러나 효용성utility의 전구체로서 목적을 벗어난 견해를 형성할 수 있는 기본적인 가정에 대해서는 명시적인 고려가 이루어지지 않는다. 타당성과 관련하여 효용성utility을 다루는 방법은 미개발적이며, 현재도 고려되고 있다. 평가에서 타당성이 갖던 우위는 경시된 것downplayed으로 보인다. 효용utility 모델을 구성하는 요소를 언급하면서, 저자들은 어떤 기준에 가중치를 두는지는 "특정 상황의 특정 사용자"에 따라 달라질 수 있다는 점에 주목한다(Van der Vleuten & Schwirth, 2005, 페이지 309). 그러나 가치로 작용하는 것이 어떻게 달라질 수 있고 잠재적으로 어떤 경우에는 외부 요인에 의해 암묵적으로 영향을 받을 수 있는지에 대한 설명은 없다. 정치적, 개념적, 심지어 경제적 요소도 효용 기준에 따른 가치에 영향을 미칠 수 있다.

There is also a deep philosophical issue relating to pragmatism in programmatic assessment at this time. By underscoring the utility of assessment programmes as a whole, pragmatist undertones emerge. Yet no explicit consideration is given to underlying assumptions that may shape views beyond purpose as a precursor to utility. The way that utility is treated in relation to validity is underdeveloped, and scantly considered. The primacy of validity in assessment appears to be downplayed. Referring to elements in the utility model, the authors note that the weighting of criteria would depend on “a specific user in a specific situation” (Van der Vleuten & Schuwirth, 2005, p. 309). However, there is no treatment of how what serves as valued can vary and be potentially and, in some cases, insidiously influenced by external factors. Political, conceptual, even economic factors can influence the value placed on utility criteria.

게다가, 이들은 "개별적인 방법"에서 "프로그램"으로의 전환을 지지하면서도, 단지 다르게 포장된 방법들을 강조하는 것처럼 보인다. 그들은 평가에서 보다 [질적인 판단을 지지]하여 측정 기반 접근법에서 벗어날 수 있도록 한다. 그러나 이것은 완전히 사실이 아니다. 이러한 초기 논문에는 역량의 본질에 대한 몇 가지 실증주의적 존재론적 입장이 남아 있다. 예를 들어, 우리가 잠재된 구조를 통해 역량의 본질을 알 수 있는 방법에 대한 근본적인 가정이 있지만, 이제 와서야 어떤 방법이든, [단 한 가지 방법으로는 내재된 심리측정적 한계]가 있기 때문에, [프로그램(방법들의 집합)을 통해 이를 더 잘 포착할 수 있다]는 주장이 제기된다. 
Further, while advocating for a shift from “individual methods to programs” the founders still seem to emphasize methods, just packaged differently. They advocate for more qualitative judgment in assessment, facilitating a departure from measurement-based approaches. But this is not entirely the case. There remains in these early papers some positivist ontological positions on the nature of competence. For instance, there are underlying assumptions about how we can know the nature of competence through a latent structure, only now the argument is that we can better capture this through a program (a collection of methods) because of the inherent psychometric limitations with any one method.

질적 데이터를 사용하고 객관성을 강조하지 않는 것, 그리고 "엄격한 판단"의 필요성이 (굳이 예를 들자면) 필연적으로 [잠재 변수 구인latent variable construct]이라는 입장으로 포기하는 것은 아니다. 정보의 여러 출처를 삼각측량하여 전체적인 판단을 구성하지만, 이는 샘플링을 통한 신뢰성과 같은 [심리측정학적 필수사항imperative]에 복무하는 것이다. 이것은 프로그램 평가의 역사에서 나중에 강조되는 구성주의적 철학적 존재론과는 상당히 다르다.

Even the use of qualitative data and de-emphasizing objectivity, and the need for “rigorous judgment”, is not necessarily abandoning (as an example) a latent variable construct position. Multiple sources of information are triangulated to construct an overall judgment, but this occurs in the service of psychometric imperatives, such as reliability through sampling. This is substantially different to the constructivist philosophical ontology that is highlighted later in the history of programmatic assessment.

요약하자면, 이 단계의 프로그램 평가에는 (과거의) 철학적 전제들 중 많은 것들이 함축적으로 남아 있다. 예를 들어,

  • [판단에 대한 강조]를 하였지만, 이것은 [평가에서 존재론적 또는 인식론적 위치의 변화]가 있었는지, [평가 문헌의 이전 가정이 유지되고 있는지]에 대해서는 아무런 언급도 하지 않는다.
  • "(포화에 도달하고 신뢰할 수 있고 변론할 수 있는 결정이 될 때까지 정보를 계속 축적하는) 질적 접근법"을 채택하는 것도 마찬가지로 그러한 판단이나 주장이 무엇에 관한 것인지에 대한 직접적인 주장이 아니다(Van der Bluten & Schwirth, 2005, 페이지 315).

In summary, many of these philosophical presuppositions remain implicit in this phase of programmatic assessment.

  • The emphasis on judgment, for example, says nothing about shifts in ontological or epistemological positions in assessment, nor whether earlier assumptions from the assessment literature were being upheld.
  • Adopting a “qualitative approach that continues to accumulate information until saturation is reached and a decision becomes trustworthy and defensible” is not a direct claim on the nature of what those judgments or claims are about (Van der Vleuten & Schuwirth, 2005, p. 315).

(통계적 심리측정학에 대한 강조를 포기하거나, 최소화하는 대신) 전문적인 판단을 강조하는 것은 [방법론적 선택 및 정당화를 위한 전략]으로 봐야지, 여기에 [평가가 무엇인지에 대한 명시적인 철학적 관점]이 반드시 필요한 것은 아니다. 이것은 나중에 그것들이 존재론적 및 인식론적 쌍과 어떻게 일치하는지 인식하지 못한 채 프로그램적 방법의 실용적인 채택 사이에 긴장이 나타난 이유를 설명할 수 있다. '평가의 효용성'으로의 이동이 [실용적인 고려]인지 아니면 [실질적인 철학적 실용주의에 기반을 둔 것인지] 또한 현재로서는 불분명하다.
Abandoning or at least minimizing the emphasis on statistical psychometrics in place of professional judgment is also a methodological choice and/or justification strategy, not necessarily an explicit philosophical view of what assessment is when interrogated from different views. This may explain why tensions later emerged between the practical adoption of programmatic methods without appreciating how these align with ontological and epistemological pairings. It is also unclear at this time whether the move to ‘utility of the assessment’ is a pragmatic consideration or one built on substantive philosophical pragmatism.

업샷
Upshots

이것은 우리가 프로그램 평가의 역사에서 볼 수 있는 철학적 전제에서 중요한 전환점을 제공하는 기회를 제공했다. 여전히 방법의 고려, 신뢰성을 위한 표본 추출, 그리고 철학적 입장에 대한 명시적인 취급의 부족에 중점을 두고 있다는 점에서, 아직은 [장면scene이 완전히 바뀌지 않았음]을 암시한다. 그러나 2005년 이후, '프로그래마틱'이라는 단어가 문헌에 점점 더 많이 등장하였다. 2005년 논문은 평가와 교육 설계에 대한 다양한 접근 방식을 깔끔하게 패키징했다. 우리는 2005년 논문에는 [후기 실증주의적 사고방식 외에도, 더 많은 뉘앙스나 혼합된 철학적인 어조가 나타난다는 것]을 알게 되었다. 예를 들어, 학습 및 교육 설계 요소에 대한 영향이 여기에 제시된다. 그럼에도 불구하고, 그 논문의 핵심main driver는 [샘플링을 기반으로 한 직관적인 주장]이라고 볼 수 있다.
This provided the opportunity for a major turning-point in the philosophical presuppositions we see in the history of programmatic assessment. The emphasis still being placed on considerations of methods, sampling for reliability, and the lack of explicit treatment of philosophical positions, implies that the scene had not entirely shifted. Yet after 2005, the word ‘programmatic’ increasingly appeared in the literature. The 2005 paper neatly packaged a range of approaches to assessment and thinking around instructional design. We acknowledge that, aside from the post-positivist mindset, there are more nuanced or blended philosophical tones appearing in the 2005 paper. For instance, impacts on learning and instructional design elements are presented there. Nevertheless, we contend that it is the intuitive argument based on sampling that was the main driver of the piece.

이 주장은 종종 인용되는 '픽셀 은유'에서 가장 큰 영향을 끼쳤다. 즉, 평가 데이터의 축적에 기초한 후보 "진정한" 역량의 '이미지 해상도'에 대한 강력한 입증이다. 그 이후 수많은 컨퍼런스 프레젠테이션에서 픽셀 은유를 사용하여 평가 정보의 샘플링 이점을 입증했다(예: 온라인 참조(Van der Vluten, 2015). 일련의 프레임에서, 하나의 픽셀은 다중 픽셀이 되고, 발견될 "진정한" 이미지의 출현을 나타내는 모나리자의 유명한 그림으로 점차 분해된다. 은유적인 주장은 매우 직관적이고, 의학 교육자들에게 빠르게 반향을 일으켰다. 여기서의 메시지는 더 많은 데이터가 더 나은 그림을 의미한다는 것입니다. 비록 이 은유에서 [역량의 본질]에 대한 명확한 표현은 없었지만, 어떤 의미에서 [타당성의 대용품]이 된 것이다. 픽셀 은유에 반하여, 사이코메트릭 사고에 기초한 관행은 시대에 뒤떨어진 것으로 간주되었다. (크로슬리, 2006; 호지스, 2013).
This argument also brought with it the greatest impact, appearing time and again in the oft-quoted ‘pixel metaphor’; a powerful demonstration of the ‘image resolution’ of candidate “true” competence based on the accumulation of assessment data. Countless conference presentations since have used a pixel metaphor to demonstrate the benefits of sampling assessment information (for an example online, see (Van der Vleuten, 2015)). In a series of frames, a single pixel becomes multiple pixels, and gradually resolves into the famous painting of the Mona Lisa—representing the emerging of a “true” image to be discovered (consistent with positivist assumptions). The metaphorical argument is highly intuitive, and one it quickly resonated with medical educators. The message here is that more data equates to a better picture. This in a sense becomes a surrogate for validity, although there is no clear articulation of the nature of competence in this metaphor. Placed against the pixel metaphor, practises based on psychometric-thinking became to be seen as outdated (Crossley, 2006; Hodges, 2013).

2005년은 프로그램 평가의 역사에서 가장 중요한 순간이지만, 등장 이후 아이디어는 빠르게 변형되었고, 새로운 양상을 띠었으며, 다른 요소들이 강조되었다. 이제 2단계에서 조사 현장의 구성을 설명하는 것으로 전환하고 2005년 논문(및 그 업쇼트)이 의료 교육 평가 환경을 어떻게 빠르게 변화시켰는지를 강조하고자 한다.
Although 2005 represents a signature moment in the history of programmatic assessment, after its emergence the idea quickly morphed, took on new facets, and had different elements emphasised. We now shift to describing the configuration of the scene of inquiry in phase two, and highlight how the 2005 paper (and its upshots) rapidly changed the landscape of medical education assessment.

진화: 다양성과 학습이 강조되고, 구성주의/해석주의 진보 (약 2005-2013)
Evolution: diversity and learning underscored, constructivism/interpretivism advances (approx. 2005–2013)

씬(scene) 구성
Configurations of the scene

이 기간의 씬은 [프로그램 평가의 진화궤적에 영향을 미친 다양한 평가 아이디어]로 특징지어진다. 실무자들이 해결하려고 시도했던 한 가지 주요 문제는 인간의 판단의 역할뿐만 아니라 [다양한 유형의 평가 정보를 결합하는 방법]이었다. 평가 프로그램에는 깔끔하게 축적되거나 함께 합산될 수 없는 역량 평가에 대한 다양한 접근 방식이 포함되어 있습니다. 이는 특히 저부담 평가를 다루는 방법의 다양성에 의해 강조되었다. 예를 들어, 2005년 말에 제출되어 2006년 10월에 수락된 한 논문은 임상 성과 평가에 대한 더 넓은 관점을 추구한다(Govaerts et al. 저자들은 '프로그래밍'이라는 용어를 사용하지 않지만, 2005년 논문을 인용하며 "결과 기반 및 역량 기반 교육에 대한 강조는 관련 역량을 통합하는 평가 방법을 선호하는 것 같다."(Govaerts et al. 2007, 페이지 240)고 언급했다.
This period in the scene of inquiry is characterised by a range of assessment ideas that influenced the evolving trajectory of programmatic assessment. One main problem that practitioners were attempting to solve was how to combine different types of assessment information, as well as the role of human judgment. A program of assessment contains varied approaches to assessing competencies that could not be neatly accumulated or added together. This was particularly emphasised by more diversity in the way that low-stakes assessments were being treated. For example, one paper submitted in late 2005 and accepted in October 2006 pushes for broader perspectives on clinical performance assessment (Govaerts et al. 2007). Although the authors do not use the term ‘programmatic’, they cite the 2005 paper and note “the increasing emphasis on outcome-based and competency-based education is likely to favour assessment methods that integrate relevant competencies” (Govaerts et al. 2007, p. 240).

평가에서 후기-환원주의적 관행은 점점 더 옹호되고 있었다. [평가 판단을 등급, 점수, 등급 및 숫자로 변환하는 일반적인 관행]은 [프로그램 프레임워크에서 의사결정에 필요한 정보의 풍부함을 유지하는 것]과 반대되는 것으로 간주되었다(Schuwirth & van der Vleuten, 2011). 각 평가를 '해치워야ticked-off' 할 장애물로 보기보다는, 많은 주관적 판단이 확실한 그림을 제공한다는 개념이 있었다. 이는 서로 다른 출처에서 추출한 다수의 표본 추출과 서로 다르더라도 의미가 있다는 주장에 의존했다. 정보의 '삼각측량' 개념(질적 연구에서 차용)과 평가 데이터를 패턴과 별자리(전반적인 방법이지만 역량 내에서)로 취급하는 개념이 여기에 연결됐다. 인간의 판단은 "평가 프로세스의 중심central in the assessment process"으로 강조되었다. 이는 객관성과 순수한 측정에서 벗어나 좀 더 주관적이고 구성적이며 해석되는 것으로의 전환을 의미했다. 정성적 접근법의 증가는 평가자 인지에 대한 연구와 같이 다른 곳에서 옹호되고 있는 평가에 대한 접근법과 일치하는 것으로 나타났다(Gingerich 등, 2011; Govaerts 등, 2011).
Post-reductionist practices in assessment were increasingly being advocated (Kim et al., 2006; Ma et al., 2012; Regehr et al., 2007). Common practices of converting assessment judgments to ratings, led scores, grades and numbers to be seen as antithetical to maintaining the richness of information required to make decisions in a programmatic framework (Schuwirth & van der Vleuten, 2011). Rather than seeing each assessment as a hurdle to be ‘ticked-off’, there was a notion that many subjective judgments provide a robust picture. This relied on a multitude of sampling from disparate sources and claims that each were meaningful even if different. Notions of ‘triangulation’ of information (borrowed from qualitative research), and treating assessment data as patterns and constellations (across methods but within competencies) were connected to this. Human judgment was underscored as “central in the assessment process” (Schuwirth & van der Vleuten, 2011, p. 481). This further signalled the shift away from the dominance of objectivity and pure measurement, to something more subjective, constructed and interpreted. The rise of qualitative approaches appeared to coincide with approaches to assessment that were being advocated elsewhere, such as research on rater cognition (Gingerich et al., 2011; Govaerts et al., 2011).

이 단계의 프로그램 평가에서 보여준 주요한 혁신은 [학습에 중점을 둔 것]이었다. 2011년, 슈비르스와 판 데르 블뢰텐은 "프로그램적 평가: 학습 평가에서 학습 평가까지"를 출판했다. 이 논문은 의학교육 외에서 확립된 평가 문헌을 활용했다. 그들은 assessment for learning"평가 과정이 교육 과정에 불가분하게 내재되어 있고, 정보가 풍부하며, 각 개별 학생의 학습을 최대 수준으로 조정하고 육성하는 접근법"으로 제시한다. 이것은 프로그램 평가의 개념이 어떻게 발전하고 있었는지를 보여주는 분명한 지표이다. 
A major innovation in this phase of the evolution of programmatic assessment, was the strong emphasis placed on learning. In 2011, Schuwirth and van der Vleuten published: “Programmatic assessment: From assessment of learning to assessment for learning”. This paper drew on established assessment literature from outside of medical education. They present assessment for learning as “an approach in which the assessment process is inextricably embedded within the education process, which is maximally information-rich, and which serves to steer and foster the learning of each individual student to the maximum of his/her ability” (Schuwirth & van der Vleuten, 2011, p. 478). This is a clear indication of how the notion of programmatic assessment was evolving.

프로그램 평가의 개념이 처음 등장했을 때 살짝 드러났던 '학습'이라는 요소는 비로소 성장하여 강조되었다. 과거에는 학생에 대한 효과적인 피드백이 충분하지 않았다. 하지만 평가 프로그램은 "학생 개개인의 필요에 따라 특별히 조정되어야 한다.". 학생의 학습과 진행을 둘러싼 '맞춤형 조언', '치료', '멘토', '치료적 결정', '프로그노스틱 결정' 등의 문구가 등장한다. 이 ['배움을 위한'] 이라는 요소는 "다양한 출처에서 정보를 수집 및 결합하여, 학생 개개인의 강점과 약점에 대상 정보를 주고, 학습을 최적화하기 위한 목적으로 사용하는, 정보가 풍부한 접근법"이며, 프로그래밍 평가와 명시적으로 연결된다. 

The learning element of programmatic assessment, which appeared in the original emergence of the notion, was nourished and underscored here. Effective feedback to students was not enough—assessment programmes needed to be “tailored specifically to the individual needs of each student” (Schuwirth & van der Vleuten, 2011, p. 481). Phrases such as “tailored advice”, “remediation”, “mentors”, “therapeutic decisions”, and “prognostic decisions” around student learning and progression appear. This ‘for learning’ element is linked explicitly to programmatic assessment, as “an information-rich approach in which a programme of assessment is used to collect and combine information from various sources to inform about the strengths and weaknesses of each individual student, with the purpose to optimise their learning.” (Schuwirth & van der Vleuten, 2011, p. 482).

Van der Vleuten 등의 2012년 논문은 "프로그래밍 평가의 실천을 위한 모델"을 제시한다(Van der Vleuten 등, 2012). 이 논문은 2011년의 학습 강조를 통합하여, 실제로 프로그램 평가가 어떻게 보일 수 있는지에 대한 가장 완전한 그림을 제시한다. 저자들은 "학습자의 성취, 선발, 진급에 대한 견고한 의사 결정과 더불어 "학습을 위한 평가"라는 목적"을 가진 모델을 제시한다. 그들은 학습자 성찰과 계획, 성찰 주변의 사회적 상호작용, 학습 과제가 평가 과제이고 마스터 과제에 대한 인증 데이터 포인트의 구성요소에 의해 연결된 다양한 훈련, 평가 및 지원 활동을 제시한다. 이들은 이 모델이 [가장 합목적적이고, 학습을 최적화하며, 데이터의 의미에 손상을 주지 않으며, 신뢰할 수 있고, 견고한 고부담 의사결정을 할 수 있다]고 주장한다(Van der Vleuten et al., 2012, 페이지 211). 
A 2012 paper by van der Vleuten et al. presents “a model for programmatic assessment in action” (Van der Vleuten et al., 2012). This paper incorporates the learning emphasis from 2011 and presents the most complete picture of what programmatic assessment might look like in practice. The authors present a model that has the explicit “purpose of assessment for learning, with robust decision making on learners’ achievements, selection and promotion” (Van der Vleuten et al. 2012, p. 209). They present a range of different training, assessment and supporting activities, that are linked by components of learner reflection and planning, social interactions around reflection, learning tasks being assessment tasks, and certification data-points for mastery tasks. They argue that their model is optimally fit for purpose, optimises learning, makes no compromises on the meaningfulness of the data, and allows for credible and robust high-stakes decision-making (Van der Vleuten et al., 2012, p. 211).

이는 프로그래밍 방식의 평가가 [샘플링을 통한 더 나은 신뢰성에 관한 것]을 넘어서는 무언가로 전환되었음을 의미하며, 심지어 이전의 우선순위priorities를 강조하지도 않는다. 모든 것을 아우르는 이러한 주장들(즉, 프로그래밍 평가가 이중적인 목적일 수 있음)은 직관적으로 매력적인 개념적 주장이었고 널리 받아들여진 것으로 보인다. 그러나 이러한 주장을 더 자세히 탐구한 후속 연구에서 증명되었듯이 경험적 주장은 여전히 제한적이었다(Heenman 등, 2015). 2012년, Van der Vleuten 등은 [비용과 자원, 관료주의, 소소화와 환원주의, 법적 제한 및 미지의 문제 등] 프로그래밍 평가가 직면할 몇 가지 과제를 예상한다(Van der Vleuten et al. 2012, 페이지 211–212). 그러나 그들은 또한 연구 현장에서 열린 "여러가지manifold" 기회와 "무한한의 연구 가능성"에 분명히 흥분하고 있었다.
This signalled the shift of programmatic assessment from being about better reliability through sampling to something more, even de-emphasizing those earlier priorities. These claims of being all encompassing (i.e., programmatic assessment could be dual purposed) were intuitively appealing conceptual arguments and, it seems, widely taken up. However, empirical arguments were still limited, as evidenced by subsequent research that has explored these claims in more detail (Heeneman et al., 2015). In 2012, van der Vleuten et al. anticipate several challenges that programmatic assessment will be confronted with, such as costs and resources, bureaucracy, trivialisation and reductionism, legal restrictions, and the unknown (Van der Vleuten et al. 2012, pp. 211–212). But they also are clearly excited by the “manifold” opportunities and “infinite number of research possibilities” that have opened up in the scene of inquiry (Van der Vleuten et al., 2012, p. 212).

철학적 전제
Philosophical presuppositions

이 단계에서는 [질적 연구에서 informed된, 구성주의와 해석주의에 강하게 기초한] 사고가 분명하게 출현하였다. 비록 프로그램 평가의 초창기 도입시에도 이러한 개념들이 존재했더라도, 이 단계에서 이러한 요소들이 발전하고 강화되어 프로그램 평가의 구성주의 온톨로지의 기둥이 되었다. 이것이 단지 지엽적으로 교육 연구에서 일어나고 있는 일 때문인지 아니면 아마도 후기 실증주의 움직임에 대한 반응이었는지는 불분명하다. 예를 들어, 2007년에, 고바르트 외 연구진은 "인지, 동기 부여, 의사결정 이론의 요소들을 현장 기반 평가에 통합하는" "구성주의, 사회심리학적 관점"을 명시적으로 요구한다(Govaerts 외 2007, 페이지 252). 

In this phase there was a clear emergence of thinking informed by qualitative research, strongly grounded in and informed by constructivism and interpretivism. Even if these notions were nascent in the original introduction of programmatic assessment, these elements advance and were strengthened here, becoming pillars of programmatic assessment’s constructivist ontology. It is unclear whether this was solely due to what was happening in education research peripherally, or whether it was perhaps in reaction to the post-positivist moves prior. For example, in 2007, Govaerts et al. explicitly call for “constructivist, social-psychological perspective” that “integrates elements of theories of cognition, motivation and decision making” into work-place based assessments (Govaerts et al. 2007, p. 252).

고바에르츠(Govaerts)와 판 데르 블뢰텐(Van der Bleuten, 2013)은 나중에 이를 "구성주의-해석주의 평가 프레임워크"로 제시한다. 본질적으로, 이 견해는 평가를 [사회적으로 구성되고 가치판단적인value-laden 것]으로 본다. 평가자는 평가 과정에 [자신의 신념과 가치]를 가져옵니다. 이것을 사소한 것으로 취급할 수 없으며, 평가 판단은 이런 의미에서 결코 '객관적'일 수 없다. 인간의 판단은 특이하다고 인식되었지만, 틀릴 수 있다. 따라서, 프로그램 평가에서의 의사결정은 [평가의 특정 순간]으로부터 상쇄될offset 필요가 있었다. 위원회는 이러한 검토 과정을 보다 신뢰할 수 있고 신뢰할 수 있게 만드는 데 도움이 되었다. 하지만 [역량이 무엇인지에 대한 개념]은 (존재론적으로) 덜 강조되어, 여전히 인식론적 쌍과 존재론적 쌍 사이에 어느 정도 모호함을 남겼다. 예를 들어, 삼각측량과 주관적 판단을 활용하는 것은 역량이 사회적으로 구성된 것으로 보였는가, 아니면 진정한 역량의 더 가까운 근사치로 보였는가? 그러한 질문들은 직접적으로 다루어지지 않았다.

Govaerts and van der Vleuten later present this as a “constructivist-interpretivist assessment framework” (Govaerts & van der Vleuten, 2013). Essentially, this view sees assessment as socially constructed and value laden. Assessors bring their own beliefs and values to the assessment process. This process cannot be neglected, and assessment judgments can never, in this sense, be ‘objective’. Human judgment was recognised as idiosyncratic, but fallible. Thus, decision-making in programmatic assessment needed to be offset from specific moments of assessment. Committees one-step removed from assessments helped to make this process of review more credible and trustworthy (Driessen et al., 2005; Schuwirth & van der Vleuten, 2011, p. 481). Notions of what competence is—ontologically—were less emphasized leaving some degree of blurring between epistemological and ontological pairings. For example, did leveraging triangulation and subjective judgements mean competence was viewed as socially constructed, or closer approximations of true competence? Such questions were not directly addressed.

이에 대한 다른 측면으로는 [능동적인 참여의 과정]으로서 학습을 강조하는 [사회문화적 학습 요소]가 있다. 평가와 학습 사이의 경계는 의도적으로 모호해졌다. 학습은 평가 활동에 내재되어 있었다. 학습자들은 "멘토/코치 같은 조연 배우"에게 의존하게 되었습니다. 이것은 프로그램 문헌에서 "코치"라는 용어가 "멘토"와 동시에 사용되는 것을 처음으로 알 수 있었습니다. 2011년 논문은 "[교육적 프로세스의 성과 지표로서 학습]과 [역량에 대한 새로운 사회 구성주의 이론의 출현]"을 언급하고 있다(Schuwirth & van der Blouten, 2011). 그들은 문헌에서 나타나는 "평가를 세팅하고 사용하는 방식의 급격한 변화"를 언급하면서, 이것은 "전통적인 접근법에 대한 반대를 절실히 필요로하는 운동"이라고 강조한다(슈비르트 & 반 데르 블뢰텐, 2011, 페이지 478).
The other side to this was the socio-cultural learning element, that emphasises learning as a process of active participation. The boundary between assessment and learning was deliberately blurred—learning was embedded into assessment activities. Learners came to rely on “supporting actors, such as mentors/coaches”. This was the first time we could note the term “coach” being used at the same time as “mentor” in the programmatic literature (Van der Vleuten et al., 2012, p. 211). The 2011 Schuwirth and van der Vleuten paper makes reference to the “emergence of new—social constructivist—theories on learning and the notion of competencies as outcome indicators of the educational process” (Schuwirth & van der Vleuten, 2011, p. 478). They echo the “radical changes in the way we set up and use assessment” from the literature and stress that this is a “highly needed antithetic movement against the traditional approaches” (Schuwirth & Van der Vleuten, 2011, p. 478).

['진짜 점수', '오류' 등의 개념] 및 [이 개념과 관련된 평가 방법을 버리는 것]이 보여주듯, 구성주의/해석주의의 렌즈를 통한 프로그램적 평가의 입지가 강화되었다. 이것은 흥미로운데, 그 당시 더 광범위한 평가 커뮤니티가 이를 따르지 않았기 때문이다. 현재 프로그램화된 평가 문헌 중 일부에는 후기-심리측정적 사고의 요소가 있다. 판 데르 블뢰텐 외 연구진 그들은 "심리측정학 담론이 불완전하다"고 보았기 때문에 "개인, 평가 도구들의 배타적인 심리측정학적인 담론을 넘어서기를" 희망했다(Van der Bleuten et al., 2012, 페이지 212). 고바어츠와 판 데르 블뢰텐은 2013년에 발간된 영향력 있는 논문에서 이러한 주제를 계속 이어가며 "숫자 등급과 표준화된 평가는 역량 평가의 프로그램적 접근에 있어 가치 있는 요소"라는 주장을 유지했지만, 그들은 "평가 프로그램에서 양적 및 질적 접근법의 신중한 균형을 목표로 해야 한다"고 제안한다(Govaerts & van der Bleuten, 2013, 페이지 1172).
There was a strong positioning of programmatic assessment through the lens of constructivism/interpretivism, such as abandoning concepts of ‘true scores’, ‘error’ and the assessment methods associated with them. This is interesting, as the broader assessment community had not, at this time, followed suit. There are elements of post-psychometric thinking in some of the programmatic assessment literature at this time. Van der Vleuten et al. hoped to “move beyond the exclusively psychometrically driven discourse of individual, assessment instruments”–because as they saw it, “psychometric discourse is incomplete” (Van der Vleuten et al., 2012, p. 212). Govaerts and van der Vleuten continued these themes in an influential paper published in 2013, maintaining that “numerical ratings as well as standardised assessments are valuable elements in programmatic approaches to competence assessment” (Govaerts & van der Vleuten, 2013). However, they propound that “we should aim for careful balancing of quantitative and qualitative approaches in our assessment programmes” (Govaerts & van der Vleuten, 2013, p. 1172).

이 단계 동안의 학술 논문은 [방법에 대한 논의]에서 [(방법론적 주장을 뒷받침하는) 보다 명확한 철학적 토대]로 전환되는 것으로 보인다. 이것은 다소 암묵적이지만, 상충하는competing 철학적 입장을 소개하기도 했다. 타당성 고려는 때때로 이러한 변화의 초석이었다. 역량에 대한 개념은 이론적이고 철학적인 관점에서 더 잘 설명되었고 평가 활동을 주도하는 근본적인 가정과 일치했다. 그러나 타당성은 분명히 그 논의의 일부가 아니었다. 실제로 타당성은 매우 중요한 개념이라기보다는 효용utility 모델에서 하나의 변수일 뿐이었고, Programmatic assessment에서 급진적으로 탈-강조된de-emphasized 변수였다. 프로그램 평가의 이 진화 단계에서는 [실용주의적 개념]이 더 중요한 것처럼 보인다. 예를 들어, 구성주의/해석주의에 대한 주장을 하면서도, '뭐든 다 된다anything goes'는 접근에 반대하며, "진실Truth"이 아니라 "주장"의 정당성과 방어 가능성을 지지하는 것과 같은 [실용주의라는 함의]가 있다.

The academic papers during this phase appear to shift from discussions of methods to more explicit philosophical underpinnings that support methodological arguments. This also introduced, although somewhat implicitly, competing philosophical positions. Validity considerations were at times the cornerstone to these shifts. Notions of competence were becoming better elucidated from a theoretical and philosophical perspective and they were matched to the underlying assumptions driving assessment activities. And yet validity was not explicitly part of that discussion. Indeed, validity was only one parameter in the utility model rather than an overarching concept, and a parameter that programmatic assessment radically de-emphasized. Pragmatist notions seem to matter more in this evolutionary phase of programmatic assessment. While there is a claim toward constructivism/interpretivism, there are undertones of pragmatism, for example arguing against an ‘anything goes’ approach and instead arguing for the justifications and defensibility of claims, not of Truths.

업샷
Upshots

이 시기의 흥미로운 결과 중 하나는 [프로그램 평가의 시행 경험]을 제시한 최초의 논문이었다. 2013년 한 논문은 프로그램 평가가 "실행하기 쉽지 않은 것으로 입증되었다"고 언급했다(Bok 등, 2013). 실제로 프로그램 평가의 문화적 요소가 가장 어려워 보였다. 예를 들어, 학생들을 위한 교수진 개발과 훈련에 대한 관심이 부족했습니다. 학생들은 점수가 낮은 평가조차도 총괄적이라고 느낀다는 것을 발견했습니다. 프로그래밍 평가의 학습 요소는 모든 이해관계자의 새로운 사고 방식을 필요로 하며, 프로그래밍 평가를 구현하는 것은 어려울 것이라는 것이 분명했다.
One interesting upshot from this period was the first papers that presented experiences from implementing programmatic assessment. A 2013 paper noted that programmatic assessment “proved not easy to implement” (Bok et al., 2013). Indeed, the cultural elements of programmatic assessment seemed to be the most challenging. For instance, insufficient attention was placed on faculty development and training for students. Students found that even the low-stakes assessments felt summative. It was clear that the learning elements of programmatic assessment would require a new way of thinking from all stakeholders, and that implementing programmatic assessment would be challenging.

[프로그램 평가]를 위한 실증적 타당성 주장이 매우 많이 진행되고 있었다. 이 전까지는 프로그래밍 평가를 지지하는 많은 주장은 개념적이고 이론적이었다(슈비르트 & 반 데르 블뢰텐, 2012). 맥락적 증거보다는 프로그램적 평가의 특징이 근거를 대신하고 되었다. [학습]을 강조하면서, [학습]을 향해 전환되었고, 교수설계는 [타당도 주장]은 탈-강조화하였다. 그리하여 실제로 이 두 가지가 충돌할 경우, 언제 어디에 중점을 두어야 하는지에 대한 약간의 불확실성이 남았다(방어성defensibility을 지지하는 활동은 학습learning을 지원하는 활동과 반대contrasted될 수 있다.)
Empirical validity arguments for programmatic assessment were very much in progress. Many of the arguments in support of programmatic assessment had been conceptual and theoretical (Schuwirth & van der Vleuten, 2012). Features of programmatic assessment rather than contextual evidence had come to serve as surrogates. The emphasis on and transition to learning, de-emphasized validity arguments in place of instructional designs. This left some uncertainty about where, in practice, to place emphasis if and when the two were in conflict (activities supporting defensibility contrasted with activities supporting learning).

의과대학이 이미 학생 학습의 비계, 수준 높은 피드백 제공, 멘토링에 집중하고 있었음에도 불구하고, 이 기간은 이러한 고려 사항을 평가 고려의 최전선에 올려놓았다. 확실히, 평가 프로그램을 보는 관점은 [부분의 합]보다는 [전체whole 측면]에 가까웠다. 많은 사람들에게 평가는 더 이상 [측정의 문제]라거나 [[합격 점수]에 대해서 순위를 매기려는 시도]가 아니었다. 평가는 이제 [학습을 더 넓은 관점에서 보는 복잡한 구성 요소]였고, [여러 형식과 맥락에 걸쳐 분포된 것]이었다. 또한 교수진에서 요구되는 평가의 양, 학습에 대한 평가의 극단적 강조와 관련된 실질적인 문제, 비용 관련 등과 같은 [평가에서 긴장감]이 나타났다. 그러나, 프로그래밍 방식의 평가는 여전히 많은 사람들에게 새로운 아이디어였다. 프로그램 평가의 다음 단계는 그것이 오늘날 의학 교육에서 평가 이론과 실습을 점점 더 규제하는 확고한 개념이 되는 것을 보았다.
Even if medical schools were already focusing on scaffolding student learning, providing high-quality feedback, and mentoring, this period brought these considerations to the forefront of assessment considerations. Certainly, assessment programs were being viewed more in terms of their whole, rather than in terms of the sum of their parts. For many, assessment was no longer a measurement problem, or an endeavour used rank candidates against cut scores. Assessment was now an intricate component of a broader perspective on student learning, and something that was distributed across multiple formats and contexts. There also emerged tensions in assessment, for example with the volume of assessment required in faculties, practical issues regarding the extreme emphasis on assessment for learning, cost implications, and so on. However, programmatic assessment was still, to many, a new idea. The next phase of programmatic assessment’s trajectory saw it become an entrenched notion that increasingly regulates assessment theory and practice in medical education today.

굳게 자리잡기: 풍부한 서술, 학문적 통합, 그리고 철학적 전제의 모호함(약 2013-2020)
Entrenchment: rich narratives, disciplinary consolidation and the blurring of philosophical presuppositions (approx. 2013–2020)

씬(scene) 구성
Configurations of the scene

프로그램 평가의 궤적에서 가장 최근의 단계는 [학문적 통합displinary consolidateion]의 단계로 절정에 이른다. 그러나 이에 앞서 먼저 ['정보의 풍부함']을 2013년 이후 고착화된 하나의 실질적인 요소로 파악할 수 있다. 이전 단계에서 [정보다양성diversity]과 [삼각측량triangulation]이라는 개념이 등장했지만, 이후 [풍부함richness]과 [의미meaningfulness]에 대한 강조가 나타난 것으로 보인다.

  • 2013년, Govaerts & van der Blouten은 "성과에 대한 풍부하고 서술적인 평가"를 "학습 극대화를 위해 평가 시스템의 형성 기능을 강화"하고, "신뢰할 수 있는 의사 결정"을 보장하기 위한 "필수적인" 평가 데이터로 요구하였다(Govaerts & van der Bluten, 2013, 페이지 1171–1172).
  • 그들은 이 개념을 "숫자에서 단어로의 변화"라고 포장한다(Govaerts & van der Blouten, 2013, 페이지 1172). 

This most recent phase in the trajectory of programmatic assessment culminates in what we term disciplinary consolidation. But before this, first we identify ‘information richness’ as one substantive element that became entrenched after 2013. Although the notions of information diversity and triangulation appeared in the previous phase, it seems that the emphasis on richness and meaningfulness emerged later.

  • In 2013, Govaerts and van der Vleuten call for “rich, narrative evaluations of performance” to “enhance the formative function of the assessment system to maximise learning” and as “indispensable” assessment data to ensure “trustworthy decision making” (Govaerts & van der Vleuten, 2013, pp. 1171–1172).
  • They package this notion as “a shift from numbers to words” (Govaerts & van der Vleuten, 2013, p. 1172).

 

흥미롭게도, 이러한 추진은 더 넓은 의학 교육 문헌과 병행되었고, 2013년 Hodges의 기념비적 논문 제목에서 '포스트 사이코메트리 시대'라는 용어를 사용한 첫 번째 사례였다(Hodges, 2013). 이후 수많은 저자들은 우리가 지금 주관적이고 질적인 데이터가 점점 더 중시되는 시대에 살고 있다고 주장했다. 반구조적 인터뷰 및 기타 접근법에서 '부유한' 및 '두꺼운' 데이터를 도출하는 것과 같은 질적 연구 방법론의 개념은 새로운 통찰력을 창출했다(Bearman, 2019; Schultze & Avital, 2011). 그럼에도 불구하고, 우리와 다른 사람들이 이전에 주목했듯이, 반-심리측정적anti-psychometric 개념이 문헌을 포화시키기 시작했다(Pearce, 2020; Schoenherr & Hamstra, 2016).

Interestingly, this push was paralleled in the wider medical education literature, and 2013 was the first time the term ‘post-psychometric era’ was used in the title of Hodges’ seminal paper (Hodges, 2013). Since then, numerous authors have claimed that we are now living in an era where subjective and qualitative data are increasingly valued. Notions from qualitative research methodologies, such as eliciting ‘rich’ and ‘thick’ data from semi-structured interviews and other approaches have generated new insights (Bearman, 2019; Schultze & Avital, 2011). And yet, as we and others have previously noted, anti-psychometric conceptions have begun to saturate the literature (Pearce, 2020; Schoenherr & Hamstra, 2016).

일부에서는 이제 [숫자와 등급]이 [서술자와 서술어]에 비해 의미가 없다는 믿음이 강하다(Cook 등 2016년; Ginsburg 등 2017년; Hanson 등 2013년). 프로그램적 관점에서 본다면, 평가는 풍부하고 의미있는 평가 데이터를 요구한다. 그리고 이를 위해서는 점점 더 서술적인 정보가 필요하다. 이러한 움직임의 동인은 평가자의 독특한 번역 과정뿐만 아니라 프로그램 평가의 결정이 신뢰할 수 있고 신뢰할 수 있는지 확인하는 방법과 관련된 문제와 관련이 있는 것으로 보인다. 진보진영이나 역량위원회가 발표에서 [풍부하지 않거나 의미가 없는 자료]를 바탕으로 고부담 결정을 내리기는 어렵다는 주장이다. 그러나, 이것이 [데이터가 오로지 질적이어야 한다]는 뜻으로 여기는 것은 잘못되었을 수 있다(Pearce, 2020). 정성적 설계이든, 정량적 설계이든, 데이터의 수집, 축적, 집계 및 제시 방법과 관계없이, [유의성meaningfulness]이란 별도의 측면facet이며, 철학적 지향의 함수이다. 프로그래밍 방식의 평가가 발전해온 궤적 속에서 풍부한 서술적 질적 데이터(관련 방법을 통해 생성됨)가 가장 고평가된 것은 역사의 흥미로운 변덕이다. 아이러니하게도, 방법은 의미보다 우선시 되어왔다.
There is now a strong belief in some circles that numbers and grades are meaningless compared with descriptors and narratives (Cook et al. 2016; Ginsburg et al. 2017; Hanson et al. 2013). Assessment, when considered from a programmatic mindset, requires the assessment data to be rich and meaningful. And this, increasingly, requires narrative information. The driver of this move appears to be connected with the problem of how to make sure that decisions in programmatic assessment are credible and trustworthy as well as the idiosyncratic translational processes of assessors. The argument being that it is difficult for a progression or competence committee to make a high-stakes decision based on data that are not rich or meaningful in their presentation. However, it may have been misguided to assume that this necessitates that the data be solely qualitative (Pearce, 2020). Irrespective of how data is collected, accumulated, aggregated, and presented, meaningfulness is a separate facet—regardless of whether it is qualitative or quantitative in its design and is a function of philosophical orientations. It is an interesting vagary of history that due to the trajectory taken by programmatic assessment, rich narrative qualitative data (generated through associated methods) has become most highly valued. Ironically, methods have been prioritized over meaning.

이 단계에서 문헌을 포화시켜나간 또 다른 주요 이슈는 [실무자가 어떻게 프로그래밍 평가를 구현해야 하는지]에 대한 것이다. 복 연구원의 경험 이후 추진과제가 조사 현장의 초미의 관심사로 떠올랐다. 프로그래밍 평가에 관한 기념비즉 '12가지 팁' 논문은 2015년에 발표되었다(Van der Vluten et al. 2015). 본 논문은 2012년 논문에 따라 '학습을 위한assessment for 프로그래밍 평가'로 프로그램 평가를 제시하였다. 이 논문은 2015년 이후 프로그램 평가가 표현된 방식으로 많은 진화를 통합하는데 기여했으며, [학습자 중심의 교육적 요소, 의미 있는 피드백 및 멘토링, 그리고 중요한 프로세스 관련 고려사항과 구현 과제]를 강조한다.
The other main issue that saturates the literature in this phase is how practitioners should go about implementing programmatic assessment. After the experience of Bok et al., the challenges of implementation came to be a pressing concern in the scene of inquiry. A seminal ‘Twelve Tips’ paper on programmatic assessment was published in 2015 (Van der Vleuten et al. 2015). This paper presented programmatic assessment in line with the 2012 paper as ‘programmatic assessment-for-learning’. The paper serves to consolidate many of the evolutions in the way programmatic assessment had been expressed since 2015, underscoring the learner-centred pedagogy elements, the meaningful feedback and mentoring aspects, and importantly the process related considerations and implementation challenges.

본 논문과 함께, 2017년에 출판된 중요한 책 챕터는 프로그램 평가를 이 분야에서 확고한 하나의 하위 분야로 통합하는 데 중요한 역할을 했다. 역사학자들은 [교과서와 교육 자원]은 scene of inquiry의 중요한 참조점이 되기 때문에, 반복적으로 학문을 생성하며, 학문 분야의 통합이 뒤따른다고 주장해왔다(Badino & Navarro, 2013; Kragh, 2013). 하든 앤 헌트의 A Practical Guide for Medical Teachers 의 한 챕터에서는 더욱 설득력있게 설명한다. 즉, '전통적 접근법'과 비교했을 때, 프로그램적 평가를 혁신적이고 대안적인 접근법으로 전략적으로 배치하여 제시한 것이다. 이 챕터는 의학 교육을 종합적으로 다룬 교과서 속에 [프로그램 평가]의 위치를 공고히crystalize하였다. 더 많은 교과서 챕터가 지금 등장하고 있습니다. 예를 들어, 2020년에 출판된 Assessment in Health Professions Education 에는 프로그램 평가에 관한 장이 수록되어 있다(Van der Bluten 등, 2020).
Along with this paper, an important book chapter published in 2017 (Van der Vleuten et al., 2017) played a crucial role in consolidating programmatic assessment as its own sub-discipline. Historians have argued that textbooks and educational resources iteratively create and subsequently consolidate a discipline, as they become an important reference point for a scene of inquiry (Badino & Navarro, 2013; Kragh, 2013). The book chapter in Harden and Hunt’s A Practical Guide for Medical Teachers recounts a compelling narrative—programmatic assessment is presented as an innovative and alternative approach in medical education assessment, strategically positioned against ‘traditional approaches’ to assessment. This chapter crystalizes programmatic assessment in a comprehensive textbook on medical education. Further textbook chapters are now appearing. For instance, Assessment in Health Professions Education published in 2020 features a chapter on programmatic assessment (Van der Vleuten et al., 2020).

최근 몇 년간 [진부하고 문제가 많으며 전통적인 평가 방식]을 극복한 [학습과 혁신의 승리로서 프로그램 평가]의 이야기를 되짚어보는 내러티브가 이어지고 있다.

  • '시험'이 어떻게 '배움을 위한 프로그래밍식 평가'가 되었는지에 대한 선구자들의 논문이 발표되었다(슈워스 & 반 데르 블뢰텐, 2019).
  • 또 다른 반 데르 블뢰텐은 2005년 논문을 재방문하여 프로그램적 사고가 의학 교육 평가라는 scene of inquiry에 어떤 영향을 미쳤는지 설명한다(Van der Bluten, 2016).
  • 반 데르 블뢰텐의 여러 컨퍼런스 기조연설은 의료 교육에서의 평가에 대한 이야기부터, 실무자들이 직면한 문제들, 최선의 방법을 찾기 위한 고군분투, 그리고 이러한 문제들을 극복하기 위한 프로그래밍 방식으로의 사고로의 전환까지를 다시 다루었다.
  • 이러한 강연의 비디오는 유튜브와 같은 동영상 플랫폼과 반 데르 블뢰텐의 개인 웹사이트(Van der Blouten n.d.)에서 쉽게 이용할 수 있다.

In recent years, a narrative that recounts the story of programmatic assessment as a victory for learning and innovation overcoming tired, problematic and traditional approaches to assessment has continued.

  • A paper by the pioneers on how ‘testing’ has become ‘programmatic assessment for learning’ was published (Schuwirth & van der Vleuten, 2019).
  • Another by van der Vleuten revisits the 2005 paper to recount how programmatic thinking has affected the scene of inquiry in medical education assessment (Van der Vleuten, 2016).
  • Multiple conference keynotes by van der Vleuten have retold the story of assessment in medical education, from the problems practitioners faced, the struggle to find the best methods, to the shift to thinking programmatically to overcome these problems.
  • Videos to these lectures are readily available online on video platforms such as YouTube and links provided on van der Vleuten’s personal website (Van der Vleuten n.d.).

우리는 이러한 자원의 가치나 질에 대해 어떠한 판단을 하려는 것이 아님을 강조하고자 한다. 우리는 단지 이러한 자원들이 어떠한 프로그래밍적 평가를 하위-학문분야로서 공고히 하는지를 보여주기 위해 기술하는 것이다. 현재까지는 프로그램적 평가에서 [철학적 영향이나 의미]를 함축적이고 불확실하게 남겨두고 있으며, [철학적 입장] 뿐만 아니라 [교수설계 및 타당도]에 대한 관점이 어떻게 흡수되고 있는지에 대해서 불완전하다.

We should stress that we are making no judgments on the value or quality of these resources. We are simply being descriptive to highlight how these resources all add to the entrenchment of programmatic assessment as its own sub-discipline in a way that may be incomplete by leaving philosophical influences or implications implicit and uncertain, and by blending (in some cases blurring) those philosophical positions as well as perspectives on instructional design and validity, in how these are taken up.

마지막으로, 프로그래밍 평가의 '학제적 통합'의 또 다른 대표적인 모습으로써, 의학 교육 컨퍼런스에서 프로그램 평가를 다루는 일련의 흐름을 보면 짐작할 수 있다. 유럽 의료 교육 협회(AMEE) 회의, 유럽 의료 평가 위원회(EBMA) 회의, 오타와 의학 및 의료 전문가 역량 평가에 관한 회의와 같은 주요 회의들이 현재 모두 프로그램 평가에만 배정된 스트림(세션)을 운영하고 있다. 2020년 오타와 컨퍼런스는 프로그램 평가가 '합의문' 과제 중 하나로 선정된 첫 번째 사례이기도 하다. 현재 scene inf inquiry에는 프로그래밍 방식의 평가가 굳게 자리를 잡았다.
Finally, another exemplar of the ‘disciplinary consolidation’ of programmatic assessment is the emergence of entire streams on programmatic assessment at medical education conferences worldwide. Major conferences such as the Association for Medical Education in Europe (AMEE) conference, the European Board of Medical Assessors (EBMA) conference, and Ottawa Conferences on the Assessment of Competence in Medicine and the Healthcare Professions, now all run streams dedicated to programmatic assessment. The 2020 Ottawa Conference was also the first time that programmatic assessment was selected as one of its ‘consensus statement’ undertakings. Programmatic assessment is now entrenched in the scene of inquiry.

철학적 전제
Philosophical presuppositions

이전에 나타난 구성주의/해석주의 철학적 존재론은 이제 확고히 자리잡은entrenched 철학적 전제가 되었다. 이것은 판 데르 블뢰텐 등에 의해 [명시적으로 주장]되었다. "학습에 대한 구성주의적 개념을 기본으로 한다면, 학습에 대한 프로그램적 평가를 훈련 연속체의 모든 부분에 적용할 수 있다." (Van der Vleuten et al., 2015, 페이지 641) 그러나 이전 단계에서 존재했던 [초기의 철학적 실용주의]가 가장 최근 시기에 강조된 것으로 보인다. 이 단계에서는 실용성utility에 대한 강조가 실용적인pragmatic 고려사항에 기초한다. 2017년 교과서 챕터의 요약은 [평가를 최적화 문제]로 설명하고 있으며, 이는 평가계의 많은 사상가들의 생각이기도 하다. (Van der Bluten et al., 2017, 페이지 302). 이러한 표현은 1996년 논문과 그 논문에 나온 효용 공식utility formula으로 거슬러 올라가는데, 다만 공식의 변수parameter만 암묵적으로 다를 뿐이다. 풍부한 정보 수집과 마찬가지로 학습과 피드백이 강조된다. 실무자는 프로그램적 접근방식을 실행하는 데 실용적일 필요가 있다. 이러한 실용성은 [교육생/학습자의 진급]에 대해 [방어가능하고 정당화가능한 결정을 내릴 수 있는 능력]을 inquirer에게 제공할 [필수적이고 합리적인 양의 다양한 평가 데이터]에 의해 informed될 것이다.
The constructivist/interpretivist philosophical ontology that previously emerged became an entrenched philosophical presupposition. This is explicitly propounded by van der Vleuten et al.: “Programmatic assessment-for-learning can be applied to any part of the training continuum, provided that the underlying learning conception is constructivist” (Van der Vleuten et al., 2015, p. 641). However, it appears that the nascent philosophical pragmatism that was present in the previous phase is emphasised in this most recent period. In this phase, the emphasis on utility is built on pragmatic considerations. The summary of the 2017 textbook chapter explicates assessment as an optimization problem, in line with many thinkers in assessment circles. (Van der Vleuten et al., 2017, p. 302). This language harks back to the 1996 paper and its utility formula, only now the formula parameters are implicitly different. Learning and feedback is emphasised, as is the gathering of rich information. It is clearly articulated that practitioners need to be pragmatic in executing a programmatic approach, and these considerations will be informed by the requisite and reasonable volumes of varied assessment data that will afford inquirers the capacity to make defensible and justified decisions about trainee/learner progress.

여기서 강조된 [철학적 실용주의]는 새로운 평가 은유와 유추의 확산에 의해 문헌에서 잘 뒷받침된다. 대표적인 은유로는 교육자와 실무자를 위한 [사고 도구] 또는 [휴리스틱]입니다. [상식]과 ['실용적이 되는 것being pragmatic']의 개념에 호소하는 진술에 대하여 논쟁을 걸기는 어렵다. 예를 들어,

  • Schuwirth 등은 [의료와 프로그램 평가 사이에 5가지 특정 유사점]을 도출하여 현재 의료에 대한 사고가 평가 시스템에서 실제로 제정될 수 있음을 시사한다(Schuwirth 등, 2017).
  • Uijtdehaage와 Schwirth는 프로그램적 평가를 [보컬 코치의 역할]처럼 생각할 수 있다고 제안한다: "가수가 (자주 피드백을 제공함으로써) 최대한의 잠재력을 달성하도록 돕지만, 결국 "가수가 합창단에 합류할 수 있는지 또는 솔리스트가 될 수 있는지"를 종합적으로 결정하는 것.
  • 트위드와 윌킨슨은 [강력하고 방어 가능한 진행 결정을 내리기 위해 정보를 종합하는 방법]에 대한 탐구를 통해, [임상 의사결정]과 [배심원 의사결정]이 모두 [프로그램 평가의 의사결정]과 유사점이 있음을 보여준다(Tweed & Wilkinson, 2019).
  • 같은 연구자들은 또한 프로그램 평가를 '임상 4상에 들어가는 약“about to enter Phase IV trials”'에 비유한다. 즉, 이제는 프로그램적 평가가 어떻게 더 광범위하고 다양한 맥락에서 적용될 수 있는지를 볼 때임을 시사한다. '전부 아니면 전무' 접근법에 의해 제약을 받기보다는, 프로그램 평가의 여러 요소들이 어떤 곳에서 도입될 수 있는지를 보아야 한다는 것이다.
  • 이러한 움직임은 '프로그래밍적 사고programmatic thinking'를 말하는 피어스와 프라이도(Pearce & Pridaux, 2019)에 의해 더욱 반영된다.

The philosophical pragmatism underscored here is well buttressed in the literature by a proliferation of new assessment metaphors and analogies. These metaphors are thinking tools or heuristics for interested educators and assessment practitioners. It is hard to argue with such statements that appeal to common sense and notions of ‘being pragmatic’. For example,

  • Schuwirth et al. draw five specific analogies between healthcare and programmatic assessment, suggesting that currently thinking in healthcare can actually be enacted in assessment systems (Schuwirth et al., 2017).
  • Uijtdehaage and Schuwirth suggest that the process of programmatic assessment can be thought of in terms of the role of a vocal coach: helping “a singer achieve his or her utmost potential (by giving frequent feedback) but eventually” making “a summative decision whether the singer can join the choir or can be the soloist” (Uijtdehaage & Schuwirth, 2018, p. 350).
  • Tweed and Wilkinson draw parallels in clinical decision-making and jury decision-making with decision-making in programmatic assessment, exploring ways to aggregate information to make progression decisions that are robust and defensible (Tweed & Wilkinson, 2019).
  • They also compare programmatic assessment to a drug “about to enter Phase IV trials” (Wilkinson & Tweed, 2018, p. 191), suggesting that it is time to see how programmatic assessment can be applied more widely and in varied contexts, noting that elements of programmatic assessment can be implemented where feasible, rather than practitioners being constrained by an ‘all-or-nothing’ approach.
  • This move is further echoed by Pearce and Prideaux who speak of “programmatic thinking” and how it can be applied in post-graduate medical education (Pearce & Prideaux, 2019).

업샷
Upshots

프로그램 평가는 [그 자체로 하나의 철학적 접근법]이 되었다. 그것은, 어떤 의미에서는, 그것만의 패러다임이고, 그것은 그것만의 역사적 서사를 말해준다. 프로그램 평가의 제자disciple가 되기 위해서는, 의학 교육에서 평가의 역사 – 장애물, 문제, 함정 및 해결책 – 에 대해 배울 수 있다. 우리는 이 경건한 용어를 경멸적인 의미로 사용한 것이 아니며, 단지 서술적인 의미로 쓴 것이다. 전향자convert가 되기 위해서는 우선 그것의 역사적 서사를 감상하고 그것의 철학적 토대에 따라야 한다. 프로그래밍 방식의 평가는 교육자들에게 반향을 불러일으킨다. 배치된 은유들은 신뢰와 헌신을 용이하게 합니다. 그러나 프로그래밍 방식의 평가를 운영하는 것은 여전히 사람과 문화에 크게 의존하고 있다. 이해당사자들은 그것이 잘 작동하기 위해서는 그것을 믿어야 하고, 따라서 참여와 바이-인(buy-in)에 대한 중요한 요구입니다.
Programmatic assessment has become its own philosophical approach. It is, in a sense, its own paradigm and it tells its own historical narrative. In order to become a disciple of programmatic assessment, one can learn about the history of assessment in medical education—its obstacles, problems, pitfalls, and solutions. We don’t use this pious terminology in a pejorative sense, just in a descriptive sense. In order to become a convert, one must first appreciate its historical narrative and subscribe to its philosophical underpinnings. Programmatic assessment resonates with educators. The metaphors deployed facilitate trust and devotion. But operationalizing programmatic assessment remains heavily dependent on people and culture. Stakeholders need to believe it for it to work well, hence the crucial calls for engagement and buy-in.

프로그램적 평가라는 아이디어는 이제 완전히 자리를 잡았고, 은유와 '논쟁이 어려운 주장'들이 scene of inquiry에 스며들었다. 링가드는 건강 직업 교육에서 "갓-텀"에 대해 저술했으며(Lingard, 2009), 프로그래밍 평가가 이 지위에 도달한 것으로 보인다. 그러나 배심원단은 이러한 아이디어와 관련 주장이 경험적으로 버틸 수 있는지에 대해 여전히 의견이 분분하다.

  • 더 많은 평가 데이터, 풍부한 정보, 의사결정 위원회 및 프로그래밍 프로세스를 통해 타당성이 향상되는가?
  • 프로그래밍 방식의 평가는 그것이 처음 등장한 네덜란드에서 떨어진 문화적 맥락에서 효과가 있는가?

Programmatic assessment ideas have become entrenched, and metaphors and ‘hard to argue statements’ have permeated the scene of inquiry. Lingard has written about “god terms” in health professions education (Lingard, 2009), and it seems that programmatic assessment has reached this status. However, the jury (to borrow one metaphor) is still out on whether these ideas and associated claims bear out empirically.

  • Is validity enhanced through more assessment data, rich information, decision-making committees and programmatic processes?
  • Does programmatic assessment work in cultural contexts away from the Netherlands, where it first emerged?

변화 관리 및 실행 전략과 관련된 이슈가 문의자들에게 긴급한 질문이 되고 있습니다. [다양한 데이터 수집]이라는 프로그램 평가(및 주요 메시지)의 특징은 [타당성을 입증하는 더 전통적인 접근법]을 배제하고도 [타당성에 대한 증거]로 취급되고 있다. 다른 의과대학들은 프로그램적 사고의 구현과 그에 맞는 효과를 보는 방법을 모색하고 있다(Pearce et al., 연구자들은 프로그래밍 평가가 학생 학습에 미치는 영향(Heeneman 등, 2015)과 그것이 교사와 학습자를 위해 개념적으로 어떻게 인스턴스화되는지에 대한 실증 연구를 수행하고 있다(Shut 등, 2018, 2020). 연구자들은 다양한 기회에 여전히 흥분해 있다.

Issues around change management and implementations strategies are becoming pressing questions to inquirers. Features of programmatic assessment (and key messages) such as the collection of diverse data are being treated as evidence for or evidence of validity without more traditional or recommended approaches to demonstrating validity. Different medical schools are exploring ways of implementing aspects of programmatic thinking and seeing what works for them (Pearce et al., 2021). Researchers are conducting empirical research into the impact of programmatic assessment on student learning (Heeneman et al., 2015), and how it is conceptually instantiated for teachers and learners (Schut et al. 2018, 2020). Researchers remain excited by manifold opportunities.

성찰을 마무리하며
Concluding reflections

[역사적 인식론]이라는 지적 전통을 바탕으로, 우리는 의료 교육에서 [프로그램 평가]의 변화하는 구성을 비판적으로 추적하여 평가와 관련된 유동적이고 문화적 탐구 관행을 강조하였다. 우리는 독자들에게 우리가 '왜'가 아닌 이 역사의 '무엇'과 '어떻게'에 집중하고 있었음을 다시 한번 강조하고자 한다.

  • 우리는 다른 사람들이 우리의 설명이 정확한지 판단하기 위해 비슷한 방식으로 문헌에 관여할 것을 적극적으로 권한다.
  • 우리는 궤적이 다른 가능한 경로에서 특정 경로를 택한 이유에 대해 몇 가지 제안을 했지만, 다른 사람들은 다른 비판적 메타 철학 관점에서 프로그래밍 방식 평가(그리고 실제로 더 광범위하게 평가)를 신중하게 조사하기를 바란다.

Drawing upon the intellectual tradition of historical epistemology, we have attempted to critically trace the shifting configurations of programmatic assessment in medical education, underscoring the fluid, cultural practice of inquiry in relation to assessment. We remind the reader that we were focusing on the ‘what’ and the ‘how’ of this history, rather than the ‘why’.

  • We actively encourage others to engage with the literature in a similar way to determine whether our account is accurate.
  • Although we have made some suggestions throughout as to why the trajectory took a certain path over other possible paths, we hope others carefully investigate programmatic assessment (and indeed, assessment more broadly) from different critical meta-philosophical perspectives.

우리는 철학적 조사를 통해 현재의 평가 관행을 새롭게 조명할 수 있다고 주장한다. Scene of inquiry - 즉, 변화하는 질문, 문제, 관행 및 추정의 변화- 에 초점을 맞춤으로써, 프로그래밍 평가의 역사에 접근함에 있어 아이디어의 역사적, 철학적 뿌리를 명확히 설명하였다. 이것은 왜 특정한 긴장이 실제로 나타나는지를 설명해주며, 적어도 그 이유를 드러내어준다. 바라건대, 우리가 프로그램 평가를 뒷받침하는 동기motivation를 발굴하는 데 성공하여, "적응적이고 유연한 담론을 위한 공간"을 열었기를 바란다(Lingard, 2009, 페이지 627). 부록 1은 이러한 철학적 역사를 요약한 것이다. 우리는 역사적 조사로부터 밝혀질 중요한 요점이라고 보는 것에 대한 성찰로 결론을 내리고, 마지막으로 이러한 노력에 비추어 프로그램적 평가를 위한 '다음은 무엇인가'를 제안한다.

We argued that new light would be shed on current assessment practices by interrogating them philosophically. In approaching the history of programmatic assessment by focusing on the scene of inquiry—the shifting questions, problems, practices and presuppositions of inquirers (Jardine, 2000) —historical and philosophical roots of the idea have been elucidated. This may resolve, or at least, reveal why certain tensions emerge in practice. Hopefully we have succeeded in “excavating the motivations that underpin” programmatic assessment and opened “a space for an adaptive and flexible discourse” (Lingard, 2009, p. 627). Supplementary figure 1 summarizes this philosophical history. We conclude by offering some reflections on what we see as important points to emerge from our historical probing, and finally suggest ‘what next’ for programmatic assessment in light of this endeavour.

 

관점적 의미
Perspectival implications

우리는 철학적 궤적을 추적하여 프로그램 평가의 궤적을 형성하는 전환되고 암묵적인 주장을 끌어내려고 시도했다. 우리는 개념적이고 방법론적인 주장을 주로 생각하고 입증하는 방법으로서 철학적 가정이 어떻게 변화해 왔는지를 강조해 왔다. 이는 프로그램 평가의 특정한 긴장, 모순, 취약점뿐만 아니라 [인지된 이익]이 프로그램 평가에서 나타날 수 있는 이유를 밝힌다. 이러한 문제들 중 몇 가지는 [어떤 존재론적, 인식론적 우위를 취하느냐]에 따라 발생한다. 간단히 말해서, 이 관점주의perpectivist 렌즈(Pearce, 2013)는 [다른 철학적 입장이 다른 해석으로 이어질 수 있고], 또 [다른 해석을 이끌어 낼 수 있다]는 것을 의미한다. 이에 대한 세 가지 예를 제시합니다.
We have attempted to draw out the shifting, implicit arguments shaping the trajectory of programmatic assessment by tracing its philosophical trajectory. We have highlighted how philosophical assumptions have shifted mainly as a way of thinking about and substantiating conceptual and methodological arguments. This illuminates why perceived benefits, as well as certain tensions, contradictions and vulnerabilities may appear in programmatic assessment. Several of these issues arise depending on which ontological and epistemological vantage point is taken. In short, this perspectivist lens (Pearce, 2013) means that different philosophical positions may and will lead to different interpretations. We offer three examples of this:

  • 일부는 프로그램 평가에서 의사결정에 편향 경향이 있다고 생각할 수 있다. 픽셀 은유는 강력하지만 정보의 포화에 도달하면 픽셀이 고정되는 경향이 있다. 일단 평가자들이 그 이미지가 모나리자(또는 고군분투하는 학생)라는 것을 알 수 있다면, 이 단일하고 고정된 그림은 이 학생과 관련된 미래의 결정에 영향을 미칠 것이다. 이러한 종류의 [편견과 평가의 공정성 문제]는 정확히 심리측정학적 접근법이 다루려고 했던 것이다. 이것은 평가에서 철학적 전제가 진화함에 따라, 만약 이전 위치의 강점에 주의를 기울이지 않는다면 이전 개념의 특징은 사라질 수 있다는 것을 예시한다.
    Some may consider that there is a propensity for bias in decision-making in programmatic assessment. Although the pixel metaphor is powerful, pixels have a tendency to become fixed when saturation of information is reached. Once assessors can see that the image is the Mona Lisa (or a struggling student), this unitary and fixed picture will influence future decisions regarding this student. These kinds of biases and issues of fairness in assessment are precisely what psychometric approaches were meant to deal with. This exemplifies that as philosophical presuppositions evolve in assessment, features of previous conceptions may become lost if care is not taken to build upon the strengths of earlier positions.
  • 평가 데이터 포인트의 시간적 구성요소로 인해 발생하는 어려움이 있다. 학습은 시간에 따라 변화하고 지식, 기술, 역량의 개발은 일관적이지도 선형적이지도 않다. 이것은 당신의 철학적 관점에 따라 프로그래밍 방식의 접근에서 또 다른 긴장입니다. 일부는 측정 및 후기 실증주의적 사고방식으로 문제에 접근하는 경우 이질적인 형태의 데이터 집계를 방어 가능성으로 볼 수 있는 반면, 다른 일부는 구성주의/인터프리즘의 위치에서 작업하는 경우 삼각측량 과정을 접근법의 강점으로 볼 수 있다. 이는 평가가 그 자체로 관점 프로세스이며, 이는 다른 문제를 야기한다는 것을 강조합니다.
    There are challenges made by the temporal component of assessment datapoints. Learning changes with time, and the development of knowledge, skills and competencies are neither consistent nor linear. This is another tension in a programmatic approach, depending on your philosophical outlook. Some may see the aggregation of disparate forms of data as an ersatz defensibility if they approach the problem with a measurement and/or post-positivist mindset, while others will see this process of triangulation as a strength of the approach if they are working from the position of constructivism/interpretivism. Again, this highlights that assessment is itself a perspectival process, which brings other challenges.
  • 심리측정적 렌즈를 통해 볼 때, 프로그램 평가는 [구인의 표현] 및 [구인의 무관련성]과 같은 문제와 관련하여 많은 함정을 가지고 있으며, 이는 교육 측정 분야에서 계속 논의되고 있다(Newton, 2020). 그러나 프로그램 평가의 제자들은 이것이 의학 교육에서 평가에 대한 잘못된 접근이라고 주장하며, 그러한 심리학적 정보에 근거한 입장을 폐쇄하기 위해 구성주의적 은유적 전략을 사용할 것이다. 우리가 여기서 설명하려는 것은 다양한 철학적 전제가 공동체를 위한 긴장을 조성하고 있다는 것이다.
    When viewed through a psychometric lens, programmatic assessment has many pitfalls in relation to issues such as construct representation and construct irrelevance, which continue to dominate discussions in educational measurement circles (Newton, 2020). But disciples of programmatic assessment will utilise constructivist metaphorical strategies to shut down such psychometrically informed positions, arguing that this is a misguided approach to assessment in medical education. What we are attempting to elucidate here is that divergent philosophical presuppositions are creation tensions for the community.

우리는 위의 주장들 중 어느 것도 지지하거나 어느 한쪽 편을 드는 것이 아닙니다. 우리는 단지 철학적 전제가 왜 그렇게 중요한지를 강조하려고 시도하고 있을 뿐이다. 탐구 현장에서 함축된 의미와 실무자들이 내리는 결정은 역사적, 지역적 맥락에 위치한 철학적 전제에 의해 주도되는 관점일 것이다. 다른 이들은 [평가에서 발생하는 긴장에 대응하는 방법]이 [평가 정책과 실천의 운명을 결정한다]고 언급했다(Govaerts et al. 2019). 우리는 대화와 비판적 성찰을 통해 정보에 입각한 철학적 결정과 행동이 이루어질 수 있다는 희망에서 어떤 입장을 구독하기 전에 철학적 전제가 단순히 명시된다는 것을 비슷하게 지지한다.
We are not advocating any of the above arguments or taking any sides. We are merely attempting to highlight why philosophical presuppositions are so important. The implications in the scene of inquiry, and decisions that practitioners take, will be perspectival—driven by philosophical presuppositions, situated in historical and local contexts. Others have noted that the way we respond to tensions in assessment determines the fate of assessment policy and practice (Govaerts et al. 2019). We similarly advocate that philosophical presuppositions are simply made explicit before subscribing to a position in the hope that through dialogue and critical reflection, informed philosophical decisions and actions can be made.

 

효용과 실용주의 기반에 대한 재고
Rethinking utility and its pragmatist foundations

[효용utility]의 개념은 (비록 그것의 정확한 표현이 시간이 지남에 따라 변화하는 것처럼 보이긴 하나) 프로그래밍적 사고를 관통하는 핵심 실타래이다. 프로그램 평가는 [평가의 실용성]이라는 개념에 기초했으며, 이는 실제 실행 중인 실용주의의 예시화인 것으로 보인다. 이러한 맥락에서 실용주의가 의미하는 바는 명확하게 표현되지 않았다. 이 외에도 [효용성]은 방법론적인 초점이 되었다. 평가 철학을 접근함에 있어서 [평가에서 목적을 명확하게 표현]하고, [평가 행위의 실질적인 정당성을 요구]하는 것이다
The notion of utility is a key thread that runs through programmatic thinking, although its precise manifestation appears to shift over time. Programmatic assessment was founded on the notion of utility in assessment, which appears to be an instantiation of pragmatism in action. Although what pragmatism means in this context has not been clearly articulated. More than this, utility has become a methodological focus; a way of approaching assessment philosophically by requiring the clear articulation of purpose in assessment and a substantive justification of assessment practice (Pearce, 2020; Tavares et al. 2019).

우리는 [철학적 관점]에 관한 일부 논쟁이, 특히 방법론적 선택의 질문 및 정당화와 관련해서는, 프로그램적 담론으로 들어갔다는 것을 인정한다. 예를 들어, 진행 또는 역량 위원회 심의에 정보를 제공하기 위해 더 다양한 평가 데이터를 수집하고 수집해야 하는 요건과 같은 것이다. 그러나 이는 해석주의나 구성주의 원칙에 대한 명시적인 논의에 앞서 제안되었다. 근본적인 가정과 철학적 헌신에 대한 논의는 연구원들이 거의 없거나 우선순위로 다루지 않았다.

We accept that some debate regarding philosophical outlooks has entered programmatic discourse, especially in relation to the interrogation and justification of methodological choices. For example, with the requirement to collect and collate more diverse assessment data to inform progression or competence committee deliberations. However, this was suggested prior to any explicit discussion of interpretivist or constructivist principles. Discussions about underlying assumptions and philosophical commitments have been almost absent or not taken up by researchers as a priority.

철학적 전제를 주의 깊게 설명할 필요성
The need to carefully elucidate philosophical presuppositions

HPE에서 프로그램 평가를 채택하는 경우, 우리는 철학적 고려가 없는 채택을 경고한다. 실무자는 어떤 가정과 기본적인 약속이 작용하는지 정확히 알지 못하더라도(또는 알 필요조차 없을지도 모른다) 프로그래밍 방식의 평가의 효용을 활용할 수 있다. 그러나 이는 실무에서 철학적 입장을 흐리게 할 수 있고, 진보 위원회가 탐색해야 할 복잡한 예시로 이어질 수 있다. 앞으로 나아가야 하는 방향은, [프로그램 평가의 채택자]들이 그들이 가지고 있는 [철학적 전제를 신중하게 설명]하고 [평가 상황에 대한 그러한 관점을 정당화하는 것]이다. 전반적으로, 우리는 프로그램 평가 이론과 실천의 철학적 동인에 더 많은 관심을 요구하고, 그것들이 명시되어야 할 필요성을 강조한다.
In cases where programmatic assessment is being adopted in health professions education, we caution against its adoption devoid of philosophical considerations. Practitioners are able to leverage the utility of programmatic assessment without knowing (or even needing to know) exactly what assumptions and underlying commitments are at play. But this can lead to a blurring of philosophical positions in practice, and convoluted instantiations for progression committees to navigate. The way forward would be for adopters of programmatic assessment to carefully elucidate the philosophical presuppositions they hold and to justify such perspectives for the assessment context. Overall, we call for more attention to the philosophical drivers of programmatic assessment theory and practice, and stress the need for them to be made explicit.

평가 경계의 모호함
The blurring of assessment boundaries

프로그램 평가의 창립자founders들이 [교수 설계와 평가를 혼합한 것]은 현명한 조치였다. 평가의 영향을 고려하지 않고 교육이 부드럽게 흘러갈flow 수 있다고 제안하는 것은 어리석은 일일 것이며, 실제로 가능한 한 개별화된 평가를 할 수 있는 강력한 사례가 있다. 그러나, 특히 이것이 문제가 될 수 있음을 시사하는 인접 연구를 고려할 때, 이러한 [이중적 목적dual purpose]은 [프로그래밍 평가의 가시thorn]가 될 수 있다(Duitsman 등, 2019; Heenman 등, 2015; Tavares 등, 2020). 그럼에도 불구하고, 프로그래밍 방식의 평가는 전통적인 평가 경계를 명확하게 모호하게 하고 연구자와 교육자들이 평가가 이루어지는 더 넓은 맥락을 고려하도록 강요했다.
The blending of instructional design and assessment by the founders of programmatic assessment was a smart move. It would be foolish to suggest that education can flow without considering the impact of assessment, and in practice there is a strong case to be made for individualizing assessment where possible. However, it may be that this dual purposing is a thorn in the side for programmatic assessment, especially given adjacent research that suggests this may be problematic (Duitsman et al., 2019; Heeneman et al., 2015; Tavares et al., 2020). Regardless, programmatic assessment has clearly blurred traditional assessment boundaries and forced researchers and educationalists to consider the wider context in which assessment takes place.

다음은 프로그램 평가를 위해 어디로 가야 하나요?
Where to next for programmatic assessment?

우리는 잠재적으로 생산적인 미래 연구 방법 및 프로그램 평가를 위한 개발 기회에 대한 몇 가지 제안으로 마무리하기를 원하지만, 프로그램 평가를 위한 미래 궤적에 대해 추측하고 싶지 않다. 다음은 다음과 같습니다.

We don’t wish to speculate as to what the future trajectory holds for programmatic assessment, although we would like to finish by making some suggestions regarding some potentially productive future research avenues and development opportunities for programmatic assessment. These are:

(i)프로그래밍 평가 및 실제로 일반적인 평가에서 근본적인 철학적 입장에 대한 더 많은 조사를 장려한다.
(i)
to encourage more probing of underlying philosophical positions in programmatic assessment, and indeed, in assessment in general;

(ii)프로그래밍 평가를 제정할 때 실무자가 가정 및 약속을 보다 명확하게 하도록 권장한다.
(ii)
to encourage practitioners to make assumptions and commitments more explicit when enacting programmatic assessment;

(iii)위에 언급된 이중 목적 때문에 발생하는 잠재적 긴장을 해결한다.
(iii)
to resolve the potential tension that has arisen due to the dual purposing noted above; and

(iv)세심하게 고려되고 강력하게 표현된 철학적 실용주의가 보건 직업 교육의 프로그램적 평가를 위한 최선의 방법일 수 있음을 시사한다.
(iv)to suggest that a carefully considered and robustly articulated philosophical pragmatism may be the best way forward for programmatic assessment in health professions education.

 

 

 

 


Adv Health Sci Educ Theory Pract. 2021 Oct;26(4):1291-1310.

 doi: 10.1007/s10459-021-10050-1. Epub 2021 Apr 24.

A philosophical history of programmatic assessment: tracing shifting configurations

Affiliations collapse

Affiliations

1Tertiary Education (Assessment), Australian Council for Educational Research, 19 Prospect Hill Road, Camberwell, VIC, 3124, Australia. jacob.pearce@acer.org.

2The Wilson Centre and Post-MD Education. University Health Network and University of Toronto, Toronto, ON, Canada.

PMID: 33893881

DOI: 10.1007/s10459-021-10050-1

Abstract

Programmatic assessment is now well entrenched in medical education, allowing us to reflect on when it first emerged and how it evolved into the form we know today. Drawing upon the intellectual tradition of historical epistemology, we provide a philosophically-oriented historiographical study of programmatic assessment. Our goal is to trace its relatively short historical trajectory by describing shifting configurations in its scene of inquiry-focusing on questions, practices, and philosophical presuppositions. We identify three historical phases: emergence, evolution and entrenchment. For each, we describe the configurations of the scene; examine underlying philosophical presuppositions driving changes; and detail upshots in assessment practice. We find that programmatic assessment emerged in response to positivist 'turmoil' prior to 2005, driven by utility considerations and implicit pragmatist undertones. Once introduced, it evolved with notions of diversity and learning being underscored, and a constructivist ontology developing at its core. More recently, programmatic assessment has become entrenched as its own sub-discipline. Rich narratives have been emphasised, but philosophical underpinnings have been blurred. We hope to shed new light on current assessment practices in the medical education community by interrogating the history of programmatic assessment from this philosophical vantage point. Making philosophical presuppositions explicit highlights the perspectival nature of aspects of programmatic assessment, and suggest reasons for perceived benefits as well as potential tensions, contradictions and vulnerabilities in the approach today. We conclude by offering some reflections on important points to emerge from our historical study, and suggest 'what next' for programmatic assessment in light of this endeavour.

Keywords: Assessment; Historical epistemology; History of assessment; Philosophical positions; Programmatic assessment.

교육의 패러다임을 다시 그리기: 인식, 정렬, 다원성을 향하여 (Adv Health Sci Educ Theory Pract, 2021)
Re‑envisioning paradigms of education: towards awareness, alignment, and pluralism
Lindsay R. Baker1,2 · Shanon Phelan3 · Nicole N. Woods4,5 · Victoria A. Boyd5,6 · Paula Rowland5,7 · Stella L. Ng2,5,8

 

 

HPE의 학술연구는 다양한 분야와 관점에서 이끌어낸다. 사회 과학 및 인문학에서 점점 더 많은 학문적 방법과 관행이 차용되거나 수입되지만, 원래 학문이나 교육의 "패러다임"을 주의하지 않고 사용되는 경우가 많다. 쿤은 [패러다임]을 [과학자들에 의해 공유된 믿음의 집합] 또는 [어떻게 문제가 이해되어야 하는지에 대한 합의의 집합]으로 정의한다. 패러다임이라는 용어의 사용은 비록 영감을 받았으나 쿤의 정의를 엄격히 고수하지는 않는다. 본 논문에서 우리는 [교육의 패러다임]을 다소 구어적으로 [교육 원칙과 실천에 대한 사고 체계]를 의미할 것이다. 원칙과 관행이 보건 과학 이외의 여러 분야에서 도출될 수 있지만, 그러한 외부 분야의 학자들은 보건 전문가 교육 저널에 그들의 연구를 거의 발표하지 않으며, 반드시 이론의 보건 전문가 교육 번역에 참여하지도 않는다(Martimanakis). et. al., 2009). 
Scholarship in health professions education draws from a range of disciplines and perspectives. Increasingly, these borrowed or imported scholarly methods and practices derive from the social sciences and humanities (Brosnan & Turner, 2009; Ousager & Johannessen, 2010), yet are often deployed without clear attention to their originating disciplines or “paradigms” of education. Kuhn defines a paradigm as a collection of beliefs shared by scientists, or a set of agreements about how problems are to be understood (Kuhn, 1962). Our use of the term paradigm, though inspired by, does not strictly adhere to, Kuhn’s definition. We use paradigms of education somewhat colloquially to mean a system of thought about educational principles and practices. Although principles and practices might be drawn from an array of disciplines outside of the health sciences, scholars from those external disciplines rarely publish their research in health professons education journals (Norman, 2011) nor do they necessarily participate in the translation of theory into health professions education (Martimianakis et al., 2009).

또한, 보건전문직 분야의 교육자들은 종종 교육 이론이나 실무에 대한 공식적인 훈련을 받지 않은 채로 학문적 리더십 역할을 맡는다(MacDougall & Drummond, 2005; Srinivasan 등, 2011). 이러한 현실은 보건직업 교육의 설계와 전달에 가장 책임이 있는 사람들이 교육, 심리학, 사회학 및 유머의 관련 내용에 각자 다른variable 배경을 갖는 역설적인 시스템을 만든다. 그 결과, 교육 및 평가의 혁신은 의도된 목적 또는 이론적 기원에 맞지 않아 의심스러운 효과와 상당한 저항을 가지고 광범위하게 채택될 수 있다.   

Moreover, educators in the health professions often assume academic leadership roles without formal training in education theory or practice (MacDougall & Drummond, 2005; Srinivasan et al., 2011). This reality creates a paradoxical system in which those most responsible for the design and delivery of health professions education (HPE) have variable background in relevant content from education, psychology, sociology and the humanties. As a result, innovations in teaching and assessment can be launched and widely-adopted with questionable effectiveness and significant resistence due to misalignment with intended purpose or theoretical origins.

교육에 대한 사고 방식: 개요
Ways of thinking about education: an overview

역사를 통틀어, 여러 분야의 학자들은 [교육의 근본적인 가정]에 대해 생각할 수 있는 다양한 방법들을 도입해 왔다. 예를 들어,

  • 철학자들은 종종 교육의 전반적인 목적과 목표, 교육 기관이 무엇을 가르쳐야 하는가에 대한 신념, 교육 실천을 통해 드러난 가치와 규범에 초점을 맞춘다
  • 역사학자들은 어떻게 사회적, 정치적, 문화적 영향이 역사의 다양한 시점에서 가치 있고 커리큘럼에 포함된 것을 형성했는지에 관심이 있다
  • 심리학자들은 인간과 아동 발달 연구의 지식 기반 변화를 중심으로 정리한다
  • 사회학자들은 교육을 사람들의 삶에서의 역할, 그 기반이 되는 사회/경제적 기반, 그리고 학교가 달성하여야 하는 공공의 목표에 따라 분석한다.

Throughout history, scholars across disciplines have introduced a variety of ways to think about the underlying assumptions of education. For example,

  • philosophers often focus on the overall purpose and goals of education, beliefs about what education institutions should teach, and the values and norms revealed through educational practice (Eisner, 1970; Noddings, 2018; Ornstein & Hunkins, 2017; Schiro, 2013).
  • Historians are interested in how social, political and cultural influences have shaped what is valued and included in the curriculum throughout various points in history (Kliebard, 2004; Ornstein & Hunkins, 2017).
  • Psychologists organize around shifts in knowledge bases in the study of human and child development (McInerney, 2013; Ornstein & Hunkins, 2017).
  • And sociologists analyze education according to its role in people’s lives, the social/economic foundations on which it is based and the public goals schools should aim to achieve (Ballantine & Hammack, 2009; Clabaugh & Rozycki, 1990; Ornstein & Hunkins, 2017).

다른 사람들은 교육과정, 교육 및 학습과 관련된 실무 수준에서 [어떻게 기초적인 가정과 믿음이 집행되는지]에 기초하여 교육을 논의한다. 예를 들어,

  • 커리큘럼 이론가들은 커리큘럼 구성에 대한 다양한 개념화 또는 사고 방식을 설명한다. (스미스, 2000)
  • 교육 심리학자는 사람들이 배우는 방법에 대한 유사한 접근법에 기초하여 서로 다른 학습 이론을 그룹화한다. (McInerney, 2013; Ornstein & Hunkins, 2017)
  • 교육 이론가들은 다양한 교육 접근법 또는 관점에 따라 분류한다(밀러 & 셀러, 1990; 프랫, 2002).

Others discuss education based on how underlying assumptions and beliefs are enacted on a practice level related to curriculum, teaching and learning. For example,

  • curriculum theorists describe different conceptualizations or ways of thinking about what makes up curriculum (Smith, 2000),
  • education psychologists group different learning theories together based on similar approaches to how people learn (McInerney, 2013; Ornstein & Hunkins, 2017), and
  • education theorists categorize according to different teaching approaches or perspectives (Miller & Seller, 1990; Pratt, 2002).

이렇게 몇 가지만 살펴보더라도, 교육을 분류하는 여러 방법들은, 교육의 목적, 실천, 그리고 가치에 대해 이야기하고 생각하는 방법의 다양성과 복잡성을 보여준다. 이와 같은 가정은 교육적 학술활동과 실무에 내포되어 있다. 원래 이론가들은 그들 자신의 분야에서 계속 일하는 경향이 있기 때문에, 차용된 사고 방식과 실천 방법에 대한 근본적인 가정은 다른 분야로 흡수된 후에 당연하게 여겨질 수 있다. 

These different ways of categorizing education, while we have only scratched the surface, illustrate the diversity and complexity of ways of talking about and thinking about the purpose, practice and value of education. Assumptions such as these become implicit in education scholarship and practice. Because the original theorists tend to remain working in their own disciplines, the underlying assumptions of borrowed ways of thinking and practicing can be taken for granted after uptake into another field.

HPE에서, 심리학적 관점이나 심리학 이론의 용어들이 교육적 결정과 일상적인 교육 관행을 구성하기 위해 일반적으로 사용된다. 그러나 심리학적 관점은 HPE에서 직장에서 교육적 접근법의 범위를 완전히 대표하지는 않는다. 논쟁의 여지 없이, 어떤 분야가 어떤 한 분야의 프레임에 우선권을 갖고 있을 때, 다른 철학적 가정, 인식론적 기원, 그리고 이러한 관점과 이론과 관련된 역사적, 정치적, 사회 문화적 영향을 고려하기 위해 뒤로 물러서는 것이 도움이 될 수 있다. 이 단계를 취하는 것은 지식의 진보를 제약하지 않도록 관점을 넓히고 가정을 점검하는 데 도움이 될 수 있다. 
In HPE, the language of psychological perspectives and theories are commonly drawn upon to frame curricular decisions and day-to-day educational practices. Yet psychological perspectives do not fully represent the spectrum of educational approaches at work in HPE. Arguably, when a field gives primacy to any one discipline’s framing it can be helpful to step back to consider other philosophical assumptions, epistemological origins and historical, political and sociocultural influences associated with these perspectives and theories. Taking this step can help broaden perspectives and check assumptions, lest they constrain the progression of knowledge. 

 

보건직종을 위한 교육의 패러다임: 새로운 종합
Paradigms of education for the health professions: a novel synthesis

우리는 HPE와 관련된 교육의 6가지 주요 패러다임을 소개한다. 이러한 패러다임은 위의 많은 교육 이념과 분류의 종합을 나타냅니다. 각각에 대해, 우리는 철학이 무엇을 창조할 수 있는지에 대한 종합적인 설명과 심리학 기원을 연결한다. 이 패러다임들은 중첩되는 부분이 있으나, [세상에 무엇이 존재하는가(존재론)]와 [우리가 존재하는 것에 대해 어떻게 알게 되었는지(인식론)]에 대한 그들의 철학적 가정과 관련한 유의미한 차이를 갖는다.

We introduce six major paradigms of education that are relevant to HPE. These paradigms represent our synthesis of many of the educational ideologies and categorizations above. For each, we link a philosophy with origins in psychology with a synthesized description of what that philosophy could create (Ballantine & Hammack, 2009; Clabaugh & Rozycki, 1990; Eisner, 1970; Kliebard, 2004; Miller & Seller, 1990; Ornstein & Hunkins, 2017; Pratt, 2002; Schiro, 2013; Schuh & Barab, 2007; Smith, 2000). The paradigms overlap, but differ meaningfully with respect to their philosophical assumptions about what exists in the world (ontology) and how we come to know about what exists (epistemology).

순차적으로 설명할 각 패러다임을 개별 개체로 제시하지만, 시간적 중복도 있고 뒤쪽에 제시된 패러다임이 앞쪽의 패러다임을 무효화하지도 않는다. 우리의 "철학 목표"의 명명 관례는 첫 번째 단어는 철학을 설명하고, 두 번째 단어는 정렬된 목표에 대한 우리의 해석을 설명합니다.

While we present each paradigm as a separate entity in a sequence, there is also temporal overlap and each subsequent paradigm does not render the previous invalid. Our naming convention of "philosophy-goal" means the first word describes the philosophy, and the second word describes our interpretation of aligned goals.

행동주의-시민권
Behaviourism-citizenship

행동주의-시민권 패러다임에서 교육의 전반적인 목적은 [학습자가 사회의 가치 있는 구성원으로 행동할 준비를 하도록 [바람직한 행동을 형성하는 것이다. 이 패러다임에서는,

  • 하나의 외부 현실이 있고 개인에 의해 획득될 수 있는 유일한 진리에 대한 지식이 있다.
  • 학습자는 빈칸으로 간주되고 학습은 세상에 대한 올바른 정보를 얻는 것을 포함한다.
  • 학습 또는 지식 습득은 다른 자연 현상과 마찬가지로 인과적 과정으로 간주되며, 학습의 바람직한 결과는 관찰 가능한 행동의 형태 또는 빈도 변화이다(사람의 말 또는 행동). (왓슨, 1913)
  • 주제에 정통한 교사들은 체계적인 조건화와 강화를 사용하여 학습자에게 지식을 전달함으로써 관찰 가능한 행동을 형성합니다.
  • 강화는 행동 직후에 자극을 전달하거나 제거함으로써 미래에 특정 행동이 더 자주 발생할 가능성을 증가시킨다.
  • 따라서 원하는 행동은 시간이 지남에 따라, 사용에 의해 강화되고 연마되면서 습관, 특성 또는 기질이 된다.
  • 평가는 외부 표준(예: 위탁 가능한 전문 활동)과 비교하여 측정되는 이러한 바람직한 행동을 입증하는 학습자에 초점을 맞춘다(Ten Kate 등, 2015).

The overall purpose of education in the Behaviourism-Citizenship paradigm is to shape desirable behaviours toward preparing learners to behave as valuable members of society. Within this paradigm

  • there is one external reality and knowledge of singular truths are able to be acquired by individuals. Learners are considered blank slates, and learning involves acquiring correct information about the world.
  • Learning or knowledge acquisition is viewed as a causal process, just like any other natural phenomenon, and the desired outcome of learning is a change in form or frequency of observable behaviour (what people say or do) (Watson, 1913).
  • Teachers, who have mastery of subject matter, shape this observable behaviour by transmitting knowledge to learners, using systematic conditioning and reinforcement (McSweeney & Murphy, 2014; Pavlov & Anrep, 2003).
  • Reinforcement increases the likelihood that a specific behaviour will occur more frequently in the future by delivering or removing a stimulus immediately after a behaviour.
  • Desired behaviours thus become habits, traits or dispositions as they are reinforced and honed by use over time. 
  • Assessment and evaluation focus on learners demonstrating these desired behaviours, measured against external standards (for example, entrustable professional activities) (Ten Cate et al., 2015).

보건직업에서는 적절한 성과를 기록하기 위한 행동주의자의 접근이 가장 효과적일 수 있는 많은 사례가 있다. 예를 들어, 감염 예방 및 통제와 개인 보호 장비 착용/제거에 있어 명확한 프로토콜 주도적이고 엄격하게 규제되는 절차가 필요하고 필요합니다. 시민 정체성의 창조는 이 과정의 암기적이고 표준적인 수행이 더 큰 이익을 위해 필요하다는 것을 의미한다. 행동주의자-시민권 패러다임은 통제, 규제 및 감시의 형태가 된다는 비판에 직면해 있고, 이는 [사회적 발전과 개인 성장이라는 교육과 학습의 이상ideal]에 반하기 때문이다(Hodges, 2015).

There are many instances in health professions where a behaviourist approach to inscribing proper performance may be most effective. For example, in managing infection prevention and control and donning / doffing personal protective equipment, we need and want clear protocol-driven, heavily regulated procedures. The creation of a citizen identity means that the performance of this process in a rote and standard manner is necessary to the greater good. The Behaviorist-Citizenship paradigm faces critiques of becoming a form of control, regulation, and surveillance which is counter to the ideals of education and learning as avenues for societal advancement and forms of personal growth (Hodges, 2015).

 

인지주의-전문가
Cognitivism-Expertise

인지주의-전문가 패러다임은 행동주의 패러다임을 [무엇을 해야 하는지 아는 것] 이상으로 [왜 그리고 언제 행동이 적절하지 않을 수 있는지를 이해하는 것]으로 확장한다. 따라서 이러한 변화는 순응할 수 있는 '좋은 시민'이 아닌, [더 유연하게 대응할 수 있는 전문가]들을 개발한다. 인지주의-전문가 패러다임에서,

  • 지식은 여전히 학습자의 외부 내용 또는 정보로 구성되지만, 여기서의 초점은 어떻게 이 정보가 기억 속에 저장되는가에 있다.
  • 관찰 가능한 행동에 초점을 맞추기 보다는, [학습자가 알고 있는 것을 정의하고 새로운 지식을 습득하는 방법을 체계화]하는, 관찰할 수 없는 정신 구조와 과정의 발달과 관련이 있다.
  • 학습을 정의할 때, [선생님에 의한 감각, 경험 또는 공식적인 가르침]을 통한 [지식의 획득]을 포함한다.
  • 학습자는 정보 처리자로 간주되며, 교사는 정보가 어떻게 구성되고, 구성되고, 검색되며, 새로운 상황으로 전달되는지에 대한 집중적인 관심을 통해 이러한 처리를 용이하게 합니다.
    • 예를 들어, 통합 교수 연구는 임상 또는 절차적 지식과 관련된 개념적 지식을 가르치는 것이 더 정확한/전문가 실습으로 귀결된다는 것을 입증했다(Bandiera 등, 2018; Mylopolos 등, 2017).
  • 이 패러다임 내의 평가는 학습의 유지와 근거리 전이near transfer(학습자가 지식이나 기술을 습득한 조건과 새로운 상황 사이에 많은 요소가 중복되는 경우)에 초점을 맞춘다(Castillo 등, 2018).
  • 인식주의적 패러다임은 [마음 속의 정신적 표현]에 너무 편협하게 초점을 맞추고 있다는 비판에 직면하고 있으며, 그 댓가로 [어떻게 지식이 사회적으로 구성되고, 공유되고, 협상되는지]를 희생시키고 있다고 여겨진다.

The Cognitivism-Expertise paradigm extends the behaviourist paradigm beyond knowing what to do, toward understanding why and when the behaviours may or may not be appropriate. This shift thus develops experts who can respond more flexibly, as opposed to ‘good citizens’ who can conform.

  • Knowledge is still framed as content or information external to the learner, however the focus here is on how this information is stored in memory.
  • Rather than focusing on observable behaviours, the cognitivism-expertise paradigm is concerned with development of the unobservable mental structures and processes within the mind, which define what learners know and frames how they come to acquire new knowledge.
  • Learning is considered by definition to involve the acquisition of knowledge through senses, experiences or formal instruction by teachers.
  • Learners are viewed as information processors and teachers facilitate this processing through focused attention on how information is structured, organized and retrieved, and transferred to new situations.
    • For example, studies of integrated instruction have demonstrated that teaching the conceptual knowledge associated with clinical or procedural knowledge results in more accurate/expert practice (Bandiera et al., 2018; Mylopoulos et al., 2017). 
  • Assessment and evaluation within this paradigm focus on retention and near transfer of learning (when many elements overlap between the conditions in which the learner obtained the knowledge or skill and the new situation) (Castillo et al., 2018).
  • The cognitivist paradigm faces critiques for being too narrowly focused on mental representations in the mind, at the expense of how knowledge is socially constructed, shared, and negotiated.

 

구성주의-전문가
Constructivism-Expertise

구성주의-전문주의는 [지식의 본질에 대한 존재론적, 인식론적 변화]를 나타낸다. 지식은 학습자가 습득하는 외부적인 것이 아니다; 지식은 학습자가 자신의 경험을 의미할 때 적극적으로 "구성"하는 것이다. 이 패러다임에서, 

  • 초점은 학습자가 새로운 지식을 구축하도록 지원하기 위한 정신적 표현을 이해하는 것이다.
  • 지식은 역동적인 것으로써, 새로운 문제를 해결하기 위해, 학습자의 사전 지식으로 새로운 지식이 구성된다.
  • 교육의 목표는 전문가를 양성하는 것이며, [적응형 전문성adaptive expertise]은 전문가 실무 제정에 필요한 지식의 동적 특성을 예시한다.
  • 학습자는 [지식의 발견을 촉진하기 위해 고안된 활동]에 참여하며, 교사의 역할은 인지 발달의 각 단계에 적절한 자원과 지원을 제공하는 것이다.
  • 구성주의 교과 과정은 [특정 내용]보다는 [지식 구축 과정]에 더 초점을 맞춘다. 효과적인 교육과 교육 계획 수립에서 학습자의 사전 지식이 핵심 고려 사항이다.
  • 평가는 새로운 맥락에 대한 지식의 적용 또는 이전과 미래 학습을 위한 준비에 초점을 맞춘다(Mylopolos 등, 2016; Schwartz & Martin, 2004).
  • 이 패러다임은 (사회에서의 학습자의 광범위한 상호작용보다는) 학습자와 정규 교육을 강조한다.

The Constructivism-Expertise marks an ontological and epistemological shift about the nature of knowledge. Knowledge isn’t something external to learners, which they acquire; knowledge is something learners actively “construct” as they make meaning of their experiences (Piaget, 1953). Within this paradigm,

  • the focus is on understanding mental representations to support learners in constructing new knowledge.
  • Knowledge is seen as dynamic, with new knowledge being constructed by learners upon prior knowledge, in order to solve novel problems (Dewey, 1938).
  • The goal of education in this paradigm remains creating experts, and adaptive expertise exemplifies the dynamic nature of knowledge required to enact expert practice (Mylopoulos & Regehr, 2011; Mylopoulos et al., 2018).
  • Learners engage in activities designed to promote discovery of knowledge and the teacher’s role is to provide appropriate resources and support for each stage of cognitive development.
  • A constructivist curriculum focuses less on specific content, and more on the process of knowledge construction. Learners’ previous knowledge is a key consideration in effective teaching and curricular planning.
  • Assessment focuses on application or transfer of knowledge to novel contexts and preparation for future learning (Mylopoulos et al., 2016; Schwartz & Martin, 2004).
  • This paradigm emphasizes the learner and formal education, as opposed to learners’ broader interactions in society.

구성주의-대화
Constructivism-Interlocution

[구성주의-대화]로의 전환은 [교육의 사회적 초점]의 시작을 뜻한다. [구성주의-대화]는 지식이 만들어지는 것은 지식이 형성되는 사회적 환경과 분리할 수 없다고 가정한다.

  • [구성주의-전문가]가 정신적 표현을 이해하는 데 초점을 맞추는 반면
  • [구성주의-대화]는 사회문화적 영향과 상호작용을 통해 지식이 구성되는 방식에 초점을 맞추고 있다(Vygotsky, 1980).

The turn toward Constructivism-Interlocution begins the social focus of education. Constructivism-Interlocution posits that the creation of knowledge cannot be separated from the social environment in which it is formed.

  • Whereas constructivsm-expertise focuses on understanding mental representations,
  • constructivsm-interlocution is focused on the ways in which knowledge is constructed through sociocultural influences and interaction (Vygotsky, 1980).

학습은 [정체성 형성]과 [지식의 공동 창조]로 이해된다. 이는 [사회적 맥락에 대한 참여 및 문화화enculturation]로부터 발생한다고 여겨진다. 즉, 새로운 사회 집단의 전문용어, 행동 및 규범을 선택하고, 그 신념 체계를 채택하여, 문화의 구성원이 되는 것이다. 실제로, 교육의 기능은 학습자를 공동체의 적극적 참여자로 만들기 위한 수단으로 여겨진다. 학습자는 능동적인 참여자이고 교사의 역할은 사회적 상호작용과 협력적인 작업을 촉진하는 것이다. [구성주의-대화] 패러다임은 직장 기반 학습과 평가를 설명하며, 실천 공동체 같은 학습에 대한 보다 비공식적인 접근을 제시한다(Lave, 2004; Wenger, 1998). 

Learning is understood as identity formation and the co-creation of knowledge. This is thought to happen through participation in social contexts and enculturation—picking up the jargon, behaviour, and norms of a new social group, and adopting its belief systems to become a member of the culture (Brown et al., 1989). Indeed, the function of education is seen as a means to socialize learners to be active participants in communities. Learners are active participants and the role of the teacher is to facilitate social interactions and collaborative work. The constructivism-interlocution paradigm accounts for workplace-based learning and assessment, and brings forward more informal approaches to learning like communities of practice (Lave, 2004; Wenger, 1998).

그러나 [구성주의-대화]까지는 교육 목표는 여전히 [공식 기관 내에서 확립된 체계적 기대에 따라 구성 및 구조화]된다. 다음의 패러다임(인본주의적 자기실현화 및 변형적 변화 주체)에서, 자신을 위한 학습은 특정 권한에 대한 학습과는 반대로 더 많은 초점을 필요로 하며, 시스템과 구조 자체가 도전받는다.

However, eductional goals are still constructed and structured within formal institutions according to established systemic expectations. In the following paradigms (humanist-self-acualization and transformative-change agency), learning for oneself takes more of a focus as opposed to learning for a particular mandate, and systems and structures themselves are challenged.

 

인문주의-자기실현주의
Humanism-self-actualization

[휴머니즘-자기실현 패러다임]은 학습자가 [자신의 완전한 잠재력과 자율성의 실현(자아실현)]을 향해 나아갈 수 있도록 준비시키는 것을 목표로 한다. (매슬로, 1943년) 이 패러다임은 인지 영역과 정서 영역을 포함하여 학습자 전체를 참여시키는 데 초점을 맞추고 있습니다.

  • 교육의 목표는 학습자를 [한 명의 사람]으로 고려하며, 정서적, 신체적 행복과 관련된 학습에 참여합니다.
  • 이러한 목표를 달성하기 위해, 학교는 학습자 중심이고 배움은 개인의 목표의 성취로 여겨진다.
  • 교사들이 학습 과정을 촉진하고 nurturing하는 것이고, 교육에 대한 학습자의 선택과 통제가 강조되고 있다.
  • 교육과정의 기능은 각 개별 학습자에게 [개인적으로 만족스러운 경험을 제공하는 것]이다. 
  • 이러한 맥락에서, 자기 평가는 이 패러다임 내에서 유일한 의미 있는 평가이다.
    • 외부 등급은 irrelevant한 것으로 간주되고, 학생들이 개인적인 만족을 위해서가 아니라 점수를 위해 공부하게끔 만드는 것이다.

The humanism-self-actualization paradigm aims to prepare learners to progress towards the realization or fulfillment of one's full potential and autonomy (self-actualization) (Maslow, 1943). This paradigm is focused on engaging the learner as a whole, including both cognitive and affective domains.

  • The goals of education take into consideration the learner as a person, attending to learning in relation to emotional and physical wellbeing.
  • To achieve these goals, schooling is learner-driven and learning is viewed as the achievement of one’s personal goals.
  • Learners’ choice and control over education are emphasized, with teachers facilitating and nurturing the learning process.
  • This paradigm views the function of the curriculum as providing personally satisfying experiences for each individual learner. 
  • As such, self-evaluation is the only meaningful assessment within this paradigm—
    • external grading is viewed as irrelevant and is thought to encourage students to work for a grade and not for personal satisfaction. 

[휴머니스트-자기실현] 패러다임은 개인에 너무 초점을 맞추고 있다는 비판을 받는다. 이것이 특히 문제가 되는 것은, 근거에 따르면 일반적으로 사람들은 자기 평가를 정확하게 할 수 없기 때문이다. 즉, 자기실현과 관련하여 자기평가를 하는 경우에, 자기평가 목표는 지식 이득의 수준과 정확성을 결정하는 것이 아닐 수 있다. 오히려, 자기평가는 개인이 미리 [정해진 목표를 향한 자신의 여정에 만족감을 느끼는지]를 결정하기 위한 것일 수도 있다. 이러한 자기 평가 대상의 변화는 우리가 자기 평가에 서툴다는 주장을 복잡하게 만든다. 개인적인 의미와 동기는 학습에서 너무 자주 간과되고 있으며, 휴머니스트 패러다임은 교육에 대한 참여를 촉진하는 데 중요한 시각을 제공할 수 있다. 이러한 패러다임적 포인트를 감안할 때, 목표와 목표를 향한 여정을 기록하기 위해 의학 교육에 흔히 사용되는 [성찰적 포트폴리오]가 교육의 인문주의-자기실현 패러다임 내에 가장 적합할 것이다.

The humanist-self-actualization paradigm arguably focuses too much on the individual, a critique that is compounded by evidence that generally, individuals are not able to accurately self-assess (Eva & Regehr, 2008).That said, when channeling self-assessment in relation to self-actualization, the goal of self-assessment may not be to determine the level and accuracy of knowledge gains. Rather, it may be to determine whether an individual feels satisfied with their journey toward their own pre-determined goals. This shift in object of self-asessment complicates the mantra that we are poor at self-assessment. Indeed personal meaning and motivation are overlooked aspects of learning and humanist paradigms may offer an important angle into promoting engagement in education (Kusurkar & Croiset, 2015). Given these paradigmatic points, the reflective portfolios so commonly used in medical education to document goals and journeys toward them would likely best be situated within the humanism-self-actualization paradigm of education (Driessen et al., 2007).

변혁-변화주체
Transformation-change agency

마지막으로, [변혁-변화주체] 패러다임의 목적은 [학습자가 지속적으로 더 윤리적 관점을 통해 사회 세계를 볼 수 있도록 권한을 부여하는 것]이며, 그 결과로 학습자는 [보다 정의로운 사회를 향한 변화의 주체]로서 [현재 상태에 도전하고, 현재 상태를 변화시킬 것]이다(Freire, 1993; Hooks, 1994).

  • 이 패러다임은 지식을 [사회적 구성social construction]이라고 본다.
  • 학습은 [비판적 성찰이라는 존재의 방식으로 관점을 전환하는 것]이다. 이는 윤리, 정의, 권력을 경계하며, 개인과 사회적 가정과 관행에 지속적으로 도전challenge하는 것을 의미한다. 
    • 반대로, [기존의 전통적인 교육 접근법]은 현상을 강화시켜 사회의 불평등을 지속시키고 학습자 스스로에 대한 억압에 기여하는 것으로 본다.
  • [변혁-변화 주체] 패러다임에서는, 학습자-교사 구분이 최소화된다.
  • [사회 개혁과 사회의 미래에 대한 책임감]은 [지배적인 권력 관계와 구조에 대한 학습자 자신의 인식을 높이는 것]에서부터 출발한다.
  • 평가는 [관점의 변화]에 초점을 맞춘다. 디브리핑과 대화에서의 대화의 초점이나 내용 또는 시스템 수준 시나리오에 대한 대응 등

Finally, the aim of the transformation-change agency paradigm is to empower learners to see the social world through a continually more ethical lens, so that they will challenge and change the status quo as agents of change toward a more just society (Freire, 1993; Hooks, 1994).

  • This paradigm views knowledge as a social construction.
  • Learning is viewed as a shift in perspective toward a critically reflective way of being, which continually challenges individual and societal assumptions and practices, with attention to ethics, justice, and power.
    • Traditional approaches to education are seen to reinforce the status quo, perpetuating inequalities in society and contributing to the oppression of learners themselves (Freire, 1993; Hooks, 1994).
  • Within the transformation-change agency paradigm, the learner-teacher distinction is minimized.
  • Social reform and responsibility to the future of society are central, beginning by raising the learners’ own awareness of dominant power relations and structures.
  • Assessment focuses on shifts in perspective—conversation foci/content during debriefs and dialogue or responses to systems level scenarios.

[변혁-변화 주체] 패러다임은 필수적인 지식과 기술을 얼버무리고 넘어간다는 비판에 직면했다. 게다가, 혁신적이 되는 것은 본질적으로 [반문화적인 것counter-culture]이다. 그러므로 [변혁적 교육]은 [주체(성)agency]를 전제하고 있는데, 일부 학습자들이 이것이 없을 수도 있다. 동시에, [변혁-변화 주체] 패러다임의 장점은 그것이 [개인을 넘어서는 교육]을 목표로 한다는 것이다. 기존 교육적 접근법이 목표를 완전히 달성하지 못한 경우, 변혁적 접근법은 앞으로 나아갈 길을 제공할 수 있다.

  • 예를 들어, IPE만으로는 IPP(interprofessional practice)의 위계적, 직장 기반 측면을 다룰 수 없다는 것을 알게 되었다(Baker 등 2011; Paradis & Whitehead, 2015).
  • 변혁적-비판적 교육 노력을 통해서 [지식 업무의 사회적 위치성]과 [어떻게 시스템이 다양한 전문직 간 경쟁을 유발하는지]을 이해하는 데 도움이 될 수 있다. 

이러한 이해는 도움이 되지 않는 위계를 파괴하고 진정한 협업으로 나아가려는 노력을 뒷받침할 수 있습니다. 대화식 교육은 [안전하고 생산적인 방식으로 권력 관계를 다루기 위한 하나의 혁신적인 교육 접근방식]을 나타낸다(Bakhtin, 1981; Kumagai & Naidu, 2015).

The transformative-change agency paradigm has faced critique for glossing over requisite knowledge and skill. Additionally, to be transformative is inherently counter-culture; thus transformative education presumes agency that some learners may genuinely lack. At the same time, the advantage of the transformative-change agency paradigm is that it targets education beyond the individual. In instances where existing educational approaches have not fully realized their goals, transformative approaches may offer a way forward.

  • For example, we have seen that interprofessional education alone cannot address some of the hierarchical, workplace-based aspects of interprofessional practice (Baker et al. 2011; Paradis & Whitehead, 2015).
  • Transformative and critical education efforts may be warranted to help different professionals understand the socially-situated nature of knowledge work and how systems can drive competition between professions.

This understanding can then underpin efforts to disrupt unhelpful hierarchies and move toward genuine collaboration. Dialogic education represents one transformative education approach to addressing power relations in a safe and productive manner (Bakhtin, 1981; Kumagai & Naidu, 2015).

 

이러한 간단한 통합은 여러 분야의 교육적 접근 방식을 적용하기 위한 [필수 지식]이라고 주장하는 것에 대한 소개로 작용한다. 패러다임의 불일치 또는 불일치는 분산적이고 물질적인 결과를 초래할 수 있습니다. 우리는 HPE에서 흔히 볼 수 있는 이러한 정렬 불일치의 세 가지 예를 제공합니다.

These brief syntheses serve as introductions to what we argue is prerequisite knowledge for applying educational approaches from multiple disciplines. Paradigmatic misalignment or incongruence can have discursive and material consequences; we offer three such examples of misalignment common in HPE.

  • 성찰의 많은 비판들을 고려하라. 일부에서는 이것이 학습을 위한 의미 있는 접근 방식 대신 감시를 위한 메커니즘이 되었으며, 따라서 [진실되지 않고 부담스러운 보여주기]라고 주장한다(Hodges, 2015; Nelson & Purkis, 2004). 다른 사람들은 학습과 평가에 대한 지배적인 사고방식에 따른 성찰을 평가하라는 압력이 처음에는 전문 실무에 대한 지배적이고 기술적인 접근법의 균형을 맞추려는 시도였던 교육 개념의 이러한 도구적 사용에 책임이 있다고 주장하기 위해 이 주장을 확장했다(Ng 외, 201).5. 이 예는 [인본주의-자기실현] 또는 [변혁-변화주체] 패러다임에서 파생된 교육적 접근법이, 이러한 패러다임과 일치하지 않는 관행에 의해 지배되는 상황에서, [패러다임에 대한 인식 없이 적용될 때 발생하는 의도하지 않은 부정적인 결과]를 보여준다(예: 루브릭 기반 평가). 
  • Consider the many critiques of reflection. Some have argued it has become a mechanism for surveillance and thus an inauthentic, burdensome demonstration, instead of a meaningful approach for learning (Hodges, 2015; Nelson & Purkis, 2004). Others have expanded on this argument to suggest that the pressure to assess reflection according to dominant ways of thinking about learning and assessment are to blame for these instrumental uses of an educational concept that was initially an attempt to balance the dominant, technical-rational approaches to professional practice (Ng et al., 2015). This example demonstrates unintended negative consequences when an educational approach, deriving from a humanism-self actualization or transformation-change agency paradigm, is applied without paradigmatic awareness in contexts that are dominated by practices incongruent with these paradigms (e.g. rubric-based assessment).
  • 시뮬레이션 기반 교육과 관련하여 학습자의 인식론적 신념을 조사한 최근 연구에서, Ng 외 연구진(2019)은 [학습을 위한 안전한 공간]이라는 시뮬레이션에 대한 널리 알려진 믿음과, [항상 확실성과 확신을 가지고 수행해야 한다는 학습자의 감각] 사이의 불일치를 확인했다. 이 예는 인식론적 문화나 풍토가 패러다임을 실천과 일치시키는 능력에도 영향을 미친다는 것을 보여준다. 
  • In a recent study examining learners’ epistemological beliefs in relation to simulation-based education, Ng et al. (2019) identified incongruence between the widely held beliefs about simulation as a safe space for learning and learners’ sense that they needed to perform with certainty and confidence at all times. This example shows that the epistemological culture or climate also impact the ability to align paradigms with practices.
  • 마지막으로 사회과학 및 인문학적 접근 방식을 HPE에 적용하려는 시도를 고려하십시오. 의료인문학의 실질적인 목적이 아니라, [그저 충분한 "양dose"의 인문학적 교육과정]을 추가하는 데 초점을 맞추면, 의미 있는 적용을 제한할 뿐만 아니라, 이득은 없이 커리큘럼을 그저 "과밀overstuff"하게 만들 것이다. 겸손, 권력, 학습자 안전에 주의를 기울이지 않으면서, 그저 "Dose"에만 초점을 맞추는 것]은 실제로 보건의료전문직에서 인문학 교육에 도움이 되지 않을 수 있다. 이러한 강령의 목표를 완전히 실현하기 위해서는 [휴머니즘-자기실현] 또는 [변혁-변화 주체] 패러다임이 필요할 수 있다. 패러다임에 주의를 기울이면 콘텐츠의 잠재적 이점이 손실되는 동안 다른 콘텐츠 영역을 추가하는 것을 방지할 수 있습니다. 
  • And finally, consider the attempts to apply social sciences and humanities approaches to HPE. A focus upon adding a sufficient “dose” of humanities content into curricula rather than the actual purposes of health humanities can limit meaningful application (Bishop, 2008; Tsevat et al., 2015) as well as “overstuff” the curriculum without commensurate benefit (Whitehead & Kuper, 2012). Focusing on dose while failing to attend to humility, power, and learner safety can actually make the teaching of humanities unhelpful within health professions programs. A humanism-self-actualization or transformation-change agency paradigm may be required to fully realize the goals of these intiatives. Attention to paradigms can prevent simply adding another content area while potential benefits of the content are lost.

패러다임의 인식과 조정을 위해
Toward paradigmatic awareness and alignment

패러다임이 실제에서 어떻게 다르게 보이는지에 대한 인식을 촉진하고 패러다임적 가치와 가정을 가진 교육, 학습 및 평가 관행 간의 정렬의 중요성을 설명하기 위해 두 가지 사례를 제시한다. 우리는 두 가지 다른 교육 패러다임에 의해 알려졌을 때, [보건 직업의 윤리 교육]이 어떻게 보일 수 있는지 살펴볼 것이다(표 1 참조).

To foster awareness of how different paradigms look in practice and to illustrate the importance of alignment between the teaching, learning and assessment practices with paradigmatic values and assumptions, we present two case examples. We will walk through what an instance of ethics education in the health professions might look like, when informed by two different education paradigms (see Table 1).

사례들은 동일한 목표, 즉 실무자들이 윤리적으로 실천할 수 있도록 준비하는 것이 패러다임에 따라 다른 출발 틀, 즉 윤리적 의사결정을 지원하는 추론 교육 대 윤리적 실천의 기초와 지지를 받는 도덕적인 지향의 틀을 취한다는 것을 보여준다. 이러한 프레임은 교수와 평가가 어떻게 펼쳐지는지 뿐만 아니라 정확히 교수와 평가의 일부로 간주되는 것을 위한 발판을 마련합니다. 

The cases illustrate that the same goal—preparing practitioners to be able to practice ethically—takes a different starting frame depending on paradigm: teaching reasoning that supports ethical decision-making versus inspiring a virtuous orientation that underlies and supports ethical practice. These frames set the stage for how teaching and assessment unfold, as well as for what exactly is considered a part of teaching and assessment.

[인지주의-전문가] 사례에서는 시험을 더 강조하며, [변혁-변화 주체] 사례에서 톤 설정에 더 중점을 둡니다. 그렇다고 인식주의 전문 교육자가 논조를 정하지 않거나 변화 기관 교육자가 배움을 평가하지 않는 것은 아니다. 그러나 어떤 패러다임에서 강하게 영향을 받았는지에 따라, 결과와 우선 순위를 매기는 방법이 다르게 보인다. 

Notice the greater emphasis on testing in the cognitivism-expertise example and the greater emphasis on tone-setting for the transformation-change agency example.This is not to say a cognitivism-expertise educator would not set the tone or a transformation-change agency educator would not assess learning; however, outcomes and how they are prioritized look different for those more strongly influenced by one paradigm over another.

이러한 영향을 인지하는 것이 중요한 이유는, 이것이 결여되었을 때 비생산적인 패러다임의 불일치를 초래할 수 있기 때문이다. 예를 들어, 강사가 학습자에게 연습으로 인한 윤리적 긴장에 대한 개인적인 이야기를 공유하도록 요청한 후 인지적 테스트 접근 방식을 사용했을 경우 발생할 수 있는 부조화를 상상해 보십시오! 우리의 두 사례 사례는 정렬alignment에 집중된 관심이 교육 설계에서 교육 결과까지의 연결을 강화하는 데 얼마나 도움이 되는지 보여준다.

Awareness of these influences matters because a lack thereof could result in uninformed and unproductive paradigmatic misalignment. For example, imagine the incongruence that would result if an instructor used cognitivist testing approaches after asking learners to share personal stories of ethical tensions from practice! Our two case examples demonstrate how focused attention on alignment can help strengthen the connection from educational design to educational outcomes.

교실 맥락을 넘어서, 더 넓은 제도적 수준에서, 패러다임들 사이의 긴장은 [고등교육의 목적]이 역사적으로 어떻게 이해되어 왔는지를 볼 때 명백해진다. 예를 들어,

  • 20세기까지 대학에 다닌 사람은 거의 없었다. 재정적인 미래가 보장된 학생들만이 "언젠가 그들이 형성될 사회에 시민 참여의 미덕에 대한 이해를 강화하기 위해" 교양 교육을 받으려고 했다. (Raelin, 2007, 페이지 58)
  • 20세기 중반이 되어서야 고등교육이 전문교육과 관련되게 되었다. 이 연관성은 중요한 변화였다. 더 이상 엘리트를 위한 시민 참여에 국한되지 않았고, 컬리지와 대학들은 고용 가능한 졸업생들을 만드는 사업에 뛰어들었다.
  • 학생들을 유치하기 위한 경쟁이 치열해짐에 따라, 이 대학들은 문과대학으로서의 성공을 활기차게 하는 전략을 계속 시행함으로써 그들의 명성과 지위를 확립하려고 노력했다.
  • 이러한 전략들은 명문 학자들을 고용하고, 연구에 대한 강한 강조를 장려하고, 학문 지식을 개발하는 것을 포함했다. 이러한 전략은 (문과대학과 대학의 경우 성공적이기는 했지만) 실제 실무 세계와는 너무 동떨어져 교육 기관과 교육 기관의 가능한 기여도를 평가절하하는 역설적인 효과를 가져왔다. 

Beyond the classroom context, at the broader institutional level, the tensions between paradigms become apparent when looking at how the purpose of higher education has been historically understood. For example,

  • up until the twentieth century, few people attended college. With their financial futures secure, students sought to receive a liberal arts education in order to “refine their comprehension of the virtues of civic participation in a society that they would one day come to shape” (Raelin, 2007, p. 58).
  • It was not until the middle of the twentieth century that higher education became associated with professional education. This association was a significant shift. No longer just about civic participation for the elite, colleges and universities were in the business of creating employable graduates.
  • In the presence of increased competition for attracting students, these colleges and universities attempted to establish their reputation and standing by continuing to implement strategies that had animated their success as liberal arts colleges.
  • These strategies included hiring prestigious academics, encouraging a strong emphasis on research, and developing disciplinary knowledge. These strategies—while successful for liberal arts colleges and universities—became too far removed from the real world of practice and had the paradoxical effect of devaluing the educational institutions and their possible contribution.

고등교육의 목적에 대한 이러한 역사적 긴장감은 [왜 제도적 차원에서 패러다임의식이 중요한지]를 보여준다. (상호 배타적인 이유는 아니지만) 고등교육의 목적이 [시민을 준비시키는 것]인지 또는 [고용 가능한 졸업생을 만드는 것]인지에 대한 신념 시스템이 고등교육 기관을 형성합니다. Raelin(2007)은 [교양 교육]에서 [(기술과 역량에 대한 강조가 수반된) 전문 교육]으로의 꾸준한 전환은 북미 고등교육에서 가장 인정받지 못하는 경향 중 하나였다고 제안한다. 제도적, 사회적 수준에서 이러한 추세에 주목하면서 일부 사회학자들은 의문을 품게 되었다:

  • 만약 우리의 교육 시스템이 계속해서 교양과목에서 멀어진다면, 우리 사회는 우리가 창조하고 있는 기술적 진보와 함께 살아가는 데 필요한 사회적, 정치적 읽고 쓸 수 있는 능력을 갖게 될까? 

This historical tension about the purpose of higher education demonstrates why paradigmatic awareness matters at the institutional level. Belief systems about whether the purpose of higher education is about preparing citizens or creating employable graduates—while not mutually exclusive rationales—do shape higher education institutions. Raelin (2007) proposes the steady shift away from liberal arts towards professional education, with its associated emphasis on skills and competencies, has been one of the most underrecognized trends in higher education in North America. Attending to these trends on an institutional and societal level has led some concerned sociologists to question:

  • if our education systems continue to tilt away from the liberal arts, will our societies have the social and political literacy that we need to live with the technological advances we are creating (Benjamin, 2013)?

우리는 질문을 추가하고자 한다:

  • 점점 더 세계적인 보건 직업 교육 환경에서 확인되지 않은 패러다임적 가정이 의미하는 바는 무엇인가? (Martimianakis & Hafferty, 2013)
  • 교육에 대한 사회 문화 및 사회 정치적 영향을 고려할 때, 교육의 패러다임이 국제적 협력과 지식 동원 노력에 어떻게 영향을 미칠 수 있을까?

[교육의 일상적인 관행에 나타나는 패러다임들 사이의 긴장]은 또한 [교육 제도의 형성]에도 분명히 나타나므로, 모든 교육자들은 이러한 (비)정렬에 대해 신중히 인식해야 한다.

We add to this question:

  • what are the implications of unchecked paradigmatic assumptions in an increasingly global health professions education context? (Martimianakis & Hafferty, 2013).
  • Given the socio-cultural and socio-political influences on education, how might unearthing paradigms of education impact international collaborations and knowledge mobilization efforts?

All this to say, the tensions between paradigms that show up in the everyday practices of education also manifest in shaping the institutions of education and thus awareness of (mis)alignment is prudent for all educators.

다원적 접근으로
Toward a pluralistic approach

패러다임의 합성이 보여주듯이, [많은 다양한 이해관계]가 교육을 가이드하며, HPE 이니셔티브는 [복잡한 맥락]에서 작동된다. 이러한 복잡한 맥락은 학술 병원, 지역사회 환경 및 대규모 고등 교육 기관(대학 및 대학)에 내장되어 있다. 이러한 복잡성은 학습자에게 [상충하는 요구]로 인식되어졌고, 교육 이니셔티브 자체의 영향에 영향을 미칠 수 있다. 심지어 최상의 교육 계획조차 "무효화 작전countervailing force"에 취약하다(롤랜드 외 2019). 
As our synthesis of paradigms demonstrates, many different interests guide education, and HPE initiatives operate in complex contexts, embedded within academic hospitals, community settings, and large higher education organizations (universities and colleges). This complexity has led to a sense of competing demands on learners, and potentially influenced the effects of the education initiatives themselves: even the best laid education plans are subject to “countervailing forces” upon them (Rowland et al. 2019).

실제로, 우리는 패러다임의 순수성을 주장하는 것이 아니다. 대신 교육 접근방식에 있어 [패러다임의 인식, 정렬, (필요시의) 합목적적 불일치]로 특징지어지는 [패러다임적 다원주의]를 요구한다. 이 접근법의 기초는 교육 목표와 폭력이 이해관계자 간에 다를 수 있다는 이해이다. 따라서 이전의 효과적인 접근법과 이론을 버리지 않고 새로운 관심 결과를 주목하고 평가해야 한다. 그리고 교육의 패러다임에 대한 이해와 관심은 다원주의의 전제조건입니다. 우리가 제안하듯이, 깊이 이해하지 못하는 것을 최적으로 혼합할 수 없습니다.

Indeed we are not arguing for paradigmatic purity. Instead we are calling for a paradigmatic pluralism, i.e. an approach to education characterized by paradigmatic awareness, alignment and—when appropriate, purposeful misalignment. Foundational to this approach is the understanding that educational goals and foci may differ between stakeholders, expand, or change; and thus new outcomes of interest must be attended to and assessed, without discarding prior effective approaches and theories. And understanding of and attention to paradigms of education is a prerequisite to pluralism, as we would suggest one cannot optimally mix what one does not deeply understand.

다원주의는 패러다임의 고려가 [교육과정의 모든 수준과 교육의 전체 범위에 걸쳐 일어나야 한다]는 점에서 훨씬 더 중요하다. 커리큘럼은 [프로그램], [과정], [세션] 수준에서 운영된다(Goldman & Schroth, 2012).

  • 보건 직업 훈련 [프로그램]은 주로 한 두 가지 교육 패러다임 내에서 운영될 수 있지만,
  • [과정]이나 [세션] 수준에서는 또 다른 패러다임들이 허우적거리거나 번성할 수도 있다.

Pluralism is even more important given the consideration of paradigms needs to happen at all levels of the curriculum and across the full spectrum of education. Curricula operate at the level of program, course and session (Goldman & Schroth, 2012).

  • And while a health professions training program may operate primarily within one or two paradigms of education,
  • other paradigms may be present at the course or session level where they may flounder or flourish.

우리가 제안하는 것은 [패러다임, 내부 정렬, 의미 있는 혼합에 대한 고려]이지만, 우리는 또한 [여러 교육 패러다임에서 다양한 관행을 의도적으로 적용하는 것이 어렵다는 것]을 인정한다. 다중 패러다임을 고려하려면 증거 기반 및 이론에 근거한 교육의 개념에 주의를 기울여야 한다(펜윅, 2016; 그린할 등, 2003; 트리샤 그린할, 2010; 호슬리 & 레게어, 2018; 반 데르 블뢰텐 외, 2000). 서로 다른 인식론적 전통에서 파생되거나 생성된 데이터와 이론에서 도출할 때, 무엇이 "최고"이고, 무엇이 높은 품질이며, 무엇이 유효한지에 대한 여러 정의가 존재한다.

  • [인지주의자와 구성주의자의 접근법]이 HPE가 가장 잘 받아들여질 수 있는데, 생물의학과 심리사회적 접근법]이 의학을 지배하기 때문이다. 이러한 접근법은 [인식론이 서로 비슷]하기 때문에 서로 잘 맞는다. 모두 과학적 방법과 이 방법이 만들어낼 수 있는 지식의 개념에 대해 지배적으로 합의된 것을 이용한다.
  • [인문주의적 접근법]은, 인식론적으로 볼 때 훨씬 더 개인적인 것에 관심을 둔다는 차이가 있다. 따라서, 일반적인 증거 기반 접근법에 따라 입증하기가 더 어렵다.
  • [변혁적 접근법]은 본질적으로 지배적인 접근법에 도전한다. 즉, 과학적 주장의 측면보다는 이러한 주장의 사회정치적 효과 측면에서, 이러한 특정 윤리 체계 또는 전문성 또는 장애/질병으로부터 누가 이익을 얻는가? 누가 그것 때문에 피해를 입었는가?

While consideration of paradigms, their internal alignment, and their meaningful mixing are what we propose, we also acknowledge that purposefully applying a range of practices from multiple paradigms of education will not come without challenges. The consideration of multiple paradigms also requires attention to the notion of evidence-based and theory-informed education (Fenwick, 2016; Greenhalgh et al., 2003; Trisha Greenhalgh, 2010; Horsley & Regehr, 2018; Regehr, 2010; Van Der Vleuten et al., 2000). When drawing from data and theories derived or generated from different epistemological traditions, multiple definitions exist for what is “best,” what is high quality, what is valid.

  • Biomedical and psychosocial approaches dominate medicine; cognitivist- and constructivist approaches are thus most amenable to HPE. These approaches fit well together because they have similar epistemologies. All draw upon a dominantly agreed upon scientific method and the conceptions of knowledge this method can produce.
  • Humanistic approaches differ, epistemologically, in that their concern is far more personal and thus outcomes are more challenging to demonstrate according to prevailing evidence-based approaches.
  • Transformative approaches inherently challenge dominant approaches—not in terms of their scientific claims, but in terms of the sociopolitical effects of these claims, by asking questions like who benefits from this particular framing of ethics, or professionalism, or disability/disease? Who is harmed by it?

실제로 교사 및 학습자를 지식 창조 또는 발견에서 파트너로 더 많이 위치시키는 교육의 패러다임 또한 전통적인 계층 구조에 도전한다. 교육자로서 [변혁적이 된다는 것]은 [현상에 도전하는 것]이다. 그렇다고 해서, 우리는 기존의 보건 직업 교육 시스템을 완전히 전복시켜야 한다고 제안하지는 않는다. 우리는 각각의 패러다임이 보건 직업 교육의 특정한 측면에 장점이 있다고 믿는다. 예를 들어, [행동주의-시민권 패러다임]은 가장 오래된 패러다임이지만, 감염관리 교육에서는 유용한 실천요강을 제공할 수 있다. 그러나 그것을 다른 패러다임과 연결시키는 것이 더 도움이 될 수 있기 때문에 다원주의에 대한 우리의 주장은 더 도움이 될 수 있다. 
Indeed paradigms of education that position the teacher and learner more as partners in knowledge creation or discovery thus also challenge traditional hierarchies. To be transformative as an educator is to challenge the status quo. That said, we do not propose that one must completely overthrow established health professions education systems. We believe that each paradigm has merits for certain aspects of health professions education. For example, when teaching infection control, a behaviourism-citizenship paradigm, though the most dated of all the paradigms, may offer useful practices.

결론
Conclusion

교육에 대한 다원주의적 접근법을 실천하려면 [교육자들이 교육의 여러 패러다임에 대해 잘 알아야 하며, 패러다임 조정에 능숙]해야 한다. 교육자들이 서로 다른 패러다임이 어떻게 작용하고 서로 상충되는지를 주의 깊게 고려할 수 있어야 적절하게 평가되는 명확하고 정렬된 교육 관행을 보장할 수 있을 것이다. 이러한 조정은 특히 광범위한 교육 개혁 노력이 있는 시기에 중요하다. 보건 직업 훈련 프로그램에서 [성과 중심 결과 측정]이 Academic 건강 과학 시스템을 지배하기 때문이다. 교육자가 인식이 부족하고 조정에 실패하면 차선의 교육을 촉진할 뿐만 아니라 교육 노력을 적절히 평가하거나 교육 노력이 존재하는 곳에 의미 있는 영향을 입증하지 못할 수 있다. 이와 함께, 필연적인 다원적 교육의 패러다임이 잘 맞물려 보건직업 교육의 질을 높일 수 있습니다. 정보에 입각한 다원주의는 보건 분야의 교육에 대한 독단적이거나 사려 깊지 않은 접근법에 빠지는 것을 막아줄 것이다.

A pluralistic approach to education would see educators knowledgeable about multiple paradigms of education, and adept at paradigmatic alignment. Educators would be able to carefully consider how the different paradigms work together and where they conflict, so they can help ensure clear, aligned educational practices that are evaluated appropriately. This alignment matters particularly during a time of widespread curricular reform efforts within health professions training programs, wherein performance-driven outcome measurement rules academic health science systems. If educators lack awareness and fail to align, they may not only promote sub-optimal education, but may also be unable to appropriately evaluate educational efforts or demonstrate meaningful impacts where they exist. With alignment, the inevitable pluralism of paradigms of education can be engaged well, increasing our ability to drive quality in health professions education. Informed pluralism could offer a hedge against slipping into dogmatic or unthoughtful approaches to education in the health professions.


 

Adv Health Sci Educ Theory Pract. 2021 Aug;26(3):1045-1058.

 doi: 10.1007/s10459-021-10036-z. Epub 2021 Mar 19.

Re-envisioning paradigms of education: towards awareness, alignment, and pluralism

Affiliations collapse

Affiliations

1Department of Psychiatry, Faculty of Medicine, University of Toronto, Toronto, Canada. lindsay.baker@unityhealth.to.

2Centre for Faculty Development, Faculty of Medicine, University of Toronto At St. Michael's Hospital, 30 Bond Street, Toronto, ON, M5B 2W8, Canada. lindsay.baker@unityhealth.to.

3School of Occupational Therapy, Faculty of Health, Dalhousie University, Halifax, Canada.

4Department of Family and Community Medicine, University of Toronto, Toronto, Canada.

5The Wilson Centre, Unviersity of Toronto At University Health Network, Toronto, Canada.

6Institute of Health Policy, Management and Evaluation, University of Toronto, Toronto, Canada.

7Department of Occupational Science and Occupational Therapy, Faculty of Medicine, Toronto, Canada.

8Centre for Faculty Development, Faculty of Medicine, University of Toronto At St. Michael's Hospital, 30 Bond Street, Toronto, ON, M5B 2W8, Canada.

9Department of Speech-Language Pathology, Faculty of Medicine, University of Toronto, Toronto, Canada.

PMID: 33742339

PMCID: PMC8338841

DOI: 10.1007/s10459-021-10036-z

Free PMC article

Abstract

In this article we introduce a synthesis of education "paradigms," adapted from a multi-disciplinary body of literature and tailored to health professions education (HPE). Each paradigm involves a particular perspective on the purpose of education, the nature of knowledge, what knowledge is valued and included in the curriculum, what it means to learn and how learning is assessed, and the roles of teachers and learners in the learning process. We aim to foster awareness of how these different paradigms look in practice and to illustrate the importance of alignment between teaching, learning and assessment practices with paradigmatic values and assumptions. Finally, we advocate for a pluralistic approach that purposefully and meaningfully integrates paradigms of education, enhancing our ability to drive quality in HPE.

 

인지 아키텍처와 교수 설계: 20년의 역사(Educational Psychology Review, 2019)
Cognitive Architecture and Instructional Design: 20 Years Later
John Sweller1 & Jeroen J. G. van Merriënboer2 & Fred Paas3,4

 

 

서론
Introduction


[인지 부하 이론]은 학습 과제에 의해 유도된 [정보 처리 부하]가 어떻게 학생들의 [새로운 정보 처리 능력]과 [장기 기억의 지식 구성]에 영향을 미칠 수 있는지를 설명하는 것을 목표로 한다. 그것의 기본적인 전제인간의 인지 처리가 (한 번에 제한된 수의 정보 요소만 처리할 수 있는 한정된) [작업 기억력에 의해 심하게 제한]된다는 것이다. 인지 부하는 인지 시스템에 불필요한 요구가 부과될 때 증가한다. 인지 부하가 너무 높아지면 학습과 전달을 방해한다. 그러한 요구에는 환경의 불필요한 방해뿐만 아니라 주제에 대해 학생들을 교육하기 위한 부적절한 교육 방법이 포함된다. 인지 부하는 본질적으로 복잡한 과목 정보를 강조하는 교육 방법과 같이 학습과 밀접한 과정에 의해 증가할 수 있다. 학습과 전달을 촉진하려면, 인지 부하를 잘 관리하는 것이 중요하다. 이는 사용 가능한 인지 능력의 한계 내에서 [학습과 무관한 인지 처리는 최소화]되고, [학습과 밀접한 인지 처리는 최적화]하는 것이다. (van Merrienboer et al. 2006).
Cognitive load theory aims to explain how the information processing load induced by learning tasks can affect students’ ability to process new information and to construct knowledge in long-term memory. Its basic premise is that human cognitive processing is heavily constrained by our limited working memory which can only process a limited number of information elements at a time. Cognitive load is increased when unnecessary demands are imposed on the cognitive system. If cognitive load becomes too high, it hampers learning and transfer. Such demands include inadequate instructional methods to educate students about a subject as well as unnecessary distractions of the environment. Cognitive load may also be increased by processes that are germane to learning, such as instructional methods that emphasise subject information that is intrinsically complex. In order to promote learning and transfer, cognitive load is best managed in such a way that cognitive processing irrelevant to learning is minimised and cognitive processing germane to learning is optimised, always within the limits of available cognitive capacity (van Merriënboer et al. 2006).

인지 부하 이론의 뿌리는 1982년으로 거슬러 올라갈 수 있지만, 

  • 이 이론에 대한 첫 번째 완전한 설명은 1988년 "문제 해결 중 인지 부하: 학습에 미치는 영향"이라는 기사에서 제시되었다. 이후 10년 동안 호주의 뉴사우스웨일스 대학과 네덜란드의 트벤터 대학에 위치한 소규모 연구진에 의해 많은 인지 부하 영향과 관련 교육 방법이 조사되었다. 
  • 이러한 긴밀한 협력은 1998년 Cognitive Architecture and Instructional Design(Sweller et al. 1998) 논문에 게재된 인지 부하 이론의 업데이트된 설명으로 이어졌다. 
  • 1998년 이후, 인지 부하 이론은 빠르게 교육 심리학 및 교육 설계 분야에서 가장 인기 있는 이론 중 하나가 되었고, 전 세계의 연구원들이 추가 개발에 기여했습니다. 
  • 1998년 기사는 현재 구글 스콜라에서 5000개 이상의 인용을 받아 교육 분야에서 가장 많이 인용된 기사 중 하나가 되었다. 

The roots of cognitive load theory can be traced back to 1982 (Sweller and Levine 1982), but a first full description of the theory was given in the 1988 article Cognitive Load During Problem Solving: Effects on Learning (Sweller 1988). In the next decade, many cognitive load effects and associated instructional methods were investigated by a small group of researchers located at the University of New South Wales, Australia, and the University of Twente, the Netherlands. This close collaboration led to an updated description of cognitive load theory that was published in the 1998 article Cognitive Architecture and Instructional Design (Sweller et al. 1998). After 1998, cognitive load theory quickly became one of the most popular theories in the field of educational psychology and instructional design, with researchers from across the globe contributing to its further development. The 1998 article became one of the most cited articles in the educational field with currently over 5000 citations in Google Scholar. 

이 후속 기사의 주요 목적은 1998년 기사를 출발점으로 삼고 미래 방향에 대한 설명을 종점으로 삼으면서 지난 20년 동안의 인지 부하 이론의 진화를 되돌아보는 것이다.
The main aim of this follow-up article is to reflect on the evolution of cognitive load theory over the past 20 years, taking the 1998 article as a starting point and a description of future directions as the end point.

인지부하 이론의 짧은 역사
Short History of Cognitive Load Theory

1998년 Cognitive Architecture and Instructional Design 논문는 인지 부하 이론의 개요와 그 일반 원리, 이론에 의해 생성된 7가지 인지 부하 효과의 설명과 인지 부하 측정과 관련된 이슈를 포함한 인간의 인지 구조에 대해 논의하였다. 아래에서는 1998년 기사에서 설명한 인간의 인지 구조와 원래의 인지 부하 영향을 간략히 재검토할 것이다. 
The 1998 article Cognitive Architecture and Instructional Design discussed human cognitive architecture including an outline of cognitive load theory and its general principles, a description of seven cognitive load effects generated by the theory and issues associated with measuring cognitive load. Below, we will briefly revisit the human cognitive architecture and the original cognitive load effects described in the 1998 article; 

1998년에 사용된 인지구조
Human Cognitive Architecture Used in 1998

1998년에 사용된 인지 구조는 그 당시 인간의 인식에 대한 우리의 지식을 반영했다. 그 아키텍처의 기본 구성 요소들, 작업 기억, 장기 기억 그리고 그들 사이의 관계는 잘 알려져 있었다. 비록 작업 기억과 장기 기억 사이의 복잡하고 비판적인 관계가 적어도 일부 독자들에게는 새로운 것처럼 보였지만, 작업 기억이 [정보의 출처가 외부 환경인지 장기 메모리인지 여부]에 따라 다르게 기능한다는 것을 의심하는 독자들에게는 새로운 것이었다. 또한, 인지 아키텍처에서 파생된 지시적 의미는 대부분 알려지지 않았다.
The cognitive architecture used in 1998 reflected our knowledge of human cognition at that time. The basic components of that architecture, working memory, long-term memory and the relations between them were well-known, although the intricate, critical relations between working and long-term memory seemed novel to at least some readers who doubted that working memory functioned differently depending on whether the source of the information was the external environment or long-term memory. In addition, the instructional implications derived from that cognitive architecture were largely unknown.

[작업 기억]의 용량과 지속 시간 한계는 밀러(1956년)와 피터슨 및 피터슨(1959년) 이후로 알려져 왔지만, 이러한 한계는 친숙한 정보가 아닌 [새로운 정보에만 효과적으로 적용]되었다는 사실은 대부분의 치료treatment에서 암시적으로 보였다. 새로운 정보를 다룰 때 작업 기억력의 한계는 대부분의 교육 권고사항에는 없었다. 이러한 권고안은, 특히 지시적 문제 해결의 사용과 관련하여, 마치 작업 기억의 특성이 무관한 고려사항인 것처럼 진행되었다. 실제로 대부분의 교육 권고사항에서는 작업 메모리에 대해 언급하지 않았습니다.
The capacity and duration limits of working memory have been known at least since Miller (1956) and Peterson and Peterson (1959), although the fact that these limits effectively applied only to novel, not familiar information, seemed more implicit rather than explicit in most treatments. The limitations of working memory when dealing with novel information were absent in most instructional recommendations. These recommendations, especially with regard to the use of instructional problem solving, proceeded as though the characteristics of working memory were an irrelevant consideration. Indeed, most instructional recommendations made no mention of working memory.

물론, [장기 기억]도 잘 알려져 있었다. 그럼에도 불구하고, 그것은 아마도 암기 학습과 관련이 있을 수 있기 때문에 교육 권고사항에서 거의 역할을 하지 않았다. 암기적 학습은 분명히 장기 기억에 정보를 저장해야 하는 반면, 장기 기억이 이해력을 가진 학습에 최소한의 역할을 하거나 전혀 역할을 하지 않는다는 가정이 있는 것처럼 보였다. 우리가 [학습할 때 장기 기억이 (이해와 일반적인 기술 형성을 통해) 중심적 역할을 한다고 강조한 것]은 인지 부하 이론의 특이한 측면이었다. 그 강조점은 1946년에 [체스 전문지식]에 대한 원래 연구가 출판된 드 그루트의 비평적인 작품에서 비롯되었다. 체스 기술은 기억되는 체스 보드 구성으로 완전히 설명될 수 있다는 그의 발견과 각각의 구성에 대한 최고의 움직임은 문제 해결 기술의 핵심 요소로 장기 기억을 지울 수 없는 것으로 배치했다. 지금까지 이 자리에 거의 없었다. 그러나 여전히, 이 연구결과가 교육설계에 가지칠 수 있음에도 불구하고, 교육적 권고사항이 장기기억의 역할에 중점을 둔 경우는 거의 없다.
Long-term memory was, of course, equally well-known in the literature. Nevertheless, it played almost no role in instructional recommendations perhaps because it may have been associated with rote learning. While rote learning obviously required the storage of information in long-term memory, there seemed to be an assumption that long-term memory played a minimal or no role in learning with understanding. Our emphasis on the central role of long-term memory when learning with understanding and in general skill formation was an unusual aspect of cognitive load theory. That emphasis derived from the critical work of De Groot (1965) whose original work on chess expertise was published in 1946. His finding that chess skill could be entirely explained by remembered chessboard configurations and the best moves for each configuration placed long-term memory indelibly as the central factor in problem-solving skill. This presence had heretofore been largely absent. Again, despite the ramifications of this finding for instructional design, few if any instructional recommendations placed any emphasis on the role of long-term memory.

[작업 기억]과 [장기 기억] 각각에 대해서는 잘 알려져 있지만, 그들 사이의 중요한 관계는 훨씬 덜 강조되었다. 작업기억은 새로운 정보를 다룰 때 용량과 지속시간이 제한되었지만 작업기억이 장기 기억에서 전송된 정보를 다룰 때 이러한 제한은 사실상 사라졌다. 장기 기억에서 많은 양의 조직화된 정보를 즉시 사용할 수 있게 되면 그러한 정보를 처리할 때 효과적으로 작업 메모리가 제한되지 않게 된다. 에릭슨과 킨치는 장기 작동 기억 이론에서 이 점을 반영했다. [(장기 기억에 저장된 정보에 의존하는) 전문지식]은 개인과 사회에 대한 교육의 변화적 결과를 반영하여 작업 기억에서 정보를 처리하는 능력을 변화시키고 우리를 변화시킨다. 학습자가 중요한 정보를 장기기억에 축적할 수 있도록 하는 것이 교육의 주요 기능이라는 것이다. 새롭기 때문에, 새로운 정보는 작업 기억의 한계를 고려하는 방식으로 제시되어야 한다. 이러한 과정들은 1998년에 인지 부하 이론의 교육적 영향을 초래한 인지 구조를 제공했다.
While working and long-term memory were well-known, the important relations between them were much less emphasised. Working memory was limited in capacity and duration when dealing with novel information but these limitations effectively disappeared when working memory dealt with information transferred from long-term memory. A ready availability of large amounts of organised information from long-term memory results in working memory effectively having no known limits when dealing with such information. Ericsson and Kintsch (1995) in their theory of long-term working memory, reflected this point. Expertise, reliant on information held in long-term memory, transforms our ability to process information in working memory and transforms us, reflecting the transformational consequences of education on individuals and societies. It follows that the major function of instruction is to allow learners to accumulate critical information in long-term memory. Because it is novel, that information must be presented in a manner that takes into account the limitations of working memory when dealing with novel information. These processes provided the cognitive architecture that led to the instructional implications of cognitive load theory in 1998.

인지부하의 범주
Categories of Cognitive Load

1998년에, 우리는 인지 부하의 세 가지 범주에 대해 논의했다: 내재적, 외부적, 그리고 본유적. 

In 1998, we discussed three categories of cognitive load: intrinsic, extraneous and germane.

[내재적 인지 부하]는 [처리 중인 정보의 복잡성]을 의미하며, 요소 간 상호작용의 개념과 관련이 있다. 위에서 설명한 인간 인지 구조의 특성 때문에, 인간에 의해 처리되는 정보의 복잡성을 결정하는 것은 어렵다. 정보의 복잡성에 대한 대부분의 척도는 순전히 정보의 특성에 관한 것이다. 위에서 논의한 작업 기억과 장기 기억 사이의 관계 때문에 인간에 의해 처리되고 있는 정보를 언급할 때 그러한 조치들은 부적절하다. 장기 기억에 조직되고 저장된 정보는 저장되기 전의 동일한 정보와는 매우 다른 특성을 가지고 있다.

Intrinsic cognitive load referred to the complexity of the information being processed and was related to the concept of element interactivity. Because of the characteristics of human cognitive architecture described above, determining the complexity of information processed by humans is difficult. Most measures of informational complexity refer purely to the characteristics of the information. Such measures are inadequate when referring to information being processed by humans because of the relations between working and long-term memory discussed above. Information that has been organised and stored in long-term memory has very different characteristics for humans than the same information prior to it being stored.

이 논문의 독자들에게 영어 단어 'characteristics'과 그 로마자는 장기 기억에서 회수된 하나의 요소로 쉽고 무의식적으로 처리된다. 반면, 영어 읽기를 배우는 누군가에게 쓰여진 단어는 아직 장기 기억에 단일 요소로 저장되지 않았기 때문에 여러 개의 상호작용하는 요소로 작업 기억에서 처리되어야 한다. [복잡성 또는 요소 상호작용성]은 [정보의 성격과 정보를 처리하는 사람의 지식의 조합]에 좌우된다.

  • 영어 읽기를 배우는 누군가에게, 'characteristics'이라는 단어를 구성하는 여러 개의 꼬불꼬불한 말을 해석하는 것은 작업 기억을 압도하는 매우 높은 요소 상호작용성 작업이 될 수 있다.
  • 전문가에게, 동일한 구불구불한 선squiggles은 최소 요소 상호작용으로 인해 최소한의 인지 부하를 부과하는 단일 요소만 구성할 수 있다.

For readers of this paper, the English word ‘characteristics’ and its Roman letters are processed easily and unconsciously as a single element retrieved from long-term memory. For someone learning to read English, the written word must be processed in working memory as multiple, interacting elements because the written word has not yet been stored as a single element in long-term memory. Complexity or element interactivity depends on a combination of both the nature of the information and the knowledge of the person processing the information.

  • For someone learning to read English, interpreting the multiple squiggles that constitute the word ‘characteristics’ may constitute a very high element interactivity task that overwhelms working memory.
  • For an expert, the same squiggles may constitute only a single element that imposes a minimal cognitive load due to minimal element interactivity.

따라서, 내재적 인지 부하는 정보의 복잡성과 정보를 처리하는 사람의 지식에 의해 결정된다. 인간 인지 시스템의 이러한 특징들을 고려할 때, (제시된 정보의) 복잡성을 결정할 때 [(기존) 지식을 무시하는 측정]은 대부분 소용이 없다. 이 분석에 기초하여, 내재적 인지 부하는 학습해야 할 것을 변경하거나 학습자의 전문지식을 바꿈으로써만 바뀔 수 있다.

Accordingly, intrinsic cognitive load is determined by both the complexity of the information and the knowledge of the person processing that information. Given these characteristics of the human cognitive system, measures that ignore knowledge when determining complexity are largely useless. Based on this analysis, intrinsic cognitive load only can be changed by changing what needs to be learned or changing the expertise of the learner.

[외재적 인지 부하]는 정보의 본질적 복잡성에 의해 결정되는 것이 아니라, 정보가 어떻게 제시되고 학습자가 지시 절차에 의해 무엇을 해야 하는가에 의해 결정된다. 내재 인지 부하와 달리, 교육 절차instructional procedures를 변경하여 바꿀 수 있다. 1998년에는 요소 상호작용만이 내재 인지 부하와 관련이 있다고 가정했다. 그 결과, 외부 인지 부하(Sweller 2010)를 동일하게 결정한다는 것이 명백해졌다.

  • 효과적인 교육 절차는 요소의 상호작용성을 감소시키는 반면
  • 비효율적인 절차는 요소의 상호작용성을 증가시킨다. 

Extraneous cognitive load is not determined by the intrinsic complexity of the information but rather, how the information is presented and what the learner is required to do by the instructional procedure. Unlike intrinsic cognitive load, it can be changed by changing instructional procedures. In 1998, it was assumed that element interactivity only was relevant to intrinsic cognitive load. Subsequently, it became apparent that it equally determines extraneous cognitive load (Sweller 2010).

  • Effective instructional procedures reduce element interactivity while
  • ineffective ones increase element interactivity. 

[본유적 인지부하]는 학습에 필요한 인지부하으로 정의되었으며, 이는 (외재적 인지 부하가 아니라) 내재적 인지 부하를 다루는 데 사용되어야 하는 작업기억 자원을 가리킨다. 외부 인지 부하를 처리하는 데 더 많은 자원을 할애할수록 내재 인지 부하를 처리하는 데 더 적은 가용성이 제공되므로 학습량이 줄어들 것이다. 그런 점에서 [내재적 인지적 부하]와 [본유적 인지 부하]는 밀접하게 얽혀 있다.
Germane cognitive load was defined as the cognitive load required to learn, which refers to the working memory resources that are devoted to dealing with intrinsic cognitive load rather than extraneous cognitive load. The more resources that must be devoted to dealing with extraneous cognitive load the less will be available for dealing with intrinsic cognitive load and so less will be learned. In that sense, intrinsic and germane cognitive load are closely intertwined.

[본유적 인지 부하]의 이러한 특성은 1998년 논문에서 벗어난 것이다. 본 논문에서 우리는 본유적 인지 하중이 외부 하중을 대체하여 총 인지 하중에 기여한다고 가정했다. 현재, 우리는 [본유적 인지 부하]가 총 부하에 기여하기 보다는, 학습 과제의 본질적인instrinsic 정보를 처리하여, 외부 활동에서 학습과 직접 관련이 있는 활동으로 작업 기억 자원을 재배포한다고 가정한다. 이러한 변경의 필요성은 외부 하중이 감소되었을 때 게르마인 인지 하중이 단순히 외부 하중을 대체했다면 외부 하중의 감소에 따른 총 하중의 변화가 없어야 한다는 문제에서 비롯되었다. 수많은 경험적 연구에 따르면 외부 부하 감소에 따른 부하 감소가 나타났다. 현재 공식은 [본유적 인지 부하]가 그 자체로 부하를 부과하기 보다는, 직무의 외부적 측면에서 본질적 측면으로 [(부하의) 재분배 기능]을 가지고 있다고 가정함으로써 이 문제를 제거한다.
This characterisation of germane cognitive load is a departure from the 1998 paper. In that paper we assumed that germane cognitive load contributed to total cognitive load by substituting for extraneous load. Currently, we assume that rather than contributing to the total load, germane cognitive load redistributes working memory resources from extraneous activities to activities directly relevant to learning by dealing with information intrinsic to the learning task. The need for this alteration arose from the issue that if germane cognitive load simply replaced extraneous load when extraneous load was reduced, then there should be no change in total load following a reduction in extraneous load. Numerous empirical studies indicated a reduction in load following a reduction in extraneous load. The current formulation eliminates this problem by assuming that germane cognitive load has a redistributive function from extraneous to intrinsic aspects of the task rather than imposing a load in its own right.

1998년 보고한 지시효과
Instructional Effects Reported in 1998

1998년 기사에서는 7가지 인지 부하 효과가 보고되었다(표 1의 상단 참조). [변동성 효과]를 제외한 이 모든 효과는 외부 인지 부하 감소와 관련된 요소 상호작용성의 감소에 기인한다. [변동성 효과]는 내재 인지 부하의 변화로 인한 것이다. 이러한 효과는 전 세계 여러 연구 센터에서 수행된 여러 번의 중복 실험과 다양한 재료 및 모집단을 사용한 실험에 기초했다. 그러나, 이러한 실험들 중 다수는 비교 인지 부하를 직접 측정하려고 시도하지 않았다. 오히려, 인지 부하 이론은 교육 기법을 생성하는데 사용되었고 이러한 기술이 학습 결과에 대한 기대 효과를 생성한다면 이론을 강화하는 것으로 가정되었다. 
In the 1998 article, seven cognitive load effects were reported (see the upper part of Table 1). All of these effects with the exception of the variability effect were due to a reduction in element interactivity associated with a decrease in extraneous cognitive load. The variability effect is due to alterations in intrinsic cognitive load. These effects were based on multiple, overlapping experiments carried out in several research centres around the globe and using a variety of materials and a variety of populations. Yet, many of these experiments did not attempt to directly measure comparative cognitive load; rather, cognitive load theory was used to generate instructional techniques and if these techniques produced the expected effects on learning outcomes they were assumed to strengthen the theory. 

표 1 1998년 이전과 이후의 주요 인지부하 영향의 연표
Table 1 Timeline of major cognitive load effects before and after 1998

 

 

목표 부재 효과
Goal-Free Effect

[목표 부재 효과]를 [목표-특이성 감소 효과] 또는 [목표 없음 효과]라고도 합니다. 그것은 기존의 문제들이 일반적으로 [수단-목표means-ends 분석]에 의해 해결된다는 관찰로부터 시작되었는데, 이런 문제해결 방식은 작업 메모리 용량에 유난히 "비싼" 프로세스이다. 왜냐하면 학습자는 작업 기억, 현재 문제 상태, 목표 상태, 그들 사이의 관계, 차이를 줄일 수 있는 문제 해결 연산자 및 하위 문제를 유지하고 처리해야 하기 때문이다. (예: 차량은 1분 동안 정지 상태에서 균일하게 가속됩니다. 그것의 최종 속도는 2km/min이다. 얼마나 멀리 이동했습니까?)

The goal-free effect is also called the reduced goal specificity effect or no goal effect. It is the oldest effect studied in the context of cognitive load theory (Sweller and Levine 1982). It started from the observation that conventional problems (e.g. A car is uniformly accelerated from rest for 1 min. Its final velocity is 2 km/min. How far has it travelled?) are typically solved by means-ends analysis, a process that is exceptionally expensive of working memory capacity because the learner must hold and process in working memory, the current problem state, the goal state, relations between them, problem-solving operators that could reduce differences and any sub-goals.

기존의 문제가 목표가 없는 문제로 대체될 때(예: 차량은 1분 동안 정지 상태에서 균일하게 가속됩니다. 그것의 최종 속도는 2km/min이다. 가능한 한 많은 변수의 값을 계산해보세요), 학습자는 단지 목표 상태가 제공되지 않는다는 이유만으로 현재 문제 상태와 목표 상태 간의 차이를 추출할 수 없다. 이제 그들은 마주치는 각 문제 상태를 고려하여, 적용할 수 있는 문제 해결 연산자라면 무엇이든 다 찾을 수 있다. 일단 연산자가 적용되면, 새로운 문제 상태가 생성되고 프로세스가 반복될 수 있습니다. 

When conventional problems are replaced by goal-free problems (e.g. A car is uniformly accelerated from rest for 1 min. Its final velocity is 2 km/min. Calculate the value of as many variables as you can), learners are no longer able to extract differences between a current problem state and a goal state simply because no goal state is provided. They will now consider each problem state encountered and find any problem-solving operator that can be applied; once an operator has been applied, a new problem state has been generated and the process can be repeated.

[수단-목표 분석]은 지식 구성 프로세스와 거의 관련이 없는 반면, [목표가 없는 문제 해결]은 인지 부하를 크게 감소시키고 낮은 부하와 지식 구성에 필요한 해결책의 정확한 조합을 제공한다.

Whereas means-ends analysis bears little relation to knowledge construction processes, goal-free problem solving greatly reduces cognitive load and provides precisely the combination of low load and focus on solutions that is required for knowledge construction.

 

작업 예제 효과
Worked Example Effect

[작업된 예제]는 기존의 문제로 인한 인지 부하를 줄이고 지식 구성을 용이하게 하는 것을 목표로 한다. 작업 예제는 학습자가 주의 깊게 공부해야 하는 전체 문제 해결 방법을 제공합니다. 작업된 예제 효과는 대수학 영역에서 스웰러와 쿠퍼(1985)에 의해 처음 보고되었다. 기존의 문제와 대조적으로, [풀이된 예제]는 학습자의 주의를 문제 상태 및 관련 운영자(즉, 솔루션 단계)에 집중시켜 일반화된 솔루션을 유도할 수 있도록 한다. 따라서, 풀이된 예제를 공부하는 것은 실제로 동등한 문제를 해결하는 것보다 지식 구축과 전이라는 학습성과를 더 촉진할 수 있습니다. 
Like goal-free problems, worked examples aim to reduce the cognitive load caused by conventional problems and to facilitate knowledge construction. Worked examples provide a full problem solution that learners must carefully study. The worked example effect was first reported by Sweller and Cooper (1985) in the domain of algebra. In contrast to conventional problems, worked examples focus the learners’ attention on problem states and associated operators (i.e. solution steps), enabling them to induce generalised solutions. Thus, studying worked examples may facilitate knowledge construction and transfer performance more than actually solving the equivalent problems.

작업된 예제 효과에 대한 매우 강력한 경험적 증거가 있지만, 중요한 제약 조건도 있다. 고전문가의 학습자에게 작업 예제는 덜 효과적이고 좋은 작업 예제의 설계는 어렵다. 예를 들어, 학습자가 다른 정보 소스를 정신적으로 통합하거나(아래의 [분산되 주의 효과] 참조) 중복 정보를 결합하도록 요구해서는 안 되기 때문이다 (아래의 [중복 효과] 참조). 예제를 통한 학습에 대한 연구 리뷰는 Renkl(2013)에 의해 제공된다.
Although there is very strong empirical evidence for the worked example effect, there are also important constraints: Worked examples are less effective for high-expertise learners and the design of good worked examples is difficult, for example, because they should not require the learner to mentally integrate different sources of information (see the split-attention effect below) or combine redundant information (see the redundancy effect below). A review of studies on learning from examples is provided by Renkl (2013).

부분완성 문제 효과
Completion Problem Effect

[풀이된 예제]의 잠재적인 단점은 학습자가 주의 깊게 학습하도록 강요하지 않는다는 것입니다. 따라서 Van Merrienboer와 Krammer(1987)는 컴퓨터 프로그래밍 입문 분야에서 [부분완성 문제]를 사용할 것을 제안했다. 그러한 문제들은 주어진 상태, 목표 상태, 학습자에 의해 완성되어야 하는 [부분적인 해결책]을 제공한다. 컴퓨터 프로그래밍 분야에서, 이것은 학습자들이 완성되어야 할 불완전한 컴퓨터 프로그램을 받는 것을 의미한다. [완전히 풀이된 예제]는 명시적으로 학습하도록 유도하지는 않는 반면, 학습자는 [부분완성 문제]에서 제공되는 [부분적으로 풀이된 예제]를 주의 깊게 공부하고 이해해야 한다. 그렇지 않으면 솔루션을 올바르게 완료할 수 없기 때문입니다. 
A potential disadvantage of worked examples is that they do not force learners to carefully study them. Therefore, van Merriënboer and Krammer (1987) suggested the use of completion problems in the field of introductory computer programming. Such problems provide a given state, a goal state, and a partial solution that must be completed by the learners. In the field of computer programming, this means that the learners receive incomplete computer programs that need to be finished. Although fully worked examples do not explicitly induced learners to study them, learners must carefully study and understand the partial worked examples provided in completion problems because they otherwise will not be able to complete the solution correctly.

[부분완성 문제]는 [풀이된 예제]와 [전통적 문제] 사이의 가교로도 볼 수 있습니다. [풀이된 예제]는 완전한 솔루션의 완료 문제이고, [전통적 문제]는 부분적인 솔루션이 제시된 [부분완성 문제]입니다. 코스를 설계할 때, 이러한 서로 다른 솔루션 레벨은 거의 완전한 솔루션을 제공하는 완료 문제로 시작할 수 있도록 하며, 점진적으로 전체 또는 대부분의 솔루션이 학습자에 의해 생성되어야 하는 완료 문제로 작용할 수 있도록 합니다. 이 전략은 '완료 전략completion strategy'(1990년 반 메린보어 및 크라머)으로 알려졌으며 아래에서 설명될 guidance-fading effect의 선구자로 볼 수 있다.

Completion problems may also be seen as a bridge between worked examples and conventional problems: worked examples are completion problems with a complete solution and conventional problems are completion problems with a partial solution. When designing a course, these differing solution levels allow commencement with completion problems that provide almost complete solutions and gradually work to completion problems for which all or most of the solution must be generated by the learners. This strategy became known as the ‘completion strategy’ (van Merriënboer and Krammer 1990) and can be seen as a forerunner of the guidance-fading effect that will be described below.

주의 분할 효과
Split-Attention Effect

[주의 분할 효과]는 [풀이된 예제]에 대한 연구에서 비롯되어, Tarmizi와 Sweller(1988)에 의해 처음 보고되었다. 예를 들어, 지오메트리 영역의 [풀이된 예제]는 [다이어그램]과 이에 대한 [풀이법 설명 문장]으로 구성될 수 있습니다.

  • [다이어그램]만으로는 문제에 대한 해결책에 대해 아무것도 드러내지 않으며,
  • [풀이 문장]은 다이어그램과 통합되기 전까지는 학습자가 이해할 수 없습니다.

학습자들은 해결책을 이해하기 위해 두 가지 정보의 원천을 정신적으로 통합해야 하는데, 이 과정은 높은 인지 부하를 산출하고 학습을 방해하는 과정이다. 
The split-attention effect stems from research on worked examples and was first reported by Tarmizi and Sweller (1988). For instance, a worked example in the domain of geometry might consist of a diagram and its associated solution statements.

  • The diagram alone reveals nothing about the solution to the problem and
  • the statements, in turn, are unintelligible for the learners until they have been integrated with the diagram.

Learners must mentally integrate the two sources of information in order to understand the solution, a process that yields a high cognitive load and hampers learning.

이러한 [주의 분할 효과]는 [다이어그램과 솔루션 문구를 물리적으로 통합]하여 정신적 통합을 불필요하게 만들고 작업 예제의 긍정적인 효과를 복원함으로써 예방할 수 있다. 주의 분할 효과는 정보 출처의 [공간적 조직]뿐만 아니라 [시간적 조직]과도 관련이 있다. 메이어와 앤더슨(1992)은 인지 부하를 줄이고 학습을 용이하게 하기 위해 애니메이션과 관련 내레이션이 일시적으로 조정되어야 한다는 것을 발견했다. 분할 주의 효과에 대한 최근 리뷰는 Ayres와 Sweller(2014)에 의해 제공되었습니다.

This split-attention effect can be prevented by physically integrating the diagram and the solution statements, making mental integration superfluous and reinstating the positive effects of worked examples. The split-attention effect not only relates to the spatial organisation of information sources but also to their temporal organisation. Mayer and Anderson (1992) found that animation and associated narration need to be temporally coordinated in order to decrease cognitive load and facilitate learning. A recent review of the split-attention effect is provided by Ayres and Sweller (2014).

중복 효과
Redundancy Effect

[주의 분할 효과]는 [풀이된 예제 효과]에서 나온 반면, [중복 효과]는 [주의 분할 효과]에서 나온 것입니다. 학습자가 독자적으로는 도움이 안 되지만, 통합된다면 이해에 도움이 되는 [두 가지 상호 보완적인 정보원]에 직면할 때 주의가 분산됩니다. 하지만 두 정보의 원천이 [서로에 대한 참조 없이] 스스로 포함되고 이해될 수 있다면 어떻게 될까? Chandler와 Sweller(1991)는 텍스트로 혈액의 흐름을 설명한 진술과 함께 심장, 폐 및 신체의 나머지 부분의 혈액 흐름을 보여주는 다이어그램을 사용했다. 따라서, 다이어그램과 문장은 동일한 정보를 포함하고 있으며 완전히 중복되었습니다. 이 경우 [다이어그램만를 제시]하는 것이, [두 개의 정보 출처를 함께 표시하는 것]보다 우월한 것으로 밝혀졌다. 

While the split-attention effect grew out of the worked example effect, the redundancy effect, in turn, grew out of the split-attention effect. Split attention occurs when learners are confronted with two complementary sources of information, which cannot stand on their own but must be integrated before they can be understood. But what happens when the two sources of information are self-contained and can be understood without reference to each other? Chandler and Sweller (1991) used a diagram demonstrating the flow of blood in the heart, lungs and rest of the body together with statements that described this flow of blood in text. Thus, the diagram and the statements contained the same information and were fully redundant. It was found that only presenting the diagram was superior to presenting both sources of information together.

중복 효과가 발생하는 이유는, [학습자가 두 출처의 정보가 동일하다는 것을 발견하기 위해 노력을 들여 처리해야 하기 때문]입니다. 동일한 정보를 두 번 제공하는 것이 해를 끼치거나 심지어 이롭다는 가정 하에, 이 발견은 중요하지만, 직관적이지 않다. 문헌의 조사 결과, 중복 효과는 수십 년 동안 발견되고, 잊혀지고, 재발견되어 왔다. 1937년 초에, 밀러는 명사를 읽는 법을 배우는 어린 아이들이 단어들이 비슷한 그림과 함께 제시되기 보다는 혼자 제시된다면 더 많은 발전을 이루었다고 보고했습니다.

This redundancy effect is due to the fact that effortful processing is required from the learners to eventually discover that the information from the two sources is identical. This finding is important and counter-intuitive based on the assumption that providing the same information twice can do no harm or is even beneficial. Inspection of the literature shows that the redundancy effect has been discovered, forgotten and rediscovered over many decades: As early as 1937, Miller reported that young children learning to read nouns made more progress if the words were presented alone rather than in conjunction with similar pictures.

제시방식 효과
Modality Effect

1998년 기사에서 논의된 모든 인지 부하 효과는 [다룰 수 있는 요소의 수가 변경할 수 없다는 점]에서, [한 개인에 대해 작업 기억 용량이 고정되어 있다]고 가정했다. 하지만 유일한 예외는 [제시방식 효과]이다. 제시방식 효과는 작업 기억이 부분적으로 독립적인 프로세서로 세분화될 수 있다는 가정에 기초하며, 하나는 청각 작업 기억에 기초한 언어 자료와 다른 하나는 시각 작업 기억에 기초한 도표/그림 정보를 다룬다(예: Baddley 1992). 따라서 어느 한 프로세서만 사용하는 것이 아니라, [시각 및 청각]이라는 두 가지의 [작업 기억] 모두를 사용했을 때, 효과적으로 작업 기억 용량을 증가시킬 수 있다
All cognitive load effects discussed in the 1998 article assumed that working memory capacity is fixed for a given individual in the sense that the number of elements that could be dealt with was unalterable, with the modality effect as an exception. The modality effect is based on the assumption that working memory can be subdivided into partially independent processors, one dealing with verbal materials based on an auditory working memory and one dealing with diagrammatic/pictorial information based on a visual working memory (e.g. Baddeley 1992). Consequently, effective working memory capacity can be increased by using both visual and auditory working memory rather than either processor alone.

무사비 외 연구진(1995)은 기하학 학습에서 제시방식 효과를 최초로 시험한 사람이었다. 그들은 다이어그램을 통합된 필기 텍스트(즉, 시각적)와 제시하거나, 구어 텍스트(즉, 시각적)와 함께 제시했고, [제시방식 효과]로 인해 음성 텍스트와의 조합이 가장 효과적일 것이라고 가정했다. 그들은 실제로 그 이후로 많은 다른 실험에서 제시방식 효과가 재현되는 것을 발견했다. [제시방식 효과]는 [주의 분할 효과]를 처리하는 방법에 중요한 영향을 미친다. [주의 분할]이 발생하는 경우, [글자 정보]를 [청각 모드]로 표시하는 것이, [도표에 물리적으로 통합하는 것]보다 동등하거나 훨씬 더 효과적일 수 있다. 긴스(2005a)는 여전히 읽을 가치가 있는 양식 효과의 메타 분석을 제공했다.

Mousavi et al. (1995) were the first to test the modality effect in geometry learning; they presented a diagram either with integrated written text (i.e. visual) or with auditory, spoken text and they hypothesised that the combination with spoken text would be most effective due to the modality effect. They indeed found the modality effect that has since been replicated in many other experiments. The modality effect has important implications for how to deal with split-attention effects: if split attention occurs, presenting the written information in an auditory mode may be equally or even more effective than physically integrating it in the diagram. Ginns (2005a) provided a meta-analysis of the modality effect that is still worth reading.

변동성 효과
Variability Effect

문제 상황에 대한 [가변성]은, 유사한 특징을 식별할 수 있게 해주고, 관련성이 높은 특징을 관련성이 없는 특징과 구별할 수 있는 확률을 증가시키기 때문에, 학습자가 더 일반화된 지식을 구축하도록 유도할 것으로 예측할 수 있다. 즉, 가변성의 증가는 내재 인지 부하를 증가시켜 증가를 처리하기에 충분한 작업 기억 자원이 있는 경우 더 많은 것을 배울 수 있게 한다. 몇몇 연구는 [가변성]이 [연습 중 인지 부하]를 증가시킬 뿐만 아니라, [학습의 전이transfer]도 증가한다는 것을 보여주었다. 처음에 변동성 효과는 (이전에 보고된 모든 인지 부하 효과와) 모순되는 것으로 보였다. 왜냐하면 그것은 [인지 부하의 감소]가 아니라, [인지부하의 증가]와 '높은 학습성과'를 결합시켰기 때문이다. 
Variability over problem situations is generally expected to encourage learners to construct more general knowledge, because it increases the probability that similar features can be identified and that relevant features can be distinguished from irrelevant ones. In other words, increases in variability increase intrinsic cognitive load allowing more to be learned provided there is sufficient working memory resources to handle the increase. Several studies showed that variability not only increased cognitive load during practice but also increased transfer of learning. Initially, the variability effect seemed to contradict all earlier reported cognitive load effects, because it combines an increase rather than a decrease of cognitive load with higher learning outcomes.

기하학 문제 해결 분야에서 파스와 판 메린보어(1994a)는 인지 부하 이론의 맥락에서 가변성 효과를 최초로 기술했다.

  • 그들은 [높은 변동성]이 [인지 부하가 낮은 상황(즉, 완성된 예제를 통한 학습)]에서 학습과 전이에 긍정적인 영향을 미칠 것이라고 가정했다. 왜냐하면 그러한 상황에서는 변동성이 내재 인지 부하를 증가시켰다는 사실에 관계없이 총 인지 부하가 한계 내에 머물 것이기 때문이다.
  • 대조적으로, 그들은 [높은 변동성]은 [인지 부하가 이미 높은 상황]에서 학습과 전이에 부정적인 영향을 미칠 것이라고 예측했다. 왜냐하면 총 인지 부하가 학습자의 작업 기억력에 과도한 부담을 주기 때문이다.

In the domain of geometrical problem solving, Paas and van Merriënboer (1994a) were the first to describe the variability effect in the context of cognitive load theory: They hypothesised that high variability would have a positive effect on learning and transfer in situations in which cognitive load was low (i.e. learning from worked examples), because in such situations the total cognitive load would stay within limits, irrespective of the fact that variability increased intrinsic cognitive load. In contrast, they predicted that high variability would have a negative effect on learning and transfer in situations in which cognitive load was already high (i.e. learning by solving conventional problems), because the total cognitive load would then overburden learners’ working memory. 

실제로, 문제 형식(풀이된 예제, 전통적 문제)과 변동성(낮음, 높음) 사이의 기대했던 상호작용이 발견되었다. 이와 유사한 발견에 기초하여 학습에 생산적이지 않은 '외부적' 과정과 학습에 생산적인 '본유적' 프로세스에 의해 야기되는 부하 사이에 구별이 도입되었다. 수업instruction을 설계할 때 먼저 외부 인지 부하를 감소시켜야 하는 것은 유효하다. 하지만, 새로운 함의는, 총 인지 부하가 한계 내에 있다면, 외부 인지 부하의 감소는 본유적 인지부하의 증가가 동반되었을 때 훨씬 더 효과적일 수 있다. 

Indeed, the expected interaction between problem format (worked examples, conventional problems) and variability (low, high) was found. Based on this and similar findings, a distinction was introduced between load that is caused by ‘extraneous’ processes not productive for learning and load that is caused by ‘germane’ processes and productive for learning. When instruction is designed, it should first decrease extraneous cognitive load, but as a new implication, instructional designs that are effective in decreasing extraneous cognitive load may become even more effective if they increase germane cognitive load, provided that total cognitive load stays within limits.

'인지 부하 이론의 발전 1998–2018' 섹션에서 설명될 것처럼, 이는 다양한 유형의 인지 부하를 측정하고 저마다의 처리를 증가시키는 것을 목표로 하는 새로운 효과를 식별하는 길을 열었다.

As will be described in the ‘Developments in Cognitive Load Theory 1998–2018’ section, this opened up the way for measuring different types of cognitive load and identifying new effects that explicitly aimed at increasing germane processing.

인지부하 이론의 발전
Developments in Cognitive Load Theory 1998–2018

지난 20년 동안 인지 부하 이론에서 주요한 발전이 있었다.

  • 첫째, 진화 심리학에서 인간의 인지 구조를 위한 강력한 기초를 마련함으로써 그것의 이론적 기반이 강화되었다.
  • 둘째, 4개 요소 교육 설계(4C/ID)는 더 긴 기간의 교육 프로그램 설계(강좌 또는 전체 커리큘럼)에 초점을 맞춘 쌍둥이 이론으로 개발되었다.
  • 셋째, 연구는 소위 복합 효과, 즉 다른 단순한 인지 부하 효과의 특성을 바꾸는 효과를 포함한 일련의 새로운 인지 부하 효과를 산출했다.
  • 네 번째이자 마지막으로, 다양한 유형의 인지 부하를 측정하기 위한 새로운 기기가 개발되었습니다. 우리는 진화 심리학에 기초한 이론적 발전을 고려하는 것으로 시작할 것이다.

There have been major developments in cognitive load theory over the last 20 years.

  • First, its theoretical basis has been strengthened by laying a strong foundation for human cognitive architecture in evolutionary psychology.
  • Second, four-component instructional design (4C/ID) has been developed as a twin theory focussing on the design of educational programs of longer duration (courses or whole curricula).
  • Third, research yielded a series of new cognitive load effects, including the so-called compound effects, that is, effects that alter the characteristics of other, simple cognitive load effects.
  • Fourth and finally, new instruments have been developed to measure different types of cognitive load. We will begin by considering theoretical developments based on evolutionary psychology.

 

진화심리학의 프리즘을 통해 본 인간의 인지구조
Human Cognitive Architecture Seen Through the Prism of Evolutionary Psychology

작업 기억과 장기 기억 사이의 복잡한 관계에 중점을 둔 1998년 버전의 인간 인지 구조는 우리가 어떻게 문제를 배우고, 생각하고, 해결하는지에 대한 중요한 측면을 제공했지만, 인간 인식에 대한 우리의 지식에 있어서 지속적인 진보는 초창기에 갖고 있던 개념이 확장될 필요성을 시사했다. 그 팽창의 대부분은 진화심리를 중심으로 돌아갔는데, 이것은 그 작업에 자극을 주었다.
While our 1998 version of human cognitive architecture, with its emphasis on the intricate relations between working memory and long-term memory, provided a critical aspect of how we learn, think and solve problems, the continual advances in our knowledge of human cognition indicated a need to expand that earlier conceptualisation. Much of that expansion revolved around evolutionary psychology which provided an impetus for that work.

생물학적으로 초등 지식과 중등 지식 사이의 Geary의 구별에 기초하여, [진화적 교육 심리학]은 우리가 이제 인지 부하 이론의 중심인 교육적으로 의미 있는 방식으로 정보를 분류할 수 있게 해준다. 생물학적으로 가장 중요한 지식은 우리가 [수없이 많은 세대를 거쳐 습득하도록 진화해 온 지식]이다. 이러한 지식의 범주는 인간에게 결정적으로 중요한 것을 제공해왔다.

  • 예를 들어, 우리가 듣고 말하고, 얼굴을 인식하고, 기본적인 사회적 기능에 관여하고, 낯선 문제를 해결하고, 이전에 습득한 지식을 새로운 상황으로 이전하고, 일어날 수도 있고 일어나지 않을 수도 있는 미래 사건에 대한 계획을 세우거나, 우리의 현재 환경에 대응하도록 우리의 사고 과정을 규제할 수 있는 지식이다.

Based on Geary’s distinction between biologically primary and secondary knowledge (Geary 2008, 2012; Geary and Berch 2016), evolutionary educational psychology allows us to categorise information in instructionally meaningful ways that now are central to cognitive load theory (Sweller 2016a). Biologically primary knowledge is knowledge that we have evolved to acquire over countless generations. That category of knowledge tends to be critically important to humans providing,

  • as examples, knowledge that allows us to listen and speak, recognise faces, engage in basic social functions, solve unfamiliar problems, transfer previously acquired knowledge to novel situations, make plans for future events that may or may not happen, or regulate our thought processes to correspond to our current environment.

인간은 이러한 매우 복잡한 인지 활동에 참여하는 것을 배워야 하지만, 그들의 중요성 때문에, 우리는 필요한 기술을 쉽고 [자동으로 습득하도록 진화]해 왔다. 결과적으로, 그것들은 대부분의 사람들에게 가르쳐질 수 없다.

Humans must learn to engage in these very complex cognitive activities but because of their importance, we have evolved to acquire the necessary skills effortlessly and automatically. Consequently, they cannot be taught to most people.

생물학적으로 [원초적primary 지식]은 [모듈식]이기에, 한 기술과 다른 기술과 관련된 인지 과정 사이에 거의 관계가 없다. 각각의 기술은 매우 다른 인지 과정을 요구하는 서로 다른 진화 시대에서 진화했을 것이다.

  • 우리의 현재 환경에 대응하도록 우리의 사고 과정을 조절하는 우리의 능력은 의사소통을 위해 제스처를 사용하는 우리의 경향처럼 우리가 현대 인간이 되기 전에 진화했을 가능성이 있는 반면,
  • 우리의 입술, 혀, 숨, 그리고 목소리를 말하기 위해 조직하는 우리의 능력은 훨씬 더 최근에 진화했을 가능성이 있다.

Biologically primary knowledge is modular with little relation between the cognitive processes associated with one skill and another (Geary 2008, 2012). Each skill is likely to have evolved in different evolutionary epochs requiring very different cognitive processes.

  • Our ability to regulate our thought processes to correspond to our current environment is likely to have evolved before we became modern humans as did our tendency to use gestures to communicate, while
  • our ability to organise our lips, tongue, breath and voice to speak is likely to have evolved far more recently.

생물학적으로 매우 많은 주요 기술들은 [일반적인 문제 해결 기술] 또는 심지어 [지식을 구성하는 우리의 능력]처럼 본질적으로 [일반적인 인지generic-cognitive 능력]이다. (Sweller 2015, 2016b; Tricot and Sweller 2014)

  • [일반적인 인지 기술]은 우리가 본능적으로 습득하도록 진화한 기본적인 인지 기술입니다. 왜냐하면 그것은 매우 광범위한 인지 기능에 필수적이기 때문입니다.
  • [일반적인 인식 기술]은 [특정한 주제 자체]보다는, 우리가 문제를 배우고, 생각하고, 해결하는 방법에 더 관심을 가지는 경향이 있다.

A very large number of biologically primary skills are generic-cognitive in nature such as general problem-solving skills or even our ability to construct knowledge (Sweller 2015, 2016b; Tricot and Sweller 2014).

  • A generic-cognitive skill is a basic cognitive skill that we have evolved to acquire instinctively because it is indispensable to a very wide range of cognitive functions.
  • Generic-cognitive skills tend to be more concerned with how we learn, think and solve problems rather than the specific subject matter itself.

지난 수십 년 동안, 그러한 기술의 중요성을 정확히 깨닫고 있는 많은 교육학자들은 [그것들을 가르쳐야 한다]고 주장해왔다. 그러한 캠페인은 실패하는 경향이 있는데, 그 이유는 기술이 중요하지 않기 때문이 아니라 인간에게 매우 중요하기 때문이다. 그래서 우리는 [교육 없이 자동적으로 그것들을 습득]하도록 진화해 왔다. 지난 세기에 일반적인 문제 스킬을 가르치는 데 엄청난 역점을 두었던 것이 한 예를 제공한다. [일반적인 인지 기술]에 대한 교육효과의 증거를 얻기 위해서는 [원거리 전이 시험]를 사용하여 무작위적이고 통제된 시험을 해야 한다. 일반적인 인식 기술의 근거는 광범위한 영역에서 성과를 향상시킬 것이며, 물론 [어떤 수행능력의 향상도 영역별 지식 때문이 아님을 확인하는 것]이 필수적이기 때문에 원거리 전이far transfer가 필요하다.

Over the last few decades, many educationalists, correctly realising the importance of such skills, have advocated that they be taught. Such campaigns tend to fail, not because the skills are unimportant but because they are of such importance to humans that we have evolved to acquire them automatically without instruction. The enormous emphasis on teaching general problem-skills last century provides an example. Evidence for the effectiveness of teaching generic-cognitive skills requires randomised, controlled trials using far transfer tests. Far transfer is required because the rationale of generic-cognitive skills is that they will enhance performance over a wide range of areas and, of course, it is essential to ensure that any performance improvement is not due to domain-specific knowledge.

생물학적인 [원초적primary 기술]의 습득은 [명시적인 교육 없이도, 자동적으로 무의식적]으로 일어나는 경향이 있지만, [기술의 사용]까지 [모든 맥락에서 무의식적으로 발생하는 것은 아니라는 점]에 유의해야 한다.

  • 예를 들어, 우리는 명확한 노력 없이 무의식적으로 모국어를 말하는 것을 배우지만, 어떤 주어진 상황에서 적절한 의미를 가진 적절한 단어를 찾기 위해 상당한 노력을 필요로 할 수 있다. 

우리는 생물학적으로 일차적인 지식을 특정 영역에서 사용하는 방법을 배울 필요가 있습니다. 이는 [생물학적 이차 지식biologically secondary knowledge]으로 이어집니다.

It should be noted that while the acquisition of biologically primary skills tends to occur automatically and unconsciously without explicit teaching, it does not follow that use of the skills occurs unconsciously in every context.

  • For example, we learn to speak our native language unconsciously without explicit effort but may require considerable effort to find appropriate words with appropriate meanings in any given situation.

We need to learn how to use biologically primary knowledge in specific domains, which leads to biologically secondary knowledge.

[생물학적 이차 지식]은 [우리의 문화가 그것이 중요하다고 결정했기 때문에 우리에게 필요한 지식]이다. 생물학적 이차 정보의 예는 교육과 훈련 맥락에서 가르치는 [거의 모든 주제]에서 찾을 수 있다. 교육 기관들은 생물학적으로 2차적인 정보에 대한 지식을 습득하기 위한 사람들의 필요성 때문에 발명되었다.
Biologically secondary knowledge is knowledge we need because our culture has determined that it is important. Examples of biologically secondary information can be found in almost all topics taught in education and training contexts. Educational institutions were invented because of our need for people to acquire knowledge of biologically secondary information.

우리는 [2차 지식]을 습득하도록 진화해 왔지만, 그것은 [1차 지식]과는 매우 다르게 습득된다. 1차 지식과 관련된 경우를 제외하고, 보조 지식은 [모듈식]이 아니라, [단일한, 통일된single, unified 시스템]의 일부입니다. 통합된 시스템이기 때문에, 어떤 영역이든 관계없이 [생물학적 2차 지식의 획득]에는 상당한 유사점이 있다. 모든 2차 지식은 학습자의 의식적인 노력과 강사의 분명한 가르침을 필요로 하는 경향이 있다. (2차 지식이) 자동으로 획득되는 경우는 거의 없습니다. 
We have evolved to acquire secondary knowledge but it is acquired very differently to primary knowledge. Except insofar as it is related to primary knowledge, secondary knowledge is not modular but rather, is part of a single, unified system. Because it is a unified system, there are considerable similarities in acquiring biologically secondary knowledge irrespective of the domain under consideration. All secondary knowledge tends to require conscious effort on the part of the learner and explicit instruction on the part of an instructor. It is rarely acquired automatically.

[일차 지식의 습득]과 [이차 지식의 습득] 사이의 차이는 [듣는 것]과 [읽는 것] 사이의 구별에 의해 예시될 수 있다.

  • 위에서 말한 바와 같이, 우리는 수업료 없이 자동적으로 듣는 법을 배운다.
  • 반면, 대부분의 사람들은 자동으로 읽는 법을 배우지 않는다. 수천 년 전에 읽기와 쓰기가 발명되었음에도 불구하고, 현대 교육이 출현하기 전까지 읽고 쓰는 법을 배운 사람은 거의 없었다.

The distinction between the two processes can be exemplified by the distinction between learning to listen and learning to read.

  • As indicated above, we learn to listen automatically, without tuition.
  • Most people do not learn to read automatically. Despite reading and writing having been invented thousands of years ago, few people learned to read and write until the advent of modern education very recently.

대부분의 [생물학적 일차 지식]과 관련된 [일반적 인지 기술]과는 달리, [생물학적 2차 지식]은 도메인별로 상당히 다르다(2015, 2016b; Tricot and Sweller 2014). 우리는 [일반적 인지 기술]을 사용하여 다양한 문제를 해결하는 방법을 배우도록 진화해 왔다. 하지만 우리는 특정한 단어를 영어나 중국어로 읽고 쓰는 방법이라든가, '(a + b)/c = d에서 a를 구하라'와 같은 문제를 풀 때 가장 좋은 첫 번째 움직임은 양쪽에 분모를 곱하는 것이라는 요령을 자동으로 배우게끔 진화하지 않았다. 이러한 영역별, 생물학적 2차 기술은 명시적으로 가르쳐야 하며, 적극적으로 학습해야 한다.
In contrast to the generic-cognitive skills associated with most biologically primary knowledge, biologically secondary knowledge is heavily domain-specific (Sweller 2015, 2016b; Tricot and Sweller 2014). We have evolved to learn how to solve a variety of problems using generic-cognitive skills. We have not specifically evolved to learn how to read and write a particular word in English or Chinese, or that the best first move when solving a problem such as (a + b)/c = d, solve for a, is to multiply both sides by the denominator on the left side. These domain-specific, biologically secondary skills need to be explicitly taught (Kirschner et al. 2006; Sweller et al. 2007) and actively learned.

대부분의 교육학자들은 직관적으로 [일반적 인지 기술]이 [영역-특이적 기술]보다 인간의 기능에 훨씬 더 중요하다는 것을 포착했으며, 이는 [일반적 인지 기술]을 상당히 강조하는 결과를 가져왔다. 그럼에도 불구하고, [영역-특이적 기술]은 상당히 가르칠 수 있는 것과 달리, 순수하게 [일반적 인지 기술]은 가르칠 수 없고, 그것들을 가르치려는 시도는 막다른 골목에 이르게 한다는 인식이 증가하고 있다
Most educationists intuitively understand that generic-cognitive skills are far more important to human functioning than domain-specific skills and this understanding has led to a substantial emphasis on generic-cognitive skills. Nevertheless, there is an increasing recognition that while domain-specific skills are eminently teachable, purely generic-cognitive skills are not teachable and attempts to teach them lead to dead-ends (Sala and Gobet 2017).

과거에 [일반적 인지 기술]을 강조한 이유는, 생물학적으로 일차적인 지식과 이차적인 지식의 차이를 깨닫지 못했기 때문이다. [일반적 인지 기술]의 교육에 대한 강조는, 물론, 1998년에 [일반적인 문제 해결 기술]에 대한 교육이 인기를 얻으면서 함께 존재했습니다. 1998년 논문은 부분적으로 그 억양에 대한 반응이었다. 그 단계는 지났지만 다른 일반적인 인식 기술은 살라와 고베에서 알 수 있듯, 더 큰 성공을 거두지 못했다. 

The previous emphasis on generic-cognitive skills is due to a failure to realise the distinction between biologically primary and secondary knowledge (Tricot and Sweller 2014). An accent on teaching generic-cognitive skills was, of course, present in 1998 with the popularity of teaching generic problem-solving skills. The 1998 paper was partially a reaction to that accent. That phase has passed but other generic-cognitive skills have replaced that emphasis with, as indicated by Sala and Gobet, no greater success.

게다가, 약 1세기 동안의 노력에도 불구하고, 원거리 전이 연구far transfer study에서 [영역 특이적 기술]을 초월하는 [일반적 인지 기술]을 가르칠 수 있다는 증거는 거의 나오지 않았다. 생물학적 [1차적, 일반적 인지 기술]을 습득하는 데에 '자연'스러운 것이었던 [최소한의 가이드]는, [쉽게, 무의식적, 자동적으로 습득되지 않는] 생물학적으로 [2차적, 영역-특이적 기술]의 습득에는 부적절했다.

Furthermore, despite about a century of effort, there is little evidence from far transfer studies, that generic-cognitive skills which transcend domain-specific areas can be taught. The ‘natural’, minimal guidance procedures used to acquire biologically primary, generic-cognitive skills are inappropriate for the acquisition of biologically secondary, domain-specific skills that tend not to be acquired easily, unconsciously and automatically.

우리는 위의 주장에서 [생물학적 1차 지식]과 [일반적 인지 능력]이 교육적인 문제와 무관하다고 결론내리지 말아야 한다. 생물학적으로 일차적이고 일반적인 인지 기술을 가르치려는 시도가 성공할지는 의심스럽지만, [생물학적 2차적 영역 특이적 기술]을 가르치는 데 도움을 주기 위해 사용될 수 있다(Paas and Sweller 2012)

  • 예를 들어, 학생들은 문제해결 절차에 대한 지도를 받지 않고도 [무작위로 문제 해결 방법을 생성하는 방법]을 알 수 있지만, 어떤 방법이 어떤 영역에서 효과적일 것인가는 알지 못할 수 있다. [문제의 특정 클래스]에 [특정한 일반적 인지 기술]을 사용해야 한다고 학생들에게 지적하는 것은 교육적으로 효과적일 수 있다(유세프-샬랄라 외. 2014).

We should not conclude from the above argument that biologically primary knowledge and generic-cognitive skills are irrelevant to instructional issues. While we doubt that attempts to teach biologically primary, generic-cognitive skills will be successful, they can be used to assist in teaching biologically secondary, domain-specific skills (Paas and Sweller 2012).

  • For example, students may know how to randomly generate problem solution moves without being instructed in the procedures to do so, but may not be aware of the domain-specific conditions where the technique might be effective. Pointing out to students that a generic-cognitive skill should be used on a particular class of specific problems can be instructionally effective (Youssef-Shalala et al. 2014).

게다가, 무엇이든 [가르치는 것]은 [1차 기술과 2차 기술의 조합]을 포함하며, 이 중에서 [2차 기술]만이 학습되는 유일한 부분이라는 것을 주목하는 것이 중요하다.

  • 예를 들어, 의사들은 SBAR 방법을 사용하여 항상 상황, 배경, 평가 및 권고사항에 대해 보고함으로써 응급 팀에서 효과적으로 의사소통하는 방법을 배운다. 분명히, 의사들은 서로 말할 수 있기 때문에 SSAR 방법은 가르쳐질 수 있다. 하지만, 말하는 것이 [1차 지식]이기 때문에 의사들에게 일반적인 의미에서 서로 말하는 법을 가르치는 것은 말이 안 되지만, 특정한 SSAR 방법을 가르치는 것은 [2차 지식]이고 응급 상황에서 팀 의사소통에 매우 긍정적인 영향을 미칠 수 있다.

Furthermore, it is important to note that teaching anything involves a combination of primary and secondary skills with the secondary skill being the only part that is learned.

  • For example, medical doctors are taught how to effectively communicate in an emergency team using the SBAR method, always reporting on the situation, background, assessment and recommendations (Beckett and Kipnis 2009). Obviously, the SBAR method can be taught because doctors are able to speak with each other. But, although it makes no sense to teach doctors how to speak with each other in a generic sense because this is primary knowledge, teaching them the specific SBAR method is secondary knowledge and might have a very positive effect on team communication in emergency situations.

인지 구조는 [생물학적 이차적 정보]를 처리하는 데 필요하며, 인지 구조는 (인지 부하 이론의 기초를 제공하는) [생물학적 일차적인 과정]으로 구성되어 있다. 이 프로세스는 모두 생물학적 진화의 정보 처리 절차(Sweller and Sweller 2006)를 모방하며, 자연 정보 처리 시스템을 구성하는 것으로 설명할 수 있습니다. 그것들은 생물학적으로 [5가지 기본 원리]로 설명될 수 있다. 이러한 원칙들은 인지 부하 이론의 지시 절차에 기초하는 인지 구조를 제공한다.
The cognitive architecture required to process biologically secondary information consists of biologically primary processes that provide a base for cognitive load theory. Together, the processes mimic the information processing procedures of biological evolution (Sweller and Sweller 2006) and can be described as constituting a natural information processing system. They can be described by five basic, biologically primary principles. These principles provide the cognitive architecture that underlies the instructional procedures of cognitive load theory.

정보 저장 원칙
The Information Store Principle

인간의 인식과 같은 [자연 정보 처리 시스템]은 우리의 복잡한 자연 세계에서 기능하기 위해 많은 양의 정보를 필요로 한다. [장기 기억]은 인간의 인식에 그런 구조를 제공한다. 우리는 생물학적으로 주요한 기능을 나타내는 정보를 장기 기억에 저장하거나 정리하는 방법을 사람들에게 가르칠 필요가 없다. 장기 기억은 1998년 논문에서 명확하게 표현되었다.
Natural information processing systems such as human cognition require a large store of information in order to function in our complex natural world. Long-term memory provides that structure in human cognition. We do not need to teach people how to store or organise information in long-term memory indicating its biologically primary function. Long-term memory was explicitly articulated in the 1998 paper.

차용 및 재조직 원칙
The Borrowing and Reorganising Principle

장기 기억에 저장된 방대한 양의 정보는 다른 사람들로부터 온다. 인간은 매우 사회적인데, 특히 [다른 사람들로부터 정보를 얻고, 다른 사람들에게 정보를 제공하는 절차] 츠면에서 강력하게 진화하였다는 점에서 그렇다. 그것은 생물학적으로 가장 중요한 기술이기 때문에, 우리는 자동적으로 우리가 우리의 삶 동안 다른 사람들로부터 정보를 제공하고 받을 것이라고 가정한다. 이 원칙은 명시적으로 언급되지는 않았지만 1998년 논문에서 어느 정도 가정되었다. 명확한 지시에 중점을 둔 인지 부하 이론은 이 원리를 중요시한다.
The vast bulk of information stored in long-term memory comes from other people. Humans are intensely social with powerfully evolved procedures for obtaining information from others and for providing information to others. Because it is a biologically primary skill, we automatically assume that we will provide and receive information from others during our lives. This principle was to some extent assumed in the 1998 paper, although it was not explicitly stated. Cognitive load theory with its emphasis on explicit instruction places prominence on this principle.

생성의 임의성 원리
The Randomness as Genesis Principle

장기 기억에 저장된 정보의 대부분은 다른 사람들로부터 얻지만, 만약 그 정보를 빌릴 수 있는 사람이 없다면, 그것은 생성될 필요가 있을 것이다. 새로운 정보는 문제 해결 중에 [무작위 생성 및 테스트 절차]를 사용하여 생성된다. [무작위 생성 및 테스트 절차]는 자신의 또는 다른 사람의 장기 기억에서 정보를 사용할 수 없는 경우에만 사용됩니다. 문제 해결사가 주어진 지점에서 어떤 동작을 수행해야 하는지를 나타내는 정보를 가지고 있지 않을 경우, 무작위로 동작을 생성하고 효과적인 동작을 유지하고 효과적인 동작을 포기한 상태에서 효과성을 시험하는 것 외에는 선택의 여지가 없다. 다시 말하지만, 이 절차는 생물학적으로 일차적이기 때문에 교육instruction이 필요하지 않습니다.
While most of the information stored in long-term memory is obtained from others, if no one is available from whom to borrow the information, it will need to be generated. Novel information is generated using a random generate and test procedure during problem solving. The procedure only is used when information is unavailable from one’s own or someone else’s long-term memory. When problem solvers do not have information indicating which moves should be made at a given point, they have no choice other than to randomly generate a move and test it for effectiveness with effective moves retained and ineffective ones jettisoned. Again, this procedure does not require instruction because it is biologically primary.

협소한 변화원칙
The Narrow Limits of Change Principle

인간의 인식을 다룰 때, 이 원리는 새로운 정보를 처리할 때 작업 기억력의 심각한 한계를 다룬다. 이 원리는 항상 인지 부하 이론의 중심이었고 1998년에 명확하게 설명되었습니다. 원리의 기본적인 가정은, 한 개인에 대해 일반적인 [작업 기억 용량]이 고정되어 있다는 것이다. 작업 기억력 고갈이 인지 노력 후에 발생하고 휴식 후에 회복된다는 최근의 증거와 함께(Chen et al. 2018) 그러한 용량 변화를 허용하도록 가정을 수정해야 한다. (이 문제는 '미래 방향' 섹션에서 자세히 설명합니다.)
When dealing with human cognition, this principle refers to the severe limitations of working memory when processing novel information. This principle has always been central to cognitive load theory and was clearly articulated as such in 1998. A basic assumption of the principle has been that for any given individual, general working memory capacity is fixed. With recent evidence that working memory depletion occurs after cognitive effort and recovers after rest (Chen et al. 2018), that assumption must be modified to allow such capacity variations. (This issue is discussed further in the ‘Future Directions’ section.)

환경정리 및 연계원칙
The Environmental Organising and Linking Principle

[작업 기억]은 새로운 정보를 처리하는 경우에는 제한이 생기지만, 익숙하고 조직된 정보가 장기 기억에서 처리될 때는 알려진 한계가 없다. 정보가 장기 기억에 저장되면 [환경적 단서]를 사용하여 해당 환경에 적합한 작업을 생성할 수 있습니다. 이러한 방식으로, 이 원칙은 [(특정) 환경에 적합한 행동을 관장하기 위해 사용될 지식]을 [장기 기억]으로 구성하는데 사용될 수 있다. 이미 조직되고 저장된 정보를 이러한 방식으로 사용하기 위한 추진력은 생물학적으로 가장 중요하며 교육비용tuition이 필요하지 않습니다. 이 원리는 인지 부하 이론의 1998년 버전에서 크게 강조되었다.

While working memory is limited when processing novel information, there are no known limits when familiar, organised information from long-term memory is processed. Once information is stored in long-term memory, environmental cues can be used to generate actions appropriate to that environment. In this manner, the previous principles can be used to construct knowledge in long-term memory that can be used to govern action that is appropriate to the environment. The impetus to use previously organised and stored information in this fashion is biologically primary and does not require tuition. This principle was heavily emphasised in the 1998 version of cognitive load theory.

이 인지 아키텍처는 (대부분의 교육 프로그램에서 다루는) [생물학적 2차, 영역-특이적 내용]을 다룰 때 [명시적 교육explicit instruction]의 중요성을 강조하는 [인지 부하 이론]의 기초를 제공한다. 또한 새로운 교육instructional 절차를 생성의 성공에 대한 설명을 제공한다. 교육은 명시적이어야 한다. 왜냐하면 

  • 우리는 [차용과 재조직의 원리]를 통해 다른 사람들로부터 직접 배우도록 진화해왔기 때문이다.
  • [협소한 변경 원리]에 따라, 작업 메모리 로드는 주로 새로운 도메인별 정보를 처리할 때 발생하기 때문에 작업 메모리 로드를 줄이는 방식으로 구성될 필요가 있다.
  • [차용과 재조직 원리]를 사용하여 다른 사람들로부터 정보를 얻는 것은, [창조의 임의성 원리]를 사용하여 정보를 직접 생성하는 방식에 비해 작업 기억 부하를 감소시킨다.
  • [정보 저장 원리]를 통해 정보를 입수하여 장기 메모리에 저장하면 작업 메모리의 한계가 사라진다.
  • [환경 구성 및 연결 원리]를 이용하여 작업 기억으로 정보를 다시 전송한다면, 적절한 작업을 수행할 수 있습니다.

This cognitive architecture, with its emphasis on the importance of explicit instruction when dealing with the biologically secondary, domain-specific content that is characteristic of most educational programs, provides a base for cognitive load theory and an explanation for its success in generating novel instructional procedures. Instruction should be explicit

  • because we have evolved to learn directly from other people via the borrowing and reorganising principle.
  • In line with the narrow limits of change principle, it needs to be organised in a manner that reduces working memory load because working memory load primarily occurs when processing novel, domain-specific information.
  • Obtaining information from others using the borrowing and reorganising principle reduces working memory load compared to generating information ourselves using the randomness as genesis principle.
  • Once information has been obtained and stored in long-term memory via the information store principle, the limitations of working memory disappear and
  • the information can be transferred back to working memory using the environmental organising and linking principle to generate appropriate action.

 

4C/ID 및 인지 부하
4C/ID and Cognitive Load

인지 부하 이론은 근거에 입각한 원칙을 제공한다. 이 원칙은 레슨, 텍스트와 그림으로 구성된 서면 자료, 교육용 멀티미디어(교육용 애니메이션, 비디오, 시뮬레이션, 게임)와 같이 [교육용 메시지] 또는 [비교적 짧은 교육 단위 설계]에 적용할 수 있다. 학습 및 교육 설계(예: Wickens 2008)보다는 작업장 성과에 초점을 맞춘 정신적 작업 부하 모델 및 멀티미디어 자료 설계에 배타적으로 초점을 맞춘 멀티미디어 학습 인지 이론(CTML; Mayer 2014)과 몇 가지 원칙을 공유한다. 인지 부하 이론과 정확히 동일한 인지 구조에 기초하고 완전히 병렬로 개발된 밀접하게 관련된 모델은 4개 요소 지시 설계(4C/ID)이다. 4C/ID 모델은 [더 긴 기간의 교육 프로그램 설계(예: 과정 또는 전체 커리큘럼)에 초점]을 맞추기 때문에 인지 부하 이론으로 중요한 확장을 제공한다.
Cognitive load theory provides evidence-informed principles that can be applied to the design of instructional messages or relatively short instructional units, such as lessons, written materials consisting of text and pictures, and educational multimedia (instructional animations, videos, simulations, games). It shares several of its principles with mental workload models, which focus on workplace performance rather than learning and instructional design (e.g. Wickens 2008), and with the cognitive theory of multimedia learning, which has an exclusive focus on the design of multimedia materials (CTML; Mayer 2014). A closely related model that is based on precisely the same cognitive architecture as cognitive load theory and that has been developed fully in parallel is four-component instructional design (4C/ID). The 4C/ID model provides an important extension to cognitive load theory because it focuses on the design of educational programs of longer duration (e.g. courses or whole curricula).

4C/ID에 대한 최초의 설명은 1992년(van Merrienboer et al. 1992)과 4C/ID 모델에 대한 최초의 완전한 설명을 제공하는 복합 인지능력 훈련(Training Complex Cognitive Skills)이라는 책이 1998년 인지부하 논문(van Merrienboer 1997)과 같은 시기에 등장했다. 4C/ID 모델은 복잡한 기술이나 전문 역량 개발을 목표로 하는 학습 과정에서 높은 요소 상호작용성으로 특징지어지는 복잡한 학습을 독점적으로 다룬다.

  • [4C/ID의 첫 번째 기본 가정]은 복잡한 기술에는 업무와 상황에 대해 일관되고 일상적으로 개발될 수 있는 'recurrent' 기술뿐만 아니라 문제 해결, 추론 및 의사결정에 의존적인 'non-recurrent' 기술이 포함된다는 것이다(반 메리언보어 2013).
  • [두 번째 기본 가정]은 복잡한 기술 개발을 목표로 하는 과정이나 프로그램은 항상 네 가지 구성 요소로 구성될 수 있다는 것이다(그림 1 참조). 
    • (1) 학습 과제,
    • (2) 지원 정보,
    • (3) 절차 정보
    • (4) 파트 과제 연습

The first description of 4C/ID appeared in 1992 (van Merriënboer et al. 1992) and the book Training Complex Cognitive Skills, which provided the first complete description of the 4C/ID model, appeared in the same period as the 1998 cognitive load article (van Merriënboer 1997). The 4C/ID model exclusively deals with complex learning, which is characterised by high element interactivity in a learning process that is often aimed at the development of complex skills or professional competencies.

  • A first basic assumption of 4C/ID is that complex skills include ‘recurrent’ constituent skills, which are consistent over tasks and situations and can be developed into routines, as well as ‘non-recurrent’ constituent skills, which rely on problem solving, reasoning and decision-making (van Merriënboer 2013).
  • A second basic assumption is that courses or programs aimed at the development of complex skills can always be built from four components:
    • (1) learning tasks,
    • (2) supportive information,
    • (3) procedural information and
    • (4) part-task practice (see Fig. 1).

학습 과제(그림 1의 빅 서클에 표시)는 가급적이면 실생활 과제를 기반으로 하며, 이러한 과제를 수행함으로써 학습자는 비반복 및 반복 구성 기술을 모두 습득하고 이를 조정하는 법을 배운다.

첫째, [내재적 인지 부하]를 관리하기 위해, 학습 과제는 복잡성 증가 수준에 따라 먼저 조직된다(그림 1의 일련의 학습 과제 주위에 점선 상자로 표시).

  • 따라서 학습자는 간단한 학습 과제에서 일하기 시작하지만 전문 지식을 습득할수록 더 복잡한 과제(즉, 나선형 커리큘럼)를 수행한다.

둘째, [외재적 인지 부하]를 관리하기 위해 각 복잡성 수준에서 학습자 지원 및 지침이 점진적으로 감소한다(그림 1의 각 복잡성 수준에서 원의 채우기 감소로 나타남).

  • 따라서 학습자는 처음에는 많은 지원과 지도를 받지만, 지원/지도를 받지 않고 특정 수준의 복잡성으로 학습 과제를 수행할 수 있을 때까지, 지원/지도를 점차적으로 감소하게 된다. 그 다음에야 학습자는 처음에 많은 지원/지도를 받는 더 복잡한 학습 과제를 계속 수행하게 된다. 이 모든 과정이 반복된다.
  • 4C/ID 모델은 fading-guidance에 대한 몇 가지 접근방식을 설명하지만, [worked example] => [completion task] => [conventional task]로 이어지는 완수 전략이 특히 중요하다.

셋째, [본유적 처리]를 자극하기 위해, 과정이나 프로그램의 모든 학습 과제는 연습의 높은 가변성(각 학습 과제마다 위치가 다른 삼각형으로 표시)을 통해 학습자가 과제를 서로 비교하고 대조하도록 자극한다.

Learning tasks (indicated by the big circles in Fig. 1) are preferably based on real-life tasks and by performing these tasks learners acquire both non-recurrent and recurrent constituent skills and learn to coordinate them.

In order to manage intrinsic cognitive load, learning tasks are first organised according to levels of increasing complexity (indicated by dotted boxes around series of learning tasks in Fig. 1);

  • thus, learners start to work on simple learning tasks but the more expertise they acquire the more complex the tasks they work on (i.e. a spiral curriculum).

Second, in order to manage extraneous cognitive load, learner support and guidance gradually decrease at each level of complexity (indicated by the diminishing filling of the circles at each level of complexity in Fig. 1);

  • thus, learners first receive a lot of support and guidance but support/guidance gradually decreases until learners can perform the learning tasks at a particular level of complexity without support/guidance—only then, they continue to work on more complex learning tasks for which they initially receive a lot of support/guidance again, after which the whole process repeats itself.
  • The 4C/ID model describes several approaches to fading-guidance but the completion strategy,
    • from studying worked examples
    • via completion tasks
    • to conventional tasks, is a particularly important one.

Third, in order to stimulate germane processing, all learning tasks in a course or program show high variability of practice (indicated by the triangles at different positions in the learning tasks), stimulating learners to compare and contrast tasks with each other.

[지원 정보supportive information (그림 1의 L자 형태로 표시)]는 학습자가 학습 과제의 [비반복적 측면(예: 문제 해결, 추론, 의사결정)]의 수행을 배우는 데 도움이 된다. 그것은 영역이 어떻게 조직되고 (흔히 '이론'이라고 불린다) 도메인 내 과제들이 체계적으로 접근될 수 있는지를 설명한다; 그것은 [복잡성 수준]과 연결된다. 왜냐하면 더 복잡한 과제를 수행하기 위해서, 학습자들은 더 많은 또는 더 정교한 지원 정보를 필요로 하기 때문이다. 학습자가 이미 알고 있는 것과 학습 과제를 성공적으로 수행하기 위해 알아야 할 것 사이의 다리를 제공합니다. [학습 과제를 하는 것]과 [지원 정보를 공부하는 것]은 모두 지식 구축을 목표로 한다(순서, 귀납적 학습과 정교화를 통해)
Supportive information (indicated by the L-shapes in Fig. 1) helps learners learn to perform the non-recurrent aspects of learning tasks (i.e. problem-solving, reasoning, decision-making). It explains how the domain is organised (often called ‘the theory’) and how tasks in the domain can be systematically approached; it is connected to levels of complexity because for performing more complex tasks, learners need more, or more elaborated, supportive information. It provides a bridge between what learners already know and what they need to know to successfully carry out the learning tasks. Both the work on the learning tasks and the study of supportive information aim at knowledge construction (through, in order, inductive learning and elaboration).

[지원 정보supportive information ]는 일반적으로 [높은 상호작용 요소]를 가지기 때문에, 학습자가 학습 과제를 수행하는 동안에는 제공하지 않는 것이 바람직합니다. 학습과제를 수행하면서 동시에 지원 정보를 공부하는 것은 거의 확실히 인지 과부하를 일으킬 것이다. 그보다는, 학습자가 [학습 과제에 착수하기 전] 또는 적어도 [학습 과제에 대한 작업과는 별개]로 지원 정보를 제공하는 것이 가장 좋습니다. 이러한 방식으로 학습자는 작업 기억에서 나중에 활성화될 수 있는 장기 기억에서 지식 구조를 구성할 수 있으며 과제 수행 중에 추가로 재구성되고 조정될 수 있다. 이미 구성된 인지 구조를 검색하는 것은 작업 수행 중에 작업 기억에서 외부에 제시된 복잡한 정보를 활성화하는 것보다 인지적으로 덜 요구될 것으로 예상된다.

Because supportive information typically has high element interactivity, it is preferable not to present it to learners while they are working on the learning tasks. Simultaneously performing a task and studying the supportive information would almost certainly cause cognitive overload. Instead, supportive information is best presented before learners start working on a learning task, or, at least apart from working on a learning task. In this way, learners can construct knowledge structures in long-term memory that can subsequently be activated in working memory and be further restructured and tuned during task performance. Retrieving the already constructed cognitive structures is expected to be less cognitively demanding than activating the externally presented complex information in working memory during task performance.

[절차적 정보(위쪽 방향 화살표가 있는 검은색 빔으로 표시)]와 [부분 작업 연습(작은 원 시리즈로 표시)]은 학습자가 지식 자동화를 목표로 하는 학습 과제의 [반복적인 측면recurrent aspects]을 학습하는 데 도움이 된다.

  • 절차 정보는 'how-to instruction'과 수정 피드백corrective feedback으로 구성되며,
  • 절차 정보는 일반적으로 지원 정보보다 훨씬 낮은 상호작용 요소를 가지고 있다.
  • 인지 부하 관점에서, 절차 정보는 학습자가 학습 과제에 대한 작업 중 just-in-time에 제시하는 것이 최선이다.
    • 왜냐하면 (자동화의 한 하위 프로세스) [인지적 규칙의 형성]은 관련성 있는 정보가 이러한 규칙에 포함될 수 있도록 [작업 수행 중 작업 기억에서 활성화되어야 하기 때문이다.
    • 예를 들어, 교사가 연습 중에 학습자에게 '학습자의 어깨너머로 보는 보조자' 역할을 하는 단계별 지시를 하는 경우이다. 

Procedural information (indicated by the black beam with upward pointing arrows in Fig. 1) and part-task practice (indicated by the series of small circles in Fig. 1) help learners learn to perform the recurrent aspects of learning tasks—they aim at knowledge automation.

  • Procedural information consists of ‘how-to instructions’ and corrective feedback and
  • typically has much lower element interactivity than supportive information.
  • From a cognitive load perspective, it is best presented just-in-time, precisely when learners need it during their work on the learning tasks,
    • because the formation of cognitive rules (one subprocess of automation) requires that relevant information is active in working memory during task performance so that it can be embedded in those rules.
    • That is, for example, the case when teachers give step-by-step instructions to learners during practice, acting as an ‘assistant looking over the learners’ shoulder’. 

마지막으로, 특정 반복 작업recurrent task 측면의 [부분 작업 연습]은 인지적 규칙(자동화의 또 다른 하위 프로세스)을 더욱 강화할 수 있다.

  • 일반적으로 [부분 작업 연습]에 과도하게 의존하는 것은 복잡한 학습에는 도움이 되지 않지만,
  • 기본적이거나 중요한 반복 구성 기술(예: 초등교육의 곱셈표, 보건직업 프로그램의 의료기기 운영)을 완전히 자동화하면 전체 학습 수행과 관련된 인지 부하를 줄임으로써 작업 수행 및 학습에 필요한 처리 리소스를 확보할 수 있습니다. 

Finally, part-task practice of selected recurrent task aspects may further strengthen cognitive rules (another subprocess of automation).

  • In general, an over-reliance on part-task practice is not helpful for complex learning
  • but fully automating basic or critical recurrent constituent skills (e.g. the multiplication tables in primary education, operating medical instruments in a health professions program) may decrease the cognitive load associated with performing the whole learning tasks and so free up processing resources for performing and learning non-recurrent task aspects. 

1998년 이후 기술된 지시 효과
Instructional Effects Described After 1998

이 절은 1998년과 2018년 사이에 연구되고 보고된 가장 중요한 인지 부하 영향을 설명할 것이다. 표 1의 하단에 8개의 새로운 효과가 나열되어 있다. 그러나, 우리는 1998년 이전에 이미 알려져 있지만 1998년 기사에서 인지 부하 효과로 제시되지 않은 요소 상호작용 효과에 대해 논의함으로써 이 절을 시작할 것이다. [요소 상호작용 효과]를 앞에서 열거하지 않은 이유는, 이것이 '단순한' 효과가 아니라 다른 인지 부하 효과의 특성을 변화시키는 효과인 소위 [복합 효과compound effect]이기 때문이다. 1998년 기사에서는 [단순 효과simple effect]만 보고되었다. 복합 효과는 종종 다른 인지 부하 효과의 한계를 나타낸다. 아래에서 논의한 8개의 새로운 효과(요소 상호작용 효과 제외) 중 4개도 복합 효과로 분류되어 먼저 논의된다. 이러한 이론은 단순한 효과뿐만 아니라 단순한 효과의 범위를 제한하는 고차 효과를 포함하기 때문에 이것은 이론이 성숙해가는 표시maturing theory로 볼 수 있다.
This section will describe the most important cognitive load effects that have been studied and reported between 1998 and 2018. Eight new effects are listed in the bottom part of Table 1. We will, however, begin this section by discussing the element interactivity effect, an effect already known before 1998 but not presented as a cognitive load effect in the 1998 article. The reason for not previously listing the element interactivity effect is that it is not a ‘simple’ effect but a so-called compound effect, which is an effect that alters the characteristics of other cognitive load effects. In the 1998 article, only simple effects were reported. Compound effects frequently indicate the limits of other cognitive load effects. Four of the eight new effects (excluding the element interactivity effect) discussed below are also classified as compound effects and are discussed first. This may be seen as an indication of a maturing theory, because such a theory not only includes simple effects but also higher-order effects that limit the reach of simpler effects.

요소 상호작용 효과
Element Interactivity Effect

이 효과는 1998년에 이미 알려져 있었지만 복합 효과로서 인지 부하 효과로 분류되지는 않았다(스웰러 1994 참조). [요소 상호작용이 높은 정보]를 사용하여 얻을 수 있는 효과가 [요소 상호작용이 낮은 자료]를 사용했을 때 사라지거나 역효과로 나타나는 것을 의미한다. 요소 상호작용은

  • [전문성 역전 효과]를 입증할 때 발생하는 전문성 수준을 변경하거나(아래 설명 참조)
  • 더 높거나 낮은 수준의 요소 상호작용을 통합하기 위해 학습자료를 변경함으로써 변경될 수 있다. 

This effect was already known in 1998 but as a compound effect, it was not classed as a cognitive load effect (see Sweller 1994). It occurs when effects that can be obtained using high element interactivity information disappear or reverse using low element interactivity material. Element interactivity can be altered either

  • by altering levels of expertise as occurs when demonstrating the expertise reversal effect (see description below) or
  • by changing the material to incorporate either higher or lower levels of element interactivity.

학습자가 높은 요소 상호작용에서 낮은 요소 상호작용으로 처리해야 하는 정보의 변경으로 인해 변경된 교육적 이점의 예는 Chen 외(2015, 2016, 2017)에서 찾을 수 있다. 그들은 학생들이 문제를 풀기 위해 배워야 하는 [고-요소 상호작용성 수학 자료]를 사용하여 전통적인 예제 효과를 얻었다. 대조적으로, 학생들이 수학적 정의를 배워야 했던 [저-요소 상호작용 자료]는 역효과를 낳았다. 적절한 반응을 이끌어 내도록 요구된 학생들은 올바른 반응을 보인 학생들보다 더 많이 배웠다.

Examples of changed instructional advantages due to changing information that learners must process from high to low element interactivity may be found in Chen et al. (2015, 2016, 2017). They obtained a conventional worked example effect using high element interactivity mathematical material in which students had to learn to solve problems. In contrast, low element interactivity material in which students had to learn mathematical definitions yielded a reverse worked example effect. Students who were required to generate an appropriate response learned more than students who were shown the correct response.

전문성 역전 효과
Expertise Reversal Effect

본질적으로, [전문성 역전 효과]는 [요소 상호작용 효과]의 변형이다. 1998년 이전까지, 인지 부하 효과는 높은 요소 상호작용 정보를 처리하는 초보 학습자를 사용하여 얻었다. [전문성이 증가]하면, 요소 상호작용성은 [환경 구성 및 연결 원리]로 인해 감소합니다.

  • 전문지식이 증가함에 따라, [여러 요소로 구성된 개념과 절차]는 (적절한 환경에서 사용하기 위하여 작업 기억으로 전달되는) [단일 요소]로 장기 기억에 저장될 수 있다.
  • 여러 상호작용 요소를 다루는 초보자를 위해 설계된 교육 절차는 전문지식이 증가하고 상호작용 요소가 장기 기억에 저장된 지식 구조에 내장됨에 따라 역효과를 낼 수 있다.

결과적으로, 전문지식이 증가함에 따라 위의 효과는 처음에는 크기가 감소했다가 사라지고 결국 역전될 수 있다(Kalyuga 등, 2003, 2012). 예를 들어, worked examples는 초보자에게 이익이 된다. 지식이 증가함에 따라, 문제를 해결하는 연습은 부정적인 영향을 끼치기 보다는 점점 더 중요해지고 있다.

The expertise reversal effect is, in essence, a variant of the more general element interactivity effect (Chen et al. 2017). The pre-1998 cognitive load effects can be obtained using novice learners processing high element interactivity information. With increases in expertise, element interactivity decreases due to the environmental organising and linking principle.

  • Concepts and procedures that consisted of multiple elements can, with increases in expertise, be stored in long-term memory as a single element that is transferred to working memory for use in appropriate environments.
  • Instructional procedures designed for novices dealing with multiple, interacting elements can be counterproductive as expertise increases and the interacting elements become embedded in knowledge structures held in long-term memory.

As a consequence, with increasing expertise, the above effects first decrease in size, then disappear, and can eventually reverse (Kalyuga et al. 2003, 2012). For example, worked examples benefit novices. With increasing knowledge, practice at solving problems becomes increasingly important rather than having negative effects.

 

가이드-페이딩 효과
Guidance-Fading Effect

[가이드-페이딩 효과]는 [요소 상호작용 효과] 및 [전문성 역전 효과]와 밀접하게 관련되어 있으며, [중복성 효과]가 중심인 또 다른 [복합 효과coumpound effect]이다.

  • 초보자에게는 추가 정보 또는 작업 예제 연구와 같은 특정 활동이 필수적일 수 있습니다.
  • 전문지식이 증가함에 따라 이러한 동일한 활동이 중복될 수 있으며 불필요한 인지 부하를 부과할 수 있다.
  • 어느 시점을 지나면, worked example를 공부하는 것은 역효과를 낼 수 있으므로, faded out되고, 그냥 문제로 대체되어야 한다.

The guidance-fading effect is another compound effect that is closely related to the element interactivity and expertise reversal effects and for which the redundancy effect is central too.

  • For novices, additional information or particular activities such as studying worked examples may be essential.
  • With increases in expertise, these same activities may become redundant and impose an unnecessary cognitive load.
  • Past a certain point, studying worked examples may be counterproductive and they should be faded out and replaced by problems.

이 일반적인 원칙은 [학습자들이 점진적으로 해당 영역에서 더 많은 전문지식을 습득하는 더 긴 기간의 교육 프로그램]에 특히 중요하다. 예를 들어, 그것은 1학년 학생들을 위한 교육 방법이 3학년 학생들을 위한 교육 방법과 다를 필요가 있다는 것을 나타낸다. 3학년 학생들은 영역에 대한 훨씬 더 많은 지식을 갖고 있기 때문이다.

  • [요소 상호작용 효과]는 낮은 요소 상호작용 대 높은 요소 상호작용 자료와 관련이 있고,
  • [전문성 역전 효과]는 낮은 전문성 학습자와 높은 전문성 학습자와 관련이 있는 반면,
  • [지침 페이딩 효과]는 긴 교육 프로그램에서 [프로그램의 시작]과 [프로그램의 끝]의 비교와 관련이 있다.

This general principle is particularly important for educational programs of longer duration, in which learners gradually acquire more expertise in the domain; it indicates, for instance, that instructional methods for first-year students need to be different from instructional methods for third-year students, simply because third-year students have much more knowledge of the domain.

  • Whereas the element interactivity effect pertains to low element interactivity versus high element interactivity materials, and
  • the expertise reversal effect pertains to low expertise learners and high expertise learners,
  • the guidance-fading effects thus pertains to the beginning of a longer educational program versus the end this program.

지침 페이딩 효과의 전조forerunner는 완료 전략completion strategy으로, 여기서 교육 프로그램은 작업 예제를 제공하는 것으로 시작하고, 학습자가 솔루션의 점점 더 큰 부분을 완료해야 하는 완료 문제가 뒤따른다

A forerunner of the guidance-fading effect is the completion strategy, where the educational program starts with providing worked examples, followed by completion problems for which the learners must complete increasingly larger parts of the solution and ending with conventional problems (van Merriënboer and Krammer 1990). 

일시적 정보 효과
Transient Information Effect

[일시적 정보]는 학습자에게 제공되긴 하나, 몇 초 후에 사라지는 정보입니다(예: 음성 텍스트, 교육용 비디오 또는 애니메이션).

  • [비-일시적 정보(예: 그림이 있는 서면 텍스트)]의 경우, 모든 정보는 학습자가 동시에 사용할 수 있으며 필요할 때 다시 검토할 수 있다.
  • [일시적 정보]의 경우, 학습자가 [후속 처리를 위해 작업 기억에 정보를 적극적으로 유지]시켜야 하므로, 외부 인지 부하가 늘어나고, 따라서 학습을 저해한다 

Transient information is information that is presented to learners but disappears after a few seconds, for example, in spoken text or in instructional video or animation (Leahy and Sweller 2011).

  • For non-transient information (e.g. a written text with pictures), all information is available to the learner at the same time and may be revisited when needed;
  • for transient information, it may be necessary for the learner to actively retain information in working memory for later processing which increases extraneous cognitive load and so reduces learning.

이러한 부정적인 효과를 극복하기 위해 [자기-페이싱] 또는 [분할]과 같은 많은 보완적 전략을 사용할 수 있습니다.

  • [자기 페이스 효과]는 학습자에게 교육 애니메이션의 속도에 대한 제어권을 주는 것이 유익하다는 것으로 보고되었다. 아마도 그것이 이 정보의 일시적인 특성을 다루는 데 도움이 되기 때문일 것이다.
  • [분할 효과]는 분할된 애니메이션(즉, 중간중간 정지된 부분으로 분할된)이 초보 학습자에게는 연속 애니메이션보다 효율적이지만, 사전 지식이 높은 학습자에게는 그렇지 않다는 것을 발견했다.
  • 마지막 예로, 마지막 예로 Leahy와 Sweller(2011, 2016)는 [제시양식modality 효과]에 대한 [일시적 정보]의 상호작용 효과를 보고했다.
    • [시청각 정보의 짧은 부분]은 시각 정보만 있는 경우보다 효과적이었다(예: 전통적인 양식 효과).
    • 그러나 [시청각 정보의 긴 부분]은 청각적 부분에 유지시켜야 할 [일시적 정보]가 너무 많아서, 시각 정보보다 덜 효과적이었다.

To overcome these negative effects, a number of compensatory strategies are available such as self-pacing or segmentation.

  • The self-pacing effect was reported by Mayer and Chandler (2001), who found that it was beneficial to give learners control over the pace of an instructional animation, probably because it helps them deal with the transient nature of this information.
  • The segmentation effect was reported by Spanjers et al. (2011), who found that segmented animations (i.e. segmented in parts with pauses in between) were more efficient than continuous animations for novice learners, but not for learners with higher levels of prior knowledge.
  • As a final example, Leahy and Sweller (20112016) reported an interaction effect of transient information on the modality effect:
    • short pieces of audio-visual information were more effective than visual information only (i.e. traditional modality effect), but
    • longer pieces of audio-visual information were less effective than visual information only because of the abundance of transient information in the longer, auditory piece.

 

자기 관리 효과
Self-Management Effect

[자기 관리 효과]는 가장 최근의 효과 중 하나이다. [자기 관리 효과]는 학생들이 자신의 인지 부하를 관리하기 위해 [CLT 원칙을 스스로 적용하도록 가르칠 수 있다]는 가정에 기초한다. 이상적으로 학생들은 인지 부하를 고려하여 설계된 자료에만 접근해야 한다. 그러나 현실에서 인터넷은 누구나 정보를 만들고 공유할 수 있어서, 학생들은 [인지 부하를 고려하지 않은 상태로 설계된 저품질의 학습 자료]에 직면하게 될 가능성이 더 높다. 자신의 인지 부하(인지 부하에 대한 자기 관리)를 위해 CLT 원칙을 직접 적용하도록 학습된 학생이, [CLT 원칙에 기초한 일관성 있고 잘 구성된 학습 자료의 교육 시스템에만 노출된 학생]보다 잘못 설계된 자료를 처리할 준비가 더 잘 되어 있다고 가정할 수 있다.
One of the most recent effects, the self-management effect, is based on the assumption that students can be taught to apply CLT principles themselves to manage their own cognitive load. Ideally, students should only have access to materials that have been designed with a consideration of cognitive load. However, in reality, the Internet enables information to be created and shared by anyone, which makes it more likely that students will be confronted with low-quality learning materials that have not been designed with any consideration of cognitive load. It can be hypothesised that students who are taught to apply CLT principles themselves to manage their own cognitive load (self-management of cognitive load) are better equipped to deal with these badly designed materials than students who are only exposed to an education system of consistent, well-structured learning materials based on CLT principles.

지금까지 자기 관리 효과는 [주의 분할 학습 자료]로만 연구되어 왔다. 일반적으로 자가 관리 효과를 조사하는 연구는 두 단계로 구성된 세 가지 실험 조건을 비교하였다.

  • 첫 번째 단계에서는 두 가지 실험 조건의 학생들이 멀티미디어 학습 자료를 분할 주의 형식으로 공부한다.
    • 자기 관리 조건에서 학생들은 예를 들어 텍스트와 도표를 재구성하여 자신의 인지 부하를 스스로 관리하는 방법을 배운다.
    • 세 번째, 신체적으로 통합된 조건에서 학생들은 강사가 관리하는 신체적으로 통합된 형식으로 동일한 자료로부터 배웁니다.
  • 두 번째 단계에서는 세 가지 조건 모두에서 학생들은 다른 영역에서 동일한 분할 주의 학습 자료를 받는다. 자기관리 효과를 입증하는 가장 중요한 연구결과는 리콜 및 편입시험의 자기관리 조건에서 학생들의 우수한 성적에 반영된다.

Until now, the self-management effect has only been studied with split-attention learning materials. Typically, studies investigating the self-management effect compare three experimental conditions and consist of two phases (see Roodenrys et al. 2012; Sithole et al. 2017).

  • In the first phase, students in two experimental conditions study multimedia learning materials in a split-attention format.
    • In the self-management condition, students are instructed how to self-manage their cognitive load, for example, by reorganising text and diagrams.
    • In the third, physically integrated condition, students learn from the same materials in an instructor-managed physically integrated format.
  • In the second phase, students in all three conditions are presented with the same split-attention learning materials in another domain. The most important finding demonstrating the self-management effect is reflected in superior performance of the students in the self-management condition on recall and transfer tests.

 

자기 설명 효과
Self-Explanation Effect

[자기 설명 효과]는 인지 부하 이론과 독립적으로 입증되었지만, 이 이론으로 설명할 수 있다. 그것은 작업 예제 효과에서 비롯되며 인지 부하 이론의 맥락에서 렌클 외 연구진(1998)에 의해 처음 설명되었다. 위에서 설명한 바와 같이,

  • Worked example은, 학습자들이 이것을 늘 주의 깊게 공부하는 것은 아니며, 그저 기존의 문제를 해결하기 전에 간단히 스캔만 할 수 있습니다. 이 경우, 작업한 예는 학습에 긍정적인 영향을 주지 않을 것이다.
  • 연습에서의 Variability는, 학습자가 서로 다른 예제를 비교하고 대조하도록 자극하기 때문에 예제를 더 깊이 처리하는 데 도움이 될 수 있습니다. 그러나 이는 두 개 이상의 예가 제시되면서, 본유적 처리로 인해 증가하는 총 부하가 작업 기억의 용량 한계를 넘지 않았을 때에만 작동합니다.

The self-explanation effect was demonstrated independently of cognitive load theory (Chi et al. 1989) but can be explained by the theory. It stems from the worked example effect and in the context of cognitive load theory was first described by Renkl et al. (1998). As indicated above,

  • learners will not always be inclined to carefully study worked examples and may only briefly scan them before trying to solve conventional problems. In this case, worked examples will not yield positive effects on learning.
  • Variability of practice might help learners to process the examples more deeply, because variation stimulates them to compare and contrast the different examples. But this will only work when more than one example is presented and when the total load, which increases due to the germane processing, remains within the capacity limits of working memory.

반면, 하나의 예만 사용할 수 있는 경우일지라도, 학습자에게 스스로 [정교한 자기 설명]을 유도하는 [자기 설명 프롬프트]를 제공할 수 있다. 여러 연구에 따르면 총 인지 하중이 가용 용량을 초과하지 않는 한 자기 설명 프롬프트가 없는 작업 예제는 작업 예보다 우수할 수 있다.

Alternatively, when only one example is available, one might provide the learner with self-explanation prompts that elicit sophisticated self-explanations from the learners. Several studies showed that worked examples combined with self-explanation prompts can be superior to worked examples without self-explanation prompts, provided that total cognitive load does not exceed available capacity.

상상 효과
Imagination Effect

학습자가 [운동 과제]를 [정신적으로 연습]하도록 요청받으면 학습이 향상된다는 사실은 한동안 알려져 왔다. 또한 개선이 발생하는 정도는 운동과제가 인지 구성요소를 갖는 정도에 따라 달라진다(Ginns 2005b). 이러한 연구결과는 학습자가 동등한 학습 자료를 연구하도록 요청한 것보다 개념이나 과정을 상상하거나 정신적으로 연습하도록 요청했을 때 발생하는 상상력의 효과의 초기 근원을 제공했다. 

It has been known for some time that when learners are asked to mentally rehearse a motor task, learning is improved (Sackett 1934). Furthermore, the extent to which improvement occurs depends on the extent to which the motor task has cognitive components (Ginns 2005b). These findings provided the initial source of the imagination effect that occurs when learners asked to imagine or mentally rehearse a concept or process learn more than learners asked to study equivalent instructional material. 

상상력이 발휘되기 위해서는, 학습자가 관련 개념이나 절차를 상상할 수 있어야 한다. 학습자가 작업 기억에서 정보를 처리할 수 있어야 한다.

  • 특정 영역의 초보자는 새로운 정보를 다룰 때 작업 기억 한계 때문에 높은 요소 상호작용 정보를 적절하게 처리할 수 없을 수 있다. [초보자 학습자]에게는 무언가를 상상하는 것이 어렵거나 불가능할 수 있기 때문에, [정보를 상상하는 것]보다는 [정보를 공부하는 것]에서의 학습이 더 바람직하다.
  • [지식이 증가함에 따라 작업 메모리 한계가 확장]되고, 따라서 자료를 상상하는 것이 점점 더 실현 가능해집니다. 이는 작업 메모리에서 보다 쉽게 처리할 수 있기 때문이다. 정보를 적절히 상상할 수 있게 되면 imagination instruction이 study instruction보다 우수하다(Cooper et al. 2001). 그 시점까지는 study instruction이 imagination instruction보다 우수하다.

In order for an imagination effect to occur, learners must be able to imagine the relevant concepts or procedures. They must be able to process the information in working memory.

  • Novices in a given area may be unable to adequately process high element interactivity information because of working memory limits when dealing with novel information. For such learners, imagination may be difficult or impossible and so studying the information results in enhanced learning compared to imagining the same information.
  • With increased knowledge, working memory limits expand and so imagining the material becomes increasingly feasible because it can be more readily processed in working memory. Once information can be adequately imagined, imagination instructions are superior to study instructions (Cooper et al. 2001). Until that point, study instructions are superior to imagination instructions.

 

격리 요소 효과
Isolated Elements Effect

일부 [매우 높은 요소 상호작용 정보]는 새로운 정보를 다룰 때 작업 기억 한계를 훨씬 초과하므로 작업 기억에서 처리할 수 없다. 그러나 여전히 그 정도로 복잡한 정보 역시 학습가능하기 때문에, 여기에 어떤 프로세스가 사용되는지에 대한 문제가 제기되었다(Pollock 등 2002). 폴록 등은 아마도 [개별 요소들이 그들 사이의 상호작용을 배우지 않고 먼저 학습되었을 것]이라는 가설을 세웠다. 일단 [개별 요소들이 장기 기억에 저장]되면, 요소들 사이의 상호작용을 학습함으로써 요소들을 후속적으로 통합하는 것이 가능할 수 있다. 만약 이 가설이 옳다면, [일단 개별 요소만 학습자에게 제시한 다음 개별 요소 및 상호 작용을 포함한 모든 정보를 제시하는 것]이, [전체 정보를 두 번 제시하는 것]보다 우월할 것이다. 
Some very high element interactivity information vastly exceeds working memory limits when dealing with novel information and so cannot be processed in working memory. Since such complex information can be learned, the question of which processes are used was raised (Pollock et al. 2002). Pollock et al. hypothesised that perhaps individual elements were learned first without learning the interactions between them. Once the individual elements are stored in long-term memory, it may be feasible to subsequently integrate the elements by learning the interactions between them. If so, a sequence of only presenting the individual elements to learners followed by all of the information including both the individual elements and their interactions would be superior to presenting all of the information twice.

결과는 이 가설을 뒷받침했다.

  • 학습자에게 [모든 정보를 두 번 제시]했을 때는, 작업 메모리 부하가 과도해 어느 경우든 제대로 처리할 수 없었습니다.
  • 이와는 대조적으로, 먼저 [쉽게 처리하고 장기 기억에 저장할 수 있는 분리된 요소]만 제시한 다음, 이후에 [완전히 통합된 정보를 제시]했을 때, 그들은 개별 요소들을 통합하는 방법만 배우면 되었다. 또한 전체, 높은 요소 상호작용 정보들을 더 쉽게 동화시킬 수 있었다.

Results supported this hypothesis.

  • Learners presented all of the information twice were unable to process it properly on either occasion due to an excessive working memory load.
  • In contrast, learners only presented the isolated elements could easily process them and store them in long-term memory. When subsequently presented the fully integrated information, they only needed to learn how to integrate the individual elements and so more readily assimilated the entire, high element interactivity information.

학습자가 [처음에는 단순하고, 낮은 요소 상호작용 버전]을 연습하고, [나중에는 점점 더 복잡한 버전의 과제를 연습]하는 단순-복잡한simple-to-complex 시퀀싱에서도 유사한 효과가 나타난다.

A similar effect is provided by simple-to-complex sequencing, where learners first practice simple, low element interactivity versions of a task and only later increasingly more complex versions of this task (van Merriënboer et al. 2003; van Merriënboer and Sweller 2005, 2010).

집합 작업 메모리 효과
Collective Working Memory Effect

[집단 작업 기억 효과]는 Kirschner 등에 의해 처음 설명되었다. [협력적 학습자]는 [복수의 제한된 작업 기억으로 구성된 단일 정보 처리 시스템]으로 간주될 수 있다고 주장했다. 이 시스템은 더 크고, 더 효과적이며, 집합적인 작업 공간을 만들 수 있다.

  • 이와 같은 [협력적 학습]에서는, 모든 그룹 구성원이 필요한 모든 지식을 보유하거나, 이용 가능한 모든 정보를 단독으로 처리할 필요가 없다. 대신에, 협력적 학습자들은 그룹의 다른 구성원들이 제공하는 지식과의 격차를 메울 수 있다.
  • 그룹 구성원들 사이에 의사소통과 조정이 있는 한, 직무 내의 정보 요소와 직무의 본질적 성격에 의해 야기되는 관련 인지 부하는 더 큰 인지 능력 저장소로 나눌 수 있다.
  • 그러나 의사소통과 조정은 그룹 구성원이 추가적인 인지적 노력(즉, 거래 비용)을 투자할 것을 요구한다.

The collective working memory effect was first described by Kirschner et al. (2009; see also 2011), who argued that collaborative learners can be considered as a single information processing system consisting of multiple, limited working memories which can create a larger, more effective, collective working space.

  • In collaborative learning, it is not necessary that all group members possess all necessary knowledge, or process all available information alone and at the same time, when faced with a gap in their knowledge they can fill that gap from knowledge provided by other members of the group (borrowing).
  • As long as there is communication and coordination between the group members, the information elements within the task and the associated cognitive load caused by the intrinsic nature of the task can be divided across a larger reservoir of cognitive capacity.
  • However, communication and coordination require group members to invest an additional cognitive effort (i.e. transaction costs), an effort that individuals do not have to exert.

Kirschner 외 연구진(2011)은 높은 또는 낮은 인지 부하를 부과하는 과제에서, [그룹 학습 효율성] 대 [개인 학습 효율성]은 그룹 구성원 간의 [정보 처리의 편익]과 [거래 비용] 사이의 균형에 의해 영향을 받는다는 것을 보여주었다. 보다 구체적으로, 그들은 다음을 나타내는 상호 작용 효과를 발견했다.

  • 높은 인지 부하를 부과하는 과제에서 배우는 것이 보다 효율적인 협업 학습을 유도하고
  • 낮은 인지 부하를 부과하는 과제에서 배우는 것이 보다 효율적인 개별 학습을 초래한다

Kirschner et al. (2011) showed that the efficiency of group versus individual learning from tasks imposing a high or low cognitive load was affected by the trade-off between the benefits of dividing information processing among group members and the transaction costs. More specifically, they found an interaction effect, indicating that

  • learning from tasks imposing a high cognitive load led to more efficient collaborative learning, and
  • learning from tasks imposing a low cognitive load, resulted in more efficient individual learning.

높은 부하를 부과하는 학습 과제의 경우,

  • 개별 학습자는, 정보를 성공적으로 처리할 수 있는 충분한 처리 능력을 가지고 있지 않았다.
  • 협업 학습자는, 서로 [인지 부하를 분산시키는 이점]이 [거래 비용]보다 더 높은 것으로 입증되었습니다.
  • 결과적으로, 학습자는 [여분의freed 인지 능력]을 학습을 촉진하는 활동에 헌신할 수 있었다.

낮은 인지 부하를 부과하는 학습 과제의 경우,

  • 개별적으로 또는 협력적으로 일하는 학습자는 스스로 모든 정보를 처리할 수 있는 충분한 인지 능력을 가지고 있었다. 따라서, 정보의 개별 간 의사소통과 조정은 불필요했고, [협력 학습 과정에서 그룹 구성원들에게 인지 부하를 분배하는 이익]보다 [더 높은 거래 비용]을 초래했다.
  • 결과적으로, 구성된 지식의 질적 차이는 개별적으로 학습한 사람들에게 더 높은 학습 효율로 나타났다.

For learning tasks imposing a high load,

  • individual learners did not have sufficient processing capacity to successfully process the information. For collaborative learners, the benefits of distributing the cognitive load among each other proved to be higher than the transaction costs.
  • Consequently, learners were able to devote the freed cognitive capacity to activities that fostered learning.

For learning tasks imposing a low cognitive load,

  • learners working either individually or collaboratively had sufficient cognitive capacity to process all information by themselves. Hence, inter-individual communication and coordination of information were unnecessary and resulted in transaction costs that were higher than the benefits of distributing the cognitive load across group members during the collaborative learning process.
  • Consequently, when cognitive load was low, qualitative differences in constructed knowledge materialised in higher learning efficiency for those who learned individually than for those who learned collaboratively.

 

휴먼 무브먼트 효과
Human Movement Effect

[일시적인 정보 효과]는 학생들이 일반적으로 [정적 시각화]보다 [동적 시각화]에서 학습이 저하되는 이유를 설명하는데 사용되었지만, [인간 움직임 효과]는 [인간의 움직임을 포함하는 인지 작업]을 가르치는 것에는 정적인 방법보다는 [애니메이션을 사용하는 것이 더 낫다]고 주장한다. 효과는 CLT 연구의 예상치 못한 발견에서 비롯되었으며, 이러한 연구의 공통점은 애니메이션과 정학statics을 사용하여 인간의 운동 기술을 가르쳤다는 것이다(예: 종이 접기, 매듭 묶기). Paas and Sweller (2012)는 [생물학적 일차적인 지식] 개념을 사용하여, 인간이 다른 사람들이 행동에 참여하는 것을 관찰하고 그것을 쉽게 복사할 수 있는 능력을 진화시켰다고 설명했다. 따라서 학습자에게 운동 기술을 배우기 위해 애니메이션을 관찰하도록 요청하는 것은 작업 기억력에 과도한 부담을 주지 않을 수 있습니다
Whereas the transient information effect has been used to explain why students generally learn less from dynamic than from static visualisations, the human movement effect holds that it is better to use animation rather than statics to teach cognitive tasks involving human movement. The effect originated from unexpected findings of CLT research, which indicated superior learning outcomes of transient visualisation formats over non-transient formats (e.g. Ayres et al. 2009; Wong et al. 2009). What these studies had in common was that they used animations and statics to teach human motor skills (e.g. paper folding, knot tying). Paas and Sweller (2012) used Geary’s (2008) concept of biologically primary knowledge to explain that humans have evolved the ability to learn from observing others engage in action and copy it effortlessly. Therefore, asking learners to observe an animation in order to learn a motor skill may not place an excessive burden on working memory resources.

이 아이디어는 애니메이션이 매우 현실적이고 절차-운동 지식이 관련되었을 때 우수한 학습(가장 큰 효과 크기)이 발견된다는 것을 보여준 Höffler와 Leutner(2007)의 메타 분석에 의해 확인되었다. 반 고그 등은 [휴먼 무브먼트 효과]는 행동을 실행하는 데 관여하는 동일한 피질 회로도 같은 행동을 실행하는 다른 사람을 관찰하는 것에 자동적으로 반응한다는 신경과학 연구의 발견을 반영한다고 제안했다. (즉, 거울 뉴런 시스템; Rizzolatti와 Craigheero 2004)

This idea was confirmed by a meta-analysis of Höffler and Leutner (2007), who showed that superior learning (the largest effect size) was found when the animations were highly realistic and procedural-motor knowledge was involved. Van Gog et al. (2009) have suggested that the human movement effect reflects the finding of neuroscience research that the same cortical circuits that are involved in executing an action oneself also automatically respond to observing someone else executing the same action (i.e. mirror neuron system; Rizzolatti and Craighero 2004).

 

인지 부하 측정
Measuring Cognitive Load

1998년 기사의 출판 이후 인지 부하 측정과 관련된 이슈를 조사하기 위한 지속적인 연구 노력이 있어왔다. 따라서, 사람들은 지난 20년 동안 이러한 문제들에 관해 상당한 진전이 이루어졌을 것으로 예상할 수 있을 것이다. 여기서는 이러한 진행 상황을 평가하고 인지 부하 측정과 관련된 세 가지 주요 개발의 간략한 개요를 제시한다. 
Since the publication of the 1998 article, there has been an ongoing research effort to examine issues related to the measurement of cognitive load. Therefore, one would expect that in the past 20 years substantial progress has been made regarding these issues. Here, we evaluate this progress and present a concise overview of three major developments regarding the measurement of cognitive load. 

첫 번째 중요한 발전은, Paas(1992)가 [인지 부하의 전반적인 측정]을 위해 처음 도입한 주관적 측정 기법의 specification와 관련이 있다. 비록 이 측정법이 좋은 사이코메트리 특성을 보여주는 광범위하고 성공적으로 사용되었지만, 일부 연구자들은 인지 부하를 측정하는 능력에 대해 회의적이다. 회의적인 연구자들은 심지어 생리학적 측정 기법과의 비교에서도 주관적 등급 척도가 객관적 기법만큼 유효하고 신뢰할 수 있으며 사용하기 쉽다는 것을 보여주더라도 그러했다 (예: Szulewski 등. 2018). 
The first important development is related to the further specification of the subjective measurement technique that was originally introduced by Paas (1992) to provide an overall measure of cognitive load. Although this measure has been extensively and successfully used showing good psychometric properties, some researchers remain sceptical about its capacity to measure cognitive load, even when comparisons with physiological measurement techniques have shown that the subjective rating scale is just as valid and reliable and easier to use as objective techniques (e.g. Szulewski et al. 2018).

(생리학적 기법과 비교하면) 주관적 기법의 주요 장점은 민감성과 단순성이다. 생리학적 측정 기법과 대조적으로 주관적 등급 척도는 투자한 정신적 노력과 작업 난이도의 작은 차이에 민감하다. 주관적 등급 척도의 단순성이 주요 강점으로 간주되는 반면, 연구와 실무에서 쉽게 사용할 수 있기 때문에, 많은 사람들이 주요 약점으로 간주하기도 한다. 주관적 측정의 단순성 덕분에, 인지 하중(즉, 내적 + 외부 하중)의 전체적인 측정을 제공하지만, 반면 서로 다른 유형의 인지 부하를 구별하는 데 쉽게 사용할 수 없다. 

The main advantages of the subjective technique over physiological techniques are its sensitivity and its simplicity. In contrast to physiological measurement techniques, the subjective rating scale is sensitive to small differences in invested mental effort and task difficulty. Whereas the simplicity of the subjective rating scale is considered its major strength, because it can be easily used in research and practice, it is also considered by many as its major weakness. Due to its simplicity, it provides an overall measure of cognitive load (i.e. intrinsic plus extraneous load) and therefore cannot easily be used to differentiate between the different types of cognitive load.

이러한 약점이 인지 부하의 (온라인 측정으로 사용될 수 있는) '객관적' 측정 기법에 대한 검색뿐만 아니라 다양한 유형의 인지 부하를 구별하는 데 사용할 수 있는 기법에 대한 검색이 이루어졌다. 이 두 가지 연구 개발에 대해 더 자세히 논의하기 전에, 우리는 먼저 주관적인 등급 척도 기법의 진행 중인 추가 사양을 논의할 것이다.

This has resulted in a search for techniques that can be used to differentiate between the different types of cognitive load as well as a search for ‘objective’ measurement techniques that can be used as an online measure of cognitive load. Before these two research developments are discussed in more detail, we first will discuss the ongoing further specification of the subjective rating scale technique.

두 번째 발전은 [서로 다른 유형의 인지 부하를 구별할 수 있는 설문지를 설계함]으로써 [주관적 기법을 확장하는 것]과 관련이 있다. 여러 연구자들이 한 가지 특정 유형의 인지 부하(예: 2006)에서만 변화를 측정하려고 시도한 반면, 다른 연구자들은 다른 유형의 인지 부하(예: 시어니아크 등)를 측정하는 방법을 조사했다. 2009). 한 가지 주목할 만한 개발은 Leppink 외 연구진(2013, 2014)에 의해 설명되었는데, Leppink 외 연구진은 다양한 유형의 인지 부하가 여러 지표로 표현되는 새로운 사이코메트리 기기의 유용성을 조사했다. 저자들은 [내적 인지 부하]와 [외적 인지 부하]를 구별할 수 있다는 가정을 뒷받침한다고 결론지었다. 예를 들어, 다른 질문을 사용하고 다른 영역을 살펴봄으로써 더 많은 경험적 증거가 필요하다는 것이 분명하지만, 지금까지의 결과를 살펴보면, 서로 다른 유형의 인지 부하를 구별하는 측정도구의 능력에 관해 긍정적으로 평가하고 있다.
The second development is related to extending the subjective technique by designing questionnaires that can differentiate between the different types of cognitive load. Whereas several researchers have tried to measure only changes in one specific type of cognitive load (e.g. Ayres 2006), others have investigated methods to measure the different types of cognitive load (e.g. Cierniak et al. 2009). One notable development was described by Leppink et al. (2013, 2014), who investigated the usefulness of a new psychometric instrument in which the different types of cognitive load were represented by multiple indicators. The authors concluded that the results of both studies provided support for the assumption that intrinsic and extraneous cognitive load can be differentiated using their 10-item psychometric instrument. Although it is clear that more empirical evidence is needed, for example, by using different questions and looking at different domains, the results so far are promising regarding the instrument’s capability of distinguishing between different types of cognitive load.

세 번째 발전은 [인지 부하의 보다 객관적인 측정치]를 찾기 위한 노력과 관련이 있으며, 여전히 진행중이다. 이를 위해 인지 부하 연구자들은 인지 부하에 대한 [2차 작업 기법]과 생리학적 측정을 사용해 왔다. [제한된 작업 기억 용량의 가정]에 기초하여, [2차 작업 기법]은 1차 작업에 의해 부과되는 인지 부하의 지표로서 2차 작업에 대한 성능을 사용한다. 2차 작업에 대한 저성능 또는 고성능은 1차 작업에 의해 부과되는 높은 인지 부하와 낮은 인지 부하를 나타낸다고 가정한다
The third development is related to the ongoing efforts to find more objective measures of cognitive load. To this end, cognitive load researchers have been using secondary task techniques and physiological measures of cognitive load. Based on the assumption of a limited working memory capacity, secondary task techniques use performance on a secondary task as an indicator of cognitive load imposed by a primary task. It is assumed that low or high performance on the secondary task are indicative of high and low cognitive load imposed by the primary task.

최근 2차 과제 기법의 예로는 박 교수와 브룬켄 교수(2015)가 개발한 리듬법이 있다. Korbach 외 연구진(2017)은 이 기법이 정신 애니메이션 그룹, 유혹적인 세부 그룹 및 제어 그룹 사이의 가설된 인지 부하 차이에 민감하다는 것을 보여주었다. 그러나 2차 과제 기법은 비타협성(즉, 1차 과제를 방해할 수 있는 추가 인지 부하를 부과하는 것; Paas 등 2003)과 [서로 다른 유형의 인지 부하를 구별할 수 없다]는 비판을 받아왔다.

A recent example of a secondary task technique is the rhythm method developed by Park and Brünken (2015), which consists of a rhythmic foot-tapping secondary task. Korbach et al. (2017) showed that this technique was sensitive to hypothesised differences in cognitive load between a mental animation group, a seductive detail group and a control group. However, secondary task techniques have been criticised for their intrusiveness (i.e. imposing an extra cognitive load that may interfere with the primary task; Paas et al. 2003) and inability to differentiate between different types of cognitive load.

생리학적 기법은 인지 기능의 변화가 생리학적 변수에 의해 반영된다는 가정에 기초한다. 반면 몇몇 연구자들은 기능성 자기공명영상(fMRI)과 같은 신경영상 기법을 사용할 것을 제안했으으나, 인지 부하 연구에 실제로 사용된 기법은 EEG이다. 하이퍼텍스트 기반 학습 환경을 사용하여, 안토넨코와 니더하우저(2010)는 EEG의 여러 측면이 가정된 인지 부하 차이를 반영한다는 것을 보여주었다. 인지 부하를 측정하기 위해 더 자주 사용되는 기술은 동공 팽창, 깜박임 속도, 고정 시간 및 봉합과 같은 눈 추적 변수에 기초한다. 예를 들어, van Gerven 등은 동공 팽창이 젊은 성인의 인지 부하와 긍정적인 상관관계가 있지만 노인의 경우에는 상관관계가 없다는 것을 보여주었다. 모바일 측정 장치의 개발로 인해 생리학적 측정의 사용이 점점 쉬워지고 있지만, 이러한 기법과 인지 부하를 측정할 수 있는 잠재력에 대한 훨씬 더 많은 연구가 필요하다.
Physiological techniques are based on the assumption that changes in cognitive functioning are reflected by physiological variables. Whereas several researchers have proposed to use neuroimaging techniques, such as functional magnetic resonance imaging (fMRI; e.g. Whelan 2007), a technique that has actually been used in cognitive load research is electroencephalography (EEG; Antonenko and Niederhauser 2010; Antonenko et al. 2010). Using a hypertext-based learning environment, Antonenko and Niederhauser (2010) showed that several aspects of the EEG reflected hypothesised differences in cognitive load. A more frequently used technique for measuring cognitive load is based on eye-tracking variables, such as pupil dilation, blink rate, fixation time and saccades. For example, van Gerven et al. (2004) showed that pupil dilation is positively correlated with cognitive load in young adults, but not in old adults. Although, it has become increasingly easy to use physiological measures due to the development of mobile measuring devices, much more research is needed into these techniques and their potential to measure cognitive load.

 

미래 방향
Future Directions

그것의 시작 이래로, 인지 부하 이론은 새로운 데이터를 이용할 수 있게 되면서 지속적인 이론적 발전을 겪어왔다. 이론적인 발전은 결국 일정한 과정에서 더 많은 데이터를 만들어냈다. 현재, 그러한 소용돌이가 계속되고 있으며 향후 발전에 대한 표지판을 제공하고 있다. 
Since its inception, cognitive load theory has undergone continuous theoretical development as new data have become available. Theoretical developments in turn have generated further data in a constant process. Currently, there is every indication of that spiral continuing and providing a sign-post to future developments. 

작업 메모리 리소스 고갈
Working Memory Resource Depletion

한 가지 새로운 연구 라인은 [작업 기억 자원 고갈 가설]을 기반으로 CLT의 확장 가능성을 제안한 최근 연구에서 도출되었다. 이 가설은 작업 기억 자원이 지속적인 인지적 노력 기간 후에 고갈되어 추가 자원을 투입할 수 있는 용량이 감소된다는 것을 보여준다. 이전의 연구는 general 그리고 specific [고갈 효과]를 발견했다.

  • [일반적인general 고갈 효과]와 관련하여, Schmeicel(2007)은 [자기 통제self-control 작업]을 수행하는 것이, 이어지는 시험에서 [작업 기억의 성능]을 저하시킬 수 있다는 것을 보여주었다.
  • [특정적인specific 고갈 효과]와 관련하여 힐리 외 연구진(2011)은 첫 번째 과제의 무시될 자극과 작업 기억 과제의 기억될 자극이 일치할 때만 고갈 효과가 발생한다는 것을 보여주었다.

One new line of research is derived from recent work of Chen et al. (2018), who proposed a possible extension of CLT based on the working memory resource depletion hypothesis. This hypothesis holds that working memory resources become depleted after a period of sustained cognitive exertion resulting in a reduced capacity to commit further resources. Previous research has found both general and specific depletion effects.

  • With regard to general depletion effects, Schmeichel (2007) showed that engaging in self-control tasks can lower performance on subsequent working memory tests.
  • With regard to specific depletion effects, Healey et al. (2011) showed that depletion effects only occurred when there was a match between the to-be-ignored stimuli in the first task and the to-be-remembered stimuli in the working memory task.

비록 많은 연구들이 작업 기억과는 거의 관련이 없다는 것을 주목할 필요가 있지만, 어떤 조건에서의 [작업 기억의 고갈]은 [자아 고갈ego depletion]과 관련이 있을 수 있다. 예를 들어, 다이어트를 하는 동안 단 것을 피하는 것이 수학을 배우는 것과 같은 작동 기억의 함축성을 가질 것 같지는 않다. 자아 고갈 과제의 엄청난 차이는 자아 고갈의 영향에 대한 의구심에 기여할 수 있다(상충되는 메타 분석에는 에테르톤 외 2018 및 당 2018 참조). 다만, 인지 부하 이론의 관점에서 고려할 때, 자아 고갈에 대한 대부분의 연구는 학습에 대한 것이 아니며, 상당한 작업 기억 부하가 수반될 가능성이 있는 과제을 포함한 연구는 아주 일부이다. 이러한 작업task의 경우, 학습 중 광범위한 인지 노력이 작업 기억 자원을 상당히 고갈시킬 수 있는 경우, 그 요소는 지시를 설계할 때 중요할 수 있다.
Working memory resource depletion under some conditions may be linked to ego depletion, although it needs to be noted that many studies on ego depletion bear little relation to working memory. For example, it is unlikely that avoiding sweets while on a diet has the same working memory implications as learning mathematics. The vast differences in ego depletion tasks possibly contributes to doubts concerning the effects of ego depletion (see Etherton et al. 2018, and Dang 2018, for conflicting meta-analyses). Considered from a cognitive load theory perspective, most studies on ego depletion do not include learning and only some of the literature used tasks that are likely to have imposed a heavy working memory load. For those tasks, if extensive cognitive effort during learning can substantially deplete working memory resources, that factor may be important when designing instruction.

Chen 등은 [자원 고갈 가설]이 [프리젠테이션 사이의 간격]이나 [연습 사이의 간격]을 두는 방식으로 [정보가 간격을 두고 제시되는 것이 [동일한 시간 동안, 동일한 정보가, 간격 없이 대량 형태로 처리될 때]보다 우수한 것으로 확인된 [간격두기 효과spacing effect]에 대한 설명을 제공할 수 있다고 지적했다. Chen 등은 대량 프레젠테이션이 간격 프레젠테이션에 비해 작업 메모리 용량이 감소했음을 나타내는 데이터와 함께 수학 학습을 사용하여 간격 효과를 얻었다. [몰아치기 연습massed practice]은 [작업 기억 리소스]를 지속적으로 줄게 만들지만, [간격을 둔 연습]은 (작업기억) 리소스를 복구할 시간을 준다.
Chen et al. (2018). They indicated that the resource depletion hypothesis could provide an explanation of the spacing effect that occurs when spaced presentation of information with spacing between presentation or practice episodes is superior to the same information processed for the same length of time in massed form without spacing between episodes. Chen et al. obtained the spacing effect using mathematics learning along with data indicating that massed presentations resulted in a reduced working memory capacity compared to spaced presentations. Massed practice may reduce working memory resources while spaced practice may allow resources to recover.

[간격두기 효과]는 거의 틀림없이 심리학에서 만들어진 가장 오래된 교육 효과이지만 그 원인에 대해서는 합의가 이루어지지 않았다. 후속 연구에 의해 확인될 경우, Chen 등의(2018) 연구 결과는 효과에 대한 이론적 설명으로 인지 부하 이론을 사용할 수 있게 할 수 있다.
The spacing effect is arguably the oldest known psychology-generated instructional effect but there has never been agreement concerning its causes. If confirmed by subsequent work, Chen et al.’s (2018) findings may allow cognitive load theory to be used as a theoretical explanation of the effect.

Chen 외 연구진(2018)은 간격 효과를 통해서 [학습 과제에 대한 작업 메모리 자원 고갈 가설]을 확인하면서, [장기 기억의 내용]이 [작업 기억의 특성]에 대한 [유일한 주요 결정 요인을 제공한다]는(기존의) 인지 부하 이론의 가정은 유지될 수 없다고 주장했다. [협소한 변화 원리]에 기반하자면, [인지 부하 이론]은 개개인에게 있어서 [작업 기억 용량]은 상대적으로 일정하기에, 용량에 영향을 미치는 유일한 주요 요소는 [장기 기억의 내용]이라는 것을 암묵적으로 가정하고 있다. [환경 구성 및 연결 원리]에서 알 수 있듯이, 동일한 정보를 장기 기억에 저장하면 새로운 정보를 처리할 때 작업 기억의 한계를 제거할 수 있다. 일단 조직되고 장기 메모리에 저장되면, [높은 요소 상호작용 정보]가 작업 메모리로 쉽고 빠르게 전송될 수 있기에, 작업 기억에 부하를 최소한의 부하만 부과된다.
By confirming the working memory resource depletion hypothesis for learning tasks using the spacing effect as a vehicle, Chen et al. (2018) argued that the assumption of cognitive load theory that the content of long-term memory provides the only major determinant of working memory characteristics may be untenable. An implicit assumption of cognitive load theory, based on the narrow limits of change principle, has been that working memory capacity is relatively constant for a given individual with the only major factor influencing capacity being the content of long-term memory. As indicated by the environmental organising and linking principle, the limitations of working memory when dealing with novel information can be eliminated if the same information has been stored in long-term memory. High element interactivity information, once organised and stored in long-term memory can be easily and rapidly transferred in large quantities to working memory imposing a minimal working memory load.

Chen 외 연구(2018)의 연구 결과는 작업 기억의 용량은

  • 정보 저장소를 통해 저장된 기존 정보, 빌리고 재구성한 정보, [무작위 생성 원리] 뿐만 아니라
  • 인지 노력으로 인한 [작업 기억의 자원 고갈]에 따라서도 달라질 수 있음을 시사한다.

결과적으로, [인지적 노력에 따른 작업 기억 고갈 가정]을 지지하기 위해서는 [고정된 작업 기억 가정]을 폐기할 필요가 있다. 이러한 변화는 상당한 결과를 가져올 것이며 인지 부하 이론의 상당한 확장을 초래할 것으로 여겨진다.

The results of the Chen et al. (2018) study suggest that working memory capacity can be variable depending

  • not just on previous information stored via the information store, the borrowing and reorganising, and the randomness as genesis principles,
  • but also on working memory resource depletion due to cognitive effort.

Consequently, a fixed working memory assumption needs to be discarded in favour of a working memory depletion assumption following cognitive effort. It is believed that this change will have considerable consequences and result in a considerable extension of cognitive load theory.

 

인지부하이론과 자기조절학습
Cognitive Load Theory and Self-Regulated Learning

두 번째 새로운 연구 분야는 [인지 부하 이론]을 [자기 조절 학습]과 관련시킨다. 학습자의 학습 과정에 대한 감시와 제어를 다루는 인지 부하 이론과 자기 통제 학습 모델은 정보가 풍부하고 복잡하며 빠르게 변화하는 사회에서 평생 학습자를 지원하는 데 특히 중요한 관점으로 간주될 수 있다(반 메리엔보어 및 슬루이즈만스 2009). 두 이론적 프레임워크 모두 [인지 자원의 할당](cf. 학습자가 인지 부하를 줄이기 위해 스스로 인지 부하 원리를 적용하는 자기 관리 효과)이나, [학습활동의 선택과 같은 학습자의 조절 결정]에 이미 주의를 기울이고 있다.

A second new line of research relates cognitive load theory to self-regulated learning. Both cognitive load theory and models of self-regulated learning, which deal with learners’ monitoring and control of their learning processes, may be seen as particularly important perspectives for supporting lifelong learners in an information-rich, complex and fast-changing society (van Merriënboer and Sluijsmans 2009). Both theoretical frameworks already pay attention to learners’ regulation decisions, such as the allocation of cognitive resources (cf. the self-management effect, where learners apply cognitive load principles themselves in order to decrease cognitive load) and the selection of study activities.

[인지 부하 이론]의 맥락에서, 파스 외 연구진은 자원 할당의 척도로 '과제 참여'를 도입했다.

  • 과제참여task involvement가 높다면, 학습자가 높은 투자 정신적 노력과 함께 상대적으로 높은 성과를 보인다('고통 없으면 얻는 것도 없다')
  • 과제참여task involvement가 낮다면, 학습자는 낮은 정신적 노력과 함께 상대적으로 낮은 성과를 보인다.

In the context of cognitive load theory, Paas et al. (2005) introduced ‘task involvement’ as a measure of resource allocation:

  • it is high when learners show relatively high performance combined with high invested mental effort (‘no pain, no gain’);
  • it is low when learners show relatively low performance in combination with low invested mental effort.

또한 [과제 선택]은 일련의 실험에서 (자기)조절 정확도의 지표로 사용되어 왔다. 학습자가 연구를 위해 그들 자신의 학습 과제를 선택하도록 요청받을 때, 수행의 측정과 투자된 정신적 노력은 과제 선택의 질에 대한 결론을 도출하는데 사용될 수 있다. (즉, 학습자가 너무 어렵거나 너무 쉬운 과제를 선택합니까?) 

In addition, task selection has been used in a series of experiments (e.g. Nugteren et al. 2018) as an indicator of regulation accuracy: when learners are asked to select their own learning tasks for study, measures of performance and invested mental effort can be used to draw conclusions on their quality of task selection (i.e. do learners select tasks that are either too difficult or too easy for them?).

[자기조절 학습의 맥락]에서, [학습 시간의 할당]은 일반적으로 자원 할당의 척도로 사용되며, [학습 활동의 선택]에 있어서는 [학습의 판단 및 재학습 결정('이해도를 높이기 위해 텍스트의 어느 부분을 다시 공부할 것인가?')]은 [수행능력의 척도]와 결합되어서 [자기조절 정확도]의 지표로 사용됩니다. 향후 연구는 자원 할당과 규제 정확도의 서로 다른 측정값을 결합함으로써 이익을 얻을 수 있다.

In the context of self-regulated learning, the allocation of study time is typically used as a measure of resource allocation and for the selection of study activities, judgements of learning and restudy decisions (‘which part of the text do you want to restudy in order to improve your understanding?’) in combination with performance measures serve as an indicator of regulation accuracy. Future research might profit from combining these different measures of resource allocation and regulation accuracy.

반적인 발견은 '학습자가 자신의 학습을 조절하는 데 능숙하지 않다는 것'이고, 따라서 문제는 그것이 교육가능하냐는 것이다.

  • 한편으로, 학습 과정의 자기조절은 일차적인 지식에 크게 의존할 것이고 따라서 가르치는 것이 불가능할 수도 있다.
  • 반면에, 모든 학습은 1차 지식과 2차 지식의 조합을 포함하며, 2차 지식 구성요소는 확실히 가르칠 수 있다.

A general finding is that learners are not good in regulating their learning (Bjork et al. 2013). The question is then whether it can be taught.

  • On the one hand, the self-regulation of learning processes will largely rely on primary knowledge and might thus be impossible to teach.
  • On the other hand, all learning involves a combination of primary and secondary knowledge and the secondary knowledge component certainly is teachable.

다음과 같은 상위 수준의 조절 프로세스는, 1차 지식과 2차 지식의 혼합에 의존할 수 있으므로, 적어도 부분적으로는 가르칠 수 있습니다.

  • 스스로 인지 부하 원리를 적용하여 주의분할의 부정적인 영향을 감소시킨다(cf. 자기 관리 효과).
  • 적절한 학습 과제 선택(cf. 자기주도 학습) 및
  • 관련 학습 자원 선택(cf. 정보 문해력)

Higher-level regulation processes such as

  • reducing the negative effects of split attention by applying cognitive load principles oneself (cf. self-management effect),
  • selecting suitable learning tasks (cf. self-directed learning) and
  • selecting relevant learning resources (cf. information literacy)

...may rely on a mix of primary and secondary knowledge and thus—at least partly—be teachable.

학생들은 학습과 미래 수행에 대해 알려주는 단서들을 사용하는데, 흔히 잘못된 단서들을 사용하는 경향이 있다.

students use cues to inform them about their learning and future performance and, moreover, that they are inclined to use invalid cues.

예를 들어, 학생들은 종종 이해와 미래의 수행에 대한 신호로 '처리 용이성ease of processing'을 사용한다:

  • 만약 지문이 쉽게 읽힌다면, 학생들은 전형적으로 본문에 대한 이해와 미래 시험에서 그들의 성취도를 높게 판단한다. 하지만, 훨씬 더 타당한 단서는 텍스트를 읽은 후에 키워드를 생성할 수 있는 능력일 것이다.
  • 수단-목표 분석을 사용하여 전통적인 문제를 해결하는 경우, 학습자는 [높은 인지 부하]를 단서로(하지만 잘못된) 사용할 수 있다(이는 많은 노력을 소모하므로 나는 많이 배웠음에 틀림없다). 그러나, 더 효과적인 방법은 생성된 해결책을 동료 학생에게 설명하는 능력일 것이다.

따라서 다음 교사들은 학생들이 자신의 학습을 조절하는데 더 [타당한 신호의 사용을 돕는 프롬프트]를 제공할 수 있다(예:

  • '이 텍스트를 읽은 후 약 한 시간 후에 키워드를 생성할 수 있는가?';
  • '이 문제에 대해 방금 생성한 해결책을 동료에게 설명할 수 있는가?').

For example, students often use ‘ease of processing’ as a cue for understanding and future performance:

  • if a text is easily read, students typically judge their understanding of the text and their performance on a future test as high. Yet, a much more valid cue would be the ability to generate keywords some time after reading the text.
  • Similarly, a learner who is solving a conventional problem using means-ends-analysis may use the high cognitive load as an invalid cue for learning (‘this cost me a lot of effort so I must have learned a lot’). Yet, a much more valid cue for germane processing would be the ability to explain the generated solution to a peer student.

Teachers might then give prompts to students that help them learn to use more valid cues for regulating their learning (e.g.

  • ‘Can you generate keywords for this text about one hour after reading it?’;
  • ‘Can you explain the solution that you just generated for this problem to your peer?’).

 

감정, 스트레스, 불확실성
Emotions, Stress and Uncertainty

세 번째 연구 라인은, 인지 부하의 [환경 관련 인과 요인]을 식별하는 것을 목표로 하는 인지 부하의 새로운 모델에 기초한다(최 외 2014). 새로운 모델은 인지 부하와 학습에 대한 물리적 학습 환경의 세 가지 유형의 영향을 구분한다.

  • 인지 효과(예: 불확실성),
  • 생리학적 효과(예: 스트레스),
  • 정서적 효과(예: 감정; 단, 학습에 대한 여러 영향이 밀접하게 얽힐 수 있다는 점에 유의하라)

A third research line is based on a new model of cognitive load that aims to identify the environment-related causal factors of cognitive load (Choi et al. 2014). The new model distinguishes three types of effects of the physical learning environment on cognitive load and learning:

  • Cognitive effects (e.g. uncertainty),
  • physiological effects (e.g. stress) and
  • affective effects (e.g. emotions; but note that the different effects on learning may be closely intertwined; Evans and Stecker 2004).

기본적인 가정은 [스트레스, 감정 및 불확실성]이 업무 관련 프로세스와 경쟁하여, 작업 기억의 용량을 제한할 수 있다는 것이다. 따라서, 그것들은 인지 부하를 증가시키고 학습을 방해하며 전달을 감소시킨다(Moran 2016). 이 현상에 대한 상당한 양의 연구가 있었지만, 대다수의 기본 전제는 [학습]은 [학습에 부정적인 영향을 미칠 수 있는 상태를 방지함]으로써 가장 잘 서포트된다는 것이다(예: Plass 및 Kaplan 2016). 
The basic assumption is that stress, emotions and uncertainty may restrict the capacity of working memory by competing with task-relevant processes; thus, they increase cognitive load, hamper learning and decrease transfer (Moran 2016). There has been a considerable amount of research on this phenomenon, but the basic premise of the great majority of this research is that learning is best supported by preventing states that might negatively affect learning (e.g. Plass and Kaplan 2016).

이것은 일반 교육에서는 사실일 수 있지만, 직업 및 전문 교육에서는 감정, 스트레스 및 불확실성이 종종 전문 업무를 수행하는 데 필수적인 부분이다. 

  • 예를 들어, 간호사들은 인생의 마지막 단계에 있는 환자들을 돌볼 때 부정적인 감정을 다루는 법을 배워야 한다. 
  • 보안 담당자들은 고위험 폭력 상황에서 스트레스를 다루는 법을 배워야 하고, 
  • 의사들은 불완전한 환자 정보에 기초하여 빠른 의사결정이 필요할 때 불확실성에 직면하는 법을 배워야 한다. 

This might be true in general education, but in vocational and professional education, emotions, stress and uncertainty are often an integral part of performing professional tasks. For example,

  • nurses must learn to handle negative emotions when caring for patients who are in the last phase of their life;
  • security officers must learn to deal with stress in high-risk violence situations, and
  • medical doctors must learn to face uncertainty when fast decision-making is required on the basis of incomplete patient information.

이러한 경우, 훈련 중 감정, 스트레스 및 불확실성을 예방하는 것은 비생산적이다. 오히려, 교육 프로그램은 학습자가 감정, 스트레스 및 불확실성에 대처하고 전반적인 행복을 유지할 수 있는 능력을 포함하여, 표준에 맞는 전문적인 업무를 수행할 수 있는 전문 역량을 개발할 수 있는 방식으로 신중하게 설계되어야 한다.

In such cases, it is unproductive to prevent emotions, stress and uncertainty during training; on the contrary, educational programs must be carefully designed in such a way that learners develop professional competencies enabling them to perform professional tasks up to the standards, including the ability to deal with emotions, stress and uncertainty and to maintain overall wellbeing.

  • 만약 감정, 스트레스, 불확실성이 [학습에 바람직하지 않은 상태]로 간주된다면, 이러한 상태를 방지하여 감소시켜야 하는 [외적 인지 부하]를 유발한다고 말할 수 있다.
  • 만약 감정, 스트레스, 불확실성이 [학습되어야 하는 과제의 필수적인 요소]로 간주된다면, 그것들은 [내적 인지 부하]에 기여하고 다른 방법으로 다루어져야 한다.
  • If emotions, stress and uncertainty are seen as undesirable states for learning, one might say that they cause extraneous load that should be decreased by preventing these states.
  • But if emotion, stress and uncertainty are seen as an integral element of the task that must be learned, they contribute to intrinsic cognitive load and must be dealt with in another way. 

예를 들어, 과제를 수행하기 전에 상상력이나 정신적 실천은 실제 과제 수행 중 내재적 부하를 낮추고 스트레스, 감정 또는 불확실성으로 인한 높은 부하를 균형 있게 조정하여 학습과 미래 과제에 대한 스트레스, 감정 또는 불확실성 처리 능력을 향상시킬 것으로 예상할 수 있다(아로라 외 2011). 그러나 초보 학습자들은 성공적인 작업 수행에 필요한 과정을 생생한 방식으로는 아직 상상할 수 없을 것이다(Ginns 2005b). 그들에게 상상력은 아마도 효과가 없겠지만, 예를 들어, 협력은 집단적 작업 기억 효과 때문에 효과적인 작업 기억 용량을 증가시킬 수 있으므로 스트레스, 감정 또는 불확실성으로 인한 높은 부하를 상쇄할 수 있다.

For example, imagination or mental practice prior to performing the task may be expected to lower intrinsic load during actual task performance, counterbalancing the high load resulting from stress, emotions or uncertainty and so improving learning and the ability to deal with stress, emotions or uncertainty for future tasks (Arora et al. 2011). Novice learners, however, will not yet be able to imagine the processes that are required for successful task performance in a vivid way (Ginns 2005b). For them, imagination will probably not work but, as an example, collaboration might possibly increase effective working memory capacity because of the collective working memory effect and so counteract the high load resulting from stress, emotions or uncertainty.

 

휴먼 무브먼트
Human Movement

네 번째 새로운 연구 라인은 [휴먼 무브먼트 효과]에 기초한다. 이 효과는 인간의 움직임을 포함하는 인지 작업을 가르칠 때 [애니메이션]이 [정적인 것]보다 더 효과적인 이유를 설명하는데 사용되어 왔다. 인간의 움직임 효과에 대한 연구는 주로 움직임을 관찰함으로써 학습에 초점을 맞췄지만, 최근의 연구는 학습 중에 움직임을 만드는 결과로 인지 부하와 학습에 대한 유사한 영향을 얻을 수 있다고 제안한다. 제스처와 트레이싱tracing 같이, [움직임을 만드는 것]이 가용 작업 기억 자원과 인지 부하에 영향을 미칠 수 있다는 충분한 증거가 있다.

  • 몸짓을 하는 것making gestures이 문제 해결 중 정보의 인지적 오프로드에 사용될 수 있어 작업 기억 부하 감소로 이어질 수 있는 것으로 나타났다.
  • 추적Tracing과 관련하여, Hu 등(2015)은 기하학에서 종이 기반 작업 예제를 공부할 때 집게 손가락으로 각도 관계를 추적한 학생이 예제를 공부한 학생보다 더 높은 학습 성과를 보였다.
  • 마찬가지로, 손가락으로 온도 그래프를 추적 여부를 달리 하여 아이패드로 공부한 초등학생 그룹을 대상으로 한 연구에서 '추적 그룹'에서 더 높은 전송 성능을 발견했다.

A fourth new research line builds on the human movement effect. This effect has been used to explain why animations are more effective than statics when cognitive tasks involving human movement are taught. Although research into the human movement effect has mainly focused on learning by observing movement, recent research suggests that similar effects on cognitive load and learning may be obtained as a result of making movements during learning. There is ample evidence that making movements, such as gestures and tracing, can affect available working memory resources and cognitive load.

  • It has been shown that making gestures can be used for cognitive offloading of information during problem-solving, leading to a reduction in working memory load (Wagner-Cook et al. 2012; Goldin-Meadow et al. 2001; Ping and Goldin-Meadow 2010; Risko and Gilbert 2016).
  • With regard to tracing, Hu et al. (2015) showed that students who traced angle relationships with their index finger when studying paper-based worked examples in geometry showed higher learning outcomes than students who only studied the examples.
  • Similarly, in a study with a group of primary-school children who studied worked examples on an iPad either by tracing temperature graphs with their index finger or without such tracing, Agostinho et al. (2015) found higher transfer performance in the tracing group.

인간의 움직임과 같은 [생물학적 일차적 정보]는 작업기억의 제한에 의해 거의 영향을 받지 않는다는 인지 부하 이론의 견해와 함께, 기초 인지 또는 내재 인지(grounded or embodied cognition)의 이론적 프레임워크는 [인지 부하와 학습에 대한 움직임movement의 영향]을 설명하는데 사용되어 왔다. 이 이론적 프레임워크에서는 (정보 처리 및 학습을 포함한) 인지적 프로세스는 제스처 및 기타 인간 움직임을 포함한 환경 내의 감각 및 운동 기능과 불가분의 관계에 있다고 주장한다 (Barsalou 1999).
Together with the cognitive load theory view that biologically primary information, such as human movement, is at most marginally affected by working memory limitations (Paas and Sweller 2012), the theoretical framework of grounded or embodied cognition has been used to explain the effects of movements on cognitive load and learning, by asserting that cognitive processes, including information processing and learning, are inextricably linked with sensory and motor functions within the environment, including gestures and other human movements (Barsalou 1999).

내장 인지embodied cognition 관점을 지지하는 연구는 [제스처를 관찰하거나 제스처를 취하는 것]이 더 풍부한 인코딩으로 이어지며, 따라서 더 풍부한 인지 표현을 이끌어 낸다는 것을 보여준다. 흥미롭게도, 보다 기본적인 운동 시스템의 개입은 지시 중 작업 메모리에 대한 부하를 감소시키는 것으로 보인다(예: Goldin-Meadow 등). 이는 이러한 풍부한 인코딩이 인지적으로 덜 요구되며 인지 부하 이론의 진화적 설명을 확인한다는 것을 의미한다.

Research supporting the embodied cognition view shows that observing or making gestures leads to richer encoding and therefore richer cognitive representations. Interestingly, the involvement of the more basic motor system seems to reduce load on working memory during instruction (e.g. Goldin-Meadow et al. 2001), which means that this richer encoding is less cognitively demanding and which confirms the evolutionary account of cognitive load theory.

[운동 정보motor information]가 WM의 제한된 자원을 차지할 수 있는 [추가적인 제시방식modality]을 구성할 수 있다는 것이 분명하다. [인지 부하 이론에 의해 채택된 작업 기억 모델]과 [인간 움직임의 인지적 효과]를 확실하게 조화시키기는 어려워 보이기 때문에, [인간의 움직임이 기존 WM 모델 내에서 고려되어야 하는 추가적 제시방식modality]을 구성할 수 있다고 주장할 수 있다. 
From the research, it is clear that motor information may constitute an additional modality that can also occupy WM’s limited resources. As it seems difficult to firmly reconcile the cognitive effects of human movement with the working memory model adopted by cognitive load theory, it can be argued that human movement may constitute an additional modality that should be considered within existing WM models.

 

결론들
Conclusions

이 절은 인지 부하 이론의 발전에 기여한 20년간의 연구에 대한 우리의 성찰을 끝낸다. 진보는 그 이론을 뒷받침하는 심리적 기반, 새로운 교육적 효과, 인지부하이론의 범위scope와 인지부하의 측정 등과 관련이 있다.

  • 가정된 [인지 구조의 기초]는 진화 심리학, 특히 Geary의 [1차 지식과 2차 지식 사이]의 구별을 사용함으로써 확고히 기초함으로써 강화되었다.
  • 가르침에 대한 직접적인 실질적인 함의를 가진 [새로운 교육 효과]가 공식화되었다. 자기 설명 효과, 상상 효과, 고립된 요소 효과, 집단적 작업 기억 효과, 인간 이동 효과가 포함된다.
  • 또한, 소위 [복합 효과]가 확인되었다. 이러한 영향은 다른 인지 부하 효과의 한계를 나타내며, 우리는 그것들이 보다 성숙한 이론의 특징이라고 본다.
  • 인지 부하 이론의 범위가 넓어져서 [인지 부하에 영향을 미치는 뚜렷한 요소로 물리적 환경] 포함하게 되었다
  • 마지막으로, 인지 부하의 [새로운 주관적이고 객관적인 측정]이 개발되어 연구자들이 부하의 다른 유형을 더 잘 구별할 수 있게 되었다.

This section ends our reflection on 20 years of research contributing to the development of cognitive load theory. Advances relate to its psychological basis, new instructional effects, its scope and measurements informing the theory.

  • The basis for the hypothesised cognitive architecture has been strengthened by firmly grounding it in evolutionary psychology, especially by using Geary’s distinction between primary and secondary knowledge.
  • New instructional effects with direct practical implications for instruction have been formulated, including the self-explanation effect, the imagination effect, the isolated elements effect, the collective working memory effect and the human movement effect.
  • In addition, the so-called compound effects have been identified; these effects indicate the limits of other cognitive load effects and we see them as being characteristic for a more mature theory.
  • The scope of cognitive load theory has been broadened by including the physical environment as a distinct factor affecting cognitive load.
  • Finally, new subjective and objective measurements of cognitive load have been developed, enabling researchers to make a better distinction between the different types of load.

인지 부하 이론의 발전은 관련 이론에 반영되었고 또한 미래 발전을 위한 추세를 설정했다. 예를 들어 멀티미디어 학습 자료의 설계에 초점을 맞춘 [멀티미디어 학습의 인지 이론(CTML; Mayer 2014)]은 새로운 인지 부하 효과 중 몇 가지와 전체 과제 과정과 커리큘럼의 설계에 초점을 맞춘 4개 요소 교육 설계(4C/ID; 반 메리엔보어 및 키르슈네르 2018a)를 포함한다.학습자의 전문지식의 성장은 교육 프로그램의 다른 단계에서 최적의 설계 원칙을 선택하는데 직접적인 영향을 미치기 때문에 복합 효과에 대한 것이다. 
Advances in cognitive load theory have been reflected in related theories and also set the trends for future developments. For example, the cognitive theory of multimedia learning (CTML; Mayer 2014), focusing on the design of multimedia learning materials, includes several of the newer cognitive load effects, and four-component instructional design (4C/ID; van Merriënboer and Kirschner 2018a), focusing on the design of whole-task courses and curricula, builds especially on compound effects because the learners’ growth of expertise has direct implications for selecting optimal design principles in different stages of an educational program.

향후 연구 라인에서는 인지 부하 이론의 추가 개발을 위한 흥미로운 새로운 기회가 열립니다. 

  • [작업 기억 자원 고갈]은 [개별 인지 자원의 고정된 시간적 특성에 의문을 제기]하며, 몇 가지 인지적 부하 효과에 주요한 영향을 미칠 수 있다. 
  • [인지 부하 대한 자기 관리 및 기타 유형의 자기 조절 학습]교육에 있어 [일차적 지식과 이차적 지식의 결합을 재고할 것]을 요구한다. 
  • 스트레스, 감정 및 불확실성을 유발하는 [물리적 환경]은 [인지 부하를 효과적으로 처리하는 방법에 대한 새로운 질문]을 발생시킨다. 
  • [인간의 움직임은 작업기억에서 특별한 역할을 수행]하는 것처럼 보이며, 이는 교육적 설계와 관련하여 인간 인지 구조의 재고를 요구할 수 있다.

Future research lines open up exciting new opportunities for the further development of cognitive load theory:

  • working memory resource depletion questions the fixed temporal character of individual cognitive resources and might have major implications for several cognitive load effects;
  • self-management of cognitive load and other types of self-regulated learning require us to rethink the combination of primary and secondary knowledge in teaching;
  • physical environments that evoke stress, emotions and/or uncertainty generate new questions on how to effectively deal with cognitive load, and
  • the special role that human movement seems to play in working memory might ask for a reconsideration of human cognitive architecture in relation to instructional design.

인지 부하 이론의 생존가능성은 그것의 주요 강점과 관련이 있다.

  • (1) 인간 인지 아키텍처에 대한 지식을 바탕으로 한다.
  • (2) 인간의 인식에 대한 지식이 발전함에 따라 지속적인 개발 중에 있다.
  • (3) 시험 가능한 가설로 이어지며, 음의 결과가 나올 경우 이론이 수정된다.
  • (4) 이론에 의해 생성된 방대한 데이터는 무작위화되고 통제된 시험에 기초한다.
  • (5) 무작위적이고 통제된 시험은 의학 교육에서 영문학에 이르는 광범위한 주제와 함께, 매우 어린 연령에서 성인 학습자에 이르기까지 모든 연령 그룹을 가르치는 전통적인 교실에서 전자 학습에 이르기까지 광범위한 교육적 맥락에서 사용될 수 있는 교육 절차의 효율성에 대한 증거를 제공한다.레의


The viability of cognitive load theory is related to its major strengths, namely,

  • (1) it is firmly based in our—expanding—knowledge of human cognitive architecture;
  • (2) it is under continuous development as our knowledge of human cognition advances;
  • (3) it leads to testable hypotheses with possible negative results leading to modifications of the theory;
  • (4) the vast bulk of the data generated by the theory is based on randomised, controlled trials; and
  • (5) those randomised, controlled trials provide evidence for the effectiveness of instructional procedures that can be used in a wide range of educational contexts from conventional classrooms to e-learning, teaching all age groups from very young to adult learners, with an enormous range of subject matter from medical education to English literature.

이러한 강점들 덕분에 인지 부하 이론은 몇 년 동안 급격히 변화했지만 여전히 좋은 상태를 유지하고 있고, 건전한 연구가 그것의 발전을 이끄는 한, 우리는 그것의 밝은 미래를 봅니다.

Thanks to these strengths cognitive load theory has drastically changed over the years but is still in good shape, and as long as sound research is driving its further development, we see a bright future for it.

결론적으로, 우리는 지난 20년 동안 인지 부하 이론의 중요한 변화를 보아왔고, 현재 교육 연구와 실제 교육 분야 모두에서 인지 부하 이론의 인기를 감안할 때, 우리는 앞으로 20년 동안 똑같이 중요한 변화를 예상한다. 이 글에서, 우리는 비록 미래가 예측 불가능하다는 것을 완전히 인정하지만, 이론의 추가적인 발전을 위해 우리가 전망하는 몇 가지 연구 방향을 스케치했다. 1998년 논문에서는, 진화 심리학, 작동 기억 자원 고갈, 내장 인식embodied cognition에 대한 어떠한 언급도 하지 않았습니다. 하지만, 이러한 생각들은 이론의 추가적인 발전에 결정적인 것으로 드러났습니다. 그러니, 미래를 예측하려고 하지 말고 계속해서 좋은 연구를 해서 미래를 창조하자.

To conclude, we have seen important changes in cognitive load theory over the last 20 years and, given the current popularity of cognitive load theory in both educational research and the practical educational field, we expect equally important changes in the 20 years to come. In this article, we sketched some research directions that we see as promising for the further development of the theory, although we fully acknowledge that the future is unpredictable. In the 1998 article, no mention was made whatsoever of evolutionary psychology, working memory resource depletion or embodied cognition, yet, these ideas turned out to be crucial for the further development of the theory. So, let us not try to predict the future but create it by continuing to do good research.

 

 

 


Abstract

Cognitive load theory was introduced in the 1980s as an instructional design theory based on several uncontroversial aspects of human cognitive architecture. Our knowledge of many of the characteristics of working memory, long-term memory and the relations between them had been well-established for many decades prior to the introduction of the theory. Curiously, this knowledge had had a limited impact on the field of instructional design with most instructional design recommendations proceeding as though working memory and long-term memory did not exist. In contrast, cognitive load theory emphasised that all novel information first is processed by a capacity and duration limited working memory and then stored in an unlimited long-term memory for later use. Once information is stored in long-term memory, the capacity and duration limits of working memory disappear transforming our ability to function. By the late 1990s, sufficient data had been collected using the theory to warrant an extended analysis resulting in the publication of Sweller et al. (Educational Psychology Review, 10, 251–296, 1998). Extensive further theoretical and empirical work have been carried out since that time and this paper is an attempt to summarise the last 20 years of cognitive load theory and to sketch directions for future research.

 

역량바탕 졸업후교육: 과거, 현재, 미래 (GMS J Med Educ, 2017)
Competency-Based Postgraduate Medical Education: Past, Present and Future

Olle ten Cate1

서론
Introduction

역량 기반 의학 교육(CBME) 또는 훈련(CBMT)은 21세기 전환 이후 널리 사용되는 용어가 되었다. 유비쿼터스 사용에도 불구하고 용어 및 관련 개념의 사용에는 차이가 있다. 이 항목에서는 개념에 대한 간략한 역사적 개요를 제공하고, CBME, 역량, 역량 및 밀접하게 관련된 개념의 명확한 정당성과 정의에 초점을 맞춘다.
Competency-based medical education (CBME) or training (CBMT) has become widely used terminology since the turn of the twenty-first century. Despite its ubiquitous use, there is variation in the use of the terminology and related concepts. In this entry a brief historical overview of the concept is provided, followed by a focus on a clear justification and definition of CBME, competence, competency, and closely related concepts.

역사
History

1949년, "역량-기반" 교육이 의학 또는 다른 교육 분야에서 사용되기 훨씬 전에 교육 심리학자인 랄프 타일러는 "타일러 레쇼날레"라고 알려진 최초 씨앗을 뿌렸다[1]. 그는 모든 교육기관이 다뤄야 할 네 가지 강력한 질문을 제기했다.
In 1949, long before the term “competency-based” education was being used in medical or other areas of education, educational psychologist Ralph Tyler sowed its first seeds in what has become known as the “Tyler rationale” [1]. He posed four powerful questions any education institution should address:

  • 1.학교는 어떤 목적을 달성해야 하는가?
  • 2.이런 목적을 달성하기 위해 어떤 교육 경험을 제공할 수 있는가?
  • 3.어떻게 조직화될 수 있는가?
  • 4.이러한 목적이 달성되고 있는지 어떻게 판단할 수 있는가?
 
1.What purposes should a school seek to attain?
2.What educational experiences can be provided to attain these purposes?
3.How can these be organized?
4.How can one determine whether these purposes are being attained?

교육에 대한 이러한 '성과-기반'의 사고는 이전의 교육 관행과는 달랐다. 그 이후로, 많은 교육학자들은 그의 아이디어를 확장해 왔으며, 가장 두드러지게는 벤자민 블룸의 교육 목표 분류법인 인지적(지식), 정신운동가(기술), 정서적(태도) 영역은 교육 목표의 세계 대부분의 사고를 지배해 왔다[2]. 이러한 기여의 중요성은 교육이 진화한 전통보다 사전 정의된 [결과에 더 체계적으로 초점]을 두게 되었다는 것입니다.

This outcome-based thinking of education differed from education practice before. Since then, many educationalists have expanded on his ideas, most prominently Benjamin Bloom, whose taxonomy of educational objectives, including a cognitive (knowledge), a psychomotor (manual skills), and an affective (attitudes) domain, has dominated most of the world’s thinking of educational objectives [2]. The significance of these contributions was that education became more systematically focused on predefined outcomes than on evolved tradition.

1963년에 Carroll은 [동등한 학습 시간]이 주어졌을 때, [서로 다른 적성]을 가진 학생들이 학습 수행에서 차이를 보인다는 것을 관찰했다; 일부는 요구되는 수행 목표를 달성하지 못한다[3]. 그는 [교육의 가변적인 결과]를 피하기 위해서는 [학습자마다 특정한 학습 목표를 달성하기 위해 필요한 학습 시간]을 허용해야 한다고 말했다. 이 견해는 비슷한 기술 숙달에 [유연성과 개인화]가 필요하다는 것을 인정함으로써 교육적 사고에 혁명을 일으켰다.

In 1963 Carroll observed that, given equivalent learning time, students with different aptitudes diverge in their learning performance; some do not attain the required performance goal [3]. To avoid variable outcome of education, he said, each learner must be allowed the learning time he or she needs to attain a specific learning goal. This view revolutionized the educational thinking by recognizing that a similar mastery of skills requires flexibility and individualization.

결과에 대한 집중은 한 반에 있는 많은 학생들이 필요한 학습 기준을 충족하도록 보장하기 위해 블룸의 "개인화된 교육 시스템"과 "마스터리 러닝"과 같은 접근법으로 이어졌다[4]. 여러 연구에서 그 성공이 입증되었으며, 많은 국가에서 교육과 미래의 직장 사이의 관계가 더욱 긴밀해졌다[5]. [직업 교육과 훈련]은 노동자들의 생산성을 보장하기 위해 [교육 외부의 영향력 있는 사람들]이 그것을 위한 목표와 내용을 만들기 시작하면서 [경제적 영향력economic forces]의 도구가 되었다

The focus on outcomes led to approaches such as Bloom’s “personalized systems of instruction” and “mastery learning” to ensure that as many students in a class as possible meet a required learning criterion [4]. Several studies have illustrated its success and in many countries the relationship between education and future workplaces became tighter [5]. Vocational education and training became more an instrument of economic forces, as influential people outside education started formulating aims and content for it, to ensure that workers would be productive.

1980년대에 (비록 교육은 여기에 뒤쳐져 있었지만) 엄청난 기술적, 과학적 변화와 세계화는 학교들로 하여금 [고용 역량]을 도입하도록 이끌었다. 그리고 이는 [경쟁이 치열한 경제competitive economy에 복무하기 위한 기술과 유연성]의 수준을 높이고자 하는 기대 때문에 정당화되었다. 대학 차원에서는 이러한 개혁이 항상 환영받는 것은 아니었는데, 이는 산업계의 요구가 가중될 경우 일반 학문의 교육이 저해될 수 있다는 우려 때문이었다. [교양과목]의 본질, 즉 [학문적 발전의 자유]는 [산업적으로 결정되는 성과]의 강한 공리주의적 성격과 사실상 양립할 수 없다.

The vast technological and scientific changes and globalization since the 1980s, with education lagging behind, led schools to introduce employment competencies, justified by the wish to increase levels of skills and flexibility to serve a competitive economy. At the university level these reforms were not always welcomed, as it was feared that a heavier weight of industry needs could hamper general academic education. The very nature of liberal arts – the freedom of academic development – is not really compatible with the strong utilitarian nature of industry-determined outcomes.

 

역량 기반 의료 교육
Competency-based medical education

졸업후 교육이 대규모로 확장되기 전에, 오하이오 주 클리블랜드의 [케이스 웨스턴 리저브 대학]의 의과대학은 [의학 훈련의 내용]이 [임상적 관련성]에 초점을 두고, [개별적인 학문단위의 체계적이고 과학적인 기초]와 곧바로 연계된다면 더 효율적으로 전달될 것이라는 것을 가장 먼저 인식한 사람들 중 하나였다. 랄프 타일러가 컨설턴트로 있는 동안, 이 의과대학은 이론에서 실천으로 전환하기 위해 [임상 전 과정을 임상적으로 관련된 목표와 통합]했습니다 [6]. 그것은 역량 기반 의학교육의 선구자인 [역량-기반 의학교육]을 향한 첫걸음이었다. 이 결과 방향은 1960년대부터 오늘날까지 많은 학교, 특히 서구 세계에서 채택되었다[7].
Before the massive expansion of postgraduate training, Case Western Reserve University’s medical school in Cleveland, Ohio was among the first to recognize, as early as the 1950s, that the content of medical training would be more efficiently delivered if focused on clinical relevance, next to the systematic, scientific foundations of individual disciplines. With Ralph Tyler as a consultant, this school integrated pre-clinical courses with clinically relevant objectives, to make the transition from theory to practice more natural [6]. It was a first step toward outcome-based medical education, the precursor of competency-based medical education. This outcome direction was adopted by numerous schools, particularly in the Western world, from the 1960s until the present day [7].

(한편으로는 하나의 학문 분야이면서 다른 한편으로는 전문직을 지향하는) 의학교육과 교사교육은 역량 기반 교육을 가장 먼저 옹호하는 분야 중 하나였다. 역량에 기반한 의학교육에 대한 훌륭한 초기 설명은 1978년 McGaghie와 동료들에 의해 만들어졌다. 저자들은 다음과 같이 CBME를 과목 지향적이고 통합된 커리큘럼과 구별한다.
Medical education and teacher education – on one hand both academic disciplines, and on the other hand both directed toward a professional vocation – were among the first to advocate competency-based education. An excellent early description of competency-based medical education was coined by McGaghie and colleagues in 1978. The authors distinguish CBME from subject-oriented and integrated curricula by

  • 1.특정 환경에서 의료행위에 필요한 기능을 중심으로 한 조직,
  • 2.모든 의대생이 기본 수행 목표를 마스터할 수 있다는 확신,
  • 3.학습 및 학습 과정이 경험적으로 시험될 수 있다는 정당성.
1.its organization around functions required for the practice of medicine in a specified setting,
2.the conviction that all medical students can master the basic performance objectives, and
3.the justification that learning and learning processes can then be empirically tested.

 

"[CBME]의 의도한 성과는 [지역적 요구]를 충족시키기 위해 정의된 수준의 숙련도로 의료행위를 할 수 있는 보건 전문가이다." [8]
“The intended outcome [of CBME] is a health-professional who can practice medicine at a defined level of proficiency, in accord with local conditions, to meet local needs” [8].

 

역량 기반 대학원 의학 교육
Competency-based postgraduate medical education

[역량 기반 의학 교육]은 성과에 기반을 두기 때문에 [PGME에 대한 CBME의 초점]은 지배적이었다. 서방 국가에서 의사 연수의 주요 결과인 의료의 감독되지 않은 실행은 현재 1차 진료를 포함하는 졸업 후 의학교육 후 거의 전적으로 의료 전문의의 특권이다.

As competency-based medical education is outcome-based, a focus of CBME on postgraduate training has been dominant. In western countries, unsupervised practice of healthcare, the dominant outcome of the training of physicians, is almost exclusively the prerogative of medical specialists after postgraduate training, which now includes primary care.

역량 기반 (졸업후) 의학교육은 현재 널리 사용되는 용어이며, 특히 1990년대에 CanMEDs 프레임워크(전문가를 위한 캐나다 의료 교육 지침) 프로젝트가 도입된 후 ACME(Accreditation Council) [10], [11]의 결과 프로젝트가 이어졌다. CBME 운동은 비판에 직면했는데, 그 중 일부는 그것이 무엇인지에 대한 다양한 해석과 적용 방식에 기인할 수 있다[12], [13], [14].

Competency-based (postgraduate) medical education is now a widely used terminology, especially after the introduction of the CanMEDS framework (Canadian Medical Education Directives for Specialists) project in the 1990s [9], followed by the Outcome Project of the ACGME (Accreditation Council for Graduate Medical Education in the USA) [10], [11]. The CBME movement has met with criticism, part of which can be attributed to varying interpretations of what it is, and part to the way it is being applied [12], [13], [14].

 

정의들
Definitions

많은 저자들은 역량competence과 역량competency에 대한 "후지근한" 개념을 명확히 하려고 노력해 왔다. 역량의 다차원적 유형이 설명되었으며, 그 중 하나는 개념적-조작적 축conceptual–operational axis 과 개인적-직업적 축personal–occupational axis을 구분한다. 의료 역량은 주로 이 일반 유형학의 기능적 사분면에 위치할 수 있으며, 운영 및 직업 둘 다이다. 그러나 이 외에도 많은 다른 차원들이 문헌에서 광범위하게 논의되어 왔다.
Many authors have attempted to clarify the “fuzzy” concepts of competence and competency. Multidimensional typologies of competence have been described, one of which distinguishes a conceptual–operational axis versus a personal–occupational axis. Medical competence would be situated primarily in the functional quadrant of this general typology, being both operational and occupational. But many other dimensions have been discussed extensively in the literature, such as

  • context-free versus context-specific,
  • knowledge versus capability,
  • behavior versus ability,
  • learnable versus unchangeable,
  • performance-oriented versus development-oriented.

또한 의학교육계는 여러 가지 방법으로 역량competence을 정의했다[15]. 최근의 권위 있는 정의는 대부분의 의학 교육자들이 동의하는 바를 포착한다:

  • "(의사가) 복무할 개인과 공동체의 이익을 위한 [의사소통, 지식, 기술, 임상 추론, 감정, 가치 및 성찰]을 일상적 실무에서 습관적이고 현명하게 사용하는 것"[16]. 

The medical education community has also defined competence in many different ways [15]. A recent authoritative definition captures what the majority of medical educators would probably agree with:

  • “The habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individual and community being served” [16].

이 정의는 전문적인 의료 기능의 모든 요소를 포괄적으로 포함하는 것을 목표로 하며, [관사가 없는 단수 명사]로 사용되어야 한다(즉, "a competence" 가 아니다). 또한 이 정의에 따르면, 복수인 "competences"은 유용한 용어가 아니다. "competencies"은 언어학적으로 "competence"[17]과 동의어로 간주되기 때문에, 우리는 "competencies"를 [의학적 competence의 전체 스펙트럼을 구성하는 여러 부분들parts]을 지칭하는 단어로 사용해야 한다.

This definition aims to comprehensively encompass all elements of professional medical functioning and should be used as a singular noun without article (i.e., not a competence). Following this definition, “competences,” in the plural, is not useful terminology. As “competencies” is considered linguistically synonymous to “competences” [17], we shall use “competencies” as the word for parts that together constitute the full spectrum of medical competence.

가장 문자 그대로 "성공적이거나 효율적으로 무언가를 할 수 있는 능력ability"[17]으로 formulate된 "역량competency"라는 단어는 교육자들 사이에 혼란을 초래했다. Competency-based 교육이 항상 그 약속에 부응하는 것은 아니었기 때문에, 그 개념은 종종 재정의되어 왔다. 네덜란드의 교육 위원회는 6가지 특징을 포함하는 유용한 문헌에서 도출한 역량의 정의를 제안했다: 역량은

  • 구체적이고
  • 통합적이며
  • 내구성이 있으며,
  • 성과에 초점을 맞추고,
  • 학습가능하며,
  • 상호 의존적이다. 

The word “competency,” formulated most literally as “the ability to do something successfully or efficiently” [17], has led to confusion among educators. As competency-based education did not always lived up to its promise, the concept has been redefined often. The Educational Council of the Netherlands proposed a useful literature-derived definition of competency that includes six features: a competency is 

  • specific,
  • integrative,
  • durable,
  • focused on performance,
  • learnable, and competencies are
  • mutually dependent [18].

이는 역량이 [외부의 기대치]를 반영해야 하며, 다른 학습자와는 무관한 [절대 표준]을 사용하여 [측정할 수 있는 행동]으로 이어져야 한다고 덧붙인 알바네즈 등의 최근의 정의에 부합한다[19]. 

This accords with a more recent definition by Albanese and colleagues, who add that competencies should reflect external expectations and should lead to behavior that is measurable using absolute standards, that is, independent of other learners [19].

다른 저자들은 성공적으로 행동하는 능력은 어느 정도 [맥락-의존적]이라고 강조해 왔다. 개인은 예를 들어 시설이 잘 갖춰진 병원에서는 한 가지 맥락에서 역량을 보유할 수 있지만, 예를 들어 의료 지원이 거의 없는 외딴 시골 지역에서는 다른 맥락에서 역량을 보유할 수 없다.

  • 의료 전문직의 전체 범위에서 잘 수행할 수 있는 능력이 "medical competence"와 동일하다면,
  • a medical competency는 [의료 전문직을 구성하는 업무의 전체 범위]에서 일부분에 해당하는 [특정한 통합적 업무]를 수행할 수 있는 [학습가능하고, 지속성가능하고, 측정 가능한 능력]으로 정의될 수 있다. 그것은 맥락에 따라서는 다소 달라질 수 있는 일반화된 능력이다.

Other authors have stressed that the ability to act successfully is to some extent context dependent. A person can possess a competency in one context, for example during the day in a well-equipped hospital, but not in a different context, for example during the night in a remote rural area with little medical support.

  • If the ability to perform well in the full scope of the medical profession equates with “medical competence,” then 
  • a medical competency can thus be defined as a learnable, durable, and measurable ability to execute a specific, integrative task that is a part of the full range of tasks that constitute the medical profession. It is a generalized ability that may vary somewhat, depending on the context.

이 정의에 따르면, CanMEDs 프레임워크나 ACGME 프레임워크의 general entities를 "competencies"라고 불러서는 안 된다.

  • 7개의 CanMED 유닛은 "역할"(의료 전문가, 통신자, 협력자, 지도자, 학자, 의료 옹호자, 전문가)라고 designate하는 것이 적합하며
  • 이와 달리 6개의 ACGME 설명자는 처음에는 "핵심 역량"으로 명명되었다(환자 관리, 의료 지식, 대인관계 및 커뮤니케이션 기술, 실천 기반 학습 및 개선, 시스템 기반 실천, 전문직)[10].

Following this definition, neither the general entities of the CanMEDS framework nor those of the ACGME framework should be called “competencies.”

  • The seven CanMEDs units are rightfully designated as “roles” (medical expert, communicator, collaborator, leader, scholar, health advocate, professional) [20],
  • in contrast with the six ACGME descriptors (patient care, medical knowledge, interpersonal and communication skills, practice-based learning and improvement, system-based practice, professionalism), which have initially been named “core competencies” [10].

만약 "역량competence"를 엡스타인과 헌더트가 정의한 광범위한 의사의 자질로 본다면, competency framework의 그러한 일반적인 요소general elements는 "역량 도메인domains of competence"이라고 designate된다. DOC는 여러 역량을 포함하는 [광범위한 실체]이다. 예를 들어 환자 관리 영역domain에는 "환자에 대한 정보 수집", "정확한 신체 검사 수행", "관리 계획 개발 및 수행"과 같은 역량competencies이 포함될 수 있다. 이 용어는 잉글랜더 등의 지지를 받고 있다[21].

If “competence” is the broad quality of the physician as defined by Epstein and Hundert, then such general elements of competency frameworks are best designated as “domains of competence”. Domains of competence are broad entities that include multiple competencies. For example, the domain of patient care would include competencies such as the ability to “gather information about the patient,” “perform an accurate physical examination,” and “develop and carry out a management plan.” This terminology has been supported by Englander and colleagues [21].

"역량 있는competent"라는 형용사는 "어떤 일을 할 수 있는 능력" 또는 "역량competency"을 가진 사람을 가리킨다. "역량 있는competent"은 또한 [행동하거나 판단할 법적 권리]라는 함축된 뜻을 가지고 있다. 판단 또는 행동에 대한 권한은 역량competency를 충분히 숙달했음을 증명했는지를 토대로 고려해볼 수 있다. 이런 점에서, competent person은 행동할 수 있을 뿐만 아니라, 행동할 권한이나 권리도 가진다[17]. 반대로 unqualified person은 이 권리가 없다. 이것은 법적 책임이 있는 전문직에 대한 관련 추가 사항이며, 그 중에는 의료 전문가도 있습니다. 의사의 면허라는 것은 권리와 의무를 제공하는데, 이 권리와 의무는 competence로 한정된다.

The adjective “competent” describes a person who has “the ability to do something,” or a “competency”. “Competent” also has the connotation of a legal right to act or judge. The authorization to judge or act can be considered dependent on the demonstration of sufficient mastery of a competency. In this sense, a competent person can act, but also has an authority or right to act, in the sense that unqualified persons do not have this right [17]. This is a relevant addition for professionals with a legal responsibility, among whom are medical specialists. Their license provides rights and duties, bound to their competence.

"Competency-based 의학 교육"은 competency and competence에 대한 기초 개념에서 발전한다. 언어학적으로, "competency-based education"은 완전히 논리적이지 않다. 그것은 역량을 생산하기producing 보다는, 역량competencies에 기반을 둔 교육을 가리키는 것으로 보이기 때문이다. 다른 언어들은 "역량 지향" 또는 "역량 지향"을 사용하지만, 우리는 일반적인 용법을 고수할 것이다. 프랭크와 동료들은 CBME가 "근본적으로 졸업생의 성과 능력outcome abilities을 지향하고, 사회 및 환자 니즈의 분석에서 도출된 역량 중심으로 조직화되어서, 의료진을 준비하기 위한 접근법"이라고 말한다. 이는 시간 기반 교육을 강조하지 않으며 책임성, 유연성 및 학습자 중심성을 강화합니다." [22]. 
“Competency-based medical education” evolves from its founding concepts of competency and competence. Linguistically, “competency-based education” is not fully logical, as it appears to refer to education that is based on competencies rather than producing them. Other languages use “competency-directed” or “competency-oriented,” but we will stick to the common usage. Based on a literature review, Frank and colleagues state that CBME is “an approach to preparing physicians for practice that is fundamentally oriented to graduate outcome abilities and the organization around competencies derived from an analysis of societal and patient needs. It de-emphasizes time-based training and promises a greater accountability, flexibility, and learner-centeredness” [22].

엄격하게 말하면, 이는 정의라기보다는 범위이지만circumscription, CBME 프로그램을 다른 프로그램과 구별하는 새로운 요소인 [시간 독립성]을 포함한다. 이는 여러가지 이유로 CBME의 기본이라고 볼 수 있다[23]. 역량 기반 교육이 유능해지자마자 학생들을 인증하거나 졸업시키는 데 초점을 맞춘다면, 훈련 시간은 일부 관련성을 잃는다. 이론적으로, 높은 수준의 능력과 사전 경험으로 교육을 시작하는 전공의는, 경험이 거의 없는 전공의보다 더 이른 시점에 정의된 수준의 능력에 도달해야 한다. 수업이 아닌 직장에서의 교육은 이미 고도로 개인화되어 있다. 직장에서의 자연적인 차이를 고려할 때, 학습 경험도 다를 것이다. 이를 통해 역량 기반 의학교육의 두 가지 결정적인 특징을 알 수 있습니다.

While this is strictly not a definition but rather a circumscription, it includes a new element that distinguishes CBME programs from other programs: time independence. This is indeed fundamental to CBME, which can be argued for different reasons [23]. If competency-based education focuses on certifying or graduating students as soon as they are competent, time in training loses some of its relevance. Theoretically, residents who start education on a high level of capability and prior experience should arrive at a predefined level of competence earlier than those who start with little experience. Education in settings that are workplaces instead of classes is already highly individualized. Given the natural difference in workplaces, learning experiences will be different too. This brings us to two defining features of competency-based medical education:

  • 1.특정 역량으로 공식화된 결과에 초점을 맞춘다.
  • 2.훈련 시간의 독립성. 시간 의존적인 인증 대신 역량에 의존하는 인증은 블룸의 마스터 학습을 연상시킨다.
  • 1.its focus on outcomes formulated as specific competencies, and
  • 2.its independence of the length of time in training. Competence-dependent certification instead of time-dependent certification is reminiscent of Bloom’s mastery learning.

위에서 설명한 교육 목적의 "competence", "competency" 및 "competent"의 정의를 고려할 때, 역량 기반 의료 교육은 다음과 같이 정의할 수 있다.

  • [하나 이상의 의료 역량competencies]에서 [정해진 일정 수준의 숙련도]를 목표로 하는 의료 전문직 교육

Given the definitions of “competence,” “competency,” and “competent” for educational purposes as delineated above, competency-based medical education can thus be defined as: 

  • Education for the medical profession that is targeted at a fixed level of proficiency in one or more medical competencies. 

CBME의 개별화되고 시간-독립적 성격은 이 정의에서 비롯된다. 교육이 완료되는 시점은, 사전에 정해진 수 년 후가 아니라 미리 설정된 수준의 역량에 도달하는 시점이기 때문이다. 이 정의에서 CBME는 직장 학습에 제한되지 않지만, 실제로 이 접근법은 임상 작업장 같은 개별화된 학습과 유연성을 허용하는 환경에서 특히 유용하다. 역량의 사회적 기원과 학습자 중심성과 같은 프랭크 외 연구진[22]이 추가한 추가 및 설명은 유용하고 방어 가능하지만 언어학적으로 정의에 포함할 필요는 없다.

The individualized and time-independent nature of CBME stems naturally from this definition, as education is finished when a pre-set level of competence is reached, rather than after a fixed number of years. In this definition CBME is not restricted to workplace learning, but in practice the approach is specifically useful in settings that allow for individualized learning and flexibility such as the clinical workplace. The additions and descriptions, added by Frank et al [22], such as the societal origin of the competencies and its learner centeredness, are useful and defendable, but linguistically not necessary to be included in the definition.

 

부수적 정의
Collateral Definitions

역량 기반 의학교육과 관련하여 여기에 포함시킬 가치가 있는 많은 다른 개념들이 사용되었다.

  • CanMEDs와 ACGME 프레임워크와 같은 Competency framework의 설계는 훈련생이 보여야 할 자질qualities에 대한 상세한 설명을 낳았다.
  • Domains of competence은 하위 역량, 핵심 역량, 핵심 역량 및 [9], [10]으로 분석적으로 기술되어 있으며, 다소 광범위한 영역을 교육 및 평가를 위한 관리 가능한 단위로 운용하고 이를 규정으로 전환할 수 있다. 

Related to competency-based medical education, a number of other concepts have been used which are valuable to include here.

  • The design of competency frameworks, such as CanMEDS and the ACGME framework, has resulted in detailed descriptions of the qualities trainees must show.
  • Domains of competence have been analytically described, with sub-competencies, key competencies, core competencies, and enabling competencies [9][10] to operationalize the rather broad domains into manageable units for teaching and assessment, and to translate them into regulations.

그러나, 그렇게 함으로써, 그러한 분석적 서술은 이론적이고, 맥락-독립적이고, 실천에서 멀어지는 경향을 갖게 되었다. 또한 옥스포드 영어 사전에 나오는 "무언가를 성공적으로 하는 것"이라는 역량competency의 실용적인 정의로부터도 벗어나는 경향을 갖게 되었다[17]. 역량의 하위 영역subdomain of competence은 competency의 정의(위 참조)와 일치하지 않으므로, 역량competencies이라고 부르지 않을 것을 권고한다. 특히 medical-technical skills를 벗어난 영역domain에서는, 이는 쉽게 "attained"되지 않으며, 타당한 방법으로 측정되지 않는다[24]. 예를 들어 "환자에게 윤리적으로 행동함"은 중요한 자질이지만 역량competency 그 자체라기보다는, [제한된circumscriptive 작업의 전제 조건]이다. 여러 역량 프레임워크에서, 그러한 많은 "competencies"은 다소 이론적 성격을 가지고 있다

However, in doing so, such analytic descriptions tend to become theoretical, context independent, and to move away from practice, and from the practical definition of competency that the Concise Oxford English Dictionary provides: to do something successfully [17]. We recommend that these subdomains of competence are not called competencies, as they usually do not accord with the definition of competency (see above), and they cannot easily be “attained” or measured in a valid way, specifically those domains outside medical-technical skills [24]. For example, “ethical conduct toward patients” is an important quality, but rather a prerequisite for circumscriptive tasks than a competency in itself. In several competency frameworks many such “competencies” have a rather theoretical nature.

2005년에, "위임 가능한 전문 활동"(EPA)이라는 용어가 도입되며, 역량 프레임워크는 workplace에 다시 연결되었다reconnect[25]. EPA는

  • "감독되지 않은 의료행위를 허용하기 위해, 충분한 특정 역량에 도달하면 훈련생에게 위탁해야 하는 직무 또는 책임으로 정의되는 전문적 실무의 단위이다. EPA는 일정 기간 내에 독립적으로 실행 가능하며, 프로세스와 결과에서 관찰 및 측정이 가능하며, 위탁 결정에 적합하다." 

In 2005, the term “entrustable professional activity” (EPA) was introduced to reconnect competency frameworks to the workplace [25]. An EPA is

  • “a unit of professional practice, defined as a task or responsibility to be entrusted to a trainee once sufficient specific competence is reached to allow for unsupervised practice. EPAs are independently executable within a time frame, observable and measurable in their process and outcome, and suitable for entrustment decisions.”

EPA를 실행하는 capability는 앞서 정의한 대로 역량competency으로 간주할 수 있다. EPA를 활용한 작업은 합성 또는 총체적 접근법synthetic or holistic approach이다. 왜냐하면 EPA는 전문직과 관련된 작업에 [여러 영역의 역량]을 결합하기 때문이다[26]. EPA에 대한 "위탁 결정"으로 번역되는 [훈련생 "신뢰하기trusting"의 본질]은 의료계를 일련의 피상적인 기술로 감소시킨다고 알려진 CBME의 [체크박스 접근법의 개념]과 배치된다[27]. EPA에 대한 전체 설명full description에는 역량 프레임워크와의 연결이 포함된다[28]. 학습자를 평가할 때 "이 EPA를 사용하는 학습자는 얼마나 많은 감독이 필요한가?"라는 질문에 초점을 맞춘다. 이 질문에 대한 답을 뒷받침하는 역량competencies은 오히려 역량의 측면facets of competence이라고 할 수 있으며, 이는 실제로 역량competencies보다 더 나은 표현이다[32]. 위탁가능성 척도 [31], [33]로 불리는 위탁 의사결정에 대한 감독 수준을 나타내는 척도이다.

The capability to execute an EPA can be considered a competency, as defined earlier. Working with EPAs has been called a synthetic or holistic approach, as it brings together multiple domains of competence into relevant tasks of the profession [26]. The essence of “trusting” a trainee, translated to “entrustment decisions” about EPAs, counters the notion of a check-box approach of CBME that has been said to reduce the medical profession to a series of superficial skills [27]. The full description of an EPA includes the connection with a competency framework [28]. When evaluating learners with a focus on the question “How much supervision does this learner with this EPA require?” [29], [30], [31], then the competencies that underpin its answer may be rather called facets of competence, which is actually a better wording than competencies [32]. Scales that signify level of supervision for entrustment decisions as now being called entrustablility scales [31], [33].

EPA는 소아과, 정신의학, 내과, 마취과, 노인과학, 수술, 폐 및 중환자, 가정의학과 응급의학을 포함한 광범위한 전문 프로그램에서 제안되었다.
EPAs have been proposed in a wide range of specialty programs, including pediatrics, psychiatry, internal medicine, anesthesiology, geriatrics, surgery, pulmonary and critical care, family medicine and emergency medicine [34], [35], [36], [37], [38], [39], [40], [41].

CBME와 관련된 또 다른 최근의 개념은 "마일스톤"이다. 역량competence을 갖추는 과정에서 교육생들은 단계 또는 성과 수준으로 정의될 수 있는 방식으로 점진적으로 발전합니다. 1980년대에 Dreyfus와 Dreyfus는 기술 개발의 다섯 단계를 정의했습니다: Novice, Advanced Beginner, Competent, Proficient, and Expert [42]. Carraccio와 동료들에 의해 의료 분야에 상세하게 설명되고 적용되었다[43]. 
Another recent concept connected with CBME is that of “milestones.” En route to competence, trainees develop progressively in a way that can be defined as stages or performance levels. In the 1980s, Dreyfus and Dreyfus defined five stages in the development of skill: Novice, Advanced Beginner, Competent, Proficient, and Expert [42]. These have been elaborated and applied to the medical domain by Carraccio and colleagues [43].

이 모델에서 "Competent"는 사회가 이 사람에 의한 감독되지 않은 의료행위를 허용하며, 정당한 위임 결정을 허용할 수 있는 임계점Threshold 단계라는 점을 유의해야 한다. 따라서 'Competent'하다고 해서, 더 이상 proficiency나 expertise를 향한 발달이 불가능하다는 것이 아니다. 미국 대학원 의학 교육 인증 위원회는 마일스톤[46]의 토대를 기반으로 "차기 인증 시스템"을 구축했다. 여기서 "마일스톤"은 "전공의가 훈련을 진행하면서 정해진 간격마다 입증할 것으로 기대되는 발달-기반, 전공-특이적 성과"로 정의된다.

Note that in this model, “competent” is a threshold stage that could allow for a justified entrustment decision, a stage at which society would accept unsupervised practice by this person [44], [45], and being “competent” certainly does not preclude further development toward proficiency and expertise. The USA Accreditation Council for Graduate Medical Education has built their “next accreditation system” on a foundation of milestones [46], defined as “developmentally based, specialty specific achievements that residents are expected to demonstrate at established intervals as they progress through training.”

 

미래 발전에 대한 추측
Speculating about future developments

대학원의 의학 교육이 전환되고 있다. 세기가 바뀐 이래로 많은 일들이 미국, 캐나다 그리고 다른 나라들에서 일어났다. 역량 기반 의학 교육도 비판[47], [48]과 맞닥뜨리지만, [21], [49], [50]을 지속적으로 발전시키는 대중적인 개념으로 남아 있으며, 이는 전 세계 대학원 의료 훈련의 가까운 미래를 결정할 가능성이 높다. 사전 정의된 표준을 충족하는 감독되지 않은 실습을 위해 의학전문가를 계속 추구함에 따라, 시간 유연성은 유연성과 이에 따른 법률의 적응을 요구할 것이다. 졸업후교육과정에는 이제 기간이 정해져 있으며, CBME-variability는, 환자 관리의 품질과 안전에 대한 편익이 확립될 수 있더라도, 조직 및 규제 측면에서 큰 노력을 필요로 할 것이다. 또한 임상의사 연구원의 교육을 수용하고 가족 계획을 현재보다 더 잘 수용하기 위해 유연한 훈련 준비가 필요할 것이다. 졸업후의학교육을 위한 합리적이고 효과적인 근로 시간에 대한 논의는 21세기에 더 많은 (근로시간의) 감소로 이어질 가능성이 있다[52], [53].

Postgraduate medical education is in transition. Much has happened since the turn of the century in the USA, Canada and other countries. While Competency-based medical education also meets with criticism [47], [48], it remains a popular concept that continuously evolves [21], [49], [50] and that likely will determine the near future of postgraduate medical training around the world. With the continued pursuit of graduating medical specialists for unsupervised practice who meet predefined standards [51], time flexibility will ask for a flexibility, and hence adaptation of legislation. Postgraduate programs now have a fixed length, and CBME-variability, even if benefits for quality and safety of patient care can be established, will require major efforts in organizational and regulatory sense. Flexible training arrangements will also be necessary to accommodate the education of clinician researchers and to better accommodate family planning than is currently possible. The debate on reasonable and effective working hours for postgraduate training will likely lead to a further decrease in the 21st century [52], [53].

관심을 끌어야 할 또 다른 문제는 의료 훈련의 연속이다. 한 세기 전에는 기초 의학 학위가 대부분의 의료 훈련생들의 독립적인 실무에 충분했지만, 이제는 연속체에 포함되게 되었다[54]. Continuum-program이 현재 연구되고 있으며, 학부 및 졸업후 교육 사이의 엄격한 구분이 상당 부분 사라질 가능성이 매우 높습니다. 적어도 [지난 한 세기에 걸쳐 두 배로 늘어난 감독되지 않은 연습 전 훈련 기간]의 [지속적 증가]는 더 이상 지속가능하지 않다

Another issue that will ask attention is the continuum of medical training. While a century ago the basic medical degree was sufficient for independent practice of most medical trainees, now it has become embedded in a continuum [54]. Continuum-programs are currently being explored [55] and it is very well possible that the strict divide between undergraduate and postgraduate training will disappear to a great extent. At least the continued increase of training length before unsupervised practice, which has doubled across one century, cannot be sustained in the future.

 

 


GMS J Med Educ. 2017 Nov 15;34(5):Doc69.

doi: 10.3205/zma001146. eCollection 2017.

Competency-Based Postgraduate Medical Education: Past, Present and Future

Affiliations expand

PMID: 29226237

PMCID: PMC5704607

DOI: 10.3205/zma001146

Abstract in English, German

Since the turn of the twenty-first century, competency-based medical education (CBME) has become a dominant approach to postgraduate medical education in many countries. CBME has a history dating back half a century and is rooted in general educational approaches such as outcome-based education and mastery learning. Despite controversies around the terminology and the CBME approach, important national medical regulatory bodies in Canada, the United States, and other countries have embraced CBME. CBME can be characterized as having two distinct features: a focus on specific domains of competence, and a relative independence of time in training, making it an individualized approach that is particularly applicable in workplace training. It is not the length of training that determines a person's readiness for unsupervised practice, but the attained competence or competencies. This shift in focus makes CBME different from traditional training. In this contribution, definitions of CBME and related concepts are detailed.

Keywords: CanMEDS; Competency-based medical education (CBME); competence; competency; entrustable professional activities; milestones.

 

시험의 타당도에서 구인 타당도로, 그리고 다시 회귀? (Med Educ, 2012)
From test validity to construct validity … and back?
Jerry A. Colliver,1 Melinda J. Conlee1 & Steven J. Verhulst2

 

 

도입 Introduction

타당성의 개념은 지난 세기 동안 [시험 타당성의 기본 개념]이라고 불릴 수 있는 것에 초점을 맞춘 접근 방식에서, (오늘날 타당성의 중심 또는 통일적인 아이디어로 부상한 현재 관점인) [구인 타당도]로 발전해오는 주요한 변화를 겪었다.1-4 사고의 초점은 [시험의 타당성]에서 [시험 점수 해석의 타당성]으로 이동했다. 그러나, 이러한 생각의 변화는 타당성의 개념과 타당성 주장의 신뢰성을 약화시킨 것으로 보인다. 

The concept of validity has undergone major changes throughout the last century, evolving from an approach that focused on what might be called the fundamental concept of test validity to the current view, construct validity, which has emerged as the central or unifying idea of validity today.1-4 The focus of thinking has shifted from the validity of the test to the validity of test score interpretations. However, this shift in thinking seems to have weakened the concept of validity and the credibility of validity claims. 

시험 타당성의 기본 개념
The fundamental concept of test validity

타당도의 기본 개념은 [시험 또는 측정 도구가 측정하고자 하는 것을 측정하는지 여부]를 나타냅니다. 

  • 1927년에 켈리는 이렇게 말했다. : '…시험은 측정할 대상을 측정하면 타당하다.'
  • 1954년에 아나스타시는 이렇게 말했다:  '…즉, 테스트가 실제로 측정하고자 하는 것을 측정하는 정도입니다...’

시험이 실제로 측정할 목적을 측정하는지 여부를 결정하기 위해, 다양한 방법 또는 접근법이 개발되고 채택되었다. 
이러한 것들은 처음에는 '타당도 유형'이라고 불렸다.

The fundamental concept of validity refers to whether a test, or a measurement instrument, measures what it purports to measure.

  • In 1927, Kelly said: ‘…a test is valid if it measures what it purports to measure.’10 
  • In 1954, Anastasi wrote: ‘…validity, i.e. the degree to which the test actually measures what it purports to measure...’11 

To determine whether a test in fact measures what it purports to measure, various methods or approaches have been developed and employed; these were initially referred to as ‘validity types’.

20세기 전반에는 타당성을 결정하는 주요 접근법이 [준거 타당성]과 [내용 타당성]이었다. 이는 곧 테스트 자체의 속성을 나타냅니다. 즉, 테스트가 측정할 기준(현재 또는 미래)의 정확한 추정치를 제공하는지 여부와 테스트가 측정해야 할 행동의 세계를 적절하게 나타내는지를 의미한다. 20세기 중반까지 준거 타당성(동시성과 예측성)과 내용 타당성이 곧 타당성 유형the validity type이었는데, 이는 시험 타당성을 확립하기 위해 주로 사용된 방법이다.

In the first half of the 20th century, the primary approaches to determining validity were criterion validity and content validity.1, 12 These referred to properties of the test itself: that is, whether the test provides an accurate estimate of the criterion it purports to measure (current or future) and whether the test adequately represents the universe of behaviours it is supposed to measure. Up to the middle of the 20th century, criterion validity (concurrent and predictive) and content validity were the validity types – the primary methods used to establish test validity.

명명학적 네트워크를 기반으로 타당성 구성
Construct validity based on nomological networks

그 후 1954년 미국심리학회는 심리 테스트 및 진단 기법에 대한 기술 권고안에서 기준이나 행동의 우주 측면에서 명시적으로 정의할 수 없는 이론적 속성이나 자질을 검증하기 위한 [구인 타당성construct validity] 개념을 도입했다. 크론바흐와 뮐은 기술 권고 위원회의 위원(위원장직을 맡았음)이었고, 1955년에 그들은 [구인 타당성과 관련된 증거를 얻기 위한 검증 절차]를 식별한 그들의 고전 논문 '심리 테스트의 구인 타당성'을 발표했다. 
Then, in 1954, the American Psychological Association, in its Technical Recommendations for Psychological Tests and Diagnostic Techniques,13 introduced the idea of construct validity to validate theoretical attributes or qualities that cannot be explicitly defined in terms of a criterion or a universe of behaviours. Cronbach and Meehl were members of the Technical Recommendations Committee (Cronbach was chair) and, in 1955, they published their classic paper, ‘Construct validity in psychological tests’,4 which identified validation procedures to obtain evidence relevant to construct validity. 

크론바흐와 밀이 제안한 증거는 준거 타당성과 내용 타당성의 다양한 측면을 포함했는데, 따라서 [구인 타당성]이 새로운 '유형type', 즉 세 번째 유형의 타당도가 아니었다. 그보다, 구인타당도를 [통합적인 타당성 개념]으로 보았고, 이는 타당성에 대한 모든 사고를 포괄하는 개념적 우산으로서, 타당도에 대한 통일된 개념을 대표한다. 이와 같은 단일화unification를 가능하게 한 크론바흐와 뮐의 사고 밑바탕에 깔린 혁명적 아이디어는 과학적 이론 시험이 시험 타당성의 일부이자 핵심으로 간주되고, [시험 타당성]은 이론 검증, 또는 '가설 시험으로서의 타당화validation as hypothesis testing'에 의해 결정된다는 것이었다.
This evidence included various aspects of criterion validity and content validity, such that construct validity came to be seen as the unifying concept of validity – not a new ‘type’ of validity, a third type to be added to criterion validity and content validity – but a conceptual umbrella that covered all thinking about validity, represented a unifying conceptualisation of validity.2, 12 The revolutionary idea underlying Cronbach and Meehl’s thinking – which made the unification possible – was that scientific theory testing was seen as part and parcel of test validity, that test validity was determined by theory testing, or ‘validation as hypothesis testing’ as one author described it.14

구인 타당성 이론에서, 구인(예: 지능, 임상적 추론, 공감, 탈진, 전문성, 시스템 기반 실습 등)은 [다른 구인들의 네트워크에서의 위치에 의해 정의되는 가정적이거나 이론적인 개념]이다. 네트워크 구조들 사이의 관계는 구조를 연결하고 네트워크를 형성하는 과학적 법칙에 의해 정의된다. Cronbach와 Mehl은 이것을 '법칙적 관계망nomological network'라고 불렀는데, 이것은 기본적으로 [여러 구인을 서로 관련시키는 법칙의 네트워크]를 의미하며, 이것이 곧 과학 이론scientific theory이다.4

In construct validity theory, the construct (e.g. intelligence, clinical reasoning, empathy, burnout, professionalism, systems-based practice, etc.) is a postulated or theoretical concept that is defined by its position in a network of other constructs. The relationships among the constructs in the network are defined by scientific laws that link the constructs and form the network. Cronbach and Meehl referred to this as a ‘nomological network’, which is basically a network of laws that relates constructs: scientific theory.4 

이론을 구성하는 데 관련된 법칙(laws)들로 짜여진 설명체계를 말한다. 논리실증주의적 관점에서 이론적 개념(construct)을 타당화하는 방략으로 제시된 개념으로 여기서의 법칙은 어떤 이론적 개념이 발생하는 논리를 말한다.

구인 타당성은 [(타당도를 확인하고자 하는) 특정 구인을 포함하는 다른 구인들과 법칙들의 법칙적 관계망을 뒷받침하는 모든 증거]에 의해 확립된다. 구인 타당도 개념을 도입하면서, 타당성 개념에 대한 이해는 [시험이 측정할 목적을 측정하는지]의 문제에서, [법칙적 네트워크에 의해 명시된 (측정대상) 구인과 다른 구인들 사이의 관계]로 이동하였다.
Construct validity, then, is established by any evidence that supports the nomological network of constructs and laws that contains the construct. With the introduction of construct validity, understandings of the concept of validity shifted from the issue of whether a test measures what it purports to measure to the relationship(s) between the construct and other constructs as specified by the nomological network.

[구인 타당성 이론]은 그 당시 과학 심리학을 지배했던 과학 철학, 즉 논리 실증주의와 일치했기 때문에 그 당시 (1950년대 중반에) 호소력이 있었다.2, 15 실증주의자들은 과학 이론에서 '현실'에 대한 어떠한 언급도 피하고 싶었고, 이론 자체와는 다른 어떤 것을 언급하는 것으로 보이는 이론적 용어(구인)의 사용을 비판했다. 그들은 이러한 실천을 [메타물리학적meta-physical]인 것으로 보았으며, 과학에는 설 자리가 없다고 생각했다. 
Construct validity theory was appealing at the time (in the mid-1950s) because it was consistent with the philosophy of science that dominated scientific psychology, namely, logical positivism.2, 15 Positivists wanted to avoid any reference to ‘reality’ in scientific theory and criticised the use of theoretical terms (constructs) that claimed to refer to something apart from the theory itself; they saw this practice as meta-physical and thought it had no place in science. 

실증주의자들은 과학 이론의 구조에 대한 정교한 견해를 발전시켰다. 이 견해에서, [이론적 용어]는 [다른 이론적 용어들]과 연관성의 관점에서 정의되었고, 과학 법칙에 의해 관찰 가능한 것이었으며, 현실reality에 대한 언급은 하지 않아야 했으며, 어떠한 메타-물리학도 포함하지 않는 것이었다. 간단히 말해서, [구인]은 현실에 대한 언급이 아닌, [다른 구인과의 관계]에 의해 정의되었다. 

Positivists developed an elaborate view of the structure of scientific theory in which theoretical terms were defined in terms of their ties with other theoretical terms and observables by scientific laws, without any reference to reality, involving no meta-physics. In brief, constructs were defined by relationships with other constructs, not by reference to reality. 

Cronbach와 Mehl은 [실증주의적 프레임워크에 타당화validation을 통합]했으며, [타당도는 이론의 검증에 의해 결정된다]고 제안했다. 그러므로, 구인 타당성 이론은 측정된 심리적 구인에 대한 현실주의적realist 주장을 피할 수 있었으며, 그렇지만 [네트워크에 대한 증거]를 통해 구인의 타당성에 대한 명백하고 엄격한 테스트를 제공할 수 있었다. 그렇다면 타당성은 전체 네트워크에 의해 서포트 된다: 기발한 아이디어가 아닌가!

Cronbach and Meehl incorporated validation into the positivist framework and proposed that validity be determined by theory testing. Thus, construct validity theory could avoid realist claims about measured psychological constructs, and yet provide an explicit rigorous test of the validity of a construct via evidence for the network. Validity, then, is supported by the entire network: an ingenious idea!


그러나, 대부분의 경우 의학 교육(또는 심리학 또는 교육)에는 [법칙적 네트워크]가 없었고, 구인과 관찰가능성을 명시적으로 연결하는 [과학적 법칙 체계]도 없으며, 검증해야 할 [구인에 대한 이론]도 없고, 심지어 [타당성을 확립하는 데 어떤 종류의 이론이 필요한지]와 비슷한 무언가도 없었기에 문제가 되었다. 원래 구인 타당도 이론을 제시하면서 크론바흐와 뮐은 다음과 같이 강조했다: '[시험이 구인을 측정한다]는 주장을 입증하려면, 개념을 둘러싼 법칙적 관계망이 존재해야 한다.'4 그러나 그들은 '현재의 심리학 법칙의 모호성'도 인정했다. 그러면서 '심리학은 조잡하고 부분적으로만 명시적인 공식crude, half-explicit formulation을 통해 작동한다.'4 그의 기대는 결국, 더 많은 연구와 함께, 이론적 개념과 그들의 관계가 명확해지고 심리학에 대한 명백한 이론이 출현할 것이라는 것이었다. 그러면 구인 타당성 접근법이 가능해질 것이다. 하지만 심리학은 처음 제안되었을 때보다 지금 이것에 더 가까워지지 않은 것 같다.9

However, this is problematic because for the most part there are no nomological networks in medical education (or psychology or education); there are no systems of scientific laws that explicitly link constructs and observables, and there is no theory of the construct to test, or at least nothing of the sort needed to establish construct validity. Originally, in laying out construct validity theory, Cronbach and Meehl emphasised that: ‘To validate a claim that a test measures a construct, a nomological net surrounding the concept must exist.’4 However, they also acknowledged the ‘vagueness of present psychological laws’ and said: ‘Psychology works with crude, half-explicit formulations.’4 The expectation was that eventually, with further research, theoretical concepts and their relationships would be clarified and an explicit theory (a nomological network) of psychology would emerge. Then the construct validity approach would become possible. Yet psychology doesn’t seem to be any closer to this now than when it was first proposed.9

해석 및 주장에 기초한 구인 타당도 
Construct validity based on interpretation and argument

구인 타당도 접근방식을 유지하기 위해 겉보기에는 덜 엄격한 기준인 해석과 논쟁은 타당성 확립을 위한 명명학적 네트워크와 엄격한 이론 테스트를 대체했다.

  • Messick은 Educational Measurement 3판(1989년)에서 '타당성'에 대한 장을 시작하면서 다음과 같이 썼다. '…검증해야 할 것은 시험이나 관찰 장치가 아니라, 시험 점수 또는 기타 지표에서 도출된 추론이다. 이는 곧, 점수 의미나 해석 및 해석이 수반하는 조치에 대한 [함축적 의미에 대한 추론]이다.'
  • 유사하게, KaneEducational Measurement 제4판 (2006)에서 '타당화'에 관한 장을 다음과 같이 마무리했다.: 타당화는 [제안된 해석 및 측정 사용의 평가]이다. [해석적 주장interpretive argument]은 [제안된 해석과 사용에 내재된 추론과 가정에 대한 명확한 진술]을 제공한다. [타당성 주장]는 [해석적 주장의 일관성] 및 [추론과 가정들의 개연성에 대한 평가]를 제공한다.'


To salvage the construct validity approach, seemingly less stringent criteria – interpretation and argument – have replaced nomological networks and rigorous theory testing for establishing validity.

  • Messick, in opening his chapter on ‘Validity’ in the third edition of Educational Measurement (1989), wrote: ‘…what is to be validated is not the test or observation device as such but the inferences derived from test scores or other indicators – inferences about score meaning or interpretation and about the implications for action that the interpretation entails.’2 
  • Similarly, in the fourth edition of Educational Measurement (2006), Kane concluded his chapter on ‘Validation’ by saying: ‘Validation involves the evaluation of the proposed interpretations and uses of measurements. The interpretive argument provides an explicit statement of the inferences and assumptions inherent in the proposed interpretations and uses. The validity argument provides an evaluation of the coherence of the interpretive argument and of the plausibility of its inferences and assumptions.’3 

따라서, 현재의 [구인 타당도 접근법]은 [대상 구인에 대한 해석을 위한 증거]에 기초하여 타당성 논거를 확립하려는 방식이라고 할 수 있다. 설득력 있게 [구인 타당도를 확립하는 방법]은 더 이상 ['이론적 용어의 의미를 고칠 수 있는' 엄격한 법칙적 네트워크]의 프레임워크 안에서 성립하는 것이 아니다. 

The current construct validity approach, then, seeks to establish a validity argument based on evidence for an interpretation of the target construct, but no longer within the framework of a rigorous nomological network that can ‘fix the meaning of theoretical terms’ in a way that can convincingly establish the validity of the construct.7

Kane은 다음과 같이 인식했다. '…타당화를 진행하기 위해서는 제안된 해석과 용도를 명확히 명시해야 한다.' 그러나, 현실에서는, 해석과 주장에는 '글루(예측, 검증, 확인의 정밀도)'가 부족한 것으로 보인다. 이 '글루'는 법칙적 네트워크에 의해 제공되는 [가정된 이론적 구인]에 대한 [측정의 타당성]에 대한 신뢰도를 제공하는 데 필요하다고 볼 수 있다. 연구자들은 50년 전 크론바흐와 뮐이 우려했던 '모호하고 부분적으로만 명시적인 공식'을 해결해야만 했다. 보르스붐 등이 쓴 바를 빌리자면 '[시험 점수 해석]이라는 개념은 너무 일반적too general이다.'

Kane recognised that: ‘…for validation to go forward, it is necessary that the proposed interpretations and uses be clearly stated.’3 However, in practice, interpretation and argument seem to lack the ‘glue’– the precision in prediction, testing and confirmation – needed to provide the confidence in the validity of the measurement of the postulated theoretical construct that was afforded by a nomological network. Researchers are left with vague, half-explicit formulations of the type that concerned Cronbach and Meehl 50 years ago. As Borsboom et al. wrote: ‘The notion of a test score interpretation is too general.’9 

예를 들어 추론(해석 및 주장)은 일반적으로 [구인과 다른 변수 간의 상관 관계]를 포함하지만, [대부분의 변수]가 다른 변수와 어느 정도(특히 표본이 충분히 큰 경우) 상관되어 있다는 점을 감안할 때, [명시적 이론]이 없는 상태에서 상관 관계는 타당성에 대해 정보를 제공한다고 보기 어렵다. 수렴 및 발산 타당성 및 다중 특성-다중 방법 행렬은 현재의 구인 타당성 접근법과 함께 사용할 것이 일반적으로 권장되지만, 타당성을 확립하기 위해서는 [훨씬 더 명확한 이론이 필요]하다. 기껏해야 어떤 [하나의 상관 관계]가 [다른 상관 관계]보다 높다는 것을 보여주는 이러한 타당성 주장은 약합니다.
For example, inferences (interpretation and argument) commonly involve correlations between the construct and other variables, but, given that most variables are correlated with most other variables to some degree (especially with large enough samples),16 correlations without an explicit theory are not informative about validity. Convergent and discriminant validity and multitrait–multimethod matrices17 are commonly recommended for use with the current construct validity approach, but they require even more explicit theory to establish validity. At best, these validity arguments are weak, showing that one correlation is higher than another.7


현재의 구인 타당도 접근법은 다양한 '다양한 출처의 타당성 증거'를 보고하는 것에 더 초점을 맞춘 것으로 보인다. ('Standards for Educational and Psychological Testing'에서 권장하는 '타당도 유형validity type'의 현재 버전). 이는 마치 '증거'에 더 큰 중점을 둠으로써, 법칙적 네트워크의 결여로 인해 뒤따르는 [구인 타당도 이론 검증]의 약화를 보완하려는 것처럼 보인다. 이는 타당성 주장의 근거와 해석으로부터 주의를 딴 데로 돌린 것으로 보인다. 그런 다음 테스트를 검증하려는 연구자들은 '여러 출처sources'의 범주 중 하나에 부합하는, 사용가능한 증거를 나열하는 것처럼 보이지만, 이것이 검사의 타당성을 어떻게 지지하는지는 보여주지 않는다(심지어 때로는 그렇지 않은 것처럼 보일 수도 있다). 
The current construct validity approach seems to have come to focus more on reporting various ‘sources of validity evidence’18-20 (the current version of ‘validity types’, as recommended in the ‘Standards for Educational and Psychological Testing’18), as if to compensate for the lack of nomological networks and the subsequent weakening of the theory testing part of construct validity by placing greater emphasis on ‘evidence’. This seems to have diverted attention from the rationale and interpretation of the validity argument. Researchers attempting to validate a test then appear to list available evidence that fits into one of the ‘sources’ categories, but without showing how this supports the validity of the test (and at times it appears that it does not). 

즉, 온갖 종류의 상황적 증거가 [해석/타당성 주장(훈련, 성별 차이, 내부 일관성, 요인 또는 차원의 수와 이름, 다른 변수와의 상관관계 등)]을 위하여 인용된다. 그러나 그러한 증거들(남성보다 점수가 높거나 낮거나, 3요소 구조 대 4요소 구조 또는 점원이 2학년 학생보다 더 우수한 성적을 보인다.)은 애초에 도구가 측정하고자 하는 것(예: 비판적 사고, 임상적 추론, 공감, 번아웃, 전문직업성)을 실제로 측정하는지, 혹은 검사가 타당한지에 대한 확신을 직접적으로 확보해주지는 않는다.
That is, all sorts of circumstantial evidence are cited for the interpretation/validity argument (such as improvement in scores with training, gender differences, internal consistency, number and names of factors or dimensions, and correlations with other variables). However, that evidence (females have higher or lower scores than males, or a three-factor structure versus a four-factor one, or clerks perform better than second-year students, etc.) does not establish directly with confidence that the instrument actually measures what it purports to measure (such as critical thinking, clinical reasoning, empathy, burnout, professionalism) and that the test is valid.

그리고 돌아갔나요?
And back?

[구인 타당도]는 기발한 아이디어였지만, 기대에 부응하지 못하고 있다. 핵심적인 이유는 측정된 구인의 엄격한 검증이나 타당화를 가능하게 하는 심리학과 교육(및 의학 교육)의 [명시적 이론이 부족]하기 때문이다. 지난 10년 동안 암스테르담 대학의 자극적인 일련의 논문에서 보르스붐 등은 심리학에서 이론 용어의 상태, 특히 구인 타당성 접근방식을 고려했고 이것이 '구인 타당성의 종말'이라고 결론지었다. 2009년에 그들은 이렇게 썼습니다. '심리학은 다만 1955년에 실증주의에서 요구되었던 [법칙적 네트워크]를 가지고 있지 않을 뿐이다. 명확한 것은 물론, 모호한 것조차 없었고, 여전히 오늘날에도 존재하지 않는다. 이러한 이유로, 구인 타당도에 대한 생각은 그것이 태어났을 때 이미 죽어있었다…[그것은] 어떤 연구 활동도 보지 못했다.'9
Construct validity is an ingenious idea, but it has not lived up to expectations, primarily because explicit theory in psychology and education (and medical education) that would allow for the rigorous testing or validation of a measured construct is lacking. In the last decade, in a stimulating series of papers from the University of Amsterdam, Borsboom et al.9 have considered the status of theoretical terms in psychology, in particular the construct validity approach, and concluded that this is ‘the end of construct validity’. In 2009, they wrote: ‘Psychology simply had no nomological networks of the sort positivism required in 1955, neither vague nor clear ones, just as it has none today. For this reason, the idea of construct validity was born dead … [it] never saw any research action.’9

[구인 타당도]에 대한 우려에 대응하여, 이 저자들은 (실증주의를 거부하고) 측정에 대한 [현실주의적realist 접근방식]을 제안한다. 여기서 '측정measurement'은 [속성 자체의 변동variation]과 [측정 결과 또는 시험 점수의 변동variation] 사이의 인과causal 관계의 관점에서 정의된다. 이 '실제 및 인과 분석realism and causal analysis' 관점에서는 '측정 행위란 (포괄적으로 해석된) 도구와 크기magnitudes 사이의 인과관계의 산물'이다. '크기 또는 수량(속성, 프로세스, 상태, 이벤트 등)은 측정하려는 시도와 무관하게 존재한다'. 이러한 생각은 측정 도구의 타당성 검사를 위한 새로운 방법을 확립하기 위한 것이 아니라, 측정의 정의를 논할 때 [측정할 수 있는can be 것]과 [측정으로 간주되는counts as 것]의 측면에 더 관심을 두는 것이다.
In response to concerns about construct validity, these authors propose a realist approach to measurement (after the positivist ban), in which measurement is defined in terms of a causal relationship between variation in the attribute itself and variation in the measurement outcome or test score.7-9 This ‘realism and causal analysis’ view sees ‘the act of measurement as a product of a causal relationship between an instrument (broadly interpreted) and a magnitude’: ‘The magnitudes or quantities (properties, processes, states, events, etc.) exist independently of attempts to measure them.’21 This thinking is not aimed at establishing new methods for the validation of a measurement instrument, but, rather, is more concerned with the definition of measurement in terms of what can be measured and what counts as measurement.

모든 실용적인 목적에서, 이 다소 추상적인 철학적 주장은 [구인의 측정]과 ['속성attributes'이라고 불릴 수 있는 것의 측정] 사이에서의 구별이라는 관점에서 생각함으로써 이해될 수 있다. 여기서 논의된 바와 같이,

  • 구인(Constructs)은, 법칙적 관계망 또는 그와 유사한 것으로부터 의미가 부여되기에, [다른 아이디어와 함께 연결된 아이디어]로만 존재하는 [추상적인 이론적 용어]이다. 따라서 [구인의 타당화]는 상관 관계에서의 중심성이 된다.
  • 속성(Attributes)은, [이론과 별개로 존재하는 것]으로 생각되며, [도구에 의해 측정된 결과는 속성에 의해서 인과적으로 결정된다]. 속성은 단순한 이론적 아이디어 이상으로 간주된다; 오히려, 그것들은 측정과는 독립적으로 존재하며 측정 결과를 야기하는 역할을 한다고 생각된다.21 

For all practical purposes, this somewhat abstract philosophical argument can be understood by thinking in terms of the distinction between the measurement of constructs versus the measurement of what might be called ‘attributes’.

  • Constructs, as discussed here, are abstract theoretical terms which are given their meaning by a nomological network or some approximation thereof (interpretation and argument) and exist only as ideas tied together with other ideas – hence the centrality of correlations in construct validation.
  • Attributes, on the other hand are thought to exist apart from theory, and are measured by instruments for which outcomes are causally determined by the attribute. Attributes then are considered to be more than just theoretical ideas; rather, they are thought to exist independently of their measurement and serve to cause the measurement outcome.21 

예를 들어, 

  • [키, 체중, 혈압 및 학업 성과]는 (암묵적으로 또는 명시적으로) 측정과는 별개로 존재하는 속성attributes으로 가정될 수 있다. 또한 이러한 속성에서 variation이 존재한다면, 눈금자, 중량계의 균형, 압력 측정띠, GPA으로 측정값에 변화를 유발할 것이다.
  • 그러나 [추상적인 이론적 구인(예: 비판적 사고, 임상추론, 번아웃, 공감, 전문직업성, 시스템 기반 실습 등)]이 [이론과 별개로 존재한다]는 가정은 설득력이 떨어지며, 각 구인이 [측정도구에서 확인된 변화]가 [속성의 변화]에 의해 야기되는지는 명확하지 않다.
  • For example, height, weight, blood pressure and scholastic performance can be implicitly or explicitly assumed to be attributes that are out there apart from measurement, and variations in these attributes cause variations in their measurements with a metre stick, pan balance, pressure cuff and grade point average, respectively.
  • However, abstract theoretical constructs (like critical thinking, clinical reasoning, burnout, empathy, professionalism, systems-based practice, etc.) cannot convincingly be assumed to be out there apart from theory, and it is not clear that variation in their respective measurement instruments is caused by variation in the attributes.

대학원 의학 교육 인증 위원회가 제안한 핵심 역량과 같은 역량 기반 교육 목표 평가에 대해 루리 외 연구진.22에 의해 유사한 우려가 제기되었다.23 그들의 우려는 [교육적 역량]이란 '이해당사자들 간의 협상에 의해 형성되는' '정치적 구조'이며, '실증적 근거를 보여준 적은 없는 듯 하다.' 라는 점이었다. 철학자 존 설은 사회적 현실의 구성에 관한 그의 글에서도 비슷한 차이를 보이고 있는데, 존 설은 '확고한 사실brute facts'과 '사회적 또는 제도적 사실social or institutional facts'을 구분하였다. '확고한 사실'은 실제로 존재하는 것으로 생각되는 사실(속성)을 언급하는 반면, '사회 제도적 사실'은 인간의 사고에 국한된 단순한 아이디어 또는 개념을 의미한다. 둘 다 인간의 사회적 구성이지만, 전자는 '현실주의적 헌신'을 가지고 있는 반면, 후자는 '더 많은 이론'에 근거한 이론만을 언급한다.
Similar concerns are raised by Lurie et al.22 about the assessment of competency-based educational objectives such as the core competencies proposed by the Accreditation Council for Graduate Medical Education.23 Their concern is that educational competencies are ‘political constructs’ that are ‘shaped by negotiations among stakeholders’ and ‘do not seem to have any demonstrated empirical basis’.22 Philosopher John Searle makes a similar distinction in his writings on the construction of social reality, in which he distinguishes between ‘brute facts’ and ‘social or institutional facts’.24 The former refers to facts (attributes) that are thought to really exist out there, whereas the latter are acknowledged to be simply ideas or concepts that are limited to human thinking. Both are human social constructions, but the former has ‘realist commitments’ and the latter refers only to theory based on more theory.

Borsboom 등이 제시한 이러한 [속성 기반attribute-based 측정 관점]은 새로운 타당성 유형이나 새로운 타당성 이론이 아닌 과학적 측정의 본질을 설명하려고 시도한다

  • 첫째, 이러한 저자들의 말에 따르면: '만약 어떤 것이 존재하지 않는다면, 그것을 측정할 수 없다.' 

[구인 타당도]를 주장하는 이론가들은 [다른 추상적 이론적 구인의 네트워크]에 대한 레퍼런스를 통해서 [추상적 이론적 구인]를 정의하고 존재하게 하는 실증주의 기반 시스템을 제안했지만, 논의된 바와 같이, 이것은 성공하지 못했다; 반대로, 이러한 구인들이 어떤 식으로 존재할 수 있는지는 명확하지 않다.

  • 둘째, 보르스붐 등은 다음과 같이 쓰고 있다: '문항 관리'와 '문항 응답' 사이에 발생하는 일련의 사건에서, [측정된 속성]은 측정 결과가 어떤 가치를 가질 것인지를 결정하는 데 인과적 역할을 해야 한다. 

This attribute-based view of measurement presented by Borsboom et al.6-9 attempts to describe the essence of scientific measurement, not just a new validity type or a new theory of validity.

  • Firstly, in these authors’ words: ‘If something does not exist, then one cannot measure it.’7 Construct validity theorists proposed a positivist-based system to define and give existence to an abstract theoretical construct by making reference to a network of other abstract theoretical constructs, but this, as discussed, has not been successful; otherwise, it is not clear in what sense constructs like these might exist.
  • Secondly, Borsboom et al. write: ‘Somewhere in the chain of events that occurs between item administration and item response, the measured attribute must play a causal role in determining what value the measurement outcomes will take.’7 

간단히 말해서, 그들은 측정이 '속성'으로 제한되어야 한다고 말하고 있다.
In brief, they are saying that measurement should be limited to ‘attributes’.

그럼에도 불구하고 Borsboom 등 6-9에서는 이러한 기준을 충족하는 측정치를 지칭하기 위해 '타당성'이라는 용어를 사용한다. 즉, 속성attributes이 (측정에 독립적으로) 존재한다고 생각할 수 있고, 그래서 속성이 측정 결과의 원인이 되는 경우, (측정)도구는 타당하다고 할 수 있다. 하지만 그렇지 않다면 속성을 측정한다고 볼 수 없으며, 타당하지 않다. 이것은 타당성의 일반적인 의미에 다른 반전을 주는데, 이것은 혼란스러울 수 있다. 또한, 이 관점에서 타당성은 all-or-nothing의 문제로 전환됩니다. 즉, 측정도구가 속성을 측정하거나(따라서 타당함), 측정하지 못한다(따라서 타당하지 않음). 

Nevertheless, Borsboom et al.6-9 use the term ‘validity’ to refer to measurements that meet these criteria: that is, if an attribute is thought to exist (independently of measurement) and causes the measurement outcomes, the instrument is said to be valid; otherwise, it does not measure the attribute and is not valid. This gives a different twist to the usual meaning of validity, which can be confusing. In addition, it makes validity into an all-or-nothing issue: either the instrument measures the attribute (and is valid) or it does not (and is not valid).

따라서 [수많은 외부 요인]이 [측정한 결과의 변동성variability을 증가시키는 방식]으로 측정 프로세스에 영향을 미칠 수 있습니다. 추가된 변동성variability의 근원은 일반화가능도 이론과 분석을 통해 평가할 수 있다(즉, 이는 일반화가능도 이론에 대한 최근의 사고와 일치하는 것으로 보인다). 따라서 측정도구는 타당하더라도, 측정값을 신뢰할 수 없을 수 있다. 즉, 측정도구는 속성을 측정할 수 있지만, 측정 프로세스에 개입하는 다른 요인이 측정 신뢰도에 영향을 미치는 irrelevant variance을 추가할 수 있습니다.

Be that as it may, numerous extraneous factors may affect the measurement process in ways that add to the variability of the outcome measures. The sources of the added variability can be assessed with generalisability theory and analysis (i.e. this seems consistent with recent thinking about generalisability theory25). Consequently, an instrument may be valid, but its measurements not reliable. That is, an instrument may measure an attribute, but other factors in the measurement process may add irrelevant variance that affects the reliability of the measurements.

 

결론 Conclusions

[구인 타당도]가 [명확한 현실적 참조자referent가 없는 심리적 구조를 타당화하는 방법]이라는 주장은 입증되지 못했다. 무엇보다 타당화의 엄격한 토대가 될 수 있는 의학 교육(및 심리학 및 교육)의 명시적 이론이 부족하기 때문이다. 해석과 주장은 실행 가능한 대체물viable substitutes이 아니다. 단순히 '표준'에서 권고하는 다양한 '타당성 증거의 출처' 범주에 들어맞는 사용 가능한 증거를 나열하는 것만으로는 [측정도구가 측정하고자 하는 것을 측정한다는 것]을 보여주지 못한다. 이러한 증거의 제시가 [법칙적 네트워크의 부족]을 해결하지 못한다. 대신, 타당성 개념을 약화시키고 타당성 주장의 신뢰성을 떨어뜨리는 것으로 보인다. 의학 교육에 대해서 이것이 갖는 일반적인 함의는 [검사 개발자와 사용자가 이론과 별개로 참조가 없고 실증적 근거가 없는 추상적 이론적 구인]을 사용하는 것의 가치를 재고해야 한다는 것이다. [구인 타당도 접근법]을 의학교육 연구를 위해 사용하는 것에 대해 심각하게 재고해봐야 한다.
Construct validity has not proven to be a way to validate psychological constructs that have no clear referent in reality because explicit theory in medical education (and in psychology and education) that can provide a rigorous basis for validation is lacking. Interpretation and argument are not viable substitutes: simply listing any available evidence that fits in the various ‘sources of validity evidence’ categories recommended in the ‘Standards’17-19 does not show that the instrument measures what it purports to measure. It does not resolve the lack of nomological networks. Instead, it seems to weaken the concept of validity and to undermine the credibility of validity claims. The more general implication for medical education is that test developers and users should reconsider the value of using abstract theoretical constructs that have no referent apart from theory and that have no demonstrated empirical basis.22, 23 The use of the construct validity approach should be seriously reconsidered for research in medical education.

의학교육에서 평가 연구와 실무는 특히 [의학교육에서 광범위하게 이뤄지고 있는 기록 보관]을 고려한다면, 훈련과 실무 전반에 걸쳐 종종 쉽게 이용할 수 있고 표준적인 보다 온건한 구체적인 지표(속성attributes)로 더 잘 제공될served 수 있다. 의학교육 연구의 주된 목적은 [추상적인 심리 유형 구인]으로 구성된 [추상적인 심리 유형 이론]을 확립하는 것이 아닌, 오히려, 더 실용적이고, 의학에서의 교수-학습을 더 잘 이해하기 위해 사용될 수 있는 기본 변수나 측정 사이의 관계를 결정하는 것을 목표로 해야 한다. 22 이것은 연구가 검증할 구성보다 연구의 영역에 더 집중해야 한다는 것을 암시한다. 

Assessment research and practice in medical education might be better served by more modest concrete indicators (attributes) that are often readily available and standard across training and practice, especially given the extensive record keeping in medical education. The primary purpose of research in medical education does not seem to be to establish an abstract psychological-type theory that consists of abstract psychological-type constructs, but, rather, is more practical and should be aimed at determining relationships among basic variables or measurements that can be used to better understand teaching and learning in medicine.22 This suggests that research should concentrate on areas of study more than on constructs to validate.

예를 들어, 전문직업성 분야의 연구는 [의대 성적 정보]와 [주 위원회 징계] 사이의 관계에 대한 귀중한 결과를 제공하는데, 이것은 매우 중요한 연구이면서, 이 연구를 위해 전문직업성이라는 구인을 가정postulation할 필요는 없다. 그러한 기본적인 척도(및 연구의 영역)에 초점을 맞추면 [추상적인 이론적 구인의 타당성을 확립하는 것]과 관련된 문제를 피할 수 있을 것이다. 그것은 또한 의학 교육에서 오랫동안 추구되어 온 [이론의 개발]이 [위에서 아래로 내려오는 것]보다 [아래에서 위로 이론을 만들고], 그 다음에 여러 연구의 결과를 결합하고, 그 목적을 위해 개발된 고차적 구인을 가지고 설명함으로써 더 잘 serve된다는 것을 보여준다.

For example, research in the area of professionalism provides valuable results about relationships between information in medical school records and state board disciplinary action, which is very important research but does not require the postulation of a construct of professionalism in order to do so.26 A focus on such basic measures (and areas of research) would avoid the problems associated with (and perhaps the impossibility of) establishing the validity of abstract theoretical constructs. It may also reveal that the development of long sought-after theory in medical education is better served by building theory from the bottom up rather than from the top down and by then combining the results of multiple studies and explaining them with higher-order constructs developed for that purpose.22

 


Med Educ. 2012 Apr;46(4):366-71.

 doi: 10.1111/j.1365-2923.2011.04194.x.

From test validity to construct validity … and back?

Jerry A Colliver 1Melinda J ConleeSteven J Verhulst

Affiliations expand

PMID: 22429172

DOI: 10.1111/j.1365-2923.2011.04194.xAbstract

Context: Major changes in thinking about validity have occurred during the past century, shifting the focus in thinking from the validity of the test to the validity of test score interpretations. These changes have resulted from the 'new' thinking about validity in which construct validity has emerged as the central or unifying idea of validity today. Construct validity was introduced by Cronbach and Meehl in the mid-1950s in an attempt to address the validity of those many psychological concepts that have no clear referent in reality. To do this, construct validity theory required a nomological network--an elaborate theoretical network of constructs and observations connected by scientific laws--to validate the constructs. However, nomological networks are hard to come by and none that would do the job required by construct validity has been forthcoming to date. Thus, the current construct validity approach has retreated to one of simply 'interpretation and argument', but this seems to be too general to tie down the constructs in the way a nomological network would do to give credibility to the validity of the construct. As a result, the concept of validity seems to have been watered down and the credibility of validity claims weakened.Methods: We present a critical review of these concerns about construct validity and provide for contrast a brief overview of a recently proposed view of measurement based on scientific realism and causality analysis.

Objectives: The purpose of this paper is to encourage a discussion of the use of construct validity in medical education, and to suggest that test developers and users reconsider the use of abstract theoretical constructs that have no referent apart from theory.

© Blackwell Publishing Ltd 2012.

의학교육에서 평가의 신뢰(Credibility)인식에 영향을 미치는 요인(Adv Health Sci Educ Theory Pract2021)
Factors affecting perceived credibility of assessment in medical education: A scoping review (Adv Health Sci Educ Theory Pract2021)
Stephanie Long1 · Charo Rodriguez1 · Christina St‑Onge2 · Pierre‑Paul Tellier1 · Nazi Torabi3 · Meredith Young4,5

 

 

 

도입 Introduction

[평가]는 일반적으로 [학습자의 특정 학습 목표, 목표 또는 역량 달성에 대한 판단]을 내리기 위해, 정보를 [시험, 측정, 수집 및 결합]하는 전략을 포함한다(Harlen, 2007; Norcini et al., 2011). 평가는 일반적으로 의학교육에서 네 가지 방법으로 사용된다(엡스타인, 2007).

Assessments are broadly described as any strategy involving testing, measuring, collecting, and combining information to make judgments about learners’ achievement of specific learning objectives, goals, or competencies (Harlen, 2007; Norcini et al., 2011). Assessments are commonly used in four ways in medical education (Epstein, 2007):

  • (i) Practice에 입문하는 사람들이 [역량있음을 보장함으로써 대중을 보호]해야 한다.
  • (ii) 고등교육 [지원자 선발의 근거]를 제공하기 위해
  • (iii) 교육기관(품질보증)을 위하여 [Trainee의 성과에 대한 피드백] 제공
  • (iv) 미래 학습을 지원하고, 방향을 제시한다(엡스타인, 2007; Norcini 등, 2011).
  • (i) to protect the public by ensuring those entering practice are competent,
  • (ii) to provide a basis for selecting applicants for advanced training,
  • (iii) to provide feedback on trainee performance for the institution (i.e., quality assurance), and
  • (iv) to support and provide direction for future learning (Epstein, 2007; Norcini et al., 2011).

[미래 학습을 가이드하는 평가]라는 개념은 평가의 [촉매 효과]로 설명되었으며, 이러한 촉매 효과가 달성되려면 학습자가 평가-생성 피드백(즉, 점수, 서술 코멘트)에 참여함으로써, 학습자가 평가 과정에 능동적으로 참여해야 한다(Norcini 등, 2011). 학습자가 향후 성과를 개선하기 위해 평가에서 생성된 피드백에 참여하지 않을 경우 평가의 잠재적인 교육적 이점은 무효화됩니다. 따라서 평가의 교육적, 수행적 이점을 극대화하기 위해서는, 학습자가 평가에서 생성된 피드백에 참여하도록 장려하거나 저해하는 요소를 이해하는 것이 중요합니다.
The notion of assessment guiding future learning has been described as the catalytic effect of assessment, and for this catalytic effect to be achieved, a learner must be an active participant in the assessment process by engaging with assessment-generated feedback (i.e., scores, narrative comments) (Norcini et al., 2011). If learners fail to engage with assessment-generated feedback to improve future performance, the potential educational benefit of assessment is negated. Therefore, it is critical to understand the factors that encourage or discourage, learners from engaging with assessment-generated feedback in order to maximize the educational and performance benefits of assessment.

의료 학습자(학생, 레지던트 또는 동료)가 [평가 과정에 참여]하고 [평가에서 생성된 피드백을 통합]하여 이후 [성과를 개선하는지 여부]에 몇 가지 요소가 기여할 수 있다. 학생의 평가 참여에 기여하는 한 가지 핵심 요소는 특히 평가인에 의존하는 평가 상황에서 [학습자가 평가와 평가자에 대해 인식하는 신뢰도credibility]이다(Bing-You 등, 1997; Watling, 2014; Watling 등, 2013). 여기서, 현재 증거는 신뢰할 수 있다고 간주되는 피드백이 이후의 관행 개선을 지원하는 데 사용될 가능성이 더 높다는 것을 지적한다. 신뢰할 수 없다고 판단된 피드백은 무시될 가능성이 높으므로 교육적 가치가 거의 없다(Watling, 2014; Watling & Lingard, 2012; Watling 등, 2013). 이 작업의 초점은 평가 순간에 수반되는 [피드백 대화]에 맞춰져 있다는 점에 유의해야 합니다. 따라서, 신뢰성 판단은 평가 과정과 평가자 자체에 의해 영향을 받았습니다. [Supervisor의 피드백 중에서 학습자가 신뢰할 수 있다고 판단한 것]만이 학습 형성에 영향을 미칠 수 있다는 얘기다. 
Several factors may contribute to whether medical learners (students, residents, or fellows) engage with the assessment process and integrate assessment-generated feedback to improve later performance. One key contributing factor to student engagement with assessment is the learner’s perceived credibility of the assessment and of their assessor, particularly in assessor-dependent assessment contexts (Bing-You et al., 1997; Watling, 2014; Watling et al., 2013). Here, current evidence points out that feedback deemed credible is more likely to be used to support later practice improvement. Feedback judged to be not credible is likely to be ignored, and therefore, be of little educational value (Watling, 2014; Watling & Lingard, 2012; Watling et al., 2013). It is important to note that the focus of this work was on the feedback conversation that accompanied an assessment moment. Hence, judgments of credibility were influenced by both the assessment process and the assessor themselves. In other words, only supervisor-provided feedback judged as credible by learners will be influential in shaping learning.

와틀링 외 연구진(2012)에 따르면, 신뢰도 판단은 학습자가 [학습에 통합되어야 할 정보]와 [무시해야 할 정보]를 정리하고, 평가하고, 학습 단서에 가치를 부여할 때 발생한다. Bing-You 외 연구진(1997)에 따르면, Supervisor가 제공한 피드백의 신뢰성에 대한 학습자의 판단은 다음으로부터 영향을 받습니다.
According to Watling et al., (2012), credibility judgments occur when learners organize, weigh, and allocate value to the learning cues presented to them, deciding which information should be integrated into their learning and which should be dismissed. According to Bing-You et al., (1997), learners’ judgments of the credibility of feedback provided by a supervisor are influenced by:

  • (i) Supervisor의 특성에 대한 전공의의 인식(예: 신뢰와 존중, 임상 경험)
  • (ii) Supervisor의 행동에 대한 전공의의 관찰(예: 대인관계 기술 부족, 관찰 부족),
  • (iii) 피드백의 내용(예: 비특정, 자기 표현과 불일치),
  • (iv) 피드백 전달 방법(예: 판단적인 것, 그룹 설정에서 발생한 것) (Bing-You 등, 1997).

  • (i) residents’ perceptions of supervisor characteristics (e.g., trust and respect, clinical experience),
  • (ii) residents’ observations of supervisor behaviour (e.g., lack of interpersonal skills, lack of observation),
  • (iii) content of feedback (e.g., non-specific, incongruent with self-perceptions), and
  • (iv) method of delivering feedback (e.g., judgmental, occurs in group setting) (Bing-You et al., 1997).

따라서 이 지식 본문은 피드백의 개념을 평가자와 학습자 사이의 대화 또는 토론으로 간주한다(Ajjawi & Regehr, 2019). 
This body of knowledge therefore conceives the notion of feedback as a conversation or discussion between an assessor and a learner (Ajjawi & Regehr, 2019).

우리는 교육 동맹의 중요성과 피드백 대화를 신중하게 구성해야 할 필요성을 인정한다(Telio et al., 2015). 하지만 동시에 우리는 평가자 또는 감독자와의 대면 대화(예: 시험 점수, 교육 중 성과 평가, OSCE 점수)와 별개로 학습자는 다양한 출처로부터 자신의 성과에 대한 데이터 또는 정보를 제공받는다고 주장한다. 이 평가 데이터는 학습자에게 피드백을 제공하기 위한 목적으로 작성된 경우가 많습니다 – 컨텐츠의 숙달도를 측정하고, 더 많은 주의나 집중이 필요한 영역을 제안하거나, 학습자가 커리큘럼을 통해 자신의 진행 상황을 추적하도록 지원합니다.

While we acknowledge the importance of the educational alliance (Telio et al., 2015) and the need to carefully construct feedback conversations (Henderson et al., 2019; Watling, 2014), we argue that learners receive data or information about their performance from a variety of sources that are disconnected from face-to-face conversations with an assessor or supervisor (e.g., examination scores, in-training performance evaluations, OSCE scores). This assessment-generated data is often intended to function as feedback to the learners – to gauge mastery of content, to suggest areas that require more attention or focus, or to help a learner track their progress through a curriculum.

이러한 평가-생성 피드백assessment-generated feedback의 교육적 가치를 지원하기 위해 평가(평가 데이터를 생성하는 대상) 및 평가-생성 피드백(평가로 생성된 데이터 및 학습자와 공유되는 데이터)의 인식된 신뢰도perceived credibility에 영향을 미치는 요인을 조사하기 시작했다. 

To support the educational value of this assessment-generated feedback, we set out to explore the factors that influence the perceived credibility of assessment (the objects that generate assessment data) and assessment-generated feedback (the data generated by assessments and shared with learners). 

방법 Methods

의학 교육에서 평가 및 평가-생성 데이터의 신뢰성에 대한 학습자 인식에 대한 현재 문헌은 이질적이고 방법론과 집중도가 매우 다양한 논문으로 구성되어 있다. 이러한 가변성은 우리의 초점 영역이 의학 교육 내에서 새로운 연구 영역이라는 인식과 결합하여 범위 검토 방법론을 우리의 연구 맥락에서 현재 연구에 가장 적합한 접근방식으로 만든다. Scoping review에 대한 몇 가지 접근방식이 있지만, 우리는 Arcsey와 O'Malley(2005) 5단계 프레임워크에 의존했다. 범위 지정 검토에는 선택 사항인 6단계( 이해관계자와의 협의)가 포함될 수 있지만(Arcsey & O'Malley, 2005) 포함되지 않았다.
Current literature on learner perceptions of credibility of assessment and assessment-generated data in medical education is disparate and comprised of articles that are highly variable in methodology and focus. This variability, in combination with the recognition that our area of focus is an emerging area of research within medical education, makes a scoping review methodology the most appropriate approach for the present study in our research context. While there are several approaches to scoping reviews (Arksey & O'Malley, 2005; Levac et al., 2010), we relied on the Arksey and O'Malley (2005) 5-stage framework. Scoping reviews can include an optional 6th step (consultation with stakeholders) (Arksey & O'Malley, 2005), which was not included.

1단계: 연구 질문 식별
Step one: Identify research question

이 검토는 "의학교육 문헌에 문서화된 평가 및 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 요인은 무엇인가?"라는 연구 질문에 의해 유도되었다.
This review was guided by the research question, What are the factors that affect the perceived credibility of assessment and assessment-generated feedback documented in the medical education literature?”.

2단계: 관련 연구 확인
Step two: Identifying relevant studies

의료 사서(NT)와 협력하여 통제된 어휘(예: MeSH)와 키워드를 사용하여 관련 문헌을 식별하기 위한 검색 전략을 개발하고 실행했다. 검색 전략은 MEDLINE(Ovid), PsycInfo(Ovid), Scopus, EMBASE(Ovid), EBSCO(EBSCO)에서 채택 및 구현되었다. 검색을 2000년에서 2020년 11월 16일 사이에 발표된 연구로 제한했다.(2017년 6월 17일에 처음 실행되어 2020년에 업데이트됨) 이것이 보건 직업 교육에서 [평가의 교육적 가치에 대해 논의하는 쪽]으로 문헌의 변화를 나타냈기 때문에 우리는 2000년에 닻을 내렸다(Frank 등, 2010). 보다 구체적으로, 이것은 학습과 평가의 성과(즉, 역량)에 초점을 맞춘 의료 교육 개혁으로 향하는 전환점을 나타냈다(Frank et al., 2010). 

In collaboration with a medical librarian (NT), a search strategy was developed and executed to identify relevant literature, using controlled vocabularies (e.g., MeSHs) and keywords. The search strategy was adapted and implemented in: MEDLINE (Ovid), PsycInfo (Ovid), Scopus, EMBASE (Ovid), and ERIC (EBSCO). We limited the search to studies published between 2000 to November 16, 2020 (search first executed June 17, 2017 and updated in 2020). We chose to anchor to 2000 as this represented a shift in the literature towards discussing the educational value of assessment in health professions education (Frank et al., 2010). More specifically, this represented a turning point towards reforms in medical education focused on outcomes (i.e., competency) of learning and assessment (Frank et al., 2010). 

3단계: 스터디 선택
Step three: Study selection

포함된 논문: (1) 의학 학습자를 초점 모집단으로 두고, (2) 프로그램이나 환자가 아닌 개별 학습자에 대한 평가를 포함하고, (3) 평가 또는 평가-생성 피드백과 관련하여 신뢰성을 논의했으며, (4) 주요 연구 연구였으며, (5) 영어 또는 프랑스어(연구팀의 언어 역량)였다.
Included papers: (1) had medical learners as the focal population, (2) contained assessment of individual learners (rather than programs or patients), (3) discussed credibility as related to assessment or assessment-generated feedback, (4) were primary research studies, and (5) were in English or French (linguistic competencies of the research team).

두 명의 저자(SL, MY)는 웹 기반 선별 애플리케이션 Rayyan을 사용하여 모든 제목과 추상(Peters 등, 2015)을 독립적으로 심사했다. 의견이 일치하지 않는 경우, 세 번째 검토자(CSO)는 불일치를 해결했다. 원시 백분율 합의는 평가자 간 신뢰도의 척도로 사용되었다(Kastner 등, 2012). 전체 텍스트 검토를 위해 포함된 문서는 EndNote X8.0.2로 내보내졌다(EndNote Team, 2013). SL은 모든 전체 텍스트 기사를 독립적으로 심사했으며, MY는 포함을 위해 전체 텍스트 문서의 10%를 검증했다.

Two authors (SL, MY) independently screened all titles and abstracts (Peters et al., 2015) using the web-based screening application Rayyan (http://rayyan.qcri.org) (Ouzzani et al., 2016). In cases of a disagreement, a third reviewer (CSO) resolved discrepancies. Raw percent agreement was used as a measure of inter-rater reliability (Kastner et al., 2012). Articles included for full-text review were exported to EndNote X8.0.2 (The EndNote Team, 2013). SL independently screened all full-text articles, with MY verifying 10% of full-text articles for inclusion.

4단계: 데이터 차트 작성
Step four: Charting the data

추출된 데이터: 저널, 발행 연도, 대륙, 연구 설계, 방법론, 인구 특성, 평가 유형, 평가 제공자, 제공된 피드백 유형, "타당성"이 사용되지 않은 경우, "타당성"이라는 용어는 구조를 지칭하는 데 사용되었다., 신뢰성의 정의 , 신뢰도에 영향을 미치는 요인.
Data extracted: journal; year of publication; continent; study design; methodology; study population characteristics; types of assessment; who provided the assessment; type of feedback provided; use of term “credibility”, if “credibility” was not used which term was used to refer to the construct; definition of credibility; factors that affect credibility.

평가 유형, 평가 제공자, 피드백 유형은 원본 기사에 사용된 정확한 언어에 따라 코딩되었습니다.
Assessment type, provider of assessment, and feedback type were coded relying on the exact language used in the original articles.

5단계: 결과 수집, 요약 및 보고
Step five: Collating, summarizing, and reporting the results

데이터 합성은 서지학적 설명과 주제 분석에 초점을 맞췄다. 우리는 PRISMA-ScR에 따라 결과를 보고했다.
The data synthesis focused on bibliometric description and thematic analysis. We reported our results according to the PRISMA extension for Scoping Reviews (PRISMA-ScR) (Peters et al., 2020; Tricco et al., 2018).

데이터 분석
Data analysis

정량분석
Quantitative analysis

연구의 특성 및 분포(예: 연구 설계, 출판 연도, 연구 인구)를 설명하기 위해 서지학 특성에 대한 기술 분석이 사용되었다.
Descriptive analyses of bibliometric characteristics were used to describe the nature and distribution of the studies (e.g., study design, year of publication, study population).

정성적 주제 분석
Qualitative thematic analysis

우리는 토마스와 하든(2008)이 설명한 주제 분석을 위한 방법론적 프레임워크를 적용했다. 
We applied the methodological framework for thematic analysis described by Thomas and Harden (2008). 

결과Results

검색 결과 Search results

80개의 문헌이 포함 기준을 충족하여 합성에 포함되었다(그림 1 "보완 디지털 부록 2" 참조).
Eighty articles met the inclusion criteria and were included in the synthesis (Fig. 1, see "Supplemental Digital Appendix 2" for a list of all included articles).

Fig. 1

포함된 문서의 특성
Characteristics of included articles

포함된 연구는 2000년 1월 1일부터 2020년 11월 16일 사이에 발표되었으며, 시간 경과에 따른 출판물 수가 분명히 증가했다(보완 디지털 부록 3).

  • 연구는 48개 저널에 걸쳐 발표되었다.
  • 다양한 지리적 지역에서 수집되었지만, 대다수는 유럽(n=38, 38.8%)과 북미(n=31, 31.6%)였다.
  • 참여자는 의대생(n = 60, 61%), 레지던트(n = 17%, 17%), 펠로우(n = 2, 2.0%), 전문 교육생(n = 17%, 17%), 전공의(n = 2, 2.0%) 등이다.
  • 대부분의 평가는 감독관 또는 심사원(n=43%, 38%)이 실시했으며, 평가-생성 피드백은 주로 점수 또는 등급(n=32, 23%)으로 제시되었으며, 주로 서면(n=29,20%) 또는 구두(n=29,21%) 형식으로 제공되었다.
  • 포함된 논문은 광범위한 연구 접근법에서 나왔으며, 반구조화 인터뷰(n = 20%, 10%), 포커스 그룹(n = 31, 23%), 설문지(n = 37, 28%), 설문조사(n = 18, 13%), 설문지 또는 설문지의 자유 텍스트 논평(n = 13, 9.7%)에서 생성된 데이터에 의존했다. (n = 14, 10%).

Studies included were published between January 1, 2000 and November 16, 2020, with an apparent increase in the number of publications across time (Supplemental Digital Appendix 3).

  • Studies were published across 48 journals.
  • Literature was drawn from a variety of geographic regions, but the majority were from Europe (n = 38, 38.8%) and North America (n = 31, 31.6%).
  • Participants included: medical students (n = 60, 61%), residents (n = 17, 17%), fellows (n = 2, 2.0%), specialist trainees (n = 17, 17%), and registrars (n = 2, 2.0%).
  • Most assessments were provided by a supervisor or an assessor (n = 43, 38%), and assessment-generated feedback was primarily presented as scores or ratings (n = 32, 23%), usually provided in written (n = 29, 20%) or verbal form (n = 29, 21%).
  • Included papers were from a breadth of research approaches, relying on data generated from semi-structured interviews (n = 20, 10%), focus groups (n = 31, 23%), questionnaires (n = 37, 28%), surveys (n = 18, 13%), free-text comments from surveys or questionnaires (n = 13, 9.7%), a pile-sorting activity, and psychometric analysis of assessment data (n = 14, 10%).

표 1 본 검토에 포함된 간행물의 서지학적 세부 정보
Table 1 Bibliometric details of publications included in this review

 

신뢰성의 개념화
Conceptualization of credibility

80개 출판물 중 34개 논문만이 '신뢰성credibility'이라는 특정 용어를 사용했으며, 명시적인 정의를 제공한 것은 없었다. 동일한 현상(즉, 평가 또는 평가-생성 피드백의 인식된 신뢰성)을 반영하는 것으로 간주되는 27개의 다른 용어를 식별했다. 가장 자주 사용되는 용어는 유용한(n = 23), 공정한(n = 17), 가치있는(n = 10)이었다("보완 디지털 부록 5"에서 식별된 전체 용어 목록).
Of the 80 publications included in the synthesis, only 34 articles used the specific term ‘credibility’, and none provided an explicit definition. We identified 27 other terms that were considered to reflect the same phenomenon (i.e., perceived credibility of assessment or assessment-generated feedback). The most frequently used terms were useful (n = 23), fair (n = 17), and valuable (n = 10) (full list of terms identified in "Supplemental Digital Appendix 5").

평가의 교육적 가치
Educational value of assessment


여러 논문(Malau-Aduli 등, 2019; Ricci 등, 2018; Ryan 등, 2017; Yielder 등, 2017)은 평가의 교육적 가치와 관련된 결과를 명시적으로 설명하고 포함시켰다. 교육적으로 가치 있는 것으로 인식되는 평가는 (Rici 등, 2018)에서 인용한 "우리가 남은 경력 동안 사용할 지식을 최대로 유지할 수 있는 황금 같은 기회"(참여자 73, 페이지 358)로 간주되었다. 교육적으로 가치 있는 평가로부터 기대되는 긍정적 결과는 [학습자가 자신의 약점을 성찰할 수 있도록 한다는 것]이었다. "…내가 잘하지 못하는 분야를 식별하게 한 것은 질문 그 자체였다." (참가자 14CP, 페이지 967)는 (라이언 외, 2017)에서 인용했다.

Several papers (Malau-Aduli et al., 2019; Ricci et al., 2018; Ryan et al., 2017; Yielder et al., 2017) explicitly described and included findings pertaining to the educational value of assessment. Assessments perceived as educationally valuable were viewed as “…golden opportunit[ies] to stay on top of the knowledge we will be using for the rest of our careers” (Participant 73, p. 358) quoted from (Ricci et al., 2018). A promising outcome of educationally valuable assessment was that it allowed learners to reflect on their weaknesses: “…what made me identify the areas I wasn’t good at was the questions themselves” (Participant 14CP, p. 967) quoted from (Ryan et al., 2017).

인식된 신뢰도에 영향을 미치는 요인
Factors that affect perceived credibility

학습자의 평가 및 평가-생성 피드백에 대한 인식 신뢰도에 영향을 미치는 세 가지 요소를 확인했습니다.
We identified three sets of factors that affect learners’ perceived credibility of assessment and assessment-generated feedback:

  • (i) 평가 프로세스의 요소
  • (ii) 학습자의 교육 수준 및
  • (iii) 의학교육의 맥락
  • (i) elements of the assessment process,
  • (ii) learners’ level of training, and
  • (iii) context of medical education

(모든 테마와 하위 테마의 개요는 표 2를 참조하고, 각 테마를 지원하는 예시 인용문은 "보완 디지털 부록 6"을 참조한다.)
(see Table 2 for an overview of all themes and subthemes; and "Supplemental Digital Appendix 6" for exemplary quotes supporting each theme).

표 2 평가의 인식된 신뢰도에 영향을 미치는 요소
Table 2 Factors that affect the perceived credibility of assessment

 

요인 1: 평가 프로세스의 요소
Factor 1: Elements of an assessment process

우리는 학습자의 신뢰도에 대한 인식에 영향을 미치는 평가 프로세스의 다섯 가지 요소를 확인했습니다.
We identified five elements of the assessment process that influenced learners’ perceptions of credibility:

  • (A) 평가자 또는 피드백 제공자,
  • (B) 평가 절차,
  • (C) 인식된 평가 점수의 품질
  • (D) 평가점수의 형식 및
  • (E) Suboptimal performance에 따르는 결과.
  • (A) assessor or feedback provider,
  • (B) procedures of assessment,
  • (C) perceived quality of assessment scores,
  • (D) format of assessment scores, and
  • (E) consequences of suboptimal performance.

A.평가자 또는 피드백 제공자 
A.Assessor or feedback provider 

여기에는 다음이 포함된다.
which included:

  • (i) 평가자와의 신뢰 관계 (i) trusting relationship with assessor,
  • (ii) 장기 훈련생 진행 상황에 대한 관심 인식 (ii) perceived interest in long-term trainee progress,
  • (iii) 평가에 대한 경험/훈련 부족, (iii) lack of experience/training with assessment, and
  • (iv) 존경 (iv) respect.

(i)평가자와의 신뢰관계 
(i)Trusting relationship with assessor 

대부분의 학습자는 피드백을 제공한 개인(동료를 포함)과 강력하고 신뢰할 수 있는 관계가 있는 경우 평가 및 평가-생성 피드백을 신뢰할 수 있는 것으로 인식했다. 이 결과는 모든 평가 형태에 걸쳐 일관되었으며, 자신의 성과를 평가하는 개인과 신뢰 관계가 있다면 긍정적이든 부정적이든 의학 학습자들이 평가에서 생성된 피드백을 수용하고 반응한다는 것을 나타낸다. 

Most learners perceived an assessment and assessment-generated feedback as credible if they had a strong and trusting relationship with the individual who provided it (Bogetz et al., 2018; Bowen et al., 2017; Duijn et al., 2017; Feller & Berendonk, 2020; LaDonna et al., 2017; Lefroy et al., 2015; MacNeil et al., 2020; Mukhtar et al., 2018; Ramani et al., 2020; Watling et al., 2008), including peers (Rees et al., 2002). This finding was consistent across forms of assessment and indicates that medical learners were accepting and responsive to assessment-generated feedback, be it positive or negative, if there was a trusting relationship with the individual assessing their performance:

"그녀는 저를 잘 알고 있기 때문에 그 피드백은 믿을 만하다고 생각합니다. 당신을 잘 알고 좋아하는 사람에게서 끔찍한 말을 듣기는 힘들 것 같아요. 하지만, 이것이 당신이 더 잘할 수 있는 것이라고 말하고 실행 가능한 조언을 주는 것에 있어서, 저는 당신이 많은 것을 하는 것을 보고 당신이 어떻게 일을 잘하는지 아는 사람에게서 오는 것이 좋다고 생각합니다." (R6, 페이지 1076) (라마니 외, 2020)에서 인용했습니다. 
“She knows me well, so I think the feedback is reliable. I think it might be hard to get something horrible coming from someone who knows you well and who you like. But, in terms of saying this is what you could do better, and giving actionable pointers, I think that it’s nice coming from someone who’s seen you do a lot of stuff and knows how you work very well.” (R6, p. 1076) quoted from (Ramani et al., 2020).

그 반대도 사실이었다. 즉, 학습자는 꾸준히 자신이나 자신의 기술에 덜 익숙한 개인의 피드백을 무시하고 평가절하했다.
The inverse was also true, learners regularly ignored and discounted feedback from individuals who were less familiar with them or their skills (Beaulieu et al., 2019; Bogetz et al., 2018; Cho et al., 2014; Duijn et al., 2017; Levine et al., 2015; McKavanagh et al., 2012).


(ii)연수생 장기진도에 대한 관심도 인식 
(ii)
Perceived interest in trainee long-term progress 

학습자를 적극적으로 관찰하지 않거나 불충분한 관찰을 바탕으로 수행에 대한 판단을 내린 평가자에 의해 완료된 평가는 신뢰할 수 있는 것으로 인식되지 않았다. 평가-생성 피드백을 개인화하고, 구체적이고, 행동가능하게 주기 위하여 시간과 공간을 제공한 평가자를 가치있게 여겼다.
Assessments completed by assessors who did not actively observe their learners or made judgments about performance based on insufficient observations were not perceived as credible (Areemit et al., 2020; Bowen et al., 2017; Cho et al., 2014; Duijn et al., 2017; Eady & Moreau, 2018; Ingram et al., 2013; MacNeil et al., 2020; McKavanagh et al., 2012; Ramani et al., 2020). Assessors who provided time and space for

  • personalized (Bleasel et al., 2016; Bowen et al., 2017; Duijn et al., 2017; Harrison et al., 2015),
  • specific (Beaulieu et al., 2019; Brown et al., 2014; Duijn et al., 2017; Green et al., 2007; Gulbas et al., 2016; Harrison et al., 2015; Ramani et al., 2020), and
  • actionable assessment-generated feedback (Areemit et al., 2020; Bleasel et al., 2016; MacNeil et al., 2020; Murdoch-Eaton & Sargeant, 2012; Perron et al., 2016; Ramani et al., 2020) were valued:

 

(iii)평가에 대한 경험/훈련 부족 
(iii)
Lack of experience/training with assessment 

평가자가 교육 및 평가 프로세스에 대한 경험이 부족한 경우, 학습자는 평가 또는 평가에서 생성된 피드백을 신뢰할 수 있는 것으로 인식할 가능성이 적습니다. 평가자가 다음과 같은 경우 믿을 만한 것으로 보이지 않았다.

  • 평가 프로세스를 구현하는 방법에 익숙하지 않은 경우,
  • 역량을 적절하게 평가하는 방법에 대해 확신이 없는 경우
  • "절차를 따르지 않는 것" 

When an assessor lacked training and/or experience with the assessment process, learners were less likely to perceive the assessment or assessment-generated feedback as credible (Brits et al., 2020; Gaunt et al., 2017; Mohanaruban et al., 2018). If an assessor was

  • unfamiliar with how to implement the assessment process (Bleasel et al., 2016; Mukhtar et al., 2018),
  • unsure about how to properly evaluate competence (Johnson et al., 2008), or
  • “w[as] not buying into the process” (p. 592) quoted from (Braund et al., 2019), it was not seen as credible.

이는 수행능력-중심 평가, 직장-기반 평가 및 포트폴리오에서 가장 두드러졌다.
This was most apparent in performance-based assessment (Green et al., 2007), workplace-based assessment (Brown et al., 2014; Gaunt et al., 2017; Johnson et al., 2008; McKavanagh et al., 2012; Ringsted et al., 2004; Weller et al., 2009), and portfolios (Johnson et al., 2008; Kalet et al., 2007; Sabey & Harris, 2011).

(iv)존중 
(iv)
Respect 

학습자는 자신이 존경하는 의사의 평가 피드백을 가치있게 여기고, 선호한다고 보고했다. 그리고 그러한 존경은 의사의 임상 기술과 교육 능력 모두에서 생성되었다.

Learners reported valuing and preferring assessment-generated feedback from physicians they respected– where respect arose from both the physician’s clinical skills (Bello et al., 2018; Bleasel et al., 2016; Feller & Berendonk, 2020; Ramani et al., 2020) and teaching abilities (Bowen et al., 2017; Dijksterhuis et al., 2013; Sharma et al., 2015):

"내가 정말 존경하는 사람으로부터 긍정적인 피드백을 받으니 내 일에 대한 자신감이 높아지고 목적의식이 높아졌다.". 학습자들은 또한 자신의 교수 능력을 향상시키길 원하는 지도자들의 중요성을 강조했다(Dijksterhuis 등, 2013; 샤르마 등, 2015).

“Getting positive feedback from someone I really admired boosted my confidence and increased my sense of purpose in my work.” (Unspecified resident, p. 509) quoted from (Beaulieu et al., 2019). Learners also stressed the importance of supervisors who wanted to improve their own teaching skills (Dijksterhuis et al., 2013; Sharma et al., 2015).

요약하자면, 이러한 발견들은 아래와 같은 특징을 보이는 평가자 또는 슈퍼바이저와 신뢰할 수 있는 관계에 있을 때, 평가 또는 평가에서 생성된 피드백도 신뢰할 수 있는 것으로 인식될 가능성이 더 높다는 것을 시사한다.

  • 주어진 평가에 대한 경험이 있다.
  • 학습자의 장기적 성공에 대한 관심을 보여준다.
  • 자신의 교육 능력을 향상시키길 원하는 사람으로 인식된다.
  • 믿을 만 하다.

In summary, these findings suggest that an assessment or assessment-generated feedback is more likely to be perceived as credible if there is a trusting relationship with an assessor or supervisor who

  • has experience with a given assessment,
  • shows an interest in the long-term success of a learner,
  • is perceived as someone who wants to improve their teaching skills, and
  • is seen as trustworthy.

B.평가 절차 
B.Procedures of an assessment 

평가 절차의 신뢰성에 대한 교육생의 인식에 영향을 미친 주요 요인은 다음과 같다.
The major factors that affected trainee perceptions of the credibility of the procedures of an assessment were:

  • (i) 평가 접근법의 표준화, (i) standardization of assessment approach
  • (ii) 명확한 목적 (ii) clear purpose
  • (iii) 임상 관련성, (iii) clinical relevance
  • (iv) 타이밍 (iv) timing.

(i)평가 접근법의 표준화 
(i)
Standardization of assessment approach 

학습자는 [표준화된 평가와 평가-생성 피드백]을 [비표준화된 양식]보다 더 신뢰할 수 있는 것으로 인식했다(Harrison et al., 2016). 학습자들은 직장 기반 평가(Khairy, 2004) 또는 성과 기반 평가(Jawaid et al., 2014)와 같은 평가 방법의 표준화 및 구조 부족에 대해 우려를 제기했다. 예를 들어, 학습자는 일관된 방식으로 평가(제프리 외, 2011; 프레스턴 외, 2020)되고 성과를 명시적 표준에 대해 평가하는 것이 중요하다고 강조했다(벨로 외, 2018; 해리슨 외, 2016; 리스 외, 2002; 샤르마 외, 2015; 수호요 외, 2017; 웰러). 학습자는 비구조화된 평가가 불공정하고(Nesbitt 등, 2013) 자신의 수행 정도를 덜 대표한다고 느꼈다(Brits 등, 2020).

Learners perceived standardized assessment and assessment-generated feedback as more credible than non-standardized forms (Harrison et al., 2016). Learners raised concerns regarding the lack of standardization and structure of assessment methods such as workplace-based assessments (Khairy, 2004) or performance-based assessments (Jawaid et al., 2014). For instance, learners stressed the importance of being assessed in a uniform manner (Jefferies et al., 2011; Preston et al., 2020) and having their performance evaluated against explicit standards (Bello et al., 2018; Harrison et al., 2016; Rees et al., 2002; Sharma et al., 2015; Suhoyo et al., 2017; Weller et al., 2009). Learners felt that unstructured assessments were unfair (Nesbitt et al., 2013) and less representative of their performance (Brits et al., 2020).

(ii)명확한 목적 
(ii)
Clear purpose 

학습자는 그 목적을 이해했을 때 평가가 더 의미 있다고 인식했으며(Gaunt 등, 2017년; Given 등, 2016년; Green 등, 2007년; LaDonna 등, 2017년; MacNeil 등, 2020년) 평가 프로세스에 더 많이 참여하도록 이끌었다(Eenman 등, 2015년). 그러나 학습자가 평가의 목적에 대해 혼란스럽거나 불분명할 때 평가의 가치를 무시하는 경향이 있었다(Cho 등, 2014). 
Learners perceived assessments to be more meaningful when they understood its purpose (Gaunt et al., 2017; Given et al., 2016; Green et al., 2007; Kalet et al., 2007; LaDonna et al., 2017; MacNeil et al., 2020), which lead them to engage more with the assessment process (Heeneman et al., 2015). However, when learners were confused or unclear about the purpose of an assessment, they tended to dismiss its value (Cho et al., 2014): 

(iii)임상 관련성 
(iii)
Clinical relevance 

학습자는 실제 시나리오에서 임상 기술을 실습할 기회를 제공하는 것으로 보이는 것과 같이 [실제 임상진료를 복제replicated한, 임상적으로 관련이 있다고 인식한 평가]를 가치 있게 평가했다. 이러한 평가는 임상 역량을 입증할 수 있는 기회로 간주되었다. 
Learners valued assessments they perceived as clinically relevant because they were seen to provide opportunities for practicing clinical skills in authentic scenarios (Barsoumian & Yun, 2018; Bogetz et al., 2018; Foley et al., 2018; Hagiwara et al., 2017; Jawaid et al., 2014; Khorashad et al., 2014; Malau-Aduli et al., 2019; Olsson et al., 2018; Pierre et al., 2004; Preston et al., 2020; Shafi et al., 2010; Yielder et al., 2017) that replicated real-life clinical care (Bleasel et al., 2016; Craig et al., 2010; McLay et al., 2002; Moreau et al., 2019). These assessments were viewed as opportunities to demonstrate clinical competence.

(iv)평가 타이밍
(iv)Timing of assessment 

마지막으로, [평가의 타이밍]은 교육생이 평가의 신뢰성을 인식하는 방식, 특히 훈련 중에 평가를 해야 하는 시점에 영향을 미쳤다. 평가가 커리큘럼과 수련 단계에 적합하고 적절하다고 판단될 때 평가에 대한 인식의 신뢰도가 증가하였다. Kalet 등은 [학습자들이 아직 노출되지 않은 역량에 대해 평가하는 것]은 시간 활용이란 점에서 부적절하다고 느꼈다고 보고했다. 또한 학습 잠재력을 최적화하고 개선할 영역을 식별하기 위해 훈련 초기에 특정 성과 기반 평가(예: OSCE, 시뮬레이션 임상 검사)가 요청되었다.

Lastly, the timing of an assessment also affected how a trainee perceived its credibility, specifically at which point during training an assessment should be given. Perceived credibility of assessment increased when the assessment was believed to be relevant and appropriate to the curriculum (Brits et al., 2020; Labaf et al., 2014; McLaughlin et al., 2005; Papinczak et al., 2007; Pierre et al., 2004; Vishwakarma et al., 2016) and level of training (Kalet et al., 2007; Pierre et al., 2004; Wiener-Ogilvie & Begg, 2012). Kalet et al. (2007) reported that learners felt it was a poor use of time to be assessed on competencies to which they had not yet been exposed. In addition, certain performance-based assessments (e.g., OSCE, simulated clinical examination) (Wiener-Ogilvie & Begg, 2012) were requested earlier in training to optimize learning potential and identify areas for improvement.

요약하면, 우리의 연구 결과는 학습자가 평가 또는 평가에서 생성된 피드백은 그것이 [표준화된 경우], [명확하게 전달되는 목적이 있고], [임상적 관련성을 보유]하고 있으며, [교육 중에 적절한 시점에 제공받는 경우]에 신뢰할 수 있는 것으로 인식할 가능성이 더 높다는 것을 보여준다.
In sum, our findings show that learners are more likely to perceive assessments or assessment-generated feedback as credible if they are standardized, have a clearly communicated purpose, hold clinical relevance, and are given at an appropriate time during their training.

C.평가점수의 인정된 품질
C.Perceived quality of assessment scores

학습자는 [점수의 퀄리티가 높다고 인식했을 경우]에 가장 호의적으로 반응했고, 이는 (점수가) 자신의 수행능력을 가장 잘 대표한다고 믿었을 때를 의미한다. 동등한 점수의 부족은 [수행능력-기반 평가]나 [직장 기반 평가]에서 주로 제기되었다. 그러나 한 연구는 [서면 시험(훈련 중 검사)]에 대해서도 유사한 우려를 식별했다(Kim 등, 2016; Ryan 등, 2017). 성과 기반 및 직장 기반 평가의 경우, 이러한 우려는 학습자가 자신의 평가자를 선택함으로써 도입된 인식 편향과 강하게 연결되었다(Brown et al., 2014; Curran et al., 2018; Feller & Berendonk, 2020).

Learners responded most favourably to scores they perceived to be of high quality, as they were believed to be most representative of their performance (Brits et al., 2020; Jawaid et al., 2014; Pierre et al., 2004). Lack of comparable scoring was an issue primarily raised with performance-based (Jawaid et al., 2014; Pierre et al., 2004) and workplace-based assessments (Kim et al., 2016; Nesbitt et al., 2013; Weller et al., 2009). One study, however, identified similar concerns on a written assessment (in-training examination) (Kim et al., 2016; Ryan et al., 2017). For performance-based and workplace-based assessments, this concern was strongly linked to perceived bias introduced by learners selecting their own assessors (Brown et al., 2014; Curran et al., 2018; Feller & Berendonk, 2020).

D.평가 점수 형식
D.Format of assessment scores

[평가 점수의 형식]은 훈련생이 그 신뢰도를 인식하는 방식에도 영향을 미쳤다. 학습자는 수행 평가 척도(Braund et al., 2019; Castonguay et al., 2018) 또는 양식(Curran et al., 2018)과 같은 [특정한 수행능력 채점 방법]은 "다양한 수준의 훈련과 실제 기술의 뉘앙스를 파악할 수 없었다"며 "학습 목표를 해석하고 해석하는데 어려움을 겪었다"고 느꼈음을 밝혔다. 이들은 평점이 '의미를 상실했다'고 느꼈고, 주어진 항목에서 '좋은 것good에서 우수한 것excellent으로' 나아가는 데 필요한 구체적인 기술을 찾아내기 위해 고군분투했다.

The format of assessment scores also affected how a trainee perceived its credibility. Learners felt certain assessment scoring methods such as performance rating scales (Braund et al., 2019; Castonguay et al., 2019) or forms (Curran et al., 2018) were unable to “catch the nuances of different levels of training and actual skills.” (Unspecified SR resident, p. 1500) quoted from (Bello et al., 2018) and were “difficult to interpret and translate into learning goals. They felt ratings ‘lacked meaning’ and struggled to identify specific skills to improve on to ‘move from good to excellent’ on a given item.” (Results, p. 178) quoted from (Bogetz et al., 2018).

E.최적이 아닌 성능의 결과
E.Consequences of suboptimal performance

평가자의 인식된 신뢰성이 [평가자 및 피드백 제공자], [평가 절차], [표준화된 채점], [평가 점수 형식] 및 [부족한 성과에 따르는 결과]를 포함한 [평가 프로세스의 여러 요소]에 의해 영향을 받는다는 것을 시사한다.

Our results suggest that the perceived credibility of an assessment is influenced by multiple elements of the assessment process including the assessor and feedback provider, procedures of an assessment, standardized scoring, format of assessment scores, and consequences of suboptimal performance.

평가는 부족한 성과에 따른 결과가 명확할 때 더 신뢰할 수 있는 것으로 인식되었다(Arnold 등, 2005). 즉 "과정 중은 물론 심지어 졸업에서도 동료의 성적에 영향을 미쳐야 한다"라는 생각과 같다.

  • 일부 학습자는 감독자 기반 평가와 동료 평가를 모두 포함하여, [수반되는 결과가 없는 평가]는 학습에 미치는 영향이 제한적이라고 느꼈다(Arnold 등, 2005).
  • 그러나 일부 학습자는 반대로 특정 평가(예: 지식 테스트 또는 수행 기반 평가)의 결과는 "그런 테스트가 실제로 가져야 할 결과보다 훨씬 더 크다"고 느꼈다.

Assessments were perceived to be more credible when there were clear consequences of suboptimal performance, i.e., “it should affect the peer’s grades in courses and even in graduation” (p. 821) (Arnold et al., 2005). Some learners felt assessments with no consequences limited potential for learning (Dijksterhuis et al., 2013; Schut et al., 2018)—including both supervisor-based and peer assessment (Arnold et al., 2005). However, some learners felt the consequences of certain assessments e.g., knowledge tests or performance-based assessment were “much bigger than the consequences such a test should actually have.” (Participant B1, p. 660) quoted from (Schut et al., 2018).

요인 2: 학습자의 교육 수준
Factor 2: Learners’ level of training

[학습자의 수련 단계]는 평가에 대한 인식된 신뢰성과 평가-생성 피드백에 대한 후속 수용성에 영향을 미쳤다(Bello 등, 2018; Bowen 등, 2017; Murdoch-Eaton & Sargeant, 2012; Wade 등, 2012). 학습자가 주니어 학습자에서 시니어 학습자로 발전함에 따라 수동적인 피드백 수신(예: 평가자가 기준을 충족하는지 알려 주기를 기대함)에서 성과 향상을 위한 학습 전략을 조정하기 위한 보다 적극적인 피드백 탐색으로 발전적 전환이 일어날 수 있습니다(Dijsterhuis 등, 2013; Murdoch-Eaton & Sargeant)., 2012).

  • 주니어 학습자는 자신의 성과를 긍정하기 위해 긍정적인 피드백을 원했고, 부정적인 피드백으로 인해 사기가 저하되었습니다(Murdoch-Eaton & Sargeant, 2012).
  • 반대로 상급 학습자는 성과 향상에 사용될 수 있기 때문에 부정적인 피드백에서 더 큰 가치를 보았다(Bleasel et al., 2016; Chaffinch et al., 2016; Murdoch-Eaton & Sargeant, 2012; Sabey & Harris, 2011). 상급 학습자들은 긍정적인 피드백이 "자신을 현실에 안주하게 할 수 있다"(Trainee A3a, 페이지 718)는 것과 항상 실천 가능한 개선 단계를 제공하는 것은 아니기 때문에 의미가 적다고 느꼈습니다(Harrison et al., 2016).

A learner’s level of training influenced their perceived credibility of an assessment and their subsequent receptivity to assessment-generated feedback (Bello et al., 2018; Bowen et al., 2017; Murdoch-Eaton & Sargeant, 2012; Wade et al., 2012). As learners progressed from being junior to senior learners, a developmental shift may occur from passive reception of feedback (e.g., expecting assessors to inform them if they are meeting standards) to more active seeking of feedback in order to adapt learning strategies to improve performance (Dijksterhuis et al., 2013; Murdoch-Eaton & Sargeant, 2012).

  • Junior learners wanted positive feedback to affirm their performance and were demoralized by negative feedback (Murdoch-Eaton & Sargeant, 2012).
  • On the contrary, senior learners saw greater value in negative feedback as it could be used to improve performance (Bleasel et al., 2016; Chaffinch et al., 2016; Murdoch-Eaton & Sargeant, 2012; Sabey & Harris, 2011). Senior learners felt that positive feedback was less meaningful because it “can make you complacent” (Trainee A3a, p. 718) quoted from (Murdoch-Eaton & Sargeant, 2012) and it did not always provide actionable steps for improvement (Harrison et al., 2016).

주니어 학습자는 동료의 피드백이 관리자의 피드백보다 신뢰성이 떨어진다고 느꼈습니다. (Burgess & Mellis, 2015)에서 인용한 "[학술]들이 준 피드백은 반 친구의 피드백이라기보다는 내가 가져간 것이다." (의대생 12, 페이지 205) 또한, 주니어 학습자들은 동료들이 자신의 기술을 평가할 때 객관적으로 생각하는 데 어려움을 겪을 수 있다고 느꼈다(Murdoch-Eaton & Sargeant, 2012). 
Junior learners felt peer feedback was less reliable than feedback from a supervisor: “…the feedback they [academic] gave was what I took away rather than my class mate’s” (Medical student 12, p. 205) as quoted from (Burgess & Mellis, 2015). Additionally, junior learners felt their peers may have difficulty being truly objective when evaluating their skills (Murdoch-Eaton & Sargeant, 2012).

그러나 상급 학습자는 도움이 되는 것으로 인식되어 동료 평가에서 더 자주 가치를 발견했다(McKavanagh 등, 2012; Lees 등, 2002). 상급 학습자들은 또한 동료 평가의 신속성과 심도 있는 토론으로 후속 조치를 취할 수 있는 능력에 대해 높이 평가했다(Murdoch-Eaton & Sargeant, 2012). 

Senior learners, however, more often found value in peer assessment as it was perceived to be helpful (McKavanagh et al., 2012; Rees et al., 2002). Senior learners also appreciated peer assessment for its immediacy and the ability to follow-up with in-depth discussion (Murdoch-Eaton & Sargeant, 2012).

간단히 말해서, 우리의 연구 결과는 주니어 학습자와 시니어 학습자가 피드백의 제공자와 극성에 따라 피드백의 효용성에 대해 서로 다른 관점을 가지고 있음을 시사한다.

In brief, our findings suggest that junior and senior learners have different perspectives on the utility of feedback which depend on the provider and polarity of the feedback.

요소 3: 의료 교육의 맥락
Factor 3: Context of medical education

우리는 의료 교육의 맥락과 관련된 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 두 가지 요인을 식별했다.
We identified two factors that influence the perceived credibility of assessment-generated feedback related to the context of medical education: 

  • (i) 안전한 학습 환경 및
  • (ii) 평가-생성 피드백의 일관성.
  • (i) safe learning environment and
  • (ii) consistency of assessment-generated feedback.

이러한 요소들은 프로그램이나 기관의 수준에서 문제를 반영하기 때문에 이전에 확인된 요소들과 다릅니다. 따라서 이러한 요소들은 [이전 섹션에서 논의한 평가의 과정이나 실천과 관련된 요소에 비해 평가-생성 피드백의 인지된 신뢰성을 지원하도록] 수정 또는 조정하기가 더 어려울 수 있다.
These factors differ from those previously identified because they reflect issues at the level of the program or institution. These factors may therefore be more difficult to amend, adapt, or adjust to support the perceived credibility of assessment-generated feedback compared to factors related to the process or practice of assessment discussed in previous sections.

(1)안전한 학습환경 
(1)Safe learning environment 

학습자는 [안전한 학습 환경에서 발생하는 평가]가 학습(Duijn et al., 2017; Sargeant et al., 2011), 자기 성찰(Nikendei et al., 2007)을 촉진하고 평가 및 평가-생성 피드백에 대한 참여를 촉진했기 때문에 신뢰할 수 있는 것으로 인식했다. 그러나 "[f]필수 순환과 더 짧은 배치가 있는 임상 학습 환경은 의미 있는 교육 관계를 개발하기 위해 사용 가능한 시간에 영향을 미쳤다." (결과, 페이지 1306) (Bowen 등, 2017) 안전한 학습 환경은 학습자가 도움을 구하고, 지식 격차를 인정하며, 실수를 공개적으로 토론하는 학습 풍토라고 설명하였다(상사 등, 2011).

Learners perceived assessment occurring in a safe learning environment as credible as it fostered learning (Duijn et al., 2017; Sargeant et al., 2011), self-reflection (Nikendei et al., 2007), and facilitated engagement with assessment and assessment-generated feedback. However, clinical learning environments with “[f]requent rotations and shorter placements affected time available to develop meaningful educational relationships.” (Results, p. 1306) (Bowen et al., 2017). A safe learning environment was described as a learning climate in which learners felt comfortable to seek help, admit knowledge gaps, and openly discuss mistakes (Sargeant et al., 2011).

(2)평가 결과 피드백의 일관성 
(2)Consistency of assessment-generated feedback 

일부 학습자는 [간헐적인 피드백이 신뢰도에 대한 인식을 저하시켰다]고 보고했다(Brits et al., 2020; Korszun et al., 2005; Murdoch-Eaton & Sargeant, 2012; Perera et al., 2008; Weller et al., 2009). "전반적으로 의료 훈련에서 완전히 부족한 것은 피드백이며, 동료들과 당신이 어디에 있는지, 그리고 당신의 전문가가 실제로 어떻게 생각하는지 아는 것이다." (미확인 훈련생, 페이지 527). 제공된 산발적인 피드백 중 대부분은 지나치게 일반적이고(MacNeil 등, 2020; Mohanaruban 등, 2018; Moreau 등, 2019; Preston 등, 2020), 일방적으로 지시적인 것(Dijksterhuis 등, 2013)으로 보여 도움이 되지 않는 것으로 판단되었다. 반면 어떤 학습자들은 피드백 내용과 제공이 개선되어 보다 구체적인 초과 근무 및 임상적 집중이 되고 있다고 느꼈다(Murdoch-Eaton & Sargeant, 2012). 이러한 일관되지 않은 연구 결과는 각 기관이 임상 교육 사이트마다 어느 정도 차이가 있지만, 학습자의 평가-생성 피드백 제공과 후속 수용성에 영향을 미치는 [고유한 문화]를 가지고 있을 수 있음을 시사한다(Craig 등, 2010). 평가에서 생성된 피드백은 교육 과정, 순환, 연도별로 차이가 있어 향후 교육에는 해당되지 않을 수 있으므로 추가 개발에 통합 및 활용하기 어렵다. 이러한 피드백 불일치는 학습자가 의료 교육 내에서 제한된 피드백 문화를 나타내는 것으로 확인되었다(Weller 등, 2009). 

Some learners reported infrequent feedback decreased perceived credibility (Brits et al., 2020; Korszun et al., 2005; Murdoch-Eaton & Sargeant, 2012; Perera et al., 2008; Weller et al., 2009): “[o]ne thing that’s totally lacking in medical training across the board is feedback, and knowing where you are in relation to your colleagues and also what your specialist actually really [thinks]” (Unidentified trainee, p. 527) quoted from (Weller et al., 2009). Of the sporadic feedback provided, most was judged as unhelpful as it was seen as overly general (MacNeil et al., 2020; Mohanaruban et al., 2018; Moreau et al., 2019; Preston et al., 2020) and primarily directive (Dijksterhuis et al., 2013). Other learners felt feedback content and provision was improving, becoming more specific overtime and clinically focused (Murdoch-Eaton & Sargeant, 2012). These inconsistent findings suggest that each institution may have its own culture that influences the provision of assessment-generated feedback and subsequent receptivity by learners, with some variability across clinical education sites (Craig et al., 2010). Assessment-generated feedback appears to vary by course, rotation, and year of training, making it difficult to integrate and use for further development as it may not be applicable in future training. These feedback inconsistencies have been identified by learners as indicative of a limited feedback culture within medical education (Weller et al., 2009).

요약하자면, 우리의 검토는 [안전한 학습 환경]에서 이루어지고 [일관된 피드백을 제공]하는 평가가 신뢰할 수 있는 것으로 인식될 가능성이 더 높다는 것을 시사한다.

In summary, our review suggests that assessments that take place in a safe learning environment and provide consistent feedback are more likely to be perceived as credible.

여러 평가 유형에 걸쳐 평가의 인식된 신뢰성에 영향을 미치는 요인
Factors that influence the perceived credibility of assessment across assessment types

위에 보고된 평가 및 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 요소는 학생의 훈련 수준을 통해 주어진 평가를 받은 평가자의 경험에서 학습 환경에 이르기까지 다양하다. 표 3에 포함된 요소를 고려하면 평가에 대한 인식 신뢰도와 평가-생성 피드백 및 학습에 대한 지원 평가가 증가해야 한다.
The factors that influence the perceived credibility of assessment and assessment-generated feedback reported above span from assessor experience with a given assessment through student’s level of training to the learning environment. In Table 3, we summarize the evidence regarding design-related factors (i.e., assessment process and scoring) that influence the perceived credibility of assessment in order to better support the development of credible assessment practices. We organized the evidence according to three common assessment approaches (written assessment, performance-based assessment, workplace-based assessment) whether these factors increase or decrease perceived credibility and provide supportive evidence. Consideration of the factors included in Table 3 should increase perceived credibility of assessments and assessment-generated feedback and support assessment for learning. 

표 3 평가의 인식 신뢰도에 영향을 미치는 설계 관련 요인
Table 3 Design-related factors that affect the perceived credibility of assessment

고찰 Discussion

이 범위 지정 검토는 의료 교육 문헌에서 평가 및 평가-생성 피드백의 인식된 신뢰성의 개념에 초점을 맞췄다. 1차 문헌에서 추출한 우리의 연구 결과는 의료 학습자가 평가의 신뢰성과 관련 평가에서 생성된 피드백을 인식하는 방법에 영향을 미칠 수 있는 요인의 집합이 있음을 시사한다. 점점 더 관련성이 있는 개념임에도 불구하고, 검토에 포함된 매우 적은 수의 연구만이 '신뢰성credibility'이라는 용어를 정확히 사용했으며, 명시적 정의를 포함하는 연구는 없었다. 용어 사용 빈도가 낮음에도 불구하고, 신뢰성credibility의 개념은 문헌에서 공정성, 타당성, 유용성, 가치성 등의 측면에서 반영되었다. 하나의 개념을 설명하는 데 여러 용어가 사용되고 명시적인 정의가 없기 때문에, 우리의 연구 결과는 인식된 신뢰성이 다음과 밀접하게 관련된 새로운 개념임을 시사한다. 

  • 방어 가능(Norcini 등, 2011),
  • 교육적으로 가치 있는(Holmboe 등, 2010) 및
  • 학생 지향 평가 실천 (Epsein 등, 2011)

This scoping review focused on the concept of perceived credibility of assessment and assessment-generated feedback in the medical education literature. Drawn from primary literature, our findings suggest there is a constellation of factors that can influence how medical learners perceive the credibility of assessment and associated assessment-generated feedback. Despite being an increasingly relevant concept, very few studies included in our review used the exact term ‘credibility’, and none included an explicit definition. Despite the low frequency of the term, the concept of credibility was present in the literature—reflected in terms such as fair, valid, helpful, useful, and valuable. With several terms being used to describe one concept, and no explicit definitions, our finding suggests that perceived credibility is an emerging concept tightly related to

  • defensible (Norcini et al., 2011),
  • educationally-valuable (Holmboe et al., 2010), and
  • student-oriented assessment practices (Epstein, 2007; Norcini et al., 2011).

 

검토 과정을 통해 신뢰성과 타당성credibility and validity 이 평가 품질 보장을 위한 유사한 고려사항을 반영할 수 있다는 것이 분명해졌다. 현대의 타당성 개념화는 합격/실패 결정 또는 역량의 판단(일반적으로 평가 관리자의 책임) 측면에서 점수의 해석을 뒷받침하는 증거를 고려한다(Messick, 1995). 관리자는 주어진 점수 해석을 뒷받침하는 타당성 근거에 무게를 두고 해당 점수 해석이 타당한지 여부를 판단한 후 평가 결과를 교육기록부에 입력한다. 평가의 교육적 가치를 고려할 때, [점수 해석의 '책임감'은 학습자 개인의 몫]입니다. 각 학습자는 자신의 점수나 평가 결과를 자신의 성과나 순위를 나타내는 지표로 해석하고, 추가 학습이나 성과 개선 영역을 식별하기 위해 이러한 해석을 바탕으로 할 책임이 있습니다. 
Through the review process, it became apparent that the terms credibility and validity may reflect similar considerations for ensuring assessment quality. Modern conceptualizations of validity consider the evidence supporting the interpretation of scores in terms of pass/fail decisions or judgments of competence—typically the responsibility of assessment administrators (Messick, 1995). An administrator weights the validity evidence supporting a given score interpretation, decides whether or not that score interpretation is sound, and then the results of the assessment are entered into an educational record. When considering the educational value of assessment, the ‘responsibility’ of score interpretation rests in the hands of individual learners. Each learner is responsible for interpreting their scores or assessment results as indicators of their own performance or standing, and to build on those interpretations in order to identify areas of further study or performance improvement.

[점수 해석을 지지하는 데 사용할 수 있는 타당성 증거를 평가하는 관리자]와 병행하여 [학습자는 성과 개선을 위해 피드백에 의존해야 하는지 결정하기 위해, 평가 또는 평가-생성 피드백의 신뢰성에 대한 증거를 평가]하는 것으로 보입니다. 이 두 명의 서로 다른 교육 이해 당사자들은(즉 교육 관리자 및 학습자), 공식적인 교육 평가를 위해서든 또는 비공식 수행 능력 향상을 위해서든, 점수 해석의 적절성에 대한 결정에 참여하고 평가 데이터의 정당한 사용(또는 비사용)을 결정한다
In parallel to an administrator weighing validity evidence available in support of a score interpretation, learners appear to weigh evidence of the credibility of an assessment or assessment-generated feedback to determine whether to rely on the feedback for performance improvement. These two different educational stakeholders—assessment administrators and learners—both engage in decisions about the appropriateness of a score interpretation and decide on the legitimate use (or not) of the assessment data, either for formal educational assessment or informal performance improvement.

생성한 평가 데이터에 대한 [학습자의 참여와 해석]은 [평가의 교육적 가치]를 뒷받침한다. 이 검토의 결과는 학습자가 평가 점수에 어떻게 참여하는지engage with는, 최소한 부분적으로 [해당 점수에 대한 신뢰도]에 달려 있음을 시사한다.

  • 평가 또는 평가에서 생성된 피드백이 신뢰할 수 있는 것으로 인식되면 학습자는 향후 성과를 개선할 수 있는 기회로 해당 피드백에 참여할 가능성이 높아집니다(Watling et al., 2012).
  • 신뢰할 수 없는 것으로 인식되면 무시, 무시 또는 기각됩니다.

This engagement with, and interpretation of, assessment-generated data by a learner underpins the educational value of assessment. The findings of this review suggest that how learners engage with assessment scores is at least partially dependent on how credible those scores are perceived to be. When an assessment or assessment-generated feedback is perceived as credible, learners are more likely to engage with it as an opportunity to improve future performance (Watling et al., 2012). When it is not perceived as credible, it is discounted, ignored, or dismissed. 

어떤 면에서 평가 데이터에 참석할지 또는 무시할지 결정할 때, 학습자는 평가 또는 평가-생성 피드백의 타당성 또는 신뢰성에 의문을 제기하는 것으로 보인다. 학습자가 평가 설계, 구현 및 채점을 신뢰할 수 있는 것으로 인식하지 않을 경우 평가 과정이 평가의 교육적 가치를 훼손할 가능성이 있기 때문에, [평가 과정에서 학생을 행위자actor 또는 이해관계자]로 고려해야 한다.(Harrison 등, 2016; Ricci 등, 2018). 이러한 관점은 평가 데이터가 향후 개선에 기여할 수 있도록 학생 중심의 평가 실천을 지원하고, 평가에 대한 잠재적인 방법을 개별 학습자의 요구와 관심사에 더 잘 맞출 것을 제안한다(Looney, 2009).
In a way, learners appear to be questioning the validity (Ricci et al., 2018), or credibility of assessments or assessment-generated feedback when deciding whether to attend to, or ignore, assessment data. These findings contribute to a consideration of students as actors or stakeholders in the assessment process (Harrison et al., 2016; Ricci et al., 2018) because if learners do not perceive the assessment design, implementation and scoring as credible, the assessment process will likely undermine the educational value of assessment. This perspective supports more student-centred assessment practices to ensure assessment data can contribute to later improvement, and suggests potential avenues for assessments to be more tailored to individual learner's needs and interests (Looney, 2009).

평가 또는 평가-생성 피드백이 신뢰할 수 있는 것으로 인식될 가능성을 높이는 몇 가지 요인을 식별했다.
We identified several factors that increase the likelihood of an assessment or assessment-generated feedback being perceived as credible

첫째, 평가의 인식된 신뢰성과 관련 피드백은 [평가자나 피드백 제공자]에 대한 훈련생의 인식에 크게 영향을 받았다. 예를 들어, 학습자는 다음과 같은 경우 평가를 신뢰할 수 있는 것으로 인식할 가능성이 더 높다.
First, perceived credibility of an assessment and its associated feedback was greatly influenced by a trainee’s perception of their assessor or feedback provider. For instance, a learner was more likely to perceive an assessment as credible if they

  • 평가자와 신뢰관계가 있었다
  • 존경했다. 
  • 장기적 발달에 관심이 있는 것으로 인식되었다
  • had a trusting relationship with their assessor (Bogetz et al., 2018; Bowen et al., 2017; Duijn et al., 2017; Feller & Berendonk, 2020; LaDonna et al., 2017; Lefroy et al., 2015; MacNeil et al., 2020; Mukhtar et al., 2018; Ramani et al., 2020; Watling et al., 2008),
  • respected them (Beaulieu et al., 2019; Bello et al., 2018; Bleasel et al., 2016; Bowen et al., 2017; Dijksterhuis et al., 2013; Feller & Berendonk, 2020; Ramani et al., 2020; Sharma et al., 2015), and
  • perceived them to be interested in their long-term progress (Areemit et al., 2020; Bleasel et al., 2016; Bowen et al., 2017; Duijn et al., 2017; Eady & Moreau, 2018; Harrison et al., 2015; MacNeil et al., 2020; Ramani et al., 2020).

둘째, [평가 자체]의 몇 가지 측면은 신뢰성의 인식 가능성으로 이어졌으며, 이러한 요소들은 다음을 포함한다.
Second, several aspects of an assessment itself led to greater likelihood of perceived credibility, these factors included

  • 표준화된 접근방식 
  • 명확한 목적 
  • 임상 관련성 및 진정성
  • 훈련 중 적절한 시간에 평가를 제공한다
  • standardized approach (Harrison et al., 2016; Jawaid et al., 2014; Jefferies et al., 2011; Khairy, 2004; Nesbitt et al., 2013; Rees et al., 2002; Sharma et al., 2015; Suhoyo et al., 2017; Weller et al., 2009),
  • clear purpose (Cho et al., 2014; Green et al., 2007; Heeneman et al., 2015; Kalet et al., 2007),
  • clinical relevance and authenticity (Bleasel et al., 2016; Craig et al., 2010; Given et al., 2016; Jawaid et al., 2014; Khorashad et al., 2014; McLay et al., 2002; Pierre et al., 2004; Shafi et al., 2010), and
  • provision of the assessment at an appropriate time during their training (Curran et al., 2007; Kalet et al., 2007; Labaf et al., 2014; McLaughlin et al., 2005; Papinczak et al., 2007; Pierre et al., 2004; Vishwakarma et al., 2016; Wiener-Ogilvie & Begg, 2012).

셋째, [평가점수의 품질]에 대한 인식은 신뢰도 인식에 필수적이었다(Brown 등, 2014년; Jawaid 등, 2014년; Kim 등, 2016년; Nesbitt 등, 2013년; Pierre 등, 2004년; Weller 등, 2009년). 학습자가 점수가 임의적이라고 느낄 때 신뢰도에 대한 인식이 감소했다.

Third, perceived quality of assessment scoring was imperative to perceived credibility (Brown et al., 2014; Jawaid et al., 2014; Kim et al., 2016; Nesbitt et al., 2013; Pierre et al., 2004; Weller et al., 2009), when learners felt scoring was arbitrary, perceptions of credibility decreased.

마지막으로 학습자는 평가 중 [부적절한 성과에 대한 명확한 후속결과]를 원했으며(Arnold et al., 2005; Dijksterhuis et al., 2013) 평가 없이는 평가가 학습을 진척시킬 수 없다고 느꼈기 때문에 신뢰할 수 없었다. 
Lastly, learners wanted clear consequences for suboptimal performance during an assessment (Arnold et al., 2005; Dijksterhuis et al., 2013), without it, learners felt the assessment could not drive learning forward and thus was not as credible.

우리의 연구 결과는 [학습자가 평가의 많은 상황적, 과정적, 형식적(평가자, 평가 자체, 그리고 평가에서 생성된 피드백) 측면을 기반으로, 평가의 신뢰성에 대해 판단하여, 무시할 정보와 향후 성과 개선을 위해 통합하고 사용할 정보를 결정한다]는 결론을 뒷받침한다. 따라서 향후 학습을 지원할 목적으로 평가를 설계할 때는 평가 절차, 학습자와 평가자 간 신뢰 관계, 적절한 채점 접근법 등을 고려해야 한다.

Our findings support the conclusion that medical learners make judgments about the credibility of assessment based on many contextual, process, and format aspects of assessment – including assessors, the assessment itself, and the assessment-generated feedback – to determine what information they will dismiss and what they will integrate and use for future performance improvement. Therefore, when designing an assessment with the intention to support future learning, considerations of assessment procedures, trusting relationships between learners and assessors, and appropriate scoring approaches should be made.

또한 평가의 인식된 신뢰성을 훼손하는 몇 가지 요인을 확인했으며, 따라서 아래의 것들은 평가 또는 평가 프로그램을 설계할 때 피해야 한다. 일부는 평가자와 관련이 있다.

  • 평가 프로세스에 익숙하지 않은 평가자
  • 평가자를 스스로 선택할 수 있는 권한  
  • 평가자에 의해 점수가 학습자에 대해 설명되거나 상황에 맞게 조정되지 않은 경우

We also identified several factors that undermined the perceived credibility of assessment; and therefore, should be avoided when designing an assessment or assessment program. Some are related to the assessor;

  • assessors who are unfamiliar with assessment process (Bleasel et al., 2016; Brown et al., 2014; Green et al., 2007; Johnson et al., 2008; Kalet et al., 2007; McKavanagh et al., 2012; Ringsted et al., 2004; Sabey & Harris, 2011; Weller et al., 2009),
  • the ability to self-select an assessor (Brown et al., 2014), and
  • when scores are not explained or contextualized for the learner by the assessor (Bello et al., 2018; Bogetz et al., 2018; Braund et al., 2019; Castonguay et al., 2019; Curran et al., 2018).

예를 들어, 학습자가 평가 과정에 익숙하지 않고 훈련이 부족한 평가자를 만났을 때, 그 평가는 신뢰할 만한 것으로 인식될 가능성이 낮았다. 또한 학습자는 [자신의 점수를 이해하는 것]의 중요성과 [점수를 향상시킬 수 있는 방법]을 강조했습니다. 이러한 요소가 없다면, 학습자는 평가에서 생성된 피드백을 신뢰할 수 있는 것으로 인식하지 못할 가능성이 더 높습니다. 이러한 결과는 평가에서 생성된 피드백이 향후 학습을 지원할 수 있는 가능성을 높이는 데 평가자의 중요성을 강조한다. 평가 자체의 질과 상관없이, 평가자가 신뢰할 수 있는 것으로 인식되지 않는 경우, 학습자는 평가를 배움의 기회가 아닌 "후프 투 스쳐 지나가기"로 볼 수 있습니다. 학습자가 자신의 평가를 이러한 관점에서 인식하면 결과 점수 해석의 타당성이 훼손됩니다. 좀 더 구체적으로 말하면, 학습자는 이 평가에 교육의 기회로 참여하지 않을 것이며, 따라서 평가가 좋은 데이터의 수집으로 이어지지는 않을 것이다. 이 때, 이 평가에 근거한 학습자의 성과에 대한 판단은 타당하지 않을 수 있습니다. 

For instance, when learners encountered an assessor who was unfamiliar and lacked training with the assessment process, the assessment was less likely to be perceived as credible. Additionally, learners highlighted the importance of understanding their scores and how they could improve them, without this piece, they were more likely to not perceive the assessment-generated feedback as credible. These findings highlight the importance of the assessor in increasing the likelihood that assessment-generated feedback can support future learning. Regardless of the quality of the assessment itself, if an assessor is not perceived as credible, learners may view the assessment as a “hoop to jump through” rather than an opportunity for learning. When learners perceive their assessments in this light, the validity of resulting score interpretations are undermined. More specifically, the learner will not engage with this assessment as an educational opportunity, and thus, the assessment will not lead to the collection of good data. When this occurs, any judgments made regarding the learner’s performance based on this assessment may not be valid.

마지막으로, 우리는 평가 또는 평가-생성 피드백의 인식된 신뢰성에 부정적인 영향을 미치는 [평가 문화를 둘러싼 상황적 요인(즉, 안전한 학습 환경, 피드백 불일치)]을 식별했다. 평가와 피드백 문화를 바꾸기는 어려운 반면, 식별된 많은 요소들은 관련 설계, 구현 및 피드백 관행을 신중하게 고려하여 수정할 수 있다. 역량 기반 의료 교육의 맥락에서 훈련생 성과 평가는 학습자의 발달 궤적을 지원하는 종적 및 프로그램적 평가에 의존한다(Frank et al., 2010). 본 리뷰에 포함된 문헌에 따르면, 주니어 학습자와 시니어 학습자가 원하는 피드백 유형의 차이를 문서화하였다. 상급 학습자가 비판적 피드백을 선호하는 경향이 있는 경우, 이는 향후 성과를 개선하는 데 더 유용한 것으로 인식된다. 반면 하급 학습자들은 사기를 꺾는다고 느꼈습니다.

Finally, we identified contextual factors surrounding the culture of assessment (i.e., safe learning environment, Duijn et al., 2017; Nikendei et al., 2007; Sargeant et al., 2011), feedback inconsistencies (Craig et al., 2010; Korszun et al., 2005; Murdoch-Eaton & Sargeant, 2012; Perera et al., 2008; Weller et al., 2009)) that negatively impact the perceived credibility of assessment or assessment-generated feedback. While the culture of assessment and feedback remains challenging to influence, many of the factors identified are possible to amend with careful consideration of the associated design, implementation, and feedback practices. In the context of competency-based medical education (Frank et al., 2010), the evaluation of trainee performance is dependent on longitudinal and programmatic assessment which supports the developmental trajectory of learners (Frank et al., 2010). Literature included in this review documented a difference in the type of feedback desired by junior versus senior learners; where senior learners tended to prefer critical feedback as it was perceived as more useful in improving future performance (Chaffinch et al., 2016; Murdoch-Eaton & Sargeant, 2012; Sabey & Harris, 2011), whereas junior learners felt it was demoralizing. 

요약하자면, 이 범위 지정 검토는 교육생이 평가의 신뢰성과 그에 관련된 피드백에 참여, 사용 및 지각하는 방법에 영향을 미치는 다양한 요소를 식별했다. 과거의 의료 교육 실천 권고안과는 달리, 우리의 연구 결과는, 학습자 관점에서 유용성과 신뢰성을 개선하기 위해 동원될 수 있는 평가 및 피드백 프로세스의 측면을 강조함으로써, [학습자를 학습 프로세스의 중심에 배치]한다(Spenzer & Jordan, 1999). (체크리스트, 점수, 등급 척도 등) 특정 형태의 평가-생성 피드백은 해석이 어렵고 의미가 부족한 것으로 인식됐다. 성과 또는 직장 기반 피드백과 같은 다른 형태는 교육생들에게 드물고 특정적이지 않으며 도움이 되지 않는 것으로 인식되어 왔다. 

In sum, this scoping review has identified a variety of factors that influence how trainees engage, use, and perceive the credibility of an assessment and its associated feedback. Distinct from past medical education practice recommendations (Telio et al., 2015), our findings place the learner at the centre of the learning process (Spencer & Jordan, 1999) by highlighting aspects of the assessment and feedback process that can be mobilized to improve its utility and credibility from the learner perspective. Certain forms of assessment-generated feedback such as checklists, scores, rating scales were perceived as difficult to interpret and lacking meaning. Other forms such as performance- or workplace-based feedback have been perceived by trainees as infrequent, non-specific, and unhelpful. 

이러한 결과는 교육생과 평가자 간의 "교육적 동맹"의 중요성을 나타낸다. 이러한 개념 하에서, 평가와 피드백 프로세스는 [일방적인 정보 전송(평가자에서 수습사원으로)]에서 [실제로 피드백을 사용하여, 학문적 목표를 달성하기 위해 협력할 목적을 가지고, 학습 목표, 성과 및 표준에 대한 공유된 이해를 갖고있는, 진정한 교육적 관계]재구성되어야 한다. 평가자-학습자 대화 이외의 평가-생성 피드백의 역할을 고려할 경우, 평가와 평가-생성 피드백이 효과적인 학습에 기여하도록 보장하기 위해 학습자와 기관 또는 프로그램 간에 교육적 동맹을 형성하는 방법을 고려하는 것이 가치가 있을 수 있음을 시사한다.
These findings point to the importance of an “educational alliance” between trainees and assessors, whereby the assessment and feedback processes are reframed from one-way information transmission (from assessor to trainee) to an authentic educational relationship with a shared understanding of learning objectives, performance, and standards with the aim of working together to achieve academic goals using feedback in practice (Molloy et al., 2019; Telio et al., 2015). If we consider the role of assessment-generated feedback outside of assessor-learner conversations, it suggests that there may be value in considering how educational alliances can be formed between a learner and an institution or program in order to ensure assessment and assessment-generated feedback contribute to effective learning.

이 범위 지정 연구에는 몇 가지 제한이 있습니다. 문헌에서 신뢰도credibility 라는 용어를 상대적으로 자주 사용하지 않고, 우리의 검색 전략에서 신뢰의 구성이 운영화된 방식 때문에, 일부 관련 문헌이 누락되었을 가능성이 있다. 관련 문헌을 최대한 많이 확인하기 위해 경험이 풍부한 학계 사서를 팀에 포함시키고 검색 전략을 반복적으로 다듬었습니다. 또한 검색 전략을 보완하기 위해 주요 기사의 인용 추적에 의존했다. 연구 중인 개념이 평가 및 의료 교육 문헌 전반에 걸쳐 광범위하게 표현될 가능성이 높기 때문에 이 검토는 수작업을 수행하지 않았다(Young 등, 2018). 우리는 또한 동료 검토 저널에 발표된 주요 문헌으로 검색을 제한하여 평가 및 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 요소를 연구 증거에 의해 뒷받침되었다. 대부분의 확인된 논문들은 유럽과 북미에서 온 것이므로, 우리의 발견이 국제적으로 적용될 수 있는 가능성은 제한적일 수 있다. 국제적인 수준에서 우리의 발견의 일반화 가능성을 향상시키기 위해, 향후 연구는 이러한 발견을 국제적으로 적용하기 위해 더 잘 맥락화하기 위한 주요 국제 전문가와의 논의를 포함할 수 있다.

This scoping study has some limitations. Due to the relatively infrequent use of the term credibility in the literature, and the way in which the construct of credibility was operationalized in our search strategy, it is possible that some relevant literature was missed. To ensure we identified as much relevant literature as possible, we included an experienced academic librarian on our team and iteratively refined our search strategy. We also relied on citation tracking of key articles to supplement our search strategy. This review did not perform handsearching as the concept under study was likely to be broadly represented across the assessment and medical education literature (Young et al., 2018). We also decided to limit our search to primary literature published in peer-reviewed journals to synthesize the factors, supported by research evidence, that influenced the perceived credibility of assessment and assessment-generated feedback. Most identified articles were from Europe and North America; therefore, the international applicability of our findings may be limited. To enhance the generalizability of our findings at the international level, future research could engage discussions with key international experts to better contextualize these findings for international application.

결론 Conclusion

이 검토에 요약된 결과는 [학습을 지원하고 추진하는 수단]으로서의 평가 및 평가-생성 피드백의 가치를 뒷받침하며, 평가 개발자, 평가 관리자 및 의료 교육자가 의료 학습자를 포함하는 [학습자 중심의 평가 접근 방식]을 채택하는 것을 고려하는 것이 의미 있을 수 있다. 그 효용성을 보장하기 위해서 평가 전략이나 도구의 개발에 학습자를 포함할 수 있다.

The findings summarized in this review support the value of assessment and assessment-generated feedback as a means to support and drive learning, and it may be meaningful for assessment developers, assessment administrators, and medical educators to consider adopting a learner-centred assessment approach that includes medical learners in the development of learning assessment strategies and tools for assessment to ensure their utility.

 


Adv Health Sci Educ Theory Pract. 2021 Sep 27.

 doi: 10.1007/s10459-021-10071-w. Online ahead of print.

Factors affecting perceived credibility of assessment in medical education: A scoping review

Stephanie Long 1Charo Rodriguez 1Christina St-Onge 2Pierre-Paul Tellier 1Nazi Torabi 3Meredith Young 4 5

Affiliations expand

  • PMID: 34570298
  • DOI: 10.1007/s10459-021-10071-wAbstractKeywords: Assessment; Credibility; Feedback; Learner engagement; Medical education.
  • Assessment is more educationally effective when learners engage with assessment processes and perceive the feedback received as credible. With the goal of optimizing the educational value of assessment in medical education, we mapped the primary literature to identify factors that may affect a learner's perceptions of the credibility of assessment and assessment-generated feedback (i.e., scores or narrative comments). For this scoping review, search strategies were developed and executed in five databases. Eligible articles were primary research studies with medical learners (i.e., medical students to post-graduate fellows) as the focal population, discussed assessment of individual learners, and reported on perceived credibility in the context of assessment or assessment-generated feedback. We identified 4705 articles published between 2000 and November 16, 2020. Abstracts were screened by two reviewers; disagreements were adjudicated by a third reviewer. Full-text review resulted in 80 articles included in this synthesis. We identified three sets of intertwined factors that affect learners' perceived credibility of assessment and assessment-generated feedback: (i) elements of an assessment process, (ii) learners' level of training, and (iii) context of medical education. Medical learners make judgments regarding the credibility of assessments and assessment-generated feedback, which are influenced by a variety of individual, process, and contextual factors. Judgments of credibility appear to influence what information will or will not be used to improve later performance. For assessment to be educationally valuable, design and use of assessment-generated feedback should consider how learners interpret, use, or discount assessment-generated feedback.

정답은 하나? (성찰적) 주제분석의 옳바른 실천은 무엇인가? (Qualitative Research in Psychology, 2021)
One size fits all? What counts as quality practice in (reflexive) thematic analysis?
Virginia Braun a and Victoria Clarke b

 

 

주제 분석의 질: 무엇이 중요합니까?
Quality in thematic analysis: what matters?

"저자들은 분석 과정에서 어떻게 편견을 피하려고 했는지 논의해야 합니다."
“The authors should discuss how they attempted to avoid bias in their analytic process.”

전문가 질적 저널에 제출한 경험적 논문에 대한 익명의 리뷰에서 이 의견을 받았고, 2006년(Braun and Clarke 2006) 이 저널에서 처음 요약한 반사적 주제 분석(TA) 접근법을 사용했다. 검토자의 명령은 TA와 관련된 여러 가지 문제가 있는 가정과 본 논문에서 맥락화, 언팩 및 확장한 질적 품질 기준을 반영한다. TA의 사용이 확대되고 다양해짐에 따라, 논문 발표 이후 출판된 연구의 일관성과 무결성이 항상 유지되는 것은 아니다. 본 논문에서는, TA의 품질에 대해 생각하고 학자들이 우수하고 응집력 있는 TA를 수행하도록 지원하기 위한 도구로서, 출판된 TA에서 확인되는 10가지 문제적 관행과 가정을 설명하고자 한다.
We received this comment in an anonymous review of an empirical paper we had submitted to a specialist qualitative journal, and in which we used our reflexive thematic analysis (TA) approach, which we first outlined in this journal in 2006 (Braun and Clarke 2006). The reviewer’s command reflects a number of problematic assumptions around TA, and indeed qualitative quality criteria, which we contextualise, unpack and expand on in this paper. As the use of TA has expanded, and diversified, since the publication of that paper, the coherence and integrity of published research does not always hold. We use ten problematic practices and assumptions evident in published TA as a tool for thinking about quality in TA, and to support scholars in doing excellent, cohesive TA. 

이러한 [문제적 관행]은 TA에 대한 혼란과 오해를 반영하며, 이를 양질의 TA를 위한 명확한 권고사항을 줌으로써 명확히 하고자 하였다 (일부는 질적 학문에 더 폭넓게 적용될 수 있으므로 TA 이상의 관련성을 가질 수 있다). 편집자와 검토자가 품질 관리자로서 역할을 잘 하게끔 돕기 위해, 우리는 이러한 문제가 있는, 그리고 그에 상응하는 좋은(또는 최선의) 관행을 TA 연구의 품질을 평가하기 위한 '지침guideline'으로 정리하였다. 이는 출판을 위해 TA 연구를 평가할 때 고려해야 할 20개의 중요한 질문의 형태로 제시된다. 
These problematic practices reflect confusions and misconceptions about TA that we seek to clarify with clear ‘take away’ recommendations for quality TA (some of which may apply to qualitative scholarship more broadly, and thus have relevance beyond TA). In order to support editors and reviewers in their role as quality custodians, we translate these problematic, and corresponding good (or best), practices into ‘guidelines’ for assessing the quality of TA research – presented in the form of twenty critical questions to consider when evaluating TA research for publication 

이 질문들은 독립적으로 또는 TA에 대한 우리의 방법론적 글과 함께 사용되도록 고안되었다.
특히 더 많은 설명이 필요한 경우 본 논문은 더욱 그렇다.
These questions are designed to be used either independently, or alongside our methodological writing on TA, and especially the current paper, if further clarification is needed.

방법과 방법론의 적절한 선택과 설명
Adequate choice and explanation of methods and methodology


1. 저자들은 간단하게나마 왜 TA를 사용하는지 설명합니까?
1. Do the authors explain why they are using TA, even if only briefly?

2. 저자는 어떤 유형의 TA를 사용하는지 명확히 명시하고 정당화합니까?
2. Do the authors clearly specify and justify which type of TA they are using?

3. 특정 유형의 TA의 사용과 정당화가 연구 질문이나 목적과 일치합니까?

3. Is the use and justification of the specific type of TA consistent with the research questions or aims?

4. 연구의 이론적, 개념적 토대와 TA의 특정 유형 사이에 좋은 '적합'이 있습니까(즉, 개념적 일관성이 있습니까)?
4. Is there a good ‘fit’ between the theoretical and conceptual underpinnings of the research and the specific type of TA (i.e. is there conceptual coherence)?

5. 데이터 수집 방법과 특정 유형의 TA 사이에 양호한 '적합'이 있습니까?
5. Is there a good ‘fit’ between the methods of data collection and the specific type of TA?

6. 지정된 유형의 TA가 문서 전체에서 일관되게 집행되고 있는가?
6. Is the specified type of TA consistently enacted throughout the paper?

7. TA와 관련하여 문제가 있는 가정과 실천의 증거가 있습니까? 여기에는 일반적으로 다음이 포함된다.
7. Is there evidence of problematic assumptions about, and practices around, TA? These commonly include:

● TA를 하나의 통일된 개체로 취급하고, 널리 합의된 하나의 절차로 취급한다. 
● Treating TA as one, homogenous, entity, with one set of – widely agreed on – procedures. 

● 어떠한 인정이나 설명 없이 철학적, 절차적으로 양립할 수 없는 TA 접근 방식을 결합합니다.
● Combining philosophically and procedurally incompatible approaches to TA without any acknowledgement or explanation.

● 핵심 개념으로 뒷받침되는 공유 의미의 주제적 패턴과 데이터 주제를 혼동하는 요약. 
● Confusing summaries of data topics with thematic patterns of shared meaning, underpinned by a core concept. 

● 근거 이론 개념 및 절차(예: 포화, 상수 비교 분석, 라인별 코딩)를 어떠한 설명이나 정당화 없이 TA에 적용한다.
● Assuming grounded theory concepts and procedures (e.g. saturation, constant comparative analysis, line-by-line coding) apply to TA without any explanation or justification.

TA가 본질주의자, 현실주의자 또는 무이론적이라고 가정한다.
● Assuming TA is essentialist or realist, or atheoretical.

● TA는 데이터 축소 또는 기술 접근 방식일 뿐이므로 다른 목적을 달성하기 위해 다른 방법 및 절차로 보완되어야 한다고 가정한다. 
● Assuming TA is only a data reduction or descriptive approach and therefore must be supplemented with other methods and procedures to achieve other ends. 

8. 보완 절차나 방법이 정당하고 필요한가, 아니면 단순히 TA를 더 효과적으로 사용함으로써 동일한 결과를 얻을 수 있었는가?
8. Are any supplementary procedures or methods justified, and necessary, or could the same results have been achieved simply by using TA more effectively?

9. TA를 귀납적으로 사용하는 경우에도 TA 사용의 이론적 토대가 명확히 명시되어 있는가(예: 존재론적, 인식론적 가정, 이론적 프레임워크 지침)?
9. Are the theoretical underpinnings of the use of TA clearly specified (e.g. ontological, epistemological assumptions, guiding theoretical framework(s)), even when using TA inductively (inductive TA does not equate to analysis in a theoretical vacuum)?

10. 연구자들은 (단순히나마) 개인적, 사회적 관점 및 포지셔닝에 대해 '자신의 관점'을 가지려고 노력하고 있는가? (이것은 연구자들이 사회정의 지향적인 연구에 종사할 때 그리고 한계적이고 취약한 집단, 연구원이 속하지 않는 집단의 '목소리'를 대변할 때 특히 중요하다.)
10. Do the researchers strive to ‘own their perspectives’ (even if only very briefly), their personal and social standpoint and positioning? (This is especially important when the researchers are engaged in social justiceoriented research and when representing the ‘voices’ of marginal and vulnerable groups, and groups to which the researcher does not belong.)

11. 사용된 분석 절차가 일반적인 절차가 아닌, 저자가 실제로 수행한 작업에 대해 명확하게 개략적으로 설명하고 있는가?
11. Are the analytic procedures used clearly outlined, and described in terms of what the authors actually did, rather than generic procedures?

12. 개념적, 절차적 혼동의 증거가 있지는 않은가? 예를 들어, 반사성 TA(예: Braun과 Clarke 2006)가 주장된 접근법이지만 다른 절차가 개략적으로 설명되어 있다. 코드북 또는 코딩 프레임의 사용, 복수의 독립적인 코더 및 합의 코딩, 평가자 간 신뢰성 측정 및/또는 테마를 출력물이 아닌 분석 입력으로 개념화하기에 주제를 식별하고 코딩으로 분석이 진행됩니다.  (테마 개발을 향하여 코딩을 하는 것보다)
12. Is there evidence of conceptual and procedural confusion? For example, reflexive TA (e.g. Braun and Clarke 2006) is the claimed approach but different procedures are outlined such as the use of a codebook or coding frame, multiple independent coders and consensus coding, inter-rater reliability measures, and/or themes are conceptualised as analytic inputs rather than outputs and therefore the analysis progresses from theme identification to coding (rather than coding to theme development).

13. 저자들이 TA에 대한 그들의 주장된 접근법에 대한 완전하고 일관성 있는 이해를 증명하고 있는가?
13. Do the authors demonstrate full and coherent understanding of their claimed approach to TA?


잘 개발되고 정당화된 분석
A well-developed and justified analysis


14. 보고서의 주제가 무엇이며 어디에 있는지 명확합니까? 원고는 분석 개요, 즉 주제 목록, 서술 개요, 주제 표, 주제 지도에서 이익을 얻을 수 있을까요?
14. Is it clear what and where the themes are in the report? Would the manuscript benefit from some kind of overview of the analysis: listing of themes, narrative overview, table of themes, thematic map?

15. 보고된 주제는 주제 요약이 아니라 '완전히 실현된 테마'(중앙 조직 개념에 기초한 공통적인 의미의 패턴)인가?
15. Are the reported themes topic summaries, rather than ‘fully realised themes’ – patterns of shared meaning underpinned by a central organising concept?

● 만약 그렇다면, 주제 요약이 연구의 목적에 적합한가?
● If so, are topic summaries appropriate to the purpose of the research?

 ○ 저자가 반사 TA를 사용하는 경우, 주제 개념화의 수정이 설명되고 정당화되는가?

 ○ If the authors are using reflexive TA, is this modification in the conceptualisation of themes explained and justified?

● 자료 수집 질문을 주제로 사용하였는가?
● Have the data collection questions been used as themes?

● 원고는 [완전히 실현된 테마]를 보고함과 함께, 추가 분석을 수행함으로써 이익을 얻을 수 있는가?
● Would the manuscript benefit from further analysis being undertaken, with the reporting of fully realised themes?

● 또는 저자가 반사형 TA를 사용한다고 주장하는 경우, 원고는 다른 유형의 TA(예: 코딩 신뢰성 또는 코드북)를 사용한다고 주장함으로써 이익을 얻을 것인가?
● Or, if the authors are claiming to use reflexive TA, would the manuscript benefit from claiming to use a different type of TA (e.g. coding reliability or codebook)?

16. 비주제적 맥락화 정보를 테마로 제시하였는가? (예: 첫 번째 '요약'은 상황별 정보를 제공하는 주제 요약이지만, 보고된 나머지 주제는 완전히 실현된 주제이다.) 만약 그렇다면, 원고는 이것이 비주제적 맥락화 정보로 제시되는 것으로부터 이익을 얻을 것인가?
16. Is non-thematic contextualising information presented as a theme? (e.g. the first 'theme' is a topic summary providing contextualising information, but the rest of the themes reported are fully realised themes). If so, would the manuscript benefit from this being presented as non-thematic contextualising information?

17. 응용연구에서 보고된 주제는 실행 가능한 결과를 초래할 가능성이 있는가?
17. In applied research, do the reported themes have the potential to give rise to actionable outcomes?

18. 논문에 개념적인 충돌이나 혼란이 있습니까? (예: 사회 구성주의자의 접근방식을 주장하는 동시에 코딩 신뢰성에 대한 긍정적 개념에 대한 우려를 표명하거나 참가자의 언어를 경험과 행동의 투명한 반영으로 취급하면서 구성주의자의 접근방식을 주장하는 것)
18. Are there conceptual clashes and confusion in the paper? (e.g. claiming a social constructionist approach while also expressing concern for positivist notions of coding reliability, or claiming a constructionist approach while treating participants’ language as a transparent reflection of their experiences and behaviours)

19. 다음과 같은 미약하거나 설득력이 없는 분석의 증거가 있는가?
19. Is there evidence of weak or unconvincing analysis, such as:

● 테마가 너무 많나요, 적나요?
● Too many or two few themes?

● 테마 레벨이 너무 많습니까?
● Too many theme levels?

● 코드와 테마가 혼동되는가?
● Confusion between codes and themes?

● 데이터 추출과 분석 클레임이 일치하지 않는가?
● Mismatch between data extracts and analytic claims?

● 데이터 추출물이 너무 적거나 너무 많습니까?
● Too few or too many data extracts?

● 테마 간에 겹치는가?
● Overlap between themes?

20. 저자들은 결과의 일반성 결여에 대해 문제가 있는 진술을 하거나, 일반성을 통계적 확률론적 일반성으로 암묵적으로 개념화 하는가? (Smith 2017 참조)
20. Do authors make problematic statements about the lack of generalisability of their results, and or implicitly conceptualise generalisability as statistical probabilistic generalisability (see Smith 2017)?
 


우리가 출판된 TA에서 흔히 마주치는 문제는 종종 절차의 기초가 되는 이론적, 철학적 가정과 거의 관련이 없는 것으로 보이며, 또는 진정의로 quality criteria를 정교하게, 의도적으로, 상황적으로 적용하는 것과도 거의 관련이 없는 것으로 보인다. 
The problems we commonly encounter in published TA often seem to reflect little to no engagement with the theoretical and philosophical assumptions that underlie procedures, with wider quality discussions in qualitative research (e.g. Levitt et al. 2018; Madill et al., 2000; Sparks & Smith, 2009; Yardley 2015), or indeed nuanced, aware and situated application of quality criteria.

TA는 실증주의/양적 그리고 질적 패러다임 내에서 사용되며, 다양한 유형의 TA가 질적 연구의 다른 개념화에 포함되고 반영되기 때문에, TA에 대한 '보편적인' 품질 표준과 기준을 명확히 표현하는 것은 어렵다. 우리는 [작은 q]와 [큰 Q]로 정성 연구를 구분한 키더와 파인(1987)의 구분이 유용하다는 것을 발견한다. 

  • (small q, 질적 실증주의): 실증주의 패러다임 내에서 데이터 수집 및 분석의 질적 기술의 사용,
  • (Big Q): 질적 패러다임 내에서 질적 기법을 사용

As TA is used within positivist/quantitative and qualitative paradigms, and different types of TA are embedded within, and reflect, different conceptualisations of qualitative research, articulating ‘universal’ quality standards and criteria for TA is challenging. We find Kidder and Fine’s (1987) distinction between small q and Big Q qualitative research useful for demarcating between

  • qualitative positivism (small q), the use of qualitative techniques of data collection and analysis within a positivist paradigm, and
  • the use of qualitative techniques within a qualitative paradigm (Big Q qualitative).

이러한 패러다임의 가치는 다소 긴장 상태에 있으며, 이러한 긴장에 대한 인식 없이, 발표된 TA 연구는 우리의 TA 공동 저자 중 한 사람(니키 헤이필드)이 기억될 정도로 'confused q' qualitative라고 부르는 것과도 비슷하다. 즉, 이는 질적 실증주의의 요소와 질적 패러다임의 가치 및 가정을 아무 생각 없이, 비성찰적으로, 비일관적으로 결합하는 것처럼 보이는 연구를 말한다.
The values of these paradigms are in more or less tension, and without awareness of this tension, published TA research can exemplify what one of our TA co-authors (Nikki Hayfield) memorably dubbed ‘confused q’ qualitative – research that seems to unknowingly, unreflexively and incoherently combine elements of qualitative positivism with the values and assumptions of a qualitative paradigm.

일부에서는 우리가 (성찰적) TA에 대한 접근 가능한 지침을 개발한 것이 '절차주의'(King and Brooks 2017) 또는 '방법론'(Chemberlain 2000)에 굴복했음을 의미한다고 이야기한다. 연구자들에게 유연한 '시작점'을 제공하기보다는 성문화하고, 이론적 민감성과 반사성보다 절차를 우선시하며, TA 연구를 위한 엄격하고 구체적인 '규칙'을 만들었다는 지적이다. 하지만 이러한 비판은 TA가 연구자에게 어떤 좋은 (즉 성찰적인) 것을 요구하는지를 잘못 읽은 것이다. 세인트피에르와 잭슨(2014) 등이 '질적 코딩'과 관련해 하는 비판과 같은 종류다. – 그러나 마찬가지로 방법에 따라 질적 연구가 어떻게 보여야 하고 어떻게 보일 것인지에 대한 협소한 이해로도 어려움을 겪는다.

Some might suggest our development of accessible guidelines for ‘how to do’ (reflexive) TA means we’ve succumbed to ‘proceduralism’ (King and Brooks 2017) or ‘methodolatry’ (Chamberlain 2000). That we have codified practice, prioritised procedure over theoretical sensitivity and reflexivity, and created rigid and concrete ‘rules’ for TA research, rather than providing researchers with flexible ‘starting points’. This is a misreading of what good (reflexive) TA requires of the researcher. It is the same sort of critique that St. Pierre and Jackson (2014) and others make in relation to ‘qualitative coding’ – but similarly suffers from a narrow reading of what qualitative researching, guided by methods, should and will look like.

프로세스에 대한 세부 지침을 제공하는 것을 목표로 하지만, 우리는 동시에 TA 내에서 강조되는 유동성, 맥락, 우발성, 그리고 실제로 이론을 강조한다. 절차를 따르는 것이 '좋은 TA'를 수행하는 것을 보증하는 것은 아닙니다. 그보다는, 절차가 무엇을 촉진하는지, 절차가 무엇에 대한 접근을 가능하게 하는지를 이해해야 한다. 또한 절차는 분석의 목적이 아니라 과정을 위한 "도구"라는 것을 이해하는 것이 중요합니다. (품질 보장과 입증에 중점을 둔) 분석 절차는 - 명시적으로 했는지 여부에 관계없이 - 의미 있는 지식과 지식 생산에 대한 기본 패러다임 및 인식론적 가정을 반영한다. 우리는 이 논문이 오용이나 오해의 소지가 있는 부분을 명확히 하기를 바랍니다.

Although we aim to provide detailed guidelines on process, we also emphasise the fluid, the contextual and contingent, and indeed theory, as crucial within TA. Following procedure is not a guarantor for doing ‘good TA’; instead, understanding what the procedures facilitate, what they give you access to, and that these are tools for a process, rather than the purpose of analysis, is important. Analytic procedures, including those centred on ensuring and demonstrating quality, typically reflect underlying paradigmatic and epistemological assumptions about meaningful knowledge and knowledge production (Carter and Little 2007), whether explicated or not. We hope this paper clarifies some potential misuses or misunderstandings.

우리의 목표는 어떤 TA가 되었든지간에, TA에 대한 이론적으로 민감하고, 성찰적이고, 신중한 참여를 장려하는 것이다. 현재의 모습'What is'을 TA 측면에서 비판함으로써, 나가아야 할 방향'What could be'을 촉진하고, 개별 연구과제에서 TA의 넓은 지형에 대한 이해와 TA의 제정을 동시에 증진시키는 것을 목표로 하고 있습니다. TA가 고유한distinct 방법인지 아니면 일반적인 분석 절차인지에 대한 논의가 있었지만, 우리는 [비록 TA가 데이터에서 '패턴'을 식별하려는 다른 접근법(예: 근거 이론, 해석 현상학적 분석[IPA] 또는 질적 내용 분석)과 공통적으로 일부 특징을 공유함에도] 질적 데이터를 다루는 나름의 고유한 방법을 제공한다고 믿는다. 그럼에도 불구하고 그것은 그 자체로 하나의 방법(또는 방법의 클러스터)이다.

Our aim is to encourage theoretically sensitive (Yardley 2015), and reflexive and deliberative engagement with TA, of whatever variety. By critiquing ‘what is,’ in terms of TA, we aim to promote ‘what could be’, and improve both the understanding of the wider terrain of TA, and the enactment of TA in individual research projects. Although there has been discussion as to whether TA is a distinct method, or a generic set of analytic procedures (e.g. Boyatzis 1998; Willig 2013), TA does – we believe – offer a distinct way of working with qualitative data, and that, although it shares some features in common with other approaches that seek to identify ‘patterns’ in data (e.g., grounded theory, interpretative phenomenological analysis [IPA] or qualitative content analysis), it is nonetheless a method (or cluster of methods) in its own right.

(반복) 주제 분석: 간략한 상황별 소개
(Reflexive) thematic analysis: a brief contextualising introduction

TA에 대해 처음 썼을 때(Braun and Clarke 2006) 우리의 목표는 정성적 패러다임(Braun and Clarke 2019a)의 가정을 반영하고 양립할 수 있는 TA에 대한 접근 방식을 명확히 하는 것이었다. 이 목표는 아래의 과정을 통해 개발되었다.  
Our aim, when we first wrote about TA (Braun and Clarke 2006), was to articulate an approach to TA that reflected, and was compatible with, the assumptions of a qualitative paradigm (Braun and Clarke 2019a). This aim has been developed in

  • a qualitative research textbook (Braun and Clarke 2013),
  • numerous chapters (Braun and Clarke 2012; Braun Clarke and Rance 2014; Braun Clarke and Terry 2015; Braun Clarke and Weate 2016; Braun et al. 2019a ; Clarke and Braun 2016; Clarke, Braun, and Hayfield 2015; Terry et al. 2017),
  • encyclopaedia entries (Clarke and Braun 2014a, 2014b),
  • commentaries (Braun and Clarke 2016, 2019a, 2019b, 2019c; Clarke and Braun 2018) and
  • editorials about TA (e.g. Braun and Clarke 2014; Clarke and Braun 2017).

최근 출판물에서, 우리는 우리의 접근방식에 대한 우리의 접근법(예: 브라운과 클라크 2019a)을 알려주고 우리의 접근방식에 대해 구별되는 것과 다른 것(예: 브라운과 클라크 2019c; Braun 등 2019a)을 구별하는 정성적 연구와 관련된 가정과 가치를 더 신중하게 표현했다. 우리는 이제 이러한 접근방식을 성찰적 TA라고 부른다 Braun and Clarke 2019a, 2019b; Braun 등 2019a; Terry 등 2017 참조). 이러한 명칭은 이것을 특정 TA 접근법으로 정의할 뿐만 아니라, 분석 자원으로서의 연구자의 주관성과 이론, 데이터 및 해석에 대한 성찰적 참여를 강조한다.

In recent publications, we have more carefully articulated the assumptions and values around qualitative research that inform our approach to TA (e.g. Braun and Clarke 2019a) to demarcate what is distinct and different about our approach (e.g. Braun and Clarke 2019c; Braun et al. 2019a). We now call this approach reflexive TA (see Braun and Clarke 2019a, 2019b; Braun et al. 2019a; Terry et al. 2017). This not only demarcates it as a particular TA approach, it emphasises the importance of the researcher’s subjectivity as analytic resource, and their reflexive engagement with theory, data and interpretation.

우리의 원래 논문은 유연성을 유지하는 TA 연구를 위한 [접근 가능한 지침]을 제공하고자 했다. 우리는 다양한 참여 모드의 가능성의 범위를 강조했고, 우리의 목표는 TA 연구의 가능성을 폐쇄가 아닌 개방하고 창의성과 광범위한 사용을 장려하는 것이었다. 우리는 질적 분석이 '공예 기술craft skill'이며, 분석 절차의 설명을 통해 완전히 포착하기 어려운 것이기에, '스승master'의 발치에서 가장 잘 배울 것이라는 포터(1997)의 주장에 부분적으로 동의한다. 하지만, 우리 중 한 명은 예리한 공예사이며, 어느 정도까지는 공예 기술도 가르치기 위해 공식화될 수 있다는 것을 알고 있습니다. 일부 구조화된 비계는 이 기술을 그냥 직관적으로 '이해해버리지get it' 못하는 사람들에게 개념을 소개하고 기술을 가르칠 수 있다. 

Our original paper sought to provide accessible guidance for TA research that retained flexibility. We emphasised the range of possibilities of different modes of engagement, and our aim was to open-up, rather than close-down, possibilities for TA research, encouraging creativity and wide-ranging use. We partly agree with Potter’s (1997) claim that qualitative analysis is a ‘craft skill’, and something ideally learnt at the feet of ‘master’, something difficult to fully capture through descriptions of analytic procedures. However, one of us is a keen crafter, and we know craft skills can be formulised for teaching to some extent. Some structured scaffolding can introduce concepts and teach skills to those who do not intuitively just ‘get it’, who are not the proverbial ducks-to-water. 

모든 사람이 질적 분석의 '마스터'를 만날 수 있을 만큼 운이 좋거나 특권이 있는 것은 아니기 때문에, 질적 방법에 대한 접근을 민주화하는 것은 특히 중요하다. 질적 연구에 대한 관심은 감독자의 availability을 훨씬 초과하며, 방법 커리큘럼(학문 및 지역별로 상당히 다양함)에서 잘 교육되지 않는 경우도 많다. 그래서 데이터 참여, 코딩 및 테마 개발을 위한 6단계 프로세스를 설명했습니다. 이에 대한 가장 최근의 표현은 다음과 같다.

This is especially important for democratising access to qualitative methods, as not everyone is fortunate or privileged enough to have access to a ‘master’ qualitative analyst. Interest in qualitative research far exceeds the availability of supervisors and remains often under-taught in methods curricula (varying considerably by discipline and by locale). So, we explicated a six-phase process for data engagement, coding and theme development. Our most recent articulation of this is:

  • 1) 데이터 친숙화 및 익숙화 노트 작성;
  • 2) 체계적인 데이터 코딩,
  • 3) 코드화되고 수집된 데이터로부터 초기 테마를 생성한다.
  • 4) 테마의 개발 및 검토
  • 5) 테마의 정제, 정의 및 명명
  • 6) 보고서 작성
  • 1) data familiarisation and writing familiarisation notes;
  • 2) systematic data coding;
  • 3) generating initial themes from coded and collated data;
  • 4) developing and reviewing themes;
  • 5) refining, defining and naming themes; and
  • 6) writing the report.

우리는 서면 지침의 한계와 그것이 규범적으로 해석될 수 있는 가능성을 인정한다. 그러나, 언급한 바와 같이, 이러한 지침에는 전문가의 감독이나 멘토링 없이 질적 연구를 더 쉽게 할 수 있도록 하는 데 많은 가치가 있다(McLeod 2001). 또한, 우리는 이 단계적 접근법이 엄격하게 따르려는 의도가 아니라는 것을 명확히 하는 것을 목표로 한다. 그리고 분석 기술이 발달함에 따라, 이 여섯 단계는 어느 정도 섞일 수 있고, 분석 과정은 필연적으로 점점 더 재귀적이 된다.

We acknowledge the limits of written guidance, and the potential for it to be (mis)interpreted as prescriptive. However, as noted, there is much value in such guidance, not least in making qualitative research more accessible to those without expert supervision or mentoring (McLeod 2001). Furthermore, we aim to be clear that this phase-approach is not intended to be followed rigidly. And as one’s analytic (craft) skill develops, these six phases can blend together somewhat, and the analytic process necessarily becomes increasingly recursive.

데이터 세트 전체에서 의미 패턴을 식별하고 의미를 이해하는 것을 목표로 하는 다양한 TA 접근 방식이 있다. 동일한 이름과 패턴 있는 의미에 초점을 맞추고 있음에도 불구하고, 서로 다른 TA 접근법 사이에 유의미한 차이가 존재한다(이러한 사항은 나중에 논의한다). 예를 들어, 주제를 공유된 의미의 패턴으로 개념화하는 것은 중심 개념(주제가 포착하는 중심 아이디어 또는 의미)을 중심으로 하는 것은 보편적이지 않다. [완전히-내재된 방법론]보다는 [방법]으로서 [(성찰적) TA가 갖는 유연성]은 상당히 다른 guiding theories으로 수행될 수 있음을 의미한다(의미있는 지식과 지식 생산에 대한 질적 패러다임과 인식론적 가정에 의해 제한되지만). 또한 데이터, 코딩 관행 및 테마 개발에 상당히 다른 방향을 사용합니다.

There are various TA approaches that all aim to identify and make sense of patterns of meaning across a dataset. Despite a shared name and focus on patterned meaning, there are not insignificant differences between different TA approaches (we discuss these later). Our conceptualisation of themes as patterns of shared meaning, cohering around a central concept – the central idea or meaning the theme captures – is not universal, for instance. The flexibility of (reflexive) TA as a method, rather than a fully-embedded methodology, means it can be undertaken with quite different guiding theories (albeit constrained by qualitative paradigmatic and epistemological assumptions about meaningful knowledge and knowledge production), and using quite different orientations to data, coding practices and theme development.

성찰적 TA는 언어, 데이터 및 의미에 대한 경험적(예: 비판적 현실주의자, 맥락론자) 및 비판적(예: 상대론자, 구성론자) 프레임 모두에 적합하다(Braun 및 Clarke 2013). 성찰적 TA는 연역적으로 사용될 수도 있고 귀납적인 분석 과정에 사용될 수도 있다(이 두 가지는 이분법적이지 않고 연속적일 될 수 있음). TA를 할 때, 이론적으로 진공인 상태에서 TA를 수행할 수 없기 때문에, [순수한 귀납적 분석]이 아니라 [데이터에 '근거된' 분석]이라는 의미에서 귀납성을 의미한다. 패러다임, 인식론적, 존재론적 가정은 불가피하게 분석에 정보를 제공한다.

  • 성찰적 TA를 귀납적으로 사용하는 연구자들은 그들의 분석에 inform하는 [이론적 가정]을 확인하고, 이상적으로는, 그들의 분명하게 표현하여 보고할 필요가 있다.
  • 성찰적 TA를 연역적으로 사용하는 것은 기존의 연구와 이론이 우리가 데이터를 분석하고 해석하는 렌즈를 제공한다는 것을 의미한다.
    • 좁게는, 이것은 이전 연구에서 확인된 주제에 대한 증거를 탐구하는 것을 의미할 수 있다;
    • 넓게는 (그리고 더 일반적으로) 이것은 종종 데이터를 코딩하고 해석하는 렌즈로 기존의 정치 또는 설명 이론을 사을용하는 것을 의미한다. (예를 들어 애착 이론 (윌콕스, 몰러, 클라크 2019) 또는 푸코의 성윤리 이론 (베레스와 파비드 2010))

Reflexive TA is suited to both experiential (e.g. critical realist, contextualist) and critical (e.g. relativist, constructionist) framings of language, data and meaning (Braun and Clarke 2013). It can be used for a more deductive or more inductive analytic process (recognising this can be a continuum, rather than dichotomy). We mean inductive in the sense of analysis ‘grounded in’ the data, rather than ‘pure’ induction, because you cannot enter a theoretical vacuum when doing TA. Paradigmatic, epistemological and ontological assumptions inescapably inform analysis.

  • Researchers using reflexive TA inductively need to identify, and ideally articulate in their reporting, the theoretical assumptions informing their analysis.
  • Using reflexive TA deductively means existing research and theory provide the lens through which we analyse and interpret data. Narrowly, this might mean exploring evidence for themes identified in previous research; broadly (and more commonly), this often means using existing political or explanatory theory – such as attachment theory (Willcox, Moller, and Clarke 2019) or Foucault’s theory of sexual ethics (Beres and Farvid 2010) – as a lens through which data are coded and interpreted.

또한 (TA간의 차이는) 의미론적(표면적, 명백함, 명백함)인 것에서 잠재적(암시적, 기저적, '숨겨진')인 것까지의 스펙트럼에 걸쳐, [의미 탐색을 위한 코딩의 포커스]에서도 발생한다. 성찰적 TA 내에서 코딩 프로세스는 테마가 이러한 코딩 프로세스의 '결과'이며, 테마는 코딩을 통해through 개발된다는 점에서 테마 "개발"에 필수적이다. 코딩은 [사전에 개념화한 주제에 대한 증거를 찾는 과정]이 아니다. 분석 과정에는 데이터에 대한 몰입, 읽기, 반성, 질문, 상상, 궁금, 쓰기, 후퇴, 복귀가 포함됩니다. 코딩은 기계적으로 하는 것과는 거리가 멀고, '제대로 생각할 시간'을 필요로 하며, 영감이 떠오르고 통찰력을 발휘해 발전해야 하는 과정이다(고프·라이언스 2016).

Variation also occurs through coding focus, where meaning can be explored across a spectrum from the semantic (surface, obvious, overt) to the latent (implicit, underlying, ‘hidden’). Within reflexive TA, the coding process is integral to theme development, in the sense that themes are an ‘outcome’ of these coding and theme development processes, are developed through coding; coding is not – in general – a process for finding evidence for pre-conceptualised themes. The analytic process involves immersion in the data, reading, reflecting, questioning, imagining, wondering, writing, retreating, returning. It is far from mechanical and is a process that requires ‘headspace’ and time for inspiration to strike and insight to develop (Gough and Lyons 2016).

Ho, Chiang, Leung(2017)은 홍콩에서 일하는 외국인 가정 도우미(FDH)의 경험에 대한 연구에서, TA에 대한 해석학적 접근법을 사용하면서, 자료에 'dwelling with'하는 과정과, '지속적이고 엄격하게' 자신의 생각을 반영하는 과정을 생생하게 보여준다. 호는 다음을 기록했다.

  • 참가자들이 말하는 단어 뒤에 숨겨진 무언의 의미를 궁금해한 것
  • FDH를 고용하고 간호사로 일했던 개인적인 경험을 성찰해본 것
  • 참가자가 설명하고 경험한 상황에서 그가 어떻게 느낄지 상상하고 질문한 것
  • 통찰력 따른 것
  • 데이터에서 유사하거나 반대되는 언어 및 경험을 찾은 것
  • 이것들을 곰곰이 생각한 것

Ho, Chiang, and Leung (2017) provide a vivid example of this process of ‘dwelling with’ data, and of ‘continuously and rigorously reflect[ing] on their own taken for granted thinking’ (p. 1760) when researching the experiences of foreign domestic helpers (FDHs) working in Hong Kong, using a hermeneutic phenomenological approach to TA. Ho documents his

  • wondering about unspoken meaning behind the words spoken by participants,
  • reflecting on his personal experiences of hiring FDHs and working as a junior nurse,
  • imagining and questioning how he would feel in situations described and experienced by participants,
  • following insights,
  • looking for instances of similar or contrary language and experiences in the data, and
  • pondering these.

이 과정은 빠른 과정도, 쉬운 과정도 아니다. 시간과 공간(데이터 포함)은 반사적 TA가 제공할 수 있는 미묘한 분석을 개발하여 분석 전에는 결코 예상할 수 없었던 풍부하고 복잡하며 명확하지 않은 테마를 생성한다.

It is neither a quick nor an easy process. Time and space (with the data) help develop the nuanced analyses that reflexive TA can deliver, producing rich, complex, non-obvious themes that could never have been anticipated in advance of analysis.

(성찰적) TA에 대한 이 간략한 설명과 2006년 논문(Braun and Clarke 2019a, 2019b; Braun et al. 2019a 참조) 사이에는 몇 가지 차이점이 있다. TA에 대해서 우리의 접근 방식에 대한 가정을 완전히 표현하지 못한 것, 그리고 우리의 접근 방식이 우리가 인용한 다른 접근법과 어떻게 다른지를 설명하지 못한 것은 의심할 여지 없이 일부 TA 연구에서 명백한 혼란과 오해에 기여한다. 우리는 이 논문이 최근의 다른 기여(Braun and Clarke 2019a, 2019b; Braun 등 2019a; Terry 등 2017)와 함께 교정적corrective 역할을 하고, 더 명확성을 가져오며, 궁극적으로 연구자들이 현재 개략적으로 설명하는 일반적인 문제를 피하는 데 도움이 되기를 바란다.

There are some differences between this brief account of (reflexive) TA, and that in our 2006 paper (for discussion of how our thinking has evolved and what has changed, see Braun and Clarke 2019a, 2019b; Braun et al. 2019a). Our failure to fully articulate the assumptions informing our approach to TA, and how our approach differs from the other approaches we cited (e.g. Boyatzis 1998), undoubtedly contributes to the confusions and misconceptions apparent in some TA research. We hope this paper, alongside other more recent contributions (Braun and Clarke 2019a, 2019b; Braun et al. 2019a; Terry et al. 2017), serves as a corrective and helps to bring greater clarity, and ultimately assists researchers to avoid the common problems we now outline.

발표된 TA 연구의 10가지 일반적인 문제
Ten common problems in published TA research

이제 우리는 우리의 접근방식을 인용하거나 따르고 있다고 주장하는 발표된 TA 연구에서 볼 수 있는 10가지 문제를 강조한다. 이러한 문제는 TA 연구에서도 더욱 광범위하게 드러난다. 이러한 문제들은 광범위하거나 개념적인 문제, 오해 또는 문제적 가정, 처리 또는 실행 문제에 걸쳐 있다.
We now highlight ten problems we see in published TA research that cites, or claims to follow, our approach. Such problems are also apparent in TA research more broadly. These problems span broad or conceptual issues, misunderstandings or problematic assumptions, and process or practice problems.

첫 번째 문제: TA가 하나의 접근 방식이라고 가정합니다.
Problem one: assuming TA is one approach

앞서 언급한 바와 같이, TA는 단일한 접근법이 아니다. 그보다 TA는 [여러 접근법의 클러스터]를 의미하며, 이들은 절차와 기본 철학 모두에서 서로 다르지만(때로는 상충되지만), 데이터에서 패턴을 포착하는 데 관심을 공유한다. 그러나 너무 자주 저자들은 TA에 대한 "그들 자신의" 구체적인 지향을 명시하지 않거나, 실제로 TA의 다양성을 인정하지 않는다. 우리가 처음 우리의 접근 방식을 명확히 했을 때, 우리는 분명히 이것을 인정하지 않았다. (유용한 것을 이용했지만, 보야치스(1998)와 다른 보다 실증적인 접근법은 질적 패러다임의 가정, 가치 및 감성을 '실제로 얻지 못한다'고 치부했다(Braun and Clarke 2019a)). 우리는 이제 TA를 몇 가지 다른 '버전'이 있는 것으로 개념화하는 것이 더 낫다고 생각한다. 우리는 접근 방식을 '코딩 신뢰성', '코드북' 및 '성찰적' 변형이라고 부르는 것으로 묶는다(Braun et al. 2019a). 
군집화와 구분은 다양한 패러다임과 인식론적 위치 및 관련 절차적 차이를 반영한다. 
요약하면 다음과 같다.
As previously noted, TA refers not to a singular approach, but rather to a cluster of sometimes conflicting approaches, divergent both in procedure and underlying philosophy, but which share an interest in capturing patterns in data. Yet too often authors do not specify their particular orientation to TA, or indeed acknowledge the diversity of TA. We certainly failed to acknowledge this when we first articulated our approach – utilising what was useful, but privately dismissing Boyatzis’ (1998) and other more positivist approaches as ‘not really getting’ the assumptions, values and sensibility of a qualitative paradigm (Braun and Clarke 2019a). We now think that it is better to conceptualise TA as having several different ‘versions’; we cluster the approaches into what we call ‘coding reliability’, ‘codebook’ and ‘reflexive’ variations (Braun et al. 2019a). The clustering and demarcation reflects divergent paradigmatic and epistemological positions and associated procedural differences. Briefly, these are:

  • '코딩 신뢰성' TA는 '객관적'과 '편향되지 않은' 코딩에 대한 핵심적 관심을 두는 신-실증주의적 접근법을 포착한다. 분석 프로세스 및 복수의 코더를 위한 코드북의 사용은 '정확하고' '신뢰할 수 있는' 코딩의 핵심이다. 이러한 접근법은 일반적으로 코드 품질의 핵심 척도로 평가자 간 신뢰성(코딩 일치)을 사용한다. 그것들은 종종 분석 초기 또는 분석 이전에 주제가 개발된다는 점에서 연역적이다.
    ‘Coding reliability’ TA captures neopositivist approaches that have at their core concerns about ‘objective’ and ‘unbiased’ coding. The use of a codebook for the analytic process, and multiple coders, is key to ensuring ‘accurate’ and ‘reliable’ coding. Such approaches typically use inter-rater reliability (coding agreement) as a key measure of coding quality. They are often deductive in orientation, in the sense that themes are developed early on in, or even prior to, analysis.
  • '코드북' TA는 질적 패러다임(일부 실용적 타협이 있기는 하지만) 안에 폭넓게 자리 잡고 있는 방법의 클러스터를 포착한다. 그들은 분석을 개발하고 문서화하기 위해 일종의 구조화된 코딩 프레임워크를 사용하지만, 코드 작성자 간의 합의와 평가자 간 신뢰성은 보통 품질의 척도가 아니다. 테마는 일반적으로 초기에 코딩 신뢰성과 함께 개발되지만, 일부 방법에서는 유도 데이터 참여와 분석 과정을 통해 개선되거나 새로운 테마를 개발할 수 있다.
    ‘Codebook’ TA captures a cluster of methods that broadly sit within a qualitative paradigm (albeit with some pragmatic compromises). They use some kind of structured coding framework for developing and documenting the analysis, but consensus between coders and inter-rater reliability are not usually measures of quality. Themes are typically initially developed early on, as they are with coding reliability, but in some methods can be refined or new themes can be developed through inductive data engagement and the analytic process.
  • '성찰적' TA는 질적 연구의 가치를 완전히 포용하며, 연구자가 프로세스에 제공하는 주관적 기술을 완벽하게 포용하는 접근 방식을 의미한다. 연구 팀은 품질에 필요하지도 않고, 심지어 연구의 퀄리티를 위하여 바람직하지도 않습니다.
    • 분석은 더 귀납적이거나 더 이론적이거나 추론적일 수 있으며,
    • 분석은 상황적situated인 해석적 성찰적 과정이다.
    • 코딩은 개방적이고 유기적이며 어떠한 코딩 프레임워크도 사용하지 않는다.
    • 테마는 데이터 코딩과 반복적인 테마 개발의 최종 '결과'가 되어야 한다.
      ‘Reflexive’ TA captures approaches that fully embrace qualitative research values and the subjective skills the researcher brings to the process – a research team is not required or even desirable for quality. Analysis, which can be more inductive or more theoretical/deductive, is a situated interpretative reflexive process. Coding is open and organic, with no use of any coding framework. Themes should be the final ‘outcome’ of data coding and iterative theme development.

TA는 종종 하나의 접근법인 것처럼 쓰여진다. 예를 들어, Firmin 등이 있습니다. (2008) TA와 텍스트 분석 소프트웨어를 비교하는 논문에서 '전통 주제 분석'(p. 202)을 단일하고 널리 이해되는 것처럼 언급했지만 귀납적이고 수정된 근거 이론과 유사한 버전을 개략적으로 설명한다. TA의 유일성 또는 균질성에 대한 가정은 또한 때때로 암시적이다.

  • 연구자들은 그들의 데이터가 TA를 사용하여 분석되었다고 언급하면서,
  • 복수의 (개념적으로 호환되지 않거나 모순된) 접근법을 인용하며,
  • (여러가지 어마어마한 차이가 있는 TA의 버전들 가운데) 무엇을 가지고 실제로 분석을 어떻게 수행했는지에 대한 구체적인 정보를 제공하지 않는다.

TA is often written about as if it is just one approach. For example, Firmin et al. (2008), in a paper comparing TA and text analysis software, referred to ‘traditional thematic analysis’ (p. 202), as if that is singular and widely understood, but outline a version that is inductive and similar to a modified grounded theory. The assumption of singularity or homogeneity is also at times implicit, with researchers

  • noting their data were analysed using TA,
  • citing multiple (conceptually incompatible or contradictory) approaches, and
  • not providing any specific information about how the analysis was actually conducted – which varies considerably across different versions of TA.

이러한 '단일 접근법' 개념화와 밀접하게 관련된 기준은 '단일 품질 표준' 기준이다. 검토자가 인용한 본 논문의 서두 인용문은 이를 예시한다. 그 인용문을 보면 일부 형태의 TA(특히 '코딩 신뢰성' 접근법)에만 가장 잘 적용되는 품질 표준quality standard을 지향한다. 이러한 접근법은 가장 오랜 역사를 가지고 있으며, 종종 TA의 가까운 사촌인 [질적 내용 분석]과 유사하다(예: Forman 및 Damschroder 2008). Boyatzis(1998)는 [질적 데이터의 수집과 분석]을 [퀄리티에 대한 양적 지표]와 결합시키는 것을 실증주의(양적) 패러다임과 해석적(질적) 패러다임 사이의 '격차를 메우기' 위한 하나의 전략으로서, TA에 대한 자신만의 접근 방식을 제공했다. 그가 제시한 방법에는 [측정 또는 관찰의 신뢰성], [코딩 절차의 표준화를 통해 연구자 '편향' 을 억제하 것], [여러 코더의 합의를 입증하는 것] 등이 있다. 이러한 quality marker가 종종 모든 형태의 TA에 적용되는 것으로 가정된다. 그러나 [코딩 신뢰성 TA]를 위한 논리, 과정, 그리고 품질 측정은 [성찰적 TA]와는 상당히 다릅니다. 질적 연구, 그리고 질적 연구에 대한 다른 접근법이 그들 자신의 관점에서 평가되는 것이 중요하다. 

Intimately connected to this ‘one approach’ conceptualisation is a ‘one quality standard’ criterion. This paper’s opening quotation from a reviewer exemplifies this – orienting to quality standards that best apply only to some forms of TA, and in particular to ‘coding reliability’ approaches (e.g. Boyatzis 1998; Guest, MacQueen, and Namey 2012; Joffe 2012). These approaches have the longest history, and are often similar to TA’s close cousin, qualitative content analysis (e.g. Forman and Damschroder 2008). Boyatzis (1998) offered his approach to TA as one to ‘bridge the divide’ between positivist (quantitative) and interpretative (qualitative) paradigms by marrying the collection and analysis of qualitative data with positivist markers of quality – reliability of measurement or observation and containing researcher ‘bias’ through the standardisation of coding procedures and the demonstration of consensus among multiple coders. Such quality markers are often assumed to apply to all forms of TA. And yet the logic, process, and thus quality measures for coding reliability TA are quite different from reflexive TA. It is important that qualitative research, and different approaches to qualitative research, are evaluated on their own terms (Madill et al., 2000; Sparkes and Smith 2009; Yardley 2015).

간략히 언급한 바와 같이, [코딩 신뢰성 접근법]은 아래의 것들을 권고한다는 점에서 [성찰적 TA]와 다르다. 

  • 초기 테마 개발(일부 데이터 익숙화 이후 진행),
  • 구조화되고 고정된 코드북 또는 코딩 프레임의 사용(일부 데이터 익숙화 또는 데이터 부분의 초기 분석에 따라 개발된 정보)
  • 독립적으로 작업하는 여러 코더의 사용
  • 코드 간 일치도(또는 평가자 간 신뢰도) 및
  • 합의를 통한 최종 코딩 결정.

As briefly noted above, these coding reliability approaches differ from reflexive TA in recommending 

  • early theme development (perhaps following some data familiarisation),
  • the use of a structured and fixed codebook or coding frame (perhaps developed following some data familiarisation or initial analysis of a portion of the data),
  • the use of multiple coders who work independently,
  • measurement of between-coder agreement (or inter-rater reliability) and
  • the determination of final coding through consensus.

[코딩 신뢰성 TA]에서 가장 중요한 관심사는 코딩의 정확성 또는 신뢰성을 입증하는 것이며, 이러한 실증주의적 우선 순위는 분석이 수행되는 방법을 형성한다. 하지만 [질적 패러다임과 성찰적 TA]에서는 코딩 신뢰성을 입증하는 것이나 '편향'을 회피하는 것은 비논리적인 것이고, coherent하지 못한 것이며, 궁극적으로 무의미하다. 왜냐하면 의미와 지식은 위치적이고 맥락적인 것으로 이해되며, 연구자의 주관성은 지식 생산을 위한 자원으로 개념화되기 때문이다. 연구자의 주관성은, credibility의 위협이기에 억제되어야 하는 것이 아니라, 만들어질 지식을 형상화sculpt하는 것이다. [성찰적 TA]에 '코딩 신뢰성' 기준을 적용하는 것은 연구자가 반사적 TA의 근간fundamentals을 완전히 '이해하지 못하며' 프레임워크를 뒷받침하는 질적 가치가 무엇을 기대하거나 구분하는지 이해하지 못한다는 것을 시사한다.

An overriding concern is with demonstrating the accuracy or reliability of coding, and this positivist prioritisation shapes how analysis is conducted. Demonstrating coding reliability and the avoidance of ‘bias’ is illogical, incoherent and ultimately meaningless in a qualitative paradigm and in reflexive TA, because meaning and knowledge are understood as situated and contextual, and researcher subjectivity is conceptualised as a resource for knowledge production, which inevitably sculpts the knowledge produced, rather than a must-be-contained threat to credibility. The application of such ‘coding reliability’ criteria to reflexive TA also, to us, suggests that the researcher does not fully ‘get’ the fundamentals of reflexive TA, does not understand what the qualitative values underpinning the framework expect or delimit.

TA의 이 두 가지 '극poles' 사이에서 다음과 같은 '코드북' 접근방식이 등장했다.

  • 프레임워크 분석(예: 게일 외 2013; Ritchie 및 Lewis 2003; Smith & Firth, 2011),
  • 매트릭스 분석(예: Miles 및 Huberman 1994; Nadin 및 Cassell 2014)과
  • 템플릿 분석(예: Brooks et al. 2015; 2012)

이 방법 각각은 자체적인 '모범 사례' 및 품질 기준 가이드라인을 가지고 있다. 이들은 다음의 특징을 공유한다.

  • 테마를 초기에 개발(일부 또는 모든 테마)
  • 코딩 신뢰성 접근법과 마찬가지로 구조화된 코드북 또는 코딩 프레임(프레임, 템플릿 또는 매트릭스)의 사용
  • 질적 철학과 성찰적 TA의 가치(연구자의 주관성을 인정)를 공유하고, 지식이 문맥적임을 인정한다.

Between these two ‘poles’ of TA, ‘codebook’ approaches, like framework analysis (e.g. Gale et al. 2013; Ritchie and Lewis 2003; Smith & Firth, 2011), matrix analysis (e.g. Miles and Huberman 1994; Nadin and Cassell 2014) and template analysis (e.g. Brooks et al. 2015; King 2012, 2014), comprise processes and conceptualisations that have elements of each, with their own ‘best practice’ and quality criteria guidelines. They share

  • early theme development (of some or all themes) and
  • the use of a structured codebook or coding frame (the framework, template or matrix) with coding reliability approaches, and
  • the qualitative philosophy and values of reflexive TA, such as recognising researcher subjectivity and that knowledge is contextual (see Braun et al. 2019a, for more discussion). 

일부 코드북 지지자들의 경우, 이들의 접근방식은 [사전에 미리 결정된 정보 요구(이것 때문에 '테마'는 종종 특정 질문에 대한 응답 요약으로 구성된다.)], [결과를 내야 하는 엄격한 타임프레임], [팀워크의 필요성] 등을 둘러싼 [실용적 요구]에의해 주도되기에, 어느 정도 질적 원칙의 '타협'을 시도한다. (코드북 TA)에서는

  • 여러 연구자데이터의 여러 부분을 코딩하여 '결과'를 정해진 기한 내에 전달할 수 있게 한다.
  • 이 방법은 연구 배경이 거의 없거나 전혀 없는, 질적 초보자와 참여자 또는 이해관계자의 참여를 개방하여 포괄적 연구팀을 용이하게 한다.
  • 데이터는 종종 다소 구체적이며, 연구를 통해서 얻어야 하는 산출물은 종종 [의미론적 의미의 서술적 또는 요약적 분석]으로서 [실무자와 이해관계자가 접근하고 실행할 수 있는 결과]가 된다(Ritchie and Spencer 1994; Smith and Firth 2011).
  • 이러한 접근법은 종종 '질적 실용주의'를 보여주며 응용 연구에 효과적이다. 예를 들어, 프레임워크 접근법은 1980년대에 응용 사회 정책 연구에 사용하기 위해 (영국) 국립 사회 연구 센터의 연구원들이 개발했다(리치와 스펜서 1994).

For some codebook proponents, their approach represents some degree of ‘compromise’ of qualitative principles, with research driven by pragmatic demands around pre-determined information needs (with ‘themes’ often consisting of summaries of responses to particular questions), strict time frames for producing ‘results,’ and the necessity of team work.

  • Multiple researchers code different portions of the data, facilitating delivery of ‘results’ to a fixed deadline.
  • The methods facilitate inclusive teams of researchers, opening participation for qualitative novices and participants or stakeholders, with little or no research background.
  • Data are often rather concrete, and the required output can often be a descriptive or summative analysis of semantic meaning with results accessible to and actionable by practitioners and stakeholders (Ritchie and Spencer 1994; Smith and Firth 2011).
  • These approaches often demonstrate a ‘qualitative pragmatism’ and work well for applied research – for instance, the framework approach was developed by researchers at the (British) National Centre for Social Research in the 1980s for use in applied social policy research (Ritchie and Spencer 1994).

요약하자면… 'TA'는 [공통적으로 (코딩과 테마 개발을 통한 분석, 어느 정도의 이론 및 연구 설계 유연성; 의미와 잠재 의미에 대한 초점과 같은) 일부 특성을 공유하는 접근법]의 포괄적 용어 또는 '불분명한fuzzy' 집합으로 가장 잘 생각되지만(Madill and Gough 2008) 기저의 패러다임과 인식론적 가치, 그리고 절차에서 크게 다를 수 있다. 연구자, 검토자 및 편집자가 서로 다른 버전의 TA 사이의 광범위한 패러다임 차이를 이해하는 것이 중요하다. 우리는 TA 연구자들이 어떤 TA 접근법을 사용하고 있는지 명확하게 구분하도록 권장한다. 또한, 그들이 TA에 대해 다른 방향의 저자들을 인용하는 경우, 그들이 각각에서 '취하는taking' 것을 명확히 명시하고 (잘) 다양한 기준과 실천의 사용을 정당화하여야 한다.
The take away … ‘TA’ is best thought of as an umbrella term for, or a ‘fuzzy’ set (Madill and Gough 2008) of, approaches that share some characteristics in common (analysis through coding and theme development; some degree of theoretical and research design flexibility; a focus on semantic and latent meaning) but can differ significantly in both underlying paradigmatic and epistemological values, and in procedures. It is vital that researchers, reviewers and editors understand the broad paradigm distinctions between different versions of TA. We encourage TA researchers to clearly demarcate which TA approach they are using. Furthermore, if they cite authors from different orientations to TA, to clearly specify what they are ‘taking’ from each and justify (well) any use of divergent criteria and practice.

 

문제2: 읽지 않고 인용!
Problem two: citing without reading!

안타깝게도 이 문제는 장난이 아닙니다. 2006년 논문을 인용한 일부는 보여주기식performative이었다. '편리함' 또는 '필수' 인용문으로도 활용될 수 있는 것으로 보입니다. 수많은 저자들은 '브라운과 클라크(2006)가 개괄한 절차를 따랐다'고 주장하며, 우리가 개괄한 절차와 거의 또는 전혀 유사하지 않은 절차를 설명한다. 예를 들어, Kaye, Wall 및 Malone(2016)은 그들의 접근방식과 절차를 'Braun and Clarke (2006) 분석 전략과 일치한다'(p. 464)라고 설명했지만, 신뢰성 TA 코딩에 더 가까운 분석 과정을 개략적으로 설명하고 있다.

  • 데이터는 '두 개의 순진한 코드 작성자'에 의해 읽혔다.
  • 각 코더가 독립적으로 초기 주제를 식별함
  • 데이터는 초기 테마의 타당성을 시험하기 위해 코딩되었다(부분적으로는 각 테마의 빈도를 결정하기 위해).
  • 데이터는 코드북의 개발과 함께 다시 검토되었다.

Unfortunately, this problem is not a joke. Some citations of our 2006 paper appear performative: dropped in as a ‘convenient’ or maybe even ‘required’ citation. Numerous authors claim to have ‘followed the procedures outlined by Braun and Clarke (2006),’ then describe procedures with little or no resemblance to those we outlined. For example, Kaye, Wall, and Malone (2016) described their approach as TA and their procedure as ‘in line with Braun and Clarke (2006) analytic strategy’ (p. 464), but then outlined an analytic process more akin to coding reliability TA:

  • the data were read by ‘two naïve coders’;
  • each coder independently identified initial themes;
  • the data were coded to test the validity of the initial themes (in part to determine the frequency of each theme);
  • the data were reviewed again alongside the development of a codebook.

그러한 논문을 읽으면서, 우리는 코드북과 코딩 프레임, 합의 코딩, 코딩 신뢰성의 측정, 데이터 코딩 이전의 주제 개발, 데이터 또는 테마 포화, 주제 빈도의 측정 및 보고, 지속적인 비교 분석 등을 장려한다는 것을 발견했다. 독자들이여, 우리는 그렇지 않다! 이러한 것들은 우리가 말하지 않았을 뿐만 아니라, 빅 Q 질적 조사를 위한 관행으로서 우리가 정말로 비판적인 것들입니다. 우리가 실제로 지지하지 않는 절차에 대해 옹호하는 주장에 대한 가장 그럴듯한(아마도 관대할 수 있는) 설명은 저자들이 우리의 논문을 읽지 않았다는 것이다.

Reading such papers, we have discovered that we promote the use of codebooks and coding frames, consensus coding, the measurement of coding reliability, developing themes before data coding, data or theme saturation, the measurement and reporting of theme frequency, constant comparative analysis, and more … Reader, we do not! Not only are these things we have not said, they are all things we are indeed critical of, as practices for Big Q qualitative inquiry (Braun and Clarke 2013, 2019c; Clarke and Braun 2019). The most plausible (and perhaps generous) explanation for claims that we advocate for procedures that we do not in fact advocate for, is that the authors have not read our paper.

숙제를 하십시오. 즉, 다음 사항 없이 TA에 사용되는 방법으로 저희(또는 다른 TA 저자)를 인용하지 마십시오.

  • a) 제공된 방법론적 지침을 읽을 것.
  • b) 당신이 한 일이 지지받는 것임을 확인하는 것;
  • c) 어떤 '개정deviation'이 있었다면 그 이유를 명확히 하는 것.

The take away … Do your homework – by which we mean, do not cite us (or indeed any other TA author) as the method used for TA without:

  • a) reading the methodological guidelines provided;
  • b) confirming that what you did is what is advocated; and
  • c) being clear on why any ‘deviations’ from the broad approach were adopted.

 

문제 3: 정당하지 않거나 호환되지 않는 '매시업'
Problem three: unjustified or incompatible ‘mash-ups’


연구자들이 TA에 대해 복수의 (호환되지 않는) 소스를 인용하는 것을 넘어, 정당성이나 설명 없이 반사성 TA를 종종 양립할 수 없는 다른 절차와 효과적으로 결합하는 수많은 문제적 실무 사례가 있다. 방법론적인 '매쉬업'의 개념은 그 자체로 문제가 되지 않는다. TA의 유연성은 그러한 창의성과 혁신을 불러온다. 우리가 지적하려는 것은 이론적이고 개념적인 모순인 '혼돈된 q' 연구를 초래하는 겉보기에는 알 수 없고 유연하지 않은 매시업이다. 예를 들어, 성찰적 TA와 코드북 및 코딩 신뢰성 측정의 조합은 일반적이지만 [성찰적 TA의 유기적이고 주관적인 코딩 프로세스]와 [코딩 정확성과 신뢰성에 대한 우려] 사이의 긴장감에 대한 인식은 훨씬 낮은 것으로 보이며, 확실히 자주 논의되지는 않는다. 
There are numerous instances of problematic practice that go beyond researchers citing multiple (incompatible) sources for TA, effectively combining reflexive TA with other often incompatible procedures without justification or explanation. The notion of methodological ‘mash-ups’ is not problematic per se; the flexibility of TA invites such creativity and innovation. Our concern is with seemingly unknowing and unreflexive mash-ups that result in theoretical and conceptual incoherence – ‘confused q’ research. For example, the combination of reflexive TA with the use of codebooks and coding reliability measures is common, but the tensions between the organic and subjective coding processes of reflexive TA and concerns for coding accuracy and reliability seem to be far less commonly recognised – certainly they are not often discussed.

일부 연구자들은 또한 [개념과 실천과 관련된 위치 및 특정 의미 또는 이론적 앵커에 대한 논의 없이] 다른 분석적 접근법과 독특하게 연관된 개념과 용어를 사용한다.

  • (예: IPA와 관련하여 emergent라는 용어나, superordinate theme이라는 용어;
  • 근거이론에서의 개념인 지속적 비교 분석, 라인 바이 라인 코딩, 포화
  • TA의 포화 개념 사용에 대한 비판적 논의는 Braun 및 Clarke 2019c 참조)

Some researchers also use concepts and terminology distinctively associated with other analytic approaches without discussion of the located and particular meanings, or theoretical anchors, associated with these concepts and practices.

  • (e.g. the terms emergent and superordinate theme, associated with IPA;
  • the grounded theory concepts of constant comparative analysis, line-by-line coding and saturation;
  • see Braun and Clarke 2019c, for a critical discussion of the use of the saturation concept in TA) 

이러한 개념이나 용어들이 항상 TA로 잘 translate되거나 TA에 부합하지는 않는다. 우리는 또한 연구자들이 TA가 분석 목적을 달성하기에 그 자체로 불충분하다고 주장하며 추가 절차나 접근법으로 TA를 '보충'(반복)하는 것을 본다(예: Floersch et al. 2010). 이는 [잘못된 가정]에 근거하고 있으며, [TA가 단일한 것이라는 아이디어]에 기초한 것으로 보입니다(이후의 문제에서 더 자세히 설명).

They do not always translate (well) to, or cohere with, TA. We also see researchers ‘supplementing’ (reflexive) TA with additional procedures or approaches, arguing that TA is insufficient in and of itself to achieve their analytic purpose (e.g. Floersch et al. 2010) – which seems to be based on flawed assumptions and a singular idea of what TA is (discussed further in subsequent Problems).

방법론적인 매시업은 보증되고 정당화되고 이론적으로 일관되어야 하며, (반복적인) TA가 제공할 수 있는 것과 제공할 수 없는 것에 대한 완전한 이해에 기초해야 한다.

The take away … Methodological mash-ups should be warranted, justified and theoretically coherent, and based in a full understanding of what (reflexive) TA can – and cannot – offer.

문제 4: TA가 무이론적이라고 가정함
Problem four: assuming TA is atheoretical

[TA의 이론적 유연성]은 내재된inbuilt 지침 이론guiding theory의 부재함을 의미하고, TA가 IPA, 기초 이론, 담화 분석 및 서술 분석과 같은 인기 있고 잘 활용된 질적 분석 접근법에서 벗어나는 부분이다. 이러한 접근법 중 일부는 원래 접근법의 다른 반복의 확산을 통해 다양한 이론적 가능성을 제공한다(예: 근거 이론의 다양한 'flavor'가 있다 – 실증론자, 맥락론자/실용론자, 급진 구성론자가 모두 논의된다;2008년 차마즈와 헨우드, 1992년 글레이저, 1997년 피존과 헨우드).

The theoretical flexibility of TA, the absence of inbuilt guiding theory, is where TA departs from other popular and well-utilised qualitative analytic approaches such as IPA, grounded theory, discourse analysis and narrative analysis. Some of these approaches offer a range of theoretical possibilities through the proliferation of different iterations of the original approach (e.g. there are various ‘flavours’ of grounded theory – positivist, contextualist/constructivist and radical constructionist are all discussed; see Charmaz and Henwood 2008; Glaser 1992; Pidgeon and Henwood 1997).

TA에 내재된 이론적 처방의 상대적 부족은 종종 TA가 무이론적임을 나타내는 것으로 잘못 해석된다. 우리는 또한 TA를 하면서 연구자들의 engagement에 informing하는 이론적 가정을 명시하지 못한 연구자를 보며 [TA가 무이론적 방법으로 취급되는 것]을 마주한다. 실제로 최근 원고에 대한 저자의 응답에서 명백해졌듯이, 어떤 연구자들은 [귀납적 TA]는 전적으로 이론적 근거가 없으며, 연역적 TA만이 이론의 논의를 필요로 한다고 가정한다. (또한 우리는 [연역적 TA]가 [연구 질문이나 연구자의 존재론적, 인식론적 가정 또는 주제에 대한 관심에 의해 informed되는 TA]로 잘못 인식되고 있다고 본다.)

The relative lack of theoretical prescription inherent in TA is often misinterpreted as indicating TA is atheoretical. We also encounter TA being treated as an atheoretical method through researchers failing to specify the theoretical assumptions informing their engagement with TA. Indeed, as became clear to us in an author’s response to our review of their manuscript recently, it is sometimes assumed that inductive TA is entirely without theoretical foundations, and that only deductive TA requires discussion of theory. (We also see deductive TA misconceptualised as TA informed by a research question, or the researcher’s ontological and epistemological assumptions or interests in the topic.)

내재된 이론이 없음에도 불구하고, TA는 절대로 이론적인 공백에서 수행될 수 없다; 연구자들은 항상 가정을 한다

  • 데이터가 나타내는 것은 무엇인가?
    • 예: 참가자의 말은 비교적 투명하게 개인의 경험을 전달하고 있는가?
    • 또는 참가자가 한 말은 사회적 담론을 구성하고 사회적 행동을 수행하는가?)
  • 이 데이터에 기초하여 무엇을 주장할 수 있는가?
  • 궁극적으로, 무엇이 의미 있는 지식을 구성하는가?

Despite not having inbuilt theory, TA can never be conducted in a theoretical vacuum; researchers always make assumptions about

  • what data represent
    • (e.g. do participants’ words relatively transparently communicate individual experience or
    • do their words constitute social discourse, performing social actions?),
  • what can be claimed on the basis of these data, and
  • indeed what constitutes meaningful knowledge.

만약 가정들이 더 '상식적common-sensical'이거나, 학문분야 내에서 지배적인 가정을 반영한다면, 이러한 가정들을 [가정으로서], 더 나아가 실제로 [이론으로서], 인식하는 것은 어려울 수 있지만, 그럼에도 불구하고 이론적으로 정보에 근거한 가정이며 결과적으로 분석적 함의가 있다.

If the assumptions made are more ‘common-sensical’ or reflect the dominant assumptions within a discipline, it can be hard to recognise these as assumptions, indeed as theory, but they are nonetheless theoretically-informed assumptions with consequent analytic implications.

연구자들은 항상 TA의 사용에 informing하는 철학적, 이론적 가정을 성찰하고 명시해야 한다. 심지어 귀납적 TA에서도 그러하다. (구체적인 iteration에 따라 다소간 차이가 있더라도) TA는 이론적으로 유동적이지만, 무이론적 접근법이 아니며 [질적 연구의 경험적, 비판적 지향]에 동일하게 적합한 접근법으로 인식되어야 한다. (종종 경험적 지향experiential orientation에만 TA를 사용하는 것이 적절하다고 가정한다.)

The take away … Researchers should always reflect on and specify the philosophical and theoretical assumptions informing their use of TA, even inductive TA. TA should be recognised as a (more or less, depending on the specific iteration) theoretically flexible, but not atheoretical, approach and one equally suited to experiential and critical orientations for qualitative research (TA is often assumed to be only appropriate to use in experiential orientations, a Problem we now discuss).

문제 5: TA가 현실주의자/본질주의자 또는 경험적/현상학적이라고 가정한다.
Problem five: assuming TA is only realist/essentialist or experiential/phenomenological 

문제 4와 밀접하게 연결되어, TA는 단순히 진리와 현실을 검색하는 현실주의 또는 본질주의 방법으로 암묵적으로 배치되며, 두 방법 모두 문제없이 접근 가능한 것으로 취급되며 종종 이론화되지 않는다. 경험은 종종 TA를 통해 접근할 수 있다고 가정하며, TA는 일반적으로 특히 더 현상학 또는 현상학적인 방법으로도 설명된다. 이런 식이다. '주제 분석'은 주제를 체계적으로 식별하기 위한 현상학적 위치를 채택한다(Newton-John et al. 2017, 1822). 
Closely connected to Problem four, TA is regularly positioned implicitly as a realist or essentialist method that simply retrieves truth and reality, both of which are treated as unproblematically accessible (and are often un[der]theorised). Experience is likewise often assumed to be accessible through TA, and TA is commonly described as particularly compatible with phenomenology (e.g. Guest, MacQueen, and Namey 2012; Joffe 2012) or even as a phenomenological method: ‘thematic analysis adopts a phenomenological position to systematically identify themes’ (Newton-John et al. 2017, 1822).

IPA 이전에, TA는 심리학에서 현상학적 방법으로 사용되었지만(예: Dapkus 1985) TA와 현상학이 일치한다는 선언은 거의 설명되지 않는다. 우리는 이것이 TA를 [질적 연구에 대한 광범위한 경험적 접근법에 (유일하게) 양립할 수 있는 것]이며, TA를 ['주관적 관점'의 분석인 것]으로 이해하는 것를 반영한다고 추측한다(Flik 2014, 423). 즉, 언어에 대한 성찰적 관점으로 뒷받침되고, 참여자들의 생생한 경험, 감각 형성, 관점, 요구, 실천 등을 광범위하게 '감정적' 렌즈(Braun and Clarke 2013; Willig 2013)를 통해 탐구하는 데 초점을 맞춘 연구. 이 프레임은 불필요하게 제한적이다.

Before IPA, TA was used as a phenomenological method in psychology (e.g. Dapkus 1985), yet the proclamation that TA and phenomenology are aligned is rarely explained. We speculate that this reflects an understanding of TA as (only) compatible with broadly experiential approaches to qualitative research, and the analysis of ‘subjective viewpoints’ (Flick 2014, 423) – research underpinned by a reflective view of language and focused on exploring participants’ lived experience, sense-making, views, needs, practices and so on, through a broadly ‘empathic’ lens (Braun and Clarke 2013; Willig 2013). This framing is unnecessarily limited.

이와는 대조적으로, 우리는 (성찰적) TA를 [경험적 질적 연구]와 [비판적 질적 연구] 두 가지 모두와 양립할 수 있을 만큼 충분히 유연한 접근법으로 포지셔닝한다(Clarke와 Braun 2014b 참조). 이는 의심의 여지 없이 비판적 질적 심리학에 대한 우리의 배경과 훈련을 반영합니다. 또한 심리학에는 주제 분해(Stenner 1993), 주제 담화 분석(가수와 헌터 1999; 테일러와 어셔 2001)과 같은 주제적(thematic) 디스커버리 방법의 전통이 있다. 그리고 우리는 성찰적 TA의 흥미로운 매시업과 디스커버리 및 서술적 접근 방식을 점점 더 많이 볼 수 있으며, TA를 결합하여 주제를 식별하고 참가자의 말account에서 사건의 순차적 구성을 탐구하는 '주제적 내러티브 분석'과 같은 혼합적 접근 방식의 개발을 볼 수 있다. '비판적 주제 분석'(예: Terry and Braun 2011)도 마찬가지로 반사적 TA를 비판적 분산 심리의 일부 특징(예: Wetherell 및 Edley 2009)과 결합한다. 3번 문제에서 기술된, 아무 생각 없이 성찰적 TA를 질적 실증주의와 섞어버린 것과는 반대로, 우리가 환영하는 것은 정확히 이런 종류의 이론적이고 창의적이고 성찰적인 매시업이다.

In contrast, we position (reflexive) TA as an approach that is flexible enough to be compatible with both experiential and critical qualitative research (see Clarke and Braun 2014b) – no doubt a reflection of our background and training in critical qualitative psychology (see Braun and Clarke 2019a; Jankowski, Braun, and Clarke 2017; Lainson, Braun, and Clarke 2019). Moreover, there is a tradition of ‘thematic’ discursive methods in psychology such as thematic decomposition (Stenner 1993) and thematic discourse analysis (Singer and Hunter 1999; Taylor and Ussher 2001). And we increasingly see exciting mash-ups of reflexive TA and discursive and narrative approaches, and the development of hybrid approaches like ‘thematic narrative analysis’, which combines TA to identify themes with narrative analysis to explore the sequential organisation of events in participants’ accounts (e.g. Palomäki, Laakasuo, and Salmela 2013). ‘Critical thematic analysis’ (e.g. Terry and Braun 2011) likewise combines reflexive TA with some features of critical discursive psychology (e.g. Wetherell and Edley 2009). It is precisely this kind of theoretically-knowing, creative and reflexive mash-ups that we welcome, in contrast to the seemingly unknowing ‘mash-ups’ of reflexive TA with qualitative positivism described in Problem three.

TA가 본질적으로 질적 연구에 대한 한 가지 유형의 지향만을 제공하는 것처럼 취급하는 것을 피하십시오. 대신, (성찰적) TA의 특별한 사용 방법과 사용 중인 (성찰적) TA에 대한 특정 지향을 설명하는 근거를 제시하십시오.

The take away … Avoid treating TA as if it inherently offers only one type of orientation to qualitative research. Instead, provide a rationale that explains the particular use of (reflexive) TA, and the particular orientation to (reflexive) TA you are taking.

문제 6: TA는 설명만 한다고 가정합니다.
Problem six: assuming TA is only descriptive


앞의 두 가지 문제와 밀접한 관련이 있는 것은 TA가 데이터 패턴을 패러프레이즈하거나 요약하는 기술 또는 데이터 감소 방법일 뿐이라는 개념이다. TA 연구는 근거 이론이나 서술 분석과 같은 접근법에 비해 낮은 수준의 해석을 제공하는 것으로 가정되며, TA를 잘못 이해한 경우 종종 TA를 '더 높은 수준의 해석'을 제공하는 다른 접근법(예: 근거 이론)과 결합하는 것을 정당화하기 위해 사용된다. (예: Floersch et al. 2010). 우리는 이 문제 있는 가정에 대해 두 가지 염려가 있습니다.
Closely related to the previous two Problems is the notion that TA is only a descriptive or data reduction method, in which data patterns are paraphrased or summarised. TA research is assumed to offer a low level of interpretation compared to approaches such as grounded theory or narrative analysis (e.g. Aguinaldo 2012; Vaismoradi, Turunen, and Bondas 2013), and this impoverished conceptualisation of TA is often used to justify combining TA with other approaches (such as grounded theory) that are positioned as offering (a higher level of) interpretation (e.g. Floersch et al. 2010). We have two concerns with this problematic assumption.

첫째, 기술과 해석은 분리되고 별개의 활동이다. 그리고 기술적 또는 종합적 분석에서, 연구자는 참가자들의 목소리에 대해 수동적이고, 무관심하며, 탈맥락화된 전달자가 되는 것으로 보인다. 우리는 기술적 목적을 가진 TA조차도 다양한 방식으로 위치하며 그들의 특정한 사회적, 문화적, 역사적, 규율적, 정치적, 이념적 위치의 렌즈를 통해 데이터를 읽는 연구자에 의해 수행되는 [해석적 활동]이라고 주장한다. 그들은 참여자의 '목소리'를 편집하고 환기시키지만 궁극적으로는 데이터에 대한 [그들의 이야기]를 들려준다: '목소리를 통해 주조되는 사회적 연구는 일반적으로 우리가 우리의 주장을 경계하기 위해 선택하고 편집하고 배치하는 확인되지 않은 서술적 증거의 조각을 조각내는 것을 포함한다.' (Fine 1992, 218) 그리고 (객관적 과학자의) 수동적 목소리와 같은 [실증-경험적 보고 관행]은 실제로 ('정확성'을 위하여) '코딩 신뢰성'을 입증하였다고 어필하는데, 이는 참가자의 말을 해석하는 방법에 대한 [우리의 책임]을 불명확하게 만든다(클라크와 브라운 2019). 우리가 사용하는 언어는 심지어 명백한 기술적 보고에서조차 중립적이지 않다.
First, description and interpretation are positioned as separate and distinct activities. And in descriptive or summative analyses, the researcher appears to become a passive, disinterested and decontextualised conduit for the voices of participants. We contend that even TA with a descriptive purpose is an interpretative activity undertaken by a researcher who is situated in various ways, and who reads data through the lenses of their particular social, cultural, historical, disciplinary, political and ideological positionings. They edit and evoke participant ‘voices’ but ultimately tell their story about the data: ‘social research cast through voices typically involves carving out unacknowledged pieces of narrative evidence that we select, edit, and deploy to border our arguments’ (Fine 1992, 218). And positivist-empiricist reporting practices, like the passive voice (of the objective scientist), and indeed appeals to demonstrating ‘coding reliability’ – for ‘accuracy’ – can obfuscate our responsibility for the ways we interpret participants’ accounts (Clarke and Braun 2019). Our language use is never neutral, even in apparently descriptive reporting.

둘째, TA를 낮은 수준의 서술적 방법으로 개념적으로 환원시키면 반사적 TA가 갖는 가능성의 범위가 모호해진다. 무엇보다 TA의 깊은 해석적, 이론화된 분석의 잠재력을 평가절하하게 된다. 그러한 TA의 가능성과 잠재력을 인식하고 충분히 인식한다면, 연구자들은 그들의 TA를 '확장'하기 위해 또 다른 (아마도 더 해석적인) 방법을 추가하는 것을 중단할 수 있다. 그러한 mash-ups는 종종 단지 불필요할 뿐만 아니라, 설득력도 없고, 심지어 문제가 되기도 한다.
Second, the conceptual reduction of TA to a low-level descriptive method obscures the range of possibilities reflexive TA holds – most particularly its potential for deeply interpretative, theorised analyses. If such possibilities and potentials were recognised and fully appreciated, researchers could stop adding another (supposedly more interpretative) method to ‘extend’ their TA – such mash-ups are often not just unnecessary, but unconvincing or even problematic.

해석은 (TA) 분석 과정에 내재되어 있으며, TA 방법에서는 단순히 요약적이거나 기술적으로 만드는 것이 없다. 해석의 깊이는 방법이 아니라 분석가의 기술에 있다. 학생/대학원생 연구를 지도하는 연구자들은 학생들에게 이 점을 유용하게 강조할 수 있다. (우리는 TA가 정교함이 부족하고 무이론적이고 순진하며 서술적인 방법이기 때문에 대학원 및 특히 박사 학위 연구에 적합하지 않다는 말을 들은 불안한 학생들로부터 많은 이메일을 받는다.)

The take away … Interpretation is inherent to the (TA) analytic process, and there is nothing in the method of TA that renders it simply summative or descriptive. Interpretative depth lies in the skill of the analyst, not the method. Researchers supervising (postgraduate) student research can usefully emphasise this point to students. (We get many emails from anxious students who have been told that TA is unsuitable for postgraduate and especially doctoral research because it lacks sophistication and is only an atheoretical, [naïve] realist, descriptive method.)

문제 7: 코드와 테마를 혼동합니다.
Problem seven: confusing codes and themes

성찰적 TA는 코드와 테마를 구별하지만, TA 방법 전반에 걸쳐 코드와 테마의 절대적인 차이는 없다. 많은 TA 접근법에서 이 용어들은 서로 교환적으로 사용되거나, 코딩은 [사전에 정해진 테마에 데이터를 할당하는 과정]으로 개념화된다.

  • 성찰적 TA에서 코드는 [연구자가 (초기) 테마를 개발하기 위해 사용하는 분석 단위 또는 도구]로 개념화된다. 여기서 코드는 (최소한) 하나의 관측치를 캡처하고, (보통) 하나의 면을 표시하는 엔티티로 생각할 수 있다.
  • 대조적으로 테마는 다면적 크리스탈과 같다. 즉, 여러 관찰 또는 측면을 포착합니다. (때로는 풍부하고 복잡하고 다면적인 코드가 [Charmaz 2006] 테마로 '승진promoted'될 수 있는데, IPA에서는 'subsumption'이라고 불리는 과정이다.

Reflexive TA makes a distinction between codes and themes, but there is no absolute distinction between codes and themes across TA methods. In many TA approaches, these terms are used interchangeably, or coding is conceptualised as a process of allocating data to predetermined themes.

  • In reflexive TA, a code is conceptualised as an analytic unit or tool, used by researcher to develop (initial) themes. Here, codes can be thought of as entities that capture (at least) one observation, display (usually just) one facet;
  • themes, in contrast, are like multi-faceted crystals – they capture multiple observations or facets (occasionally, rich, complex and multifaceted codes might be ‘promoted’ to themes [Charmaz 2006], a process called ‘subsumption’ in IPA [Smith, Flowers, and Larkin 2009]).

수많은 '테마'가 제시되는 TA 논문에서 '테마'는 종종 1차원적이고 의미가 얇다.

  • 예를 들어, Fornells-Ambrojo 외 연구진(2017)은 서비스 사용자가 중증 정신 질환 서비스에 대한 심리 치료 접근성을 개선하기 위해 일상적인 결과 모니터링(ROM)을 경험한 것을 혼합된 방법으로 연구했다.
  • 이 보고서는 7개의 '중요한'/'상급superordinate' 주제 및 18개 주제를 보고했다. (참고로 '상급superordinate'이란 표현은 TA가 아니라 IPA와 관련한 표현이다).
  • 가장 중요한 주제는 1) 도움이 되는 측면과 2) 도움이 되지 않는 측면의 ROM이라는 두 가지 제목 아래에 내포되었다. 
  • 제시된 정보에서 테마는 각각 사용자의 인식에 대한 [하나의 의미적 관찰 또는 통찰력을 포착]하는 것으로 나타났다(예: 나의 감정을 표현, 이해받음).
  • 이러한 것들은 (반사적 TA에서는) [코드]라고 개념화하는 편이 더 맞다. 가장 중요한 주제나 상위 주제들은 모두 비슷한 수준으로 '얄팍했고thin', 대부분 한 단어(예: 형식, 괴로움, 혐오)로 명명되었다.

In TA papers where numerous ‘themes’ are presented, the ‘themes’ are often one dimensional and meaning-thin; they tend to capture only one (small) observation or facet of meaning (and quite often they are named with just one word).

  • For example, Fornells-Ambrojo et al. (2017), in mixed methods research on service users’ experiences of routine outcome monitoring (ROM) in an improving access to psychological therapies for severe mental illness service,
  • reported seven ‘overarching’/‘superordinate’ themes (‘superordinate’ is associated with IPA [Smith et al. 2009] not TA) and 18 themes.
  • The overarching themes were nested under two headings: 1) helpful and 2) unhelpful aspects of ROM.
  • From the information presented, the themes appeared to each capture a single semantic observation or insight about users’ perceptions (e.g. expressing my feelings, being understood).
  • These are better conceptualised as (reflexive TA) codes. The overarching or superordinate themes were similarly ‘thin’, and mostly named with one word (e.g. format, distressing, disliked).

이는 또한 '분석적 조기종결'을 시사한다. 즉, 추가 분석 작업을 통해 이러한 '테마'(코드) 중 여러 개를 특정 의미나 경험의 여러 측면을 드러내는 더 풍부하고 복잡한 테마로 끌어모은 공유 의미의 기본 패턴을 식별할 수 있었을 것이다. (분석의 사전 정의된 목적이 ROM의 긍정적 측면과 부정적 측면을 식별하는 것이었으므로, 패러다임적 포지셔닝에 따라서는 TA에 대한 [코드북] 또는 [코딩 신뢰성] 접근법이 연구의 목적에 더 부합할 수 있었다. 왜냐하면 이 경우 연구가 평가자 간 신뢰성을 측정하는 것이 실증주의자에 더 가깝기 때문이다.)

This also illustrates ‘analytic foreclosure’ (Connelly and Peltzer 2016) – with further analytic work, underlying patterns of shared meaning could have been identified that drew together several of these ‘themes’ (codes) into richer, more complex themes that revealed multiple facets of a particular meaning or experience. (As a pre-defined purpose of the analysis was to identify positive and negative aspects of ROM, a codebook or coding reliability approach to TA might have been more in keeping with the purpose of the study, depending on paradigmatic positionings, which in the study leant towards the positivist, as inter-rater reliability was measured.)

코드인가, 테마인가? 어떤 코드와 테마가 무엇을 나타내는지, 분석에서 어떤 역할을 하는지를 명확히 하는 것이 중요하다. 연구자들은 임시 주제 또는 후보 주제가 1차원인지 다차원인지 여부를 고려하고 개념 프레임워크와 분석 결과 보고가 사용하는 TA 버전과 일치하는지 확인해야 한다.

The take away … Is it a code, or is it a theme? Clarification of what codes and themes represent, and what role they play in analysis, is important. Researchers should consider whether their provisional or candidate themes are one- or multi-dimensional and ensure their conceptual frameworks and reporting of analytic outputs align with the version of TA they are using.

8번 문제: 주제와 토픽을 혼동합니다.
Problem eight: confusing themes and topics

이는 아마도 발표된 TA 연구에서 가장 흔한 문제 중 하나일 것이다. TA에서 단 하나의 널리 동의하고 채택된 테마의 개념화가 없기 때문에, 테마가 개념화되는 방법에 대한 혼란 때문이기도 하다.(DeSantis & Ugarriza, 2000). 우리는 이후 '주제'에 대한 개념화를 명확히 했는데, 이는 테마를 '일부 수준의 패턴 있는 반응 또는 의미'(Braun and Clarke 2006)를 포착하는 것으로 정의한 것이 분명했기 때문이다. 성찰적 TA에서 '주제'는 [중심 개념 또는 아이디어로 결합된 공유된 의미의 패턴]이다(Braun and Clarke 2013; Braun et al. 2014). 즉, 주제는 겉보기에 다소 이질적으로 보이는 데이터를 한데 모을 수 있습니다. 앞서 언급한 바와 같이, 주제는 다면적이기도 하다. 우리는 테마를 이야기, 즉 데이터에 대한 이야기로 생각하는 것을 좋아합니다
This is probably one of the most common problems in published TA research, and it hinges on confusion around how themes are conceptualised, as there is no one widely agreed on and adopted conceptualisation of a theme in TA (DeSantis & Ugarriza, 2000). We have subsequently clarified our conceptualisation of themes, because it was evident that our initial definition of a theme as capturing ‘some level of patterned response or meaning’ (Braun and Clarke 2006) left too much room for confusion. Themes in reflexive TA are patterns of shared meaning, united by a central concept or idea (Braun and Clarke 2013; Braun et al. 2014). This means themes might draw together data that on the surface appear rather disparate. As previously noted, themes are also multifaceted. We like to think of themes as stories – stories we tell about our data.

이렇게 볼 때, 데이터 토픽(도메인이라고도 함)은 주제가 아니다. 데이터 토픽은 인터뷰(말하기)에서 논의된 것들로서, 인터뷰 가이드의 질문으로부터 유도될 수 있다. 참가자는 하나의 토픽을 중심으로 다양하고 이질적인 답변을 제공하는 경우가 꽤 많지만, 토픽이나 영역의 요약이 테마로 제시되는 것이 일반적이다. 이처럼 토픽을 주제화한 것data-topics-as-themes에서는 참가자들의 반응이 요약되어 있지만, '중심 개념'도 '공유된 의미'도 없고 '공유된 '토픽''만 있을 뿐이다.

Data topics (sometimes called domains) are not themes in this way – they are things discussed in (say) an interview, perhaps introduced in a question from the interview guide. Participants quite often provide divergent and disparate responses around a topic, but it is common for summaries of topics or domains to be presented as themes. In these data-topics-as-themes, the participants responses are summarised, but there is no central concept, no shared meaning, only a shared topic.

예를 들어, 센더스 외 연구진(2016)은 다발성 경화증 치료에서 스트레스가 어떻게 해소되는지에 대한 환자의 인식을 탐구하는 연구에서, '브라운 & 클라크에 따른 TA'(p. 1678)를 사용했다고 언급하였으나, 코드북과 합의 코딩도 사용하였으며, 두 가지 주제(1) 촉진자 및 2) 의료 방문 시 스트레스에 대한 대화 장벽)를 보고했다. 각각의 테마는 각각 스트레스에 대한 의사소통을 촉진하거나 억제하는 의료 시스템, 임상의 행동 및 환자 행동의 세 가지 하위 테마를 통합했다. 보고된 내용은 예를 들어 촉진제 또는 장벽과 의료 시스템과 관련된 일련의 관찰이다. 이러한 유형의 분석은 [코드북 TA] 또는 [코딩 신뢰성 TA]에 더 적합한 것으로 보이는데, 이러한 유형의 TA에서는 분석 전에 테마를 미리 결정할 수 있고 테마가 데이터 도메인의 요약으로 구성될 수 있기 때문이다. 

To give an example, Senders et al. (2016), in research exploring patient perceptions of how stress is addressed in medical treatment for multiple sclerosis, which used TA ‘according to Braun & Clarke’ (p. 1678), but also involved the use of codebooks and consensus coding, reported two themes: 1) facilitators and 2) barriers to talking about stress in the medical visit. Each theme incorporated the same three sub-themes: the medical system, clinician behaviour and patient behaviour, that each facilitated or inhibited communication about stress. What is reported is a series of observations related to the topics of, for instance, facilitators or barriers and the medical system. This type of analysis seems better suited to a codebook or coding reliability TA, in which themes can be predetermined prior to analysis and themes may consist of summaries of data domains. 

공유 의미 주제shared meaning themes에 대한 명확한 예를 제공하기 위해, Tischner(2019)는 체중 감량 동기와 건강의 구성을 탐구하는 이야기 완성 연구에서 '모든 여성에게 좋은 체중 감량 활동'이라는 제목의 주제를 포함하여 다섯 가지 주제를 제시했다. 제목만으로도 이것이 중앙 조직 개념 주제와 함께 공유된 의미임을 분명히 전달한다. 즉, 테마 이름 지정의 중요성을 강조하고 있다.(Braun and Clarke 2013). 티슈네르의 주제는 [체중 감량]이 [여성의 외모를 개선하는 방법]으로 긍정적으로 프레임되며, 모든 여성이 원할 뿐만 아니라 바람직한 것이라는 의심받지 않는 지위를 차지하고 있으며, 모든 여성이 삶의 어느 시점에 필연적으로 참여하게 되는 것이라는 것을 포착하였다.
To provide a clear example of shared-meaning themes, Tischner (2019), in her story completion study exploring constructions of weight loss motivations and health, presented five themes, including one entitled ‘weight-loss activity as good for every woman’. The title alone clearly conveys that this is a shared meaning with a central organising concept theme – this highlights the importance of naming themes well (Braun and Clarke 2013). Tischner’s theme captured the way weight loss was positively framed as a way of improving appearance for women and occupied a mostly unquestioned position as desired and desirable by and for every woman, and something all women would inevitably engage in at some point in their lives.

의심할 여지 없이 혼란스러운 것은, 일부 TA 접근법, 특히 [코딩 신뢰성]과 [코드북 접근법]이 토픽 요약topic-summary을 주제theme로 취급한다는 것이다. 실제로는 이 둘은 주제-의미 패턴의 이해라는 측면에서 상당히 다르다. 제로, 테마가 분석과 코딩에 앞서 개발된다면, (코드로부터 만들어진 코딩의 결과인) 주제적 패턴thematic pattern의 유형을 상상하는 것이 어렵기 때문에, 주제 요약 이상의 것이 될 수 있을 것 같지 않다. [테마]가 [중심 개념에 의해 뒷받침되는 공유된 의미의 패턴]이 되려면, 입력input이 아닌 분석적 출력analytic output이어야 한다. '무엇이 테마인가'에 대한 개념적 혼란 외에도 [토픽을 테마로 사용하는 것]도 [분석적 조기종결]의 또 다른 예가 될 수 있다(Connelly and Peltzer 2016).

What is no doubt confusing is that some TA approaches, particularly coding reliability and codebook approaches, treat such topic summaries as themes, when these are quite different from understandings of patterns of thematic-meaning. Indeed, if themes are developed prior to any analysis and coding, it is unlikely they can be much more than topic summaries, as it’s difficult to conceive of the type of thematic patterning that is the outcome of coding, built from codes, being fully anticipated in advance of any or much analytic work taking place. For themes to be patterns of shared meaning underpinned by a central concept, they must be analytic outputs, not inputs. In addition to the conceptual confusion around ‘what is a theme’, the use of topics as themes can also be another example of analytic foreclosure (Connelly and Peltzer 2016).

우리는 연구자들이 주제에 대한 이해를 반성하고, '공유된 의미로서의 주제'와 '공유된 토픽으로서의 주제'를 knowingly and reflectively하게 사용하고, 성찰적 TA에서 토픽 요약을 '주제'로 사요한 경우, 그 이유를 명확히 정당화하도록 권장한다.

The take away … We encourage researchers to reflect on their understanding of themes, to use themes-as-shared-meaning and themes-as-shared-topic knowingly and reflexively, and to clearly justify any use of topic summaries for ‘themes’ in reflexive TA.

문제 9: 새로운 테마 – '기존 분석으로서의 주제'와 '분석의 결과로서의 주제'를 혼동
Problem nine: emerging themes – confusing ‘themes-as-pre-existing analysis’ with ‘themes-as-the-outcome of analysis’

일부 연구자와 방법론자들이 주제에 대해 쓰는 방식을 보면, 그들은 주제를 개념화할 때, 분석 이전에 데이터 세트에 이미 숨어 있었던 무언가로 개념화하는 것처럼 보인다. 이러한 개념화 하에서 연구자의 임무는 보고를 위해 이러한 테마를 찾고 검색하는 것입니다. 이러한 주제는 [데이터에 대한 해석적 관여를 통해 능동적으로 만들어낸 것]이라기 보다는 연구자가 찾아낸 ['모래에 흩어진 다이아몬드'] 같은 것으로 본다. 이것은 게스트, 번스, 존슨 (2006:66)이 더빙한 것처럼 사실상 '주제적 발견thematic discovery'이다. 
The way some researchers and methodologists write about themes, they appear to conceptualise them as entities that pre-exist analysis, lurking about in the dataset. The researcher’s task is to locate and retrieve these themes, for reporting. Such themes are ‘diamonds scattered in the sand’ (Braun and Clarke 2016, 740), found by the researcher, rather than actively created by them through their interpretative engagement with data. This is effectively ‘thematic discovery,’ as Guest, Bunce and Johnson (2006: 66) dubbed it.

테마가 모래 속의 다이아몬드라는 개념은 수많은 TA 논문 저자들이 사용하고 TA와 같은 질적 방법의 비평가들에 의해 테마 개발의 과정으로 떠오른 '테마가 떠올랐다themes emerged'라는 구절에서 분명하게 나타난다. 우리는 'emergent themes'라는 개념이 IPA(그리고 때로는 TA)와 같은 접근법에 사용되어 테마의 귀납적 생성을 반영한다는 것은 받아들이지만, 우리는 '테마가 나타났다'는 주장의 함축으로 인해 골머리를 앓고 있다. 이 표현은, 일단 주제가 (잠재적으로 불투명한) 데이터 깊이에서 자신의 모습을 드러낸 경우, [연구자의 개입이라고는 추출extraction외에는 거의 없이 데이터에 주제가 존재한다는 것]을 암시하는 과정을 떠오르게 한다.

This notion of themes as diamonds in the sand is evident in the phrase ‘themes emerged’, used by countless authors of TA papers, and evoked by critics of qualitative methods like TA, as the process of theme development (e.g. ‘thematic analysis in which themes somehow miraculously emerge from the data’; St. Pierre 2019, 4). We appreciate that the concept of ‘emergent themes’ is used in approaches such as IPA (and sometimes TA) to reflect the inductive creation of themes, but we are troubled by the implications of the claim ‘themes emerged’. The phrasing evokes a process that suggests that themes present from data with little intervention from the researcher other than extraction, once the themes reveal themselves from the (potentially murky) data depths.

우리는 2006년 논문에서 '테마가 나타난다themes emerge'라는 언어에 대해 다음과 같이 비판했습니다. '주제의 출현'이나 '발견됨discovered'에 대한 설명은 [분석 과정에 대한 수동적인 설명]으로, 패턴/테마를 파악하고, 관심사를 선정해 독자에게 보고하는 과정에서 [연구자가 늘 하는 적극적인 역할을 부정]한다'(80쪽). 우리는 엘리 외 연구진(1997, 205–6)을 인용했다. Ely는 '테마가 어디엔가 존재reside한다면, 그것들은 [우리의 데이터에 대해 우리가 생각하고]과 [우리가 이해하는 대로 연결을 만드는] [우리의 머릿속]에 존재하고 있을 것이다.' 우리의 주장은 특별히 설득력이 없었던 것 같다. 왜냐하면 많은 연구자들이 우리의 논문을 인용하고 우리의 접근법을 따르고 있다고 주장했지만, 그들은 데이터에서 'the themes that emerged'를 언급했기 때문이다. (이것은 의심할 여지 없이 문제 2와 연결된다). 
We were critical of the language of ‘themes emerge’ in our 2006 paper: ‘An account of themes “emerging” or being “discovered” is a passive account of the process of analysis, and it denies the active role the researcher always plays in identifying patterns/themes, selecting which are of interest, and reporting them to the readers’ (p. 80). We quoted Ely et al. 1997, 205–6) who argued that ‘if themes “reside” anywhere, they reside in our heads from our thinking about our data and creating links as we understand them.’ It seems that our argument was not particularly persuasive, as so many researchers citing our paper and claiming to follow our approach, refer to ‘the themes that emerged’ from their data (this connects, no doubt, to Problem two). 

우리는 성찰적 TA의 세 번째 단계인 '테마 검색searching'이라고 이름붙인 대한 우리의 (초기) 표현 때문에 [데이터에 이미 존재하는 entities]로 주제를 개념화하는 혼란을 야기했을 가능성이 높다는 것을 인정한다. 이러한 이유로, 우리는 이 단계에 '초기 테마 생성generating'이라고 레이블을 다시 붙여서, 주제 생성theme creation에 대한 연구자의 적극적인 역할과 처음 개발할 때 테마의 잠정성provisionality을 강조하였다. 주제를 '이미 존재하는 것의 분석'으로 개념화하는 것은 [토픽으로서의 주제]와 [분석적 입력으로서의 주제]에 더 잘 들어맞을지도 모른다. 일부 TA 지지자들은 테마를 [entities that pre-exist analyisis]로 개념화하는 듯 보이지만, 이는 반사적 TA와 일치하지 않는다.

We acknowledge that our (initial) phrasing of the third phase of reflexive TA – ‘searching for themes’ – has likely contributed to confusion around the conceptualisation of themes as pre-existing entities that reside in data. For this reason, we have, for now, relabelled this phase ‘generating initial themes’ to highlight the active role of the researcher in theme creation and the provisionality of themes when first developed. A ‘pre-existing analysis’ conceptualisation of themes can perhaps be reconciled with conceptions of topics as themes and themes as analytic inputs, and some TA proponents do appear to conceptualise themes as entities that pre-exist analysis, but this does not align with reflexive TA.

우리는 반사적인 TA를 사용하는 연구자들이 [테마 생성]창의적이고 적극적인 과정으로 서술하며, 테마들이 생겨났다emerged고 주장하는 것은 언제나 지양할 것을 권고한다.3

The take away … We encourage researchers using reflexive TA to write about theme generation as a creative and active process, one they are central to, and to always avoid claiming that themes emerged.3

10번 문제: 우리가 말하는 것에 대한 비판적인 수용
Problem ten: uncritical acceptance of what we say

우리가 강조하고 싶은 마지막 문제는, 정말로 절차주의라고 불릴 수 있다. 그러나 우리는 '비판적이고 사고력 있는 연구자이자 작가가 되라'는 암묵적이고 명시적인 우리의 메시지가 10번 조언과 모순되는 것으로 보이지 않길 바란다. 퀄리티에 대한 우리의 강조는 맹종적인 것, 생각 없이 절차를 고수하는 것을 단념시키는 것을 의미한다. 오히려, 우리는 이론적으로 알고 반사적이며 '생각하는aware' TA 사용을 권장한다. 우리는 TA의 다양성과 유연성, 분석 및 품질 절차가 패러다임 및 인식론적 가정을 반영하는 방법을 이해하는 연구자에게 과제를 준다. 우리는 질적 연구자에게 이론적으로 민감하고 창의적인 연구를 위한 유연한 '시작점'을 제공하려는 것이며, 그들이 자신만의 연구를 할 수 있도록 초대하려는 것이다. 성찰적 TA를 잘 수행하기 위해서는, [이론, 데이터 지향 등과 관련한 선택을 내려야 하며], 이것을 [명확하며, 일관성 있게 집행enacted]하여야 한다.
The final problem we want to highlight could, indeed, be called proceduralism. But we hope our implicit and explicit message to ‘be a critical, thinking researcher and writer’ makes this point not seem contrary. Our emphasis on quality involves discouraging slavish or unthinking adherence to procedures, and any accusation of that represents a misconceptualisation of our articulation of TA (and qualitative research more widely). Rather, we encourage theoretically-knowing, reflexive and ‘aware’ use of TA; we task researchers with appreciating the diversity and flexibility of TA, and the ways analytic and quality procedures reflect paradigmatic and epistemological assumptions. We offer qualitative researchers reflexive TA as a flexible ‘starting point’ for theoretically sensitive and creative research and invite them to make it their own. To do good reflexive TA, choices related to theory, data orientation and more must be made, articulated and coherently enacted.

사려 깊은 연구자가 되어라; 방법론 작가들의 말을 맹종적으로 따르지 마라. 우리는 완전한 풀-패키지를 제공하는 것이 아니다; 우리는 당신의 모험을 항해할 수 있는 나침반과 지도를 제공하려는 것이다. 그리고 우리는 연구자들이 성찰적 TA든, 코딩 신뢰성 TA든, 코드북 TA이든 연구자의 철학적 헌신과 연구의 분석 목적에 가장 적합한 TA가 무엇일지 성찰할 것을 권장한다.

The take away … Be a thoughtful researcher; do not just slavishly follow what methodology writers say. We do not provide a full holiday package; we provide a compass and a map to navigate your adventure (Braun, Clarke, and Hayfield 2019b). And we encourage researchers to reflect on whether it is a reflexive, coding reliability or codebook version of TA that is best suited to their philosophical commitments and the analytic purpose of their research.

검토자 및 편집자를 위한 평가 도구 소개
Introducing our evaluation tool for reviewers and editors

TA를 하는 연구자들은 그들이 할 수 있는 최고의 양질의 연구를 해야 할 중요한 책임이 있습니다. 그러나 출판된 작업은 또한 동료 검토, 편집자의 의사 결정 및 지침과 같은 품질 보증 프로세스를 거치며, 이러한 단계는 품질을 보장하는 데에도 중요합니다. 불행하게도, 우리는 개인적인 경험을 통해 그것들이 (위에서 논의된 10가지 중 일부를 포함한) 문제들이 슬금슬금 들어오거나, 심지어 (학술지에 의해서) 요구될 수 있는 지점이 될 수 있다는 것을 안다. 저자들은 검토 과정을 진행하면서 곤란한 입장에 처할 수 있다. 검토자나 편집자가 문제가 되는 것을 제안하거나 요구할 경우 저자들은 다음을 수행해야 한다.
Researchers who do TA have an important responsibility to do the best quality research they can. But published work also goes through quality assurance processes – peer review, and editorial decision making and guidance – and these steps are also important for ensuring quality. Unfortunately, we know from personal experience they can also be the points at which problems (including some of the 10 discussed above) can either creep in, or even be demanded. Authors can be in a tricky spot navigating the review process. If reviewers or editors suggest or demand something problematic, authors have to:

  • 1) 문제가 있다는 것을 인지한다.
  • 2) 해쳐나갈 방법을 찾습니다.
  • 1) recognise that it is problematic; and
  • 2) find a way to navigate through it.

우리가 이 논문을 시작한 것과 같은 검토자나 편집자의 논평에 직면했을 때 반사적인 TA 연구의 저자는 무엇을 해야 하는가? 그들은 반사적인 TA를 뒷받침하는 가정인 TA의 복수성에 대해 검토자와 편집자를 '교육'하도록 시도해야 하는가? 그들은 모든 질적 분석 접근방식을 포괄하는 단일 품질 표준의 부족을 강조해야 하는가? (Levitt et al. 2018) 그렇다! 우리는 저자들이 본 논문과 다른 곳에서 제공하는 정보를 사용하여 [편집자와 검토자의 요청 또는 요구사항에 대한 문제제기challenges]를 정당화하기 위해 [자기 연구의 가치를 설명하고 방어할 것]을 권장한다. 우리는 리뷰와 편집 피드백에 대한 우리의 반응을 '모범 사례' 문헌에 포함시켜야 합니다.

What is the author of a reflexive TA study to do, when faced with a reviewer or editor comment like the one we started this paper with? Should they attempt to ‘educate’ reviewers and editors about the plurality of TA, the assumptions underpinning reflexive TA? Should they highlight the lack of a single quality standard that cuts across all qualitative analytic approaches? (Levitt et al. 2018) Yes! We encourage authors to explain and defend their research values, using the information provided in this paper and elsewhere to justify their challenges to requests or requirements from editors and reviewers. We should embed our responses to reviews and editorial feedback in ‘best practice’ literature. 

그러나 저자는 여기까지만 할 수 있을 뿐이다. 궁극적으로는 편집자와 리뷰어가 광범위한 연구 커뮤니티에서 논의되고 개발된 품질 표준의 집행(또는 집행실패)에 대한 책임을 진다. 양질의 TA의 출판을 용이하게 할 수 있는 몇 가지 기본 편집 관행이 있다. 

  • 편집자는 자신의 방법론적 한계뿐만 아니라 이론적/개념적, 방법론적 가정 및 가치를 이해해야 한다.
  • 편집자는 TA 원고를 심사할 수 있는 적절한 방법론적 전문지식을 갖춘 심사자를 적어도 한 명 선택해야 한다(Levitt 등 2018).
  • 편집자는 저널의 편집 위원회가 적절한 검토자 선택을 안내하는 데 도움이 될 수 있는 광범위한 전문 지식을 가진 질적 방법론자를 한 명 이상 포함하도록 보장해야 한다.

However, authors can only argue so far … And editors and reviewers hold ultimate responsibility for enacting (or failing to enact) the quality standards debated and developed in the wider research community. There are some basic editorial practices that can facilitate the publication of good quality TA:

  • editors should understand not just their own methodological limits, but their theoretical/conceptual and methodological assumptions and values;
  • editors should select at least one reviewer with appropriate methodological expertise to review TA manuscripts (Levitt et al. 2018); and
  • editors should ensure the journal’s editorial board includes at least one qualitative methodologist with wide-ranging expertise who can help guide appropriate reviewer selection

– 편집자가 질적 방법론자가 아닌 경우 마지막 요점은 매우 중요합니다. 편집자가 선택한 '전문가' 검토자 중 한 명이라도 TA에 대한 매우 광범위하고 깊이 있는 지식을 가지고 있지 않다면, 어떻게 형편없는 연습이 질문이나 도전을 받지 않는지, 그리고 우리가 문서화한 문제들이 그렇게 흔해졌는지 쉽게 알 수 있다.
– this latter point is vital if the editor is not a qualitative methodologist. Unless at least one of the ‘expert’ reviewers chosen by the editor has very wide-ranging and in-depth knowledge of TA, it is easy to see how poor practice is not questioned or challenged, and how the problems we have documented have become so common.

TA와 관련하여 더 나은 편집(및 검토자) 관행을 촉진하기 위해 TA와 관련된 주요 긴장 및 모범 사례 중 일부를 제시하는 편집자와 검토자를 위한 평가 질문 목록을 개발했다(표 1 참조). 이러한 중요한 질문들은 적어도 우리가 보는 몇몇 공개된 문제들을 빠르고 쉽게 해결할 수 있다. 예를 들어 저널에 제출할 때 TA 저자가 편집자의 주의를 끌도록 권장한다.
To facilitate better editorial (and reviewer) practice in relation to TA, we have developed a list of evaluation questions for editors and reviewers that lay out some of the key tensions and best practices related to TA (see Table 1). These critical questions can offer a quick and easy resolution to at least some of published problems that we see. We encourage TA authors to bring these to editors’ attention, for instance, when submitting to a journal.

마지막으로 저널 편집자가 TA 및 기타 질적 논문에 대해 더 원고 길이를 더 길게 할 수 있도록 제공할 것을 권고한다(Levitt et al. 2018, 2017). 짧은 단어 수는 TA 연구가 보고되는 방법을 상당히 제약할 수 있으며, 이는 모든 종류의 방법으로 명백히 더 나쁜 관행을 야기할 수 있다. 레빗 외 연구진(2018)이 주장한 것처럼, 품질 기대와 맥락화, 연구 성찰성, 데이터 추출물을 통한 발견 사례화는 더 많은 원고 페이지를 요구한다. 저널이 주로 디지털화되면서 확장의 폭이 넓어졌습니다. 그러나 우리는 데이터나 방법론적 해설이 품질 판단 및 프로세스에 필수적인 것으로 보기 때문에 2차 표 또는 추가 온라인 부록으로 밀려나는 솔루션을 옹호하지 않을 것이다(Braun and Clarke 2019b).
Finally, we recommend that journal editors provide longer page limits for TA – and other qualitative – papers (Levitt et al. 2018, 2017). Short word counts can significantly constrain how TA research is reported, which can contribute to apparently poorer practice, in all sorts of ways. As Levitt et al. (2018) argued, quality expectations and contextualisation, research reflexivity and illustrating findings with data extracts demand more manuscript pages. As journals are now primarily digital, the scope for expansion is increased. But we would not advocate for a solution where data or methodological commentary are relegated to secondary tables or additional online appendices, because we see these as integral to quality judgements and process (Braun and Clarke 2019b).

결론
Conclusion

TA의 품질을 논의하기 위해, 우리는 TA에 대한 성찰적 접근 방식을 인용하거나 따르고 있다고 주장하는 발표된 TA 연구에서 10가지 일반적인 문제를 설명했다. TA가 하나의 접근법이라고 가정하는 이들 중 첫 번째 문제는 다른 대부분의 문제의 기초가 된다. 그리고 실제로, TA의 다양성과 다원성 - TA가 실증주의에서 비판적 질적 패러다임에 이르기까지 - TA 연구의 품질 표준을 규정하는 데 있어 질적 연구 커뮤니티의 핵심 과제를 제시하며, 이는 광범위한 질적 논의를 지속해 온 문제이다.

In order to discuss quality in TA, we have delineated ten common problems in published TA research that cites, or claims to follow, our reflexive approach to TA. The first of these – assuming TA is one approach – underlies most of the other problems. And indeed, it is the diversity and plurality of TA – that TA ranges from positivist to critical qualitative paradigms – that presents a key challenge for the qualitative research community in demarcating quality standards for TA research, an issue that has dogged wider qualitative quality discussions. 

출판되는 TA의 품질을 향상시키기 위해, 우리는 연구자들이 양질의 실천quality practice를 포함하여, 분석적 실천과 연구의 존재론적 및 인식론적 기반 사이의 관계를 성찰하고, TA를 knowingly, deliberatively and reflexively 사용할 것을 권장한다. 우리는 이를 실현하기 위해 연구 품질에 대한 효과적인 중재자인 검토자 및 편집자를 지원합니다. 이를 위해 TA 원고를 검토하거나 편집할 때 고려해야 할 중요 질문 20개를 제공했습니다.

To improve the quality of published TA, we encourage researchers to reflect on the relationship between analytic practices, including quality practices, and the ontological and epistemological foundations of their research, and to use TA knowingly, deliberatively and reflexively. We task reviewers and editors – who are effective arbiters of research quality – with supporting researchers in realising this. To this end, we provided twenty critical questions to consider when reviewing or editing TA manuscripts. 

하지만 우리가 TA에 대해 쓰는 모든 것들과 마찬가지로, 이것은 우리의 "현재" 생각을 반영할 뿐이며, 모든 것은 변한다. 따라서 반사적이든 다른 접근법이든 TA를 사용하는 모든 사람에게 가장 중요한 조언은 단순히 접근법에 대한 '주요 참조'가 아니라 [가장 최신]에 나온 글과 저자의 조언을 읽는 것이다. 그리고 마지막으로 TA는 [모든 목적에 적합한 방법]이 아님을 강조합니다! 적절하지 않을 때는 프로젝트에 적합하게 만들기 위해 노력하는 대신, 프로젝트에 어떤 다른 훌륭한 질적 분석 방법을 제공할 수 있는지 살펴보십시오.

But like everything we write about TA, this reflects our current thinking, and things change. So, our most vital piece of advice for anyone using TA, whether reflexive or another approach, is to read the most up-to-date writing and advice from authors, rather than just the ‘key reference’ for an approach. And finally, we emphasise that TA is not a method for all purposes! Instead of trying to make it fit, when it does not, explore what the many other wonderful qualitative analytic approaches might offer your project instead.

 


ABSTRACT

Developing a universal quality standard for thematic analysis (TA) is complicated by the existence of numerous iterations of TA that differ paradigmatically, philosophically and procedurally. This plurality in TA is often not recognised by editors, reviewers or authors, who promote ‘coding reliability measures’ as universal requirements of quality TA. Focusing particularly on our reflexive TA approach, we discuss quality in TA with reference to ten common problems we have identified in published TA research that cites or claims to follow our guidance. Many of the common problems are underpinned by an assumption of homogeneity in TA. We end by outlining guidelines for reviewers and editors – in the form of twenty critical questions – to support them in promoting high(er) standards in TA research, and more deliberative and reflexive engagement with TA as method and practice.

모두에게 맞는 사이즈는 없다: 보건전문직교육 연구에서 개인-중심 분석(Perspect Med Educ, 2020)
‘One size does not fit all’: The value of person-centred analysis in health professions education research 
Rashmi A. Kusurkar · Marianne Mak-van der Vossen · Joyce Kors · Jan-Willem Grijpma · Stéphanie M. E. van der Burgt · Andries S. Koster · Anne de la Croix 

 

도입
Introduction


의료 교육 저널을 빠르게 스캔한 결과, 보건 직업 교육(HPE)에서 수행된 연구는 주로 변수-중심 분석variable-centred analysis [1]이라고 할 수 있는 것을 채택하고 있음을 알 수 있습니다. [주어진 표본에서 두 개 이상의 변수 간의 관계]를 조사하는 이러한 유형의 분석은 HPE 연구의 변수가 서로 어떤 영향을 미칠 수 있는지를 이해하는 데 중요합니다. 그러나 [많은 연구가 단지 몇 가지 변수에만 초점을 맞추고 있지만, 교육적 실천은 복잡하고 상황에 의존적이며 지저분할 수 있기 때문에], 교육자는 그러한 분석에 근거하여 실천 방식을 적용하거나 바꾸기가 어려울 수 있다. 
A quick scan of medical education journals shows that the research conducted in health professions education (HPE) predominantly employs what can be called variable-centred analysis [1]. This type of analysis, which investigates the relationships between two or more variables in a given sample, is important in understanding how variables in HPE research can influence one another. However, it can be hard for educators to adapt or change their practice on the basis of such analysis, as many studies focus only on a few variables and educational practice can be complex, context-dependent and messy. 

[사람 중심 분석]은 하위집단subgroup 전체에 걸쳐 변수가 서로 어떻게 관련되는지를 기반으로 [개인의 하위집단subgroup이 어떻게 만들어질 수 있는지]를 조사하는 추가 접근법입니다 [1]. 개인 중심 분석은 교육자에게 개인별 실천 이니셔티브를 위한 도구를 제공할 수 있는 결과를 생성합니다. 

Person-centred analysis is an additional approach, which investigates how subgroups of individuals can be made based on how variables are related to each other across sub-groups [1]. Person-centred analysis generates findings that could provide educators with tools to personalize practice initiatives. 

사람 중심 분석이란 무엇입니까?
What is person-centred analysis?

주어진 데이터 집합에서 [독립 변수에 대해 유사한 특성 또는 유사한 점수를 가진 사람들이 함께 군집화]하는 방식으로 [사람 그룹groups of people]을 만들 수 있다 [2]. 이는 [사례 기반 분석case-based analysis]의 한 유형으로, 즉 유사한 특성을 가진 개인 또는 사례에 대한 분석입니다. 이를 위해 일반적으로 변수 중심 분석에 사용하는 것과 다른 유형의 파일을 만들 필요가 없습니다. 유일한 차이점은 분석이 수행되는 방식입니다. 
In a given dataset we can create groups of people in such a way that people with similar characteristics or similar scores on the independent variables are clustered together [2]. This is a type of case-based analysis, i.e. analysis of individuals or cases with similar characteristics. For this, we do not need to create a different type of file than what we would normally use for a variable-centred analysis. The only difference is the way the analysis is carried out. 

종속 변수와의 연관성을 독립 변수로 간주하여 계산한다면, 특정 특성(예: 높은 공감과 높은 복원력)을 가진 그룹 1이 종속 변수(학업 성과)와 어떤 연관성을 가지는지를 보여주고, 그룹 2(예: 낮은 공감과 높은 복원력)가 보이는 종속 변수(학업성적)와의 연관성이 (그룹1과) 다르거나 유사하다는 것을 보여줍니다.

If the associations with the dependent variables are computed by considering group membership as the independent variable, we demonstrate that group 1 with certain characteristics (e.g. high empathy and high resilience) shows a certain type of association with the dependent variables (academic performance), group 2 (e.g. low empathy and high resilience) shows a different or similar association with the dependent variables (academic performance), and so on. 

[사람 중심 분석]에서는 데이터의 패턴을 기반으로 '덜 명확한' 범주를 찾으려고 시도합니다. 통계적으로 말하면, 우리는 총 변동성을 '군간' 변동성과 '군내' 변동성‘between-group’ variability and ‘within-group’ variability으로 나누고 그룹 간의 차이를 해석하는 데 더 집중함으로써 데이터의 '잡음'을 줄이려고 합니다. 그런 다음 이러한 연구 결과에서 도출된 실제적인 의미는 특정 요구에 따라 [서로 다른 그룹에 맞게 커스터마이징]될 수 있습니다.
In person-centred analysis, the attempt is to find the ‘less obvious’ categories on the basis of patterns in the data. Statistically speaking we try to reduce the ‘noise’ in the data by splitting the total variability into ‘between-group’ variability and ‘within-group’ variability, and further concentrating on interpreting the differences between groups. The practical implications derived fromthese research findings can then be customized for the different groups as per their specific needs.

[사람 중심 분석]은 [[전체 표본] 또는 [인구통계학적 특성에 기반한 표본의 부분군]에 대해서 변수 간의 연관성을 찾는 변수 중심 분석]을 보완합니다. 

Person-centred analysis complements variable-centred analysis, in which we look for associations between variables for the entire sample or subgroups in the sample made on the basis of demographic characteristics. 

변수 중심 분석 [3]과 사람 중심 분석 [2]을 비교하는 예는 그림 1을 참조하십시오.
See Fig. 1 for an example comparing variablecentred [3] and person-centred analyses [2].



표 1은 예제 연구 질문에 대한 변수 중심 분석과 사람 중심 분석이 서로 어떻게 비교되고 보완되는지를 보여준다.

Tab. 1 illustrates how variable and person-centred analyses for an example research question compare with as well as complement each other.



문헌의 구체적인 사례를 포함한 사람 중심 분석 수행 방법
How to conduct person-centred analysis including concrete examples fromthe literature


전자 보완 자료에서 찾을 수 있는 본 문서의 부록에는 이 세 가지 방법, 이 방법을 사용한 분석 수행 방법에 대한 실제 단계 및 분석 결과를 해석하는 방법에 대한 세부 사항이 포함되어 있습니다. 자세한 내용에 관심이 있는 독자는 온라인 부록을 참조하시기 바랍니다.
In the Appendix of this paper, which can be found in the Electronic Supplementary Material, we have included details on these three methods, practical steps on how to conduct analyses using these methods, and how to interpret the findings of such analyses. We encourage the readers who are interested in more details to consult the online Appendix.

군집 분석
Cluster analysis


군집 분석 [4]은 [두 개 이상의 변수의 조합]에 대한 점수 또는 결과에 따라 연구 참가자를 함께 그룹화하는 방법입니다. 이 방법은 모든 종류의 샘플 크기에 사용할 수 있습니다. 이는 '그룹 내' 변동성을 줄이고 '그룹 간' 변동성을 극대화하여 데이터의 노이즈를 줄이려고 합니다. 
Cluster analysis [4] is a method in which study participants are grouped together based on their scores or results on a combination of two or more variables. This method can be used with all kinds of sample sizes. It tries to reduce noise in the data by reducing ‘within-group’ variability and maximizing ‘betweengroup’ variability. 

제이콥스 외 연구진[5] 이 연구의 목적은 COLT(학습 및 교육에 대한 교사 개념) 사이의 패턴을 탐구하는 것이었다. 저자들은 COLT의 3가지 차원 즉 교사 중심, 능동적 학습의 감사, 전문적 실무에 대한 오리엔테이션에 대한 참가자들의 점수를 이용하여 클러스터 분석을 실시했다. 이들은 5개의 클러스터로 구성된 클러스터 솔루션을 수용했습니다. 이러한 5가지 COLT 프로파일은 전송기, 조직자, 중간자, 촉진자 및 개념 변경 에이전트로 분류되었습니다. 

Jacobs et al. 2014 [5] The aimof this study was to explore patterns among teachers’ conceptions for learning and teaching (COLT). The authors ran a cluster analysis using the participants’ scores on the three dimensions of the COLT: teacher-centredness, appreciation of active learning and orientationto professional practice. They accepted a cluster solution comprising five clusters. These five COLT profiles were labelled as transmitters, organizers, intermediates, facilitators and conceptual change agents. 

Kusurkar et al. 2013 [2] 본 연구는 학생들의 [동기 부여와 성과] 사이의 관계를 조사하는 것을 목표로 하였다. 본 연구에서는 1~6학년 의대생들의 내적 및 통제된 동기 부여에 대한 점수를 바탕으로 프로필을 만들었다. 고유 저조 제어, 고유 고조 제어, 저 고유 고조 제어 및 저 고유 저조 제어로 분류된 네 가지 프로파일이 발견되었습니다. 그런 다음 이러한 프로파일과 학습 및 성과 결과의 연관성을 조사했습니다. 이러한 프로파일 각각은 이러한 결과와 서로 다른 연관성을 가지고 있었으며, [높은 내인성 낮은 통제] 프로파일은 더 많은 학습 시간, 심층 학습 전략, 우수한 학업 성과 및 낮은 학업 피로 측면에서 최상의 결과를 나타냈다. 사실 [높은 내인성 낮은 통제] 프로파일은 학업으로부터의 높은 소모와 연관지어 [높은 내인성 높은 통제] 프로파일과 차이가 있을 뿐이었고, 이는 연구 결과에 중요한 뉘앙스였다. 이러한 프로필은 모니터링 및 멘토링의 다른 방법이 필요하다는 권고 사항이었습니다. 

Kusurkar et al. 2013 [2] This study aimed to investigate the relationship between student motivation and performance. In this study, profiles of medical students fromyear 1-6 were created on the basis of their scores on intrinsic and controlled motivation. Four profiles were found which were labelled as high-intrinsic low-controlled, high-intrinsic high-controlled, low-intrinsic high-controlled and low-intrinsic low-controlled. The associations of these profiles with learning and performance outcomes were then explored. Each of these profiles had different associations with these outcomes and the high intrinsic low controlled profile had the best outcomes in terms of more study hours, deep learning strategy, good academic performance and low-exhaustion from study. In fact the high intrinsic low controlled profile only differed from the high intrinsic high controlled profile in its association with higher exhaustion from study, which was an important nuance in our findings. Recommendations were that these profiles would need different ways of monitoring and mentoring. 


Orsini et al. 2018 [6] 이 연구의 목적은 치과 학생들의 동기 부여와 그 학업 결과를 조사하는 것이었다. 저자들은 학생들의 본질적이고 통제된 동기를 바탕으로 프로필을 만들었습니다. 
Orsini et al. 2018 [6] The purpose of this study was to investigate dental students’ motivation and its academic outcomes. The authors created profiles of students on the basis of their intrinsic and controlled motivation. 

잠재 클래스 분석
Latent class analysis


잠재 클래스 분석[10](LCA)은 연구에 포함된 표본의 부분군(클래스, 클러스터)을 구성하는 것을 목표로 하는 [탐색적 통계 기법]이며, 이러한 표본의 관측된 지표를 기반으로 합니다. LCA는 범주형 데이터와 함께 사용할 수 있습니다. LCA의 출력output은 [지표의 조합에 기초한 가설적 그룹화hypothesized grouping]입니다. 
Latent class analysis [10] (LCA) is an exploratory, statistical technique that aims at forming subgroups (classes, clusters) of the samples included in a study, based on observed indicators of these samples. LCA can be used with categorical data. The output of LCA is a hypothesized grouping based on a combination of indicators. 

보스카딘 외 연구진[11] 이 연구는 교정조치에 대한 학생을 식별하고 교정조치에 대한 최선의 방법론적 접근법에 대한 합의에 기여하는 것을 목표로 했다. LCA는 임상성과검사에서 의대생 147명의 점수를 분석하는 데 사용되었다. 성능이 낮은 두 개의 하위 그룹을 포함하여 세 가지 뚜렷한 성능 프로파일이 식별되었습니다. [낮은 성과 부분군]을 두 그룹으로 구분하는 것은 의미가 있었는데, 이 두 그룹이 보여준 [성과 지표 집합]이 달랐기 때문이다. 첫 번째 하위그룹은 임상지식과 [모든 종류의 임상기술]에서 모두 결손이 나타났고, 두 번째 하위그룹은 주로 [의사소통 능력]에서 결손이 나타났다. 
Boscardin et al. 2012 [11] This study aimed to identify students for remediation and to contribute to consensus about the best methodological approach for remediation. LCA was used to analyze scores of 147 medical students on the Clinical Performance Examination. Three distinct performance profiles were identified, including two low performing subgroups. Distinguishing two different low performing subgroups had significant implications, as the two groups had low scores on contrasting sets of performance indicators. The first subgroup of students showed deficits in both clinical knowledge and all kinds of clinical skills, while the second subgroup mainly displayed a deficit in communication skills. 

Mak-Van der Vossen et al. 2016 [12] 본 연구의 목적은 의과대학에서 만족스럽지 못한 전문적 행동 평가를 받은 의대생들의 행동 패턴을 식별하고 이러한 패턴의 분류에 사용할 수 있는 변수를 정의하는 것이었다. 잠재적 그룹의 수에 대한 다양한 선택권을 가진 잠재 클래스 모형이 반응 데이터에 적합되었습니다. 이 경우, 응답 데이터는 앞서 문헌 검토에 기초한 템플릿에 요약된 바와 같이 109개의 비전문적 행동 각각을 학생 평가 보고서에서 '관찰됨' 또는 '관찰되지 않음'으로 기술했는지 여부를 나타냈다. LCA는 불만족스러운 전문 행동 보고서를 받은 학생 중 '신뢰성 저하', '신뢰성 저하 및 통찰력 저하', '신뢰성 저하, 통찰력 저하 및 적응성 저하' 등 3개 계층classes을 발표했다. 
Mak-van der Vossen et al. 2016 [12] The purpose of this study was to identify patterns in the behaviours of medical students who received an unsatisfactory professional behaviour evaluation in medical school, and to define a variable that could be used for the categorization of these patterns. A latent class model with various choices for the number of latent groups was fitted to the response data. In this case, the response data indicated whether each of 109 unprofessional behaviours, as earlier summarized in a template based on a literature review, was described as ‘observed’ or ‘not observed’ in student evaluation reports. LCA yielded three classes of students who received unsatisfactory professional behaviour reports: ‘poor reliability’, ‘poor reliability and poor insight’, and ‘poor reliability, poor insight and poor adaptability’. 


Lambe & Bristow 2011 [13] 이 연구의 초점은 학생 수행의 '유형학' 모델을 식별하는 것이었다. LCA는 선행 학업성취도 측정, 의과대학 입학 당시 면접등급, 과정 전반의 후속 성과 측정치를 바탕으로 학생 하위그룹을 만드는 데 사용되었다. LCA는 학생 시험 성과의 '유형'을 나타내는 구별되는 하위집단의 세 가지 클래스 모델을 식별했다. 
Lambe & Bristow 2011 [13] The focus of this study was to identify a model of ‘typologies’ of student performance. LCA was used to make subgroups of students based on measures of

  • prior academic achievement,
  • interview rating at the time of medical school admission and
  • outcome measures of subsequent performance across the course.

LCA identified a three class model of distinct subgroups representing ‘typologies’ of student examination performance. 

 

Q-정렬 분석
Q-sort analysis

Q 방법론은 [주관성] 연구(예: 관점, 아이디어 및 의견)에 적합하다[16–18]. 참가자가 동의에 따라 순서를 매겨야 하는 자극(일반적으로 진술 형식)을 사용한다. 요인 분석의 특별한 형태를 사용하여 연구 대상 주제에 대해 비슷하게 생각하는 참가자를 그룹화한다.
Q-methodology is suitable for the study of subjectivity (e.g. viewpoints, ideas and opinions) [16–18]. It uses stimuli (usually in the form of statements) that participants need to rank order according to agreement. A special form of factor analysis is used to group participants who think similarly about the topic under study. 

Fokkema et al. 2014 [19] 이 연구는 산부인과 레지던트 및 담당 의사의 작업장 기반 평가에 대한 인식을 결정하는 것을 목표로 했다. 36개의 진술과 65명의 참가자들이 있었다. 저자들은 열정, 규정 준수, 노력, 중립성, 회의의 다섯 가지 유형의 인식을 발견했습니다. 이 다섯 가지 프로파일의 기본 문제는 혁신의 의도된 목표, 적용 가능성 및 실제 영향에 대한 아이디어였습니다. 그들은 이 연구가 '동료들이 혁신에 대한 서로의 반응을 이해하는 데 도움이 될 수 있다'고 느꼈다. 
Fokkema et al. 2014 [19] This study aimed to determine the perceptions of obstetrics-gynaecology residents and attending physicians about workplacebased assessment. There were 36 statements and 65 participants. The authors found five types of perceptions: enthusiasm, compliance, effort, neutrality, and scepticism. The issues underlying these five profiles were ideas about intended goals of the innovation, its applicability, and actual impact. They felt that the study ‘may help colleagues understand one another’s responses to an innovation’. 

Dotters-Katz et al. 2016 [20] 본 연구는 미국 의대 졸업생들의 교육 태도와 동기 부여에 초점을 맞췄다. 47개의 문장이 사용되었다. 편의 표본추출을 통해 '다양한 전문분야 및 대학원생 수준의 전공의 107명'이 연구에 참여했으며, Q 정렬과 사후면접은 디지털 방식으로 진행됐다. 이들의 분석 결과 열정, 거부감, 보상이라는 세 가지 프로파일이 나왔습니다. 이러한 연구결과는 '교육을 촉진하고 교육생들의 교육 동기를 개선하는 태도 강화 및 장려'를 위한 교사로서의 레지던트 프로그램 설계 변경 사항을 알리기 위해 사용되었다. 
Dotters-Katz et al. 2016 [20] This study focused on US medical graduates’ attitudes and motivation for teaching. Forty-seven statements were used. Through convenience sampling, 107 residents ‘from a wide variety of specialties and postgraduate year levels’ joined the study, and the Q-sorting and post-interview were done digitally. Their analysis yielded three profiles: enthusiasm, reluctance and rewarded. These findings were used to inform modifications in the design of resident-as-teacher programmes that ‘reinforce and encourage attitudes that promote teaching as well as improve trainees’ motivation to teach’, 


Berkhout 등[21] Berkhout 및 동료들은 임상 환경에서 학생들의 자기조절 학습 행동 패턴을 찾는 것을 목표로 했다. 그들은 이론과 학생 인터뷰를 통해 52개의 진술문를 만들었습니다. 서로 다른 병원의 11개 임상실습에 속해 있는 4명의 학생이 진술서를 분류했다. 온라인 데이터 수집 절차를 사용했으며 '실시간' 분류후post-sorting 면접은 없었다. 그들의 분석은 참여적이고, 비판적으로 기회주의적이며, 불확실하고, 절제되고, 노력적인 다섯 가지 학습 패턴으로 이어졌다.

Berkhout et al. 2017 [21] Berkhout and colleagues aimed to find patterns in students’ self-regulated learning behaviours in the clinical environment. They created 52 statements from theory and student interviews. Four students in 11 different clinical clerkships, in different hospitals, sortedthe statements. An online data collection procedure was used and there was no ‘live’ post-sorting interview. Their analysis led to five patterns of self-regulated learning behaviour, which they called engaged, critically opportunistic, uncertain, restrained and effortful.

 

 

사람 중심 분석을 위한 세 가지 방법의 비교, 장점 및 단점
Comparisons, advantages and disadvantages of the three methods for person-centred analysis


세 가지 분석 방법의 구체적인 장점과 단점은 표 3에 비교 요약되어 있다.
The specific advantages and disadvantages of the threeanalysismethodsarecomparedandsummarized in Tab. 3.



개인 중심 분석의 한계 및 윤리적 고려 사항
Limitations and ethical considerations of personcentred analysis

표본에서 발견되는 부분군은 [문화적으로 민감하고 맥락 의존적culturally sensitive and context-dependent]일 수 있습니다. 따라서 이 분석의 프로파일과 결과는 다른 모집단으로 일반화하기가 어려울 수 있다. 실제 개입을 설계하는 데 사람 중심 분석 결과를 사용하려면 [지역 대상 모집단local target population]의 프로파일 구조를 조사하는 것이 좋습니다. 사람 중심 분석은 변수 중심 분석을 대체하는 것이 아니라 보완 분석입니다. [특정 집단에 대한 오명stigmatization]을 남길 수 있다는 게 사람 중심 분석의 위험이다. 이러한 위험을 최소화하려면 다음과 같은 것이 중요합니다. 
Subgroups found in samples may be culturally sensitive and context-dependent. The profiles and findings from this analysis could thus be difficult to generalize to other populations. To use the results of personcentred analyses for designing practical interventions, it is better to investigate the profile structure in the local target population. A person-centred analysis is not a replacement for variable-centred analysis, but a complementary analysis. A risk of person-centred analysis is that it can lead to stigmatization of certain groups. To minimize this risk, it is important that: 

A. 개인 중심 분석을 사용하는 연구원들은 윤리 승인을 신청하고 연구 결과를 발표하는 경우 다음 작업을 수행합니다.
A. Researchers using person-centred analysis always do the following while applying for ethical approval and publishing their research:

– 이러한 분석을 수행한 배경과 근거를 설명합니다.
– Explain the background and rationale for conducting such an analysis;

– 분석 결과를 어떻게 해석해야 하는지 설명하며, 특히 상황에 유의해야 합니다.
– Explain how the results of this analysis should be interpreted, especially keeping in mind its context; and

– 이러한 연구 결과는 특정 그룹에 오명을 남기지 않고 사용자 개입을 맞춤화하는 건설적인 방법으로 사용되어야 한다고 선언합니다.
– Make a declaration that the results of such research should be used in a constructive way to customize interventions and not to stigmatize certain groups.

B. 윤리검토위원회는 항상 다음 사항을 고려한다.
B. Ethical Review Boards always consider the following:

– 연구진이 사람 중심 분석을 사용할 수 있는 충분한 근거를 제시했습니까?
– Have the researchers provideda goodrationale for using person-centred analysis?

– 연구자들이 실제로 생성된 프로파일을 맞춤형 또는 맞춤형 개입에 사용하고 있습니까?
– Are the researchers actually using the generated profiles for tailor-made or personalized interventions?

– 연구원들은 이 분석 결과를 어떻게 처리할 것인지 명확히 설명했습니까?
– How have the researchers clarified how they will treat the findings from this analysis?

 

 

 

 

 


 

Methodological details of cluster, latent class and Q-sort analyses

Cluster analysis1 - This analysis can be done quite easily using SPSS. Two ways of conducting this analysis are K-means clustering and hierarchical clustering. In SPSS, an additional ‘Two Step’ clustering procedure can be used to suggest an optimal cluster number.

K-means clustering is the most commonly used data clustering method. The methods sorts cases in a predefined number of clusters. The number of clusters can be based on theoretical (existing literature) or practical (applicability) considerations. Initial k-cluster centers are selected and then iteratively refined assigning each data point to its closest cluster-center and updating each cluster-center to be the mean of its constituent data points. An acceptable cluster solution should explain at least 50% of the variance in the variable scores and have an incremental effect over the cluster solution with (k-1) groups.

Hierarchical clustering is an approach in which all data points are clustered hierarchically until only one cluster is left. The optimal cluster solution is decided on the basis of a hierarchical diagram called a dendrogram, a taxonomy or hierarchy of data point. This is a convenient representation which answers questions such as: ‘How many useful groups are present in this data?’ and ‘What salient interrelationships are present?’.2

Hierarchical clustering techniques are fundamentally different from K-means clustering. K-means tries to find compact clusters, where cluster members are similar (as far as possible). Hierarchical clustering leads to a tree of clustering, where it remains arbitrary at what level you want to set the borders between clusters.

After using one of the cluster methods, the cluster solutions can be tested for stability using a double split cross validation procedure in which the sample is divided into two and the cluster solution with the same cluster centers is tested in each sample. For a stable cluster solution, the Cohen’s kappa values, derived from this procedure, should be as close to 1 as possible.3

For use on categorical data, this data needs to be treated first (e.g. with Homogeneity analysis using alternating least squares - HOMALS).4

Practical steps for K-means cluster analysis:
- Prepare your data file in SPSS just like for any other analysis.
- Compute standardized scores (z-scores) for the variable which you would like to use to make the clusters.
- Exclude outliers from the data as cluster analysis is sensitive to outliers.
- Use the command “Classify” and enter the number of clusters (“n”)that you would like to test (start with 2 and then go on with 3 and more), choose “save assigned cluster”.
- Then repeat the process with “n+1”, “n+2”, “n+3” clusters.
- Check for the percentage of variance explained by the 2-cluster, 3-cluster, 4-cluster, etc. solutions. Using a benchmark of at least 50% variance explained, choose the cluster that explains a significant amount of variance The optimal number of clusters can be selected on the basis of statistical parameters and interpretability.
- Once you have chosen a cluster solution, create two new files splitting your sample into two random subsamples. Run the clustering analysis on each subsample and see if you get similar clusters in both. Compute the Cohen’s kappa for checking the stability of the cluster solution.
- Use cluster membership as the independent variable and run t-tests or Analysis of Variance or Multiple Analysis of Variance for the dependent variables of interests to see the relationship of the different clusters with the outcome measures.

Interpretation of findings:

- Try to understand the meaning of the clusters based on your hypothesis, theoretical framework and the scores on the variables used for clustering.
- If possible label the clusters (without being judgemental) and provide a description of each cluster so that your interpretation becomes clear to the readers or practitioners.
- Try to understand how the cluster characteristics are associated with outcome variables.
- Before ascribing any meaning to the clusters, it is important to establish the cluster stability mentioned above.
- Be cautious in projecting your findings to other contexts and cultures.

 

Latent Class Analysis5 – This is also called Latent Partition Analysis (LPA). This is done in a manner that the samples in the study are homogeneous within, and heterogeneous between the formed subgroups. It is a flexible method, as the best fitting model is established by testing several combinations of numbers of classes. This can be done using the software programmes R6 or Latent Gold7.

LCA can be used if there exists a still-unknown, so called ‘latent’ variable that can be used to make subgroups of the samples under investigation. This newly emerging variable can be identified as a distinguishing factor for the content of the subgroups. The researchers then determine if the distinguishing factor has practical relevance, and attribute a meaningful description and name to it.

LCA has an advantage over other clustering methods because it can reveal patterns, i.e. combinations of indicators within a sample, that cannot easily be detected by other methods. LCA is a probabilistic method. It means that there is no one-to-one relationship between a class and the occurrence of an indicator within that class, but each class is composed of a subgroup that is more likely to display a certain pattern than the subgroup belonging to a different class. A similar classification process is applied in diagnosing a disease: The presence or absence of a certain symptom in a patient (indicator in a sample) does not always lead to one specific diagnosis (class), but a certain combination of symptoms (pattern) makes this diagnosis more likely. Thus, instead of making a black-and-white decision on the subgroups of samples as cluster analysis does, LCA defines the probability of certain patterns in the samples, and thus sketches a more attenuated picture.

LCA has the possibility of defining ‘prototypes’ in each subgroup. To achieve this, LCA specifies for each class a probability of a sample belonging to that class. The probabilistic statement indicates the certainty of the assignment of a sample, based on a certain combination of indicators, to that class. In particular, samples that have a high, say >90%, probability of belonging to a certain class could be considered as prototypes of that class.

Practical steps for Latent Class Analysis:
- Conduct thematic or content analysis of your descriptive data.
- Convert the categorical data into binary response data, e.g. presence/absence of the indicator in each sample (SSPS or Excel file).
- Put your binary data into one of the abovementioned software programmes.
- Test different numbers and properties of classes.
- Determine the best fit for the number and properties of classes by considering the following:
  · the statistical information indicating between class differences and within class homogeneity.
  · the practical relevance of the content of the classes.
  · the number of cases per class.
- Define prototypes for each class by taking the samples that have the highest probability to belong to that class (e.g. the top 10).
- Provide the prototypes of each class with narrative information from your descriptive data to generate profile descriptions for each class.

Interpretation of findings:

- Try to understand the meaning of the classes based on the practical relevance of the content of the classes and the descriptions of the prototypes.
- Identify the latent variable that distinguishes the classes from each other, and give this variable a meaningful name.
- Be aware that the samples are clustered into hypothetical patterns (the classes) based on the chance that they display a combination of indicators.
- Be cautious in projecting your findings to other contexts and cultures.
 

 

Q-sort analysis8-10- Although there is considerable flexibility in Q-methodology, there are some common practices. A Q-methodological study starts with the development of a set of statements on a topic (the Q-set). This set of statements can be created as a result of interviewing stakeholders, looking at teaching evaluations, theories and literature, focus groups, etc. This initial Q-set is often piloted and refined before use in a study.

Each participant sorts statements in a Grid (the Q-sort), with most statements placed in the middle, and the fewest placed at the edges (i.e. bell-curve shaped). These edges have 'strongly agree' or 'very important' on one side, and 'strongly disagree' or 'not at all important' on the other. This ranking process is called ‘Q-sorting’ and forces participants to make choices based on their own opinions and experiences. Usually the Q-sorting procedure is followed by a post-sorting interview or survey questions. In this post-sorting (often semi-structured) interview, or in some open survey questions, the participant elaborates on the reasons and stories behind the Q-sort, to enrich the data collected from the Q-sort.

Q-sorts are then compared to identify groups of individuals (profiles) who have similar attitudes on the subject of interest. This is often done using using Q-sort analysis software called PQmethod.11 The ranking scores are analysed statistically to lead to different factors10 using Q-sort analysis software. The number of profiles are dependent on how the participant scores 'load' onto a specific profile, similar to factor analysis. The qualitative data can aid the decision for the number of factors/profiles. The profiles are finalized through a combination of statistical, methodological and qualitative data analysis from a post Q-sort interview or survey questions. A description of the prototype of each profile is constructed by the researchers while constantly consulting the data.

Practical steps for Q-sort analysis:
- Develop a set of statements from the literature and pilot them with some study participants, refine them and your Q-set will be ready. 
- Select participants using theoretical sampling strategies, in order to include participants with diverse viewpoints.
- Ask participants to sort the statements into the Q-grid, and ask participants to elaborate on their choices.
- Enter the Q-sort of each participant into the abovementioned software and run the Q-sort analysis.
- Check the different solutions for predetermined statistical criteria. At the minimal , you should take into account the percentage of variance explained by different solutions, eigenvalues, and number of Q-sorts per factor, total number of Q-sorts loading significantly on one factor, and Q-sorts loading on more than one factor or no factor at all.
- Check the different solutions for methodological criteria: are the factors coherent, differentiated and recognizable?
- Check if the qualitative data (from post-sorting interview) corroborates the factor solution.
 
Interpretation of findings:
- Try to understand the meaning of the profiles based on your research question and theoretical framework.
- Combine the result from the factor analysis with the answers the post-sorting questions to create a rich and accurate profile description.
- Label the profiles to capture their essence and improve the reader’s capability of comparing and contrasting the findings.
 

 

 

 



10. Vermunt JK, Magidson J. Latent class cluster analysis. In: HagenaarsJ,McCutcheonA,editors. Appliedlatentclass analysis. Cambridge: Cambridge University Press; 2002. pp. 89–106.


Perspect Med Educ. 2021 Aug;10(4):245-251.

 doi: 10.1007/s40037-020-00633-w. Epub 2020 Dec 7.

'One size does not fit all': The value of person-centred analysis in health professions education research

Rashmi A Kusurkar 1 2Marianne Mak-van der Vossen 3 4Joyce Kors 3 4Jan-Willem Grijpma 3 4 5Stéphanie M E van der Burgt 6Andries S Koster 7Anne de la Croix 3 4

Affiliations collapse

Affiliations

  • 1Amsterdam UMC, Faculty of Medicine, Vrije Universiteit Amsterdam, Research in Education, Amsterdam, The Netherlands. R.Kusurkar@amsterdamumc.nl.
  • 2LEARN! Research Institute for Learning and Education, Faculty of Psychology and Education, Vrije Universiteit Amsterdam, Amsterdam, The Netherlands. R.Kusurkar@amsterdamumc.nl.
  • 3Amsterdam UMC, Faculty of Medicine, Vrije Universiteit Amsterdam, Research in Education, Amsterdam, The Netherlands.
  • 4LEARN! Research Institute for Learning and Education, Faculty of Psychology and Education, Vrije Universiteit Amsterdam, Amsterdam, The Netherlands.
  • 5LEARN! Academy, Faculty of Behavioural and Movement Sciences, Vrije Universiteit Amsterdam, Amsterdam, The Netherlands.
  • 6Center for Evidence Based Education, Amsterdam UMC-location AMC, Amsterdam, The Netherlands.
  • 7Department of Pharmaceutical Sciences, Utrecht University, Utrecht, The Netherlands.
  • PMID: 33284407
  • DOI: 10.1007/s40037-020-00633-wAbstractKeywords: Person-centred analysis; Personalized approach; Research method.
  • Health professions education (HPE) research is dominated by variable-centred analysis, which enables the exploration of relationships between different independent and dependent variables in a study. Although the results of such analysis are interesting, an effort to conduct a more person-centred analysis in HPE research can help us in generating a more nuanced interpretation of the data on the variables involved in teaching and learning. The added value of using person-centred analysis, next to variable-centred analysis, lies in what it can bring to the applications of the research findings in educational practice. Research findings of person-centred analysis can facilitate the development of more personalized learning or remediation pathways and customization of teaching and supervision efforts. Making the research findings more recognizable in practice can make it easier for teachers and supervisors to understand and deal with students. The aim of this article is to compare and contrast different methods that can be used for person-centred analysis and show the incremental value of such analysis in HPE research. We describe three methods for conducting person-centred analysis: cluster, latent class and Q‑sort analyses, along with their advantages and disadvantage with three concrete examples for each method from HPE research studies.

인지심리학은 어떻게 의학교육의 얼굴을 바꾸었는가 (Adv Health Sci Educ Theory Pract, 2020)
How cognitive psychology changed the face of medical education research
Henk G. Schmidt1 · Silvia Mamede1

 

도입
Introduction

의학교육에 대한 연구는 1951년 의학저널(현재의 Academic Medicine)이 발간되면서 심각한 관심을 끌기 시작했다. 놀랄 것도 없이, 처음부터 그것은 학습과 가르침의 심리에서 현재의 것에 영향을 받아왔고 항상 지속적인 우려를 반영해 왔다.
Research into medical education began to attract serious attention with the publication of the Journal of Medical Education (now Academic Medicine) in 1951. Not surprisingly, from its very beginning it has been influenced by what was current in the psychology of learning and instruction and always reflected its ongoing concerns.

50년대와 60년대에 의학교육 문헌에서는 [행동주의 언어]가 지배적이었다. 학습은 반복과 보상의 결과로 간주되었으며, 이른바 '학습 기계'(Owen et al. 1965, 1964), 프로그램된 교육(Lysaught et al. 1964; Weiss and Green 1962), 그리고 '행동적' 목표에 중점을 두었다(Varagunam 1971).
In the fifties and sixties the language of behaviorism was dominant in the medical education literature. Learning was seen as the result of repetition and reward, with its application to so called ‘learning machines’ (Owen et al. 1965, 1964), to programmed instruction (Lysaught et al. 1964; Weiss and Green 1962), and with its emphasis on ‘behavioral’ objectives (Varagunam 1971). 

'기억', '유지retention', '추론reasoning'과 같은 [인지심리학적 개념]은 70년대 초반부터 나타나기 시작했고(엘슈타인 외 1972; 클라코와 리드 1975; 레빈과 포만 1973), 엘슈타인과 동료들의 의학 문제 해결의 획기적인 연구에서 초기 합성을 찾았다(엘슈타인 외 1978).  

Cognitive-psychology concepts such as ‘memory,’ ‘retention,’ and ‘reasoning’ started to appear only in the early seventies (Elstein et al. 1972; Klachko and Reid 1975; Levine and Forman 1973), and found an early synthesis in the groundbreaking work of Elstein and colleagues on medical problem solving (Elstein et al. 1978). 



지식 습득의 인지 심리에 대한 간략한 소개
A brief introduction to the cognitive psychology of knowledge acquisition


의대 1학년 학생들이 가이튼과 홀의 의학 생리학 교과서의 한 장에서 새로운 정보를 접하게 되면, 

  • 그들은 새로운 정보를 해석하는 것을 돕기 위해 고등학교 또는 대학의 생물학에서 나온 사전 지식활성화activate한다.
  • 그들은 새로운 지식을 구성construct하기 위해 기존의 지식을 사용한다.
  • 이러한 새로운 이해는 충분히 철저하다면 후속 학습이나 응용에 사용할 수 있도록 장기 기억 장치에 저장된다(Anderson et al. 2017).
  • 그러나 배울 수 있는 것은 지식이 의식적으로 처리되는processed 기억의 부분인 작업 기억의 제한에 달려 있다.
  • 마지막으로, 생존을 위해 지식은 생물학적으로 기억 속에 통합consolidated되어야 합니다(Lee 2008; McGaugh 2000). 이 결합은 자연에서 먼저 생화학적이고 그 다음에 시냅스적 결합입니다. 이러한 프로세스는 안정화하는 데 몇 시간이 걸립니다.
  • 숙면을 취하면 배운 것에 대한 기억력memory이 훨씬 좋아진다는 것은 잘 알려져 있다.
  • 세 번째이자 마지막 프로세스는 기억을 해마 부위에서 피질까지 이동시켜 파괴할 수 없는 상태로 만드는 시스템 통합systems consolidation입니다(Wincur 및 Moscovitch 2011). 이 과정은 몇 년이 걸립니다.
  • 인출 가능성retrievability은 학생들이 충분한 가변성의 맥락에서 지식을 적용하는 정도와 이러한 맥락이 처음에 학습한 맥락과 유사한 정도에 의해 영향을 받는다(Eva et al. 1998; Norman 2009).

When first-year medical students are confronted with information new to them from a chapter of Guyton and Hall’s textbook of medical physiology,

  • they activate prior knowledge from high-school or college biology to help them interpret the new information;
  • they use existing knowledge to construct new knowledge.
  • This new understanding, if sufficient thorough, is stored in long-term memory to be used for subsequent learning or application (Anderson et al. 2017).
  • What can be learned however is also dependent on limitations of working memory, the part of memory where knowledge is consciously processed (Baddeley and Hitch 1974; Mayer 2010).
  • Finally, knowledge needs to be biologically consolidated in memory in order to survive (Lee 2008; McGaugh 2000). This consolidation is biochemical in nature first, then synaptic. These processes take several hours to stabilize.
  • It is wellknown that memory for things learned is much better after a good night sleep.
  • A third and final process is systems consolidation in which memories are moved from the hippocampal area to the cortex and become indestructible—although not necessarily retrievable (Winocur and Moscovitch 2011). This process takes years.
  • Retrievability is influenced by the extent to which students apply their knowledge in contexts of sufficient variability and the extent to which these contexts resemble the context in which it was learned initially (Eva et al. 1998; Norman 2009). 



학습을 촉진하는 교육적 개입
Instructional interventions that foster learning


위에서 설명한 인지 과정은 [학습에 관여하는 마음이 자연스럽게 하는 것]을 설명하고 있으며, 이 과정은 교육적 개입에 의해 촉진될 수 있습니다.
The cognitive processes described above, delineating what the mind, engaged in learning, does naturally, can be boosted by instructional interventions. 

사전 지식과의 관계를 강화하기 위한 개입
Interventions aimed at strengthening the relationship with prior knowledge

자기 설명 권장
Encouraging self‑explanation


[자기 설명]은 배운 것에 대한 정교화의 한 형태이다. 학생들은 이전에 습득한 지식에 새로운 정보를 관련시키거나 [자신의 말로 정보를 반복함]으로써 이 작업을 수행한다(Chi et al. 1989, 1994). 단순 반복(Craik과 Lockhart 1972)보다는 [정교화]가 더 도움이 되는 것으로 알려져 있습니다. 치 외 연구진(1994)은 순환계에 대해서 한 줄 한 줄을 읽고 자기설명을 한 학생들이 본문을 두 번 읽은 학생들보다 사전 시험부터 사후 시험까지 훨씬 더 많은 지식을 습득한 것으로 나타났다. 
Self-explanation is a form of elaboration upon what is learned. The students do this by relating new information to knowledge previously acquired or repeat the information verbally in their own words (Chi et al. 1989, 1994). Elaboration is known to be more helpful than simple repetition of new material (Craik and Lockhart 1972). Chi et al. (1994) found that students who were asked to self-explain after reading each line of a passage on the human circulatory system had a significantly greater knowledge gain from preto posttest than students who read the text twice. 

자세한 토론 진행
Facilitating elaborative discussion


학생들이 또래들과 [주제를 토론]할 수 있게 하거나 선생님에 의해 자극을 받는다면, 학습은 상당히 향상된다. 메타 분석에 따르면, [소그룹 학습]은 대부분의 다른 교육 개입의 효과보다 학습에 훨씬 더 큰 효과를 발견했다. Versteeg 외 연구진(2019)은 [정교화-토론 그룹]이 [자기 설명 그룹]보다 우수한 반면, 두 그룹 모두 대조군 그룹보다 우수한 성능을 보인다는 것을 발견했다. 흥미롭게도, [처음에 잘못된 개념을 가진 학생]들은 [처음에 잘못된 이해를 한 동료]와 토론할 때도 이득을 보았다. 
If students are allowed to discuss subject matter with peers or are being prompted by a teacher, learning improves considerably. In a meta-analysis of small-group learning (Springer et al. 1999) found effects on learning considerably more sizable than those of most other educational interventions. Versteeg et al. (2019) found that the elaborative-discussion group outperformed the self-explanation group, while both outperformed the control group. Interestingly, students with initially wrong concepts profited even when discussing them with a peer who also had an initial wrong understanding. 

분산 연습 촉진
Promoting distributed practice


학습과 검색 활동을 시간이 지남에 따라 분산시켜 같은 콘텐츠로 두어 번 되돌아가면 지식이 더욱 공고해집니다. 분산학습distributed-study 기회는 일반적으로 몰아치기 학습massed-study 기회보다 더 나은 기억력을 생산한다(Delaney et al. 2010). 

If one spreads learning and retrieval activities over time, returning to the same contents a couple of times, knowledge become better consolidated. Distributed-study opportunities usually produce better memory than massed-study opportunities (Delaney et al. 2010). 

새로운 정보 처리를 촉진하기 위한 개입
Interventions aimed at facilitating processing of new information


인지 부하를 줄이는 것을 돕기
Help in decreasing cognitive load


위와 같이 작업 메모리는 제한된 정보만 동시에 처리할 수 있습니다. 인지 부하가 높아져서 처리할 수 있는 정보수준을 초과할 경우 학습이 방해됩니다(van Merrienboer and Sweller 2010). 많은 연구들이 어떻게 인지 부하를 지시로 최적화할 수 있는지에 대한 질문을 조사했다. 성공적인 전략 중 하나는 [해결예시사례worked example]를 사용하는 것입니다. 교사는 학생들이 특정 영역의 문제를 스스로 해결하도록 요구하는 대신, 이러한 문제의 해결예시 사례worked-out example를 학습에 제시한다(Chen et al. 2015). 여기서 가정은 [문제를 해결하는 데 필요한 모든 요소]를 봄으로써 인지 부하를 감소시킨다는 것입니다. 지식이 부족한 학생들은 그러한 접근법으로 이익을 얻는 반면, 충분한 지식을 가진 학생들은 때때로 방해를 받는다(Kalyuga et al. 2001). 
As indicated above, working memory allows for only limited information to be processed at the same time. If the cognitive load of information exceeds what can be processed, learning is hampered (van Merrienboer and Sweller 2010). Much research has gone into the question how cognitive load could be optimized by instruction. One successful strategy is the use of worked examples. Rather than require students to solve problems in a particular domain by themselves, the teacher presents worked-out examples of these problems for study (Chen et al. 2015). The assumption here is that by seeing all elements required to solve a problem, decreases cognitive load. Students with limited knowledge seem to profit from such approach, whereas students with enough knowledge are sometimes hampered (Kalyuga et al. 2001). 

장기 기억력 강화를 위한 개입
Interventions aimed at strengthening long‑term memory


인출 연습 촉진
Fostering retrieval practice


예를 들어 학생들에게 [정기적으로 퀴즈]를 제공하여 기억에서 배운 정보를 검색하도록 요청하면, 이런 방식으로 다시 활성화되는 지식은 기억 속에 더욱 고착화됩니다. 
When you ask students to retrieve information previously learned from memory, for instance by providing them with regular quizzes, knowledge reactivated this way becomes more entrenched in memory. 

인터리빙 실무 육성
Fostering interleaving practice


임상추리연습에서 진단이 다른 사례를 제시하면 학생들이 [겉보기에는 같지만 진단이 다른 사례]와 [겉보기에는 다르지만 진단은 같은 사례]를 구분하는 학습이 활성화된다. 인터리빙(교차연습)은 초기 학습 속도를 늦출 수 있지만, 결국 보존 및 적용 개선으로 이어집니다. 
Offering cases with different diagnoses in a clinical reasoning exercise boosts learning because students learning to distinguish between cases that look the same but have different diagnoses, and cases that look different but have the same diagnosis. Interleaving may slow initial learning but, in the end, leads to better retention and application. 

이러한 개입이 의료 교육의 실천에 어느 정도 적용됩니까?
To what extent are these interventions applied to the practice of medical education?

문제 기반 학습(PBL)은 사실 초기 혁신이었습니다. 그것은 1969년 입학한 20명의 의과대학 학생들을 대상으로 캐나다 맥마스터 대학에서 개발되었다. PBL에는 다음과 같은 6가지 특성이 정의됩니다.

  • (i) 생물의학 또는 임상 문제는 학습의 출발점으로 사용된다.
  • (ii) 학생이 일부 시간 동안 소규모 그룹으로 협업한다.
  • (iii) 튜터의 유연한 지도 아래 진행한다. 문제는 배움의 계기이기 때문이다.
  • (iv) 커리큘럼에 포함한 강의의 수를 제한한다.
  • (v) 학습은 학생 주도이다.
  • (vi) 커리큘럼에는 자율 학습을 위한 충분한 시간이 포함된다.

Problem-based learning. (PBL) was actually an early innovation. It was developed at McMaster University, Canada where in 1969 a first group of 20 students entered medical school. PBL has the following six defining characteristics:

  • (i) Biomedical or clinical problems are used as a starting point for learning;
  • (ii) students collaborate in small groups for part of the time;
  • (iii) under the flexible guidance of a tutor. Because problems are the trigger for learning
  • (iv) the curriculum includes only a limited number of lectures;
  • (v) learning is student-initiated, and
  • (vi) the curriculum includes ample time for self-study.

PBL을 처음 만든 교수들에게 PBL은 단지 학생들 사이에서 동기부여를 증가시키기 위한 좋은 교육 관행의 조합이었다(Servant-Miklos 2019a). 그러나 70년대 말, 네덜란드 마스트리히트 대학에서 이루어진 연구로 인해 PBL은 인지심리학 연구결과(Schmidt 1983; Servant-Miklos 2019b)에 따라 재해석을 거쳤다. 표 1은 PBL의 기초가 되는 인지 과정 및 개입에 대한 저자들의 라벨링을 포함한다(Schmidt et al. 2011).

For the founding staff PBL was merely a combination of good educational practices aimed at increasing motivation among students (Servant-Miklos 2019a). However, by the end of the seventies, and due to work done at Maastricht University, the Netherlands, PBL underwent a reinterpretation in line with cognitive psychology findings (Schmidt 1983; Servant-Miklos 2019b). Table 1 contains the authors’ labelling of cognitive processes and interventions underlying PBL (Schmidt et al. 2011).

팀 기반 학습(TBL)은 1997년 미국 센트럴 미주리 대학의 래리 마이클슨에 의해 개발되었으며, 학급 규모가 커지면서 소크라테스 방식으로 가르칠 수 없게 되었다(마이클슨 외 2002). 이 아이디어는 2005년 의학 교육 문헌에 처음으로 등장했다(Koles et al. 2005). TBL은 세 단계로 구성됩니다.

  • (i) 준비 단계: 학생이 사전 할당된 자료를 개별적으로 학습하며, 비디오를 통해 전달되는 경우가 많다.
  • (ii) 수업 내 준비 상태 확인 단계: 개별 테스트를 하고, 이후 개별 테스트에 대한 답을 팀에서 논의하여 치르는 후속 테스트, 교사의 피드백
  • (iii) 수업 내 응용 단계: 팀 간 원활한 토론을 통해 학생들이 새로운 문제를 해결하고 초기 학습 자료에서 도출된 새로운 질문에 답하는 단계

Team-based learning (TBL) was developed in 1997 by Larry Michaelsen at the University of Central Missouri, US, when increasing class sizes prevented him from teaching in the Socratic fashion (Michaelsen et al. 2002). The idea emerged for the first time in the medical education literature in 2005 (Koles et al. 2005). TBL consists of three phases:

  • (i) A preparatory phase, in which students study individually preassigned materials often conveyed through video;
  • (ii) an in-class readiness assurance phase, consisting of an individual test, a subsequent retest taken after discussion of the answers to the individual test are discussed in a team, and teacher feedback;
  • (iii) an in-class application phase in which students through facilitated interteam discussion solve new problems and answer new questions derived from the initial learning materials.

작업 예worked example는 물리학, 수학, 화학에 관한 교과서에서 흔히 볼 수 있다. 문제를 해결하면서 인지 부하를 줄일 수 있는 가능성을 본 사람은 아마도 스웰러와 쿠퍼(1985)일 것이다. 이전 섹션에서 우리는 이미 보건 직업 분야에서 인지 부하 이론을 성공적으로 적용한 사례를 제공하였다(Chen et al. 2015). 그러나, 그 문헌에서 보고된 작업 사례에 대한 연구 수는 여전히 제한적이다. 3대 저널을 검색한 결과 15개의 기사가 발견되었는데, 가장 오래된 것은 2002년에 나온 것이다. worked example이 임상 추론을 가르치는 데 사용되는 방법의 도구상자에 유용하게 추가될 수 있지만, 분명히 더 많은 연구가 필요하다. 

Worked examples are common in text books on physics, mathematics and chemistry. It was probably Sweller and Cooper (1985) who saw their potential for reducing cognitive load while problem solving. In the previous section we have already provided a successful example of the application of cognitive load theory in the health professions field (Chen et al. 2015). However, the number of studies on worked examples reported in that literature is still limited. A search into the three most-cited journals in health professions education, Academic Medicine, Medical Education, and Advances in Health Sciences Education unearthed 15 articles, the oldest being from 2002. The use of worked examples would potentially be a fruitful addition to the arsenal of methods used to teach clinical reasoning, but we definitively need more studies. 


혼합 연습 또는 인터리빙은 특히 중요한 기능 중 하나가 진단 문제 해결의 가르침이기 때문에 의료 교육의 잠재력이 크다(Richland et al. 2005; Rohrer 2012). 겉으로 보기에는 똑같은 경우가 원인이 다를 수 있다. 다른 방법으로는, 상당히 다른 종류의 증상을 보이는 사례들이 동일한 근본적인 병리현상을 보일 수 있다. 이러한 사례를 비교하고 대조하도록 학생을 교육하는 것이 이 교육 방식을 사용하는 데 최적일 것입니다. 그러나 현존하는 의료계 문헌에서는 6가지 사례만 찾아볼 수 있었으며, 흥미롭게도 대부분은 제프리 노먼과 맥마스터 대학의 그의 동료들에 의해 제공되었습니다. 

Mixed practice or interleaving has large potential for medical education, in particular because one of its important functions is the teaching of diagnostic problem solving (Richland et al. 2005; Rohrer 2012). Cases that superficially look the same may have different causes. Alternatively, cases demonstrating a quite different array of symptoms, may have the same underlying pathology. Training student to compare and contrast such cases would be optimal using this instructional approach. However, only six illustrative examples could be found in the extant health professions literature, interestingly most of them provided by Geoffrey Norman, and his associates from McMaster University. 

 

의료 전문 지식 연구
The study of medical expertise


의료 전문성은 인지 심리학자들에게 매력적인 연구 영역이다.
Medical expertise is an attractive domain of study for cognitive psychologists.

의사는 매우 광범위하고 복잡한 지식 기반에서 수술하며 임상 문제 해결은 주의력과 인식에서부터 의사결정까지 광범위한 인지 과정을 수반한다. 의학적 전문성이 40년 이상 연구자들의 관심을 끈 것은 놀랄 일이 아니다(Norman 2005) 이 연구는 임상적 추론, 특히 진단 과정에 초점을 맞추었다. 의대 교육의 주요 목표 중 하나는 학생들의 임상추론능력을 발전시키고 학생들이 좋은 진단가가 되도록 돕는 것이다.
Physicians operate upon an extremely broad and complex knowledge basis, and clinical problem-solving involves a large spectrum of cognitive processes, ranging from attention and perception to decision-making. Not surprisingly, medical expertise has drawn researchers’ attention over four decades (Norman 2005). This research has focused on clinical reasoning, particularly the diagnostic process. One of major goals of medical education is to develop students’ clinical reasoning and helping students become good diagnosticians is much valued.

임상적 추론의 특성
The nature of clinical reasoning


임상 문제 해결의 일반 모델로서의 '가설연역적' 방법
The ‘hypothetico‑deductive’ method as a general model of clinical problem‑solving


임상 만남 초기에 의사들은 하나 또는 몇 개의 진단 가설을 생성하고 그 후에 이러한 가설을 확인하거나 반박하기 위한 추가 정보를 수집합니다. 
Early in a clinical encounter, physicians generate one or a few diagnostic hypotheses and subsequently gather additional information to either confirm or refute these hypotheses. 

이러한 '가설연역적' 방법은 1970년대에 (의사와 학생이) 표준화된 환자와 상호작용는 동안 think-aloud하는 것을 관찰하는 것과 같은 전통적인 인지 심리학 연구 방법을 사용하여 수행한 선구적 연구로 밝혀졌다(Elstein et al. 1978, 2009). 이 연구들은 전문가들의 추론을 특징짓는 과정을 밝혀내려고 시도했고, 그 과정을 학생들에게 가르치고자 했다.
This ‘hypothetico-deductive’ method was revealed by pioneering studies conducted in the 1970s using traditional methods of cognitive psychology research, such as observing physicians and students interacting with standardized patients while thinking aloud (Elstein et al. 1978, 2009). These studies attempted to uncover the reasoning process that characterizes experts’ reasoning, which could then be taught to students.

그러나, 비록 가설연역적 방법이 진단 추론의 일반적인 표현을 제공하지만, 후속 연구는 [가설연역적 추론능력이 전문가 성과를 설명하지 않는다는 것]을 보여주었다(Elstein et al. 1978; Neufeld et al. 1981). 의대생들도 같은 접근법을 채택했으며, 전문가와 초보 진단가를 구별하는 것은 [특별한 추론 과정]이 아니라 [진단 가설의 질]이었다(Barrows et al. 1982) 같은 기간의 또 다른 중요한 발견은 [한 임상 사례의 진단 성과가 다른 사례의 성과를 예측하지 못했다]는 것이다. 이러한 현상은 Elstein에 의해서 '내용 특수성'으로 명명되었으며, 심지어 동일한 전공 내에의 사례에 대해서도 발생하는 것으로 입증되었다.

However, although the hypothetico-deductive method provides a general representation of diagnostic reasoning, subsequent studies soon showed that it does not explain expert performance (Elstein et al. 1978; Neufeld et al. 1981). Medical students also employed the same approach, and what differentiated expert and novice diagnosticians was not a particular reasoning process but rather the quality of their diagnostic hypotheses (Barrows et al. 1982). An additional crucial finding of the same period was that diagnostic performance on one clinical case did not predict performance on another case. The phenomenon, labeled by Elstein ‘content specificity’ (Elstein et al. 1978), was proved to happen even when the cases were within the same specialty (Eva et al. 1998; Norman et al. 1985).


의학 지식은 어떻게 기억 속에 구조화되어, 진단 추론에 사용되는가
How medical knowledge is structured in memory and used in diagnostic reasoning

그것은 전문가 성과를 결정하는 [특별한 과정]이 아니라 [추론의 내용], 즉 지식 그 자체이다(Norman 2005). 이러한 결론은, 앞서 언급한 연구결과에 직면한 연구자들이, [의학적 지식의 종류 및 그 지식이 기억 속에서 지식이 어떻게 구조화되고 임상적 문제를 진단하는 데 활용되는지]에 관심을 돌린 새로운 연구 시대에서 도출되었다. 이러한 연구는 전문가와 비전문가 진단가의 지식 구조 차이에서 신중하게 검색하기 위해 인지 심리학 연구의 방법에 크게 의존했다. 예를 들어, 이러한 연구들 중 다수는 서로다른 수련연차의 의대생들 및 경험이 많은 의사들에게 임상 사례를 진단하고 환자의 징후와 증상을 설명하거나 또는 소리내어 생각하며thinking-aloud 사건을 해결할 것을 요청하였다. 진단 추론 중 사용된 지식의 종류와 양을 식별하기 위해 프로토콜이 분석되었다(Patel and Groen 1986; Schmidt et al. 1990). 

It is not a particular process that determines expert performance, but rather the content of reasoning, i.e. knowledge itself (Norman 2005). This conclusion came from a new era of studies conducted when researchers, faced with the aforementioned findings, turned attention to the kinds of medical knowledge, how knowledge is structured in memory and used to diagnose clinical problems. These studies relied heavily on methods from cognitive psychology research to carefully search from differences in knowledge structures of expert and non-expert diagnosticians. For example, many of these studies requested medical students at different years of training and (more or less) experienced physicians to diagnose clinical cases and subsequently explain the patient’s signs and symptoms or, alternatively, to solve the case while thinking-aloud. The resulting protocols were analyzed to identify the kinds and amount of knowledge used during diagnostic reasoning (Patel and Groen 1986; Schmidt et al. 1990).

예를 들어 질병이 원형(Bordage 및 Zacks 1984), 이전에 본 환자의 인스턴스(Norman et al. 2007), 또는 스키마와 스크립트로 기억 속에 표현될 것이라는 여러 가지 지식 구조가 제안되었다(Schmidt et al. 1990). 

  • 이러한 제안 중 [프로토타입 모델]과 같은 일부는 오랫동안 심리학에 존재하는 [표현 모델representation model]을 의학 지식에 적용하는 것으로 구성되었습니다. 
  • 다른 저자들은 [질환 스크립트illness script]의 개념과 같이 특별히 의학 지식을 표현하기 위한 형식을 개발하였다. 질병 스크립트는 질병이 발생하는 상태, 질병 과정 자체, 그리고 가능한 징후, 증상 및 관리 대안의 측면에서 그 결과에 대한 정신적 시나리오입니다(Feltovich와 Barrows 1984).
  • 어떤 제안에 대해서는 일부 실증적 근거가 있으며, 의사 기억 속에는 필요할 때 동원될 수 있는 다양한 지식 구조가 공존할 가능성이 있다(Custers et al. 1996; Schmidt and Rikers 2007). 

Several knowledge structures have been proposed, suggesting that diseases would be represented in memory, for example, as prototypes (Bordage and Zacks 1984), or as instances of previously seen patients (Norman et al. 2007), or yet as schemas and scripts (Schmidt et al. 1990).

  • Some of these proposals, such as prototype models, consisted of application of representation models long existing in psychology to medical knowledge.
  • Other authors however developed formats specifically for representing medical knowledge, such as the concept of illness scripts. Illness scripts are mental scenarios of the conditions under which a disease emerges, the disease process itself, and its consequences in terms of possible signs, symptoms, and management alternatives (Feltovich and Barrows 1984).
  • Some empirical support exists for several proposals, and it is likely that (some of) these different knowledge structures coexist in physicians’ memory to be mobilized when needed (Custers et al. 1996; Schmidt and Rikers 2007).

이러한 개념화는 진단 추론을 이해하는 데 틀을 잡았습니다. 일부 차이는 있지만, 이 개념들은 [질병은 기억 속에서 일련의 관찰 가능한 임상 징후와 연관되어 있다]는 기본적인 아이디어를 공유합니다. 간략히, [환자가 가진 manifestation의 존재]가 [의사의 기억 속에서 질병의 정신적 표현mental representation을 활성화]시켜 진단 가설을 생성합니다. 질병과 관련된 다른 징후가 실제로 존재하는지 여부를 확인하기 위해 추가 정보를 검색합니다. 이 검색을 통해 초기 진단과 상반되는 결과가 드러나고 오히려 다른 결과를 제시하게 되면 새로운 가설이 활성화되어 환자의 결과에 대해 테스트될 수 있습니다.

These conceptualizations have framed our understanding of diagnostic reasoning. Notice that, despite their differences, they share the basic idea that diseases are associated in memory with a set of observable clinical manifestations. Briefly, the presence of some of these manifestations in a patient activates in the physician’s memory the mental representation of the disease, generating a diagnostic hypothesis. Search for additional information follows to verify whether other manifestations associated with the disease are actually present. When this search reveals findings that contradict the initial diagnosis and rather suggest others, new hypotheses may be activated and tested against the patient findings. 

진단 추론의 이중성
The dual nature of diagnostic reasoning

추리의 이중 프로세스 이론은 두 가지 다른 형태의 추리가 존재한다고 가정합니다. 

  • 하나는 패턴 인식에 기초하고, 하나는 빠르고, 힘들이지 않으며, 대체로 무의식적인 것입니다(일반적으로 시스템 1 또는 유형 1). 
  • 다른 하나는 규칙을 적용하기 위해 느리고, 노력하며, 의식적인 통제 하에 이루어집니다(시스템 2 또는 유형 2).
  • 유형 1 프로세스가 직관적인 판단을 설명한다면,
  • 유형 2 프로세스는 이러한 판단을 검증할 때 이루어져야 합니다.

Dual-process theories of reasoning assume that two different forms of reasoning exist,

  • one that is associative, based on pattern-recognition, fast, effort-less and largely unconscious (usually named System 1 or Type 1) and
  • another that depends on applying rules, is slow, effortful and takes place under conscious control (System 2 orType 2) (Evans 2008, 2006; Kahneman 2003).
  • While Type 1 processes accounts for intuitive judgments,
  • Type 2 processes have to take place when these judgments are verified.

이 모델을 의료 진단에 적용해보면, 유형 1 추론은 유형 2 프로세스에 따라 후속 검증이 달라지는 진단 가설의 생성을 설명할 것이다.  
Appling this model to medical diagnosis, Type 1 reasoning would explain the generation of diagnostic hypotheses whose subsequent verification depends on Type 2 processes.  

의사가 진단에 도달하기 위해 비분석적 추론을 사용한다는 실질적인 증거가 있습니다(Norman 및 Brooks 1997). 예를 들어 방사선 전문의는 200ms에 약 70%의 정확도로 의료 영상의 이상을 감지할 수 있었다(Evans et al. 2013; Kundel and Nodine 1975). 
There is substantial evidence that physicians use non-analytical reasoning to arrive at diagnoses (Norman and Brooks 1997). Radiologists, for example, were able to detect abnormalities in medical images with around 70% accuracy in 200 ms (Evans et al. 2013; Kundel and Nodine 1975). 

또한 의사들이 사례의 [복잡성 수준]이나, 사례가 [얼마나 문제가 될 수 있는지]에 대한 인식과 같은, 상황에 따라 [직관적 추론 모드]와 [분석적 추론 모드]를 모두 다른 수준으로 채택한다는 실질적인 증거가 있다(Maede et al. 2007, 2008). 
There is also substantial evidence that physicians adopt both intuitive and analytical reasoning modes in different degrees depending on the circumstances such as the level of complexity of the case or perception of how problematic a case might be (Mamede et al. 2007, 2008). 

진단 추론의 이중 프로세스 표현이 의학 문헌에서 두드러졌다(Croskery 2009). 연구 전통은 진단 오류 문제와 함께 우려의 증가로 촉발되었다. 의사의 인지 프로세스의 결함은 대부분의 진단 오류(Graber 2005)에서 감지되었으며, 인지 오류의 출처는 의학 문헌(Norman 2009; Norman et al. 2017)에서 많이 논의되었다.

  • 몇몇 저자들은 추론의 결함을 발견에 의해 유발된 인지 편견, 유형 1 프로세스에서 추론이 자주 발생하는 [휴리스틱 및 지름길에 귀인]하였다(Croskery 2009; Redelmeier 2005).
  • 반대로, 다른 저자들은 휴리스틱스가 일반적으로 효율적이며 추론 결함에 대한 설명으로 특정 추론 프로세스보다는 [특정 지식의 결함]을 지적한다(Eva and Norman 2005; McLaughlin et al. 2014; Norman et al. 2017).

이 논란은 의대 교육에 직접적인 영향을 미치기 때문에 이론적인 논의로만 봐서는 안 된다. 
Dual-process representations of diagnostic reasoning have become prominent in the medical literature (Croskerry 2009). A research tradition has grown triggered by increasing concerns with the problem of diagnostic error. Flaws in the physician’s cognitive processes have been detected in the majority of diagnostic errors (Graber 2005), and the sources of cognitive errors have been much discussed in the medical literature (Norman 2009; Norman et al. 2017).

  • Several authors have attributed flaws in reasoning, and consequently errors, to cognitive biases induced by heuristics, shortcuts in reasoning frequent in Type 1 processes (Croskerry 2009; Redelmeier 2005).
  • Conversely, other authors argue that heuristics are usually efficient and point to specific knowledge deficits rather than particular reasoning processes as the explanation for reasoning flaws (Eva and Norman 2005; McLaughlin et al. 2014; Norman et al. 2017).

This controversy should not be seen as a theoretical discussion only, because it has direct consequences for medical education. 

의대생 임상추론의 개발
The development of clinical reasoning in medical students

전문가가 되기 위한 과정에서 의대생들은 자신의 성과를 뒷받침하는 [질적으로 다른 지식 구조]를 가진 [여러 단계]를 거친다(Schmidt et al. 1990; Schmidt and Rikers 2007). 이 [의료 전문성 개발의 재구조화 이론restructuring theory of medical expertise]은 [학생들이 교육을 통해 발전함에 따라 지식이 어떻게 기억 속에서 구성되고 임상적 문제를 해결하기 위해 사용되었는가]를 이해하는 데 초점을 맞춘 연구 프로그램에서 나왔다. 
In the course towards becoming an expert, medical students move through different stages characterized by qualitatively different knowledge structures that underlie their performance (Schmidt et al. 1990; Schmidt and Rikers 2007). This restructuring theory of medical expertise development has come out of a research program focused on understanding how knowledge was organized in memory and used to solve clinical problems as students progress through education.

[교육의 첫 해]에 학생들은 병리 생리학적 메커니즘에 기초하여 질병의 기원과 결과를 설명하는 인과 네트워크를 대표하는 정신 구조를 빠르게 개발한다(Schmidt et al. 1990; Schmidt and Rikers 2007). 이 단계에서 학생들에게 임상적 문제 진단을 요청한 연구에 따르면, (이 단계의) 학생들은 여전히 [연결된 증상의 패턴을 인식하지 못하기 때문에] 인과적 메커니즘을 바탕으로 개별 증상isolated symptom에 대해 설명하려고 한다. 이러한 처리는 기초과학 지식을 많이 사용하여 힘들고 상세합니다. 
 In the first years of their training, students rapidly develop mental structures representing causal networks that explain the origins and consequences of diseases on the basis of their pathophysiological mechanisms (Schmidt et al. 1990; Schmidt and Rikers 2007). Studies that asked students at this stage to diagnose clinical problems showed that, because students still do not recognize patterns of connected symptoms, they try to explain isolated symptoms based on their causal mechanisms. This processing is effortful and detailed, with much use of basic sciences knowledge. 

지식 구조의 [첫 번째 질적 변화]는 학생들이 임상적 문제를 해결하기 위해 [습득한 지식을 적용하기 시작할 때] 일어난다. 점차 증상으로 이어지는 일련의 사건에 대한 상세한 지식은 [보다 일반적인 설명 모델]이나 [상세한 설명을 나타내는 진단 라벨]에 '캡슐화encapsulated'된다(Schmidt et al. 1990; Schmidt and Rikers 2007). 이 과정을 통해 (예를 들어 증후군이나 단순화된 인과 메커니즘과 같은) [소수의 추상적이고 고차적인 개념]이 [더 많은 수의 하위 수준 개념]을 '요약summarize'하게 된다.

  • 예를 들어, 학생들에게 세균성 심내막염과 패혈증이 있는 환자에게서 임상 징후를 설명하도록 요청했을 때, 그들은 그 결과, 즉 증상까지 오염된 주사기의 사용으로 시작되는 일련의 사건들을 단계적으로step-by-step 추론했다.
  • 반대로, 전문가들은 '패혈증' 개념을 진단 추론에 이 지식을 사용할 필요 없이, 사건 사슬의 많은 부분을 '캡슐링'하는 라벨로 사용했다(Schmidt et al. 1988).

A first qualitative shift in knowledge structure occurs when students start to apply the knowledge that they have acquired to solve clinical problems. Gradually, the detailed knowledge of the chain of events that leads to a symptom is ‘encapsulated’ in more generic explanatory models or diagnostic labels that stands for the detailed explanation (Schmidt et al. 1990; Schmidt and Rikers 2007). Through this process, a small number of abstract, higher-order concepts, representing for example a syndrome or a simplified causal mechanism, ‘summarize’ a larger number of lower-levels concepts.

  • For example, when students were requested to explain the clinical manifestations in a patient presenting with bacterial endocarditis and sepsis, they reasoned step-by-step through the chain of events that starts with the use of contaminated syringes until their consequences, i.e. the symptoms.
  • Conversely, experts used the concept of ‘sepsis’ as a label that ‘encapsulates’ much of the chain of events, without the need to use this knowledge in their diagnostic reasoning (Schmidt et al. 1988).

많은 연구에 따르면 전문가들은 사례를 통해 추론할 때 이러한 유형의 '캡슐화된encapsulated' 개념을 많이 사용한다. 그 결과 think aloud나 recall protocol을 해보면, 학생보다 [기초 과학 개념이나 기본 메커니즘을 덜 참조]하는 것으로 나타났다(Boshuizen 및 Schmidt 1992; Rikers et al. 2004, 2000). 그러나 기초과학 지식은 여전히 이용가능하며, 간접적인 추론 척도를 가진 연구가 보여주었듯이 진단 중에 실제로 '무의식적으로unconsciously' 사용된다(Schmidt와 Rikers 2007).

Many studies have shown experts to make much use of this type of ‘encapsulated’ concepts when reasoning through a case, leading to think aloud or recall protocols that contain less reference to basic sciences concepts or underlying mechanisms than the students’ ones (Boshuizen and Schmidt 1992; Rikers et al. 2004, 2000). However, basic sciences knowledge remains available and is indeed ‘unconsciously’ used during the diagnosis as studies with indirect measures of reasoning have shown (Schmidt and Rikers 2007).

[지식 구조의 두 번째 변화]는 [환자에 대한 노출이 증가함]에 따라 발생한다. 캡슐화된 지식은 [특정 질병을 가진 환자를 '대표represent'하는 서술적 구조]로 점차 재편된다(Feltovich and Barrows 1984; Schmidt et al. 1990). 이러한 '질병 스크립트'는 (캡슐화로 인하여) [질병의 인과적 메커니즘]에 대한 지식은 거의 담겨있지 않지만, [질병의 활성화 조건과 임상 발현]에 대한 임상 지식이 풍부하다(Custers et al. 1998). [활성화 조건enabling consition]에 대한 지식은 경험에 따라 증가하는 경향이 있으며, 전문가 의사의 추론에 중요한 역할을 한다(Hobus et al. 1987). 실제 환자에 대한 노출이 늘어나면서 이전에 본 환자의 흔적도 기억 속에 저장된다. 따라서 질병 스크립트는 질병 프로토타입의 표현부터 이전에 본 환자의 표현(Schmidt 및 Rikers 2007)까지 다양한 수준의 일반성different levels of generality에 존재합니다. 
A second shift in knowledge structures occurs as exposure to patients increases. Encapsulated knowledge is gradually reorganized into narrative structures that ‘represent’ a patient with a particular disease (Feltovich and Barrows 1984; Schmidt et al. 1990). These ‘illness scripts’ contain little knowledge of the causal mechanisms of the disease, because of encapsulation, but are rich in clinical knowledge about the enabling conditions of the disease and its clinical manifestations (Custers et al. 1998). Knowledge of enabling conditions tends to increase with experience and play a crucial role in expert physicians’ reasoning (Hobus et al. 1987). As exposure to actual patients increases, traces of previously seen patients are also stored in memory. Illness scripts exist therefore at different levels of generality, ranging from representations of disease prototypes to representations of previously seen patients (Schmidt and Rikers 2007). 

[성공적인 진단 추론]결정적으로 [질병에 대한 풍부하고 일관성 있는 정신표현이 개발되었는지]에 좌우되는 것으로 보인다(Cheung et al. 2018). 예를 들어, 진단 추론에서 기초의학 지식의 역할을 조사하고자 했던 일련의 연구에서는, 학생들이 질병과 관련된 임상 특성을 학습할 때 설명을 주거나 주지 않은 상태에서 학습하도록 했다(Woods et al. 2007). [인과적 메커니즘]에 의해 임상적 특성이 어떻게 연결되어 있는지를 알게 된 학생들은, delay 후에 해당 질병의 환자를 진단할 때 진단 정확도가 높아졌다. 이러한 연구는, 지식의 캡슐화 과정knowledge encapsulation process에 대한 추가적인 증거를 제공할 뿐만 아니라, [질병의 기본 메커니즘을 이해하는 것]이 [임상적 특징을 함께 '접착'하는 데 도움]이 되고, 질병에 대한 보다 [일관성 있고 안정적인 정신표현]으로 이어지며, 향후 [유사한 사례를 진단]할 때 질병을 더 쉽게 인식할 수 있도록 한다는 것을 시사한다. 

Successful diagnostic reasoning seems to depend critically on developing rich, coherent mental representations of diseases (Cheung et al. 2018). For instance, a series of studies attempting to investigating the role of biomedical knowledge in diagnostic reasoning had students learning the clinical features associated with a disease either together with explanations of how they are produced or without explanation (Woods et al. 2007). Learning how the clinical features are connected by causal mechanisms led to higher diagnostic accuracy when diagnosing cases of the disease after a delay. Besides bringing additional evidence of the knowledge encapsulation process, these studies suggest that understanding their underlying mechanisms help ‘glue’ the clinical features together, leading to more coherent and stable mental representations of the diseases, which make it easier to recognize them when diagnosing similar cases in the future. 

임상 추론 교육
The teaching of clinical reasoning

위에서 설명한 연구는 [전문가 의사는 어떤 특정한any peculiar 추론 방식을 채택하지 않으며], 학생들에게 가르칠 수 있는 [일반적인 추론 기술 같은 것은 없다]는 실질적인 증거를 제공한다. 그럼에도 불구하고 1990년대에 학생들에게 '보편적인 추론 방법'을 가르쳐야 한다는 제안은 여전히 문헌에서 매우 빈번하게 나타나고 있다(Schmidt와 Mamede 2015). 실제로 최근에는 이중 프로세스 이론이 주목받으면서, 이러한 제안도 [임상 추론] 및 [인지 편향]을 다루는 과목과 같은 개입의 형태로 나타났다(Norman et al. 2017). 
The research described above provides substantial evidence that expert physicians do not employ any peculiar reasoning mode and there is no such thing as general reasoning skills that can be taught to students. Nevertheless, proposals for teaching students how to reason, common in the 1990s, are still very frequent in the literature (Schmidt and Mamede 2015). Indeed, more recently, as dual-process theories have gained attention, these proposals have also gained the form of interventions such as courses on clinical reasoning and cognitive bias (Norman et al. 2017).

놀랄 것도 없이, 훈련생들의 실제 진단 성과를 평가할 때마다, 이러한 [프로세스 지향적 개입의 효과는 무효이거나 미미]했다(Norman et al. 2017; Schmidt and Mamede 2015). 반대로 (임상적 추론의 성격과 그것이 어떻게 전개되는지에 대해 우리가 알고 있는 것과 더 부합하는 것 같은) [질병 지식의 획득과 재구조화를 지향하는 개입]이 훨씬 더 유망해 보였다. 예를 들어, [서로 비슷해보이는 질병을 구별짓는 특징에 관한 지식을 향상시키기 위한 개입]은 추론에서 나타날 수 있는 편향에 대하여 의사를 '면역immunize'시키는 것으로 나타났다.(Mamede et al. 2020).

Not surprisingly, whenever trainees’ actual diagnostic performance was evaluated, the effect of these process-oriented interventions has been null or minimal (Norman et al. 2017; Schmidt and Mamede 2015). Conversely, interventions directed towards acquisition and restructuring of disease knowledge, which seems more in line with what we know about the nature of clinical reasoning and how it develops, looked much more promising. For example, an intervention directed at increasing knowledge of features that discriminate between similar-looking diseases successfully ‘immunized’ physicians against bias in reasoning (Mamede et al. 2020). 

[가설연역적 모델의 시뮬레이션을 사용한 직렬-단서 접근법]임상 추론 교육을 위해 제안된 가장 보편적인 개입으로 문헌의 최근 리뷰에서 나타났다(Schmidt와 Mamede 2015). 이 접근 방식에서는 사례의 정보가 [단계별로 공개]되며, (학습자는) 각 단계에서 진단 가설을 생성하고, 진단 결정에 도달하기 위해 필요한 추가 정보를 파악해야 한다. 이 접근방식은 거의 조사되지 않았다. 
The serial-cue approach with simulation of the hypothetico-deductive model appeared in a recent review of the literature as the most prevalent intervention proposed for the teaching of clinical reasoning (Schmidt and Mamede 2015). In this approach information of the case is disclosed step-by-step, and students required in each step to generate diagnostic hypotheses and identify which additional information is needed to arrive at a diagnostic decision. The approach has rarely been investigated. 

실제 연습과 유사하기 때문에 시리얼 큐 접근법이 광범위하게 사용되는 것은 설명될 수 있지만, 아직 [정보 검색을 가이드할 질병 스크립트를 개발하지 못한 학생들]에게는 이 방식이 크게 부담스러울 수 있다는 주장이 제기되어 왔다. 
Its similarity to real practice may explain the widespread use of the serial cue approach, but it has been argued that it may be overwhelming for students who do not have yet developed illness scripts to guide the search for information. 

임상 추론 교육을 위한 지침적 접근법으로서의 [자기 설명]은 최근 챔버랜드와 동료들이 수행한 일련의 연구(챔버랜드 외 2013, 2015, 2011)에서 테스트되었다. 
Self-explanation as an instructional approach for the teaching of clinical reasoning has been tested in a series of studies conducted by Chamberland and colleagues (Chamberland et al. 2013, 2015, 2011) in recent years. 

[자기 설명을 사용한 학생들]은 자기 설명 없이 연습한 학생들보다 테스트에서 유사한 경우를 더 잘 진단했다. 학생들은 생체의학 지식을 폭넓게 활용해야 하는 사례에 대한 자기 설명만으로 이득을 얻는데, 이는 진단 추론에서 그러한 지식의 가치를 재확인하는 연구 결과입니다. [신중한 성찰deliberate reflection](아래 참조)과 함께, 자기 설명은 최근 보고된 Sherbrooke 의과대학의 종방향 커리큘럼 프로그램에 채택되었다(체임버랜드 외 2020).
Students who used self-explanation better diagnosed similar cases in the test than their peers who had practiced without self-explanation. Students only benefitted from self-explanation on cases with which they were less familiar and which required them to extensively use biomedical knowledge, a finding that reaffirms the value of such knowledge in diagnostic reasoning. Together with deliberate reflection (see below), self-explanation has been adopted in a longitudinal curricular program at the Sherbrooke Medical school, an experience which has been recently reported (Chamberland et al. 2020). 

(자기 설명과는 달리), 생체의학적 지식보다 [임상적 지식에 초점을 맞춘 교육적 개입]도 제안되었다. 이러한 개입은 임상 문제와 관련하여 실습하는 동안, [이전에 습득한 임상 지식의 인출 및 당면한 정보에 대한 정교화]를 촉진합니다. 이러한 개입은 다양한 형식을 취함에도 불구하고 당면한 문제에 대해 서로 다른 대체 진단 방법을 비교하고 대조할 수 있는 지침을 학생들에게 제공한다는 기본 개념을 공유합니다. 
Instructional interventions that, differently from self-explanation, focus on clinical rather than biomedical knowledge have also been proposed. These interventions foster retrieval of previous acquired clinical knowledge and elaboration on the information at hand during practice with clinical problems. Despite the different formats they may take, these interventions share the basic idea of providing students with guidance to compare and contrast different alternative diagnoses for the problem at hand. 

일반적으로 의료교육에서 '혼합연습mixed practice' 이라고 하는 인터리빙 연습interleaving practice는 위에서 언급한 개입의 요건이다. [생김새는 비슷하지만 실제로는 진단이 다른 임상적 문제]와 [실제로는 다른 질병이지만 생김새가 비슷한]의 특징을 한 연습에서 함께 제시해야 비교하고 대조할 수 있다. [같은 진단의 예를 함께 제시]하는 [블록 연습blocked practice]과 비교했을 때, [혼합 연습]의 이점은 혼합 또는 차단된 연습으로 훈련된 후 심전도 해석 시 학생들의 성과를 비교하는 연구에서 입증되었다(Ark et al. 2007; Hatala et al. 2003). 
Interleaving practice, usually referred to in medical education as ‘mixed practice’, is a requirement for the abovementioned interventions. It is only possible to compare and contrast the features of clinical problems that may look similar but have in fact different diagnoses when problems of different diseases that look alike are presented together in the same exercise. The benefits of mixed practice relative to blocked practice, which presents examples of the same diagnosis together, have been demonstrated in studies comparing students’ performance when interpreting EKG after being trained either with mixed or blocked practice (Ark et al. 2007; Hatala et al. 2003). 

임상 추론을 가르칠 때 worked example를 사용하여 (정보) 처리량을 줄이는 것은 거의 조사되지 않았습니다. 그럼에도 불구하고, 이 개입이 더 많은 관심을 받을 가치가 있다는 징후는 학습 진단 지식에 대한 잘못된 예와 다른 유형의 피드백의 사용의 영향 또는 진단 역량에 대한 반사 추론의 연구(Ibiapina)의 장점을 탐구하는 몇 가지 연구에서 나왔다. 외. 2014). 

Decreasing processing through the use of worked examples in the teaching of clinical reasoning has been more scarcely investigated. Nevertheless, indication that this intervention deserves further attention has come from a few studies exploring the influence of using erroneous examples and different types of feedback on learning diagnostic knowledge (Kopp et al. 2008, 2009) or the benefits of studying worked examples of reflective reasoning for diagnostic competence (Ibiapina et al. 2014). 

이러한 아이디어를 기술한 원고는 얼마나 자주 보건학 교육의 진보에 나타나나요?
How often do manuscripts delineating these ideas appear in advances in health sciences education?


Table 2



의학 교육의 인식의 미래: 인지과학
The future of cognition in medical education: Cognitive science

첫째, 교육에 강한 영향을 미치는 임상 실습의 발전은 새로운 연구 수요를 가져왔다. 그 중 하나가 인공지능의 통합 등 의료의 디지털화(Wartman and Combs 2018). 전문가 지식 또는 기계 학습에서 파생된 컴퓨터 기반 알고리즘은 진단 및 예후 결정을 획기적으로 개선할 것으로 기대된다(Obermeyer 및 Emanuel 2016). 
First, developments in clinical practice that have strong implications for education have brought new research demands. One of these developments is the digitalization of health care, including the incorporation of artificial intelligence (Wartman and Combs 2018). Computer-based algorithms, whether derived from expert knowledge or machine learning, are expected to dramatically improve diagnostic and prognosis decisions (Obermeyer and Emanuel 2016). 

그러나 이러한 변화의 "부작용side effect"도 이미 오래전에 확인되었다. 예를 들어, 자동화 시스템에 지나치게 의존함으로써 발생하는 "자동화 편향automation bias"은 임상의가 초기 인상initial impression을 검토하는 빈도를 낮추고, 결국 오류를 발생시키는 경향이 있다(Bond et al. 2018; Lyell and Coiera 2017). 향후 연구는 임상의들이 이러한 편견을 뒷받침하는 메커니즘을 더 잘 이해하고 훈련생들을 그들에게 덜 민감하게 만드는 방법을 연구하기 위해 이러한 개발을 실무에 통합할 수 있도록 어떻게 더 잘 준비할 수 있는지 탐구해야 한다. 게다가, 의료의 디지털화는 임상적 환경에 변화를 가져왔으며, 이는 학생들이 그들의 경험을 통해 배울 수 있는 것에 영향을 미칠 것이다. 예를 들어, 현재 여러 기관에서 전자 건강 기록(EHR)과 연계된 [임상 의사결정 지원 시스템]을 채택하고 있다(Keenan et al. 2006). 컴퓨터가 광범위하게 활용되면서 환자 진료 방식이 크게 변화되었다. 임상현장은 '의사-컴퓨터-환자'라는 삼각구도를 이루게 되었고, staff room은 학생 및 레지던트들이 한줄로 컴퓨터 화면을 응시하는 모습이 되었다. 

However, “side effects” have long been identified. For example, “automation bias” resulting from overreliance on automation systems tends to make clinicians less prone to review their initial impressions, eventually causing errors (Bond et al. 2018; Lyell and Coiera 2017). Future research should explore how clinicians can be better prepared to incorporate these developments in their practice, aiming also at better understanding the mechanisms underlying such biases and how to make trainees less susceptible to them. Moreover, the digitalization of health care has brought changes to the clinical setting that affect what students can learn from their experiences there. Think, for example, of clinical decision support systems, often associated with electronic health records (EHR), now widely adopted (Keenan et al. 2006). Patient care has been substantially altered by the widespread presence of computers, with clinical encounters now involving the ‘provider-computer-patient triangulation’ and staff rooms changed into rows of students and residents staring at computer screens. 

한편, EHR은 강력한 교육 도구가 될 수도 있습니다. 이들 중 다수는 관리 지점에서 온라인 학습 리소스에 대한 즉각적인 액세스를 제공합니다. 예를 들어, 수련생은 clinical encounter 상황에서 환자관리에 대한 임상 가이드라인이나 권고안을 '가져올pull' 수 있습니다. 이것은 새로운 지식이 미래에 사용될 것과 매우 유사한 맥락에서 학습될 수 있도록 할 것이며, 이는 검색가능성을 촉진하는 기본 원칙이다. 또한 EHR은 교육생들에게 사례를 쉽게 검토할 수 있는 기회를 제공하고, 환자의 임상 경험을 쉽게 추적할 수 있도록 지원할 것이다(Keenan et al. 2006; Tierney et al. 2013). 
On the one hand, EHRs can be powerful educational tools. Many of them offer instant access to online learning resources at point of care. Trainees can, for example, ‘pull’ clinical guidelines or recommendations about care management during the clinical encounter. This would allow for new knowledge to be learned in a context very similar to the one in which it would be used in the future, a basic principle to facilitate retrievability. EHRs also gives trainees the ossibility to easily go back to review a case and facilitates keeping track of one’s clinical experiences (Keenan et al. 2006; Tierney et al. 2013). 

반면에 잠재적인 부작용은 논의되었다. 예를 들어, 온라인 정보의 양이 압도적일 수 있으며, 훈련생들의 관심은 [환자]보다도 [데이터 입력 프로세스]로 옮겨갈 수 있습니다. 좀 더 미묘하게, EHR로 인해, 교육생들은 연구 결과를 해석하고, 해석한 결과를 바탕으로 내러티브를 구성하지 않아도 될 수도 있으며, 오히려 환자의 raw data를 지도의사에게 쉽게 전달할 수 있는 가능성이 생긴다. 따라서 학생이나 전공의가 문제를 두고 고민할reflect upon 인센티브가 감소하며, 담당 의사와 논의할 기회도 감소합니다(Peled et al. 2009; Wald et al. 2014). EHR과 CDDS가 교육생 학습에 어떤 영향을 미치며, 학습 육성을 위해 시스템 자체 또는 시스템 용도의 특정 특성을 최적화할 수 있는지가 인지과학 연구 내에서 주목을 끌 가능성이 높은 영역의 예이다.

On the other hand, potentially adverse effects have been discussed. For example, the volume of online information may be overwhelming, and trainees’ attention may be diverted from the patient to the dataentering process. More subtly, EHRs give trainees the possibility to easily convey the raw patient data to supervisors, without being compelled to interpret findings and build a narrative out of them. Incentive for the student or resident to reflect upon the problem therefore decreases, and so does the opportunity for discussion with attending physicians (Peled et al. 2009; Wald et al. 2014). How EHRs and CDDS affect trainees learning and which specific characteristics of the system itself or of its use can be optimized to foster learning are examples of areas that are likely to call attention within cognitive science research. 


 


Adv Health Sci Educ Theory Pract. 2020 Dec;25(5):1025-1043.

 doi: 10.1007/s10459-020-10011-0. Epub 2020 Nov 26.

How cognitive psychology changed the face of medical education research

Henk G Schmidt 1Silvia Mamede 2

Affiliations collapse

Affiliations

  • 1Department of Psychology, Erasmus University, P.O. Box 1738, 3000, DR, Rotterdam, the Netherlands. schmidt@fsw.eur.nl.
  • 2Department of Psychology, Erasmus University, P.O. Box 1738, 3000, DR, Rotterdam, the Netherlands.

Free PMC article

Abstract

In this article, the contributions of cognitive psychology to research and development of medical education are assessed. The cognitive psychology of learning consists of activation of prior knowledge while processing new information and elaboration on the resulting new knowledge to facilitate storing in long-term memory. This process is limited by the size of working memory. Six interventions based on cognitive theory that facilitate learning and expertise development are discussed: (1) Fostering self-explanation, (2) elaborative discussion, and (3) distributed practice; (4) help with decreasing cognitive load, (5) promoting retrieval practice, and (6) supporting interleaving practice. These interventions contribute in different measure to various instructional methods in use in medical education: problem-based learning, team-based learning, worked examples, mixed practice, serial-cue presentation, and deliberate reflection. The article concludes that systematic research into the applicability of these ideas to the practice of medical education presently is limited and should be intensified.

Keywords: Cognitive load; Distributed practice; Elaborative discussion; Interleaving practice; Knowledge acquisition; Medical expertise; Retrieval practice; Self-explanation.

교육과 (의료)서비스: 어떻게 이론이 긴장을 이해하게 하는가 (Med Educ, 2019)
Education and service: how theories can help in understanding tensions
Jennifer Cleland1 & Steven J Durning2

 

도입
INTRODUCTION


의료 환경의 주된 목적은 안전하고 효과적인 의료 서비스를 제공하는 것입니다. 그러나 고품질의 환자 진료 제공과 동시에 병원, 클리닉 및 기타 의료 시설에서도 미래 세대의 의료 전문가 교육 및 훈련을 진행한다.1 이로 인해 서비스와 교육이 제한된 시간과 자원을 두고 경쟁하는 상황이 초래됩니다.2 의료 교육은 점점 더 압박되고 규제되는 환경에서 일하는 컨설턴트 및 기타 의료 교수진에게 요구되는 여러 가지 [경쟁적 요구competing demands] 중 하나입니다.3–6 훈련 중인 의사(전공의)도 예를 들어, 더 적은 시간 이내에 역량을 달성해야 할 필요성과 의료 및 기술 지식의 확대로 인해 교육 압박이 가중되고 있습니다.10 
The main purpose of health care environments is to provide safe and effective health care. However, at the same time as delivering high-quality patient care, hospitals, clinics and other health care facilities also host the education and training of future generations of health professionals.1 This results in the situation where service and education compete for limited time and resources.2 Medical education is one of multiple, competing demands for consultants and other health care faculty members working in increasingly pressured and regulated environments.3–6 Doctors in training (residents or registrars) also face increasing educational pressures because of, for example, the need to achieve competencies within fewer hours7–9 and the expansion of medical and technological knowledge.10 

간단히 말해, [규제 제한regulatory restriction]이 증가하는 환경에서 [실습과 교육 요구가 증가]하면 교직원이 교육할 수 있는 시간과 오늘날의 의료 환경에서 교육받을 수 있는 시간이 줄어듭니다. 
In short, increased practice and educational demands in the milieu of growing regulatory restrictions mean less time is available for faculty members to teach and for trainees to learn in today’s health care environment. 

교육과 서비스 간 긴장 도전에 대한 대응은 다양했다. 여기에는 의대 교육의 변화를 요구하는 내용도 포함되어 있습니다. 
Responses to the challenge of tension between education and service have been diverse. These have included calls for the transformation of medical education, 

수련생과 레지던트가 환자 진료 제공에 의미 있게 참여하는 의료 환경에서 의료 훈련의 대다수가 계속 제공된다면(그리고 우리는 그렇지 않은 시나리오는 상상할 수 없다), 서비스와 교육이 (서로 분리되고 경쟁하는 활동보다는) 생산적으로 조정될 수 있는 방법을 검토하는 것이 필수적이다. 
if the majority of medical training continues to be delivered in health care contexts where trainees and residents meaningfully participate in the delivery of patient care (and we cannot imagine a scenario where this would not be the case), then it is essential to examine how service and education can be aligned productively rather than being seen as separate, competing activities.24–26 


방법
METHODS

우리는 의료 교육 및 훈련의 서비스-교육 긴장에 대한 문헌 검토를 수행했습니다. 우리의 검색 목적은 엄격함을 위해 이 주제에 대해 발표된 연구를 평가하거나 이를 위한 공식적인 방법론을 사용하여 연구 결과를 비교하는 것이 아니었다. 오히려, 우리는 연구의 초점과 이론의 사용, 그리고 견실한 방법론에 관심이 있었습니다.
We carried out a review of the literature on service– education tensions in medical education and training. The purpose of our search was not to assess published research on this topic for rigour, or to compare study outcomes using a formal methodology for doing so. Rather, we were interested in the study focus and use of theory and robust methodologies. 

문헌에서 분명한 것은 의료 교육자와 수련의사 또는 레지던트들이 그들의 훈련 프로그램이 임상 교육과 서비스의 균형에 맞지 않는 인상을 가지고 있다는 것이다. 특히, 전공의들은 (교육보다는) 서비스 쪽의 과잉을 더 자주 보고한다. 비록 서비스 및 교육에 대한 전공의와 Trainer의 정의가 완전히 일치하지는 않지만, 두 그룹 모두 서비스 활동이 교육적으로 가치가 있을 수 있다는 점을 인정합니다. 
What was clear from the literature is that medical educators and doctors in training or residents hold mismatched impressions of their training programmes’ balance of service obligations with clinical education. Specifically, residents more frequently report an overabundance of service. Both groups acknowledge that service activities can be educationally valuable, although the residents’ and trainers’ definitions of service and training are not fully aligned. 

이러한 긴장은 직장 학습에 관한 폭넓은 문헌 측면에서 타당하다. 많은 연구자에 따르면, 업무 참여와 학습 사이에는 구분이 없다.34 [업무 활동, 직장, 기타 근로자, 관찰 및 경청 등]이 작업을 통해 근로자가 직업 활동을 학습할 수 있는 주요 원천으로 일관되게 보고되고 있다.35 그러나 직장 내에서의 여러 활동이 갖는 가치는 사람마다 다르다.
These tensions make sense in terms of the wider literature on workplace learning. For many authors, there is no separation between participation in work and learning.34 Work activities, the workplace, other workers and observing and listening are consistently reported as key sources for workers to learn their vocational activities through work.35 What does differ, however, is the value individuals place on different activities within the workplace. 

학습자는 직장에서 일어나는 [동화적이고 수용적인assimilative and accommodative 학습]에 비해 [공식적인 학습 기회]를 인식하고 더 중시할privilege 높일 가능성이 높습니다.38,39 이러한 점을 감안할 때, 컨설턴트, 트레이너, 교육생 및 레지던트의 관점이 다르다는 것은 놀라운 일이 아닙니다. 무엇보다 Trainer와 Trainee는 동일한 활동에 대해서 서로 다른 관점을 가지고 있으며, 서비스란 무엇이고 교육이란 무엇인지에 대한 서로 다른 정의를 가지고 있기 때문이다.
learners are more likely to recognise and privilege formal learning opportunities, and be more motivated to be receptive to these, compared with the more assimilative and accommodative learning that takes place in the workplace.38,39 Given this, it is unsurprising that consultants and trainers, and trainees and residents, have different perspectives on the same activities, and different definitions of what is service and what is education. 

그러나, 우리의 문헌 검색은 이러한 서로 다른 관점이나 긴장의 정확한 성격을 명확히 하려는 시도가 드물게 이루어졌음을 보여주었다. 
However, our literature search indicated that only infrequently have attempts been made to clarify the precise nature of these different perspectives or tensions 

이들은 의학 교육의 다른 여러 분야와 마찬가지로, 이론과 방법론을 다른 분야에서 차용한 분야에 대한 (lags behind하다는) 주요 비판이다. 
These are major criticisms of work on this topic, which, like several others in medical education, ‘lags behind’ areas where theories and methodologies have been borrowed from other fields 

 

이론적 프레임워크의 사용
The use of theoretical frameworks

[이론]은 공통점과 패턴을 강조하고, 개념적 일반화 가능성을 창출하는 방식으로, 데이터를 조직하고 해석할 수 있는 체계를 제공할 수 있다.44,45 이것의 장점은 여러 가지이다. 

  • 첫째, findings이 다른 상황과 다른 맥락에 대한 전이가능성과 적용가능성에 대해 다른 사람들에 의해 평가될 수 있습니다.46 
  • 둘째, 이론 프레임의 사용은 연구 대상 현상에 대한 강력한 설명을 개발하는 데 도움이 되며, 이는 향후 연구에서 정교하게 다듬어질 수 있다.47 
  • 셋째, 이론은 이전에 충분히 탐구되지 않은 현상을 이해하는 데 사용할 수 있는 한 분야의 예상된expected 연관성 및 상호작용 로드맵을 제공할 수 있다. 
  • 마지막으로, 개념적 및 이론적 프레임워크는 연구 대상 문제의 특정 측면을 조명하고 확대하기 위한 수단이다.48 실제로, 둘 이상의 개념적 또는 이론적 프레임워크는 주어진 상황, 특히 복잡한 사회적 이슈를 수반하는 상황과 관련될 수 있다.48,49


Theory can provide a framework to organise and interpret the data in such a way as to highlight commonalities and patterns and generate conceptual generalisability.44,45 The advantages of this are multiple.

  • First, findings can be assessed by others for their transferability and potential for applicability to other situations and different contexts.46
  • Second, the use of theoretical framing helps develop robust explanations of the phenomena under study, which can be elaborated and refined in future research.47
  • Third, theory can provide a roadmap of expected associations and interactions from one field that can be used to understand a previously underexplored phenomenon.
  • Finally, conceptual and theoretical frameworks are a means to illuminate and magnify certain aspects of the problem under study.48 Indeed, more than one conceptual or theoretical framework may be relevant to a given situation, particularly situations that involve complex social issues.48,49


우리는 공통의 근본적인 문제와 교육 서비스 긴장에 대한 잠재적 해결책을 식별하기 위해 네 가지 이론적 프레임워크의 예를 적용합니다.
we apply four examples of theoretical frameworks to identify common underlying issues and potential solutions to education–service tensions.

  • 그림 세계;50 
  • 건축 실습;51,52 
  • 위치 학습, 53-55 그리고 
  • 문화-역사 활동 이론(CHAT 또는 AT)

 

  • figured worlds;50 
  • practice architectures;51,52 
  • situated learning,53–55 and 
  • cultural-historical activity theory (CHAT or AT ).

이러한 (실천 아키텍처) 중 하나는 우리가 아는 한 MER에게는 매우 새로운 것입니다.
One of these (practice architectures) is to the best of our knowledge, quite novel to MER.

하지만 왜 이런 이론들이죠? 우리의 입장은 [학습은 사회적이고 참여적]이며, 따라서 [사회적 맥락에 위치]하기 때문에 우리는 주로 광범위한 [사회문화 이론]의 계통family으로부터 이론을 끌어냈습니다. 이러한 관점에서 서비스와 교육은 사업장의 사회적 맥락에서 발생하며, 사업장의 맥락에서 다른 사람과 상호작용에 의해 형성되고 차례로 형성됩니다. 학습은 특정 지식과 기술을 습득하는 것뿐만 아니라, 직장 내 다른 사람의 특정 전문 커뮤니티와의 참여도 수반합니다. 
But why these theories? Our stance is that learning is social and participatory59 and thus situated in social contexts so we have drawn our theories primarily from the broad family of sociocultural theories. From this perspective, service and education occur in the social context of the workplace and are shaped by, and in turn shape, the other people and interactions in the workplace context. Learning involves not only acquiring particular knowledge and skills but also engagement with a particular professional community of other people in the workplace

어떤 이론들은 다른 이론들보다 학습 맥락, 연습, 정체성 형성에 있어서 유물뿐만 아니라 다른 사람들의 역할도 더 고려한다. 실무 건축 이론과 CHAT에서는 '[환경, 다른 동물, 사물 및 인공물]들은 단순한 배경 상황이나 도구가 아닌, 인간 존재와 사회 생활의 집행enactment에 필수적인 것'으로 취급한다'61.
Some theories take more account of the role of artifacts (‘things’) as well as other people in learning contexts, practices and identity formation than others. Practice architecture theory51,60 and CHAT56–58 are situated within this broadly sociomaterial arena, where ‘environment, other animals, objects and artefacts are treated as integral to the enactment of human existence and social life rather than as simply background context or tools’61.

[인간의 행위자성human agency]은 퍼즐의 한 부분일 뿐이다. 비인간적 물질(예: '로타', 전공의의 포트폴리오, 커뮤니케이션 시스템) 또한 이 사고 학파에서 힘과 영향력을 가지고 있다. 게다가, 다른 사람들은 다양한 방식으로 그들의 사회적 (직장) 환경과 자신을 연관시킵니다. Actor(개인)의 위치는 시간이 지남에 따라 바뀔 수 있으며, 자신의 '역사-문화적 Baggage(예: 성별, 인종, 과거 경험, 기대 등)' 때문에, 활동activities에 대한 배우actor의 인식과 사회적, 문화적 세계에서의 자신의 위치와 관련된 전문적 관행 및 정체성 사이에 차이가 있을 수 있다. 
Human agency is only one part of the jigsaw: non- human materials (e.g. ‘the rota’, the resident’s portfolio, the communication system) also have power and impact in this school of thought. Moreover, different people relate themselves to their social (workplace) surroundings in various ways. Actors’ (individuals’) positions may shift over time, and there may be gaps between actors’ perceptions of activities and the professional practices and identities that are associated with their position in the social and cultural world, because of their own ‘historical–cultural baggage’ (e.g. their gender, ethnicity, past experiences, expectations and so on).50,63 

Table 1.

 

형상화된 세계 Figured worlds

Holland 외 연구진(1998)은 형상화된 세계Figured World(FW)를 [사람들이 새로운 자아 이해(정체성)를 생산(수행)하는 '사회적으로 생산된, 문화적으로 구성된 활동']으로 폭넓게 정의했다. 상상된 세계FW는 문화적, 사회적 기반을 가지고 있으며, 권력, 지위 및 계급의 관계에 의해 조정되며, 일상 활동을 통해 관련되고 조직됩니다. 각자의 상상된 세계FW는 세계가 바탕이 되는 [사회적으로 구성된 선입견]에 의해 조직됩니다(예: 수련의 의사로서, 나는 가르침을 받기 위해 여기에 있습니다). 일상적인 사회적 관행과 활동은 이러한 내러티브에 대하여 해석됩니다(예: 어떤 활동은 서비스 '직무'으로, 다른 활동은 교육의 기회로 간주). Trainee은 동일한 공간 내에서, [학습자]와 [(서비스를 제공하는) 의사]라는 다수의 정체성을 두고 협상해야 하며, 시스템과 정체성에 따라 지속적으로 긴장이 발생합니다.64 
Holland et al. (1998)50 broadly defined figured worlds as ‘socially produced, culturally constituted activities’ where people produce (perform) new self- understandings (identities). Figured worlds are culturally and socially based, mediated by relations of power, status and rank, and implicated and organised through daily activities. Each figured world is organised by socially constructed preconceptions on which the world is based (such as: as a doctor in training, I am here to be taught). Day-to-day social practices and activities are interpreted against these narratives (e.g. one activity is seen as a service ‘job’, another is seen as an educational opportunity). Trainees must negotiate the multiple identities of a learner and a doctor who delivers service within the same space, leading to tensions arising from systems and identities in constant flux.64 

상상된 세계FW는 정적이지 않으며, 일상적인 행동과 '위치'의 과정을 통해 구성되고 재구성됩니다. 즉, 특정 형상화된 세계(예: 연습생, 컨설턴트 또는 감독자)에 있는 사람들에게는 '직위position'가 부여되고, 이를 수락, 거부 또는 협상할 수 있습니다. 이것을 '저작의 공간space of authoring'이라고 한다.50 예를 들어, [형상화된 세계]가 [원래 만들어진 세계]와 다를 때, 개인의 반응은 [특정한 세계]를 향하여(또는 바깥으로) 스스로를 재서술rewrite하는 것일 수 있다. 즉석에서 이루어지는 이러한 개인적 협상은 거시적으로 구성된 의료 교육 세계macro figured world에 대항하여 이루어집니다.65
Figured worlds are not static, rather they are constructed and reconstructed through daily actions and a process of ‘positionality’; that is, the positions ‘offered’ to people in a certain figured world (such as trainee, consultant or supervisor), which they may accept, reject or negotiate. This is called the ‘space of authoring’.50 Where there is a challenge, when for example the figured world is different to what was originally constructed, an individual’s response may be to rewrite themselves into (or out of) that particular world. These personal negotiations, referred to as improvisations, take place against the macro figured world of medical education.65

서비스 교육 긴장에 Figured worlds 이론 적용
Applying the theory of figured worlds to service–training tensions

의료 훈련을 [문화적으로 구성된 세계culturally figured world]라고 생각하게 되면 다음이 드러난다.

  • [서비스 및 훈련에 대한 정책]은 어떤 방식으로 작용하여 실천을 형성하는지,
  • [지배적인 담론(예: 서비스가 수련보다 우선한다)]은 어떤 방식으로 [훈련생과 전공의(및 훈련자)의 실천practice 및 그들에게 허용되는 정체성]을 형성하는지

Conceiving medical training as a culturally figured world reveals

  • how policies about service and training work to shape practices, and
  • how dominant narratives (e.g. service is prioritised over training) may work to shape the practices of, and identities available to, trainees and residents (and their trainers).

이것은 인과관계의 문제가 아니라, 훈련생과 전공의에게 있어서 [시간에 따라 창발하고 변화해 가는 형상화된 세계에 관한 것]이며, [이러한 변화에 기여하는 것이 무엇인지]에 대한 것이다. 

This is not about cause and effect but about the figured world of trainees and residents emerging and shifting over time, and what it is that contributes to shifts. 

예를 들어, 수련생이나 전공의는 교육적 요구가 서포트되었으면 하는 요구에 대한 기대가 충족되지 않는 경우, 교육을 그만두거나 다른 전공으로 옮길 것을 생각할 수 있다.

  • 수년 동안 less-powered한 입장에서의 관찰에도 불구하고, 의료 훈련의 세계가 그들이 기대했던 것이 아니었던 것에 대한 반응일까?
  • 그들이 교육자들에게 가지고 있는 (종종 무언의) 기대가 충족되지 못하고 있기 때문일까? 
  • 개인의 역사와 과거 경험(예: 이전 고용 및 학습 경험) 및 의료 훈련 세계와의 상호작용에 의해 형성되는 개인 간의 공동 구성은 무엇입니까? 
  • 서비스와 교육의 균형이 맞지 않고, 전문적 개발에서 적절히 뒷받침되지 않는다고 느끼는 상황을 경험한다면, 상위 레벨의 교육에 지원할 가능성이 낮아지는가?

For example, where trainee’ and residents’ expectations about how their education needs to be supported are unmet,25,42,74 they may think of quitting training or shifting to another specialty.

  • Are these responses due to the world of medical training not being what they expected, even after many years of observation from the lesser-powered position of student?75
  • Is it because the (often unspoken) expectations they have of their educators are not being meet?76
  • What is the co-construction between individuals, shaped by their history and past experiences (e.g. their previous employment and learning experiences), and their interactions with the world of medical training?
  • If they experience contexts where service and training are not well balanced, where they do not feel they are adequately supported in their professional development, are they less likely to apply for higher-level training? 


현재 지배적인 서술은 훈련보다 봉사가 우선시된다는 것이지만(앞부분 참조), [상상된 세계FW 이론]은 또한 의학 내에서 [학습과 학습자의 정체성을 재정립하는 수단]으로서 [이 담론에 대한 저항을 촉진하는 수단]을 제공할 수 있습니다. 이러한 재조정은 파열, 변화 및 기회와 관련하여 발생할 수 있으며,

  • [비판적인 의견]의 공간을 열어주고,
  • [가치 있게 여겨지는 것이 무엇인지]에 대한 담론에 영향을 미치며,
  • [새로운 형상화된 세계]와 [상상된 미래]를 창조할 수 있습니다.50 

Although the current dominant narrative is that service is prioritised over training (see earlier), figured worlds theory may also provide a way of promoting resistance to this discourse, a means of refiguring the identity of learning and learners within medicine. This refiguring is likely to occur in relation to ruptures, changes and opportunities that

  • open up critical comment,
  • have an impact on the discourse of what is valued, and
  • create new figured worlds and imagined futures.50 

 

실천 아키텍처
Practice architectures


Kemmis와 Grootenboer60 및 Shatzki는 [교육적 실천education practice]는 다른 무언가를 희생하는 가운데, 어떤 종류의 행동을 형성하거나, 활성화하거나, 제약하는 전제조건(실천 아키텍처)에 의해 이뤄진다be held고 주장한다. 넓게 말하면, 실천 구조 이론은 개인보다는 [장소]에 초점을 맞춘다. 
Kemmis and Grootenboer60 and Schatzki78,79 propose that education practices are held in place by preconditions (practice architectures) that shape, enable and constrain some kinds of action at the expense of others. Broadly speaking, the theory of practice architectures focuses on place rather than the individual (as is the case in figured worlds theory). 

이 이론은 본질적으로 [사회적, 문화적 개념]으로, [실천practice은 장소 안에서 발생하며 그 장소와 얽혀 있다]는 것을 강조합니다.
This theory is inherently social and cultural, emphasising that practices occur in, and are enmeshed with, places.

예를 들어, 의료훈련의 조직은 전반적으로 매우 유사할 수 있지만, [다양한 현장(실천 환경)]에서 정확히 일어나는 일은 (현장마다) 다를 수 있다. 이러한 실무 아키텍처는 물질적 및 경제적 조건(예를 들어, 의료 조직이 교육 제공에 대해 급여를 받는 방식, 교육 조직 및 관리 방식, 팀에 상주 인원이 부족할 경우 발생하는 현상)과 관련될 수 있다. [팀 내, 훈련생과 감독자 간의 관계 또는 의사와 고용주 간의 관계]와 같은 사회적 및 정치적 관계일 수 있습니다. 문화적 및 담론적일 수도 있다('여기서 일이 어떻게 돌아가는가').
For example, the organisation of medical training may be very similar overall, but what precisely happens in practice at diverse sites (the practice landscapes) may differ. These practice architectures may relate to material and economic conditions (e.g. how health care organisations are paid for delivering training, how training is organised and managed, and what happens if the team is short of a resident). They might be social and political relationships, such as the relationships within a team, between trainees and their supervisors, or between doctors and their employers. They may be cultural and discursive (‘How things are done around here’).

Kemmis 등은 사회적 세계에서의 관행practice이 의미 공간, 물리적 공간, 사회적 공간에서 형성된 '상호 주관성의 3차원'에 함께 존재한다고 제안합니다. 이러한 주관적 공간들은 '말하기', '하기', '관계'를 통해 교육이 이루어질 수 있는 공간을 형성한다. 실무에서 이러한 '함께 어울림'이라는 개념은 실무가 그 자체로 이러한 행동들 중 하나로 축소될 수 없다는 것을 의미하기 때문에 중요하다.
Kemmis et al.51 suggest that practices in the social world hang together in ‘three dimensions of intersubjectivity’ formed in semantic space, in physical space–time and in social space. These intersubjective spaces form places for education to be enacted through ‘sayings’, ‘doings’ and ‘relatings’. The notion that these ‘hang together’ in a practice is important because it means that practices cannot be reduced to any one of these actions on its own.

Fig. 1.



이러한 이론적 관점에서 실천을 변화시키려면 [개별 참가자의 인식, 이해, 관심 및 기술]을 변화시킬 뿐만 아니라 [기존 관행을 기존의 위치에 고정시키는 실무 아키텍처]를 변화시켜야 합니다. 
From this theoretical perspective, changing practices requires not only changing the awareness, understanding, concerns and skills of individual participants, but also changing the practice architectures that hold existing practices in place. 

서비스 교육 긴장에 실무 아키텍처 이론 적용
Applying practice architecture theory to service–training tensions


[실무 아키텍처 이론]은 다음을 밝히는 데 도움을 줄 수 있습니다. 

  • 훈련과 서비스가 발생하는 조건에 의해 활성화되고 제약되는 방법,
  • 그리고 이러한 조건(실무 아키텍처)이 어떻게 이들을 가능하게 하고 제자리에 고정시키는지

The theory of practice architectures can help reveal

  • the ways training and service are enabled and constrained by the conditions under which they occur, and
  • how these conditions (the practice architectures) make them possible and hold them in place.

또한 의료 교육 훈련을 변경하는 방법을 찾는 데 혁신적 자원이 될 수 있습니다: 현재 상태를 유지하고 있는 것이 무엇인지 파악하고 이해해야만 변화를 시도할 수 있기 때문이다.
It can also be a transformational resource for finding ways to change medical educational training52: only by identifying and understanding what is maintaining the status quo can you attempt to change it. 

그 중 첫 번째는 다음과 같습니다. 개별 행동(말하기, 행동하기, 관계하기)에서 의료 교육 관행은 어떻게 구성되며 이러한 관행은 어떻게 연결되어 있습니까? 
The first of these is descriptive: How are medical training practices constituted in individual actions (the sayings, doings and relatings) and how are these linked? 

두 번째는 [의료 훈련이 놓여진situated 세계world]의 설정set-up에 의해 실무가 어떻게 활성화되거나 제약되는지 탐구하는 분석입니다.

  • 사용 가능한 리소스는 무엇입니까? (예: 후배 의사들이 간호사들과 자기 방이나 따뜻한 책상이 있나요? 어떻게 자금을 지원하죠? 누가 온라인 포트폴리오 리소스를 소유합니까?)
  • 조직 내부와 외부의 규칙, 계층 및 관계 측면에서 어떤 arrangement가 이루어집니까?
  • 개인(기관) 수준에서 관계에 영향을 미치는 것은 무엇입니까(예: 경험, 임상 부하, 의료 및 교육 설정 익숙성, 자료 및 기대치)?
  • 이러한 문화적-담론적, 물질적-경제적, 사회적-정치적 배치가 어떻게 서로를 형성합니까?80

The second is more analytic, exploring how practice is enabled or constrained by the set-up of the world in which medical training is situated.

  • What resources are available? (For example: Do the junior doctors have their own room or hot desk with the nurses? How are things funded? Who owns online portfolio resources?)
  • What are the arrangements like in terms of organisational rules, hierarchies and relationships within and beyond the organisation?
  • At the individual (agency) level, what influences relationships (e.g. experience, clinical load, familiarity with the health care and education set-up, materials and expectations)?
  • How do these cultural-discursive, material-economic and social-political arrangements shape each other?80 

 

이 이론의 세 번째 용도는 실무적 아키텍쳐practice architectures가 어떻게 변화될 수 있는지를 검토하는 것입니다. 일반적으로 의료 교육 및 훈련의 실무 아키텍처는 전통에 잘 내재되어 있으며, 최근에는 [책임 압박, 업무 강화 및 의료의 표준화]로 인하여, 개인이 무슨 말과 행동을 하고, 어떻게 관계하는지를 변경할 수 있는 방해와 가능성disruptions and possibilities 에 대응할 수 있는 방법을 제한할 수 있다. 
The third use of the theory is to examine how practice architectures can be changed. Generally speaking, the practice architectures of medical education and training are well embedded in tradition, and more recently in accountability pressures, work intensification and standardisation of practices, which may limit ways in which individuals may be able to respond to disruptions and possibilities to change what they say and do, and how they relate.60 

실무 아키텍처 이론은 [교육과 서비스의 다양한 차원이 어떻게 상호 연결되는지]를 탐구하는 분석 도구로서 유용합니다. 실천건축이론은 다음을 고려하는 관점에서 실천을 볼 수 있게 해준다. 

  • 개인과 집단이 환경과 사람에 어떻게 반응하는지, 
  • 대응이 어떻게 실천을 형성하고 교육 환경을 변화시키는지

The theory of practice architectures is useful as an analytic tool for exploring how various different dimensions of education and service are interconnected. Practice architecture theory allows us to view practices from a stance that considers

  • how individuals and groups respond to circumstances and people, and
  • how responses shape practice and change the education landscape.

이 이론은 [변화가 학습 및 서비스 제공에 미치는 영향]을 바라보는 프레임워크로 사용될 수 있습니다. 예를 들어, 레지던트 프로그램 책임자가 바뀌는 것이 현지local 교육 계획을 어떻게 형성합니까?

This theory could be used as a framework for considering the impact of change on learning and service delivery. For example, how does a change of residency programme director shape the local training arrangements?

위치 학습
Situated learning


위치 학습은 1990년대 장 라브와 에티엔 벵거가 처음 개발한 학습의 관점이다. [위치 학습]은 학습에 대한 [사회적 상호작용]과 [적극적인 참여]의 중요성을 강조합니다. 그것은 의미를 창출하기 위한 실제 경험의 필요성을 더욱 강조합니다. 따라서, Lave와 Wenger는 [학습]을 [살아있는 경험lived experience에 기초한 본질적으로 사회적이고 상호작용적인 과정]으로 봅니다. 그러므로 [배움]은 [사실이나 상징의 획득]이 아니라 [자신의 정체성이 되어감 또는 형성하는 것]입니다. 
Situated learning is a view of learning first developed by Jean Lave and Etienne Wenger in the 1990s.53,81,82 Situated learning emphasises the importance of social interactions and active participation in learning. It goes further in stressing the necessity of actual experiences for creating meaning. Thus, Lave and Wenger view learning as an inherently social and interactive process based on lived experiences. Learning is therefore about becoming or forming one’s identity, as opposed to the acquisition of facts or symbols. 


위치 학습 이론에는 CoP(공동체)와 LPP(합법적 주변 참여)라는 두 가지 핵심 요소가 있습니다. 학습은 [특정 장소와 시간] 내에 이루어지며(즉 situated) [특정 CoP] 내에서 상호 작용해야 합니다. 이 공동체 내의 학습은 시간이 지남에 따라 확대되는 적극적인 참여(또는 연습)를 수반합니다. 
There are two key component parts (which now are sometimes cited as two separate theories) to situated learning theory: communities of practice (CoP) and legitimate peripheral participation (LPP). Learning takes place (i.e. is situated) within a specific place and time and involves interacting within a specific CoP. Learning within this community entails active participation (or practice) that expands over time. 

  • 경험이 풍부하거나 핵심적인 CoP 구성원은 CoP의 관행, 역사 및 문화에 익숙한 반면,
  • 신규 구성원은 더 주변부에 있으며, CoP에 대한 적극적인 참여를 통해 학습을 진전시킨다.
  • More experienced, or core, members of the CoP are familiar with its practices, history and culture,
  • whereas newer members are more peripheral, advancing their learning through greater active participation in the CoP. 


[새로운 회원]은 [시간과 경험이 쌓임에 따라] 주변부에서 완전한 참여로, 또는 초보자에서 보다 전문적인 회원으로 변해간다
Newer members move from peripheral to fuller participation, or from being a beginner to a more expert member, through time and experience.83 

즉, 공동체(CoP)의 진정한 활동에 참여하는 것은 (LPP를 통해) 학습으로 이어지는 관계와 지식을 쌓고, 학습은 공동체의 일부가 되는 것을 수반한다. 
In other words, participation in the authentic activities of the community (CoP) builds relationships and knowledge that lead to learning (through LPP) and in turn learning entails becoming a part of a community.84,85 

CoP는 지역사회 구성원의 상호 목표, 목표 및 이익을 중심으로 나타나는 것으로 여겨집니다. 흥미롭게도, 최근 연구는 인공적으로 만들어진 CoP가 문제가 있다는 것을 보여준다. 그들은 내재된 학습의 힘과 잠재력을 포착하기 위해 자연스럽게 진화해야 합니다.

A CoP is believed to emerge around mutual goals, objectives and interests of community members. Interestingly, recent research shows that artificially created CoPs are problematic. They need to evolve naturally to capture the power and potential of situated learning.86

 

위치 학습 이론을 서비스 교육 긴장에 적용
Applying situated learning theory to service–training tensions

중요한 것은 위치 학습situated learning(이 경우 서비스와 교육 사이의) '긴장tension'이 특별히 좋거나 나쁘다고 보지 않으며 (협상을 통한) 긴장이 실제로 배움의 일부라는 것을 인정한다는 것입니다. 지엽적인 것에서 공동체에서의 완전한 참여로 나아감에 따라 다른 역할들은 자연스러운 긴장감으로 이어진다. 
Importantly, situated learning does not view tension (in this case, tensions between service and training) as being good or bad and acknowledges that tensions (through negotiation) are actually a part of learning. The differing roles as one moves from peripheral to fuller participation in the community lead to natural tensions (that can help learning). 

그러므로, 위치 학습situated learning은 [긴장]과 그의 역할을 인정하며, [긴장]의 원천을 이해하고자 노력하며, (학습자가 커뮤니티에서 더 두드러지는 부분이 될 수 있도록) [참여가 최적으로 설계될 수 있는 방법]을 파악하고자 할 것이다. 즉, 목표는 [서비스 대 교육]의 긴장을 제거하는 것이 아니라, 서비스를 최적화하는 것입니다.
Thus, situated learning would acknowledge the tensions and their role and would seek to understand the sources of the tensions and how participation could be designed optimally to enable the learner to become a more prominent part of the community. the goal is not removing the service versus teaching tension but rather optimising it. 

상황 학습 이론은 또한 CoP에서 서비스와 가르침의 역할에 의문을 제기할 뿐만 아니라 이러한 긴장감을 탐색하여 LPP를 최적화하는 방법을 모색할 것입니다. 또한, 현장 학습은 이러한 탐구를 통해 다른 관련 CoP가 어떻게 영향을 받을 수 있는지를 고려한다.86 이러한 이론적 원칙을 활용하여 다음을 이해하는 데 도움이 될 수 있다.

  • 신뢰,
  • 학습자의 점진적 독립성,
  • 병동 및 임상 팀의 역학 관계(예: 참여를 증가시키는 동료의 역할은 무엇인가?)
  • 암묵적(또는 명시적)으로 유지되는 가치관, 신념, 편견

Situated learning theory would also question the roles of service and teaching in the CoP, in addition to seeking ways to optimise LPP through exploring these tensions. Further, situated learning would consider how other, related, CoPs may be impacted through this exploration.86 These theoretical tenets could be leveraged to help understand

  • trust,
  • progressive independence of the learner,
  • dynamics of ward and clinical teams (e.g. what is the role of peers in increasing participation?),
  • implicitly (and explicitly) held values, beliefs and biases,

...to name a few potential lines of work. 

현장 학습은 인턴(또는 F1 의사)이 병동 팀 전공의가 되어가는 과정을 탐색하는 유용한 방법을 제공할 수 있습니다.
Situated learning could provide a useful way to explore how interns (or F1 doctors) learn to become ward team residents (registrars).


문화-역사 활동 이론(CHAT 또는 AT)
Cultural-historical activity theory (CHAT or AT)


[문화사적 활동 이론]은 [개인의 행동뿐만 아니라 사회 문화적 맥락까지 고려하여 인간의 행동과 학습을 이해하는 방법]을 제공한다. 그것은 다른 방식으로 그렇게 한다. AT는 [전체 활동(또는 작업) 시스템]을 [모든 구성 요소 부분과 상호 작용하는 방식을 포함하는 것]으로 간주합니다. 이러한 구성요소에는 다음이 포함됩니다.

  • 개별 주체,
  • 작업 목표,
  • 커뮤니티,
  • 커뮤니티를 위한 노동 분할,
  • 커뮤니티 규칙
  • 이 모든 것들의 상호작용

Cultural-historical activity theory56–58 offers a way of understanding human action and learning that, takes into account not only the individual but also their social and cultural context. It does so in a different way. AT considers an entire activity (or work) system to include all of its component parts and how they interact. These component parts include

  • individual subjects,
  • objects of work,
  • the community,
  • division of labour for the community,
  • community rules, and
  • their interactions.

Engestroom의 원래 프레임워크는 이후 수년간의 확장을 거쳐서(3세대 AT; 그림 2 참조) 여러 상호작용 활동 시스템의 네트워크를 통합하였으며, 서로 다른 시스템이 중복된다는 것을 인정하게 되었다.
Engestr€om’s original framework has expanded over the years to incorporate networks of multiple interacting activity systems, to acknowledge that different systems overlap (third-generation AT56; see Fig. 2). 



AT는 다섯 가지 원칙을 사용하여 요약할 수 있습니다. CoP, LLP와 달리, 개인이 아니라 [시스템]이 분석 단위입니다.
AT can be summarised with the help of five principles. Unlike CoP and LLP, the system, not the individual, is the unit of analysis.

예를 들어, 전체를 아우르는 시스템은 [의료 훈련 시스템medical training]일 수 있으며, 다른 (하위) 시스템(예: 외과 또는 가정의학 훈련)은 이 중요한 시스템 내에서 작동할 것이다. 
For example, the overarching system could be that of medical training, and other (sub)systems (such as surgical or family medicine training) would operate within this overarching system. 

시스템은 다양한 참가자에 대해, 시스템 내에서, 다양한 직책을 가진, 다수의 목소리multi-voiced로 이뤄져있다.(교육은 일반적으로 훈련의 각각의 단계에 있는 전공의, 감독자, 트레이너 및 교수진, 그리고 관리자와 같은 여러 그룹을 포함합니다). 
The system is multi-voiced with different positions within the system for different participants (education would typically involve residents at different stages of training, supervisors, trainers and faculty members, and possibly other groups such as administrators). 

참가자와 시스템 자체는 역사와 규칙 등을 가지고 있다(이것은 훈련 프로그램이나 레지던트 디렉터가 지역적으로 총괄하는 것과 같은 사회 구조와 위계를 나타낼 수 있다).
Both the participants and the system itself carry histories, rules and so on (this could refer to social structures and hierarchies, such as the training programme or the residency director being in overall charge locally). 

시스템은 자신의 역사와 맥락에 기반하여against 이해되며, 활동 시스템 내부within와 활동 시스템 간between의 모순이나 구조적 긴장은 변화의 원천(확장적 변환)이며 개발의 원천이 될 수도 있고, 혹은, 덜 긍정적으로는, 변화를 차단할 수 있습니다. 
Systems are understood against their own history and context, and contradictions or structural tensions within and between activity systems are a source of change (expansive transformation) and development, or, less positively, can block change. 

상호작용하는 서로 다른 시스템의 네트워크(예: 영국의 의료 훈련에 관련된 수많은 기관과 조직)가 있는 경우, 다중 음성multi-voice 측면이 증폭된다. 
Where there are networks of different systems interacting (e.g. the numerous bodies and organisations involved in medical training in the UK), the multi-voice aspect is multiplied. 

의료 시스템은 교육 시스템을 '주최host'할 것이며, 전체 교육 시스템 내에는 특정 레지던트 프로그램과 같은 소규모 시스템이 포함될 것이다. 
A health care system will ‘host’ an education system, and within the overall education system will be smaller systems such as specific residency programmes, 

AT는 이러한 구성요소와 [시스템 내부 및 시스템 간]의 상호 작용 방식을 명확히 함으로써, 서비스-티칭 긴장의 요소인 [[개인 참여자]와 [사회적 현실] 사이의 격차]를 해소할 수 있습니다. 따라서 AT는 개별 구성요소(개체object 포함), 상호작용 및 대형 시스템을 자세히 설명합니다. 
By being explicit about these components and how they interact within and between systems, AT can bridge the gap between the individual participant and the social reality, which is an element of the service–teaching tension. Thus, AT details the individual component parts (to include objects), interactions and the larger system. 

예를 들어 레지던트 자리가 비어 있는 경우 서비스 제공에 대한 즉각적인 문제가 생기며, 이에 더하여 향후 서비스를 위한 컨설턴트 등급에 충분한 수의 의사를 교육해야 하는 장기적 문제가 있습니다. 이를 위해서는 시스템 경계를 넘나들며, 그렇지 않으면 분리된 활동 시스템(예: 의과대학 입학, 대학원 교육 제공자, 고용주, 규제자 및 교육, 계약 문제에 대한 모든 하위 의사의 권리를 지지하는 그룹)을 함께 묶어야 한다. AT는 이러한 각 그룹과 시스템의 역사와 문화를 명확히 하고, 서로 다른 활동 시스템이 상호 작용하는 방식을 검토하여 대화 및 상호 작용 활동 시스템의 여러 관점을 이해하는 데 도움이 됩니다. (AT 프레임워크를 사용하여) 영향과 관계를 더 깊이 이해하게 된다면, progress에 inform하고, 개별 단위는 역사로부터 학습할 수 있습니다.

For example, in contexts where residency posts lie empty, there are immediate issues of service delivery, plus longer-term issues of training sufficient numbers of doctors to consultant grade for future service. To do this will require working across systems boundaries, to tie otherwise separate systems of activity together (e.g. medical school admissions, postgraduate training providers, employers, the regulator, and the groups that stand up for the rights of all junior doctors on education, training and contractual issues). AT can help make explicit the history and culture of each of these groups and systems, and examine how different activity systems interact with each other, to understand dialogues and multiple perspectives of interacting activity systems.87 The deeper understanding of influences and relationships enabled by using the AT framework can inform progress and help units learn from their history.

서비스 교육 긴장에 AT 적용
Applying AT to service–training tensions


AT는 서비스와 교육 간의 긴장을 탐색하기 위한 독특한 접근 방식을 제공합니다. [각 부품component parts]과 [부품이 상호 작용하는 방식]을 명확하게 정의하며, 예상 및 예상치 못한 결과를 모두 파악할 수 있는 렌즈를 제공합니다. AT는 동기 부여, 커뮤니티 규칙 및 분업이 개인과 시스템에 어떤 영향을 미칠 수 있는지 탐구하는 데 사용될 수 있습니다. 예를 들어, 활동 이론은 이러한 긴장에 대한 우리의 이해를 높이기 위해, 여러 참가자 그룹과 다양한 규칙과 문화가 있는 복잡한 병동이나 클리닉 환경에 적용될 수 있다.
AT offers a unique approach for exploring the tensions between service and teaching. It clearly defines each of the component parts and how these parts interact, and provides a lens for both anticipated and unanticipated findings. AT could be used to explore how motivation, community rules and division of labour may impact on the individual and the system. For example, activity theory could be applied to complex ward or clinic settings with multiple participant groups and varying rules and cultures to enhance our understanding of these tensions.

AT의 강점은 [서비스-교육 긴장]을 이해하고 분석할 수 있는 이론적 렌즈를 제공한다는 것입니다.

  • 상호작용을 통해 패턴을 식별하고, 추론할 수 있게 한다.
  • 서비스-교육 긴장 현상을 설명하고
  • 이러한 현상을 내장된 언어와 수사학을 통해 표현합니다.

A strength of AT is that it provides a theoretical lens for understanding and analysing service– education tensions,

  • allowing for the identification of patterns and making inferences through interactions,
  • describing the phenomenon of service–teaching tension and
  • presenting this phenomenon through a built-in language and rhetoric.

AT는 시뮬레이션 문헌에 성공적으로 적용었으며, 여러 참가자와 규칙 및 긴장으로 복잡한 활동을 이해할 수 있는 고유한 렌즈를 제공합니다. 
AT has been successfully applied to the simulation literature, providing a unique lens for understanding a complex activity with multiple participants, rules and tensions.87,88

AT는 현장 학습과 마찬가지로 주로 질적 방법을 통해 서비스 교육 긴장을 조사할 수 있는 기회를 제공합니다. 단, 정량적 방법도 사용할 수 있습니다. 또한 AT를 활용하여 '모순'이라는 용어를 통해 교육 및 서비스 내에서 또는 서비스 간에 하위 긴장(또는 긴장을 유발하는 구성요소)을 탐색할 수 있습니다.
Like situated learning, AT brings the opportunity to investigate service–education tensions, primarily through qualitative means although quantitative methods can also be used. Further, AT can be leveraged to explore sub-tensions (or the component parts leading to tensions) within or between teaching and service through the term ‘contradictions’.

결론
CONCLUSION


우리가 제시한 이론들은 일반적으로 질적인 연구 방법 및 데이터 수집 도구와 결합됩니다. 그 이유 중 일부는 사회문화이론이 다른 참여자와 환경과의 상호작용을 수반하기 때문이며, 이는 본질적으로 비선형성과 예측하지 못한 것의 출현을 의미하기 때문이다. 그러나 앞서 언급한 인지 이론과 같이 직장 학습에 대한 다른 이론적 렌즈에는 서로 다른 연구 설계, 방법론 및 데이터 수집 도구가 필요하다.9
The theories we have suggested are typically coupled with qualitative research methods and data collection tools. Part of the reason for this is that sociocultural theories involve interactions with other participants and the environment, which inherently means non-linearity and the emergence of the unforeseen.94 However, on the other hand, a different theoretical lens on workplace learning, such as the aforementioned cognitive theories, would require different study designs, methodologies and data collection tools.95 

이 논문의 우리의 목적은 두 가지를 설명하는 것이었다. 첫째, 봉사와 교육 사이의 긴장을 조사하는 것과 관련하여 '좋은 이론만큼 실용적인 것은 없다'는 것입니다. 두 번째 요점은 서로 다른 이론이 현상의 여러 측면을 조명하고 확대한다는 것입니다. 이 경우 서비스-교육 긴장입니다.

our aim in this paper was to illustrate two things. First, that ‘there is nothing as practical as a good theory’96 in relation to examining the tensions between service and education. Our second point is that different theories will illuminate and magnify different aspects of a phenomenon48,in this case service–education tensions. 

 

 

 


Med Educ. 2019 Jan;53(1):42-55.

 doi: 10.1111/medu.13738. Epub 2018 Oct 24.

Education and service: how theories can help in understanding tensions

Jennifer Cleland 1Steven J Durning 2

Affiliations collapse

Affiliations

  • 1Centre for Healthcare Education Research and Innovation (CHERI), School of Medicine, Dentistry and Nutrition, University of Aberdeen, Aberdeen, UK.
  • 2Department of Medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland, USA.
  • PMID: 30357894
  • DOI: 10.1111/medu.13738Abstract
  • Objectives: This paper reviews why tensions between service and education persist and highlights that this is an area of medical education research (MER) that, to date, lacks a robust body of theory-driven research. After carrying out a review of the literature on service-education tensions in medical education and training, we turn to consider how theory can help provide new insights into service-education tensions.Results: We identified 44 out of 603 relevant papers. Their focus fell into four broad categories: time residents spent on 'service' and 'education'; perceptions of the balance between service and education; considerations of how best to define service and education, and the impact of structural and systems changes on education/training. Of the papers reporting primary research, the dominant methodology was the bespoke survey. Rarely were the precise natures of tensions or how different factors interact to cause tensions examined in detail.Conclusions: The use of theory in research studies will not resolve service-education tensions. However, what theory can do is illuminate and magnify different aspects of service-education tensions, to generate new insight and knowledge that can then be used to inform future research and changes in practice.
  • Discussion: Through discussion and reflection, we then agreed on the applicability of four sociocultural theories for illuminating some examples of service-education tensions. We present four sociocultural theories: Holland's figured worlds, Kemmis et al.'s practice architectures, Lave and Wenger's situated learning and Engeström's cultural-historical activity theory (CHAT or AT). We describe each and then briefly illustrate how each theory can support new ways of thinking and potential directions for research focusing on education-service tensions.
  • Methods: We conducted a search of the literature on service-education tensions since 1998 to examine the use of theory in studies on this topic.

이론을 명시적으로 만들기: 의학교육 연구자는 이론과의 연계성을 어떻게 기술하는가(BMC Med Educ, 2017)
Making theory explicit - An analysis of how medical education research(ers) describe how they connect to theory
Klara Bolander Laksov1,2*, Tim Dornan3,4 and Pim W. Teunissen4,5

 

 

배경
Background


10년 이상, 명확한 이론적 근거가 결여된 의대 교육 연구 간행물에 대한 우려의 표현이 있어왔다[1–5]. 의학 교육에서 이론의 활용이 증가하는 징후[6]가 있지만, 문제를 식별하는 것뿐만 아니라 문제를 더 잘 이해하고 해결하는 것이 흥미롭다. 이 논문의 목적은 과거에 사람들이 어떻게 해왔는지 살펴보고 다른 사람들이 미래에 어떻게 할 수 있는지를 제시함으로써 연구자들이 이론을 더 잘 활용할 수 있도록 돕는 것이다. 우선, 우리가 '이론'이란 단어로 무엇을 의미하는지 더 자세히 설명해야 합니다. 
For over a decade, there have been expressions of concern about medical education research publications lacking an explicit theoretical basis [1–5]. Although there are signs of an increase in use of theory in medical education [6], it is of interest to not only identifying the issue, but to better understand and remedy it. The aim of this paper is to help researchers make better use of theory by examining how people have done so in the past and suggesting how others might do so in the future. First, this requires an elaboration of what we mean by theory. 

이론의 일반적인 설명은 [어떤 현상을 설명하기 위한 아이디어의 체계]라는 것이다. 이론에 대한 이러한 관점은 생물 의학 및 물리 연구에서 종종 받아들여지는 견해와 일관되며, 이론과 반복적으로 시험될 수 있는 것으로 명확하게 연결되어 있어 모든 경우에 활동을 안내합니다. 
A general description of theory is that it is a system of ideas intended to explain a phenomenon. This perspective on theory is consistent with the view that is often taken in biomedical and physical research and is clearly linked to theory as something that can be repeatedly tested, and hence guide activity in all cases. 

그러나 의대교육의 이론은 생의학과 다른 시각으로 볼 필요가 있다. [7] [입증의 필요성]을 강조하기 보다는, 출발점은 조사가 수행된 특정 렌즈를 가지고 [현상에 대한 서로 다른 설명을 둘러싼 과학적 대화에 참여]하는 것이며, 이는 이론 생성[8]을 초래할 것이다. 
However, theory in medical education needs to be viewed as different from the biomedical view. Rather than emphasising an imperative of proof [7], the point of departure is the participation in scientific dialogue around different explanations of phenomena with a specific lens through which the inquiry was conducted, which will result in theory generation [8]. 

리브스와 동료(ibid.)는 이론을 다음과 같이 정의했다: [의미 있는 전체]로서 소통되는 일련의 이슈에 대한 조직화된, 일관성있는, 체계적인 설명
Reeves and colleagues (ibid.) define theory as: an organized, coherent, and systematic articulation of a set of issues that are communicated as a meaningful whole”.

교육에서 이론의 개념화는 역사적으로 [20세기 초기의 고수준의 이론에서부터, 1960년대의 중범위 이론, 1900년대 말까지 개인실천 이론에 이르기까지] 추상화abstraction의 여러 수준에 따라 연속체상에 배치될 수 있다.
The conceptualisation of theory in education can be placed historically during the 20th century [9] at a continuum that covers different levels of abstraction ranging from high level theories at the turn of the 20th century, to middle range theories in the 1960s, and personal practice theories by the end of the 1900s.



[고차원 이론high level theories]은 시스템의 근본적인 변수를 제시하고, 마르크스주의 이론처럼 높은 수준의 추상성을 포함합니다. 예를 들어, 경험적 연구나 직접 이끌지 않는 범위 내에서 '설명할 대상과 무관함'(사회적 투쟁)이다. 이러한 수준의 이론은 실증적 연구empirical research로부터 유래한 것은 아니며, (시험 가능한 아이디어나 가설을 통해) 실증적 연구로 직접 이끌지lead는 않지만, 경험적 조사empirical enquiry를 위한 지침guidance은 제공할 수 있습니다.
High level theories state the fundamental variables of systems and include a high level of abstractness, like Marxist theory, which are ’independent of the thing to be explained’ (social struggle, for example) to the extent that they might not arise from empirical research or lead directly, via testable ideas or hypotheses, to empirical research, however it can provide guidance for empirical enquiry. 

반세기 전, Merton(1968)은 [중간 범위의 이론]이 있다는 아이디어를 도입했다. [중범위 이론]이란 다음의 사이에 놓여있다 - [일상적 연구에서 풍부하게 발전하는, 작지만, 필요한 작업 가설들]과 [사회 행동, 사회 조직, 그리고 사회 변화의 모든 관찰된 획일성을 설명할 통일 이론을 개발하기 위한 전면적인 체계적 노력]
In a seminal paper half a century ago, Merton (1968) introduced the idea that there are middle range theories – theories that lie between the minor but necessary working hypotheses that evolve in abundance during day-to-day research and the all-inclusive systematic efforts to develop a unified theory that will explain all the observed uniformities of social behavior, social organization, and social change ([10]p. 39.). 

가장 자세하고 개별적인 수준에서 '개인적 이론'[12]은 우리 모두의 일상적인 활동을 안내합니다. 예를 들어, 학생들의 성과에 대한 피드백을 제공하는 방법에 대한 우리의 선택은 대부분 성과를 전달하고 평가하는 방법에 대한 매우 개별적인 이론에 의해 이끌어집니다. 이 이론은 [비록 학생과의 관계에서 무엇을 어떻게 말해야 하는지만 말해준다 하더라도],(경험적 관찰과 쌍방 관계에 있는) 개인의 이론personal theory이다.  
At the most detailed and individual level, ’personal theories’ [12] guide the day-to-day activities of every one of us. Our choice of how to feedback on student performance, for example, is most often guided by a highly individual theory of how to communicate and appraise performance. It is a personal theory, which is in a two-way relationship with empirical observations, even if it only tells us when to say what and how in relation to the student. 

교육 분야에서 Donald Schön(1991)의 연구는 이른바 사용중인 이론(theory-in-use)에 초점을 맞췄다. 이는, 교사가 일상적인 교육에 적용하는 것이다. 또한 이것이 '옹호된 이론espoused theory'와 어떻게 관련되는지를 보았는데, 이는 피드백 및 커뮤니케이션 패턴에 대한 미드레인지 이론일 수도 있고, 교수개발 과정에서 학습했을 수 있는 과정 설계가 관련될 수 있습니다.
In education, Donald Schön’s (1991) research has focused on these so called theories-inuse, that teachers apply in everyday teaching, and how they relate to their ’espoused theory’, which could be midrange theories of feedback and communication patterns together with course design that might have been learned in a faculty development course.

이론 개발에 대한 기여는 학계 커뮤니티가 '실제적 목적적합성을 달성하기 위해 얼마나 효과적으로 연구 프레임워크를 통합하느냐'에 달려 있기 때문에, 이 논문의 초점은 중범위 이론을 어떻게 명시할 수 있는지에 있다[13]. 
The focus of this paper is on how middle-range theory can be made explicit, since the contribution to development of theory depends on how effectively the community of scholars ‘integrates inquiry frameworks to achieve practical relevance’ [13]. 

어떤 패러다임이든, 연구의 이론적 가정에 대해 명확히 하는 것은 가치를 더한다. 사람들이 의학 교육 연구를 더 잘 이론화해야 한다고 요구할 때, 그들은 연구자들에게 그들의 연구를 어떤 명시적인 이론적 틀 안에서 포지셔닝하고, 그들이 그렇게 한 방법과 이유를 정당화할 수 있고, 그 틀에서 도출된 통찰력을 사용하여 경험적 관찰을 해석할 수 있도록 요청하고 있다.
Whatever one’s paradigm, being clear about the theoretical assumptions that underly research adds value to it. When people call for medical education research to be better theorised, they are asking researchers to

  • position their work within some explicit theoretical framework,
  • be able to justify how and why they did so, and
  • use insights derived from the framework to help interpret empirical observations.

철학적 고려에서 좀 더 실용적인 고려로 넘어가면서, Bordage (2009)는 교육 연구자들이 [개념적 체계conceptual framework]를 '문제나 연구에 대한 사고 방식, 또는 복잡한 사물이 어떻게 작용하는지를 표현하는 방법'으로 어떻게 사용할 수 있는지를 설명했다. 이러한 개념적 프레임워크는 연구자들이 특정한 방법으로 문제를 검토하도록 유도하거나 시험할 가설을 생성할 수 있으며[14] 따라서 이론과 경험적 데이터 사이의 연관성에 있어 매우 중요하다. 그것들은 그들 자신의 연구나 타인의 연구로부터 발생할 수 있고 개념적 체계는 특정 이론에서 도출될 수 있다. 한 이론이 많은 다른 연구자들에 의해 채택된다면, 그 분야는 비로소 개별 연구가 진행되었던 조건을 넘어 전이될 수 있는transferable 일관된 연구결과집합체body of work를 구축하게 된다.
Moving from philosophical considerations to more practical ones, Bordage (2009) explained how education researchers can use conceptual frameworks as ‘ways of thinking about a problem or study, or a way of representing how complex things work.’ Such conceptual frameworks may guide researchers to look at problems in particular ways or generate hypotheses to be tested [14] and are thus crucial in the linkage between theory and empirical data. They may arise from their own or other people’s research and the conceptual framework can be derived from a specific theory. When theories are adopted by many different researchers, they help the field build up a coherent body of work, which is transferable beyond the conditions in which individual studies were conducted.

교육 연구 방법론 교사로써, 석사과정 학생, 박사과정 학생, 의대신입학 연구자들이 이론에 관여하기 어려운 주제라는 것을 꾸준히 발견해 왔습니다.

As teachers of education research methodology, we have consistently found that Masters students, PhD students, and new medical education researchers find theory a difficult topic to engage with.

방법
Methods


개념적 지향
Conceptual orientation


이 연구는 사회적 구성주의 접근법을 따랐다. 사회구성주의social constructivism는 집단이나 공동체가 그들의 [상호작용의 결과로 공유된 의미를 창출한다]고 가정한다. 이러한 [공유된 의미shared meaning]는 저널이나 직책, 직책과 같은 '인공물artefacts'이라 불리는 사물로부터 기인할 수 있으며, 이것들이 모여 [공유된 문화shared culture]를 이룬다

A social constructivist approach [15] guided our research [16–18]. Social constructivism assumes that groups or communities create shared meaning as a result of their interactions. These shared meanings can be attributed to things, which are called ’artefacts’, such as a journal or a position or title, and together contribute to a shared culture.

이번 프로젝트에서는, [출판물]을 의학교육계의 협업으로 제작된 인공물artefacts으로 보았다는 점에서 본 연구는 "사회적social"이었다. 한편, 세 저자 사이의 데이터 분석과 이론 개발의 반복적인 과정을 통해 우리가 데이터로 포함시킨 출판물에 개념적 프레임워크에 대한 연결이 어떻게 형성되고 사용되는지에 대한 해석을 구성할 수 있었다는 점에서 "구성주의적constructivist"이였다. 

In this project, the research was social in that we regarded publications as artefacts produced by the collaborative efforts of the medical education community. It was constructivist in that an iterative process of data analysis and theory development between the three authors allowed the construction of an interpretation of how connections to conceptual frameworks were formed and used in the publications we included as data. 

데이터 수집 절차
Data collection procedure


이 프로젝트의 데이터 집합은 의학 교육 분야에서 영향력이 있다고 여겨지는 발표된 논문 집합으로 구성되었습니다. 
The dataset for this project consisted of a set of published papers that were deemed influential in the medical education domain. 

선정된 연구진은 연구 pp주제, 성별, 지리뿐만 아니라 자체 연구에 일반적으로 적용되는 방법론적 선호도 변화에서 차이를 보였다(표 1 참조). 그들은 다음과 같은 요청을 받았다. 
The selected researchers differed in their variation of methodological preferences usually applied in their own research as well as research topic, gender and geography (see Table 1). They received the following request:

의학 교육 분야에서 영향력이 있다고 생각되는 약 5개의 연구 논문을 지명해 주십시오. 각 논문마다 왜 그것을 선택했는지에 대해 몇 개의 문장을 써주세요. 
Please nominate approximately 5 research papers you consider as influential in the field of medical education. For each paper, please write a few sentences saying why you chose it.

"영향력있는"이라는 단어의 의미를 우리는 "[의학 교육 관행이나 연구에서 전반적인 영향]을 미쳤거나, 혹은 [응답자 개인의 연구 또는 교육 관행]에 영향을 미쳤던 연구 논문"으로 명확히 했습니다. 
By influential we clarified that it could be “research papers that have, in your opinion, impacted medical education practice or research in general or your own research or educational practice”. 

분석
Analysis


주요 분석을 안내하는 4가지 주요 질문의 공식화:
the formulation of four main questions to guide the main analysis:

1) "이 논문의 출발점starting point은 무엇이었습니까?" 그 출발점은 예를 들어 실용적 문제 또는 이론적 문제 또는 이전 연구의 발견일 수 있습니다.
1) ”What was the starting point of this article?” The starting point could be, for instance, a practical or theoretical problem, or the findings of previous research.

2) "문제에 접근하기 위해 어떤 개념적 체계conceptual framework를 사용하였는가?" 이것이 우리가 이론적인 개념이나 프레임워크와 다소 명백한 연관성을 볼 수 있는 곳입니다.
2) ”What conceptual framework was used to approach the problem?”.This is where we could see a more or less explicit linkage to theoretical concepts or frameworks.

3) "이 논문은 방법론적으로 문제를 어떻게 다루었는가?" Guba & Lincoln의 [20] 유형 방법론적 접근법이 우리의 분석을 이끌었다.
3)”How did the paper address the problem methodologically?”;Guba & Lincoln’s [20] typology of methodological approaches guided our analysis.

4) "이 기사가 이론에 어떤 기여를 했는가?"
4)”How did the article contribute to theory?”. 

 

1. 저자들의 출발 지점은 무엇이었습니까?
a) 문제는 어디에서 발생하였는가(예: 실제 문제, 이전 논문, 이론 문제, 이론에 근거한 가설)?
1. What was the authors’ point of departure?
a) Where did the problem come from (e.g. practical issue, previous papers, theoretical problem, hypothesized based on theory)?

2. 저자들은 어떤 경로를 택했는가?
a) 이슈는 어떻게 문제화되고 개념화되었는가?
b) 질문 1과 2의 답변은 서로 어떤 관련이 있습니까?
c) 저자들은 자신의 문제를 다루기 위해 어떤 방법론을 사용했으며, 선택권을 얼마나 명확히 고려했는가?
2. What route did the authors take?
a) How was the issue problematized and conceptualized?
b) How do the answers to questions 1 and 2 relate to each other?
c) What methodology did the authors use to tackle their problem and how explicit were they in considering their options?

3. 저자들은 어디에 도착했나요?
a) 조사 중인 문제를 해결하는 데 어떻게 기여했다고 제안했습니까?
b) 이 과학적 여정의 여러 요소들 사이의 명백한 관계는 무엇인가?
3. Where did the authors arrive?
a) How did they suggest they had contributed to addressing the problem under investigation?
b) What is the apparent relationship between the different components of this scientific journey?

 

결과
Results

초청연구가 15명 중 남성 6명, 여성 4명 등 10명이 총 41편의 논문을 내정했다. 두 명은 초대를 거절했고 세 명은 응답하지 않았다. 논문은 추가 파일 1: 부록 1에 나열되며 경험적 논문부터 검토, 개념적 논문 및 사설까지 다양합니다. 
Ten of the 15 invited researchers, six men and four women, nominated a total of 41 papers. Two declined the invitation and three did not reply. The papers are listed in Additional file 1: Appendix 1 and ranged from empirical papers, to reviews, conceptual papers and editorials. 

근접 탐사
Close-up exploration


여기서 연구자들은 전공의들이 실제 경험을 통해 배우는 방법 등 몇 가지 [구체적인 현상을 설명하는 것]을 목표로 했다. [국지적 이슈]에 의해 촉발되거나, [다른 연구에서 제기된 이슈]를 바탕으로, 그들은 이러한 [현상에 대한 현재의 이해를 더할 필요성이나 기회]를 포착하였다. 이를 통해 그들은 구체적인 질문을 하고, 연구 계획을 결정하고, 연구를 착수할 수 있었다. 중범위이론은 이들이 질문, 방법, 연구 진행 환경 등을 선택할 수 있도록 도움으로써 기여했고, 그 결과 관심 주제에 대한 보다 명확하고 참신한 이해를 쌓을 수 있었다.
Here, researchers aimed to explain some specific phenomenon, such as how residents learn from practical experience. Either instigated by a local issue or issues raised in other studies, they recognized a need or opportunity to add to the current understanding of this phenomenon. This allowed them to formulate a specific question, decide on a research plan, and set out to do the research. Middle range theory contributed to this process by helping them choose questions, methods, and a setting in which to conduct the research, which would contribute to building a clearer or novel understanding of the topic of interest. 

Example 1

이 범주의 연구 예는 Lingard 외 연구진들의 연구이다. (2004). Lingard와 동료[21]는 수술실의 커뮤니케이션 장애를 조사하면서 이전 연구에서 비롯된 문제를 출발점으로 삼았다.
An example of a study in this category is a study by Lingard et al. (2004). Examining communication failures in operating rooms, Lingard and colleagues [21] took as their point of departure an issue stemming from previous research:

최근의 증거는 오류로 인한 부작용은 입원환자 환경에서 수용할 수 없을 정도로 높은 비율로 발생하며 팀 구성원 간의 비효율적이거나 불충분한 의사소통이 종종 기여 요소임을 시사한다(330페이지). 
Recent evidence suggests that adverse events resulting from error happen at unacceptably high rates in the inpatient setting and that ineffective or insufficient communication among team members is often a contributing factor. (p.330) 


의료 분야에서 팀워크와 안전의 관계, 연구 방식의 동향에 관한 문헌의 증가 추이를 언급함으로써, 지식의 격차를 확인했다.
By referring to a growing body of literature regarding the relationship between teamwork and safety in health care, and trends in the way it had been studied, the route taken by Lingard et al. identified a gap of knowledge:

이러한 모델은 효과적인 팀 기능에서 의사소통의 중요성을 강조해 왔지만, 다차원성은 커뮤니케이션의 개별 변수에 대한 깊은 관심을 배제합니다.
While these models have reinforced the importance of communication in effective team function, their multidimensionality precludes in depth attention to the individual variable of communication. (p.330) 


저자들은 "표준화와 팀 통합의 부족"이라고 공식화한formulated 수술실의 특정 맥락에서의 의사소통에 관한 연구 결과를 언급하며 계속했다. 여기서, 그들은 항공 산업에서의 의사소통에 대한 사고 방식(즉, 다른 분야에서의 이론화)을 언급함으로써, 당면한 이슈를 프레이밍(의사소통 실패)하였고, 문제 극복을 위한 개입을 선택하였다.
The authors continued by referring to the findings from studies on communication in the specific context of operating rooms, formulated as ”lack of standardization and team integration”. Here, they referred to the ways of thinking about communication in aviation industry (i.e. theoretization from another field) both as a way to frame the issue at hand (communication failures) and to choose interventions to overcome the problem:

OR 팀 커뮤니케이션의 기술된 약점에 대한 하나의 잠재적 해결책은 항공 산업에서 체계적인 비행 전 팀 커뮤니케이션을 위해 현재 사용 중인 체크리스트 시스템을 조정하는 것이다… 우리는 세심하게 조정된 체크리스트 시스템이 OR 팀에서 더 안전하고 효과적인 커뮤니케이션을 촉진할 수 있을 것으로 예상한다. (p.330)
One potential solution to the described weaknesses in OR team communication is to adapt the checklist system currently in use for systematic preflight team communications in the aviation industry … we anticipate that a carefully adapted checklist system could promote safer, more effective communications in the OR team. (p.330)


방법 섹션은 논문 초기에 식별된 방법론적 격차에 맞춰 조정되었으며 관찰된 커뮤니케이션의 현장 노트를 분석하기 위해 이론 기반의 프레임워크를 사용했다. 이를 통해 연구진은 의사소통 장애의 특성을 파악하고 탐구 중인 주제에 대한 보다 자세한 이해를 할 수 있었습니다. 이를 통해 시스템, 프로세스 및 환자 수준에서 이러한 장애를 분석하고 조사 중인 환경, 즉 수술실에서의 커뮤니케이션을 자세히 이해할 수 있었습니다.
The methods section aligned with the methodological gap identified at the outset of the paper and used a theory-based framework for analysis of the fieldnotes taken of the communication that was observed. This enabled the researchers to approach and identify the characteristics of communication failures and arrive at a more detailed understanding of the topic under exploration. It allowed them to analyse these failures in relation to the effects at system, process, and patient level and arrive at a detailed understanding of the landscape under investigation: communication in the operating room.

Example 2

첫 번째 범주의 또 다른 예는 Van Zanten의 연구이다[22]. 의사 인종과 관련된 환자 만족 주제에 대한 기존 지식의 개요로 시작합니다. 저자들은 다른 사람들이 발견한 것을 요약합니다. 과학적 풍경을 재개념화하기 위해서가 아니라 자신이 탐구하고자 하는 부분과 발견하기를 기대하는 부분을 설명하기 위해서입니다.

Another example of the first category is the study by Van Zanten [22]. It starts with an overview of existing knowledge on the topic of patient satisfaction in relation to physician ethnicity. The authors summarize what other people have discovered, not to reconceptualise the scientific landscape but to explain what part of it they want to explore and what they expect to find:

특정 관점
A specific perspective

이 범주에는 의도적으로 선택된, 고정된 유리한 지점에서 [이론 구축theory building을 추가하기 위한 연구]가 포함되었습니다. 연구자들은 심리, 사회, 인류학 또는 철학적 영역에서 도출된 특정 연구 관점을 의료 교육 분야의 이슈에 적용할 수 있는 장점을 주장했다. 
This category included research that intended to add to theory buiding from a deliberately chosen, fixed vantage point. Researchers argued for the advantages of applying a particular research perspective derived from psychological, sociological, anthropological, or philosophical domains to an issue in the field of healthcare education. 

Example 1

Example 2

Kerosuo와 Engestrom[23]에 의해 해결된 현실적 문제는 다중 전문 그룹multi-professional groups에 의한 돌봄care 제공이었다. 그들은 조직 내 사람들이 [어떻게 집단적으로 일하는 법을 배웠는지] 검토하기 시작했다. 그들은

  • [인간의 활동을 체계적이고 사회적으로 자리잡은 현상으로 이해]하고, 이에 따라 [개인 주체와 사회적 현실의 차이를 메워주고],
  • 그들이 일하고 있는 [의료 환경을 이해하고 변화시키기 위한 이론]인,

...활동 이론(Activity Theory)에 의해 inform된, 변화 연구실 접근법Change Laboratory approach을 취했다. 
The practical problem addresssed by Kerosuo and Engeström [23] was provision of care by multi-professional groups. They set out to examine how people in organisations learned to work collectively. They took a Change Laboratory approach, informed by Activity Theory, a theory that seeks

  • to understand human activities as systemic and socially situated phenomena and hence bridges the gap between the individual subject and the social reality,
  • to understand and change the health care environments they were working in. 



거리두기 관점
A distanced perspective


이 세 번째 범주는 비교적 [추상적인 수준]에서 운영된다. 학자들은 연구 영역을 스캔하여 다른 연구자들이 이전에 매핑한 내용을 종합하고 모순과 추가 탐사가 필요한 영역을 식별합니다. 특정 현상에 대한 면밀한 탐사를 하거나 특정 관점에서 문제를 살펴본 연구자들의 노력이 없었다면 이런 유형의 작업은 불가능했을 것이다. 그러나 때로는 한 발짝 물러서서 정보의 일부가 어떻게 서로 들어맞는지 살펴봐야 합니다. 일반적으로 이 세 번째 범주의 논문들은 새로운 경험적 데이터를 보고하지 않고, 그 대신 이전의 연구 결과가 그들의 데이터이다.
This third category operates at a relatively abstract level. Scholars scan an area of research, piecing together what others had previously mapped and identifying contradictions and areas that need further exploration. It would not be possible to do this type of work were it not for the efforts of researchers who have done close up explorations of specific phenomena or looked at the issue from a specific perspective. However, sometimes one needs to take a step back and look at how the pieces of information fit together, or not. Typically, papers in this third category do not report new empirical data; instead, previous research findings are their data.


Example 1

Steinert 등[24]의 교수진 개발에 대한 체계적인 검토는 수많은 교수진 개발 프로그램이 효과의 차이를 명확히 이해하지 못한 채 제공되었다는 관찰에서 시작되었습니다. 다른 학자들이 만들어낸 수많은 지식들을 스캔함으로써, 저자들은 이 조각들이 어떻게 서로 맞고 겹쳐지고 발견되지 않은 부분들을 정리할 수 있었다. 이것은 이전의 연구에 의해 생성된 지식을 종합하는 개념적 프레임conceptual framework으로 이어졌다.

A systematic review by Steinert et al. [24] on faculty development started from the observation that a myriad of faculty development programs had been delivered without any clear understanding of differences in their effectiveness. By scanning the numerous pieces of knowledge produced by other scholars, the authors were able to map out how these pieces fitted together, overlapped, and left areas undiscovered. This led to a conceptual framework that synthesized the knowledge generated by previous research.

이 프레임워크에서는 교수진의 다양한 역할을 인정하며, 교육teaching은 그 중 하나이다. 이 프레임워크는 특정 교수개발 활동을 넘어서는 많은 중재 요인이 교사의 효율성에 영향을 미칠 수 있으며, 그 결과는 여러 수준에서 관찰될 수 있다는 사실을 강조한다(p.500).
This framework acknowledges the different roles of faculty members, of which teaching is one. It also highlights the fact that many mediating factors beyond specific faculty development activities can influence teacher effectiveness, and that outcome can be observed at a number of levels. (p.500)


저자들은 교수 발달에 대한 증거를 이용하여 사람들의 행동에 대한 사고에 기여하는 틀을 만들었습니다.
The authors used evidence about faculty development to produce a framework that contributes to people’s thinking about their actions.

Example 2

이 예는 Schmidt, Norman & Boshuizen[25]에 의해 제공되며, 그는 임상 역량에 대한 문헌 검토에서 다음과 같이 결론지었다.
This example is provided by Schmidt, Norman & Boshuizen [25], who concluded from a review of literature on clinical competence:

…임상 역량의 성격에 대한 몇 가지 근본적인 가정에 의문을 제기하면서 여러 가지 반복적인 문제가 나타났습니다. (p.611) 
…a number of recurrent problems emerged, casting doubt on some of the fundamental assumptions about the nature of clinical competence. (p.611) 

 

고찰
Discussion

그러나 세 가지 접근방식은 우리의 주요 데이터(논문)와 구별되었지만, 하나의 범주로만 쉽게 분류할 수 없는 논문도 있었다. 이는 대부분 이 논문들이 이론적 출발점을 명확히 밝히지 않았기 때문이다.
However, although the three approaches were discerned from our primary data (the papers), there were papers that could not easily be categorized into only one of the categories. This was mostly due to the fact that these papers had not made their theoretical point of departure explicit. 

범주화뿐만 아니라, 우리의 분석은 은유를 만들어냈고, 우리는 이것이 이론이 어떻게 사용되는지를 설명하는 데 도움이 되기를 바란다. 이 비유는 해안 풍경을 탐험하고 싶은 사람이 배, 등대, 비행기로부터 탐험할 수 있다는 것이다. 해안의 풍경은 사람들의 행동과 함께 탐구 영역을 구성하는 사회적 과정을 나타낸다. 보트, 등대, 비행기는 세 가지 관점, 세부 수준, 조도 유형을 제공합니다. 이 '이야기'는 아래와 같다.
As well as a categorisation, our analysis has produced a metaphor, which we hope will help explain how theory is used. The metaphor is of a person wanting to explore a coastal landscape and being able to do so from a boat, a lighthouse, or a plane. The coastal landscape represents the people, their behaviour, and the social processes that together constitute a field of inquiry. The boat, lighthouse, and plane provide three different perspectives, levels of detail, and types of illumination of the landscape. This ’story’ is outlined below. 

이 논문에서 사용되는 은유 체계를 설명하는 서술
A narrative explaining the system of metaphors used in this paper

멀리 떨어져 있는 섬을 도표로 만들어야 한다고 상상해 보세요. 그곳에는 먼 옛날에 살았던 사람들이 만든 조잡하고 부정확한 지도들이 있다. 섬의 좋은 지점vantage point에 등대의 외딴 잔해가 서 있다. 그 섬에는 [귀중한 광물 퇴적물]이 있을 수 있기 때문에 조사되고 있다. 세 가지 방법으로 자유롭게 조사할 수 있습니다. 를 타고 바위 해안으로 접근하거나, 등대 꼭대기에서 측량하거나, 상공 비행을 할 수 있습니다.
Imagine you have to chart a far-off island. There are some crude, inaccurate maps of it made by people who lived there in the distant past. At a vantage point on the island stand the solitary remains of a lighthouse. The island is being surveyed because there may be valuable mineral deposits there. You have, at your disposal, three ways of surveying it. You can approach its rocky coast by boat, you can survey it from the top of the lighthouse or you can overfly it.

이 비유에 따르면,

  • [섬]은 연구 주제입니다.
  • [귀중한 광물 퇴적물]은 그것을 조사하기 위한 목적이다.
  • [지도]는 주제에 대한 지식 상태를 나타냅니다.
  • 보트, 등대, 비행기는 지도를 정교화하는 [세 가지 다른 방법]이다. 즉, 근접 탐사(보트), 특정 관점(등대), 개요(비행).

According to this metaphor,

  • the island is a research topic.
  • The valuable mineral deposits are a purpose for surveying it.
  • The map represents the state of knowledge of the topic.
  • The boat, lighthouse, and plane represent the three different ways theory can help refine the map discussed in the finding section:
    • theory as close-up exploration (boat);
    • theory as a specific perspective (lighthouse); and
    • theory as overview (plane).

당신은 그것들로부터 매우 다양한 종류와 세부사항, 그리고 바위 경관에 대한 관점을 얻을 수 있을 것입니다. 마찬가지로, 여러분이 물려받은 [조잡한 지도]도 땅을 조사한 관점의 영향을 받았을 것이며, 여러분이 앞으로 생산할 [정교한 지도]도 마찬가지로 여러분이 선택한 관점의 영향과 섬의 위상학적 특성에 영향을 받을 것입니다. 
You would get very different types and levels of detail, and perspectives on the rocky landscape from them. In the same way, the crude map you inherited was influenced by the perspective from which the land was surveyed and the sophisticated map you produce will, likewise, be influenced by the perspective you have chosen as well as the topographical features of the island.

이 은유법은 연구에 대한 기본적인 원리를 보여준다. 하나의 주제를 아는 단 하나의 논쟁의 여지가 없는 방법은 없다. 마치 한 풍경을 아는 데 논쟁의 여지가 없는 방법은 없는 것과 같다. 우리가 그것을 인정하든 말든, "진리"는, 지도와 마찬가지로, 그것이 얻어진 이론적인 관점에 의해 영향을 받습니다. 궁극적으로, 원근법과 거리가 지도에 지워지지 않는 흔적을 남기는 것과 마찬가지로, 이론은 여러 가지 방법으로 우리의 연구에 스며든다. 광물 퇴적물처럼 탐구할 가치가 있는 주제라는 결정도 이론의 영향을 받는다. 하지만 그 세 가지 관점과 목표를 달성하는 데 어떻게 도움이 될 수 있는지는 지켜보자. 
This metaphor illustrates a fundamental principle about research. There is no single, incontrovertible way of knowing a topic, just as there is no incontrovertible way of knowing a landscape. Whether we acknowledge it or not, “truths”, like maps, are influenced by the theoretical perspective from which they were gleaned. Ultimately, theory permeates our research in many ways, just as perspective and distance leaves their indelible marks on a map. Even the decision that a topic is, like mineral deposits, worth exploring is influenced by theory. But let’s stick with those three different perspectives and how they can help you achieve your goal. 

보트는 풍경 가까이 다가갈 수 있게 해줍니다. 심지어 만질 수도 있습니다. 아주 미세한 디테일을 얻을 수 있습니다. 예를 들어, 귀중한 광물을 수출하는 선박을 위한 선착장을 어디에 지을지 계획한다면 매우 값진 일일 것입니다. 하지만 섬 전체를 일관된 시각으로 바라보는 데는 그리 좋지 않을 것이다. 연구용어로, 이러한 이론의 사용은 특정한 관심 영역을 식별하고, 그곳에서부터 지도의 특정 부분을 조사하는 것을 의미합니다. 주제 전체의 일관성 있는 지도를 작성하는 것보다는, 주제 일부를 세부적으로 설명하는 목적에 더 좋습니다. 보트만으로 측량하면 관심 분야에 대해서 [해결되지 않은 상반된 결과]가 동반된 짜깁기 지도가 나올 수 있습니다.
The boat allows you to come close to the landscape; even touch it. You can get very fine detail. It would be invaluable if, for example, you wanted to plan where to build a dock for ships exporting the valuable mineral. But it would not be so good for putting the entire island into a coherent perspective. In research terms, this use of theory means identifying a specific area of interest, getting out there and investigating a specific piece of the map. It is better at giving fine detail of part of a topic than producing a coherent map of the topic as a whole. Surveying solely by boat could produce a patchy map of the field of interest with unresolved, conflicting results.

만약 [등대]가 위치한 [고정된 유리한 지점]으로 인해, 광산에서 물결치는 경관을 가로질러 선착장으로 가는 경로를 선택할 수 있다면 등대를 선택할 수 있습니다. 마찬가지로, 이론은 여러분이 [의도적으로 선택한, 고정된 유리한 위치]에서 진화하는 과학 지식의 지도에 정보를 추가하는 데 도움을 줄 수 있습니다. 여러분은 특정한 심리학적, 사회학적, 인류학적 또는 철학적 입장을 선택할 수 있습니다. 왜냐하면 [그 입장][이 주제]에 대해 어떤 것을 말해 줄지 알고 싶기 때문입니다. 등대에서 그렇게 하다 보면 배에서 관찰한 것과 같은 세부 수준은 아니지만 주제에 대한 가치 있는 새로운 시각을 갖게 될 것입니다. 
You would choose the lighthouse if its fixed vantage point helped you, for example, choose the route from the mineral mine to the dock across an undulating landscape. Likewise, theory can help you add a piece of information to the evolving map of scientific knowledge from the deliberately chosen, fixed vantage point. You might choose some specific psychological, sociological, anthropological or philosophical stance because you want to know what that stance will tell you about the topic. Having done so from the lighthouse, you would shed a valuable new perspective on a topic, though perhaps not at the same level of detail as if you had surveyed it from a boat. 

혹은 비행기를 타고 전체 풍경을 둘러볼 수 있다. 이로서, 탐구자들이 이전에 보트 및 등대를 사용하여 기울였던 노력을 어느 정도 적합한 전체로 통합할 수 있습니다. 연구자로서 비행기의 관점은 잘못된 표현이나 추가 탐사가 필요한 지역을 식별하는 데 도움이 될 수 있지만, 등대나 보트처럼 세부적으로 주제를 조사할 수는 없습니다. 지금까지의 지도 상태에 대한 귀중한 통찰력을 제공하고 향후 연구 의제를 추진하는 데 도움이 되는 새로운 통찰력을 제공할 수 있습니다. 
A plane allows you to overview the entire landscape and, for example, pull together the previous efforts of surveyors in boats and lighthouses into a more or less fitting whole. As a researcher, the plane perspective could help you identify misrepresentations or areas that need further exploration, though it would not allow you to examine topics in the same detail as either a lighthouse or a boat. It could give you valuable insights into the state of the maps so far and provide new insights that help drive future research agendas. 

의학 교육 연구에서 이론의 다양한 이용 방법에 첨부된 은유와 약점을 밝혀낼 수 있습니다. 예를 들어, 보트는, 탐색 범위를 제한하는 한계가 있다. 보트는 잘 정의된 영역에서 한 번에 하나의 질문에 집중할 때 가장 효과적입니다. 여러 연구자들이 서로 다르지만 관련 질문에 답하려고 노력한 결과는, [잘 정의된 영역과 사각지대와 상반된 조사 결과]가 뒤섞여서, 해당 분야에 대한 [짜깁기 지도patchy map]로 이어질 수 있다. 등대의 관점은 다양한 지역을 관찰하고 그 특이점을 연구하는데 활용될 수 있다.
By applying the metaphors, strengths and weaknesses attached to different ways of using theory in medical education research can be uncovered. Being in a boat limits, for example, the scope of the quest; it works best when focusing on one question at a time in a well-defined area. The result of many researchers trying to answer different but related questions is a patchy map of the field of interest, with areas that are well defined, blind spots, and conflicting findings. The lighthouse perspective can be used to look at different areas and study their peculiarities. 

이전에 보트로 연구했던 지역들을 재조명할 수 있고, 이는 가치 있는 깨달음으로 이어질 수 있다. 하지만 등대에서 세계를 연구하려면 유연성의 희생이 따른다. [등대]는 보트처럼 연구주제를 중심으로 움직일 수 없기 때문에, [선택한 시각]이라는 빛이 도달하지 않는 지역은 탐사가 불가능하다. 따라서 등대 연구진이 관점을 철저히 설명하고, 다른 관점(또는 빛)을 사용했다면, 다른 연구 결과를 이끌어 냈을 수도 있음을 인정하는 것이 필수적이다. 

Areas that were previously researched by boat can be re-examined and this can lead to valuable enlightenment. However, researching the world from a lighthouse comes at the expense of flexibility. Areas on which the chosen perspective does not shed light cannot be explored because the lighthouse cannot move around a research topic like a boat can. It is thus essential that lighthouse researchers describe the perspective thoroughly and acknowledge that using a different perspective (or light) might have been brought forward different findings.

[비행기 접근법]은 다른 사람의 작업을 일반화 및 구축하거나 비평함으로써 연구 커뮤니티에 중요한 자원을 제공합니다. 그러나 관심 영역으로부터의 거리를 두었기 때문에 세부 정보를 잃게 됩니다. 반면에 비행기를 타면서 얻게 되는 감시는 지금까지의 지도 상태에 대한 [중요한 윤곽]을 이끌어낼 수 있고, 심지어 미래의 연구 의제를 주도하는 새로운 통찰을 낳을 수도 있다. 

The plane approach provides an important resource to the research community by generalising and building on or critiquing different people’s work. However, the distance from the area of interest results in loss of detail. On the other hand, the oversight one gets from being in a plane can lead to valuable outlines of the state of the map so far and even result in new insights that drive future research agendas. 



이 연구가 추가하는 내용
What this study adds


그렇다면, 어떻게 이론이 만들어지는지에 대한 세 가지 관점이 이론에 대한 우리의 이해를 어떻게 알려줄까요? 이론은 경험적 연구의 자동화된 결과가 아니며, 연구자 쪽에서 선택하는 것이다 [26]. 이론을 (연구 아이디어를 창출하고 경험적 연구의 결과를 예측하는 도구로 기능하는) 생물 의학 연구에 적용되는 실증주의 패러다임에서 이론의 사용과 달리, 본 연구에서 우리가 가지고 있는 실증적 연구에서는 세 가지 접근법에 의해 이론의 사용을 예로 들었다. 
So, how do the three perspectives of how theory is made explicit inform our understanding of theory? Theory is not an automated result of empirical research but emerges from a choice on the part of the researcher [26]. In contrast to theory use in the positivist paradigm applied in biomedical research, where the function of theory is as a tool in generating research ideas and predict outcomes in empirical studies we have in this study exemplified the use of theory in medical education by the three approaches. 


이론에 어떻게 접근했는지를 분석함으로써 우리는 접근법의 변화를 볼 수 있었다.

  • 첫째, 포함된 연구들은 미시 수준micro-level 이론에서 중간 범위 이론에 접근했다는 것을 알 수 있었습니다 [10].
  • 두 번째로 우리는 각 논문에서 어떤 현상을 더 잘 이해하기 위해 이론을 어느 정도로 쓰는지에 차이가 있음을 보았다. 한 쪽 끝에는 [(이론으로부터) 연구 질문, 방법론 및 해석을 생성]하는 것이 있다면, 다른 쪽 끝에는 [(자료 분석의 귀납적 과정의 결과로) 이론에 기여]하는 연구가 있었다.

By analysing how theory was approached in the articles we could see a variation in approaches.

  • Firstly, we could see that the included articles approached theory ranging from micro-level theory to mid-range theory [10].
  • Secondly we saw a difference in the degree to which the articles worked with theory to better understand a phenomenon, i.e. generated research questions, methodology and interpretation at one end, or contributed to theory as a result of an inductive process of data analysis, at the other.

여러 논문이 실제적인 문제에 근거하고 있었기 때문에, 이 특정한 질문에 대한 해답을 특별히 목표로 했으며, 의도적으로 중거리 이론에도 기여하지 않았다. 여기서, 종종, 이론은 이전의 연구에서 나온 발견으로만 여겨졌습니다. 그러나 이론과 관련하여 연구문제를 틀에 넣은 사례도 있는데, 연구문제가 특정 이론에 근거한 것이며, 논문은 그 이론과 관련된 논쟁의 예이며, 따라서 이론토론에 대한 기여도 있다. 

As several of the papers were based on a practical problem, the paper specifically aimed to answer this specific question, and did not intentionally also contribute to mid-range theory. Here, often, theory was only viewed as findings from previous research. However, there were also examples where the research question was framed in relation to theory, where the research question was based on particular theories, and the paper is an example of an argumentation in relation to that theory, and as such is a contribution to a theoretical discussion.

마지막으로 논문에서 이론이 도입된 방식에는 차이가 있었다. 이것은 [매우 미묘하거나 암묵적인 이론적 입장]을 도입한 것부터, [이론적 관점에 대한 매우 명확하고 개념적인 설명]에 이르기까지 다양했습니다. 배경[8]에 언급된 이론의 정의로 돌아가자면, 이론을 명시적으로 드러내지 않으면 덜 도움이 됩니다. 일부 저자들이 취한 이론적인 입장의 관점에서 행간을 읽는 것은 가능했지만, 이론을 명백하게 밝힌 논문들은 (어떤 것의 증거를 발견했다고 주장하기 보다는) 특정한 렌즈로 과학적인 대화에 참여하고 있다는 것이 분명해졌다. 

Finally there was a difference in the way in which theory was introduced in a paper. This ranged from very subtle or implicit introduction of theoretical stance, to very clear and conceptual explanations of the theoretical perspective. If we go back to the definition of theory referred to in the background [8] it is less helpful when theory is not made explicit. Although it was possible to read between the lines in terms of the theoretical stance taken by some authors of the publications, it became clear that papers where theory was made explicit were participating in a scientific dialogue with a specific lens, rather than claiming to having found proof of something, in a technical sense. 

서로 다른 분야나 과학 전통에 있어서 서로 다른 접근법이 필요하고 다른 수준으로 작용하고 있습니다. 의학 교육에 적용해보자면, 비록 사회 과학이기는 하지만, [객관적인 진리를 정립하려는 목표]가 오랫동안 연구를 지배해 온 것으로 보이는데, 이는 여기서 예로 든 (후기) 실증주의 전통의 관점에서 이뤄진 연구로부터 확인할 수 있다. 그러나, 이 연구에 포함된 여러 논문들은 이러한 견해에 이의를 제기하였고, 해석적hermeneutic 지식과 해방적 지식 모두를 포함한 논문들도 포함되었다. 
Different approaches are necessary and in play to different degree in different disciplines or scientific tradtions. Adapted to medical education, it seems that although to a large degree being a social science, the aim for establishing objective truths has for a long time dominated the research, something that is also part of our findings as exemplified by studies written in a (post) positivist tradition. However, several of the papers included in this study challenged this view and papers including both hermeneutic and emancipatory knowledge interests were also included. 

의학교육연구 분야에 초보자 연구자를 대상으로 한 안내 논문은 이미 다수 존재한다. 그러한 논문 중 하나가 '연구 나침반'[30]인데, 여기서 독자들은 탐구, 실험, 관찰 및 번역 연구의 네 가지 범주를 통해 안내된다. 핵심은, 연구는 [일반화된 지식]으로 이어지고, [실질적으로 관련이 있는 연구 가능한 문제]에 관한 것이어야 한다는 것이다.

간단한 질문을 하고 간단한 방법을 사용함으로써, [면밀한 탐구로서의 이론] 및 [구체적인 관점으로서의 이론] 접근은 교수와 학습의 발전에 대한 학문적 접근(scholarship of teaching and learning)을 제공한다는 점에서 모두 중요한 역할을 한다. 한편 [개괄overview로서의 이론]을 사용될 때에는 더 높은 수준에서 이론의 발전을 위한 기초를 제공합니다.

A number of guiding articles to researchers who are new to the field of medical education research already exist. One such article is ’The research compass’ [30], in which readers are guided through four categories of research approach; explorative, experimental, observational and translational studies. A main point made in that paper is that research should be about researchable problems that lead to generalisable knowledge and are practically relevant. By asking simple questions and use simple methods, the approaches theory as close-up exploration and theory as specific perspective play a crucial role both in terms of providing a scholarly approach to the development of teaching and learning (scholarship of teaching and learning), and in providing the basis for the development of theory at higher level as when theory is used as overview. 

마지막으로, Thomas [26]는 교육적 탐구에서 더 많은 'bricolage'가 필요하다고 주장하며, 연구 분야를 탐구하는 데 있어 다양한 이론적 접근 방식을 사용할 수 있는 여지를 제공합니다. 이러한 다양한 관점의 필요성은 최근 의학교육의 증가 [27]로 언급되었으며, 의학교육에서 이론을 특정 관점으로 하는 연구가 증가하고 있다는 우리의 견해와 일치한다. 

Finally, Thomas [26] argues for the need for more ’bricolage’ in educational enquiry, giving room for multiple theoretical approaches in exploring the field of research. This need for multiple perspectives was recently commented as increasing in medical education [27] and it is in line with our view that research with theory as a specific perspective is increasing in medical education. 

방법론적 고려
Methodological considerations


결론
Conclusion


의료교육 연구를 이론적 근거가 부족한 분야로 지속적으로 비판하는 것은 명분이 낮아질 수밖에 없다. 복수의 학문적, 패러다임적 배경을 가진 연구자들이 진행하는 연구가 특징인 만큼 의학 교육 연구의 이론 문제를 어떻게 다룰지에 대한 가정은 연구에 가져오는 관점에 따라 논쟁이 될 것으로 보인다. 최소한 이론의 사용은 분명히 해야 한다고 우리는 주장한다. 
The continuous criticism of medical education research as a field that lacks theoretical basis is subject to decreased justification. As it is an area characterized by research carried out by researchers from multiple disciplinary and paradigmatic backgrounds the assumptions of how to treat the issue of theory in medical education research will probably be contentious depending on the perspective one brings to research. At a minumum, we argue, theory use needs to be made explicit. 


 


BMC Med Educ. 2017 Jan 19;17(1):18.

 doi: 10.1186/s12909-016-0848-1.

Making theory explicit - An analysis of how medical education research(ers) describe how they connect to theory

Klara Bolander Laksov 1 2Tim Dornan 3 4Pim W Teunissen 4 5

Affiliations collapse

Affiliations

  • 1Department of Learning, Informatics, Management and Ethics (LIME), Karolinska Institutet, Stockholm, Sweden. Klara.bolander.laksov@edu.su.se.
  • 2Department of Education, Centre for the Advancement of University Teaching, Stockholm University, Stockholm, Sweden. Klara.bolander.laksov@edu.su.se.
  • 3Dentistry and Biomedical Sciences, School of Medicine, Queen's University Belfast, Belfast, UK.
  • 4School of Health Professions Education (SHE), Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, NL, Netherlands.
  • 5Department of Obstetrics & Gynecology, Gynaecologist at VU University Medical Center, Amsterdam, The Netherlands.

Free PMC article

Abstract

Background: As medical education develops into a varied and well-developed field of research, the issue of quality research anchored in or generating theory has gained increasing importance. Medical education researchers have been criticized of not connecting their work to relevant theory. This paper set out to analyse how researchers can connect to theory in medical education. The goal of this paper is to provide an accessible framework for those entering medical education research, regarding how theory may become an integral part of one's work.

Methods: Fifteen purposefully selected researchers in medical education were asked to nominate papers they considered influential in medical education. Through this process 41 papers were identified and included in the study.

Results: The papers were analysed with thematic content analysis, which resulted in three approaches to the use of theory: as close-up exploration; as a specific perspective; and as an overview. The approaches are exemplified by quotes from the papers included in our dataset and further illuminated by a metaphoric story.

Conclusions: We conclude by pointing at the importance of making explicit how theory is used in medical education as a way to collaboratively take responsibility for the quality of medical education research.

"일단 척도가 과녁이 되면, 좋은 척도로서는 끝이다" (J Grad Med Educ, 2021)
‘‘When a Measure Becomes a Target, It Ceases to be a Good Measure’’
Christopher Mattson, MD Reamer L. Bushardt, PharmD, PA-C, DFAAPA Anthony R. Artino Jr, PhD

 

여러분이 대형 학술 의료 센터에서 레지던트 프로그램을 이끌고 있으며, 이 프로그램은 매년 열리는 ACGME(Arcreditation Council for Graduate Medical Education) 레지던트/동료 설문 조사를 준비하고 있다고 상상해 보십시오. 최근 주 80시간 근무 위반이 발생하여 ACGME에 보고될 것을 우려하여, 설문조사 1개월 전에 전공의들에게 이메일을 보내 현재 작업량을 줄이기 위한 일정 변경 사항을 공지합니다. 또한 근무 시간 위반에 대한 ACME 인용은 프로그램과 채용 노력에 중대한 부정적인 결과를 초래할 수 있다고 언급했습니다. 조사 당일, 대부분의 전공의들은 근무시간 위반 빈도를 묻는 질문에 "절대" 또는 "거의 절대"라고 대답한다. 
Imagine you are leading a residency program at a large academic medical center, and the program is preparing for the annual Accreditation Council for Graduate Medical Education (ACGME) Resident/Fellow Survey. You are concerned that 80-hour workweek violations have recently occurred and will be reported to the ACGME. You email the residents one month before the survey to announce forthcoming schedule changes to decrease residents’ current workload. You also mention that an ACGME citation for work hour violations could have major negative consequences for the program and recruitment efforts. On the day of the survey, most residents respond by answering ‘‘never’’ or ‘‘almost never’’ when asked about the frequency of work hour violations.

1970년대 영국 경제학자 찰스 굿하트는 통화 성장 목표를 토대로 재정 정책의 효과를 측정하는 함정을 설명했다. 현재 [굿하트의 법칙]으로 알려진 것은 인류학자 마릴린 스트라던의 인용문에서 가장 자주 일반화된다. "어떤 조치가 목표가 되면, 그것은 좋은 척도가 되는 것을 중단한다."1 Goodhart의 법칙은 최초 형태에서 "[관찰된 통계 규칙성]은 통제 목적으로 압력이 가해지면 붕괴되는 경향이 있습니다."라고 언급했습니다. 처음에는 우스꽝스럽던 것이 널리 퍼지고 보편적으로 적용할 수 있는 아이디어가 되었다. 
In the 1970s, British economist Charles Goodhart described the pitfalls of measuring the effectiveness of fiscal policy based on monetary growth targets. What is now known as Goodhart’s law is most often generalized in a quote from anthropologist Marilyn Strathern, ‘‘When a measure becomes a target, it ceases to be a good measure.’’1 In its original form, Goodhart’s law stated, ‘‘Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes.’’2,3 What was initially a jocular aside has become a widely disseminated and universally applicable idea.4 

학습자, 교사, 임상의 및 학자들에게 Goodhart의 법칙은 보건 직업 교육의 근본적인 진리를 말해줍니다. 특히, 조치를 대상으로 한 후 학습자를 평가하고 프로그램을 평가하는 데 사용하는 관행이 대학원 의학 교육(GME)에 상당히 만연해 있다. 

For learners, teachers, clinicians, and scholars, Goodhart’s law speaks to a fundamental truth in health professions education. In particular, the practice of targeting measures and then using them to assess learners and evaluate programs, even when the measures are no longer credible, is quite pervasive in graduate medical education (GME). 

관련 아이디어 및 GME 예제
Related Ideas and GME Examples

Goodhart의 법칙의 근간이 되는 원칙은 경제학에만 국한되지 않는다.
The principle underlying Goodhart’s law is not limited to economics.

실험적이고 준실험적인 연구 설계 방법의 선구자인 캠벨은 "어떤 양적인 사회적 지표가 사회적 의사결정에 더 많이 사용될수록, 부패 압력corruption pressures에 더 취약해질more subject 것이며, 감시하고자 하는 사회적 과정을 왜곡하고 부패시키는 방향으로 적응할more apt 것"이라고 말했다.
A pioneer of experimental and quasi-experimental study design methods, Campbell noted, ‘‘The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.’’5

첫 번째 예에서 프로그램 책임자는 전공의의 대응 방식이 어떻게 사용되는지 알고 있으며, 이에 따라 최선의 대응 방법에 대해 전공의를 지도해야 한다는 압박감이 생깁니다. 결과적으로 [근무시간 규정을 준수하지 않은 사례]가 탐지되지 않을 수 있습니다. ACME는 이 조치measure를 목표targeting로 함으로써, 프로그램 책임자와 전공의의 행동에 조치 자체를 왜곡할 수 있는 방식으로 영향을 미치고 있으며, 이로 인해 조치measure가 의도된 목적intended purpose에 덜 유용하게 됩니다. 
In the opening example, Program directors are aware of how their residents’ responses are used, which creates pressure to coach residents on how best to respond. As a result, noncompliance with work hour regulations may go undetected. By targeting this measure, the ACGME is influencing program director and resident behavior in a way that may distort the measure itself, which renders the measure less useful for its intended purpose. 

USMLE(United States Medical Licensing Examination) Step 1 점수는 레지던트 프로그램 책임자들이 전공의 신청서를 심사하고 전공의 순위를 매길 때 사용하는 경우가 많습니다. 1단계 점수는 의학적 지식을 평가하고 전체 지원자 품질의 대체물로 사용됩니다. 이 실습은 USMLE 1단계 준비에 상당한 시간과 노력을 쏟는 의대생들에게 잘 알려져 있습니다. 그러면 점수는 [학습된 의학적 지식과 미래의 잠재력]이 아닌, [시험 준비에 쏟는 시간과 시험 준비 자원에 대한 액세스]를 대변하는 쪽으로 나타나기 시작한다. 이러한 초점은 또한 현지 과정 검사를 위한 공부, 소규모 그룹 및 동료 학습 활동에 적극적으로 참여하거나 임상 기술을 개발하는 등 다른 학습 활동을 희생하면서 이뤄진다.  궁극적으로 GME 교수진이 [USMLE 1단계 점수를 목표로targeting 하는 것]은 [레지던트 준비와 실습에 부정적인 영향을 미칠 수 있는 의대생 행동]에 영향을 미칩니다.

United States Medical Licensing Examination (USMLE) Step 1 scores are often used by residency program directors when screening resident applications and ranking residents. Step 1 scores assess medical knowledge and are used as a surrogate for overall applicant quality. This practice is well known to medical students, who focus a significant amount of time and effort on preparing for the USMLE Step 1. The scores then begin to represent this increased focus, including the amount of dedicated study time and access to test preparation resources, rather than learned medical knowledge and future potential. This focus also comes at the expense of other learning activities, such as studying for local course examinations, actively participating in small group and peer-learning activities, or developing clinical skills.6,7 Ultimately, the targeting of USMLE Step 1 scores by GME faculty influences medical student behaviors inways that may negatively affect their preparation for residency and practice.  


마지막으로, 학계의 '간행물 수'와 저널 임팩트 팩터에 대한 집착은 GME 연구 환경에서도 느낄 수 있다.8 부서 의장과 승진 위원회는 임명 및 승진 결정을 돕기 위해 이 숫자를 사용합니다. 이와 같이 교수진들은 논문 발표량, 저널 임팩트 요소 결함으로 잘못 측정되는 저널의 보고 품질에 초점을 맞추도록 유도된다. 이러한 대상에 집중하는 것은 차선의 연구 방법을 장려하는 것으로 널리 알려져 있습니다.9 그것은 또한 보건직 교육연구에서 흔히 볼 수 있는 "살라미 슬라이싱"10과 명예 저자honorary authorship과 같은 문제적 연구행위questionable research practice에 동참할 압력을 가하고 있다.11 

Finally, the fixation in academia on ‘‘number of publications’’ and journal impact factor is also felt in GME research environments.8 Department chairs and promotion committees use these numbers to help make appointment and promotion decisions. As such, faculty are incentivized to focus on the quantity of papers published, and the reported quality of journals, erroneously measured by the flawed journal impact factor, over the quality of the research itself. Focusing on these targets is widely known to encourage suboptimal research methods.9 It also addspressure to engage in other questionable research practices such as ‘‘salami slicing’’10 and honorary authorship, both of which are common in health professions education research.11 


의도하지 않은 결과 완화
Mitigating Unintended Consequences

GME 교수진은 구체적인 조치measure가 목표target가 될 때 부정적인 결과를 예상해야 한다. 의도하지 않은 결과를 인식하는 것이 가장 중요한 단계이며, 이는 평가 및 프로그램 평가 계획을 개발할 때 중요한 논의를 자극할 수 있습니다. 마찬가지로, 이러한 부정적 영향이 어떻게 완화될 수 있는지를 고려하는 것이 중요하다. 다른 방법으로, 우리는 현재 존재하는 시스템을 고려할 때, [어떤 행동이 보상받을 것]인지 고려해야 합니다.12 
GME faculty should anticipate negative consequences when specific measures become targets. Recognizing the unintended consequences is the most important step; this can stimulate important discussions when developing assessment and program evaluation plans. Likewise, it is vital to consider how these negative effects might be mitigated. Said another way, we should consider what behaviors will be rewarded given the system that currently exists.12 

표준 참조norm-referenced 평가 대신, 준거 참조criterion-referenced 를 선택하는 것은 Goodhart와 Campbell의 행동 법칙을 완화하기 위한 또 다른 전략이다. 예를 들어, 숙달 학습mastery learning 기법은 "교육 진행도가 [커리큘럼 시간]이 아닌 [입증된 성과]에 기초하는 교육 접근법"으로 설명되어 왔다. 따라서 "학습자는 지정된 숙달 수준에 도달할 때까지 반복적으로 연습 및 재시험을 수행한다" 14 강사 및 커리큘럼 설계자는 개인의 성공을 위해 필요한 지식, 기술 및 태도를 결정하는 데 초점을 맞추며, 서로 상대적인 순위를 매기는 데 초점을 맞추지 않습니다. 역량 기반 프레임워크는 숙달 학습을 적용한 한 가지 예이며, 역량 기반 평가 시스템은 어려움을 겪고 있는 개인을 식별하는 데 있어 가능성을 보여주었다.15 [최고 성과자를 식별하는 것]보다 학습에 초점을 두고, [고군분투하는 학습자를 찾는 것]에 초점을 맞추는 것이 GME의 주요 목표가 되어야 한다. 준거-참조 평가도 (전통적인 평가 시스템 내에서 작동하는 데 익숙한 학습자들 사이에 존재할 수 있는) 경쟁 인센티브competition incentive의 일부를 제거할 수 있도록 지원합니다.  
Selecting criterion-referenced over norm-referenced assessments is another strategy to mitigate Goodhart’sand Campbell’s laws in action. For example, mastery learning techniques have been described as ‘‘an instructional approach in which educational progress is based on demonstrated performance, not curricular time. Learners practice and retest repeatedly until they reach a designated mastery level.’’14 Instructors and curriculum designers focus on determining the knowledge, skills, and attitudes that are needed for individual success, rather than focusing on ranking individuals relative to one another. Competency-based frameworks are an example of applied mastery learning, and competency-based assessment systems have shown promise in identifying individuals who are struggling.15 The focus on learning and finding struggling learners rather than identifying the highest performers should be a primary goal in GME. Criterion-referenced assessments also help to eliminate some of the competition incentives that may exist among peers who are accustomed to functioning within more traditional assessment systems.  

추가적으로, 논란의 여지가 있지만, 규범-참조norm-referenced 성과가 아닌 준거criteria에 초점을 맞춘 전략은 의대 입학에 대해서 추첨lottery을 사용하는 것이다.16 의과대학 [입학에 필요한 구체적인 기준을 정의]하고, 이를 추첨 대상자의 입학 기준으로 활용함으로써, 신청자가 이 기준 이상으로 지표를 부풀리려 하는 압박이 줄어들 수 있다. 
An additional, albeit controversial, strategy that focuses on criteria over norm-referenced outcomes is the use of a lottery for medical school admissions.16 By defining specific criteria necessary for success in medical school and using them as entrance criteria to the lottery, there may be less pressure on applicants to attempt to inflate their metrics beyond these thresholds. 

GME 교수진은 또한 [특정 시점 성과]보다는 [학습자 및 프로그램 성장 프로세스에 초점]을 맞춰 평가 및 평가 시스템을 강화할 수 있습니다. 이러한 접근 방식은 의학 교육에서 "종방향 및 발전적 사고"라는 맥락에서 설명되었습니다. 이는 교수진으로 하여금

  • 개인 또는 프로그램이 어떻게 수행하는지(예: '''1년차 전공의가 4년차 전공의 수준으로 수행'') 를 넘어
  • 왜 개인 또는 프로그램이 그러한 방식으로 행동하는지 (예: ''초기 전공의는 개인 진료 데이터를 독립적으로 검토하고 진료실습을 개선할 수 있는 능력을 보여주며, 복잡한 환자의 의료팀 논의를 주도한다'') 로 나아가게 한다.

GME faculty can also fortify their assessment and evaluation systems with a focus on the processes of learner and program growth versus specific time-point outcomes. This approach has been described in medical education in the context of ‘‘thinking longitudinally and developmentally.’’17 It challenges faculty to move

  • beyond how an individual or program performs (eg, ‘‘the first-year resident performs at the level of a senior resident’’) and
  • towards why an individual or program performs the way they do (eg, ‘‘the first-year resident shows an ability to independently review personal practice data and improve practice, and also leads health care team discussions of complex patients’’).  

마지막으로, assessment and evaluation 에서 "숫자"에 과도하게 의존하는 것을 피하면 Goodharts와 Campbell의 법칙의 일부 영향을 완화할 수 있다. 이 아이디어는 앞서 GME의 양적 오류를 피하는 관점에서 논의된 바 있다.18 숫자는 완전히 포착할 수 있는 역량의 범위가 상당히 제한적이다. 또한 쿡 등이 지적한 바와 같이, "숫자 점수는 본질적으로 미래에 중요할 속성과 행동을 포착하는 데 제한된다." 19 반대로, [서술적 평가]는 교수들이 의도적으로 추구하거나 다른 방법으로 발견하지 않았을 수 있는 정보를 밝혀낼 수 있도록 한다. 서술적 접근법은 복잡한 행동이나 활동을 수치적 대리인으로 축소하지 않기 때문에 뉘앙스와 맥락을 식별하고 탐구할 수 있는 수단을 제공한다. 
Finally, avoiding overreliance on ‘‘the numbers’’ in assessment and evaluation can mitigate some of the effects of Goodhart’s and Campbell’s laws. This idea has been previously discussed through the lens of avoiding the quantitative fallacy in GME.18 Numbers are quite limited in the range of competencies that they can completely capture. Further, as noted by Cook, et al, ‘‘Numeric scores are inherently limited to capturing attributes and actions prospectively identified as important.’’19 In contrast, narrative assessments allow faculty to uncover information that might not have been intentionally sought or otherwise discovered. Because narrative approaches do not reduce complex behaviors or activities into a numerical surrogate, they provide a means to identify and explore nuance and context. 

숫자 평가 및 평가에서 벗어나 주관성을 인정하고 수용해야 할 필요성이 대두됩니다.20,21 이러한 접근 방식은 교수들로 하여금 서술형 평가의 복잡성과 난잡함을 환영하도록 장려합니다. 정성적 연구 접근법과 서술적 평가는 본질적으로 풍부하고 조작하기 어려우며 신뢰할 수 있는 의사결정을 내릴 수 있다.19,22 서술적 평가는 종종 완전한 구성 샘플링을 보장하기 위해 복수의 관찰을 요구한다. 정량적 측정에 여러 관측치를 사용하는 경우 측정 품질의 한 표식은 반복 측정치 간의 변동성이 없다는 것입니다. 개인이나 프로그램은 매번 같은 결과를 얻도록 행동을 바꿀 수 있습니다. 매번 달성해야 하는 "단일한 정답"의 존재는 Goodhart의 법칙과 Campbell의 법칙이 정량적 측정의 맥락에서 특히 관련이 있는 이유를 설명합니다. 그러나 서술 기반 측정에 복수의 관측치를 사용하는 경우, 측정의 품질은 서로 다른 관점을 통해 설명되는 차이에 의해 결정된다. 단 하나의 예상 결과가 없기 때문에 서술적 논평은 조작하기가 훨씬 더 어려워집니다.  
Along with the movement away from numeric assessments and evaluations comes the need to acknowledge and embrace subjectivity.20,21 This approach encourages faculty to welcome the complexity and messiness of narrative assessments. Qualitative research approaches and narrative assessments are inherently rich, are harder to manipulate, and can produce credible decisions.19,22 Narrative assessment often requires multiple observations toensure complete construct sampling. When multiple observations are used for a quantitative measure, one marker of the measure’s quality is the lack of variability between iterative measurements. Individuals or programs can change their behavior such that the same outcome is achieved every time. The existence of a single ‘‘right answer’’ to be achieved every time explains why Goodhart’s and Campbell’s laws are particularly relevant in the context of quantitative measures. However, when multiple observations are used for a narrative-based measure, the measure’s quality is determined by differences that are elucidated through different perspectives. The lack of a single expected outcome renders narrative comments much more difficult to manipulate.  

요약
Summary

Goodhart's와 Campbell의 법률은 이제 경제학과 사회과학 분야에서 그 본래의 맥락을 넘어서 인정받고 있습니다. 사회적 의사결정에 정보를 제공하기 위해 정량적 사회적 지표에 의존하는 평가 및 평가 시스템에 위험이 존재한다.5 위의 예에서 알 수 있듯이 이러한 개념은 GME와 관련이 있습니다. 
The implications of Goodhart’s and Campbell’s laws are now appreciated beyond their original contexts in economics and the social sciences. Risks exist in assessment and evaluation systems that rely on quantitative social indicators to inform social decision-making.5 These concepts are relevant to GME, as demonstrated by the above examples. 

[Goodhart 및 Campbell의 법칙]에 따른 피해를 방지하거나 최소화하기 위한 단계는 다음과 같습니다.
steps to prevent or minimize harms from Goodhart’sand Campbell’s laws include:

  • 평가 및 평가 시스템을 계획할 때, 정량적 조치의 의도하지 않은 잠재적 결과에 대해 논의합니다.
  • 학습자 평가 및 프로그램 평가 노력의 설계에 로직 모델 또는 기타 구조화된 접근 방식을 적용합니다.
  • 준거 기반 평가를 고려한다.
  • 학습자 평가 및 프로그램 평가에 대한 주관적이고 서술적인 접근 방식을 수용합니다.

 

  • discuss the potential unintended consequences of quantitative measures as you plan your assessment and evaluation system;
  • apply a logic model or other structured approach in the design of your learner assessment and program evaluation efforts;
  • consider criterion-referenced (over norm-referenced) assessments; and
  • embrace subjective, narrative approaches to learner assessment and program evaluation. 

 

 

 


J Grad Med Educ. 2021 Feb;13(1):2-5.

 doi: 10.4300/JGME-D-20-01492.1. Epub 2021 Feb 13.

"When a Measure Becomes a Target, It Ceases to be a Good Measure"

Christopher MattsonReamer L BushardtAnthony R Artino Jr

의학교육에서 기준선 설정: 고부담 평가(Understanding Medical Education 3rd Ed, Ch 24)
24
Standard Setting Methods in Medical Education: High
stakes Assessment

Andre F. De Champlain

Research and Development, Medical Council of Canada, Ottawa, Ontario, Canada  

의사 결정의 필요성
The Need to Make D
ecisions

사람, 객체, 사물을 '분류classification'하는 의사결정의 필요성은 일상적인 것에서 가장 중요한 것에 이르기까지 일상생활의 모든 측면에 스며 있다. 예를 들어 운전면허 취득을 위한 시험에 합격하려면 교통법규 및 성과(합격, 평행주차 등)에 관한 일정 수준의 숙련도를 갖추어야 한다. 이러한 분류의 목적은 안전하지 않은 운전자들이 차량의 운전대를 잡지 못하게 하는 것이다. 마찬가지로, 형사 재판에서 판결을 내리는 배심원단은 사건의 증거(즉, 관련 자료 분석)를 신중하게 검토한 후 피고를 '유죄' 또는 '무죄'로 '분류'하는 혐의를 받는다. 배심원단은 여러 측면에서 평가에서 표준 설정과 유사하다.

The need to make decisions that assign people, objects, or things into ‘classifications’ permeates all aspects of daily life, from the mundane to the most significant. For instance, passing an examination to obtain a driver’s licence requires meeting a certain level of proficiency with regard to knowledge of traffic laws and performance (passing, parallel parking, etc.). The aim of such a classification is to keep unsafe drivers from getting behind the wheel of a vehicle. Similarly, a jury that renders a verdict in a criminal trial is charged with ‘classifying’ a defendant as ‘guilty’ or ‘not guilty’, after carefully weighing the evidence of a case, i.e. analysing relevant data. The jury analogy seems particularly relevant to standard setting in assessment on a number of counts:

• 두 활동 모두 모집단에서 충분히 크고 대표적인 참가자 집단이 필요하다(시민권 또는 직업권).
• Both activities require a sufficiently large and representative participant group from the population (whether a citizenry or a profession).

• 두 활동 모두 분류 목적으로 사용할 결정이 필요하다(판결 제출 또는 통과/실패 기준 설정).
• Both activities necessitate a decision that will be used for classification purposes (rendering a verdict or setting a pass/fail standard).

• 정보의 의도된 사용은 각 사례에서 매우 유사하다(형사 재판에서의 수용 및/또는 갱생과 그에 상응하는 공공의 보호 및 표준 설정에서의 교정조치 고려사항).
• The intended use of the information is very similar in each instance (incapacitation and/or rehabilitation in a criminal trial and the corresponding protection of the public and remediation considerations in standard setting).
 

의사 결정의 필요성 또한 학부 의학 교육에서 재검증까지 의사 생활의 모든 단계에서 중요한 부분입니다. 주요 결정은 의과대학 수준[8–12]뿐만 아니라 의과대학 수준[1]에서 자격증을 부여하거나 보유할 때, 또는 보유할 때, 또는 자격증은 [3–5] 또는 전문기관[6, 7]에 대한 진입을 허용하거나 거부할 때 발생한다. 이러한 결정은 기준선 설정standard setting이라고 하는 프로세스를 통해 이루어집니다. Cizek [13]은 기준선 설정을 '[두 개 이상의 상태 또는 성과 정도를 구별]하기 위하여 [숫자의 할당]을 초래하는 [규정되고 합리적인 규칙 또는 절차의 적절한 추종]'(예: 통과/실패)으로 설명한다. 졸업자뿐 아니라 자격증 및 면허 소지자가 안전한 임상 실습을 허용하는 지식과 기술을 보유하고 있는지 확인해야 한다는 점을 감안할 때, 보건 전문가 내에서 이 활동은 특히 중요합니다 [14, 15]. 그럼에도 불구하고 용어 컷 점수 및 합격 기준에 대한 기본적인 오해는 여전히 지속되고 있습니다(박스 24.1 참조).

The need to make a decision is also part‐and‐parcel of all phases of a physician’s professional life, from undergraduate medical education to revalidation. Key decisions occur when awarding or denying an unrestricted licence to practise medicine [1, 2], granting or withholding a credential [3–5], or granting or denying entry into a professional body [6, 7], as well as at the medical school level [8–12]. These decisions are arrived at through a process that is referred to as standard setting. Cizek [13] describes standard setting as ‘the proper following of a prescribed, rational system of rules or procedures resulting in the assignment of a number to differentiate between two or more states or degrees of performance’ (e.g. pass/fail). This activity is especially critical within the health professions, given the need to ensure the public that graduates as well as holders of certificates and licences possess the knowledge and skill sets that permit safe clinical practice [14, 15]. In spite of this, a basic misconception still persists regarding the terms cutscore and passing standard (see Box 24.1).

BOX 24.1 정의
BOX 24.1 Definitions


표준(기준선)은 성과 수준에 대한 질적 설명이며, 역량의 개념적 정의로 볼 수 있다.


컷점수 또는 합격점수는 이 표준을 반영하는 숫자에 해당하며, 역량의 조작적 정의로 볼 수 있다.  

  A 
standard is a qualitative description of a level of performance and can be viewed as a conceptual definition of competence.

 A cutscore or passing score corresponds to a number that reflects this standard and can be viewed as an operational definition of competence  

 

표준 대 절단→점수
Standard Versus Cut‐
score

기준과 참조 설정에서 시험 점수를 주로 사용하는 것은, 응시자가 [시험의 기초가 되는 것으로 추정되는 역량의 집합]을 숙달했는지 여부를 결정하는 것이다. 학교 수준이든, 면허 또는 인증 결정이든, 기준 설정은 합격 기준을 식별하기 위해 정기적으로 수행되며, 이는 중요하다고 간주되고 시험에 의해 측정되는 기술 영역의 숙달 또는 역량의 지표로 취급됩니다.
The primary use of any test score in a criterion‐referenced setting is to determine whether a candidate has mastered a set of competencies presumed to underlie performance on the examination. Whether at the school level or for licensure and/or certification decisions, standard setting exercises are routinely carried out to identify a passing standard, which is treated as an indicator of mastery or competency in the skill areas deemed important and measured by an examination.
 

케인[16]은 [합격기준passing standard]을 [실무에서 요구되는 허용 가능한 수준의 성과와 지식에 대한 질적 설명]으로 정의한다. 이와 같이 통과기준은 역량의 개념적 정의 또는 질적 정의로 볼 수 있다. 예를 들어, 최종 1년간의 학부 OSCE에서는 경계선 후보가 [감독된 의료에 진입하는 데 필요한 데이터 수집, 신체 검사 및 의사소통 기술을 입증]하도록 규정할 수 있다.

Kane [16] defines a passing standard as a qualitative description of an acceptable level of performance and knowledge required in practice. As such, the passing standard can be viewed as a conceptual or qualitative definition of competence. For example, in a final‐year undergraduate OSCE, a standard might stipulate that the borderline candidate demonstrate the data gathering, physical examination, and communication skills necessary for entry into supervised practice. 

반면 [컷(cut) 점수]표준을 반영하는 점수 척도를 따르는 [숫자]입니다. 이것은 역량에 대한 조작적 정의입니다. 이전 예에서 전문가 패널리스트는 [65% 이상의 점수]를 받은 응시자가 최종 1년제 학부 OSE의 성과 표준을 충족했다고 판단할 수 있습니다.

The cut‐score, on the other hand, is a number along the score scale that reflects the standard. It is an operational definition of competence. In our previous example, expert panellists might decide that a candidate who scores at or above 65% has met the performance standard for the final‐year undergraduate OSCE.

 

표준 설정의 주요 고려 사항
Key Considerations in Standard Setting

[표준 설정standard setting]은 [점수 척도를 두 개 이상의 범주로 분할할 수 있도록 합리적이고 방어 가능한 방법으로 인간의 판단을 종합할 수 있는 과정]이다. [전문가의 판단]에 중점을 둔다는 점에서, 모든 [표준은 본질적으로 주관적]이라는 점을 강조하는 것이 중요합니다. 따라서 시험에서 컷-점수를 정할 때는 'gold standard'가 없다. 컷(cut) 점수는 표준과 참여 심판 패널 설정을 위해 선택한 방법을 포함하여 여러 요인의 함수로 달라질 수 있으며 이에 국한되지 않는다[17–21]. 
Standard setting is a process that allows human judgements to be synthesised in a rational and defensible way to facilitate the partitioning of a score scale into two or more categories. Given the emphasis on expert judgement, it is important to underscore that all standards are intrinsically subjective in nature. Consequently, there is no ‘gold standard’ when it comes to setting a cut‐score on an examination. Cut‐scores can and will vary as a function of several factors, including, but not limited to, the method selected to set the standard and the panel of participating judges [17–21].

Jaeger[18]는 '판단을 제공하는 사람들의 마음을 뺀다면, 아마도, (기준 설정에서의) 정답이 존재하지 않을 것이다'고 언급함으로써 이 점을 가장 잘 요약하였다. 적절한 경험적 증거로 뒷받침되는 체계적인 과정을 따르는 것은 표준 설정 패널이 (정책 기반) 판단을 방어 가능한 방식으로 점수 척도로 해석하는 데 도움이 될 수 있지만, 숙련자를 비숙련자로부터, 또는 통과자를 실패자로부터 완벽하게 구분하는 어떤 '참true' cutscore를 추정하는 데 사용할 수 있는 방법은 없다.

Jaeger [18] best summarised this point by stating that ‘a right answer (in standard setting) does not exist, except, perhaps, in the minds of those providing judgement’. Following a systematic process that is supported with appropriate empirical evidence can help standard setting panels translate (policy‐based) judgement onto a score scale in a defensible manner, but no method can be used to estimate some ‘true’ cut‐score that perfectly separates masters from non‐masters or passers from failers.

모든 표준 설정 프로세스의 [내재적 주관성]을 고려하여, 모범 사례는 배경 및 교육 특성과 관련하여 대상 시험 모집단을 광범위하게 대표하는 심판 패널의 선발을 필요로dictate 한다[22, 23]. 표준 설정 패널 구성은 의료 교육에서 평가가 복잡하다는 점을 감안할 때 훨씬 더 관련이 깊어집니다. 그들의 연공서열과 전문지식 수준에도 불구하고, 평가의 목적을 감안할 때 결과적인 컷(cut) 점수가 합리적인지 확인하기 위해서는 패널리스트에 대한 광범위한 교육이 필수적입니다 [24]. 적어도, 평가의 목표, 표준 설정의 목적, 완료를 요구하는 과제, 최소한의 숙련도 또는 경계선 성과를 구성하는 일반적인 정의 등과 관련하여 [모든 패널리스트가 서로 조화를 이루도록 보장하기 위한 교육]이 필요하다[25]. 

In view of the inherent subjectivity of any standard setting process, best practice dictates selection of a panel of judges that broadly represents the target examination population, with respect to background and educational characteristics [22, 23]. The composition of the standard setting panel becomes even more relevant given the complexity of assessments in medical education. Despite their seniority and level of expertise, extensive training of panellists is essential to ensure that the resulting cut‐score is reasonable given the objectives of the assessment [24]. If nothing else, training is necessary to ensure that all panellists are in harmony with one another in regard to the goal of the assessment, the purpose of the standard setting exercise, the task that they are asked to complete, and a general definition of what constitutes minimal proficiency or a borderline performance [25]. 

일반적인 표준 설정 교육 세션에는 다음과 같은 여러 단계가 필요합니다. 

  • (i) 패널리스트에 대한 검체 검사 자료의 제공
  • (ii) 참가자에게 완료를 요구하는 과제의 명확한 표시
  • (iii) 경계선 후보의 정의에 할당된 토론 기간
  • (iv) 예시 세트에 대한 판단
  • (v) 참가자 간의 오해를 명확히 하기 위한 토론 기간
  • (vi) 훈련의 모든 측면에 대한 사후 조사[22].

A typical standard setting training session requires a number of steps including:

  • (i) the provision of sample examination materials to panellists;
  • (ii) a clear presentation of the task that participants are being asked to complete;
  • (iii) a period of discussion allocated to the definition of the borderline candidate;
  • (iv) judgements on a set of exemplars;
  • (v) a discussion period to clarify any misconceptions amongst participants; and
  • (vi) a post‐exercise survey on all aspects of training [22].


이러한 주의사항에도 불구하고, 이 장에 설명된 방법들은 결과적인 cut-score가 변덕스러운 판단보다는 정보에 입각한 판단에 근거하도록 보장하기 위해 따를 수 있는 체계적인 단계를 제공한다. 우선 검사의 절단 점수 결정을 위한 일반적인 방법의 개요(박스 24.2 참조)를 살펴보고, [표준 참조 표준]과 [기준 참조 표준]의 차이를 알아볼 것이다.  

Despite these caveats, the methods outlined in this chapter will provide systematic steps that can be followed to ensure that the resulting cut‐score is defensible and based on informed, rather than capricious, judgements on the part of the expert panel. The difference between a normreferenced standard and a criterion‐referenced standard will first be reviewed prior to an overview of common methods for determining a cut‐score on an examination (see Box 24.2).  

BOX 24.2 주요 고려 사항
BOX 24.2 Key considerations


• 표준 설정에는 'gold standard'가 없습니다.


• 표준 및 그에 수반되는 감점 점수는 [역량을 구성하는 것에 대한 전문가의 판단]을 반영해야 하며, 몇 가지 근거 출처에 의해 뒷받침되어야 한다.

• 표준 설정 패널은 성별, 연령, 전문 분야, 지리적 영역 등과 관련하여 모든 핵심 검사 이해 당사자를 폭넓게 대표하는 전문가로 구성되어야 한다.

• 표준설정행위의 모든 측면에 대해 패널리스트를 철저히 교육하는 것은 채택된 방법에 관계없이 모든 표준 설정 연습의 성공에 필수적인 작업이다.  

 There is no gold standard in standard setting.
 A standard and accompanying cutscore should reflect expert judgement as to what constitutes competence, supported by several sources of evidence.
 A standard setting panel should be composed of experts who broadly represent all key examination stakeholders with respect to gender, age, specialty, geographical area, etc.
 Thoroughly training panellists on all aspects of the exercise is a task critical to the success of any standard setting exercise, regardless of the method adopted.  

 

Norm → 참조 대 기준 → 참조
Norm‐ referenced Versus Criterion‐
referenced Standards

아주 넓게 본다면, 표준은 성격상 [규범-참조] 또는 [준거-참조]로 분류될 수 있다[26].
At a very high level, standards can be classified as either norm‐referenced or criterion‐referenced in nature [26]. 

[규범 참조 표준]은 비교 후보 그룹의 성과에서 절단 점수가 도출된다는 점에서 [상대적인 표준]이다. 절단 점수를 클래스 평균보다 높은 표준 편차로 설정하거나 절단 점수를 분포의 90번째 백분위수 순위에서 고정하는 등, 표준 참조 표준의 예는 많습니다. 기본적인 개념은 컷아웃 점수가 비교 집단의 상대적 성과의 함수로만 설정된다는 것이다. 우리는 순전히 다른 응시자들이 얼마나 잘(또는 못) 시험을 잘 보느냐에 따라 응시자를 합격시키거나 불합격시킵니다.
A norm‐referenced standard is a relativestandard in that the cut‐score is derived from the performances of a comparative group of candidates. There are many examples of norm‐referenced standards, such as setting the cut‐score at one standard deviation above the mean of the class or fixing the cut‐score at the 90th percentile rank of a distribution. The fundamental notion is that the cut‐score is set solely as a function of the relative performances of a comparative group. We pass or fail a candidate on an examination purely based on how well (or badly) other test takers performed.

반면에, [준거 참조 프레임워크] 내에서, 표준은 일반적으로 그룹 성과에 관계없이 후보자가 입증해야 하는 영역의 지식의 함수로 설정된다. 따라서 이것은 절대적인 기준입니다. 예를 들어, 의료 전문가 패널은 전문적 판단과 검사의 목적에 따라 지원자가 최소의 역량을 갖춘 것으로 간주되려면 해당 영역의 70%를 마스터해야 한다고 결정할 수 있다.
On the other hand, within a criterion‐referenced framework, the standard is typically set as a function of the amount of knowledge of the domain that the candidate needs to demonstrate, irrespective of group performance. As such, it is an absolute standard. For example, a panel of medical experts might determine that a candidate needs to master 70% of the domain to be deemed minimally competent, based on their professional judgement and the objectives of an examination.


전문적 검사의 경우, 일반적으로 여러 가지 이유로 [준거 참조 표준criterion‐referenced standards]이 선호된다.

  • 첫째, 규범 참조 표준은 그룹의 상대적 성과에 전적으로 기초하기 때문에 주어진 후보가 알고 있거나 모르는 것에 대해 거의 또는 전혀 언급하지 않는다.
  • 둘째, 더 중요한 것은, 규범 참조 표쥰에서의 컷(cut) 점수는 [그룹의 능력 수준]에 따라 다양하다는 것이다.

For professional examinations, criterion‐referenced standards are generally preferred for a number of reasons.

  • First, a norm‐referenced standard tells little to nothing about what a given candidate knows or does not know, since it is entirely based on the relative performance of the group.
  • Second, and more importantly, the cut‐score selected in a norm‐referenced standard setting exercise will vary as a function of the ability level of the group.

응시자의 수준이 낮으면 낮은 cut-score를 낳을 것이며, 더 능력이 뛰어난 응시자들의 cut score는 더 높아질 것이다. 이는 결국 능력 수준에 따라 다양한 후보군을 배출합니다. 예를 들어, 평균보다 1-표준 편차(1SD)로 컷(cut) 점수를 설정하면 [응시자(집단)의 지식수준에 관계없이 코호트의 약 16%가 실패]합니다. 그러나, 이 그룹들은 도메인에 대한 지식에 있어 큰 차이가 있을 수 있습니다. 만약 그 수업이 능력 있는 학생 대 능력 없는 학생으로 구성되어 있다면 분포의 '평균에 가까운' 점수는 상당히 다른 의미를 가질 수 있다. 즉, [합격 수행능력(즉, '최소한의 역량')]의 의미는 후보자가 언제, 누구와 합격했는지에 따라서 달라질 수 있다.

Lower cut‐scores will result from the performances of less proficient candidates, whereas higher cut‐scores will be set with more able cohorts. This, in turn, produces cohorts of candidates who vary in regard to their level of competence. For example, setting a cut‐score at one standard deviation below the mean will result in failing about 16% of any cohort, irrespective of what candidates may or may not know. However, it is conceivable that these groups could differ drastically in their knowledge of the domains. Scoring ‘near the average’ of a distribution can have quite a different meaning if the class is composed of high ability candidates versus less able students. That is, the meaning of a passing performance (and consequently ‘minimal competence’) can vary as a function of when and with whom the candidate passed.

따라서, 통과 기준을 설정하는 norm‐referenced 접근법은 정치적 및 직업적 관점 모두에서 방어할 수 없다untenable. 표준 참고 표준을 사용할 수 있는 유일한 상황은 [소수의 지원자를 선발해야 할 때]입니다(예: 제한된 수의 대학원 연수 시간).
Consequently, a norm‐referenced approach to setting a passing standard is untenable from both political and professional perspectives. The only instance in which it may be acceptable to use a norm‐referenced standard is when the selection of a small number of candidates is necessary (e.g. for a restricted number of postgraduate training slots).


기준을 설정하는 Criterion‐referenced 방법은 이러한 많은 한계를 극복하기 때문에 매력적이다. Criterion‐referenced
방법을 사용하여 설정한 컷(cut) 점수는 특정 직업의 광범위한 분야를 대표하는 전문가들이 안전 실천에 필요한 기술과 지식을 보유한 후보자를 나타내는 숙련도 수준을 반영한다. 이러한 이유로, 의료 면허 분야뿐만 아니라 다른 보건 전문가 검사 프로그램에서도 몇 년 동안 Criterion‐referenced 설정 방법이 성공적으로 채택되고 옹호되어 왔다[1, 2, 27–29]. 다음 두 절에서는 가장 일반적으로 사용되는 기준 기준 설정 방법을 간략하게 설명합니다(박스 24.3 참조).

Criterionreferenced methods for setting a standard are appealing because they overcome many of these limitations. A cutscore that is set using a criterionreferenced method reflects a level of proficiency that experts representing wide sectors of a given profession agree is indicative of a candidate who possesses the skills and knowledge required for safe practice. For this reason, criterionreferenced methods for setting cutscores have been successfully employed and defended for several years in the medical licensing arena as well as with other health profession examination programmes [1, 2, 2729]. The following two sections briefly describe the criterionreferenced standard setting methods in most common use (see Box 24.3).

 

BOX 24.3 표준 대 기준 → 기준
BOX 24.3 Norm‐referencing versus criterion‐
referencing


• 표준 참조 표준norm‐referenced standard 은 상대적 표준이며 임의의 후보 그룹 성과 함수로 설정됩니다.


• 준거 참조 표준criterion‐referenced standard 은 절대적인 표준이며, 후보 그룹의 전체 성과에 관계없이 전문가가 역량을 반영한다고 생각하는 함수로 설정됩니다.

• 의학 교육에서의 시험의 경우, 표준 참조 표준은 선발 목적으로만 적합하다. 대다수의 결정(졸업, 사무직 합격 등)에 대해서는 criterion‐referenced standard 이 적절합니다.     

 A norm
referenced standard is a relative standard and set as a function of the performance of an arbitrary group of candidates.

 A criterionreferenced standard is an absolute standard and set as a function of what experts believe reflects competence, regardless of the overall performance of any group of candidates.
 With medical education examinations, normreferenced standards are only appropriate for selection purposes. For the vast majority of decisions (e.g. graduation, passing a clerkship, etc.), criterionreferenced standards are appropriate.     

 

테스트 중심 방법
Test‐
centred Methods

[준거-참조 테스트-중심 방법Criterion‐referenced test‐centred methods]은 객관식 검사와 같은 지식 평가에 대한 합격 점수를 설정하는 데 호소하고 있다. 이러한 표준 설정 형식에서, 전문가들은 시험 또는 과제의 각 항목에 요구되는 성능 수준을 판단하도록 요청받는다(예: 최소한의 숙련도). 자주 사용되는 일반적인 테스트 중심 방법에는 Angoff, Ebel, Nedelsky 및 Bookmark 절차[30]가 포함됩니다(상자 24.4 참조).

Criterionreferenced testcentred methods are appealing for setting a pass mark on knowledge assessments, such as multiplechoice examinations. In this form of standard setting, experts are asked to judge the level of performance required on each item of the test or task to meet the standard (e.g. minimal proficiency). Common and frequently used testcentred methods include the Angoff, Ebel, Nedelsky, and Bookmark procedures [30] (see Box 24.4).

BOX 24.4 FOCUS ON: 시험 중심 방법
BOX 24.4 FOCUS ON: Test‐
centred methods


• MCQ의 경우, 표준은 일반적으로 테스트 중심test‐centred 방법을 사용하여 설정됩니다. 널리 사용되는 테스트 중심 방법에는 Angoff, Ebel, Nedelsky 및 Bookmark 방법이 포함됩니다.


• 패널리스트가 시험 중심의 표준 설정 연습에서 최소한의 숙련도 있는 후보자에 대해 각 항목의 특성을 추정해야 하는 경우, 즉 Angoff 및 Bookmark 방법의 어려움, Ebel 방법과의 관련성, 그리고 추가로 Nedelsky 접근법으로 '추측'을 해야 하는 경우, 논의 훈련 단계에서 경계선 후보를 구성하는 것에 대한 폭넓은 합의가 매우 중요합니다.

• Angoff 및 Bookmark 방법은 고유의 단순성으로 인해 MCQ 검사에 대한 표준을 설정하는 데 가장 일반적으로 사용됩니다.

• Ebel과 Nedelsky 방법은 패널에게 더 강력한 인지 요건을 부과하는데, 이 요건들이 많은 시험에서 충족이 어려울 수 있다. 각각 관련성을 결정하고 경계선 후보가 주의 산만 요소를 제거할 가능성을 결정한다.

 For MCQs, standards are typically set using a test
centred method. Popular testcentred methods include the Angoff, Ebel, Nedelsky, and Bookmark methods.

 Given that panellists are essentially asked to estimate characteristics of each individual item for the minimally proficient candidate in a testcentred standard setting exercise, i.e. difficulty with the Angoff and Bookmark methods, difficulty and relevance with the Ebel method, and additionally guessing with the Nedelsky approach, discussion and broad agreement as to what constitutes a borderline candidate in the training phase is of critical importance.

 The Angoff and Bookmark methods are most commonly used to set a standard on MCQ examinations due to their inherent simplicity.

 The Ebel and Nedelsky methods impose stronger cognitive requirements on the part of panellists that may be difficult to meet with many examinations; respectively determining relevance as well as the likelihood that a borderline candidate will eliminate distractors.    

 

 

앙고프 방법
Angoff Method

Angoff 절차에서 패널리스트는 항목별로 각 항목에 정확하게 답변할 수 있는 [최소 숙련도 후보자의 비율]을 추정해야 한다[31]. 사실상 이것은 전문가의 판단에 근거하여 테스트의 각 구성 요소 부분의 [난이도를 평가]하는 것이다. 그런 다음 이러한 비율은 각 전문가 심판에게 합산됩니다. 일반적으로 심판의 항목 비율의 평균 또는 중위합은 검사에서 컷-점수로 처리됩니다. 상자 24.5는 세 개의 패널 목록을 사용한 5가지 항목 검사에 기초한 Anoff 절차에 대한 간단한 그림을 제공합니다. 이 예제에서 패널 목록 절단 점수는 1.35(또는 1/5)에서 2.65(또는 3/5) 사이였습니다. 따라서 전체 컷 점수가 1.97/5(또는 2/5)와 같으므로 최종 컷 점수를 선택할 수 있습니다.
In the Angoff procedure, panellists are asked to estimate, on an item‐by‐item level, the proportion of minimally proficient candidates that would answer each item correctly [31]. Effectively this constitutes an assessment of the degree of difficulty of each component part of the test based on expert judgement. These proportions are then summed for each expert judge. Typically, the mean or median sum of item proportions across judges is treated as the cut‐score on the examination. Box 24.5 provides a simple illustration of the Angoff procedure based on a five‐item examination with three panellists. In this example, panellist cut‐scores ranged from 1.35 (or 1/5) to 2.65 (or 3/5). An overall cutscore equal to 1.97/5 (or 2/5) could therefore be selected as the final cut‐score.

 


[수정된 Angoff 방법] 또한 표준의 결정을 위해 제안되었습니다 [9, 32–35]. 한 가지 수정방식으로는 패널리스트에게 일반적인 논의 후에 판단을 수정할 수 있도록 하는 것이다 [36]. 다른 수정방식으로는 패널리스트에게 [최종 라운드]에서  '현실 성과 점검reality performance check'을 제공함으로써, 최초 판단을 측정하고guage, 원하는 경우 수정할 수 있도록, 최초 등급 라운드 후에 규범적normative 데이터(예: 문항 난이도 및 변별도)를 제공하는 것이다[37]. 
Modified Angoff methods have also been proposed for determining a standard [9, 3235]. One adaptation of the Angoff method allows panellists to modify their judgements following a general discussion [36]. Other revisions entail providing normative data (e.g. item difficulty and discrimination indices) following the initial round of ratings in order to provide panellists with a reality performance check against which to gauge their initial judgements and modify them, if so desired, in a final round [37].

 

장점 및 제한 사항
Advantages and Limitations

Angoff 방법군의 주요 장점 중 하나는 MCQ 및 성능 기반 평가를 포함하여 다수의 검사와 함께 광범위하게 사용됐다는 것이다 [34]. 따라서, 그러한 연습을 수행하고자 하는 모든 연구자는 풍부한 증거와 정보를 이용할 수 있다. 또한 앙고프 방식은 패널리스트가 테스트 항목을 검토하고 재료 및 후보자에 대한 전문 지식을 바탕으로 판단을 내려야 한다는 점에서 어느 정도 직관적이라는 매력을 가지고 있다. 마지막으로 Angoff 방법은 '예/아니오' 방법을 통해 능률화할 수 있으며 [38] 방법은 작업을 더욱 단순화할 수 있습니다.
One main advantage of the Angoff family of methods is that they have been used extensively with a host of examinations, including both MCQ and performance‐based assessments [34]. As such, a wealth of evidence and information is available to any researcher interested in carrying out such an exercise. Also, the Angoff method holds a certain amount of intuitive appeal in that panellists are required to review test items and offer judgements based on their expert knowledge of the material and candidates. Finally, the Angoff method is amenable to streamlining such as through the ‘Yes/No’ method [38], which can simplify the task even more.


한편, Angoff 방법은 패널리스트가 완료해야 하는 두 가지 주요 과제의 본질적인 특성, 즉, [무엇이 최소한의 숙련도를 구성하는지]를 명확히 하고, 각 테스트 항목에 정답을 맞출 수 있는 [최소 숙련도 응시자의 비율을 일관되게 추정]하는 것 때문에 많은 비판을 받았다[35].

  • Shepard [39]는 패널리스트에게 제시된 과제가 너무 인지적으로 어려우며 아마도 대부분의 참가자가 감당할 수 없을 것이라고 주장했다. 그러나 다른 이들은 이러한 주장을 반박하고 이러한 어려움을 패널리스트의 불충분한 교육이나 판단을 유도할 성능 데이터의 부재 때문이라고 지적했습니다 [40].
  • Plake 외 연구진[41]에 의해 수행된 조사에서도 문항 성능 추정치item performance estimate는 패널 내부와 패널 간뿐만 아니라, 당해 및 수년 간에 걸쳐 고부담의 인증 검사를 위한 것으로 나타났다. 이러한 발견은 표준 설정 연습에 적합한 심판 패널 선택의 중요성을 다시 한 번 강조하고, 더 중요한 것은 당면 과제의 성격에 대한 오해를 없애기 위해 모든 전문가에게 광범위한 교육을 제공한다는 것이다.

On the downside, the Angoff methods have come under heavy criticism due to the inherent nature of the two main tasks that panellists are required to complete, namely to articulate what constitutes minimal proficiency and then consistently estimate proportions of minimally proficient candidates who would correctly answer each test item [35].

  • Shepard [39] argued that the task presented to panellists was too cognitively challenging and probably beyond the capability of most participants. Others, however, have refuted this claim and ascribed these difficulties to insufficient training of panellists or the absence of performance data to guide judgements [40].
  • Research conducted by Plake et al. [41] also showed that item performance estimates were consistent within and across panels, as well as within and across years for a high‐stakes certification examination. These findings once more underscore the importance of selecting appropriate panels of judges for standard setting exercises and, more importantly, offering extensive training to all experts to eliminate any misconceptions regarding the nature of the task at hand.

이러한 한계에도 불구하고, Angoff 방법군은 검사에 대한 컷☆스코어를 설정하기 위한 가장 보편적이고, 오래 지속되며, 잘 연구된 일련의 절차들 중 하나입니다 [30].

Despite these limitations, the Angoff family of methods continues to be one of the most prevalent, longstanding, and well researched set of procedures for setting a cutscore on an examination [30].

 

에벨 방법
Ebel Method

에벨이 개괄적으로 설명한 절차는 패널리스트에게 각 항목에 대한 난이도 추정치뿐만 아니라, 검토의 기초가 될 것으로 추정되는 영역을 고려하여 내용 관련성까지 제공하도록 요청함으로써 Angoff의 방법을 확장한다[42]. 컷(cut) 점수는 [난이도]와 [관련성 판단]의 [곱셈값cross-products]을 추가하여 계산한다. 

The procedure outlined by Ebel extends Angoffs method by asking panellists not only to provide difficulty estimates for each item but also content relevance, given the domains that are presumed to underlie the examination [42]. The cutscore is computed by adding the crossproducts of the difficulty and relevance judgements.

상자 24.6은 2차원 Ebel 그리드의 간단한 예를 제공합니다. 이 예에서 심사위원들은 50개 항목 중 5개가 내용에 필수적이며 난이도가 '쉬운' 수준이라고 느꼈다. 비슷한 맥락에서 패널리스트에게도 최소한으로 숙달된 후보자가 올바르게 답할 수 있는 각 내용 관련성/난이도 셀 항목의 비율을 추정하도록 요청받았다. 그 결과로 나온 절단 점수는 관련성/난이도 셀 교차성 제품의 합계입니다. 이 예에서 응시자는 시험에 합격하려면 25/50 항목(50%)을 올바르게 답해야 합니다.

Box 24.6 provides a simple example of a twodimensional Ebel grid. In this example, judges felt that 5 of 50 items were essential to the content and easy level of difficulty. In a similar vein, panellists were asked to estimate the proportion of items, in each content relevance/difficulty cell, that the minimally proficient candidate would correctly answer. The resulting cutscore is the sum of the relevance/ difficulty cell crossproducts. In this example, candidates would need to correctly answer 25/50 items (50%) to pass the examination.

 

장점 및 제한 사항
Advantages and Limitations

아이러니하게도, 기준 제정을 위한 Ebel 방법의 장점 중 하나인 [난이도] 외에 [항목 관련성]이 패널리스트의 판단에 반영될 수 있다는 것이 Ebel 방법의 약점이기도 하다. 예를 들어, Berk[43]는 패널리스트가 연습 중에 내용(난이도)과 목적적합성 판단을 [분리할 수 있는지]에 의문을 제기한다. 이 두 차원이 많은 경우 상당히 높은 상관관계를 갖는다고 주장한다. 시험 개발의 관점에서, 시험에는 애초에 [관련성이 낮은 항목]을 포함시키는 것이 더 나은 것이 아닌가라는 의문을 제기할 수 있다. 대부분의 맥락에서, 총점은 (상호 관계가 있는) 여러 도메인에서 후보자들의 역량을 전반적으로 반영하는 것으로 해석됩니다. 따라서 (Ebel 방법에서) [관련성이 낮다고 여겨지는 항목]은 전체적인 역량(예: 합격/불합격)이나 순위에 대한 추론에 거의 기여하지 않는다.

Ironically, one advantage of the Ebel method for setting a standard, namely that item relevance, in addition to difficulty, can be factored into panellists judgements, is also its chief weakness. Berk [43], for example, questions the ease with which panellists can separate content (difficulty) and relevance judgements during an exercise, largely based on the argument that these two dimensions are often correlated quite highly. From a test development standpoint, one could also question the merits of including test items that are not relevant in an examination. In most contexts, the total score is interpreted as an overall reflection of candidates competencies on a composite of (interrelated) domains. Consequently, items that are deemed irrelevant contribute little to nothing in informing inferences about overall competency (e.g. pass/fail) or standing.

 

네델스키 방법
Nedelsky Method

네델스키[44]는 [(응시자가) MCQ에 답할 때, 최소한 숙련도 있는 후보들이 먼저 재료에 대한 지식을 바탕으로 부정확하다고 식별한 옵션을 제거한 다음 나머지 선택 항목 중에서 무작위로 추측한다는 전제] 하에 이뤄지는 표준 설정 방법이다. 실제 컷(cut) 점수는 나머지 대안 수의 역수 항목 전체의 합에 해당합니다. 예를 들면, 패널리스트 그룹은 5가지 항목, [5개 문항 MCQ 시험]에서 [최소한 숙달된 후보자]가 각 항목에 걸쳐 2, 1, 3, 4개의 옵션을 각각 제거할 것으로 추정한다. 따라서 네델스키 절단 점수는 1/3 + 1/4 + 1/2 + 1/2 + 1/1 = 2.58/5 또는 3/5 60%에 해당합니다.

Nedelsky [44] outlined a standard setting method based on the premise that when answering MCQs, minimally proficient candidates first eliminate options that they identify as incorrect based on their knowledge of the material, and then randomly guess amongst remaining choices. The actual cutscore corresponds to the sum across items of the reciprocal of the remaining number of alternatives. To illustrate; assume that a group of panellists estimates that the following number of options would be eliminated, respectively, by the minimally proficient candidate on a fiveitem, fiveoption MCQ examination: 2, 1, 3, 3, 4, across each of the items. The Nedelsky cutscore would therefore correspond to: 1/3 + 1/ 4 + 1/2 + 1/2 + 1/1 = 2.58/5 or 3/5 60%

장점 및 제한 사항
Advantages and Limitations

네델스키 방법의 주요 장점은 패널리스트가 판단을 내릴 때 [보기distractors 요소의 품질], 즉 MCQ에 대답할 때 최소한의 숙달된 후보자가 가질 수 있는 부분적 지식을 고려할 수 있다는 것이다. 그러나 이 절차의 여러 단점들로 인해 어려움을 겪는다는 것이 잘 문서화되어있다. 첫째, 패널리스트에 부과된 과제는 Angoff 또는 Ebel 연습에서 예상되는 것보다 훨씬 더 부담스럽다. 패널리스트는 최소한의 숙련도 있는 응시자의 정확한 응답 확률을 추정해야 할 뿐만 아니라, 후자의 시험 응시자가 distractor가 부족하거나 부분적인 지식으로 인해 제거할 수 있다고 믿는 옵션에 비추어 그렇게 해야 합니다.

The main advantage of the Nedelsky method is that it allows panellists to factor in the quality of the distractors when making their judgements, that is, any partial knowledge that the minimally proficient candidate may possess when answering an MCQ. However, the procedure also suffers from a number of well‐documented shortcomings. First, the task imposed on panellists is much more onerous that what is expected in either an Angoff or Ebel exercise. Panellists must not only estimate the probability of a correct response on the part of the minimally proficient candidate, but they must do so in light of options they believe the latter test taker can eliminate either due to poor distractors or partial knowledge. 

또한 절차의 특성으로 인해 패널리스트가 제공할 수 있는 확률 값이 사실상 제한된다. 예를 들어, MCQ 옵션이 5개인 경우 판사가 제공할 수 있는 타당한 추정치는 0.20, 0.25, 0.33, 0.50 및 1.00 [43]뿐입니다. 즉, 최소 숙련도 응시자는 신뢰할 수 없는 경우 0, 1, 2, 3 또는 4 옵션을 제거할 수 있습니다.

Additionally, probability values that are provided by panellists are de facto restricted due to the nature of the procedure. For example, with a five‐option MCQ, the only plausible estimates that judges can provide are: 0.20, 0.25, 0.33, 0.50, and 1.00 [43]. That is, the minimally proficient candidate can eliminate either 0, 1, 2, 3, or 4 options as non‐plausible. 

마지막으로, 가장 중요한 것은 네델스키 방법에서 [최소한의 숙련도 응시자의 시험 응시 행동이 동일하다고 가정한다]는 것이다. 즉, 그러한 대안에서 타당성이 없는 것으로 제거되지 않은 것과 동일한 방식으로 추측한다는 것이다. 위험 행동, 차등 부분 지식 및 기타 요소를 고려할 때 이러한 가정에 대한 의문이 심각하게 제기되었다[45, 46]. 이러한 한계를 다루기 위해 절차의 수정이 제안되었지만[47], 네델스키 방법은 그 내재적 복잡성과 더 많이 사용되는 방법에 비해 실질적인 효익이 거의 없기 때문에 지난 수십 년간 인기가 떨어졌다.

Finally, and most importantly, the Nedelsky method assumes that the testtaking behaviour of minimally proficient candidates is identical, i.e. they guess in the same fashion from those alternatives not eliminated as implausible. This assumption has been seriously called into question given risk behaviours, differential partial knowledge, and other factors [45, 46]. Though modifications of the procedure have been proposed to address these limitations [47], the Nedelsky method has waned in popularity over the past few decades due to its inherent complexity and few practical benefits over more popular methods.

 

책갈피 방법
Bookmark Method

또한 책갈피 방법은 [본질적 단순성]으로 인해 절단 점수를 설정하는 데 상당히 정기적으로 사용됩니다[48]. 이 접근방식으로 [시험 문항이 가장 쉬운 것부터 어려워지는 순서로 패널리스트에 제시]됩니다(책자 한 페이지당 한 항목). 이 방법의 원래 의도는 항목 대응 이론(IRT) 기반 난이도 추정의 함수로 항목의 순서를 정하는 것이었지만, 방법을 조정하고 간단한 p-값(정확한 응답의 비율)으로 MCQ를 정렬하는 것도 가능하다. 각 패널 목록은 최소한 숙달된 후보자가 나머지 항목에 올바르게 답변하지 못할 것으로 예상되는 지점에 책갈피(정지 규칙stopping rule)를 배치해야 합니다. 
The Bookmark method is also used quite regularly to set a cutscore due to its intrinsic simplicity [48]. With this approach, test items are presented to panellists by order of difficulty from least to most difficult (one item per page in a booklet). Though the original intent of the method was to sequence the items as a function of item response theory (IRT)based difficulty estimates, it is also possible to adapt the method and order the MCQs by simple pvalues (proportion of correct responses). Each panellist is required to place a bookmark (a stopping rule) beyond which a minimally proficient candidate would not be expected to correctly answer remaining items. Note that the

책갈피 방법은 여러 단계로 구분해야 하는 경우(예: 초급, 중급, 고급 수준의 결정)에 자주 사용된다. 가장 간단한 애플리케이션에서 최종 절단 점수는 여러 패널 목록에서 책갈피 항목 중 [중위수]에 해당합니다. 원래의 책갈피 절차에서도 이 절단 점수를 기본 IRT 가능성 측정 기준[48]으로 변환했다는 점을 지적하는 것이 중요합니다. 성능 벤치마크를 추가하는 방법의 확장도 제안되었습니다 [49, 50]. 이러한 개정에 대한 자세한 내용을 얻고자 하는 독자는 이 참고 자료를 참조할 것을 권장합니다.

Bookmark method is also frequently employed for multiple judgements (e.g. determining levels of basic, proficient, and advanced). The final cutscore, in its simplest application, would correspond to the median number of items at the bookmark across panellists. It is important to point out that the original Bookmark procedure also translated this cutscore to the underlying IRT ability metric [48]. Extensions of the method that entail adding the use of performance benchmarks have also been proposed [49, 50]. Readers wishing to obtain more details on these revisions are encouraged to consult these references.

 

장점 및 제한 사항
Advantages and Limitations

Bookmark 방법의 주요 장점은 [단순성]과 패널 목록에 부과되는 비교적 [낮은 인지 부하]입니다. 적어도 다른 테스트 중심 방법과 비교됩니다. 시험 항목은 난이도(참가자에게 알려지지 않음)에 따라 정렬되며, 패널리스트는 둘 이상의 숙련도 범주를 설명하기 위해 하나 또는 여러 개의 북마크를 배치해야 합니다. 책갈피 방법의 또 다른 매력적인 특징은 혼합 형식mixed-format 평가뿐만 아니라 객관식 및 수행능력 검사에 쉽게 적용할 수 있다는 점이다. 마지막으로, IRT 숙련도 메트릭스에 대한 전통적인 연계는 대부분의 대규모 테스트 프로그램이 시험 구축, 채점, 규모 조정 및 등식을 포함한 다수의 활동에 [IRT 기반 방법을 구현]한다는 점에서 큰 매력을 가지고 있다. 따라서 북마크 표준 설정 방법은 unified IRT 프레임워크에 쉽게 통합될 수 있습니다.
The main advantage of the Bookmark method is its simplicity and the relatively light cognitive load that is imposed on panellists, at least in comparison to other testcentred methods. Test items are ordered according to difficulty (again, unbeknownst to participants) and panellists are required to place one or several bookmarks to delineate two or more proficiency categories. Another attractive feature of the Bookmark method is that it can be readily applied to multiple‐choice and performance examinations as well as mixed‐format assessments. Finally, its traditional link to an IRT proficiency metric also holds great appeal given that the majority of large‐scale testing programmes implement IRT‐based methods for a host of activities, including test construction, scoring, scaling, and equating. As such, the Bookmark standard setting method can easily be integrated into a unified IRT framework.


이러한 장점에도 불구하고 책갈피 표준 설정 방법에는 실무자가 알아야 할 여러 가지 제한이 있습니다.

  • 첫째, 책갈피 표준 설정 연습의 컷(cut) 점수는 시험 양식의 난이도와 불가분의 관계에 있다. 예를 들면, 응시자의 숙련도 대비 매우 '쉬운' 시험을 떠올려 볼 수 있다. 이는 최초 응시자의 90% 이상이 전형적으로 합격하는 의료 면허 및 인증 시험의 경우에 해당됩니다 [27]. 이 'mis-targeting'으로 인해 패널 목록이 적절한 책갈피를 설정하지 못할 수 있습니다. 경우에 따라서는 응시자군의 능력이 높을 때에는 책자의 마지막(=가장 어려운) 문항조차도 너무 쉬워서 숙련자와 비숙련 구분할 수 없다고 보는 것이 타당하다. 다른 사람들이 [30]을 언급했듯이, 이 문제는 다른 테스트 중심 방법과도 함께 발생할 수 있습니다. 책갈피 접근법은 품목의 난이도 때문에 이러한 문제를 명백하게 만듭니다.
  • 또 다른 실질적인 한계는 일부 문항의 퍼포먼스가 낮아서 삭제할 경우 소책자(즉, 페이지당 하나의 항목이 있는 경우 테스트 항목)를 재주문해야 한다는 것이다.
  • 마지막으로 문항이 테스트 양식 전체에 걸쳐 난이도가 낮음에서 높음으로 일정하게 배치되지 않을 수 있으며, 실제로도 문항의 난이도가 그렇지 않을 수도 있다는 것입니다. 따라서 패널리스트가 마스터와 비 마스터를 가장 잘 구별하는 척도를 따라 실제 포인트를 식별하기가 어려울 수 있다. 즉, 문항 난이도에 gap이 있을 경우 책갈피를 식별할 수 없을 수 있다. 

Despite these advantages, the Bookmark standard setting method does possess a number of limitations that the practitioner should be aware of.

  • First and foremost, the cut‐score in a Bookmark standard setting exercise is inextricably linked to the difficulty of the test form. To illustrate, consider a test that is very ‘easy’ in relation to the proficiency level of candidates. This is often the case with medical licensing and certification examinations where over 90% of first‐time test takers typically pass [27]. This ‘mis‐targeting’ can make it impossible for panellists to set an appropriate bookmark. In certain instances, it is plausible that even the last item in a booklet is too easy to distinguish between masters and non‐masters when the candidate sample is highly able. As others have mentioned [30], this problem could also crop up with other test‐centred methods. The Bookmark approach, by virtue of item difficulty ordering, makes any such problems glaringly obvious.
  • Another practical limitation of this standard setting method is that booklets (i.e. test items if there is one item per page) need to be re‐ordered if some items are deleted due to poor performance.
  • A final limitation is that items may not, and in fact are probably not, evenly spaced in terms of differences in difficulty from low to high throughout a test form. Thus, it might be difficult for panellists to identify an actual point along the scale that best discriminates between masters and non‐masters, i.e. the bookmark might not be identifiable given gaps in item difficulty.

 

이러한 제약이 책갈피 방법을 무효화하지는 않지만 실무자는 이러한 잠재적 이슈를 인식하고 실제 기준 설정 연습 전에 그에 따라 계획을 수립해야 한다.
While these limitations do not invalidate the Bookmark method, practitioners should be aware of these potential issues and plan accordingly prior to the actual standard setting exercise.

 

수험생 중심 방법
Examinee‐
centred Methods

반면에 [준거(Criteria)-참조, 응시자-중심 방법examinee‐centred methods]에는 자격을 갖춘 전문가 패널 그룹의 글로벌 성과 판단에 근거한 표준 설정이 포함된다. 의학교육에서 성과 평가의 통합된 다차원적 특성을 고려할 때, 후자의 방법은 OSCE에 대한 컷(cut) 점수를 설정하는 데 특히 적합하다[51]. 두 가지 일반적인 검사자 중심 표준 설정 방법은 대조군 방법경계선 그룹 방법이다[52, 53]. (박스 24.7 참조).
Criterionreferenced examineecentred methods, on the other hand, involve setting a standard based on global judgements of performance by a group of qualified expert panellists. Given the integrated, multidimensional nature of performance assessments in medical education, the latter methods are particularly well suited for setting a cutscore on OSCEs, for example [51]. Two popular examineecentred standard setting methods are the contrasting groups method and the borderline group method [52, 53]. (see Box 24.7).

BOX 24.7 FOCUS ON: 수행능력 평가를 위한 표준 설정
BOX 24.7 FOCUS ON: Standard setting for performance assessments


• OSCE 및 작업장 기반 평가와 같은 [수행능력 시험]의 경우 일반적으로 검사자 중심의 방법을 사용하여 표준을 설정합니다. 일반적인 검사자 중심 표준 설정 방법에는 대조 그룹 및 경계선 그룹 방법이 포함됩니다.


• 이러한 방법은 패널리스트가 전반적으로overall holistic 수행능력을 판단할 수 있도록 하기 때문에 수행능력 평가에 매우 적합하고 매력적이다. 패널리스트는 두 개 이상의 숙련도 범주(예: 마스터/비매스터, 허용되지 않음, 허용 경계선, 명확하게 허용 가능 등)에 후보를 배정할 것을 요구합니다.

• 매력적이지만, 이러한 방법은 본질적으로 패널을 'gold standard'로 취급합니다. 따라서 경계선 성능의 정의뿐만 아니라 작업이 잘 이해되도록 충분한 교육이 필요합니다.

• 검사자 중심의 표준 설정 방법을 구현할 때 다음을 포함한 여러 가지 기술적 문제를 고려해야 합니다.
(i) 위양성 및 위음성 분류와 관련된 비용을 결정해야 한다.
(ii) 경계선 허용 집단borderline acceptable group에 할당된 응시자 수가 충분히 크게 구성되도록 보장해야 한다.
(iii) 대조 그룹 방법의 경우, 패널리스트가 두 가지 카테고리 중 하나에 후보를 할당할 능력이 있어야 한다.

 For performance examinations, such as OSCEs and workplace
 based assessments, examineecentred methods are generally used to set a standard. Common examineecentred standard setting methods include the contrasting groups and borderline group methods.


 These methods are appealing and well
suited to performance assessment as they allow panellists to provide overall holistic judgements of performance. They require panellists to assign candidates to two or more proficiency categories (e.g. master/nonmaster, unacceptable, borderline acceptable, clearly acceptable, etc.).


 While appealing, these methods inherently treat the panel as the gold standard. Ample training is therefore necessary to ensure that the task is well understood as well as the definition of borderline performance.


 A number of technical issues need to be considered when implementing any examinee
centred standard setting method, including:
(i) determining the costs associated with false
positive and falsenegative classifications;
(ii) ensuring that the borderline acceptable group is composed of a sufficiently large number of candidates; and
(iii) for the contrasting groups method, assuring that panellists are able to assign candidates to one of two categories.    

 

 

대조 그룹 방법
Contrasting Groups Method

대조 그룹 방법에서 패널리스트는 각 후보자에게 수행능력 프로파일(예: OSCE 스테이션의 검사 목록 및 등급 척도)을 검토하고 테스트 응시자가 시험에 합격할 자격이 있는지 여부를 판단하도록 요청받습니다. 그런 다음 두 후보 그룹(무자격 및 자격)에 대한 OSCE 측점 점수가 그래프에 표시됩니다. 일반적으로 두 그룹의 테스트 응시자를 가장 잘 구별하는 점수는 컷★점수로 선택됩니다[52–54]. 

In the contrasting groups method, panellists are asked, for each candidate, to review a performance profile (e.g. checklists and rating scales on an OSCE station) and determine whether the test taker is qualified or unqualified to pass the examination. OSCE station scores for both groups of candidates (unqualified and qualified) are then plotted on a graph. The score that best discriminates between both groups of test takers is typically selected as the cutscore [5254].

예시를 위한 대조 그룹 그림은 그림 24.1에 나와 있습니다. 이 예에서, 위양성과 위음성 결정이 동등하게 중요할 경우, 교차 구역의 중간점을 절단 점수 값으로 선택할 수 있다. 단, 검사의 목적이 부정행위로부터 환자를 보호하는 것이라면 교차구역 상부의 값을 선택할 것이다(위양성 결정 최소화, 즉 합격을 위해 필요한 임상 기술을 보유하지 않은 합격자의 수 최소화).

A sample contrastinggroups plot is shown in Figure 24.1. In this example, the midpoint of the intersection zone could be selected as the cutscore value if false-positive and falsenegative decisions were of equal importance. However, if the intent of the exam is to protect patients from malfeasance, a value in the upper part of the intersection zone would be chosen (minimising falsepositive decisions, i.e. minimising the number of passing candidates who do not possess the clinical skills necessary to pass).

 

경계선 그룹 방법
Borderline Group Method

경계선 그룹 방법에서 패널리스트는 각 후보자에 대한 성능 프로파일을 검토하고 [허용가능한 수행능력]과 [허용불가능한 수행능력]을 식별하라는 요청도 받습니다. 또한 패널리스트는 허용 가능한 성과 수준에 불과하다고 판단되는 후보자를 지정해야 합니다. 그런 다음 합격자의 점수가 그래프에 표시됩니다. 일반적으로 [중위수median 점수 값]이 검사의 cut score로 선택됩니다[1, 53]. 이 접근법의 한 가지 한계는 borderline acceptable group의 크기가 상당히 작기 때문에 [매우 불안정한 절단 점수(예: 중위수) 값]을 낳을 수도 있다는 것이다.

In the borderline group method, panellists are also asked to review a performance profile for each candidate and identify unacceptable as well as acceptable performances. Additionally, panellists must designate those candidates that are deemed to lie just at a borderline acceptable performance level. The scores of these borderline acceptable examinees are then plotted on a graph. Typically, the median score value is chosen as the cut‐score on the examination [1, 53]. One limitation that has been raised with this approach is that the size of the borderline acceptable group might be quite small, thus contributing to a very unstable cut‐score (e.g. median) value.

이러한 단점을 해결하기 위한 수단으로 [경계 회귀법borderline regression method]이 대안적인 관련 표준 설정 방법으로 제안되었다. 이 절차에서는 선형 회귀 모델링을 사용하여 점수 척도의 절단 점수를 등급 범주(예: 허용되지 않음, 허용 가능, 허용 가능)의 함수로 예측합니다. 즉, 특정 OSCE 스테이션의 합격 점수는 후보 점수(예: 체크리스트 점수)를 글로벌 등급으로 회귀시켜 획득합니다. 기존의 경계선 그룹 방법과는 달리, (borderline acceptable candidate의 점수 뿐만 아니라) [모든 데이터 포인트]가 컷 점수를 결정하는 데 사용됩니다 [55].

As a means of addressing this shortcoming, the borderline regression method was proposed as an alternative, related standard setting method. As it implies, this procedure uses linear regression modelling to predict the cutscore on the score scale as a function of the rating categories (e.g. unacceptable, borderline acceptable, acceptable). That is, the pass mark for a given OSCE station is obtained by regressing candidate scores (e.g. checklist scores) onto the global ratings. Unlike the more traditional borderline group method, all data points are used in determining the cutscore, not only those associated with borderline acceptable candidates [55].

 

장점 및 제한 사항
Advantages and Limitations

대조집단 및 경계집단 방법은 패널리스트에게 [응시자의 전반적인 성과를 두 가지(또는 그 이상) 범주로 분류]하는 방식으로 전반적 판단holistic judgement하도록 요구한다]는 점에서 매우 유사하다. 실제로 경계집단법을 전문가들이 성과에 대한 허용여부를 판단할 필요가 있을 뿐만 아니라 '가장자리(on the cusp)' 즉, 허용가능한 경계에 대한 접근방식의 일반화로 생각할 수 있다. 두 방법 간의 유사성이 높다는 점을 감안할 때, 이 방법들이 동일한 장점과 한계를 가지고 있다는 것은 별로 놀랄 일이 아니다.

The contrasting groups and borderline group methods are very similar in that they require panellists to make holistic judgements on the overall performance of candidates by classifying them into two (or more) categories. In fact, one could conceive of the borderline group method as a generalisation of the contrasting groups approach where experts not only need to determine whether a performance is acceptable or unacceptable, but also ‘on the cusp’, i.e. borderline acceptable. Given the high degree of similarity between the methods, it should come as little surprise that they carry the same advantages and limitations.

한편, 두 가지 방법 모두 패널리스트가 보다 '직관적'인 작업을 완료하도록 요구하기 때문에, [OSCE 및 작업장 기반 평가와 같은 수행능력 평가]에서 종종 선호됩니다. 즉, 후보자를 unacceptable, acceptable 또는 borderline acceptable로 분류합니다. 또한 분류 판단을 내리는 차원들dimensions이 종종 높은 관련성을 갖는다는 점을 고려할 때, 이러한 복잡한 평가에 매우 적합하다. 따라서 이러한 방법은 [후보자에 대한 분류 결정을 내릴 때] [패널리스트가 모든 고려사항을 통합할 수 있는 관용성]을 제공한다. 

On the plus side, both methods are often preferred for performance assessment such as OSCEs and workplacebased assessments as they require panellists to complete a task that is more ‘intuitive’, i.e. classify candidates as either unacceptable, acceptable, or borderline acceptable. They are also well suited to these complex assessments given that dimensions on which to make classification judgements are often highly related. As such, these methods provide panellists with the latitude to incorporate all of their considerations when arriving at a classification decision with a candidate.

(두 가지 접근법 모두) 패널리스트에게 높은 수준의 유연성을 제공한다는 점이 주된 한계가 된다. 두 방법 모두 패널리스트 판단을 [본질적으로 신뢰할 수 있고 타당한 것]으로 간주합니다. 즉, gold standard으로 간주합니다. 패널리스트가 이러한 판단을 내릴 수 있는 능력을 손상시킬 수 있는 요소는 예측하기 어려운 방식으로 최종 컷(cut)-점수 가치를 편향시킴으로써, [일부 후보군에 명백히 불공정한 표준]으로 이어질 수 있습니다. 따라서 주최자는 패널리스트에게 적절히 교육을 제공하여, 이러한 영향을 최소화하고, 궁극적으로 모든 이해관계자에게 방어 가능한 프로세스를 보장할 수 있도록 하는 것이 중요하다. 심사 대상자에게 매우 친숙할 수 있는 패널리스트가 판단을 제공할 때 [construct‐irrelevant factors] 에 의해 영향을 받는 시나리오를 쉽게 예상할 수 있다. 이러한 construct‐irrelevant factors 에는 성별, 민족성, 복장, 성격, 작업 습관 및 광범위하게 정의된 바와 같이 '능력'과 무관한 무수한 기타 외부 특성이 포함될 수 있다.

The greater level of flexibility that is afforded by both approaches also potentially constitutes their chief limitation. Both methods treat panellist judgements as intrinsically reliable and valid, i.e. as thegold standard. Any factor that can detract from the panellists’ ability to provide such judgements will bias the ultimate cut‐score value in a way that is difficult to predict and will lead to a standard that is most certainly unfair to subgroups of candidates. Consequently, the moderator plays a critical role in ensuring that the training offered to panellists can at least minimise this effect to ultimately assure a defensible process for all stakeholders. It is easy to envisage a scenario where panellists, who might very well be familiar with the candidates who they are evaluating, are affected by construct‐irrelevant factors when providing their judgements. Such construct‐irrelevant factors might include gender, ethnicity, dress, personality, work habits, and a myriad of other extraneous features that are unrelated to ‘competency’, as broadly defined by the examination.

대조 그룹과 경계선 그룹 방법 모두 [cut score 설정을 위해, 현장에서 충분히 많은 대표 전문가 그룹을 식별할 수 있으며, 이들이 지시에 따라 과제를 완료하도록 훈련할 수 있다]는 기본적인 전제에 의존한다. [부적절한 훈련]은 (borderline acceptable 에 불균형적으로 많은 수의 후보자를 할당하는 것과 같은) 다수의 바람직하지 않은 결과를 초래할 수 있다[56, 57]. 
Both the contrasting groups and borderline group methods also rest on the central premise that a sufficiently large group of representative professionals in the field can be identified for an exercise and also trained to complete the task at hand as instructed. Inadequate training can lead to a number of undesirable outcomes, including the propensity to assign disproportionally large number of candidates to the borderline acceptable group [56, 57]. 

이는 후자 그룹의 실적에서 점수가 나온다는 점에서 매력적으로 들릴 수 있지만, 거의 모든 응시자를 허용 가능한 경계선으로 분류하는 것은 시험, 교육 및 기타 요인에 대한 심각한 문제를 제기한다. 또한 확인하기 어려운 방식으로 다시 편향된 컷 스코어를 산출합니다.

While this may sound appealing, given that the cut‐score is derived from the performances of the latter group, classifying nearly all candidates as borderline acceptable seriously raises questions about the quality of the examination, instruction, and other factors, while yielding a cut‐score that is again biased in ways that are difficult to ascertain.


이 점과 관련하여, 경계선 그룹 방법은 후자 그룹이 충분히 큰 숫자로 구성되어야 합니다. 그렇지 않으면 그 결과로 얻어진 cut-score는, (가장 단순한 경우의 중위수 점수 또는 보다 복잡한 통계 모델링에 기초한 예측 값(예: 로지스틱 회귀 분석, 잠재 클래스 분석 등)이든), 불안정하고 '역량'을 부적절하게 반영할 것이다. 전통적인 대조집단 표준 연습에서 요구되는 과제의 이분법적 성격을 고려할 때, 패널리스트는 borderline acceptable performance라는 선택지가 없을 때, 허용가능과 허용불가능으로 나누기 어려울 수 있다. Plake와 Hambleton[56]은 의사결정 척도의 세밀한 축척을 허용하는 방법의 확장을 제안했다. 
Related to this point, the borderline group method does require that the latter group be composed of a sufficiently large number or the resulting cut‐score, whether the median score in the simplest case or a predicted value based on more complex statistical modelling (e.g. logistic regression, latent class analysis, etc.), will be unstable and inappropriately reflect ‘minimal competency’. Given the dichotomous nature of the task that is required in a traditional contrasting groups standard exercise, it might also be difficult for panellists to classify candidates as either unacceptable or unacceptable, with no option for a borderline acceptable performance. Plake and Hambleton [56], amongst others, proposed an extension of the method that does allow for a finer gradation of the decision scale.

마지막으로, 두 가지 방법 모두 의료 교육자가 응시자를 잘못 분류했을 때의 결과를 요약하는 정책을 명확히 수립하는 것이 중요합니다. [국민의 보호가 최우선 고려 대상]인 경우 위양성(불합격해야 할 응시생의 합격)과 위음성(합격해야 하는 응시생의 불합격) 결정을 동등하게 다루는 것은 바람직하지 않을 수 있다. 이 경우, 위양성 분류를 최소화하는 것이 더 큰 관심사이다. 반대로 부담이 낮은lower stake 설정에서는 거짓 음성 오류를 최소화하는 정책도 완전히 수용가능하다.
Finally, it is critical, for both methods, that the medical educator clearly set a policy that outlines the consequences of misclassifying a candidate. Treating both false‐positive (passing a candidate who should have failed) and false‐negative (failing a candidate who should have passed) decisions equally might be quite undesirable in instances where protection of the public is of prime consideration. Under the latter scenario, minimising false‐positive classifications is of greater concern. Conversely, in lower‐stakes settings, minimising false‐negative errors could be perfectly acceptable as a policy. 

패널리스트에 전달된 엄청난 책임을 감안할 때 대조 그룹 및 경계선 회귀 방법과 관련된 모든 잠재적 제한은 그러한 표준 설정 연습에서 사회자moderator가 수행해야 하는 역할이 중요함을 다시 강조한다. 실제로 사회자moderator가 경계선 그룹 또는 대조 그룹 표준 설정을 '좌지우지make or break' 할 수 있다고 해도 과언이 아니다.
All of the potential limitations associated with the contrasting groups and borderline regression methods, given the immense responsibility that is conveyed upon panellists, again underscore the critical role that the moderator needs to play in such standard setting exercises. Indeed, it is not an exaggeration to state that the moderator can ‘make or break’ a borderline group or contrasting groups standard setting exercise.

 

호프스티 방법
Hofstee Method

기준 설정을 위한 준거 참조 접근법을 사용할 때, [의사결정과 관련된 정치적 고려]를 전혀 하지 않는다면, 수용할 수 없는 결과를 초래할 수 있다. 즉, 표준 설정의 결과로 얻어진 컷(cut) 점수는 지나치게 크거나 작은 비율의 후보를 합격하시키거나 불합격시키지 말아야 한다. 예를 들어, 특정 의료 전문 검사가 지속적으로 15%의 응시자 중 불합격시켜왔다고 가정해 보십시오. 또한 이 모집단은 매년 매우 유사하고 능력 면에서 우수하다고 가정한다. Angoff 연습 후 설정한 컷(cut) 점수가 후보자의 50%를 낙제시키는 결과를 가져온다면, 그 표준은 비현실적이며 정책적 관점에서 매우 받아들일 수 없을 것이다.

The use of criterion‐referenced approaches for setting a standard can lead to unacceptable outcomes in the absence of political considerations associated with the decision. That is, the cut‐score arrived at following a standard setting exercise should not result in failing or passing an unacceptably large or small proportion of candidates. To illustrate, assume that a given medical specialty examination has consistently failed around 15% of candidates. Further assume that this population is very comparable, ability wise, from year to year. If the cut‐score set after an Angoff exercise results in failing 50% of candidates, the standard is unrealistic and might very well be unacceptable from a policy standpoint.

Hofstee [58]는 '현실 확인reality check'을 제공하는 수단으로 패널 목록에 다음 질문을 하고 그에 대한 답을 (Hofstee) 플롯에 표시함으로써 '타협compromise'하는 방법을 제안했다.
As a means of providing a ‘reality check’, Hofstee [58] proposed a ‘compromise’ method that involves asking panellists the following questions, the answers to which are subsequently graphed in a (Hofstee) plot:


• 내용 전체를 고려할 때 최대 및 최소 허용 컷 점수는 얼마입니까? 이러한 값은 일반적으로 Hofstee 그림에서 Cmin 및 Cmax로 표시됩니다.
• Considering the content as a whole, what are the maximum and minimum tolerable cut‐scores? These are typically labelledCminandCmaxon the Hofstee plot.

• 최대 및 최소 허용 불합격률은 얼마입니까? 이러한 값은 일반적으로 Hofstee 플롯에 Fmax 및 Fmin으로 나열됩니다.
 What are maximum and minimum tolerable failure rates? These are usually listed as Fmax and Fmin on the Hofstee plot.

Hofstee 그림의 예는 그림 24.2에 나와 있습니다.
An example of a Hofstee plot is provided in Figure 24.2.

 

이 그림을 생성하려면 먼저 정확한 누적 백분율 분포를 계산해야 합니다. 이 분포는 점수 척도에 따라 각 지점에서 불합격할 후보자의 누적 비율을 요약합니다. 그런 다음 좌표(Cmin, Fmax)와 (Cmax, Fmin)를 그림 24.2와 같이 직선으로 표시하고 결합합니다. 이 직선과 분포곡선 사이의 교차점이 [Hofstee cut-score]에 해당합니다. 절단 점수는 x축에 표시된 'cut' value로 표시됩니다.
In order to create this plot, a cumulative percentagecorrect score distribution needs to first be computed. This distribution outlines the cumulative percentage of candidates who would fail at each point along the score scale. Then, the coordinates (Cmin, Fmax) and (Cmax, Fmin) are plotted and joined by a straight line, as illustrated in Figure 24.2. The point of intersection between this line and the frequency distribution corresponds to the Hofstee cut‐score. The cut‐score is illustrated by the ‘cut’ value shown on the x‐axis. 

그림 24.2에 설명된 예에서 패널리스트는 컷☆스코어가 55(Cmin) 이하, 85(Cmax) 이하가 되어야 한다고 생각했습니다. 마찬가지로, 고장률은 최소 10%(Fmin)여야 하지만 50%(Fmax)보다 높으면 안 된다는 것을 나타내었습니다. 두 좌표 세트를 모두 연결하고 x축에 선을 그리면 Hofstee 컷스코어 값 65가 생성되어 후보 코호트의 약 35%가 불합격합니다. Hofstee 방법의 목적은 일반적으로 기준 기준 표준이 Hofstee 기반 값의 근처에 속하는지 여부, 즉 기준 표준이 절단 점수 값과 고장률의 정치적 고려사항 및 전역적 인상과 일관되는지 여부를 결정하는 것이다[59].

In the example outlined in Figure 24.2, panellists felt that the cutscore should be no lower than 55 (Cmin) and no higher than 85 (Cmax). Similarly, they indicated that the failure rate should be at least 10% (Fmin) but not higher than 50% (Fmax). Linking both sets of coordinates and drawing a line down to the xaxis yields a Hofstee cutscore value of 65, which would result in failing about 35% of the candidate cohort. The aim of the Hofstee method is generally to determine whether criterionreferenced standards fall within the vicinity of the Hofsteebased value, i.e. whether they are consistent with political considerations and global impressions of cutscore values and failure rates [59].

 

장점 및 제한 사항
Advantages and Limitations

Hofstee 방법의 주요 장점은 패널리스트가 [거의 또는 아무런 제한 없이 컷-점수 값과 불합격률에 대한 전체적인 판단]을 제공할 수 있다는 것입니다. 패널리스트는 경험, 테스트 내용에 대한 지식 및 검사 목표에 따라 성능 매개변수 한계를 정의해야 합니다. Hofstee 방법을 구현할 수 있는 유연성과 용이성 또한 주요 한계입니다. 즉, 이 방법은 일반적으로 [1차 기준 설정 방법이 아니라], 시험자 중심의 다른 접근방식을 보완하기 위한 ['reality check' 또는 대체 방법]으로 간주된다.

The primary advantage of the Hofstee method is that it allows panellists to offer holistic judgements on cut‐score values and failure rates with few to no constraints. Based on their experience, knowledge of the test content, and objective of the examination, panellists must define performance parameter limits. The flexibility and ease with which one can implement the Hofstee method also constitutes its chief limitation. That is, it is not generally viewed as a primary standard setting method but rather as a ‘reality check’ or fall‐back method meant to complement other approaches, whether test‐ or examinee‐centred. 

이처럼 Hofstee 방법은 supportive한 역할을 한다고 했을 때, 실무자가 패널 리스트의 일반적인 기대치에 따라 더 전통적인 방법으로 설정된 컷-스코어가 사라지는지를 판단하는 데 도움이 되는 귀중한 정보를 제공할 수 있습니다. 그러나 그러한 특수성을 고려할 때 일반적으로 개별 측정치로 사용해서는 안 된다. 의료 교육 분야에서 점점 더 많이 사용되는 표준 설정의 또 다른 방법은 박스 24.8에서 논의된다. 
 

Within this supporting context, the Hofstee method can provide valuable information that can help the practitioner gauge whether a cutscore set with a more traditional method gibes with the general expectations of panellists. However, it should generally not be used as a standalone measure given its ad hoc nature. Another more controversial method of standard setting increasingly used in the medical education arena is discussed in the Box 24.8. 

 

BOX 24.8 FOCUS ON: Cohen 방법
BOX 24.8 FOCUS ON: The Cohen method


Anoff와 같은 표준 설정 방법은 리소스를 많이 소모하고 시간이 많이 소요됩니다. 직원 수가 적고 재원이 제한된 교수진은 신뢰할 수 있고 유효한 방법에 필요한 충분한 수의 전문가를 모으기 위해 애쓸 수 있습니다.


Cohen 방법은 '최우수' 학생(95번째 백분위 또는 P95에서의 학생 점수)이 기준점으로 사용되는 의료 교육에서 점점 더 많이 사용되는 표준 설정의 대안 형태입니다[10]. 의료 교육자는 이 높은 성과를 내는 그룹 점수 중 어느 비율이 컷 점수로 허용되는지 결정합니다(예: 60% × P95). 수정된 Cohen은 프로그램 내에서 여러 기준과 참조 시험의 과거 데이터가 전문가 패널이 예상하는 합격 점수를 더 잘 반영하도록 이 Cohen 합계를 개인화할 수 있다고 제안합니다. 

따라서 수정된 Cohen은 절단 점수를 생성할 때 criterion-referenced 데이터와 norm-referenced 데이터를 모두 결합한 혼합 방법입니다 [60]. 이 방법의 사용자는 모든 학생이 시험에 합격할 수 있고 시험 난이도에 따라 점수가 변경된다는 점에서 코헨 점수를 깎는 것이 시간 효율적이고 자원 집약적이지 않으며 학생들에게 공정하다고 생각한다. 그러나 Cohen 방법을 비판하는 사람들은 이 절단 점수가 원하는 criterion-참조가 아닌 norm-참조로 인식되는데, 이는 절단 점수를 생성하기 위해 실제 코호트 성능의 사전 결정되고 상대적으로 임의적인 비율에 의존하기 때문이다.  


Standard setting methods such as Angoff are resource intensive and time
consuming. Faculty with small staff numbers and limited financial resources can struggle to collect a sufficient number of experts required for reliable and valid methods.


The Cohen method is an alternative form of standard setting increasingly used in medical education where the 
best performing students (student score at the 95th percentile or P95) are used as a reference point [10]. Medical educators determine what proportion of this highperforming group score is acceptable as a cut score, e.g. 60% × P95. The modified Cohen takes this further proposing that historical data from multiple criterionreferenced exams, within the programme, can personalise this Cohen sum to better reflect the pass mark expected by panels of experts.

The modified Cohen is therefore a mixed method, combining both criterion
referenced and normreferenced data in the creation of the cut score [60]. Users of the method think the Cohen cut score is time efficient and less resource intensive and fair to students in that all students can pass the exam and the cutscore changes with the level of difficulty of the exam. Critics of the Cohen method, however, perceive this cutscore to be normreferenced, rather than the desired criterionreferenced, as it relies on a predetermined and relatively arbitrary proportion of the actual cohort performance to create the cutscore.  

 

기준 참조 표준 설정 방법 선택
Selecting a Criterion‐
referenced Standard Setting Method

미국교육연구협회 '교육 및 심리검사를 위한 표준'[61, 페이지 53]은 '모든 시험 또는 모든 목적에 대해 cut-score를 결정하는 유일한 방법은 있을 수 없으며, 어떤 단일한 절차도 방어성을 완전히 확립할 수는 없다'고 분명히 명시하고 있다. 이러한 노선을 따라 Angoff[61]는 '컷(cut) 점수 설정 문제와 관련하여, 서로 일치하는 결과를 산출하지 못할 뿐만 아니라 반복 적용 시에도 동일한 결과를 산출하지 못하는 몇 가지 판단 방법을 관찰했다'고 언급했다.

The American Educational Research Association ‘Standards for Educational and Psychological Testing’ [61, p. 53] clearly state that ‘there can be no single method for determining cut‐scores for all tests or for all purposes, nor can there be any single set of procedures for establishing their defensibility’. Along these lines, Angoff [61] also noted that ‘regarding the problem of setting cut‐scores, we have observed that the several judgemental methods not only fail to yield results that agree with one another, they even fail to yield the same results on repeated application’.

어떤 하나의 방법으로도 '최적' 절단 점수 값을 식별할 수 없음에도 불구하고, 후자는 항상 전문적인 판단에 포함되기 때문에, 의학 교육자가 표준 설정 접근방식을 선택할 때 고려하고자 하는 여러 요소가 있다. 다음은 이러한 요인에 대한 개요입니다.

Despite the fact that no single method can lead to the identification of an ‘optimal’ cut‐score value, as the latter is always embedded in professional judgement, there are nonetheless a number of factors that the medical educator might wish to consider when selecting a standard setting approach. An overview of these factors is presented next.

[명확한 표준 설정 프로세스를 준수하는 정도]가 cut-score에 가장 큰 영향을 미칩니다. 무슨 방법을 쓰든지, 표준 설정 과정에는 [표준 설정 연습 및 시험의 목표에 대한 명확한 정의, 잘못된 인식을 최소화하기 위한 패널리스트의 광범위한 교육, 그리고 최소한의 숙련도 또는 허용 가능한 성과를 구성하는 것이 무엇인지에 대한 명확한 개요]가 포함되어야 한다. 그러나 시험 목표와 시험 점수 사용자가 원하는 관련 결정을 고려하여 가장 적합한 표준 설정 방법을 선택하는 것은 여러 요인을 고려할 수 있다.

The extent to which a clear standard setting process is adhered to has the greatest impact on the cut‐score. This process, regardless of the method adopted, should include a clear definition of the objective of the examination as well as the standard setting exercise, extensive training of panellists to minimise any misconceptions, as well as a clear outline of what constitutes minimal proficiency or a borderline acceptable performance. However, a number of factors can be considered to select a standard setting method that might be most suitable given the intended aims of the examination and the associated decision that the test score user wishes to make.

첫 번째 질문 중 하나는 [시험 형식]이 어떻게 되는지이다.

  • 지식 기반 검사(예: MCQ)의 경우 패널리스트가 완료해야 하는 과제를 감안할 때, 즉 실제 테스트 항목의 검토에 근거하여 컷(cut) 점수를 추정하는 것이 가장 적절하다.
  • 반대로 OSCE 및 작업 공간 기반 작업과 같은 성능 평가의 경우 복잡한 다차원 성능 특성을 고려할 때 검사 중심 방법이 표준을 설정하기에 더 적합합니다. 후자는 일반적으로 성과에 대한 전체론적 판단을 수반한다.

One of the first questions to ask is what is the format of the examination?

  • For knowledge‐based examinations (e.g. MCQs), test‐centred methods are most appropriate given the task that panellists are asked to complete, i.e. estimate a cut‐score based on a review of the actual test items.
  • Conversely, for performance assessments, such as OSCEs and workplace‐based tasks, examineecentred methods are more suitable for setting a standard given the complex, multi‐dimensional nature of performance. The latter typically entail holistic judgements of performance.


둘째, 사용자는 시험 형식을 고려할 수도 있습니다. 예를 들어, 일부 표준 설정 방법(예: Nedelsky 방법)은 MCQ와 함께 사용하기 위해 개발되었습니다. 일부 방법은 서로 다른 형식(예: Angoff 방법)으로 사용할 수 있지만, 기대치를 충족할 수도 있고 충족하지 못할 수도 있는 특정 가정이 이루어진다. 예를 들어, Angoff 방법과 그 파생물offshoot들은 본질적으로 수행능력이 보상적compensatory이라고 가정한다. 즉, 응시자들은 다른 섹션에서 잘함으로써 시험의 특정 부분에서 잘 하지 못한 것을 보상할 수 있다. 따라서 이러한 방법들은 서로 다른 요소들이 성공적으로 독립적으로 완성되어야 하는 결합적 환경에서는 적절하지 않을 것이다. 다른 방법(Hofstee, 대조군)은 테스트 형식에 무관하도록test-format invariant 개발되었습니다.
Second, the user may also wish to consider the format of the examination. For example, some standard setting methods (e.g. the Nedelsky method) were developed exclusively for use with MCQs. While some methods can be used with different formats (e.g. Angoff methods), certain assumptions are made that may or may not meet expectations. For example, the Angoff method and its offshoots assume that performance is compensatory in nature, i.e. candidates can compensate for doing poorly in certain parts of the examination by doing well in other sections. These methods would therefore be inappropriate in a conjunctive setting, where different components need to be successfully and independently completed. Other methods (Hofstee, contrasting groups) were developed as test‐format invariant.
 

종종 공표되는 한 가지 잘못된 믿음은 표준을 설정할 때 [다수의 방법을 결합하면 '더 나은 컷 스코어'를 제공한다는 것]이다. 표준 설정과 삭감 점수 선택은 정보에 입각한 판단에서 도출되기는 하지만, 궁극적으로는 [정책 결정]이라는 점을 반복적으로 강조할 수 밖에 없다. 복수의 방법을 결합하면 '더 나은' 표준이 될 것이라는 증거는 거의 없다[57]. '올바른correct' cut-score가 없는데, 어떻게 여러 접근방식의 결과를 종합할 수 있는가? 또한 이 전략에는 훨씬 더 많은 리소스가 필요합니다. 몇 가지(부실하게) 구현된 접근법의 결과를 제공하기보다는 항상 하나의 표준 설정 방법을 체계적으로 구현하는 것이 더 낫다

One erroneous belief that is often promulgated is the one that suggests that combining a multitude of methods when setting a standard will provide a better cutscore. It is important to reiterate that standard setting and the selection of a cutscore are ultimately policy decisions, albeit derived from informed judgement. There is little evidence to suggest that combining multiple methods will lead to a better standard [57]. Since there is no correct cutscore, how can policy makers synthesise results from multiple approaches? This strategy also requires significantly more resources. It is always better to systematically implement one standard setting method rather than provide results from several (poorly) implemented approaches.

다시 말하지만, [cut-score에 뒤따르는 프로세스]가 궁극적으로 방어해야 할 사항입니다. 후자는 기준 설정 연습의 [모든 단계를 적절히 문서화]하여, 패널리스트의 [선발과 훈련을 명확히 기술]하고, cut-score의 사용을 [뒷받침하는 경험적 증거]를 제공하는 것을 포함한다. 이러한 데이터에는 일반적으로 컷-점수 값에 대한 변동성 소스(판단, 패널 등)의 영향뿐만 아니라 컷-점수 구현 결과(예: 과거 추세에 비추어 합격/불합격률의 적절성)가 포함된다. 절단 점수 확인의 중요성은 다음 섹션에서 강조합니다(상자 24.9 참조).

Again, the process that is followed when arriving at a cutscore is ultimately what needs to be defended. The latter includes properly documenting all phases of a standard setting exercise, clearly describing the selection and training of panellists, as well as providing empirical evidence to support the use of a cutscore. These data typically include the impact of sources of variability (judges, panels, etc.) on the cutscore value as well as the consequences of implementing a cutscore (e.g. the appropriateness of pass/fail rates in light of historical trends). The importance of validating any cutscore is underscored in the next section (see Box 24.9).

상자 24.9 방법: 표준 설정 방법 선택
BOX 24.9 HOW TO: Choose a standard setting method


• 모든 표준 설정 방식은 '무엇이 역량을 구성하는가'에 대한 전문가의 내적 구조internal construction에 기초하기 때문에, (어떤 방식으로도) '최적optimal' 절단점수 값은 산출할 수 없다.


[프로세스가 체계적으로 구현되고 적절한 근거 출처로 뒷받침되는 것]이 어떤 표준 설정 방법을 선택하느냐보다 훨씬 더 중요하다.

• 그러나 표준 설정 방법의 선택에는 (MCQ 대 성능 평가) 몇 가지 요소를 고려할 수 있다.

• 몇 가지 방법을 결합해도 결국 여러 가지 고려사항에 기초한 정책 결정이기 때문에 '더 나은' 표준이 만들어지지는 않을 것이다.


 No standard setting method can yield an optimal cut
score value as this is based on experts internal construction of what constitutes competence.

 The extent to which a process is systematically implemented and supported with appropriate sources of evidence is much more important than the selection of any standard setting method.

 However, several factors can be considered in the choice of a standard setting method, including the format of the examination (MCQ versus performance assessment). 

 Combining several methods will not yield a better standard as the choice of any cut
score is ultimately a policy decision based on a number of considerations.

 

컷-점수를 지원하기 위한 유효성 증거 수집
Gathering Validity Evidence to Support a Cut‐
score

어떤 표준 설정 방법을 채택하였든, [얻어진 표준을 검증하기 위한 증거를 수집하는 것]은 중요한 단계입니다 [62, 63]. 이 장에서 언급한 바와 같이, 모든 표준 설정 연습에서 궁극적으로 중요한 것은 프로세스가 체계적으로 준수되고 여러 증거 소스를 사용하여 방어될 수 있는 범위입니다. 
Regardless of the standard setting method adopted, gathering evidence to validate the resulting standard is a critical step [62, 63]. As stated throughout this chapter, what is ultimately of importance with any standard setting exercise is the extent to which a process is systematically adhered to and can be defended using a number of evidential sources.

[절차적 타당성procedural validity을 뒷받침하는 근거]는 표준 설정 보고서에 명확히 기록될 필요가 있다. 이것은 일반적으로 모든 표준 설정 보고서의 첫 부분으로 구성되며, 다음을 포함하여 연습의 각 단계에 대한 철저한 설명을 수반한다.
The evidence to support procedural validity needs to be clearly documented in the standard setting report. This usually comprises the first part of any standard setting report and entails a thorough account of each step of the exercise including:
 

  • • 대상 시험의 개요 및 목적
  • • 근거 근거와 함께 구현된 선택된 표준 설정 방법에 대한 명확한 설명.
  • • 전문가 심판단 선정 과정, 심사위원의 자격 설명, 전문직 전체를 대표하는 정도 설명
  • • 훈련 과정, 성과 표준의 정의 및 데이터 수집 방법을 포함한 연습의 모든 단계에 대한 개요

 An overview of the targeted examination and its purpose.

 A clear articulation of the selected standard setting method implemented with a supporting rationale.

 The process used to select the panel of expert judges, as well as a description of their qualifications and the extent to which they represent the profession as a whole.

 An outline of all phases of the exercise, including the training process, definition of the performance standard, and how data were collected.


표준 설정 연습의 다양한 측면에 대한 조사 패널 목록은 절차적 타당성 증거를 뒷받침하는 마지막 중요한 부분을 구성합니다. 패널 리스트가 공정에서 얼마나 신뢰하며, 더 중요한 것은 컷-스코어 결과에서 얼마나 신뢰합니까? 훈련 단계에 대한 심판의 인상과 점수를 평가하는 것은 모든 표준 설정 연습에 대한 강력한 확인을 제공할 수 있다.
Surveying panellists on various aspects of the standard setting exercise constitutes a final important piece of supporting procedural validity evidence. How confident are the panellists in the process and, more importantly, in the resulting cut‐score? Evaluating judges’ impressions of the training phase as well as the cut‐score can provide strong confirmation for any standard setting exercise.
 

대부분의 기준 참조 검사의 높은 위험 특성을 고려할 때 cut-score의 내부 타당도를 뒷받침하는 증거도 매우 중요하다. 즉, 절단 점수의 추정은 얼마나 정확하며 관심 있는 모든 측면에서 얼마나 재현 가능합니까? 정밀도와 관련하여, 항목 응답 능력 지표와 관련된 항목 응답 능력 지표의 경우, 절단 점수와 관련된 숙련도 추정치의 (조건부) 표준 오차는 후자 값의 안정성을 직접적으로 나타낼 수 있다. 관측된 점수 척도(예: 숫자 , 오른쪽, 백분율 correct 정확 등)를 사용하여, 실무자는 복합 이항 모델을 사용하여 절단 점수와 관련된 오차의 양을 추정할 수도 있다[64].
Evidence to support the internal validity of the cut‐score is also of great importance given the high‐stakes nature of most criterion‐referenced examinations. That is, how precise is the estimate of the cut‐score and how reproducible is it across any facet of interest? With regard to precision, if the cut‐score is relatable to an item response theory ability metric, the (conditional) standard error of the proficiency estimate associated with a cut‐score can provide a straightforward indication of the stability of the latter value. With an observed score scale (e.g. number‐right, percentage‐correct, etc.), the practitioner can also estimate the amount of error associated with a cut‐score using a compound binomial model [64].
 

또한, 표준 설정에 참여하는 심판, 심판 패널(여러 그룹이 참여하는 경우), 선택한 항목/스테이션 등의 기능으로 절단 점수가 영향을 받는 정도는 [일반화가능도 이론]을 사용하여 쉽게 평가할 수 있다[8, 65]. 이 프레임워크를 통해 의료 교육자는 위에 열거된 측정 오류의 측면 또는 잠재적 원천에 기인할 수 있는 점수(컷☆스코어 포함)의 변동성을 추정할 수 있다. 이와 유사하게, IRT 기반 등급 척도 모델[66]은 또한 후보자의 능력 분포, 항목/역의 어려움 및 등급의 엄격성과 관련하여 유용한 정보를 제공할 수 있다. 내부 타당도 의 증거를 수집하기 위해 사용하는 모델의 복잡성에 관계없이, 이 중요한 정보의 출처는 절단 점수가 추정되는 안정성이나 정밀도에 대한 지표를 제공하는 데 있으며, 주로 오용을 최소화하기 위해 실무자에게 일부 경계를 제공하는 데 있다.
Additionally, the extent to which the cut‐score is impacted as a function of the judges participating in an exercise, the panel of judges (if multiple groups are involved), the items/stations selected, etc. can be readily assessed using generalisability theory [8, 65]. This framework allows the medical educator to estimate the amount of variability in scores (including the cut‐score) that can be ascribed to any facet or potential source of measurement error as listed above. Similarly, IRT‐based rating scale models [66] can also provide useful information with respect to the ability distribution of candidates, difficulty of items/stations, as well as stringency of raters. Regardless of the complexity of the models utilised to gather evidence of internal validity, the aim of this critical source of information is to provide an indication of the stability or precision with which a cut‐score is estimated, primarily to provide some boundaries to the practitioner in order to minimise its misuse.
 

[절단 점수의 외부 타당도external validity을 뒷받침하는 증거]도 표준 설정 노력의 일부가 되어야 한다. 이는 표준 구현의 영향과 직접 관련이 있기 때문이다. (과거의) 불합격률에 미치는 영향에 비추어 절단 점수의 합리성을 평가하는 것은 일반적으로 외부 검증 노력의 핵심이다. 예를 들어, 일반적으로 졸업 OSCE에서 한 학년의 10~12% 사이에서 불합격해왔다고 가정해보자. 표준 설정 연습에 따른 55%의 불합격률이 나왔다면, 코호트가 과거 그룹 및 유사한 난이도의 OSCE와 비교할 수 있는 능력을 가졌다고 가정할 때 컷(cut) 점수 및 그 적정성에 대한 상당한 정밀 조사를 보증할 것이다.
Evidence to support the external validity of a cut‐score should also be part of any standard setting effort as this relates directly to the impact of implementing a standard. Assessing the reasonableness of the cut‐score in light of its impact on failure rates is generally at the core of external validation efforts. For example, assume that a graduation OSCE has typically failed between 10 and 12% of a class. A failure rate of 55%, following a standard setting exercise, would warrant considerable scrutiny of the cut‐score and its appropriateness, assuming that the cohort is of comparable ability to past groups and the OSCE of a similar difficulty level.
 

(표준 설정의) 결과를 [다른 평가와 비교하는 것]은 제안된 모든 절단 점수에 대한 외부 타당도의 또 다른 중요한 원천을 구성한다. 예를 들어, 유사한 구조(예: 이전 OSCE)를 측정하는 다른 시험에서의 합격/불합격률 또는 학생 현황과 얼마나 비교가 됩니까? 두 번의 검사가 정확히 동일한 도메인 조합을 측정할 것이라고 기대하지는 않지만, 그럼에도 불구하고 대부분의 응시자들에게 동등한 지위를 줄 것입니다.

A comparison of results to other assessments constitutes another important source of external validity for any proposed cutscore. For example, how comparable are pass/ fail rates to grades or the status of students on other examinations measuring similar constructs (e.g. a prior OSCE)? Though we would not expect two examinations to measure exactly the same combination of domains, they should nonetheless yield a comparable standing for most candidates.

 

결론
Conclusions

표준 설정은 학부 교육에서 의사 재검증 노력에 이르기까지 의료 교육의 모든 평가 활동에서 필수적인 부분입니다. 응시자가 시험의 기초가 되는 역량을 습득했는지 여부를 결정하는 것은 개별적인 판단뿐만 아니라 프로그램 효과성, 교육 효과성 등을 평가하는 데 사용되는 핵심 결과이다. [67, 68].
Standard setting is an intrinsic part of all assessment activities in medical education, from undergraduate training to physician revalidation efforts. Determining whether a candidate has mastered any number of competencies underlying an examination is a key outcome used not only to render individual judgements but also to evaluate programme effectiveness, teaching efficacy, etc. [67, 68].

무엇보다도, gold standard가 없으며, 모든 cut-score는 궁극적으로 ['역량'을 구성하는 수준]에 대해서 [내용전문가 집단이 내린 정보에 입각한 판단]을 반영한다는 점을 다시 한 번 강조해야 한다. 따라서 표준 설정 프로세스를 체계적으로 따르고 적절한 경험적 증거를 사용하여 이를 사용하는 것이 그러한 연습의 핵심이다.
First and foremost, it is important to reiterate that there is no gold standard and that all cut‐scores ultimately reflect informed judgement from a group of content experts on what level of performance constitutes ‘competency’. Systematically following a standard setting process and supporting its use with appropriate empirical evidence is therefore central to any such exercise.

시험에 대한 cut-score 결정에 어떤 방법을 사용하든, 표준 설정 연습을 수행하기 전에 몇 가지 문제를 해결해야 한다.
Irrespective of the method selected to arrive at a cutscore on an examination, several issues need to be addressed prior to undertaking a standard setting exercise. 

첫째, 심사 위원단은 모든 시험 이해관계자의 축소판으로 보아야 하며, 따라서 지리적 영역, 의과대학 위치, 전문성, 성별 또는 민족성이 직업에 의해 중요하다고 간주되는 특성을 반영해야 한다. 그러한 광범위한 패널을 소집하는 것은 대부분의 전문직 종사자들의 견해가 실무에 통합되고 궁극적으로 표준이 되도록 보장할 것이다.
First, the panel of judges should be viewed as a microcosm of all exam stakeholders and as such should mirror any characteristic deemed important by the profession, be that geographical area, medical school location, specialty, gender, or ethnicity. Convening such a broad panel will ensure that views from most members of the profession are incorporated in the exercise, and ultimately, the standard.
 

모든 표준 설정 패널에 적합한 수의 패널 목록을 결정하는 것도 중요합니다. 너무 적은 수의 패널리스트를 초대하는 것은 바람직하지 않다. 한 명의 반대 심판의 판단이 최종 컷-점수의 가치에 과도한 영향을 미칠 수 있기 때문이다. 반면에 지나치게 대형 패널을 구성하는 것은 비용 효율적이지 않을 수 있습니다. 따라서 위에서 설명한 바와 같이 패널집단에게 원하는 특성을 명확하게 식별하면, 패널의 최적 크기를 결정하는 데 귀중한 정보를 제공할 수 있다.

Determining a suitable number of panellists for any standard setting panel is also critical. Inviting too few panellists is ill‐advised, as the judgements of a single dissenting judge could have an undue impact on the value of the final cut‐score. On the other hand, assembling a large panel may not be cost‐effective. Consequently, clearly identifying the desired characteristics of the group, as outlined above, can provide valuable information for determining the panel’s optimal size. 

일단 cut-score가 설정되면, 정치적 또는 내용적 성격에 기반하여 직업에서 발생할 수 있는 모든 변화에 비추어 지속적인 적합성을 보장하기 위해 모든 검사의 컷(cut) 점수를 주기적으로 재검토하는 것도 중요하다. 마지막으로, 표준 설정 방법이 다르면 컷-점수 값이 달라진다는 점을 다시 언급하는 것이 중요합니다. 

Once set, it is also important that the cutscore for any examination be periodically revisited to ensure its continued appropriateness in light of any changes that may have occurred in the profession, whether political or contentbased in nature. Finally, it is important to restate that different standard setting methods will produce different cutscore values.

모든 표준 설정 연습의 중심 목표는 다음과 같아야 한다.

  • (i) 특정 방법의 선택을 방어한다.
  • (ii) 연습 내내 따르는 모든 단계를 꼼꼼하게 문서화해야 한다.
  • (iii) 기준의 선택은 가능한 한 많은 경험적 증거에 기초하며, 주어진 cut-score 채택의 결과뿐만 아니라, 전체적 인상을 고려한다

The central aim in any standard setting exercise should be to:

  • (i) defend the choice of a particular method,
  • (ii) meticulously document all steps followed throughout the exercise, and
  • (iii) base the selection of the standard on as much empirical evidence as possible, factoring in global impressions as well as the consequences of adopting a given cut‐score.

 

OSCE의 퀄리티 측정하기: 계량적 방법 검토 (AMEE Guide no. 49) (Med Teach)
How to measure the quality of the OSCE: A review of metrics – AMEE guide no. 49
GODFREY PELL, RICHARD FULLER, MATTHEW HOMER & TRUDIE ROBERTS
University of Leeds, UK

 

도입
Introduction

학문 분야에서 높은 수준의 의사결정을 지원하기 위해 사용되는 테크닉의 정밀 조사가 증가함에 따라, 준거 기반 평가(CBA)는 신뢰할 수 있고 구조화된 방법론적 접근방식을 제공한다. 역량 기반 방법론으로서, CBA는 '고부담' 종합 평가(예: 자격 수준 또는 학위 수준 검사)를 제공하고 신뢰성과 타당성을 모두 높은 수준으로 입증할 수 있도록 한다. 이러한 평가 방법론은 [절대평가적이고, 모든 지원자에 대해 신중하게 표준화되었으며, 평가가 성과 목표와 명확하게 설계되고 밀접하게 연관되어 있다는 점]에서 '전통적인' 비정형 평가(예: viva voce)에 비해 많은 주요 편익이 있다는 점에서 매력적이다. 이러한 목표는 커리큘럼 결과 및 적절한 경우 학생과 교사 모두가 이용할 수 있는 규제 및 면허 기관이 정한 표준에 대해 명확하게 매핑할 수 있다. 
With increasing scrutiny of the techniques used to support high-level decision-making in academic disciplines, criterion-based assessment (CBA) delivers a reliable and structured methodological approach. As a competency-based methodology, CBA allows the delivery of ‘high stakes’ summative assessment (e.g. qualifying level or degree level examinations), and the demonstration of high levels of both reliability and validity. This assessment methodology is attractive, with a number of key benefits over more ‘traditional’ unstructured forms of assessment (e.g. viva voce) in that it is absolutist, carefully standardised for all candidates, and assessments are clearly designed and closely linked with performance objectives. These objectives can be clearly mapped against curricular outcomes, and where appropriate, standards laid down by regulatory and licensing bodies that are available to students and teachers alike. 

OSCE(Objective Structured Clinical Examination)는 [사전 정의된 목표에 대한 '청사진' 과정 내용으로 시작]하는 복잡한 프로세스 내에서 CBA 원칙을 사용합니다(Newble 2004). 여기서의 목적은 '올바른' 표준이 평가되고 OSCE의 내용이 커리큘럼 결과에 객관적으로 매핑되도록 하는 것이다. 수행능력은

  • 스테이션 수준에서
  • 항목 체크리스트를 사용하여 개별(행위의 순서와 함께)적으로 평가되고,
  • 전반적 등급으로 평가되는데, 이 때는 평가자에 의해 덜 결정론적 전체 평가에 의존한다(Cohen et al. 1997; Regehr et al. 1998). 

The Objective Structured Clinical Examination (OSCE) uses CBA principles within a complex process that begins with ‘blueprinting’ course content against pre-defined objectives (Newble 2004). The aim here is to ensure both that the ‘correct’ standard is assessed and that the content of the OSCE is objectively mapped to curricular outcomes. Performance is scored,

  • at the station level,
  • using an item checklist, detailing individual (sequences of) behaviours, and
  • by a global grade, reliant on a less deterministic overall assessment by examiners (Cohen et al. 1997; Regehr et al. 1998). 


성공적인 CBA을 제공하려면 충분한 품질견고한 표준 설정이 보장되어야 하며, 단순히 후보 성과candidate outcome에 대한 좁은 초점이 아닌, [평가되는 수행능력을 전체적]으로 신중히 고려할 수 있는 [광범위한 메트릭]에 의해 뒷받침된다(Roberts et al. 2006). OSCE는 복잡하고 자원 집약적이며, 대개 많은 수의 검사자, 후보자, 시뮬레이터 및 환자가 참여하며, 종종 병렬 사이트에서 이루어지기 때문에 '평가에 대한 평가assessing the assessment'는 필수적입니다. 
Central to the delivery of any successful CBA is the assurance of sufficient quality and robust standard setting, supported by a range of metrics that allow thoughtful consideration of the performance of the assessment as a whole, rather than just a narrow focus on candidate outcomes (Roberts et al. 2006). ‘Assessing the assessment’ is vital, as the delivery of OSCEs are complex and resource intensive, usually involving large numbers of examiners, candidates, simulators and patients, and often taking place across parallel sites. 

학부생들의 임상 역량을 판단하는 데 있어 [어떤 하나의 평가]도 충분하지 않은 것처럼, [어떤 하나의 계량]도 그 자체로도 평가 과정의 질을 의미 있게 판단하기에 충분하지 않다.
No single metric is sufficient in itself to meaningfully judge the quality of the assessment process, just as no single assessment is sufficient in judging, for example, the clinical competence ofan undergraduate student

OSCE 평가 품질 이해: 통칙, 일반원칙
Understanding quality in OSCE assessments: General principles

OSCE 지표에 대한 검토는 OSCE 품질을 검토하는 전체 프로세스의 일부일 뿐이며, 이는 광범위한 평가 프로세스에서 모든 관계를 수용해야 한다는 것을 인식하는 것이 중요합니다(그림 1). 
It is important to recognise that a review of theOSCE metrics is only part of the overall process of reviewing OSCE quality, which needs to embrace all relationships in the wider assessment process (Figure 1). 

 



국가단위 시험에서 OSCE가 구조의 일부로 사용되는 경우 스테이션은 공통 표준에 따라 중앙에서 설계되고 일반적으로 중앙 관리부에서 제공합니다. 그러나, 특정 의과대학 내에서 설계된 평가와 같이 지역적 수준에서, 예를 들어, 일부 변동은 시험을 설정하는 기관의 중요성과 복잡성에 따라 달라질 것이다.
Where OSCEs are used as part of a national examination structure, stations are designed centrally to a common standard, and typically delivered froma central administration. However, at the local level with the assessment designed within specific medical schools, some variation, for example instation maxima will result dependant upon the importance andcomplexity of the station to those setting the exam

이 가이드는 주로 개별 의과대학 내 지역 수준에서 임상 평가에 참여하는 사람들을 대상으로 하며, 평가가 여러 분야에 걸쳐 이루어질 수 있지만 단일 투여이다. 국가 임상평가와 관련된 사람들은 다른 관점을 가질 가능성이 높다. 

This guide is aimed primarily at those involved with clinical assessment at the local level within individual medical schools, where, although the assessment may take place across multiple sights, it is a single administration. Those involved with national clinical assessments are likely to have a different perspective. 

합격선 설정 방법은 무엇입니까?
Which method of standard setting?

합격선 설정 방법에 따라 품질 평가에 사용할 수 있는 메트릭이 결정됩니다(Cizek & Bunch 2007;Strainer & Norman 2008). 
The method of standard setting will determine the metrics available for use in assessing quality (Cizek & Bunch 2007;Streiner & Norman 2008)

[합격선]이 방어가능하고 입증가능하며 수용가능해야 한다는 요구사항(Norcini 2003)이 있어서, 일반적으로 절대평가기준을 사용한다. 합격선 설정의 모든 방법은 많은 사후 측정 지표(예: 스테이션 통과율, 고정 효과(현장 간 평가 및 비교 시간) 또는 표시 분포 빈도)를 생성하지만, 추가 품질 측정치를 생성하는 합격선 설정 방법을 선택하는 것이 중요하다. 현재 많은 기관들이 경계선borderline을 선호하고 있지만, 회귀 방법regression만이 글로벌 성적과 체크리스트 점수 사이의 관계와 약자와 강자의 변별 수준을 어느 정도 알려줄 것이다.
With the requirement for standards to be defensible, evidenced and acceptable (Norcini 2003), absolute standards are generally used. Whilst all methods of standard setting will generate a number of post hoc metrics (e.g. station pass rates, fixed effects (time of assessment and comparison across sites)or frequency of mark distribution), it is important to choose a method of standard setting that generates additional quality measures. At present, a large number of institutions favour borderline, but only the regression method will give someindication of the relationship between global grade and checklist score and also the level of discrimination between weaker and stronger students.

Table 1 

 

저자들은 BLR 방법이 평가자와 후보자 간의 모든 평가 상호작용을 사용하기 때문에 선호하고, 이러한 상호작용은 '실제real'이다. 이는 많은 수의 평가자를 사용하여 사전 결정된 기준에 객관적으로 기반하며 광범위한 메트릭스를 생성합니다.  
The authors favour the BLR method because it uses all theassessment interactions between assessors and candidates, and these interactions are ‘real’. It is objectively based on pre-determined criteria, using a large number of assessors and generates a wide range of metrics.  

BLR 방법에서 평준화된 비판 중 하나는 이상치outliers에 민감하다는 것이다. 이러한 이상치는 세 가지 주요 그룹에서 발생합니다.  
One of the criticisms sometimes levelled at the BLR method is its possible sensitivity to outliers. These outliers occur in three main groups:  

. 성적이 매우 나쁘고 체크리스트 점수가 0에 가까운 학생. 
. Students who perform very badly and obtain a near zero checklist score. 

. 우수한 체크리스트 점수를 획득했지만 평가자에게 전체적으로 깊은 인상을 주지 못한 학생
. Students who achieve a creditable checklist score but whofail to impress the assessor overall. 

. 전반적 점수overall grade를 잘못 매기는 평가자.
. The assessor who gives the wrong overall grade.


스테이션 레벨 품질 메트릭을 생성하는 방법
How to generate station level quality metrics? 

표 2는 일반적인 OSCE의 측정 지표에 대한 '표준' 보고서를 자세히 설명합니다(2일 동안 20개 스테이션, 총 시험 시간 3시간, 4개 검사 센터에 분산). 
Table 2 details a ‘standard’ report of metrics from a typicalOSCE (20 stations over 2 days, total testing time  3 h, spreadover four examination centres). 




응시자는 다음으로 구성된 합격 프로필을 충족해야 합니다.

  • 전체 합격 점수
  • 통과된 스테이션의 최소 수(보상을 방지하고, 유능한 '올라운드' 의사 요건에 충실함)
  • 수용가능한 환자 평가의 최소 수

Candidates are required to meet apassing profile comprising of

  • an overall pass score,
  • minimum number of stations passed (preventing compensation, and adding the fidelity to the requirement for a competent ‘all round’ doctor) and
  • a minimum number of acceptable patient ratings.

평가자는 항목 체크리스트를 완료하고 전체 글로벌 등급(OSCE의 글로벌 등급은 0 = 클리어 실패, 1 경계선, 2단계 클리어 패스, 3단계 매우 우수한 합격 및 4단계 합격으로 숫자로 기록됨)  

Assessors complete and item checklist, and then an overall global grade (The global grades in our OSCEs arerecorded numerically as 0 = clear fail, 1¼borderline, 2¼clearpass, 3¼very good pass and 4 ¼excellent pass).  

합격선 설정에 BLR 방법이 사용되었습니다(Pell & Roberts 2006). 일반적으로 이러한 OSCE는 약 60,000개의 데이터 항목을 생성합니다. 
The BLR method was used for standard setting (Pell &Roberts 2006). Typically such an OSCE will generate roughly 60,000 data items 

체크리스트 점수와 더불어 글로벌 등급이 부여되는 합격선 설정의 경계선 방법에서는 함께 제공되는 메트릭이 평가의 품질을 측정하는 데 유용합니다. 에벨과 앙고프 처럼 전역 등급global grade이 합격선 설정 절차의 일부를 형성하지 않는 다른 유형의 합격선 설정의 경우, 등급 간 변별 및 결정 계수(R2)는 적용되지 않는다(Cusimano 1996). 

Under any of the borderline methods of standard setting, where a global grade is awarded in addition to the checklist score, accompanying metrics are useful in measuring the quality of the assessments. For other types of standard setting, where such a global grade does not form part of the standard setting procedure, e.g. Ebel and Angoff, inter-grade discrimination and coefficient of determination (R2) will not apply (Cusimano 1996). 

계량 1: 크론바흐의 알파
Metric 1: Cronbach’s alpha


이것은 내적 일관성(일반적으로 완전히 정확한 것은 아니지만 '신뢰성'으로 생각됨)의 척도이며, 좋은 평가에서는 전반적으로(즉, 각 스테이션의 체크리스트 점수에 대해) 우수한 학생이 대체로 비교적 잘 해야 한다. 두 가지 형태의 알파(비표준화 또는 표준화)를 계산할 수 있으며, 이 가이드에서는 [비표준화 양식](SPSS의 기본 설정)을 참조합니다. 이 값은 [분산에 의해 가중치가 부여된 평균 상호 상관 관계]에 대한 측도로, 후보와 교차하는 단순 항목의 G-계수와 동일한 값을 산출합니다. 표준화된 환자와 실제 환자가 사용되고 개별 스테이션 지표가 표준화되지 않은 경우, 일반적으로 이러한 유형의 고부담 평가에서 허용 가능한 것으로 간주되는 알파의 (전체) 값은 0.7 이상이다. 
This is a measure of internal consistency (commonly, though not entirely accurately, thought of as ‘reliability’), whereby in a good assessment the better students should do relatively well across the board (i.e. on the checklist scores at each station). Two forms of alpha can be calculated – non-standardised or standardised – and in this guide we refer to the nonstandardised form (this is the default setting for SPSS). This is a measure of the mean intercorrelation weighted by variances, and it yields the same value as the G-coefficient for a simple model of items crossed with candidates. The (overall) value for alpha that is usually regarded as acceptable in this type of high stakes assessments, where standardised and real patients are used, and the individual station metrics are not standardised, is 0.7 or above. 

스테이션 메트릭이 [표준화된 경우] 더 높은 알파가 예상됩니다. 이 스테이션 집합에 대한 알파는 0.754였으며, (표 2의 두 번째 열에서) 비록 스테이션 17과 20이 이 점에서 거의 기여하지 못했지만, 전체적인 '신뢰성'에서 벗어난 스테이션은 없음을 알 수 있다. 
Where station metrics are standardised, a higher alpha would be expected. Alpha for this set of stations was 0.754, and it can be seen (fromthe second column of Table 2) that no station detracted from the overall ‘reliability’, although stations 17 and 20 contributed little in this regard. 

알파는 평가 항목 수에 따라 증가하는 경향이 있으므로, 항목/스테이션이 잘 수행되었다면, 특정 항목이 삭제된 경우, 알파는 전체 알파 점수보다 모두 낮아야 합니다. 그렇지 않은 경우에는 다음과 같은 이유로 인해 발생할 수 있습니다. 
Since alpha tends to increase with the number of items in the assessment, the resulting alpha if item deleted scores should all be lower than the overall alpha score if the item/ station has performed well. Where this is not the case, this may be caused by any of the following reasons: 

. [(삭제한) 아이템]이 나머지 항목 집합과 다른 구조를 측정하는 경우
. The item is measuring a different construct to the rest of the set of items.

. [(삭제한) 아이템]의 디자인이 불량한 경우
. The item is poorly designed. 

. [교육]에 문제가 있는 경우. 시험 주제가 제대로 학습되지 않았거나 응시자 그룹 간에 다른 기준에 따라 학습한 경우
. There are teaching issues – either the topic being tested has not been well taught, or has been taught to a different standard across different groups of candidates.  

. [평가자]들이 공통의 기준에 따라 평가하지 않은 경우
. The assessors are not assessing to a common standard.

그러나 평가 품질의 척도로 알파에만 의존할 수는 없습니다. 우리가 표시했듯이, 아이템 수가 증가하면 알파도 증가하게 되고, 따라서 단순히 아이템 수에서 충분한 길이를 갖는 것만으로 실제보다 균질해 보이는 척도를 만들 수 있습니다. 즉, 구별되는 구조를 측정하는 두 척도를 결합하여 하나의 긴 척도를 형성하면 잘못된 알파가 발생할 수 있습니다. 또한 항목 집합은 높은 알파를 가질 수 있지만 다차원적일 수 있습니다. 이러한 현상은 [클러스터 자체]가 딱히 서로 상관관계가 높지 않더라도, 서로 상관관계가 높은 [항목 클러스터(즉, 개별 차원 측정)]가 있을 때 발생합니다.
However, one cannot rely on alpha alone as a measure of the quality of an assessment. As we have indicated, if the number of items increases, so will alpha, and therefore a scale can be made to look more homogenous than it really is merely by being of sufficient length in terms of the number of items it contains. This means that if two scales measuring distinct constructs are combined, to form a single long scale, this can result in a misleadingly high alpha. Furthermore, a set of items can have a high alpha and still be multidimensional. This happens when there are separate clusters of items (i.e. measuring separate dimensions) which intercorrelate highly, even though the clusters themselves particularly do not correlate with each other highly.

알파가 너무 높아(예: >0.9) 평가에서 중복성을 나타낼 수 있는 반면, 낮은 알파 점수는 때로는 잘못 설계된 스테이션의 결과라기 보다는 스테이션 평균 점수의 큰 차이로 인한 것일 수 있다.
It is also possible for alpha to be too high (e.g. 40.9), possibly indicating redundancy in the assessment, whilst low alpha scores can sometimes be attributed to large differences in station mean scores rather than being the result of poorly designed stations.

우리의 철학은 알파를 포함한 하나의 메트릭만으로는 품질을 판단하는 데 항상 불충분하며, 알파는 높지만 다른 메트릭은 낮은 OSCE의 경우에는 이것이 고품질 평가를 나타내지 않는다는 것입니다.

Our philosophy is that one metric alone, including alpha, is always insufficient in judging quality, and that in the case of an OSCE with a high alpha but other poor metrics, this would not indicate a high quality assessment.

계량 2: 결정 계수 R2
Metric 2: Coefficient of determination R2

R2 계수는 독립 변수(글로벌 등급)의 변경으로 인한 종속 변수(체크리스트 점수)의 비례적 변화입니다. 이를 통해 우리는 체크리스트 점수와 각 스테이션의 전체 글로벌 등급 사이의 (선형) 상관 관계의 정도를 결정할 수 있으며, 전반적으로 전체 등급이 높을수록 일반적으로 더 높은 체크리스트 점수와 일치할 것으로 예상합니다. 결정 계수의 제곱근은 단순 Pearsonian 상관 계수입니다. SPSS 및 기타 통계 소프트웨어 패키지는 또한 R2의 조정 값을 제공하며, R2는 표본 크기와 모델의 예측 변수 수를 고려합니다(이 경우 1개). 이상적으로 조정된 값은 조정되지 않은 값에 가까워야 합니다.  

The R2 coefficient is the proportional change in the dependent variable (checklist score) due to change in the independent variable (global grade). This allows us to determine the degree of (linear) correlation between the checklist score and the overall global rating at each station, with the expectation that higher overall global ratings should generally correspond with higher checklist scores. The square root of the coefficient of determination is the simple Pearsonian correlation coefficient. SPSS and other statistical software packages also give the adjusted value of R2, which takes into account the sample size and the number of predictors in the model (one in this case); ideally, this value should be close to the unadjusted value. 

좋은 상관관계(R2 > 0.5)는 체크리스트 점수와 전역 성적 사이의 합리적인 관계를 나타내지만, 지나치게 상세한 global description가 단순히 해당 체크리스트 점수로 자동 변환되어 R2가 인위적으로 부풀어 오르지 않도록 주의해야 한다. 표 2에서, 스테이션 14(실용 및 의료-법률적 기술 스테이션)의 R2 값은 0.697로 양호하며, 이는 학생들의 글로벌 등급 변동 중 69.7%가 체크리스트 점수의 변동에 의해 설명됨을 의미한다. 반대로 스테이션 19는 R2 값이 0.404로 만족도가 낮습니다. 환자의 안전과 바늘 부상 관리에 초점을 맞춘 새로운 스테이션이었다. R2가 낮았던 이유를 이해하려면 (예: SPSS 원곡선 추정을 사용하여) 관계를 그래픽으로 검토하여 체크리스트와 전역 등급 간 연관성의 정확한 특성을 조사하는 것이 도움이 됩니다(그림 2). 
A good correlation (R240.5) will indicate a reasonable relationship between checklist scores and global grades, but care is needed to ensure that overly detailed global descriptors are not simply translated automatically by assessors into a corresponding checklist score, thereby artificially inflating R2. In Table 2, station 14 (a practical and medico-legal skills station) has a good R2 value of 0.697, implying that 69.7% of variation in the students’ global ratings are accounted for by variation in their check list scores. In contrast, station 19 is less satisfactory with an R2 value of 0.404. This was a new station focusing on patient safety and the management of a needlestick injury. To understand why R2 was low, it is helpful to examine the relationship graphically (e.g. using SPSS Curve estimation) to investigate the precise nature of the association between checklist and global grade (Figure 2). 

 



스테이션 지표에 관계없이 항상 글로벌 등급에 대한 체크리스트 점수의 산포 그래프scatter plot를 일상적으로 표시할 것을 권장합니다. 
We would recommend always plotting a scatter graph of checklist marks against global ratings as routine good practice, regardless of station metrics. 

스테이션 19에서 우리는 두 가지 주요 문제가 있음을 알 수 있습니다. 즉, 각 글로벌 등급에 대한 광범위한 점수분포와 불합격 등급(X축에 0)이 부여된 매우 광범위한 점수분포입니다. 이는 일부 학생이 항목 체크리스트에서 많은 점수를 획득했지만, 전반적인 성과로 인해 평가자의 글로벌 낙제점수로 이어질 수 있다는 것을 나타냅니다. 
In station 19, we can see that there are two main problems – a widespread of marks for each global grade, and a very widespread of marks for which the fail grade (0 on the x-axis) has been awarded. This indicates that some students have acquired many of the marks from the item checklist, but their overall performance has raised concerns in the assessor leading to a global fail grade. 

'소개' 부분에서는 특이치outlier가 회귀법에 미치는 영향을 설명했습니다. 좋지 않은 체크리스트 점수의 예는 그림 3에서 확인할 수 있다. 다른 스테이션에서는 어떤 응시자가 체크리스트 점수에서 아주 낮은 경우를 것을 볼 수 있습니다. 이렇게 하면 [y축 회귀 절편 값을 줄이고 회귀선의 기울기를 늘리는 효과]가 있습니다. 표 2에 표시된 데이터의 경우, 특이치를 제거하고 통과 점수와 개별 스테이션 통과 점수를 재계산하면 차이가 거의 없어져 통과 점수가 0.2% 미만으로 증가합니다.
In ‘Introduction’ section, we raised the impact of outliers on the regression method. Examples of poor checklist scores but with reasonable grades can be observed in Figure 3. In other stations, we sometimes see candidates scoring very few marks on the checklist score. This has the effect of reducing the value of the regression intercept with the y-axis, and increasing the slope of the regression line. For the data indicated in Table 2, the removal of outliers and re-computation of the passing score and individual station pass marks makes very little difference, increasing the passing score by less than 0.2%.



이러한 체크리스트 점수와 전역global 등급 간의 만족스럽지 못한 관계는 첨부 표 3(SPSS에서 제작)에서 알 수 있듯이 어느 정도 비선형성을 유발하며, 여기서 최상의 적합이 분명히 cubic이라는 것이 그래픽적으로 명백하다. 수학적으로 말하면 cubit이 항상 더 나은 적합치를 생성하지만, parsimony를 중시한다면, 고차 모형을 선호하기 위해서는 두 적합치 사이의 차이가 통계적으로 유의해야 한다.
This unsatisfactory relationship between checklist marks and global ratings causes some degree of non-linearity, as demonstrated in the accompanying Table 3 (produced by SPSS), where it is clear graphically that the best fit is clearly cubic. Note that mathematically speaking, a cubic will always produce a better fit, but parsimony dictates that the difference between the two fits has to be statistically significant for a higher order model to be preferred.



중요한 점은 cubic이 기본적인 관계의 결과인지, 아니면 비정상적인 결과인지 여부이며, 이 결과가 부적절한 체크리스트 설계 또는 허용할 수 없는 평가자 채점 행동으로 인한 결과인지 여부이다. 이러한 판단을 할 때, 산란도scattergraph에 표시된 표시의 분포를 검토해야 한다. 우리 자신의 경험에 따르면 스테이션 지표가 일반적으로 품질이 양호한 경우 엄격한 선형성으로부터의 이탈은 우려의 원인이 되지 않습니다. 
The key point to note is whether the cubic expression is the result of an underlying relationship or as a result of outliers, resulting from inappropriate checklist design or unacceptable assessor behaviour in marking. In making this judgement, readers should review the distribution of marks seen on the scattergraph. Our own experience suggests that where stations metrics are generally of good quality, a departure from strict linearity is not a cause for concern. 

특정 스테이션에 [낮은 R2 값]이 존재하거나 특정 등급에 대한 점수분포가 광범위하다면, 항목 점검표 및 스테이션 설계를 검토하는 데 도움이 될 것이다. 이 특별한 경우, 스테이션에서는 안전하고 효과적인 관리에 대한 핵심적 강조가 의도되었지만, 이러한 지표에 비추어 체크리스트를 재평가한 결과 이러한 강조가 잘 표현되지 않았다. 점수가 낮은 응시자들은 '과정process'에서 많은 점수를 획득할 수 있었지만, 스테이션의 더 고차원적 기대(의사 결정의 초점)를 충족하지 못한 것이 분명하다. 이는 본 스테이션의 재작성 및 점검표를 통해 해결되었으며, 본 스테이션의 재이용 계획 및 향후 OSE 내 성과에 대한 후속 분석을 통해 해결되었습니다. 
The existence of low R2 values at certain stations and/or a widespread of marks for a given grade should prompt a review of the item checklist and station design. In this particular case, although there was intended to be a key emphasis on safe, effective management in the station, re-assessment of the checklist in light of these metrics showed that this emphasis was not well represented. It is clear that weaker candidates were able to acquire many marks for ‘process’ but did not fulfil the higher level expectations of the station (the focus on decision making). This has been resolved through a re-write of the station and the checklist, with plans for re-use of this station and subsequent analysis of performance within a future OSCE. 


계량 3: 등급 간 변별
Metric 3: Inter-grade discrimination

이 통계량은 회귀선의 기울기를 나타내며 [전역global 등급 척도에서 한 등급 상승에 해당하는 체크리스트 점수]의 평균 증가를 나타냅니다. '이상적' 값에 대한 명확한 지침은 없지만,변별지수는 이용 가능한 최대 체크리스트 마크(데이터에서 일반적으로 30–35)의 10분의 1이 되어야 한다고 권고한다. 
This statistic gives the slope of the regression line and indicates the average increase in checklist mark corresponding to an increase of one grade on the global rating scale. Although there is no clear guidance on ‘ideal’ values, we would recommend that this discrimination index should be of the order of a tenth of the maximum available checklist mark (which is typically 30–35 in our data). 

낮은 등급 간 변별은 종종 다음과 같은 관측소에 대한 다른 좋지 않은 지표와 함께 동반된다.

  • 낮은 R2 값(등급과 체크리스트 점수 사이의 전반적인 관계가 좋지 않음을 나타냄) 또는
  • 높은 수준의 평가자 오차 분산(섹션 '측정지표 5: 그룹 간 변동'): 평가자가 공통 표준을 사용하지 못한 경우 

A low value of inter-grade discrimination is often accompanied by other poor metrics for the station such as

  • low values of R2 (indicating a poor overall relationship between grade and checklist score), or
  • high levels of assessor error variance (Section ‘Metric 5: Between-group variation’) where assessors have failed to use a common standard.

[성적 간 변별intergrade discrimination 수준이 너무 높으면] 합격점이 매우 낮거나 회귀선을 가파르게 만드는 소수의 불량 학생으로 인해 선형성이 부족하다는 의미일 수 있다. 체크리스트 점수의 측면에서 매우 낮은 학생 성적이 발생할 경우, 하향으로 전체 합격 점수에 과도한 영향을 미치지 않도록 매우 낮은very low 점수를 합격선 설정에서 제외해야 하는지 고려할 필요가 있습니다

Too high levels of intergrade discrimination may indicate either a very low pass mark, or a lack of linearity caused by a small number of badly failing students who tend to steepen the regression line. Where very poor student performance in terms of the checklist score occurs, consideration needs to be given to whether these very low scores should be excluded from standard setting to avoid excessive impact on overall passing scores in a downward direction. 

표 2에 대한 변별로 돌아가면, 비록 변별 값이 5를 초과하는 세 개의 스테이션이 있지만(예: 스테이션 14) 등급 간 값은 스테이션 전체에 걸쳐 일반적으로 허용될 수 있음은 분명하다. 
Returning discrimination to Table 2, it is clear that the inter-gradevalues are generally acceptable across thestations (station maxima being in the region of 30–35 marks), although there are three stations with discrimination values inexcess of 5 (e.g. station 14 

변별도 메트릭에 기반해서 스테이션의 퍼포먼스가 의심스러운 경우, [분산 및 곡선 추정의 R2 척도]로 복귀하는 것이 유용한 경우가 많습니다. 표 2에서, 스테이션 14는 등급 간 변별이 가장 높으며, 그림 3에서 대부분의 글로벌 등급이 다시 광범위한 표시, 특히 명확한 통과 등급 값 2를 포함하지만, 이 값 중 낮은 것은 분명히 특이치임을 알 수 있습니다. 나머지 스테이션 지표가 허용 가능하기 때문에, 이 스테이션은 변경되지 않을 수 있지만 후속 평가에 사용될 때 주의 깊게 모니터링되어야 합니다. 

Where there is doubt about a station in terms of its performance based on the discrimination metric, returning to the R2 measure of variance and curve estimation is often instructive. In Table 2, station 14 has the highest inter-grade discrimination, and it can be seen in Figure 3 that most global grades again encompass a wide range of marks, especially the clear pass grade – value 2 on the x-axis, ranging from 4 to 27, but that the lower of these values are clearly outliers. As the rest of the station metrics are acceptable, this station can remain unchanged but should be monitored carefully when used in subsequent assessments. 

 

메트릭 4: 실패 횟수
Metric 4: Number of failures

[비정상적으로 높은 Failure 횟수]만을 가지고 스테이션이 너무 어렵다는 것을 나타내는 것이라고 자동으로 가정하는 것은 실수입니다. 경계선 방식의 필수 요소인 '현실 점검reality check'이 스테이션 난이도 상당 부분을 보완할 것으로 보인다. 이는(reality check은) 최소의 역량을 갖춘 학생의 예상 성과에 대한 글로벌 등급을 결정하기 위해 [훈련된 평가자가 내린 전문가의 판단]을 나타냅니다.
It would be a mistake to automatically assume that an unusually high number of failures indicate a station that is somehow too difficult. The ‘reality check’, which is an essential part of borderline methods, will to a large extent compensate for station difficulty. This represents the expert judgement made by trained assessors in determining the global rating against the expected performance of the minimally competent student. 

앞에서 설명한 것처럼, 다른 심리측정 데이터가 문제를 식별하기 위해 스테이션 설계 및 성능을 조사하는 데 사용될 수 있습니다. 불합격률은 특정 주제에 대한 teaching이 바뀐 영향을 검토하는 데 사용될 수 있으며, 그러한 비율의 높은 값은 내용 및 교수 방법에 대한 검토가 과정 설계에 도움이 될 수 있는 위치를 나타낸다. 

As previously described, other psychometric data can be used to investigate station design and performance in order to identify problems. Failure rates may be used to review the impact of a change in teaching on a particular topic, with higher values of such rates indicating where a review of content and methods of teaching can help course design. 

메트릭 5: 그룹 간 변동(평가자 효과 포함)
Metric 5: Between-group variation (including assessor effects)

OSCE와 같은 복잡한 평가 준비에서 비롯된 데이터에 대한 분석을 수행할 때, 학생들은 필요에 따라 실용적인 목적을 위해 여러 그룹으로 세분화되며, 설계가 완전히 무작위화되는 것이 필수적입니다. 그러나 (시간이 더 많이 필요하고 별도의 주기 내에 독점적으로 관리해야 하는 특수한 요구 사항 학생들을 처리하는 등) 물류 문제의 관리가 항상 가능하지 않을 때도 있다. 모든 [비랜덤 부분군non-random subgroups]은 주요 가정으로 데이터의 랜덤성에 의존하는 통계 기반 분석 유형에서 제외해야 합니다. 
When performing analysis on data resulting from complex assessment arrangements such as OSCEs, where, by necessity, the students are subdivided into groups for practical purposes, it is vital that the design is fully randomised. Sometimes, however, this is not always possible, with logistical issues including dealing with special needs students who may require more time and have to be managed exclusively within a separate cycle. Any non-random subgroups must be excluded from statistically-based types of analysis that rely on randomness in the data as a key assumption. 

[이상적인 평가 프로세스]에서 모든 점수 변동은 [학생의 수행능력 차이]로 인해 생겨야 하며, 아래와 같은 것이 원인이 되어서는 안 된다.

  • 환경(예: 배치 또는 장비의 국부적 변화),
  • 위치(예: 임상 조건 관리를 위한 지역 정책이 서로 다른 병원 기반 현장) 또는
  • 평가자 태도의 차이(즉, 매와 비둘기)

In the ideal assessment process, all the variation in marks will be due to differences in student performance, and not due to differences in

  • environment (e.g. local variations in layout or equipment),
  • location (e.g. hospital-based sites having different local policies for management of clinical conditions) or
  • differences of assessor attitude (i.e. hawks and doves).

이러한 효과를 측정하는 방법에는 측점에 대해 일원 분산 분석(예: 평가자를 고정 효과로 사용)을 수행하거나 그룹별 총 분산 비율을 계산하는 두 가지가 있습니다. 일반적으로 회로에 특정한circuit-specific 분산의 비율로 제공되지만, 후자에서는 위에서 언급한 다른 가능 요인들과 구별되는 학생 성과로 인한 체크리스트 점수의 변동 비율을 추정할 수 있습니다.

There are two ways of measuring such effects, either by performing a one-way analysis of variance (ANOVA) on the station (e.g. with the assessor as a fixed effect) or by computing the proportion of total variance which is group specific. The latter allows an estimation of the proportion of variation in checklist scores that is due to student performance as distinct from other possible factors mentioned above, although this is usually given as the proportion of variance which is circuit specific. 

분산 성분을 계산하면 그룹(즉, 회로)을 랜덤 효과로 사용하여 그룹에 특정된 분산 비율을 계산할 수 있습니다. 이는 그룹 간 평가 프로세스의 균일성을 매우 잘 나타내므로 매우 강력한 메트릭입니다. 계산도 비교적 간단하다. 이상적으로는 그룹 간 분산이 30% 미만이어야 하며 40%를 초과하는 값이 나오면 검토가 필요하다. 40% 이상의 값은 학생 성과보다는 평가자 행동 및 기타 회로 특정 특성으로 인해 발생하는 스테이션 수준에서의 잠재적인 문제를 나타냅니다.
If the variance components are computed, using group (i.e. circuit) as a random effect, then the percentage of variance specific to group can be computed. This is a very powerful metric as it gives a very good indication of the uniformity of the assessment process between groups. It is also relatively straightforward to calculate. Ideally between-group variance should be under 30%, and values over 40% should give cause for concern, indicating potential problems at the station level due to inconsistent assessor behaviour and/or other circuit specific characteristics, rather than student performance.



표 2에서 스테이션 6, 17 및 19는 그룹 간 분산 수준이 가장 높은 이 메트릭과 관련된 원인을 제공합니다. 또한 스테이션 6는 R2도 불량이며, 이 스테이션의 불량 메트릭스의 전체적인 조합은 불량 R2가 아마도 불량한 체크리스트 설계 때문일 것이라는 것을 말해줍니다. 
From Table 2, stations 6, 17 and 19 give cause for concern with regard to this metric, with the highest levels of betweengroup variance. In addition, station 6 has a poor R2, and the overall combination of poor metrics at this station tells us that the poor R2 was probably due to poor checklist design. 

(6번 스테이션의) 체크리스트는 약한 응시자들이 '과정'을 통해서만 높은 점수를 얻을 수 있는 낮은 수준의 기준들로 구성된 것으로 밝혀졌다. 따라서 스테이션을 재설계할 때 당초 의도한 대로 높은 수준의 프로세스를 쉽게 평가하기 위해 낮은 수준의 기준을 여러 개 청크 처리(즉, 상위 수준의 기준을 형성하기 위해 함께 묶음)하였다.

the checklist was found to consist of a large number of lowlevel criteria where weaker candidates could attain high scores through ‘process’ only. Hence, in redesigning the station, a number of the low-level criteria were chunked (i.e. grouped together to form a higher level criterion) in order to facilitate the assessment of higher level processes as originally intended. 

스테이션 17은 이야기가 조금 다르다. (높은) 그룹 간 변동을 양호한 R2와 결합해서 판단했을 때, 평가자들이 그룹 내에서 일관되게 표시하고 있지만 그룹 간에 뚜렷한 매와 비둘기 효과가 있음을 나타내기 때문이다. 이러한 경우에는 일원 분산 분석 분석을 통해 이것이 개별 평가자인지 또는 현장 현상인지를 파악하여 이 문제를 추가로 조사해야 합니다. 서로 다른 부지에 귀속되는 분산의 양은 위에서 설명한 것처럼 스테이션 간 분산의 간단한 계산에 포함된다. 
Station 17 tells a different story, as the good R2 coupled with the high between-group variation indicates that assessors are marking consistently within groups, but that there is a distinct hawks and doves effect between groups. In such a case, this ought to be further investigated by undertaking a one-way ANOVA analysis to determine whether this is an individual assessor or a site phenomenon. The amount of variance attributable to different sites is subsumed in the simple computation of within-station between-group variance as describe above. 

그러나 모집단이 상당히 많은 경우 분산 분석을 개별 관측소에 적용하면 많은 그룹에 걸친 다중 유의성 검정으로 인한 유형 I 오차의 결과로 인해 적어도 하나의 유의한 결과가 나타날 수 있으므로 단일 측정 기준에 근거하여 판단할 때 주의를 기울여야 합니다. 
However, care needs to be exercised in making judgements based on a single metric, since, with quite large populations, applying ANOVA to individual stations is likely to reveal at least one significant result, as a result of a type I error due to multiple significance tests across a large number of groups 

메트릭 6: 군간 분산(기타 효과)
Metric 6: Between group variance (other effects)

일원 분산 분석은 또한 [다중 사이트 평가]가 발생할 수 있는 [대규모 코호트]가 있는 일부 의과대학 및 관련 교습병원에서처럼 평가자 또는 학생 중 한 명이 랜덤하게 할당되지 않은 경우에도 사용할 수 있습니다. 이러한 복잡한 배치로 인해 임상 직원이 작업 장소를 떠나기가 종종 어렵기 때문에 평가자가 회로circuit에 무작위로 할당되지 않을 수 있습니다. 따라서 결과 분석에서 취한 적절한 조치를 통해 식별할 수 있는 '현장 효과site effects'로 인해 상당한 차이가 발생할 수 있다. 
ANOVA analysis can also be of use when there are nonrandom allocations of either assessors or students, as is the case in some medical schools with large cohorts and associated teaching hospitals where multi-site assessment may occur. Such complex arrangements can result in the nonrandom assignment of assessors to circuits since it is often difficult for clinical staff to leave their places of work. This may then lead to significant differences due to ‘site effects’ which can be identified with appropriate action taken in the analysis of results. 

다른 중요한 고정 효과도 분산 분석을 통해 확인할 수 있습니다. 예를 들어, 평가자 교육 효과, 직원/학생 성별 효과 및 관련 상호작용, 
Other important fixed effects can also be identified through use of ANOVA. For example,

  • assessor training effects,
  • staff/ student gender effects, and
  • associated interactions, 




계량 7: 표준화된 환자 등급
Metric 7: Standardised patient ratings


시뮬레이션/표준화된 환자(SP)를 사용하는 대부분의 센터는 후보자를 평가하도록 요구하며, 이는 일반적으로 집중적인 훈련 프로그램을 따른다. 우리 기관 내에서 SP는 "이 의사와 다시 상담하시겠습니까?"와 같은 질문을 받을 것입니다. 다양한 반응(동의함, 동의함, 동의함, 동의하지 않음, 동의하지 않음 또는 강하게 동의하지 않음)에서 후자의 두 반응은 불리한 것으로 간주한다. 메트릭 4(스테이션 Failure 횟수)와 마찬가지로 SP 등급에 불리한 점수를 받는 후보자의 정상 비율보다 비율(예: >10%)이 높다면, 문제라고 볼 수 있습니다. 스테이션 레벨에서 SP 등급의 '허용 가능한' 범위에 대한 사용 가능한 문헌이 없으므로 임의적으로 컷오프 수치 10%를 선택했습니다. 
Most centres that use simulated/standardised patients (SPs) require them to rate candidates, and this typically follows an intensive training programme. Within our own institution, SPs would be asked a question such as Would you like to consult again with this doctor? with a range of responses (strongly agree, agree, neither agree nor disagree, disagree or strongly disagree), the two latter responses being regarded as adverse. Akin to Metric 4 (Number of station failures), a higher than normal proportion of candidates (e.g. 410%) receiving adverse SP ratings may indicate problems. There is no available literature on what constitutes an ‘acceptable’ range of SP ratings at station level, so we have chosen an arbitrary cut off figure of 10%. 


정상보다 높은 Failure률과 결합할 경우 (스테이션에서 다루는) 주제를 제대로 가르치지 못한 결과일 수 있습니다. 
If this is coupled with a higher than normal failure rate, it could be the result of inadequate teaching of the topic. 


평가의 전반적인 신뢰성은 점검표 점수에 SP 등급을 추가하면 높아질 수 있습니다. 일반적으로 SP 등급은 총 스테이션 점수의 10-20%를 기여해야 합니다(Homer & Pell 2009). 
The overall reliability of the assessment may be increased by adding the SP rating to the checklist score; typically the SP rating should contribute 10–20% of the total station score (Homer & Pell 2009). 

OSCE 품질의 360도 그림
The 360 degree picture of OSCE quality


스테이션 8의 측정 지표(상담, 진단 및 의사결정에 초점을 맞춘)의 검토는 전체 평가 신뢰도에 긍정적인 기여를 한다(항목 삭제 시 알파 0.749). 그림 4의 곡선 추정치에서 볼 수 있듯이, R2계수는 0.4로 저조하며, 등급 내 항목 체크리스트 점수가 광범위하며, 상위 등급(통과, 신용, 구별)에 걸쳐 상당히 중복된다. 
Review of the metrics of station 8 (focusing on consultation, diagnosis and decision making) shows a positive contribution to overall assessment reliability (alpha if item deleted 0.749). As can be seen below in the curve estimation in Figure 4, the R2 coefficient is poor at 0.4 with a widespread of itemchecklist scores within grades, and significant overlap across the higher grades (pass, credit and distinction). 

 



스테이션 9는 아래 그림 5의 곡선 추정으로 표시됩니다. 여기서는 신뢰성에 대한 보다 긍정적인 기여(항목 삭제 시 알파 0.74)와 더 나은 스테이션 수준 메트릭을 확인할 수 있습니다. R2 계수는 0.5에서 허용되지만 군간 분산은 36%로 여전히 높습니다.

Station 9 is represented by the curve estimation seen below in Figure 5. Here we see a more strongly positive contribution to reliability (alpha if item deleted 0.74) and better station-level metrics. The R2 coefficient is acceptable at 0.5, but between group variance is still high at 36%.  

 

관측치에 의한 품질 관리: OSCE까지 실행 중인 문제 및 당일 탐지 
Quality control by observation: Detecting problems in the run up to OSCEs and on the day 


OSCE에 앞서, 오류 분산에 기여하는 많은 요소들을 예측하고 아래 사항들을 적용하여 수정할 수 있습니다. 
In advance of the OSCE, many of the contributing factors toerror variance can be anticipated and corrected by applying some of the points below 

. 설계가 일치도congruence를 확인하기 위해 여러 스테이션에 걸쳐across stations 검사

. 체크리스트 설계, 가중치 및 고정점 측면에서 신규(그리고 기존) 스테이션이 최신 요구 사항을 준수하는지 확인  

. 여러 병렬적 OSCE circuit의 세팅이 동일한지 검토: 예를 들어 스테이션 외부에 소독제를 배치하게 되면, 평가자는 응시자가 손 위생을 제대로 하는지 평가할 수 없다.

. 스테이션이 동일한 장비 제공(또는 학생들이 [서로 다른 장비]로 [서로 다른 접근 방식]을 배웠다면 유연성을 허용).  

. Checking across stations to ensure congruence in design.

. Ensuring that new (and older, established) stations follow up to date requirements in terms of checklist design,weighting and anchor points.  

. Reviewing the set up of parallel OSCE circuits – for example, differences in the placing of gel disinfectant outside a station may mean that the assessor may not beable to score hand hygiene approaches.  

. Ensuring that stations carry the same provision of equipment (or permit flexibility if students are taught different approaches with different equipment).  


OSCE를 전달하는 동안 오류 분산의 다른 원인이 발생할 수 있습니다.
Other sources of error variance can occur during the delivery of the OSCE:

. 평가 전 브리핑에 늦게 도착하여 지정된 방법론을 제대로 준수하지 못한 평가자.  

평가자의 무단 요청prompting(교육 및 사전 시험 브리핑에도 불구하고). 

. 평가자에 의한 부적절한 행동(예: 과도한 상호작용을 통해 스테이션의 '톤'을 바꿈). 

. 질문이 학생들에게 프롬프트 역할을 하는 지나치게 적극/유도자극적인 시뮬레이션 환자. 

. 편향된 실제 환자(예: 성별 또는 인종 편견). 시뮬레이션 환자는 후보자와 상호작용하는 방법에 대한 교육을 받지만, 실제 환자 대다수가 시뮬레이터와 동일한 수준으로 수행하는 것은 가능하지 않을 수 있다.  

. 응시자가 교대할 때, (평가자(또는 보조자)가) 장비를 출발 또는 중립 위치로 되돌리지 않는 것


. Assessors who arrive late and miss the pre-assessment briefing and who therefore fail to adhere adequately to the prescribed methodology.  

. Unauthorised prompting by assessors (despite training andpre-exam briefings). 

. Inappropriate behaviour by assessors (e.g. changing the‘tone’ of a station through excessive interaction). 

. Excessively proactive simulated patients whose questionsact as prompts to the students. 

. Biased real patients (e.g. gender or race bias). Simulated patients receive training on how to interact with the candidates, but this may not be possible with the majorityof real patients to the same level undertaken with simulators.  

. Assessors (or assistants) not returning equipment to the startor neutral position as candidates change over.

사후 교정 조치
Post hoc remedial action


장소 효과에 대한 총 점수 조정
Adjustment of total marks for site effects


가장 쉬운 방법은 모든 사이트에서 공통의 평균으로 조정하는 것입니다. 이러한 조정 후에는 예를 들어 모든 falure가 단일 사이트에 국한되지 않도록 불합격 학생의 사이트 프로파일을 확인해야 합니다. 조정 수준을 계산할 때 단일 특정 사이트 내에 위치한 특수 요구 그룹(예: 후보자에게 건강 요구의 결과로 추가 시간을 제공)의 효과를 할인해야 합니다.
The easiest method is to adjust to a common mean across allsites. After any such adjustment, the site profile of failing students should be checked to ensure that, for example, allfailures are not confined to a single site. The effect of any special needs group (e.g. candidates receiving extra time as aresult of health needs) located within a single specific site needs to be discounted when computing the adjustment level.

측점 레벨 조정
Adjustment at the station level

어떤 부작용도 서로를 취소시키는 경향이 있기 때문에 이것은 거의 필요하지 않습니다. 드문 경우지만 위의 스테이션 레벨 절차를 수행할 수 있습니다. 
This is seldom necessary because any adverse effects will tend to cancel each other out. In the rare cases where this does not happen, a station level procedure as above can be carried out. 

스테이션 제거
Removal of a station


다시 말하지만, 이는 드문 사건이며 그 기준은 일반적으로 복수의 불리한 측정 기준이며, 그 결과는 평가 결정이 항소에 대해 변명의 여지가 없을 정도로 학생들에게 불리하게 작용할 것이다. 
Again, this is a rare event and the criteria for this is usually multiple adverse metrics, the result of which would disadvantage students to such an extent that the assessment decisions are indefensible against appeal. 

결론
Conclusion


저자의 기관에서는 데이터를 분석하는 사람과 임상 평가를 설계 및 관리하고 교육을 개발/제공하는 사람이 서로 밀접하게 관계를 가지고 있다. 스테이션 레벨 메트릭에 대한 일상적이고 자세한 검토에서 체크리스트와 글로벌 등급 간의 불일치가 발견되었습니다. 분석 결과를 바탕으로 특정 OSCE 스테이션을 재설계하고 이후 측정 기준을 개선했습니다. 이러한 재설계에는 다음이 포함됩니다.
In the authors’ institution, there is a close relationship between those who analyse the data, and those who design and administer the clinical assessments and develop/deliver teaching. Routine and detailed review of station level metrics has revealed mismatches between checklists and global ratings. This has lead to the redesign of certain OSCE stations with a subsequent improvement of metrics. Some of these redesigns include: 

. 다수의 단순한 기준을 더 높은 수준의 더 적은 기준으로 청킹(묶음).

. 더 높은 수준의 기준을 허용하기 위해 청킹(Chunking)을 수행함으로써, 더 높은 수준의 프로세스 중심 성과를 평가할 수 있습니다.

. 평가자 체크리스트에 [중간 등급 기술자]를 포함.

. 체크리스트 기준에 해당하는 경우 두 개의 anchor 대신 세 개의 anchor을 두도록 보장함으로써 평가자에 의한 차별이 더 커지도록 한다.

. 서로 다른 회로의 물리적 배열arrangement 간의 획일성uniformity이 높아집니다.

. Chunking of a number of simple criteria into fewer criteria of higher level.

. Chunking to allow for higher level criteria commensurate with the stage of student progression, allowing assessment of higher level, less process-driven performance.

. The inclusion of intermediate grade descriptors on the assessor checklists.

. Ensuring that checklist criteria have three instead of two anchors where appropriate, thereby allowing greater discrimination by assessors.

. A greater degree of uniformity between the physical arrangements of the different circuits.



[평가자 간의 일치도가 좋지 않다는 징후]는 때때로 평가의 품질에 도움이 되는 여러 가지 변화로 이어집니다.
Indications of poor agreement between assessors has, on occasion, lead to a number of changes all of which have been beneficial to the quality of assessment:

. 평가자 훈련 방법 업그레이드.

. 오래전에 교육을 받은 평가자 업데이트('새로 고침')

. 평가자를 위한 보다 상세한 서포트 자료 제공.

. 평가 전 평가자 브리핑 개선

. 평가 전에 SP 브리핑 개선

. 더미는 평가자와 SP 모두에 대한 공식적인 평가 전에 실행됩니다(예: 학생 수가 상대적으로 적은 경우, 그리고 학생 수가 적은 치과 OSCE에서만 실제로 실행 가능합니다).

. Upgrading of assessor training methods.

. Updating (‘refreshing’) assessors who were trained some time ago.

. The provision of more detailed support material for assessors.

. Improved assessor briefings prior to the assessment.

. Improved SP briefings prior to the assessment.

. Dummy runs before the formal assessment for both assessors and SPs (this is only really practicable where students numbers are relatively small, e.g. resits, and in dental OSCEs with smaller cohorts of students).

 

 

 

 


Med Teach. 2010;32(10):802-11.

 doi: 10.3109/0142159X.2010.507716.

How to measure the quality of the OSCE: A review of metrics - AMEE guide no. 49

Godfrey Pell 1Richard FullerMatthew HomerTrudie RobertsInternational Association for Medical Education

Affiliations collapse

Affiliation

  • 1Leeds Institute of Medical Education, University of Leeds, Level 7, Room 7.20, Worsley Building, Clarendon Way, Leeds LS2 9NL, UK. g.pell@leeds.ac.uk

Free article

Abstract

With an increasing use of criterion-based assessment techniques in both undergraduate and postgraduate healthcare programmes, there is a consequent need to ensure the quality and rigour of these assessments. The obvious question for those responsible for delivering assessment is how is this 'quality' measured, and what mechanisms might there be that allow improvements in assessment quality over time to be demonstrated? Whilst a small base of literature exists, few papers give more than one or two metrics as measures of quality in Objective Structured Clinical Examinations (OSCEs). In this guide, aimed at assessment practitioners, the authors aim to review the metrics that are available for measuring quality and indicate how a rounded picture of OSCE assessment quality may be constructed by using a variety of such measures, and also to consider which characteristics of the OSCE are appropriately judged by which measure(s). The authors will discuss the quality issues both at the individual station level and across the complete clinical assessment as a whole, using a series of 'worked examples' drawn from OSCE data sets from the authors' institution.

 

 

 

의학교육에서 젠더는 중요하다 (Med Educ, 2013)
Gender matters in medical education
Alan Bleakley

 

 

소개: 의료진의 여성화
Introduction: the feminising of the medical workforce

 

이 글은 의학 교육에는 거의 적용되지 않지만 문화학 등 다른 학문 분야에서도 잘 정립되어 있는 현대 사회과학의 사고의 흐름을 논하고 있다: 후기 구조주의 페미니즘.1, 2 이러한 사고의 흐름은 성(性)을 다시 생각하는 데 귀중한 시각을 제공한다. 의학 교육 이론과 실천에 관한 쟁점들, 그리고 사회 과학의 현대적 생각들이 어떻게 의학 교육의 혁신을 형성할 수 있는지를 보여준다. 중요한 것은, 후기 구조주의 페미니즘은 남성 페미니스트를 포함하고 현대 의학과 의학 교육을 지배해온 습관적인 가부장적 관행에 도전하는 접근방식이다.
This article discusses a stream of thought in contemporary social science that is rarely applied to medical education, but is well established in other academic fields, such as cultural studies: post-structuralist feminism.1, 2 This stream of thought, which is fully explained later in the article, offers a valuable perspective for rethinking gender issues in medical education theory and practice, and illustrates how contemporary ideas in the social sciences can shape innovation in medical education. Importantly, post-structuralist feminism is an approach that includes male feminists and challenges habitual patriarchal practices that have dominated modern medicine and medical education.

서술적 인구학 연구는 [의학에서 여성women in medicine]에 대한 문헌을 지배하고 있으며, 이 기사의 후반부의 관심사인 후기 구조주의 페미니즘의 대체적alternative 이론적 체계를 고려하기 전에 이 연구의 틀을 감상하고, 이해하고, 비판적으로 다루는 것이 중요하다.
Descriptive demographic studies dominate the literature on women in medicine, and it is important to appreciate, understand and then critically address this body of work prior to considering the alternative theoretical framework of post-structuralist feminism that is the concern of the second half of this article.

전세계적으로 남성보다 여성이 의대에 입학함에 따라 의료 인력에 여성 의사가 과반수를 차지할 것이다.3-6 이러한 인구 변화는 '의학의 여성화'라고 일컬어진다.7 그러나 의학에서 '여성화'의 의미는 인구학적 설명을 넘어 문화적 과정을 설명하는 것으로 확장될 수 있다. 나아가 의학의 페미니즘이 의학의 문화뿐만 아니라 의학교육에도 어떤 의미가 있을지 생각해 보는 것이 중요하다. 이 소개 섹션에서는 인구학적 이슈를 성별 사고 방식과 같은 인구학적, 생물학적 문제를 넘어 성 문제를 탐구할 수 있는 플랫폼으로 소개합니다.

As more women than men enter medical schools worldwide, in time the medical workforce will comprise a majority of women doctors.3-6 This demographic shift has been referred to as the ‘feminisation of medicine’.7 The meaning of ‘feminisation’ in medicine, however, can be extended beyond demographic descriptions to account for cultural processes. Further, it is important to consider what the feminising of medicine might mean not just for the culture of medicine, but also for medical education. In this introductory section, demographic issues are introduced as a platform from which to explore gender issues beyond demography and biology, such as gendered ways of thinking.

인구 이동
Demographic shifts

인구통계학은 문자 그대로 '사람에 관한 글'을 의미하며, 개인보다는 인구에 대한 연구를 말한다. 여성 및 의료: 영국 왕립 의사 대학을 위해 작성된 2009년 보고서인 Women and Medicine: The Future는 서술적 인구통계학의 좋은 예이다.5 여성 학술 사회학자가 작성한 이 보고서는 서술적 통계의 데이터셋을 자세히 설명하고 추론, 추측 또는 이론적 모델링에 거의 포함하지 않는다. 사회과학자들의 그러한 서술적 연구로부터, 트렌드를 포함한 후기 산업 국가의 의학에서의 젠더에 대해 무엇을 알 수 있을까?
Demography literally means ‘writing about the people’ and refers to the study of populations rather than individuals. Women and Medicine: The Future, a 2009 report prepared for the UK Royal College of Physicians, is a good example of descriptive demography.5 Written by a female academic sociologist, the report elaborates on a dataset of descriptive statistics and includes little in the way of inference, speculation or theoretical modelling. From such descriptive work by social scientists, what do we know about gender in medicine in post-industrial countries, including trends?

의학에 진입하는 여성의 수:
Women entering medicine: the numbers

펜실베니아 필라델피아는 미국 최초의 의대를 유치하면서도 1960년 여성을 입학시킬 수 있는 마지막 의대(제퍼슨 의과대학)를 유치한 것이 복합적으로 구별된다. 최초의 여성은 1847년 미국의 의대에 입학했다. 2003년까지 제퍼슨은 대다수의 여자 의대생들을 입학시켰다. 1800년대 후반 미국에서 여성이 개업 의사 중 10%를 차지했지만 1920년대에 이르자 여성들은 사실상 의료 인력에서 사라졌다. 그러나 2003년까지 미국의 의과대학 입학생들은 성별의 균형을 보였고 2005년까지 많은 학교들이 약 60퍼센트의 여성과 40%의 남성으로 구성된 입학 수치를 보였다. 현재 전 세계 의과대학 학생들의 대다수를 여성이 차지하고 있으며 북미, 유럽, 호주 및 러시아에서 평균 60%의 학생 섭취를 차지하고 있습니다. 영국에서는 2003년 62%로 정점을 찍은 뒤 2007년 57%로 낮아져 안정세를 보였을 수도 있다.
Philadelphia, Pennsylvania has the mixed distinction of hosting the first medical school in the USA, but also of hosting the last medical school (Jefferson Medical College) to admit women, in 1960. The first woman was admitted to a medical school in the USA in 1847.6 By 2003, Jefferson was admitting a majority of women medical students (51.5%). Although women comprised 10% of practising doctors in the USA in the late 1800s, by the 1920s women had practically disappeared from the medical workforce. However, by 2003, entrants to medical school in the USA showed a gender balance and by 2005 many schools showed entrance figures comprised of around 60% women and 40% men.6 Women now constitute the majority of students in medical schools worldwide and represent an average of 60% of student intake across North America, Europe, Australia and Russia.3-10 In the UK, the numbers may have stabilised, having peaked at 62% in 2003 and fallen to 57% in 2007.5

이러한 통계는 '의학적 시한폭탄'과 같은 문구를 포함한 헤드라인을 포함한 경보주의 언론기사를 통해 공개되었다.10  인터내셔널 헤럴드 트리뷴의 1면 기사 '서양의학의 얼굴 변화'는 [젊은 여성 세대]가 '한 때 남성 중심적이었던 의대를 변화시키고, 의대를 부풀리고, 1차 진료의 최전선으로 몰아가고 있는' 과정을 자세히 다루고 있다. 미사여구는 신중하게 선택된다: '부글부글'과 '떼짓기'는 아마도 새로운 전문가 집단의 출현을 의미할 것이다.

These statistics have entered the public domain through alarmist press articles carrying headlines that include phrases such as ‘the medical timebomb’.10 A front-page article in the International Herald Tribune entitled ‘The changing face of Western medicine’ detailed how ‘Across the Western world’ a generation of young women ‘is transforming the once-male bastion of medicine, swelling medical schools and flocking to the front lines of primary care’.3 The rhetoric is carefully chosen: ‘swelling’ and ‘flocking’ perhaps signify the emergence of a new family of professionals.

남성들이 의료 지원에서 쫓겨나는 것에 대한 두려움은 근거가 없을지도 모른다. 예를 들어, 영국에서는 의과대학 지원자의 절대적인 증가로 인해 자리를 차지하는 남성의 수가 증가하였다. 2007년에는 의과대학에 1996년보다 1200명의 남자가 합격했다. 또한, 영국에서는 유학생의 수가 증가하고 있으며, 이들은 남성인 경우가 더 많다.5

A fear that men are being driven away from applying for medicine may be unfounded. For example, in the UK, because of an increase in the absolute numbers of applicants to medical schools, the number of males taking up places has increased. In 2007, 1200 more men were accepted for medical school than in 1996 (in comparison with 1760 more women).5 Further, in the UK, numbers of international students are increasing and these tend to be more commonly male.5

미래에는 여성이 다수가 될 것인가?
Will women be in the majority in the future?

전 세계적으로 이 질문에 대한 답은 '예'.3입니다. 영국은 현재 전체 의사의 약 40%, 일반의사(GP)의 42%, 컨설턴트의 28%를 여성이 차지하고 있다.5 그러나 영국에서는 여성이 35세 미만 의사 중 54%를 차지하고 있지만 프랑스와 스페인에서는 각각 58%와 64%를 차지하고 있다.3 2017-2022년까지 영국에서 여성은 방사선, 안과 및 수술을 제외한 모든 분야의 컨설턴트 임용으로 이동하는 전문의 대다수를 차지할 가능성이 높다.5

Worldwide, the answer to this question is ‘yes’.3 In England, women currently account for approximately 40% of all doctors, 42% of general practitioners (GPs) and 28% of consultants.5 However, women constitute 54% of doctors aged < 35 years in the UK, but 58% and 64% of this group in France and Spain, respectively.3 By 2017–2022, in the UK, women are likely to constitute the majority of specialists moving to consultant appointments in all fields other than radiology, ophthalmology and surgery.5

전문직 여성
Women in specialties

전공과목의 트렌드는 나라마다 다릅니다. 예를 들어, 방사선학에서 2009년 미국에서는 여성이 27%를 차지했지만 라트비아, 에스토니아, 벨라루스에서는 80%, 기타 유럽 국가에서는 50-60%를 차지했다. 링크는 여성 의사가 남자 의사보다 환자 및 동료와 더 잘 소통하고 더 적은 위험을 감수하기 때문에 방사선학의 '여성화'가 환자에게 좋은 뉴스라고 지적했다. McKinstry7은 의료진의 여성화에 따른 잠재적 위험성에 주목하면서, '공감력과 의사소통 능력도 중요하지만, 효율성과 위험과 더불어 살아가는 능력도 중요하다'며 '여성화'가 긍정적이라는 데 동의하지 않는다.
Specialty trends differ across countries. In radiology, for example, women constituted 27% of practitioners in the USA in 2009, but as much as 80% in Latvia, Estonia and Belarus, and 50–60% in other European countries.11 Rinck11 notes that the ‘feminisation’ of radiology ‘is good news for patients’ because women doctors communicate better with patients and colleagues and take less risk than their male colleagues. Noting potential dangers of the feminisation of the medical workforce, McKinstry7 disagrees: ‘Empathy and communication skills are important, but so are efficiency and the ability to live with risk.’

전세계적으로 여성들은 수술에서 과소대표되고 소아과와 1차 진료에서 과대대표되고 있습니다.12-14 이로 인해 향후 전문적 부족 현상이 발생할 수 있다는 우려로 이어지고 있습니다. 특히 수술에서 컨설턴트 직위로 이어지는 진로들은 전통적으로 아이를 갖기를 원하는 여성들을 위해 추구하기 어려웠다.15-17 여성은 탄력적 근무시간, 자녀양육 서비스, 지원멘토 등 일정한 구조적 요건이 충족되어야만 수술에서 커리어 사다리에 오를 수 있는 경향이 있다. 여성들은 점차적으로 강한 경쟁적 요소를 접하게 되면서 수술에 흥미를 잃을 수 있다. 왜냐하면 일반적인 여성 의사들은 더 많은 협업적 업무 맥락을 선호하기 때문이다.
Worldwide, women are under-represented in surgery and over-represented in paediatrics and primary care.12-14 This has led to a concern that there may be a future specialty shortfall. Career routes leading to consultant posts, particularly in surgery, have traditionally been harder to pursue for women who wish to have children.15-17 Women tend to be successful on the career ladder in surgery only if certain structural requirements are fulfilled, such as the provision of flexible hours, child-minding services and supportive mentors.18 Women may lose interest in surgery as they progressively encounter a strong competitive element because in general women doctors prefer more collaborative work contexts.19

인구 통계에 의해 제기된 문제
Issues raised by demographics

킬민스터 외 연구진 8은 위에서 요약한 수치와 같은 원시 인구통계 데이터가 네 가지 가능한 결과를 야기한다고 결론내렸다. 

  • 첫째, 이러한 추세는 여성들이 파트타임으로 일하고 조기 퇴사하여 잠재적인 인력 부족을 야기하기 때문에 인력 계획에 문제를 일으킬 수 있다.
  • 둘째, 트렌드는 여성들이 남성들이 가지고 온 것과는 다른 바람직한 자질을 실천에 옮기기 때문에 좋은 것일 수 있다.
  • 셋째, 졸업생들이 의료인력으로 진입하면서, 입학시점의 성별 차이는 줄어들even out 수 있다.
  • 넷째, 의료문화의 구조적 불평등이 지속되어 남성의 우위가 유지될 수 있다.

여기에 자본의 지속적인 문제가 추가될 수 있다.

Kilminster et al.8 conclude that the raw demographic data, such as the figures summarised above, raise four possible consequences.

  • Firstly, the trend may present problems for workforce planning as women will work part-time and leave the profession early, causing a potential workforce shortage.
  • Secondly, the trend may be a good thing as women bring desirable qualities to practice that differ from those brought by men.
  • Thirdly, gender differences at intake may even out as graduates enter the workforce.
  • Fourthly, structural inequalities in medical culture may persist, maintaining a male dominance.

To this can be added a continuing problem in equity.

형평성 문제
Equity issues

의학에서 남녀의 기회균등이라는 측면에서 [구조적인 문제]가 있을 뿐만 아니라 형평성, 즉 정의와 공정성 문제도 존재한다. 의학계 여성은 남성과 같은 일을 하는 것에 대해 더 낮은 보상을 받는다17, 여성이 고위직의 핵심직에서 과소대표되고 있지만, 여성에게 그들의 목표를 달성하는 데 필요한 자원과 기반시설의 제공을 충분히 하지 않음으로써, Medicine은 직업적 열망을 가진 여성들을 계속 실패하게 만들고 있다.20 여의사의 수입은 academic medicine의 남성보다 적다. 여성들의 직위 상승은 더 느리게 진척되고, 리더 역할을 쉽게 달성하지 못합니다. 이는 여성들의 생산성이나 헌신의 퀄리티 문제가 아니라, 구조적 제약을 받기 때문입니다.21
There is not only a structural problem in terms of equality of opportunity in medicine with regard to gender, but there also exists an equity, or justice and fairness, problem. Women in medicine are given poorer rewards for doing the same job as men17 and, although women are under-represented in key positions in the senior ranks, medicine continues to fail women with career aspirations through the poor provision of the resources and infrastructure necessary to help them achieve their goals.20 Women doctors earn less than men in academic medicine, progress through the ranks more slowly and do not readily attain leadership roles, not because of the quality of their productivity or commitment, but because they are subject to structural constraints.21

이러한 제약은 개인의 열망 수준에까지 이어진다: 설문조사에서 여성 의사들은 남성 의사들이 보고한 것보다 25% 정도 낮은 한도를 보고한다.22 전반적으로 여성 의사들은 자신들을 남성 의사들보다 능력이 떨어진다고 일관되게 평가한다.23

Such constraints are then realised at an individual level of aspiration: when asked in surveys what their potential earning power may be, women doctors report a ceiling that is around 25% lower than that reported by male doctors.22 Overall, women doctors consistently rate themselves as less capable than male doctors.23

여의사들이 파트타임으로 일하는 결과
Consequences of women doctors working part-time

상당수의 여의사들이 파트타임으로 출근한다면 리더십과 의료 교육을 포함한 노동자들에게 미칠 충격은 무엇일까? 남성 동료에 비해 여성 의사들은 이미 더 많은 파트타임 근무(85%)10에 종사하고 있으며, 아이를 가질 수 있는 기회를 용이하게 해줄 보다 유연한 근무시간을 원하고 있으며, 일반적으로 여성 GP들은 남성 동료들보다 더 일찍 은퇴할 계획이다.3-6
If a significant number of women doctors come to work part-time, what will be the knock-on effects for the workforce, including in leadership and medical education? In comparison with their male colleagues, women doctors already engage in more part-time work (85%)10 and want more flexible working hours that will facilitate the opportunity to have children, and women GPs in general plan to retire earlier than their male colleagues.3-6

이에 따른 연쇄적인 효과는 여성 의사들이 임상 및 학문적 리더십과 고위 경영자 역할을 추구하는 데 덜 끌리거나 전념하는 것이다. 그러나 이러한 성별 효과가 '리더십 부족deficit'를 낳을 가능성은 낮다. 지적했듯이, 의학에 입학하는 [남학생의 절대 숫자]가 증가했기 때문이다.5 오히려 이 문제는 기회와 형평성의 평등 중 하나이다.12 Dacre12는 의학의 여성화는 현재와는 다른 (즉, 여성 후보자들을 격려하는 방식으로) 리더십 역할이 구성될 수 있도록 인력 계획을 재고하는 기회를 만들어내고 있다.
A knock-on effect of this is that women doctors are less attracted or committed to seeking clinical and academic leadership and senior management roles. This gender effect is unlikely, however, to create a ‘leadership deficit’ in the future because, as noted, the absolute numbers of male students entering medicine have risen.5 The issue, rather, is one of equality of opportunity and equity.12 Dacre12 suggests that the feminisation of medicine is creating an opportunity to rethink workforce planning in a manner that may allow leadership roles to be configured differently than they are at present, encouraging women candidates.

케네스 루드머러의 미국 의학 교육 역사는 특히 '영웅들이 등장하기엔 너무 크고 단편화된' 맥락에서 현대의 '의학에서 영웅들의 실종'을 지적한다. 이것은 여성 의사들의 대표성이 심각하게 떨어지는 의학 교육의 페미니스트들에게는 좋은 소식처럼 보일 수 있다. 예를 들어 2007년 영국에서는 임상교수의 12%, 임상강사의 36%만이 여성이었으며 의과대학 34곳 중 2곳만이 여성학장이 있었다. 전체 교수로 임용되는 여의사가 15%, 학과장이 11%에 불과한 미국도 비슷한 입장이다.
Kenneth Ludmerer’s classic history of American medical education points to the contemporary ‘disappearance of heroes from medicine’ in a context in which ‘academic medicine’ in particular ‘has grown too large and fragmented for “heroes” to emerge’.24 This may seem like good news to feminists in medical education, in which women doctors are severely under-represented. For example, in 2007 only 12% of clinical professors and 36% of clinical lecturers in England were women, and only two of 34 medical schools had women deans.5 The position is similar in the USA, where only 15% of women doctors are appointed as full professors and 11% as department chairs.12

그러나 의대 여학생들이 남성들보다 더 효과적인 조력자를 만드는 경향이 있지만, 여의사들이 academic research 및 teaching에 참여할 가능성은 낮다.7 이는 '영웅의 실종'에도 불구하고 새로운 의대생들의 여성 롤모델이 부족함을 보여준다. 그러나 그러한 롤모델은 필요하다. 예를 들어, 의학 학부 커리큘럼에 성별 문제가 도입되는 경우, 이러한 움직임을 시작하는 것은 여성 교수진이다.27

However, although women medical students tend to make more effective facilitators than their male counterparts,25 women doctors are less likely to take up academic research26 and teaching.7 This presents a lack of female role models for new cohorts of medical students, despite the ‘disappearance of heroes’ from the field. Yet such role models are needed. For example, in instances in which gender issues are introduced into the medical undergraduate curriculum, it is women faculty staff who tend to initiate this move.27

컨설팅 스타일 및 커뮤니케이션: 환자를 위한 연쇄 효과
Consulting styles and communication: knock-on effects for patients

존경받는 선배의사들에 의한 역할모델링의 후배를 대상으로 한 연구에 따르면, 여성후배 의사들은 모방하고자 하는 핵심 요소로 '커뮤니케이션'을 보고한 반면, 남성후배 의사들은 의사소통이 훨씬 덜 중요하다고 여겼다고 한다.23 환자들이 궁극적으로 성별에 대해 우려하는지 여부에 대해서는 증거가 모호하지만, 여의사가 남성 동료보다 더 많은 연민과 친밀감을 가지고 환자를 치료하고 있으며, 의학의 심리적, 의사소통적 측면에 더 관심을 가지고 있다. 
A study in junior doctors of role-modelling by respected senior doctors found that women junior doctors reported ‘communication’ as the key element they wished to emulate, whereas male junior doctors considered communication to be much less important.23 Although evidence is equivocal as to whether patients are ultimately concerned about the gender of their doctors,23 women doctors treat patients with more overt compassion and intimacy than their male colleagues do and are more concerned with the psychosocial and communicative sides of medicine.6, 20-22, 28 

[여성 의사]는 [여성 환자]에 더 잘 적응할 수 있을 것이다. 여성 환자들은, (남성 환자보다) 더 많은 질문을 하고 더 많은 정보를 주고, 더 많은 정보를 확인하고, 바꾸어 의사에게 더 명확한 설명을 강요하고, '의사 중심' 상담 스타일이 아닌 '의사 중심'을 명시적으로 요구한다. 남자의사들보다, 여의사들은 (가까운 친구들이 포함된) 지지적 환경의 제공이 업무 만족도에 더 중요하다고 평가한다.

Women doctors may be better adapted to women patients, who ask more questions and give more information than male patients, and check and paraphrase information, thereby forcing the doctor into giving clearer explanations, and explicitly demand a ‘feelings-oriented’ rather than a ‘thoughts-oriented’ consultation style.28 Women doctors also rate the provision of a supportive environment, such as one that includes close friends, as more important to their work satisfaction than do their male colleagues.16

남성 동료들에 비해 더 공감적이고 환자 중심적인 여성 의사들의 스타일은 더 나은 환자 성과를 가져온 것으로 나타났다.12 이와 함께 영국의 2001~2010년 GP 중단 조사 결과 남성이 여성보다 더 많은 불만을 유발했으며 여성보다 5배 더 많은 정직 가능성이 있는 것으로 나타났다. 그러나 McKinstry는 '효율성'과 '위험성'에 대처하는 능력은 '공감 및 소통'만큼이나 중요하다고 제안한다. 맥킨스트리는 여성 GP가 환자와 더 오랜 시간을 보내고 refer할 가능성이 높으며, 여성 컨설턴트가 남성 동료보다 환자를 더 적게 보는 경향이 있으며, 이 두 가지 모두 제한된 자원의 확장에 기여한다고 지적한다.
The more empathic, patient-centred style of women doctors, compared with that of their male colleagues, has been shown to result in better patient outcomes.12 In addition, a UK study of the suspension of GPs between 2001 and 2010 found that men attracted more complaints than women and were five times more likely than women to be suspended as a result of investigations into complaints.29 However, McKinstry suggests that ‘efficiency’ and ability to deal with ‘risk’ are as important as ‘empathy and communication’.7 McKinstry points out that women GPs spend longer with patients and are more likely to refer, and that women consultants see fewer patients than their male colleagues, and that both of these tendencies contribute to the stretching of limited resources.7

이러한 원시적 서술적 인구통계학은 의학의 여성화 현상을 완전히 깨닫지 못한 것이며, 의학교육의 여성화에 대한 제한된 설명만 제공한다. 뭔가 더 필요한 게 있다. 데이터가 설명할 수 없을 정도로 발전하려면 설명이 필요하지만 의료 교육 이론과 실무의 요소를 재고할 수 있는 혁신적인 탐구를 유도해야 합니다. 이 논문의 나머지 부분에서는, 어떻게 후기 구조주의자 페미니스트 상상력이 그러한 재고를 이룰 수 있는지 논할 것입니다.

This raw descriptive demography does not fully realise the phenomenon of the feminising of medicine and certainly offers a limited description of the feminising of medical education. Something more is needed. The data clearly need explanation if they are to move beyond description, but also invite innovative explorations to rethink elements of medical education theory and practice. In the remainder of this paper, I will argue how a post-structuralist feminist imagination can achieve such a rethink.

 

페미니스트 이론
Feminist theory

이전 섹션에서 보면, 의학의 여성화로 인한 이득은 간단해 보일 수 있다. 여성이 대다수 인력을 대표하게 되면서 여성 의사들의 컨설팅 스타일에 기반을 둔 문화의 긍정적인 변화가 일어나 환자에게 혜택을 줄 것이다. 하지만 상황은 이보다 더 복잡하며 여성 의사들이 남성 동료들보다 효율적이지 못하고 자원 의존도가 높다는 비판을 넘어섰다.
From the previous section, the benefits of the feminising of medicine may seem straightforward. As women come to represent the majority of the workforce, a positive change in culture, grounded in women doctors’ consulting styles, will occur and will benefit patients. However, the situation is more complex than this and extends beyond criticism of women doctors as being less efficient and more resource-dependent than their male colleagues.

  • 첫째, 역사적으로 형성된 '남성' 혹은 가부장적 의학 문화는 단순히 생물학적으로 남성 의사가 많았기 때문일까? 
  • 둘째, 성별에 대한 생물학적 접근법의 한계는 무엇인가? 예를 들어, 여성들이 여성화에 독점권을 가지고 있는가, 아니면 전통적으로 가부장적이었던 문화를 여성화하는 데 있어서 남성들도 대리인 역할을 할 수 있는가? 
  • 또한, 의학과 의학교육의 여성화에 있어 게이와 레즈비언 의사입장은 어떠한가? 30, 31

 

  • Firstly, is the historically formed ‘masculine’ or patriarchal culture of medicine simply a result of the dominance of biologically male doctors?
  • Secondly, what are the limits of a biological approach to gender? For example, do women have a monopoly on feminisation, or can men also act as agents in feminising a traditionally patriarchal culture?
  • Further, what are the positions of gay and lesbian doctors in the feminisation of medicine and medical education?3031

 

'남성 시위'
The ‘masculine protest’

 

우리가 '여성적' 혹은 '남성적'이라고 말할 때, 우리는 생물학적 성, 즉 본질주의에 대한 문자 그대로의 설명이 아닌 문화적인 의미로 사용한다. 그들은 [은유적]으로 활용될 수 있다. '가부장제'는 남성을 지칭하는 문화적 맥락에만 관련되는 것이 아니며, 영웅주의, 합리주의, 확실성, 지성과 거리감, 객관화, 감상 이전의 설명을 수용하는 특정한 종류의 논리에 기초한 지배적인 문화적 형태를 말한다. 이러한 논리에 의해 채택된 핵심 전략은 [반대주의]이다. 예를 들어, 논리적인 것이 비논리적인 것의 반대이며, 전자는 후자보다 우월하다. 반대주의는 화해나 협력이 아닌 갈등의 전술이다. 
When we talk of the ‘feminine’ or the ‘masculine’, we use these terms in a manner that is not restricted to the literal description of biological sex – essentialism – but is cultural. They can be employed metaphorically. ‘Patriarchy’ does not relate to a cultural context that refers only to men, but refers to a dominant cultural form based on a particular kind of logic that embraces heroism, rationalism, certainty, the intellect, distance, objectification, and explanation before appreciation. A key strategy employed by this logic is oppositionalism: for example, the rational is opposed to the irrational and the former is dominant over the latter. Oppositionalism is a tactic of conflict rather than of reconciliation or collaboration. 

남성들이 현대의학과 의대 교육을 지배했다고 하는 것은 사실이지만, 이는 가부장제의 문화적 형태가 더 넓어진 측면이다. 미셸 푸코는 의학에서 가부장제의 구체적인 모습을 '의학적 시선'이라고 표현했는데, 이는 다양한 '남성의 시선'으로 해석된다. 32, 33 Bordo는 시체가 '여성의 영역'이라고 주장하며, 반면에 남자들은 '육체에 가까이 가지 않고, 그것을 바라보는 시각을 유지하는 것'을 원한다. 따라서 객관화된 '남성 시선'의 지배력에 관한 익숙한 논쟁을 리허설한다.
Although it is a truism to say that men have dominated modern medicine and medical education, this is an aspect of the wider cultural form of patriarchy. Michel Foucault has described the specific appearance of patriarchy in medicine as the ‘medical gaze’, interpreted as a variety of the ‘male gaze’.32, 33 Bordo34 argues that the body is ‘the province of the female’, whereas men, by contrast, want ‘to stand clear of the flesh, to maintain perspective on it’, thereby rehearsing a familiar argument concerning the dominance of an objectifying ‘male gaze’.

푸코의 설명에 따르면, 진단적 시선으로 몸 속 깊숙이 '보는' 의사의 투과 눈은 투과성 팔뚝과 차가운 논리 둘 다와 관련이 있다. 이 논리는 conducting 손과 손가락질 또는 탐침 손가락의 특이하게 남성적인 확장으로서 메스까지 확장됩니다.35 게다가, 의학적 시선은 클리닉의 위생된 하얀 입방체 안에서 정당화된다. 이는 건축에 있어서 냉정한 논리의 궁극적 표현이다. 이 곳에서는 남성 의사가 낯선 여성(환자로서)에 대한 전문적인 정밀 검사를 수행하도록 허가받았으며, 이러한 것은 다른 맥락에서는 금기 사항일 수 있습니다. 페미니스트s는 이 지배적인 가부장적 콤플렉스를 '팔로고 중심적'이라고 칭하게 되었다.

In Foucault’s description, the penetrating eye of the doctor that ‘sees’ into the depths of the body in a diagnostic gaze is associated with both the penetrating phallus and a cold logic. This logic extends to the scalpel as a peculiarly masculine extension of the conducting hand and the pointing or probing finger.35 Further, the medical gaze is legitimated within the sanitised white cube of the clinic, the ultimate expression of cold logic in architecture, in which the male doctor has been sanctioned to perform professional intimate examinations of women strangers, as patients, that would be taboo in other contexts. Feminists have come to term this dominant patriarchal complex ‘phallogocentric’.1

현대의학의 제도적 가부장제는 한 세기 전 정신분석학자 알프레드 아들러가 '남성 시위'라고 묘사한 것에 대한 대가를 치르고 있다.36 무수히 반복된 주장은 [의사들은 너무 많은 고통을 보고 있기 때문에 객관화와 거리 두기를 통해 스스로를 보호해야 한다는 것]이다. 정신분석학적으로, 그들은 부정과 억압이라는 더 강력한 자아 방어 메커니즘을 사용하는 경향이 있다. 그러나 이 '남성 시위'는 궁극적으로 '공감 감소'의 형태로 역효과를 낳는다. 의대생들은 환자를 대상화objectify하는 법을 배운다.37
Modern medicine’s institutional patriarchy is bought at a price, characterising what the psychoanalyst Alfred Adler described nearly a century ago as the ‘masculine protest’.36 The well-rehearsed argument is that doctors see so much suffering that they must protect themselves, through objectification and distancing, from carrying this suffering. Psychoanalytically, they tend to use the stronger ego defence mechanisms of denial and repression. However, this ‘masculine protest’ ultimately has a counterproductive effect in the form of ‘empathy decline’, whereby medical students learn to objectify patients.37

의대생들의 공감저하 연구들은 효과를 과장했다는 비판을 받아왔으며, 공감의 심리측정이 예측가치와 같은 제한된 효용성을 제공하는 것으로 나타났다.39 '공감', 40, 41이라는 용어의 정확한 의미에 대한 논란도 있어 '측정'이 무엇인지 의문을 제기하고 있다. 그러나 공감의 정의에 대한 강력한 방어와 공감 차원에 대한 심리학적 측정의 타당성이 제시되었다.42 또한 공감 감소 현상에 대한 그럴듯한 설명이 제시되었다.43 명시적 커리큘럼 설계를 통해 공감 감소가 억제되었다는 주장이 제기되었지만 측정된 수준은 의대 남학생보다 여학생이 공감 능력이 더 큰 것으로 나타났습니다.44

Studies of empathy decline in medical students have been criticised as exaggerating the effect38 and psychometric measures of empathy have been seen to afford limited utility, such as predictive value.39 There is also debate about the precise meaning of the term ‘empathy’,40, 41 which raises questions about what is supposedly being ‘measured’. However, robust defences of both definitions of empathy and the validity of psychometric measurement of dimensions of empathy have been made.42 Further, plausible explanations for the phenomenon of empathy decline have been offered.43 Although claims are made that empathy decline has been stemmed through explicit curriculum design, measured levels of empathy remain greater in female than in male medical students.44

공감 능력이 저하되면, 특히 의대생들이 임상 기반의 학습을 진행함에 따라, 그리고 특히 남성들 사이에서 억압된 영향은 증상적인 형태로 돌아올 수 있습니다. '남성 시위'의 감염에 저항하지 못하는 의사들 사이에서 약물 남용, 탈진, 우울증, 자살 사상, 자살 등의 비교적 높은 비율이 여기에 포함된다.45, 46 '남성 시위'는 의학의 모든 프로시져에 흐르는 논리를 제공하며, 궁극적으로 수술 문화에서 정점에 도달한다.
If empathy is reduced, particularly as medical students progress to clinically based learning, and particularly amongst men, repressed affect may return in symptomatic form. This includes relatively high rates of substance abuse, burnout, depression, suicide ideation and suicide amongst doctors, who are unable to resist the infection of the masculine protest.45, 46 The ‘masculine protest’ offers a logic that runs through all of medicine’s procedures and reaches its apex in the culture of surgery.

의료교육에서 가부장제의 우위에 대한 두 가지 간단한 실례가 이 부분을 마무리할 것이다. 첫 번째는 임상 기술 훈련에 사용되는 'one-sex' 마네킹의 출현에 관한 것으로, 첨단 기술인 '심맨'에 여성용 마니킨이 없다는 사실이 이를 입증한다. 두 번째는 생명윤리학자 Tod Chambers에 의해 강조되는데, 그는 [의료윤리 사례 연구]조차도 남성의 세계관에 특권을 주는 방식으로 작성되어 있으며, 특정 개인에게 무감각한insensitive 추상적 원칙에 기반을 둔 접근을 통해, '사람'이 대상화되고 분석된다고 제안한다.48

Two brief illustrative examples of the dominance of patriarchy at work in medical education will round off this section. The first concerns the rise of the ‘one-sex’ manikin used for training in clinical skills,47 demonstrated by the fact that the high-tech ‘SimMan’ does not have a female equivalent. The second is highlighted by the bioethicist Tod Chambers, who suggests that even the medical ethics case study is written in a way that privileges a male worldview, whereby the ‘person’ is objectified and analysed through an abstract principles-based approach that is insensitive to the particular individual.48

페미니즘의 부상
The rise of feminisms

[남성 시위masculine protest]에 대응하여 여성과 남성 모두를 참여시키고 가부장적 가치에 대한 도전을 명확히 하는 사회운동이 전개되었다

  • 19세기 말과 20세기 초의 선거권자들은 이전에 여성들에게 거부되었던 여성의 '선거권'을 지지하는 사람들이었다. 이 운동은 1960년대와 1970년대의 '제2의 물결' 페미니즘에 관련된 사람들에 의해 소급적으로 '1차 물결' 페미니즘으로 불렸다. 이 때 쟁점은 기회의 평등, 생식 주기에 대한 통제, 사회적 문제에 대한 형평성 또는 정의에 관한 것이었다. (예를 들어, 1971년 2월까지 스위스에서 여성들은 투표할 수 없었다.)
  • 제2의 물결 페미니스트는 출산을 포함한 생식 주기가 '의학화'되었고 남성 중심의 의료 직종에 의해 통제되었다는 사실을 지적할 것이다.

In response to the masculine protest, a social movement has developed, involving both women and men, and articulating a challenge to patriarchal values.

  • The suffragettes of the late 19th and early 20th centuries were supporters of women’s ‘suffrage’ or the right to vote, previously denied to women. This movement was retrospectively termed ‘first-wave’ feminism by those involved in the ‘second-wave’ feminism of the 1960s and 1970s, in which the issues were largely about equality of opportunity, control over the reproductive cycle, and equity or justice in social matters (although, for example, women were not able to vote in Switzerland until February 1971).
  • Second-wave feminists would point to the fact that their reproductive cycles, including birth, had been ‘medicalised’ and were controlled by a male- dominated medical profession.

여성권리를 지지하는 남성도 포함됐지만, 제2의 물결에서는 남성들을 배제하는 '독재주의자separatist' 페미니즘이 생겨났다. [제3의 물결]의 페미니즘은 1980년대 동안 민족, 동성애, 문화적 정체성의 보다 광범위한 문제를 인정하기 위해 등장했고, 여성에게 기회와 형평성의 평등, 또는 정의와 권리를 촉진하기 위해 가부장제의 우위에 도전하기 위해 동정적인 남성sympathetic men들과 동맹했다.
Although the suffragists included men who supported women’s rights, ‘separatist’ feminism arose in the second wave, from which men were excluded. Third-wave feminism emerged during the 1980s to acknowledge wider issues of ethnicity, gay and cultural identities and allied with sympathetic men to challenge the dominance of patriarchy to promote equality of opportunity and equity, or justice and rights, for women.

[제3의 물결 페미니즘]은 생물학적 본질주의에서 문화의 측면이 젠더, 특히 젠더고정관념을 어떻게 생산하느냐에 관심을 옮겼다. 여기서 쟁점은 [지배적 가치, 사고방식, 가부장적 사회를 재생산하는 활동]을 debate하는 것이다. 예를 들어, 철학자 윌리엄 제임스는 '터프한 마음'과 '순한 마음' 사이에 긴장이 있다는 생각을 제시한다.49 터프한 마음가짐이 더 남성적이고 '순한 마음가짐'이 더 여성스러운 것으로 인식되지만, 그렇다고 모든 남성이 터프하고 모든 여성이 마음이 여린 것은 아니다.
Third-wave feminism shifted interest away from biological essentialism to focus, rather, on how aspects of culture produced gender, especially gender stereotypes. The issue here is to debate dominant values, ways of thinking and activities that reproduce patriarchal society. For example, the philosopher William James presents the idea that there is a tension between ‘tough-minded’ and ‘tender-minded’ thinking.49 Tough-minded thinking is perceived as more male and ‘tender-minded’ thinking as more female in character, but this does not mean that all men are tough-minded and all women are tender-minded.

의학문화에 이를 적용한다면 의학이 남성에게 지배되고 가치관에서도 강경했던 것은 사실이지만 그렇다고 해서 일부 남성 의사는 tender-minded하고, 일부 여성 의사는 tough-minded하다는 뜻은 아니다. 제임스는 원래 이러한 서술어를 철학의 학교에서 이성적 경험론자와 실증론자의 강인한 학파, 그리고 이성보다 감정과 직관을 높인 부드러운 낭만주의 학파를 묘사하기 위해 사용했습니다.

If we apply this to the culture of medicine, although it is true that medicine has been dominated by men and has also been tough-minded in its values, this does not mean that some male doctors will be tender-minded and some women doctors tough-minded. James used these descriptors originally for schools of philosophy to describe on the one hand the tough-minded school of rational empiricists and positivists, and on the other the tender-minded school of the romantics, who elevated feeling and intuition above reason.

후기 구조주의자 페미니즘
Post-structuralist feminism

제3의 물결 페미니즘은 문화적 담론을 통해 성 정체성이 생성되는 방법에 관심이 있다. 이건 두 갈래로 갈라져. 

  • 첫째, 당신이 여자나 남자 몸을 가지고 태어났다고 해서, 이것은 당신이 특정한 방식으로 행동하도록 운명지어져 있다는 것을 의미하지는 않는다. 
  • 둘째, 문화적 가치의 집단을 '여성적'이라고 부를 수 있다는 것은 이것이 여성이나 어머니의 전유물이라는 것을 의미하지 않는다.

Third-wave feminism is then interested in how gender identities are produced through cultural discourse. This cuts two ways.

  • Firstly, just because you are born with a female or a male body (and some people are born with indeterminate gender), this does not mean that you are destined to act in a particular way.
  • Secondly, that a group of cultural values (such as sensitivity and tenderness) can be called ‘feminine’ does not mean that these are the exclusive domain of women or mothers.

 

2010년 유엔교육과학문화기구(UNESCO)는 '글로벌 사회과학 풍경'과 사회과학이 국제적 이슈에 기여하는 내용을 담은 보고서를 작성했다. 이 보고서는 '사회과학이 이렇게 영향력 있는 것은 처음'이라고 시사했다. 이상하게도 400페이지가 넘는 보고서에는 사회과학이 의학이나 의학교육에 미치는 영향에 대해 구체적으로 언급되지 않고 있지만, '신체'에 대한 한 문단이 있다. 이 단락은 [역사적으로 신체는 의학과 생물학 연구의 영역이었지만, 1990년대 이후 신체는 다양한 사회과학의 학문 간 만남의 지점이 되었다]는 점에 주목한다. 이와 같이 사회과학이 신체를 연구 대상으로 전환함에 따라 [신체를 정교한 기계로 보는 의학적인 관점에 대한 비판]이 제기되었으며, 다음과 같은 생각이 도입되었습니다. '일부 페미니스트와 포스트모던 이론가들에게 신체body는 안정적인 경험의 현장이라기보다는 단지 담론의 효과일 뿐이다.'

In 2010, the United Nations Educational, Scientific and Cultural Organization (UNESCO) produced a report on the ‘global social science landscape’ and the contribution of the social sciences to international issues.50 The report suggested: ‘Never before have the social sciences been so influential.’50 Strangely, in the 400-plus pages of the report, no mention is made specifically of the influence of the social sciences on medicine or medical education, but there is one paragraph on ‘the body’. This paragraph notes that the body has, historically, been the domain of study in medicine and biology, but ‘since the 1990s, the body has been an interdisciplinary meeting point for various social sciences’.50 This turn of the social sciences towards the body as an object of study has led to a critique of the medical view of the body as a sophisticated machine and has introduced the idea that: ‘For some feminist and postmodern theoreticians, the body is just the effect of discourse rather than a stable site of experience.’50

'단지just'라는 단어는 수사학적으로 사용된 것이다; 신체는 문화적 담론과 생물학 둘 다의 효과라고 제안하는 것이 좋을 것이다. 주요 문화적 담론은 성별이며, 1960년대 이후 성 문제는 페미니스트에 특히 관심을 가져왔다. 현대 페미니스트의 사고에는 영미주의와 대륙주의, 두 가지 광범위한 흐름이 있습니다; 후자는 종종 '프랑스' 후기 구조주의로 일컬어집니다.1 영미권의 흐름은 경제적 또는 정치적 전략을 통해 해결할 수 있는 구조적 불평등의 분석에 기초하고 있다. 이 영역은 이 기사의 첫 부분에서 소개되었다. 대륙주의의 흐름은 [분석의 기반]을 [담론의 효과(문화에 기반을 둔 언어와 생각)]로 옮기고, [활동을 형성하게 된 근본적인 사고와 가치관]이 해결되지 않는다면, 구조적 사회 문제를 다루는 것은 cosmetic한 것이 될 수 있다고 주장한다.
The word ‘just’ is used rhetorically; it would be better to suggest that the body is both an effect of cultural discourse and biology. A key cultural discourse is gender and since the 1960s gender issues have been of particular interest to feminists. There are two broad streams of contemporary feminist thinking, Anglo-American and Continental; the latter is often referred to as ‘French’ post-structuralism.1 The Anglo-American stream is grounded in the analysis of structural inequalities that can be addressed through economic or political strategies; this territory was introduced in the first part of this article. The Continental stream moves the ground for analysis to the effects of discourse – culturally based language and thought – and argues that addressing structural social issues can be cosmetic if fundamental ways of thinking and valuing, that come to shape activity, remain unaddressed.

후기 구조주의 페미니즘'란 무엇인가? 1, 2 구조주의는 언어학자 페르디난드 드 사우수의 생각에 근거한 20세기 전반의 가장 영향력 있는 이론적인 틀 중 하나였으며, 언어는 하나의 체계이며, 모든 언어 표현은 보편적이고 근본적인 구조 또는 생성 규칙의 집합이다. 어떤 언어로든 단어(예: '개')와 객체 자체(개)의 관계는 자의적입니다. 이 단어는 [전체 기호 분야(구조)]에서 [다른 단어(예: '고양이')]와의 차이에 의해서만 의미를 갖는다.
What is ‘post-structuralist feminism’?1, 2 Structuralism was one of the most influential theoretical frameworks of the first half of the 20th century, based on the linguist Ferdinand de Saussure’s idea that language is a system, and that all language expressions are subject to a universal, underlying structure or set of generative rules. The relationship between a word in any language (such as ‘dog’) and the object itself (the dog) is arbitrary. The word bears meaning only in its difference from other words (such as ‘cat’) in an overall field of signs (the structure).

그 후, 구조주의자들은 보이지 않는 조직 분야를 반대oppositional 범주에 관한 코드로 축소했습니다. 예를 들어, 인류학자 Lévi-Strauss는 문화 전반에 걸친 복잡한 신화를 기본적인 반대 범주인 '날것과 요리된 것' 또는 자연 대 문화로 축소했다. 촘스키는 언어가 보이지 않는 기본적인 생성 규칙 집합 위에 세워져 있다고 제안했고, 피아제는 인간의 인지 발달이 불변하고 펼쳐지는 일련의 단계를 따른다고 제안했다.

Subsequently, structuralists reduced this unseen organising field to a code concerning oppositional categories. For example, the anthropologist Lévi-Strauss reduced complex mythologies across cultures to a basic oppositional category: ‘the raw and the cooked’, or nature versus culture; Chomsky suggested that language was built on a basic set of unseen generative rules, and Piaget suggested that human cognitive development followed an invariant, unfolding sequence of stages.

20세기 후반에는 [문화적 차이가 환원reduced될 수 있는 보편적 조직 구조]에 대한 생각에 의문이 제기되었다. 더 중요한 것은, 구조주의를 특징짓는 '구조' 그 자체가, 논리의 구조로서 [gendered male]로 보였다는 점이다. 또한, [반대 범주로 구조를 조직하는 것]은 언어 사용과 실제 사회 관계 모두에서 [반대되는 한 극이 다른 극을 지배하고 억압]하게 되었다는 점에서 잠재적으로 '위반'으로 보였다. 예를 들어, '남자'는 '여자'에 반대하며 지배적이다.
In the latter half of the 20th century, the idea of a universal organising structure to which cultural differences could be reduced was questioned. More importantly, the ‘structures’ themselves that characterised structuralism were seen to be gendered male, as structures of logic. Further, the organisation of structures as oppositional categories was seen to be potentially ‘violating’ in its expression in that one pole of the opposition came to dominate and oppress another, both in language use and in actual social relations; for example, ‘Man’ stands in opposition to and is dominant over ‘Woman’.

구조주의에 대한 이러한 의구심이 생기면서 포스트구조주의 철학적, 문화적 비평이 등장했다. 이 운동은 예술과 인문학에서 지배적인 비평의 형태가 되었지만 아직 의학 교육에서는 채용되지 않았다. 이 운동에 따르면, [세계는 보이지 않는 보편적인 원리에 의해 조직된 것]이 아니라 [독특한 문화적 규칙을 통해 지역적으로 표현된다]고 가정한다. 중요한 것은, [후기구조주의자]들은 이러한 [지역적 표현]과 [복수적 표현]의 차이가 그저 용인tolerated될 뿐만 아니라 기념되어야celebrated 한다고 주장한다.
In the wake of these doubts about structuralism, a post-structuralist philosophical and cultural critique emerged. This movement has become a dominant form of critique in the arts and humanities but has yet to be employed within medical education. It assumes that the world is not organised by unseen universal principles, but is expressed locally, through idiosyncratic cultural rules. Importantly, post-structuralists argue that difference between these local and plural expressions should not only be tolerated, but also celebrated.

언어가 실천을 형성shape한다는 점에서, 후기 문화주의자인 페미니스트들은 [언어가 가부장제의 지배적인 문화적 담론을 지지하기 위해 사용]되는 방식 및 [왜 성별 간의 차이가 기념되지 않고, 오히려, 하나의 통제 충동, 즉 남성의 그것을 지지하기 위해 확대되는지]에 특히 관심이 있다. 그들은 여성의 생식 사이클을 남성이 전유하는 것으로부터 해방되는 것과 같은 전통적인 1960년대 후기의 전통적 페미니스트에는 초점을 덜 두며, 그보다는 [사회적 실천을 형성하는 가치에 대한 기준으로 남자의 목소리에 의해서 텍스트가 어떻게 전유되는지appropriated에 ]더 관심이 있다. 
Where language shapes practices, post-structuralist feminists are particularly interested in the way that language is used to support the dominant cultural discourse of patriarchy and why differences between the genders are not celebrated, but, rather, are widened in support of one controlling impulse: that of the male. They are less interested in the foci of traditional post-1960s feminists, such as the liberation from male appropriation of women’s reproductive cycles, and more concerned with how text is appropriated by the male voice as a basis for the values that shape social practices.

후기구조주의자인 페미니즘은 'French'라고 불리는데, 이는 세 명의 프랑스 국가 사상가, 특히 Julia Kristeva, 51 Ellene Cixous 52-54, Luce Irigaray의 영향이다.55 하지만, 미국의 Judith Butler와 같은 다른 작가들 역시 이러한 새로운 성향을 형성하는데 영향을 미쳤습니다. Butler의 관점에서, 젠더는 운명이 아니라, 정체성을 형성하기 위해 '수행되는performed' 것이고, 이는 젠더를 단순히 생물학적 표현을 넘어, 문화적 구성cultural construction으로 이동시킨다.1

Post-structuralist feminism is often referred to as ‘French’ because of the influence of three French national thinkers in particular: Julia Kristeva,51 Hélène Cixous52-54 and Luce Irigaray.55 However, other writers such as the American Judith Butler have also been influential in shaping this new wave of feminism.1 Butler’s view is that gender is not destiny, but is ‘performed’ to construct identity, and this moves gender beyond biological expression to cultural constructions.1

후기구조주의자인 페미니즘은 세 가지 개념으로 특징지어진다.

  • 잠재적으로 억압적인 이분법적 사고의 논리에 도전하는 것,
  • 즉 '차이'를 존중하고 용인하는 것,
  • '타협적' 사고

이러한 각 우려 사항은 여기에 요약되어 있습니다.

Post-structuralist feminism is characterised by three notions:

  • challenging the potentially oppressive logic of binary thinking;
  • respecting and tolerating ‘difference’, and
  • ‘liquid’ thinking.

Each of these concerns will be summarised here.

 

이분법적 사고에 도전하기
Challenging binary thinking

[젠더 연구]는 복잡한 성별 문제를 본질주의로 축소하거나, 순수 생물학적 차이 측면에서 성별을 언급하는 이분법적 사고(예: 남성 대 여성)를 활용하는 경향에 의해 손상된다. 후기구조주의자인 페미니즘은 그러한 수사학에 도전하는데,

  • 첫째는 반대적 사고에 대한 비평이고
  • 둘째는 생물학적 차이 이전에 [언어 사용]에 초점을 맞춘다.

[반대적 사고oppositional thinking]는 재료를 단순한 서술 범주로 축소함으로써 복잡성을 통제하기 위한 기본적인 수사학적 전략으로 볼 수 있다.
Gender studies are compromised by a tendency to utilise binary thinking (such as male versus female), which reduces complex gender issues to essentialism or refers to gender in terms of purely biological differences. Post-structuralist feminism challenges such rhetoric,

  • firstly in a critique of oppositional thinking and
  • secondly in a focus upon language use prior to biological difference.

Oppositional thinking can be seen as a basic rhetorical strategy with which to control complexity by reducing material to simplistic descriptive categories.

[반대적 사고]와 그에 따른 실천에 의하면, 한 용어는 긍정적이 되고, 다른 용어는 남성/여성, 인간/동물, 성인/자녀, 백인/흑인과 같은 비대칭적인 반대에서 지배하게 된다. 예속된 용어는 지배되거나 지배될 뿐만 아니라 쉽게 경시되고 정형화되고 악마화된다. Cixous는 '담론이 어디서 구성되든' 그것은 '항상 같은 은유'이며, 위계로 이어지는 반대주의이거나 이중성duality의 것이라고 지적한다. 예를 들어, 서양의 생각은 항상 반대를 통해 작동해왔는데, 예를 들어 활동/수동성, '여성은 항상 수동성과 연관된다'와 같은 것이다. 의학은 불확실성으로 가득 차 있음에도, 의학의 특징은 subject matter를 반대 범주로 축소함으로써 이를 통제하려는 것이다. 그 예로서, 정상 대 병리학적, 건강 대 질병, 치료 대 관리와 같은 것이 있다.

In oppositionalist thinking and its subsequent practices, one term becomes the positive and comes to dominate the other in an asymmetrical opposition, such as man/woman, human/animal, adult/child, white/black. The subjugated term is not only governed, or ruled, but is easily belittled, stereotyped and demonised. Cixous points out that ‘wherever discourse is organised’ it is ‘always the same metaphor’, that of oppositionalism or duality leading to hierarchy, where Western ‘thought has always worked through opposition’, such as Activity/Passivity, and ‘woman is always associated with passivity’.56 Although medicine is riddled with uncertainty, it characteristically controls this by reducing its subject matter to oppositional categories, such as normal versus pathological, health versus illness, and cure versus care.

Kristeva51은 반대적 사고는 편견을 향해 악화될 가능성이 높다고 말한다. 일반적으로 반대는 주체/객체의 형태를 취합니다. 내가 반대하는 것은 잠재적으로 비인간적이고 비개인적인 것이다. 좌천된 '타인'은 용인할 수 없는 '천한abject' 존재로 빠르게 악마화될 수 있다. 그 천한 존재abject는 배제될 뿐만 아니라, 희생양과 같이 병리적이고 적극적으로 차별된다. 연구 결과에 따르면 의사들은 [덜 아픈 환자]를 [더 많이 아픈 환자]보다 더 호의적으로 대하는 경향이 있는 것으로 나타났다.28

Kristeva51 suggests that oppositional thinking readily deteriorates to prejudice. Typically, opposition takes the form of subject/object. Whatever I oppose is potentially de-humanised and de-personalised. The relegated ‘other’ can quickly become demonised as the ‘abject’ that is considered intolerable. The abject is not only excluded, but pathologised and actively discriminated against, such as by scapegoating. Research has shown that doctors tend to treat their less ill patients more favourably than more ill subjects.28

다름을 축하하기
Celebrating difference

의료의 민주화를 위해서는 위계에 대한 반대countered가 필요하다. 특히 '수평적' 형태의 팀워크가 환자 건강 결과에 도움이 된다는 증거에 비추어본다면 그러하다. 전문직 종사자들이 자신을 반체제적이고oppsed 위계적으로 위치시킨다면, 진정한 전문직 상호주의로 전환될 가능성은 좌절된다. Cixous와 같은 작가들은 [반대주의적 사고]의 습관에 저항해야 한다고 제안한다. ('우리와 그들' 사고방식을 생산해낸) 제국주의와 식민주의 대신, 사람 사이의 여러 가지 차이점에 초점을 맞추고 이를 축하하는 것이다. Cixous와 Clément는 '영원한 자연 그대로의 남성적 구조의 안정'과 '자연적으로' 지배적인 것에 대한 도전을 제시합니다. – 다른 사람들을 주인공protagonist의 자아로 몰아넣는 '자아의 제국'입니다.

Hierarchies need to be countered if we are to democratise medicine, especially in light of evidence that ‘horizontal’ forms of team-working benefit patient health outcomes.57 The possibility of a transition to authentic interprofessionalism is frustrated by professions positioning themselves as opposed and hierarchical. Writers such as Cixous suggest that we must challenge the habit of oppositionalist thinking that has historically informed – and attempted to naturalise – imperialism and colonialism (producing an ‘us and them’ mentality) and instead focus upon, and celebrate, multiple differences among persons. Cixous54 and Clément58 offer a challenge to the ‘stability of the masculine structure that passed itself off as eternal-natural’ and ‘naturally’ dominant – the ‘Empire of the Selfsame’ that forces others into the mould of the protagonist’s self.

 

'유동적' 사고와 은유 사용
‘Liquid’ thinking and the use of metaphor

Irigaray59와 Cixous52는 페미니즘이 자신의 언어를 주장해야 하며, 가부장적 언어의 매체를 통해 일하도록 이끌어서는 안 된다고 제안합니다. Irigaray59는 지배적인 가부장적 언어에 의해 소외된 ways of thinking and knowing을 포착하기 위해 사용될 수 있는 fluid and liquid 언어를 묘사합니다. 의학은 다른 복잡한 praxis처럼 은유와 밀접하게 연관되어 있다. 의학에서의 사고thinking in medicine는 두 가지 방식으로 작용한다. 하나는 문자 그대로 사회-현실적 서술이며, 다른 하나는 비유적 또는 은유적인 표현적 서술이다.
Irigaray59 and Cixous52 suggest that feminism must claim its own language and not be drawn to work through the medium of a patriarchal language. Irigaray59 describes a fluid or liquid language that is highly metaphorical that might be used to capture ways of thinking and knowing that are marginalised by the dominant patriarchal language. Medicine, like any complex praxis, is intimately bound with metaphor. Thinking in medicine works in two ways: literally, as social-realist narrative, and figuratively or metaphorically, as expressive narrative.

문자 그대로의 모습을 형상화함으로써 은유법은 환자의 경험에 더 가까워질 수 있도록 도와줄 수 있다. 예를 들어, 빈센트 램은 할아버지의 종양에 대해 다음과 같이 설명합니다. '그의 왼쪽 옆구리가 마치 풍선이 피부 밑으로 부풀어 오르는 것처럼 부풀어 올랐다. 나는 손가락 끝으로 종양을 부드럽게 눌렀다. 차가운 플라스틱처럼 단단하고 단단했다.' '풍선이 부풀어 오르는 것처럼' '차가운 플라스틱처럼'과 같은 이 텍스트 전반에 걸친 은유와 유추는 패턴 인식을 통해 전문가의 임상 판단에 어떤 것이 채택되는지employed를 반영한다. 램(남성의사)은 할아버지의 '피묻은 오줌'을 '거친 모래와 같은 응고물'을 가진 것으로 묘사한다. 이러한 근접한 인식close noticing과 문자 그대로의 접촉은 Irigaray의 특징적으로 남성적이며 환자를 수동적인 역할에 배치하는 객관적이고 추상적인 진단 시선에 대응하기 위한 전술에 대한 반응을 분명하게 보여줍니다.

By turning the literal into an image, metaphors can help us to get closer to the experience of the patient. For example, Vincent Lam describes his grandfather’s developing tumour: ‘His left flank bulged as if a balloon was being inflated under the skin… I pressed the tumour gently with the tips of my fingers. It was firm, hard like cold plasticine.’60 The metaphors and analogies throughout this text –‘like cold plasticine’, ‘as if a balloon was being inflated’– reflect those employed in expert clinical judgement through pattern recognition. Lam (a male doctor) further describes his grandfather’s ‘bloody pee’ as having ‘clots like coarse sand’.60 This close noticing and literal contact clearly illustrate a response to Irigaray’s call for tactility59 to counter the objectifying and abstracting diagnostic gaze that is characteristically male and serves to place the patient in a passive role.

수잔 손탁은 은유가 가부장제를 대신하여 전략적으로 사용될 수 있다고 지적한다.61 결핵의 전조에 따라, 암과 후천성 면역 결핍 증후군에 대한 현대적 서술은 문자 그대로의 질병의 설명을 넘어 비난적인 은유를 제공할 수 있다. 이러한 은유들은 병을 앓고 있는 사람들에게 수치심과 죄책감을 가져오고 적절한 치료를 구하는 것을 방해할 수 있습니다. 이것은 지지와 이해보다는 수치심과 희생양으로 가득찬 문화로 울려 퍼진다. 게다가, 의학은 일반적으로 '암과 싸우는 것'과 같은 일을 묘사하기 위해 [남성적인 군사적 은유]를 사용하는 상황에서, 환자들이 질병을 다루는데 도움을 주지 못할 수도 있다. 이미 지친 환자는 자신이 싸울 수 없다고 느낄 수도 있다.  
Susan Sontag notes that metaphors can be employed strategically on behalf of a patriarchy.61 Following the precursor of tuberculosis, contemporary descriptions of cancer and acquired immune deficiency syndrome (AIDS) can move beyond accounts of literal illness to offer accusatory metaphors.61 These metaphors bring about shame and guilt in those suffering from illness and may prevent them from seeking appropriate treatment. This resonates with cultures of shaming and scapegoating rather than of supporting and understanding. In addition, medicine may fail to help patients to deal with illness in contexts in which it typically employs masculine martial metaphors to describe its work, such as ‘fighting cancer’. The already exhausted patient may feel she is not up to the fight.

아마도 [여성화된 서술적 감수성]은 (형식적인 기계학보다는) 환자를 전체적으로 파악하고, 유동적이고 역동적인 감성을 통해 환자의 복잡성을 파악할 가능성이 더 높을 것이다. Cixous52가 'écriture feminine'이라고 표현한 유동적 사고는 세상을 은유적으로 묘사하고 있는데, 이것은 [위장된 통제 형태]도 아니고 [호혜주의에 대한 요구]도 아닌, 무조건적인 보살핌에 대한 우아한 비유이다.

Perhaps a feminised narrative sensibility is more likely to read the patient holistically and to grasp the complexity of the patient through a fluid, dynamic sensibility rather than a formal mechanics. The liquid thinking that is described by Cixous52 as ‘écriture feminine’ metaphorically inscribes the world with ‘mother’s milk’, an elegant metaphor for nourishing, unconditional care that is neither a disguised form of control nor a demand for reciprocity.

젠더 텍스트로서의 커리큘럼
The curriculum as a gender text

[후기구조주의적 페미니즘]의 기본 전제를 소개한 후, 이 기사의 나머지 부분에서는 이러한 관점이 가부장제와 남성적 항의를 통해 현재 습관적으로 형성되고 있는 [의학교육을 재고하는 데 어떻게 도움을 줄 수 있는지]에 대해 논의할 것이다. 포스트 커리큘럼 페미니즘의 프레임워크를 통해 의학 커리큘럼을 어떻게 재성별할 수 있는가? 몇 가지 실례가 검토된다.

Having introduced the basic premises of post-structuralist feminism, the remainder of this article will discuss how this perspective can help us to rethink medical education that is currently habitually formed through the discourse of patriarchy and the masculine protest. How might the medicine curriculum be re-gendered through the framework of post-structuralist feminism? Several illustrative examples are considered.

커리큘럼 설계
Curriculum design

교육과정을 '성교과서gender text'로 설명하는 것은 의대에서 이례적일 것이다. 그러나 현재 커리큘럼은 남성 대 여성의 구도에서 '여성'을 열등하게 배치하는 전형적인 가부장적 장치를 통해 설계, 구현 및 평가된다. 이 기사의 첫 번째 섹션에 요약된 인구 통계에 따르면 의대생 여학생이 촉진자로서 남학생보다 뛰어나지만, 의학 교육에서 여성이 적절히 대표되지 않는다고 한다. 왜 이 미끄러짐slippage이 발생하는가? 아마도 현재의 커리큘럼 디자인은 의식적으로 또는 무의식적으로 가부장적 형태를 재현했기 때문이다.
It would be unusual in medical education to describe the curriculum as a ‘gender text’,62 yet curricula are designed, implemented and evaluated through typical patriarchal devices that gender-stereotype to place ‘woman’ as the inferior in a male versus female opposition. The demographics summarised in the first section of this article note that women are not represented adequately in medical education, although female medical students outperform male students as facilitators. Why does this slippage occur? Perhaps current curriculum design consciously or unconsciously reproduces patriarchal forms.

예를 들어, 앞서 언급했듯이, [고급 임상 기술 마네킨]은 남성의 모습을 하고 있다. 생물의학자는 사회과학처럼 'Soft' 또는 tender-minded 과목으로 인식되는 것에 대해 적대적인 것으로 악명 높다.63 (역량으로 표현되)는 행동 결과 기반 학습과 같은 커리큘럼 계획에서, 현재의 정통성orthodoxy은 [합리적, 기술적, 도구적, 목표 지향적이고 냉정]하다고 볼 수 있다,64 따라서 남성적 항의masculine protest와 권위주의적 성격의 전형적인 특징을 닮았습니다. 그러한 접근법은 과정, 직관, 그리고 합법적인 학습으로서의 영향을 부정합니다.
For example, as I have noted, advanced clinical skills manikins are gendered male. Biomedical scientists are notoriously hostile towards what they perceive as ‘soft’ or tender-minded subjects such as the social sciences.63 The current orthodoxy in curriculum planning, such as behavioural outcomes-based learning – expressed as competencies – can be seen as rational, technical, instrumental, hierarchical, goal-oriented and cold,64 thus resembling the classic profile of the masculine protest and the authoritarian personality. Such approaches deny process, intuition and affect as legitimate learning.

커리큘럼은 살아있는 경험입니다; 그것은 단순한 강의요목이나 내용목록을 넘어서고, 정체성을 형성하는 역할을 합니다. 의대 교육에서 정체성 관련 목표는 [의대생의 정체성]에서 [수련의사의 정체성]으로의 전환을 말한다. 그러나 만약 이 정체성 구축이 [불확실성과 모호성을 인정하는 것에 대한 방어적 태도]와 [냉소를 초래할 수 있는 감정의 무뎌짐]와 같은 남성적 항의의 고전적인 징후를 수반한다면 어떻게 될까? 이 두 가지 모두 의대생들 사이에서 '공감 감소' 현상이 잘 문서화되어 있다는 증거로, 남성 젠더적 현상male-gendered phenomenon로 읽힐 수 있다. 개인주의적인 '영웅적인' 의학의 시대는 끝났다고 말한 Ludmerer는 옳은가?

The curriculum is a lived experience; it extends beyond a mere syllabus or list of content, and serves to construct identities. In a medical education, the identity-associated goal refers to a transition from the identity of medical student to that of trainee doctor. But what if this identity construction carries with it the classic signs of the masculine protest such as defence against admitting uncertainty and ambiguity, and the hardening of feelings that can lead to cynicism? Both are signs of the well-documented phenomenon of ‘empathy decline’ amongst medical students, which can be read as a largely male-gendered phenomenon. Is Ludmerer24 correct to suggest that the days of individualistic ‘heroic’ medicine are over?

성인교육
Andragogy

의학 교육에서 Andragogy 또는 성인 학습 이론의 광범위한 무비판적 수용은 언어와 사상에 근거한 제도화된 성 편견을 위장한다.65 'andragogy(그리스어: andr-)'의 어원은 '남성' 또는 '남자'를 의미한다. 의학 교육이 'gynagogy'이라면 어떻게 보일까? [자율성]을 특권화하는 이론들도 마찬가지로 협력적인 접근법을 희생시키면서, 의학의 전통적으로 영웅적이고 남성적인 입장을 반영한다.

The widespread uncritical acceptance of andragogy, or adult learning theory, in medical education, disguises an institutionalised gender bias grounded in language and thought.65 The root of ‘andragogy’ (Greek: andr-) means ‘man’ or ‘male’. How might a medical education look if it were a ‘gynagogy’? Learning theories that privilege autonomy also serve to mirror medicine’s traditionally heroic, masculine stance, at the expense of more collaborative approaches.

전문성, 성찰 및 자기 지식
Professionalism, reflection and self-knowledge

의학 교육에서 전문성과 개인적 성찰의 강조가 보다 tender-minded practice을 향한 움직임을 반영하는 것처럼 보일 수 있지만, 전문직업성은 남성적 항의masculine protest의 영향 아래 놓여 있다. 여기에는 '커리큘럼 설계'로 불리는 [명시된 학습 성과를 통한 평가의 엄격한 접근 방식]을 포함한다.
Although the emphasis upon professionalism and personal reflection in medical education may seem to reflect a move towards a more tender-minded practice, professionalism is subject to the influence of the masculine protest, including the supposedly rigorous approach of assessment through stated learning outcomes, referred to under Curriculum design.

교육과정에서 [전문직업성]은 학생들이 [제도화된 형태의 성찰적 실천을 통해 자신을 알게 되는 기술]로 광고되는 경우가 많다. 그러나 이는 학습자를 [개인주의적 모델] 또는 [자율적 성찰 모델]로 유도하여 Andragogy의 교리를 확인시킴과 동시에 협력에서는 더 멀어질 수 있습니다.66 Christeva는 실제로 우리는 언제나 '자신에게 낯선 사람'이기 때문에, '나를 아는 것self-knowing'이란 것은 (마스터리의 한 측면인) 잠재적 환상이라고 비판합니다.67
Professionalism in the curriculum is often advertised as a technique by which students come to know themselves through institutionalised forms of reflective practice. However, this may drive learners into individualistic or autonomy-based models of reflection that confirm the tenets of andragogy and move away from collaboration.66 Kristeva critiques such ‘self-knowing’ as potential illusory, an aspect of ‘mastery’, when in reality we are always ‘strangers to ourselves’.67

[자신의 실천, 자기 이미지, 커리어 목표에 대해 더 불확실한 여성 동료들]과 비교했을 때, 남성 의사들은 [강한 자기 이미지]에 부합하고, [협소한 커리어 야망]에 부합하는 그들의 직업에 대해 [확고한 자신감]을 보인다.28 이 차이는 정신분석학적으로 읽힐 수 있는데, 여기서 [지나친 자신감]은 [불확실성의 인식에 대한 방어기제defence]가 되기 때문이다. Kristeva는 자기자신을 알게 되는 것은 역설적으로 '(자기 자신을) 모르는 것'을 통해서 이루어진다고 말한다. 즉, 자아 이미지의 기본적인 불안정성을 인식하는 것이다. 하지만, 다시 말하지만, 이것은 '마스터리'가 아니다('마스터리'역시 또 다른 배제적, 남성적 용어이다).
In comparison with their female colleagues, who are more uncertain about practice, self-image and career goals, male doctors show assertive confidence in their practice congruent with strong self-image and aligned with focused career ambitions.28 This difference can be read psychoanalytically, where over-confidence can offer defence against recognition of uncertainty. Kristeva suggests that it is through ‘unknowing’, or the recognition of basic instability of self-image, that we paradoxically come to know ourselves.67 But, again, this is not ‘mastery’ (another exclusive, masculine term).

또한 [전문직업적 실천]은 주로 [상황 또는 맥락적으로 민감한 윤리]보다는 [원칙 집합을 고수하는 접근법]에 기초한 윤리적 행동에 의해 정의되어 왔다(사례 참조).68 [원칙에 기초한 접근법]은 [명확성과 획일성이라는 보다 남성적인 목적]을 위해 노력하는 반면, [상황적 접근법]은 [모호성에 대한 보다 여성적인 관용]을 허용한다.

Further, professional practice has largely been defined by ethical behaviour based on an approach that adheres to the upholding of a set of principles, rather than on a situated or contextually sensitive ethics (see Cases).68 Principles-based approaches strive for the more masculine purposes of clarity and uniformity, whereas situated approaches allow for a more feminine tolerance of ambiguity.

 

사례
Cases

만약 의학이 '어머니 젖'으로 글을 쓰는 것이 어떤 것인지 은유적으로 묻는 Cixous(52)에 의해 모델링된 것과 같은 여성적이고 여성적인 글쓰기의 관점에 의해 인도된다면, 그러한 윤리의 '사례'는 어떻게 보일까, 아니면 어떻게 기록될까? 이것은 환자 '사례'와 같은 글을 부성애보다는 모성애로 적는 것으로 읽힐 수 있다. 씨소스가 52번이나 '어머니 젖'을 비유로 사용한 것은 남성에게도 글쓰기에 대한 참여를 열어주고, 우리 삶의 글쓰기를 자양분이면서 표현력 있는 모유처럼 (성격이나 정체성 형성의 의미로) 얼룩지는 '표현'하게 해준다.
What would such ethics ‘cases’ look like, or how would they be written up, if medicine were guided by the outlook of écriture feminine, feminine practices of writing, such as those modelled by Cixous,52 who asks, metaphorically, what it is like to write with ‘mother’s milk’? This can be read as (re)inscribing writing, such as a patient ‘case’, with maternalism rather than paternalism. Cixous’s52 use of ‘mother’s milk’ as a metaphor opens participation to men also to treat writing – and the writing out of our lives as identity performances – as nourishing and expressive, ‘expressed’ as breast milk that stains (in the sense of character or identity formation) as it sustains.

Cixous는 남성적인 문체의 지배적인 관례에 대한 저항으로 여성적인 단일한 '목소리'가 어떻게 글로 옮겨질 수 있는지를 더 자세히 설명합니다. 그녀는 어떻게 글쓰기가 지적인 글쓰기의 양식적 요구에 의해 평탄해지지 않을 수 있는지를 보여준다. 그래서 우리는 글쓰기를 숨막히게 하거나 문장과 침묵으로 만들어 낼 수 있다.69

Cixous further describes how a singular, feminine ‘voice’ might be brought into writing by resistance to the conventions of a dominant masculine style. She shows how writing might not be flattened by the stylistic demands of intellectual writing (the scientific report, the ‘case’ presentation) so that we might ‘make the text gasp or form it out of suspenses and silences’.69

돌봄
Care

Martha Nussbaum의 관점에서, 보건의료(예: 자원 분배)에는 ['돌봄'의 질에 대한 여성적 우려]보다 ['정의' 문제에 대한 중요한 남성적 우려]가 더 특권적 위치에 있다.70 우리는 이것이 2008년 영국 의학 저널에 발표된 남성 의사인 McKinstry와 여성 의사인 Dacre 사이에 펼쳐진 토론에서 볼 수 있다., 12 앞서 언급한 바와 같이, McKinstry는 의학의 여성화 지지자들이 [환자와의 의사소통(관리 품질) 향상에 중점을 두는 것]은, 의료인들이 환자와 더 많은 시간을 보내고 더 많은 의뢰를 제공하는 것을 수반하기 때문에, [자원에 대한 압박과 같은 정의 문제]와 상충된다고 제안합니다. 물론 두 가지 성향 모두 중요하지만, 반대되는 남성적 항의가 대표적이다. 그러나 누스바움은 정의의 윤리가 보살핌의 윤리보다 지속적으로 특권을 누리고 있으며, 이는 불평등을 초래하는 성 편견으로 읽힐 수 있다고 주장한다.70

For Martha Nussbaum, there is an overarching male privileging of issues of ‘justice’ in health care (such as in the distribution of resources) over a female concern with issues of quality of ‘care’.70 We see this played out in the debate published in the British Medical Journal between McKinstry, a male doctor, and Dacre, a female doctor, in 2008.7, 12 As noted earlier, McKinstry suggests that the focus placed by supporters of the feminisation of medicine on improved communication with patients (quality of care) is at odds with justice issues such as pressure on resources because it involves practitioners in spending more time with patients and offering more referrals. Of course, both orientations are important, but it is typical of the masculine protest to place them in opposition. However, Nussbaum argues that an ethic of justice is persistently privileged over an ethic of care, and this can be read as a gender bias leading to inequalities.70

가계
Household

얼마 전까지만 해도 1년차 주치의(주니어 레지던트로 인턴이 진급)를 부르는 용어로서, 병동 팀이라는 맥락에서의 '회사'라는 기술어의 의미, 'house officer'과 'houseman'의 의미를 따지려 했던 의사는 거의 없었을 것이다. 영국에서는 이제 'firm'라는 개념이 사라지고 'foundation doctor'라는 용어가 'house officer'을 대체하게 되었다. 남근적 용어인 'firm'은 이제 무기력flaccid해졌으며, 오히려 유연해지고 유동적이 되었다. 그리고 점차 주니어 의사들은 더 유목적이고 되었고, 덜 'attached'되었다.
Not so long ago, few doctors would have bothered to question the meaning of the descriptors ‘firm’ in the context of the ward team, or ‘house officer’ and ‘houseman’ with reference to the first-year junior doctor (intern progressing to junior resident). In the UK, the notion of the ‘firm’ has now disappeared and the term ‘foundation doctor’ has replaced ‘house officer’. The phallic ‘firm’ is now flaccid or, rather, flexible and ‘liquid’ as junior doctors learn to become more nomadic and less ‘attached’.

이제 대다수의 주니어 의사가 여성인 상황에서, 전형적으로 여성의 영역이었던 household를 어떻게 꾸릴 것인가? 예를 들어, 그들은 사업 가치('firm'은 일반적으로 상업적 벤처나 법률적 설립을 묘사한다)보다 Domestic한 '돌봄' 가치를 더 중요하게 여기며, 돌봄은 비지니스로, 환자는 고객으로 프레임해온 현재의 경영주의 담론에 반대하여 일할 것인가?71 병원을 무조건적 '환대hospitality'를 제공하는 장소라는 근본적 의미로 되돌릴 것인가? 'Firm'은, 우리가 알고 있듯이, 견고하고, 단단하며, 흔들리지 않는 특성을 의미하며, 이는 [상대를 뚫고 들어가는penetrating 의학적 시선]과 쉽게 연결된다. 여성 의사들이 (수적) 우위에 있을 때 그러한 전형적인 남성적, 혹은 남근phallogocentric 중심적인 가치들이 다른 가치들의 집합으로 대체될까?

How will the new female majority of junior doctors establish the household, which is, stereotypically, the woman’s domain? Will they, for example, see domestic ‘care’ values as more important than business values (the ‘firm’ typically describes a commercial venture or a legal set-up) and work against a current discourse of managerialism that frames care as a business and patients as customers?71 Will they return the hospital to its root meaning of a place that offers unconditional ‘hospitality’? ‘Firm’, as we know, also means solid, stiff, unyielding and steadfast, characteristics that are readily linked with the penetrating medical gaze. Will such archetypally masculine, or phallogocentric, values be replaced by a different set of values when women doctors are in the ascendant?

센터
Centres

의학 교육 연구는 협업보다는 자원 경쟁을 계속 강조하고 있다. 보다 민주적인 '네트워크'보다는 연구를 위한 '중심'이 여전히 가장 인기 있는 서술자인데, 이는 협업 모델이 보다 여성적인 어조로 보일 수 있는 구조를 내포하고 있다.

Medical education research continues to emphasise competition for resources rather than collaboration. A ‘centre’ for research is still the most popular descriptor, rather than the more democratic ‘network’, which implies a structure in which collaborative models can be seen to be more feminine in tone.

결론: 의학의 민주주의를 향하여
Conclusions: towards democracy in medicine

의료 교육에 대한 [후기구조주의적 페미니즘]의 기여는 의학에서의 [민주적 습관의 촉진]으로 요약될 수 있다. 의학 교육은 (아마도 논쟁의 여지는 있으나) 역사적으로 [습관적으로 남성적 시위에 근거해온, 역사적이고 끈질긴 독재적 의료 문화]에 민주주의를 도입해온 것으로 기술될 수 있다. 이러한 [민주화 프로세스]가 설득력을 확보하여 동료와의 협업과 환자 중심의 협업을 통해 환자 안전과 환자 관리를 개선할 수 있는 수단이 되도록 하는 것이 필수적입니다.
The contribution of post-structuralist feminism towards medical education can be summarised as the facilitation of democratic habits in medicine. Medical education can be described, perhaps controversially, as the means whereby democracy can be brought to a historically and persistently autocratic medical culture habitually grounded in the masculine protest. It is essential that such a democratising process gains traction so that collaborative teamwork with colleagues and patient-centred collaborations become the means through which patient safety and then patient care can be improved.

이 프로젝트는, 분명히, 후기구조주의 페미니스트 사상을 의학 교육에 고용하는 것보다 더 광범위하다. 그러나 이러한 사고방식은 [인구통계학적 경향에 국한된 여성화]를 넘어서, [민주화 프로젝트] 측면에서 의학교육을 재고할 수 있는 급진적인 플랫폼을 제공한다. 미래의 의학교육은 가부장적 프레임워크의 규약에 의해 가장 잘 알려지는 것이 아니라, 현대 성별 연구와 중요한 페미니즘 분야에 익숙한 의학교육에 의해 가장 잘 알려질 수 있다.

This project, admittedly, is wider than the employment of post-structuralist feminist thought to medical education. However, such a mode of thought offers a radical platform for rethinking medical education in terms of a democratising project that extends beyond a version of feminising that is limited to demographic trends. A future medical education may not be best informed by the conventions of a patriarchal framework, but by a medical education familiar with the fields of contemporary gender studies and critical feminisms.

 


Med Educ. 2013 Jan;47(1):59-70.

 doi: 10.1111/j.1365-2923.2012.04351.x.

Gender matters in medical education

Alan Bleakley 1

Affiliations collapse

Affiliation

  • 1University of Plymouth, UK. alan.bleakley@pms.ac.uk
  • PMID: 23278826
  • DOI: 10.1111/j.1365-2923.2012.04351.xAbstract
  • Context: Women are in the majority in terms of entry to medical schools worldwide and will soon represent the majority of working doctors. This has been termed the 'feminising' of medicine. In medical education, such gender issues tend to be restricted to discussions of demographic changes and structural inequalities based on a biological reading of gender. However, in contemporary social sciences, gender theory has moved beyond both biology and demography to include cultural issues of gendered ways of thinking. Can contemporary feminist thought drawn from the social sciences help medical educators to widen their appreciation and understanding of the feminising of medicine?Conclusions: Women doctors entering the medical workforce can resist and reformulate the current dominant patriarchy rather than reproducing it, supported by male feminists. Such a feminising of medicine can extend to medical education, but will require an appropriate theoretical framework to make sense of the new territory. The feminising of medical education informed by post-structuralist frameworks may provide a platform for the democratisation of medical culture and practices, further informing authentic patient-centred practices of care.
  • Discussion: Post-structuralist feminist critique, drawn from the social sciences, focuses on cultural practices, such as language use, that support a dominant patriarchy. Such a critique is not exclusive to women, but may be described as supporting a tender-minded approach to practice that is shared by both women and men. The demographic feminising of medicine may have limited effect in terms of changing both medical culture and medical education practices without causing radical change to entrenched cultural habits that are best described as patriarchal. Medical education currently suffers from male biases, such as those imposed by 'andragogy', or adult learning theory, and these can be positively challenged through post-structuralist feminist critique.

임상술기와 지식의 학습과 전이에 있어서 감정의 역할(Acad Med, 2012)
The Role of Emotion in the Learning and Transfer of Clinical Skills and Knowledge

Meghan M. McConnell, PhD, and Kevin W. Eva, PhD

 

의사가 되기 위한 훈련은 학생들이 지식과 기술을 배우고 새로운 환경에 전이하는 방법에 영향을 미칠 수 있는 광범위한 느낌과 감정을 수반합니다. 일반적인 정서적 경험에는 시간의 압박, 불확실성 또는 비현실적인 기대, 만성적인 질병 환자 치료에 따른 절망, 실패에 대한 두려움 또는 책임감 증가, 그리고 환자의 죽음이나 인식된 성과에 대한 죄책감과 동정이 포함됩니다.1-5 이 목록과 일관되게, 의학 교육의 감정에 관한 대부분의 문헌은 부정적인 감정에 초점을 맞추고 있다. 연구자들은 그러한 부정적인 상태가 종종 의료 훈련생들의 높은 번아웃 발생률과 연관되기 때문에 이러한 초점을 정당화한다.6,7 그러나 자부심, 흥분, 감사, 행복과 같은 긍정적인 감정도 의료 훈련생들에게 중요한 경험을 동반한다.1 

Training to become a physician involves a broad range of feelings and emotions that can influence how students learn and transfer knowledge and skills to new settings. Common emotional experiences include stress from time pressures, uncertainty, or unrealistic expectations; hopelessness from treating chronically ill patients; fear of failure or increasing responsibility; and guilt and sympathy over the death of patients or perceived poor performance.1–5 Consistent with this list, most of the literature on emotion in medical education focuses on negative emotions. Researchers justify this focus because such negative states are often associated with the high incidence of burnout among medical trainees.6,7 However, positive emotions—such as pride, excitement, gratitude, and happiness—also accompany important experiences for medical trainees.1 

감정이란 무엇인가?
What Is Emotion?

감정은 정의하기가 다소 어렵다. 연구자들은 감정, 기분, 영향, 태도, 감정을 포함한 다양한 경험적 개념을 개념화했습니다. 우리는 감정이라는 용어를 가장 일반적인 의미, 즉 정서적인 내용, 상태 및 경험을 지칭하기 위해 사용했습니다. 
Emotion is somewhat difficult to define. Researchers have conceptualized a variety of experiential concepts, including emotion, mood, affect, attitudes, and feelings. We used the term emotion in its most general sense—to refer to affective contents, states, and experiences. 

연구자들은 감정을 가장 잘 정의하는 방법에 대해 논의했지만, 일반적으로 감정이 감정가valence과 각성의 두 가지 차원에 따라 다르다는 데 동의합니다.

  • 발렌스는 물리학 및 화학8에서 차용한 용어로, 감정이 긍정적이거나 부정적이거나 유쾌하거나 불쾌하거나 좋거나 나쁘거나 하는 정도로 인식되는 정도를 말한다.
  • 발렌스가 종종 감정 상태를 정의하는 특징으로 여겨지지만, 각성 또한 중요한 구성요소입니다.
  • 각성은 감정이 활성화되거나 비활성화되는 정도를 말합니다. 예를 들어, 높은 각성 상태(예: 두려움, 불안, 흥분)는 낮은 각성 상태(예: 우울증, 침착함)와 구별됩니다.

Although researchers have debated how to best define emotion, they generally agree that emotions vary along two dimensions—valence and arousal.

  • Valence is a term borrowed from physics and chemistry8 that refers to the extent to which an emotion is perceived as being positive or negative, pleasant or unpleasant, good or bad.
  • Although valence is often considered the defining feature of emotional states, arousal is also an important component.
  • Arousal refers to the extent to which an emotion is experienced as activating or deactivating. For example, high arousal states (e.g., fear, anxiety, excitement) are differentiated from low arousal states (e.g., depression, calmness).



방법
Method

초점을 폭넓게 고려할 때, 체계적이고 포괄적인 검토를 시도하는 것보다 다양한 관련 연구 결과의 비판적 통합이 더 적절하다고 판단했다.9 그러한 검토는 좁게 정의된 연구 질문과 관련된 근거의 완전한 요약을 생성하기보다는 넓은 주제에 관한 문헌의 선별적인 요약을 독자들에게 제공하기 위한 것이다. 

Given the breadth of focus, we decided that a critical synthesis of a variety of relevant research findings was more appropriate than attempting a systematic and comprehensive review.9 Such a review is intended to provide readers with a selective summary of the literature around a broad topic rather than generating an exhaustive summary of the evidence relevant to a narrowly defined “Does it work?” type of research question. 

결과
Results


인식과 정보 처리
Perception and information processing

[긍정적인 분위기]에 있을 때, 사람들은 상황의 보다 광범위하고 일반적인 구성 요소에 초점을 맞춤으로써 "큰 그림"을 더 잘 볼 수 있다는 것을 많은 연구가 증명했습니다. 반면에, 사람들이 [부정적인 기분]에 있을 때, 그들은 구체적인 세부사항들에 더 집중합니다.10-13 다시 말하면, 긍정적인 감정은 사람들이 을 볼 수 있도록 격려하는 반면 부정적인 감정나뭇잎에 집중하도록 이끈다. 어떤 것이 다른 것보다 나은지는 특정 업무에 가장 유용한 정보를 사용할 수 있는 수준에 따라 달라지지만, 상당히 미묘한 영향도 영향을 미칠 수 있음은 분명하다. 
A plethora of research has demonstrated that, when in positive moods, individuals are more likely to see the “big picture” by focusing on the broader, more general components of the situation (e.g., global processing). On the other hand, when people are in negative moods, they are more likely to focus on specific details (e.g., local processing).10–13 In other words, positive emotions encourage people to see the forest, whereas negative emotions lead them to focus on the leaves. Whether one is better than the other depends on the level at which the most useful information is available for a particular task, but it is clear that even fairly subtle influences can have an effect. 

예를 들어, 프레드릭슨과 브래니건 14,15는 참가자들이 감정을 불러일으키는 영화 클립을 보게 함으로써 긍정적인 감정(예: 기쁨, 평온, 놀이, 만족)과 부정적인 감정(예: 두려움, 불안, 분노, 슬픔)의 범위를 유도했다. 또한 참가자들에게 감정을 유도하지 않는 영화(즉, 색 막대기가 쌓이는 추상적 표시)를 보게 함으로써 중립적인 통제 조건도 포함시켰다. 연구자들은 국소적인 세부사항과 전체적 맥락을 분리하는 작업을 통해 감정이 기본적인 지각 처리에 영향을 미치는지 여부를 조사할 수 있었습니다. 이를 위해 참가자들에게 표적과 두 개의 비교 항목인 세 개의 기하학적 도형으로 구성된 디스플레이를 보여주었다(그림 1 참조). 
For example, Fredrickson and Branigan14,15 induced a range of positive (e.g., joy, serenity, amusement, contentment) and negative emotions (e.g., fear, anxiety, anger, sadness) by having participants watch emotionally evocative film clips. They also included a neutral control condition by having participants watch a film intended to elicit no emotion (i.e., an abstract display of colored sticks stacking up). Using a task that dissociated the local details from the global context, the researchers were able to examine whether emotion had an influence on basic perceptual processing. To do so, they showed participants a display consisting of three geometric figures—a target and two comparison items (see Figure 1). 



긍정적인 감정을 경험하는 참가자는 전체적 특징(예: 그림 대상의 삼각형 구조)에 따라 항목을 분류할 가능성이 더 높았고, 부정적이거나 중립적인 상태를 경험하는 참가자에 비해 국지적 특성에 기초하여 선택했다(Stimulus의 동그라미를 가지고 Comparison item 2를 선택)
Participants experiencing positive emotions were more likely to categorize items on the basis of their global features (e.g., the triangular structure of the illustrated target, leading to a selection of comparison item 1; see Figure 1) relative to participants experiencing negative or neutral states, who were more likely to categorize items on the basis of their local features (e.g., the circles used to create the stimulus in Figure 1, leading to selection of comparison item 2).

개인의 정보 인식 및 처리 방식에 대한 정서적 상태의 이러한 영향은 학습 및 지식의 전이에 중요한 영향을 미칠 수 있습니다. [글로벌 프로세싱 스타일](즉, "큰 그림"에 초점을 추는 것)은 서로 관련이 있는 학습 사건 사이에서 연관성 및 관계적 연결로 이어지며, 이는 개인이 새로운 작업 전반에 걸친 유사성을 감지할 수 있도록 함으로써 지식을 새로운 상황으로 이전하는 것을 촉진해야 합니다. 
This influence of emotional states on how individuals perceive and process information can have important implications for learning and knowledge transfer. Global processing styles (i.e., focusing on the “big picture”) appear to lead to more associative and relational connections between relevant learning events, which should promote the transfer of knowledge to new situations by enabling individuals to detect analogies across novel tasks. 

예를 들어 브랜드와 동료 16,17이 실시한 최근 일련의 연구에서는 긍정적 감정과 부정적 감정이 지식 전이에 서로 다른  영향을 미치는지 여부를 조사했습니다. 이러한 실험의 학습 단계에서 참가자들은 하노이의 탑(ToH)을 푸는 법을 배웠다. 
For example, a recent set of studies conducted by Brand and colleagues16,17 examined whether positive and negative emotions have differential effects on knowledge transfer. During the learning phase of these experiments, participants learned to solve the Tower of Hanoi (ToH) 

참가자들은 미리 정의된 마스터 수준에 도달할 때까지 디스크 3, 4개 ToH 퍼즐을 풀었습니다. 이후 연구원들은 참가자들에게 '행복하고 긍정적인' 혹은 '슬프고 부정적인' 인생 사건에 대해 쓰도록 함으로써 참가자들의 기분을 조작했다. 무드 인덕션에 이어 참가자들에게 근위부 문제 1개(5디스크 ToH)와 전이문제 2개 과제를 풀도록 했다. 
Participants solved three- and four-disk ToH puzzles until they reached a predefined mastery level. Afterwards, the researchers manipulated the participants’ mood by having them write about a “happy and positive” or “sad and negative” life event. Following the mood induction, they asked participants to solve one proximal (five-disk ToH) and two transfer tasks. 

그 결과는 감정적 발렌스가 전이에 있어 중요한 요소라는 것을 보여주었다. 참가자가 긍정적인 감정을 느끼도록 유도하는 2가지 전이과제의 성과가 향상되었고 부정적인 감정을 느끼는 참가자에게는 장애가 되었다. 
The results showed that emotional valence is an important factor in transfer. Performance on the two transfer tasks was improved for participants induced to experience positive emotions and was impaired for those experiencing negative emotions. 

긍정적이고 부정적인 감정(예를 들어, 세계적인 대 지역)에 스타일 처리의 차이 그nonanalytic(시스템 1)적(시스템 2)추론 과정 사이에 혼동하지 않아야 한다. 연구진은 기껏해야 시스템1에만 감정처리가 특정하며 시스템2 처리는 감정적 영향이 없다는 가설을 세워왔다.20 긍정적 감정은 전역적 세부사항의 자동처리를 부추기는 반면 부정적 감정은 국소적 세부사항의 자동처리를 유도한다. 
The differences in processing styles for positive and negative emotions (e.g., global versus local) should not be confused with those between nonanalytic (System 1) and analytic (System 2) reasoning processes. At most, researchers have hypothesized that emotional processing is specific to System 1 and that System 2 processing is free from emotional influence.20 Therefore, positive emotions likely encourage the automatic processing of global details, whereas negative emotions lead to the automatic processing of local details. 

일부 경험적 뒷받침은 감정적 발렌스에 따라 인지적 편견을 저지를 가능성에 영향을 줄 수 있다고 시사하지만, 이러한 효과의 유병률에 대한 감정의 영향은 다양한 것으로 보인다. 예를 들어, 

  • 고정 편견(즉, 전체 상황을 이해하는 대신 하나의 특성이나 정보에 초점을 맞춘다)은 학습자가 부정적인 감정 상태에 있을 때 발생할 가능성이 더 높습니다. 반면, 
  • 근본적인 귀인 편향(즉, 상황적 힘을 과소평가하고 처분 요인을 과대평가하려는 경향)과 정의로운 세계 편향(즉, 사람들이 받을 만한 결과를 얻는다는 믿음)은 사람들이 긍정적인 감정 상태에 있을 때 더 많이 발생한다.

Some empirical support suggests that emotional valence can influence the likelihood of committing cognitive biases, but the influence of emotion on the prevalence of this effect appears to vary. For example,

  • anchoring biases (i.e., focusing on one trait or piece of information at the expense of understanding the whole situation) are more likely to occur when learners are in negative emotional states.21,22 On the other hand,
  • the fundamental attribution bias (i.e., the tendency to underestimate situational forces and overestimate dispositional factors) and the just world bias (i.e., the belief that people get the outcomes they deserve) are more likely to occur when people are in positive emotional states.23,24

 

정보 해석
Interpreting information

인지적 유연성
Cognitive flexibility.

연구에 따르면 긍정적인 감정은 개인의 유연한 사고 능력을 촉진하고 다른 전략과 해결책을 발견하는 데 도움이 됩니다.예를 들어, Gasper28은 당면한 문제의 맥락에 따라 개인의 사고방식 전환 능력에 긍정적 감정과 부정적 감정이 서로 다른 영향을 미치는지 조사하였다.
Studies have shown that positive emotions facilitate an individual’s ability to think flexibly and discover alternative strategies and solutions.25–27 For example, Gasper28 examined whether positive and negative emotions have different influences on an individual’s ability to switch mindsets according to the context of the problem at hand.

개스퍼는 부정적인 감정을 경험하는 개인들이 그것이 부적절하다는 피드백을 받기 전까지 확립된 문제 해결 전략에 의존한다는 것을 발견했다. 반면 긍정적인 감정을 경험하는 사람들은 스스로 수립된 전략을 포기하는 경우가 훨씬 더 많았다. 
Gasper found that individuals experiencing negative emotions relied on the established problem-solving strategy until they received feedback that it was inadequate. On the other hand, those experiencing positive emotions were much more likely to abandon the established strategy on their own accord. 

개스퍼의 연구 결과는 [긍정적인 감정]이 머리 속에 떠오르는 잠재적 해결책의 수를 늘리며, 오래된 것에 대한 개인의 의존도를 낮추고, 잠재적으로 불충분한 문제 해결 전략을 줄임으로써 문제 해결을 촉진한다는 것을 시사한다. 브랜드 외 연구진에 따르면, [유연한 사고]는 "하위 구조가 동일하거나 유사한 표면 특성을 가진 서로 다른 전이 과제 간의 유사성을 감지하는 데 특히 유리하다"고 한다. 분명히, 이러한 인지적 유연성은 의학처럼 연구자들이 [조기 종결]가 진단 정확성에 대한 주요 도전과제로 지적한 분야에서 중요한 의미를 가질 수 있다. 실제로, 진단 의사결정을 연구하는 에스트라다, 이센, 그리고 동료들은 [긍정적인 감정]이 진단 정확도 증가, 호기심 증가, 그리고 정보의 통합 강화와 연관되어 있다고 보고했습니다.

The results of Gasper’s28 study suggest that positive emotions promote problem solving by increasing the number of potential solutions that come to mind and by decreasing an individual’s reliance on old, and potentially inadequate, problem-solving strategies. According to Brand et al,16 flexible thinking “should be particularly favorable for detecting analogies between different transfer tasks with similar or dissimilar surface features with identical substructure.” Clearly, such cognitive flexibility can have important implications in a field like medicine where researchers have identified premature closure as a major challenge to diagnostic accuracy.29,30 Indeed, Estrada, Isen, and colleagues,21,31,32 studying diagnostic decision making, have reported that positive emotions are associated with increased diagnostic accuracy, greater curiosity, and enhanced integration of information.

기억 인출
Memory retrieval.

모든 기억이 동등하게 만들어지는 것은 아닙니다. [고도의 감정적 경험]은 잘 기억되는 경향이 있는데, 특히 감정적 경험에 대한 강한 기억을 발생 후 수년 만에 흔히 보고하는 임상의에게는 놀라운 일이 아니다. [정서적 사건과 경험]이 [중립적 사건]보다 기억에서 더 안정적으로 인출된다는 많은 연구가 있지만, 정서적 경험이 기억 형성에 이처럼 큰 영향을 미치는 이유는 상대적으로 덜 알려져있다..
All memories are not created equal. Highly emotional experiences tend to be well remembered, which should come as no surprise to clinicians who themselves commonly report strong memories of particularly emotional experiences many years after their occurrence. Although plenty of research has shown that emotional events and experiences are retrieved more reliably from memory than neutral events,33,34 what is less recognized is why emotional experiences have such a strong impact on memory formation

감정적인 사건에 대한 기억력 향상에 대한 한 가지 가능한 설명은, 감정적인 반응을 경험하는 사람은 정신적으로 연습을 하거나 그 사건에 대해 "골똘히 생각할" 가능성이 더 높다는 것입니다.35–37 이 가설은 최근 연구에서 Ferree와 Cahill35에 의해 뒷받침되었다. 그들은 사람들이 무의식적으로 비감정적 사건과 관련된 감정적 사건을 다시 찾는 비율을 조사했다. 놀랍게도, 그들의 연구는 감정적이지 않은 것보다 [감정적인 경험]에서 의도하지 않은 사건들의 회수가 일어날 가능성이 더 높은지를 체계적으로 조사한 최초의 연구들 중 하나였다.
One potential explanation for enhanced memory of emotional events is that an individual who experiences an emotional reaction is more likely to mentally rehearse or “mull over” the event.35–37 This hypothesis was supported by Ferree and Cahill35 in recent research. They examined the rate at which people involuntarily revisit emotional events relative to nonemotional events. Surprisingly, their study was one of the first to systematically examine whether unintentional retrieval of events was more likely to occur for emotional experiences than for nonemotional ones. 

연구원들은 이 질문을 연구하기 위해 참가자들에게 일련의 감정적 혹은 중립적 영화를 보여주면서 "완전히 무감정적"에서 "극도의 감정적"에 이르는 10가지 형용사 척도를 사용하여 각 영화의 '감정성emotionality'에 대해 주관적으로 평가해 줄 것을 요청했다. 작가들은 긍정적인 감정과 부정적인 감정을 구분하지 않았다. 
To study this question, the researchers showed participants a series of either emotional or neutral films and asked them to subjectively rate each film for its “emotionality” using a 10-point adjectival scale ranging from “completely unemotional” to “extremely emotional.” The authors did not distinguish between positive and negative emotions. 

다양한 조치들에 걸쳐 참가자들은 중립적인 영화보다 감정성이 높았던 영화에 대해 더 많이 기억했다. 게다가 참가자들은 중립영화보다 감성영화에 대한 "자발적인 침입적 회상(SIR)"이 거의 3배 더 많으며, SIR의 빈도는 상기된 세부사항의 양과 긍정적으로 상관관계가 있다고 보고했다. 이러한 결과에 기초하여, Ferree와 Cahill은 SIR이 어떤 사건의 암호화된 버전에 대한 은밀한 검색을 촉진하고, 결과적으로 정서적 경험에 대한 기억을 향상시킨다고 결론지었다. 
Across the various measures, participants remembered more about the emotional films than the neutral films. Furthermore, participants reported nearly three times more “spontaneous intrusive recollections” (SIRs) for the emotional films than for the neutral films, and the frequency of SIRs was positively correlated with the amount of detail recalled (but only for emotional films). On the basis of these results, Ferree and Cahill concluded that SIRs promote covert retrieval of encoded versions of an event, which subsequently enhances memory for emotional experiences. 

다른 연구에서는 부정적인 사건이 긍정적인 사건보다 자발적으로 더 자주 기억되는 것으로 나타났다.38,39 예를 들어, Bernsten40은 대학생들의 매우 부정적인 사건과 매우 긍정적인 사건에 대해 비자발적인 기억을 비교했다. 결과는 부정적인 사건과 긍정적인 사건 모두 비자발적인 회복의 대상이라는 것을 보여주었다. 그러나, 매우 부정적인 인생 사건과 관련된 비자발적인 기억은 매우 긍정적인 사건에 대한 비자발적인 기억보다 더 우세했다. 
Other research has shown that negative events are spontaneously remembered more frequently than positive events.38,39 For example, Bernsten40 compared involuntary memories for highly negative and highly positive events among undergraduate students. The results demonstrated that both negative and positive events are subject to involuntary retrieval; however, the involuntary memories associated with highly negative life events were more prevalent than the involuntary recollections of highly positive ones. 

이처럼 [부정적으로 자극되는 감정적 사건의 반복적 인출]은 의학 교육 연구자들이 의학 훈련 중에 흔히 보고되는 [공감의 감소]를 이해하고 의사의 번아웃에 대해서도 빛을 비줘출 수 있다.6,7,42 즉, 의료연수생과 전문직 종사자가 모두 부정적인 사건(즉, 까다로운 환자, 경솔한 임상 오류 및 실패, 또는 어려운 내부 또는 전문가 간 상호작용)을 기억하고 회상할 가능성이 높다면, 그들의 인식은 시간이 지남에 따라 편향될 수 있으며, 이는 긍정적인 경험보다 부정적인 관행 측면이 훨씬 더 보편적으로 나타난다(기억하기 쉽기 때문이다). 

Such repeated retrieval of negatively arousing emotional events may help medical education researchers understand the commonly reported decline in empathy41 that occurs during medical training, as well as shed light on issues of physician burnout.6,7,42 That is, if medical trainees and professionals alike are more likely to remember and recall negative events, then their perception may be biased over time, whereby negative aspects of practice (i.e., demanding patients, imprudent clinical errors and failures, or difficult intra- or interprofessional interactions) appear to be much more common (because of the ease of recall) than positive experiences. 

동시에 이러한 연구 결과는 [부정적인 사건]이 직업에 대한 [다양한 불만족 지표]를 불러일으킬 수 있는 동시에 [학습을 유도하는 데 특히 가치가 있다]는 점에서 어려운 역설을 만들어낸다. 
At the same time, these findings establish a difficult paradox in that negative events might prompt various indications of dissatisfaction with the profession while being particularly valuable for inducing learning. 

정보에 대한 작업
Acting on information

지금까지 우리는 감정이 개인의 인식과 기억을 어떻게 조절하는지에 초점을 맞춰왔지만, 감정 또한 사람들이 다른 [학습 사건에 어떻게 행동하고 반응하는지]에 영향을 미치는 것으로 보인다. 예를 들어, 감정은 [피드백 개입]에 대응하여 개인이 피드백을 탐색하고 이에 대해서 적절하게 행동하는 정도를 변화시킬 수 있는 것처럼 보입니다.

To this point in our report, we have focused on how emotions moderate individual perceptions and memories, but emotions also appear to influence how people act and respond to different learning events.47,48 For example, emotions appear capable of altering the extent to which individuals seek out and act appropriately in response to feedback interventions. 

피드백은 의학 교육 환경에서 중요한 교육학적 개입으로 작용한다.49 학생들에게 성과 피드백을 이끌어내고 받을 기회를 제공하고, 자신의 성과에 대한 인식을 알리기 위해 외부 데이터를 찾는 것의 중요성을 강조하는 것은 일반적으로 학습과 지식 전달을 촉진하는 것으로 생각된다.그러나 긍정적인 피드백(예: 성공에 대한 정보)과 부정적인 피드백(예: 실패에 대한 정보)이 학습자의 동기 부여에 서로 다른 영향을 미치는지에 대한 연구는 긍정적인 피드백과 부정적인 피드백 모두 동기 부여와 성과를 동등하게 증가시키거나 감소시킬 수 있다는 것을 시사했습니다.50–52
Feedback serves as an important pedagogical intervention in medical education settings.49 Providing students with the opportunity to elicit and receive performance feedback and stressing on them the importance of seeking external data to inform their perceptions of their own performance is commonly thought to promote learning and knowledge transfer. However, research on whether positive (e.g., information about success) and negative (e.g., information about failure) feedback has different effects on a learner’s motivation has suggested that both positive and negative feedback can equally increase and decrease motivation and performance.50–52

자기 조절 초점 이론 53,54는 두 개의 독립된 조절 방향 또는 "마음의 상태" 즉, 촉진 시스템예방 시스템을 제안한다.

  • 촉진 시스템 하에서, 개인은 승진 기회, 보상, 성취를 지향합니다. 반대로,
  • 예방 시스템은 개인을 보안, 처벌, 부정적인 결과 회피로 향하게 합니다.
  • 프로모션에 초점을 맞춘 개인은 긍정적인 결과의 유무에 민감하므로 숙련된 성과로 인한 보상에 특히 민감해야 한다.
  • 그러나 예방에 초점을 맞추면 부정적인 결과의 유무에 민감하기 때문에 성과가 저조할 경우 처벌에 민감해야 한다.55–57 

Self-regulatory focus theory53,54 proposes two separate, independent regulation orientations or “states of mind”—the promotion system and the prevention system.

  • Under the promotion system, individuals are oriented toward advancement opportunities, rewards, and accomplishments.
  • In contrast, the prevention system orients individuals toward security, punishment, and avoiding negative outcomes.
  • With a promotion focus, individuals are sensitive to the presence or absence of positive outcomes and, therefore, should be particularly sensitive to rewards that result from skilled performance.
  • With a prevention focus, however, individuals are sensitive to the presence or absence of negative outcomes and, therefore, should be sensitive to punishments that accompany poor performance.55–57 

 

히긴스 53,54는 

  • [승진 초점] 하에서 성공(예: 긍정적인 피드백)은 긍정적일 뿐만 아니라 정서적 자극(예: 흥분, 행복)이 높은 감정을 생성하는 반면, 실패(예: 부정적인 피드백)는 부정적이지만 각성(예: 무관심, 낙담)이 낮은 감정을 생성한다고 제안했다. 반면, 
  • [예방 초점] 아래의 성공/긍정적 피드백은 각성이 낮은 긍정적인 느낌(예: 침묵, 이완)과 관련이 있는 반면, 실패/부정적 피드백은 각성이 높은 부정적인 느낌(예: 동요, 긴장)을 생성한다. 

따라서 히긴스의 이론은 피드백에 더 잘 수용하고 변화에 더 동기부여를 받게 하는 것은 정서적 (valence보다는) arousal이라는 것을 시사한다.

Higgins53,54 suggested that

  • under a promotion focus, success (i.e., positive feedback) produces feelings that are not only positive but are also high in emotional arousal (e.g., excitement, happiness), whereas failure (i.e., negative feedback) produces feelings that are negative but are also low in arousal (e.g., apathy, discouragement).
  • On the other hand, success/positive feedback under a prevention focus is associated with positive feelings that are low in arousal (e.g., quiescence, relaxation), whereas failure/negative feedback produces negative feelings that are high in arousal (e.g., agitation, tension).

Higgins’ theory, therefore, suggests that it is emotional arousal that leads to an individual being more receptive to feedback and more motivated to change rather than emotional valence. 

동기 부여에 대한 정서적 각성arousal의 잠재적 영향은 Van Dijk와 Kluger 55-57에게 피드백 가치(부정적 대 긍정적)와 규제 초점 사이의 상호작용과 이러한 상호작용이 개인이 받은 피드백에 대해 행동하도록 동기를 부여하는 정도에 영향을 미치는지 여부를 직접 검토하도록 영감을 주었다. 참가자들에게 자신의 (그리고 히긴스의) 가설을 시험하기 위해, 그들은 직장에서 일하고 있는 시나리오를 상상하게 하고 그들의 감독자는 그들의 업무 수행에 대해 논평하게 했습니다.56 
The potential influence of emotional arousal on motivation inspired Van Dijk and Kluger55–57 to directly examine the interaction between feedback valence (negative versus positive) and regulatory focus and whether this interaction influences the extent to which an individual is motivated to act on the feedback that he or she has received. To test their (and Higgins’) hypothesis, they had participants imagine a scenario in which they were working at a job and their supervisor commented on their task performance.56 

조절 초점을 조작하기 위해 참가자의 절반은 재정적 의무(예방 초점) 때문에 지켜야 할 일을 하고 있다는 말을, 나머지 절반은 항상 갖고 싶어하고 자신의 직위(승진 초점)에 진출하고 싶은 일을 하고 있다는 말을 들었다. 피드백 valence를 조작하기 위해 각 조건의 참가자 중 절반은 작업 수행에 실패했다고 랜덤하게 말했고, 나머지 절반은 성과가 뛰어났다는 말을 들었다. 
To manipulate regulatory focus, half the participants were told that they were working at a job that they had to keep because of financial obligations (prevention focus), whereas the other half were told that they were working at a job that they had always desired to have and wanted to advance at their position (promotion focus). To manipulate feedback valence, half of the participants in each condition were randomly told that they had failed in their task performance, whereas the other half were told that they had excelled in their performance. 

[동기부여 등급]은 부정적인 피드백을 받은 사람에 비해 긍정적인 피드백을 받은 사람이 더 높았지만, 참가자가 [촉진 초점]을 둔 경우에만 그러했다. [예방에 초점]을 둔 대상자에 대해서는 효과가 역전되었으며, (긍정적 피드백을 받은 대상자에 비해) 부정적인 피드백을 받은 대상자가 동기 부여가 더 높았다. 

Motivation ratings were higher for those who received positive feedback relative to those who received negative feedback, but only when participants were under promotion focus. The effects were reversed for those under prevention focus, with motivation being higher for those who received negative feedback relative to those who received positive feedback. 

고찰
Discussion


우리는 몇 가지 결론을 도출할 수 있다.
we can draw several conclusions.

1. [부정적인 감정]은 개개인이 학습 시나리오와 관련된 개별 [세부 사항]에 집중하도록 장려하며, 세부 사항에 대한 강한 주의가 필요한 작업에 도움이 될 수 있습니다. 반면에 [긍정적인 감정]은 개인들로 하여금 학습 행사의 [큰 그림]에 집중하도록 장려한다. 이러한 전체적 처리 스타일은 학습자가 관련 학습 이벤트 간의 연관성 및 관계적 연결을 만들어, 지식 및 기술을 새로운 상황으로 전이transfer할 가능성을 높일 수 있습니다.
1. Negative emotions encourage individuals to focus on the individual details associated with a learning scenario, which may be beneficial in tasks that require a strong attention to detail. On the other hand, positive emotions encourage individuals to focus on the big picture of a learning event. This global processing style may enable learners to create associative and relational connections between relevant learning events, thereby increasing the likelihood of transferring knowledge and skills to new situations.

2. [부정적인 감정]은 [익숙한 문제 해결 전략에 대한 개인의 의존도]를 높일 수 있으며, 이러한 전략이 잠재적으로 부적절할 때 적응하기가 더 어려워질 수 있습니다. [긍정적인 감정]은 정보에 대한 [인지 유연성과 개방성]을 촉진하고, 이를 통해 학생들이 과제 간의 유사성을 감지하여 임상 기술과 지식을 전이할 수 있도록 합니다. 연구자들은 이러한 유연성이 조기 종결으로 인한 [오류 발생 가능성을 줄이는 데 중요]하다고 생각합니다.59 
2. Negative emotions may increase an individual’s reliance on familiar problem-solving strategies, which may make it more difficult for him or her to adapt when such strategies are potentially inadequate. Positive emotions facilitate cognitive flexibility and openness to information, which may enable students to detect similarities between tasks, thereby enhancing the transfer of clinical skills and knowledge. Researchers believe that such flexibility is valuable for reducing the likelihood of errors attributable to premature closure.59 


3. [감정적 경험], 특히 부정적인 경험은 비감정적 경험보다 더 자주 떠오를 가능성이 높습니다. 이러한 의도하지 않은 감정적 사건과 반응의 검색은 비록 전이transfer에는 방해될 수 있지만, 개인이 긍정적인 경험에 비해 부정적인 학습 경험을 기억으로부터 더 많이 인출할 가능성을 증가시킬 수 있으며, 그러한 (부정적 경험의) 인출은 공감과 만족도를 낮추는 데 기여할 수 있습니다
3. Emotional experiences, particularly negative ones, are more likely to be mulled over than nonemotional experiences. This unintentional retrieval of emotional events and reactions can increase the likelihood of an individual further retrieving his or her negative learning experiences from memory relative to positive experiences, though transfer may be impeded, and such retrieval may contribute to lowering empathy and satisfaction. 

4. 긍정적 감정과 부정적 감정의 차이는 피드백 받는 사람의 심리 상태에 따라 달라집니다. 프로모션 및 예방 규제 시스템은 동기 부여 및 개선에 영향을 미치기 위해 피드백 가치(부정/실패 대 긍정/성공)와 상호 작용한다. [승진 초점] 아래서 부정적인 피드백을 받는 사람보다 긍정적인 피드백을 받는 사람이 동기부여가 더 높습니다. [예방 초점]에서는 긍정적인 피드백을 받는 사람보다 부정적인 피드백을 받는 사람이 동기부여가 더 높습니다. 
4. The difference in effects of positive and negative emotions is dependent on the feedback recipient’s state of mind. The promotion and prevention regulatory systems interact with feedback valence (negative/failure versus positive/success) to influence motivation and improvement. Under promotion focus, motivation is higher for those who receive positive feedback relative to those who receive negative feedback. Under prevention focus, motivation is higher for those who receive negative feedback relative to those who receive positive feedback. 

이러한 결과를 종합해 보면 긍정적인 감정과 부정적인 감정 모두 학습과 지식 전달에 중요한 역할을 한다는 것을 알 수 있습니다. 이러한 발견은 학생들이 복잡한 지식과 기술을 배우고 이 지식을 새로운 임상 환경으로 전이할 수 있도록 최선의 준비를 하는 방법에 대해 의학 교육자들에게 중요한 의미를 지닙니다. 담당 의사나 상급 레지던트가 후배에게 일련의 어려운 질문을 하는 일반적인 교육학적 기법을 생각해 보십시오. 이러한 핌핑pimping 경험은 굴욕감, 당황감, 흥분감, 그리고 불안감을 포함한 다양한 감정과 연관되어 있으며, 교육자들은 이러한 감정적 상태가 핌핑pimping 경험을 통한 학습을 촉진시킨다는 이론을 세워왔다.60,61 실제로, 대부분의 학생들은 이러한 핑핑 세션을 꽤 잘 기억한다 – 이는 일부 교육자들이 핌핑을 교육의 방식으로 사용하는 것을 촉진하는 사실 중 하나이다.
Taken together, these results demonstrate that both positive and negative emotions play an important role in learning and knowledge transfer. These findings have important implications for medical educators regarding how best to prepare students to learn complex knowledge and skills and to transfer this knowledge into novel clinical settings. Consider the common pedagogical technique known as “pimping,” whereby attending physicians or senior residents ask junior colleagues a series of challenging questions. These pimping experiences are associated with a variety of emotions, including humiliation, embarrassment, excitement, and anxiety, and educators have theorized that these emotive states promote learning during the pimping experience.60,61 Indeed, most students recall these pimping sessions quite well—a fact that is used by some educators to promote the use of pimping as a form of teaching. 

하지만, 우리는 핌핑이 언제, 왜, 왜 효과가 있는지 아직 완전히 이해하지 못했습니다.

  • 학생들이 이런 사건들을 떠올리는 성격 때문에 머리 속에서 재현할 가능성이 더 많은가?
  • 특정 핌핑 사건에 대응하여 관련 정보를 더 많이 찾을 수 있습니까?
  • 포주가 지식 유지에 미치는 영향은 학생들이 긍정적 대 부정적 감정을 경험하는지 또는 자극적 대 비흥분적 상태를 경험하는지에 따라 달라지는가?
  • 핌핑이 새로운 임상 사례로 지식과 기술을 이전하는 것을 촉진하거나 방해합니까?

 

However, we do not yet have a complete understanding of whether, why, or when pimping works.

  • Are students more likely to replay these events in their heads because of their evocative nature?
  • Are they more likely to look up relevant information in response to a particular pimping event?
  • Does the impact of pimping on knowledge retention depend on whether students experience positive versus negative emotions or arousing versus nonarousing states?
  • Does pimping promote or impede the transfer of knowledge and skills to new clinical cases?

 

이 글에서 검토한 문헌은 [학생들이 학습 상황을 위협적이거나 두려운 것으로 인식]할 때 인지 리허설과 정교함으로 인해 정서적 사건에 대한 기억력이 더 좋을 수 있지만, 더 넓은 연관성을 가질 가능성이 낮기 때문에 학습된 정보를 다른 임상상황에 전이하는 것을 방해할 수 있음을 시사한다. 따라서, 비록 핌핑이 특정 상황에 대한 기억을 향상시켜 영향력 있는 교육/학습의 인상을 만들 수 있더라도, 실제로 새로운 맥락에 습득한 지식을 적용하는 것을 방해할 수 있습니다. 
The literature reviewed in this article suggests that, when students perceive a learning situation as threatening or frightening, they may have better memory of the emotional event because of cognitive rehearsal and elaboration, but they may be less likely to make broader connections, thereby precluding transfer of the learned information to other clinical settings. Therefore, although pimping may enhance memory for certain situations, creating the impression of influential teaching/learning, it may actually impede the application of knowledge gained to new contexts. 

물론 그러한 지식이 훈련과 연습에 영향을 미치기 위해서는 감정과 그것이 성과에 미치는 영향이 효과적으로 조절될 수 있는지 알아야 한다. 어떤 증거는 일단 개인이 잠재적인 기분 영향을 알게 되면 감정이 그들의 수행에 영향을 미치는 정도를 조절할 수 있다는 것을 암시한다. 결과적으로, 의학 교육자들은 의사들이 그들의 [감정 상태와 그들의 감정이 어떻게 인식, 해석, 행동을 편향시킬 수 있는지를 인식하도록 훈련]시킬 수 있을 것입니다. 
Of course, for such knowledge to have an impact on training and practice, we must know whether emotion and its influence on performance can be modulated effectively. Some evidence suggests that once individuals are made aware of potential mood effects, they are able to modulate the extent to which emotion influences their performance.10,62,63 As a result, medical educators may be able to train physicians to be aware of their emotional states and how their emotions may bias perceptions, interpretations, and actions. 

  • 이와 관련하여 자기 성찰 체크리스트와 포트폴리오의 구성요소로써 학습자의 정서 상태에 대한 관심을 분명히 유도하는 것이 유용할 수 있습니다. 
  • 또는, 시뮬레이션된 상황을 사용하면 학생들이 언제, 어느 정도까지 감정이 결정을 통제하는지 알 수 있습니다. 학생들에게 일련의 시뮬레이션을 시킨 다음, 학생들이 어떻게 느끼는지 지속적으로 모니터링하도록 요구함으로써, 의료 훈련생들은 그들의 감정 상태를 더 잘 모니터할 수 있습니다. 
  • 다양한 감정상태와 그 감정상태가 학습에 미치는 영향을 파악할 수 있는 능력을 함양함으로써, 의료전문가와 교육생은 자신이 언제 가장 잘 학습하고 있는지, 그렇지 않은지에 대한 인식을 이상적으로 발전시킬 수 있을 것이다.
  • Explicitly drawing attention to learners’ emotional states by making them components of self-reflective checklists and portfolios may be useful in this regard.64
  • Alternatively, the use of simulated situations may help students become aware of when and to what extent emotions regulate their decision making. By subjecting students to a series of simulations and then requiring them to continuously monitor how they are feeling, medical trainees may become better at monitoring their emotional states.
  • By fostering the ability to identify different emotional states and their effects on learning, medical professionals and trainees will ideally develop an awareness of when they are learning and performing at their best and when they are not.



마지막으로 우리는 감정이 얼마나 강력해질 수 있는가에 대해 명시적으로 보강할 가치가 있다고 생각합니다. 본 리뷰에서 설명한 분위기 유도 절차는 매우 미미합니다. 짧은 필름 클립이 효과가 있다면, 의료 훈련과 관리에서 흔히 볼 수 있는 것과 같이 더 극단적인 경험을 한 후에 얼마나 더 극적인 변화가 일어날 수 있을까? 말하자면, 우리가 유도된 감정 상태에 대해 논의한 후 참가자들에게 감정적으로 중립적인 작업(예: 전역/지역 처리 작업; ToH 퍼즐)을 완료하도록 한 많은 연구들에 주목해야 한다. 

Finally, we think it is worth explicitly reinforcing just how powerful emotions can be. The mood induction procedures that we have described in this review are quite minimal. If a brief film clip has an effect, how much more dramatic might the change be after a more extreme experience, like those common in medical training and care? That being said, it is important to note that many of the studies that we discussed induced emotional states and then had participants complete emotionally neutral tasks (e.g., global/ local processing tasks; ToH puzzle). 

훈련생들이 학습 환경에 가져오는 

  • 내생적 정서 상태(즉, 스트레스, 긴장, 흥분)
  • 특정 학습 사건에 대응하여 발생하는 감정 상태(즉, 첫 삽관 수행과 관련된 스트레스, 유아의 탄생을 관찰함으로써 유발되는 흥분) 

...를 구별할 가치가 있을 수 있다. 

It may be worth differentiating between

  • endogenous emotional states that trainees bring into a learning environment (i.e., stress, nervousness, excitement) and
  • the emotional states that are brought about in response to specific learning events (i.e., stress associated with performing one’s first intubation, excitement induced by observing the birth of a infant). 

우리가 검토한 문헌들은 개인의 감정 상태가 학습/전이 사건과 얼마나 연관되어 있는지가 얼마나 중요한지에 대해 우리에게 알려주지 않았다. 의료 환경에서 두 사례가 모두 잠재적으로 높은 유행률을 보인다는 점을 고려할 때, 내인성 및 외인성 정서 경험의 구별은 의료 교육의 맥락에서 특히 중요할 수 있다.

The literature that we reviewed did not inform us about the extent to which it matters whether an individual’s emotional state is tied to the learning/transfer event. The distinction between endogenous and exogenous emotional experiences may be particularly important in the context of medical education, given the potentially high prevalence of both instances in health care settings.1 

향후 연구를 위한 권고사항
Recommendations for future research


오히려 의과대학 시절뿐만 아니라 경력 전반에 걸쳐 경험했던 감정들이 의료전문가와 연수생들의 높은 수준의 수행 능력에 상당한 영향을 미칠 수 있다. 보렐-캐리오와 엡스타인65가 최근 밝힌 것처럼 "의사들이 임상 상황에서 더 잘 기능할 수 있도록 정서적 자기 인식과 주의력 자기 조절을 습관화 할 수 있다"고 밝혔다.

Rather, the emotions experienced not only during medical school but throughout one’s career may have a significant impact on health care professionals and trainees’ capacity to perform at a high level. As Borrell-Carrió and Epstein65 recently stated, “emotional self-awareness and self-regulation of attention can be consciously cultivated as habits to help physicians function better in clinical situations.”

 


Acad Med. 2012 Oct;87(10):1316-22.

 doi: 10.1097/ACM.0b013e3182675af2.

The role of emotion in the learning and transfer of clinical skills and knowledge

Meghan M McConnell 1Kevin W Eva

Affiliations collapse

Affiliation

  • 1Centre for Health Education Scholarship, University of British Columbia Faculty of Medicine, Vancouver, British Columbia, Canada. meghan.mcconnell@ubc.ca
  • PMID: 22914515
  • DOI: 10.1097/ACM.0b013e3182675af2Abstract
  • Purpose: Medical school and residency are emotional experiences for trainees. Most research examining emotion in medicine has focused on negative moods associated with physician burnout and poor quality of life. However, positive emotional states also may have important influences on student learning and performance. The authors present a review of the literature on the influence of emotion on cognition, specifically how individuals learn complex skills and knowledge and how they transfer that information to new scenarios.Results: The authors found articles that show that emotion influences various cognitive processes that are involved in the acquisition and transfer of knowledge and skills. More specifically, emotion influences how individuals identify and perceive information, how they interpret it, and how they act on the information available in learning and practice situations.
  • Conclusions: There are many ways in which emotions may influence medical education. Researchers must further explore the implications of these findings to ensure that learning is not treated simply as a rational, mechanistic process but that trainees are effectively prepared to perform under a wide range of emotional conditions.
  • Method: From September 2011 to February 2012, the authors searched Medline, PsycInfo, GoogleScholar, ERIC, and Web of Science, as well as the reference lists of relevant articles, for research on the interaction between emotion, learning, and knowledge transfer. They extracted representative themes and noted particularly relevant empirical findings.

동기적 & 비동기적 이러닝(EDUCAUSE Quarterly, 2008)
Asynchronous and Synchronous E-Learning

Stefan Hrastinski

 

 

e-러닝 이니셔티브가 성공하기 위해서는 조직과 교육 기관이 서로 다른 e-러닝 기술과 방법의 이점과 한계를 이해해야 합니다. 연구는 다양한 요소가 이러닝의 효율성에 미치는 영향을 연구함으로써 실무자들을 지원할 수 있습니다. 일반적으로 비동기식 및 동기식의 두 가지 기본 e-러닝 유형을 비교합니다. 최근까지 e-러닝 이니셔티브는 주로 비동기적인 교육 및 학습 수단에 의존했다.3 그러나 최근의 기술 향상과 대역폭 기능 증가로 동기식 e-러닝의 인기가 높아지고 있습니다.4

For e-learning initiatives to succeed, organizations and educational institutions must understand the benefits and limitations of different e-learning techniques and methods. Research can support practitioners by studying the impact of different factors on e-learning's effectiveness. Two basic types of e-learning are commonly compared, asynchronous and synchronous. Until recently, e-learning initiatives mainly relied on asynchronous means for teaching and learning.3 However, recent improvements in technology and increasing bandwidth capabilities have led to the growing popularity of synchronous e-learning.4

 

비동기식 및 동기식 이러닝 정의
Defining Asynchronous and Synchronous E-Learning

비동기식 e-러닝과 동기식 e-러닝의 유용성에 대해 지속적인 토론이 이루어집니다. 
An ongoing debate addresses the usefulness of asynchronous versus synchronous e-learning. 

[비동기식 e-러닝]이메일과 토론 게시판 같은 미디어에 의해서 장려되며, 참가자들이 동시에 온라인에 접속할 수 없는 경우에도 학습자와 교사 간의 업무 관계를 지원합니다. 따라서 비동기식은 유연한 e-러닝의 핵심 구성요소입니다. 사실, 많은 사람들이 일과 가족, 그리고 다른 약속들과 교육을 결합하는 비동기적인 성격 때문에 온라인 강좌를 듣는다. 비동기식 e-러닝을 통해 학습자는 언제든지 e-러닝 환경에 로그온하여 문서를 다운로드하거나 교사 또는 동료에게 메시지를 보낼 수 있습니다. 학생들은 자신의 기여contribution을 다듬는데 더 많은 시간을 할애할 수 있고, 이는 (동기식 의사소통에 비해) 일반적으로 더 사려 깊다고 여겨진다.

Asynchronous e-learning, commonly facilitated by media such as e-mail and discussion boards, supports work relations among learners and with teachers, even when participants cannot be online at the same time. It is thus a key component of flexible e-learning. In fact, many people take online courses because of their asynchronous nature, combining education with work, family, and other commitments. Asynchronous e-learning makes it possible for learners to log on to an e-learning environment at any time and download documents or send messages to teachers or peers. Students may spend more time refining their contributions, which are generally considered more thoughtful compared to synchronous communication.7

[동기식 e-러닝]은 보통 화상 회의와 채팅과 같은 미디어를 통해 지원되며, 학습 커뮤니티의 발전에 있어 e-러너를 지원할 수 있는 잠재력을 가지고 있습니다. 학습자와 교사는 동기식 e-러닝을 보다 사회적으로 경험하고 실시간으로 질문하고 답함으로써 좌절을 피할 수 있습니다.8 동기식 세션은 학습자가 스스로를 고립자isolates보다 참여자participants로 느낄 수 있도록 도와줍니다.
Synchronous e-learning, commonly supported by media such as videoconferencing and chat, has the potential to support e-learners in the development of learning communities. Learners and teachers experience synchronous e-learning as more social and avoid frustration by asking and answering questions in real time.8 Synchronous sessions help e-learners feel like participants rather than isolates:

특히 동기적으로 더 지속적인 접촉을 통해 고립이 극복될 수 있고, 컴퓨터와 통신하는 고립된 개인이 아닌 공동체의 구성원으로서 자신을 인식함으로써 극복될 수 있습니다.9
Isolation can be overcome by more continued contact, particularly synchronously, and by becoming aware of themselves as members of a community rather than as isolated individuals communicating with the computer.9

 

(동기식과 비동기식의 구분은) 사용자의 사용 방법에 따라 결정된다는 것이 중요하다. 예를 들어, 사용자가 로그인한 상태로 전자 메일을 계속 모니터할 때 전자 메일이 거의 동기적으로 사용되는 경우가 있습니다.11 따라서 비동기식 전자 학습과 동기식 전자 학습의 차이는 종종 [정도의 차이]일 수 있다.
Note also that the users decide how to use a medium. For example, in some instances e-mail is used near-synchronously when users remain logged in and monitor their e-mail continuously.11 Thus, the difference between asynchronous and synchronous e-learning is often a matter of degree.

세 가지 유형의 통신
Three Types of Communication

Haythornhwaite12는 특히 e-러닝 커뮤니티를 구축하고 유지하기 위해 콘텐츠 관련 커뮤니케이션, 과제 계획, 사회적 지원 등 세 가지 유형의 커뮤니케이션이 중요하다고 주장합니다(표 1 참조).

  • 첫째, [수업 내용]과 관련된 의사소통은 학습에 필수적입니다. 기존 교육에서처럼 전자 학습자도 질문을 하고 정보와 아이디어를 공유할 수 있어야 합니다.
  • 두 번째로, 특히 학습자들이 동료들과 협력하여 과제와 같은 종류의 제품을 생산할 때, [과제 계획]에 대한 지원은 필수적입니다.
  • 마지막으로, [사회적 지지] 관계는 협력적 학습을 촉진하는 분위기 조성에 바람직합니다.

Haythornthwaite12 argues that three types of communication in particular are important for building and sustaining e-learning communities: content-related communication, planning of tasks, and social support (see Table 1).

  • Firstly, communication related to the course content is essential for learning. Just as in traditional education, e-learners need to be able to ask questions and share information and ideas.
  • Secondly, support for planning tasks is essential, especially when learners produce some kind of product, such as an assignment, in collaboration with peers.
  • Finally, social support relations are desirable for creating an atmosphere that fosters collaborative learning.

 

연구 배경
Research Background

제 박사 학위 논문에서 13 저는 비동기식 및 동기식 e-러닝을 비교했습니다. 
In my PhD thesis,13 I compared asynchronous and synchronous e-learning. 

나는 모든 문장들을 표 1에 기술된 세 가지 교환 유형에 따라 분류했다. 
I classified every written sentence according to the three types of exchanges described in Table 1. 

비동기식 e-러닝의 이점 및 제한 사항
Benefits and Limitations of Asynchronous E-Learning

세미나 논의의 문장 분류는 표 2에 제시되어 있다. [소규모 집단]에서 이뤄진 비동기식 논의의 거의 모든 문장과 [대규모 집단]의 방대한 다수의 문장이 [내용 관련 문장]으로 분류되었다. 이는 놀라운 결과입니다. 캠퍼스에서 학습자가 수업 내용과 관련된 문제를 토론하는 데 시간의 90% 이상을 할애했다고 가정해 보십시오. 하지만 이런 결과는 골칫거리로 해석될 수도 있다. e-러너들이 얼굴을 거의 마주치지 않고 교사들이 주로 비동기 e-러닝에 의존한다면, 학생들은 고립감을 느낄 수 있으며, 이는 협업과 학습에 필수적인 학습 커뮤니티의 일부가 아니다.15 소규모 학급과 소수의 참가자들과 비동기식 토론을 진행하는 것은 어려워 보인다. 이전 연구에 의해 지지되었다.16
The classification of sentences from the seminar discussions is presented in Table 2. Almost every sentence in the asynchronous discussions of the smaller group, and a vast majority of sentences in the larger group, were classified as content-related. This is a remarkable result—imagine if learners on campus spent more than 90 percent of their time discussing issues related to course content. These results can also be interpreted as troublesome, however. If e-learners seldom meet face-to-face and teachers mainly rely on asynchronous e-learning, students might feel isolated and not part of learning communities, which is essential for collaboration and learning.15 When comparing the smaller to the larger class, it seems difficult to get asynchronous discussions going with few participants, a finding supported by previous research.16

로버트와 데니스17가 제안한 [미디어 선택의 인지 모델]은 비동기적 의사소통이 사람의 정보 처리 능력을 증가시킨다는 이론을 세운다. 바로 답변을 해야되는 것이 아니므로 수신자는 메시지를 이해하는 데 더 많은 시간을 쓸 수 있다. 제 인터뷰는 다음과 같은 인용구를 통해 이러한 주장을 뒷받침합니다.
The cognitive model of media choice proposed by Robert and Dennis17 theorizes that asynchronous communication increases a person's ability to process information. The receiver has more time to comprehend a message because an immediate answer is not expected. My interviews support this argument, as illustrated by the following quote:

[비동기식 토론]에서는 몇 가지 사실을 더 쉽게 찾고, 책을 보고, 더 철저한 게시물을 작성하는 것이 좋습니다.
In the [asynchronous discussions] it is easier to find some more facts, maybe have a look in a book and do more thorough postings.

실제로 Kock의 추산에 따르면, 600개의 단어를 주고받는 데, 대면 상황에서 복잡한 그룹 작업을 할 때는 약 6분이 소요되며, 같은 수의 단어를 이메일로 주고받으려면 약 1시간이 소요된다고 한다.

In fact, according to Kock's estimate,18 an exchange of 600 words requires about 6 minutes for complex group tasks in face-to-face settings, while exchanging the same number of words over e-mail would take approximately one hour.

동기식 e-Learning의 이점 및 제한 사항
Benefits and Limitations of Synchronous e-Learning

표 2를 보면, 동기식 e-러닝이 비동기식 e-러닝보다 [(내용 외의) 다른 유형의 소통]을 더 많이 지원한다는 것이 명백해집니다. 내용 관련 문장의 약 60%가 내용과 관련되어 있으며, 1/3정도는 업무 계획과 관련되어 있다. 이는 이러한 토론이 시간에 의해 제한되었다는 사실로 설명할 수 있습니다. 즉, 참가자들은 예정된 3시간 동안 예상대로 진행되었는지 확인해야 했습니다. 동시 토론에서 참가자들은 과정 작업 이외의 사항도 논의했습니다. 이것은 특히 각 논의의 시작과 끝에서 명확했다. 동기식 논의에서 작은 그룹과 큰 그룹 사이의 뚜렷한 차이는 없었다.
When studying Table 2, it becomes apparent that synchronous e-learning supports other types of communication more often than does asynchronous e-learning. Almost 60 percent of the sentences related to content, while a third of the sentences related to planning of tasks. This can be explained by the fact that these discussions were limited by time—the participants had to make sure they did what was expected during the scheduled three hours. In synchronous discussions, participants also discussed things other than course work. This was especially evident at the beginning and end of each discussion. No apparent difference could be discerned in the synchronous discussions when comparing the smaller and larger classes.

Kock의 [미디어 자연성 가설]은 [동기적인 의사소통이 심리적 자극을 증가시킨다]고 예측한다. 마찬가지로, 로버트와 데니스의 [미디어 선택 인지 모델]은 동기적인 의사소통이 동기motivation를 증가시킨다고 예측합니다. 코크는 "자연스러운" 미디어를 특징짓는 각각의 요소들(예를 들어, 얼굴 표정과 몸짓을 전달하고 관찰할 수 있는 것)이 심리적 각성arousal에 기여한다고 주장한다. 그러나 이러한 요소들이 억제된다면 심리적 자극의 감소는 예상할 수 있다.
Kock's media naturalness hypothesis19 predicts that synchronous communication increases psychological arousal. Similarly, Robert and Dennis's20 cognitive model of media choice predicts that synchronous communication increases motivation. Kock argues that each element that characterizes "natural" media (for example, the ability to convey and observe facial expressions and body language) contributes to psychological arousal. If these elements are suppressed, however, a decrease in psychological arousal can be expected.

많은 학습자들이 비동기식 커뮤니케이션에 비해 [동기식 커뮤니케이션이 "대화에 더 가깝다"고 느낀다]는 사실이 인터뷰에서 밝혀졌다. 동기식 커뮤니케이션은 [사회적 지지]를 나누거나, 덜 복잡한 문제를 논의하는 것에 더 적합한 것으로 보였다. 따라서 동기적으로 의사소통할 때 문장 수가 더 많아지는 것(표 2 참조)은 이러한 유형의 커뮤니케이션이 대면 커뮤니케이션과 더 유사하기 때문에 전자 학습자들이 심리적으로 더 자극받고 동기부여를 받았다는 사실로 설명할 수 있다. 이러한 발견은 특히 소그룹에서 두드러졌다.
The interviews revealed that many e-learners felt that synchronous communication was "more like talking" compared with asynchronous communication. It seemed more acceptable to exchange social support and discuss less "complex" issues. Consequently, the higher sentence counts when communicating synchronously (see Table 2) can be explained by the fact that the e-learners felt more psychologically aroused and motivated, since this type of communication more closely resembles face-to-face communication. This finding was especially evident in the smaller class.

동기식 커뮤니케이션은 [메시지에 대한 수신자의 반응을 모니터]할 수 있게 해주며, 이는 수신자가 메시지를 읽고 대답하는 데 더 헌신적이고 동기부여가 되도록 합니다.21 제 경험적 연구의 일환으로 실시된 인터뷰가 이러한 주장을 뒷받침했습니다:

Synchronous communication enables monitoring the receiver's reaction to a message, which makes the receiver more committed and motivated to read and answer the message.21 The interviews conducted as part of my empirical studies supported this argument:

비록 내가 그 사람을 볼 수 없더라도, 나는 그 사람과 직접 대화하고 즉각적인 답변을 얻기 위해 그렇게 글을 씁니다.
Even if I cannot see the person, I write so to speak to the person directly and get an immediate answer.

또한 발신자 입장에서도 반응이 돌아올 가능성이 높다는 것을 알기 때문에, 심리적으로 더 각성aroused되고 동기부여가 될motivated 것으로 예상할 수 있다. 동기식 e-러닝에서 학습자는 대화를 방해하지 않기 때문에 빠르게 응답합니다. 인터뷰에서 드러나는 [단점은 종종 질보다는 양에 초점을 맞춘다]는 것입니다. 즉, "다른 누군가가 내가 하려던 말을 할 것이기 때문에 무언가를 빨리 쓰려고 합니다."

It can also be expected that the sender becomes more psychologically aroused and motivated because he or she knows a response is likely. In synchronous e-learning, learners respond quickly because they do not want to disrupt the conversation. A downside revealed in the interviews is that the focus is often on quantity rather than quality—that is, trying to write something quickly because "someone else will say what I was going to say."

온라인 학습의 인지 및 개인 차원
Cognitive and Personal Dimensions of E-Learning

앞의 섹션에서 저는 동기적인 커뮤니케이션을 통해 메시지에 대한 수신자의 반응을 모니터할 수 있게 되어, 수신자가 메시지를 읽고자 하는 의욕과 의욕을 더 느낄 수 있도록 한다고 제안했습니다. 그러나 비동기식 소통에서 발신자는 [즉각적인 응답을 기대하지 않기 때문에], 수신자는 메시지를 이해하는 데 더 긴 시간을 가지게 된다. 따라서 동기식 e-러닝은 [자극과 동기]를 증가시키는 반면, 비동기식 e-러닝은 [정보 처리 능력]을 증가시킵니다.
In the previous section, I suggested that synchronous communication makes it possible to monitor the receiver's reaction to a message, making the receiver feel more committed and motivated to read it. When communicating asynchronously, however, the receiver has more time to comprehend the message, since the sender does not expect an immediate answer. Thus, synchronous e-learning increases arousal and motivation, while asynchronous e-learning increases the ability to process information.

[개인 참여]와 [인지 참여]의 개념은 비동기식 및 동기식 e-러닝에 의해 지원되는 학습의 차원을 설명한다(그림 1 참조).

  • [개인 참여]는 [업무 계획 및 사회적 지원을 포함한, 덜 복잡한 정보 교환에 적합한, 보다 각성적 유형의 참여]이다
  • [인지 참여]는 [복잡한 문제에 대한 논의에 적합한 더 성찰적 참여 유형]이다

The concepts of personal participation and cognitive participation describe the dimensions of learning supported by asynchronous and synchronous e-learning (see Figure 1).

  • Personal participation describes a more arousing type of participation appropriate for less complex information exchanges, including the planning of tasks and social support.
  • Cognitive participation describes a more reflective type of participation appropriate for discussions of complex issues.

나는 동기식 e-러닝이 개인 참여를 더 잘 지원하고 비동기식 e-러닝이 인지 참여를 더 잘 지원한다고 제안한다.
I suggest that, other things being equal, synchronous e-learning better supports personal participation and asynchronous e-learning better supports cognitive participation.

여기에서 논의된 연구는 비동기식 및 동기식 e-러닝이 서로를 보완한다는 것을 보여준다. 이것이 교수자에게 시사하는 바는 [여러 유형의 비동기 및 동기식 커뮤니케이션을 제공하여 서로 다른 학습 활동에 적절한 수단을 사용할 수 있어야 한다는 것]입니다. 이러한 두 가지 유형의 온라인 학습의 조합은 학습자와 교사가 정보를 교환하고, 업무에 대한 협업을 하며, 서로에 대해 알아갈 수 있는 여러 가지 방법을 지원합니다.
The research discussed here demonstrates that asynchronous and synchronous e-learning complement each other. An implication for instructors is to provide several types of asynchronous and synchronous communication so that appropriate means are available for different learning activities. The combination of these two types of e-learning supports several ways for learners and teachers to exchange information, collaborate on work, and get to know each other.22 

앞서 언급했듯이, 많은 학습자들이 비동기적인 특성 때문에 온라인 과정에 등록하는데, 이러한 점을 고려해야 합니다.

  • 복잡한 문제를 논의하는 경우에, [화상 회의, 인스턴트 메시징 및 채팅과 같은 미디어에 의한 동기식 e-러닝과 상호 보완으로 대면 회의를 마련하는 것]은 학생들이 [서로 친해지고, 과제를 계획]할 수 있도록 지원하는 데 필수적일 수 있습니다.
  • 다만 성찰할 시간을 필요로 하는 복잡한 사안을 논의할 때는, 비동기식 e러닝으로 전환해 이메일, 토론 게시판, 블로그 등 미디어를 이용하는 것이 바람직하다.


As stated earlier, many learners enroll in online courses because of their asynchronous nature, which needs to be taken into account.

  • For the discussion of complex issues, synchronous e-learning, by media such as videoconferencing, instant messaging and chat, and arranging face-to-face meetings as a complement, may be essential as support for students to get to know each other and for planning the tasks at hand.
  • However, when discussing complex issues, in which time for reflection is needed, it seems preferable to switch to asynchronous e-learning and use media such as e-mail, discussion boards, and blogs.

 

표 3은 동기식 e-러닝 대비 비동기식 e-러닝을 사용하는 시기, 이유 및 방법을 요약합니다.
Table 3 summarizes when, why, and how to use asynchronous versus synchronous e-learning.

 

 

 

 

 


© 2008 Stefan Hrastinski

EDUCAUSE Quarterly, vol. 31, no. 4 (October–December 2008)

+ Recent posts