역량 기반 의학 교육(CBME) 또는 훈련(CBMT)은 21세기 전환 이후 널리 사용되는 용어가 되었다. 유비쿼터스 사용에도 불구하고 용어 및 관련 개념의 사용에는 차이가 있다. 이 항목에서는 개념에 대한 간략한 역사적 개요를 제공하고, CBME, 역량, 역량 및 밀접하게 관련된 개념의 명확한 정당성과 정의에 초점을 맞춘다. Competency-based medical education (CBME) or training (CBMT) has become widely used terminology since the turn of the twenty-first century. Despite its ubiquitous use, there is variation in the use of the terminology and related concepts. In this entry a brief historical overview of the concept is provided, followed by a focus on a clear justification and definition of CBME, competence, competency, and closely related concepts.
1949년, "역량-기반" 교육이 의학 또는 다른 교육 분야에서 사용되기 훨씬 전에 교육 심리학자인 랄프 타일러는 "타일러 레쇼날레"라고 알려진 최초 씨앗을 뿌렸다[1]. 그는 모든 교육기관이 다뤄야 할 네 가지 강력한 질문을 제기했다. In 1949, long before the term “competency-based” education was being used in medical or other areas of education, educational psychologist Ralph Tyler sowed its first seeds in what has become known as the “Tyler rationale”[1]. He posed four powerful questions any education institution should address:
1.학교는 어떤 목적을 달성해야 하는가?
2.이런 목적을 달성하기 위해 어떤 교육 경험을 제공할 수 있는가?
3.어떻게 조직화될 수 있는가?
4.이러한 목적이 달성되고 있는지 어떻게 판단할 수 있는가?
1.What purposes should a school seek to attain?
2.What educational experiences can be provided to attain these purposes?
3.How can these be organized?
4.How can one determine whether these purposes are being attained?
교육에 대한 이러한 '성과-기반'의 사고는 이전의 교육 관행과는 달랐다. 그 이후로, 많은 교육학자들은 그의 아이디어를 확장해 왔으며, 가장 두드러지게는 벤자민 블룸의 교육 목표 분류법인 인지적(지식), 정신운동가(기술), 정서적(태도) 영역은 교육 목표의 세계 대부분의 사고를 지배해 왔다[2]. 이러한 기여의 중요성은 교육이 진화한 전통보다 사전 정의된 [결과에 더 체계적으로 초점]을 두게 되었다는 것입니다.
This outcome-based thinking of education differed from education practice before. Since then, many educationalists have expanded on his ideas, most prominently Benjamin Bloom, whosetaxonomy of educational objectives, including a cognitive (knowledge), a psychomotor (manual skills), and an affective (attitudes) domain, has dominated most of the world’s thinking of educational objectives[2]. The significance of these contributions was that education became more systematically focused on predefined outcomes than on evolved tradition.
1963년에 Carroll은[동등한 학습 시간]이 주어졌을 때, [서로 다른 적성]을 가진 학생들이 학습 수행에서 차이를 보인다는 것을 관찰했다; 일부는 요구되는 수행 목표를 달성하지 못한다[3]. 그는 [교육의 가변적인 결과]를 피하기 위해서는[학습자마다 특정한 학습 목표를 달성하기 위해 필요한 학습 시간]을 허용해야 한다고 말했다. 이 견해는 비슷한 기술 숙달에 [유연성과 개인화]가 필요하다는 것을 인정함으로써 교육적 사고에 혁명을 일으켰다.
In 1963 Carroll observed that, given equivalent learning time, students with different aptitudes diverge in their learning performance; some do not attain the required performance goal[3]. To avoid variable outcome of education, he said, each learner must be allowed the learning time he or she needs to attain a specific learning goal. This view revolutionized the educational thinking by recognizing that a similar mastery of skills requires flexibility and individualization.
결과에 대한 집중은 한 반에 있는 많은 학생들이 필요한 학습 기준을 충족하도록 보장하기 위해 블룸의 "개인화된 교육 시스템"과 "마스터리 러닝"과 같은 접근법으로 이어졌다[4]. 여러 연구에서 그 성공이 입증되었으며, 많은 국가에서 교육과 미래의 직장 사이의 관계가 더욱 긴밀해졌다[5]. [직업 교육과 훈련]은 노동자들의 생산성을 보장하기 위해 [교육 외부의 영향력 있는 사람들]이 그것을 위한 목표와 내용을 만들기 시작하면서 [경제적 영향력economic forces]의 도구가 되었다.
The focus on outcomes led to approaches such as Bloom’s “personalized systems of instruction” and “mastery learning” to ensure that as many students in a class as possible meet a required learning criterion[4]. Several studies have illustrated its success and in many countries the relationship between education and future workplaces became tighter[5]. Vocational education and training became more an instrument of economic forces, as influential people outside education started formulating aims and content for it, to ensure that workers would be productive.
1980년대에 (비록 교육은 여기에 뒤쳐져 있었지만) 엄청난 기술적, 과학적 변화와 세계화는 학교들로 하여금 [고용 역량]을 도입하도록 이끌었다. 그리고 이는 [경쟁이 치열한 경제competitive economy에 복무하기 위한 기술과 유연성]의 수준을 높이고자 하는 기대 때문에 정당화되었다.대학 차원에서는 이러한 개혁이 항상 환영받는 것은 아니었는데, 이는 산업계의 요구가 가중될 경우 일반 학문의 교육이 저해될 수 있다는 우려 때문이었다. [교양과목]의 본질, 즉 [학문적 발전의 자유]는 [산업적으로 결정되는 성과]의 강한 공리주의적 성격과 사실상 양립할 수 없다.
The vast technological and scientific changes and globalization since the 1980s, with education lagging behind, led schools to introduceemployment competencies, justified by the wish to increase levels of skills and flexibility to serve a competitive economy. At the university level these reforms were not always welcomed, as it was feared that a heavier weight of industry needs could hamper general academic education. The very nature of liberal arts – the freedom of academic development – is not really compatible with the strong utilitarian nature of industry-determined outcomes.
역량 기반 의료 교육 Competency-based medical education
졸업후 교육이 대규모로 확장되기 전에, 오하이오 주 클리블랜드의 [케이스 웨스턴 리저브 대학]의 의과대학은 [의학 훈련의 내용]이 [임상적 관련성]에 초점을 두고, [개별적인 학문단위의 체계적이고 과학적인 기초]와 곧바로 연계된다면 더 효율적으로 전달될 것이라는 것을 가장 먼저 인식한 사람들 중 하나였다. 랄프 타일러가 컨설턴트로 있는 동안, 이 의과대학은 이론에서 실천으로 전환하기 위해 [임상 전 과정을 임상적으로 관련된 목표와 통합]했습니다 [6]. 그것은 역량 기반 의학교육의 선구자인 [역량-기반 의학교육]을 향한 첫걸음이었다. 이 결과 방향은 1960년대부터 오늘날까지 많은 학교, 특히 서구 세계에서 채택되었다[7]. Before the massive expansion of postgraduate training, Case Western Reserve University’s medical school in Cleveland, Ohio was among the first to recognize, as early as the 1950s, that the content of medical training would be more efficiently delivered if focused on clinical relevance, next to the systematic, scientific foundations of individual disciplines. With Ralph Tyler as a consultant, this school integrated pre-clinical courses with clinically relevant objectives, to make the transition from theory to practice more natural[6]. It was a first step toward outcome-based medical education, the precursor of competency-based medical education. This outcome direction was adopted by numerous schools, particularly in the Western world, from the 1960s until the present day[7].
(한편으로는 하나의 학문 분야이면서 다른 한편으로는 전문직을 지향하는) 의학교육과 교사교육은 역량 기반 교육을 가장 먼저 옹호하는 분야 중 하나였다. 역량에 기반한 의학교육에 대한 훌륭한 초기 설명은 1978년 McGaghie와 동료들에 의해 만들어졌다. 저자들은 다음과 같이 CBME를 과목 지향적이고 통합된 커리큘럼과 구별한다. Medical education and teacher education – on one hand both academic disciplines, and on the other hand both directed toward a professional vocation – were among the first to advocate competency-based education. An excellent early description of competency-based medical education was coined by McGaghie and colleagues in 1978. The authors distinguish CBME from subject-oriented and integrated curricula by
1.특정 환경에서 의료행위에 필요한 기능을 중심으로 한 조직,
2.모든 의대생이 기본 수행 목표를 마스터할 수 있다는 확신,
3.학습 및 학습 과정이 경험적으로 시험될 수 있다는 정당성.
1.its organization aroundfunctions required for the practiceof medicine in a specified setting,
2.the conviction thatall medical students can masterthe basic performance objectives, and
3.the justification that learning and learning processescan then be empirically tested.
"[CBME]의 의도한 성과는 [지역적 요구]를 충족시키기 위해 정의된 수준의 숙련도로 의료행위를 할 수 있는 보건 전문가이다." [8] “The intended outcome [of CBME] is a health-professional who can practice medicine at a defined level of proficiency, in accord with local conditions, to meet local needs”[8].
역량 기반 대학원 의학 교육 Competency-based postgraduate medical education
[역량 기반 의학 교육]은 성과에 기반을 두기 때문에 [PGME에 대한 CBME의 초점]은 지배적이었다. 서방 국가에서 의사 연수의 주요 결과인 의료의 감독되지 않은 실행은 현재 1차 진료를 포함하는 졸업 후 의학교육 후 거의 전적으로 의료 전문의의 특권이다.
As competency-based medical education is outcome-based, a focus of CBME on postgraduate training has been dominant. In western countries, unsupervised practice of healthcare, the dominant outcome of the training of physicians, is almost exclusively the prerogative of medical specialists after postgraduate training, which now includes primary care.
역량 기반 (졸업후) 의학교육은 현재 널리 사용되는 용어이며, 특히 1990년대에 CanMEDs 프레임워크(전문가를 위한 캐나다 의료 교육 지침) 프로젝트가 도입된 후 ACME(Accreditation Council) [10], [11]의 결과 프로젝트가 이어졌다. CBME 운동은 비판에 직면했는데, 그 중 일부는 그것이 무엇인지에 대한 다양한 해석과 적용 방식에 기인할 수 있다[12], [13], [14].
Competency-based (postgraduate) medical education is now a widely used terminology, especially after the introduction of theCanMEDSframework (Canadian Medical Education Directives for Specialists) project in the 1990s[9], followed by the Outcome Project of the ACGME (Accreditation Council for Graduate Medical Education in the USA)[10],[11]. The CBME movement has met with criticism, part of which can be attributed to varying interpretations of what it is, and part to the way it is being applied[12],[13],[14].
많은 저자들은 역량competence과 역량competency에 대한 "후지근한" 개념을 명확히 하려고 노력해 왔다. 역량의 다차원적 유형이 설명되었으며, 그 중 하나는 개념적-조작적 축conceptual–operational axis 과 개인적-직업적 축personal–occupational axis을 구분한다. 의료 역량은 주로 이 일반 유형학의 기능적 사분면에 위치할 수 있으며, 운영 및 직업 둘 다이다. 그러나 이 외에도 많은 다른 차원들이 문헌에서 광범위하게 논의되어 왔다. Many authors have attempted to clarify the “fuzzy” concepts of competence and competency. Multidimensional typologies of competence have been described, one of which distinguishes a conceptual–operational axis versus a personal–occupational axis. Medical competence would be situated primarily in the functional quadrant of this general typology, being both operational and occupational. But many other dimensions have been discussed extensively in the literature, such as
context-free versus context-specific,
knowledge versus capability,
behavior versus ability,
learnable versus unchangeable,
performance-oriented versus development-oriented.
또한 의학교육계는 여러 가지 방법으로 역량competence을 정의했다[15]. 최근의 권위 있는 정의는 대부분의 의학 교육자들이 동의하는 바를 포착한다:
"(의사가) 복무할 개인과 공동체의 이익을 위한 [의사소통, 지식, 기술, 임상 추론, 감정, 가치 및 성찰]을 일상적 실무에서 습관적이고 현명하게 사용하는 것"[16].
The medical education community has also defined competence in many different ways[15]. A recent authoritative definition captures what the majority of medical educators would probably agree with:
“The habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individual and community being served” [16].
이 정의는 전문적인 의료 기능의 모든 요소를 포괄적으로 포함하는 것을 목표로 하며, [관사가 없는 단수 명사]로 사용되어야 한다(즉, "a competence" 가 아니다). 또한 이 정의에 따르면, 복수인 "competences"은 유용한 용어가 아니다. "competencies"은 언어학적으로 "competence"[17]과 동의어로 간주되기 때문에, 우리는 "competencies"를 [의학적 competence의 전체 스펙트럼을 구성하는 여러 부분들parts]을 지칭하는 단어로 사용해야 한다.
This definition aims to comprehensively encompass all elements of professional medical functioning and should be used as a singular noun without article (i.e., not a competence). Following this definition, “competences,” in the plural, is not useful terminology. As “competencies” is considered linguistically synonymous to “competences”[17], we shall use “competencies” as the word for parts that together constitute the full spectrum of medical competence.
가장 문자 그대로 "성공적이거나 효율적으로 무언가를 할 수 있는 능력ability"[17]으로 formulate된 "역량competency"라는 단어는 교육자들 사이에 혼란을 초래했다. Competency-based 교육이 항상 그 약속에 부응하는 것은 아니었기 때문에, 그 개념은 종종 재정의되어 왔다. 네덜란드의 교육 위원회는 6가지 특징을 포함하는 유용한 문헌에서 도출한 역량의 정의를 제안했다: 역량은
구체적이고
통합적이며
내구성이 있으며,
성과에 초점을 맞추고,
학습가능하며,
상호 의존적이다.
The word “competency,” formulated most literally as “the ability to do something successfully or efficiently”[17], has led to confusion among educators. As competency-based education did not always lived up to its promise, the concept has been redefined often. The Educational Council of the Netherlands proposed a useful literature-derived definition of competency that includes six features: a competency is
이는 역량이 [외부의 기대치]를 반영해야 하며, 다른 학습자와는 무관한 [절대 표준]을 사용하여 [측정할 수 있는 행동]으로 이어져야 한다고 덧붙인 알바네즈 등의 최근의 정의에 부합한다[19].
This accords with a more recent definition by Albanese and colleagues, who add that competencies should reflect external expectations and should lead tobehavior that is measurable using absolute standards, that is, independent of other learners[19].
다른 저자들은 성공적으로 행동하는 능력은 어느 정도 [맥락-의존적]이라고 강조해 왔다. 개인은 예를 들어 시설이 잘 갖춰진 병원에서는 한 가지 맥락에서 역량을 보유할 수 있지만, 예를 들어 의료 지원이 거의 없는 외딴 시골 지역에서는 다른 맥락에서 역량을 보유할 수 없다.
의료 전문직의 전체 범위에서 잘 수행할 수 있는 능력이 "medical competence"와 동일하다면,
a medical competency는 [의료 전문직을 구성하는 업무의 전체 범위]에서 일부분에 해당하는 [특정한 통합적 업무]를 수행할 수 있는 [학습가능하고, 지속성가능하고, 측정 가능한 능력]으로 정의될 수 있다. 그것은 맥락에 따라서는 다소 달라질 수 있는 일반화된 능력이다.
Other authors have stressed that the ability to act successfully is to some extent context dependent. A person can possess a competency in one context, for example during the day in a well-equipped hospital, but not in a different context, for example during the night in a remote rural area with little medical support.
If the ability to perform well in the full scope of the medical profession equates with “medical competence,” then
a medical competency can thus be defined as a learnable, durable, and measurable ability to execute a specific, integrative task that is a part of the full range of tasks that constitute the medical profession. It is a generalized ability that may vary somewhat, depending on the context.
이 정의에 따르면, CanMEDs 프레임워크나 ACGME 프레임워크의 general entities를 "competencies"라고 불러서는 안 된다.
7개의 CanMED 유닛은 "역할"(의료 전문가, 통신자, 협력자, 지도자, 학자, 의료 옹호자, 전문가)라고 designate하는 것이 적합하며
이와 달리 6개의 ACGME 설명자는 처음에는 "핵심 역량"으로 명명되었다(환자 관리, 의료 지식, 대인관계 및 커뮤니케이션 기술, 실천 기반 학습 및 개선, 시스템 기반 실천, 전문직)[10].
Following this definition, neither the general entities of the CanMEDS framework nor those of the ACGME framework should be called “competencies.”
The seven CanMEDs units are rightfully designated as “roles” (medical expert, communicator, collaborator, leader, scholar, health advocate, professional) [20],
in contrast with the six ACGME descriptors (patient care, medical knowledge, interpersonal and communication skills, practice-based learning and improvement, system-based practice, professionalism), which have initially been named “core competencies” [10].
만약 "역량competence"를 엡스타인과 헌더트가 정의한 광범위한 의사의 자질로 본다면, competency framework의 그러한 일반적인 요소general elements는 "역량 도메인domains of competence"이라고 designate된다. DOC는 여러 역량을 포함하는 [광범위한 실체]이다.예를 들어 환자 관리 영역domain에는 "환자에 대한 정보 수집", "정확한 신체 검사 수행", "관리 계획 개발 및 수행"과 같은 역량competencies이 포함될 수 있다. 이 용어는 잉글랜더 등의 지지를 받고 있다[21].
If “competence” is the broad quality of the physician as defined by Epstein and Hundert, then such general elements of competency frameworks are best designated as“domains of competence”.Domains of competence are broad entities that include multiple competencies. For example, the domain of patient care would include competencies such as the ability to “gather information about the patient,” “perform an accurate physical examination,” and “develop and carry out a management plan.” This terminology has been supported by Englander and colleagues[21].
"역량 있는competent"라는 형용사는 "어떤 일을 할 수 있는 능력" 또는 "역량competency"을 가진 사람을 가리킨다."역량 있는competent"은 또한 [행동하거나 판단할 법적 권리]라는 함축된 뜻을 가지고 있다. 판단 또는 행동에 대한 권한은 역량competency를 충분히 숙달했음을 증명했는지를 토대로 고려해볼 수 있다. 이런 점에서, competent person은 행동할 수 있을 뿐만 아니라, 행동할 권한이나 권리도 가진다[17]. 반대로 unqualified person은 이 권리가 없다. 이것은 법적 책임이 있는 전문직에 대한 관련 추가 사항이며, 그 중에는 의료 전문가도 있습니다. 의사의 면허라는 것은 권리와 의무를 제공하는데, 이 권리와 의무는 competence로 한정된다.
The adjective “competent” describes a person who has “the ability to do something,” or a “competency”. “Competent” also has the connotation of a legal right to act or judge. The authorization to judge or act can be considered dependent on the demonstration of sufficient mastery of a competency. In this sense, a competent person can act, but also has anauthority or rightto act, in the sense that unqualified persons do not have this right[17]. This is a relevant addition for professionals with a legal responsibility, among whom are medical specialists. Their license provides rights and duties, bound to their competence.
"Competency-based 의학 교육"은 competency and competence에 대한 기초 개념에서 발전한다. 언어학적으로, "competency-based education"은 완전히 논리적이지 않다. 그것은 역량을 생산하기producing 보다는, 역량competencies에 기반을 둔 교육을 가리키는 것으로 보이기 때문이다. 다른 언어들은 "역량 지향" 또는 "역량 지향"을 사용하지만, 우리는 일반적인 용법을 고수할 것이다. 프랭크와 동료들은 CBME가 "근본적으로 졸업생의 성과 능력outcome abilities을 지향하고,사회 및 환자 니즈의 분석에서 도출된 역량 중심으로 조직화되어서, 의료진을 준비하기 위한 접근법"이라고 말한다. 이는 시간 기반 교육을 강조하지 않으며 책임성, 유연성 및 학습자 중심성을 강화합니다." [22]. “Competency-based medical education” evolves from its founding concepts of competency and competence. Linguistically, “competency-based education” is not fully logical, as it appears to refer to education that isbased oncompetencies rather than producing them. Other languages use “competency-directed” or “competency-oriented,” but we will stick to the common usage. Based on a literature review, Frank and colleagues state that CBME is “an approach to preparing physicians for practice that is fundamentally oriented to graduate outcome abilities and the organization around competencies derived from an analysis of societal and patient needs. It de-emphasizes time-based training and promises a greater accountability, flexibility, and learner-centeredness”[22].
엄격하게 말하면, 이는 정의라기보다는 범위이지만circumscription, CBME 프로그램을 다른 프로그램과 구별하는 새로운 요소인 [시간 독립성]을 포함한다. 이는 여러가지 이유로 CBME의 기본이라고 볼 수 있다[23]. 역량 기반 교육이 유능해지자마자 학생들을 인증하거나 졸업시키는 데 초점을 맞춘다면, 훈련 시간은 일부 관련성을 잃는다. 이론적으로, 높은 수준의 능력과 사전 경험으로 교육을 시작하는 전공의는, 경험이 거의 없는 전공의보다 더 이른 시점에 정의된 수준의 능력에 도달해야 한다. 수업이 아닌 직장에서의 교육은 이미 고도로 개인화되어 있다. 직장에서의 자연적인 차이를 고려할 때, 학습 경험도 다를 것이다. 이를 통해 역량 기반 의학교육의 두 가지 결정적인 특징을 알 수 있습니다.
While this is strictly not a definition but rather a circumscription, it includes a new element that distinguishes CBME programs from other programs: time independence. This is indeed fundamental to CBME, which can be argued for different reasons[23]. If competency-based education focuses on certifying or graduating students as soon as they are competent, time in training loses some of its relevance. Theoretically, residents who start education on a high level of capability and prior experience should arrive at a predefined level of competence earlier than those who start with little experience. Education in settings that are workplaces instead of classes is already highly individualized. Given the natural difference in workplaces, learning experiences will be different too. This brings us to two defining features of competency-based medical education:
1.특정 역량으로 공식화된 결과에 초점을 맞춘다.
2.훈련 시간의 독립성. 시간 의존적인 인증 대신 역량에 의존하는 인증은 블룸의 마스터 학습을 연상시킨다.
1.its focus on outcomes formulated as specific competencies, and
2.its independence of the length of time in training. Competence-dependent certification instead of time-dependent certification is reminiscent of Bloom’s mastery learning.
위에서 설명한 교육 목적의 "competence", "competency" 및 "competent"의 정의를 고려할 때, 역량 기반 의료 교육은 다음과 같이 정의할 수 있다.
[하나 이상의 의료 역량competencies]에서 [정해진 일정 수준의 숙련도]를 목표로 하는 의료 전문직 교육
Given the definitions of “competence,” “competency,” and “competent” for educational purposes as delineated above, competency-based medical education can thus be defined as:
Education for the medical profession that is targeted at a fixed level of proficiency in one or more medical competencies.
CBME의 개별화되고 시간-독립적 성격은 이 정의에서 비롯된다. 교육이 완료되는 시점은, 사전에 정해진 수 년 후가 아니라 미리 설정된 수준의 역량에 도달하는 시점이기 때문이다. 이 정의에서 CBME는 직장 학습에 제한되지 않지만, 실제로 이 접근법은 임상 작업장 같은 개별화된 학습과 유연성을 허용하는 환경에서 특히 유용하다. 역량의 사회적 기원과 학습자 중심성과 같은 프랭크 외 연구진[22]이 추가한 추가 및 설명은 유용하고 방어 가능하지만 언어학적으로 정의에 포함할 필요는 없다.
The individualized and time-independent nature of CBME stems naturally from this definition, as education is finished when a pre-set level of competence is reached, rather than after a fixed number of years. In this definition CBME is not restricted to workplace learning, but in practice the approach is specifically useful in settings that allow for individualized learning and flexibility such as the clinical workplace. The additions and descriptions, added by Frank et al[22], such as the societal origin of the competencies and its learner centeredness, are useful and defendable, but linguistically not necessary to be included in the definition.
역량 기반 의학교육과 관련하여 여기에 포함시킬 가치가 있는 많은 다른 개념들이 사용되었다.
CanMEDs와 ACGME 프레임워크와 같은 Competency framework의 설계는 훈련생이 보여야 할 자질qualities에 대한 상세한 설명을 낳았다.
Domains of competence은 하위 역량, 핵심 역량, 핵심 역량 및 [9], [10]으로 분석적으로 기술되어 있으며, 다소 광범위한 영역을 교육 및 평가를 위한 관리 가능한 단위로 운용하고 이를 규정으로 전환할 수 있다.
Related to competency-based medical education, a number of other concepts have been used which are valuable to include here.
The design of competency frameworks, such as CanMEDS and the ACGME framework, has resulted in detailed descriptions of the qualities trainees must show.
Domains of competence have been analytically described, with sub-competencies, key competencies, core competencies, and enabling competencies [9], [10] to operationalize the rather broad domains into manageable units for teaching and assessment, and to translate them into regulations.
그러나, 그렇게 함으로써, 그러한 분석적 서술은 이론적이고, 맥락-독립적이고, 실천에서 멀어지는 경향을 갖게 되었다. 또한 옥스포드 영어 사전에 나오는 "무언가를 성공적으로 하는 것"이라는 역량competency의 실용적인 정의로부터도 벗어나는 경향을 갖게 되었다[17]. 역량의 하위 영역subdomain of competence은 competency의 정의(위 참조)와 일치하지 않으므로, 역량competencies이라고 부르지 않을 것을 권고한다. 특히 medical-technical skills를 벗어난 영역domain에서는, 이는 쉽게 "attained"되지 않으며, 타당한 방법으로 측정되지 않는다[24]. 예를 들어 "환자에게 윤리적으로 행동함"은 중요한 자질이지만 역량competency 그 자체라기보다는, [제한된circumscriptive 작업의 전제 조건]이다. 여러 역량 프레임워크에서, 그러한 많은 "competencies"은 다소 이론적 성격을 가지고 있다
However, in doing so, such analytic descriptions tend to become theoretical, context independent, and to move away from practice, and from the practical definition of competency that the Concise Oxford English Dictionary provides: to do something successfully[17]. We recommend that these subdomains of competence are not called competencies, as they usually do not accord with the definition of competency (see above), and they cannot easily be “attained” or measured in a valid way, specifically those domains outside medical-technical skills[24]. For example, “ethical conduct toward patients” is an important quality, but rather a prerequisite for circumscriptive tasks than a competency in itself. In several competency frameworks many such “competencies” have a rather theoretical nature.
2005년에, "위임 가능한 전문 활동"(EPA)이라는 용어가 도입되며, 역량 프레임워크는 workplace에 다시 연결되었다reconnect[25]. EPA는
"감독되지 않은 의료행위를 허용하기 위해, 충분한 특정 역량에 도달하면 훈련생에게 위탁해야 하는 직무 또는 책임으로 정의되는 전문적 실무의 단위이다. EPA는 일정 기간 내에 독립적으로 실행 가능하며, 프로세스와 결과에서 관찰 및 측정이 가능하며, 위탁 결정에 적합하다."
In 2005, the term “entrustable professional activity” (EPA) was introduced to reconnect competency frameworks to the workplace[25]. An EPA is
“a unit of professional practice, defined as a task or responsibility to be entrusted to a trainee once sufficient specific competence is reached to allow for unsupervised practice. EPAs are independently executable within a time frame, observable and measurable in their process and outcome, and suitable for entrustment decisions.”
EPA를 실행하는 capability는 앞서 정의한 대로 역량competency으로 간주할 수 있다. EPA를 활용한 작업은 합성 또는 총체적 접근법synthetic or holistic approach이다. 왜냐하면 EPA는 전문직과 관련된 작업에 [여러 영역의 역량]을 결합하기 때문이다[26]. EPA에 대한 "위탁 결정"으로 번역되는 [훈련생 "신뢰하기trusting"의 본질]은 의료계를 일련의 피상적인 기술로 감소시킨다고 알려진 CBME의 [체크박스 접근법의 개념]과 배치된다[27]. EPA에 대한 전체 설명full description에는 역량 프레임워크와의 연결이 포함된다[28]. 학습자를 평가할 때 "이 EPA를 사용하는 학습자는 얼마나 많은 감독이 필요한가?"라는 질문에 초점을 맞춘다. 이 질문에 대한 답을 뒷받침하는 역량competencies은 오히려 역량의 측면facets of competence이라고 할 수 있으며, 이는 실제로 역량competencies보다 더 나은 표현이다[32]. 위탁가능성 척도 [31], [33]로 불리는 위탁 의사결정에 대한 감독 수준을 나타내는 척도이다.
The capability to execute an EPA can be considered a competency, as defined earlier. Working with EPAs has been called a synthetic or holistic approach, as it brings together multiple domains of competence into relevant tasks of the profession[26]. The essence of “trusting” a trainee, translated to “entrustment decisions” about EPAs, counters the notion of a check-box approach of CBME that has been said to reduce the medical profession to a series of superficial skills[27]. The full description of an EPA includes the connection with a competency framework[28]. When evaluating learners with a focus on the question “How much supervision does this learner with this EPA require?”[29],[30],[31], then the competencies that underpin its answer may be rather calledfacets of competence, which is actually a better wording than competencies[32]. Scales that signify level of supervision for entrustment decisions as now being calledentrustablility scales[31],[33].
EPA는 소아과, 정신의학, 내과, 마취과, 노인과학, 수술, 폐 및 중환자, 가정의학과 응급의학을 포함한 광범위한 전문 프로그램에서 제안되었다. EPAs have been proposed in a wide range of specialty programs, including pediatrics, psychiatry, internal medicine, anesthesiology, geriatrics, surgery, pulmonary and critical care, family medicine and emergency medicine[34],[35],[36],[37],[38],[39],[40],[41].
CBME와 관련된 또 다른 최근의 개념은 "마일스톤"이다. 역량competence을 갖추는 과정에서 교육생들은 단계 또는 성과 수준으로 정의될 수 있는 방식으로 점진적으로 발전합니다. 1980년대에 Dreyfus와 Dreyfus는 기술 개발의 다섯 단계를 정의했습니다: Novice, Advanced Beginner, Competent, Proficient, and Expert [42]. Carraccio와 동료들에 의해 의료 분야에 상세하게 설명되고 적용되었다[43]. Another recent concept connected with CBME is that of “milestones.” En route to competence, trainees develop progressively in a way that can be defined as stages or performance levels. In the 1980s, Dreyfus and Dreyfus defined five stages in the development of skill: Novice, Advanced Beginner, Competent, Proficient, and Expert[42]. These have been elaborated and applied to the medical domain by Carraccio and colleagues[43].
이 모델에서 "Competent"는 사회가 이 사람에 의한 감독되지 않은 의료행위를 허용하며, 정당한 위임 결정을 허용할 수 있는 임계점Threshold 단계라는 점을 유의해야 한다. 따라서 'Competent'하다고 해서, 더 이상 proficiency나 expertise를 향한 발달이 불가능하다는 것이 아니다. 미국 대학원 의학 교육 인증 위원회는 마일스톤[46]의 토대를 기반으로 "차기 인증 시스템"을 구축했다. 여기서 "마일스톤"은 "전공의가 훈련을 진행하면서 정해진 간격마다 입증할 것으로 기대되는 발달-기반, 전공-특이적 성과"로 정의된다.
Note that in this model, “competent” is a threshold stage that could allow for a justified entrustment decision, a stage at which society would accept unsupervised practice by this person[44],[45], and being “competent” certainly does not preclude further development toward proficiency and expertise. The USA Accreditation Council for Graduate Medical Education has built their “next accreditation system” on a foundation of milestones[46], defined as “developmentally based, specialty specific achievements that residents are expected to demonstrate at established intervals as they progress through training.”
대학원의 의학 교육이 전환되고 있다. 세기가 바뀐 이래로 많은 일들이 미국, 캐나다 그리고 다른 나라들에서 일어났다. 역량 기반 의학 교육도 비판[47], [48]과 맞닥뜨리지만, [21], [49], [50]을 지속적으로 발전시키는 대중적인 개념으로 남아 있으며, 이는 전 세계 대학원 의료 훈련의 가까운 미래를 결정할 가능성이 높다. 사전 정의된 표준을 충족하는 감독되지 않은 실습을 위해 의학전문가를 계속 추구함에 따라, 시간 유연성은 유연성과 이에 따른 법률의 적응을 요구할 것이다. 졸업후교육과정에는 이제 기간이 정해져 있으며, CBME-variability는, 환자 관리의 품질과 안전에 대한 편익이 확립될 수 있더라도, 조직 및 규제 측면에서 큰 노력을 필요로 할 것이다. 또한 임상의사 연구원의 교육을 수용하고 가족 계획을 현재보다 더 잘 수용하기 위해 유연한 훈련 준비가 필요할 것이다. 졸업후의학교육을 위한 합리적이고 효과적인 근로 시간에 대한 논의는 21세기에 더 많은 (근로시간의) 감소로 이어질 가능성이 있다[52], [53].
Postgraduate medical education is in transition. Much has happened since the turn of the century in the USA, Canada and other countries. While Competency-based medical education also meets with criticism[47],[48], it remains a popular concept that continuously evolves[21],[49],[50]and that likely will determine the near future of postgraduate medical training around the world. With the continued pursuit of graduating medical specialists for unsupervised practice who meet predefined standards[51], time flexibility will ask for a flexibility, and hence adaptation of legislation. Postgraduate programs now have a fixed length, and CBME-variability, even if benefits for quality and safety of patient care can be established, will require major efforts in organizational and regulatory sense. Flexible training arrangements will also be necessary to accommodate the education of clinician researchers and to better accommodate family planning than is currently possible. The debate on reasonable and effective working hours for postgraduate training will likely lead to a further decrease in the 21stcentury[52],[53].
관심을 끌어야 할 또 다른 문제는 의료 훈련의 연속이다. 한 세기 전에는 기초 의학 학위가 대부분의 의료 훈련생들의 독립적인 실무에 충분했지만, 이제는 연속체에 포함되게 되었다[54]. Continuum-program이 현재 연구되고 있으며, 학부 및 졸업후 교육 사이의 엄격한 구분이 상당 부분 사라질 가능성이 매우 높습니다. 적어도 [지난 한 세기에 걸쳐 두 배로 늘어난 감독되지 않은 연습 전 훈련 기간]의 [지속적 증가]는 더 이상 지속가능하지 않다
Another issue that will ask attention is the continuum of medical training. While a century ago the basic medical degree was sufficient for independent practice of most medical trainees, now it has become embedded in a continuum[54]. Continuum-programs are currently being explored[55]and it is very well possible that the strict divide between undergraduate and postgraduate training will disappear to a great extent. At least the continued increase of training length before unsupervised practice, which has doubled across one century, cannot be sustained in the future.
GMS J Med Educ. 2017 Nov 15;34(5):Doc69.
doi: 10.3205/zma001146.eCollection 2017.
Competency-Based Postgraduate Medical Education: Past, Present and Future
Since the turn of the twenty-first century, competency-based medical education (CBME) has become a dominant approach to postgraduate medical education in many countries. CBME has a history dating back half a century and is rooted in general educational approaches such as outcome-based education and mastery learning. Despite controversies around the terminology and the CBME approach, important national medical regulatory bodies in Canada, the United States, and other countries have embraced CBME. CBME can be characterized as having two distinct features: a focus on specific domains of competence, and a relative independence of time in training, making it an individualized approach that is particularly applicable in workplace training. It is not the length of training that determines a person's readiness for unsupervised practice, but the attained competence or competencies. This shift in focus makes CBME different from traditional training. In this contribution, definitions of CBME and related concepts are detailed.
Keywords:CanMEDS; Competency-based medical education (CBME); competence; competency; entrustable professional activities; milestones.
역량바탕평가가 지속적인 개혁이 되기 위해 고려할 점(Adv in Health Sci Educ, 2019) Considerations that will determine if competency‑based assessment is a sustainable innovation W. Dale Dauphinee1,2,3 · John R. Boulet1 · John J. Norcini1
거의 20년 동안 보건 분야의 교육 평가는 역량 기반 프레임워크를 도입하기 위한 주요 노력을 보아왔다. 역량 기반 교육(CBE)과 평가(CBA)로의 이동 강도는 40년 이상의 공유된 전문 경험에서 다른 평가 활동과 일치하지 않는다. 이와는 대조적으로, 1980년대 후반 평가에서 시뮬레이션의 도입은 규제 파트너십을 통해 수행된 많은 평가 연구가 지속 가능한 혁신을 확립하기 위한 기반 역할을 하는 빠른 일련의 현장 테스트로 나타났다. 본 논문에서 우리는, 특히 졸업후 의학 교육(PGME)의 맥락에서, CBA를 둘러싼 교육 분야의 근본적인 개발 작업과 규제 상호작용이 뒤떨어지고 있다고 주장한다. For almost two decades, educational assessment in the health professions has seen a major effort to introduce competency based frameworks. The intensity of the movement to competency-based education (CBE) and assessment (CBA) has not been matched by any other assessment activity in our shared professional experience of over 40 years. In contrast, the introduction of simulation in assessment in the late 1980s appeared as a rapid series of field tests wherein many evaluation studies, conducted with regulatory partnerships, served as the bases for establishing a sustainable innovation. In this paper, we argue that the underlying developmental work and regulatory interaction with the educational sector around CBA is lagging, especially in the context of postgraduate medical education (PGME).
PGME에서 CBA에 대한 우려를 제기한 것은 처음이 아니다. 캐나다 의료 교육의 미래 프로젝트(Regehr et al. 2011)에서 2011년에 세 가지 주요 개발 문제가 지적되었다. 훨씬 더 우려되는 것은 CBA 평가 도구에 사용된 용어와 정의의 의미에 대한 의문이 제기되어 타당성에 대한 잠재적 우려도 제기되었다. 그러나 거의 10년이 지난 후에도 CBA의 실제 적용과 실행으로의 전환과 관련된 문제에 계속 부딪치고 있다. We are not the first to raise concerns about CBA in PGME. Three categories of key developmental issues were noted in 2011 by The Future of Medical Education in Canada Postgraduate Project (Regehr et al. 2011). Of even greater concern, the meaning of terms and definitions used in CBA assessment tools have been questioned, raising some potential validity concerns (Lurie et al. 2011; Govaerts and van der Veuten 2013). Yet almost a decade later, we continue to encounter problems with the actual application and translation of CBA into action.
로드맵 1: CBA를 측정 개발 문제로 재구성 및 해결 Roadmap one: reframe and address CBA as a measurement development issue
첫 번째 로드맵에서는 CBA 과제를 [측정 개발 문제]로 다시 설명하고 있으며, 이를 위한 좋은 모델이 있다. 이 영역에서 성공적인 이노베이션으로 이어지는 여정은 혁신가들에게 구현implementation 경로를 안내할 수 있는 일련의 단계를 기반으로 합니다. 전문 교육과 평가의 실제 세계에서 지속 가능한 혁신에 도달하기 위해서는 이러한 단계를 준수해야 한다. 1970년대 미국응급의학위원회(ABME)의 새로운 인증 프로세스 초기에, Maatsch 등(1976)의선구적 연구는 오늘날 평가 혁신가들의 본보기가 되고 있다. 이 프로젝트는 기준 참조로 전환하는 것 외에도 대규모 평가 혁신을 위한 모범 사례를 수립했습니다.
The first roadmap restates the CBA challenge as a measurement development issue, and there are good models for doing this. The journey leading to successful innovation in this realm is based on a series of steps that can guide innovators along the pathway to implementation. Observance of these steps is required to reach a sustainable innovation in the real world of professional education and assessment. Pioneering work by Maatsch et al. (1976) in the early days of the new certification processes of the American Board of Emergency Medicine (ABME) in the 1970s serves as a template for assessment innovators today. In addition to shifting to criterion referencing, the project established best practices for large scale assessment innovations:
(1) 전문직, 규제당국 및 교육자를 포함한 주요 이해관계자 간의 계획된 협력
(2) 국가 자격인정 및 인증 절차에 대한 제정된 표준
(3) (독립적 사이코메트리 전문가가 지휘하는) 평가 도구의 전면적 현장 시험을 수행
(4) ABEM에 대한 구체적인 평가목표의 계획, 실행, 관리 및 완료에 사업관리를 활용
(5) 후속 연구를 기반으로 비효율적인 평가 형식을 제거(Munger et al. 1982; American Board of Emergency Medicine 2018).
(1) planned collaboration amongst key stakeholders including the profession, the regulators and the educators;
(2) established standards for national credentialing and certification processes;
(3) undertook full-scale field trials of the assessment tools (directed by independent psychometric experts);
(4) used project management to plan, execute, control and finish the specific assessment goals for the ABEM; and
(5) based on subsequent follow-up studies, eliminated inefficient assessment formats (Munger et al. 1982; American Board of Emergency Medicine 2018).
1970년대에는 모든 ABME 시스템이 새로운 것이었기 때문에, 당시만 해도 혁신을 기존 평가 체계에 통합하는 과제는 문제가 되지 않았다. However, since the entire ABME system was new, the challenge of integrating the innovation into an existing assessment scheme was not an issue.
이와는 대조적으로, 1980년대 중반 이후에는 총괄평가 및 형성평가에 시뮬레이션 환자를 도입하려면 [기존 시스템과의 통합]이 필요했다. 그것은 모든 기관 이해당사자들을 참여시키고 평가 점수의 측정 품질을 지원하기 위한 준비 작업과 시범 연구를 필요로 했다. 실현 가능성과 측정 품질에 대한 증거를 찾은 후에야 더 넓은 스케일러의 혁신을 진행 및 채택하기 위한 정책 결정이 내려졌다. 이는 캐나다 의료위원회(Reznick et al. 1993; Dauphinee and Reznick 2011), 외국인 의료 졸업생 교육위원회(Boulet et al. 1998, 2009) 및 국가의료시험위원회(Swanson et al. 1999)의 평가 시스템에 환자 시뮬레이션을 도입하기 위한 전략이었다. In contrast, the introduction of simulated patients into summative and formative assessment in the mid-1980s needed to be integrated into existing systems. That required preparatory work and pilot studies aimed at engaging all of the institutional stakeholders and supporting the measurement qualities of the assessment scores. Only after finding evidence of feasibility and measurement quality were the policy decisions made to proceed and adopt the innovation on a wider scaler. This was the strategy for the introduction of patient simulation into the assessment systems of the Medical Council of Canada (Reznick et al. 1993; Dauphinee and Reznick 2011), the Educational Commission for Foreign Medical Graduates (Boulet et al. 1998, 2009), and the National Board of Medical Examiners (Swanson et al. 1999).
CBA가 직면한 과제를 고려할 때, 첫 번째 단계는 [실제 평가 모델 개발]에 더 많은 관심을 기울이는 것일 수 있다. 그러한 조치가 CBA를 홍보하는 많은 저자들에 의해 취해진 것인지는 우리에게 명확하지 않다. 다행히도 최근 개정된 Holmboe 등의 임상능력 평가 실무지침(2017)은 CBA instrumentation이 현재 평가 모범 사례 표준을 충족한다는 것을 확립하는 데 필수적인 개발 및 사전 시험 요건을 명시했다.
Given the challenges facing CBA, the first step might be placing more attention on the development of an actual assessment model. It is not clear to us that such a step has been taken by the many authors promoting CBA. Fortunately, the recently revised Practical Guide to the Evaluation of Clinical Competence by Holmboe et al. (2017) has laid out the development and pre-testing requirements that are essential to establish that CBA instrumentation meets current standards of best practices in assessment.
두 번째 단계는 모델과 관련된 측정 문제를 해결하는 것입니다. 그 중 가장 중요한 것은 타당성이 있습니다. 앞에서 언급한 바와 같이, 루리 외 연구진(2011)은 의도된 평가 목표를 설정하는 데 도움이 되는 이러한 정의가 종종 '실행 중에on the run' 협상되고 있다고 보고했다. CBA 평가 도구의 품질 문제는 '진급 여부 판단'의 핵심 고려 사항이다. 점수 또는 등급의 측정 품질에 대한 문서화는 다음 단계로 이동하기 위해 필수적이다. The second step is to address the measurement issues associated with the model, chief among them being validity. As noted before, Lurie et al. (2011) reported that these definitions, which help establish the intended assessment goals, were often being negotiated ‘on the run’. The issue of the quality of the CBA assessment tools is a pivotal ‘go or not go’ consideration. The documentation of the measurement qualities of the scores or ratings is essential to move to the next step.
세 번째 단계는 지역 수준에서 구현 모델을 개발하는 것이다. 환경 전반에 걸쳐 개선이 일반화될 수 있도록 결과 및 피드백을 위해 계획, 전달 및 따라야 합니다. 이것은 캐나다의 다른 센터(Tamblyn 1998; Reznick 등 1993)에서 표준화된 환자 기반 평가의 관리에 중요했다. 또한 현장(노르시니 및 버치 2007)의 작업 기반 평가에서도 문제가 되고 있다. 구현 계획에는 또한 광범위한 교육 및 교수진을 위한 준비가 포함되어야 합니다. The third step to develop a model of implementation at the local level. It has to be planned, communicated, and followed for results and feedback so that improvement is generalizable across settings. This was important for the administration of standardized-patient-based assessment at different centers in Canada (Tamblyn 1998; Reznick et al. 1993). It is also an issue in work-based assessment across sites (Norcini and Burch 2007). The implementation plan must also include extensive training and preparation for faculty members.
마지막 단계는 이 모든 것이 실제 세계에서 함께 적합한지 여부를 판단하는 것이다. 의료 시스템의 편익을 정의하는 초기에 사용된 모델로부터 차용하여, 많은 이해당사자들에게 영향을 미칠 [새로운 시스템의 개발 중에 반복적으로 물어야 하는 다섯 가지 핵심 질문]이 있다.
(1) 혜택은 무엇입니까?
(2) 누가 이득을 보나요?
(3) 누가 결정하는가?
(4) 누가 돈을 내는가?
(5) 누가 관리하는가?
Finally, the final step is judging whether it all fits together in the real world. Borrowing from a model used in the early days of defining the benefits of a health care system (Solon et al. 1960; Lee 1974), there are five key questions that must be asked repeatedly during the development of new systems that will impact on many stakeholders:
(1) What are the benefits?
(2) Who benefits?
(3) Who decides?
(4) Who pays?
(5) Who manages it?
로드맵 2: CBA를 기존 기업 내에서 지속 가능한 혁신으로 구현 Roadmap two: implement CBA as sustainable innovation within existing enterprises
두 번째 로드맵은 [의료 및 교육 시스템을 모두 포함하는 품질 개선]이라는 enterprise 내에서 CBA의 과제가 무엇인지를 다시 설명한다. 이러한 광범위한 맥락에는 [모든 교육 및 임상 치료 기관에서 평가를 가능하게 하는] (교사 및 교수진 지원 서비스에 대한 규제 당국과 인증 기관을 포함하여) 관련된 모든 이해 당사자의 인정regocnition이 포함된다. 구현하려면 기본 구성 요소를 식별하고 공통 비전 실행에 대한 책임을 명확히 하기 위한 [공유 로드맵]이 필요합니다. 이 로드맵은 Christensen의 사례 기반 혁신 관리 연구(2013)에서 채택되었습니다. The second roadmap restates the challenge of CBA within a quality improvement enterprise that encompasses both the health care and educational systems. This wider context includes recognition of all of the stakeholders involved, including the regulatory authorities and certification bodies down through the leadership at the educational institutions to the teachers and the faculty support services that enable assessment at all educational and clinical care institutions. Implementation requires a shared roadmap to ensure that the basic components are identified and the responsibilities for them are clear in the execution of a common vision. This roadmap was adapted from Christensen’s case based management studies of innovation (2013).
CBA 관리는 여러 인터페이스를 통해 여러 수준에서 이루어져야 하기 때문에 우리는 [관리management 문헌]으로 눈을 돌렸다. CBA는 선의의 국가 또는 주 기반 자율 규제 이니셔티브로 시작할 수 있지만, 곧 각 개별 교수진의 학술 리더십 및 자원 활용 팀에게는 일련의 과제가 될 수 있다. 궁극적으로, CBA의 구현은 학습자-교사-교육자 인터페이스에서 주요 개발 문제로 드러날 것이다. 예를 들어, 각 교수진을 대상으로 하는 동료-주도 전문성 개발 프로그램과 각 연수생의 리-오리엔테이션을 위해 [접근 가능한 중앙 지원]이 필요할 것이다. 마찬가지로, 해당 분야의 교수진들은 종합 데이터를 제출하고 형성적 피드백을 위한 관찰 결과를 기록할 수 있는 서비스 가능한 대시보드를 포함한 새로운 기술 지원이 필요하다.
We turned to the management literature because the administration of CBA must occur at multiple levels, through multiple interfaces. While CBA may start as a well-intended national or state-based self-regulation initiative, it soon can become a set of challenges for the academic leadership and resources appropriation team at each individual Faculty. Ultimately, the implementation of CBA will surface as key developmental issues at the learner–teacher–mentor interface. To illustrate, accessible central support will be needed for a peer-directed program of professional development aimed at each faculty member and for the re-orientation of each trainee. Similarly, the faculty in the field will need new technical support, including serviceable dashboards to submit summative data and to record observations for formative feedback.
[리더십 수준]에서, The Innovators Solution이라는 책을 통해 Christensen 외 연구진(2013)은 [혁신적 아이디어를 기존 시스템의 성과와 서비스 개선를 위해 re-focus하는 새로운 프로세스와 도구로 전환하는 방법]에 대해 논의합니다. 이는 외부적으로 촉진되는 프레임워크를 채택하기 전에, 리더십이 혁신이 현재와 기능하는 품질 보증 프로그램에 '중단'될 가능성이 있는지 여부를 고려해야 한다는 것을 의미한다. 리더들에게, 크리스텐슨(2000a)은 성공의 결정적 요소 세 가지를 제시한다.
사용자 또는 학습자가 혁신을 완전히 사용하거나 흡수할 수 있는 비율은 얼마입니까?
예상되는 개선률이 사용자나 학습자가 완전히 사용하거나 흡수할 수 있는 수준을 초과합니까?
지속적 혁신과 파괴적 혁신의 구별이 명확합니까?
At the leadership level, inThe Innovators Solution, Christensen et al. (2013) discuss turning innovative ideas into new processes and tools that refocus an existing system to improve its outcomes and services. This implies that, before adopting any externally promoted framework, leadership must consider if an innovation is likely to be ‘disruptive’ to current and functioning quality assurance programs. For leaders, Christensen (2000a) offers three determining ‘elements’ of success:
What is the rate that the users or learners can fully use or absorb the innovation?
Does the expected rate of improvement go beyond what the users or learners can fully use or absorb?
Is there clarity on the distinction between sustaining and disruptive innovations?
혁신은 이전에 적절하게 강조되지 않았던 결과나 서비스의 '더 나은 수행'을 목적으로 하는 사용자나 학습자를 대상으로 하기 때문에 사전에 이러한 질문을 던지는 것은 중요하다. 대조적으로, 비즈니스에서, 파괴적인 혁신은 대상 고객이나 사용자를 위한 더 나은 제품이나 서비스를 목표로 하지 않는다. 일반적으로, 비지니스에서 파괴적 혁신은 사용하기 더 단순하거나 더 편리하거나 더 저렴한 서비스입니다. 하지만 CBE와 CBA는 지속적인 품질 개선과 지속 가능성에 관한 것입니다. 명백히, CBA는 혁신 솔루션에 대한 준비가 되어 있어야지, 파괴(disruption)를 초래해서는 안 된다.
These questions are important pretests because innovation is aimed at users or learners with a view to ‘better performance’ of outcomes or services that were not adequately emphasized previously. In contrast, in business, disruptive innovations are not aimed at better products or services for the target audiences or users. Typically, they are services that are simpler or more convenient or cheaper to use. However, CBE and CBA are about continuous quality improvement and sustainability. Clearly CBA should be about readiness for innovational solutions, not creating disruptions.
리더를 위한 프레임워크 또는 관리 비계를 제안한 후, 운영팀에서 CBA의 재정 지원과 기술적 요구를 사전에 예상하지 못할 경우, 교수진과 학습자에게 발생할 [잠재적인 다운스트림 위험]은 무엇인가? 다시 한번, 크리스텐슨의 요약은 현명한 조언을 제공한다. 혁신 관리는 리소스 할당 프로세스를 반영합니다. 교수진 지도부 차원에서 우선적으로 고려되지 않는다면, 혁신은 자원 부족으로 굶주릴 것이다. 혁신, 특히 CBE와 CBA와 같은 광범위한 자원 관련성을 가진 혁신에 대한 심의적 우선순위 설정의 필요성은 과소평가될 수 없다. Having proposed a framework or management scaffolding for leaders, what are the potential downstream risks for the Faculty and learners if the fiscal support and technical demands of CBA are not anticipated in advance by the management team? Again, Christensen’s (2000b) summary offers sage advice. Managing innovation mirrors the resource allocation process. If not prioritized at the Faculty leadership level, the innovation will starve for lack of needed resources. The necessity of deliberative priority setting for innovations, especially ones with far reaching resource implications like CBE and CBA, cannot be understated.
더욱이, 기술혁신의 우선 순위를 판단하는 데 필요한 정보가 존재하지 않거나, 다른 사회적 또는 경제적 상황에서 기술혁신이 수행되는 경우라면, 크리스텐슨의 '학습이 있는 교훈lessons with learning'에 대한 제안은 CBA 제품이나 도구를 사용하여 교사-학습자 쌍으로 현장에서 빠르고 저렴한 시험(사전 시험)을 통해 만들어질 수 있다. Furthermore, if the information needed to inform prioritization of the innovation is non-existent or if an innovation is undertaken in differing social or economic circumstances, Christensen’s suggestion of ‘lessons with learning’ can be created through fast, inexpensive forays (pre-tests) into the field with the teacher–learner dyads using the CBA product or tool.
보건 절차의 1단계 시험과 유사하게, 이러한 조종사는 반복 학습과 '안면' 타당성을 확립하기 위해 긍정적인 답변을 제공하거나 작은 고장을 제공할 수 있다. [혁신의 지속]이라는 측면에서, 남보다 '먼저first' 혁신에 도달하거나 리더로 보여지는 것은 중요하지 않다. 중요한 것은 일관되고 점진적인 개선을 달성하는 것에 관한 것이다. CBA를 도입할 때 인적 자원과 재정적 자원에 미치는 영향을 신중하게 고려해야 한다. Analogous to phase one testing of health procedures, these pilots can give positive answers or provide small failures for iterative learning—and establishing ‘face’ validity. For sustaining innovations, getting there ‘first’ or being seen as a leader is not important. It is about achieving consistent and incremental improvement. The human and fiscal resources implications of CBA adoption must be carefully considered.
질문을 이어가자면, 잠재적인 사용자가 프로그램의 관련 교육 기관이나 지역사회 시설에 대한 CPE와 CBA의 영향을 확인하기 위해 더 자세히 조사할 수 있는 방법은 무엇인가? 위임가능한 전문 활동(EPAs) 또는 더 광범위한 프로그램 평가(PA)를 사용하여 잠재적인 영향을 예상하기 위해 arm-chair trial을 수행할 수 있다. 이러한 trial의 목적은 특정 위험과 기회를 식별하고 잠재적으로 CBE를 채택하는 기관에서 [혁신이 주어진 환경에서 지속 가능한지를 판단할 수 있도록 돕는 것]이다. 이는 PGME에서 특히 우려되는 사항이다. 왜냐하면, 의료진 및 교육 현장에서는 30-50개의 전공과목을 통합하여, 중앙 지원과 필요한 교수진 개발 프로세스를 제공하는 적절한 자금 지원 프로세스에 통합해야 한다(Holmboe et al. 2011). Continuing with that same line of questioning, how else can potential users drill down further to see the implications CPE and CBA for the program’s associated teaching institutions or community placements? By using entrustable professional activities (EPAs) (Ten Cate2013; Ten Cate and Scheele2007) and/or the broader programmatic assessment (PA) (van der Vleuten et al.2015), one can conduct arm-chair trials to anticipate potential implications. The purpose is to identify specific risks and opportunities and to help potential CBE adopters to decide if the innovation is sustainable in their setting given their purposes. This is a particular concern in PGME where a medical faculty and its associated teaching sites will be faced with integrating 30–50 specialties into an adequately funded process that will provide the required central support and needed faculty development processes (Holmboe et al.2011).
마찬가지로 평가를 위한 '더 큰 데이터' 모델의 다음 다운스트림 시사점, 각 교수진 및 관련 PGME 프로그램으로 이동하면 EPA 또는 PA 도입의 안락의자 조종사를 사용하여 CBA의 데이터 수집 시사점을 고려할 수 있다. 이를 통해 교사와 멘토가 다음을 수행할 수 있도록 하는 데 필요한 지원을 확인할 수 있습니다.
(1) 실시간 관찰을 온라인에 기록한다.
(2) 매일 개선을 위해 학생에게 실시간으로 비판단적 피드백을 제공하도록 훈련되고 조직되어야 한다.
(3) 각 학습자에 대한 [데이터 수집 및 요약]과 [정보 패키지 개발]을 위한 중앙 지원을 받는다.
Similarly, moving to the next down-steam implications of ‘bigger data’ models for assessment, each faculty and each implicated PGME program, could consider the data collection implications of CBA by using arm-chair pilots of introducing EPAs or PA. It will help identify the support needed to ensure that teachers and mentors can:
(1) record real time observations of performance on-line;
(2) be trained and organized to offer real time non-judgmental feedback to students/trainees for daily improvement; and
(3) have central support to collect and summarize data and develop information packages on each learner.
그런 다음, 일단 수집된 정보는 교수진의 30개에서 50개에 달하는 PGME 프로그램 추진 위원회 각각에 속한 각각의 연수생에 대해 고려되고 해석될 수 있도록, 교수진의 PGME 사무실로 보내져야 합니다. 책임과 신뢰의 차원으로의 진전에 대한 타당한 결정을 내리기 위해 데이터와 관찰 내용을 함께 검토하고 해석하는 것은 그들이다. 기술적, 분석적 조언과 지원과 함께 교수 준비와 훈련이 필요하다 (Eva et al. 2016).
In turn, once collected, information must be sent to the Faculty’s PGME office to be considered and interpreted for each trainee in each of the faculty’s 30–50 PGME program’s promotions committee. It is they who collectively review and interpret the data and observations in order to make valid decisions about advancement to the next level of responsibility and trust. Technological and analytical advice and support aside, Eva and co-authors have suggested why significant faculty preparation and training is needed (Eva et al.2016).
개별 교수진 수준에서 지속적인 모니터링 프레임워크를 채택하면 다음과 같은 일이 뒤따른다.
총괄적 결정과는 대조적으로, 형성평가를 지원하는 관찰과 정성적 보고서 또한 현장 배치 중에 데이터 수집 시스템이 필요할 것이다. 업무 기반 평가 방법에 대한 교수진 지원 시스템은 CBA를 고려하는 사람들에게 좋은 사전 테스트이다. [피드백을 위한 일상적인 평가 순간]은 [진급 판단에서와 같은 의사결정을 위한 데이터]에서 분리해야 한다(Van der Vleuten et al. 2012).
또한, [실시간 피드백과 형성적 학습]은 반드시 [평가 정보를 학습 목표 및 사전 정의된 기대치와 비교]하여 평가해야 한다. 여기에는 학생 기록에 데이터를 쉽게 제출할 수 있는 [온라인 프로그램]이나 [대시보드]에 정기적으로 액세스할 수 있는 기능이 포함되어야 한다.
There are several other consequences of employing continuous monitoring frameworks at the level of an individual faculty member.
In contrast to summative decisions, the observations and qualitative reports supporting formative assessment will also need data collection systems during field placements. Faculty member support systems for work-based assessment methods are a good pre-test for those considering CBA. These day-to-day assessment moments for feedback must be de-coupled from data for decision-making as in judgment for promotion (Van der Vleuten et al. 2012).
Moreover, real-time feedback and formative learning must be evaluated by comparing assessment information against learning goals and predefined expectations. That should include regular access to on-line programs or dashboards that permit easy submission of field data into the student’s record.
최근 보고서는 이러한 데이터 기대치의 도입이 쉽게 달성되지 않음을 확인했다. UGME와 PGME에서 CQI 프로세스로 성급하게 달려가는 것이 대부분의 교수진에게 엄청난 변화이며, 여기에 필요한 추가 자원이 과소평가될 수 있다. 따라서 일반적인 피드백뿐만 아니라, 다음 단계의 책임으로 진급하기 위하여 함축된 데이터를 판단하는데 필요한 [멘토와 평가자의 전문성]이 필수적이다. 또한, 형성 평가를 trainee는 총괄평가로 여길 수 있으며, 따라서 형성 평가 프로세스의 타당성에 위협을 가할 수 있다는 것이 문서화되었다(Govaerts 2015). 진정하고 정기적인 형태 형성 피드백에 대한 교수진과 연수생 준비는 필수적입니다(Dath and Iobst 2010; Holmboe et al. 2011).
Recent reports have confirmed that the introduction of these data expectations is not easily accomplished (Dudek et al.2012; Cook et al.2016; Van Loon et al.2016; Hauer et al.2016). The rush to continuous quality improvement processes in both UGME and PGME is a big step forward for most faculties and its additional resource demands can be underappreciated. Therefore, the expertise of mentors and assessors is essential as judgments must be made on data where the inferences have implications, both for normal feedback as well as for promotion to the next level of responsibility. Furthermore, it has been documented that formative assessment activities can be viewed as summative by trainees, thereby offering a threat to the validity of the formative assessment processes (Govaerts2015). Faculty and trainee preparation on authentic and regular formative feedback is essential (Dath and Iobst2010; Holmboe et al.2011).
마지막으로, 평가에 관한 모든 변경은 자격부여 및 인증뿐만 아니라 의대 진급이라는 [광범위한 법적 맥락] 내에서 관리 및 평가되어야 합니다. 그러한 맥락은 입법 요건과 법률적 법리주의에 뿌리를 둔 기본적 법률 및 자연적 정의 체계에 의해 제한되고 지시된다. 평가는 일반적으로 국제적으로 존경 받는 standards for educational and psychological testing에 기초한다. 이렇게 오랫동안 확립된 프레임워크는 교육 기관과 면허 및 인증 기관 모두 준수해야 하는 [법적 절차와 표준]을 정의합니다. 그들은 또한 교육 환경에 걸쳐 동등성을 확립하는 데 필요한 구조와 평가 과정에 대한 지침을 정하고 평가 과정이 번창하는 데 필요한 학습 문화를 정의하는 데 도움을 준다. CBA의 도입은 기존의 교육 시스템으로 지속적인 개선을 통해 더 나은 결과를 얻는 새로운 문화를 창조하기 위한 것이다. 이를 위해서는 CBA가 [기존의 법적 및 행정적 QA 형식] 내에서 실현 가능하고 지속 가능한지를 사전에 평가해야 한다. Finally, as Norman et al. (2014) have noted, any assessment change must be administered and evaluated within the broader legal contexts of medical school promotion as well as licensure and certification. Those contexts are bounded and directed by basic legal and natural justice frameworks that are rooted in legislated requirements and legal jurisprudence. The assessments are typically based on internationally respected standards for educational and psychological testing (Dauphinee2002; American Educational Research Association, the American Psychological Association, and the National Council on Measurement in Education2014). These long established frameworks define the legal processes and standards under which both educational institutions and licensure and certification bodies must operate. They also set the guidelines for the structures and assessment processes needed to establish equivalency across educational settings and help to define the learning culture needed for assessment processes to thrive. The introduction of CBA is intended to create a new culture of achieving better results through continuous improvement with an existing educational system. That necessitates evaluating, in advance, if CBA is feasible and sustainable within the existing legal and administrative quality assurance formats.
누가 CBA 혁신 과제를 소유하고 관리할 것인가? Who will own and manage the CBA innovation challenge?
우리는 [평가에 대한 강조]는 [더 넓은 임상적 맥락에서 치료의 품질과 결과]에 따라야 한다는 견해를 지지한다. 전문직에 대한 사회적 책무성은 언제나 [교육 기관을 포함한 양질의 의료를 향한 노력]과 [모집단의 건강에 미치는 영향]에 기반하여 규정되어야 한다. 이것이 현재 널리 받아들여지고 있는 관점으로 볼 때, 우리는 면허나 인증을 위한 의사의 관리와 평가를 책임지는 광범위한 기관에 의해 추진되고 있는 주요 혁신에 직면해 있다. [CBA의 효과적인 구현]을 위한 [최적의 솔루션이 식별되도록 보장]할 의향이 있고, 이에 대한 책임을 질 수 있는 이해관계자 조직의 컨소시엄이 있는지 묻는 것이 타당해 보인다. 모든 국가에서 가능한 것은 아니지만, 캐나다, 미국, 그리고 일부 유럽 국가들과 같은 몇몇 나라들에는 강력한 CBA 활동들이 존재한다.
We support the view that the emphasis in assessment must be on the quality and outcomes of care in the broader clinical context (Bismil et al.2014; Warm2016; Wong and Holmboe2016; Chen et al.2014). Social accountability for the professions must always be framed within the health care quality effort, including the teaching institutions, and their impact on the population’s health. Given that this is now a widely accepted perspective, we are faced with a major innovation being promoted by a broad range of institutions responsible for the governance and assessment of physicians for licensure or certification. It seems reasonable to ask whether there are consortia of stakeholder organizations that are willing and able to take responsibility for assuring that the optimal solutions are identified for the effective implementation of CBA? While not possible globally, pockets of intense CBA activity exist in several countries: Canada, United States, and some European countries.
평가의 초기 혁신을 위해, 스폰서 기관의 비공식적 연합은 기술혁신을 진전시키는데 시간, 직원 및 비용을 투자하였다. 때로는 혁신 비용을 분담하고 조직간 개발 훈련을 촉진하기 위한 인센티브를 창출하는 교육 부문과 파트너십이 형성되기도 했다(Dauphinee 및 Reznick 2011; Tamblyn 등). CBA의 경우 유사한 조직간 협력과 장기 계획의 기회가 명백하다. 이제는 주머니가 두둑하고 사회적 책임감이 강한 기관들이 오너십을 갖고, 잘 확립된 운영 및 평가 실천을 통해, 지속 가능한 변화를 이루기 위해 충족되도록 보장할 때가 아닌가?
For earlier innovations in assessment, informal coalitions of sponsoring bodies invested time, staff and money in moving the innovation forward. Sometimes, partnerships were formed with the educational sectors which created incentives for sharing the cost of innovations and promoting inter-organizational developmental training (Dauphinee and Reznick2011; Tamblyn et al.2002). In the case of CBA, opportunities for similar inter-organizational collaboration and longer term planning are apparent. Is it not time for those bodies with deeper pockets and a strong sense of social responsibility to own and ensure that established management and assessment practices are met in order to have sustainable change?
의견 마무리 Concluding comments
결국, 평가를 위한 주요 역할은
개선을 위한 학습자 피드백을 제공하고,
한 단계에서 다른 단계로 [진급에 대한 정의된 기대치에 반하여 판단되는 증거]를 제공하고,
프로그램과 프로그램 책임자와 멘토의 CQI을 보장하기 위한 데이터를 도출하는 것이어야 한다.
그렇지 않다면, CBA는 교육생, 교수진 또는 대중에게 지속 가능하지 않을 것이다.
In the end, the main roles for assessment should be to
offer learner feedback for improvement,
provide evidence judged against defined expectations for promotion from one phase to another, and
derive data to assure continuous quality improvement of the program and its director and mentors.
If not, CBA will be unsustainable for the trainees, the faculty, or the public.
Adv Health Sci Educ Theory Pract. 2019 May;24(2):413-421.
doi: 10.1007/s10459-018-9833-2.Epub 2018 May 18.
Considerations that will determine if competency-based assessment is a sustainable innovation
Educational assessment for the health professions has seen a major attempt to introduce competency based frameworks. As high level policy developments, the changes were intended to improve outcomes by supporting learning and skills development. However, we argue that previous experiences with major innovations in assessment offer an important road map for developing and refining assessment innovations, including careful piloting and analyses of their measurement qualities and impacts. Based on the literature, numerous assessment workshops, personal interactions with potential users, and our 40 years of experience in implementing assessment change, we lament the lack of a coordinated approach to clarify and improve measurement qualities and functionality of competency based assessment (CBA). To address this worrisome situation, we offer two roadmaps to guide CBA's further development. Initially, reframe and address CBA as a measurement development opportunity. Secondly, using a roadmap adapted from the management literature on sustainable innovation, the medical assessment community needs to initiate an integrated plan to implement CBA as a sustainable innovation within existing educational programs and self-regulatory enterprises. Further examples of down-stream opportunities to refocus CBA at the implementation level within faculties and within the regulatory framework of the profession are offered. In closing, we challenge the broader assessment community in medicine to step forward and own the challenge and opportunities to reframe CBA as an innovation to improve the quality of the clinical educational experience. The goal is to optimize assessment in health education and ultimately improve the public's health.
Keywords:Clinical assessment; Competency-based assessment; Disruptive innovation; Entrustable professional activities; Post-graduate medical assessment; Programmatic assessment; Sustainability; Undergraduate assessment.
의학교육에서 디자인 씽킹의 힘 (Acad Radiol,2019) The Power of Design Thinking in Medical Education (Acad Radiol,2019) Lori A. Deitte, MD, Reed A. Omary, MD, MS
소개 INTRODUCTION
여러분이 의대 3학년 학생들을 위해 2주간의 필수 방사선학과 과정을 개발하도록 요청 받은 초기 방사선학과 교수라고 상상해 보십시오. 귀하는 본 과정을 개발할 수 있는 기회를 갖게 되어 영광이지만 교육과정 개발 경험이 제한되어 있습니다. 커리큘럼에 대해 브레인스토밍하기 위해 보다 경험이 풍부한 방사선학과 교수진과 미팅을 예약합니다. 이 그룹은 코스에 영상 양식, 적정성 기준 및 방사선 영상 해석에 관한 일일 회의와 매일 아침과 오후에 세부전공 판독실의 2시간 블록이 포함되어야 한다고 결정한다. Imagine you are an early career radiology faculty member asked to develop a 2-week required radiology course for third-year medical students. You are honored to have the opportunity to develop this course but have limited experience in curriculum development. You schedule a meeting with more experienced radiology faculty to brainstorm about the curriculum. The group decides that the course should include daily conferences on imaging modalities, appropriateness criteria, and/or radiograph image interpretation as well as 2-hour blocks in the subspecialty reading rooms each morning and afternoon.
과정이 완료된 후 첫 번째 평가 세트를 받게 되어 흥분됩니다. 여러분이 2시간짜리 판독실 블록이 종종 "지루하다"는 학생들의 평을 읽을 때, 학생들이 "임상의 흐름을 방해할 수 있기 때문에" 질문을 하는 것을 두려워한다는 반응을 본 실망감을 상상해 보세요. After the course is completed you are excited to receive the first set of evaluations. Imagine your disappointment when you read student comments that the 2-hour reading room blocks are often “boring” and that students are afraid to ask questions because they might “disturb the clinical flow.”
이미 이 과정을 개발하는 데 많은 시간과 에너지를 투자했지만, 이 접근방식을 재고하기로 결정합니다. 동료 중 한 명이 최근 디자인 씽킹 워크숍에 참석하여 디자인 씽킹 방식을 사용하여 의대생 방사선 판독실 경험을 재설계하는 데 도움을 주기로 동의했습니다. Although you have already invested much time and energy into developing this course, you decide to reconsider the approach. One of your colleagues recently attended a Design Thinking workshop and agrees to help you use a Design Thinking approach to redesign the medical student radiology reading room experience.
강의 내용에 대해 교수진과 브레인스토밍을 하는 대신에, 여러분은 독서실에서의 그들의 경험을 더 잘 이해하기 위해 의대생들과 대화를 하는 것으로 시작합니다. 여러분은 학생들에게 첫 번째 도전은 환영을 느끼고 함께 앉을 누군가를 찾는 것이라는 것을 배웁니다. 학생들은 판독실에서 역할이나 책임을 규정받지 않았고, 종종 방사선과 의사가 지시하는 것을 수동적으로 듣고 앉아 있는 것으로 끝나는데, 이것은 지루할 수 있다. 학생은 자신들이 너무 많은 질문을 하면 방사선 전문의의 속도가 느려지고 작업흐름이 방해된다고 우려한다. Instead of brainstorming with faculty about course content, you start by having conversations with medical students to better understand their experiences in the reading room. You learn that the first challenge for students is feeling welcome and finding someone to sit with. Students share that they do not have defined reading room roles or responsibilities and often end up sitting passively listening to radiologists dictate, which can be boring. Students express concern that asking too many questions slows radiologists down and disturbs the workflow.
디자인 사고 과정 THE DESIGN THINKING PROCESS
"디자인 씽킹"이라는 용어는 적어도 1987년부터 존재해 왔으며, 엔지니어링, 비즈니스 및 경영, 의료 등에서 오랫동안 사용되어 왔다. 보다 최근에 디자인 씽킹은 교육에 사용되었다. 이 문학에는 다양한 책, 학술 기사, 주류 매체의 기사가 포함되어 있다. 디자인 씽킹은 공감에 대한 사고방식과 반복적인 인간 중심 디자인의 과정을 혼합합니다. 전반적으로, 목표는 제품 및/또는 서비스를 제공하는 분야에서 혁신을 촉진하는 데 도움이 되는 것입니다.
The term “Design Thinking” has been present since at least 1987 (1) and has a long history of use in engineering (2), business and management (3_5), and health care (6). More recently, Design Thinking has been used in education (7_9). The literature includes a wide variety of books, scholarly articles, and articles in mainstream media. Design Thinking blends a mindset for empathy with a process of iterative human-centered design. Overall, the objective is to help foster innovation in fields that deliver a product and/or service.
디자인 사고는 다른 유형의 브레인스토밍과 어떻게 다른가?
전형적인 브레인스토밍 세션은 종종 문제에 대한 창의적인 해결책을 개발하기 위한 그룹 토론을 포함한다. 그룹 참가자들은 토론을 지배하는 경향이 있는 외향적인 사람들부터 창의적인 생각을 가지고 있지만 목소리를 높이는 것을 주저할 수 있는 내성적인 사람들까지 다양할 수 있습니다.
이와는 대조적으로, 디자인 씽킹에서, 모든 참가자는 동등한 목소리를 가지고 있습니다.
[즉흥적 아이디어]는 처음에 포스트잇에 있는 각 참가자에 의해 침묵으로 만들어진 후 그룹 보기를 위해 벽이나 화이트보드에 배치됩니다.
그런 다음 이 그룹은 아이디어를 투표하고 더 발전시킬 "큰 아이디어"를 결정한다.
이 접근법은 다양한 목소리를 과정에 도입함으로써 기존의 편견이나 사고방식을 극복한다. "왜", "만약에 " 및 "어떻게 하면 좋을까"와 같은 간단한 질문을 통해 보다 흥미로운 질문을 정의하고 우수한 솔루션을 개발할 수 있습니다(10).
How is Design Thinking different from other types of brainstorming?
A typical brainstorming session often involves a group discussion to develop creative solutions to a problem. Group participants can range from extroverts with a tendency to dominate the discussion to introverts who have creative ideas but may be hesitant to speak up.
In contrast, with Design Thinking, every participant has an equal voice. Rapid-fire ideas are initially created in silence by each participant on post-its, which are then placed on a wall or whiteboard for group viewing. The group then votes on the ideas and determines which “big ideas” to further develop. This approach gets around pre-existing biases or mindsets by bringing diverse voices into the process. Simple questions such as “why”, “what if ”, and “how might we” are asked to define a more interesting question and develop superior solutions (10).
설계 사고 프로세스의 변형이 다른 환경에 적용될 수 있지만, 사용자 경험을 강화하기 위한 인간 중심 솔루션 설계라는 공통 목표를 모두 공유한다. 본 논문에서 우리는 스탠포드 Hasso Plattner 디자인 연구소 (11)에서 사용되는 5단계 디자인 사고 모델에 초점을 맞출 것이다. 이 모델에서 개별 아이디어는 포스트잇으로 전달되며, 모든 참가자는 가능한 한 많은 아이디어를 생성하도록 권장됩니다. 다섯 가지 디자인 사고 단계는 다음과 같습니다. Although variants of the Design Thinking process can be applied to different settings, all share a common goal of designing human-centered solutions to enhance the user experience. For this paper, we will focus on thefive-phase Design Thinking model used at the Hasso Plattner Institute of Design at Stanford (11). In this model, individual ideas are communicated on post-its, and every participant is encouraged to generate as many ideas as possible. Thefive Design Thinking phases are:
1 공감 2 정의 3 이데이트 4 시제품 5 시험
1 Empathize
2 Define
3 Ideate
4 Prototype
5 Test
1 공감 Empathize
설계 프로세스에서 [사용자]는 애플리케이션, 제품 또는 서비스 설계의 목적이다. 의학 교육에서 사용자는 학습자입니다. 사용자 경험을 공감하고 이해하는 것이 디자인 씽킹의 핵심이다. 사실, 공감 단계는 디자인 사고 과정을 브레인스토밍이나 문제 해결의 다른 유형과 구별하는 것을 돕습니다. 사용자 경험은 제품 또는 서비스와 상호작용할 때 사용자의 감정, 태도 및 전반적인 만족도를 말합니다. 우리의 의대생 과정 예에서, 사용자는 의대생이었고, 그들의 판독실 경험에 대한 학생들과의 대화를 통해 공감대를 형성할 수 있었다. 다른 잠재적 방법으로는 사용자 경험 직접 관찰, 피드백 요청, 사용자 사례 청취, 포커스 그룹과의 만남 및 사용자 경험의 각 단계 분석 등이 있다. In the design process, the user is the person that the application, product or service is designed for. In medical education, the user is the learner. Empathy and understanding the user experience are at the core of Design Thinking. In fact, the empathy phase helps differentiate the Design Thinking process from other types of brainstorming or problem solving. The user experience refers to the emotions, attitudes, and overall satisfaction of the user when interacting with a product or service. In our medical student course example, the user was the medical student and empathy building was facilitated through conversations with students about their reading room experiences. Other potential methods include: directly observing the user experience, asking for feedback, listening to user stories, meeting with focus groups, and analyzing each step of the user experience.
사용자 경험을 이해하기 위해 사용한 또 다른 방법은 [페르소나와 공감 지도]를 만드는 것이다.
예를 들어, "캐서린 스미스"라는 가상의 인물은 앨라배마 출신의 4학년 의대생으로 메사추세츠에 있는 방사선학과 레지던트 자리를 위해 인터뷰를 하고 있다. 그녀는 수줍음이 많지만 다른 사람들에게 긍정적인 영향을 주고자 하는 욕망과 함께 호기심이 많은 자신을 묘사한다. 방사선과의 인터뷰는 이번이 처음이어서 무엇을 기대해야 할지 잘 모르겠어요."
디자인 씽킹 그룹의 각 멤버들은 [캐서린이 면접을 준비하는 과정에서 "말하고, 생각하고, 하고, 느끼는 것"을 표현하는 방식]으로 포스트잇에 자신의 아이디어를 씁니다.
포스트잇은 공감 지도(그림 1)라 불리는 4 사분원 게시판에 배치되며, 이 게시판은 캐서린의 인터뷰 경험에 영향을 미칠 수 있는 문제를 식별하는 데 도움이 된다.
Another method that we have utilized to understand the user experience involves creating a persona and an empathy map.
For example, the persona “Catherine Smith is a fourth-year medical student from Alabama interviewing for a radiology residency slot in Massachusetts. She describes herself as shy but curious with a desire to make a positive impact on others. This is herfirst radiology interview experience and she’s not sure what to expect.”
Based on this persona, each member of the Design Thinking group writes their ideas on post-its, one idea per post-it, representing what they think Catherine “says, thinks, does and feels”as she prepares for the interview day.
The post-its are placed on a four-quadrant board called an empathy map (Fig 1), which is then used to help identify issues that might impact Catherine’s interview experience.
2 정의 Define
다양한 관점에서 사용자 경험을 이해하면 [사용자 중심 방식]으로 문제를 해결하는 데 도움이 됩니다. 예를 들어, 여러 의대생들과 대화를 나눈 후, 문제는 내용 중심에서 판독실 경험 중심 중심으로 재구성되었다. 이 단계의 목표는 올바른 솔루션을 개발할 수 있도록 올바른 문제를 정의하는 것입니다. 이것은 종종 "어떻게 하면 우리가 의대생 판독실을 더 매력적으로 만들 수 있을까?"라는 질문을 던지는 결과를 낳는다. Understanding the user experience from different perspectives helps frame the problem in a user-centered manner. With our medical student radiology course example, after having conversations with multiple medical students, the problem was reframed from a content centered focus to a reading room experience centered focus. A goal of this phase is to define the right problem so that the right solutions can be developed. This often results in asking a “how might we” question: “How might we make the medical student reading room experience more engaging?”
3 아이디어 생성 Ideate
이념화 단계의 목표는 광범위한 아이디어를 비판단적으로 생성하는 것이다. 아이디어는 포스트잇으로 전달되고 모든 관점은 환영입니다. 참가자들은 일반적인 해결책을 넘어서 창의적인 옵션을 탐구하도록 권장됩니다. 제약 조건을 제공하는 것은 새로운 아이디어를 촉발하는 데 도움이 될 수 있다. 의대생 과정 예에서 다음 제약 조건을 고려하십시오. 방사선 전문의는 2시간 독서실 블록 동안 의대생을 가르치는 데 10분밖에 할애할 수 없습니다. 해결책에는 의대생이 방사선 전문의와 검토할 예비 보고서를 지시할 수 있는 시뮬레이션 환경 제공, 방사선 전문의와 검토할 영상검사 획득에 참여하기 위해 초음파 검사자 또는 다른 테크니션과 의대생을 짝짓기, 의대생이 검토할 수 있는 케이스를 배정하고, 이후 전문의과 논의하게 하기 등이 포함될 수 있다.
The goal of the ideate phase is to generate a broad range of ideas nonjudgmentally. Ideas are communicated on post-its and all perspectives are welcome. Participants are encouraged to go beyond the usual solutions and explore creative options. Providing constraints can help spark novel ideas. In our medical student course example, consider the following constraint: an attending radiologist can only dedicate 10 minutes to teach medical students during their 2-hour reading room block. Solutions might include providing a simulated environment for medical students to dictate preliminary reports to review with the radiologist, pairing medical students with an ultrasonographer or another technologist to participate in the acquisition of imaging exams to review with the radiologist, and assigning cases for medical students to review on their devices and then discuss with the radiologist.
이 처음의 발산적divergent 단계는 사람들이 아무리 미친 짓이라도 가능한 한 많은 아이디어를 내기 위해 서로 다르게 생각하도록 장려한다. 이는 참가자들이 유사한 주제를 가진 아이디어를 그룹화하고 그룹화된 아이디어에 대해 투표할 때 통합적인 아이디어화 단계가 뒤따른다. 궁극적으로 프로토타입 단계에서 추가 개발을 위해 추진되는 두세 가지 아이디어를 식별한다. 발산 단계에서는 다양한 선택지("나쁜 아이디어는 없다")를 만들지만, 수렴 단계에서는 선택("최고의 아이디어만 선택하자")을 합니다.
This initial divergent phase encourages people to think divergently to generate as many ideas as possible, no matter how crazy. This is followed by a convergent phase of ideation when participants group ideas with a similar theme together and vote on the grouped ideas, ultimately identifying two or three ideas that are then carried forward for further development in the prototype phase (8). In the divergent phase, we create choices (“no ideas are bad”); however, in the convergent phase, we make choices (“let’s select only the best ideas”).
4 프로토타입 Prototype
프로토타입 단계의 목표는 확인된 문제에 대해 가능한 최선의 해결책을 개발하여 실험하는 것이다. 이것은 행동action 단계이다. 빠르고 저렴한 프로토타입은 사용자 피드백에 따라 개발, 테스트 및 정제 또는 폐기됩니다. 프로토타입은 사용자가 상호작용할 수 있는 물리적 개체이거나 사용자가 참여하는 역할극 시나리오일 수 있습니다. 디자인 사고의 핵심은 단일 솔루션에 너무 투자하기 전에 "빠르게 실패"하는 것입니다. The goal of the prototype phase is to experiment with developing the best possible solutions for the identified problems. This is the action phase. Quick inexpensive prototypes are developed, tested, and refined or discarded based on user feedback. A prototype can be a physical object that the user can interact with or a role-playing scenario that involves the user. A mantra of Design Thinking is to “fail fast” before becoming too invested in a single solution.
5 시험 Test
시험 단계는 사용자로부터 피드백을 요청할 수 있는 기회를 제공한다. 목표는 프로토타입을 다듬기 위해 사용자 경험을 더 잘 이해하고 공감하여 더 나은 솔루션을 만드는 것입니다. 이것은 반복적인 과정이다.
우리의 의대생 예에서, 우리는 의대생이 보고서를 지시하고 피드백을 기반으로 수정하기 위해 시뮬레이션된 환경을 프로토타입으로 만들 수 있다.
혹은 이것이 최선의 해결책이 아니라고 판단되며, 학생들을 판독실에 참여시키기 위한 다른 프로토타입으로 넘어갈 수도 있습니다.
The test phase provides an opportunity to solicit feedback from the user. The goal is to better understand and empathize with the user experience to refine the prototype, resulting in better solutions. This is an iterative process.
In our medical student example, we might prototype a simulated environment for medical students to dictate reports and make modifications based on feedback.
Or we might decide that this is not the best solution and move on to another prototype to engage students in the reading rooms.
의학교육의 디자인적 사고 DESIGN THINKING IN MEDICAL EDUCATION
우리는 3년 동안 우리 부서의 디자인 씽킹과 교육 프로그램을 사용해 왔다.
We have used Design Thinking in our department and education programs for three years.
다음과 같은 "큰 아이디어"를 식별했다.
The group voted on these ideas and identified the following top “big ideas”:
(1) 초음파 신병 훈련소, (1) Ultrasound boot camp,
(2) 표준화된 환자와의 모의 스캐닝 세션 및 초음파 유도 시술 세션, (2) Simulated scanning sessions with standardized patients and ultrasound-guided procedure sessions,
(3) 간호사와 함께 초음파 유도 시술(예: 흉부절개술, 근치절개술 등)을 익히는 시술 시간 (3) Procedure time with nurse practitioners to learn basic ultrasound-guided procedures such as thoracentesis and paracentesis, and
(4) 정오 회의 내용 및 형식 업데이트. (4) Updated noon conference content and format.
디자인 사고 접근법은 교육 경험 설계를 위한 [전통적인 위계쩍 하향식 접근법]에 비해 몇 가지 이점을 가지고 있다.
디자인 사고는 사용자(학습자)에 대한 공감에서 시작됩니다.
모든 참가자의 목소리는 동일합니다.
내향적인 사람들의 목소리가 증폭되고, 권력 격차는 무력화된다.
이러한 접근 방식은 공감, 포함 및 권한 부여의 사고방식을 초래하여 궁극적으로 우수한 솔루션의 개발을 촉진합니다.
In our experience, this Design Thinking approach has several advantages over a more traditional hierarchal top-down approach for designing education experiences.
Design Thinking starts with empathy for the user (learner).
Every participant has an equal voice.
The voices of introverts are amplified, and power differentials are neutralized.
This approach results in a mindset of empathy, inclusion and empowerment, ultimately fostering the development of superior solutions.
콜 투 액션 CALL TO ACTION
디자인 씽킹은 사용자 경험을 전면과 중앙에 배치하는 강력한 프로세스입니다. 이 반복적인 접근 방식은 사용자가 솔루션을 개발하고 다듬도록 유도합니다. Design Thinking is a powerful process that places the user experience front and center. This iterative approach engages the user with developing and refining solutions.
사용자 경험에 대한 공감이 디자인 사고의 핵심입니다. 이를 통해 올바른 문제를 정의하여 올바른 솔루션을 개발할 수 있습니다. 모든 목소리는 포스트잇으로 이데올로기를 통해 들을 수 있다. 제안된 모든 아이디어는 처음에 고려되었다가 합의에 의해 프로토타입 단계로 넘어가는 소수의 아이디어로 좁혀진다. 디자인 사고 프로세스는 "행동을 하는 방향으으로의 편향"을 포용한다. 프로토타입과 테스트 단계를 통해 설계자는 프로토타입을 "빠르게 실패"한 뒤, 프로토타입을 다듬거나 다음 아이디어로 넘어갈 수 있다. Empathy with the user experience is at the core of Design Thinking. This helps define the right problem so that the right solutions can be developed. All voices are“heard”through ideation with post-its. All proposed ideas are initially considered and then narrowed down by consensus to a smaller number of ideas that are carried over to the prototype phase. The Design Thinking process embraces a“bias towards action”. The prototype and test phases allow designers to“fail fast”and refine the prototype or move on to the next idea.
1Department of Radiology and Radiological Sciences, Vanderbilt University Medical Center, 1161 21st Ave. S, CCC-1118 MCN, Nashville, TN 37232. Electronic address: lori.deitte@vumc.org.
2Department of Radiology and Radiological Sciences, Vanderbilt University Medical Center, 1161 21st Ave. S, CCC-1118 MCN, Nashville, TN 37232.
PMID:30867087
DOI:10.1016/j.acra.2019.02.012AbstractKeywords:Curriculum Design; Design Thinking; Graduate Medical Education; Medical Education; Radiology Education; Radiology Residency; Ultrasound Curriculum.
A goal of medical education should be to optimize educational experiences of our learners. How can we better understand their experiences and design educational activities that inspire them to learn? Design Thinking is a powerful process that consists of five iterative phases: empathize, define, ideate, prototype, and test. Empathy with the user experience is at the core of Design Thinking. This helps define the right problem so that the right solutions can be developed. In this article, we share our experiences with using Design Thinking in radiology education. As educators, we are constantly learning and innovating. Design Thinking provides a powerful process and a growth mindset to help develop creative solutions as we move forward. We invite you to join us in this discovery quest for innovative solutions in medical education through the Design Thinking process.
평가에서 독소 빼내기: 발달평가의 역할이 있는가? (Med Educ, 2016) Taking the sting out of assessment: is there a role for progress testing? Debra Pugh1 & Glenn Regehr2
평가의 의도하지 않은 결과 The unintended consequences of assessment
의대 교육에서 지식과 임상 기술에 대한 평가는 역량에 대한 판단에 자주 사용된다. 이러한 평가의 목표는 능력의 정확한 추정치를 얻는 것이지만, 평가의 의도하지 않은 잠재적 결과가 있다. 예를 들어, 학습(AOL)의 평가 모델에서는 성적을 배정하거나, 학습자를 능력 있는 학습자 또는 능력 없는 학습자(합격 또는 불합격자)로 분류하는 데 중점을 둔다. 이와 같이, 학습자의 관점에서 평가와 관련된 사회적 판단 또는 'sting'으로 인지되는 요소가 있다. In medical education, assessments of knowledge and clinical skills are frequently used to make judgements about competence. Although the goal of these assessments is to obtain an accurate estimate of ability, there are potential unintended consequences of assessment. For example, in an assessment of learning (AOL) model, the focus is on assigning grades or categorising learners into competent or not (i.e. pass or fail).1 As such, there is a perceived component of social judgement or ‘sting’ associated with assessment from the learner's perspective.
결과적으로, AOL에 초점을 둠으로써 학습자들이 반드시 배움을 촉진하지는 않으면서, 더 높은 시험 점수만을 얻는 노력 쪽으로 방향을 잡을 수 있다는 점에서 학습자들에게 긴장감을 조성한다. 따라서 시험 환경에 의해 야기되는 내재적 압력은 원치 않는 행동을 초래할 수 있으며, 이는 깊은 이해(예: 주입식 또는 암기)를 방해하는 공부 습관을 채택하는 것에서부터 노골적인 부정행위에 이르기까지 다양하다. 비록 그 차이가 미묘해 보일지 모르지만, 어떤 사람이 그 내용을 이해하는 목표보다는 시험에 합격하는 것을 목표로 공부할 때, 학습에 상당한 영향을 미칠 수 있다. 예를 들어, 연구는 [벼락치기 학습]이 [간격 학습]과 비교할 때 자료를 장기간 보존하는 데 덜 효과적이라는 것을 입증했다. 평가 형식은 또한 학습에 영향을 미칠 수 있는데, 학생들이 [저차원의 기술lower-order skills]을 평가하도록 설계된 시험에 대해 보다 피상적인 접근 방식을 사용하여 (평가 형식을 기반으로) 공부 전략을 변경하는 것으로 나타났기 때문이다. As a result, the focus on AOL creates a tension for learners in that they may be oriented more toward efforts that result in higher test scores without necessarily promoting learning. The inherent pressures created by a testing environment can therefore lead to unwanted behaviours, which may range from adopting study habits that hinder deep understanding (e.g. cramming or memorising by rote) to outright cheating. Although the difference may seem subtle, when one approaches studying with the goal of passing a test rather than the goal of understanding the material, there can be a significant influence on learning. For example, studies have demonstrated that cramming is less effective at leading to long-term retention of material when compared with spaced learning.2 The format of an assessment can also have an influence on learning, as students have been shown to alter their strategy for studying based on the format of an assessment, using more superficial approaches for tests thought to be designed to assess lower-order skills.3, 4
AOL 모델에서, 학습자에게 [평가]는 극복해야 하는 장애물로 취급될 가능성이 더 높다. 따라서 일정 기준(benchmark)에만 도달하면, 학습자가 취약 영역을 다시 검토하도록 하는 인센티브가 거의 없는 경우가 많습니다. 한 사람이 매우 높은 점수를 받든, 아주 약간만 받아들일 수 있는 점수를 받든 상관없이 미리 정의된 커트 점수를 성공적으로 충족시키는 한, 학습자에게 주는 메시지는 그러한 결함들이 상대적으로 미미하며 앞으로 나아갈 준비가 되어 있다는 것이다. 설령 학습자가 개선하고자 하는 동기가 있더라도, 시험 후에 제공되는 피드백은 종종 학습을 안내할 만큼 충분히 구체적이지 않다. In an AOL model, assessment is more likely to be treated by the learner as an obstacle that one must overcome. Thus, there is often little incentive for learners to revisit areas of weakness once the benchmark has been reached. As long as one is successful in meeting a predefined cut-score, regardless of whether one receives a very high score or only a marginally acceptable score, the message to learners is that those deficiencies are relatively insignificant and that they are ready to move on. Even if learners were motivated to improve, the feedback provided after a test is often not specific enough to guide learning.
아마도 더 우려되는 사실은 시험 중 다른 학생의 답안을 직접 복사하고 허가되지 않은 자료에 접근하는 행동을 포함하여 의대생들 사이에 [부정행위]가 널리 퍼져있다는 것이 여러 연구에서 입증되었다는 사실이다. 심지어 교육자들도 평가 과정을 회피하기 위해 부정직한 행동을 하고 싶은 유혹을 받을 수 있는데, 이는 표준화 시험의 조직적 부정행위와 관련된 혐의로 최근 미국에서 11명의 교사를 유죄판결을 받은 것에서 입증된다.10 Perhaps more concerning is the fact that several studies have demonstrated that cheating amongst medical students, including such behaviours as directly copying answers from another student and accessing unauthorised materials during a test, is widespread.5-9 Even educators may be tempted to engage in dishonest behaviour to circumvent assessment processes, as evidenced by the recent conviction of 11 teachers in the USA on charges related to systematic cheating on standardised tests.10
평가가 학습자의 역량을 보장하는 데 중요한 역할을 하는 것은 분명하지만, 이러한 [파괴적 행동]은 현재의 평가 문화가 실제로 학습이 촉진하려고 하는 바로 그 학습을 저해하고 있는지 여부를 의심하게 할 수 있다. AOL 모델과 대조적으로, 학습을 위한 평가 모델(AFL)은 [개선을 촉진하기 위해 학습자에게 피드백을 제공하는 기회로 평가를 사용]하는 것에 초점을 맞추고 있습니다. 동의어는 아니지만, AOL은 일반적으로 '총괄' 평가를 지칭하는 반면, AFL은 일반적으로 '형성' 평가를 지칭한다. 본 논문의 목적상
'총괄'이라는 용어는 성과를 강조하는 고부담 평가(예: 등급)를 지칭하는 반면,
'형성'이라는 용어는 피드백 제공을 우선시하는 저부담 평가의 맥락에서 사용될 것이다.
Although assessment clearly plays an important role in ensuring the competence of learners, these subversive behaviours may lead one to question whether or not the current assessment culture is actually undermining the very learning that it is purportedly trying to promote. By contrast with the AOL model, an assessment for learning model (AFL) focuses on using assessment as an opportunity to provide feedback to learners to promote improvement.11 Although not synonymous, AOL generally refers to ‘summative’ assessment, whereas AFL generally refers to ‘formative’ assessment. For the purposes of this paper,
the term summative will refer to high-stakes assessments that emphasise achievement (e.g. grades), whereas
the term formative will be used in the context of lower-stakes assessments that prioritise the provision of feedback.
그러나 이러한 평가 형태 사이에 상당한 중복이 있으며 둘 다 AOL 또는 AFL 모델에서 사용될 수 있다는 점에 유의해야 한다. However, it is important to note that there is considerable overlap between these forms of assessment and both can be used in either AOL or AFL models.
AFL 모델에서는 판단보다는 성장의 기회 창출에 초점을 두는 것(즉, 최소 역량보다는 우수성을 강조하는 것)으로 이동하기 때문에, AOL 모델에서 주로 보이는 의도하지 않은 결과의 일부를 완화할 수 있는 잠재력을 가지고 있다. AFL 모델에서 평가 프로그램은 모든 개인(고성능이든 저성능이든)이 지속적인 개선을 위해 노력하는 것을 목표로 설계될 수 있다. 이런 의미에서 시험은 학습 도구가 되므로 흔히 사용되는 용어인 시험 강화 학습이 된다. An AFL model has the potential to mitigate some of the unintended consequences associated with an AOL model because of the shift from a focus on making judgements to a focus on creating opportunities for growth (i.e. emphasising excellence rather than minimal competence). In an AFL model, a programme of assessment can be designed with the goal of challenging every individual (whether high or low performing) to strive for continuous improvement. In this sense, tests become learning tools, hence the often-used term test-enhanced learning.12
발달시험의 역할 The role of progress testing
평가의 초점을 AOL에서 AFL로 바꾸려면, 형성적 또는 총괄적 이유로 학습자의 강점과 약점을 완전히 파악하기 위해 많은 도구를 통합하는 [평가 프로그램]이 필요하다. AFL 모델에서 사용하기 위해 상당한 관심을 끌고 있는 것으로 보이는 한 가지 도구는 [발달시험]이다. 설계상, 발달시험의 청사진은 광범위한 컨텐츠 도메인(즉, 프로그램에 필요한 지식의 전체 영역)에 기초한다. 시험은 진행 상황을 감시하기 위해 훈련의 다른 단계에 있는 학습자에게 반복적으로 시행된다.13
예를 들어, 일부 의료 프로그램은 전체 학부 커리큘럼에 기초한 필기 진도 시험을 전체 학생 단체에 정기적으로 시행한다(예: 1년에 4회).
유사하게, 최소한 한 곳의 전공의 프로그램은 졸업에 필요한 훈련의 목표에 기초한 연간 임상 기술 진도 시험을 프로그램의 모든 전공의에게 제공한다.
많은 연구들이 지식 및 임상 기술의 성장을 도표화하고 피드백 제공을 허용하기 위해 발달시험이 사용될 수 있다는 것을 입증했다.
Changing the focus of assessment from AOL to AFL will require a programme of assessment that incorporates many tools in order to get a complete picture of learners’ strengths and weaknesses for both formative and summative reasons.1 One tool that appears to be garnering significant interest for use in an AFL model is the progress test. By design, the blueprints of progress tests are based on a broad content domain (i.e. the complete domain of knowledge required for a programme). The tests are administered repeatedly to learners at different stages in their training in order to monitor their progress.13
For example, some medical programmes administer a written progress test based on the entire undergraduate curriculum to the entire student body at regular intervals (e.g. four times per year).14, 15
Similarly, at least one residency programme offers, to all residents in the programme, an annual clinical skills progress test based on the objectives of training required for graduation.16
A number of studies have demonstrated that progress tests can be used to chart growth of knowledge and clinical skills,14-18 and allow for the provision of feedback.19
발달시험은 단순히 진행률을 측정하는 것 이상의 [실질적인 이점]을 가지고 있는 것으로 보입니다. 서면 진도 시험의 사용은 국가 면허 시험의 성과 향상과 관련이 있는 반면, 발달시험으로 사용되는 객관적인 구조화된 임상 시험(OSCE)은 나중에 임상 기술의 국가단위 시험에 fail할 위험에 있는 전공의를 식별하는 데 유용한 것으로 나타났다. Progress tests appear to have tangible benefits beyond those of simply measuring progress. The use of written progress tests has been linked to improved performance in a national licensure examination,20 whereas objective structured clinical examinations (OSCEs) used as progress tests have been shown to be useful in identifying residents at risk of subsequently failing a high-stakes national examination of clinical skills.21
그러나 무엇보다도 [진행률 시험의 포괄성]과 [상대적으로 저부담 시험적인 특성]이 결합되어 AOL이 학습에 미치는 파괴적 영향을 완화시키는 데 도움이 될 수 있다는 점이 중요하다. 예를 들어, 평가되는 내용에 제한이 없기 때문에, 표적 학습, 암기, 벼락치기, 그리고 시험에 가르치는 것과 같은 전략은 특별히 유용하지 않을 것 같다. 이것은 더 깊은 학습 전략을 촉진하는 것으로 보인다. 또한 AOL 모델에서는 시험 보안 문제로 인해 종종 [의미 있는 피드백]이 배제되는데, 문제은행이 충분히 크다면 피드백도 제공될 수 있다. 따라서, 발달시험은 극복해야 할 장애물이 아니라 중요한 학습 기회가 될 가능성이 있다. 학습자가 이러한 방식으로 발달시험을 보도록 설득할 수 있다면, 발달시험을 사용하여 평가에서 일부 '독소'를 제거하는 데 도움이 될 수 있습니다. Perhaps more importantly, however, the comprehensiveness of progress tests, coupled with the relatively low-stakes nature of the format, may serve to mitigate some of the subversive effects of AOL on learning. For example, because there is no functional limit on the content being assessed, strategies such as targeted studying, memorisation, cramming and teaching to the test are unlikely to be particularly useful. This appears to promote deeper learning strategies.14, 22 Additionally, meaningful feedback, which is often precluded in an AOL model due to test security issues, can be provided with limited risk as long as the item bank is sufficiently large. Thus progress tests have the potential to be important learning opportunities rather than hurdles to overcome. If learners can be persuaded to view progress tests in this way, then perhaps progress tests can be used to help take some of the ‘sting’ out of assessment.
평가가 학습을 촉진하는 방법 How assessment drives learning
'평가가 배움을 이끈다'는 격언은 아마도 많은 진실을 담고 있을 것이다. 그러나 평가를 학습 도구로 전략적으로 사용하려면 평가를 촉진하는 방법을 고려해야 한다. 학습에 대한 평가 효과는 다음의 세 단계로 나눌 수 있다.
시험 전(즉, 시험 인센티브 학습),
시험 그 자체(즉, 시험이 학습으로 직접 연결됨) 및
시험 후(즉, 시험이 학습으로 이어지는 후 제공되는 피드백)
The aphorism ‘assessment drives learning’ probably holds much truth. However, if one is to use assessment as a learning tool strategically, then one must consider how it promotes learning. The effects of assessment on learning can be divided into three phases:
pre-test (i.e. tests incentivise learning),
pure-test (i.e. tests directly lead to learning) and
post-test (i.e. the feedback provided after a test leads to learning).23
시험 전 학습 Pre-test learning
학습에 대한 [시험 전 효과]는 시험의 [간접 효과]라고도 하며, 시험 예상에 의해 제공되는 외적 동기를 의미한다. 즉, 임박한 시험으로 인한 압박감은 학습자에게 학습 동기를 부여하고 시험할 자료를 통합된 방식으로 학습하려는 시도를 할 수 있다. 이런 점에서는, 총괄시험조차도 명백한 검색 목적을 위해 자료를 학습하려는 의도적인 노력을 장려함으로써 학습에 긍정적인 영향을 미칠 수 있다. 그러나 학생들이 학습에 접근하는 방법은 피상적인 접근(예: 깊은 이해보다는 암기)을 촉진하는 경우 시험에 의해 부정적으로 영향을 받을 수 있다. 예를 들어, 발달시험의 자주 언급되는 이점 중 하나는 주입식 공부보다 지속적인 공부를 장려한다는 것이다. 간격 학습과 대량 실습을 비교한 180편 이상의 논문에 대한 검토가 간격 학습이 대량 실전보다 우수하다는 견해를 뒷받침했기 때문에 이 방법이 유용할 수 있다.24
The pre-test effects on learning, also termed the indirect effects of testing, refer to the extrinsic motivation provided by the anticipation of being tested. In other words, the imminent pressure caused by an impending test may provide learners with an incentive to study and attempt to learn the material to be tested in a consolidated way. In this sense, even summative testing may have a positive influence on learning by encouraging intentional efforts to learn material for the explicit purposes of retrieval. However, the way in which students approach learning may be negatively affected by a test if it promotes a superficial approach (e.g. memorising by rote rather than deeper understanding). For example, one of the often-cited benefits of progress testing is that it encourages continuous studying over cramming. This may be valuable because a review of over 180 papers comparing spaced versus massed practice supported the view that spaced learning is superior to massed practice.24
종합 평가의 사전 시험 효과를 위한 유용한 이론적 모델이 Cilliers 등에 의해 개발되었다. 이 모델은 [평가 전 학습 활동]에 영향을 미치는 [영향의 두 가지 잠재적 원천]이 있다고 가정한다.
과제 요구(예: 강의의 과제 유형 및 단서)와
시스템 설계(예: 평가의 임박성 및 일반적인 작업 부하)
이는 뒤이어 다음에 영향을 미친다.
인지 처리
메타인지 조절 활동(예: 인지된 대리인 및 대인관계 요인)
A useful theoretical model for the pre-test effects of summative assessment was developed by Cillierset al.25This model postulates that there are two potential sources of impact that influence pre-assessment learning activities:
task demands (e.g. task type and cues from lecturers) and
system design (e.g. imminence of assessment and prevailing workload).
These in turn influence
cognitive processing and
metacognitive regulation activities (e.g. perceived agency and interpersonal factors).
예를 들어, 시험이 임박했고 학생들이 시험이 매우 위험한 사건으로 인식한다면, 그들의 목표는 그들이 평소에 선호했던 학습 접근법이 아니더라도, 공부할 때 벼락치기나 암기와 같은 낮은 수준의 인지 전략을 채택할 수 있다. 시험 형식이 연구 행동에 어떤 영향을 미치는지에 대한 연구가 이를 뒷받침하는 것으로 보인다. 예를 들어, 학생들은 선택-응답 대 구성-응답 형식 및 파트-과제 대 전체-과제 OSCE를 사용하여 평가될 것을 알 때 학습에 대해 더 피상적인 접근법을 사용하는 것으로 나타났다.
For example, if an examination is imminent and students perceive it to be a high-stakes event, they may adopt lower-order cognitive strategies when studying, such as cramming or memorising by rote, even if that is not their usual preferred approach to learning, because their goal is to maximise their chances of success. Studies about how the test format influences study behaviour would seem to support this. For example, students have been shown to use more superficial approaches to learning when they know they will be assessed using selected-response versus constructed-response formats3and part-task versus whole-task OSCEs.4
이 프레임워크는 종합 평가를 위해 개발되었지만, 이론적으로발달시험의 경우에도 유사한 종류의 영향 원인(예: 과제 유형, 평가 기준 등)이 학습 접근법에 영향을 미칠 것이라고 추측할 수 있다.
이러한 추측을 뒷받침하기 위해, McMaster의 학생들의 학습 스타일을 학습 스타일(암기 대 개념 학습)을 평가하려는 [Mitchell의 인지 행동 검사]를 사용하여 연구한 결과, 발달시험이 도입되었을 때 암기보다는 더 깊은 학습 전략을 계속 사용한 것으로 밝혀졌다.
마찬가지로, 림버그 대학의 진행률 시험 성과 연구는 의미 중심의 연구 접근법의 사용이 진행률 시험 점수와 긍정적인 상관관계가 있는 반면, 암기력이나 얕은 처리를 사용하는 것은 점수와 부정적인 상관관계가 있다는 것을 보여주었다.
Although this framework was developed for summative assessment, one could speculate that, for progress testing, similar sources of impact (e.g. task type, assessment criteria, etc.) would theoretically influence approaches to learning.
In support of this speculation, when McMaster's students’ learning styles were studied using Mitchell's cognitive Behavior Survey, which attempts to assess learning style (memorisation versus concept learning), it was found that they continued to use deeper learning strategies rather than memorisation when progress tests were introduced.14, 26
Similarly, a study of performance on progress tests at Limburg University demonstrated that the use of a meaning-oriented study approach was positively correlated with progress test scores, whereas the use of memorisation or shallow processing was negatively correlated with scores.22
물론, 발달시험은 [시험 전 학습의 'consolidation' 효과]를 훼손할 위험이 있는 것도 사실이다. Van Berkel 등이 다른 시험 형식과 관련된 연구 행동을 비교했을 때, 학생들은 블록 시험을 공부의 동기로 보았다. 하지만 발달시험은 (기출문제를 보는 것을 빼면 학습의 유인이) 아니었다.
어쩌면 어떻게 전체 교과과정의 시험을 위해 공부하는 것에 접근할지 아는 것이 너무 어렵기 때문일지도 모른다.
또는 어쩌면 진행 테스트가 학습자들에 의해 중요하게 인식되지 않기 때문일 지도 모른다.
Of course, there is a risk that progress testing could actually undermine the value of the ‘consolidating’ effects of pre-assessment learning. When van Berkelet al.22compared study behaviours in relation to different test formats, students viewed block tests, but not progress tests, as an incentive to study (other than reviewing old tests),
perhaps because it is so difficult to know how one would approach studying for a test of the entire curriculum,
or perhaps because progress tests are not perceived to be important by learners.
또한 시간 경과에 따라 [간격을 둔 시험spaced testing]이 지속적인 학습을 장려할 수 있다는 일부 증거가 있지만, 학습에 대한 이러한 접근법이 항상 시험 점수를 향상시키지는 않을 수 있다. 학생들을 [정기적으로 평가된 그룹(10주 과정 중 세 번)] 또는 [수업이 끝날 때만 평가된 그룹]에 무작위로 배정한 연구에서, [더 자주 평가를 받은 학생들]은 학습 간격을 두고 전체 학습 시간에 69시간을 더 할애했지만, 최종 평가에서 대조군 학생들보다 더 잘하지는 못했다. 사실, 과정 종료 평가 그룹의 학생들은 마지막 주에 훨씬 더 많은 시간을 공부하는 데 쓴다고 보고했는데, 이것은 주입식 학습보다 간격 배움이 더 낫다는 오랜 믿음에 도전할 수 있다. 그러나 간격 학습 접근법의 입증된 이점은 없었지만, 연구는 단기 효과만 조사했기 때문에 간격 학습 그룹에서 장기 보존이 더 나을지는 명확하지 않다.
Moreover, although there is some evidence to suggest that spacing tests over time may encourage continuous study, this approach to learning may not always result in better test scores. In a study in which students were randomised to either a group that was assessed regularly (three times during a 10-week course) or a group that was assessed only at the end of the course, students who underwent more frequent assessments spaced their learning and devoted 69 hours more to overall study time than their peers, but they did no better on a final assessment.27In fact, students in the end-of-course assessment group reported spending significantly more time studying in the final week, which may challenge the long-held belief that spaced learning is preferable to cramming. However, although there was no demonstrated benefit of a spaced-learning approach, the study only examined the short-term effects, so it is not clear if long-term retention would have been better in the spaced-learning group.
순수 시험 학습 Pure-test learning
다가오는 시험을 예상하고 준비하는 효과 외에도, [시험 행위 자체]가 학습으로 이어질 수 있는데, 이를 [시험 효과]라고 한다. 몇몇 연구들은 시험이 학습의 간접적인 효과 이상으로 직접적으로 학습에 영향을 미치는데 사용될 수 있다는 것을 증명했다. 이것은 부분적으로, [정보를 검색하는 행위]가 [반복적인 공부만 하는 것]과 비교했을 때 학습의 개선을 이끈다는 것을 암시하는 [인출 가설retrieval hypothesis]에 의해 설명될 수 있다. [인출 행위]는 정보를 [향후 인출을 위해 정보를 더 쉽게 접근할 수 있도록 인코딩]하는 데 도움이 되는 듯 하다. 이 현상을 이해하는 데 도움이 되는 유용한 비유는 도서관에 있는 책을 고려하는 것이다. 도서관은 나중에 회수하는 것을 돕기 위해 책을 보관하는 분류 시스템을 채택한다. 만약, 이 시스템을 사용하는 대신에, 책들이 나중에 어떻게 회수될지에 대한 고려 없이 단순히 책꽂이에 놓여진다면, 필요할 때 그것들을 찾는 것이 훨씬 더 어려울 것이다. 마찬가지로, [정보 인출]을 연습할 때, 그것은 뇌가 나중에 액세스하기 위해 [태깅]이나 [인코딩]을 위한 시스템을 만드는 데 도움이 된다. In addition to the effects of anticipating an upcoming test, the act of testing itself can lead to learning, something known as the testing effect. Several studies have demonstrated that tests can be used directly to influence learning above and beyond the indirect effects of studying.28-31This may be explained, in part, by the retrieval hypothesis, which suggests that the act of retrieving information leads to improved learning when compared with repeated study alone. It would seem that the act of retrieval helps to encode the information in a way that makes it more accessible for future retrieval.32A useful analogy to help understand this phenomenon is to consider books in a library. Libraries employ a classification system for shelving books in order to aid later retrieval. If, instead of using this system, books were simply placed on the shelves without consideration of how they would later be retrieved, it would be far more difficult to find them when needed. Similarly, when one practices retrieving information, it helps the brain to create a system for tagging or encoding it for future access.
[시험 효과]는 즉각적인 검색뿐만 아니라 학습된 자료를 최소 몇 달 동안 보존하는 것을 향상시키는 것으로 보입니다. 특히 흥미로운 것은, 시험 효과가 [사실의 보존을 향상]시킬 뿐만 아니라, [지식의 응용을 향상]시킨다는 것인데, 이는 [반복적인 인출]이 더 나은 이해로 이어질 수 있다는 증거를 제공하는 것으로 보인다는 것이다. The testing effect appears to not only enhance immediate retrieval, but also the retention of learned material for at least several months.33,34What is particularly interesting is that the testing effect seems to lead not only to better retention of facts, but also to improved application of knowledge, providing evidence that repeated retrieval may also lead to better understanding.31,35,36
[시험 효과]를 변조modulate하는 것처럼 보이는 중요한 요인들이 있다. 예를 들어 동일한 자료의 반복 시험을 위한 더 많은 기회를 제공하는 것은 학습을 더욱 강화하는 것으로 나타났다. 또한 지식의 인출이 어려울 때 시험 효과가 향상되는 것으로 보인다. 예를 들어, [단순한 정보의 인식]보다는 회상을 필요로하는 [응답 구성constructed-response 형식]을 사용하는 것이다. 이는 부분적으로 [바람직한 어려움 이론]에 의해 설명될 수 있는데, 이는 도전적인 과제가 단순화된 과제보다 더 큰 학습으로 귀결된다는 것을 암시한다. There are important factors that seem to modulate the testing effect. For example, providing more opportunities for repeated testing of the same material has been shown to further enhance learning.37The testing effect also seems to be enhanced when the retrieval of knowledge is effortful; for example, by using constructed-response formats that require recall rather than simple recognition of information.38,39This may be explained, in part, by the theory of desirable difficulties,32which suggests that challenging tasks result in greater learning than simplistic tasks.
발달시험은 시험 효과를 촉진하는 데 이상적으로 적합해 보인다.
발달 시험 청사진은 전체 교육과정에 기초하고 반복적으로 관리되기 때문에 학습자를 더 자주 콘텐츠에 노출시켜 [인출을 더 자주 유도함]으로써 시험 효과를 높일 수 있다.
발달 시험은 전형적으로 [선택-응답selected response 형식(즉, 객관식 질문)]을 채택하지만, OSCE와 같이 보다 [어려운 인출을 요구하는 다른 형식도 실현 가능한 것]으로 나타났다. 강화된 인코딩을 통해 테스트 효과를 강화하기 위해 구성된 응답 형식 또는 OSCE 형식의 사용을 증가시키는 사례가 있을 수 있다.
[구성-응답constructed-response 형식]은 채점에 더 많은 노력을 필요로 하는 경향이 있지만, 학습의 이점은 할당된 자원의 증가를 정당화할 수 있다.
Progress tests would seem ideally suited for promoting the testing effect.
Because progress test blueprints are based on an entire curriculum and are administered repeatedly, they expose learners to more content more often, which should enhance the testing effect by prompting retrieval more frequently.
Although progress tests typically employ a selected-response format (i.e. multiple-choice questions), other formats that require more effortful retrieval, including OSCEs, have been shown to be feasible.40 There may be a case for increasing the use of constructed-response or OSCE formats to potentiate the testing effect through enhanced encoding.
Although constructed-response formats tend to require more effort to mark, the benefits to learning may justify an increase in allotted resources.
테스트 후 학습 Post-test learning
평가가 학습에 영향을 미칠 수 있는 마지막 단계는 피드백이 제공되는 [시험 후]이다. 유의미한 피드백은 메타인지에 영향을 미칠 수 있는 잠재력 때문에 AFL 모델에서 매우 중요하다. 피드백은 강점과 약점이 있는 영역을 강조하는데 도움이 될 수 있으며, 이는 학습자가 학습을 지시하는 데 사용될 수 있습니다. 물론, 의미가 있으려면 피드백이 바른sound 데이터에 기초해야 합니다. 그러한 데이터가 시험 점수의 형태인 경우 시험 자체는 수용가능한 심리측정적 특성(예: 신뢰할 수 있는 점수)을 가져야 한다. 또한 피드백이 상대적인 강점과 약점 영역을 식별하는 형태인 경우, 특정 영역에 초점을 맞추기 위한 권고사항이 의미 있는 '신호'에 기초할 수 있도록 각 영역은 신뢰성을 보장할 수 있는 충분한 표본을 확보해야 한다.
The final phase in which assessment can influence learning is after the test, when feedback is provided. Meaningful feedback is crucial in an AFL model because of its potential to influence metacognition. Feedback can help to highlight areas of strength and weakness, which may, in turn, be used by learners to direct their learning. Of course, in order to be meaningful the feedback must be based on sound data. If those data are in the form of test scores, then the test itself should have acceptable psychometric properties (e.g. scores that are reliable). Further, if the feedback is in the form of identifying areas of relative strength and weakness, then each area should have sufficient sampling to ensure reliability so that recommendations to focus on specific areas are based on a meaningful ‘signal’.
이와 관련하여 발달시험은 신뢰할 수 있는 자료와 학습자에게 풍부한 피드백을 제공하는 자료로 활용될 수 있는 좋은 위치에 있다. 발달시험 후에 학생들에게 제공되는 결과는 종종 [개인의 발달상황에 대한 정보], [강점과 약점의 영역에 대한 요약], 그리고 [다른 학생과의 상대적 비교]를 포함한다. 발달시험은 상대적으로 저부담시험이기 때문에, 학습자들은 학습을 더 안내하기 위해 [발달시험의 사본]을 제공받을 수도 있다. 또한 진도 시험은 학습을 촉진하는 중요한 피드백의 원천으로 사용될 수 있는 국가단위 고부담시험의 저조한 성과를 예측하는 데 유용한 것으로 보인다. Again, in this regard, progress tests are well positioned to be used as a source of both reliable data and rich feedback for learners. The results provided to students following progress tests are often accompanied by information about individual progress, summaries of areas of strengths and weaknesses,19and normative comparisons.41Because of their relatively low-stakes nature, learners can even be provided with copies of their progress tests to further guide their learning.15Of interest, progress tests also appear to be useful in predicting poor performance in national high-stakes examinations,21,26which can be used as an important source of feedback to promote learning.
그러나 피드백을 주는 것은 간단하지 않습니다. 예를 들어, 제공된 피드백의 유형이 중요합니다. 점수나 데이터 제공에 초점을 맞춘 피드백만으로는 학습을 촉진하기에 충분하지 않은 것으로 나타났다. 사실, 성적grade를 제공하는 것은, 그것이 내러티브 코멘트를 동반하더라도, 실제로 학습을 저해할 수 있습니다. 초등학생들에게만 성적, 서술적 논평만 제공하거나 또는 둘 다 제공했던 연구에서, 서술적 평가를 받은 학생들만 유사한 과제에 대해 재시험했을 때 후속적으로 개선되는 것을 보여주었다. 게다가, 피드백이 더 상세할수록, 학생들이 더 많이 배우는 것으로 보인다. 의과대학 예비학생들이 생물의학 지식을 평가하는 자가-온라인 객관식 테스트에 참여했을 때, 정답과 부정확한 옵션에 대한 자세한 설명을 받은 학생들이 정답에 대한 정보만 받은 학생들보다 더 우수한 것으로 나타났다. 어떤 경우에는 시험 보안 문제로 인해서상세한 피드백을 주기 어려울 수 있지만, 종합 OSCE를 포함하여 학습자에게 더 많은 피드백을 제공하기 위한 최근 혁신적인 노력이 있었다.
Giving feedback, however, is not a straightforwardly simple process. For example, the type of feedback provided is important. Feedback focused on providing scores or data alone has not been shown to be sufficient to promote learning. In fact, providing grades, even when accompanied by narrative comments, may actually undermine learning. In a study in which grade-school children were provided with either grades alone, narrative comments alone, or both combined, only students who had received narrative comments alone showed a subsequent improvement when retested on similar tasks.42Further, it appears that the more detailed the feedback, the more likely students are to learn. When pre-medical students participated in a self-administered online multiple-choice test assessing biomedical knowledge, those who received detailed explanations about the correct and incorrect options outperformed those who only received information about the correct answer.43Although test security issues may preclude detailed feedback in some cases, there have been recent innovative efforts to provide increased feedback to learners, including in summative OSCEs.44
발달시험을 피드백을 제공하는 용도로 쓰는 것이 더 어려운 이유 중 하나는, 학습자들은 [피드백에 현저하게 면역]이 될 수 있기 때문이다. 피드백을 수용하는 중요한 요소는 피드백을 제공하는 소스의 인식된 신뢰도인 것으로 보인다. Telio 등은 이 결과를 설명하기 위한 [교육적 동맹 프레임워크]를 제안했는데, 이 프레임워크에서는 피드백 제공자-수신자 관계와 심리치료사-환자의 관계 사이에 유사점을 도출했다. 이 모델에서, 학습자가 피드백을 받아들이고 내면화하기 위해서는 [피드백을 제공하는 사람과의 인식된 동맹관계]가 있어야 합니다. 이 동맹은 학습자들이 그들의 잠재력을 성취하는 데 필요한 지도와 비판을 받아들이기에 충분히 취약하도록 그들 자신을 도울 수 있다. 하지만, 피드백은 학습에 해로운 영향을 미칠 수 있는 감정적인 영향을 미칠 수 있습니다. 직무에 초점을 맞춘 피드백은 학습에 가장 강력한 영향을 미치는 것으로 보이는 반면, (즉, 칭찬과 처벌의 형태로) 자아를 자극하는invokes the self 피드백은 덜 성공적인 것으로 보인다.49 아마도 자아를 자극하는invokes the self 피드백은 교육적 연대를 위협할 수 있는 사회적 판단을 수반하기 때문일 것이다. 학습자 및 교사, 평가의 형성적 의도를 훼손할 수 있습니다. As an additional complication of the use of progress tests to provide feedback, it has been suggested that learners can be remarkably immune to feedback.45,46An important factor in accepting feedback appears to be the perceived credibility of the source providing feedback.47Telioet al.48proposed an educational alliance framework to explain this finding, in which they draw parallels between the feedback provider‒receiver relationship and that of a psychotherapist and patient. In this model, in order for feedback to be accepted and internalised by the learner, there needs to be a perceived alliance with the person providing the feedback. This alliance can help learners to allow themselves to be vulnerable enough to accept the guidance and criticism that is needed to help them achieve their potential. However, feedback can have an emotional impact, which can have detrimental effects on learning. Feedback that is focused on the task appears to have the most powerful influence on learning, whereas feedback that invokes the self (i.e. in the form of praise and punishment) appears to be less successful.49Perhaps this is because feedback that invokes the self carries with it social judgements that may threaten the educational alliance between learner and teacher, and may undermine the formative intentions of the assessment.
요약 Summary
발달시험의 많은 특징은 바람직한 학습을 강화하는 특성과 잘 일치하는 것으로 보인다.
시험범위는 광범위하기에 주입식 학습을 덜 실현 가능하며, 단순히 좋은 점수를 얻는 것을 목표로 시험에 접근할 때 발생하는 것과 비교한다면, 발달시험이 간접적으로 더 지속적이고 위치적인 학습을 장려할 수 있다.
학습자에게 동일한 자료를 반복적으로 테스트하면 정보 인출을 연습할 수 있습니다.
마지막으로, 발달시험을 통해 수행능력에 대한 자세한 피드백을 제공할 수 있습니다.
Many of the features of progress tests appear to align well with the properties that enhance desirable learning.
Broad coverage of material makes cramming less feasible and may indirectly encourage more continuous and situated learning when compared with what occurs when one approaches a test with the goal of simply getting a good grade.
Repeatedly testing learners on the same material provides them with opportunities to practise retrieving information.
Finally, progress tests allow for the provision of detailed feedback on performance.
그러나 발달시험의 의도하지 않은 잠재적 결과도 고려해야 한다. 만약 학습자들이 그것을 하찮거나 준비하기에 너무 벅찬 것으로 인식한다면, 발달시험은 공부에 dis-incentive적인 것으로 판명될 수 있다. 피드백 제공은 가능하지만, 그러한 피드백이 추가 학습에 의미 있게 통합되도록 보장하는 데는 잘 알려진 복잡성이 있으므로 그러한 피드백의 전달이 정의에 의해 평가되고 통합되는 것을 당연하게 여겨서는 안 된다.
However, one must also consider the potential unintended consequences of introducing progress testing. It is possible that a progress test may prove to be a dis-incentive to studying if learners perceive it as unimportant or too overwhelming to prepare for. Although provision of feedback is possible, there are well-known complexities in ensuring that such feedback is incorporated meaningfully into further learning, so it shouldn't be taken for granted that the delivery of such feedback is by definition valued and incorporated.
문제를 해결하기 위한 유일한 가능한 접근법이 진도 테스트라는 것은 아니다. 우리의 요점은, 오히려, 신중하게 구현될 경우, 발달시험이 AFL 모델에 특히 적합하다는 것이다. This is not to say that progress tests are the only possible approach to addressing these issues. Our point, rather, is that progress testing, if implemented carefully, is particularly well suited to a model of AFL.
평가를 사용하여 학습을 최적화하는 방법 How to use assessment to optimise learning
비록 문헌들이 AOL과 AFL 사이에 분명한 차이를 이끌어냈지만, 정의가 암시하는 것보다, 사실 두 가지 사이에는 기능적인 중복이 더 많을 수 있다. 즉, 모든 평가는 학생의 현재 학습 상태를 어느 정도 평가하는 데 사용되며, 모든 평가는 추가 학습을 알리고 지원할 수 있는 잠재력을 가지고 있다. 중요한 것은 [교육자의 관점에서 본 시험의 목적]과 [학습자가 시험 목적을 해석하는 방법] 사이에 불일치가 있을 수 있으므로, 학습자 행동에 미치는 영향의 관점에서 AOL과 AFL의 구별은 보는 사람의 눈에 달려 있을 수 있다. 이런 점에서 AOL이 될 것인지, AFL이 될 것인지를 결정하는 것은 [시험 자체의 속성]이 아니라, [교육자와 학습자가 시험의 목적에 대해 추론하는 것]이다. 따라서 이분법은 다소 인위적이며, 주어진 평가 상황에서 AOL과 AFL을 학습자의 마음에 상대적으로 더 배경이나 배경에서 고려하는 것이 더 유용할 수 있다. Although the literature has drawn clear distinctions between AOL and AFL, it may be that there is more functional overlap between them than implied by the definitions. That is, it is likely that all assessment is used to assess a student's current state of learning to some degree, and all assessment has the potential to inform and support further learning. Importantly, there may also be discordance between the purported purpose of the test from the educator's perspective and how the learners interpret the test's purpose, so from the perspective of its influence on learner behaviour, the distinction between AOL and AFL may be in the eye of the beholder. In this sense, it is not a property of the test itself that determines whether it will be AOL or AFL, but rather the inferences that educators and learners make about the purpose of the test. The dichotomy, therefore, is somewhat artificial and for any given assessment situation it may be more useful to consider AOL and AFL as being relatively more in the foreground or background in the mind of the learner.
따라서 평가에 대한 서로 다른 접근법이 다른 방법보다 더 많은 학습 기회를 촉진할 수 있으며, 따라서 학습에 대한 긍정적인 영향을 극대화하도록 발달시험이 설계될 수 있다는 것에는 의심의 여지가 없다. 위에서 논의한 바와 같이, 진도 시험 설계 시 학습 촉진에 효과적일 수 있는 전략에는 다음이 있다.
구성된 응답 형식 사용,
빈번한 저부담 시험 기회 제공,
간격을 둔 시험
상세한 피드백 제공
Thus, there is no question that different approaches to assessment may promote opportunities for learning more than others and, as such, progress tests can be designed to maximise their positive influence on learning. As discussed above, strategies that are likely to be effective in promoting learning when designing progress tests include:
그러나 AFL을 이용하는 것에는 [자신이 평가되고 있다는 것을 아는 것]의 심리적 결과와 같은 [개념적인 장벽]이 있다는 것을 인식하는 것이 중요하다. 평가가 학습용(예: 형성평가)으로 분류되는 경우에도 학습자는 평가를 학습 기회라기 보다는 성공하기 위해 극복해야 하는 장애물로 볼 수 있다. 50 [모든 평가]는 학습자에게 [자신이 평가의 대상이 되는 고부담 사건]으로 인식될 수 있다. 따라서,
AOL을 전경foreground에 두는 것은, AFL 모델의 의도를 훼손할 수 있습니다.
AOL을 배경background으로 옮기기 위해서는, 평가의 사회적 의미가 바뀌어야 한다.
However, it is important to recognise that there are conceptual barriers to the use of AFL, such as the psychological consequences of knowing that one is being assessed. Even when assessments are labelled as being for learning (e.g. formative assessment), learners may view them as hurdles that they must overcome in order to succeed, rather than as learning opportunities.50To the learner, any assessment may be perceived as a high-stakes event where they are being judged. As such,
the foreground of AOL may undermine the intentions of an AFL model.
In order to move AOL to the background, the social meaning of assessment must be changed.
다시 말해서, 학습자들은 발달시험을 [잠재적으로 징벌적인 결과를 초래할 수 있는 중대한 사건]보다는 [개선의 기회]로 보도록 배울 필요가 있다. 우리는 학생들의 마음속에 [AFL을 전경화하려는 우리의 노력]을 저해하지 않도록 하기 위한 평가 과정의 조건을 만들어야 한다.
In other words, learners need to be taught to view progress tests as opportunities to improve rather than as high-stakes events with potentially punitive consequences. We must create conditions of the assessment process that will ensure that we do not undermine our own efforts to foreground AFL in the minds of our students.
이를 위한 한 가지 방법은, 학습자로 하여금 [수행에 대한 정기적인 피드백을 기대하도록 기대치를 관리하는 것]입니다. 그러나 다시 한 번, 우리가 제공하는 피드백은 학습 기회로서 인식된 가치에 중요한 영향을 미칠 것이다. 따라서 서술적 피드백을 제공하기 위해 (적어도 일정 기간 동안) 발달시험에 대한 등급을 보류하는 것을 고려할 수 있다. 이 접근방식은 특히 잘한 직무에 대해 좋은 등급으로 보상받는 것에 익숙해진 의료 훈련생에게 암묵적으로 종합적인 평가의 성격을 최소화하는 데 도움이 될 수 있다. 대신에 학습자는 진도 테스트의 결과를 [강점과 약점의 잠재적 영역을 탐색]하고, [학습 목표를 달성할 수 있는 기회]로 보도록 권장받을 수 있습니다. 물론, 학습자는 평가 전략에 다르게 반응할 수 있다. [성과 지향적인 학습자]는 총괄평가나 벤치마크를 선호할 수 있는 반면, [숙달 지향적인 학습자]는 학습과 피드백 및 자기 반성을 연계하기 때문에 형성 평가에 더 관심이 있을 수 있다. 그러나, 교육자들이 그들 자신을 증명하기 보다는 학습자의 오리엔테이션을 개선하도록 촉진하는 조건을 설정할 수 있다면, 학습자들은 발달시험에 의해 제공되는 학습 기회를 더 잘 받아들일 수 있을 것이다.
One way to accomplish this is to manage learners’ expectations so that they come to expect regular feedback on their performance. However, again, the feedback that we provide will have an important influence on its perceived value as a learning opportunity. Thus we may consider withholding grades for progress tests (at least for a period of time) in favour of providing narrative feedback. This approach could help to minimise the implicitly summative nature of assessment, especially for medical trainees who have grown accustomed to being rewarded with good grades for a job well done. Learners could instead be encouraged to view their results from the progress tests as opportunities to explore potential areas of strengths and weaknesses and generate learning goals. Of course, learners may respond differently to assessment strategies – those who are performance-oriented may prefer summative assessments or benchmarks whereas those who are mastery-oriented may be more interested in formative assessments because they link learning with feedback and self-reflection.51However, if educators can set conditions that promote learners’ orientation toward improving rather than proving themselves, then learners may be more likely to embrace the learning opportunities provided by progress tests.
또한 실질적인 문제가 AFL 모델 통합에 장벽으로 작용할 수 있다. 즉, 교육자가 [상당한 시간 제약]에 직면할 경우 (확인된 학습 기회를 다루기 위한) 의미 있는 교정조치 또는 추가 학습 기회를 제공하기 어려울 수 있다.
AOL 모델에서 자원은 심각한 어려움에 처한 것으로 확인된 학습자(예: 상대적으로 고부담 시험을 통과하지 못한 학습자)를 위해 예비되는 경향이 있는 반면,
AFL 모델에서 [모든 학습자가 개선 방법에 대한 지침을 받을 것]으로 예상된다.
Practical issues may also act as barriers to the incorporation of an AFL model. Namely, educators facing significant time restraints may find it difficult to offer meaningful remediation or additional learning opportunities to address identified opportunities for learning.
In an AOL model, resources tend to be reserved for learners who are identified as being in grave difficulty (e.g. those who have failed relatively high-stakes examinations), whereas
in an AFL model, all learners are expected to receive guidance on how to improve.
이러한 추가적인 노력은 이미 과로한 의사와 교육자에게 스트레스를 줄 수 있습니다. 학습자가 자신의 학습을 가이드하는 데 필요한 도구를 제공하는 데 집중하는 것은 이러한 압박의 일부를 상쇄하는 데 도움이 될 수 있지만, (발달시험이 제공하는 피드백에 대한 긍정적인 학습 반응을 가장 잘 얻으려면) 교육자로서 이 과정을 가이드할 책임을 무시할 수 없다. This added effort may stress over-worked physicians and educators. Focusing efforts on providing learners with the tools necessary to direct their own learning may help to offset some of this pressure, but we cannot ignore our responsibility as educators to guide this process if we are to most effectively support a positive learning response to the feedback that the progress test offers.
마지막으로, [학습자에 대한 (최종적) 결정]을 내리기 위해 [발달시험]을 [다른 형성적 평가와 함께 사용할지 여부와 그 방법에 대한 문제]는 매우 현실적인 문제이다. 이러한 평가의 주된 목적이 형성적일 수 있지만, 학습자에 대해 얻을 수 있는 풍부한 정보가 있을 수 있습니다. 모든 평가가 학습만을 '위한' 것일 수는 없다. 학습자의 진행 상황이나 프로그램 진행 상황에 대해 간단히 판단할 필요가 있는 경우도 있습니다. 그러나 이러한 방식으로 평가 데이터를 사용하면 학습자가 학습에서 장애물을 극복하려는 시도로 초점을 전환할 수 있기 때문에 AFL 모델을 구현하려는 시도가 저해될 수 있습니다. 교육자들의 좋은 의도에도 불구하고, AFL은 학습자의 관점을 실제로 고려하지 않을 수 있다. 모든 유형의 평가에는 묵시적 판단 또는 '독소'가 내재되어 있기에, 학습자가 어떤 평가를 저부담의 형성적 평가로 볼 것이라고 가정하는 것은 주제넘을presumptuous 수 있다. 대신, 학습자가 평가를 사용하여 학습을 안내하고 이러한 통찰력을 사용하여 평가 프로그램을 적절하게 수정하는 방법을 조사하는 것이 유용할 수 있습니다. Finally, the issue of if and how to use progress tests and other formative assessments to make decisions about learners is a very practical concern. Although the primary purpose of these assessments may be formative, there is likely to be rich information that can be gained about learners.52Not all assessment can be exclusivelyforlearning, as it is sometimes necessary to make summary judgements regarding learners’ progress or continuation in a programme. However, using assessment data in this way may undermine attempts to implement an AFL model, as learners may shift their focus from learning to simply trying to overcome a hurdle. Despite educators’ good intentions, it is possible that AFL does not really consider the perspective of the learner. It may be presumptuous to assume that learners will ever be willing to view assessment as a low-stakes, formative experience because of the implied judgements, or ‘sting’, inherent in all types of assessment. Instead, it may be useful to probe learners about how they use assessment to guide their learning and use these insights to modify programmes of assessment accordingly.50
결론 Conclusions
점점 더 많은 교육자들이 역량 기반 의학 교육(CBME)을 수용함에 따라, AFL 모델은 계속해서 탄력을 받을 것 같다.53 이것은 또한 AOL가 차지할 장소가 없다는 것을 암시하는 것은 아니다. 단, AOL을 전경(예: 고위험 평가)에 두더라도, [지속적인 학습을 촉진할 기회]를 활용할 수 있고 이용해야 한다. 이러한 일이 일어나기 위해서는 평가 경험의 고통을 덜어줄 방법을 찾아야 한다. 발달시험은 이 독소를 제거(또는 최소한 감소)하는 문제에 대한 하나의 해결책으로 제공됩니다. 발달시험은 학습자에게 주입하려는 심층적이고 의미 있으며 지속적인 학습 유형을 지원할 가능성을 높이는 많은 기능을 가지고 있습니다. As more and more educators embrace competency-based medical education (CBME), the AFL model is likely to continue to gain momentum.53This is not to suggest that there is not also a place for AOL. However, even when AOL is foregrounded (e.g. for high-stakes assessment), the opportunity to promote continuous learning can and should be harnessed. For this to occur, it is necessary to find ways to take the sting out of the assessment experience; progress tests are offered as just one solution to the problem of removing (or at least lessening) this sting. Progress tests have many features that increase the likelihood that they will support the types of deep, meaningful and continuous learning that we are trying to instill in our learners.
그러나 우리는 발달시험이 자동으로 이 기능을 수행한다고 가정하여 이러한 노력을 저해하지 않도록 주의해야 한다.
사전 테스트, 순수 테스트 및 사후 테스트 영향을 통해 학습 관행을 형성하도록 [의도적으로 테스트를 구성]해야 합니다.
우리는 시험이 평가의 AFL 측면을 뒷받침하는 [사회적 구성에 의해 뒷받침]되는지 확인해야 하며,
우리는 학생들이 그러한 시험의 결과가 제공하는 성찰과 학습 기회를 최대한 활용할 수 있도록 하기 위한 [자원을 마련]해야 한다.
우리가 이런 노력을 하지 않는 한, 우리는 학생들의 마음속에서 진행 테스트가 우리의 커리큘럼에서 살아남기 위해 뛰어넘어야 할 또 다른 후프로 옮겨갈 위험을 무릅쓰고 있다.
However, we must be careful that we do not undermine these efforts by assuming that progress testing will automatically fulfill this function.
We must structure the tests intentionally to ensure that they shape learning practices through their pre-test, pure-test and post-test influences.
We must ensure that the tests are supported by social constructions that foreground the AFL aspect of the assessments, and
we must put in place the resources to ensure that students can take full advantage of the reflection and learning opportunities that the results of such tests offer.
Unless we engage in these efforts, we run the risk that progress tests will devolve, in the minds of our students, to just another hoop they must jump through to survive our curricula.
Med Educ. 2016 Jul;50(7):721-9.
doi: 10.1111/medu.12985.
Taking the sting out of assessment: is there a role for progress testing?
Context:It has long been understood that assessment is an important driver for learning. However, recently, there has been growing recognition that this powerful driving force of assessment has the potential to undermine curricular efforts. When the focus of assessment is to categorise learners into competent or not (i.e. assessment of learning), rather than being a tool to promote continuous learning (i.e. assessment for learning), there may be unintended consequences that ultimately hinder learning. In response, there has been a movement toward constructing assessment not only as a measurement problem, but also as an instructional design problem, and exploring more programmatic models of assessment across the curriculum. Progress testing is one form of assessment that has been introduced, in part, to attempt to address these concerns. However, in order for any assessment tool to be successful in promoting learning, careful consideration must be given to its implementation.Methods:We will examine the literature on how assessment drives learning and how this might apply to progress testing. We will also explore the distinction between assessment of learning and assessment for learning, including ways in which they overlap and differ. We end by discussing how the properties of an assessment tool can be harnessed to optimise learning.
Conclusions:Progress tests are one potential solution to the problem of removing (or at least lessening) the sting associated with assessment. If implemented with careful thought and consideration, progress tests can be used to support the type of deep, meaningful and continuous learning that we are trying to instill in our learners.
Objective:The purpose of this paper is to consider the implications of implementing progress testing within practice, and how this might promote or impede learning in the three phases of assessment (pre-test, pure-test and post-test).
개인, 팀, 프로그램의 교육성과 평가를 위한 기여와 귀인의 힘(Acad Med, 2020) The Power of Contribution and Attribution in Assessing Educational Outcomes for Individuals, Teams, and Programs Daniel J. Schumacher, MD, MEd, Eric Dornoff, Carol Carraccio, MD, MA, Jamiu Busari, MD, PhD, MHPE, Cees van der Vleuten, PhD, Benjamin Kinnear, MD, MEd, Matthew Kelleher, MD, MEd, Dana R. Sall, MD, MEd, Eric Warm, MD, Abigail Martini, and Eric Holmboe, MD
우리는 너무 반사적으로 역설들을 분리시킴으로써, 우리가 이 습관 때문에 지불하는 대가를 놓치고 있다. 역설의 극poles은 배터리의 극과 같습니다: 그들을 서로를 잡아주고, 생명의 에너지를 생성한다. 그들을 떼어 놓으면, 전류가 흐르지 않게 됩니다. We split paradoxes so reflexively that we do not understand the price we pay for our habit. The poles of a paradox are like the poles of a battery: hold them together, and they generate the energy of life; pull them apart, and the current stops flowing.
CBME의 인기에도 불구하고, 우리가 서비스하는 모집단의 요구를 충족시키는 결과에 초점을 맞춘 이 접근방식으로의 의미 있는 전환은 어려운 일이었다. 간단히 말해서, 의료연수생에 대한 평가는 일반적으로 방어 가능한 타당성과 신뢰성이 부족하고 교육 및 환자 치료 결과에 대한 정보는 기껏해야 제한적이기 때문에 졸업생들이 교육 후 임상 실무에 대비할 준비가 되어 있는지 신뢰할 수 없다. 이 문제는 교육, 훈련 및 실천 연속체에 만연해 있으며, 의학연구소(현재의 국립 의학 아카데미)와 메디케어 지급 자문 위원회는 환자의 요구를 충족시키는 데 있어 레지던트 교육의 단점을 한탄하고 있다. However, despite the popularity of CBME, meaningful transition to this approach, which focuses on the outcome of meeting the needs of populations that we serve, has been challenging. Stated simply, we do not reliably know if graduates are prepared for clinical practice after training because assessment of medical trainees typically lacks defensible validity and reliability, and information on education and patient care outcomes is limited at best. This problem is pervasive across the education, training, and practice continuum, and the Institute of Medicine (now the National Academy of Medicine) and the Medicare Payment Advisory Commission have bemoaned the shortcomings of residency training in meeting the needs of patients.10,11
의료 교육 프로그램 결과 및 실습 결과에 대한 이해와 개선을 확대하려면
진료 및 프로세스의 일부 측면이 개인에게 귀속될attributed to 수 있는 방법을 결정해야 하는 반면,
진료 및 프로세스의 다른 측면은 결과에 기여하는 여러 개인의 결과이다.
Greater understanding and improvement in the area of medical education program outcomes as well as practice outcomes will require
determining how some aspects of care and processes can be attributed to individuals,
whereas other aspects of care and processes are the result of several individuals contributing to the outcome.
그러나, 오직 후자만이 최근 문헌의 개념적 논의에서 초점을 받았다. However, only the latter has received focus in recent conceptual discussions in the literature.
학자들은 최근 의료 교육 프로그램의 효과와 결과를 의미 있게 평가하기 위한 접근법으로서 [기여 분석contribution analysis]을 지지해왔다. 특히 CBME에서처럼, [결과를 생산하기 위해 여러 요소들이 어떻게 결합되어야 하는지를 결정하는 것이 중요한] 복잡한 이니셔티브에서의 기여 분석에 초점을 맞추고 있다. '기여contribution'은 서로 다른 실체가 결과에 기여하는 정도가 얼만큼인지에 주목한다. 그러나 어떻게 결과가 생성되는지에 대한 [전체 기여 스토리]에는 [개인에 기인하는 요소]가 포함되어 있는데, 개개인마다 결과에 미치는 영향의 정도가 다르다. 예를 들어 치료를 받기 위해 응급부서로 계획되지 않은 상태로 최근에 퇴원한 환자는 간호사가 제공한 퇴원 지침을 이해하지 못했거나, 주치의로부터 퇴원 지침을 받지 못했을 수 있다. 이 예에서 [개인(예: 간호사, 전공의)에 귀속attribute되는 활동]이 [환자 결과에 기여contribute]하기 위해 결합된다. Scholars have recently advocated for contribution analysis as an approach to meaningfully evaluate the effectiveness and outcomes of medical education programs,12,13 especially for complex initiatives for which it is important to determine how several components must come together to produce an outcome, such as those of CBME.14 Contribution focuses on the extent to which different entities contribute to an outcome. However, the full contribution story for how an outcome is produced contains components that can be attributed to individuals that have varying degrees of influence on producing that outcome. For example, a recently discharged patient with an unplanned return to the emergency department to seek care may not have understood the discharge instructions given by the nurse or may not have received any discharge guidance from the resident physician. In this example, activities that are attributable to individuals (e.g., nurse, resident) combine to contribute to the outcome for the patient.
이 예에서 알 수 있듯이, 보건의료는 팀워크의 결과이며, 이것이 기여 분석contribution analysis이 제대로 주목을 받은 이유일 가능성이 높습니다. 그러나 [개인에게 귀속attribute되는 의료의 측면]에 초점을 맞추고, 개인에게 [팀 성과와 관련된 데이터]를 제공하는 것 또한 가치가 있다.
본 논문의 일부 저자의 최근 연구는 전공의-민감적 품질 측정을 작업하였다. 이러한 품질 측정은 [특정 질병에 대한 중요성]과 [팀 또는 팀의 다른 구성원이 아닌 전공의에 의해 측정되는 행동]의 가능성에 기초한다. 따라서 [전공의-민감적resident-sensitive 품질 측정]은 개인에게 귀속되는 치료 결과를 다룰 수 있는 노력의 한 예이다.
As this example illustrates, health care is the result of teamwork, which is likely why contribution analysis has rightly received attention. However, focusing on aspects of care attributed to individuals and providing these individuals with data related to their performance on the team also have value.
Recent work by some authors of this paper has resulted in the creation of resident-sensitive quality measures. These quality measures are based on their importance to a specific illness as well as the likelihood of the action that is measured being performed by a resident and not by another member of the team or the team collectively. Thus, resident-sensitive quality measures are an example of an effort that can address outcomes of care attributable to individuals.15,16
이러한 조치들은 아직 연구 중이지만, 개인이 제공하는 의료의 입증된 품질에 기초하여 부분적으로 제공되는 진료를 보상하려는 (성과 기반 인센티브 지급 시스템(메디케어 및 메디케이드 서비스 센터(CMS) 프로그램)과 같은) 관리 의료 지급 모델의 현재 추세를 감안할 때 잠재적 효용성을 가지고 있다. 게다가, 개인에게 집중하는 것이 개인의 발전을 이끄는 가장 효과적인 방법일 수도 있다. 또한, [개인 수준의 피드백]이 없다면, 부정적 결과에 대한 자신의 책임은 간과하고, 긍정적 결과에 대해서만 기여를 했다고 생각하는 편견인 [근본적인 귀인 오류]의 희생양이 되기 쉽다.
While these measures are still being studied, they have potential utility given current trends in managed care payment models, such as the Merit-based Incentive Payment System, a program of the Centers for Medicare and Medicaid Services (CMS), that seek to reimburse for care provided partly on the basis of the demonstrated quality of that care provided by individuals. Furthermore, focusing on individuals may be the most effective way to drive their personal improvement.17,18 Additionally, without individual-level feedback, it is easy to fall prey to fundamental attribution error, a bias to view oneself as responsible for positive outcomes but not for undesirable ones.19
[프로그램 및 시스템 수준의 결과]는 미래의 [프로그램 평가와 프로그램 수준 개선]에 정보를 준다는 점에서 중요하지만,우리는 [개개인]에 대해 졸업, 인증, 자격 증명 등을 판단해야 하(거나 할 수 있으)며, 개인에 의해 제공되는 입증된 의료 품질에 기초한 관리 의료 지급 모델(예: CMS 성과 기반 인센티브 지급 시스템)을 사용해야 할 수도 있다. 이 경우에 팀 차원의 인증이나 인증과 같은 프로세스를 수행하는 것은 실용적이지 않습니다. 이러한 노력은 팀 구성원이 바뀔 때마다 하루에 여러 번 새로운 결정을 내려야 합니다. 따라서 개인의 성과를 결정determine할 수 있는 능력이 중요하다. 요약하자면, 기여Contribution에 초점을 맞추는 것도 중요하지만, 의료의 어떤 측면이 개인에게 크게 귀속되는지에Attributed to 대해서도 초점을 맞출 필요가 있습니다. While program- and system-level outcomes are important for informing program evaluation and program-level improvements for the future, we can and should graduate, certify, and credential individuals, and we may be required to use managed care payment models—such as the CMS Merit-based Incentive Payment System—that are based on demonstrated quality of care provided by individuals. It is not practical to carry out processes such as certifying or credentialing at the team level; such efforts would require new decisions several times a day, each time a team member changed. Thus, it is important to be able to determine an individual’s performance. In summary, while a focus on contribution is important, we also need to focus on what aspects of care can be largely attributed to individuals.
만약 우리가 비문에 인용된 파커 파머의 비유를 가까운 주제에 적용한다면, 우리는 귀인attribution과 기여contribution를 전지의 두 극으로 볼 수 있다. 두 가지 모두를 고려해야만, 우리는 [개인뿐만 아니라 팀과 프로그램에 대한 의료 교육의 결과에 대한 이해]에 요구되는 충분한 전압을 생성할 수 있다. 그러나, 우리가 [기여 분석]에만 초점을 맞추는 방식으로, "기여 분석contribution analysis을 위한 귀인 분석attribution analysis에서 벗어나기"와 같은 최근의 담론만 쫓는다면, "전류의 흐름이 중단될current stops flowing" 위험이 있다. 즉, 의학교육에서 [개인 수준]과 [프로그램 수준]의 결과를 모두 고려하지 못하게 되는 것이다.
If we apply Parker Palmer’s analogy,1 quoted in the epigraph, to the topic at hand, we can see attribution and contribution as the 2 opposite poles of a battery. By considering both, we can generate sufficient voltage to power the understanding of outcomes in medical education for individuals as well as for teams and programs. However, if we follow the recent conversation in the medical education literature, which has focused solely on contribution analysis and advocated “moving away from attribution analysis in favor of contribution analysis,”12 there’s a risk that the “current stops flowing” to consideration of both individual- and program-level outcomes in medical education.
인용한 파머의 말은 "'그리고and'의 힘"에 있다. 즉, 기여와 귀인이 분석에 가져오는 이익을 모두 인정하고, 전체를 부분의 합보다 더 크게 만든다. 기여 분석에 대해 저술한 사람들은 다른 목적을 위한 귀속에 초점을 두는 것이 가능할 수도 있다. 그러나 귀속attribution이 [귀속-기여 연속체]에서 갖는 역할뿐만 아니라, [개인에 대한 귀속의 역할]을 명확하게 정의하는 것은 두 가지 이유로 중요하다: [귀인의 잠재력을 최대한 실현]하고, [귀인을 투명하게 만들기 때문]이다. Heeding the words of Palmer relies on the “power of ‘and,’” that is, seeing the benefit that both contribution and attribution bring to analysis, making the whole greater than the sum of its parts. It is possible, perhaps even likely, that those who have written about contribution analysis also value a focus on attribution for different purposes. However, we believe that explicitly defining the role of attribution for individuals, as well as its role in the attribution-to-contribution continuum, is important for 2 reasons: realizing the full potential of attribution and making attribution transparent.
프로그램 및 팀에 집중: 기여도 분석 Focusing on Programs and Teams: Contribution Analysis
[기여 분석]은 2001년에 시민 프로그램과 그들이 달성하고자 하는 결과를 질적으로 평가하는 수단으로 등장했다. 기여도 분석을 개발한 존 메인은 그 당시 변화하는 공공 행정 문화가 시민 프로그램의 결과에 대한 더 큰 책임을 요구한다고 느꼈다. 그는 [기여 분석]이 "관리자, 연구원 및 정책 입안자들로 하여금, [특정 결과에 대한 그들의 프로그램에 대한 기여도에 대한 결론]을 도출하는 데 도움을 줄 수 있다"고 생각했다. 최근 몇 년 동안, 그리고 CBME의 지속적인 추진력은 의료 교육 프로그램의 결과에서 책임에 대한 유사한 요구를 보아왔다. 이러한 상황은 의학교육학자들이 주장해온 바와 같이 [기여분석]을 이러한 목적에 매우 적합하게 만든다. Contribution analysis emerged in 2001 as a means of qualitatively evaluating civic programs and the outcomes they are seeking to achieve. John Mayne, who developed contribution analysis, felt that the changing culture of public administration at the time required greater accountability for the outcomes of civic programs.20He thought that contribution analysis could help “managers, researchers, and policymakers to arrive at conclusions about the contribution their program has made to particular outcomes.”20Recent years, and the continued momentum of CBME, have seen similar calls for accountability in the outcomes of medical education programs.2–4,21These circumstances make contribution analysis an excellent fit for this purpose, as medical education scholars have advocated.12
현실 세계는 [복잡한 특성]을 갖고 있으며, 이는 결과에 많은 영향을 미치는 요인이 다양함을 의미한다. 기여 분석의 목적은 [개별 실체가 전체 결과에 영향을 미치는 정도]를 결정하는 것이다.22 이 분석에서, 관심 결과의 동인 결정에 일정한 수준의 불확실성이 존재할 것으로 가정한다. 표 1과 같이, 메인은 [기여 분석의 6단계]를 설명한다.
(1) 해결해야 할 원인 문제를 설명한다.
(2) 가정된 기여 이론을 개발하고 그 이론에 대한 위험을 확인한다.
(3) 기여이론을 뒷받침하기 위해 기존의 증거를 수집한다.
(4) 기여 스토리contribution story 및 쟁점을 평가한다.
(5) 추가 증거를 찾는다.
(6) 기여 스토리contribution story을 개정, 강화한다.
The complex nature of the real world means there are many influences on an outcome. The goal of contribution analysis is to determine the extent to which individual entities affect an overall outcome.22In this analysis, it is assumed there will be a given level of uncertainty present in the determination of the drivers of the outcomes of interest. As shown inTable 1, Mayne describes 6 steps in contribution analysis12,20:
(1) set out the causal problem to be addressed,
(2) develop the postulated theory of contribution and identify risks to the theory,
(3) gather the existing evidence to support the theory of contribution,
(4) assess the contribution story and the contestations to it,
(5) seek out additional evidence, and
(6) revise and strengthen the contribution story.
다음 절에서 자세히 설명한 바와 같이, 표 1은 이러한 단계를 프로그램 결과의 기여, 개별 결과의 귀속 및 CBME의 기여와 귀속 사이의 상호작용 결정에 적용할 수 있는 방법을 추가로 설명한다. As detailed in the next section,Table 1further delineates how these steps can be applied to determining the contribution of program outcomes, the attribution of individual outcomes, and the interactions between contribution and attribution in CBME.
개인에 초점을 맞춥니다. 속성 분석 Focusing on Individuals: Attribution Analysis
[기여 분석 프로세스]는 [귀속 분석]을 정의하는 데도 사용될 수 있다. 귀속 분석은 [상당부분이, 전적으로 개인에게 귀속되는 활동에 대한 증거적 주장을 구축]하기 위한 분석이다. 실제로, 메인은 기여 분석을 개념화하는 과정에서 [기여contribution는 개별 실체에 귀속될attributed 수 있는 것으로부터 시작된다]는 주장을 펼쳤다. 분명히, [귀속은 기여 이야기의 일부]인 것처럼 보인다. (결과가 어떻게 생산되었는지에 대한) [전체 기여 스토리]는 [그 결과를 만들어내는 과정에서 다양한 수준의 영향을 미친 개인, 활동 및 실체]를 포함한다.
We believe that the contribution analysis process can be used to define attribution analysis as well, seeking to build an evidentiary argument for what activities can be largely or entirely attributed to individuals. Indeed, in his conceptualizations of contribution analysis, Mayne made the case that contribution begins with what can be attributed to individual entities; clearly, attribution is seen to be a part of the contribution story.20,23The full contribution story of how an outcome is produced includes individuals, activities, and entities to whom varying degrees of influence in producing that outcome areattributed.
그러나 의대 교육에서 기여도 분석을 적용하는 논의는 attribution보다는 contribution를 중시하는 이분법에 가까웠다. 이러한 경향은 [CBME 프로그램의 결과에 초점]을 맞추는 경향 때문일 수 있다. 앞에서 논의한 바와 같이, 우리는 귀속과 기여에 대한 대화를 의학교육을 위한 "둘 중 하나either, or"가 아닌 "둘 다both, and"로 본다. 두 렌즈 모두 원하는 초점에 따라 매우 유용할 수 있다. 실제로, 메인은 귀속과 기여 사이의 연속체를 개념화했습니다.
However, discussions of applying contribution analysis in medical education have approached contribution and attribution as more of a dichotomy, advocating contribution over attribution.12,24This tendency may be because of the focus on outcomes of CBME programs. As discussed previously, we view this conversation of attribution and contribution as a “both, and” rather than an “either, or” for medical education; both lenses can be very useful, depending on the desired focus. Indeed, Mayne conceptualized a continuum between attribution and contribution.
그의 초기 연구에서, 메인은 "활동activity"이 점차적으로 더 원거리적인 세 가지 유형의 결과를 생성하는 결과 사슬을 설명했다.
"출력/리치output/reach":그림 1의 왼쪽에 표시된 이 체인은 의약품의 프로세스 조치와 유사한 "출력/리치output/reach"로 시작한다(예: 환자는 1차 진료 제공자와 문서화된 천식 조치 계획을 가지고 있다).
"중간 결과":조금 더 나아가서, 같은 이름의 의학의 품질 측정(예: 매년 스테로이드 과정 및 폐 기능 검사)과 유사한 "중간 결과"가 있다.
"종료 결과":대부분의 원거리 결과는 의학의 실제 결과 측정(예: 매년 응급 부서 방문 또는 천식 입원 횟수)과 유사한 "종료 결과"이다.
In his early work, Mayne described a results chain where an “activity” produces 3 types of progressively more distal outcomes.20
This chain, shown on the left side of Figure 1, begins with the “output/reach,” akin to process measures in medicine (e.g., patient has an asthma action plan documented with primary care provider).
A little further out are “intermediate outcomes,” akin to medicine’s quality measures of the same name (e.g., steroid courses each year and pulmonary function testing).
Most distal are “end outcomes,” akin to true outcome measures in medicine (e.g., number of emergency department visits or hospitalizations for asthma each year).
의학이 그렇듯, 메인의 모델에서는 하류downstream에 가까울수록 [결과에 영향을 미치는 (개인을 넘어서는) 추가적인 요소들]를 고려한다. 예를 들어 중간 및 최종 결과는 환자 흡입기 기술, 약물 접근, 가정 내 먼지 및 곰팡이의 존재에 의해 영향을 받을 수 있다.
As in medicine, Mayne’s model considers the additional factors beyond the individual that affect results further downstream. For example, intermediate and end outcomes can be affected by patient inhaler technique, access to medications, and the presence of dusts and molds in the home.
그림 1의 두 번째 열은 당뇨병 환자의 혈당 조절에 대한 결과 체인의 예를 보여주는데, 이는 전공의(이 예제의 초점)가 학습할 수 있는 활동이다.
당뇨병 환자를 돌보는 [전공의만 고려]할 경우, 전공의의 성과를 결정하는 데 다음 사항을 사용할 수 있다. 적절한 약물 처방(예: 메트포르민) 및 적절한 선별(예: 시력검사, 소변 마이크로알부민)을 지시하는 것과 같은 프로세스 조치이다. 그림 1에서 알 수 있듯이, 이러한 활동은 대부분 개인 전공의(즉, 전공의가 소변을 주문했거나 주문하지 않은 경우)에게 귀속attributed to할 수 있다.
결과 사슬을 따라 내려가면, 중간 결과 척도에는 실제 환자 식단과 운동, 약물 준수, 헤모글로빈 A1c 수치가 포함됩니다; 최종 결과 척도에는 당뇨병 신경병증, 망막병증, 뇌졸중 및 심근경색이 포함됩니다. 이러한 중간 및 최종 결과에는 척도의 달성 여부에는 기여하지만, 개별 전공의(예: 의약품 접근, 환자 약물 준수, 실제 환자 다이어트)가 제어할 수 없는 요인이 포함된다. 따라서, 이러한 측정들은 [(귀속보다는) 기여의 관점]에서 고려하기에 가장 좋은 위치에 있다.
The second column of Figure 1 shows an example of the results chain for blood sugar control in a patient with diabetes, an activity that residents (the focus of this example) can learn. When only the resident caring for a patient with diabetes is considered, the following can be used to determine that resident’s performance: process measures such as ordering the proper medication regimen (e.g., metformin) and appropriate screening (e.g., eye exams, urine microalbumin). As Figure 1 shows, these activities can be mostly attributed to the individual resident (i.e., the resident either ordered or did not order a urine microalbumin). Moving down the results chain, intermediate outcome measures include actual patient diet and exercise, medication adherence, and hemoglobin A1c levels; end outcome measures include diabetic neuropathy, retinopathy, stroke, and myocardial infarction. These intermediate and end outcomes include factors that cannot be controlled by an individual resident (e.g., access to medications, patient medication adherence, actual patient diet) contributing to whether or not the measures are achieved. Thus, these measures are best positioned to be considered through the lens of contribution rather than attribution.13
[프로세스 척도에 대한 퍼포먼스]는 개별 제공자의 모습을 반영하며, [여러 제공자에 걸친 집단적인 퍼포먼스]는 프로그램 또는 클리닉의 성과의 지표이다. 중간 및 최종 결과 측정에 대한 성과는 환자, 교육 프로그램 또는 클리닉 및 기관의 성과를 반영한다. Performance on the process measures reflects the individual provider; performance collectively, across multiple providers, indicates the outcomes of the program or clinic. Performance on the intermediate and end outcome measures reflects the performance of the patient, training program or clinic, and institution combined.
귀속분석 정의 Defining attribution analysis
귀속과 기여의 연속성을 고려할 때, [기여 분석]은 개인에게 적용될 수 있다고 믿습니다. 구체적으로, [기여 분석]에 사용되는 동일한 단계가 개인에게 적용된다면, [귀인 분석]을 정의하고 개인 수행의 특정 구성요소를 결정할 수 있다고 믿는다. 이 접근법은 교육학자들이 여러 개의 변수를 집어넣어보고 "무엇이 들어맞는지what sticks"을 보기보다는, 귀인 연구를 시도할 때 증거를 수집할 수 있는 방법을 제공한다. 전공의를 사례로, 제안된 속성 분석을 위한 단계를 자세히 설명하고, 기여 분석 단계와 이러한 단계를 비교하면 표1과 같다. Given the continuum between attribution and contribution, we believe contribution analysis can be applied to individuals. Specifically, we believe the same steps used in contribution analysis can be applied to individuals to define attribution analysis and to determine specific components of individuals’ performances that can be attributed to them. This approach provides education scholars with a method for collecting evidence when they are attempting attribution studies rather than plugging in multiple variables and seeing “what sticks.” We detail the steps for our proposed attribution analysis using residents as an example; we also compare these steps with the parallel steps of contribution analysis inTable 1:
1단계:개개인의 수행performance에서 해결이 필요한 인과관계 문제causal problem를 제시합니다.
전공의의 경우 의료팀의 다른 구성원이 아닌 전공의가 정기적으로 완료해야 하는 실질적인 과제를 포함한다. 이 초기 단계에서, 제안된 귀속 업무attributable task가 [평가하려는 개인의 작업 범위 내에 있어야 하는지 여부]를 고려하는 것이 중요하다. 개인은 과제를 수행해야 하는 사람(또는 사람)이 그렇게 하지 않는 기능 장애 마이크로 시스템 또는 전문가 간 팀을 보상하기 위해서만 이 과제를 수행할 수 있다. 이러한 [잠재적 귀속 요인]은 배제해야 하며, 마이크로시스템 또는 팀 성과 개선에 초점을 맞추어야 한다.
Set out the causal problem to address in individual performance.
For residents, this includes tangible tasks that residents—rather than other members of the health care team—regularly complete. At this early step, it is important to consider whether the proposed attributable task should be within the scope of work of the individual of interest. The individual may only perform this task to compensate for a dysfunctional microsystem or interprofessional team in which the person (or people) who should be performing the task is not doing so. Such potential attributable factors should be excluded and focus placed on improving the microsystem or team performance.
2단계:가정된 귀인 이론theory of attribution을 개발하고 그 이론에 대한 위험을 확인한다.
그 task를 완수할 수 있어야 하는 다른 사람이 누구인지 고려하면서, 이러한 작업이 해당 전공의에게 귀속되는 이유를 설명하고 정당화한다.
Develop the postulated theory of attribution and identify risks to the theory.
Explain and justify why these tasks are attributable to residents, taking into account who else could be completing the tasks.
3단계:귀속 이론을 뒷받침하기 위해 기존의 증거를 수집한다.
증거는 선택된 과제가 실제로 전공의의 행동resident action를 반영한다는 것을 입증해야 한다.
Gather the existing evidence to support the theory of attribution.
Evidence should demonstrate that selected tasks actually reflect resident actions.
4단계:귀속 사례와 그와 관련된 쟁점을 평가합니다.
이 시점에서 생성된 큰 그림 컨텍스트를 보고 그 속성이 임상 학습 환경의 맥락에서 타당한지 여부를 평가하십시오. 이 평가에는 평가대상이 되는 프로세스 조치가 [팀의 다른 구성원 또는 팀 집단으로서가 아니라] 진정으로 [평가되는 특정 전공의에게 상당정도 귀속되는지]를 이해하려는 시도가 포함되어야 한다.
Assess the attribution story and the contestations to it.
Look at the big picture context created to this point and evaluate whether the attribution is valid in the context of the clinical learning environment. This evaluation should include attempting to understand whether the process measure under consideration is truly highly attributable to the resident rather than to another member of the team or to the team as a collective.
5단계:추가 증거를 찾습니다.
예를 들어, 가족 및 의료팀의 다른 구성원들과 함께 차트 검토 및/또는 직접 관찰을 실시함으로써 프로세스 조치가 전공의에게 귀속된다는 주장을 뒷받침할 수 있는 더 많은 정보를 계속 모색한다.
Seek out additional evidence.
Continue to seek out more information to support the claim that the process measure is attributable to the resident, for example, by conducting chart reviews and/or direct observation combined with discussions with a variety of stakeholders such as families and other members of the health care team.
6단계: 귀속 스토리를 수정하고 강화합니다.
5단계에서 수집한 새로운 정보를 통합하여 전공의와 측정된 업무 간의 관계를 보다 명확하게 정렬한다.
Revise and strengthen the attribution story.
Integrate the new information gathered in step 5 to create a clearer alignment of the relationship between the resident and the task measured.
메인의 귀인 개념화에서 더 나아가, 이러한 단계를 완료하면 [개인의 행동]과 [측정measure] 사이의 "확률적 인과관계"를 추론하는 데 도움이 될 것이다. 메인은 이 [확률론적 인과관계]를 확립하기 위해 5가지 기준을 충족해야 한다고 주장한다.
개연성plausibility,
계획에 따른 실행,
핵심 요소의 증거 확인,
다른 영향 요인을 고려
대안적 설명이 (틀렸음)을 반증disproving
Further building from Mayne’s conceptualization of attribution, completing these steps will help to infer “probabilistic causation” between an individual’s actions and the measure.25 Mayne asserts that 5 criteria must be met to establish this probabilistic causation:
plausibility,
implementation according to plan,
evidentiary confirmation of key elements,
taking other influencing factors into account, and
disproving alternate explanations.
기여와 귀속 모두 활용의 힘 The Power of Harnessing Both Contribution and Attribution
[기여 분석과 귀인 분석]을 모두 사용하여 프로그램을 집단으로 평가하는 동시에 규제당국이 인증해야 하는 개인의 진행 상황을 측정할 수 있다. 이러한 조치를 만들고 사용하면 추가 전공의 교육에 도움이 되지만 환자와 팀 구성원(예: 간호사)의 피드백을 고려하여 커뮤니케이션 및 환자 관계와 같은 더 무형의 기술에 대한 조치measures를 만들 수 있다. 이러한 접근 방식은 [가시적인 목표를 바탕으로 개인의 개선을 위한 귀중한 피드백]을 생성하는 동시에, [직원 교육을 촉진하기 위해 프로그램에 필요한 실행 가능한 피드백]을 제공합니다. "둘 중 하나"가 아니라 "둘 다"와 "그리고"라는 생각이 epigraph에 나타나 있다. Using both contribution and attribution analyses, we can evaluate a program as a collective while also measuring the progress of the individuals that regulators must certify. Creating and using these measures will help to further resident education but can also be built upon by considering feedback from patients and team members (e.g., nurses) to create measures for more intangible skills, such as communication and patient rapport. This approach creates valuable feedback for individual improvement with tangible goals while also providing actionable feedback to programs to better facilitate the education of their staff. This “both, and” rather than “either, or” thinking is evoked in the epigraph.
결론 Conclusion
교육 결과를 환자 치료 결과와 연계하는 과제(교육의 지평선에 대한 우리의 가장 큰 과제)는 서로 얽힌 성과 가닥을 분리하고 검토하기 위한 첫 번째 단계로 기여 및 기여 분석을 사용하면 충분히 해결할 수 있을 것이다. 이러한 접근 방식을 통해 다음을 확인할 수 있다.
각 가닥(개개이느이 퍼포먼스에 대한 귀속attribution)이 팀 성과에 어떻게 얽혀 있는지,
전체 스레드(기여contribution 분석)가 팀 성과와 환자에 대한 치료 결과를 어떻게 연결하는지
The challenge of linking educational outcomes to patient care outcomes—our greatest challenge on the education horizon—may well be served by using contributionandattribution analyses as the first step toward pulling apart and examining the intertwined performance strands. Such an approach allows us to see
how each strand (attribution of individual performance) is intertwined in team performance and
how the whole thread (contribution analysis) links team performance to care outcomes for patients.
이러한 노력에서 의료 교육은 [결과에 대한 개인의 책임]에 초점을 맞추는 것으로 시작되었지만, 개인과 팀 간에 책임을 공유하는 [팀 책임에 초점을 맞추는 것]으로 진화해나갈 것이며, quality improvement의 궤적을 따라가며 이익을 얻을 수 있을 것이다.
In these efforts, medical education may benefit from following the trajectory of quality improvement, which began as a focus on individual responsibility for outcomes but evolved to focus on team responsibility with shared accountability among individuals and teams.26
Acad Med. 2020 Jul;95(7):1014-1019.
doi: 10.1097/ACM.0000000000003121.
The Power of Contribution and Attribution in Assessing Educational Outcomes for Individuals, Teams, and Programs
1D.J. Schumacher is associate professor of pediatrics, Cincinnati Children's Hospital Medical Center and University of Cincinnati College of Medicine, Cincinnati, Ohio. E. Dornoff is a medical student, University of Cincinnati College of Medicine, Cincinnati, Ohio. C. Carraccio is vice president of competency-based assessment, American Board of Pediatrics, Chapel Hill, North Carolina. J. Busari is consultant pediatrician and associate professor of medical education, Maastricht University, Maastricht, the Netherlands. C. van der Vleuten is professor of education, Department of Educational Development and Research, Faculty of Health, Medicine, and Life Sciences, and scientific director, School of Health Professions Education, Maastricht University, Maastricht, the Netherlands. B. Kinnear is assistant professor of pediatrics and internal medicine, Cincinnati Children's Hospital Medical Center and University of Cincinnati College of Medicine, Cincinnati, Ohio. M. Kelleher is assistant professor of pediatrics and internal medicine, Cincinnati Children's Hospital Medical Center and University of Cincinnati College of Medicine, Cincinnati, Ohio. D.R. Sall is assistant professor of internal medicine, University of Cincinnati College of Medicine, Cincinnati, Ohio. E. Warm is professor of medicine and internal medicine program director, University of Cincinnati College of Medicine, Cincinnati, Ohio. A. Martini is a clinical research coordinator, Division of Emergency Medicine, Cincinnati Children's Hospital Medical Center, Cincinnati, Ohio. E. Holmboe is senior vice president for milestones development and evaluation, Accreditation Council for Graduate Medical Education, Chicago, Illinois.
Recent discussions have brought attention to the utility of contribution analysis for evaluating the effectiveness and outcomes of medical education programs, especially for complex initiatives such as competency-based medical education. Contribution analysis focuses on the extent to which different entities contribute to an outcome. Given that health care is provided by teams, contribution analysis is well suited to evaluating the outcomes of care delivery. Furthermore, contribution analysis plays an important role in analyzing program- and system-level outcomes that inform program evaluation and program-level improvements for the future. Equally important in health care, however, is the role of the individual. In the overall contribution of a team to an outcome, some aspects of this outcome can be attributed to individual team members. For example, a recently discharged patient with an unplanned return to the emergency department to seek care may not have understood the discharge instructions given by the nurse or may not have received any discharge guidance from the resident physician. In this example, if it is the nurse's responsibility to provide discharge instructions, that activity is attributed to him or her. This and other activities attributed to different individuals (e.g., nurse, resident) combine to contribute to the outcome for the patient. Determining how to tease out such attributions is important for several reasons. First, it is physicians, not teams, that graduate and are granted certification and credentials for medical practice. Second, incentive-based payment models focus on the quality of care provided by an individual. Third, an individual can use data about his or her performance on the team to help drive personal improvement. In this article, the authors explored how attribution and contribution analyses can be used in a complimentary fashion to discern which outcomes can and should be attributed to individuals, which to teams, and which to programs.
총괄적 위임결정의 타당도에 대하여 (Med Teach, 2021) On the validity of summative entrustment decisions Claire Touchiea,b , Benjamin Kinnearc , Daniel Schumacherd , Holly Caretta-Weyere , Stanley J. Hamstraf,g , Danielle Harth , Larry Gruppeni , Shelley Rossj , and Eric Warmk , Olle ten Catel ; On behalf of the ICBME Collaborators
서론 Introduction
[의학 교육에서 가장 중요한 총괄적 위임 결정]은 수련을 마치는 시점에서 [전공의가 완전히 감독되지 않은 의료행위에 대한 준비가 되었다고 가정할 때] 이루어지는 결정이다. 그러나 많은 프로그램 디렉터는 자신의 가족은 절대 맡기고 싶지 않은 전공의 제자의 사례를 기억할 수 있다(존커 외 2020). 이러한 전공의가 졸업할 수 있는 이유로는
전공의의 전문의 자격 취득을 막을 능력의 부족
신뢰 부족 및 평가 방법 및 기준의 질 저하,
의료인력 부족,
법적 조치와 관련된 우려,
전공의를 failing시키는 것으로 인해 발생할 재정문제
The most important summative entrustment decisions in medical education are arguably those made at the completion of postgraduate training when the practitioner is assumed to be ready for fully unsupervised practice. Many program directors, however, can recall cases of graduating residents they would not let care for their own family members (Jonker et al.2020). Stated reasons for allowing these residents to graduate include
inability to stop trainees from getting certified,
lack of trust in and poor quality of assessment methods and criteria,
staff shortages,
concerns regarding legal action, and
the financial consequences of failing a trainee.
역량 기반 의료 교육(CBME)은 수련 기간을 역량의 대리지표로 의존하기 보다는, 명확하게 표현된 훈련 결과에 기초한 실천요강의 사용을 통해 그러한 '위양성false positive' 결정을 최소화하는 데 도움이 될 수 있다(Frank 등 2010). 프로그램이 포괄적 위임 결정을 통해 이러한 결과를 평가하는 경우, 평가의 학습자 성과에 대해 방어 가능한 타당성 수준을 가져야 한다. Competency-based medical education (CBME) can help minimize such ‘false positive’ decisions through the use of practices based on clearly articulated outcomes of training rather than reliance on time in training as a surrogate for competence (Frank et al.2010). If programs assess those outcomes through summative entrustment decisions, their assessments should have a defensible level of validity regarding learner performance.
CBME의 위임 Entrustment in CBME
CBME의 성과-기반 접근방식에는 의미 있는 방식으로 역량을 입증할 수 있는 강력한 평가assessment practice가 필요하다(Gruppen et al. 2018). 위임은 평가자의 인지 프로세스와 일치하는 방식으로 역량을 평가하기 위한 프레임워크로 부각되었다(10 Kate 2006, Rekman 등 2016, 10 Kate 등). 위임의 개념은 다음과 같은 인식에서 비롯되었다. "환자와 사회가 [의료 전문가에게 갖는 안전한 고품질 의료를 제공할 것이라는 신뢰]는 [의료에서 필수적인 역동적 요소]로서, 이것은 [학습자 역량 평가를 위한 프레임워크]로 번역될 수 있다." 이 개념으로 평가자는 역량을 직접 평가하지 않는다. 대신, 역량 수준은 일상적 활동에서의 수행능력에 대한 평가를 바탕으로 추론된다. 물론, 시뮬레이션 상황에서의 평가를 보조적으로 활용할 수는 있다. The outcomes-based approach of CBME requires robust assessment practices that can attest to competence in a meaningful way (Gruppen et al.2018). Entrustment has come to the fore as a framework for assessing competence in a way that aligns with the cognitive processes of raters (ten Cate2006; Rekman et al.2016; ten Cate et al.2016). The concept of entrustment grew from awareness that the trust patients and society place in health care professionals to deliver safe, high-quality care (ten Cate et al.2016) is an essential dynamic in health care that may be translated to a framework for assessing learner competence. With this concept, raters do not assess competencies directly; instead, a level of competence is inferred on the basis of assessments of performance during daily work activities, perhaps augmented with assessments in simulation conditions, that reflect readiness for health care responsibilities.
위임에 대한 한 가지 접근법은 [의사들이 하는 것을 개념화하고, 업무 기반 평가를 용이하게 하는 프레임워크를 제공하기 위한 방법]으로 제안된 위임 가능한 전문 활동(EPA)이다(Kate 2006 10). EPA의 핵심은 [의도적으로 감독 수준을 줄인 상태에서 의료행위를 수행할 수 있는 학습자의 능력]을 "신뢰"해야 한다는 것이다. 학습자가 발전을 거듭함에 따라 감독자와 의료 시스템에 의해 [더 적은 감독 하에, 더 큰 환자 관리 책임]을 위임받는다.
One approach that draws heavily on entrustment is entrustable professional activities (EPAs), proposed as a way to conceptualize what it is that physicians do and to provide a framework to facilitate work-based assessment (ten Cate2006). At the core of EPAs is the need totrustthe learner’s ability to perform an activity with deliberately decreasing levels of supervision. As learners advance in their development, they are entrusted by supervisors and the health care system with increasing patient care responsibilities under lessening supervision.
위임 결정은 다양한 맥락에서 이루어진다.
임상 일선에서 감독자는 학습자가 주어진 수준의 감독 하에 매일 임상 치료 과제를 수행할 수 있도록 허용할 때 [임시적 위임 결정]을 내린다(10 Kate 등 2020). 임시적 위임 결정은 상황, 업무, 감독자의 신뢰 성향, 감독자-훈련자 관계 및 훈련자의 과거 성과 등을 포함한 몇 가지 변수에 의해 영향을 받는다(Hauer et al. 2014).
[총괄적 위임 결정]은 학습자가 필요로 하는 감독량에 대한 보다 공식적이고 신중한 결정이다. 이 결정은 학습자가 주어진 감독 수준에서 공식적으로 할 수 있는 것에 변화를 초래한다.
Entrustment decisions are made in various contexts.
On the clinical front lines, supervisors make ad hoc entrustment decisions when they allow learners to perform daily clinical care tasks with a given level of supervision (ten Cate et al. 2020). Ad hoc entrustment decisions are affected by several variables, including the context, the task, the supervisor’s propensity to trust, the supervisor–trainee relationship, and the trainee’s past performance (Hauer et al. 2014).
Summative entrustment decisions are more formal and represent deliberate determinations of the amount of supervision a learner needs. The latter decisions result in changes in what learners are officially allowed to do at a given level of supervision.
프로그램 및 기관(예: 의과대학, 레지던트 프로그램, 인증 기관)은 [학습자가 정의된 성과를 충족하고, 다음 단계의 교육 또는 실습으로 진행할 준비가 되었는지의 여부]에 대한 [광범위한 총괄적 위임 결정]을 내릴 책임이 있다(10 Kate et al. 2016). 이러한 결정은 시간이 지남에 따라 다양한 평가인의 충분한 데이터 포인트(임시 위임 결정을 포함하는 평가 포함)로 통지되어야 하며, 진급 위원회 또는 임상 역량 위원회(본 논문에서 위임 의사결정 위원회로 지칭)와 같은 위원회가 수행해야 한다(Smit et al. 2019).
Programs and institutions (e.g. medical school, residency program, credentialing bodies) are responsible for making broader summative entrustment decisions as to whether learners have met the defined outcomes and are ready to progress to the next phase of training or practice (ten Cate et al.2016). These decisions should be informed by sufficient data points (including assessments that incorporate ad hoc entrustment decisions) from various assessors over time, and they should be made by committees such as promotions committees or clinical competence committees (referred to as entrustment decision committees in this paper) (Smit et al.2019).
[위임 결정의 부담stakes]은 종종 학습자, 프로그램 및 환자에 대한 결과와 관련이 있습니다.
임시 결정의 부담은 단일 상황에 관한 것이기에 낮지만, 종합적 결정의 부담은 낮은 것부터 높은 것까지 [부담 수준의 연속체]에서 발생할 수 있으며, 그 결정이 일반화되는 성격을 갖는다(Schuwirth 및 Ash 2013; van der Vleuten et al. 2015).
[저부담의 총괄적 결정]에는 전공의가 고유의 위험이 거의 없는 특정 조건을 관리할 수 있는 시기를 결정하거나, 전공의가 특정 업무에 대한 직접 감독에서 간접 감독으로 이동할 수 있는 시기를 결정하는 것이 포함될 수 있다.
[궁극적인 고부담 결정]은 학습자가 일반적인졸업 시점에 [전문직이 수행하는 (전체) 범위에 걸쳐 감독되지 않은 의료행위를 할 준비가 되었는지, 아니면 이 훈련을 연장해야 하는지] 여부를 결정해야 할 때 발생한다.
The stakes of entrustment decisions are often related to the consequences for the learner, the program, and patients.
While the stakes of ad hoc decisions are lower as they pertain to a single instance, summative decisions can occur on a continuum of stakes ranging from low to high and have a generalized nature (Schuwirth and Ash 2013; van der Vleuten et al. 2015).
A lower stakes summative decision might involve determining when a resident is permitted to manage a given condition with little inherent risk, or determining when a resident can move from direct to indirect supervision for a particular task.
However, an ultimate high-stakes decision occurs at the end of training when it must be determined whether a learner is ready for unsupervised practice at the usual graduation time point across the breadth of a profession or whether training should be extended.
모든 결정은 부담(의 수준)에 관계없이 방어 가능해야 하지만, 부담이 높은 결정이 더 높은 수준의 증거를 요구한다. 실제로, CBME 운동은 의학의 공적책무public accountability를 강조하는 사회문화 운동에서 비롯되었다(2007년 호지) 수련을 막 마치고 adverse event에 연루된 의사를 상상해보라. 모든 근본 원인 분석은 개인이 잘 훈련되었는지 또는 평가되었는지 여부와 그러한 상황이 사건에 기여했는지 여부를 고려해야 한다. 이 실무자를 졸업시키고 감독 없이 실무에 임할 수 있도록 하기 위한 포괄적 위임 결정은 개인에 대한 이전 관찰과 그에 따른 절차에 근거하여 방어 가능해야 한다. 이 방어가능성은 타당성 주장validity argument의 관점에서 개념화할 수 있다.
While all decisions should be defensible regardless of stakes, higher stakes decisions require higher levels of evidence. Indeed, the CBME movement grew out of sociocultural movements that emphasized public accountability in medicine (Hodge2007). Imagine a practitioner who has just completed training and is involved in an adverse event. Any root cause analysis should consider whether the individual was well trained or assessed and whether those circumstances contributed to the event. The summative entrustment decision to graduate this practitioner and allow them to practise without supervision should be defensible on the basis of earlier observations of the individual and the procedures that were followed. This defensibility can be conceptualized in terms of validity arguments.
본 기사는 국제 CBME 협력자 포럼(2019년 7월 11일과 12일, 캐나다 오타와에서 이틀간)에서 열린 광범위한 토론에 기초한다. This article is based on extensive discussions held at a 2-day forum of the International CBME Collaborators (11 and 12 July 2019, in Ottawa, Canada).
논쟁의 증거로서의 타당성 Validity as evidence for an argument
타당도는 평가 데이터에서 비롯되는 해석 및 결정의 방어성으로 정의될 수 있다(Messick 1989; AERA 2014). 타당도는 도구의 속성이 아니라 제안된 데이터 해석 및 사용을 뒷받침하는 데 사용할 수 있는 증거이다(Messick 1989; Kane 1992). 타당화validation은 해석에 따른 결정을 뒷받침하기 위해 증거에 근거한 주장을 구성constructing하는 과정이다. 어느 지점을 '충분한 증거가 존재하는 종점end point'로 볼 것이냐는 [결정의 부담]와 [명확성, 일관성 및 타당성에 대한 주장에 대한 가치 판단을 내리는 당사자]에 달려 있다(Kane 1992, 2001; van Eemeren 등 2013; Marseau 등 2018).
Validity can be defined as the defensibility of interpretations and decisions resulting from assessment data (Messick1989; AERA2014). Validity is not a property of an instrument but rather the evidence available to support a proposed interpretation and use of data (Messick1989; Kane1992). Validation is the process of constructing arguments grounded in evidence to support resulting decisions. The end point at which sufficient evidence exists depends on the stakes of the decision and the party making the value judgment on the argument for clarity, coherence, and plausibility (Kane1992,2001; van Eemeren et al.2013; Marceau et al.2018).
[총괄적 위임 결정]은, 훈련 종료 결정과 관련하여 감독되지 않은 실행으로 이어지며, 환자 치료에 직접적인 영향을 미치기 때문에 고도로 정밀하고 강력한 타당도 증거를 고려할 가치가 있다. 교육 종료 전에 수행된 소규모 실무 단위(EPA)에 대한 총괄적 위임 결정은 동일한 이유로 강력한 타당도 증거를 필요로 한다(Kate 2017 10개 10). '높은 표준'이 의미하는 것은, 이 검증validation이란 [기존 증거를 면밀히 조사]하는 동시에, 영구히 [새로운(그리고 더 설득력 있는) 타당도 증거를 구축]하는, 영속적perpetuity 프로세스여야 한다는 것이다(St-Onge 등 2017).
Summative entrustment decisions, in the context of end-of-training decisions leading to unsupervised practice, merit highly scrutinized, robust validity evidence because these decisions directly affect patient care. Summative entrustment decisions for smaller units of practice (EPAs) made before the end of training similarly require strong validity evidence for the same reason (ten Cate2017). High standards mean that validation should be an ongoing process of both scrutinizing existing evidence and building new (and more convincing) validity evidence in perpetuity (St-Onge et al.2017).
증거 구성 Organizing the evidence
Cook과 Hatala(2016)가 제안한 8단계(표 1 참조)는 타당성 주장의 구축을 안내하는 데 도움이 될 수 있다.
첫째, [평가할 구인]과 [데이터를 사용하여 제안할 해석]을 잘 정의해야 한다. 포괄적 위임 결정과 CBME가 보다 광범위하게 적용되면, 가장 기본적인 구인은 [환자 치료 업무를 수행할 수 있는 역량]이다. Frank와 동료(2010)는 역량이 다차원적이고 역동적이라는 점을 지적하면서 역량을 '특정 맥락에서 여러 영역 또는 의사 수행 측면에 걸친 능력의 배열'로 정의한다.
둘째, 위임 결정의 목적을 규정해야 한다. 포괄적 위임 결정의 목적은 [거의 감독이 없는 상태에서 EPA와 같은 작업을 수행할 준비가 된 사람들]을 식별하는 것이다. 궁극적으로 감독하 진료에서 비감독 진료로 이어지는 포괄적 위임 결정이 내려질 것이다. 설득력 있는 주장을 하는 데 필요한 증거는 맥락에 따라 다르다.
Eight steps (shown inTable 1) proposed by Cook and Hatala (2016) can help guide the building of a validity argument.
First, the construct being assessed and the proposed interpretation using the data must be well defined. With summative entrustment decisions, and CBME more broadly, the underlying construct is most often competence to perform tasks of patient care. Frank and colleagues (2010) define competence as ‘the array of abilities across multiple domains or aspects of physician performance in a certain context’, noting that competence is multidimensional and dynamic.
Second, the purpose of the entrustment decision must be defined. For summative entrustment decisions, the purpose is to identify those who are ready to progress to perform a task, such as an EPA, with a lower level of supervision. Ultimately, a summative entrustment decision will be made leading from supervised practice to unsupervised practice. The necessary evidence to make a cogent argument differs depending on the context.
표 1. 포괄적 위임 결정의 유효성 확인을 위한 실질적인 단계 Table 1.Practical steps to validation of summative entrustment decisions.
쿡과 하탈라(2016) 검증 프로세스의 3단계부터 6단계까지는 [해석-사용 주장(IUA)을 정의]하는 것으로서, 이를 위해
[(관찰 순간부터 최종 결정까지) 일련의 사건에 존재하는 가정을 식별]하고,
[현재 증거를 면밀히 조사]하거나,
이러한 [가정에 대한 새로운 증거를 구축]해야 한다.
Steps three through six of Cook and Hatala (2016) validation process involve defining an interpretation-use argument by
identifying assumptions that exist in the chain of events from the moment of observation to the end decision and
scrutinizing current evidence or
building new evidence for those assumptions.
두 가지 현대적 타당성 프레임워크(케인과 메식 각각에 의해 제시됨)는 종종 이러한 가정과 그에 수반되는 증거를 구성하는데 사용된다. 케인의 프레임워크는 관찰 순간부터 최종 해석 및 사용까지 확장되는 증거 체인의 연계를 강조한다(Cook et al. 케인은 네 가지 추론을 설명하는데, 각각의 추론은 증거와 함께 뒷받침되어야 한다: 점수, 일반화, 외삽, 그리고 함축scoring, generalization, extrapolation, and implication..
Two contemporary validity frameworks, put forth by Kane and Messick respectively, are often used to organize these assumptions and the accompanying evidence. Kane’s framework emphasizes links in an evidentiary chain that extends from the moment of observation to final interpretations and uses (Cook et al.2015). Kane describes four inferences, each of which should be supported with evidence: scoring, generalization, extrapolation, and implication.
케인 프레임워크의 한 가지 장점은 증거 체인의 '가장 약한 고리'를 식별하고 교육자가 이러한 추론에 대한 증거를 구축하는 데 집중할 수 있다는 것이다(쿡 외 2015). 메식 프레임워크는 내용, 대응 프로세스, 내부 구조, 다른 변수와의 관계, 결과 등 5가지 범주로 구성된 타당도 증거의 출처 또는 유형을 포함한다. 두 프레임워크 모두 의학 교육에 사용되었으며, 어느 것을 선택하더라도 타당성 검증에 대한 합당한 접근 방식이지만, 교육자는 그들이 사용할 프레임워크에 대한 정당성을 제시해야 한다(Lineberry 2019). 특히, 이 두 프레임워크는 보완적일 수 있다. 증거 체인의 다양한 추론inference(케인)을 뒷받침하기 위해 증거 유형type(메시크)을 사용할 수 있다. One advantage of Kane’s framework is that it allows for the identification of the ‘weakest link’ in the evidentiary chain and for educators to focus on building evidence for that inference (Cook et al.2015). Messick’s framework involvessourcesortypesof validity evidence that are organized into five categories: content, response process, internal structure, relationship to other variables, and consequences (Messick1989). Both frameworks have been used in medical education, and while either is a reasonable approach to validation, educators should provide justification for which framework they choose to use (Lineberry2019). Notably, these frameworks can be complementary. One could usetypesof evidence (Messick) to support variousinferencesin an evidentiary chain (Kane).
예를 들어, 강력한 평가자 훈련을 사용하면 그림 1과 표 2에 설명된 대로 채점scoring 추론(Kane)에 대한 응답 프로세스 증거(Messick)를 제공할 수 있다. 우리는 [위임 의사결정 위원회]의 맥락에서 케인의 프레임워크를 사용하여 교육 종료, 종합 위임 결정을 할 때 각 추론을 검토하고 각 추론을 뒷받침하기 위해 현재 존재하는 증거 유형(질적 및 양적)을 제공하는 동시에 향후 유효한 증거와 함께 모색해야 할 증거도 제시할 것이다.격세지 작업 우리는 Kane의 프레임워크에서 4가지 추론을 검토하여 포괄적 위임 결정에 대한 타당성 논거를 구성하면서 Messick의 프레임워크에 대한 링크를 입증할 것이다(Wijnen-Meijer et al. 2013).
For example, using robust rater training would provideresponse processevidence (Messick) for thescoringinference (Kane), as illustrated inFigure 1andTable 2. We will examine each inference in making end-of-training, summative entrustment decisions using Kane’s framework in the context of an entrustment decision committee and provide types of evidence (both qualitative and quantitative) that currently exist to support each inference, while also suggesting evidence that should be sought with future validation work. We will review the four inferences in Kane’s framework to organize a validity argument for summative entrustment decisions while demonstrating the link to Messick’s framework (Wijnen-Meijer et al.2013).
그림 1 Messick의 1989년 프레임워크를 사용하여 조직된 타당도 증거의 유형은 Kane의 1992년 프레임워크를 사용하여 조직된 증거 체인의 추론을 뒷받침할 수 있다. (Cook과 동료들로부터 허가를 받아 수정 [2015]) Figure 1.Types of validity evidence organized using Messick’s1989framework can support inferences in the chain of evidence organized using Kane’s1992framework. (Modified from Cook and colleagues [2015] with permission.)
표 2 타당성 증거 및 추론 출처 – 해결해야 할 질문. Table 2. Sources of validity evidence and inferences – questions to be addressed.
스코어링 Scoring
모든 위임 결정은 [관찰의 순간]을 [양적 또는 질적 기록]으로 변환하면서 시작한다. 평가 프로그램에서 이러한 관측치는 필기 시험, 시뮬레이션 성과 관측 또는 작업장 기반 관측 등 여러 가지 방법으로 발생할 수 있습니다. 점수 추론scoring inference은 [관찰이 평정rating으로 전환되는 방법]을 뒷받침하는 증거를 수집하는 것을 포함한다. 여기에는 다음에 대한 rationale의 제공이 포함된다.
평가 항목의 구성,
평가 관리,
시뮬레이션 실행,
그룹 프로세스 및
평가자 훈련
Every entrustment decision begins with a moment of observation converted into a quantitative and/or qualitative record of that observation. In a program of assessment, these observations can occur in multiple ways, including written tests, observations of simulation performance, or workplace-based observations. The scoring inference involves gathering evidence to support how these observations are converted into a rating, such as providing rationales for
assessment items’ construction,
assessment administration,
simulation execution,
group processes, and
rater training.
[총괄적 위임 결정]의 경우, 의사결정자(예: 위임 의사결정 위원)가 (위임 등급을 결정하기 위해 일선 평가자의 실제 관찰을 포함하여) 많은 프로그램 평가 데이터 포인트를 검토하고 처리할 때 '관찰'의 순간이 발생한다. 이 맥락에서 [점수 추론]을 뒷받침하는 증거는 여러 형태로 존재할 수 있다. [위임]을 종합적 의사결정을 위한 프레임워크로 사용하는 것은, 본질적으로 [채점 추론]에 대한 증거를 제공한다. 왜냐하면 위임은 종종 [위임 의사결정 위원회의 많은 부분을 차지하는 임상의사 교육자의 인지 과정]과 [위임되는 과제] 사이의 construct alignment을 제공하기 때문이다 (Crossley 등 2011; Rekman 등). 이것은 [채점 추론(케인의 프레임워크)]을 뒷받침하기 위해 사용되는 [응답 프로세스 증거(메식 프레임워크)]의 예이다.
For summative entrustment decisions, the moment of ‘observation’ occurs when decision-makers (e.g. entrustment decision committee members) review and process the many programmatic assessment data points, including actual observations of the trainee from front-line raters, to determine an entrustment rating. Evidence to support the scoring inference in this context could exist in multiple forms. Using entrustment as a framework for summative decisions innately offers evidence for the scoring inference, as entrustment provides construct alignment between the cognitive processes of clinician educators, who often make up a large proportion of entrustment decision committees, and the tasks being entrusted (Crossley et al.2011; Rekman et al.2016). This is an example ofresponse process(Messick’s framework) evidence being used to support thescoringinference (Kane’s framework).
[점수 추론]을 뒷받침하는 다른 증거가 생성될 수 있고, 생성되어야 한다. 예를 들어, 그룹 의사결정을 최적화하기 위해 [위임 의사결정 위원회 구성원들이 어떻게 선택되었는지]에 대한 근거를 명확히 하는 것이 중요하다. 그룹이 의견의 [다양성을 포함]하도록 하는 것은
과제 충돌을 촉진하고(과제의 상이한 견해로 인한 인지적 차이),
그룹 사고를 완화하고(진실을 댓가로 그룹 만장일치를 보존하는 결정)
더 나은 결정을 이끌어 낼 수 있다.
Other evidence to support the scoring inference can and should be generated. For example, it would be important to articulate the rationale for how entrustment decision committee members were chosen to optimize group decisions. Ensuring that the group contains diversity of opinion can
foster task-conflict (cognitive differences owing to divergent views of a task) (Dai 2013),
mitigate group-think (making decisions that preserve group unanimity at the potential cost of truth) (Janis 1971), and
모든 위임 의사결정 위원이 평가 데이터를 유사하게 저울질할 수는 없다. 즉, 설령 평가 형식에 반영되지 않거나, 말로 표현하기 쉽지 않을지라도, [주관적인 인상]이 곧바로 타당성 증거가 없음을 의미하는 것이 아니다 (Oudkerk et al. 2018; 10 Kate and Regher 2019; van Enk and 10 Kate 2020). 포트폴리오 데이터와 결합된 [간주관적intersubjective 판단]은 [평가 데이터의 의미에 대한 공동의 이해를 촉진]하는 데 중요하며,[위원회 위원의 훈련] 및 [일선 임상 교사의 훈련]에 의해 더 튼튼해질support 수 있다.의견이 다르더라도 점수 추론을 뒷받침하기 위해서는 [공유 멘탈 모델이 있다는 증거]가 중요하다. Not all entrustment decision committee members may weigh assessment data similarly, and subjective impressions are not necessarily void of validity evidence, even if these are not reflected in rating forms or easy to express in words (Oudkerk et al.2018; ten Cate and Regher2019; van Enk and ten Cate2020). Intersubjective judgment combined with portfolio data, supported by training of committee members, as well as front-line clinical teachers, is important to foster a shared understanding of what the assessment data mean (Kinnear et al. 2018). Evidence of having a shared mental model is important to support the scoring inference, even if the opinions differ.
[인지적 편향]은 종합적 결정에 영향을 미칠 수 있으며(Dickey 등. 2017) 이를 완화하기 위한 훈련 또는 전략을 보유하면 점수 증거를 뒷받침할 수 있다. [총괄적 집단 결정]은 점수 추론에 영향을 미칠 수 있는 다음과 같은 것에 의해 영향을 받을 수 있다(키니어 외 2020).
사회적 위계 구조(로렌즈 외 2011),
시간 압박(차힌 외 2017),
정보 폭포(개인이 다른 사람의 관찰과 의견에 기초하여 결정을 내릴 때)
Cognitive biases could affect summative decisions (Dickey et al.2017) and having training or strategies to mitigate these would support the scoring evidence. Summative group decisions can be influenced by
information cascades (when an individual makes decisions on the basis of the observations and opinions of others) (Kinnear et al. 2020) that could affect the scoring inference.
단순한 임시 토론이 아니라, 강력한 정보 공유를 위한 [구조화된 그룹 프로세스]를 갖는 것은 이러한 영향력이 완화되고 있다는 중요한 증거가 될 것이다.
Having structured group processes for robust information sharing rather than simply ad hoc discussions would be important evidence that these are being mitigated.
일반화 Generalization
[일반화 추론]은 주어진 점수가 [관찰의 가능한 모든 버전]을 얼마나 잘 나타내는지, 그리고 아마도 [총괄적 위임 결정]에 있어서 가장 중요한 것은 [관찰된 상황의 전체 '우주'overall universe에서 예상되는 성능]을 어떻게 나타내는지를 나타낸다(10 Kate et al. 2020). 일반화를 뒷받침하는 증거는 다음에 대한 데이터를 포함한다.
표본 추출 전략,
표본 크기,
변별력
신뢰성
The generalization inference refers to how well a given score represents all possible versions of an observation, and perhaps most importantly for summative entrustment decisions, how it represents expected performance in an overall ‘universe’ of observed situations (ten Cate et al.2020). Evidence to support generalization includes data on
sampling strategy,
sample size,
discriminatory power, and
reliability.
포괄적 위임 결정의 경우, 다음 질문에 답하기 위한 증거를 찾아야 한다.
관찰된 샘플이 위임 결정을 하기에 충분한가?
EPA에 중요한 다양한 맥락에서 학습자가 관찰되었는가?
그 증거가 더 높은 수준의 위임을 받을 자격이 있는 사람들과 그렇지 않은 사람들을 구별하는가?
다른 위임 결정 위원회가 동일한 정보에 근거하여 유사한 결정을 내릴 수 있는가?
In the case of summative entrustment decisions, evidence should be sought to answer the following questions:
Is the observed sample sufficient for an entrustment decision?
Have learners been observed in various contexts that matter for the EPA?
Does the evidence differentiate between those who deserve a higher level of entrustment and those who do not?
Would a different entrustment decision committee come to similar decisions on the basis of the same information?
[내용 설계blueprinting] 및 [샘플링 전략]의 증거를 사전에 정의해야 하며, 이는 [어떤 프로그램 평가 데이터가 위임 의사결정 위원회에 제공되는지]에 대한 정보를 준다. 예상 데이터의 예로는 다음이 있다.
직접 관찰(미니 임상 평가 연습[mini-CEX], 현장 노트 등과 같은 다양한 도구를 사용하여 수집한 데이터),
종단적 실무 관찰(예: 멀티소스 피드백),
사례 기반 논의,
시뮬레이션 시험
훈련 중 평가
Evidence of content blueprinting and sampling strategies must be defined a priori to inform which programmatic assessment data are provided to the entrustment decision committee. Examples of expected data may include
direct observations (data gathered using various tools such as mini clinical evaluation exercise [mini-CEX], field notes, etc.),
longitudinal practice observations (e.g. multisource feedback),
case-based discussions,
simulation tests, and
in-training evaluations (Colbert et al. 2015; Duijn et al. 2019).
여러 맥락에서 추가 연구가 필요하지만 종합 위임-감독 수준 등급이 학습자와 활동을 차별한다는 증거가 있다(Schumacher 등 2020a).
There is evidence that summative entrustment-supervision level ratings discriminate among learners and activities (Schumacher et al.2020a), although further studies in multiple contexts are necessary.
[집단 결정의 신뢰성]에 대한 증거 또한 중요하다. 비록 협소한 심리측정적 공식만으로는 더 이상 CBME에서 타당도의 유일한 출처가 된다고 여겨지지 않지만, [종합적 결정]이 재현 가능하며, (다른 구인이 아닌) [학습자의 성과를 반영한다는 증거]를 제공하는 것이 중요하다. 복수의 잠재적 점수 오류 원인이 있는 복잡한 시스템의 신뢰성은 [일반화가능도 연구(G-study)]를 사용하여 가장 잘 조사될 수 있다(De Champlain et al. 2016). 이 접근법은 위임결정위원회의 위원 자격이나 연도별 시기 등 다른 변수보다는 학습자에 의한 위임 변동의 양을 고려합니다. 이러한 연구는 WBA 및 임시적 위임 평정에서 수행되었지만, 종합 위임 결정의 사이코메트리 특성을 조사하기 위한 연구는 수행되지 않았다. 이러한 유형의 연구는 [일반화 추론(케인의 프레임워크)]을 뒷받침하기 위해 사용되는 [내부 구조(메식 프레임워크)] 증거를 제공할 것이다.
Evidence for the reliability of group decisions is also important. Although a narrow formulation of psychometrics is no longer seen as providing the sole source for validity in CBME (Holmboe et al.2017; Uijtdehaage and Schuwirth2018), it is important to provide evidence that summative decisions are reproducible and reflect the performance of the learner rather than other constructs. Reliability in complex systems with multiple potential sources of scoring error may be best investigated using a generalizability study (G-study) (De Champlain et al.2016). This approach considers the amount of entrustment variance that is due to the learner rather than other variables, such as the membership of the entrustment decision committee or the time of year. Such studies have been conducted in the setting of work-based assessments (Bok et al.2018) and ad hoc entrustment ratings (Kelleher et al.2020), but to our knowledge no studies have been performed to investigate the psychometric properties of summative entrustment decisions. This type of study would provideinternal structure(Messick’s framework) evidence being used to support thegeneralizationinference (Kane’s framework).
외삽 Extrapolation
Kane의 외삽 추론은 [테스트 우주에서 평가한 수행능력]이 [실제 환경에서 수행능력의 핵심 측면]을 반영한다는 가정을 의미한다. EPA의 경우, [종합 위임 결정]과 CBME의 바람직한 결과인 [환자 치료 품질(fidelity)]의 표현 사이의 관계를 설명한다. 외삽을 위한 추론은 케인의 프레임워크에서 [포괄적 위임 결정]의 가장 중요한 연결고리라고 주장될 수 있다. 왜냐하면 이 추론에서는 '특정 EPA를 수행에 대한 [점진적 위임]이 진정으로 [고품질의 환자 관리]를 반영하는가?'라는 질문을 던지고 있기 때문이다.
Kane’s extrapolation inference refers to the assumption that performance on an assessment in the test universe reflects key aspects of performance in the real-world setting. For EPAs, it speaks to the relationship between summative entrustment decisions and their representations of patient care quality (fidelity), the desired outcome of CBME. The inference made for extrapolation can be argued to be the most important link for summative entrustment decisions in Kane’s framework, as it begs the question ‘Does progressive entrustment to perform a given EPA truly reflect high-quality patient care?’
실제로, (전달delivered된 의료의 질을 평가하기 위해서 쓰이는 과정 척도와 성과 척도를 비롯한) clinical care measure를 교육에 통합해야 한다는 요구가 증가하고 있다. [프로그램 수준의 데이터]가 [임상 성과 척도]로 외삽될 수 있고, [임시적 위임 등급]이 [임상 치료 척도clinical care measure]와 관련이 있다는 증거가 존재하지만, [포괄적 위임 결정]과 그에 상응하는 임상 치료 조치에 대한 데이터는 부족하다. 이러한 데이터는 [외삽 추론(케인의 프레임워크)]을 뒷받침하는 [다른 변수와의 관계 증거(메식 프레임워크)]를 제공할 것이다.
Indeed, the calls for integration of clinical care measures into education are growing, including process and outcome measures that are used to assess quality of care delivered (Weinstein2017; Chahine et al.2018; Triola et al.2018; Warm and Mathis2019). While evidence does exist that data at a program level can extrapolate to clinical performance measures (Asch et al.2009; Chen et al.2014; Bansal et al.2016) and that ad hoc entrustment ratings are associated with clinical care measures (Schumacher et al.2020b), there is a lack of data on summative entrustment decisions and corresponding clinical care measures. These data would providerelationship to other variables(Messick’s framework) evidence to support theextrapolationinference (Kane’s framework).
[포괄적 위임 결정]은 현재 성과를 고려해야 할 뿐만 아니라, 가능한 모든 조건을 고려한 EPA 범위를 추정해야 한다. 이는 [향후 성과에 대한 신뢰]까지를 의미한다. 전공의가 감독 없이 EPA를 위임받는 경우, 이 위임은 결정 순간을 넘어 졸업 이상의 범위까지 확대된다. 외삽 추론을 뒷받침하는 증거는 의학교육 연구에서 우선순위가 되어야 한다.
Summative entrustment decisions should not only regard current performance but also extrapolate to the universe of instances of the EPA under all possible conditions. That would imply trust in any future performance. When a resident is entrusted with an EPA without supervision, this entrustment extends beyond the moment of the decision, but also well beyond graduation into practice. Evidence to support the extrapolation inference should be a priority in medical education research.
함의 Implication
케인의 최종 추론인 [함의implication]는 [주어진 점수]를 [(미리 명시된) 해석/사용 주장interpretation/use argument]와 통합하는 것이다. 여기에 해당하는 증거로는 다음이 있다.
해석에 대한 기준이 어떻게 결정되었는지,
해석에 정보를 제공하는 이론이나 프레임워크가 어떻게 뒷받침되는지,
아마도 가장 중요한 것은, 결과적인 사용과 결정에 따르는 결과consequences이다.
Kane’s final inference, implications, involves integrating the given score with an interpretation/use argument that should have been prespecified. Evidence can be provided to support theories or frameworks that inform interpretations, how standards for interpretation were determined, and perhaps most importantly, the consequences of resulting uses and decisions.
[위임 의사결정 위원회]는 서로 다른 위임 수준에 대한 [임계값thresholds을 설정하는 방법]과 이러한 [임계값을 얼마나 잘 준수하는지]에 대한 증거를 제공해야 한다. 개인에 대한 결정은 다른 학습자에게 반드시 적용되지 않는 고유한 정보를 의미할 수 있지만, 가능하면위원회는 훈련을 통해 [공유된 판단shared judgement]과 [기준 프레임frames of reference]에 투자해야 한다(Kogan et al. 2015).
Entrustment decision committees should provide evidence for how they set thresholds for different entrustment levels (Calaman et al.2016) and how well they adhere to those thresholds. While decisions about individuals may imply unique information that does not necessarily apply to other learners, committees should invest in shared judgments and frames of reference, if possible through training (Kogan et al.2015).
학습자, 프로그램 및 환자에게 [의도한 결과와 의도하지 않은 결과] 모두에 대한 증거도 찾아야 합니다. 이러한 증거에는 [포괄적 위임 결정]이 다음에 미치는 영향을 포함할 수 있다.
[학습, 전문적 정체성 형성, 웰빙에 어떻게 영향을 미치는지], 그리고
무엇보다도 [위임 결정의 결과로 제공되는 관리의 품질과 안전에 어떤 영향을 미치는지]
Evidence for consequences, both intended and unintended, to learners, programs, and patients should also be sought (Cook and Lineberry2016). Such evidence might include
how summative entrustment decisions affect learning, professional identity formation, and well-being, and
foremost how they affect the quality and safety of care provided as a result of the entrustment decision.
이 경우 [결과 타당도 증거(Messick)]는 [함의 추론(Kane)]을 알려준다. In this case,consequences validity evidence(Messick) informs theimplicationsinference (Kane).
예를 들어, Schumacher와 동료(2020b)는 3년 동안 23개의 소아과 레지던트 프로그램에서 미국 소아과 EPA 위원회 사용의 결과를 연구했고 전공의가 서로 다른 수준의 EPA를 수행하도록 위임받은 시간의 측면에서 상당한 이질성이 존재한다는 것을 발견했다. 감독되지 않은 관행을 위해 위임된 전공의의 비율은 EPA에 따라 크게 달랐으며, 졸업 시 준비된 것으로 간주되는 전공의의 53%와 98% 사이의 범위였다. 본 연구는 감독되지 않은 실습에 대한 준비 상태를 결정하기 위해 포괄적 위임 결정을 사용하는 경우, 대부분의 학습자가 훈련을 확장하거나 준비 상태를 달성하기 위해 훈련 경험을 조정해야 할 수 있으며, 모든 졸업생이 모든 EPA에 준비되지 않았다는 것을 프로그램이 수용해야 할 수 있음을 시사한다. 학습자 및 프로그램이 연장된 교육을 수용할 수 있습니까?
For example, Schumacher and colleagues (2020b) studied the consequences of using the American Board of Pediatrics EPAs at 23 pediatric residency programs over three years and found that significant heterogeneity existed in terms of the time at which residents were entrusted to perform EPAs at different levels of supervision. The percentage of residents entrusted for unsupervised practice differed widely by EPA, ranging between 53% and 98% of residents being deemed ready at graduation. This study suggests that if summative entrustment decisions are used to determine readiness for unsupervised practice, then a large proportion of learners may need to extend their training or have their training experiences adjusted to achieve readiness, or programs may need to accept that not all graduates will be ready on all EPAs. Is extended training acceptable to learners and programs?
현재 우리는 전공의 수련 프로그램이 [독립적으로 환자를 돌볼 준비가 되어 있지 않은 학습자]를 졸업시킨다는 것을 알고 있다(Jonker et al. 2020). 그러나 반대로, 우리는 모든 졸업생이 [독립 진료에 대한 동일한 준비 기준]을 충족하도록 하기 위해서, [학습자마다 교육 기간을 다르게 할 필요가 있다는 것]을 받아들일 준비가 되어 있는가? 이러한 질문에 답하는 것은 시사 추론에 귀중한 증거를 제공할 것이다.
Presently we know that programs graduate learners they believe are not ready to care for patients without supervision (Jonker et al.2020). Conversely, however, are we as a medical education community ready to accept that programs may need interlearner variation in training duration to ensure that all graduates meet the same standards of readiness for unsupervised practice? Answering these questions would provide valuable evidence for the implications inference.
프로그램과 학습자에게 미치는 결과에 관한 증거 또한 중요하다. 학습자 간 차이inter-learner valiability을 감안할 때, 개별화된 훈련 경로와 훈련 기간이 변동가능한 프로그램을 어떻게 만들 것인가? 얼마나 실현 가능할까요? 시간-가변 시스템을 운영하기 위해 강력하고 방어 가능한 평가 프로그램을 개발하는 것은 고려해야 할 과제와 추가 연구가 필요하다(Gruppen et al. 2018). 이러한 잠재적 결과에 적응하려면 라이센스 요건 및 규정을 수정해야 합니다. 적응함에 따라 개별화된 훈련 경로에 장벽을 제시하는 현재 규정을 탐색하는 방법도 시사 추론의 일부이다.
Evidence regarding consequences to programs and learners is also important. Given the interlearner variability, how would programs develop individualized training pathways and variability in training duration? How feasible would this be? Developing programs of assessment that are robust and defensible to operationalize a time-variable system presents challenges that need to be considered and further studied (Gruppen et al.2018). Licensure requirements and regulations will need to be modified to adapt to these potential consequences. As they adapt, ways to navigate the current regulations that present a barrier to individualized training pathways are also part of the implications inference.
검증의 다음 단계: 우리의 노력 집중하기 Next steps in validation: Focusing our efforts
CBME에 대한 비판의 대부분은 [구현에 대한 조정된coordinated 접근법의 결여], [심리측정과 및 물류 문제], [타당도 근거의 결여] 등을 지적한다. 이러한 주장을 포괄적 위임 의사 결정으로 확대하려면 감독되지 않은 실습에 대한 훈련생의 준비에 대한 건전한 결정이 이루어지고 있는지 규제당국과 대중을 보장하기 위해 타당성 증거를 모으는 것이 필수적이다. (Downing 2003) 평가의 필수불가결한 요소임에도 불구하고, 타당성은 종종 구현 노력을 위해 강조되지 않거나 대체된다(Wijnen-Meijer et al. 2013).
Much of the criticism about CBME points toward a lack of a coordinated approach to implementation (Dauphinee et al.2019), psychometric and logistical challenges (Norman et al.2014), and lack of validity evidence (Lurie et al.2011). Extending these arguments to summative entrustment decision-making, it is imperative that validity evidence be assembled to ensure regulators and the public that sound decisions are being made about trainees’ readiness for unsupervised practice. Despite being the sine qua non of assessment (Downing2003), validity is often de-emphasized or displaced in favor of implementation efforts (Wijnen-Meijer et al.2013).
[타당화validation]은 결정의 영향을 받는 이해 당사자들이 [결과적인 해석과 사용에 대한 개연성있는plausible 주장이 이루어진 것으로 만족할 때까지 계속되는 증거 수집 과정]이다. 끝이 없어 보이지 않는 이 과정은 시간, 에너지, 사람, 돈과 같은 귀중한 자원을 쉽게 소비할 수 있고, 우리는 가치를 극대화하기 위해 우리의 노력을 집중해야 한다. 사실, 이것은 케인의 증거 체인 프레임워크를 사용하는 강점이다: 가장 약한 고리가 가장 많은 관심을 받을 수 있고 받아야 한다. Validation is an ongoing process of evidence collection that continues until stakeholders affected by decisions are satisfied that a plausible argument for the resulting interpretations and uses has been made. This seemingly unending process could easily consume precious resources such as time, energy, people, and money, and we should focus our efforts to maximize value. Indeed, this is a strength of using the evidentiary chain framework of Kane: the weakest links can and should receive the most attention.
더 앞으로 나아가기 위해서, 포괄적 위임 결정의 경우 최종 두 가지 추론, 즉 [외삽과 함의]에 가장 주의를 기울일 가치가 있다고 믿는다. CBME는 일반인에 대한 보증assurance에 뿌리를 두고 있고, EPA는 환자 치료에 뿌리를 두고 있기 때문에, 우리는 [총괄적 위임 결정]이 실제 임상 치료에 영향을 미친다는 증거가 없이는 강력한 타당도 논쟁을 할 수 없다. [개별 제공자에 대한 치료의 귀속 부정확성이 있고, 합의된 임상적 척도가 부족하고, 데이터 투명성과 기밀성 문제]가 있기에, 이런 것을 감안할 때 어려운 일이겠지만, 우리는 이 과제에 착수해야 한다. 마찬가지로, 우리는 포괄적 위임 결정을 사용하는 학습자, 프로그램 및 환자에 대한 결과를 연구해야 한다. CBME의 초석은 졸업생이 환자의 요구를 충족할 수 있도록 준비하기 위해 원하는 교육 결과를 식별하고 이러한 결과를 충족시키기 위한 커리큘럼과 평가 프로그램을 설계하는 것이다. 만약 우리가 위임의 결과를 연구하지 않는다면, 우리는 우리가 CBME를 구현하고 있다는 바로 그 개념을 약화시킬 것이다.
Moving forward, we believe that for summative entrustment decisions the final two inferences, extrapolation and implications, deserve the most attention. As CBME has its roots in assurances to the public, and EPAs are rooted in patient care, we cannot have a strong validity argument without evidence that summative entrustment decisions have implications for actual clinical care. This is challenging given the imprecision of attribution of care to an individual provider (Schumacher et al.2020c), the lack of agreed-upon clinical measures, and issues with data transparency and confidentiality (Smirnova et al.2019), but we must rise to the task. Similarly, we must study the consequences to learners, programs, and patients of using summative entrustment decisions. The cornerstone of CBME is identifying desired training outcomes to prepare graduates to meet the needs of patients and designing curricula and programs of assessment to meet those outcomes. If we do not study the consequences of entrustment, then we undercut the very notion that we are implementing CBME.
Med Teach. 2021 Jul;43(7):780-787.
doi: 10.1080/0142159X.2021.1925642.Epub 2021 May 21.
On the validity of summative entrustment decisions
DOI:10.1080/0142159X.2021.1925642AbstractKeywords:Assessment: general; learning outcomes: decision-making; teaching and learning: work-based.
Health care revolves around trust. Patients are often in a position that gives them no other choice than to trust the people taking care of them. Educational programs thus have the responsibility to develop physicians who can be trusted to deliver safe and effective care, ultimately making a final decision to entrust trainees to graduate to unsupervised practice. Such entrustment decisions deserve to be scrutinized for their validity. This end-of-training entrustment decision is arguably the most important one, although earlier entrustment decisions, for smaller units of professional practice, should also be scrutinized for their validity. Validity of entrustment decisions implies a defensible argument that can be analyzed in components that together support the decision. According to Kane, building a validity argument is a process designed to support inferences of scoring, generalization across observations, extrapolation to new instances, and implications of the decision. A lack of validity can be caused by inadequate evidence in terms of, according to Messick, content, response process, internal structure (coherence) and relationship to other variables, and in misinterpreted consequences. These two leading frameworks (Kane and Messick) in educational and psychological testing can be well applied to summative entrustment decision-making. The authors elaborate the types of questions that need to be answered to arrive at defensible, well-argued summative decisions regarding performance to provide a grounding for high-quality safe patient care.
시험의 타당도에서 구인 타당도로, 그리고 다시 회귀? (Med Educ, 2012) From test validity to construct validity … and back? Jerry A. Colliver,1 Melinda J. Conlee1 & Steven J. Verhulst2
도입 Introduction
타당성의 개념은 지난 세기 동안 [시험 타당성의 기본 개념]이라고 불릴 수 있는 것에 초점을 맞춘 접근 방식에서, (오늘날 타당성의 중심 또는 통일적인 아이디어로 부상한 현재 관점인) [구인 타당도]로 발전해오는 주요한 변화를 겪었다.1-4 사고의 초점은 [시험의 타당성]에서 [시험 점수 해석의 타당성]으로 이동했다. 그러나, 이러한 생각의 변화는 타당성의 개념과 타당성 주장의 신뢰성을 약화시킨 것으로 보인다.
The concept of validity has undergone major changes throughout the last century, evolving from an approach that focused on what might be called the fundamental concept of test validity to the current view, construct validity, which has emerged as the central or unifying idea of validity today.1-4The focus of thinking has shifted from the validity of the test to the validity of test score interpretations. However, this shift in thinking seems to have weakened the concept of validity and the credibility of validity claims.
시험 타당성의 기본 개념 The fundamental concept of test validity
타당도의 기본 개념은 [시험 또는 측정 도구가 측정하고자 하는 것을 측정하는지 여부]를 나타냅니다.
1927년에 켈리는 이렇게 말했다. : '…시험은 측정할 대상을 측정하면 타당하다.'
1954년에 아나스타시는 이렇게 말했다: '…즉, 테스트가 실제로 측정하고자 하는 것을 측정하는 정도입니다...’
시험이 실제로 측정할 목적을 측정하는지 여부를 결정하기 위해, 다양한 방법 또는 접근법이 개발되고 채택되었다. 이러한 것들은 처음에는 '타당도 유형'이라고 불렸다.
The fundamental concept of validity refers to whether a test, or a measurement instrument, measures what it purports to measure.
In 1927, Kelly said: ‘…a test is valid if it measures what it purports to measure.’10
In 1954, Anastasi wrote: ‘…validity, i.e. the degree to which the test actually measures what it purports to measure...’11
To determine whether a test in fact measures what it purports to measure, various methods or approaches have been developed and employed; these were initially referred to as ‘validity types’.
20세기 전반에는 타당성을 결정하는 주요 접근법이 [준거 타당성]과 [내용 타당성]이었다. 이는 곧 테스트 자체의 속성을 나타냅니다. 즉, 테스트가 측정할 기준(현재 또는 미래)의 정확한 추정치를 제공하는지 여부와 테스트가 측정해야 할 행동의 세계를 적절하게 나타내는지를 의미한다. 20세기 중반까지 준거 타당성(동시성과 예측성)과 내용 타당성이 곧 타당성 유형the validity type이었는데, 이는 시험 타당성을 확립하기 위해 주로 사용된 방법이다.
In the first half of the 20th century, the primary approaches to determining validity were criterion validity and content validity.1,12These referred to properties of thetestitself: that is, whether thetestprovides an accurate estimate of the criterion it purports to measure (current or future) and whether thetestadequately represents the universe of behaviours it is supposed to measure. Up to the middle of the 20th century, criterion validity (concurrent and predictive) and content validity werethevalidity types – the primary methods used to establish test validity.
명명학적 네트워크를 기반으로 타당성 구성 Construct validity based on nomological networks
그 후 1954년 미국심리학회는 심리 테스트 및 진단 기법에 대한 기술 권고안에서 기준이나 행동의 우주 측면에서 명시적으로 정의할 수 없는 이론적 속성이나 자질을 검증하기 위한 [구인 타당성construct validity] 개념을 도입했다. 크론바흐와 뮐은 기술 권고 위원회의 위원(위원장직을 맡았음)이었고, 1955년에 그들은 [구인 타당성과 관련된 증거를 얻기 위한 검증 절차]를 식별한 그들의 고전 논문 '심리 테스트의 구인 타당성'을 발표했다. Then, in 1954, the American Psychological Association, in its Technical Recommendations for Psychological Tests and Diagnostic Techniques,13 introduced the idea of construct validity to validate theoretical attributes or qualities that cannot be explicitly defined in terms of a criterion or a universe of behaviours. Cronbach and Meehl were members of the Technical Recommendations Committee (Cronbach was chair) and, in 1955, they published their classic paper, ‘Construct validity in psychological tests’,4 which identified validation procedures to obtain evidence relevant to construct validity.
크론바흐와 밀이 제안한 증거는 준거 타당성과 내용 타당성의 다양한 측면을 포함했는데, 따라서 [구인 타당성]이 새로운 '유형type', 즉 세 번째 유형의 타당도가 아니었다. 그보다, 구인타당도를 [통합적인 타당성 개념]으로 보았고, 이는 타당성에 대한 모든 사고를 포괄하는 개념적 우산으로서, 타당도에 대한 통일된 개념을 대표한다. 이와 같은 단일화unification를 가능하게 한 크론바흐와 뮐의 사고 밑바탕에 깔린 혁명적 아이디어는 과학적 이론 시험이 시험 타당성의 일부이자 핵심으로 간주되고, [시험 타당성]은 이론 검증, 또는 '가설 시험으로서의 타당화validation as hypothesis testing'에 의해 결정된다는 것이었다. This evidence included various aspects of criterion validity and content validity, such that construct validity came to be seen as the unifying concept of validity – not a new ‘type’ of validity, a third type to be added to criterion validity and content validity – but a conceptual umbrella that covered all thinking about validity, represented a unifying conceptualisation of validity.2, 12 The revolutionary idea underlying Cronbach and Meehl’s thinking – which made the unification possible – was that scientific theory testing was seen as part and parcel of test validity, that test validity was determined by theory testing, or ‘validation as hypothesis testing’ as one author described it.14
구인 타당성 이론에서, 구인(예: 지능, 임상적 추론, 공감, 탈진, 전문성, 시스템 기반 실습 등)은 [다른 구인들의 네트워크에서의 위치에 의해 정의되는 가정적이거나 이론적인 개념]이다. 네트워크 구조들 사이의 관계는 구조를 연결하고 네트워크를 형성하는 과학적 법칙에 의해 정의된다. Cronbach와 Mehl은 이것을 '법칙적 관계망nomological network'라고 불렀는데, 이것은 기본적으로 [여러 구인을 서로 관련시키는 법칙의 네트워크]를 의미하며, 이것이 곧 과학 이론scientific theory이다.4
In construct validity theory, the construct (e.g. intelligence, clinical reasoning, empathy, burnout, professionalism, systems-based practice, etc.) is a postulated or theoretical concept that is defined by its position in a network of other constructs. The relationships among the constructs in the network are defined by scientific laws that link the constructs and form the network. Cronbach and Meehl referred to this as a ‘nomological network’, which is basically a network of laws that relates constructs: scientific theory.4
이론을 구성하는 데 관련된 법칙(laws)들로 짜여진 설명체계를 말한다. 논리실증주의적 관점에서 이론적 개념(construct)을 타당화하는 방략으로 제시된 개념으로 여기서의 법칙은 어떤 이론적 개념이 발생하는 논리를 말한다.
구인 타당성은 [(타당도를 확인하고자 하는) 특정 구인을 포함하는 다른 구인들과 법칙들의 법칙적 관계망을 뒷받침하는 모든 증거]에 의해 확립된다. 구인 타당도 개념을 도입하면서, 타당성 개념에 대한 이해는 [시험이 측정할 목적을 측정하는지]의 문제에서, [법칙적 네트워크에 의해 명시된 (측정대상) 구인과 다른 구인들 사이의 관계]로 이동하였다. Construct validity, then, is established by any evidence that supports the nomological network of constructs and laws that contains the construct. With the introduction of construct validity, understandings of the concept of validity shifted from the issue of whether a test measures what it purports to measure to the relationship(s) between the construct and other constructs as specified by the nomological network.
[구인 타당성 이론]은 그 당시 과학 심리학을 지배했던 과학 철학, 즉 논리 실증주의와 일치했기 때문에 그 당시 (1950년대 중반에) 호소력이 있었다.2, 15 실증주의자들은 과학 이론에서 '현실'에 대한 어떠한 언급도 피하고 싶었고, 이론 자체와는 다른 어떤 것을 언급하는 것으로 보이는 이론적 용어(구인)의 사용을 비판했다. 그들은 이러한 실천을 [메타물리학적meta-physical]인 것으로 보았으며, 과학에는 설 자리가 없다고 생각했다. Construct validity theory was appealing at the time (in the mid-1950s) because it was consistent with the philosophy of science that dominated scientific psychology, namely, logical positivism.2, 15 Positivists wanted to avoid any reference to ‘reality’ in scientific theory and criticised the use of theoretical terms (constructs) that claimed to refer to something apart from the theory itself; they saw this practice as meta-physical and thought it had no place in science.
실증주의자들은 과학 이론의 구조에 대한 정교한 견해를 발전시켰다. 이 견해에서, [이론적 용어]는 [다른 이론적 용어들]과 연관성의 관점에서 정의되었고, 과학 법칙에 의해 관찰 가능한 것이었으며, 현실reality에 대한 언급은 하지 않아야 했으며, 어떠한 메타-물리학도 포함하지 않는 것이었다. 간단히 말해서, [구인]은 현실에 대한 언급이 아닌, [다른 구인과의 관계]에 의해 정의되었다.
Positivists developed an elaborate view of the structure of scientific theory in which theoretical terms were defined in terms of their ties with other theoretical terms and observables by scientific laws, without any reference to reality, involving no meta-physics. In brief, constructs were defined by relationships with other constructs, not by reference to reality.
Cronbach와 Mehl은 [실증주의적 프레임워크에 타당화validation을 통합]했으며, [타당도는 이론의 검증에 의해 결정된다]고 제안했다. 그러므로, 구인 타당성 이론은 측정된 심리적 구인에 대한 현실주의적realist 주장을 피할 수 있었으며, 그렇지만 [네트워크에 대한 증거]를 통해 구인의 타당성에 대한 명백하고 엄격한 테스트를 제공할 수 있었다. 그렇다면 타당성은 전체 네트워크에 의해 서포트 된다: 기발한 아이디어가 아닌가!
Cronbach and Meehl incorporated validation into the positivist framework and proposed that validity be determined by theory testing. Thus, construct validity theory could avoid realist claims about measured psychological constructs, and yet provide an explicit rigorous test of the validity of a construct via evidence for the network. Validity, then, is supported by the entire network: an ingenious idea!
그러나, 대부분의 경우 의학 교육(또는 심리학 또는 교육)에는 [법칙적 네트워크]가 없었고, 구인과 관찰가능성을 명시적으로 연결하는 [과학적 법칙 체계]도 없으며, 검증해야 할 [구인에 대한 이론]도 없고, 심지어 [타당성을 확립하는 데 어떤 종류의 이론이 필요한지]와 비슷한 무언가도 없었기에 문제가 되었다. 원래 구인 타당도 이론을 제시하면서 크론바흐와 뮐은 다음과 같이 강조했다: '[시험이 구인을 측정한다]는 주장을 입증하려면, 개념을 둘러싼 법칙적 관계망이 존재해야 한다.'4 그러나 그들은 '현재의 심리학 법칙의 모호성'도 인정했다. 그러면서 '심리학은 조잡하고 부분적으로만 명시적인 공식crude, half-explicit formulation을 통해 작동한다.'4 그의 기대는 결국, 더 많은 연구와 함께, 이론적 개념과 그들의 관계가 명확해지고 심리학에 대한 명백한 이론이 출현할 것이라는 것이었다. 그러면 구인 타당성 접근법이 가능해질 것이다. 하지만 심리학은 처음 제안되었을 때보다 지금 이것에 더 가까워지지 않은 것 같다.9
However, this is problematic because for the most part there are no nomological networks in medical education (or psychology or education); there are no systems of scientific laws that explicitly link constructs and observables, and there is no theory of the construct to test, or at least nothing of the sort needed to establish construct validity. Originally, in laying out construct validity theory, Cronbach and Meehl emphasised that: ‘To validate a claim that a test measures a construct, a nomological net surrounding the concept must exist.’4However, they also acknowledged the ‘vagueness of present psychological laws’ and said: ‘Psychology works with crude, half-explicit formulations.’4The expectation was that eventually, with further research, theoretical concepts and their relationships would be clarified and an explicit theory (a nomological network) of psychology would emerge. Then the construct validity approach would become possible. Yet psychology doesn’t seem to be any closer to this now than when it was first proposed.9
해석 및 주장에 기초한 구인 타당도 Construct validity based on interpretation and argument
구인 타당도 접근방식을 유지하기 위해 겉보기에는 덜 엄격한 기준인 해석과 논쟁은 타당성 확립을 위한 명명학적 네트워크와 엄격한 이론 테스트를 대체했다.
Messick은 Educational Measurement 3판(1989년)에서 '타당성'에 대한 장을 시작하면서 다음과 같이 썼다. '…검증해야 할 것은 시험이나 관찰 장치가 아니라, 시험 점수 또는 기타 지표에서 도출된 추론이다. 이는 곧, 점수 의미나 해석 및 해석이 수반하는 조치에 대한 [함축적 의미에 대한 추론]이다.'
유사하게, Kane은 Educational Measurement제4판 (2006)에서 '타당화'에 관한 장을 다음과 같이 마무리했다.: 타당화는 [제안된 해석 및 측정 사용의 평가]이다. [해석적 주장interpretive argument]은 [제안된 해석과 사용에 내재된 추론과 가정에 대한 명확한 진술]을 제공한다. [타당성 주장]는 [해석적 주장의 일관성] 및 [추론과 가정들의 개연성에 대한 평가]를 제공한다.'
To salvage the construct validity approach, seemingly less stringent criteria – interpretation and argument – have replaced nomological networks and rigorous theory testing for establishing validity.
Messick, in opening his chapter on ‘Validity’ in the third edition of Educational Measurement (1989), wrote: ‘…what is to be validated is not the test or observation device as such but the inferences derived from test scores or other indicators – inferences about score meaning or interpretation and about the implications for action that the interpretation entails.’2
Similarly, in the fourth edition of Educational Measurement (2006), Kane concluded his chapter on ‘Validation’ by saying: ‘Validation involves the evaluation of the proposed interpretations and uses of measurements. The interpretive argument provides an explicit statement of the inferences and assumptions inherent in the proposed interpretations and uses. The validity argument provides an evaluation of the coherence of the interpretive argument and of the plausibility of its inferences and assumptions.’3
따라서, 현재의 [구인 타당도 접근법]은 [대상 구인에 대한 해석을 위한 증거]에 기초하여 타당성 논거를 확립하려는 방식이라고 할 수 있다.설득력 있게 [구인 타당도를확립하는 방법]은 더 이상 ['이론적 용어의 의미를 고칠 수 있는' 엄격한 법칙적 네트워크]의 프레임워크 안에서 성립하는 것이 아니다.
The current construct validity approach, then, seeks to establish a validity argument based on evidence for an interpretation of the target construct, but no longer within the framework of a rigorous nomological network that can ‘fix the meaning of theoretical terms’ in a way that can convincingly establish the validity of the construct.7
Kane은 다음과 같이 인식했다. '…타당화를 진행하기 위해서는 제안된 해석과 용도를 명확히 명시해야 한다.' 그러나, 현실에서는, 해석과 주장에는 '글루(예측, 검증, 확인의 정밀도)'가 부족한 것으로 보인다. 이 '글루'는 법칙적 네트워크에 의해 제공되는 [가정된 이론적 구인]에 대한 [측정의 타당성]에 대한 신뢰도를 제공하는 데 필요하다고 볼 수 있다. 연구자들은 50년 전 크론바흐와 뮐이 우려했던 '모호하고 부분적으로만 명시적인 공식'을 해결해야만 했다. 보르스붐 등이 쓴 바를 빌리자면 '[시험 점수 해석]이라는 개념은 너무 일반적too general이다.'
Kane recognised that: ‘…for validation to go forward, it is necessary that the proposed interpretations and uses be clearly stated.’3 However, in practice, interpretation and argument seem to lack the ‘glue’– the precision in prediction, testing and confirmation – needed to provide the confidence in the validity of the measurement of the postulated theoretical construct that was afforded by a nomological network. Researchers are left with vague, half-explicit formulations of the type that concerned Cronbach and Meehl 50 years ago. As Borsboom et al. wrote: ‘The notion of a test score interpretation is too general.’9
예를 들어 추론(해석 및 주장)은 일반적으로 [구인과 다른 변수 간의 상관 관계]를 포함하지만, [대부분의 변수]가 다른 변수와 어느 정도(특히 표본이 충분히 큰 경우) 상관되어 있다는 점을 감안할 때, [명시적 이론]이 없는 상태에서 상관 관계는 타당성에 대해 정보를 제공한다고 보기 어렵다.수렴 및 발산 타당성 및 다중 특성-다중 방법 행렬은 현재의 구인 타당성 접근법과 함께 사용할 것이 일반적으로 권장되지만, 타당성을 확립하기 위해서는 [훨씬 더 명확한 이론이 필요]하다. 기껏해야 어떤 [하나의 상관 관계]가 [다른 상관 관계]보다 높다는 것을 보여주는 이러한 타당성 주장은 약합니다. For example, inferences (interpretation and argument) commonly involve correlations between the construct and other variables, but, given that most variables are correlated with most other variables to some degree (especially with large enough samples),16 correlations without an explicit theory are not informative about validity. Convergent and discriminant validity and multitrait–multimethod matrices17 are commonly recommended for use with the current construct validity approach, but they require even more explicit theory to establish validity. At best, these validity arguments are weak, showing that one correlation is higher than another.7
현재의 구인 타당도 접근법은 다양한 '다양한 출처의 타당성 증거'를 보고하는 것에 더 초점을 맞춘 것으로 보인다. ('Standards for Educational and Psychological Testing'에서 권장하는 '타당도 유형validity type'의 현재 버전). 이는 마치 '증거'에 더 큰 중점을 둠으로써, 법칙적 네트워크의 결여로 인해 뒤따르는 [구인 타당도 이론 검증]의 약화를 보완하려는 것처럼 보인다. 이는 타당성 주장의 근거와 해석으로부터 주의를 딴 데로 돌린 것으로 보인다. 그런 다음 테스트를 검증하려는 연구자들은 '여러 출처sources'의 범주 중 하나에 부합하는, 사용가능한 증거를 나열하는 것처럼 보이지만, 이것이 검사의 타당성을 어떻게 지지하는지는 보여주지 않는다(심지어 때로는 그렇지 않은 것처럼 보일 수도 있다). The current construct validity approach seems to have come to focus more on reporting various ‘sources of validity evidence’18-20 (the current version of ‘validity types’, as recommended in the ‘Standards for Educational and Psychological Testing’18), as if to compensate for the lack of nomological networks and the subsequent weakening of the theory testing part of construct validity by placing greater emphasis on ‘evidence’. This seems to have diverted attention from the rationale and interpretation of the validity argument. Researchers attempting to validate a test then appear to list available evidence that fits into one of the ‘sources’ categories, but without showing how this supports the validity of the test (and at times it appears that it does not).
즉, 온갖 종류의 상황적 증거가 [해석/타당성 주장(훈련, 성별 차이, 내부 일관성, 요인 또는 차원의 수와 이름, 다른 변수와의 상관관계 등)]을 위하여 인용된다. 그러나 그러한 증거들(남성보다 점수가 높거나 낮거나, 3요소 구조 대 4요소 구조 또는 점원이 2학년 학생보다 더 우수한 성적을 보인다.)은애초에 도구가 측정하고자 하는 것(예: 비판적 사고, 임상적 추론, 공감, 번아웃, 전문직업성)을 실제로 측정하는지, 혹은 검사가 타당한지에 대한 확신을 직접적으로 확보해주지는 않는다. That is, all sorts of circumstantial evidence are cited for the interpretation/validity argument (such as improvement in scores with training, gender differences, internal consistency, number and names of factors or dimensions, and correlations with other variables). However, that evidence (females have higher or lower scores than males, or a three-factor structure versus a four-factor one, or clerks perform better than second-year students, etc.) does not establish directly with confidence that the instrument actually measures what it purports to measure (such as critical thinking, clinical reasoning, empathy, burnout, professionalism) and that the test is valid.
그리고 돌아갔나요? And back?
[구인 타당도]는 기발한 아이디어였지만, 기대에 부응하지 못하고 있다. 핵심적인 이유는 측정된 구인의 엄격한 검증이나 타당화를 가능하게 하는 심리학과 교육(및 의학 교육)의 [명시적 이론이 부족]하기 때문이다. 지난 10년 동안 암스테르담 대학의 자극적인 일련의 논문에서 보르스붐 등은 심리학에서 이론 용어의 상태, 특히 구인 타당성 접근방식을 고려했고 이것이 '구인 타당성의 종말'이라고 결론지었다. 2009년에 그들은 이렇게 썼습니다. '심리학은 다만 1955년에 실증주의에서 요구되었던 [법칙적 네트워크]를 가지고 있지 않을 뿐이다. 명확한 것은 물론, 모호한 것조차 없었고, 여전히 오늘날에도 존재하지 않는다. 이러한 이유로, 구인 타당도에 대한 생각은 그것이 태어났을 때 이미 죽어있었다…[그것은] 어떤 연구 활동도 보지 못했다.'9 Construct validity is an ingenious idea, but it has not lived up to expectations, primarily because explicit theory in psychology and education (and medical education) that would allow for the rigorous testing or validation of a measured construct is lacking. In the last decade, in a stimulating series of papers from the University of Amsterdam, Borsboom et al.9 have considered the status of theoretical terms in psychology, in particular the construct validity approach, and concluded that this is ‘the end of construct validity’. In 2009, they wrote: ‘Psychology simply had no nomological networks of the sort positivism required in 1955, neither vague nor clear ones, just as it has none today. For this reason, the idea of construct validity was born dead … [it] never saw any research action.’9
[구인 타당도]에 대한 우려에 대응하여, 이 저자들은 (실증주의를 거부하고) 측정에 대한 [현실주의적realist 접근방식]을 제안한다. 여기서 '측정measurement'은 [속성 자체의 변동variation]과 [측정 결과 또는 시험 점수의 변동variation] 사이의 인과causal 관계의 관점에서 정의된다. 이 '실제 및 인과 분석realism and causal analysis' 관점에서는 '측정 행위란 (포괄적으로 해석된) 도구와 크기magnitudes 사이의 인과관계의 산물'이다. '크기 또는 수량(속성, 프로세스, 상태, 이벤트 등)은 측정하려는 시도와 무관하게 존재한다'. 이러한 생각은 측정 도구의 타당성 검사를 위한 새로운 방법을 확립하기 위한 것이 아니라, 측정의 정의를 논할 때 [측정할 수 있는can be 것]과 [측정으로 간주되는counts as 것]의 측면에 더 관심을 두는 것이다. In response to concerns about construct validity, these authors propose a realist approach to measurement (after the positivist ban), in which measurement is defined in terms of a causal relationship between variation in the attribute itself and variation in the measurement outcome or test score.7-9 This ‘realism and causal analysis’ view sees ‘the act of measurement as a product of a causal relationship between an instrument (broadly interpreted) and a magnitude’: ‘The magnitudes or quantities (properties, processes, states, events, etc.) exist independently of attempts to measure them.’21 This thinking is not aimed at establishing new methods for the validation of a measurement instrument, but, rather, is more concerned with the definition of measurement in terms of what can be measured and what counts as measurement.
모든 실용적인 목적에서, 이 다소 추상적인 철학적 주장은 [구인의 측정]과 ['속성attributes'이라고 불릴 수 있는 것의 측정] 사이에서의 구별이라는 관점에서 생각함으로써 이해될 수 있다. 여기서 논의된 바와 같이,
구인(Constructs)은, 법칙적 관계망 또는 그와 유사한 것으로부터 의미가 부여되기에, [다른 아이디어와 함께 연결된 아이디어]로만 존재하는 [추상적인 이론적 용어]이다. 따라서 [구인의 타당화]는 상관 관계에서의 중심성이 된다.
속성(Attributes)은, [이론과 별개로 존재하는 것]으로 생각되며, [도구에 의해 측정된 결과는 속성에 의해서 인과적으로 결정된다]. 속성은 단순한 이론적 아이디어 이상으로 간주된다; 오히려, 그것들은 측정과는 독립적으로 존재하며 측정 결과를 야기하는 역할을 한다고 생각된다.21
For all practical purposes, this somewhat abstract philosophical argument can be understood by thinking in terms of the distinction between the measurement of constructs versus the measurement of what might be called ‘attributes’.
Constructs, as discussed here, are abstract theoretical terms which are given their meaning by a nomological network or some approximation thereof (interpretation and argument) and exist only as ideas tied together with other ideas – hence the centrality of correlations in construct validation.
Attributes, on the other hand are thought to exist apart from theory, and are measured by instruments for which outcomes are causally determined by the attribute. Attributes then are considered to be more than just theoretical ideas; rather, they are thought to exist independently of their measurement and serve to cause the measurement outcome.21
예를 들어,
[키, 체중, 혈압 및 학업 성과]는 (암묵적으로 또는 명시적으로) 측정과는 별개로 존재하는 속성attributes으로 가정될 수 있다. 또한 이러한 속성에서 variation이 존재한다면, 눈금자, 중량계의 균형, 압력 측정띠, GPA으로 측정값에 변화를 유발할 것이다.
그러나 [추상적인 이론적 구인(예: 비판적 사고, 임상추론, 번아웃, 공감, 전문직업성, 시스템 기반 실습 등)]이 [이론과 별개로 존재한다]는 가정은 설득력이 떨어지며, 각 구인이 [측정도구에서 확인된 변화]가 [속성의 변화]에 의해 야기되는지는 명확하지 않다.
For example, height, weight, blood pressure and scholastic performance can be implicitly or explicitly assumed to be attributes that are out there apart from measurement, and variations in these attributes cause variations in their measurements with a metre stick, pan balance, pressure cuff and grade point average, respectively.
However, abstract theoretical constructs (like critical thinking, clinical reasoning, burnout, empathy, professionalism, systems-based practice, etc.) cannot convincingly be assumed to be out there apart from theory, and it is not clear that variation in their respective measurement instruments is caused by variation in the attributes.
대학원 의학 교육 인증 위원회가 제안한 핵심 역량과 같은 역량 기반 교육 목표 평가에 대해 루리 외 연구진.22에 의해 유사한 우려가 제기되었다.23 그들의 우려는 [교육적 역량]이란 '이해당사자들 간의 협상에 의해 형성되는' '정치적 구조'이며, '실증적 근거를 보여준 적은 없는 듯 하다.' 라는 점이었다. 철학자 존 설은 사회적 현실의 구성에 관한 그의 글에서도 비슷한 차이를 보이고 있는데, 존 설은 '확고한 사실brute facts'과 '사회적 또는 제도적 사실social or institutional facts'을 구분하였다. '확고한 사실'은 실제로 존재하는 것으로 생각되는 사실(속성)을 언급하는 반면, '사회 제도적 사실'은 인간의 사고에 국한된 단순한 아이디어 또는 개념을 의미한다. 둘 다 인간의 사회적 구성이지만, 전자는 '현실주의적 헌신'을 가지고 있는 반면, 후자는 '더 많은 이론'에 근거한 이론만을 언급한다. Similar concerns are raised by Lurie et al.22 about the assessment of competency-based educational objectives such as the core competencies proposed by the Accreditation Council for Graduate Medical Education.23 Their concern is that educational competencies are ‘political constructs’ that are ‘shaped by negotiations among stakeholders’ and ‘do not seem to have any demonstrated empirical basis’.22 Philosopher John Searle makes a similar distinction in his writings on the construction of social reality, in which he distinguishes between ‘brute facts’ and ‘social or institutional facts’.24 The former refers to facts (attributes) that are thought to really exist out there, whereas the latter are acknowledged to be simply ideas or concepts that are limited to human thinking. Both are human social constructions, but the former has ‘realist commitments’ and the latter refers only to theory based on more theory.
Borsboom 등이 제시한 이러한 [속성 기반attribute-based 측정 관점]은 새로운 타당성 유형이나 새로운 타당성 이론이 아닌 과학적 측정의 본질을 설명하려고 시도한다.
첫째, 이러한 저자들의 말에 따르면: '만약 어떤 것이 존재하지 않는다면, 그것을 측정할 수 없다.'
[구인 타당도]를 주장하는 이론가들은 [다른 추상적 이론적 구인의 네트워크]에 대한 레퍼런스를 통해서 [추상적 이론적 구인]를 정의하고 존재하게 하는 실증주의 기반 시스템을 제안했지만, 논의된 바와 같이, 이것은 성공하지 못했다; 반대로, 이러한 구인들이 어떤 식으로 존재할 수 있는지는 명확하지 않다.
둘째, 보르스붐 등은 다음과 같이 쓰고 있다: '문항 관리'와 '문항 응답' 사이에 발생하는 일련의 사건에서, [측정된 속성]은 측정 결과가 어떤 가치를 가질 것인지를 결정하는 데 인과적 역할을 해야 한다.
This attribute-based view of measurement presented by Borsboom et al.6-9 attempts to describe the essence of scientific measurement, not just a new validity type or a new theory of validity.
Firstly, in these authors’ words: ‘If something does not exist, then one cannot measure it.’7 Construct validity theorists proposed a positivist-based system to define and give existence to an abstract theoretical construct by making reference to a network of other abstract theoretical constructs, but this, as discussed, has not been successful; otherwise, it is not clear in what sense constructs like these might exist.
Secondly, Borsboom et al. write: ‘Somewhere in the chain of events that occurs between item administration and item response, the measured attribute must play a causal role in determining what value the measurement outcomes will take.’7
간단히 말해서, 그들은 측정이 '속성'으로 제한되어야 한다고 말하고 있다. In brief, they are saying that measurement should be limited to ‘attributes’.
그럼에도 불구하고 Borsboom 등 6-9에서는 이러한 기준을 충족하는 측정치를 지칭하기 위해 '타당성'이라는 용어를 사용한다. 즉, 속성attributes이 (측정에 독립적으로) 존재한다고 생각할 수 있고, 그래서 속성이 측정 결과의 원인이 되는 경우, (측정)도구는 타당하다고 할 수 있다. 하지만 그렇지 않다면 속성을 측정한다고 볼 수 없으며, 타당하지 않다. 이것은 타당성의 일반적인 의미에 다른 반전을 주는데, 이것은 혼란스러울 수 있다. 또한, 이 관점에서 타당성은 all-or-nothing의 문제로 전환됩니다. 즉, 측정도구가 속성을 측정하거나(따라서 타당함), 측정하지 못한다(따라서 타당하지 않음).
Nevertheless, Borsboom et al.6-9 use the term ‘validity’ to refer to measurements that meet these criteria: that is, if an attribute is thought to exist (independently of measurement) and causes the measurement outcomes, the instrument is said to be valid; otherwise, it does not measure the attribute and is not valid. This gives a different twist to the usual meaning of validity, which can be confusing. In addition, it makes validity into an all-or-nothing issue: either the instrument measures the attribute (and is valid) or it does not (and is not valid).
따라서 [수많은 외부 요인]이 [측정한 결과의 변동성variability을 증가시키는 방식]으로 측정 프로세스에 영향을 미칠 수 있습니다. 추가된 변동성variability의 근원은 일반화가능도 이론과 분석을 통해 평가할 수 있다(즉, 이는 일반화가능도 이론에 대한 최근의 사고와 일치하는 것으로 보인다). 따라서 측정도구는 타당하더라도, 측정값을 신뢰할 수 없을 수 있다. 즉, 측정도구는 속성을 측정할 수 있지만, 측정 프로세스에 개입하는 다른 요인이 측정 신뢰도에 영향을 미치는 irrelevant variance을 추가할 수 있습니다.
Be that as it may, numerous extraneous factors may affect the measurement process in ways that add to the variability of the outcome measures. The sources of the added variability can be assessed with generalisability theory and analysis (i.e. this seems consistent with recent thinking about generalisability theory25). Consequently, an instrument may be valid, but its measurements not reliable. That is, an instrument may measure an attribute, but other factors in the measurement process may add irrelevant variance that affects the reliability of the measurements.
결론 Conclusions
[구인 타당도]가 [명확한 현실적 참조자referent가 없는 심리적 구조를 타당화하는 방법]이라는 주장은 입증되지 못했다. 무엇보다 타당화의 엄격한 토대가 될 수 있는 의학 교육(및 심리학 및 교육)의 명시적 이론이 부족하기 때문이다. 해석과 주장은 실행 가능한 대체물viable substitutes이 아니다. 단순히 '표준'에서 권고하는 다양한 '타당성 증거의 출처' 범주에 들어맞는 사용 가능한 증거를 나열하는 것만으로는 [측정도구가 측정하고자 하는 것을 측정한다는 것]을 보여주지 못한다. 이러한 증거의 제시가 [법칙적 네트워크의 부족]을 해결하지 못한다. 대신, 타당성 개념을 약화시키고 타당성 주장의 신뢰성을 떨어뜨리는 것으로 보인다. 의학 교육에 대해서 이것이 갖는 일반적인 함의는 [검사 개발자와 사용자가 이론과 별개로 참조가 없고 실증적 근거가 없는 추상적 이론적 구인]을 사용하는 것의 가치를 재고해야 한다는 것이다. [구인 타당도 접근법]을 의학교육 연구를 위해 사용하는 것에 대해 심각하게 재고해봐야 한다. Construct validity has not proven to be a way to validate psychological constructs that have no clear referent in reality because explicit theory in medical education (and in psychology and education) that can provide a rigorous basis for validation is lacking. Interpretation and argument are not viable substitutes: simply listing any available evidence that fits in the various ‘sources of validity evidence’ categories recommended in the ‘Standards’17-19 does not show that the instrument measures what it purports to measure. It does not resolve the lack of nomological networks. Instead, it seems to weaken the concept of validity and to undermine the credibility of validity claims. The more general implication for medical education is that test developers and users should reconsider the value of using abstract theoretical constructs that have no referent apart from theory and that have no demonstrated empirical basis.22, 23 The use of the construct validity approach should be seriously reconsidered for research in medical education.
의학교육에서 평가 연구와 실무는 특히 [의학교육에서 광범위하게 이뤄지고 있는 기록 보관]을 고려한다면, 훈련과 실무 전반에 걸쳐 종종 쉽게 이용할 수 있고 표준적인 보다 온건한 구체적인 지표(속성attributes)로 더 잘 제공될served 수 있다. 의학교육 연구의 주된 목적은 [추상적인 심리 유형 구인]으로 구성된 [추상적인 심리 유형 이론]을 확립하는 것이 아닌, 오히려, 더 실용적이고, 의학에서의 교수-학습을 더 잘 이해하기 위해 사용될 수 있는 기본 변수나 측정 사이의 관계를 결정하는 것을 목표로 해야 한다. 22 이것은 연구가 검증할 구성보다 연구의 영역에 더 집중해야 한다는 것을 암시한다.
Assessment research and practice in medical education might be better served by more modest concrete indicators (attributes) that are often readily available and standard across training and practice, especially given the extensive record keeping in medical education. The primary purpose of research in medical education does not seem to be to establish an abstract psychological-type theory that consists of abstract psychological-type constructs, but, rather, is more practical and should be aimed at determining relationships among basic variables or measurements that can be used to better understand teaching and learning in medicine.22This suggests that research should concentrate on areas of study more than on constructs to validate.
예를 들어, 전문직업성 분야의 연구는 [의대 성적 정보]와 [주 위원회 징계] 사이의 관계에 대한 귀중한 결과를 제공하는데, 이것은 매우 중요한 연구이면서, 이 연구를 위해 전문직업성이라는 구인을 가정postulation할 필요는 없다.그러한 기본적인 척도(및 연구의 영역)에 초점을 맞추면 [추상적인 이론적 구인의 타당성을 확립하는 것]과 관련된 문제를 피할 수 있을 것이다. 그것은 또한 의학 교육에서 오랫동안 추구되어 온 [이론의 개발]이 [위에서 아래로 내려오는 것]보다 [아래에서 위로 이론을 만들고], 그 다음에 여러 연구의 결과를 결합하고, 그 목적을 위해 개발된 고차적 구인을 가지고 설명함으로써 더 잘 serve된다는 것을 보여준다.
For example, research in the area of professionalism provides valuable results about relationships between information in medical school records and state board disciplinary action, which is very important research but does not require the postulation of a construct of professionalism in order to do so.26A focus on such basic measures (and areas of research) would avoid the problems associated with (and perhaps the impossibility of) establishing the validity of abstract theoretical constructs. It may also reveal that the development of long sought-after theory in medical education is better served by building theory from the bottom up rather than from the top down and by then combining the results of multiple studies and explaining them with higher-order constructs developed for that purpose.22
Med Educ.2012 Apr;46(4):366-71.
doi: 10.1111/j.1365-2923.2011.04194.x.
From test validity to construct validity … and back?
Context:Major changes in thinking about validity have occurred during the past century, shifting the focus in thinking from the validity of the test to the validity of test score interpretations. These changes have resulted from the 'new' thinking about validity in which construct validity has emerged as the central or unifying idea of validity today. Construct validity was introduced by Cronbach and Meehl in the mid-1950s in an attempt to address the validity of those many psychological concepts that have no clear referent in reality. To do this, construct validity theory required a nomological network--an elaborate theoretical network of constructs and observations connected by scientific laws--to validate the constructs. However, nomological networks are hard to come by and none that would do the job required by construct validity has been forthcoming to date. Thus, the current construct validity approach has retreated to one of simply 'interpretation and argument', but this seems to be too general to tie down the constructs in the way a nomological network would do to give credibility to the validity of the construct. As a result, the concept of validity seems to have been watered down and the credibility of validity claims weakened.Methods:We present a critical review of these concerns about construct validity and provide for contrast a brief overview of a recently proposed view of measurement based on scientific realism and causality analysis.
Objectives:The purpose of this paper is to encourage a discussion of the use of construct validity in medical education, and to suggest that test developers and users reconsider the use of abstract theoretical constructs that have no referent apart from theory.
의학역량에 대한 질문: COVID-19 사태가 의학교욱의 목표를 바꾸어야 하는가? (Med Tech, 2021) Questioning medical competence: Should the Covid-19 crisis affect the goals of medical education? Olle ten Catea , Karen Schultzb , Jason R. Frankc , Marije P. Hennusd , Shelley Rosse , Daniel J. Schumacherf , Linda S. Snellg, Alison J. Whelanh and John Q. Youngi ; on behalf of the ICBME Collaborators
도입 Introduction
2020년 사스-CoV-2 (COVID-19) 대유행은 건강과 교육을 포함한 사회의 많은 부문에 심각한 영향을 끼쳤다. 보건 및 교육에서 학생, 교사, 프로그램 및 기관의 업무 과정과 보건 직업 교육에서의 이들의 교차점에서 일어난 적응은 지속적인 영향을 미칠 수 있고, 우리는 제안할 것이다(루시와 존스턴 2020; 로즈 2020; 하우어 외 2021). 강의실과 임상 교육 모두에서 의학 교육의 많은 적응adaptations이 문서화되었다(Goldhamer 등 2020; Hall 등 2020). 본 논문에서 우리는 이러한 적응에 초점을 맞추지 않고, 전염병이 의료 역량에 대한 우리의 견해에 어떻게 더 근본적으로 영향을 미쳤는지에 초점을 맞추고 있다. The 2020 SARS-CoV-2 (COVID-19) pandemic has profoundly affected many sectors of society, including health and education. The adaptations that have taken place in the work processes of students, teachers, programs, and institutions in health care and education and their intersection in health professions education could and, we would propose, should have lasting effects (Lucey and Johnston 2020; Rose 2020; Hauer et al. 2021). Many of the adaptations in medical education – in both classroom and clinical education – have been documented (Goldhamer et al. 2020; Hall et al. 2020). In this paper we do not focus on these adaptations, but rather on how the pandemic has more fundamentally affected our views on medical competence.
[역량]에 대한 다양한 정의 중 하나는 '활동을 수행하거나 주어진 과제를 완수하기 위해 개인 또는 사회적 요구에 대응할 수 있는 능력'(IGI Global 2021)이다. 이는 의료 전문가의 경우 [임상 실무에서 직면하는 도전에 대응할 수 있는 능력]이다. 이러한 과제는 환자 안전에 대한 다소간의 위험이 수반될 있으며, 긴급한 대응이 필요할 수도 있고, 준비와 훈련이 필요할 수 있다. Among the various definitions of competence, one is ‘the capacity to respond to individual or societal demands in order to perform an activity or complete a given task’ (IGI Global 2021), which, for a medical professional, would be the capacity to respond to challenges faced in clinical practice. These challenges may come with more or less risk for patient safety, may need a more or less urgent response, and may require more or less preparedness and training.
의료 종사자의 재배치,
이러한 근로자가 새로운 업무를 위해 적절히 훈련할 기회,
전염병 동안 새로운 업무에 참여할 의사의 의지
...에 대한 필요성은 이러한 필요성에 대한 [개별 임상의가 이러한 필요, 위험, 개인의 능력을 어떻게 인식하는지]뿐만 아니라, [조치의 필요성] 및 [환자와 의사 모두에 대한 작업의 위험성]에 달려 있었다.단순화하면 [긴급성]과 [위험 수준]이라는 두 가지 외부 조건이 네 가지 상황을 초래합니다(그림 1).
The need for redeployment of health care workers,
the opportunity for these workers to properly train for new tasks, and
the willingness of physicians to engage in novel tasks during the pandemic
...have depended on the need for action and the risk of the work to both patient and physician, as well as individual clinicians’ perceptions of these needs, the risks, and their personal capabilities. Simplified, the two external conditions – urgency and risk level – lead to four situations (Figure 1).
그림 1 다양한 능력을 갖춘 보건 전문가의 적합성의 결정 요소로서 직무 필요성과 위험. Figure 1. Task need and risk as determinants of the suitability of health professionals with varying capabilities to be employed.
COVID-19 대유행 기간 동안의 치료는 종종 그림 1의 오른쪽 상단 모서리에 있다. 대유행이 극에 달했을 때 응급 의사, 가족 의사, 전염병 전문의, 집중치료사, 내과 의사 및 호흡기내과 전문의들이 당연히 COVID-19 환자를 돌볼 것을 요청받았다. 하지만, 많은 병원에서는, 이러한 환자들을 돌볼 수 있는 전담 전문가가 너무 적어서, 입원 의학과에 익숙하지 않은 사람들을 포함하여,[다른 전문의들]의 의사들이 자원봉사를 했거나 도움을 요청 받았기 때문에도움을 주었다. 예를 들어 소아 진료량이 급격히 감소한다는 것은 소아과 의사가 소아 ICU에서 위독한 성인 환자를 돌보도록 요청했다는 것을 의미한다(Kneyber et al. 2020). Care during the COVID-19 pandemic has often sat in the top right corner of Figure 1. At the peaks of the pandemic, emergency physicians, family physicians, infectious disease specialists, intensivists, internists, and pulmonologists were, not surprisingly, called on to attend to patients with COVID-19. However, in many hospitals, too few dedicated specialists were available to cover the care for these patients, so physicians from other specialties assisted, including ones less familiar with inpatient medicine, either because they volunteered or because they were asked to help. Drastic drops in pediatric care volumes, for instance, meant that pediatricians requested to care for critically ill adult patients in pediatric ICUs (Kneyber et al. 2020).
전문가, 의대, 대학원 프로그램, 면허 기관 및 대중은 모두 [유능한 의사]가 무엇인지에 대한 이미지를 가지고 있지만, 이 용어를 정의하거나 이러한 정의를 조작화하는 것은 항상 어려웠다(Kate 2017). 매우 인용된 정의일지라도, 엡스타인과 헌더트(2002)가 제공한 권위 있는 정의('제공되는 개인과 공동체의 이익을 위해 일상적 실무에서 의사소통, 지식, 기술 기술 기술, 임상적 추론, 감정, 가치 및 성찰의 습관적이고 현명한 사용')는 해석의 여지를 남긴다. 어떤 지식과 기술이 기대될 수 있는지 명시하지 않고, 사람들은 같은 방식으로 표준을 해석하거나 적용할 수 없다. 이는 부분적으로 역량이 상황에 따라 다르다는 사실 때문일 수 있다. (10 케이트 외 2010; 10 케이트 및 빌렛 2014; Teunissen 외 2021).
Professionals, medical schools, postgraduate programs, licensing organizations, and the public all have an image of what a competent physician is, but defining this term, or operationalizing those definitions, has always been difficult (ten Cate2017). Even highly cited, authoritative definitions, such as the one provided by Epstein and Hundert (2002) (‘the habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individual and community being served’), leave room for interpretation to some extent as they do not specifywhichknowledge and skills may be expected, and people may not interpret or apply the standards in the same way. This may be due to the fact that competence is, in part, context dependent (ten Cate et al.2010; ten Cate and Billett2014; Teunissen et al.2021).
Billett (2017)은 직업 역량의 세 가지 요소 또는 영역을 구분한다:
모든 유사한 전문가에 의해 공유되는 표준 도메인,
맥락에 의해 결정되는 상황 도메인, 그리고
유능한 전문가들 사이에서도 개인의 차이를 설명하는 개인 도메인.
Billett (2017) distinguishes three components or domains of occupational competence:
a canonical domain, shared by all similar professionals,
a situational domaindetermined by the context, and
a personal domainthat explains individual differences, even among competent professionals.
[규칙적인 상황]에서, 대부분의 의사들은 그들의 규범적이고 전문적인 자격과 동료들, 동료들, 그리고 전문 사회의 상황적 지원이 모든 표준과 기대치를 충족하기에 충분한 지침을 제공하는 안정적이고 친숙한 맥락에서 일한다. 그러나 공식적으로 요구되는 능력으로 규정될 수 있는 것에는 한계가 있다. 예를 들어, 어떤 지식은 암묵적이고 성문화하기가 어렵다. COVID-19와 같은 대유행에서 상황 변화는 초기 불확실성과 관련된 능력의 적응을 필요로 한다. 경력 내내 모든 의사는 [불확실한 순간]에 직면한다. 즉, 직업 변화, 새로운 치료와 시술의 치료의 발전, 익숙하지 않은 문제, 희귀 질환 및 표준 임상 지침에 반영되지 않은 비정형 프레젠테이션의 환자(Collianni et al. 2021). 이러한 익숙하지 않은 상황에는 전문가의 판단, 임상적 추론, 행동 및 관리가 새롭게 필요합니다. 프로들은 '미안하지만, 나는 그것을 학교에서 배우지 못했다' 뒤에 숨을 수 없다. 일반적인 사회 및 전문적 기대는 지속적인 자기주도 학습을 통해 의료 질문 및 익숙하지 않은 문제를 가진 환자를 어느 정도까지 보호할 수 있다는 것이다. 다시 말해서 의사는 적응할 수 있을 것이라는 기대를 받는다(10 Kate 등).
In regular circumstances, most physicians work in stable and familiar contexts for which their canonical, professional qualifications, plus contextual support from colleagues, coworkers, and professional societies, provide sufficient guidance to meet all standards and expectations. There is a limit, however, to what can be formally stipulated as required competence. For example, some knowledge is tacit and hard to codify. In a pandemic such as COVID-19, contextual changes require an adaptation of competence, associated with initial uncertainty. Throughout their careers, all physicians face moments of uncertainty: job changes, advances in care with new therapies and procedures, unfamiliar problems, rare diseases, and patients with atypical presentations that are not reflected in canonical clinical guidelines (Colaianni et al.2021). These unfamiliar situations require renewed professional judgment, clinical reasoning, actions, and care. Professionals cannot hide behind ‘I apologize, but I did not learn that in school’ (Duijn et al.2020). The general societal and professional expectation is that all physicians can be trusted, to some extent, to care for patients with health care questions and problems with which they are not familiar, through ongoing self-directed learning. Physicians are expected, in other words, to be adaptable (ten Cate et al.2021).
문제는: 어느 정도의 적응성을 기대하는 것이 합리적인가? COVID-19 대유행은 이 질문을 집중 조명했다. 의사들은 항상 적응할 수 있어야 했지만, 그렇게 빠르고 광범위한 방식으로는 드물었고, 의료 제공자들 스스로가 개인적인 위험에 처하게 된 상황에서, 그렇게 많은 중증 환자들과 함께 있는 경우는 드물었다. The question is: what adaptability limits define reasonable expectations? The COVID-19 pandemic has spotlighted this question. Physicians have always needed to be adaptable, but rarely in such a rapid and expansive way and rarely with so many profoundly sick patients, in a situation in which the health care providers themselves were put at personal risk.
우리는 마이크로, 메소, 매크로 수준에서 답을 제공하기 보다는 교육적이고 조직적인 질문을 제기한다. 이는 미래 업무의 피할 수 없는 다양성에 대한 건강 전문가의 준비와 적응력에 대한 인식을 높이기 위해서이며, COVID-19 대유행, 다음 대유행 또는 기타 국가 및 글로벌 보건 위기의 세 번째 및 그 이후의 파동을 위한 것이다(그림 2).
We pose educational and organizational questions, rather than providing answers, at the micro, meso, and macro levels, to raise awareness about health professionals’ preparedness and adaptability for the inevitable diversity of future work, be it for third and subsequent waves of the COVID-19 pandemic, the next pandemic, or other national and global health crises (Figure 2).
그림 2 개인, 프로그램 및 제도, 규제 및 사회 시스템의 세 가지 관점에서 의료 위기 동안 의료 역량을 평가합니다. Figure 2.Valuing medical competence during a health crisis from three perspectives: individual, program and institution, and regulatory and societal systems.
마이크로 레벨: 개별 연수생 및 개업 의사의 관점에서 의료역량 재고 The micro level: Reconsidering medical competence from the perspective of individual trainees and practising physicians
물론 역량은 특정한 일을 수행하는 능력이다. 그렇다면 전문직 역량professional competencce은 전문가에 의해 수행될 것으로 예상되는 직무와 관련이 있는데, 전문가가 권위자로 간주되거나 자문받는 이유는 전문적인 기술, 훈련 또는 지식을 갖추었기 때문이다. 전문가들은 (이미 여러 번 완료했기 때문에) 매우 익숙한 과제뿐만 아니라, (해당 과제가 예상 실무 범위에 포함된다면) 이전에 거의 또는 전혀 수행되지 않은 과제까지도 수행할 것으로 기대된다(Ward et al. 2018). 모든 의학 졸업자는 어느 정도 신뢰받으며, 낯선 업무에 대처할 것으로 예상해야 하지만 문제는 예상되는 실무 범위 내외에서 [어느 정도까지 대처하느냐]이다. 이로 인해 의과대학 선택에서부터 확립된 실무에 이르기까지 의료 경력 주기에 걸쳐 다음과 같은 몇 가지 질문이 제기된다. Competence, of course, is the ability to perform specific tasks. Professional competence then pertains to professional tasks, those expected to be performed by professionals, often called experts because they are regarded or consulted as an authority on account of special skill, training, or knowledge (Oxford English Dictionary[date unknown]). Experts are expected to perform not only tasks with which they are highly familiar because they have completed them many times, but also tasks they have rarely or never previously performed if those tasks fall within their expected scope of practice (Ward et al.2018). All medical graduates should be trusted and expected to cope with unfamiliar tasks to a certain extent (ten Cate et al.2021), but the question is to what extent, both within and outside of an expected scope of practice. This leads to several questions across the medical career cycle, from selection for medical school through established practice:
i. 익숙하지 않은 문제와 불확실성에 대처하기 위해서는 [적응력과 창의적인 문제 해결(능력)]이 필요하며, 이는 다시 에너지와 진취성을 필요로 한다. 불확실한 상황에서 일할 수 있는 적응성 및 의지와 관련된 지원자의 속성을 의대 선택 과정에서 평가해야 하는가? 그리고/또는 학교는 학생들의 이러한 속성을 개발하기 위해 노력해야 하는가? 진취성과 창의성이 (합당한) 기대치expectation가 될 수 있는가? 그리고 그것은 의대를 시작할 때 학생들에게 전달되어야 하는가? i. Coping with unfamiliar issues and uncertainty requires adaptability and creative problem-solving, which in turn require energy and initiative. Should applicants’ attributes associated with adaptability and willingness to work in uncertain circumstances be assessed in medical school selection processes, and/or should schools work to develop these attributes in their students? Can initiative and creativity become an expectation, and should that be communicated to students when they start medical school?
ii. 이타주의와 용기: [모르는 것은 많지만, 니즈는 높은 환경에서 의료를 제공하는 것]은 기술뿐만 아니라 (도덕적인) 태도도 제공하는 것인가? 그림 1과 같이, 필요량이 가용 리소스를 압도하는 상황에서 재배치에 대한 요구가 발생할 수 있습니다. 필요성이 높고 위험이 낮은 상황(왼쪽 상단 박스 그림 1)은 이타주의를 요구할 수 있다.
예: 제공자는 장기간 가족으로부터 떨어져 있어야 할 수 있다.
저위험 제공자는 해당 질병을 가지고 있지 않은 환자의 치료를 넘겨받아 고위험 제공자의 시간을 확보할 필요가 있을 수 있다.
제공자는 필요 또는 요구를 충족시키기 위해 급여를 받거나 받지 않고 추가 임상 작업을 수행해야 할 수 있습니다.
ii. Altruism and courage: Is providing care in a setting of high need with many unknowns not only a skill set but a (moral) attitude as well? As per Figure 1, calls for redeployment will occur in high-need situations where need overwhelms the available resources. Situations of high need and low risk (top left box Figure 1) may call for altruism (e.g.
providers may need to be away from family for extended periods of time;
low-risk providers may need to free up time for high-risk providers by taking over the care of their patients who do not have the disease in question;
providers may need to do additional clinical work, with or without pay, to meet needs or demands).
환자, 의사 또는 둘 다에게 필요성과 위험이 높은 상황도 용기가 필요할 수 있다. 이는 그림 1의 오른쪽 상단 박스로 나타내며, 여기서는 의료 사업자가 편안한 영역 밖에서, 그러나 스트레스가 많고 불확실한 상황에서 지원 유무에 관계없이 합리적으로 능력 범위 내에서 일하고 있다. 의료 사업자는 [충분한 역량을 가지고 있음에도 참여를 꺼리는 것]에서부터 [환자 안전 또는 팀 또는 자신의 안전 측면에서 상당한 위험을 감수하는 것]까지 그러한 상황에서 다양한 방식으로 대응할 것이다. Situations of high need and high risk, for patients, physicians, or both, may also require courage. These are represented by the top right box of Figure 1, where health care providers are working outside of their comfort zone, but reasonably within the scope of their abilities, with or without supports, in stressful, uncertain circumstances. Health care providers will respond in a spectrum of ways in such circumstances, from being unwilling to engage even though they have sufficient competence, to taking on substantial risk in terms of either patient safety or the safety of their team or themselves.
스펙트럼의 양쪽 끝은 문제가 있다. 중간 지점은 우리의 질문이 있는 곳이다. 의사로서의 역할에는 환자와 공중 보건에 대한 봉사에 대한 헌신이 수반됩니다. 하지만 이러한 헌신이 어디까지 확장될까요? 의무 요소를 더 직접적으로 설명하려면: Both ends of the spectrum are problematic.The middle ground is where our questions lie. Being a physician involves a commitment to service – to patients and to public health – but how far does this extend? To state the obligatory element more directly:
당신은 의사가 될 수 있지만 익숙하지 않거나 도전적이거나 위험이 높은 환경에서 일하는 것을 거부할 수 있는가?
그리고 만약 그렇다면, 가능한 [환자 성과 이득]에 대한 [개인적 위험 수준]이나, 임상적 필요 역량과 비교한 역량 격차와 같이, 그러한 결정에 고려해야 할 윤리적 경계는 무엇인가?
Can you be a physician but choose to refuse to work in an unfamiliar, challenging, or high-risk setting?
And if so, what are the ethical boundaries for such decisions, such as level of personal risk compared with possible patient outcome benefit, or the competence gap compared with what is clinically needed.
참여하기 전에 지원, 감독, 적절한 보호 및 추가 훈련을 주장할 수 있는가?
의무 여부를 결정에 고려할 공공 보건(예: 인구 위협의 정도), 임상의 안전(예: 적절한 보호 장비의 가용성), 임상의사의 역량(예: 사전 경험, 집중 훈련 및 지원의 적절한 조합)의 기본 임계값은 무엇인가?
Can you, or indeed should you, insist on support, supervision, adequate protection, and further training before engaging?
What are the basic thresholds of public health (i.e. extent of population threats), clinician safety (e.g. availability of adequate protective equipment), and a clinician’s competence (e.g. adequate combination of prior experience, focused training, and support) that determine whether there is an obligation for any physician to serve?
이런 종류의 이타주의나 용기가 기대될 수 있는가? 그리고 의대생들은 훈련을 시작할 때 그들의 경력 동안 그러한 상황에서 행동하도록 요구될 수 있다는 것을 들어야 하는가?
그리고 이러한 개인의 용기, 이타주의, 그리고 위험 감수는 [중앙 및 거시적 수준의 지도자들]이 그러한 상황에서 의료 제공자들을 [지원하고 교육하고 보호할 책임을 지는 경우]에만 정당화되어야 하는가?
Can this type of altruism or courage be expected, and should medical students be told at the start of their training that during their career they may be called on to act in such circumstances?
And should this individual courage, altruism, and risk-taking be justified only if leaders at the meso and macro levels take responsibility to support, educate, and safeguard health care providers in such circumstances?
iii. 학습자에게 적응력을 교육할 수 있는가(Cutrer et al. 2017). 올바른 호기심, 동기, 사고방식 및 복원력과 같은 마스터 [적응형 학습자]의 특징이 제안되었다(Cutrer et al. 2018). 이러한 개인 속성이 고정되어 있는가, 아니면 교육이 적응형 자기조절기술을 육성할 수 있는가? 학습자를 낯선 사례와 문제에 노출시키고, 이성 내에서 그들에게 도전하고 불확실성에 대처하기 위한 문제 해결 능력을 고의적으로 구축할 수 있도록 신중하게 선택한 것은 적응 능력을 개발하는 데 도움이 될 수 있다. 적응 능력을 포착, 강화 및 평가하기 위한 이러한 접근법은 어느 정도 성공으로 시도되었다(Wijnen-Meijer 외 2013; Kalet 외 2017). iii. Can learners be trained for adaptability (Cutrer et al.2017). Master adaptive learner features, such as having the right curiosity, motivation, mindset, and resilience, have been suggested (Cutrer et al.2018). Are these fixed personal attributes or can education foster skills in adaptive self-regulation? Exposing learners to unfamiliar cases and problems, carefully chosen to challenge them within reason and to enable them to deliberately build problem-solving skills to deal with uncertainty, may serve to develop adaptive skills. Such approaches to capture, reinforce, and assess adaptive skills have been tried with some success (Wijnen-Meijer et al.2013; Kalet et al.2017).
iv. 의료 전문가가 현재의 업무 범위 밖에서 일하도록 요청받는다면 어떤 지원이 필요한가? 익숙한 관행에서 익숙하지 않은 관행으로 쉽게 전환하기 위해 '근위 발달 지역ZPD'을 식별할 수 있다. 이 용어를 만든 Vygotsky(1978, 페이지 86)는 이를 '[독립적 문제 해결이 가능한 실제 발달 수준]과 [성인의 지도 또는 능력있는 동료화의 협력을 통한 문제 해결능력으로 결정되는 잠재적 개발 수준] 사이의 거리'로 정의했다. 상급 전문가나 동료에 의한 지도 또는 감독은 격차를 해소하고 안전한 실천뿐만 아니라 개인이 감독 없이 연습하는 법을 배우도록 보장할 수 있다. 이 영역 내에서 학습자나 전문가는 '조건적 역량conditional competence'(즉, 지도와 감독이 사용가능한 경우에만 역량이 있다고 볼 수 있음)을 가지고 있다. 전문가를 지도 및 평가를 받는 학습자의 위치로 되돌리려면 겸손함과 팀 내에서 효과적으로 일할 수 있는 기술이 필요합니다. 이러한 속성은 의과대학 선택 과정에 포함되어야 하며, 훈련과 전문 실무 중에 강화 또는 구축되어야 하는가?
iv. What support is needed if a medical professional is asked to work outside their current scope of practice? To ease a transition from familiar to unfamiliar practice, a ‘zone of proximal development’ may be identified. Vygotsky (1978, p. 86), who coined this term, defined it as ‘the distance between the actual developmental level, as determined by independent problem solving and the level of potential development as determined through problem solving under adult guidance or in collaboration with more capable peers’. Guidance, or supervision, by more advanced experts or peers can bridge the gap and ensure not only safe practice but also that an individual learns to practise without supervision. Within this zone, learners or professionals have ‘conditional competence’, (i.e. competence only if there is guidance and supervision available). Putting professionals back in the position of learners being supervised and assessed will require humility and the skill to work effectively in a team. Should these attributes be included in medical school selection processes and reinforced or built during training and professional practice?
이전에 획득한 기술은 개인이 여러 해 동안 연습한 후 쇠퇴할 수 있다(Choudhry 등 2005; Norcini 등 2017).
이전에 훈련했지만 더 이상 진료하지 않는 분야에 대해, 매우 경험이 풍부하지만 전문화된 의료 전문가들에게 기대할 수 있는 것은 무엇인가?
전문가들은 한때 보유했지만 더 이상 숙달되지 않은 기술을 필요로 하는 업무에 대해, (기술을 재습득rebuild한 후) 도와달라는 요청을 받았을 때 거절할 수 있는가, 아니면 이러한 활동을 시작하기 전에 적절한 교육과 역량 평가를 받기를 고집할 수 있는가?
의료계와 사회 사이의 사회적 계약은 암묵적으로 이러한 의무를 포함할 수 있지만, 명백하게 원시적인 primum non nocere 원칙(첫째, 해를 끼치지 않음)은 질문될 수 있는 것에 한계를 설정한다.
Previously attained skills may decay after an individual has been in practice for many years (Choudhry et al. 2005; Norcini et al. 2017).
What can be expected of very experienced, but very specialized medical experts in areas where they previously trained but no longer practise?
Can these professionals refuse a request that they rebuild these skills and assist with tasks requiring skills they once possessed but no longer have mastery over, or can they insist on receiving proper education and assessment of competence before they take on these activities?
The social contract between the medical profession and society may implicitly include this obligation, but clearly the primum non nocere principle (first, do no harm) sets limits on what can be asked.
다음과 같은 의문이 든다:
의료 전문가들에게 짧은 시간 내에 다시 습득할 수 있는, 오랫동안 잊고 있던 기술을 사용하도록 요청할 수 있는가?
전문가들에게 [과거에 실행범위에 있었던 적이 없지만], [새로 배운다면 의사나 환자에게 허용되는 수준의 위험 수준에서 적용될 수 있는 기술]을 습득하도록 요청받을 수 있는가?
의사로서 [정상적인 진료 범위를 벗어나는 작업이나 훈련을 거부하는 것]이 [허용 가능한 시기]와 [권장되는 시기]는 언제인가?
Questions that arise include the following: Can medical experts be called on to use long-forgotten skills that can be relearned in a short time?
Can experts be asked to acquire skills that have never been in their scope of practice but that may be learned and applied with an acceptable level of risk to the practitioner or the patient?
When is that acceptable and when is it rather advisable for a physician to refuse to work or train outside their normal scope of practice?
메소 레벨: 지역 프로그램 및 기관의 관점에서 의료 역량 재고 The meso level: Reconsidering medical competence from the perspective of local programs and institutions
사실상 전 세계의 모든 의과대학들은 전염병이 시작된 이래로 교육 과정을 적응하도록 강요되어 왔다. 대면 교육은 중단되었고, 교실 교육은 온라인 교육으로 전환되었으며, 임상 로테이션은 일시적으로 연기되거나 대폭 축소되었다(골드해머 외 2020; 루시와 존스턴 2020; 웨인 외 2020). 그러나 동시에 일부 의과대학은 수요가 가장 높은 의료 종사자에 대한 수요를 충족시키기 위해 학생들이 조기 졸업할 수 있도록 했다(바르잔스키와 카타네즈 2020; 콜 2020; 플로트 외 2020). 이러한 제도적 조치는 의료 면허에 필요한 역량을 암시적으로 재정의하거나 역량 평가를 개선하여 이전에 설정한 졸업 시간 전에 훈련 목표를 달성한 학생이 면허를 받을 수 있음을 입증한다. 신중하게 구성된 커리큘럼, 프로그램 평가 프레임워크 요건 및 시험 규칙이 갑자기 유연해졌다. 고정 졸업 기준에 대한 시간의 변동성에 의해 정의될 경우(Frank 등 2010) 역량 기반 의학교육이 학부 교육에서 가능하지 않다는 주장은 반박된 것으로 보인다. COVID-19 사태로 인해 학부 의료 프로그램, 대학원 프로그램 및 기관이 커리큘럼과 평가의 적응을 고려해야 했고, 이로 인해 몇 가지 의문이 제기되었다. Virtually all medical schools in the world have been forced to adapt their educational processes since the start of the pandemic. Face-to-face education has been suspended, classroom teaching has turned into online education, and clinical rotations have been temporarily postponed or significantly curtailed (Goldhamer et al.2020; Lucey and Johnston2020; Wayne et al.2020). But at the same time, some medical schools enabled students to graduate early (Barzansky and Catanese2020; Cole2020; Flotte et al.2020) to meet the demand for health care workers where the need was highest. These institutional measures implicitly redefined the competence needed for medical licensing or refined the assessment of competence to certify that students who had attained the goals of training before their previously set graduation time could be licensed. Carefully constructed curricula, programmatic assessment framework requirements, and examination rules suddenly became flexible. The argument that competency-based medical education, if defined by more variability in time against fixed graduation standards (Frank et al.2010), is not possible in undergraduate education, seems to have been refuted. The COVID-19 crisis has required undergraduate medical programs, postgraduate programs, and institutions to think of adapting curricula and assessment, leading to several questions.
v. 미리 설정된 교육 기간의 완료만을 기준으로 하기 보다는, 역량에 따라 학습자의 자격을 더 갖추기 위해, 좀 더 개별화된 커리큘럼이 필요할 것인가? (샌튼 외 2020) 한 가지 접근법은 위탁 가능한 전문 활동(EPA)을 포함할 수 있다. EPA는 학습자가 필요한 역량을 입증하는 즉시 수행할 수 있도록 신뢰할 수 있는 전문 실무 단위이다 (10 Kate 2005, 10 Kate and Taylor 2020). 의사의 진료 범위는 개인화된 EPA 포트폴리오로 생각할 수 있으며, 이는 교육 중에 점진적으로 구축되며, 실무자가 근무 수명 내내 유지 또는 채택한다(10 Kate 및 Carraccio 2019). v. Will more individualized curricula be needed to qualify learners more on the basis of their competence rather than solely on the basis of their completion of a preset duration of training (Santen et al.2020)? One approach may include entrustable professional activities (EPAs). EPAs are units of professional practice that learners can be trusted to perform as soon as they have demonstrated the required competence (ten Cate2005; ten Cate and Taylor2020). A physician’s scope of practice may be envisioned as an individualized portfolio of credentialed EPAs, which is gradually built during training, and which is maintained or adapted by practitioners throughout their working life (ten Cate and Carraccio2019).
잠재적으로 졸업 시간을 개별화하는 것에 더하여, 이 접근방식은 COVID-19와 같은 위기 대처에도 유용할 수 있다. 위기 대처에 필요한 작업을 위한 EPA를 명확히 표현할 수 있고, 훈련을 제공할 수 있으며(개인과 기존 기술 세트에 따라 달라질 수 있음), 평가를 구성할 수 있다. 예를 들어 인공호흡기 관리는 EPA(Hester et al. 2020)로 형성될shaped 수 있다. 특정 영역의 역량을 공식적으로 외부적으로 회수할 수 있는 인식인 디지털 배징은 EPA(Mehta et al. 2013)의 사용에 완벽하게 적합한 개발인 보다 개별화된 역량 프로파일(Norcini 2020; Noyes et al. 2020)을 만들도록 최근 권고되었다.
In addition to potentially individualizing times of graduation, this approach may also prove useful in addressing crises such as COVID-19. EPAs for the work needed to deal with the crisis can be articulated, training can be provided (the nature and extent of which would vary depending on the individual and their existing skill sets), and assessment can be organized. Ventilator management, for example, could well be shaped as an EPA (Hester et al.2020). Digital badging, a formalized and externally retrievable recognition of competence in an area, has recently been recommended to create a more individualized profile of competence (Norcini2020; Noyes et al.2020), a development that would perfectly fit with the use of EPAs (Mehta et al.2013).
vi. 학교, 기관, 전문 기관 및 작업 그룹은 '급속 배치rapid deployment' 모듈 또는 부트캠프 활동을 만들고 필요할 때 제공해야 하는가(헤스터 외 2020)? 새로운 주제를 중심으로 국내 또는 국제적으로 이러한 커리큘럼을 공유할 수 있는 저장소가 있어야 하는가?병원은 의과대학과 협력하여 신속한 배치 팀을 구성하여, 군 예비군과 유사한 비상 기술을 정기적으로 업데이트하여 위기에 직접 대응하고 더 많은 인력을 재배치 및/또는 훈련시켜야 한다. [위기 대비]와 [일상적인 치료를 위한 자원 요구] 사이에 최적의 지점은 어디인가?
vi. Should schools, institutions, professional organizations, and working groups create ‘rapid deployment’ modules or bootcamp activities and offer them when needed (Hester et al.2020)? Should there be a repository where such curricula can be shared nationally or internationally around emerging topics? Should hospitals in collaboration with medical schools create rapid-deployment teams, regularly updating their emergency skills, in analogy with the military reserves, to respond to crises directly, while simultaneously redirecting and/or training a larger workforce? Where is the sweet spot between crisis preparedness and resource needs for routine care?
vii. 기관들은 위기 상황에서, 위기의 니즈와 전체적으로 일치하는 전담 맞춤형 팀들이 신속하게 조립될 수 있도록, 의료인력의 [기술 세트skill sets의 목록inventory]을 가지고 있어야 하는가? 위기의 시기에 모든 팀이 필요로 하는 간헐적으로 강화되어야 하는 기초적인 기술이 있는가? vii. Should institutions maintain an inventory of the skill sets of their workforce such that in times of crisis, dedicated bespoke teams whose skill sets collectively match the needs of the crisis can be quickly assembled? Are there foundational skills that all teams would need during times of crisis that should be intermittently reinforced?
매크로 수준: 광범위한 규제, 시스템 및 사회적 관점에서 의료 역량 재고 The macro level: Reconsidering medical competence from a broader regulatory, systems, and societal perspective
많은 사회와 그 정부는 인구의 건강을 보호하고 육성할 의무를 가지고 있다. 이는 대개 환자의 치료를 허가하는 행위이며 환자의 역량을 인정하는 것을 반영하는 것으로 관할 지역의 의료 사업자의 면허를 책임지는 규제 기관을 통해 이루어진다. 또한 헌법이나 후속 개정 또는 법률을 통해 유능한 인력을 확보하고 시민을 위한 접근 권한을 제공하는 것을 포함한다. 전염병이 강조했듯이, 위험 완화를 위해 유능한 인력을 보호하고 지원하는 것도 조직의 책임이다. COVID-19 위기는 의료 및 과학 전문가와의 대화에서 전염병과 싸우고 치료를 확보하고 지원해야 할 정부의 책임을 다시 한번 전면에 부각시켰다. 그들의 결정은 인구 질병률과 사망률에 지대한 영향을 미친다. Many societies and their governments hold obligations to protect and foster their population’s health. This is usually done through regulatory bodies responsible for the licensing of health care providers in their jurisdiction, which is an act of permission to treat patients and reflects a recognition of their competence. It also involves securing a competent workforce and providing access to care for citizens, either through a constitution or in subsequent amendments or laws. As the pandemic has highlighted, it is also the responsibility of organizations to protect and support that competent workforce to mitigate risk to a tenable level. The COVID-19 crisis has once again brought to the forefront the responsibility of governments to fight pandemics and to secure and support care, in a dialogue with medical and scientific experts. Their decisions have a profound impact on population morbidity and mortality.
급성 치료가 필요한 환자 급증과 같이 필요성이 높은 경우 의료 참여에 대한 조직 차원의 허가 자격은 필요에 따라 유연해질 수 있다. 면허 요건은 때때로 장애물이 될 수 있다.
외국 출신 의료 전문가의 경우, 대부분의 경우 의료 면허를 위한 국가시험이 있는데, 이것은 수십 년 전에 다른 나라에서 그들 자신의 면허 요건을 완료한 하위 전문가들에게는 충족되기 어려울 수도 있다.
동시에 그러한 하위 전문가들은 위기 관리에 도움이 될 관심 하위 영역(예: 집중 치료)에 대한 최근 경험을 가지고 있을 수 있다.
When the need is high, such as in situations in which a surge of patients require acute care, qualifications for organizational-level permission to participate in health care may become flexible out of necessity. Licensing requirements may sometimes be an obstacle.
Foreign medical specialists coming to most countries face the requirement of national examinations at the level of medical licensure, which may be difficult to meet for subspecialists who completed their own licensing requirements decades ago in another country.
At the same time, those same subspecialists may have recent experience in the subdomain of interest (e.g. intensive care) that would be helpful in the management of the crisis.
vii. 규제당국과 국회의원은 예를 들어 필요한 경우 더 작은 범위의 독립적 실무에 대해 제한된 면허를 가진 의사를 허가하기 위한 조건을 재고해야 하는가? 고급advanced 의학 학습자에게도 이런 일이 일어날 수 있을까요? COVID-19 대유행에서 볼 수 있듯이, 갑작스런 건강 재해로 인해 병원은 통상적인 훈련 없이 보건 전문가를 모집해야 할 수 있다. 이러한 필요를 충족시키기 위해 그림 1의 차원들을 고려해야 한다.
(a) (양적 및 질적으로) 추가 인력의 긴급 요구
(b) 작업의 위험(즉, 환자와 의료 종사자 모두의 치료 중 부작용의 위험) 및
(c) 재배치에 이용 가능한 자들의 경험 수준.
viii. Should regulators and lawmakers rethink the conditions for licensing physicians, for example, with restricted licences for a smaller scope of independent practice if needed? Could this happen with advanced medical learners? As seen in the COVID-19 pandemic, sudden health disasters can result in hospitals needing to recruit health professionals without the usual training. In meeting this need, the dimensions included inFigure 1must be considered:
(a) the urgent need for extra hands (in quality and quantity),
(b) the danger of the work (i.e. the risks of adverse events during care for both patients and health care workers) and
(c) the level of experience of those available for redeployment.
세 가지 차원 모두 스케일 값을 가지며, 낮음 또는 높음일 수 있으며, 신중한 조합이 배포의 허용 가능성(또는 라이센스 정식 위탁)을 결정할 수 있습니다.
All three dimensions have scale values and may be low or high, and a thoughtful combination may determine the acceptability of deployment (or, if you will, formal entrustment with a license).
ix. 적절한 감염 관리 정책, 충분한 개인 보호 장비, 훈련 기회 및 보상 구조와 같은 의료 종사자의 재배치를 요청할 때 [지역, 주 및 연방 당국의 상호적인 의무]는 무엇인가? 이러한 부족한 인력을 법적 영향으로부터 보호하기 위해 재해가 의사들에게 현재 실무 범위를 초과하여 일할 것을 요구하는 경우(또는 규제자가 요구할 경우) 책임 규칙을 채택해야 하는가? ix. What are the reciprocal obligations of local, state, and federal authorities when requesting redeployment of health care workers, such as adequate infection control policies, sufficient personal protective equipment, training opportunities, and reward structures (Antommaria2020)? Should liability rules be adapted if a disaster demands (or a regulator requires) physicians to work beyond their current scope of practice, to protect these scarce workforces from legal repercussions?
x. 보건 위기가 지나가서, 의료 전문가의 필요성이 평상시 수준으로 돌아간 다음에는 어떻게 되어야 하는가? 위기의 대응으로 긴급 면허가 유지되어야 하는가? 아니면 유효기간이 있어야 할까? 위기 경험은 어떤 식으로든 믿을 수 있는가? 그리고 우리는 다음 위기에 더 잘 대비하기 위해 배운 교훈을 어떻게 이용할까?
x. What happens after the health crisis has passed, and the need for health care professionals returns to normal requirements? Does the emergency licensing done in response to the crisis persist? Or does it have an expiry date? Can crisis experiences be credentialed in any way? And how do we use the lessons learned to better prepare for the next crisis?
고찰 Discussion
산업화된 세계의 의사들과 교육자들은 예측 가능한 방향으로 의료 역량을 생각하기 위해 움직였을지도 모른다. COVID-19 위기는 새로운 질병이 어떻게 많은 문제를 야기하는지, 그리고 관리 권고안이 어떻게 수개월에 걸쳐 바뀔 수 있는지를 일반 대중에게 보여주었다. 이는 '유능한 의사'조차도 항상 무엇이 최선인지 알지 못하고 불확실성으로 압도될 수 있는 방법을 강조한다. 현재와 같은 위기상황에서, 어떻게 우리가 대응하도록 인력을 최적화할 수 있을까요? Physicians and educators in the industrialized world may have moved to think of medical competence in a predictable direction. The COVID-19 crisis has revealed to the general public how a new disease creates many challenges and how recommendations for management can change over a period of months. This highlights how even ‘competent physicians’ do not always know what is best and can be overwhelmed with uncertainty. In a crisis like the current one, the question comes up: How can we optimize the workforce to respond?
우리의 관찰과 질문의 일반적인 결론은 [의료 기관]과 [규제 기관]뿐만 아니라 [의사]들도 사회의 건강 요구가 적응을 요구할 때 [개별적으로 그리고 집단적으로] 적응할 준비를 해야 한다는 것이다. 이것은 의료 능력 표준의 개념화에 영향을 미친다. COVID-19 위기는 이러한 표준이 이전에 생각했던 것보다 덜 정적인 것일 수 있다는 것을 알게 했다.
The general conclusion of our observations and questions is that physicians, as well as health institutions and regulatory bodies, should be prepared, individually and collectively, to adapt when the health needs of society call for adaptation. This has implications for the conceptualization of standards of medical competence. The COVID-19 crisis has made us aware that these standards may be less static than we previously believed.
Med Teach. 2021 Jul;43(7):817-823.
doi: 10.1080/0142159X.2021.1928619.Epub 2021 May 27.
Questioning medical competence: Should the Covid-19 crisis affect the goals of medical education?
1Center for Research Development of Education, University Medical Center Utrecht, Utrecht, The Netherlands.
2Department of Family Medicine, Queen's University, Queen's University, Kingston, Canada.
3Royal College of Physicians and Surgeons of Canada and Department of Emergency Medicine, University of Ottawa, Ottawa, Canada.
4University Medical Center Utrecht, Utrecht, The Netherlands.
5CBAS Program in the Department of Family Medicine, University of Alberta, Edmonton, Canada.
6Division of Emergency Medicine, Cincinnati Children's Hospital Medical Center and the University of Cincinnati College of Medicine, Cincinnati, Ohio, USA.
7Royal College of Physicians and Surgeons of Canada, McGill University, Montreal, Canada.
8Association of American Medical Colleges, Washington DC, USA.
9Department of Psychiatry, Donald and Barbara Zucker School of Medicine at Hofstra/Northwell and the Zucker Hillside Hospital at Northwell Health, Glen Oaks, NY, USA.
The COVID-19 pandemic has disrupted many societal institutions, including health care and education. Although the pandemic's impact was initially assumed to be temporary, there is growing conviction that medical education might change more permanently. The International Competency-based Medical Education (ICBME) collaborators, scholars devoted to improving physician training, deliberated how the pandemic raises questions about medical competence. We formulated 12 broad-reaching issues for discussion, grouped into micro-, meso-, and macro-level questions. At the individualmicro level, we ask questions about adaptability, coping with uncertainty, and the value and limitations of clinical courage. At the institutionalmeso level,we question whether curricula could include more than core entrustable professional activities (EPAs) and focus on individualized, dynamic, and adaptable portfolios of EPAs that, at any moment, reflect current competence and preparedness for disasters. At the regulatory and societalmacro level, should conditions for licensing be reconsidered? Should rules of liability be adapted to match the need for rapid redeployment? We do not propose a blueprint for the future of medical training but rather aim to provoke discussions needed to build a workforce that is competent to cope with future health care crises.
암묵적이고 추론되는: 평가 과학에 도움이 되는 철학적 입장에 대하여(Adv Health Sci Educ Theory Pract.2021) Implicit and inferred: on the philosophical positions informing assessment science Walter Tavares1 · Kathryn Hodwitz2 · Paula Rowland3 · Stella Ng4 · Ayelet Kuper5 · Farah Friesen6 · Katherine Shwetz7 · Ryan Brydges8
도입 Introduction
보건 분야의 교육자들은 평가를 체계화할 때 점점 더 역설적인 상황에 직면한다. 한편, 평가의 발전은 평가의 특징에 대한 사고와 접근 방식을 넓혔다(Tavares et al., 2019). 즉, 다른 분야와 마찬가지로, 평가 문제를 해결하는 방법은 다양한 철학적 위치에서 질문되고 있다. 반면에, 이처럼 [확대된 견해]는 [평가 전략에 접근하고, 평가 전략을 평가하는 최선의 방법]에 대한 긴장을 조성한다. Health professions educators face a growing paradox when structuring assessment. On the one hand, advances in assessment have broadened how we think about and approach features of assessment (Tavares et al., 2019). That is, ways of solving assessment problems are now interrogated from a variety of philosophical positions, such as post-positivist and constructivist lenses (defined below) among others (Govaerts et al., 2007, 2013). On the other hand, these broadening views create tensions in how best to approach and evaluate assessment strategies.
[철학적 입장(패러다임이라고도 함)]은 (역량의 본질, 평가 방법 및 타당성 주장의 구조를 이해하는 방법을 포함하여) 학자들에게 [문제와 해결책을 검사하기 위한 렌즈를 제공하는 일련의 인정된 가정 또는 지적 프레임워크]를 나타낸다(Tavares et al., 2019). 이러한 입장이 평가 컨텍스트에서 혼합될 때 다음과 같은 문제가 발생할 수 있습니다. Philosophical positions (also referred to as paradigms) represent sets of recognized assumptions or intellectual frameworks that provide scholars with lenses for examining problems and solutions (Kuhn, 1996; Tashakkori & Teddlie, 2010), including how we understand the nature of competence, ways of assessing, and the structuring of validity arguments (Tavares et al., 2019). When these positions intermingle in an assessment context, questions can arise, such as:
동일한 수행에 대한 서로 다른 평가 점수는 [오류]로 보아야 하는가 또는 [의미 있는 풍부성]으로 간주해야 하는가?
[서면 코멘트를 평가 데이터로 사용하는 것]이 개인의 "진정한" 능력을 삼각측량할 수 있는 기회를 제공하는가? (즉, 잠재적 특성latent traits 집합으로서의 역량)
[서면 코멘트]는 주어진 맥락과 시간에서 개인에 대한 이야기를 공동 구성하는 데 기여하는가(즉, 사회적으로 구성된 역량)?
Should we treat different rater scores of the same performance as error or as meaningful richness?
Does the use of written comments as assessment data provide opportunities for triangulating the “true” capabilities of individuals (i.e., competence as a collection of latent traits)? or
Do written comments contribute to co-constructing a narrative about individuals in a given context and time (i.e., competence as socially constructed)?
이러한 질문 및 기타 근본적인 평가 관련 질문에 대한 반응은 적용되는 철학적 입장에 따라 달라질 것이다. 평가의 우수성을 보장하기 위해, 이러한 긴장감의 함축성을 검토해야 하며, 여기에는 방치된 철학적 입장과 관련 가정이 평가 과학 내에서 무언의 긴장을 초래하고 따라서 차선의 구체화와 실천이 어떻게 이루어질 수 있는지를 포함시켜야 한다.
Responses to these and other fundamental assessment-related questions will vary based on the underlying philosophical positions applied. To ensure excellence in assessment, the implications of this tension must be examined, including how unattended philosophical positions—and their associated assumptions—may lead to unspoken tensions within assessment science and thus sub-optimal materializations and practices.
표 1 다른 철학적 입장이 교육자로 하여금 다른 평가 전략을 적용하도록 이끌 수 있는 방법에 대한 래터 훈련을 사용하는 가상의 예 Table 1 A hypothetical example, using rater training, of how different philosophical positions can lead educators to apply different assessment strategies
평가에 대한 철학적 입장의 다양성은 적어도 세 가지 관련 문제를 제기한다.
The diversity in philosophical positions informing assessment raises at least three related issues.
첫째, 평가의 각 핵심 특징(즉, 구성/역량의 특성, 평가 활동, 정당화 전략)은 서로 다른 철학적 위치에 의해 inform될 수 있기에, 동일한 개념에 대한 서로 다른 이해로 귀결될 수 있다. 우리는 같은 언어를 사용할지 모르지만 다른 의미를 의도한다. 예를 들어, [구성이나 역량의 특성]은 [잠재된 특성]들의 집합으로 볼 수 있으면서(Borsboom, 2005), [사회적으로 구성된 것]으로 볼 수도 있다(Kuper 등, 2007), 또는 관찰될 수 있는 범위 내에서만 현실로 볼 수 있다.
First, each core feature in assessment (i.e., nature of constructs/competence, assessment activities, justification strategies) can be informed by different philosophical positions, resulting in different understandings of the same concepts. We may use the same language but intend different meanings. For example, the nature of constructs or competence can be viewed as a collection of latent traits (Borsboom, 2005), as socially constructed (Kuper et al., 2007), or as real only to the extent that it can be observed.
둘째, 평가 설계자는 철학적 가정을 완전히 고려하지 않은 경우 자신도 모르게 [평가 프로그램의 구현을 저해할 위험]이 있다. 존재론적 및 인식론적 쌍pairing(예: 구성을 인식하는 방법과 평가되는 방법)은 평가 프로그램을 가이드 할 수 있지만, 그러려면 관련된 가정의 논리와 "규칙"을 주의하고 준수해야만 한다. (다수의) 특징과 논리를 아우르는 이러한 일관성을 "호환가능성 원리"로 설명되었다(Tavares et al., 2019).
비호환성의 한 가지 예는, 연구자들이 역량을 사회적으로 구성된 것으로 보는 것에서 시작하지만(이 관점에서 다양한 데이터 출처와 유형을 수집하도록 유도할 수 있음),
모델의 방어성 또는 신뢰성을 입증할 때에는 신뢰성 지표(예: 크론바흐의 알파)를 보고하는 등 field-level norm을 따르는 것이다.
다양한 출처의 데이터를 가지고 오로지 일관성을 추구한다면, 이 경우 "비호환성"이 발생할 가능성이 높아진다. 이러한 모습은 평가의 세 가지 핵심 요소, 즉 [구성, 데이터 수집, 정당화constructs, data collection, and justification]의 근간이 되는 철학적 입장에 존재하는 긴장을 반영한다.
Second, assessment designers may be at risk of unwittingly undermining the implementation of assessment programs when they have not fully considered their philosophical assumptions. Ontological and epistemological pairings (e.g., how we perceive constructs and how they are to be assessed) can guide assessment programs; however, this obligates attention and adherence to the logic and “rules” of related assumptions. This coherence across features and logic has been described elsewhere as a “compatibility principle” (Tavares et al., 2019).
An example of a potential incompatibility begins with researchers viewing competence as socially constructed, a view that might lead to collecting diverse data sources and types,
but then follow field-level norms by reporting reliability indicators (e.g., Cronbach’s alpha) to demonstrate the model’s defensibility or trustworthiness.
The generation of diverse data sources only to seek their consistency presents the potential for “incompatibility” and reflects tensions in the philsophical positions underpinning three key components of assessment, namely views on constructs, data collection, and justification.
셋째, 평가 프로그램에 의해 생성된 데이터를 적절히 평가하려면, [최종 사용자는 설계자의 철학적 입장과 가정을 이해해야 하며], 이에 대한 최종 데이터를 비교하고 품질을 평가할 수 있다(Kane, 2013; Markus & Borsboom, 2013). 우리는 이것이 연구자들이 그들의 입장을 명시적으로 진술하고 질적 연구에서 반사성reflexivity에 관여하는 역할과 가치와 유사하다고 생각한다. 그래야만 최종 사용자는 결과를 더 잘 이해하고, 결과를 더 잘 포지셔닝시킬 것이며, 과학적 엄격성과 품질을 평가할 수 있습니다. Third, to adequately evaluate the data generated by assessment programs, end users must understand the designer’s philosophical positions and assumptions, against which they can compare the eventual data and appraise its quality (Kane,2013; Markus & Borsboom,2013). We consider this as analogous to the role and value of researchers explicitly stating their stance and engaging in reflexivity in qualitative research (Crotty,1998; Denzin & Lincoln,2008; Guba & Lincoln,1994). Doing so helps end users to better understand and position results, and to evaluate scientific rigor and quality.
잠재적 함의를 감안할 때, 우리는 보건직업 교육(HPE)의 평가 과학자와 설계자가 그들의 실무에서 철학적 입장의 역할에 대해 어떻게 보고했는지 이해하는 것을 목표로 했다. 우리는 특히 사용자가 해당 정보를 어떻게 찾고 사용할 수 있는지를 이해하고 추론하려고 노력했다. 특히, 우리는 "내재적 역할intrinsic role"(예: 커뮤니케이션, 전문성, 리더십)에 대한 평가에 초점을 맞췄다(Sherbino 등, 2011년) 많은 학자들은 [내재적 역할이 [인문사회과학의 철학] 안에 가지고 있는 뿌리]에 대한 동등한 강조 없이 대안적 평가 활동의 필요성만을 강조해왔다. 예를 들어 이러한 역할에 대한 평가를 의료 전문지식medical expertise과 통합할 수 있다고 가정하면, philosophically-informed assessment라는 관점에서 볼 때 잠재적인 논리적 결함이 발생한다. Given the potential implications, we aimed to understand how assessment scientists and designers in health professions education (HPE) have reported on the role of philosophical positions in their practice. We specifically sought to understand and infer how knowledge users might locate and use that information. In particular, we focused on the assessment of “intrinsic roles” (e.g., communication, professionalism, leadership) (Sherbino et al., 2011), for which many scholars have emphasized the need for alternative assessment activities without an equal emphasis on the roots intrinsic roles have in the philosophies of humanities and social sciences (Kuper & D’Eon, 2011; Kuper et al., 2017). Assuming one can integrate assessment of these roles alongside medical expertise, for example, produces potential logical flaws when viewed from a philosophically informed assessment perspective.
방법들 Methods
스터디 개요 Study overview
1단계에서는, 본질적 역할(예: 전문직업성)을 (명시적 초점 또는 전반적 역량 평가의 통합 구성요소로) 포함하는 성과 기반 평가 문헌의 최근 대표 표본(포괄적이지는 않지만)을 식별하였다. 3년에 걸쳐 표본을 추출하기로 선택함에 있어, 우리는 "최신" 문헌의 표본을 추출하기 보다는 대표적인 표본을 선택하여 우리의 원칙에 따라 조사하는 것을 목표로 했다. 이 접근법은 폭보다 분석의 깊이를 강조하는 지식 통합에 대한 서술적이고 비판적인 해석론적 견해와 일치한다(Greenhalgh 등, 2018; Grant 등, 2009; Dixon-Woods 등, 2005). Phase 1 involved identifying a recent and representative (but not comprehensive) sample of performance-based assessment literature that included intrinsic roles (e.g., professionalism) as an explicit focus or as an integrated component of an overall competence assessment. In choosing to sample over a 3-year period, we aimed to select a representative sample and probe it with our principle, rather than to sample the literature such that were “up to date.” This approach aligns with the narrative, critical interpretivist view of knowledge synthesis, which emphasizes depth of analysis over breadth (Greenhalgh et al.,2018; Grant et al.,2009; Dixon-Woods et al.,2005).
2단계는, 정성적 내용 분석을 사용하여 (가능한 경우) 각 논문 저자들의 연구 선택을 뒷받침하는 철학적 입장을 설명하는 발췌를 추출하였다. 성과 기반 평가의 세 가지 주요 기능에 대해 이 작업을 수행했습니다.
(1) 구성의 특성 및 역량
(2) 평가 활동의 구조 및 전달, 특히 평가자의 역할
(3) 정당화 및 검증 방법
Using qualitative content analysis, Phase 2 involved extracting excerpts (where possible) describing the philosophical positions of each paper’s authors that would have underpinned their research choices. We did this for three key features of performance-based assessment:
(1) the nature of constructs and competence,
(2) structure and delivery of assessment activities, particularly the role of raters, and
(3) methods of justification and validation.
저자의 철학적 입장을 직접적으로 선언한 본문의 발췌가 없을 때, 우리는 좀 더 간접적인 신호(예: 참고문헌, 특징들이 어떻게 운용되었는가)를 사용하여 잠재적인 철학적 입장을 추론하려고 시도했다. 마지막으로, 이러한 기능에 대한 호환성 문제를 관찰, 해석 및 설명하는 것을 목표로 했다.
In the absence of excerpts of text that directly declared authors’ philosophical positions, we attempted to infer potential philosophical positions using more indirect signals (e.g., references, how features were operationalized). Finally, we aimed to observe, interpret, and describe any issues of compatibility across those features.
이 정보를 추출하면서, 우리는 지식 사용자와 연구자로서, 우리 자신도 연구 목표를 해결하는 데 필요한 데이터를 도출하기 위해 고군분투한다는 것을 깨달았다. 특히, 우리는 저자들의 철학적인 입장에 대해 상당히 추론에 의존했다. 따라서 다음과 같은 두 가지 분석 및 해석 수준에 따라 결과를 보고합니다.
레벨 1—포함된 간행물에 직접 보고되는 평가의 특징과 관련된 우리의 관찰 사항
레벨 2—내재적 역할에 대한 성과 기반 평가에 대한 보고서에서 제안된 호환성 원칙과 관련된 철학적 입장 상태에 대한 우리의 관찰에 대한 비판적 서술 요약.
In extracting this information, we realized that even as informed knowledge users and researchers, we struggled to elicit the necessary data to address our research aims. Specifically, we relied on a high degree of inference about many of the authors’ philosophical positions. As such, we report our results according to two levels of analysis and interpretation:
level 1—our observations related to the features of assessment that are directly reported in the included publications; and
level 2—a critical narrative summary of our observations regarding the state of philosophical positions, as they relate to our proposed compatibility principle, in reports on performance-based assessments of intrinsic roles.
연구 접근법 Study approach
검토자("지식 사용자")에 대한 참고 사항 Notes on reviewers (“knowledge users”)
우리 팀은 다양한 철학적 위치의 역할과 기능에 대한 철저한 이해를 가진 교육, 평가, 인문, 사회과학 연구자들을 포함했다. 우리는 다양한 학문적 배경을 가진 구성원들로 구성된 연구팀을 만들었고, 그들 자신의 독립적인 연구 프로그램 내에서 다양한 철학적 위치에 걸쳐 있었다. 평가에 대한 우리의 전문지식은 실무지식 보유에서 해당 분야의 선도적인 연구 프로그램에 이르기까지 다양했다.
Our team included education, assessment, humanities, and social sciences researchers with a thorough understanding of the role and function of various philosophical positions. We created a research team with members from diverse disciplinary backgrounds and that spanned a range of philosophical positions within their own independent research programs. Our expertise in assessment varied from having a working knowledge to leading programs of research in the domain.
1단계—검토를 위한 평가 문서의 대표적인 샘플 설정 Phase 1—establishing a representative sample of assessment articles for review
저널 선정 및 기사 식별 Journal selection and article identification
우리는 HPE의 평가 문헌의 최근 대표 샘플을 다음과 같이 식별함으로써 시작했다. We began by identifying a recent and representative sample of assessment literature in HPE by:
1. 2017년 저널 인용 보고서의 "교육, 과학 분야"에 열거된 의료/보건 직업 교육 분야의 상위 저널을 식별(2018년 아직 사용할 수 없음). 1.Identifying top journals in medical/health professions education listed under “Education, Scientific Disciplines” of the Journal Citation Reports for the year of 2017 (2018 was not yet available).
2. 저널 영향 인자의 조합에 기초하여 3개의 저널을 선택하고 관심 주제(즉, HPE의 평가)를 표현한다. 2.Selecting three journals based on a combination of journal impact factor and representing the topic of interest (i.e., assessment in HPE).
3. 평가문헌의 대표적인 표본으로 2016~2018년 연구논문 선정(학술지의 목차로 결정하고 Web of Science를 사용하여 교차 점검) 그런 다음 이러한 문서는 포함 기준과 분석을 검토하기 위해 EPPI-리뷰어 소프트웨어로 가져오게 된다. 3.Selecting research articles from 2016–2018 (as determined by the journal’s table of contents and cross-checked using Web of Science) in each journal as a representative sample of assessment literature. These articles were then imported into EPPI-Reviewer software for review of inclusion criteria and analysis (https://eppi.ioe.ac.uk/EPPIReviewer-Web/home).
심사: 기사 추상적 검토 및 포함 기준 Screening: article abstract review and inclusion criteria
두 명의 팀원이 각각의 제목과 개요를 독립적으로 검토했다. 불일치를 해결하기 위해 쌍이 충족되었으며, 주 조사자(WT)에 의해 지속적인 불일치가 해결되었습니다. 제목과 추상적인 내용을 포함하려면 다음을 수행해야 합니다.
Two team members independently reviewed each title and abstract. Pairs met to resolve discrepancies, with persistent disagreements resolved by the principal investigator (WT). To be included, the title and abstract needed to:
1.평가에 관한 1차 연구 또는 프로그램 평가에 관한 보고서 1.Report on primary research or program evaluation on assessment;
2.새로운 경험적 작업(즉, 역량 평가와 관련된 모든 종류의 새로운 데이터를 생성하려는 시도)을 설명한다. 2.Describe new empirical work (i.e., attempt to generate new data of any kind related to assessment of competence);
3.역량의 구성/정의의 일부 또는 독점적으로 하나 이상의 고유 역할에 대한 평가를 포함합니다. 우리는 검토자를 CanMEDs(Frank et al., 2015) 및 ACGME(Accreditation Council for Graduate Medical Education) 프레임워크(Holmboe et al., 2016)를 사용하는 고유 역할의 예에 초점을 맞췄지만 이러한 프레임워크에 국한하지는 않았다. 3.Include assessment of one or more intrinsic roles, exclusively or as part of the construct/definition of competence. We oriented reviewers to examples of intrinsic roles using the CanMEDS (Frank et al.,2015) and Accreditation Council for Graduate Medical Education (ACGME) frameworks (Holmboe et al.,2016) but did not limit ourselves to those frameworks.
4.외부 관찰자가 추론 기반 판단을 해야 하는 모든 유형의 시뮬레이션 또는 업무 기반 성과 기반 활동을 사용하여 학습자의 평가를 포함한다. 4.Include assessment of learners using any type of simulation or work-based performance-based activity that required external observers making inference-based judgments.
2단계—데이터 추출 및 분석: 저자의 철학적인 위치에 존재 및 호환성 Phase 2—data extraction and analysis: presence of and compatibility in authors’ philosophical positions
철학적 입장을 민감하게 만드는 것에 대한 참고사항 Notes on sensitizing philosophical positions
데이터 추출을 지원하기 위해, 우리는 평가 맥락에 적용할 두 가지 광범위한 철학적 입장에 대한 상세한 설명을 가진 검토자를 준비했다. 사후 긍정주의/객관주의 및 구성주의/해석주의 (타바레스 외, 2019).현존하는 문헌에서 학자들은 이 두 가지 패러다임 중 하나를 다른 패러다임으로 대체하거나 둘 모두를 포함시킬 것을 주장해왔다(Govaerts & van der Vleuten, 2013; Pearce, 2020).
우리는 [후기 실증주의/객관주의]를 [측정 및 심리측정학과 밀접하게 align되어서, 완전히 접근할 수는 없고 어느 정도의 오류가 있기는 하지만 잠재하고 발견 가능한 객관적 진실이 있다는 입장]으로 보았다. 이 위치 내에서 평가 활동은 종종 정량화와 오류 발생 원인을 완화시키기 위한 노력(예: 상황 특수성을 최소화하기 위한 샘플링, 평가자 오류를 줄이기 위한 훈련)을 포함한다. 정당화 전략은 일반적으로 통계적입니다(예: 평가자간 신뢰성, 일반화 이론, 상관 관계).
우리는 [구성주의/해석주의를 주어진 맥락에서 역량이 수행의 해석으로만 이해된다는 개념]과 관련이 있다고 여겼다. 즉, 객관적인 진실은 없는 것이다. 구인(예: 역량, 전문직업성)은 주관적이며 주어진 시점에서 다양한 해석에 개방적이다. 의미는 평가자-학습자 상호작용에서 구성되며 특정 시간의 환경 및 사회적 맥락에 의해 영향을 받는다. 정당성에는 질적 연구의 엄격함(예: 삼각 측량, 포화)과 일치하는 전략이 포함된다.
To support data extraction, we prepared reviewers with a detailed description of two broad philosophical positions: post-positivism/objectivism and constructivism/interpretivism, applied to assessment contexts (per Tavares et al.,2019). In the extant literature, scholars have advocated for replacing one of these two paradigms with the other, or the inclusion of both (Govaerts & van der Vleuten,2013; Pearce,2020).
We considered post-positivism/objectivism as closely aligned with measurement and psychometrics, and the position that there is an objective truth that is latent and discoverable, although not fully accessible and with some degree of error (Borsboom, 2005; Crotty, 1998). Within this position, assessment activities often involve quantification and efforts to mitigate sources of error (e.g., sampling to minimize context specificity, training to reduce rater error). Justification strategies are generally statistical (e.g., inter-rater reliability, generalizability theory, correlations).
We considered constructivism/interpretivism in assessment to be associated with the notion that competence is only understood as an interpretation of performance in a given context; there is no objective truth (Borsboom, 2005; Crotty, 1998). That is, constructs (e.g., competence, professionalism) are subjective and open to multiple diverse interpretations in a given point in time. Meaning is constructed in the assessor–learner interaction and influenced by the environment and the social context of a particular time. Justifications often include strategies consistent with rigor in qualitative research (e.g., triangulation, saturation).
이러한 입장에 더하여, 우리는 검토자들이 다른 철학적 입장과 연관될 수 있는 신호에 개방될 수 있도록 허용하고 장려했습니다. 우리는 또한 방법과 관련된 중립성과 광범위한 일반화 문제에 민감했다. 즉, 텍스트 기반 데이터, 광범위한 샘플링 및 양적 또는 질적 방법의 사용이 둘 이상의 철학적인 위치에 적용될 수 있음을 인식했다. 우리는 저자들이 연구를 수행하기 위해 사용하는 연구 방법보다는 기사에서 설명한 평가 기능에 초점을 맞췄다.
In addition to these positions, we allowed and encouraged reviewers to be open to signals that might be associated with other philosophical positions. We were also sensitive to issues of neutrality and broad generalizations related to methods. That is, we recognized that text-based data, broad sampling, and the use of quantitative or qualitative methods, for example, could be applied to more than one philosophical position. We focused on assessment features as described in the articles, rather than on the research methods used by the authors to conduct their studies.
데이터 해석 및 추출 Data interpretation and extraction
2단계에서는 4명의 팀원이 짝을 이루어 각 기사의 전문을 검토했다(WT와 PR; RB와 KH). 우리는 자신의 독립적인 연구 프로그램에서 서로 다른 철학적인 입장에 맞는 팀원들을 의도적으로 일치시켰다. 데이터 추출 및 콘텐츠 분석 프로세스가 동시에 발생하여 다음과 같은 작업이 수반되었습니다.
In phase two, four team members worked in pairs (WT and PR; RB and KH) to review the full text of each article. We purposefully matched team members who align with different philosophical positions in their own independent research programs. The data extraction and content analysis processes occurred simultaneously and involved:
1. 본문 전체를 읽고, 위에 기술한 포함 기준을 적용한다. 1.Reading the full texts and applying the inclusion criteria described above.
2. 평가의 세 가지 특징 파악한다:이 세 가지 특징은 평가와의 관련성 및 철학적 입장과 관련된 가능한 가변성 때문에 선택했습니다.
(a) 포함된 구인 및 역량의 정의/개념화,
(b) 평가 활동, 특히 관찰자의 역할, 그리고
(c) 신뢰도 또는 정당성 전략.
2.Identifying three features of assessment:
(a) definition/conceptualization of included constructs and/or competence;
(b) assessment activities, specifically the role of the observer, and
(c) trustworthiness or justification strategies.
We selected these three features because of their relevance to assessment, and the possible variability related to the philosophical positions informing each.
3. 저자가 이 세 가지 특징 및/또는 기본 입장을 추론하는 데 사용될 수 있는 진술과 관련된 철학적 입장을 직접적으로 나타내는 진술을 추출한다. 우리는 검토자를 가정의 지표indicators of assumptions로 민감화 했다(위에서 설명한 바와 같이). 우리의 접근법은 직접적인 인용문을 사용하려는 시도에서 시작되었지만, 철학적 입장에 대한 보고가 우리의 연구 샘플에서 거의 완전히 빠져있었기 때문에 해석적이 되었다. 따라서 각 구성원은 분석을 위한 평가의 각 특징에 대한 의견(즉, 직접 인용, 해석 및 추론)을 제공하였다. 3.Extracting statements that either directly indicated the authors philosophical position related to these three features and/or statements that could be used to infer underlying positions. We sensitized reviewers with indicators of assumptions (as described above). Our approach began with an attempt to use direct quotes, but became interpretive because reporting of philosophical positions was almost entirely absent in our sample of studies. Therefore, each member provided comments (i.e., direct quotes, interpretations, and inferences) for each feature of assessment for analysis.
4.각 특징에 대해 작성한 데이터와 메모를 귀납적 정성적 설명을 사용하여 탐색했습니다(Sandelowski, 2000, 2010). 이것은 의도적으로 개별 본문에서 물러나 우리의 연구 문제와 관련된 문헌에 대한 우리의 관찰의 요약을 제공하기 위한 것이었다. 4.The data and notes made for each feature were then explored using inductive qualitative description (Sandelowski,2000,2010). This was to intentionally step back from the individual texts and provide a summary of our observations of the literature related to our study question.
5.우리 연구팀은 자주, 반복적으로 만나서 긴장, 어려움, 관찰 및 데이터 수집 프로세스의 필요한 개선 사항 및 데이터 역할을 문서화하고 해결하고자 했다.
5.Our research team met frequently and iteratively to discuss and document tensions, difficulties, observations and where necessary refinements to our data collection process and struggles which we documented and also served as data.
우리는 연구나 연구 설계를 알리는 위치보다는 평가 특징을 알려주는 철학적 위치에 주의를 집중했다. 그러나 이러한 위치가 중복될 수 있다는 것을 인정했다. 또한 포함된 연구가 항상 우리가 추구하는 방식으로 평가 프로그램을 완전히 설명하지는 않을 것으로 예상했습니다. 우리는 각 연구에서 평가의 세 가지 특징에서 분명한 위치성을 관찰한 다음 연구 내 적합성에 대한 관찰과 해석에 초점을 맞췄다. We focused our attention on the philosophical positions informing the assessment features of interest, rather than on the positions informing the research or study designs; however, we acknowledged that these could overlap. We also expected that included studies would not always fully describe assessment programs in the ways we sought. We concentrated on observing the positionality evident in the three features of assessments in each study, then on our observations and interpretations of compatibility within the studies.
결과. Results
문헌 식별 Article identification
2016년부터 2018년까지 학술지 Academic Medicine (C) = 14,420, JIF(Journal Impact Factor) = 4.8, 의학교육(C = 9,420, JIF = 4.4), 보건과학의 진보(C = 2,341, JIF 2.57 적용 기준), 두 명의 독립 연구자의 제목과 추상적 심사를 거쳐 총 37개, 14개, 22개 논문(N = 73)이 전체 텍스트 검토를 위해 포함되었다. 전체 텍스트 심사 후, 전체 분석(학술 의학(n = 15), 의학 교육(n = 5), 보건 과학 교육의 진보(n = 12)에 32개의 논문이 포함되었다. 포함된 연구 특성은 표 2에 설명되어 있다.
From 2016 to 2018 in the journalsAcademic Medicine(Citations (C) = 14,301, Journal Impact Factor (JIF) = 4.8),Medical Education(C = 9,440, JIF = 4.4), andAdvances in Health Sciences Education(C = 2,341, JIF 2.57), application of our criteria led to inclusion of 507/1435, 218/751, and 168/233 papers, respectively (N = 893/2419). After title and abstract screening by two independent researchers, a total of 37, 14, and 22 articles (N = 73) were included for full text review. After full text screening, 32 papers were included for full analysis (Academic Medicine(n = 15),Medical Education(n = 5), andAdvances in Health Sciences Education(n = 12)). Included study characteristics are described in Table 2.
레벨 1—평가 기능과 관련된 관찰 사항 Level 1—observations related to features of assessment
우리는 다음을 이해하고자 했다.
(A) 저자들은 자신의 철학적 입장을 어떻게 보고했는가?
(B) 철학적 입장이 평가의 특징(즉, 구성/능력, 평가 활동, 정당성)에 어떻게 inform했는가?
(C) 철학적 입장과 관련된 기본적인 가정과 약속이 평가 특징 전반에 걸쳐 양립할 수 있는가?
We aimed to understand
(A) how authors reported on their philosophical positions,
(B) how features of assessment (i.e., constructs/competence, assessment activities, justification) were informed by these philosophical positions, and
(C) whether the underlying assumptions and commitments associated with the authors’ philosophical positions were compatible across assessment features.
모호하거나 불분명하거나 보고되지 않은 철학적 위치 Philosophical positions as vague, unclear, or not reported
목표 "A"에 관하여, 우리는 끊임없이 [저자의철학적인 입장에 대한 데이터를 추출할 수 없다는 것]을 확인했다. 철학적인 위치에 의해 평가 특징이 어떻게 전달되었는지에 대한 저자의 설명은 모호하거나 불분명하거나 보고되지 않았기 때문에 각 특징에 대한 높은 수준의 해석이나 추론이 필요했다. 이러한 해석의 필요성으로 인해 우리는 여러 팀 회의를 소집하여 저자의 잠재적 입장의 위치에 대해 논의하고 논의하게 되었습니다. 특히, 저자의 결정이 둘 이상의 철학적 입장과 연관될 수 있으나, 라벨이 부착되지 않거나 정의되지 않은 경우에 어려웠음을 확인했다. 우리는 이 발견의 일관성이 그 자체로 중요한 발견이라고 판단했고, 우리의 샘플을 넓히는 것이 우리의 연구 질문에 대한 추가적인 통찰력을 제공하지 못할 것이라고 결정했다.
For aim “A,” we found that we could not consistently extract data about authors’ philosophical positions. Authors’ descriptions on how assessment features were informed by philosophical positions were either vague, unclear, or not reported, and thus required a high degree of interpretation or inference for each feature. (e.g., Biagioli et al.,2017; DeMuth et al.,2018; Gingerich et al.,2017; Ginsburg et al.,2017; Hauer et al.,2018; Li et al.,2017; Martin et al.,2018; Mink et al.,2018; Naidoo et al.,2017; Naumann et al.,2016; Weingart et al.,2018)). This need to interpret led us to call multiple team meetings to discuss and debate the positionality of authors’ potential positions. We noted particular difficulty when authors’ decisions could be associated with more than one philosophical position, yet went unlabeled or undefined (e.g., Ginsburg et al.,2017; Hauer et al.,2018; Naidoo et al.,2017; Naumann et al.,2016). We determined that the consistency of this finding was an important finding in itself, and decided that broadening our sample would likely not provide additional insight toward our research question.
언급되지 않은 것을 보여주기 위해 발췌본을 쉽게 추출할 수 없다는 점을 감안할 때, [부재를 입증하는 것]은 어렵지만, 우리는 저자의 철학적 입장이 명시되지 않았고 여러 가지 방법으로 해석될 수 있었던 아래의 세 가지 예를 제공하고자 한다. 이러한 예들을 공유하는 우리의 의도는 이러한 연구의 방법, 결과 또는 전반적인 품질을 비판하기 위한 것이 아니라, 위치성이 얼마나 암묵적이거나 유추적인 결과들이 다양한 해석에 영향을 미칠 수 있는지를 보여주기 위한 것이다. While it is difficult to demonstrate such absences, (Paton et al.,2020) given that we cannot easily pull excerpts to show what wasnotsaid, we have provided three examples below in which authors’ philosophical positioning were not stated and could have been interpreted in multiple ways. Our intention in sharing these examples is not to criticize the methods, results, or overall quality of these studies, but rather to show how implicit or inferred positionality may leave the implications of findings open to varied interpretations.
사례 1에서, 저자들은 그들의 철학적인 위치에 대한 명확한 진술 없이 의사소통과 데이터 관리 기술을 평가하기 위해 OSCE를 탐구했다. 예를 들어, 주관적인 전략을 사용하여 의사 소통과 환자와의 관계 기술을 평가하기 위해 직접적인 관찰을 사용한 결과, 처음에는 구성주의자/해석주의자 입장을 취하는 듯 보였다. 그러나 다음 인용구를 비롯하여, (수치 등급 사용, 격리된 항목 강조(예: 간헐적으로 눈 마주침 유지) 및 정량화를 요구하는 것처럼 보이는) 다른 특징들은 좀 더 후기실증주의의 입장과 일치하는 것처럼 추론하게 했다: "환자의 알레르기를 발견하지 못한 것은 명백한 오류이다. 다른 항목은 환자 결과와 관련된 한 객관적으로 측정하기가 더 어렵다. 예를 들어, 간헐적인 눈 접촉의 양을 결정하는 것은 환자와의 친밀감을 형성하는 데 어렵다." 우리 팀은 객관성을 추구하기 위해 내재적 역할의 분해와 정량화가 평가의 현장 수준 표준과 연관되어 있다고 무심코 가정할 수 있는지, 그리고 그것이 작가들이 후기실증주의적 관점에서 작업했다는 것을 의미하는지 궁금했다. In Example 1, authors explored an OSCE to assess communication and data management skills, with no explicit statement of their philosophical positioning. For instance, their use of direct observations to assess communication and patient rapport skills using subjective strategies led us to assume at first a constructivist/interpretivist position. However, other features, such as their use of numeric ratings, their emphasis on isolated items (e.g., maintined eye contact intermittently), and the following quote seemingly calling for for quantification, had us inferring something more aligned with a more post-positivist position: “Failing to discover a patient’s allergy is clearly an error. Other items are more difficult to measure objectively insofar as they relate to patient outcomes. For example, determining how much intermittent eye contact is adequate to establish patient rapport is difficult.” Our team was left wondering if we might be inadvertently assuming the breakdown and quantification of intrinsic roles in the pursuit of objectivity was linked to the field-level norm in assessment, and if it meant authors’ had worked from a post-positivist view.
예 2에서 저자들은 자신의 입장을 밝히지 않고 다양한 평가 도구의 예측적 가치를 탐구했다. 저자들은 양적 및 질적 데이터를 모두 중시하는 것으로 보이며 환자, 동료 및 감독자의 데이터 소스를 컴파일해야 할 필요성에 대해 논의했습니다. 저자들은 또한 "교육생에 대한 개인적인 경험과 태도가 등급에 영향을 미칠 것 같다"고 인정했지만 (해당하는 경우) 평가자를 교정하거나 훈련시키거나 어떤 형태의 표준화도 확립하는 것을 목표로 하지 않았다. 그러한 결정은 다양하고 주관적인 성과 관점이 평가되어 독자들이 관련 분석 접근법의 제시를 기대하게 하는 구성주의적 입장을 시사할 수 있다. 그러나 저자들은 신뢰도를 사용하여 데이터 소스의 양적 특징(질적 데이터 제거)에 초점을 맞추고 "예측 유효성"을 탐구하기 위해 연관성 및 회귀 분석을 사용하여 다양성을 조사했다. 입장을 명시적으로 밝히지 않고, 우리 팀은 저자들이 다른 방식으로 가치 있는 다양하고 주관적인 관점을 고려하는지 또는 미래 예측의 정확성이나 신뢰성을 위해 그러한 관점을 완전히 붕괴시키는 것을 지지하는지 확신할 수 없었다. In Example 2, authors explored the predictive value of a variety of assessment tools without stating their position. The authors appeared to value both quantitative and qualitative data and discussed the need to compile the data sources from patients, colleagues, and supervisors. The authors also recognized “personal experiences and attitudes toward trainees will likely influence ratings,” yet did not aim to calibrate or train assessors (where applicable), nor to establish any form of standardization. Such decisions might suggest a constructivist position wherein diverse, subjective viewpoints of performance are valued leading readers to expect presentation of related analytical approaches. However, the authors used reliability to indicate quality of assessment instruments, focused on quantitative features of the data sources (eliminating qualitative data), and examined the diversity using measures of associations and regressions to explore “predictive validity.” Without stating a position explicitly, our team was unsure if the authors’ considered the diverse, subjective viewpoints valuable in other ways, or if they advocated fully for collapsing such viewpoints for the purposes of (presumably) accuracy or reliability of future predictions.
사례 3에서 저자는 평가 결과를 개선하기 위해 서술 데이터를 사용하여 탐구했으며, 또한 그들의 입장을 진술하지 않았다. 저자들은 "질적 및 주관적 데이터"와 평가에서 "지평을 확장"하여 정성적 데이터를 포함하는 수치 등급을 넘어서는 가치가 있다고 주장했다. 저자들은 또한 평가에서 순전히 심리측정적 접근법에서 벗어나는 것에 대한 문헌을 인용한다. 저자들은 전공의 순위의 신뢰성과 상관관계를 포함한 서술적 논평의 가치를 분석하기 위해 통계적 접근법을 사용했는데, 이는 구성주의 오리엔테이션과 잘 정렬되지 않은 것으로 해석될 수 있다. 이 정량화 수준은 후기 실증주의적 입장을 더 많이 반영할 수 있다. 그러므로, 어떤 독자들은 질적 자료의 검토에 대한 후기실증주의적 접근법을 인식하는 반면, 다른 독자들은 그렇지 않을 수 있으며, 대신에 통계적 신뢰성이 구성주의자들이 이의를 제기할 수 있는 입장인 서술적 논평의 가치를 평가하기 위한 핵심 지표라고 해석할 수 있다. In Example 3, author’s explored using narrative data to improve assessment outcomes, and also did not state their positions. The authors did argue that there is value in “qualitative and subjective data” and to “expand our horizons” in assessment to go beyond numeric ratings to include qualitative data. The authors also reference an article about moving away from purely psychometric approaches in assessment. The authors then used statistical approaches to analyze the value of narrative comments including reliability of resident rankings and correlations, which may be interpretted as poorly aligned with constructivist orientatons. This level of quantification may reflect more of a post-positivist position. Therefore, some readers may recognize the post-positivist approach to examine qualitative data, whereas others may not, and may instead interpret that statistical reliability is a key metric for assessing the value of narrative comments, a stance that constructivists may contest.
우리는 이러한 예들이 현장 수준의 보고 규범을 고수하는 연구 팀을 대표한다고 제안한다(즉, 철학적 입장을 명확하게 진술하지 않음). 이러한 모습은 이 분야에서 방법론적 접근법이 넓어지고, 다른 접근법을 지지하는 철학적인 논쟁이 덜 눈에 띄거나 사용될 수 있는 시대에 생겨났다고 볼 수 있다. 우리는 다음에 대한 대표적인 모습을 보여주고자 했다.
(a) 철학적 입장이 있을 수 있었지만 보고되지 않은 경우 (b) 의도하지 않은 해석에 대한 관련 잠재력 (c) 평가 기능 간의 양립성에 대한 공정하고 불공정한 비판의 가능성.
We suggest that these examples represent research teams adhering to field-level norms of reporting (i.e., no expecctation to clearly state philosophical positions), in a time where methodological approaches have broadened, and where philosophical arguments in support of different approaches may be less visble or used. We intended to represent
(a) opportunities where philosophical positions could have been, but were not reported,
(b) the associated potential for unintended interpretations, and
(c) the potential for both fair and unfair criticisms about compatibility between features of assessment.
평가 기능 제정 방법의 차이: 가변적 위치 제시 Differences in the way assessment features are enacted: suggesting variable positionality
목표 "B"를 위해, 우리는 [평가 특징이 집행enact되는 방법]의 다양성을 관찰했다. 그러나 철학적인 위치에 대한 직접 또는 가시적인 언급이 없어서 저자의 입장을 추론하기 위해 본문의 간접 언어와 다른 신호에 의존하게 되었다. 따라서 저자들이 [평가 기능을 집행한 방법을 어떻게 보고하였는지]에 초점을 맞추게 되었으며, 이를 통해 우리는 평가 기능의 위치positionality를 추정했다. 예를 들어, 우리는 일부 저자들이 구인의 조작화를 후기 실증주의적 위치(예: 잠재적 특성 또는 속성)와 연관시켰다고 해석했다.
For aim “B,” we observed variability in how assessment features were enacted; however, the absence of direct or visible references to philosophical positions left us relying on indirect language and other signals in the text to infer authors’ positions. This consequently led us to focus on how authors reported enacting assessment features, from which we presumed their positionality. For example, we interpreted some authors to associate their operationalization of constructs with post-positivist positions (e.g., as latent traits or attributes) (e.g., Bajwa et al., 2017; Biagioli et al., 2017; Cameron et al., 2017; DeMuth et al., 2018; Hicks et al., 2016; Lee et al., 2016; Li et al., 2017, 2018; Onishi et al., 2018; Park et al., 2016, 2017; Ross et al., 2017).
구성주의/해석주의자들의 프레이밍을 활용하는 저자들의 수는 더 적었다.
우리는 [관찰자를 객관적이지만 실수할 수 있고 상호 교환 가능하며 훈련을 통해 완화될 수 있는 오류에 기여하는 사람]으로 간주한 사례에 주목했다.
이와는 대조적으로, 어떤 연구자들은 관찰자의 주관성을 중시하는 것으로 보였고, 관찰자 사이의 변화를 의미 있는 것으로 위치시켰다.
타당화validation에 대한 일반적인 접근법에는 통계적 접근법(예: 일반성, 신뢰성, 평가자 효과에 대한 통제)의 활용이 포함되었다.
소수의 저자가 정성적 형태의 정당성(예: 신뢰성, 회원 확인, 이전 가능성)을 사용했다.
Fewer authors appeared to leverage constructivist/interpretivist framings (e.g., Christensen et al., 2018; Pool et al., 2018).
We noted instances in which observers were considered objective, but fallible, interchangeable and as contributing error that could be mitigated through training (e.g., Biagioli et al., 2017; Cameron et al., 2017; Dory et al., 2018; Naumann et al., 2016; Park et al., , 2016, 2017; Roberts et al., 2017a, b; Turner et al., 2017; Weingart et al., 2018).
By contrast, others appeared to value observer subjectivity, and positioned the variation between observers as meaningful (e.g., Chahine et al., 2016; Christensen et al., 2018; Pool et al., 2018).
A common approach to validation included leveraging statistical approaches (e.g., generalizability, reliability, controlling for rater effects) (e.g., Cameron et al., 2017; Chahine et al., 2016; DeMuth et al., 2018; Dory et al., 2018; Li et al., 2018; Mink et al., 2018; Onishi et al., 2018; Park et al., , 2016, 2017; Roberts et al., 2017a, b).
Fewer authors used qualitative forms of justification (e.g., credibility, member-checking, transferability) (e.g., Christensen et al., 2018; Pool et al., 2018).
일부 지표를 활용했지만 평가 방법이 둘 이상의 위치와 연관될 수 있기 때문에 기본적인 위치만 추론할 수 있었다. 따라서, 우리는 목표 "C"에 대한 의도된 분석을 완료할 수 없었다. While we leveraged some indicators, we could only infer underlying positions, in part because assessment methods can be associated with more than one position. As such, we could not complete our intended analysis for aim “C.”
레벨 2-호환성 평가 시 해석 및 결과 요약 Level 2—summarizing our interpretations and findings when attempting to appraise compatibility
분석 레벨 1 동안 직면했던 도전은 상당히 놀랍고 놀라웠기 때문에 많은 팀 토론과 토론을 촉발시켰다. 우리는 작가들의 철학적 입장을 해석하기 위해 상당한 시간을 보냈다. 토의하고, 토론하고, 경쟁하고, 우리 자신과 서로의 해석에 의문을 품었다. 두 논문(예: 사례)의 철학적 위치를 다르게 해석하는 연구팀의 다른 구성원의 대표적인 예가 보충 파일로 포함되어 있다.
The challenges faced during Level 1 of analysis were considerable and surprising, such that they prompted a great deal of team discussion and debate. We spent substantial time attempting to interpret authors’ philosophical positions, then discussing, debating, contesting, and questioning our own and each other’s interpretations. Representative examples of different members of the research team interpreting the philosophical positioning of two papers (i.e., cases) differently are included as a supplementary file.
시간이 지남에 따라, 우리는 그러한 토론들이 그들만의 독특한 결과를 제공한다고 판단했다. 다음은 원본 연구에서 규칙적이고 명시적인 보고가 없는 상황에서 철학적 입장을 해석하는 우리의 경험을 서술적으로 종합한 것이다. With time, we judged that such discussions offered their own unique findings. The following represents a narrative synthesis of our experiences interpreting philosophical positions in the absence of regular, explicit reporting in the original studies:
1.작가의 철학적 입장과 가정은 함축적이다.
저자가 철학적인 입장을 명확하고 명시적으로 보고하지 않을 때, 지식 사용자는 다양한 평가 기능과 관련된 의미를 추론하거나 다양하게 해석해야 한다. 예를 들어, 일부 저자들은 내적 역할의 구성을 단독으로 정의하거나 다른 차원들과 결합하지 않았다. 저자들은 관찰자의 역할에 대해 논의했지만, 때때로 저자들의 철학적 위치에 대한 우리의 추론에 자신감을 남길 만큼 충분한 세부 사항이 없었다. 또한, 정당화 과정에서, 저자들은 평가의 다른 특징과 짝을 이루는 것에 대해 어느 정도 다른 철학적 입장(예: 통계적 주장, 엄격함의 질적 개념과 일치하는 접근법)을 제시한 방법이나 접근법을 사용했다. 하나의 방법들이 어떤 철학적 입장과 연관될 수 있는 여러 가지 방법이 있음을 고려할 때, 구별과 해석이 항상 명확한 것은 아니다.
1.Author’s philosophical positions and assumptions as implicitWhen authors did not report their philosophical positions clearly and explicitly, knowledge users are left to infer or variably interpret meaning associated with various assessment features. For instance, some authors did not define the construct of intrinsic roles alone or in combination with other dimensions (e.g., Chahine et al.,2016; DeMuth et al.,2018; Dory et al.,2018; Ginsburg et al.,2017; Li et al.,2017; Naidoo et al.,2017)). Authors discussed the role of the observer, but at times without enough detail to leave us confident in our inferences about the authors’ philosophical positioning (e.g., Bajwa et al.,2017; Biagioli et al.,2017; Cameron et al.,2017; DeMuth et al.,2018; Martin et al.,2018; Naidoo et al.,2017; O’Brien et al.,2016; Weingart et al.,2018)). Further, in generating justifications authors used methods or approaches that suggested, to some extent, different philosophical positions (e.g., statistical arguments, approaches consistent with qualitative notions of rigor) for which pairings with other features of assessment could be variably interpreted. Given how methods could be associated with more than one philosophical position, distinctions and interpretations are not always clear.
2. 이론을 실천에 적용하는 것은 철학적이기보다는 방법론적인 것으로 보인다.
이러한 연구들을 면밀히 검토한 우리의 경험은, 이론에서부터 실천으로 옮겨가는 것이 [다양한 철학적 입장과 관련된 가정과 약속]에 의해 명확히 인도되기 보다는 [주로 방법론적이었다는 것]을 시사했다. 위에서 언급한 바와 같이, 우리는 방법론적 선택의 변동성을 관찰했다. 많은 예에서, 저자들은 그들의 연구에심리측정적 원리, 측정 개념, 그리고 통계적 규약을 사용했다. 이와는 대조적으로, 우리는 질적 패러다임과 관련된 방법들에 대해서도 언급했다. 그러나 [평가 문제를 어떻게 조사해야하는지] 또는 [철학적 위치에 의해 해결책이 어떻게 형성되는지]에 관련된 디테일은 훨씬 드물었다. 그리고, 대부분의 연구는 다른 철학적 변화에 찬성하는 개념적 주장이 완전히 받아들여지지 않았다는 것을 암시하면서 심리측정, 측정, 그리고 통계 전략을 고수하는 것으로 보였다.
2.Theory to practice shifts appear to be more methodological than philosophicalOur experience closely reviewing these studies suggested that theory to practice shifts has been mainly methodological, rather than explicitly guided by assumptions and commitments associated with various philosophical position. As noted above, we observed variability in methodological choices. In many instances, authors used psychometric principles, measurement concepts, and statistical conventions in their work (e.g., Cameron et al.,2017; DeMuth et al.,2018; Dore et al.,2017; Hauer et al.,2018; Li et al.,2017,2018; Naidoo et al.,2017; Park et al.,2016,2017). By contrast, we also noted methods associated with qualitative paradigms (e.g., Pool et al.,2018), though comparatively fewer. However, how assessment problems are interrogated or details related to how solutions are shaped by philosophical positions was much less common. And, the majority of studies appeared to adhere to psychometric, measurement, and statistical strategies, suggesting that conceptual arguments in favor of different philosophical shifts have not been fully taken up.
3.철학적 경계가 불분명해 보인다
우리는 일부 연구는 후기 실증주의적이었고, 일부 연구는 구성주의적이라고 볼 수 있었지만, 완전히 둘 다로 아니다라고 볼 수는 없다는 것을 발견했다. 분석에서 철학적인 입장으로서 후기실증주의/객관주의와 구성주의/해석주의를 민감하게 만드는 우리의 선택은 잠재적으로 잘못된 이분법을 만들었을 수 있다. 그러나, 우리는 비록 후기실증주의가 더 널리 나타나기는 했지만, 이러한 양극화가 어느 한 쪽을 선택하는 것처럼 보이는 작가들에게서 반영된다는 것을 발견했다. 다른 철학적 입장들 (예를 들어, 현실주의, 실용주의, 철학적 다원성)은 작가의 개념적 주장과 관행을 뒷받침할 수 있다. 이러한 다양한 입장에 대한 명시적인 주의, 논의 및 보고 없이는 경계가 불분명하다.
3.Philosophical boundaries seem to be unclearWe found that some articles could be viewed as more constructivist than post-positivist (or vice versa), but also not fully as either (e.g., Pool et al.,2018). Our choice of sensitizing post-positivism/objectivism and constructivism/interpretivism as philosophical positions in our analysis potentially may have created a false dichotomy. However, we found that this polarization was mirrored in authors appearing to choose one or the other, although post-positivism appeared more prevalent. Other philosophical positions (e.g., realism, pragmatism, philosophical plurality) may underlie author’s conceptual arguments and practices. Without explicit attention to, discussion and reporting of these various positions, boundaries are unclear.
4. 내재적 역할intrinsic role이 보다 광범위한expansive 평가 활동에 내재됨에 따라, 철학적 영향이 더욱 불분명해졌다.
많은 저자들은 평가에서 내재적 역할을 의료 전문가 차원 곁으로 embedding하여, 분산시키는decentralize 경향이 있었다. 우리는 다른 역할과의 혼합을 통해 증거가 생성되었을 때 내재적 역할에 대한 주장을 할 수 없다고 판단했다. 저자가 내재적 역할을 내장하지emded 않고, 대신 중심적 구인central construct으로 만든 연구는 저자의 철학적 입장이 선택된 구인(예: 전문직업성)를 평가하는 방법에 대한 그들의 결정에 어떻게 영향을 미칠 수 있는지에 대한 보다 직접적인 평가를 가능하게 했다. 그러나 여기서도 어려움은 여전했다.
4.Intrinsic roles have been embedded in more expansive assessment activities, making philosophical influences unclearMany authors tended to decentralize intrinsic roles in assessment, embedding them alongside medical expert dimensions (e.g., Cameron et al.,2017; Chahine et al.,2016; DeMuth et al.,2018; Gingerich et al.,2017; Ginsburg et al.,2017; Hicks et al.,2016; Li et al.,2017; Naidoo et al.,2017; Naumann et al.,2016; Onishi et al.,2018; Park et al.,2016,2017; Ross et al.,2017; Tavares et al.,2018; Weingart et al.,2018; Wood et al.,2017). We determined that we could not make claims about intrinsic roles when evidence had been generated through a blending with other roles. Studies in which authors did not embed intrinsic roles, and instead made them the central construct (e.g., Bajwa et al.,2017; Biagioli et al.,2017; Dory et al.,2018; Lee et al.,2016; Martin et al.,2018; Roberts et al.,2017a,b; Roberts et al.,2017a,b), permitted a more direct appraisal of how authors’ philosophical positions may have influenced their decisions about how to assess the chosen construct (e.g., professionalism). However, even here, challenges remained.
5.암묵적, 부재 및 불분명한 철학적 입장의 현재 상태는 양립성 평가를 불확실하게 만들었다. 저자들이 평가의 각 특징에 접근하는 방법에서 우리가 관찰한 변동성은 평가 과학의 최근 발전을 강조하였다. 우리는 전체적으로, HPE의 평가 과학 분야의 경우, 이러한 연구들은 우리가 평가를 더 이상 사이코메트리, 실증주의자 또는 사후 포지티비스트적 위치에 의해서만 알고 있는 활동으로 가정할 수 없다는 것을 시사한다. 이는 특히 기초적인 가정과 약속이 검토하기 어렵거나 방법이 중립성을 유지할 때 평가 특징 전반에 걸친 존재론적-원론적 쌍에 관한 문제적이거나 불확실한 주장에 대한 기회를 제공했다. 평가 문헌의 지배적인 사이코메트리 후 포지티비스트 본문을 발견했지만, 우리는 다른 평가 특징을 알려주는 위치에서 고유한 쌍에 대한 몇 가지 잠재적 표현을 주목했다(예: Chahine 등, 2016; 풀 등, 2018). 궁극적으로, 품질, 방어성 및 호환성에 대한 우리의 해석은 누가 해석하는지는 물론 해석되는 것에 달려있기 때문에 우리는 그러한 쌍에 대해 상세히 언급할 수 없다. 5.The present state of implicit, absent, and unclear philosophical positions made compatibility appraisals uncertainThe variability we observed in how authors approached each feature of assessment highlighted the recent advances in assessment science. We note that collectively, for the field of assessment science in HPE, these studies suggest that we can no longer assume assessment as an activity informed only by psychometric, positivist, or post-positivist positions. This provided an opportunity for problematic or uncertain claims regarding ontological–epistemological pairings across assessment features, particularly when underlying assumptions and commitments were difficult to examine or methods held a degree of neutrality. While we found a predominant psychometric, post-positivist body of assessment literature, we did note some potential representations of unique pairings in the positions informing different assessment features (e.g., Chahine et al.,2016; Pool et al.,2018). Ultimately, we cannot comment in detail on such pairings because our interpretations about quality, defensibility, and compatibility became variable and reliant on both who was interpreting, as well as what was being interpreted.
고찰 Discussion
의료 전문가 및 교육생의 고유 역할에 대한 성과 기반 평가를 설계하고 보고할 때 철학적인 입장의 역할과 사용에 대해 알아봤습니다. 우리는 각 연구에 포함된 다양한 평가 기능에 걸쳐 저자의 철학적 입장과 관련된 기본적인 가정이 양립할 수 있는지 여부를 검토하는 것을 목표로 했다. 우리는 세 가지 주요 발견을 보고한다.
첫째, 저자들은 평가의 다양한 특징과 관련된 그들의 명확한 철학적 입장을 거의 보고하지 않았는데, 이는 우리 팀이 저자들의 근본적인 가정과 관련하여 추론하거나 의미를 추정해야 한다는 것을 의미한다.
둘째로, 저자들은 다양한 방법으로 평가의 특징에 접근했으며, 우리가 추론한 많은 것들은 다른 철학적 입장에 의해 알려지거나 연관될 수 있었다.
셋째로, 우리는 저자의 철학적 가정 준수 또는 위반을 판단하는 데 불확실하게 남겨졌기 때문에 주요 평가 특징 간의 호환성을 판단할 수 없었다.
We explored the role and use of philosophical positions when designing and reporting on performance-based assessments of healthcare professionals’ and trainees’ intrinsic roles. We aimed to examine whether authors’ underlying assumptions associated with their philosophical positions were compatible across the various assessment features included in each study. We report three primary findings.
First, authors rarely reported their explicit philosophical positions related to the various features of assessment, meaning our team had to infer or assume meaning regarding authors’ underlying assumptions.
Second, authors approached features of assessment in variable ways, many of which we inferred could be informed by or associated with different philosophical positions.
Third, we were left uncertain in judging authors’ compliance with or violation of philosophical assumptions and thus could not judge compatibility across key assessment features.
평가의 선택의 폭을 넓히는 맥락에서 연구자와 평가 설계자가 계속 그들의 근본적인 철학적 입장을 묵시적으로 그리고 밝혀내는 경우, 그들은 그들의 의도, 의미, 일관성 및 방어 가능성에 대한 가변적 해석을 할 위험이 있다. 그러한 변동성은 평가 노력의 품질(예: 주어진 맥락에 대한 의미나 관심 구조에 대한 조정 방법을 명확히 하지 않고 방법에 의존하는 것)과 사용자가 보고된 결과를 어떻게 받아들이고 지원하고 구축하는지의 품질을 위협할 수 있다. 다음으로, 우리는 평가 보고, 평가 작업의 지침, 일관성 주장에 대한 함축적 의미 및 철학적 입장의 역할과 관련된 토론에서 철학적 입장의 부재를 고려한다. 우리는 어떻게 평가 작업이 철학적 입장을 명확히 하기 위해 다듬어질 수 있는지에 대한 예를 제공하고 평가 커뮤니티가 고려할 권고사항으로 끝을 맺는다. In the context of broadening choices in assessment, if researchers and assessment designers continue to leave their underlying philosophical positions implicit and unearthed, they risk variable interpretations about their intentions, meaning, coherence, and defensibility. Such variability has the potential to threaten the quality of assessment efforts (e.g., relying on methods without being clear about their meaning for a given context or how it aligns with constructs of interest), as well as the quality of how knowledge users take up, support, and build upon reported findings. Next, we consider the absence of philosophical positions in assessment reporting, in guiding assessment work, on implications for coherence claims and on debates related to the role of philosophical positions. We provide an example of how assessment work can be refined to make philosophical positions explicit, and end with recommendations for the assessment community to consider.
말하지 않음—평가에서 철학적인 입장의 부재 The unsaid—absence of philosophical positions in assessment
"유효한 평가"라고 여겨지는 것에 대한 문제를 조사하는 것은 구조와 역량의 본질에 대한 철학적 질문으로 시작한다. 그럼에도 불구하고, 평가에 대해 보고하는 저자들은 관련 철학적 입장을 설명하지 않고 주로 평가 방법(예: 숫자 사용, 내러티브 사용)에 초점을 맞추고 있다는 것을 발견했다. 우리는 방법론적 변화를 주장하기 위해 철학적인 입장을 활용하는 저자들을 관찰했지만, (Chahine 등, 2016) 다른 것(즉, 철학적으로 정보에 입각한 가정) 없이 하나의 방법(즉, 방법)을 차지하는 것은 문제를 지나치게 단순화시킬 수 있다. 예를 들어, 저자들은 "심리학 이후의 시대"(Hodges, 2013)를 옹호하거나 그것과 관련된 과도한 수정(Pearce, 2020; Schoenherr & Hamstra, 2016)을 경고하기 보다는 먼저 그들의 철학적 입장이 구성, 역량 및 타당성에 대한 가정을 어떻게 알리는지에 초점을 맞출 수 있다. 그렇게 하면 저자가 평가 특징 전반에 걸쳐 존재론적-원론적 가정을 조정하고 지식 사용자에게 공유 이해에 필요한 기초를 제공할 가능성이 높다. 이러한 철학적 뿌리는 저자들이 한 가지 방법론적 방향이나 다른 방향을 옹호할 때 제기하는 주장 아래에 존재한다고 믿는 것이다(Govaerts et al., 2007; Ten Kate & Regehr, 2019). Inspecting the issue of what is considered “valid assessment” begins with the philosophical question of the nature of constructs and competence (Mislevy,2018). And yet, we found that authors reporting on assessments have focused largely on assessment methods (e.g., using numbers, using narratives), without explicating any related philosophical positions. While we did observe authors leveraging philosophical positions to argue for methodological shifts, (Chahine et al.,2016) taking up one (i.e., methods) without the other (i.e., underlying philosophically informed assumptions) may oversimplify the issue. For instance, rather than advocating for a “post-psychometric era” (Hodges,2013) or cautioning over-corrections associated with it (Pearce,2020; Schoenherr & Hamstra,2016), authors might focus first on how their philosophical positions inform their assumptions about constructs, competence, and validity. Doing so will likely ensure authors align the ontological–epistemological assumptions across assessment features and provide knowledge users with the foundations necessary for a shared understanding. It is these philosophical roots that we believe exist beneath the arguments authors make when advocating for one methodological direction or another (Govaerts et al.,2007; Ten Cate & Regehr,2019).
안내되지 않음—철학적 정보에 입각한 평가 프레임워크의 부재 The unguided—absence of philosophically informed assessment frameworks
평가 결정을 안내하는 많은 출판물들은 아직 철학적 입장의 역할을 강조하지 않는다. 공정하게 말하면, 저자(및 저널)는 이러한 부재를 암시적 가치 진술 또는 표준 관행으로 해석할 수 있다. 예를 들어 2011년 "좋은 평가를 위한 기준"은 존재론 또는 인식론에 대한 명시적 언급 없이 7가지 기준(예: 타당성, 재현성, 동등성, 타당성, 교육 효과, 촉매 효과 및 수용성)을 요약했다(Norcini 등, 2011). 이러한 누락은 기준을 시스템 프레임워크로 대체했을 때 계속되었다(Norcini 등, 2018). 또한 철학적인 입장은 HPE(유드코우스키 외, 2019), 유효성 가이드(쿡 외, 2015, 2016), 평가에서 앞을 내다볼 때 우선 순위로서 또는 역량 위원회에 대한 최근 연구(키니어 외, 2018)에서 언급되지 않는다. 이러한 관찰은 어떤 사람들에게는 철학적인 입장에 대한 관심이 필요하지 않을 수도 있음을 암시한다. 이와는 대조적으로 타당성 이론가들은 이 이슈에 주의를 기울였고(Borsboom & Markus, 2013; Borsboom 등, 2003; Kane, 2013) 시간 경과에 따라 프로그램적 평가가 어떻게 진화해왔는지를 포함한 평가의 일부 진보는 철학적인 가정에 대한 주의의 영향을 받았다(Pearce & Tavares, 2021). Many publications that guide assessment decisions do not yet emphasize the role of philosophical positions. To be fair, authors (and journals) may interpret this absence as an implicit value statement or standard practice. For example, the 2011 “criteria for good assessment” outlined seven criteria (i.e., validity, reproducibility, equivalence, feasibility, educational effect, catalytic effect, and acceptability), without explicit mention of ontology or epistemology (Norcini et al.,2011). This omission continued when the criteria were replaced with a systems framework (Norcini et al.,2018). Further, philosophical positions do not receive mention in leading textbooks on assessment in HPE (Yudkowsky et al.,2019), validity guides (Cook et al.,2015,2016), as a priority when looking ahead in assessment (Norcini,2019), or in recent research on competence committees (Kinnear et al.,2018). These observations suggest that for some, attention to philosophical positions may not be necessary. By contrast, validity theorists have given this issue their attention (Borsboom & Markus,2013; Borsboom et al.,2003; Kane,2013) and some advances in assessment, including how programmatic assessment has evolved over time, have been influenced by attention to philosophical assumptions (Pearce & Tavares,2021).
호환성 원칙 The compatibility principle
평가에서 철학적 위치에 대해 논하는 것은 기존 관행과 새로운 관행에 대한 평가 커뮤니티의 공통된 이해를 뒷받침하는 기초 논리를 제공한다(Tavares et al., 2019). 평가 프로그램은 모범 사례를 구성하는 사항에 대한 커뮤니티 간의 합의를 나타냅니다. 우리는 저자가 자신의 평가 결정이 철학적 위치에 의해 어떻게 형성되는지를 입증하지 못하면 저자와 독자가 똑같이 중요한 학습 기회를 놓치게 된다고 주장한다. 저자의 위치와 가정을 해석하고 추론해야 하는 우리 팀의 경험은 호환성 원칙에 대한 우리의 통찰력을 제한했다. 저자의 입장을 추론할 수 있는지 또는 추론해야 하는지에 대한 우리의 토론은 우리의 발견에 기초가 되었다. 양립원칙을 검토할 수 없음에도 불구하고, 우리는 이러한 철학적 입장과 평가특성을 통한 제정이 평가계획의 적절성과 그 의미를 결정하는 데 도움이 될 것이라는 것을 계속해서 확신하고 있습니다.
Talking about philosophical positions in assessment provides a foundational logic to support a shared understanding in the assessment community regarding existing and newer practices (Tavares et al.,2019). Assessment programs represent agreements among our community on what constitutes best practices. We argue that a key learning opportunity for authors and readers alike is missed if authors fail to demonstrate how their assessment decisions are shaped by their philosophical positions. Our team’s experience with needing to interpret and infer authors positionality and assumptions limited our insights on the compatibility principle. Our debates about whether we could or should infer authors’ positions and what they mean for assessment and assessment quality became foundational to our findings. Despite not being able to examine the compatibility principle, we continue to posit that these underlying philosophical positions and their enactment through assessment features will help to determine the appropriateness of an assessment plan and their meaning.
철학적 입장의 가치에 대한 토론 Debating the value of philosophical positions
우리는 평가 과학과 실천의 철학적 기초에 주의를 기울일 필요가 없을지도 모른다는 비판의 주장을 예상한다. 이에 대응하여, 우리는 이러한 철학을 식별하고 특징짓는 것이 적어도 두 가지 광범위한 이점을 제공한다고 주장할 것이다. 첫째, 평가에서 철학적 위치에 대해 명확하게 하는 것은 암묵적 가정을 식별하고 도전하는 데 도움이 될 수 있다. 현대적 타당성은 구조와 그 평가 사이의 관계와 공동체에 설득력이 있는 둘 사이의 관계에 관한 것이다. 공동체가 어떤 철학적 입장을 취하고, 가치를 매기고, 논의하는지가 비판적이 된다. 일반적인 평가 언어는 개념이 다르거나 구별할 수 없는 의미를 가질 때 의미를 빠르게 잃는다. 둘째, 철학적 입장을 명확히 하는 것은 "평가 맥락에서 철학적 입장과 그 양립가능성의 역할과 관련성과 관련된 핵심 원칙들을 질문, 반박, 세분화, 확장 및/또는 결정할 수 있는 기회를 제공할 것이다"(Tavares et al., 2019). We anticipate the criticism argument that attending to the philosophical underpinnings of assessment science and practice may not be necessary. In response, we would argue that identifying and characterizing these philosophies offers at least two broad advantages. First, being clear about philosophical positions in assessment may help identify and challenge implicit assumptions. Modern validity is about the relationship between a construct and its assessment and the relationship between the two being persuasive to the community. Which philosophical positions that community holds, values, and discusses becomes critical. A common assessment language loses meaning quickly when the concepts hold different or indistinguishable meanings. Second, being clear about philosophical positions would provide an opportunity to “question, refute, refine, extend, and/or determine further a core set of principles related to the role and relevance of philosophical positions and their compatibility in an assessment context” (Tavares et al.,2019).
분명한 것은, 우리의 연구 결과는 평가 커뮤니티가 평가 문제와 해결책을 조사하는 방법을 계속 넓히고 있기 때문에 철학적 입장과 관련 가정이 더 가시화되어야 한다는 것이다. 평가는 다양한 방법으로 통보되고 개념화되며 제정될 수 있습니다. 명시적으로, 개념적으로 그리고 실질적으로 평가 대상(즉, 구성), 방법(즉, 평가 방법), 이유(즉, 위치 및 가정)를 연결하지 않고, 우리의 경험은 평가가 다양하게 해석되고 잠재적으로 훼손될 수 있다는 것이다. 예를 들어, 지식 생산의 관점에서, 구조의 특성을 사회적 구성물로 위치시키는 것은 혼란스러울 수 있지만, 객관성을 촉진하고 다른 유효성 증거 대신 신뢰성과 일반화에 의존하기 위한 시도로 관찰의 엄격한 척도를 적용하는 것은 혼란스러울 수 있다. 지식 사용 관점에서 평가 연구가 사용자가 실증주의적 입장을 견지한 경우 오류 완화 전략(예: 평가자 훈련)을 포함하지 않으면 치명적으로 결함이 있다고 결론 내릴 수 있다. 이러한 문제에 주의를 기울이지 않는다면, 평가 자체의 설명을 명시하지 않고도 타당성에 대한 합리적인 평결을 내릴 수 있다는 가정이 된다. To be clear, our findings simply suggest that philosophical positions and associated assumptions be made more visible as the assessment community continues to broaden ways of interrogating assessment problems and solutions. Assessment, can be informed by, conceptualized, and enacted in different ways. Without explicitly, conceptually and practically connecting what is being assessed (i.e., constructs), with how (i.e., assessment methods), and why (i.e., positions and assumptions), our experience is that assessment becomes variably interpreted and potentially undermined. For example, from aknowledge productionperspective, it may be confusing to position the nature of constructs as social constructions, but to then apply strict measures of observation in an attempt to promote objectivity, and to rely on reliability and generalizations, instead of other validity evidence. From aknowledge useperspective, one may conclude an assessment study is fatally flawed if it fails to include error mitigation strategies (e.g., rater training) if that user held positivist position. Without attention to these issues, the assumption becomes that one can give a reasonable verdict on validity without specifying an account of assessment itself.
우리의 예 Our example
우리는 또한 우리 팀의 구성원들이 우리 자신의 연구에서 평가 특징의 기초가 되는 철학적 위치에 대한 주요 세부 사항을 누락하거나 모호하다는 것을 주목한다. 예를 들어, 우리는 철학적 입장을 우선시할 때 우리 자신의 논문 중 하나가 어떻게 다르게 보일지 고려했다(Tavares et al., 2018). 표 3에서, 우리는 발췌본을 선택하고 우리의 의도된 철학적 입장을 더 잘 보이게 할 원본 본문에 추가 사항을 제안했다. 우리는 이러한 방식으로 입장을 명시하는 것 외에도, 저자들은 그들이 선택한 철학적 입장이 자신들에게 또는 그것이 어디서 파생되는지를 정의할 책임이 있다는 것을 주목한다. We note that members of our team have also omitted or been vague regarding key details about the philosophical positions underlying assessment features in our own research. As an example, we considered how one of our own papers would look different in prioritizing philosophical positions (Tavares et al.,2018). In Table3, we selected excerpts and suggested additions to the original text that would make our intended philosophical positions more visible. We note that in addition to making positions explicit in this way, authors have the responsibility to also define what their chosen philosophical position(s) mean to them or from where it is derived.
HPE 평가 커뮤니티에 대한 권장 사항 Recommendations for the HPE assessment community
평가 커뮤니티를 발전시키면 다음과 같은 권장 사항을 활용할 수 있습니다. Moving forward our assessment community may benefit from the following recommendations:
1. 평가에서 철학적 입장이 등장한 비교적 새로운 방식을 고려할 때, 다른 맥락(예: 과학적 탐구, 혼합 방법 연구, 의학 교육)에서 평가 맥락으로의 철학적 입장 전환을 검토한다. 1.Examine the translation of philosophical positions from other contexts (e.g., scientific inquiry, mixed methods research, medical education) to assessment contexts, given the relatively new ways philosophical positions have emerged in assessment. 2. 가능한 철학적 입장의 연속성을 배우고 평가 특징에 대한 결정에 미치는 영향을 고려하는 방법에 대한 책임을 집니다. 2.Assume accountability for learning about the continuum of possible philosophical positions, and about how to consider the implications for decisions about assessment features. 3. 평가 작업을 알리는 철학적 입장을 명확히 표현합니다(예: 표 3). 3.Clearly articulate the philosophical positions informing assessment work (e.g., Table 3). 4.철학적 입장을 이용하여 선택을 정당화하는 방법보다는 평가에 대한 설계와 이해를 직접 알립니다. 교육 연구에 이론을 사용하는 것과 유사하게, 철학적 입장은 생성적(즉, 평가 활동이 보증된 주장을 제공하는 방법과 이유)이 될 수 있는 기회를 제공한다. 4.Use philosophical positions to directly inform the design and understanding of assessment, rather than as a way to justify the choices made. Similar to the use of theory in education research, philosophical positions provide opportunities to be generative (i.e., how and why assessment activities provide warranted assertions). 5.철학적 입장, 철학적 다원성, 평가 특징 간 양립가능성의 역할과 관련성에 대해 계속 질문하고, 반박하고, 확장하며, 추가로 판단합니다. 5.Continue to question, refute, extend, and determine further the role and relevance of philosophical positions, philosophical plurality, and the compatibility within and across assessment features. 6.평가 과학에 관한 보고서가 공통의 언어, 의미 및 철학적 입장을 표현, 발전 및 도전적으로 사용하는 것에 대한 기대치를 공유하도록 하기 위한 예비 표준을 개발한다.
6.Develop preliminary standards to ensure reports on assessment science share a common language, meaning, and set of expectations for expressing, advancing, and challenging use of philosophical positions.
표 3 철학적 입장을 명시하기 위해 이전 연구에서 발췌한 내용을 재구성(Tavares et al., 2018) Table 3 Reframing excerpts from a previous study (Tavares et al.,2018) to make philosophical positions explicit
한계 Limitations
우리는 2019년에 이 프로젝트를 시작했고 데이터베이스 인덱싱 제한 때문에 그 해까지의 기사는 포함하지 않았습니다. COVID는 우리를 더 지연시켰다. 따라서 일부에서는 이 분석을 "구식"으로 인식할 수 있지만, 중요한 서술적 관점은 연구자들이 대표적이라고 여기는 샘플을 깊이 조사해야 한다는 것을 시사한다는 점에 주목한다. 또한, 우리는 이러한 발견들을 우리의 논의에서 가장 최근의 문헌과 지침에 위치시켰으며, 평가에서 철학적 입장과 관련된 문제들이 해결되었다는 증거를 보지 못했다. 내재적 역할을 포함하는 성과 기반 평가에만 초점을 맞추기로 선택하면서, 우리는 그러한 연구가 인문학과 사회과학에서 내재적 역할의 뿌리와 관련된 보다 다양한 철학적 입장을 포함했을 수 있다고 가정했다. 또한 성과 기반 평가는 그러한 평가가 HPE에서 얼마나 잘 확립되어 있는지를 감안할 때 평가 기능의 기초 위치(예: 관찰자의 역할)를 보다 명확하게 개략적으로 설명할 수 있을 것으로 기대했다. 두 가지 가정 모두 이의를 제기할 수 있으며, 우리의 연구 결과는 다른 연구 표본(예: 필기 시험, 절차 기술)에는 적용되지 않을 수 있다. 또한, 세 가지 광범위한 평가 기능에 초점을 맞추기로 선택할 때, 우리는 다른 기능들을 고려하지 않았다. 일부 더 세분화된 것이 도움이 될 수 있다. 많은 다른 특징(예: 맥락의 역할, 표본 추출의 역할)을 고려할 수 있었지만, 우리는 구성의 특성, 관찰자의 역할 및 정당화 전략이 데이터 추출을 용이하게 할 만큼 충분히 일반적이라고 가정했다. 마지막으로, 우리는 검토자들을 철학적 입장의 두 가지 주요 극점에 민감하게 했다. 사후 긍정주의/객관주의/주관주의를 선택함에 있어서, 우리는 이것들이 중요한 견해이거나, 더 중요한 것은, 더 많은 변증법적 접근법(즉, 이것들과 다른 사고방식들 사이에서 움직이는 것)이 평가에서 고려되고 사용될 수 없는 견해라는 것을 제안하려고 의도하지 않았다. 이러한 이분법을 사용하는 우리의 선택은 HPE의 평가 과학 상태에 대한 우리의 이해에 기초했다. 변증법적 접근법의 역할과 사용을 포함하여 검토자를 다른 입장이 아닌 이러한 입장에 민감하게 만드는 것이 우리의 결과에 영향을 미쳤을 수 있다.
We began this project in 2019 and did not include articles up to that year due to database indexing limitations. COVID delayed us further. Consequently, some may perceive this analysis as “out of date”; however, we note that the critical narrative perspective suggests that researchers deeply probe a sample they deem to be representative. Further, we have positioned these findings in the most recent literature and guidelines in our discussion, and have not seen evidence suggesting issues related to philosophical positions in assessment have been resolved. In choosing to focus only on performance-based assessments that included an intrinsic role, we assumed such studies may have included more variable philosophical positions related to the roots of intrinsic roles in humanities and social sciences. We also expected performance-based assessments might more clearly outline the positions underlying the assessment features (e.g., role of observer), given how well established such assessments are in HPE. Both assumptions could be challenged, and our findings may not apply in a different sample of studies (e.g., written tests, procedural skills). Also, in choosing to focus on three broad assessment features, we did not consider others; some further granularity may be helpful. While many other features (e.g., the role of context, the role of sampling) could have been considered, we assumed that the nature of constructs, the role of observers, and justification strategies were common enough to facilitate our data extraction. Finally, we sensitized our reviewers to two major poles of philosophical positions. In selecting post-positivism/objectivism and constructivism/subjectivism, we did not intend to suggest that these are the views that matter, or more importantly, that more dialectal approaches (i.e., moving between these and other ways of thinking) cannot be considered and used in assessment. Our choice in using this dichotomy was based on our understanding of the state of assessment science in HPE. Sensitizing our reviewers to these and not other positions, including the role and use of dialectal approaches, may have impacted our results.
결론들 Conclusions
HPE의 평가 커뮤니티는 구성과 역량의 특성, 평가 방법의 사용 및 의사결정을 정당화하기 위한 증거의 사용을 이해하는 방법을 넓혔다. 이러한 각각의 측면은 서로 다른 철학적 위치에 의해 알려지는 것으로 보인다. 그러나, 대부분의 경우, 저자들은 그들의 근본적인 철학적 입장을 보이지 않게 하여, 의도와 의미를 추론할 수 있게 한다. 증가하고 변화하는 평가 커뮤니티에서 지식 사용자는 저자가 자신의 기본 가정을 준수했는지 여부, 다양한 평가 기능의 기초가 되는 가정에 호환성이 있는지 여부 및 방어 가능한 청구가 무엇인지에 대한 불확실성을 갖게 될 수 있다. 이러한 철학적 입장이 평가에서 가시화될 때까지, 이 문제를 탐구하는 것은 암묵적인 일로 남아있고 연구 질과 방어성을 판단하는 것은 누가 해석을 하는지에 의해 형성되는 가변 해석 과정이 된다.
The assessment community in HPE has broadened how it understands the nature of constructs and competence, its use of assessment methods, and its use of evidence to justify decisions. Each of these facets appears to be informed by different underlying philosophical positions. However, in most instances, authors have not made their underlying philosophical positions visible, leaving intentions and meaning to be inferred. In a growing and shifting assessment community, knowledge users may be left with uncertainty regarding whether authors have adhered to their underlying assumptions, whether there is compatibility in the assumptions underlying various assessment features, and what defensible claims can be made. Until these philosophical positions are made visible in assessment, exploring this issue remains an implicit affair and judging study quality and defensibility becomes a variable interpretive process that is shaped by who is doing the interpreting.
Adv Health Sci Educ Theory Pract. 2021 Aug 9.
doi: 10.1007/s10459-021-10063-w.Online ahead of print.
Implicit and inferred: on the philosophical positions informing assessment science
Assessment practices have been increasingly informed by a range of philosophical positions. While generally beneficial, the addition of options can lead to misalignment in the philosophical assumptions associated with different features of assessment (e.g., the nature of constructs and competence, ways of assessing, validation approaches). Such incompatibility can threaten the quality and defensibility of researchers' claims, especially when left implicit. We investigated how authors state and use their philosophical positions when designing and reporting on performance-based assessments (PBA) of intrinsic roles, as well as the (in)compatibility of assumptions across assessment features. Using a representative sample of studies examining PBA of intrinsic roles, we used qualitative content analysis to extract data on how authors enacted their philosophical positions across three key assessment features: (1) construct conceptualizations, (2) assessment activities, and (3) validation methods. We also examined patterns in philosophical positioning across features and studies. In reviewing 32 papers from established peer-reviewed journals, we found (a) authors rarely reported their philosophical positions, meaning underlying assumptions could only be inferred; (b) authors approached features of assessment in variable ways that could be informed by or associated with different philosophical assumptions; (c) we experienced uncertainty in determining (in)compatibility of philosophical assumptions across features. Authors' philosophical positions were often vague or absent in the selected contemporary assessment literature. Leaving such details implicit may lead to misinterpretation by knowledge users wishing to implement, build on, or evaluate the work. As such, assessing claims, quality and defensibility, may increasingly depend more on who is interpreting, rather than what is being interpreted.
When I say … 리커트 문항(Med Educ, 2021) When I say … Likert item Edward Krupat
정량 지향적인 연구자들은 설문지와 설문 조사 형태의 자기 보고 조치에 크게 의존한다. 특히 리커트 아이템을 이용해 태도와 신념을 평가하는 방식이 의대 교육자부터 여론 조사자까지 전 세계 연구진에 의해 채택됐다. 리커트 아이템이라는 용어는 1932년 유망한 젊은 사회과학자 렌시스 리커트가 자신의 논문에서 태도를 측정하는 새로운 방법의 사용을 소개한 것으로 거슬러 올라간다. Researchers who are quantitatively oriented rely greatly on self-report measures in the form of questionnaires and surveys. In particular, the use of Likert items to assess attitudes and beliefs has been adopted by researchers worldwide, from medical educators to public opinion pollsters. The term Likert item dates back to 1932 when a promising young social scientist, Rensis Likert, introduced the use of a new method to measure attitudes in his dissertation.
발명자의 이름을 딴 리커트 항목은 진술에 불과하며(예: 내 주치의에게 만족함), 강한 동의에서 강한 반대까지 다양한 옵션이 뒤따른다. 태도를 측정하는 다른 수단(아래 참조)이 존재하지만, 기술적으로 보자면, 리커트 문항은 독점적으로 이러한 형식만을 의미한다. 그럼에도 불구하고, 의학 교육 문헌에서 이 라벨은 종종 '라이커트 스타일'이라고 불리는 다양한 태도 항목 형식과 함께 매우 느슨하게 사용되어 왔다.
Named after its inventor, a Likert item is nothing more than a statement (e.g., I am satisfied with my physician), followed by several options varying from Strongly Agree to Strongly Disagree.1 While other means of measuring attitudes exist (see below), technically, a Likert item refers exclusively to this format. Nonetheless, in the medical education literature, this label has been used very loosely, with a range of attitude item formats often referred to as ‘Likert style’.
겉보기에는 간단해 보이지만, 리커트 항목과 리커트 척도의 사용(리커트 항목을 합치거나 조합한 결과)을 둘러싸고 많은 잘못된 정보와 논쟁이 존재한다. 첫째, 문자 그대로, 내가 "라이크-에르트"라고 말할 때, 나는 "라이크-에르트"가 아니라 "i"로 짧게 발음하는데, 이것은 전 세계의 많은 학식 있는 동료들이 저지른 실수이다. 이 발음의 이유는 간단합니다. 렌시스 리커트는 자기 이름을 '릭-에르트'라고 발음했다. 마치 'k' 앞에 'c'가 붙은 것과 같다. 우리도 그래야 한다.
Although seemingly straightforward, a good deal of misinformation and debate exists around the use of Likert items and Likert scales (which are the result of summing or combining Likert items). First, literally, when I say … Likert, I pronounce it Lick-ert, with a short ‘i’, not Like-ert (with a long ‘i’), a mistake made by so many of my learned colleagues around the world. The reason for this pronunciation is simple. Rensis Lickert pronounced his name ‘Lick-ert’, as if it had a ‘c’ before the ‘k’, and we should too.
리커트 아이템은 찬성과 반대 의견의 다양한 이슈와 우려를 가지고 있습니다.2-4
질문 중 하나는 얼마나 많은 선택지가 있어야 하는가 하는 것이다. 일반적인 관행은 4개보다 적지 않고, 7개를 넘지 않으며, 필자의 경험상 의학교육연구자는 4, 5개의 선택지를 사용하는 경향이 큰 반면, 더 넓은 사회과학계, 특히 심리학자와 사회학자들 사이에서는 6, 7개를 사용한다.
선택한 숫자에 관계없이, 짝수 또는 홀수 수의 응답지 수를 선택할 경우 종종 동의 안 함으로 분류되는 중간점을 제공하는 것이 좋은 생각인지에 대한 의문이 제기된다. 설문 조사 실무자들 사이에 논쟁이 존재하며, 일부는 응답자들에게 자신의 태도가 진정으로 중립적이라는 것을 나타내는 방법을 제공하는 것이 더 낫다고 믿고, 다른 일부는 중간점이 단순한 중립성을 반영하지 않는 이유로 개인에 의해 종종 부적절하게 사용된다고 주장한다.5
또한 리커트 항목 데이터를 분석하고 제시하는 방법에 대해서도 의견이 일치하지 않는다.6 일부에서는 빈도 및 백분율의 사용(카이-제곱과 같은 통계 사용)을 지지하지만, 다른 많은 사람들은 기술적으로는 선택사항이 구간 수준 데이터를 나타내지 않더라도 합계 및 평균이 계산되고 보고될 수 있다고 믿는다.
Likert items come with a range of issues and concerns, pro's and con's.2-4
One question is that of how many response alternatives there should be. The general practice is no less than four nor more than seven, and in my experience, medical education researchers greatly tend to use four or five options, whereas in the broader social science community, in particular among psychologists and sociologists, six or seven are used.
Regardless of the number chosen, the choice of whether to go with an even or odd number of alternatives raises the question of whether providing a midpoint, often labelled neither-agree-nor-disagree, is a good idea. Debates exist among survey practitioners, some believing that it is better to offer respondents a way of indicating that their attitude is truly neutral; others arguing that the midpoint is often used inappropriately by individuals for reasons that do not reflect simple neutrality.5
Disagreement also exists as to how the Likert-item data should be analysed and presented.6 While some endorse the use of frequencies and percentages (using statistics such as chi-square), many others believe that sums and means can be calculated and reported (using statistics such as t-tests), even though technically, the choices do not represent interval-level data.
또한 리커트 항목에서 파생된 가능한 편견에 대한 의문도 많다.
한 가지 가능한 편견은, '묵인'으로서 사람들이 진술에 부동의하기보다는 동의하는 경향을 의미한다.
또 다른 [사회적 만족도 편향]은 사람들이 자신의 '진정한' 반응보다는 다른 사람들이 듣고 싶어한다고 믿는 대답을 제공하는 경향이 있다는 것이다.
'자대고 긋기straightlining'를 생성하는 응답 집합은 여러 항목이 모두 같은 방향으로 단어화될 때 지나치게 일관된 방식으로 답하는 경향이다. 비록 일부에서는 '아니오'를 문장에 삽입하여 항목의 의미를 되돌리려고 시도했지만, 이것이 형편없는 해결책이라는 증거가 존재한다.7
선호하는 관행은 일부와 동의하지만 다른 사람들과의 의견 불일치가 유사한 태도를 나타내는 항목을 작성하는 것이다. 예를 들어, '진료 중 환자와 의사는 동등해야 한다' 항목에 동의하는 것과 '의사가 진료면담에 책임이 있다'는 의견에 부동의하는 것은 둘 다 환자-중심적 지향성의 표현일 수 있습니다.
Questions also abound about possible biases deriving from Likert items.
One possible bias results from response acquiescence, the tendency of people to agree with statements rather than disagree.
Another, the social desirability bias, is the tendency for people to provide answers they believe others want to hear rather than their ‘true’ responses.
Response set, which generates ‘straightlining’, is a tendency to answer multiple items in an overly consistent manner when all are worded in the same direction. Although some have attempted to reverse an item's meaning by inserting ‘not’ into the statement, evidence exists that this is a poor solution.7
A preferred practice is to write items such that agreement with some, but disagreement with others, indicate a similar attitude (e.g., agreement with the item ‘Patients and their doctors should be seen as equals during a visit’ but disagreement with ‘The doctor should be in charge of the medical interview’ would both be expressions of a patient-centred orientation).
최근 리커트 항목에 대한 회의적인 시각으로 인해 대안적 유형의 접근법, 특히 '항목-특이적item-specific'(IS) 형식의 사용에 대한 논란이 일고 있다. 이와 같은 항목은 질문 초점의 함수로 다양한 응답 대안과 함께 문제를 제기한다. 예를 들어, 의대생들을 대상으로 설문조사를 할 때, 찬성 또는 반대와 관련된 선택사항에 따라 '나는 환자에게 나쁜 소식을 효과적으로 전달할 수 있다'는 진술보다는, IS의 지지자들은 '당신은 얼마나 자주 나쁜 소식을 환자에게 효과적으로 전달합니까?'와 같은 진술과 그 다음 '항상 그러함'에서 '절대 안 함'까지 다양한 선택을 추천할 것이다. IS 항목에는 대응 옵션 사용의 통일성이 잠재적으로 결여되어 교차 연구 비교를 어렵게 하는 것과 같은 가능한 문제가 있다. 예를 들어 빈도를 측정할 때 '빈번히', '종종', '대부분의 시간' 사이의 동등성을 확인하기는 어렵다.
Recently, scepticism about Likert items has led to debate about the use of alternative types of approaches, in particular the use of ‘Item-Specific’ (IS) formats. Items such as these pose a question, with response alternatives that vary as a function of the question's focus. In surveying medical students, for example, rather than providing the statement, ‘I can deliver bad news to patients effectively’, followed by options involving agreement or disagreement, IS proponents would recommend something such as, ‘How often do you deliver bad news to patients effectively?’ followed by choices that might range from Always to Never. IS items have their own possible problems, such as potential lack of uniformity in the use of response options, which would make cross-study comparison challenging. In measuring frequency, for instance, the equivalence among ‘frequently’, ‘often’ and ‘much of the time’ is difficult to ascertain.
Artino 등과 같이 의학 교육의 일부 연구자들은, 설문 조사 연구 설계에서 이러한 형태의 항목을 사용하는 것은 '문제Pitfall'중 하나로 지적하며, 동의-부동의 항목의 지속적인 사용에 대해 강한 (반대적) 입장을 취해왔다. 8 이러한 저자들이 방법론적 전문지식과 지식을 갖춘 사회 과학자들에 의해 논문을 인용하는 만큼, 이에 대한 정보는 다른 질문 형식을 사용하여 비교 연구에 집중하는 [조사 방법론자]와 [미국 여론 조사 협회와 같은 조직]의 회의에 정기적으로 참석하는 전문가에 의해 생성된 증거에서 나온다. Some in medical education have taken a strong position on the continued use of agree–disagree items, such as Artino et al, who have listed the use of this form of item as a ‘pitfall’ in survey research design.8 As much as these authors are respected for their methodological expertise and cite papers by informed social scientists,9 the ultimate source of information about this comes from the evidence generated by those survey methodologists who focus on comparative research using different question formats, professionals who regularly attend meetings of organisations such as the American Association of Public Opinion Research.
현재 증거의 상태를 요약한 매우 최근 그리고 철저한 리뷰에서, Dykema 등은 우리에게 다음과 같이 말한다.
(1) 증거 기반은 여전히 작고 잠정적이며, 연구 설계의 문제점과 혼란으로 인해서 결론을 쉽게 내리기 어렵다.
(2) 여러 연구에 따르면, 어떤 리커트 형식이 사용되었는지를 비교했을 때, 차이 또는 비교상의 긍정적 효과는 없다.
(3) 상당한 증거는 분명히 IS 질문의 방향으로 진행되고 있다.
In a very recent and thorough review summarising the state of the current evidence, Dykema et al tell us that
(1) the evidence base in still small and tentative, and problems and confounds in research design limit easy conclusions;
(2) several studies show no differences or comparative positive effects resulting from the comparative use of the Likert format; however,
(3) the preponderance of evidence is definitely trending in the direction of IS questions.
수년 동안 데이터의 신뢰성과 타당성에 대한 큰 걱정 없이 동의-불합치 형식을 사용하여 설문조사를 설계해 온 필자는 데이터 중심적이어야 하며, 근거의 무게가 명확하고 일관될 때까지 오랜 접근 방식을 단순히 거부해서는 안 된다고 굳게 믿고 있다. 만약 당신이 '얼마나 자주 항목특이적IS 질문을 사용할 생각인가'라는 질문을 한다면, 제 개인적인 대답은 '자주Often'일 것입니다. 그러나 만약 '동의-불합치 항목이 공룡처럼 멸종되어야 한다'는 문장이 있다면, 내 대답은 '강력히 동의하지 않는다'일 것이다.
Having for many years designed surveys using the agree–disagree format without great concern for the reliability and validity of the data, I am a strong believer that we should be data driven, and not simply reject long-standing approaches until the weight of the evidence is clear and consistent. If you presented me with the question, ‘How often do you intend to employ Item-Specific questions’, my personal response would be ‘Often’. Yet, if presented with the statement: ‘Agree–disagree items should go the way of the dinosaurs’, my response would be ‘Strongly Disagree’.
호환가능성 원칙: 임상역량 평가의 철학에 관하여(Adv Health Sci Educ Theory Pract.2020) The compatibility principle: on philosophies in the assessment of clinical competence Walter Tavares1,2 · Ayelet Kuper1,3,4 · Kulamakan Kulasegaram1,5,6 · Cynthia Whitehead1,5
도입 Introduction
종종 암묵적인 철학적 입장은 [역량의 본질(즉, 온톨로지)], [사람들이 역량을 어떻게 알고 이해하고 평가하게 되는지(즉, 인식론)], 그리고 [이것들이 어떻게 집합적으로 정당화될 수 있는지]에 대한 인식을 뒷받침한다.[철학적 위치]란 [평가 연구자에게 평가 문제와 해결책을 검토하기 위한 렌즈를 제공하는 일련의 인정된 가정과 헌신 또는 지적 프레임워크]를 의미합니다. 예를 들어, 평가 모델과 관련된 오류의 정도에 대한 지표로서 신뢰성을 강조하는 것은 실증주의나 사후 긍정주의와 밀접하게 일치하는 심리측정학 또는 측정 모델에 의해 영향을 받는다. A range of often implicit philosophical positions have come to underlie perceptions of the nature of competence (i.e., ontologies), how people come to know, understand and assess competence (i.e., epistemologies), and how these can be collectively justified. By philosophical positions we mean sets of recognized assumptions and commitments or intellectual frameworks that provide assessment scholars with lenses for examining assessment problems and solutions. For example, emphasizing reliability as an indicator of the degree of error associated with an assessment model is influenced by a psychometric or measurement model that is closely aligned with positivism or post-positivism.
철학적인 입장이 한때 평가 공동체 내에서 암묵적으로 공유된다고 가정할 수 있었던 경우, 평가 과학의 발전은 더 넓은 범위를 고려해야 한다고 제안했다(Govaerts et al. 2007; Govaerts and Vleuten 2013; Hodges 2013). 이로 인해 서술형 코멘트 이용의 증가(Brutus 2010; Hanson 등 2013; Ginsburg 등 2015)와 평가자 변동성을 그저 노이즈가 아니라 시그널로 처리해야한다는 것과 같은 혁신이 이루어졌다.
Where philosophical positions could once have been reasonably assumed to be shared implicitly within the assessment community, advances in assessment science have suggested that a wider range be considered (Govaerts et al. 2007; Govaerts and Vleuten 2013; Hodges 2013). This has led to such innovations as the increased use of comments (Brutus 2010; Hanson et al. 2013; Ginsburg et al. 2015) and the treatment of rater variability as signal as well as noise (Gingerich et al. 2014).
존재론적 및 인식론적 입장을 정의하고 그 정렬을 보장하는 것의 중요성은 보건 직업 교육 연구 영역 내에서 명확하게 확립되었다. 그러나, 무엇이 진실이고 알 수 있는가에 대한 믿음의 범위와 사람들이 어떻게 알게 되고 이해하게 되는지에 대한 그러한 명백한 인정은 평가에서 대부분 간과되어 왔다. 이는 역량, 평가 및 정당성에 대한 평가 설계자의 신념 사이의 무의식적인 모순과 부조화로 인해 평가 학문과 실습을 훼손할 가능성이 있다. 다양한 철학적 입장을 바탕으로 한 더 넓은 범위의 평가 전략의 사용이 평가 과학을 발전시킬 것을 약속하지만, 이는 또한 실제로 그러한 전략의 호환성과 관련된 새로운 논리적이고 경험적인 문제를 제기하고 있다.
The importance of defining ontological and epistemological stances and ensuring their alignment has been clearly established within the health professions education research domain. However, such explicit acknowledgement of the range of beliefs about what is real and knowable and about how people come to know and understand has largely been overlooked within assessment. This has the potential to undermine assessment scholarship and practice due to unwitting contradictions and incongruence between assessment designers’ beliefs about competence, its assessment, and justifications. While the use of a wider range of assessment strategies drawing on a variety of underlying philosophical positions promises to advance assessment science, this is also raising new logical and empirical challenges related to the compatibility of those strategies in practice.
평가 프로그램 설계에서 철학적인 입장을 신중하게 고려하지 않을 때 적어도 세 가지 잠재적 실제 문제가 발생할 수 있다. 이는 평가 프로그램의 주요 구성 요소들, 특히 아래의 구성 요소들 사이에 오정렬이 존재할 때 도출된다.
(a) 역량이란 무엇인가(존재론),
(b) 특정 전략과 활동을 결정하는 방법(인식론)
(c) 평가 프로그램으로부터 도출된 주장 또는 추론이 정당화될 수 있는 방법
At least three potential practical problems can emerge when philosophical positions are not carefully considered in the design of assessment programs. These are derived when misalignment between major components of an assessment program exist, specifically between
(a) what competence is (ontology),
(b) how specific strategies and activities are used to determine it (epistemology) and
(c) how claims or inferences derived from the assessment program can be justified.
첫째, 이러한 세 가지 평가 프로그램 구성요소에 대한 상충되는 가정과 약속과 관련된 철학적 입장의 암묵적 연결은 결과의 가능한 다중적 해석과 함께 혼란스럽고 제대로 뒷받침되지 않는 관행으로 이어질 수 있다.
둘째로, 양립가능성의 문제가 무시될 때, 철학적 입장이 행해지는 작업의 손해에 얼마나 중요한지를 무시하는 "뭐든 되는대로" 접근법이 평가를 지배할 수 있다.
셋째로, 그들의 근본적인 철학적 입장에 대한 명확성 없이 능력, 평가, 정당성에 대해 생각할 수 있는 방법들의 수가 증가하면서, 교육자들은 이러한 [철학적 위치 각각이 언제, 어떻게, 왜, 어떤 맥락에서 적절할 수 있는지], 그리고 [서로 다른 위치에 뿌리를 둔 관행이 동시에 통합될 수 있는지 또는 존재할 수 있는지]에 의문을 갖지 않게 된다.
First, the implicit linkages of philosophical positions associated with conflicting assumptions and commitments to these three assessment program components can lead to confusing and poorly supported practices with multiple possible interpretations of results.
Second, when issues of compatibility are ignored, an “anything goes” approach can dominate assessment ignoring how philosophical positions matter to the detriment of the work being done.
Third, the increasing number of possibilities for ways to think about competence, assessment and justification without a clarification of their underlying philosophical positions leaves educators questioning when, how, why, and in what contexts each of these philosophical positions may be appropriate, and whether practices rooted in different positions can be merged or exist simultaneously.
잠재적인 발전 방법으로, 우리는 평가 과정과 그것의 정당성에 대한 근본적인 논리를 제공하는 [호환성 원칙compatibility principle]을 제안한다. 이러한 [호환성]의 개념은 연구자들이 서로 다른 철학 지향적인 접근법들을 병합하는 것의 적합성에 대해 논의한 혼합 방법 연구의 [비호환성(비호환성)incompatibility (incommensurability)] 논문에서 채택되었다. (Howe 1988; Johnson and Onwuegbuzie 2004; Hathcoat and Meixner 2017)
As a potential way forward, we propose acompatibility principlewhich provides a fundamental logic in the process of assessment and its justification. This notion of compatibility is adapted from an incompatibility (incommensurability) thesis in mixed methods research in which researchers have debated the suitability of merging different philosophically-oriented approaches (Howe1988; Johnson and Onwuegbuzie2004; Hathcoat and Meixner2017).
평가에서, [호환성 원칙]은 [평가 계획 간] 및 [평가 계획 내]에 [서로 다른 철학적 입장]이 존재할 수 있다는 것을 인식해야 하는 의무를 의미하며, 이러한 입장이 평가 설계자를특정 아이디어, 가정 및 약속에 commit하게 함을 의미한다. 이는 다음에 대한 개념화에 적용된다.
역량(즉, 구인)
평가 전략(즉, 프로세스에 informing하는 guiding principle) 및
활동(예: 도구, 데이터 수집 및 분석),
정당화(예: 타당성 프레임워크의 적용) 및 해석.
In assessment, we propose that the compatibility principle refers to the obligation to recognize that different philosophical positions can exist between and within assessment plans and that these positions commit assessment designers to particular ideas, assumptions and commitments. This applies to conceptualizations of
competence (i.e., constructs),
assessment strategies (i.e., guiding principles informing processes) and
activities (e.g., tools, data collection and analyses), as well as
justification (e.g., application of validity frameworks) and interpretation.
우리의 주요 관심사는 (여러 다른 위치 내에서 데이터를 생성하는 데 종종 사용될 수 있기 때문에 사용되는) 평가 도구나 역학보다는, [철학적으로 정보에 입각한 평가의 논리, 가정 및 그 약속]이다. 우리는 이러한 근본적인 철학적 입장과 그들의 제정법이 평가 계획/프로그램의 적절성을 결정한다고 주장한다.
Our primary concern is the logic of a philosophically-informed assessment, its assumptions, and its commitments, rather than with the assessment tools or mechanics being used, as the latter can often be used to produce data within multiple different positions. We argue that it is these underlying philosophical positions and their enactment that determines the appropriateness of an assessment plan/program.
여기서 우리는 주로 [평가 과학assessment science]의 현재 상태와 관련이 있다(실체론적 및 인식론적 정렬에 대한 유사한 초점은 평가에 대한 연구를 포함하여 연구 과정에서 엄격성에 대해 연구하고 가르치는 사람들에게 다소 오래된 개념이라는 것을 인지하고 있다). 우리의 프레임이 이와 다른 것은, 비록 평가 과학에서 연구 프로세스를 차용하였음에도, [(현재) 평가와 그 구성 요소 부분에서의 위치position의 다양성이 증가하는 맥락]에서, [철학적 위치의 역할과 관련성]이 아직 [좋은 평가를 위한 기준]을 구체화할 때 기본적인 것으로 인식되지 않았다는 점에서 다르다. Here we are primarily concerned with the state of assessment science (while recognizing that an analogous focus on ontological and epistemological alignment is a rather old concept to those who study and teach about rigor in the research process, including for research about assessment). However, while borrowing from the research process, our framing is different in that the role and relevance of philosophical positions in the context of a growing diversity of positions in assessment and its component parts has yet to be recognized as fundamental when specifying criteria for good assessment (Norcini et al. 2011; Eva et al. 2016; Norcini et al. 2018).
평가 프로그램의 구성요소에 정보를 제공하는 철학적 위치의 복수성 Plurality in the philosophical positions informing components of assessment programs
역량 Competence
[역량의 개념화]가 풍부한 이유는 부분적으로 그들에게 정보를 주는 철학적 위치 때문이다.
Conceptualizations of competence are plentiful in part because of the philosophical positions that inform them.
[역량]이 [존재하며, 잠재된 특성latent trait으로 볼 수 있으며, 제한된 수의 대표 차원을 사용하여 측정할 수 있다]고 여기는 존재론적 위치를 고려하십시오.(Kane 1992; Epsein and Hundert 2002) (적용된 예로서 Fletcher 외 2003; Norcini 외 2003; Kim 외 2006; Tavares 외 2012 참조). 이러한 견해는 비록 사회적 맥락에 따라 다소 다르게 집행되더라도 진리의 개념인 실증주의, 후기 실증주의의에 대해 말하는 철학적 입장과 일치한다.
Consider the ontological position that competence exists, can be viewed as latent traits, and can be measured using a limited number of representative dimensions.(Kane 1992; Epstein and Hundert 2002) (see Fletcher et al. 2003; Norcini et al. 2003; Kim et al. 2006; Tavares et al. 2012 as applied examples). This view aligns with philosophical positions that speak of concepts of truth—positivism, post-positivism—even if enacted differently across social contexts.
그러나 이러한 존재론적 입장은 더 이상 보건 직업 교육 내에서 보편적으로 유지되지 않는다. 일부는 후기 실증주의가 역량의 복잡성을 과소평가할 수 있다고 주장하며, 다른 철학적 입장에 의해 informed된 대안적 이해를 요구한다(Govaerts et al. 2007; Hodges 2013; Bartels et al. 2017). 그들은 [역량이 대인관계적이고, 사회적 위치에 있으며, 공동 구성되며, 직접적으로 측정할 수 없는 구조가 있다]고 제안한다. 이러한 관점에서 [제한된 수의 차원]만으로는 역량을 이해하는 데 필요한 모든 관련 속성이나 요소를 잘 나타내지 못한다.
예를 들어, 쿠퍼 외 연구진. (2007) 해석론자/구성론자 온톨로지를 보유하고, 역량이 문맥에 얽매이고, 상황적, 대인관계 및 사회적으로 구성되었다고 기술했다(Kuper 등 2007).
마찬가지로, 호지스와 링가드(2013)는 [특정한 시간과 장소에서 유능한 전문가가 되는 것이 무엇인지]에 대한 문화적, 정치적, 사회적, 행동적, 경제적 표현에 의해 "역량"이 형성되는 방식을 설명했다.
However, these ontological positions are no longer universally-held within health professions education. Some have argued instead that post-positivism may underestimate the complexities of competence, calling for alternative understandings informed by different philosophical stances (Govaerts et al.2007; Hodges2013; Bartels et al.2017). They suggest there are constructs for which competence is interpersonal, socially situated, co-constructed, and not directly measurable. In this view, a limited number of dimensions fails to represent well all the relevant attributes or factors necessary to understand competence.
For instance, Kuper et al. (2007) holding an interpretivist/constructivist ontology, described competence as context-laden, situational, interpersonal and socially constructed (Kuper et al. 2007).
Similarly, Hodges and Lingard (2013) described how “competence” is shaped by cultural, political, social, behavioral and economic representations of what it is to be a competent professional at a particular time and place (Hodges and Lingard 2013).
종합하면, 역량은 [측정 가능한 대표 차원을 갖는 진실하고 잠재된 속성]을 반영하거나, [사회적 상호작용에서 파생되고 매개되어 공동 구성되는 것]으로 사용될 수 있다.
Competence can therefore be both as reflective of true, latent attributes with measurable representative dimensions and/or as co-constructions derived from and mediated by social interactions.
평가 전략 Assessment strategies
다른 철학적 입장은 또한 [역량이 어떻게 평가되어야 하는지]에 대해 우리를 다르게 인도한다. 이것은 기초적인 존재론적 가정과 구조와 그것의 평가를 알리는 약속 사이의 인식론적 짝짓기 또는 정렬의 유형을 포함한다. 예를 들어, 우리가 가지고 있는 근본적인 철학적 입장에 따라, 다중 샘플링의 목적, 의미 있는 데이터 출처, 평가자가 평가 과정에 참여하는 방법 및/또는 평가 프로그램의 방법이나 품질을 해석하는 방법에 대해 서로 다를 수 있다. [하나의 존재론적 및 인식론적 쌍]에서 높은 수준의 측정 오류를 발생시키는 것으로 볼 수 있는 평가 전략은, 정확히 [다른 존재론적 및 인식론적 쌍]에서 가장 유용한 유형의 활동일 수 있다. 즉, 교육자/연구자가 역량을 근본적으로 다른 방식으로 이해한다면, 어떤 평가 활동은 둘 중 하나 또는 다른 것과 더 잘 연계될 수 있다.
Different philosophical positions also guide us differently as to how competence should be assessed. This involves a type of epistemic pairing or alignment between the underlying ontological assumptions and commitments informing a construct and its assessment. For instance, depending on the underlying philosophical position(s) we hold, we may disagree on the purpose of multiple sampling, what data sources serve as meaningful, how raters are to engage in the assessment process, and/or how we should interpret the methods or quality of an assessment program. Assessment strategies that may be viewed as generating high levels of measurement error under one ontological and epistemological pairing may be precisely the kinds of activities that would be most informative in another. In other words, if educators/researchers understand competence in fundamentally different ways, it follows that some assessment activities may be better aligned with one or the other.
예를 들어, Whitehead 등(2015)은 역량을 존재론적으로 [사회적으로 구속되고 공동 구성된 것]으로 포지셔닝했다(즉, 구성주의와 일치한다). 따라서 민족지적 평가 활동을 사용하기 위한 후속 권고는 맥락상 일련의 복잡한 사회 구조로서 역량을 평가해야 하기 때문에 [논리적으로 인식론적 호환성]을 충족한다(Whitehead et al. 2015). 그러나 선택된 평가 활동과 관련된 [중립성neutrality의 정도]를 고려할 때 인식론적 쌍에 약간의 유연성이 존재한다. For example, Whitehead et al. (2015) positioned competence ontologically as socially bound and co-constructed (i.e., consistent with constructionism). Their subsequent recommendations to use ethnographic assessment activities therefore meets logical epistemic compatibility because of a need to assess competence as a series of complex social constructs in context (Whitehead et al. 2015). However, some flexibility in epistemic pairings exists when one considers the degree of neutrality associated with selected assessment activities.
예를 들어, [텍스트의 사용]은 인식론적으로 중립적인 것으로 간주될 수 있다. [역량을 포착하거나 반영하기 위하여 단어를 수집하는 기능적 활동]이 두 가지 이상의 방식으로 분석될 수 있기 때문이다: 가능한 분석 방법으로는 고전적인 콘텐츠 분석(즉, 단어 사용 횟수 계산)도 있지만 theory-informed 귀납적 및 해석적 비판적 접근법(Lincoln 및 Guba 1985)도 가능하다. 따라서 텍스트 데이터 자체가 어느 정도의 중립성을 허용한다. 따라서 평가 활동과 전략이 역량과 "중립성"의 정도에 대한 존재론적 위치와의 조정은 모두 관련이 있다.
For example, the use of text might be regarded as epistemologically neutral because the functional activity of gathering words intended to capture or reflect notions of competence may be analyzed in more than one way: analytic possibilities range from classical content analysis (i.e., counting how many times a word is used) (Neuendorf 2016) to theory-informed inductive and interpretive critical approaches (Lincoln and Guba 1985), thus allowing the textual data itself a degree of neutrality. The alignment that assessment activities and strategies have with ontological positions on competence and the degree of their “neutrality” therefore both become relevant.
정당성으로서의 타당성 Validity as justification
평가의 또 다른 주요 구성요소는 타당성 프레임워크를 사용하여 평가 프로그램 데이터(즉, 정당성)에 적용되는 추론, 결정 또는 의미에 대한 논리적 및/또는 경험적 지원을 확립하는 것이다. 타당성의 많은 측면에 대한 합의가 있지만, 한 가지 핵심 의견 불일치는 근본적인 철학적 위치에 있다. 즉, [특정 타당성 프레임워크]를 사용한다는 것 자체만으로는 [특정 철학적 위치]를 본질적으로 나타내거나 자연스럽게 연관되지 않는다. 여전히 역량과 평가 활동에 대한 다양한 위치에 따라 coherence가 flexible하고 uncertain하다.
Another major component of assessment is the establishment of the logical and/or empirical support for inferences, decisions or meanings applied to assessment program data (i.e., justifications) using validity frameworks. While there is consensus on many aspects of validity Cizek 2012, 2016) one key disagreement is in the underlying philosophical position. That is, the inclusion of a validity framework in and of itself is neither inherently indicative of, nor naturally associated with, a particular philosophical position, making coherence with varied positions on competence and assessment activities flexible but also uncertain.
예를 들어, 메식(Messick)은 속성을 특성화하려는 우리의 시도와는 무관하게 "구성주의적-현실주의" 방식으로 타당성을 기술하고 있으나, 실제로는 counterpart가 되는 구인이 있다고 여겨지곤 한다. 그러나 다른 이들은 메식(Messick)의 타당성 모델은 "[측정되고 있는 속성의 존재]에 대한 헌신을 필요로 하지 않는다"며 이 모델은 존재론적으로 자유롭거나 현실주의와 일치할 수 있다고 주장한다(후드 2009).
좀 더 최근에. Kane (2013)은 타당성을 실용적이고 과학적인 활동으로 설명합니다(Kane 2013). 철학적 입장에 대한 우려는 타당성과 검증이 단지 주장에 달려있다는 견해 대신에 경시된다. 케인(2013)은 '진실'을 대변하는 것에 대해 어떠한 주장도 하지 않으며, 그보다는 진실을 뒤에 배경에 두고, 필요한 모든 수단을 사용하여 얻은 정당화한 믿음을 주장한다.
그러나 Borsboom은 진실은 타당성 프레임워크의 중요한 특징이라고 주장한다. 진리와 명분이 분리될 수 있기 때문에 'justified true belief'이 'justified belief'을 대체해야 한다는 것이다.
For example, Messick claimed to be describing validity in a “constructive-realist” way, arguing that attributes are real, independent of our attempt to characterize them, but that there may also be constructs for which there is no counterpart in reality (Hood 2009; Messick 1989). Others have argued that Messick’s validity model “does not require a commitment to existence of the attribute purportedly being measured” and that the model is ontologically free or possibly aligned with realism (Hood 2009).
More recently. Kane (2013) describes validity as a pragmatic, scientific activity (Kane 2013). Concerns over philosophical positions are downplayed in place of the view that validity and validation are simply contingent on the claims being made. Kane (2013) makes no claims about representing a “truth”, and instead argues for a justified belief obtained using whatever means necessary, leaving truth in the background. (Kane 2013)
Borsboom, however, argues that truth is an important feature of validity frameworks and that ‘justified true belief’ should replace ‘justified belief’ because truth and justification can come apart (Borsboom and Markus 2013; van Heerden Gideon and Mellenbergh 2013).
따라서 타당한 신념을 주장하는 많은 다른 방법들을 통합하기 위해 다른 철학적 관점을 활용하는 연구자들에 의해 타당성이 점점 더 많이 사용되고 있지만, 불행하게도 너무 자주 [관련 철학적 이슈와 그들의 함축에 대한 설명 없이] 채택되고 있다. 보건직업 교육에서 타당성을 탐구하는 최근의 검토에서도, 연구자들이 "사이코메트리", "대부분 사이코메트리" 또는 "대부분 전문가 판단"에 초점을 맞춘 검증 전략을 사용했다고 제안하는 것 말고는, 대부분 연구자들의 철학적인 입장을 식별하지 못했다.
Thus validity is increasingly used by researchers leveraging different philosophical perspectives to incorporate many different ways of arguing for a justified belief, but it is unfortunately too often adopted without explication of the relevant philosophical issues and their implications. Evan a recent review exploring validity in health professions education did not identify philosophical positions as a main finding other than suggesting researchers used validation strategies that focused on “psychometric”, “mostly psychometric” or “mostly expert judgment”. (St-Onge et al.2017).
요약하자면, 현대의 다양한 철학적 입장의 결과로 역량의 본질/정의에 가변성과 (암묵적으로 남겨진다면) 불확정성이 모두 존재하며, 역량의 평가에 사용되는 전략과 활동, 그리고 그 타당성/검증: 이들 사이의 논리적 일관성은 더 이상 (당연한 것으로) 가정될 수 없다. In summary, as a result of the variety of contemporary philosophical positions there is both variability and (when left as tacit) indeterminacy in the nature/definition of competence, the strategies and activities used to assess that competence, and their validity/validation: logical coherence between these can no longer be assumed.
[평가의 주요 구성요소에 대한 철학적인 입장]에 따라 [평가 프로그램의 품질과 적절성에 대한 해석]을 달리 해야 할 뿐만아니라, 서로 다른 [실용적인 선택]으로 해석되어야 한다. 기저의underlying 타당성을 포함하여 철학적 입장이 잘못 정의되거나 제대로 고려되지 않는 경우, 평가 프로그램을 개발하고 평가하는 사람들은 결국 다른 방식으로 의미를 부여하게 될 수 있다(Wiliam 2017). 혼합 방법 문헌의 토론을 바탕으로, 우리는 평가 구성 요소 간의 철학적 일치성에 주의를 기울임으로써 평가 프로그램을 훼손할 위험을 완화하는 방법으로 호환성 원칙을 제안한다.
The philosophical positions held about the major components of assessment should translate into different practical choices as well as different interpretations of the quality and appropriateness of assessment programs. When philosophical positions are ill-defined or poorly considered, including those underlying validity, then those who develop and evaluate assessment programs may end up ascribing meaning in different ways (Wiliam2017). Drawing on debates in the mixed methods literature, we therefore propose a compatibility principle as a way of mitigating the risk of undermining assessment programs by giving attention to philosophical congruence between assessment components.
Fig. 1
호환성 원칙: 철학적 일치성에 주의를 기울여 평가 프로그램의 훼손 위험 극복 The compatibility principle: overcoming the risk of undermining of assessment programs with attention to philosophical congruence
쿤(1970)에 의해 처음 소개된 철학적 입장의 [양립가능성Compatibility (or commensurability)]은 [혼합 방법 연구]가 진화하면서 강력한 주제가 되었다. 이러한 맥락에서 연구자들은 동일한 연구 내에서 [서로 다른 철학적 입장의 양립불가능성]에 대해 논의하였다. 부분적으로 논쟁은 문제가 반드시 실천 수준(예: 데이터 수집)이나 방법에서 발생하는 것은 아니며, [철학적 입장과 방법 사이에 일대일 대응은 없지만], 철학적 입장과 가정, 약속 및 해석 수준에서 문제가 발생한다는 것이다. Compatibility (or commensurability) of philosophical positions, introduced initially by Kuhn (1970), became a strong theme as mixed methods research evolved (Howe 1988). In that context researchers debated the incompatibility of different philosophical positions within the same study (Howe 1988). The argument in part was that problems emerge not necessarily at the level of practice (e.g., data collection) or methods—there is no one-to-one correspondence between philosophical positions and methods (Denzin and Lincoln 2011; Ghiara 2019) but at the level of philosophical positions and the assumptions, commitments and interpretations they impose.
이 논쟁은 소위 정량적 연구가 질적 방법과 더 존재론적으로 양립할 수 있는 개념을 포함할 수 있고(그 반대도 마찬가지), 각각의 기초가 되는 철학적 입장이 논리적으로 독립적이라는 것을 제시하면서 일부 [실용적인 관점]으로 이어졌다(존슨과 온웨그부지 2004).
어떤 사람들은 논쟁은 [방법이나 현실의 본질 수준]을 다룰 것이 아니라, [질문의 수준]과 [합리적인 조사와 주장을 제공하기 위해 필요한 모든 것]이 되어야 한다고 느꼈다(Hathcoat and Meixner 2017).
그러나, 다른 사람들은 [혼합 방법]이, 방법이 아니라, [철학적 일관성을 유지하는 것]에 달려 있다고 주장했고, 실용적인 "무엇이 효과가 있는가" 격언은 사회적 탐구social inquiry에서 피해갈 수 없는 철학적 측면을 무시했다고 주장했다. 이 프레임에서 보자면, (비)호환성은 연구원들이 가정이 모순되거나 충돌하는 철학적 입장을 가진 문제에 접근할 때 나타날 수 있다. 이 호환성 문제는 혼합 방법 연구 커뮤니티(Ghiara 2019)에서 계속 논의되고 있다.
This debate led to some pragmatic views, suggesting that so-called quantitative studies could include concepts that were more ontologically compatible with qualitative methods (and vice versa), and that the philosophical positions underlying each were logically independent (Johnson and Onwuegbuzie 2004).
Some felt that the debate should not be at the level of the methods or of the nature of reality, but at the level of the question and whatever it took to provide reasonable inquiries and assertions (Hathcoat and Meixner 2017).
However, others argued that mixing methods depended on maintaining philosophical consistency, as opposed to methods, and that the pragmatic “what works” maxim neglected the unavoidable philosophical aspects of social inquiry (Hathcoat 2013) In this framing, incompatibility can emerge when researchers approach problems with philosophical positions whose assumptions are contradictory or in conflict. This issue of (in)compatibility continues to be argued in the mixed methods research community (Ghiara 2019).
우리가 설명한 바와 같이, 보건 직업에서의 평가에서는 [역량, 평가 전략 및 정당성 수준에서 다양한 철학적 입장]이 존재합니다. 이러한 각 요소에 대해서 혹은 전반적으로, 일단 어떤 위치가 채택되면, 그 관점의 경험적 결과에 전념하게 된다. 이것들이 충돌할 때, 논리적, 경험적 비호환성의 위험이 나타난다. 그 결과, 정당성 주장은 결함이 있을 수 있고, 동일한 데이터에 대한 다중 해석이 존재할 수 있으며, 근본적인 가정을 무시하는 전략이 맹목적으로 영구화될 수 있으며, 평가에 새로운 학문을 가장 잘 활용하거나 통합하는 방법이 불분명해질 수 있다. 반면에 [평가의 호환성 원칙]은 (어떤 평가를 선택할지 유도하고, 주어진 맥락에 대해 허용되는 평가 전략의 경계를 결정하는) 철학적으로 정보에 입각한 평가의 논리를 촉진한다. As we have described, within assessment in health professions education different philosophical positions now exist at the levels of competence, assessment strategies, and justification. For each of these components and overall, once a position is adopted, one is committed to the empirical consequences of that perspective. When these are in conflict, a risk of logical and empirical incompatibility emerges. As a result, justification arguments may become flawed, multiple interpretations of the same data can exist, strategies that ignore underlying assumptions may be blindly perpetuated, and the ways to best utilize or integrate new scholarship in assessment become unclear. A compatibility principle in assessment, on the other hand, promotes a logic of philosophically-informed assessment that drives assessment choices and determines the boundaries of acceptable assessment strategies for a given context.
호환성 원칙의 적용 The compatibility principle applied
이어지는 예에서, 우리는 [실증주의/후기 실증주의]와 관련된 가정과 약속을 평가 프로그램의 맥락에서 [구성주의]의 가정과 대조적으로 위치시킬 것이다. 우리는 건강 직업 교육의 최근 권고를 바탕으로 전자(Govaerts et al. 2013)의 한계에 대응하여 후자를 활용하기 위해 이러한 직책을 선택했다. 우리는 이러한 두 가지 철학적 입장이 양립할 수 없다는 것을 발전advancing시키는 데 있어 새로운 것은 없다는 것을 인식하지만, 역량, 평가 전략, 정당성 및 상호 작용을 고려할 때 평가에서의 적용은 덜 명확하다. 둘째로, 우리는 고려해야 할 철학적 입장이 더 많고 여기서 설명하는 것보다 선이 더 흐릿하다는 것을 인지한다. 주목하고자 하는 것은 (질적 대 정량적 토론이 아니라) 평가 설계자가 사용하고자 하는 [철학적 입장의 가정과 약속]이 중요하다는 것이다. 우리의 논지는 [입장이 서로 다른 경우]에는 [평가의 각 구성 요소에 대해 서로 다른 의무와 해석을 요구한다]는 것이다. 따라서 이러한 구성 요소들 사이에 평가 작업을 저해할 수 있는 방치된 부조화가 발생할 수 있다.
In the examples that follow, we position the assumptions and commitments associated with positivism/post-positivism in contrast with those of constructivism in the context of assessment programs. We selected these positions based on recent recommendations in health professions education to leverage the latter in response to the limitations of the former (Govaerts et al.2013). We recognize that there is nothing new in advancing that these two philosophical positions are incompatible, but their application in assessment is less obvious when considering conceptualization of competence, assessment strategies, justifications, and their interactions. Second, we recognize that there are many more philosophical positions to consider and that lines are likely more blurred than we illustrate here. It is the attention to the assumptions and commitments of any philosophical position (as opposed to a qualitative vs. quantitative debate) that assessment designers intend to use that is of importance here. Our thesis is that different positions mandate different obligations and interpretations for each component of assessment. As such, left unattended, incongruencies can emerge between these components that can undermine assessment work.
예 1: 평가에 관찰자 사용 Example 1: the use of observers in assessment
가상의 예로서, [평가자의 판단과 관찰 결과를 샘플링하는 것]의 중요성에 기초한 임상 역량의 평가를 고려한다. 필연적으로 근본적인 철학적 입장과 연관된 많은 결정들이 내려진다. 예를 들어, 후기 실증주의적 위치(필립스와 버불즈 2000)를 채택하는 것은
역량을 [어느 정도의 불완전성을 동반한다면, 측정이 가능한 개인(또는 팀/그룹) 내에 존재하는 잠재 속성의 집합]으로서 포지셔닝할 수 있다.
후기 실증주의자들은 임상 자극에 대응하여 나타난 후보 행동에 기초하여 객관적이고 정확하게 정보를 전달할 수 있는 기회로 평가자와 평가자의 기여도를 위치시킬 수 있지만, 어느 정도의 [편향 또는 인간 영향]이 존재하고, 이는 제거되어야 할 소음이나 오류로 간주된다는 것도 인정한다.
평가자에 의한 오류의 정도를 더욱 완화하기 위해 [평가자 교육]이 적용된다.
평가 도구는 텍스트 유무와 관계없이 (평가자를 돕고 오류를 최소화하기 위해) 고도로 [구조화]될 수 있다. 텍스트가 사용되는 경우, 잠재 속성에 대해 더 자세히 설명하는 것입니다. 이 맥락에서 [샘플링]은 평가자에 기인하는 오류를 (수학적으로) 줄이기 위한 방법이다.
마지막으로, 정당화 프로세스는 [신뢰성, 평가자 간 신뢰도, 항목 분석]과 같은 측정 기준을 포함하는 타당성 프레임워크를 사용하여 평가자 행동과 관련된 가정을 탐구할 수 있다.
Consider, as a hypothetical example, assessments of clinical competence based on assessors’ judgments and the importance of sampling their observations. A number of decisions are made that are unavoidably linked to underlying philosophical positions. For example, adopting a post-positivist position (Phillips and Burbules 2000) might include
positioning competence as a collection of latent attributes existing within individuals (or teams/groups) that are measurable but with some degree of imperfection.
Post-positivists may position assessors and their contributions as opportunities to objectively and accurately transfer information based on candidate behaviors exhibited in response to clinical stimuli, but with a recognized degree of bias or human influence that is considered noise or error to be eliminated.
Rater training is applied to further mitigate the degree of error attributable to assessors.
Rating tools may be highly structured (to assist raters and minimize error) with or without text. Where text is used, it is to further elaborate on latent attributes. Sampling in this context is a method for reducing error (mathematically) attributable to raters.
Finally, justification processes may use validity frameworks that include metrics such as reliability, inter-rater reliability, and item analyses to explore assumptions related to (and eventually to correct) rater behaviors.
그러나, [해석주의/구성주의] 관점에서 본다면, 역량은 [협상된 사회문화구조]에 더 가까울 수 있다.
[평가자]는 주관적이고, 의미 있게 독특하고(더 좋을수록), 가치 중심적이며, 사회적 규칙과 맥락(예: 환경, 사회, 직업 문화)에 의해 수용될 수 있는 관점과 기여를 가지고 있다고 인식되고 평가된다.
[평가자 교육(Rater Orientation)]은 행동을 교정하기 위한 것이 아니라 평가자가 자신의 역할과 기여가 어떻게 사용될 수 있는지를 이해하도록 하기 위한 것이다.
[등급 척도]는 덜 체계적일 수 있으며, [텍스트 데이터]가 우선된다. 여기서 텍스트는 충분히 다양하고 여러 의미 있는(즉, 풍부하고 다양한) 데이터 소스 중 하나로 인식될 때 가장 가치가 있다.
[표본 추출]은 평가자들의 수집이, 평가자 개개인의 고유한 기여도를 통해 구조를 충분히 대표할 수 있도록 하기 위한 의도일 수 있다.
정당화에는 타당성 프레임워크도 포함될 수 있지만(Cook et al. 2016), 정당화된 믿음에 대한 주장은 평가자의 성찰성, 평가자 기여의 다양성 및 생성되는 데이터의 신뢰성과 신뢰성에 대한 고려를 이끌어낼 수 있다.
However, if viewed from an interpretivist/constructivist perspective, competence may be more of a negotiated sociocultural construction.
Raters are recognized and valued as subjective, meaningfully idiosyncratic (the more the better), values-driven, and having views and contributions that are acceptably shaped by social rules and contexts (e.g., environment, society, professional culture).
Rater orientation—rather than rater training intended to correct behavior—is intended to have assessors understand their role and how their contributions may be used.
Rating scales may be less structured and textual data is prioritized. Here text is most valuable when it is sufficiently varied and is recognized as one of multiple meaningful (i.e., rich and diverse) source of data.
Sampling may be intended to ensure that the collection of raters, in their unique contributions, sufficiently represent the construct.
Justification may also involve validity frameworks (Cook et al. 2016), but the arguments for a justified belief may draw on considerations of rater reflexivity, the diversity of rater contributions, and the credibility and trustworthiness of the data being generated.
예 2: 텍스트 데이터의 사용 및 변환 Example 2: the use and conversion of textual data
한편, 수치numeric 대 서술narrative 평가의 사용을 탐구하는 최근 연구를 고려한다(Bartels et al. 2017). 저자들의 존재론적 및 인식론적 입장은 불분명하지만, 우리는 대안적 입장의 철저한 검토와 공정한 비판을 바탕으로 구성주의적 입장을 취하게 된다. 저자들은 ITER에서 수치 및 서술적 데이터를 소급하여 수집하고, 전문가들이 텍스트 데이터에 번호를 할당하도록 한 다음, 계산된 상관관계 및 신뢰성 분석을 실시했다. 이 시점에서, (만약) 우리의 가정이 정확하다면, 온톨로지와 인식론 사이의 호환성은 저자들의 철학적 위치는 문제가 된다.
Alternatively, consider a recent study exploring the use of numeric versus narrative evaluations (Bartels et al.2017). The authors’ ontological and epistemological positions are unclear, but we are left to assume a constructivist stance—though we cannot be certain—based on their thorough review and fair criticism of alternative positions. The authors retrospectively collected numerical and narrative data from in-training evaluation reports, had experts assign numbers to the textual data, then calculated correlation and reliability analyses. At this point, compatibility between ontology and epistemology becomes a concernifour assumption about the authors’ philosophical position is accurate.
저자들은 통계 데이터를 정당성의 원천으로 사용하여 [변환된 서술형 평가]가 [숫자 점수만큼 신뢰할 수 있다]고 결론짓는다. 저자들은 암묵적인 견해 때문에 연구를 받아들일 수 있다고 생각한다. 그러나 이제는 다음을 포함한 여러 해석이 가능하다.
(a) 텍스트에서 숫자 데이터로 신뢰성으로의 변환이 적절한 경우
(b) 의미 있는 변화를 포착하기 위한 텍스트 사용이 이 접근법과 모순되는 경우
(c) 우리(지식 사용자)가 잠재적 호환성 문제를 해결하는 데 어려움을 겪고 있으며 연구를 잘못 이해한 경우
Using the statistical data as a source of justification, the authors conclude that converted narrative evaluations are as reliable as numeric scoring. The authors, we assume, found the study acceptable because of an implicit set of views. However, multiple interpretations are now possible including:
(a) that the conversion from text to numerical data to reliability was appropriate;
(b) that the use of text for the purposes of capturing meaningful variation is inconsistent with this approach; or
(c) that we (as knowledge users) are having difficulty resolving a potential compatibility issue and have misinterpreted the study.
따라서 많은 대안적 해석이 가능하며, (무엇이 증거로 간주되고 무엇이 문제인지 등) 사용자의 철학적 입장에 해석이 남겨져있다. 더욱이, [이 연구가 그 분야를 발전시킬 평가에 관한 더 넓은 대화 내에서 배치될 수 있는 방법]은, 저자들에게는 아닐지 몰라도, [(자신의 입장을 결정해야 하는 처지에 있는) 논문의 사용자들]에게 덜 확실해 보인다. 이 단락에서 논의한 논문이 있는 저자에 대한 공정성을 위해, 우리도 평가 관련 논문에서 우리 자신의 철학적 입장에 대해 명시적이지 않은 것에 대해 죄책감을 느껴왔다. 예를 들어 Tavares 외 2016을 참조하라. 또한, 논문에 철학적 입장이 명시적으로 드러나지 않는 문제는 결코 특이하거나 현재 이 분야의 실천기준에 못 미치는 것이 아니다; 오히려 이는 매우 일반적인 현상이며, 그렇기 때문에 우리는 이 논문을 쓰고자 하는 자극을 받은 것이다.
Many alternative interpretations are thus possible, leaving the interpretation to be guided by the philosophical positions of the user, including what counts as evidence and what is problematic. Further, the ways in which this work can be positioned within broader conversations about assessment that would advance that field become less certain, not necessarily to the authors, for whom these may seem clear, but to users of their contribution who are left to impose their own positions. In fairness to the authors whose paper we have discussed in this paragraph, we note that we too have been guilty of not being explicit about our own philosophical positions in assessment-related papers; see for example Tavares et al.2016. Also, the lack of explicit philosophical positioning in their paper is in no way unusual or below the current standard of practice in the field; indeed, it is illustrative of the extremely common phenomenon that provided part of the impetus to write this article.
위의 예시들은 [표면적으로는 동일하게 보이는 평가 전략(예: 표본 추출, 평가자 기여)]이 [특정한 방식의 역량 개념화]와는 다소간 일치하거나 불일치할 수 있는 [다른 의미와 역할]을 가질 수 있음을 보여준다.또한 서로 다른 방법과 철학적인 입장이 하나의 평가 프로그램 내에서 혼합될 경우, 그 결과에 대한 상반된 해석이 가능하다는 것을 명확히 보여준다. 이로 인해 교육자와 평가 연구원 모두 향후 평가 계획 또는 표준을 어떻게 진행해야 할지 불확실한 입장에 놓이게 됩니다. 서로 다른 철학적 입장을 사용하는 평가 프로그램이 서로 다른 방식으로 평가의 유사한 특징에 접근할 수 있는 방법에 대한 나란히 요약은 표 1을 참조한다.
These examples illustrate how assessment strategies that appear the same on the surface (e.g., sampling, rater contributions) can hold different meanings and roles that may align more or less with certain conceptualizations of competence: this is parallel by differences in how validity and validation are applied. They also make clear that if philosophical positions, as opposed to methods, are mixed within an assessment program, conflicting interpretations of its results are possible. This places both educators and assessment researchers in a position of uncertainty about how to proceed with future assessment plans or standards. See Table 1for a side by side summary of the ways in which assessments programs using different philosophical positions could approach similar features of assessment in different ways.
표 1 서로 다른 철학적 입장을 사용하는 평가 프로그램이 서로 다른 방식으로 평가의 유사한 특징에 접근할 수 있는 다양한 방법에 대한 나란히 요약 Table 1 A side by side summary of the different ways in which assessments programs using different philosophical positions could approach similar features of assessment in different ways
[철학적 가정을 고려하지 않고] 매우 다른 평가 전략을 단일 프로그램에서 결합하려고 시도할 때, 추가적인 호환성 문제가 발생한다. 예를 들어, 역량에 관한 보다 강력한 종합 의사결정 프로세스를 위해 [시뮬레이션]과 [근무지 기반 평가WBA]를 결합하려고 노력하는 상황을 생각해보자.
[시뮬레이션 맥락]에서 역량은 종종 명확하게 정의되며 평가는 표준화, 일관성, 신뢰성 및 객관성을 촉진한다. 이것들은 후기 긍정주의 철학적 입장과 밀접하게 일치하는 공통 속성들입니다.
그러나, [근무지 환경]에서, 어떤 사람들에게는 역량이 역동적이고, 문맥적으로 구속되고, 건설되고, 공식적이고 비공식적인 차원으로 사회적으로 위치하는 것으로 개념화 될 수 있다.
Further compatibility issues arrive when attempting to combine very different assessment strategies in a single program without considering their philosophical assumptions. Consider, for example, the effort to combine both simulation and workplace based assessments for a more robust summative decision making process regarding competence.
In a simulation context, competence is often clearly defined and assessments promote standardization, consistency, reliability and objectivity. These are common attributes closely aligned with a post-positivist philosophical position.
However, in workplace contexts, for some, competence may be conceptualized as dynamic, contextually bound, constructed and socially situated with formal and informal dimensions.
평가 프로그램을 구조화한다는 것은 다양성, 풍부성, 포괄성 및 주관성을 촉진하는 것을 의미할 수 있다. 이것은 구성주의 철학적 입장과 더 밀접하게 일치한다. 그 두 가지가 결합되면, 우리는 개념적인 투쟁을 하게 될지도 모른다. 예를 들어, 어떤 철학적 위치에서 정당화 전략을 알려야 하며, 다른 "경쟁" 위치에서 수집된 데이터가 어떤 방식으로 중요한가? 이러한 이슈는 특히 평가 결정이 엄격하게 정당화되어야 할 때 하찮지 않다.
Structuring assessment programs may mean promoting diversity, richness, comprehensiveness and subjectivity. This is more closely aligned with a constructivist philosophical position. When the two are combined, we might find ourselves in a conceptual struggle. For instance, under which philosophical position are we to inform justification strategies and in what way does data collected under a different “competing” positions matter? These issues are not inconsequential, particularly when assessment decisions have to be rigorously justified.
논리적 확장: 실용주의 및 기타 고려사항 Logical extensions: pragmatism and other considerations
실제 작업을 진전시키기 위해(평가 활동을 수행하고 정당화하는 업무를 계속하기 위해) 일부는 다양한 반대 입장을 취했습니다. [철학적 호환성]에 대한 우리의 주장의 약점 중 하나는 [평가 과학을 가이드하는 이상적인 철학적 위치]로서 [실용주의]의 역할과 적합성이다. 우리는 평가를 [사회적 탐구 과정]으로 설명했으며, 이 과정은 우리가 무엇을 이해하고, 예측하고, 그리고/또는 주장을 하는지에 대한 기본적인 철학적 입장에 의해 형성된다. In order to move their practical work forward—to get on with the business of doing and justifying assessment activities—some have taken up various counter-positions. One of the claims to which our argument for philosophical compatibility may be vulnerable is the role and suitability of pragmatism astheideal philosophical position to guide assessment science (recognizing that other positions, such as realism or philosophical pluralism, may be of equal interest). We have described assessment as a social process of inquiry, shaped by fundamental philosophical positions about what we are interested in understanding, predicting, and/or making claims.
일부에서는 [실용주의]가 오늘날 평가에서 [가장 적절한 철학적 위치]라고 주장할 수 있다. 왜냐하면 건강 직업에서의 평가가 정의하기 어려운 사회적으로 집행되는 주관적이고 추상적인 구조와 관련이 있기 때문이다. (Guon et al. 2018). 또한, [타당성/자원, 기회, 비용, 수용성, 평가자 행동, 교육적 영향 등의 균형을 유지해야 하는 필요성을 포함하여 많은 압박]이 평가 계획에 작용한다. 이것들은, 적어도 누군가에게는, 실용주의가 해결책이 될 수 있는 중요한 실용적인 질문들이다.
Some may argue that pragmatism, as one such position, is the most appropriate philosophical position in assessment today in part because assessment in the health professions involves socially enacted subjective and abstract constructs that are difficult to define (Guyon et al.2018). Further, a number of pressures act on assessment plans, including the need to balance feasibility/resources, opportunities, cost, acceptability, rater behaviors, educational impact, etc. These are important practical questions to consider of which pragmatism, for some, may be a solution.
실용주의는 어느 정도의 유동성과 개방성을 나타내며, 철학적 논쟁을 명확히 하는 방법을 제공할 수 있다. 여기에는하나의 철학적 입장과 다른 철합적 입장사이에 무엇을 선택할지에 대한 문제의 해소, 또는 상충되거나, 알 수 없거나, 평가에 영향을 미치지 않는 "진실"과의 긴장 문제 해소 등이 포함될 수 있다(Bernstein 1989; Morgan 2014).
Pragmatism does represent a degree of fluidity and openness and may provide a way of clarifying philosophical disputes (Bernstein1989). These may include resolving issues related to how to choose one philosophical position over another, or tensions with “truths” that are in conflict, are unknowable, or have no impact on assessment (Bernstein1989; Morgan2014).
그러나 우리는 [운영을 위한 접근법으로서 실천적practical이거나 실용적pragmatic이라는 평준한 정의("무엇이 효과가 있는가")]와 [긴 지적 역사를 가진 명시적이고 의도적인 철학적 위치로서의 실용주의] 사이에서 명확한 구분을 하고자 한다. (Dewey 2018; James 1907). 후자는 평가 문제에 대한 실행 가능한 접근 방식으로 제공할 수 있는 것이 많다.
However, we draw a clear distinction between
the lay definition of being practical or pragmatic as an operational approach (“what works”), which may be what is most commonly meant by pragmatism within assessment science, versus
pragmatism as an explicit and deliberate philosophical position with a long intellectual history (Dewey 2018; James 1907) that has much to offer as a workable approach to assessment problems.
호환성 원칙에 도전하는 다른 아이디어도 고려할 가치가 있다.
예를 들어, 평가 과학은 평가의 성격과 수행에 대한 공통된 믿음을 나타내는 많은 예시를 가질 수 있다(예: 프로그램 평가). 실용주의나 철학적 입장의 혼합에 근거한 평가는 양립원칙의 필요성에 도전할 수 있는 예로 제시될 수 있다.
유사한 개념은 [혼합 방법 연구]에서 [모범으로서의 패러다임]으로 설명되었으며 평가 작업의 뉘앙스와 평가 필드를 채울 가능성이 높은 수많은 철학적 입장을 수용하는 방법을 제공한다고 주장될 수 있다.
또한 [서로 다른 존재론적, 인식론적 경로 또는 이들의 pairing]을 통해 평가 프로그램을 수행함으로써, [서로 다른 관점을 촉진]하고, [기존에 당연하게 여겨왔던 것]에 대한 검토를 촉진할 수 있는 경우도 있을 것이다. (Greene 2006; Uprichard and Dawney 2016; Ghiara 2019)
Other ideas challenging a compatibility principle are also worth considering.
For instance, assessment science may have a number of exemplars that represent a shared belief about the nature and conduct of assessments (e.g., programmatic assessments). Assessments grounded in pragmatism or in the mixing of philosophical positions may be presented as exemplars that may challenge the need for a compatibility principle.
A similar concept has been described in mixed methods research as paradigms-as-exemplars and may be argued to provide a way of accommodating nuances in assessment work and the numerous philosophical positions that are likely to populate the assessment field.
In addition, there are likely to be instances in which assessment programs can be conducted through different ontological and epistemological pathways or pairings thereby facilitating different points of view and promoting helpful examination of taken for granted understandings. (Greene 2006; Uprichard and Dawney 2016; Ghiara 2019).
앞으로 가는 길 Ways forward
[평가 설계]와 [평가 품질의 결정]은 [지표를 만들고 관행을 평가하는 사람들]의 신념과 기준의 적용을 받는다. 이러한 신념과 기준은 결국 수많은 철학적 위치에 의해 형성되고 정보에 의해 형성되는 사회적 과정을 적용한다. 우리는 HPE에서 평가에 대한 철학적 관점의 다양성이 증가하였다는 것에 encourage되었지만, 동시에 [다양한 철학적 위치의 적용]과 관련된 가정과 헌신은 새로운 영역에 초점을 둘 필요를 요구함을 인지하고 있다. 예를 들어, 우리는 결과와 정당성의 다중적인 의미 또는 상충되는 해석을 피하려면, [다양한 포지션]이 어떻게 [구조의 개념화]로 변환되는지, 그리고 그것들이 특정 평가 활동과 어떻게 정렬(또는 정렬되지)되는지에 주목해야 한다. Assessment design and the determination of assessment quality are subject to the beliefs and standards of those who create indicators and evaluate practices. These beliefs and standards are, in turn, applied social processes shaped and informed by numerous philosophical positions. We are encouraged by the growing diversity of philosophical views on assessment in health professions education but also recognize that assumptions and commitments associated with the application of different philosophical positions require new areas of focus. For example, we now must attend to how various positions translate into conceptualizations of constructs and how those are aligned (or not) with specific assessment activities in order to avoid the multiple meanings or conflicting interpretations of results and justifications.
건강직업 평가를 알리는 철학적 입장의 범위가 넓어지면서 [평가 실천의 논리와 정당성]에 대한 관심이 필요하다. 이런 식으로, [특정한 방법이 특정한 철학적 입장과 반드시 연관되지는 않기 때문에], 방법들에 대한 논쟁이나 경계 작업은 피할 수 있고, 철학적인 입장은 몇몇 유사한 방법과 일치할 수 있고, 연구자들은 하나의 철학적 입장을 채택하면서 방법들을 혼합할 수 있다. 더불어, 철학적 지위의 우월성에 대한 논쟁은 덜 강조될 수 있다. 흥미로운 것은 평가 학문과 실천에서 철학적인 입장이 어디서 그리고 어떻게 명확성, 일치성, 모순을 보이는가이다.
As the range of philosophical positions informing health professions assessment broadens, attention to the logic of assessment practice and justification is needed. In this way, debates or boundary work over methods can be avoided, since methods are not associated with a specific philosophical position, a philosophical position can be congruent with several similar methods, and researchers can mix methods while adopting one philosophical position. Also, debates over the superiority of philosophical positions can be deemphasized. What is of interest is where and how philosophical positions exhibit clarity, congruence, and contradictions in assessment scholarship and practice.
우리는 철학적 입장 사이의 경계가 항상 매우 뚜렷하거나 양립할 수 없다고 제안하지는 않는다. 이들을 가로지르는 투과 가능한 경계는 많은 경우에 [호환성 제약]을 완화한다. 교육 연구의 개념 및 이론적 프레임워크(Bordage 2009) 또는 혼합 방법 연구의 발전(Teddlie 및 Tashakkori 2012)에 적용되는 가치와 마찬가지로, 평가 분야에서도 철학적 다원주의의 여지가 있다. 쿤은 의사소통의 붕괴를 피하기 위해서 중요한 것으로 [(하나의 특정 입장이 아니라) 공통적으로 합의된 어휘와 원칙의 집합의 가치]를 설명했다.(Kun 2012; Morgan 2007) 이 시점에서 더 이상의 조직을 장려하는 것은 시기상조이며 불분명한 경계나 통일성을 확립하려는 잘못된 시도이거나, 더 나쁜 것은 다양한 관점과 이해의 기회를 침묵시키려는 잘못된 시도일 수 있습니다. We do not suggest that the boundaries between philosophical positions are always highly distinct or incompatible. The permeable boundaries across them loosen compatibility constraints in many cases. Much like the value applied to conceptual and theoretical frameworks in education research (Bordage 2009), or advances in mixed methods research (Teddlie and Tashakkori 2012), there is room for philosophical pluralism in the field of assessment. Kuhn described the value of a commonly agreed upon vocabulary and set of principles (not a specific position) to avoid breakdowns in communication.(Kuhn 2012; Morgan 2007) Encouraging any more organization at this point may otherwise be premature and a misguided attempt to establish unclear boundaries or uniformity or, worse, to silence diverse perspectives and opportunities to further understanding.
다음 방법을 사용하는 것이 좋습니다. As a way forward, we recommend the following:
a. 철학적 입장(그것이 혼합된 경우에도)을 명확하게 표현하고 합리화합니다. 그래야 지식 사용자가 가정을 이해하고 명시된 입장과 관련하여 정당성을 이해하고 검토할 수 있다. 예를 들어, 교육자는 관찰자의 철학적 위치 선택에 따라 다르게 지침을 구성할 수 있다(예: 주관성을 최소화하거나 촉진한다). 동일한 평가 계획 내에서 그리고 지식 사용자에게 적용되는 철학적 입장에 따라 적절하거나 결함이 있는 전략이 될 수 있다. a.Clearly articulate and rationalize philosophical positions—including when they are mixed—so that knowledge users may understand assumptions and make sense of and examine justifications in relation to the stated position(s). For example, an educator may structure guidance for observers differently depending on their choice of philosophical position (e.g., minimize or promote subjectivity). Within the same assessment plan and to the knowledge user, either could be an appropriate or flawed strategy depending on the applied philosophical position(s).
b.한 철학적 입장이 다른 것보다 낫다는 섣부른 주장을 피하고 대신 각각의 장점, 경계, 관계, 혼합 및 양립성을 개발하는 데 초점을 맞춘다. 많은 철학적인 입장이 몇 가지 유사한 방법을 채택할 수 있기 때문에, 여기에는 데이터 수집(예: 양적 대 질적 또는 기타 유사한 산만 요소)이 저하되는 논의로부터 보호하는 것이 포함된다.
b.Avoid premature claims that one philosophical position is better than another and instead focus on developing the merits, boundaries, relationships, mixing and compatibility within and/or between each. This includes guarding against discussions that degrade to data collection (e.g., quantitative vs. qualitative or other similar distractors), as many philosophical positions can employ several similar methods.
c. 평가 맥락에서 [철학적 입장의 역할과 관련성 및 여러 철학적 입장의 양립가능성]과 관련하여, 추가적인 핵심 가치나 원칙에 대해서 의문을 가지고, 반박하고, 세분화하고, 확장하고 또는 결정한다. 예를 들어, 철학적 다원주의를 위해서는 호환가능성이 거부되어야 하는가? c.Question, refute, refine, extend and/or determine further a core set of values/principles related to the role and relevance of philosophical positions and their compatibility in an assessment context. For example, should compatibility be rejected for philosophical pluralism?
d.이분법이 아니라 '호환성'에서 '비호환성'에 이르는 연속체로 기술하는 전략과 기준을 수립합니다. 실증주의를 구성주의로부터 묘사하는 것은 현실주의, 상대주의, 포스트 구조주의, 실용주의, 또는 철학적 다원주의를 고려할 때 존재할 수 있는 것보다 덜 복잡할 수 있다.
d.Establish strategies and criteria to delineate along a continuum (as opposed to a dichotomy) from ‘compatible’ to ‘incompatible’. Delineating positivism from constructivism may be less complex than what might exist when considering realism, relativism, post-structuralism, pragmatism, or philosophical pluralism.
e.평가를 제공하는 철학적 위치가 넓어짐에 따라, 설계자(및 연구자)는 이러한 문제와 관련된 광범위한 지식 기반과 역량 세트를 갖춰야 할 수도 있다. 예를 들어, HPE의 평가에 대한 전통적인 텍스트를 다양한 적용 가능한 철학적 위치와 관련된 내재된 가정과 의무에 대해 상세히 설명하는 텍스트로 보완하는 것이 포함될 수 있다. e.Given the broadening philosophical positions informing assessment, designers (and researchers) may require a broadened knowledge base and set of competencies related to these issues. This may include for example, complementing traditional texts about assessment in the health professions with texts elaborating on the inherent assumptions and commitments associated with various applicable philosophical positions.
평가 과학의 발전을 지원하기 위한 시사점 및 프로세스의 추가 예는 박스 1을 참조하십시오. See Box 1 for additional examples of implications and processes that are intended to support the advancement of assessment science.
Box 1 Examples of implications and processes informed by our recommendations
결론들 Conclusions
보건 직업 교육자들은 임상 역량의 여러 미묘한 측면을 평가하는 임무를 맡고 있다. 이는 평가 커뮤니티가 [(종종 암묵적으로) 기본 철학적 입장의 범위를 넓히는 방식]으로 역량, 평가 및 정당성을 탐구하도록 이끌었다. 이러한 다양한 철학적 입장은 이러한 구성 요소에 대한 이해와 사용을 새로운 방식으로 확장하는 데 도움이 되지만, 동시에 평가 프로그램을 저해할 수 있는 두 구성 요소 간의 비호환성의 위험을 초래한다. 여기에는 추론, 품질 및/또는 방어성이 어렵거나 불확실하거나 의도하지 않은 해석을 남기는 것이 포함된다. 이 성찰에서 우리는 임상 역량 평가에 철학적으로 정통한 탐구 논리를 적용하는 것의 가치를 입증한다. Health professions educators are tasked with assessing multiple nuanced aspects of clinical competence. This has led the assessment community to explore competence, assessment and justifications in ways that involve broadening the range of (often implicit) underlying philosophical positions. This variety of philosophical positions helps to expand our understanding and uses of these component parts in new ways but also introduces a risk of incompatibility between them, that can undermine assessment programs. This includes leaving interpretations of inferences, quality, and/or defensibility difficult, uncertain, or unintended. In this reflection we demonstrate the value of applying a philosophically informed logic of inquiry in the assessment of clinical competence.
철학적 입장은 궁극적으로 우리가 평가에서 어떻게 행동하고 우리가 주장하는 것에 영향을 미칩니다. 비트겐슈타인의 조사 철학에 따른 규칙에 대해 부르불레스(1993)는 다음과 같이 썼다: "규칙(존재론과 인식론)이 실천을 guide하지만, 실천을 지배rule하지는 않는다; 규칙들은 내재되어 있으며, 행위자actor의 "상황state of play"와 그들의 가치에 무의식적으로 영향을 미친다. 선택이 아니라 성향disposition이다(Burbules 1993)." 평가 과학을 발전시키기 위해서, 우리는 우리가 하는 일에 그러한 [성향]들을 분명히 할 필요가 있습니다.
Philosophical positions ultimately influence how we act in assessment and the claims we make. As Burbules (1993) wrote about rules according to Wittgenstein’s philosophy of investigations: “Like rules [ontologies and] epistemologies guide practice but do not rule it; they are embedded and unconsciously affect the “state of play” of the actors and their values. Not so much a choice as it is a disposition”(Burbules1993). In order to advance assessment science, we need to make those dispositions explicit in the work that we do.
Adv Health Sci Educ Theory Pract. 2020 Oct;25(4):1003-1018.
doi: 10.1007/s10459-019-09939-9.Epub 2019 Nov 1.
The compatibility principle: on philosophies in the assessment of clinical competence
The array of different philosophical positions underlying contemporary views on competence, assessment strategies and justification have led to advances in assessment science. Challenges may arise when these philosophical positions are not considered in assessment design. These can include (a) a logical incompatibility leading to varied or difficult interpretations of assessment results, (b) an "anything goes" approach, and (c) uncertainty regarding when and in what context various philosophical positions are appropriate. We propose a compatibility principle that recognizes that different philosophical positions commit assessors/assessment researchers to particular ideas, assumptions and commitments, and applies ta logic of philosophically-informed, assessment-based inquiry. Assessment is optimized when its underlying philosophical position produces congruent, aligned and coherent views on constructs, assessment strategies, justification and their interpretations. As a way forward we argue that (a) there can and should be variability in the philosophical positions used in assessment, and these should be clearly articulated to promote understanding of assumptions and make sense of justifications; (b) we focus on developing the merits, boundaries and relationships within and/or between philosophical positions in assessment; (c) we examine a core set of principles related to the role and relevance of philosophical positions; (d) we elaborate strategies and criteria to delineate compatible from incompatible; and (f) we articulate a need to broaden knowledge/competencies related to these issues. The broadened use of philosophical positions in assessment in the health professions affect the "state of play" and can undermine assessment programs. This may be overcome with attention to the alignment between underlying assumptions/commitments.
의학교육에서 평가의 신뢰(Credibility)인식에 영향을 미치는 요인(Adv Health Sci Educ Theory Pract. 2021) Factors affecting perceived credibility of assessment in medical education: A scoping review (Adv Health Sci Educ Theory Pract. 2021) Stephanie Long1 · Charo Rodriguez1 · Christina St‑Onge2 · Pierre‑Paul Tellier1 · Nazi Torabi3 · Meredith Young4,5
도입 Introduction
[평가]는 일반적으로 [학습자의 특정 학습 목표, 목표 또는 역량 달성에 대한 판단]을 내리기 위해, 정보를 [시험, 측정, 수집 및 결합]하는 전략을 포함한다(Harlen, 2007; Norcini et al., 2011). 평가는 일반적으로 의학교육에서 네 가지 방법으로 사용된다(엡스타인, 2007).
Assessments are broadly described as any strategy involving testing, measuring, collecting, and combining information to make judgments about learners’ achievement of specific learning objectives, goals, or competencies (Harlen,2007; Norcini et al.,2011). Assessments are commonly used in four ways in medical education (Epstein,2007):
(i) Practice에 입문하는 사람들이 [역량있음을 보장함으로써 대중을 보호]해야 한다.
(ii) 고등교육 [지원자 선발의 근거]를 제공하기 위해
(iii) 교육기관(품질보증)을 위하여 [Trainee의 성과에 대한 피드백] 제공
(iv) 미래 학습을 지원하고, 방향을 제시한다(엡스타인, 2007; Norcini 등, 2011).
(i) to protect the public by ensuring those entering practice are competent,
(ii) to provide a basis for selecting applicants for advanced training,
(iii) to provide feedback on trainee performance for the institution (i.e., quality assurance), and
(iv) to support and provide direction for future learning (Epstein, 2007; Norcini et al., 2011).
[미래 학습을 가이드하는 평가]라는 개념은 평가의 [촉매 효과]로 설명되었으며, 이러한 촉매 효과가 달성되려면 학습자가 평가-생성 피드백(즉, 점수, 서술 코멘트)에 참여함으로써, 학습자가 평가 과정에 능동적으로 참여해야 한다(Norcini 등, 2011). 학습자가 향후 성과를 개선하기 위해 평가에서 생성된 피드백에 참여하지 않을 경우 평가의 잠재적인 교육적 이점은 무효화됩니다. 따라서 평가의 교육적, 수행적 이점을 극대화하기 위해서는, 학습자가 평가에서 생성된 피드백에 참여하도록 장려하거나 저해하는 요소를 이해하는 것이 중요합니다. The notion of assessment guiding future learning has been described as the catalytic effect of assessment, and for this catalytic effect to be achieved, a learner must be an active participant in the assessment process by engaging with assessment-generated feedback (i.e., scores, narrative comments) (Norcini et al.,2011). If learners fail to engage with assessment-generated feedback to improve future performance, the potential educational benefit of assessment is negated. Therefore, it is critical to understand the factors that encourage or discourage, learners from engaging with assessment-generated feedback in order to maximize the educational and performance benefits of assessment.
의료 학습자(학생, 레지던트 또는 동료)가 [평가 과정에 참여]하고 [평가에서 생성된 피드백을 통합]하여 이후 [성과를 개선하는지 여부]에 몇 가지 요소가 기여할 수 있다. 학생의 평가 참여에 기여하는 한 가지 핵심 요소는 특히 평가인에 의존하는 평가 상황에서 [학습자가 평가와 평가자에 대해 인식하는 신뢰도credibility]이다(Bing-You 등, 1997; Watling, 2014; Watling 등, 2013). 여기서, 현재 증거는 신뢰할 수 있다고 간주되는 피드백이 이후의 관행 개선을 지원하는 데 사용될 가능성이 더 높다는 것을 지적한다. 신뢰할 수 없다고 판단된 피드백은 무시될 가능성이 높으므로 교육적 가치가 거의 없다(Watling, 2014; Watling & Lingard, 2012; Watling 등, 2013). 이 작업의 초점은 평가 순간에 수반되는 [피드백 대화]에 맞춰져 있다는 점에 유의해야 합니다. 따라서, 신뢰성 판단은 평가 과정과 평가자 자체에 의해 영향을 받았습니다. [Supervisor의 피드백 중에서 학습자가 신뢰할 수 있다고 판단한 것]만이 학습 형성에 영향을 미칠 수 있다는 얘기다. Several factors may contribute to whether medical learners (students, residents, or fellows) engage with the assessment process and integrate assessment-generated feedback to improve later performance. One key contributing factor to student engagement with assessment is the learner’s perceived credibility of the assessment and of their assessor, particularly in assessor-dependent assessment contexts (Bing-You et al.,1997; Watling,2014; Watling et al.,2013). Here, current evidence points out that feedback deemed credible is more likely to be used to support later practice improvement. Feedback judged to be not credible is likely to be ignored, and therefore, be of little educational value (Watling,2014; Watling & Lingard,2012; Watling et al.,2013). It is important to note that the focus of this work was on the feedback conversation that accompanied an assessment moment. Hence, judgments of credibility were influenced by both the assessment process and the assessor themselves. In other words, only supervisor-provided feedback judged as credible by learners will be influential in shaping learning.
와틀링 외 연구진(2012)에 따르면, 신뢰도 판단은 학습자가 [학습에 통합되어야 할 정보]와 [무시해야 할 정보]를 정리하고, 평가하고, 학습 단서에 가치를 부여할 때 발생한다. Bing-You 외 연구진(1997)에 따르면, Supervisor가 제공한 피드백의 신뢰성에 대한 학습자의 판단은 다음으로부터 영향을 받습니다. According to Watling et al., (2012), credibility judgments occur when learners organize, weigh, and allocate value to the learning cues presented to them, deciding which information should be integrated into their learning and which should be dismissed. According to Bing-You et al., (1997), learners’ judgments of the credibility of feedback provided by a supervisor are influenced by:
(i) Supervisor의 특성에 대한 전공의의 인식(예: 신뢰와 존중, 임상 경험)
(ii) Supervisor의 행동에 대한 전공의의 관찰(예: 대인관계 기술 부족, 관찰 부족),
(iii) 피드백의 내용(예: 비특정, 자기 표현과 불일치),
(iv) 피드백 전달 방법(예: 판단적인 것, 그룹 설정에서 발생한 것) (Bing-You 등, 1997).
(i) residents’ perceptions of supervisor characteristics (e.g., trust and respect, clinical experience),
(ii) residents’ observations of supervisor behaviour (e.g., lack of interpersonal skills, lack of observation),
(iii) content of feedback (e.g., non-specific, incongruent with self-perceptions), and
(iv) method of delivering feedback (e.g., judgmental, occurs in group setting) (Bing-You et al., 1997).
따라서 이 지식 본문은 피드백의 개념을 평가자와 학습자 사이의 대화 또는 토론으로 간주한다(Ajjawi & Regehr, 2019). This body of knowledge therefore conceives the notion of feedback as a conversation or discussion between an assessor and a learner (Ajjawi & Regehr,2019).
우리는 교육 동맹의 중요성과 피드백 대화를 신중하게 구성해야 할 필요성을 인정한다(Telio et al., 2015). 하지만 동시에 우리는 평가자 또는 감독자와의 대면 대화(예: 시험 점수, 교육 중 성과 평가, OSCE 점수)와 별개로 학습자는 다양한 출처로부터 자신의 성과에 대한 데이터 또는 정보를 제공받는다고 주장한다. 이 평가 데이터는 학습자에게 피드백을 제공하기 위한 목적으로 작성된 경우가 많습니다 – 컨텐츠의 숙달도를 측정하고, 더 많은 주의나 집중이 필요한 영역을 제안하거나, 학습자가 커리큘럼을 통해 자신의 진행 상황을 추적하도록 지원합니다.
While we acknowledge the importance of the educational alliance (Telio et al.,2015) and the need to carefully construct feedback conversations (Henderson et al.,2019; Watling,2014), we argue that learners receive data or information about their performance from a variety of sources that are disconnected from face-to-face conversations with an assessor or supervisor (e.g., examination scores, in-training performance evaluations, OSCE scores). This assessment-generated data is often intended to function as feedback to the learners – to gauge mastery of content, to suggest areas that require more attention or focus, or to help a learner track their progress through a curriculum.
이러한 평가-생성 피드백assessment-generated feedback의 교육적 가치를 지원하기 위해 평가(평가 데이터를 생성하는 대상) 및 평가-생성 피드백(평가로 생성된 데이터 및 학습자와 공유되는 데이터)의 인식된 신뢰도perceived credibility에 영향을 미치는 요인을 조사하기 시작했다.
To support the educational value of this assessment-generated feedback, we set out to explore the factors that influence the perceived credibility of assessment (the objects that generate assessment data) and assessment-generated feedback (the data generated by assessments and shared with learners).
방법 Methods
의학 교육에서 평가 및 평가-생성 데이터의 신뢰성에 대한 학습자 인식에 대한 현재 문헌은 이질적이고 방법론과 집중도가 매우 다양한 논문으로 구성되어 있다. 이러한 가변성은 우리의 초점 영역이 의학 교육 내에서 새로운 연구 영역이라는 인식과 결합하여 범위 검토 방법론을 우리의 연구 맥락에서 현재 연구에 가장 적합한 접근방식으로 만든다. Scoping review에 대한 몇 가지 접근방식이 있지만, 우리는 Arcsey와 O'Malley(2005) 5단계 프레임워크에 의존했다. 범위 지정 검토에는 선택 사항인 6단계( 이해관계자와의 협의)가 포함될 수 있지만(Arcsey & O'Malley, 2005) 포함되지 않았다. Current literature on learner perceptions of credibility of assessment and assessment-generated data in medical education is disparate and comprised of articles that are highly variable in methodology and focus. This variability, in combination with the recognition that our area of focus is an emerging area of research within medical education, makes a scoping review methodology the most appropriate approach for the present study in our research context. While there are several approaches to scoping reviews (Arksey & O'Malley,2005; Levac et al.,2010), we relied on the Arksey and O'Malley (2005) 5-stage framework. Scoping reviews can include an optional 6thstep (consultation with stakeholders) (Arksey & O'Malley,2005), which was not included.
1단계: 연구 질문 식별 Step one: Identify research question
이 검토는 "의학교육 문헌에 문서화된 평가 및 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 요인은 무엇인가?"라는 연구 질문에 의해 유도되었다. This review was guided by the research question,“What are the factors that affect the perceived credibility of assessment and assessment-generated feedback documented in the medical education literature?”.
2단계: 관련 연구 확인 Step two: Identifying relevant studies
의료 사서(NT)와 협력하여 통제된 어휘(예: MeSH)와 키워드를 사용하여 관련 문헌을 식별하기 위한 검색 전략을 개발하고 실행했다. 검색 전략은 MEDLINE(Ovid), PsycInfo(Ovid), Scopus, EMBASE(Ovid), EBSCO(EBSCO)에서 채택 및 구현되었다. 검색을 2000년에서 2020년 11월 16일 사이에 발표된 연구로 제한했다.(2017년 6월 17일에 처음 실행되어 2020년에 업데이트됨) 이것이 보건 직업 교육에서 [평가의 교육적 가치에 대해 논의하는 쪽]으로 문헌의 변화를 나타냈기 때문에 우리는 2000년에 닻을 내렸다(Frank 등, 2010). 보다 구체적으로, 이것은 학습과 평가의 성과(즉, 역량)에 초점을 맞춘 의료 교육 개혁으로 향하는 전환점을 나타냈다(Frank et al., 2010).
In collaboration with a medical librarian (NT), a search strategy was developed and executed to identify relevant literature, using controlled vocabularies (e.g., MeSHs) and keywords. The search strategy was adapted and implemented in: MEDLINE (Ovid), PsycInfo (Ovid), Scopus, EMBASE (Ovid), and ERIC (EBSCO). We limited the search to studies published between 2000 to November 16, 2020 (search first executed June 17, 2017 and updated in 2020). We chose to anchor to 2000 as this represented a shift in the literature towards discussing the educational value of assessment in health professions education (Frank et al.,2010). More specifically, this represented a turning point towards reforms in medical education focused on outcomes (i.e., competency) of learning and assessment (Frank et al.,2010).
3단계: 스터디 선택 Step three: Study selection
포함된 논문: (1) 의학 학습자를 초점 모집단으로 두고, (2) 프로그램이나 환자가 아닌 개별 학습자에 대한 평가를 포함하고, (3) 평가 또는 평가-생성 피드백과 관련하여 신뢰성을 논의했으며, (4) 주요 연구 연구였으며, (5) 영어 또는 프랑스어(연구팀의 언어 역량)였다. Included papers: (1) had medical learners as the focal population, (2) contained assessment of individual learners (rather than programs or patients), (3) discussed credibility as related to assessment or assessment-generated feedback, (4) were primary research studies, and (5) were in English or French (linguistic competencies of the research team).
두 명의 저자(SL, MY)는 웹 기반 선별 애플리케이션 Rayyan을 사용하여 모든 제목과 추상(Peters 등, 2015)을 독립적으로 심사했다. 의견이 일치하지 않는 경우, 세 번째 검토자(CSO)는 불일치를 해결했다. 원시 백분율 합의는 평가자 간 신뢰도의 척도로 사용되었다(Kastner 등, 2012). 전체 텍스트 검토를 위해 포함된 문서는 EndNote X8.0.2로 내보내졌다(EndNote Team, 2013). SL은 모든 전체 텍스트 기사를 독립적으로 심사했으며, MY는 포함을 위해 전체 텍스트 문서의 10%를 검증했다.
Two authors (SL, MY) independently screened all titles and abstracts (Peters et al.,2015) using the web-based screening application Rayyan (http://rayyan.qcri.org) (Ouzzani et al.,2016). In cases of a disagreement, a third reviewer (CSO) resolved discrepancies. Raw percent agreement was used as a measure of inter-rater reliability (Kastner et al.,2012). Articles included for full-text review were exported to EndNote X8.0.2 (The EndNote Team,2013). SL independently screened all full-text articles, with MY verifying 10% of full-text articles for inclusion.
4단계: 데이터 차트 작성 Step four: Charting the data
추출된 데이터: 저널, 발행 연도, 대륙, 연구 설계, 방법론, 인구 특성, 평가 유형, 평가 제공자, 제공된 피드백 유형, "타당성"이 사용되지 않은 경우, "타당성"이라는 용어는 구조를 지칭하는 데 사용되었다., 신뢰성의 정의 , 신뢰도에 영향을 미치는 요인. Data extracted: journal; year of publication; continent; study design; methodology; study population characteristics; types of assessment; who provided the assessment; type of feedback provided; use of term “credibility”, if “credibility” was not used which term was used to refer to the construct; definition of credibility; factors that affect credibility.
평가 유형, 평가 제공자, 피드백 유형은 원본 기사에 사용된 정확한 언어에 따라 코딩되었습니다. Assessment type, provider of assessment, and feedback type were coded relying on the exact language used in the original articles.
5단계: 결과 수집, 요약 및 보고 Step five: Collating, summarizing, and reporting the results
데이터 합성은 서지학적 설명과 주제 분석에 초점을 맞췄다. 우리는 PRISMA-ScR에 따라 결과를 보고했다. The data synthesis focused on bibliometric description and thematic analysis. We reported our results according to the PRISMA extension for Scoping Reviews (PRISMA-ScR) (Peters et al.,2020; Tricco et al.,2018).
데이터 분석 Data analysis
정량분석 Quantitative analysis
연구의 특성 및 분포(예: 연구 설계, 출판 연도, 연구 인구)를 설명하기 위해 서지학 특성에 대한 기술 분석이 사용되었다. Descriptive analyses of bibliometric characteristics were used to describe the nature and distribution of the studies (e.g., study design, year of publication, study population).
정성적 주제 분석 Qualitative thematic analysis
우리는 토마스와 하든(2008)이 설명한 주제 분석을 위한 방법론적 프레임워크를 적용했다. We applied the methodological framework for thematic analysis described by Thomas and Harden (2008).
결과Results
검색 결과 Search results
80개의 문헌이 포함 기준을 충족하여 합성에 포함되었다(그림 1 "보완 디지털 부록 2" 참조). Eighty articles met the inclusion criteria and were included in the synthesis (Fig. 1, see "Supplemental Digital Appendix 2" for a list of all included articles).
Fig. 1
포함된 문서의 특성 Characteristics of included articles
포함된 연구는 2000년 1월 1일부터 2020년 11월 16일 사이에 발표되었으며, 시간 경과에 따른 출판물 수가 분명히 증가했다(보완 디지털 부록 3).
연구는 48개 저널에 걸쳐 발표되었다.
다양한 지리적 지역에서 수집되었지만, 대다수는 유럽(n=38, 38.8%)과 북미(n=31, 31.6%)였다.
대부분의 평가는 감독관 또는 심사원(n=43%, 38%)이 실시했으며, 평가-생성 피드백은 주로 점수 또는 등급(n=32, 23%)으로 제시되었으며, 주로 서면(n=29,20%) 또는 구두(n=29,21%) 형식으로 제공되었다.
포함된 논문은 광범위한 연구 접근법에서 나왔으며, 반구조화 인터뷰(n = 20%, 10%), 포커스 그룹(n = 31, 23%), 설문지(n = 37, 28%), 설문조사(n = 18, 13%), 설문지 또는 설문지의 자유 텍스트 논평(n = 13, 9.7%)에서 생성된 데이터에 의존했다. (n = 14, 10%).
Studies included were published between January 1, 2000 and November 16, 2020, with an apparent increase in the number of publications across time (Supplemental Digital Appendix 3).
Studies were published across 48 journals.
Literature was drawn from a variety of geographic regions, but the majority were from Europe (n = 38, 38.8%) and North America (n = 31, 31.6%).
Participants included: medical students (n = 60, 61%), residents (n = 17, 17%), fellows (n = 2, 2.0%), specialist trainees (n = 17, 17%), and registrars (n = 2, 2.0%).
Most assessments were provided by a supervisor or an assessor (n = 43, 38%), and assessment-generated feedback was primarily presented as scores or ratings (n = 32, 23%), usually provided in written (n = 29, 20%) or verbal form (n = 29, 21%).
Included papers were from a breadth of research approaches, relying on data generated from semi-structured interviews (n = 20, 10%), focus groups (n = 31, 23%), questionnaires (n = 37, 28%), surveys (n = 18, 13%), free-text comments from surveys or questionnaires (n = 13, 9.7%), a pile-sorting activity, and psychometric analysis of assessment data (n = 14, 10%).
표 1 본 검토에 포함된 간행물의 서지학적 세부 정보 Table 1 Bibliometric details of publications included in this review
신뢰성의 개념화 Conceptualization of credibility
80개 출판물 중 34개 논문만이 '신뢰성credibility'이라는 특정 용어를 사용했으며, 명시적인 정의를 제공한 것은 없었다. 동일한 현상(즉, 평가 또는 평가-생성 피드백의 인식된 신뢰성)을 반영하는 것으로 간주되는 27개의 다른 용어를 식별했다. 가장 자주 사용되는 용어는 유용한(n = 23), 공정한(n = 17), 가치있는(n = 10)이었다("보완 디지털 부록 5"에서 식별된 전체 용어 목록). Of the 80 publications included in the synthesis, only 34 articles used the specific term ‘credibility’, and none provided an explicit definition. We identified 27 other terms that were considered to reflect the same phenomenon (i.e., perceived credibility of assessment or assessment-generated feedback). The most frequently used terms were useful (n = 23), fair (n = 17), and valuable (n = 10) (full list of terms identified in "Supplemental Digital Appendix 5").
평가의 교육적 가치 Educational value of assessment
여러 논문(Malau-Aduli 등, 2019; Ricci 등, 2018; Ryan 등, 2017; Yielder 등, 2017)은 평가의 교육적 가치와 관련된 결과를 명시적으로 설명하고 포함시켰다. 교육적으로 가치 있는 것으로 인식되는 평가는 (Rici 등, 2018)에서 인용한 "우리가 남은 경력 동안 사용할 지식을 최대로 유지할 수 있는 황금 같은 기회"(참여자 73, 페이지 358)로 간주되었다. 교육적으로 가치 있는 평가로부터 기대되는 긍정적 결과는 [학습자가 자신의 약점을 성찰할 수 있도록 한다는 것]이었다. "…내가 잘하지 못하는 분야를 식별하게 한 것은 질문 그 자체였다." (참가자 14CP, 페이지 967)는 (라이언 외, 2017)에서 인용했다.
Several papers (Malau-Aduli et al.,2019; Ricci et al.,2018; Ryan et al.,2017; Yielder et al.,2017) explicitly described and included findings pertaining to the educational value of assessment. Assessments perceived as educationally valuable were viewed as “…golden opportunit[ies] to stay on top of the knowledge we will be using for the rest of our careers” (Participant 73, p. 358) quoted from (Ricci et al.,2018). A promising outcome of educationally valuable assessment was that it allowed learners to reflect on their weaknesses: “…what made me identify the areas I wasn’t good at was the questions themselves” (Participant 14CP, p. 967) quoted from (Ryan et al.,2017).
인식된 신뢰도에 영향을 미치는 요인 Factors that affect perceived credibility
학습자의 평가 및 평가-생성 피드백에 대한 인식 신뢰도에 영향을 미치는 세 가지 요소를 확인했습니다. We identified three sets of factors that affect learners’ perceived credibility of assessment and assessment-generated feedback:
(i) 평가 프로세스의 요소
(ii) 학습자의 교육 수준 및
(iii) 의학교육의 맥락
(i) elements of the assessment process,
(ii) learners’ level of training, and
(iii) context of medical education
(모든 테마와 하위 테마의 개요는 표 2를 참조하고, 각 테마를 지원하는 예시 인용문은 "보완 디지털 부록 6"을 참조한다.) (see Table2for an overview of all themes and subthemes; and "Supplemental Digital Appendix 6" for exemplary quotes supporting each theme).
표 2 평가의 인식된 신뢰도에 영향을 미치는 요소 Table 2 Factors that affect the perceived credibility of assessment
요인 1: 평가 프로세스의 요소 Factor 1: Elements of an assessment process
우리는 학습자의 신뢰도에 대한 인식에 영향을 미치는 평가 프로세스의 다섯 가지 요소를 확인했습니다. We identified five elements of the assessment process that influenced learners’ perceptions of credibility:
(A) 평가자 또는 피드백 제공자,
(B) 평가 절차,
(C) 인식된 평가 점수의 품질
(D) 평가점수의 형식 및
(E) Suboptimal performance에 따르는 결과.
(A) assessor or feedback provider,
(B) procedures of assessment,
(C) perceived quality of assessment scores,
(D) format of assessment scores, and
(E) consequences of suboptimal performance.
A.평가자 또는 피드백 제공자 A.Assessor or feedback provider
여기에는 다음이 포함된다. which included:
(i) 평가자와의 신뢰 관계 (i) trusting relationship with assessor,
(ii) 장기 훈련생 진행 상황에 대한 관심 인식 (ii) perceived interest in long-term trainee progress,
(iii) 평가에 대한 경험/훈련 부족, (iii) lack of experience/training with assessment, and
(iv) 존경 (iv) respect.
(i)평가자와의 신뢰관계 (i)Trusting relationship with assessor
대부분의 학습자는 피드백을 제공한 개인(동료를 포함)과 강력하고 신뢰할 수 있는 관계가 있는 경우 평가 및 평가-생성 피드백을 신뢰할 수 있는 것으로 인식했다. 이 결과는 모든 평가 형태에 걸쳐 일관되었으며, 자신의 성과를 평가하는 개인과 신뢰 관계가 있다면 긍정적이든 부정적이든 의학 학습자들이 평가에서 생성된 피드백을 수용하고 반응한다는 것을 나타낸다.
Most learners perceived an assessment and assessment-generated feedback as credible if they had a strong and trusting relationship with the individual who provided it (Bogetz et al.,2018; Bowen et al.,2017; Duijn et al.,2017; Feller & Berendonk,2020; LaDonna et al.,2017; Lefroy et al.,2015; MacNeil et al.,2020; Mukhtar et al.,2018; Ramani et al.,2020; Watling et al.,2008), including peers (Rees et al.,2002). This finding was consistent across forms of assessment and indicates that medical learners were accepting and responsive to assessment-generated feedback, be it positive or negative, if there was a trusting relationship with the individual assessing their performance:
"그녀는 저를 잘 알고 있기 때문에 그 피드백은 믿을 만하다고 생각합니다. 당신을 잘 알고 좋아하는 사람에게서 끔찍한 말을 듣기는 힘들 것 같아요. 하지만, 이것이 당신이 더 잘할 수 있는 것이라고 말하고 실행 가능한 조언을 주는 것에 있어서, 저는 당신이 많은 것을 하는 것을 보고 당신이 어떻게 일을 잘하는지 아는 사람에게서 오는 것이 좋다고 생각합니다." (R6, 페이지 1076) (라마니 외, 2020)에서 인용했습니다. “She knows me well, so I think the feedback is reliable. I think it might be hard to get something horrible coming from someone who knows you well and who you like. But, in terms of saying this is what you could do better, and giving actionable pointers, I think that it’s nice coming from someone who’s seen you do a lot of stuff and knows how you work very well.” (R6, p. 1076) quoted from (Ramani et al., 2020).
그 반대도 사실이었다. 즉, 학습자는 꾸준히 자신이나 자신의 기술에 덜 익숙한 개인의 피드백을 무시하고 평가절하했다. The inverse was also true, learners regularly ignored and discounted feedback from individuals who were less familiar with them or their skills (Beaulieu et al.,2019; Bogetz et al.,2018; Cho et al.,2014; Duijn et al.,2017; Levine et al.,2015; McKavanagh et al.,2012).
(ii)연수생 장기진도에 대한 관심도 인식 (ii)Perceived interest in trainee long-term progress
학습자를 적극적으로 관찰하지 않거나 불충분한 관찰을 바탕으로 수행에 대한 판단을 내린 평가자에 의해 완료된 평가는 신뢰할 수 있는 것으로 인식되지 않았다. 평가-생성 피드백을 개인화하고, 구체적이고, 행동가능하게 주기 위하여 시간과 공간을 제공한 평가자를 가치있게 여겼다. Assessments completed by assessors who did not actively observe their learners or made judgments about performance based on insufficient observations were not perceived as credible (Areemit et al.,2020; Bowen et al.,2017; Cho et al.,2014; Duijn et al.,2017; Eady & Moreau,2018; Ingram et al.,2013; MacNeil et al.,2020; McKavanagh et al.,2012; Ramani et al.,2020). Assessors who provided time and space for
personalized (Bleasel et al., 2016; Bowen et al., 2017; Duijn et al., 2017; Harrison et al., 2015),
specific (Beaulieu et al., 2019; Brown et al., 2014; Duijn et al., 2017; Green et al., 2007; Gulbas et al., 2016; Harrison et al., 2015; Ramani et al., 2020), and
actionable assessment-generated feedback (Areemit et al., 2020; Bleasel et al., 2016; MacNeil et al., 2020; Murdoch-Eaton & Sargeant, 2012; Perron et al., 2016; Ramani et al., 2020) were valued:
(iii)평가에 대한 경험/훈련 부족 (iii)Lack of experience/training with assessment
평가자가 교육 및 평가 프로세스에 대한 경험이 부족한 경우, 학습자는 평가 또는 평가에서 생성된 피드백을 신뢰할 수 있는 것으로 인식할 가능성이 적습니다. 평가자가 다음과 같은 경우 믿을 만한 것으로 보이지 않았다.
평가 프로세스를 구현하는 방법에 익숙하지 않은 경우,
역량을 적절하게 평가하는 방법에 대해 확신이 없는 경우
"절차를 따르지 않는 것"
When an assessor lacked training and/or experience with the assessment process, learners were less likely to perceive the assessment or assessment-generated feedback as credible (Brits et al.,2020; Gaunt et al.,2017; Mohanaruban et al.,2018). If an assessor was
unfamiliar with how to implement the assessment process (Bleasel et al., 2016; Mukhtar et al., 2018),
unsure about how to properly evaluate competence (Johnson et al., 2008), or
“w[as] not buying into the process” (p. 592) quoted from (Braund et al., 2019), it was not seen as credible.
이는 수행능력-중심 평가, 직장-기반 평가 및 포트폴리오에서 가장 두드러졌다. This was most apparent in performance-based assessment (Green et al.,2007), workplace-based assessment (Brown et al.,2014; Gaunt et al.,2017; Johnson et al.,2008; McKavanagh et al.,2012; Ringsted et al.,2004; Weller et al.,2009), and portfolios (Johnson et al.,2008; Kalet et al.,2007; Sabey & Harris,2011).
(iv)존중 (iv)Respect
학습자는 자신이 존경하는 의사의 평가 피드백을 가치있게 여기고, 선호한다고 보고했다. 그리고 그러한 존경은 의사의 임상 기술과 교육 능력 모두에서 생성되었다.
Learners reported valuing and preferring assessment-generated feedback from physicians they respected– where respect arose from both the physician’s clinical skills (Bello et al.,2018; Bleasel et al.,2016; Feller & Berendonk,2020; Ramani et al.,2020) and teaching abilities (Bowen et al.,2017; Dijksterhuis et al.,2013; Sharma et al.,2015):
"내가 정말 존경하는 사람으로부터 긍정적인 피드백을 받으니 내 일에 대한 자신감이 높아지고 목적의식이 높아졌다.". 학습자들은 또한 자신의 교수 능력을 향상시키길 원하는 지도자들의 중요성을 강조했다(Dijksterhuis 등, 2013; 샤르마 등, 2015).
“Getting positive feedback from someone I really admired boosted my confidence and increased my sense of purpose in my work.” (Unspecified resident, p. 509) quoted from (Beaulieu et al.,2019). Learners also stressed the importance of supervisors who wanted to improve their own teaching skills (Dijksterhuis et al.,2013; Sharma et al.,2015).
요약하자면, 이러한 발견들은 아래와 같은 특징을 보이는 평가자 또는 슈퍼바이저와 신뢰할 수 있는 관계에 있을 때, 평가 또는 평가에서 생성된 피드백도 신뢰할 수 있는 것으로 인식될 가능성이 더 높다는 것을 시사한다.
주어진 평가에 대한 경험이 있다.
학습자의 장기적 성공에 대한 관심을 보여준다.
자신의 교육 능력을 향상시키길 원하는 사람으로 인식된다.
믿을 만 하다.
In summary, these findings suggest that an assessment or assessment-generated feedback is more likely to be perceived as credible if there is a trusting relationship with an assessor or supervisor who
has experience with a given assessment,
shows an interest in the long-term success of a learner,
is perceived as someone who wants to improve their teaching skills, and
is seen as trustworthy.
B.평가 절차 B.Procedures of an assessment
평가 절차의 신뢰성에 대한 교육생의 인식에 영향을 미친 주요 요인은 다음과 같다. The major factors that affected trainee perceptions of the credibility of the procedures of an assessment were:
(i) 평가 접근법의 표준화, (i) standardization of assessment approach
(ii) 명확한 목적 (ii) clear purpose
(iii) 임상 관련성, (iii) clinical relevance
(iv) 타이밍 (iv) timing.
(i)평가 접근법의 표준화 (i)Standardization of assessment approach
학습자는 [표준화된 평가와 평가-생성 피드백]을 [비표준화된 양식]보다 더 신뢰할 수 있는 것으로 인식했다(Harrison et al., 2016). 학습자들은 직장 기반 평가(Khairy, 2004) 또는 성과 기반 평가(Jawaid et al., 2014)와 같은 평가 방법의 표준화 및 구조 부족에 대해 우려를 제기했다. 예를 들어, 학습자는 일관된 방식으로 평가(제프리 외, 2011; 프레스턴 외, 2020)되고 성과를명시적 표준에 대해 평가하는 것이 중요하다고 강조했다(벨로 외, 2018; 해리슨 외, 2016; 리스 외, 2002; 샤르마 외, 2015; 수호요 외, 2017; 웰러). 학습자는 비구조화된 평가가 불공정하고(Nesbitt 등, 2013) 자신의 수행 정도를 덜 대표한다고 느꼈다(Brits 등, 2020).
Learners perceived standardized assessment and assessment-generated feedback as more credible than non-standardized forms (Harrison et al.,2016). Learners raised concerns regarding the lack of standardization and structure of assessment methods such as workplace-based assessments (Khairy,2004) or performance-based assessments (Jawaid et al.,2014). For instance, learners stressed the importance of being assessed in a uniform manner (Jefferies et al.,2011; Preston et al.,2020) and having their performance evaluated against explicit standards (Bello et al.,2018; Harrison et al.,2016; Rees et al.,2002; Sharma et al.,2015; Suhoyo et al.,2017; Weller et al.,2009). Learners felt that unstructured assessments were unfair (Nesbitt et al.,2013) and less representative of their performance (Brits et al.,2020).
(ii)명확한 목적 (ii)Clear purpose
학습자는 그 목적을 이해했을 때 평가가 더 의미 있다고 인식했으며(Gaunt 등, 2017년; Given 등, 2016년; Green 등, 2007년; LaDonna 등, 2017년; MacNeil 등, 2020년) 평가 프로세스에 더 많이 참여하도록 이끌었다(Eenman 등, 2015년). 그러나 학습자가 평가의 목적에 대해 혼란스럽거나 불분명할 때 평가의 가치를 무시하는 경향이 있었다(Cho 등, 2014). Learners perceived assessments to be more meaningful when they understood its purpose (Gaunt et al.,2017; Given et al.,2016; Green et al.,2007; Kalet et al.,2007; LaDonna et al.,2017; MacNeil et al.,2020), which lead them to engage more with the assessment process (Heeneman et al.,2015). However, when learners were confused or unclear about the purpose of an assessment, they tended to dismiss its value (Cho et al.,2014):
(iii)임상 관련성 (iii)Clinical relevance
학습자는 실제 시나리오에서 임상 기술을 실습할 기회를 제공하는 것으로 보이는 것과 같이 [실제 임상진료를 복제replicated한, 임상적으로 관련이 있다고 인식한 평가]를 가치 있게 평가했다. 이러한 평가는 임상 역량을 입증할 수 있는 기회로 간주되었다. Learners valued assessments they perceived as clinically relevant because they were seen to provide opportunities for practicing clinical skills in authentic scenarios (Barsoumian & Yun,2018; Bogetz et al.,2018; Foley et al.,2018; Hagiwara et al.,2017; Jawaid et al.,2014; Khorashad et al.,2014; Malau-Aduli et al.,2019; Olsson et al.,2018; Pierre et al.,2004; Preston et al.,2020; Shafi et al.,2010; Yielder et al.,2017) that replicated real-life clinical care (Bleasel et al.,2016; Craig et al.,2010; McLay et al.,2002; Moreau et al.,2019). These assessments were viewed as opportunities to demonstrate clinical competence.
(iv)평가 타이밍 (iv)Timing of assessment
마지막으로, [평가의 타이밍]은 교육생이 평가의 신뢰성을 인식하는 방식, 특히 훈련 중에 평가를 해야 하는 시점에 영향을 미쳤다. 평가가 커리큘럼과 수련 단계에 적합하고 적절하다고 판단될 때 평가에 대한 인식의 신뢰도가 증가하였다. Kalet 등은 [학습자들이 아직 노출되지 않은 역량에 대해 평가하는 것]은 시간 활용이란 점에서 부적절하다고 느꼈다고 보고했다. 또한 학습 잠재력을 최적화하고 개선할 영역을 식별하기 위해 훈련 초기에 특정 성과 기반 평가(예: OSCE, 시뮬레이션 임상 검사)가 요청되었다.
Lastly, the timing of an assessment also affected how a trainee perceived its credibility, specifically at which point during training an assessment should be given. Perceived credibility of assessment increased when the assessment was believed to be relevant and appropriate to the curriculum (Brits et al.,2020; Labaf et al.,2014; McLaughlin et al.,2005; Papinczak et al.,2007; Pierre et al.,2004; Vishwakarma et al.,2016) and level of training (Kalet et al.,2007; Pierre et al.,2004; Wiener-Ogilvie & Begg,2012). Kalet et al. (2007) reported that learners felt it was a poor use of time to be assessed on competencies to which they had not yet been exposed. In addition, certain performance-based assessments (e.g., OSCE, simulated clinical examination) (Wiener-Ogilvie & Begg,2012) were requested earlier in training to optimize learning potential and identify areas for improvement.
요약하면, 우리의 연구 결과는 학습자가 평가 또는 평가에서 생성된 피드백은 그것이 [표준화된 경우], [명확하게 전달되는 목적이 있고], [임상적 관련성을 보유]하고 있으며, [교육 중에 적절한 시점에 제공받는 경우]에신뢰할 수 있는 것으로 인식할 가능성이 더 높다는 것을 보여준다. In sum, our findings show that learners are more likely to perceive assessments or assessment-generated feedback as credible if they are standardized, have a clearly communicated purpose, hold clinical relevance, and are given at an appropriate time during their training.
C.평가점수의 인정된 품질 C.Perceived quality of assessment scores
학습자는 [점수의 퀄리티가 높다고 인식했을 경우]에 가장 호의적으로 반응했고, 이는 (점수가) 자신의 수행능력을 가장 잘 대표한다고 믿었을 때를 의미한다. 동등한 점수의 부족은 [수행능력-기반 평가]나 [직장 기반 평가]에서 주로 제기되었다. 그러나 한 연구는 [서면 시험(훈련 중 검사)]에 대해서도 유사한 우려를 식별했다(Kim 등, 2016; Ryan 등, 2017). 성과 기반 및 직장 기반 평가의 경우, 이러한 우려는 학습자가 자신의 평가자를 선택함으로써 도입된 인식 편향과 강하게 연결되었다(Brown et al., 2014; Curran et al., 2018; Feller & Berendonk, 2020).
Learners responded most favourably to scores they perceived to be of high quality, as they were believed to be most representative of their performance (Brits et al.,2020; Jawaid et al.,2014; Pierre et al.,2004). Lack of comparable scoring was an issue primarily raised with performance-based (Jawaid et al.,2014; Pierre et al.,2004) and workplace-based assessments (Kim et al.,2016; Nesbitt et al.,2013; Weller et al.,2009). One study, however, identified similar concerns on a written assessment (in-training examination) (Kim et al.,2016; Ryan et al.,2017). For performance-based and workplace-based assessments, this concern was strongly linked to perceived bias introduced by learners selecting their own assessors (Brown et al.,2014; Curran et al.,2018; Feller & Berendonk,2020).
D.평가 점수 형식 D.Format of assessment scores
[평가 점수의 형식]은 훈련생이 그 신뢰도를 인식하는 방식에도 영향을 미쳤다. 학습자는 수행 평가 척도(Braund et al., 2019; Castonguay et al., 2018) 또는 양식(Curran et al., 2018)과 같은 [특정한 수행능력 채점 방법]은 "다양한 수준의 훈련과 실제 기술의 뉘앙스를 파악할 수 없었다"며 "학습 목표를 해석하고 해석하는데 어려움을 겪었다"고 느꼈음을 밝혔다. 이들은 평점이 '의미를 상실했다'고 느꼈고, 주어진 항목에서 '좋은 것good에서 우수한 것excellent으로' 나아가는 데 필요한 구체적인 기술을 찾아내기 위해 고군분투했다.
The format of assessment scores also affected how a trainee perceived its credibility. Learners felt certain assessment scoring methods such as performance rating scales (Braund et al.,2019; Castonguay et al.,2019) or forms (Curran et al.,2018) were unable to “catch the nuances of different levels of training and actual skills.” (Unspecified SR resident, p. 1500) quoted from (Bello et al.,2018) and were “difficult to interpret and translate into learning goals. They felt ratings ‘lacked meaning’ and struggled to identify specific skills to improve on to ‘move from good to excellent’ on a given item.” (Results, p. 178) quoted from (Bogetz et al.,2018).
E.최적이 아닌 성능의 결과 E.Consequences of suboptimal performance
평가자의 인식된 신뢰성이 [평가자 및 피드백 제공자], [평가 절차], [표준화된 채점], [평가 점수 형식] 및 [부족한 성과에 따르는 결과]를 포함한 [평가 프로세스의 여러 요소]에 의해 영향을 받는다는 것을 시사한다.
Our results suggest that the perceived credibility of an assessment is influenced by multiple elements of the assessment process including the assessor and feedback provider, procedures of an assessment, standardized scoring, format of assessment scores, and consequences of suboptimal performance.
평가는 부족한 성과에 따른 결과가 명확할 때 더 신뢰할 수 있는 것으로 인식되었다(Arnold 등, 2005). 즉 "과정 중은 물론 심지어 졸업에서도 동료의 성적에 영향을 미쳐야 한다"라는 생각과 같다.
일부 학습자는 감독자 기반 평가와 동료 평가를 모두 포함하여, [수반되는 결과가 없는 평가]는 학습에 미치는 영향이 제한적이라고 느꼈다(Arnold 등, 2005).
그러나 일부 학습자는 반대로 특정 평가(예: 지식 테스트 또는 수행 기반 평가)의 결과는 "그런 테스트가 실제로 가져야 할 결과보다 훨씬 더 크다"고 느꼈다.
Assessments were perceived to be more credible when there were clear consequences of suboptimal performance, i.e., “it should affect the peer’s grades in courses and even in graduation” (p. 821) (Arnold et al.,2005). Some learners felt assessments with no consequences limited potential for learning (Dijksterhuis et al.,2013; Schut et al.,2018)—including both supervisor-based and peer assessment (Arnold et al.,2005). However, some learners felt the consequences of certain assessments e.g., knowledge tests or performance-based assessment were “much bigger than the consequences such a test should actually have.” (Participant B1, p. 660) quoted from (Schut et al.,2018).
요인 2: 학습자의 교육 수준 Factor 2: Learners’ level of training
[학습자의 수련 단계]는 평가에 대한 인식된 신뢰성과 평가-생성 피드백에 대한 후속 수용성에 영향을 미쳤다(Bello 등, 2018; Bowen 등, 2017; Murdoch-Eaton & Sargeant, 2012; Wade 등, 2012). 학습자가 주니어 학습자에서 시니어 학습자로 발전함에 따라 수동적인 피드백 수신(예: 평가자가 기준을 충족하는지 알려 주기를 기대함)에서 성과 향상을 위한 학습 전략을 조정하기 위한 보다 적극적인 피드백 탐색으로 발전적 전환이 일어날 수 있습니다(Dijsterhuis 등, 2013; Murdoch-Eaton & Sargeant)., 2012).
주니어 학습자는 자신의 성과를 긍정하기 위해 긍정적인 피드백을 원했고, 부정적인 피드백으로 인해 사기가 저하되었습니다(Murdoch-Eaton & Sargeant, 2012).
반대로 상급 학습자는 성과 향상에 사용될 수 있기 때문에 부정적인 피드백에서 더 큰 가치를 보았다(Bleasel et al., 2016; Chaffinch et al., 2016; Murdoch-Eaton & Sargeant, 2012; Sabey & Harris, 2011). 상급 학습자들은 긍정적인 피드백이 "자신을 현실에 안주하게 할 수 있다"(Trainee A3a, 페이지 718)는 것과 항상 실천 가능한 개선 단계를 제공하는 것은 아니기 때문에 의미가 적다고 느꼈습니다(Harrison et al., 2016).
A learner’s level of training influenced their perceived credibility of an assessment and their subsequent receptivity to assessment-generated feedback (Bello et al.,2018; Bowen et al.,2017; Murdoch-Eaton & Sargeant,2012; Wade et al.,2012). As learners progressed from being junior to senior learners, a developmental shift may occur from passive reception of feedback (e.g., expecting assessors to inform them if they are meeting standards) to more active seeking of feedback in order to adapt learning strategies to improve performance (Dijksterhuis et al.,2013; Murdoch-Eaton & Sargeant,2012).
Junior learners wanted positive feedback to affirm their performance and were demoralized by negative feedback (Murdoch-Eaton & Sargeant, 2012).
On the contrary, senior learners saw greater value in negative feedback as it could be used to improve performance (Bleasel et al., 2016; Chaffinch et al., 2016; Murdoch-Eaton & Sargeant, 2012; Sabey & Harris, 2011). Senior learners felt that positive feedback was less meaningful because it “can make you complacent” (Trainee A3a, p. 718) quoted from (Murdoch-Eaton & Sargeant, 2012) and it did not always provide actionable steps for improvement (Harrison et al., 2016).
주니어 학습자는 동료의 피드백이 관리자의 피드백보다 신뢰성이 떨어진다고 느꼈습니다. (Burgess & Mellis, 2015)에서 인용한 "[학술]들이 준 피드백은 반 친구의 피드백이라기보다는 내가 가져간 것이다." (의대생 12, 페이지 205) 또한, 주니어 학습자들은 동료들이 자신의 기술을 평가할 때 객관적으로 생각하는 데 어려움을 겪을 수 있다고 느꼈다(Murdoch-Eaton & Sargeant, 2012). Junior learners felt peer feedback was less reliable than feedback from a supervisor: “…the feedback they [academic] gave was what I took away rather than my class mate’s” (Medical student 12, p. 205) as quoted from (Burgess & Mellis,2015). Additionally, junior learners felt their peers may have difficulty being truly objective when evaluating their skills (Murdoch-Eaton & Sargeant,2012).
그러나 상급 학습자는 도움이 되는 것으로 인식되어 동료 평가에서 더 자주 가치를 발견했다(McKavanagh 등, 2012; Lees 등, 2002). 상급 학습자들은 또한 동료 평가의 신속성과 심도 있는 토론으로 후속 조치를 취할 수 있는 능력에 대해 높이 평가했다(Murdoch-Eaton & Sargeant, 2012).
Senior learners, however, more often found value in peer assessment as it was perceived to be helpful (McKavanagh et al.,2012; Rees et al.,2002). Senior learners also appreciated peer assessment for its immediacy and the ability to follow-up with in-depth discussion (Murdoch-Eaton & Sargeant,2012).
간단히 말해서, 우리의 연구 결과는 주니어 학습자와 시니어 학습자가 피드백의 제공자와 극성에 따라 피드백의 효용성에 대해 서로 다른 관점을 가지고 있음을 시사한다.
In brief, our findings suggest that junior and senior learners have different perspectives on the utility of feedback which depend on the provider and polarity of the feedback.
요소 3: 의료 교육의 맥락 Factor 3: Context of medical education
우리는 의료 교육의 맥락과 관련된 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 두 가지 요인을 식별했다. We identified two factors that influence the perceived credibility of assessment-generated feedback related to the context of medical education:
(i) 안전한 학습 환경 및
(ii) 평가-생성 피드백의 일관성.
(i) safe learning environment and
(ii) consistency of assessment-generated feedback.
이러한 요소들은 프로그램이나 기관의 수준에서 문제를 반영하기 때문에 이전에 확인된 요소들과 다릅니다. 따라서 이러한 요소들은 [이전 섹션에서 논의한 평가의 과정이나 실천과 관련된 요소에 비해 평가-생성 피드백의 인지된 신뢰성을 지원하도록] 수정 또는 조정하기가 더 어려울 수 있다. These factors differ from those previously identified because they reflect issues at the level of the program or institution. These factors may therefore be more difficult to amend, adapt, or adjust to support the perceived credibility of assessment-generated feedback compared to factors related to the process or practice of assessment discussed in previous sections.
(1)안전한 학습환경 (1)Safe learning environment
학습자는 [안전한 학습 환경에서 발생하는 평가]가 학습(Duijn et al., 2017; Sargeant et al., 2011), 자기 성찰(Nikendei et al., 2007)을 촉진하고 평가 및 평가-생성 피드백에 대한 참여를 촉진했기 때문에 신뢰할 수 있는 것으로 인식했다. 그러나 "[f]필수 순환과 더 짧은 배치가 있는 임상 학습 환경은 의미 있는 교육 관계를 개발하기 위해 사용 가능한 시간에 영향을 미쳤다." (결과, 페이지 1306) (Bowen 등, 2017) 안전한 학습 환경은 학습자가 도움을 구하고, 지식 격차를 인정하며, 실수를 공개적으로 토론하는 학습 풍토라고 설명하였다(상사 등, 2011).
Learners perceived assessment occurring in a safe learning environment as credible as it fostered learning (Duijn et al.,2017; Sargeant et al.,2011), self-reflection (Nikendei et al.,2007), and facilitated engagement with assessment and assessment-generated feedback. However, clinical learning environments with “[f]requent rotations and shorter placements affected time available to develop meaningful educational relationships.” (Results, p. 1306) (Bowen et al.,2017). A safe learning environment was described as a learning climate in which learners felt comfortable to seek help, admit knowledge gaps, and openly discuss mistakes (Sargeant et al.,2011).
(2)평가 결과 피드백의 일관성 (2)Consistency of assessment-generated feedback
일부 학습자는 [간헐적인 피드백이 신뢰도에 대한 인식을 저하시켰다]고 보고했다(Brits et al., 2020; Korszun et al., 2005; Murdoch-Eaton & Sargeant, 2012; Perera et al., 2008; Weller et al., 2009). "전반적으로 의료 훈련에서 완전히 부족한 것은 피드백이며, 동료들과 당신이 어디에 있는지, 그리고 당신의 전문가가 실제로 어떻게 생각하는지 아는 것이다." (미확인 훈련생, 페이지 527). 제공된 산발적인 피드백 중 대부분은 지나치게 일반적이고(MacNeil 등, 2020; Mohanaruban 등, 2018; Moreau 등, 2019; Preston 등, 2020), 일방적으로 지시적인 것(Dijksterhuis 등, 2013)으로 보여 도움이 되지 않는 것으로 판단되었다. 반면 어떤 학습자들은 피드백 내용과 제공이 개선되어 보다 구체적인 초과 근무 및 임상적 집중이 되고 있다고 느꼈다(Murdoch-Eaton & Sargeant, 2012). 이러한 일관되지 않은 연구 결과는 각 기관이 임상 교육 사이트마다 어느 정도 차이가 있지만, 학습자의 평가-생성 피드백 제공과 후속 수용성에 영향을 미치는 [고유한 문화]를 가지고 있을 수 있음을 시사한다(Craig 등, 2010). 평가에서 생성된 피드백은 교육 과정, 순환, 연도별로 차이가 있어 향후 교육에는 해당되지 않을 수 있으므로 추가 개발에 통합 및 활용하기 어렵다. 이러한 피드백 불일치는 학습자가 의료 교육 내에서 제한된 피드백 문화를 나타내는 것으로 확인되었다(Weller 등, 2009).
Some learners reported infrequent feedback decreased perceived credibility (Brits et al.,2020; Korszun et al.,2005; Murdoch-Eaton & Sargeant,2012; Perera et al.,2008; Weller et al.,2009): “[o]ne thing that’s totally lacking in medical training across the board is feedback, and knowing where you are in relation to your colleagues and also what your specialist actually really [thinks]” (Unidentified trainee, p. 527) quoted from (Weller et al.,2009). Of the sporadic feedback provided, most was judged as unhelpful as it was seen as overly general (MacNeil et al.,2020; Mohanaruban et al.,2018; Moreau et al.,2019; Preston et al.,2020) and primarily directive (Dijksterhuis et al.,2013). Other learners felt feedback content and provision was improving, becoming more specific overtime and clinically focused (Murdoch-Eaton & Sargeant,2012). These inconsistent findings suggest that each institution may have its own culture that influences the provision of assessment-generated feedback and subsequent receptivity by learners, with some variability across clinical education sites (Craig et al.,2010). Assessment-generated feedback appears to vary by course, rotation, and year of training, making it difficult to integrate and use for further development as it may not be applicable in future training. These feedback inconsistencies have been identified by learners as indicative of a limited feedback culture within medical education (Weller et al.,2009).
요약하자면, 우리의 검토는 [안전한 학습 환경]에서 이루어지고 [일관된 피드백을 제공]하는 평가가 신뢰할 수 있는 것으로 인식될 가능성이 더 높다는 것을 시사한다.
In summary, our review suggests that assessments that take place in a safe learning environment and provide consistent feedback are more likely to be perceived as credible.
여러 평가 유형에 걸쳐 평가의 인식된 신뢰성에 영향을 미치는 요인 Factors that influence the perceived credibility of assessment across assessment types
위에 보고된 평가 및 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 요소는 학생의 훈련 수준을 통해 주어진 평가를 받은 평가자의 경험에서 학습 환경에 이르기까지 다양하다. 표 3에 포함된 요소를 고려하면 평가에 대한 인식 신뢰도와 평가-생성 피드백 및 학습에 대한 지원 평가가 증가해야 한다. The factors that influence the perceived credibility of assessment and assessment-generated feedback reported above span from assessor experience with a given assessment through student’s level of training to the learning environment. In Table3, we summarize the evidence regarding design-related factors (i.e., assessment process and scoring) that influence the perceived credibility of assessment in order to better support the development of credible assessment practices. We organized the evidence according to three common assessment approaches (written assessment, performance-based assessment, workplace-based assessment) whether these factors increase or decrease perceived credibility and provide supportive evidence. Consideration of the factors included in Table3should increase perceived credibility of assessments and assessment-generated feedback and support assessment for learning.
표 3 평가의 인식 신뢰도에 영향을 미치는 설계 관련 요인 Table 3 Design-related factors that affect the perceived credibility of assessment
고찰 Discussion
이 범위 지정 검토는 의료 교육 문헌에서 평가 및 평가-생성 피드백의 인식된 신뢰성의 개념에 초점을 맞췄다. 1차 문헌에서 추출한 우리의 연구 결과는 의료 학습자가 평가의 신뢰성과 관련 평가에서 생성된 피드백을 인식하는 방법에 영향을 미칠 수 있는 요인의 집합이 있음을 시사한다. 점점 더 관련성이 있는 개념임에도 불구하고, 검토에 포함된 매우 적은 수의 연구만이 '신뢰성credibility'이라는 용어를 정확히 사용했으며, 명시적 정의를 포함하는 연구는 없었다. 용어 사용 빈도가 낮음에도 불구하고, 신뢰성credibility의 개념은 문헌에서 공정성, 타당성, 유용성, 가치성 등의 측면에서 반영되었다. 하나의 개념을 설명하는 데 여러 용어가 사용되고 명시적인 정의가 없기 때문에, 우리의 연구 결과는 인식된 신뢰성이 다음과 밀접하게 관련된 새로운 개념임을 시사한다.
방어 가능(Norcini 등, 2011),
교육적으로 가치 있는(Holmboe 등, 2010) 및
학생 지향 평가 실천 (Epsein 등, 2011)
This scoping review focused on the concept of perceived credibility of assessment and assessment-generated feedback in the medical education literature. Drawn from primary literature, our findings suggest there is a constellation of factors that can influence how medical learners perceive the credibility of assessment and associated assessment-generated feedback. Despite being an increasingly relevant concept, very few studies included in our review used the exact term ‘credibility’, and none included an explicit definition. Despite the low frequency of the term, the concept ofcredibilitywas present in the literature—reflected in terms such asfair,valid,helpful,useful, andvaluable. With several terms being used to describe one concept, and no explicit definitions, our finding suggests that perceived credibility is an emerging concept tightly related to
educationally-valuable (Holmboe et al., 2010), and
student-oriented assessment practices (Epstein, 2007; Norcini et al., 2011).
검토 과정을 통해 신뢰성과 타당성credibility and validity 이 평가 품질 보장을 위한 유사한 고려사항을 반영할 수 있다는 것이 분명해졌다. 현대의 타당성 개념화는 합격/실패 결정 또는 역량의 판단(일반적으로 평가 관리자의 책임) 측면에서 점수의 해석을 뒷받침하는 증거를 고려한다(Messick, 1995). 관리자는 주어진 점수 해석을 뒷받침하는 타당성 근거에 무게를 두고 해당 점수 해석이 타당한지 여부를 판단한 후 평가 결과를 교육기록부에 입력한다. 평가의 교육적 가치를 고려할 때, [점수 해석의 '책임감'은 학습자 개인의 몫]입니다. 각 학습자는 자신의 점수나 평가 결과를 자신의 성과나 순위를 나타내는 지표로 해석하고, 추가 학습이나 성과 개선 영역을 식별하기 위해 이러한 해석을 바탕으로 할 책임이 있습니다. Through the review process, it became apparent that the termscredibilityandvaliditymay reflect similar considerations for ensuring assessment quality. Modern conceptualizations ofvalidityconsider the evidence supporting the interpretation of scores in terms of pass/fail decisions or judgments of competence—typically the responsibility of assessment administrators (Messick,1995). An administrator weights the validity evidence supporting a given score interpretation, decides whether or not that score interpretation is sound, and then the results of the assessment are entered into an educational record. When considering the educational value of assessment, the ‘responsibility’ of score interpretation rests in the hands of individual learners. Each learner is responsible for interpreting their scores or assessment results as indicators of their own performance or standing, and to build on those interpretations in order to identify areas of further study or performance improvement.
[점수 해석을 지지하는 데 사용할 수 있는 타당성 증거를 평가하는 관리자]와 병행하여 [학습자는 성과 개선을 위해 피드백에 의존해야 하는지 결정하기 위해, 평가 또는 평가-생성 피드백의 신뢰성에 대한 증거를 평가]하는 것으로 보입니다. 이 두 명의 서로 다른 교육 이해 당사자들은(즉 교육 관리자 및 학습자), 공식적인 교육 평가를 위해서든 또는 비공식 수행 능력 향상을 위해서든,점수 해석의 적절성에 대한 결정에 참여하고 평가 데이터의 정당한 사용(또는 비사용)을 결정한다. In parallel to an administrator weighing validity evidence available in support of a score interpretation, learners appear to weigh evidence of thecredibilityof an assessment or assessment-generated feedback to determine whether to rely on the feedback for performance improvement. These two different educational stakeholders—assessment administrators and learners—both engage in decisions about the appropriateness of a score interpretation and decide on the legitimate use (or not) of the assessment data, either for formal educational assessment or informal performance improvement.
생성한 평가 데이터에 대한 [학습자의 참여와 해석]은 [평가의 교육적 가치]를 뒷받침한다. 이 검토의 결과는 학습자가 평가 점수에 어떻게 참여하는지engage with는, 최소한 부분적으로 [해당 점수에 대한 신뢰도]에 달려 있음을 시사한다.
평가 또는 평가에서 생성된 피드백이 신뢰할 수 있는 것으로 인식되면 학습자는 향후 성과를 개선할 수 있는 기회로 해당 피드백에 참여할 가능성이 높아집니다(Watling et al., 2012).
신뢰할 수 없는 것으로 인식되면 무시, 무시 또는 기각됩니다.
This engagement with, and interpretation of, assessment-generated data by a learner underpins the educational value of assessment. The findings of this review suggest that how learners engage with assessment scores is at least partially dependent on how credible those scores are perceived to be. When an assessment or assessment-generated feedback is perceived as credible, learners are more likely to engage with it as an opportunity to improve future performance (Watling et al., 2012). When it is not perceived as credible, it is discounted, ignored, or dismissed.
어떤 면에서 평가 데이터에 참석할지 또는 무시할지 결정할 때, 학습자는 평가 또는 평가-생성 피드백의 타당성 또는 신뢰성에 의문을 제기하는 것으로 보인다. 학습자가 평가 설계, 구현 및 채점을 신뢰할 수 있는 것으로 인식하지 않을 경우 평가 과정이 평가의 교육적 가치를 훼손할 가능성이 있기 때문에, [평가 과정에서 학생을 행위자actor 또는 이해관계자]로 고려해야 한다.(Harrison 등, 2016; Ricci 등, 2018). 이러한 관점은 평가 데이터가 향후 개선에 기여할 수 있도록 학생 중심의 평가 실천을 지원하고, 평가에 대한 잠재적인 방법을 개별 학습자의 요구와 관심사에 더 잘 맞출 것을 제안한다(Looney, 2009). In a way, learners appear to be questioning the validity (Ricci et al.,2018), or credibility of assessments or assessment-generated feedback when deciding whether to attend to, or ignore, assessment data. These findings contribute to a consideration of students as actors or stakeholders in the assessment process (Harrison et al.,2016; Ricci et al.,2018) because if learners do not perceive the assessment design, implementation and scoring as credible, the assessment process will likely undermine the educational value of assessment. This perspective supports more student-centred assessment practices to ensure assessment data can contribute to later improvement, and suggests potential avenues for assessments to be more tailored to individual learner's needs and interests (Looney,2009).
평가 또는 평가-생성 피드백이 신뢰할 수 있는 것으로 인식될 가능성을 높이는 몇 가지 요인을 식별했다. We identified several factors that increase the likelihood of an assessment or assessment-generated feedback being perceived as credible
첫째, 평가의 인식된 신뢰성과 관련 피드백은 [평가자나 피드백 제공자]에 대한 훈련생의 인식에 크게 영향을 받았다. 예를 들어, 학습자는 다음과 같은 경우 평가를 신뢰할 수 있는 것으로 인식할 가능성이 더 높다. First, perceived credibility of an assessment and its associated feedback was greatly influenced by a trainee’s perception of their assessor or feedback provider. For instance, a learner was more likely to perceive an assessment as credible if they
평가자와 신뢰관계가 있었다
존경했다.
장기적 발달에 관심이 있는 것으로 인식되었다
had a trusting relationship with their assessor (Bogetz et al., 2018; Bowen et al., 2017; Duijn et al., 2017; Feller & Berendonk, 2020; LaDonna et al., 2017; Lefroy et al., 2015; MacNeil et al., 2020; Mukhtar et al., 2018; Ramani et al., 2020; Watling et al., 2008),
respected them (Beaulieu et al., 2019; Bello et al., 2018; Bleasel et al., 2016; Bowen et al., 2017; Dijksterhuis et al., 2013; Feller & Berendonk, 2020; Ramani et al., 2020; Sharma et al., 2015), and
perceived them to be interested in their long-term progress (Areemit et al., 2020; Bleasel et al., 2016; Bowen et al., 2017; Duijn et al., 2017; Eady & Moreau, 2018; Harrison et al., 2015; MacNeil et al., 2020; Ramani et al., 2020).
둘째, [평가 자체]의 몇 가지 측면은 신뢰성의 인식 가능성으로 이어졌으며, 이러한 요소들은 다음을 포함한다. Second, several aspects of an assessment itself led to greater likelihood of perceived credibility, these factors included
표준화된 접근방식
명확한 목적
임상 관련성 및 진정성
훈련 중 적절한 시간에 평가를 제공한다
standardized approach (Harrison et al., 2016; Jawaid et al., 2014; Jefferies et al., 2011; Khairy, 2004; Nesbitt et al., 2013; Rees et al., 2002; Sharma et al., 2015; Suhoyo et al., 2017; Weller et al., 2009),
clear purpose (Cho et al., 2014; Green et al., 2007; Heeneman et al., 2015; Kalet et al., 2007),
clinical relevance and authenticity (Bleasel et al., 2016; Craig et al., 2010; Given et al., 2016; Jawaid et al., 2014; Khorashad et al., 2014; McLay et al., 2002; Pierre et al., 2004; Shafi et al., 2010), and
provision of the assessment at an appropriate time during their training (Curran et al., 2007; Kalet et al., 2007; Labaf et al., 2014; McLaughlin et al., 2005; Papinczak et al., 2007; Pierre et al., 2004; Vishwakarma et al., 2016; Wiener-Ogilvie & Begg, 2012).
셋째, [평가점수의 품질]에 대한 인식은 신뢰도 인식에 필수적이었다(Brown 등, 2014년; Jawaid 등, 2014년; Kim 등, 2016년; Nesbitt 등, 2013년; Pierre 등, 2004년; Weller 등, 2009년). 학습자가 점수가 임의적이라고 느낄 때 신뢰도에 대한 인식이 감소했다.
Third, perceived quality of assessment scoring was imperative to perceived credibility (Brown et al.,2014; Jawaid et al.,2014; Kim et al.,2016; Nesbitt et al.,2013; Pierre et al.,2004; Weller et al.,2009), when learners felt scoring was arbitrary, perceptions of credibility decreased.
마지막으로 학습자는 평가 중 [부적절한 성과에 대한 명확한 후속결과]를 원했으며(Arnold et al., 2005; Dijksterhuis et al., 2013) 평가 없이는 평가가 학습을 진척시킬 수 없다고 느꼈기 때문에 신뢰할 수 없었다. Lastly, learners wanted clear consequences for suboptimal performance during an assessment (Arnold et al.,2005; Dijksterhuis et al.,2013), without it, learners felt the assessment could not drive learning forward and thus was not as credible.
우리의 연구 결과는 [학습자가 평가의 많은 상황적, 과정적, 형식적(평가자, 평가 자체, 그리고 평가에서 생성된 피드백) 측면을 기반으로, 평가의 신뢰성에 대해 판단하여, 무시할 정보와 향후 성과 개선을 위해 통합하고 사용할 정보를 결정한다]는 결론을 뒷받침한다. 따라서 향후 학습을 지원할 목적으로 평가를 설계할 때는 평가 절차, 학습자와 평가자 간 신뢰 관계, 적절한 채점 접근법 등을 고려해야 한다.
Our findings support the conclusion that medical learners make judgments about the credibility of assessment based on many contextual, process, and format aspects of assessment – including assessors, the assessment itself, and the assessment-generated feedback – to determine what information they will dismiss and what they will integrate and use for future performance improvement. Therefore, when designing an assessment with the intention to support future learning, considerations of assessment procedures, trusting relationships between learners and assessors, and appropriate scoring approaches should be made.
또한 평가의 인식된 신뢰성을 훼손하는 몇 가지 요인을 확인했으며, 따라서 아래의 것들은 평가 또는 평가 프로그램을 설계할 때 피해야 한다. 일부는 평가자와 관련이 있다.
평가 프로세스에 익숙하지 않은 평가자
평가자를 스스로 선택할 수 있는 권한
평가자에 의해 점수가 학습자에 대해 설명되거나 상황에 맞게 조정되지 않은 경우
We also identified several factors that undermined the perceived credibility of assessment; and therefore, should be avoided when designing an assessment or assessment program. Some are related to the assessor;
assessors who are unfamiliar with assessment process (Bleasel et al., 2016; Brown et al., 2014; Green et al., 2007; Johnson et al., 2008; Kalet et al., 2007; McKavanagh et al., 2012; Ringsted et al., 2004; Sabey & Harris, 2011; Weller et al., 2009),
the ability to self-select an assessor (Brown et al., 2014), and
when scores are not explained or contextualized for the learner by the assessor (Bello et al., 2018; Bogetz et al., 2018; Braund et al., 2019; Castonguay et al., 2019; Curran et al., 2018).
예를 들어, 학습자가 평가 과정에 익숙하지 않고 훈련이 부족한 평가자를 만났을 때, 그 평가는 신뢰할 만한 것으로 인식될 가능성이 낮았다. 또한 학습자는 [자신의 점수를 이해하는 것]의 중요성과 [점수를 향상시킬 수 있는 방법]을 강조했습니다. 이러한 요소가 없다면, 학습자는 평가에서 생성된 피드백을 신뢰할 수 있는 것으로 인식하지 못할 가능성이 더 높습니다. 이러한 결과는 평가에서 생성된 피드백이 향후 학습을 지원할 수 있는 가능성을 높이는 데 평가자의 중요성을 강조한다. 평가 자체의 질과 상관없이, 평가자가 신뢰할 수 있는 것으로 인식되지 않는 경우, 학습자는 평가를 배움의 기회가 아닌 "후프 투 스쳐 지나가기"로 볼 수 있습니다. 학습자가 자신의 평가를 이러한 관점에서 인식하면 결과 점수 해석의 타당성이 훼손됩니다. 좀 더 구체적으로 말하면, 학습자는 이 평가에 교육의 기회로 참여하지 않을 것이며, 따라서 평가가 좋은 데이터의 수집으로 이어지지는 않을 것이다. 이 때, 이 평가에 근거한 학습자의 성과에 대한 판단은 타당하지 않을 수 있습니다.
For instance, when learners encountered an assessor who was unfamiliar and lacked training with the assessment process, the assessment was less likely to be perceived as credible. Additionally, learners highlighted the importance of understanding their scores and how they could improve them, without this piece, they were more likely to not perceive the assessment-generated feedback as credible. These findings highlight the importance of the assessor in increasing the likelihood that assessment-generated feedback can support future learning. Regardless of the quality of the assessment itself, if an assessor is not perceived as credible, learners may view the assessment as a “hoop to jump through” rather than an opportunity for learning. When learners perceive their assessments in this light, the validity of resulting score interpretations are undermined. More specifically, the learner will not engage with this assessment as an educational opportunity, and thus, the assessment will not lead to the collection of good data. When this occurs, any judgments made regarding the learner’s performance based on this assessment may not be valid.
마지막으로, 우리는 평가 또는 평가-생성 피드백의 인식된 신뢰성에 부정적인 영향을 미치는 [평가 문화를 둘러싼 상황적 요인(즉, 안전한 학습 환경, 피드백 불일치)]을 식별했다. 평가와 피드백 문화를 바꾸기는 어려운 반면, 식별된 많은 요소들은 관련 설계, 구현 및 피드백 관행을 신중하게 고려하여 수정할 수 있다. 역량 기반 의료 교육의 맥락에서 훈련생 성과 평가는 학습자의 발달 궤적을 지원하는 종적 및 프로그램적 평가에 의존한다(Frank et al., 2010). 본 리뷰에 포함된 문헌에 따르면, 주니어 학습자와 시니어 학습자가 원하는 피드백 유형의 차이를 문서화하였다. 상급 학습자가 비판적 피드백을 선호하는 경향이 있는 경우, 이는 향후 성과를 개선하는 데 더 유용한 것으로 인식된다. 반면 하급 학습자들은 사기를 꺾는다고 느꼈습니다.
Finally, we identified contextual factors surrounding the culture of assessment (i.e., safe learning environment, Duijn et al.,2017; Nikendei et al.,2007; Sargeant et al.,2011), feedback inconsistencies (Craig et al.,2010; Korszun et al.,2005; Murdoch-Eaton & Sargeant,2012; Perera et al.,2008; Weller et al.,2009)) that negatively impact the perceived credibility of assessment or assessment-generated feedback. While the culture of assessment and feedback remains challenging to influence, many of the factors identified are possible to amend with careful consideration of the associated design, implementation, and feedback practices. In the context of competency-based medical education (Frank et al.,2010), the evaluation of trainee performance is dependent on longitudinal and programmatic assessment which supports the developmental trajectory of learners (Frank et al.,2010). Literature included in this review documented a difference in the type of feedback desired by junior versus senior learners; where senior learners tended to prefer critical feedback as it was perceived as more useful in improving future performance (Chaffinch et al.,2016; Murdoch-Eaton & Sargeant,2012; Sabey & Harris,2011), whereas junior learners felt it was demoralizing.
요약하자면, 이 범위 지정 검토는 교육생이 평가의 신뢰성과 그에 관련된 피드백에 참여, 사용 및 지각하는 방법에 영향을 미치는 다양한 요소를 식별했다. 과거의 의료 교육 실천 권고안과는 달리, 우리의 연구 결과는, 학습자 관점에서 유용성과 신뢰성을 개선하기 위해 동원될 수 있는 평가 및 피드백 프로세스의 측면을 강조함으로써, [학습자를 학습 프로세스의 중심에 배치]한다(Spenzer & Jordan, 1999). (체크리스트, 점수, 등급 척도 등) 특정 형태의 평가-생성 피드백은 해석이 어렵고 의미가 부족한 것으로 인식됐다. 성과 또는 직장 기반 피드백과 같은 다른 형태는 교육생들에게 드물고 특정적이지 않으며 도움이 되지 않는 것으로 인식되어 왔다.
In sum, this scoping review has identified a variety of factors that influence how trainees engage, use, and perceive the credibility of an assessment and its associated feedback. Distinct from past medical education practice recommendations (Telio et al.,2015), our findings place the learner at the centre of the learning process (Spencer & Jordan,1999) by highlighting aspects of the assessment and feedback process that can be mobilized to improve its utility and credibility from the learner perspective. Certain forms of assessment-generated feedback such as checklists, scores, rating scales were perceived as difficult to interpret and lacking meaning. Other forms such as performance- or workplace-based feedback have been perceived by trainees as infrequent, non-specific, and unhelpful.
이러한 결과는 교육생과 평가자 간의 "교육적 동맹"의 중요성을 나타낸다. 이러한 개념 하에서, 평가와 피드백 프로세스는 [일방적인 정보 전송(평가자에서 수습사원으로)]에서 [실제로 피드백을 사용하여, 학문적 목표를 달성하기 위해 협력할 목적을 가지고, 학습 목표, 성과 및 표준에 대한 공유된 이해를 갖고있는, 진정한 교육적 관계]로 재구성되어야 한다. 평가자-학습자 대화 이외의 평가-생성 피드백의 역할을 고려할 경우, 평가와 평가-생성 피드백이 효과적인 학습에 기여하도록 보장하기 위해 학습자와 기관 또는 프로그램 간에 교육적 동맹을 형성하는 방법을 고려하는 것이 가치가 있을 수 있음을 시사한다. These findings point to the importance of an “educational alliance” between trainees and assessors, whereby the assessment and feedback processes are reframed from one-way information transmission (from assessor to trainee) to an authentic educational relationship with a shared understanding of learning objectives, performance, and standards with the aim of working together to achieve academic goals using feedback in practice (Molloy et al.,2019; Telio et al.,2015). If we consider the role of assessment-generated feedback outside of assessor-learner conversations, it suggests that there may be value in considering how educational alliances can be formed between a learner and an institution or program in order to ensure assessment and assessment-generated feedback contribute to effective learning.
이 범위 지정 연구에는 몇 가지 제한이 있습니다. 문헌에서 신뢰도credibility 라는 용어를 상대적으로 자주 사용하지 않고, 우리의 검색 전략에서 신뢰의 구성이 운영화된 방식 때문에, 일부 관련 문헌이 누락되었을 가능성이 있다. 관련 문헌을 최대한 많이 확인하기 위해 경험이 풍부한 학계 사서를 팀에 포함시키고 검색 전략을 반복적으로 다듬었습니다. 또한 검색 전략을 보완하기 위해 주요 기사의 인용 추적에 의존했다. 연구 중인 개념이 평가 및 의료 교육 문헌 전반에 걸쳐 광범위하게 표현될 가능성이 높기 때문에 이 검토는 수작업을 수행하지 않았다(Young 등, 2018). 우리는 또한 동료 검토 저널에 발표된 주요 문헌으로 검색을 제한하여 평가 및 평가-생성 피드백의 인식 신뢰성에 영향을 미치는 요소를 연구 증거에 의해 뒷받침되었다. 대부분의 확인된 논문들은 유럽과 북미에서 온 것이므로, 우리의 발견이 국제적으로 적용될 수 있는 가능성은 제한적일 수 있다. 국제적인 수준에서 우리의 발견의 일반화 가능성을 향상시키기 위해, 향후 연구는 이러한 발견을 국제적으로 적용하기 위해 더 잘 맥락화하기 위한 주요 국제 전문가와의 논의를 포함할 수 있다.
This scoping study has some limitations. Due to the relatively infrequent use of the termcredibilityin the literature, and the way in which the construct of credibility was operationalized in our search strategy, it is possible that some relevant literature was missed. To ensure we identified as much relevant literature as possible, we included an experienced academic librarian on our team and iteratively refined our search strategy. We also relied on citation tracking of key articles to supplement our search strategy. This review did not perform handsearching as the concept under study was likely to be broadly represented across the assessment and medical education literature (Young et al.,2018). We also decided to limit our search to primary literature published in peer-reviewed journals to synthesize the factors, supported by research evidence, that influenced the perceived credibility of assessment and assessment-generated feedback. Most identified articles were from Europe and North America; therefore, the international applicability of our findings may be limited. To enhance the generalizability of our findings at the international level, future research could engage discussions with key international experts to better contextualize these findings for international application.
결론 Conclusion
이 검토에 요약된 결과는 [학습을 지원하고 추진하는 수단]으로서의 평가 및 평가-생성 피드백의 가치를 뒷받침하며, 평가 개발자, 평가 관리자 및 의료 교육자가 의료 학습자를 포함하는 [학습자 중심의 평가 접근 방식]을 채택하는 것을 고려하는 것이 의미 있을 수 있다. 그 효용성을 보장하기 위해서 평가 전략이나 도구의 개발에 학습자를 포함할 수 있다.
The findings summarized in this review support the value of assessment and assessment-generated feedback as a means to support and drive learning, and it may be meaningful for assessment developers, assessment administrators, and medical educators to consider adopting a learner-centred assessment approach that includes medical learners in the development of learning assessment strategies and tools for assessment to ensure their utility.
Adv Health Sci Educ Theory Pract. 2021 Sep 27.
doi: 10.1007/s10459-021-10071-w.Online ahead of print.
Factors affecting perceived credibility of assessment in medical education: A scoping review
DOI:10.1007/s10459-021-10071-wAbstractKeywords:Assessment; Credibility; Feedback; Learner engagement; Medical education.
Assessment is more educationally effective when learners engage with assessment processes and perceive the feedback received as credible. With the goal of optimizing the educational value of assessment in medical education, we mapped the primary literature to identify factors that may affect a learner's perceptions of the credibility of assessment and assessment-generated feedback (i.e., scores or narrative comments). For this scoping review, search strategies were developed and executed in five databases. Eligible articles were primary research studies with medical learners (i.e., medical students to post-graduate fellows) as the focal population, discussed assessment of individual learners, and reported on perceived credibility in the context of assessment or assessment-generated feedback. We identified 4705 articles published between 2000 and November 16, 2020. Abstracts were screened by two reviewers; disagreements were adjudicated by a third reviewer. Full-text review resulted in 80 articles included in this synthesis. We identified three sets of intertwined factors that affect learners' perceived credibility of assessment and assessment-generated feedback: (i) elements of an assessment process, (ii) learners' level of training, and (iii) context of medical education. Medical learners make judgments regarding the credibility of assessments and assessment-generated feedback, which are influenced by a variety of individual, process, and contextual factors. Judgments of credibility appear to influence what information will or will not be used to improve later performance. For assessment to be educationally valuable, design and use of assessment-generated feedback should consider how learners interpret, use, or discount assessment-generated feedback.
정답은 하나? (성찰적) 주제분석의 옳바른 실천은 무엇인가? (Qualitative Research in Psychology, 2021) One size fits all? What counts as quality practice in (reflexive) thematic analysis? Virginia Braun a and Victoria Clarke b
주제 분석의 질: 무엇이 중요합니까? Quality in thematic analysis: what matters?
"저자들은 분석 과정에서 어떻게 편견을 피하려고 했는지 논의해야 합니다." “The authors should discuss how they attempted to avoid bias in their analytic process.”
전문가 질적 저널에 제출한 경험적 논문에 대한 익명의 리뷰에서 이 의견을 받았고, 2006년(Braun and Clarke 2006) 이 저널에서 처음 요약한 반사적 주제 분석(TA) 접근법을 사용했다. 검토자의 명령은 TA와 관련된 여러 가지 문제가 있는 가정과 본 논문에서 맥락화, 언팩 및 확장한 질적 품질 기준을 반영한다. TA의 사용이 확대되고 다양해짐에 따라, 논문 발표 이후 출판된 연구의 일관성과 무결성이 항상 유지되는 것은 아니다. 본 논문에서는, TA의 품질에 대해 생각하고 학자들이 우수하고 응집력 있는 TA를 수행하도록 지원하기 위한 도구로서, 출판된 TA에서 확인되는 10가지 문제적 관행과 가정을 설명하고자 한다. We received this comment in an anonymous review of an empirical paper we had submitted to a specialist qualitative journal, and in which we used our reflexive thematic analysis (TA) approach, which we first outlined in this journal in 2006 (Braun and Clarke 2006). The reviewer’s command reflects a number of problematic assumptions around TA, and indeed qualitative quality criteria, which we contextualise, unpack and expand on in this paper. As the use of TA has expanded, and diversified, since the publication of that paper, the coherence and integrity of published research does not always hold. We use ten problematic practices and assumptions evident in published TA as a tool for thinking about quality in TA, and to support scholars in doing excellent, cohesive TA.
이러한 [문제적 관행]은 TA에 대한 혼란과 오해를 반영하며, 이를 양질의 TA를 위한 명확한 권고사항을 줌으로써 명확히 하고자 하였다 (일부는 질적 학문에 더 폭넓게 적용될 수 있으므로 TA 이상의 관련성을 가질 수 있다). 편집자와 검토자가 품질 관리자로서 역할을 잘 하게끔 돕기 위해, 우리는 이러한 문제가 있는, 그리고 그에 상응하는 좋은(또는 최선의) 관행을 TA 연구의 품질을 평가하기 위한 '지침guideline'으로 정리하였다. 이는 출판을 위해 TA 연구를 평가할 때 고려해야 할 20개의 중요한 질문의 형태로 제시된다. These problematic practices reflect confusions and misconceptions about TA that we seek to clarify with clear ‘take away’ recommendations for quality TA (some of which may apply to qualitative scholarship more broadly, and thus have relevance beyond TA). In order to support editors and reviewers in their role as quality custodians, we translate these problematic, and corresponding good (or best), practices into ‘guidelines’ for assessing the quality of TA research – presented in the form of twenty critical questions to consider when evaluating TA research for publication
이 질문들은 독립적으로 또는 TA에 대한 우리의 방법론적 글과 함께 사용되도록 고안되었다. 특히 더 많은 설명이 필요한 경우 본 논문은 더욱 그렇다. These questions are designed to be used either independently, or alongside our methodological writing on TA, and especially the current paper, if further clarification is needed.
방법과 방법론의 적절한 선택과 설명 Adequate choice and explanation of methods and methodology
1. 저자들은 간단하게나마 왜 TA를 사용하는지 설명합니까? 1. Do the authors explain why they are using TA, even if only briefly?
2. 저자는 어떤 유형의 TA를 사용하는지 명확히 명시하고 정당화합니까? 2. Do the authors clearly specify and justify which type of TA they are using? 3. 특정 유형의 TA의 사용과 정당화가 연구 질문이나 목적과 일치합니까? 3. Is the use and justification of the specific type of TA consistent with the research questions or aims?
4. 연구의 이론적, 개념적 토대와 TA의 특정 유형 사이에 좋은 '적합'이 있습니까(즉, 개념적 일관성이 있습니까)? 4. Is there a good ‘fit’ between the theoretical and conceptual underpinnings of the research and the specific type of TA (i.e. is there conceptual coherence)?
5. 데이터 수집 방법과 특정 유형의 TA 사이에 양호한 '적합'이 있습니까? 5. Is there a good ‘fit’ between the methods of data collection and the specific type of TA?
6. 지정된 유형의 TA가 문서 전체에서 일관되게 집행되고 있는가? 6. Is the specified type of TA consistently enacted throughout the paper?
7. TA와 관련하여 문제가 있는 가정과 실천의 증거가 있습니까? 여기에는 일반적으로 다음이 포함된다. 7. Is there evidence of problematic assumptions about, and practices around, TA? These commonly include:
● TA를 하나의 통일된 개체로 취급하고, 널리 합의된 하나의 절차로 취급한다. ● Treating TA as one, homogenous, entity, with one set of – widely agreed on – procedures.
● 어떠한 인정이나 설명 없이 철학적, 절차적으로 양립할 수 없는 TA 접근 방식을 결합합니다. ● Combining philosophically and procedurally incompatible approaches to TA without any acknowledgement or explanation.
● 핵심 개념으로 뒷받침되는 공유 의미의 주제적 패턴과 데이터 주제를 혼동하는 요약. ● Confusing summaries of data topics with thematic patterns of shared meaning, underpinned by a core concept.
● 근거 이론 개념 및 절차(예: 포화, 상수 비교 분석, 라인별 코딩)를 어떠한 설명이나 정당화 없이 TA에 적용한다. ● Assuming grounded theory concepts and procedures (e.g. saturation, constant comparative analysis, line-by-line coding) apply to TA without any explanation or justification.
● TA가 본질주의자, 현실주의자 또는 무이론적이라고 가정한다. ● Assuming TA is essentialist or realist, or atheoretical.
● TA는 데이터 축소 또는 기술 접근 방식일 뿐이므로 다른 목적을 달성하기 위해 다른 방법 및 절차로 보완되어야 한다고 가정한다. ● Assuming TA is only a data reduction or descriptive approach and therefore must be supplemented with other methods and procedures to achieve other ends.
8. 보완 절차나 방법이 정당하고 필요한가, 아니면 단순히 TA를 더 효과적으로 사용함으로써 동일한 결과를 얻을 수 있었는가? 8. Are any supplementary procedures or methods justified, and necessary, or could the same results have been achieved simply by using TA more effectively?
9. TA를 귀납적으로 사용하는 경우에도 TA 사용의 이론적 토대가 명확히 명시되어 있는가(예: 존재론적, 인식론적 가정, 이론적 프레임워크 지침)? 9. Are the theoretical underpinnings of the use of TA clearly specified (e.g. ontological, epistemological assumptions, guiding theoretical framework(s)), even when using TA inductively (inductive TA does not equate to analysis in a theoretical vacuum)?
10. 연구자들은 (단순히나마) 개인적, 사회적 관점 및 포지셔닝에 대해 '자신의 관점'을 가지려고 노력하고 있는가? (이것은 연구자들이 사회정의 지향적인 연구에 종사할 때 그리고 한계적이고 취약한 집단, 연구원이 속하지 않는 집단의 '목소리'를 대변할 때 특히 중요하다.) 10. Do the researchers strive to ‘own their perspectives’ (even if only very briefly), their personal and social standpoint and positioning? (This is especially important when the researchers are engaged in social justiceoriented research and when representing the ‘voices’ of marginal and vulnerable groups, and groups to which the researcher does not belong.)
11. 사용된 분석 절차가 일반적인 절차가 아닌, 저자가 실제로 수행한 작업에 대해 명확하게 개략적으로 설명하고 있는가? 11. Are the analytic procedures used clearly outlined, and described in terms of what the authors actually did, rather than generic procedures?
12. 개념적, 절차적 혼동의 증거가 있지는 않은가? 예를 들어, 반사성 TA(예: Braun과 Clarke 2006)가 주장된 접근법이지만 다른 절차가 개략적으로 설명되어 있다. 코드북 또는 코딩 프레임의 사용, 복수의 독립적인 코더 및 합의 코딩, 평가자 간 신뢰성 측정 및/또는 테마를 출력물이 아닌 분석 입력으로 개념화하기에 주제를 식별하고 코딩으로 분석이 진행됩니다. (테마 개발을 향하여 코딩을 하는 것보다) 12. Is there evidence of conceptual and procedural confusion? For example, reflexive TA (e.g. Braun and Clarke 2006) is the claimed approach but different procedures are outlined such as the use of a codebook or coding frame, multiple independent coders and consensus coding, inter-rater reliability measures, and/or themes are conceptualised as analytic inputs rather than outputs and therefore the analysis progresses from theme identification to coding (rather than coding to theme development).
13. 저자들이 TA에 대한 그들의 주장된 접근법에 대한 완전하고 일관성 있는 이해를 증명하고 있는가? 13. Do the authors demonstrate full and coherent understanding of their claimed approach to TA?
잘 개발되고 정당화된 분석 A well-developed and justified analysis
14. 보고서의 주제가 무엇이며 어디에 있는지 명확합니까? 원고는 분석 개요, 즉 주제 목록, 서술 개요, 주제 표, 주제 지도에서 이익을 얻을 수 있을까요? 14. Is it clear what and where the themes are in the report? Would the manuscript benefit from some kind of overview of the analysis: listing of themes, narrative overview, table of themes, thematic map?
15. 보고된 주제는 주제 요약이 아니라 '완전히 실현된 테마'(중앙 조직 개념에 기초한 공통적인 의미의 패턴)인가? 15. Are the reported themes topic summaries, rather than ‘fully realised themes’ – patterns of shared meaning underpinned by a central organising concept?
● 만약 그렇다면, 주제 요약이 연구의 목적에 적합한가? ● If so, are topic summaries appropriate to the purpose of the research? ○ 저자가 반사 TA를 사용하는 경우, 주제 개념화의 수정이 설명되고 정당화되는가? ○ If the authors are using reflexive TA, is this modification in the conceptualisation of themes explained and justified?
● 자료 수집 질문을 주제로 사용하였는가? ● Have the data collection questions been used as themes?
● 원고는 [완전히 실현된 테마]를 보고함과 함께, 추가 분석을 수행함으로써 이익을 얻을 수 있는가? ● Would the manuscript benefit from further analysis being undertaken, with the reporting of fully realised themes?
● 또는 저자가 반사형 TA를 사용한다고 주장하는 경우, 원고는 다른 유형의 TA(예: 코딩 신뢰성 또는 코드북)를 사용한다고 주장함으로써 이익을 얻을 것인가? ● Or, if the authors are claiming to use reflexive TA, would the manuscript benefit from claiming to use a different type of TA (e.g. coding reliability or codebook)?
16. 비주제적 맥락화 정보를 테마로 제시하였는가? (예: 첫 번째 '요약'은 상황별 정보를 제공하는 주제 요약이지만, 보고된 나머지 주제는 완전히 실현된 주제이다.) 만약 그렇다면, 원고는 이것이 비주제적 맥락화 정보로 제시되는 것으로부터 이익을 얻을 것인가? 16. Is non-thematic contextualising information presented as a theme? (e.g. the first 'theme' is a topic summary providing contextualising information, but the rest of the themes reported are fully realised themes). If so, would the manuscript benefit from this being presented as non-thematic contextualising information?
17. 응용연구에서 보고된 주제는 실행 가능한 결과를 초래할 가능성이 있는가? 17. In applied research, do the reported themes have the potential to give rise to actionable outcomes?
18. 논문에 개념적인 충돌이나 혼란이 있습니까? (예: 사회 구성주의자의 접근방식을 주장하는 동시에 코딩 신뢰성에 대한 긍정적 개념에 대한 우려를 표명하거나 참가자의 언어를 경험과 행동의 투명한 반영으로 취급하면서 구성주의자의 접근방식을 주장하는 것) 18. Are there conceptual clashes and confusion in the paper? (e.g. claiming a social constructionist approach while also expressing concern for positivist notions of coding reliability, or claiming a constructionist approach while treating participants’ language as a transparent reflection of their experiences and behaviours)
19. 다음과 같은 미약하거나 설득력이 없는 분석의 증거가 있는가? 19. Is there evidence of weak or unconvincing analysis, such as:
● 테마가 너무 많나요, 적나요? ● Too many or two few themes?
● 테마 레벨이 너무 많습니까? ● Too many theme levels?
● 코드와 테마가 혼동되는가? ● Confusion between codes and themes?
● 데이터 추출과 분석 클레임이 일치하지 않는가? ● Mismatch between data extracts and analytic claims?
● 데이터 추출물이 너무 적거나 너무 많습니까? ● Too few or too many data extracts?
● 테마 간에 겹치는가? ● Overlap between themes?
20. 저자들은 결과의 일반성 결여에 대해 문제가 있는 진술을 하거나, 일반성을 통계적 확률론적 일반성으로 암묵적으로 개념화 하는가? (Smith 2017 참조) 20. Do authors make problematic statements about the lack of generalisability of their results, and or implicitly conceptualise generalisability as statistical probabilistic generalisability (see Smith 2017)?
우리가 출판된 TA에서 흔히 마주치는 문제는 종종 절차의 기초가 되는 이론적, 철학적 가정과 거의 관련이 없는 것으로 보이며, 또는 진정의로 quality criteria를 정교하게, 의도적으로, 상황적으로 적용하는 것과도 거의 관련이 없는 것으로 보인다. The problems we commonly encounter in published TA often seem to reflect little to no engagement with the theoretical and philosophical assumptions that underlie procedures, with wider quality discussions in qualitative research (e.g. Levitt et al.2018; Madill et al.,2000; Sparks & Smith,2009; Yardley2015), or indeed nuanced, aware and situated applicationofquality criteria.
TA는 실증주의/양적 그리고 질적 패러다임 내에서 사용되며, 다양한 유형의 TA가 질적 연구의 다른 개념화에 포함되고 반영되기 때문에, TA에 대한 '보편적인' 품질 표준과 기준을 명확히 표현하는 것은 어렵다. 우리는 [작은 q]와 [큰 Q]로 정성 연구를 구분한 키더와 파인(1987)의 구분이 유용하다는 것을 발견한다.
(small q, 질적 실증주의): 실증주의 패러다임 내에서 데이터 수집 및 분석의 질적 기술의 사용,
(Big Q): 질적 패러다임 내에서 질적 기법을 사용
As TA is used within positivist/quantitativeandqualitative paradigms, and different types of TA are embedded within, and reflect, different conceptualisations of qualitative research, articulating ‘universal’ quality standards and criteria for TA is challenging. We find Kidder and Fine’s (1987) distinction between small q and Big Q qualitative research useful for demarcating between
qualitative positivism (small q), the use of qualitative techniques of data collection and analysis within a positivist paradigm, and
the use of qualitative techniques within a qualitative paradigm (Big Q qualitative).
이러한 패러다임의 가치는 다소 긴장 상태에 있으며, 이러한 긴장에 대한 인식 없이, 발표된 TA 연구는 우리의 TA 공동 저자 중 한 사람(니키 헤이필드)이 기억될 정도로 'confused q' qualitative라고 부르는 것과도 비슷하다. 즉, 이는 질적 실증주의의 요소와 질적 패러다임의 가치 및 가정을 아무 생각 없이, 비성찰적으로, 비일관적으로 결합하는 것처럼 보이는 연구를 말한다. The values of these paradigms are in more or less tension, and without awareness of this tension, published TA research can exemplify what one of our TA co-authors (Nikki Hayfield) memorably dubbed ‘confused q’ qualitative – research that seems to unknowingly, unreflexively and incoherently combine elements of qualitative positivism with the values and assumptions of a qualitative paradigm.
일부에서는 우리가(성찰적) TA에 대한 접근 가능한 지침을 개발한 것이 '절차주의'(King and Brooks 2017) 또는 '방법론'(Chemberlain 2000)에 굴복했음을 의미한다고 이야기한다. 연구자들에게 유연한 '시작점'을 제공하기보다는 성문화하고, 이론적 민감성과 반사성보다 절차를 우선시하며, TA 연구를 위한 엄격하고 구체적인 '규칙'을 만들었다는 지적이다. 하지만 이러한 비판은 TA가 연구자에게 어떤 좋은 (즉 성찰적인) 것을 요구하는지를 잘못 읽은 것이다. 세인트피에르와 잭슨(2014) 등이 '질적 코딩'과 관련해 하는 비판과 같은 종류다. – 그러나 마찬가지로 방법에 따라 질적 연구가 어떻게 보여야 하고 어떻게 보일 것인지에 대한 협소한 이해로도 어려움을 겪는다.
Some might suggest our development of accessible guidelines for ‘how to do’ (reflexive) TA means we’ve succumbed to ‘proceduralism’ (King and Brooks2017) or ‘methodolatry’ (Chamberlain2000). That we havecodifiedpractice, prioritised procedure over theoretical sensitivity and reflexivity, and created rigid and concrete ‘rules’ for TA research, rather than providing researchers with flexible ‘starting points’. This is a misreading of what good (reflexive) TA requires of the researcher. It is the same sort of critique that St. Pierre and Jackson (2014) and others make in relation to ‘qualitative coding’ – but similarly suffers from anarrowreading of what qualitative researching, guided by methods, should and will look like.
프로세스에 대한 세부 지침을 제공하는 것을 목표로 하지만, 우리는 동시에 TA 내에서 강조되는 유동성, 맥락, 우발성, 그리고 실제로 이론을 강조한다. 절차를 따르는 것이 '좋은 TA'를 수행하는 것을 보증하는 것은 아닙니다. 그보다는, 절차가 무엇을 촉진하는지, 절차가 무엇에 대한 접근을 가능하게 하는지를 이해해야 한다. 또한 절차는 분석의 목적이 아니라 과정을 위한 "도구"라는 것을 이해하는 것이 중요합니다. (품질 보장과 입증에 중점을 둔) 분석 절차는 - 명시적으로 했는지 여부에 관계없이 - 의미 있는 지식과 지식 생산에 대한 기본 패러다임 및 인식론적 가정을 반영한다. 우리는 이 논문이 오용이나 오해의 소지가 있는 부분을 명확히 하기를 바랍니다.
Although we aim to provide detailed guidelines on process, we also emphasise the fluid, the contextual and contingent, and indeed theory, as crucial within TA. Following procedure is not a guarantor for doing ‘good TA’; instead, understanding what the procedures facilitate, what they give you access to, and that these aretoolsfor a process, rather than the purpose of analysis, is important. Analytic procedures, including those centred on ensuring and demonstrating quality, typically reflect underlying paradigmatic and epistemological assumptions about meaningful knowledge and knowledge production (Carter and Little2007), whether explicated or not. We hope this paper clarifies some potential misuses or misunderstandings.
우리의 목표는 어떤 TA가 되었든지간에, TA에 대한 이론적으로 민감하고, 성찰적이고, 신중한 참여를 장려하는 것이다. 현재의 모습'What is'을 TA 측면에서 비판함으로써, 나가아야 할 방향'What could be'을 촉진하고, 개별 연구과제에서 TA의 넓은 지형에 대한 이해와 TA의 제정을 동시에 증진시키는 것을 목표로 하고 있습니다. TA가 고유한distinct 방법인지 아니면 일반적인 분석 절차인지에 대한 논의가 있었지만, 우리는 [비록 TA가 데이터에서 '패턴'을 식별하려는 다른 접근법(예: 근거 이론, 해석 현상학적 분석[IPA] 또는 질적 내용 분석)과 공통적으로 일부 특징을 공유함에도] 질적 데이터를 다루는 나름의 고유한 방법을 제공한다고 믿는다. 그럼에도 불구하고 그것은 그 자체로 하나의 방법(또는 방법의 클러스터)이다.
Our aim is to encourage theoretically sensitive (Yardley2015), and reflexive and deliberative engagement with TA, ofwhatevervariety. By critiquing ‘what is,’ in terms of TA, we aim to promote ‘what could be’, and improve both the understanding of the wider terrain of TA, and the enactment of TA in individual research projects. Although there has been discussion as to whether TA is a distinct method, or a generic set of analytic procedures (e.g. Boyatzis1998; Willig2013), TA does – we believe – offer a distinct way of working with qualitative data, and that, although it shares some features in common with other approaches that seek to identify ‘patterns’ in data (e.g., grounded theory, interpretative phenomenological analysis [IPA] or qualitative content analysis), it is nonetheless a method (or cluster of methods) in its own right.
TA에 대해 처음 썼을 때(Braun and Clarke 2006) 우리의 목표는 정성적 패러다임(Braun and Clarke 2019a)의 가정을 반영하고 양립할 수 있는 TA에 대한 접근 방식을 명확히 하는 것이었다. 이 목표는 아래의 과정을 통해 개발되었다. Our aim, when we first wrote about TA (Braun and Clarke 2006), was to articulate an approach to TA that reflected, and was compatible with, the assumptions of a qualitative paradigm (Braun and Clarke 2019a). This aim has been developed in
a qualitative research textbook (Braun and Clarke 2013),
numerous chapters (Braun and Clarke 2012; Braun Clarke and Rance 2014; Braun Clarke and Terry 2015; Braun Clarke and Weate 2016; Braun et al. 2019a ; Clarke and Braun 2016; Clarke, Braun, and Hayfield 2015; Terry et al. 2017),
encyclopaedia entries (Clarke and Braun 2014a, 2014b),
commentaries (Braun and Clarke 2016, 2019a, 2019b, 2019c; Clarke and Braun 2018) and
editorials about TA (e.g. Braun and Clarke 2014; Clarke and Braun 2017).
최근 출판물에서, 우리는 우리의 접근방식에 대한 우리의 접근법(예: 브라운과 클라크 2019a)을 알려주고 우리의 접근방식에 대해 구별되는 것과 다른 것(예: 브라운과 클라크 2019c; Braun 등 2019a)을 구별하는 정성적 연구와 관련된 가정과 가치를 더 신중하게 표현했다. 우리는 이제 이러한 접근방식을 성찰적 TA라고 부른다 Braun and Clarke 2019a, 2019b; Braun 등 2019a; Terry 등 2017 참조). 이러한 명칭은 이것을 특정 TA 접근법으로 정의할 뿐만 아니라, 분석 자원으로서의 연구자의 주관성과 이론, 데이터 및 해석에 대한 성찰적 참여를 강조한다.
In recent publications, we have more carefully articulated the assumptions and values around qualitative research that inform our approach to TA (e.g. Braun and Clarke 2019a) to demarcate what is distinct and different about our approach (e.g. Braun and Clarke 2019c; Braun et al. 2019a). We now call this approach reflexive TA (see Braun and Clarke 2019a, 2019b; Braun et al. 2019a; Terry et al. 2017). This not only demarcates it as a particular TA approach, it emphasises the importance of the researcher’s subjectivity as analytic resource, and their reflexive engagement with theory, data and interpretation.
우리의 원래 논문은 유연성을 유지하는 TA 연구를 위한 [접근 가능한 지침]을 제공하고자 했다. 우리는 다양한 참여 모드의 가능성의 범위를 강조했고, 우리의 목표는 TA 연구의 가능성을 폐쇄가 아닌 개방하고 창의성과 광범위한 사용을 장려하는 것이었다. 우리는 질적 분석이 '공예 기술craft skill'이며, 분석 절차의 설명을 통해 완전히 포착하기 어려운 것이기에, '스승master'의 발치에서 가장 잘 배울 것이라는 포터(1997)의 주장에 부분적으로 동의한다. 하지만, 우리 중 한 명은 예리한 공예사이며, 어느 정도까지는 공예 기술도 가르치기 위해 공식화될 수 있다는 것을 알고 있습니다. 일부 구조화된 비계는 이 기술을 그냥 직관적으로'이해해버리지get it' 못하는 사람들에게 개념을 소개하고 기술을 가르칠 수 있다.
Our original paper sought to provide accessible guidance for TA research that retained flexibility. We emphasised the range of possibilities of different modes of engagement, and our aim was to open-up, rather than close-down, possibilities for TA research, encouraging creativity and wide-ranging use. We partly agree with Potter’s (1997) claim that qualitative analysis is a ‘craft skill’, and something ideally learnt at the feet of ‘master’, something difficult to fully capture throughdescriptionsof analytic procedures. However, one of us is a keen crafter, and we know craft skillscanbe formulised for teaching to some extent. Some structured scaffolding can introduce concepts and teach skills to those who do not intuitively just ‘get it’, who are not the proverbial ducks-to-water.
모든 사람이 질적 분석의 '마스터'를 만날 수 있을 만큼 운이 좋거나 특권이 있는 것은 아니기 때문에, 질적 방법에 대한 접근을 민주화하는 것은 특히 중요하다. 질적 연구에 대한 관심은 감독자의 availability을 훨씬 초과하며, 방법 커리큘럼(학문 및 지역별로 상당히 다양함)에서 잘 교육되지 않는 경우도 많다. 그래서 데이터 참여, 코딩 및 테마 개발을 위한 6단계 프로세스를 설명했습니다. 이에 대한 가장 최근의 표현은 다음과 같다.
This is especially important for democratising access to qualitative methods, as not everyone is fortunate or privileged enough to have access to a ‘master’ qualitative analyst. Interest in qualitative researchfar exceedsthe availability of supervisors and remains often under-taught in methods curricula (varying considerably by discipline and by locale). So, we explicated asix-phase processfor data engagement, coding and theme development. Our most recent articulation of this is:
1) 데이터 친숙화 및 익숙화 노트 작성;
2) 체계적인 데이터 코딩,
3) 코드화되고 수집된 데이터로부터 초기 테마를 생성한다.
4) 테마의 개발 및 검토
5) 테마의 정제, 정의 및 명명
6) 보고서 작성
1) data familiarisation and writing familiarisation notes;
2) systematic data coding;
3) generating initial themes from coded and collated data;
4) developing and reviewing themes;
5) refining, defining and naming themes; and
6) writing the report.
우리는 서면 지침의 한계와 그것이 규범적으로 해석될 수 있는 가능성을 인정한다. 그러나, 언급한 바와 같이, 이러한 지침에는 전문가의 감독이나 멘토링 없이 질적 연구를 더 쉽게 할 수 있도록 하는 데 많은 가치가 있다(McLeod 2001). 또한, 우리는 이 단계적 접근법이 엄격하게 따르려는 의도가 아니라는 것을 명확히 하는 것을 목표로 한다. 그리고 분석 기술이 발달함에 따라, 이 여섯 단계는 어느 정도 섞일 수 있고, 분석 과정은 필연적으로 점점 더 재귀적이 된다.
We acknowledge the limits of written guidance, and the potential for it to be (mis)interpreted as prescriptive. However, as noted, thereismuch value in such guidance, not least in making qualitative research more accessible to those without expert supervision or mentoring (McLeod2001). Furthermore, we aim to be clear that this phase-approach isnotintended to be followed rigidly. And as one’s analytic (craft) skill develops, these six phases can blend together somewhat, and the analytic process necessarily becomes increasingly recursive.
데이터 세트 전체에서 의미 패턴을 식별하고 의미를 이해하는 것을 목표로 하는 다양한 TA 접근 방식이 있다. 동일한 이름과 패턴 있는 의미에 초점을 맞추고 있음에도 불구하고, 서로 다른 TA 접근법 사이에 유의미한 차이가 존재한다(이러한 사항은 나중에 논의한다). 예를 들어, 주제를 공유된 의미의 패턴으로 개념화하는 것은 중심 개념(주제가 포착하는 중심 아이디어 또는 의미)을 중심으로 하는 것은 보편적이지 않다. [완전히-내재된 방법론]보다는 [방법]으로서 [(성찰적) TA가 갖는 유연성]은 상당히 다른 guiding theories으로 수행될 수 있음을 의미한다(의미있는 지식과 지식 생산에 대한 질적 패러다임과 인식론적 가정에 의해 제한되지만). 또한 데이터, 코딩 관행 및 테마 개발에 상당히 다른 방향을 사용합니다.
There are various TA approaches that all aim to identify and make sense of patterns of meaning across a dataset. Despite a shared name and focus on patterned meaning, there are not insignificant differences between different TA approaches (we discuss these later). Our conceptualisation of themes as patterns of shared meaning, cohering around a central concept – the central idea or meaning the theme captures – is not universal, for instance. The flexibility of (reflexive) TA as a method, rather than a fully-embedded methodology, means it can be undertaken with quite different guiding theories (albeit constrained by qualitative paradigmatic and epistemological assumptions about meaningful knowledge and knowledge production), and using quite different orientations to data, coding practices and theme development.
성찰적 TA는 언어, 데이터 및 의미에 대한 경험적(예: 비판적 현실주의자, 맥락론자) 및 비판적(예: 상대론자, 구성론자) 프레임 모두에 적합하다(Braun 및 Clarke 2013). 성찰적 TA는 연역적으로 사용될 수도 있고 귀납적인 분석 과정에 사용될 수도 있다(이 두 가지는 이분법적이지 않고 연속적일 될 수 있음). TA를 할 때, 이론적으로 진공인 상태에서 TA를 수행할 수 없기 때문에, [순수한 귀납적 분석]이 아니라 [데이터에 '근거된' 분석]이라는 의미에서 귀납성을 의미한다. 패러다임, 인식론적, 존재론적 가정은 불가피하게 분석에 정보를 제공한다.
성찰적 TA를 귀납적으로 사용하는 연구자들은 그들의 분석에 inform하는 [이론적 가정]을 확인하고, 이상적으로는, 그들의 분명하게 표현하여 보고할 필요가 있다.
성찰적 TA를 연역적으로 사용하는 것은 기존의 연구와 이론이 우리가 데이터를 분석하고 해석하는 렌즈를 제공한다는 것을 의미한다.
좁게는, 이것은 이전 연구에서 확인된 주제에 대한 증거를 탐구하는 것을 의미할 수 있다;
넓게는 (그리고 더 일반적으로) 이것은 종종 데이터를 코딩하고 해석하는 렌즈로 기존의 정치 또는 설명 이론을 사을용하는 것을 의미한다. (예를 들어 애착 이론 (윌콕스, 몰러, 클라크 2019) 또는 푸코의 성윤리 이론 (베레스와 파비드 2010))
Reflexive TA is suited to both experiential (e.g. critical realist, contextualist) and critical (e.g. relativist, constructionist) framings of language, data and meaning (Braun and Clarke 2013). It can be used for a more deductive or more inductive analytic process (recognising this can be a continuum, rather than dichotomy). We mean inductive in the sense of analysis ‘grounded in’ the data, rather than ‘pure’ induction, because you cannot enter a theoretical vacuum when doing TA. Paradigmatic, epistemological and ontological assumptions inescapably inform analysis.
Researchers using reflexive TA inductively need to identify, and ideally articulate in their reporting, the theoretical assumptions informing their analysis.
Using reflexive TA deductively means existing research and theory provide the lens through which we analyse and interpret data. Narrowly, this might mean exploring evidence for themes identified in previous research; broadly (and more commonly), this often means using existing political or explanatory theory – such as attachment theory (Willcox, Moller, and Clarke 2019) or Foucault’s theory of sexual ethics (Beres and Farvid 2010) – as a lens through which data are coded and interpreted.
또한 (TA간의 차이는) 의미론적(표면적, 명백함, 명백함)인 것에서 잠재적(암시적, 기저적, '숨겨진')인 것까지의 스펙트럼에 걸쳐, [의미 탐색을 위한 코딩의 포커스]에서도 발생한다. 성찰적 TA 내에서 코딩 프로세스는 테마가 이러한 코딩 프로세스의 '결과'이며, 테마는 코딩을 통해through 개발된다는 점에서 테마 "개발"에 필수적이다. 코딩은 [사전에 개념화한 주제에 대한 증거를 찾는 과정]이 아니다. 분석 과정에는 데이터에 대한 몰입, 읽기, 반성, 질문, 상상, 궁금, 쓰기, 후퇴, 복귀가 포함됩니다. 코딩은 기계적으로 하는 것과는 거리가 멀고, '제대로 생각할 시간'을 필요로 하며, 영감이 떠오르고 통찰력을 발휘해 발전해야 하는 과정이다(고프·라이언스 2016).
Variation also occurs through coding focus, where meaning can be explored across a spectrum from the semantic (surface, obvious, overt) to the latent (implicit, underlying, ‘hidden’). Within reflexive TA, the coding process is integral to theme development, in the sense that themes are an ‘outcome’ of these coding and theme development processes, are developed through coding; coding is not – in general – a process for finding evidence for pre-conceptualised themes. The analytic process involves immersion in the data, reading, reflecting, questioning, imagining, wondering, writing, retreating, returning. It is far from mechanical and is a process that requires ‘headspace’ and time for inspiration to strike and insight to develop (Gough and Lyons 2016).
Ho, Chiang, Leung(2017)은 홍콩에서 일하는 외국인 가정 도우미(FDH)의 경험에 대한 연구에서, TA에 대한 해석학적 접근법을 사용하면서, 자료에 'dwelling with'하는 과정과, '지속적이고 엄격하게' 자신의 생각을 반영하는 과정을 생생하게 보여준다. 호는 다음을 기록했다.
참가자들이 말하는 단어 뒤에 숨겨진 무언의 의미를 궁금해한 것
FDH를 고용하고 간호사로 일했던 개인적인 경험을 성찰해본 것
참가자가 설명하고 경험한 상황에서 그가 어떻게 느낄지 상상하고 질문한 것
통찰력 따른 것
데이터에서 유사하거나 반대되는 언어 및 경험을 찾은 것
이것들을 곰곰이 생각한 것
Ho, Chiang, and Leung (2017) provide a vivid example of this process of ‘dwelling with’ data, and of ‘continuously and rigorously reflect[ing] on their own taken for granted thinking’ (p. 1760) when researching the experiences of foreign domestic helpers (FDHs) working in Hong Kong, using a hermeneutic phenomenological approach to TA. Ho documents his
wondering about unspoken meaning behind the words spoken by participants,
reflecting on his personal experiences of hiring FDHs and working as a junior nurse,
imagining and questioning how he would feel in situations described and experienced by participants,
following insights,
looking for instances of similar or contrary language and experiences in the data, and
pondering these.
이 과정은 빠른 과정도, 쉬운 과정도 아니다. 시간과 공간(데이터 포함)은 반사적 TA가 제공할 수 있는 미묘한 분석을 개발하여 분석 전에는 결코 예상할 수 없었던 풍부하고 복잡하며 명확하지 않은 테마를 생성한다.
It is neither a quick nor an easy process. Time and space (with the data) help develop the nuanced analyses that reflexive TA can deliver, producing rich, complex, non-obvious themes that could never have been anticipated in advance of analysis.
(성찰적) TA에 대한 이 간략한 설명과 2006년 논문(Braun and Clarke 2019a, 2019b; Braun et al. 2019a 참조) 사이에는 몇 가지 차이점이 있다. TA에 대해서 우리의 접근 방식에 대한 가정을 완전히 표현하지 못한 것, 그리고 우리의 접근 방식이 우리가 인용한 다른 접근법과 어떻게 다른지를 설명하지 못한 것은 의심할 여지 없이 일부 TA 연구에서 명백한 혼란과 오해에 기여한다. 우리는 이 논문이 최근의 다른 기여(Braun and Clarke 2019a, 2019b; Braun 등 2019a; Terry 등 2017)와 함께 교정적corrective 역할을 하고, 더 명확성을 가져오며, 궁극적으로 연구자들이 현재 개략적으로 설명하는 일반적인 문제를 피하는 데 도움이 되기를 바란다.
There are some differences between this brief account of (reflexive) TA, and that in our 2006 paper (for discussion of how our thinking has evolved and what has changed, see Braun and Clarke2019a,2019b; Braun et al.2019a). Our failure to fully articulate the assumptions informing our approach to TA, and how our approach differs from the other approaches we cited (e.g. Boyatzis1998), undoubtedly contributes to the confusions and misconceptions apparent in some TA research. We hopethispaper, alongside other more recent contributions (Braun and Clarke2019a,2019b; Braun et al.2019a; Terry et al.2017), serves as a corrective and helps to bring greater clarity, and ultimately assists researchers to avoid the common problems we now outline.
발표된 TA 연구의 10가지 일반적인 문제 Ten common problems in published TA research
이제 우리는 우리의 접근방식을 인용하거나 따르고 있다고 주장하는 발표된 TA 연구에서 볼 수 있는 10가지 문제를 강조한다. 이러한 문제는 TA 연구에서도 더욱 광범위하게 드러난다. 이러한 문제들은 광범위하거나 개념적인 문제, 오해 또는 문제적 가정, 처리 또는 실행 문제에 걸쳐 있다. We now highlight ten problems we see in published TA research that cites, or claims to follow, our approach. Such problems are also apparent in TA research more broadly. These problems span broad or conceptual issues, misunderstandings or problematic assumptions, and process or practice problems.
첫 번째 문제: TA가 하나의 접근 방식이라고 가정합니다. Problem one: assuming TA is one approach
앞서 언급한 바와 같이, TA는 단일한 접근법이 아니다. 그보다 TA는 [여러 접근법의 클러스터]를 의미하며, 이들은 절차와 기본 철학 모두에서 서로 다르지만(때로는 상충되지만), 데이터에서 패턴을 포착하는 데 관심을 공유한다. 그러나 너무 자주 저자들은 TA에 대한 "그들 자신의" 구체적인 지향을 명시하지 않거나, 실제로 TA의 다양성을 인정하지 않는다. 우리가 처음 우리의 접근 방식을 명확히 했을 때, 우리는 분명히 이것을 인정하지 않았다. (유용한 것을 이용했지만, 보야치스(1998)와 다른 보다 실증적인 접근법은 질적 패러다임의 가정, 가치 및 감성을 '실제로 얻지 못한다'고 치부했다(Braun and Clarke 2019a)). 우리는 이제 TA를 몇 가지 다른 '버전'이 있는 것으로 개념화하는 것이 더 낫다고 생각한다. 우리는 접근 방식을 '코딩 신뢰성', '코드북' 및 '성찰적' 변형이라고 부르는 것으로 묶는다(Braun et al. 2019a). 군집화와 구분은 다양한 패러다임과 인식론적 위치 및 관련 절차적 차이를 반영한다. 요약하면 다음과 같다. As previously noted, TA refers not to a singular approach, but rather to a cluster of sometimes conflicting approaches, divergent both in procedure and underlying philosophy, but which share an interest in capturing patterns in data. Yet too often authors do not specifytheirparticular orientation to TA, or indeed acknowledge the diversity of TA. We certainly failed to acknowledge this when we first articulated our approach – utilising what was useful, but privately dismissing Boyatzis’ (1998) and other more positivist approaches as ‘not really getting’ the assumptions, values and sensibility of a qualitative paradigm (Braun and Clarke2019a). We now think that it is better to conceptualise TA as having several different ‘versions’; we cluster the approaches into what we call ‘coding reliability’, ‘codebook’ and ‘reflexive’ variations (Braun et al.2019a). The clustering and demarcation reflects divergent paradigmatic and epistemological positions and associated procedural differences. Briefly, these are:
'코딩 신뢰성' TA는 '객관적'과 '편향되지 않은' 코딩에 대한 핵심적 관심을 두는 신-실증주의적 접근법을 포착한다. 분석 프로세스 및 복수의 코더를 위한 코드북의 사용은 '정확하고' '신뢰할 수 있는' 코딩의 핵심이다. 이러한 접근법은 일반적으로 코드 품질의 핵심 척도로 평가자 간 신뢰성(코딩 일치)을 사용한다. 그것들은 종종 분석 초기 또는 분석 이전에 주제가 개발된다는 점에서 연역적이다. ‘Coding reliability’ TA captures neopositivist approaches that have at their core concerns about ‘objective’ and ‘unbiased’ coding. The use of a codebook for the analytic process, and multiple coders, is key to ensuring ‘accurate’ and ‘reliable’ coding. Such approaches typically use inter-rater reliability (coding agreement) as a key measure of coding quality. They are often deductive in orientation, in the sense that themes are developed early on in, or even prior to, analysis.
'코드북' TA는 질적 패러다임(일부 실용적 타협이 있기는 하지만) 안에 폭넓게 자리 잡고 있는 방법의 클러스터를 포착한다. 그들은 분석을 개발하고 문서화하기 위해 일종의 구조화된 코딩 프레임워크를 사용하지만, 코드 작성자 간의 합의와 평가자 간 신뢰성은 보통 품질의 척도가 아니다. 테마는 일반적으로 초기에 코딩 신뢰성과 함께 개발되지만, 일부 방법에서는 유도 데이터 참여와 분석 과정을 통해 개선되거나 새로운 테마를 개발할 수 있다. ‘Codebook’ TA captures a cluster of methods that broadly sit within a qualitative paradigm (albeit with some pragmatic compromises). They use some kind of structured coding framework for developing and documenting the analysis, but consensus between coders and inter-rater reliability are not usually measures of quality. Themes are typically initially developed early on, as they are with coding reliability, but in some methods can be refined or new themes can be developed through inductive data engagement and the analytic process.
'성찰적' TA는 질적 연구의 가치를 완전히 포용하며, 연구자가 프로세스에 제공하는 주관적 기술을 완벽하게 포용하는 접근 방식을 의미한다. 연구 팀은 품질에 필요하지도 않고, 심지어 연구의 퀄리티를 위하여 바람직하지도 않습니다.
분석은 더 귀납적이거나 더 이론적이거나 추론적일 수 있으며,
분석은 상황적situated인 해석적 성찰적 과정이다.
코딩은 개방적이고 유기적이며 어떠한 코딩 프레임워크도 사용하지 않는다.
테마는 데이터 코딩과 반복적인 테마 개발의 최종 '결과'가 되어야 한다. ‘Reflexive’ TA captures approaches that fully embrace qualitative research values and the subjective skills the researcher brings to the process – a research team is not required or even desirable for quality. Analysis, which can be more inductive or more theoretical/deductive, is a situated interpretative reflexive process. Coding is open and organic, with no use of any coding framework. Themes should be the final ‘outcome’ of data coding and iterative theme development.
TA는 종종 하나의 접근법인 것처럼 쓰여진다. 예를 들어, Firmin 등이 있습니다. (2008) TA와 텍스트 분석 소프트웨어를 비교하는 논문에서 '전통 주제 분석'(p. 202)을 단일하고 널리 이해되는 것처럼 언급했지만 귀납적이고 수정된 근거 이론과 유사한 버전을 개략적으로 설명한다. TA의 유일성 또는 균질성에 대한 가정은 또한 때때로 암시적이다.
연구자들은 그들의 데이터가 TA를 사용하여 분석되었다고 언급하면서,
복수의 (개념적으로 호환되지 않거나 모순된) 접근법을 인용하며,
(여러가지 어마어마한 차이가 있는 TA의 버전들 가운데) 무엇을 가지고 실제로 분석을 어떻게 수행했는지에 대한 구체적인 정보를 제공하지 않는다.
TA is often written about as if it is justoneapproach. For example, Firmin et al. (2008), in a paper comparing TA and text analysis software, referred to ‘traditional thematic analysis’ (p. 202), as if that is singular and widely understood, but outline a version that is inductive and similar to a modified grounded theory. The assumption of singularity or homogeneity is also at times implicit, with researchers
noting their data were analysed using TA,
citing multiple (conceptually incompatible or contradictory) approaches, and
not providing any specific information about how the analysis was actually conducted – which varies considerably across different versions of TA.
이러한 '단일 접근법' 개념화와 밀접하게 관련된 기준은 '단일 품질 표준' 기준이다. 검토자가 인용한 본 논문의 서두 인용문은 이를 예시한다. 그 인용문을 보면 일부 형태의 TA(특히 '코딩 신뢰성' 접근법)에만 가장 잘 적용되는 품질 표준quality standard을 지향한다. 이러한 접근법은 가장 오랜 역사를 가지고 있으며, 종종 TA의 가까운 사촌인 [질적 내용 분석]과 유사하다(예: Forman 및 Damschroder 2008). Boyatzis(1998)는 [질적 데이터의 수집과 분석]을 [퀄리티에 대한 양적 지표]와 결합시키는 것을 실증주의(양적) 패러다임과 해석적(질적) 패러다임 사이의 '격차를 메우기' 위한 하나의 전략으로서, TA에 대한 자신만의 접근 방식을 제공했다. 그가 제시한 방법에는 [측정 또는 관찰의 신뢰성], [코딩 절차의 표준화를 통해 연구자 '편향' 을 억제하 것], [여러 코더의 합의를 입증하는 것] 등이 있다. 이러한 quality marker가 종종 모든 형태의 TA에 적용되는 것으로 가정된다. 그러나 [코딩 신뢰성 TA]를 위한 논리, 과정, 그리고 품질 측정은 [성찰적 TA]와는 상당히 다릅니다. 질적 연구, 그리고 질적 연구에 대한 다른 접근법이 그들 자신의 관점에서 평가되는 것이 중요하다.
Intimately connected to this ‘one approach’ conceptualisation is a ‘one quality standard’ criterion. This paper’s opening quotation from a reviewer exemplifies this – orienting to quality standards that best apply only to some forms of TA, and in particular to ‘coding reliability’ approaches (e.g. Boyatzis1998; Guest, MacQueen, and Namey2012; Joffe2012). These approaches have the longest history, and are often similar to TA’s close cousin, qualitative content analysis (e.g. Forman and Damschroder2008). Boyatzis (1998) offered his approach to TA as one to ‘bridge the divide’ between positivist (quantitative) and interpretative (qualitative) paradigms by marrying the collection and analysis of qualitative data with positivist markers of quality – reliability of measurement or observation and containing researcher ‘bias’ through the standardisation of coding procedures and the demonstration of consensus among multiple coders. Such quality markers are often assumed to apply toallforms of TA. And yet the logic, process, and thus quality measures for coding reliability TA are quite different from reflexive TA. It is important that qualitative research, and different approaches to qualitative research, are evaluated on their own terms (Madill et al., 2000; Sparkes and Smith2009; Yardley2015).
간략히 언급한 바와 같이, [코딩 신뢰성 접근법]은 아래의 것들을 권고한다는 점에서 [성찰적 TA]와 다르다.
초기 테마 개발(일부 데이터 익숙화 이후 진행),
구조화되고 고정된 코드북 또는 코딩 프레임의 사용(일부 데이터 익숙화 또는 데이터 부분의 초기 분석에 따라 개발된 정보)
독립적으로 작업하는 여러 코더의 사용
코드 간 일치도(또는 평가자 간 신뢰도) 및
합의를 통한 최종 코딩 결정.
As briefly noted above, these coding reliability approaches differ from reflexive TA in recommending
early theme development (perhaps following some data familiarisation),
the use of a structured and fixed codebook or coding frame (perhaps developed following some data familiarisation or initial analysis of a portion of the data),
the use of multiple coders who work independently,
measurement of between-coder agreement (or inter-rater reliability) and
the determination of final coding through consensus.
[코딩 신뢰성 TA]에서 가장 중요한 관심사는 코딩의 정확성 또는 신뢰성을 입증하는 것이며, 이러한 실증주의적 우선 순위는 분석이 수행되는 방법을 형성한다. 하지만 [질적 패러다임과 성찰적 TA]에서는 코딩 신뢰성을 입증하는 것이나 '편향'을 회피하는 것은 비논리적인 것이고, coherent하지 못한 것이며, 궁극적으로 무의미하다. 왜냐하면 의미와 지식은 위치적이고 맥락적인 것으로 이해되며, 연구자의 주관성은 지식 생산을 위한 자원으로 개념화되기 때문이다. 연구자의 주관성은, credibility의 위협이기에 억제되어야 하는 것이 아니라, 만들어질 지식을 형상화sculpt하는 것이다. [성찰적 TA]에 '코딩 신뢰성' 기준을 적용하는 것은 연구자가 반사적 TA의 근간fundamentals을 완전히 '이해하지 못하며' 프레임워크를 뒷받침하는 질적 가치가 무엇을 기대하거나 구분하는지 이해하지 못한다는 것을 시사한다.
An overriding concern is with demonstrating the accuracy or reliability of coding, and this positivist prioritisation shapes how analysis is conducted. Demonstrating coding reliability and the avoidance of ‘bias’ is illogical, incoherent and ultimately meaningless in a qualitative paradigm and in reflexive TA, because meaning and knowledge are understood as situated and contextual, and researcher subjectivity is conceptualised as aresourcefor knowledge production, which inevitably sculpts the knowledge produced, rather than a must-be-contained threat to credibility. The application of such ‘coding reliability’ criteria to reflexive TA also, to us, suggests that the researcher does not fully ‘get’ thefundamentalsof reflexive TA, does not understand what the qualitative values underpinning the framework expect or delimit.
TA의 이 두 가지 '극poles' 사이에서 다음과 같은 '코드북' 접근방식이 등장했다.
프레임워크 분석(예: 게일 외 2013; Ritchie 및 Lewis 2003; Smith & Firth, 2011),
매트릭스 분석(예: Miles 및 Huberman 1994; Nadin 및 Cassell 2014)과
템플릿 분석(예: Brooks et al. 2015; 2012)
이 방법 각각은 자체적인 '모범 사례' 및 품질 기준 가이드라인을 가지고 있다. 이들은 다음의 특징을 공유한다.
테마를 초기에 개발(일부 또는 모든 테마)
코딩 신뢰성 접근법과 마찬가지로 구조화된 코드북 또는 코딩 프레임(프레임, 템플릿 또는 매트릭스)의 사용
질적 철학과 성찰적 TA의 가치(연구자의 주관성을 인정)를 공유하고, 지식이 문맥적임을 인정한다.
Between these two ‘poles’ of TA, ‘codebook’ approaches, like framework analysis (e.g. Gale et al. 2013; Ritchie and Lewis 2003; Smith & Firth, 2011), matrix analysis (e.g. Miles and Huberman 1994; Nadin and Cassell 2014) and template analysis (e.g. Brooks et al. 2015; King 2012, 2014), comprise processes and conceptualisations that have elements of each, with their own ‘best practice’ and quality criteria guidelines. They share
early theme development (of some or all themes) and
the use of a structured codebook or coding frame (the framework, template or matrix) with coding reliability approaches, and
the qualitative philosophy and values of reflexive TA, such as recognising researcher subjectivity and that knowledge is contextual (see Braun et al. 2019a, for more discussion).
일부 코드북 지지자들의 경우, 이들의 접근방식은 [사전에 미리 결정된 정보 요구(이것 때문에 '테마'는 종종 특정 질문에 대한 응답 요약으로 구성된다.)], [결과를 내야 하는 엄격한 타임프레임], [팀워크의 필요성] 등을 둘러싼 [실용적 요구]에의해 주도되기에, 어느 정도 질적 원칙의 '타협'을 시도한다. (코드북 TA)에서는
여러 연구자가 데이터의 여러 부분을 코딩하여 '결과'를 정해진 기한 내에 전달할 수 있게 한다.
이 방법은 연구 배경이 거의 없거나 전혀 없는, 질적 초보자와 참여자 또는 이해관계자의 참여를 개방하여 포괄적 연구팀을 용이하게 한다.
데이터는 종종 다소 구체적이며, 연구를 통해서 얻어야 하는 산출물은 종종 [의미론적 의미의 서술적 또는 요약적 분석]으로서 [실무자와 이해관계자가 접근하고 실행할 수 있는 결과]가 된다(Ritchie and Spencer 1994; Smith and Firth 2011).
이러한 접근법은 종종 '질적 실용주의'를 보여주며 응용 연구에 효과적이다. 예를 들어, 프레임워크 접근법은 1980년대에 응용 사회 정책 연구에 사용하기 위해 (영국) 국립 사회 연구 센터의 연구원들이 개발했다(리치와 스펜서 1994).
For some codebook proponents, their approach represents some degree of ‘compromise’ of qualitative principles, with research driven by pragmatic demands around pre-determined information needs (with ‘themes’ often consisting of summaries of responses to particular questions), strict time frames for producing ‘results,’ and the necessity of team work.
Multiple researchers code different portions of the data, facilitating delivery of ‘results’ to a fixed deadline.
The methods facilitate inclusive teams of researchers, opening participation for qualitative novices and participants or stakeholders, with little or no research background.
Data are often rather concrete, and the required output can often be a descriptive or summative analysis of semantic meaning with results accessible to and actionable by practitioners and stakeholders (Ritchie and Spencer 1994; Smith and Firth 2011).
These approaches often demonstrate a ‘qualitative pragmatism’ and work well for applied research – for instance, the framework approach was developed by researchers at the (British) National Centre for Social Research in the 1980s for use in applied social policy research (Ritchie and Spencer 1994).
요약하자면… 'TA'는 [공통적으로 (코딩과 테마 개발을 통한 분석, 어느 정도의 이론 및 연구 설계 유연성; 의미와 잠재 의미에 대한 초점과 같은) 일부 특성을 공유하는 접근법]의 포괄적 용어 또는 '불분명한fuzzy' 집합으로 가장 잘 생각되지만(Madill and Gough 2008) 기저의 패러다임과 인식론적 가치, 그리고 절차에서 크게 다를 수 있다. 연구자, 검토자 및 편집자가 서로 다른 버전의 TA 사이의 광범위한 패러다임 차이를 이해하는 것이 중요하다. 우리는 TA 연구자들이 어떤 TA 접근법을 사용하고 있는지 명확하게 구분하도록 권장한다. 또한, 그들이 TA에 대해 다른 방향의 저자들을 인용하는 경우, 그들이 각각에서 '취하는taking' 것을 명확히 명시하고 (잘) 다양한 기준과 실천의 사용을 정당화하여야 한다. The take away …‘TA’ is best thought of as an umbrella term for, or a ‘fuzzy’ set (Madill and Gough2008) of, approaches that share some characteristics in common (analysis through coding and theme development; some degree of theoretical and research design flexibility; a focus on semantic and latent meaning) but can differ significantly in both underlying paradigmatic and epistemological values, and in procedures. It is vital that researchers, reviewers and editors understand the broad paradigm distinctions between different versions of TA. We encourage TA researchers to clearly demarcatewhichTA approach they are using. Furthermore, if they cite authors from different orientations to TA, to clearly specify what they are ‘taking’ from each and justify (well) any use of divergent criteria and practice.
문제2: 읽지 않고 인용! Problem two: citing without reading!
안타깝게도 이 문제는 장난이 아닙니다. 2006년 논문을 인용한 일부는 보여주기식performative이었다. '편리함' 또는 '필수' 인용문으로도 활용될 수 있는 것으로 보입니다. 수많은 저자들은 '브라운과 클라크(2006)가 개괄한 절차를 따랐다'고 주장하며, 우리가 개괄한 절차와 거의 또는 전혀 유사하지 않은 절차를 설명한다. 예를 들어, Kaye, Wall 및 Malone(2016)은 그들의 접근방식과 절차를 'Braun and Clarke (2006) 분석 전략과 일치한다'(p. 464)라고 설명했지만, 신뢰성 TA 코딩에 더 가까운 분석 과정을 개략적으로 설명하고 있다.
데이터는 '두 개의 순진한 코드 작성자'에 의해 읽혔다.
각 코더가 독립적으로 초기 주제를 식별함
데이터는 초기 테마의 타당성을 시험하기 위해 코딩되었다(부분적으로는 각 테마의 빈도를 결정하기 위해).
데이터는 코드북의 개발과 함께 다시 검토되었다.
Unfortunately, this problem is not a joke. Some citations of our 2006 paper appear performative: dropped in as a ‘convenient’ or maybe even ‘required’ citation. Numerous authors claim to have ‘followed the procedures outlined by Braun and Clarke (2006),’ then describe procedures with little or no resemblance to those we outlined. For example, Kaye, Wall, and Malone (2016) described their approach as TA and their procedure as ‘in line with Braun and Clarke (2006) analytic strategy’ (p. 464), but then outlined an analytic process more akin to coding reliability TA:
the data were read by ‘two naïve coders’;
each coder independently identified initial themes;
the data were coded to test the validity of the initial themes (in part to determine the frequency of each theme);
the data were reviewed again alongside the development of a codebook.
그러한 논문을 읽으면서, 우리는 코드북과 코딩 프레임, 합의 코딩, 코딩 신뢰성의 측정, 데이터 코딩 이전의 주제 개발, 데이터 또는 테마 포화, 주제 빈도의 측정 및 보고, 지속적인 비교 분석 등을 장려한다는 것을 발견했다. 독자들이여, 우리는 그렇지 않다! 이러한 것들은 우리가 말하지 않았을 뿐만 아니라, 빅 Q 질적 조사를 위한 관행으로서 우리가 정말로 비판적인 것들입니다. 우리가 실제로 지지하지 않는 절차에 대해 옹호하는 주장에 대한 가장 그럴듯한(아마도 관대할 수 있는) 설명은 저자들이 우리의 논문을 읽지 않았다는 것이다.
Reading such papers, we have discovered that we promote the use of codebooks and coding frames, consensus coding, the measurement of coding reliability, developing themes before data coding, data or theme saturation, the measurement and reporting of theme frequency, constant comparative analysis, and more … Reader, we do not! Not only are these things we havenotsaid, they are all things we are indeed critical of, as practices for Big Q qualitative inquiry (Braun and Clarke2013,2019c; Clarke and Braun2019). The most plausible (and perhaps generous) explanation for claims that we advocate for procedures that we do not in fact advocate for, is that the authors have not read our paper.
숙제를 하십시오. 즉, 다음 사항 없이 TA에 사용되는 방법으로 저희(또는 다른 TA 저자)를 인용하지 마십시오.
a) 제공된 방법론적 지침을 읽을 것.
b) 당신이 한 일이 지지받는 것임을 확인하는 것;
c) 어떤 '개정deviation'이 있었다면 그 이유를 명확히 하는 것.
The take away …Do your homework – by which we mean, do not cite us (or indeed any other TA author) as the method used for TA without:
a) reading the methodological guidelines provided;
b) confirming that what you did is what is advocated; and
c) being clear on why any ‘deviations’ from the broad approach were adopted.
문제 3: 정당하지 않거나 호환되지 않는 '매시업' Problem three: unjustified or incompatible ‘mash-ups’
연구자들이 TA에 대해 복수의 (호환되지 않는) 소스를 인용하는 것을 넘어, 정당성이나 설명 없이 반사성 TA를 종종 양립할 수 없는 다른 절차와 효과적으로 결합하는 수많은 문제적 실무 사례가 있다. 방법론적인 '매쉬업'의 개념은 그 자체로 문제가 되지 않는다. TA의 유연성은 그러한 창의성과 혁신을 불러온다. 우리가 지적하려는 것은 이론적이고 개념적인 모순인 '혼돈된 q' 연구를 초래하는 겉보기에는 알 수 없고 유연하지 않은 매시업이다. 예를 들어, 성찰적 TA와 코드북 및 코딩 신뢰성 측정의 조합은 일반적이지만 [성찰적 TA의 유기적이고 주관적인 코딩 프로세스]와 [코딩 정확성과 신뢰성에 대한 우려] 사이의 긴장감에 대한 인식은 훨씬 낮은 것으로 보이며, 확실히 자주 논의되지는 않는다. There are numerous instances of problematic practice that go beyond researchers citing multiple (incompatible) sources for TA, effectively combining reflexive TA with other often incompatible procedures without justification or explanation. The notion of methodological ‘mash-ups’ is not problematic per se; the flexibility of TA invites such creativity and innovation. Our concern is with seemingly unknowing and unreflexive mash-ups that result in theoretical and conceptual incoherence – ‘confused q’ research. For example, the combination of reflexive TA with the use of codebooks and coding reliability measures is common, but thetensionsbetween the organic and subjective coding processes of reflexive TA and concerns for coding accuracy and reliability seem to be far less commonly recognised – certainly they are not often discussed.
일부 연구자들은 또한 [개념과 실천과 관련된 위치 및 특정 의미 또는 이론적 앵커에 대한 논의 없이] 다른 분석적 접근법과 독특하게 연관된 개념과 용어를 사용한다.
(예: IPA와 관련하여 emergent라는 용어나, superordinate theme이라는 용어;
근거이론에서의 개념인 지속적 비교 분석, 라인 바이 라인 코딩, 포화
TA의 포화 개념 사용에 대한 비판적 논의는 Braun 및 Clarke 2019c 참조)
Some researchers also use concepts and terminology distinctively associated with other analytic approaches without discussion of the located and particular meanings, or theoretical anchors, associated with these concepts and practices.
(e.g. the terms emergent and superordinate theme, associated with IPA;
the grounded theory concepts of constant comparative analysis, line-by-line coding and saturation;
see Braun and Clarke 2019c, for a critical discussion of the use of the saturation concept in TA)
이러한 개념이나 용어들이 항상 TA로 잘 translate되거나 TA에 부합하지는 않는다. 우리는 또한 연구자들이 TA가 분석 목적을 달성하기에 그 자체로 불충분하다고 주장하며 추가 절차나 접근법으로 TA를 '보충'(반복)하는 것을 본다(예: Floersch et al. 2010). 이는 [잘못된 가정]에 근거하고 있으며, [TA가 단일한 것이라는 아이디어]에 기초한 것으로 보입니다(이후의 문제에서 더 자세히 설명).
They do not always translate (well) to, or cohere with, TA. We also see researchers ‘supplementing’ (reflexive) TA with additional procedures or approaches, arguing that TA is insufficient in and of itself to achieve their analytic purpose (e.g. Floersch et al.2010) – which seems to be based on flawed assumptions and a singular idea of what TA is (discussed further in subsequentProblems).
방법론적인 매시업은 보증되고 정당화되고 이론적으로 일관되어야 하며, (반복적인) TA가 제공할 수 있는 것과 제공할 수 없는 것에 대한 완전한 이해에 기초해야 한다.
The take away …Methodological mash-ups should be warranted, justified and theoretically coherent, and based in a full understanding of what (reflexive) TA can – and cannot – offer.
문제 4: TA가 무이론적이라고 가정함 Problem four: assuming TA is atheoretical
[TA의 이론적 유연성]은 내재된inbuilt 지침 이론guiding theory의 부재함을 의미하고, TA가 IPA, 기초 이론, 담화 분석 및 서술 분석과 같은 인기 있고 잘 활용된 질적 분석 접근법에서 벗어나는 부분이다. 이러한 접근법 중 일부는 원래 접근법의 다른 반복의 확산을 통해 다양한 이론적 가능성을 제공한다(예: 근거 이론의 다양한 'flavor'가 있다 – 실증론자, 맥락론자/실용론자, 급진 구성론자가 모두 논의된다;2008년 차마즈와 헨우드, 1992년 글레이저, 1997년 피존과 헨우드).
The theoretical flexibility of TA, the absence ofinbuiltguiding theory, is where TA departs from other popular and well-utilised qualitative analytic approaches such as IPA, grounded theory, discourse analysis and narrative analysis. Some of these approaches offer a range of theoretical possibilities through the proliferation of different iterations of the original approach (e.g. there are various ‘flavours’ of grounded theory – positivist, contextualist/constructivist and radical constructionist are all discussed; see Charmaz and Henwood2008; Glaser1992; Pidgeon and Henwood1997).
TA에 내재된 이론적 처방의 상대적 부족은 종종 TA가 무이론적임을 나타내는 것으로 잘못 해석된다.우리는 또한 TA를 하면서 연구자들의 engagement에 informing하는 이론적 가정을 명시하지 못한 연구자를 보며 [TA가 무이론적 방법으로 취급되는 것]을 마주한다. 실제로 최근 원고에 대한 저자의 응답에서 명백해졌듯이, 어떤 연구자들은 [귀납적 TA]는 전적으로 이론적 근거가 없으며, 연역적 TA만이 이론의 논의를 필요로 한다고 가정한다. (또한 우리는 [연역적 TA]가 [연구 질문이나 연구자의 존재론적, 인식론적 가정 또는 주제에 대한 관심에 의해 informed되는 TA]로 잘못 인식되고 있다고 본다.)
The relative lack of theoretical prescription inherent in TA is often misinterpreted as indicating TA is atheoretical. We also encounter TA beingtreated asan atheoretical method through researchers failing to specify the theoretical assumptions informing their engagement with TA. Indeed, as became clear to us in an author’s response to our review of their manuscript recently, it is sometimes assumed that inductive TA is entirely without theoretical foundations, and that onlydeductiveTA requires discussion of theory. (We also seedeductiveTA misconceptualised as TA informed by a research question, or the researcher’s ontological and epistemological assumptions or interests in the topic.)
내재된 이론이 없음에도 불구하고, TA는 절대로 이론적인 공백에서 수행될 수 없다; 연구자들은 항상 가정을 한다
데이터가 나타내는 것은 무엇인가?
예: 참가자의 말은 비교적 투명하게 개인의 경험을 전달하고 있는가?
또는 참가자가 한 말은 사회적 담론을 구성하고 사회적 행동을 수행하는가?)
이 데이터에 기초하여 무엇을 주장할 수 있는가?
궁극적으로, 무엇이 의미 있는 지식을 구성하는가?
Despite not havinginbuilttheory, TA canneverbe conducted in a theoretical vacuum; researchers always make assumptions about
what data represent
(e.g. do participants’ words relatively transparently communicate individual experience or
do their words constitute social discourse, performing social actions?),
what can be claimed on the basis of these data, and
indeed what constitutes meaningful knowledge.
만약 가정들이 더 '상식적common-sensical'이거나, 학문분야 내에서 지배적인 가정을 반영한다면, 이러한 가정들을 [가정으로서], 더 나아가 실제로 [이론으로서], 인식하는 것은 어려울 수 있지만, 그럼에도 불구하고 이론적으로 정보에 근거한 가정이며 결과적으로 분석적 함의가 있다.
If the assumptions made are more ‘common-sensical’ or reflect the dominant assumptions within a discipline, it can be hard to recognise theseasassumptions, indeedas theory, but they are nonetheless theoretically-informed assumptions with consequent analytic implications.
연구자들은 항상 TA의 사용에 informing하는 철학적, 이론적 가정을 성찰하고 명시해야 한다. 심지어 귀납적 TA에서도 그러하다. (구체적인 iteration에 따라 다소간 차이가 있더라도) TA는 이론적으로 유동적이지만, 무이론적 접근법이 아니며 [질적 연구의 경험적, 비판적 지향]에 동일하게 적합한 접근법으로 인식되어야 한다. (종종 경험적 지향experiential orientation에만 TA를 사용하는 것이 적절하다고 가정한다.)
The take away …Researchers should always reflect on and specify the philosophical and theoretical assumptions informing their use of TA, even inductive TA. TA should be recognised as a (more or less, depending on the specific iteration) theoretically flexible, but not atheoretical, approach and oneequallysuited to experiential and critical orientations for qualitative research (TA is often assumed to be only appropriate to use in experiential orientations, aProblemwe now discuss).
문제 5: TA가 현실주의자/본질주의자 또는 경험적/현상학적이라고 가정한다. Problem five: assuming TA is only realist/essentialist or experiential/phenomenological
문제 4와 밀접하게 연결되어, TA는 단순히 진리와 현실을 검색하는 현실주의 또는 본질주의 방법으로 암묵적으로 배치되며, 두 방법 모두 문제없이 접근 가능한 것으로 취급되며 종종 이론화되지 않는다. 경험은 종종 TA를 통해 접근할 수 있다고 가정하며, TA는 일반적으로 특히 더 현상학 또는 현상학적인 방법으로도 설명된다. 이런 식이다. '주제 분석'은 주제를 체계적으로 식별하기 위한 현상학적 위치를 채택한다(Newton-John et al. 2017, 1822). Closely connected toProblem four, TA is regularly positioned implicitly as a realist or essentialist method that simply retrieves truth and reality, both of which are treated as unproblematically accessible (and are often un[der]theorised). Experience is likewise often assumed to be accessible through TA, and TA is commonly described asparticularlycompatible with phenomenology (e.g. Guest, MacQueen, and Namey2012; Joffe2012) or even as a phenomenological method: ‘thematic analysis adopts a phenomenological position to systematically identify themes’ (Newton-John et al.2017, 1822).
IPA 이전에, TA는 심리학에서 현상학적 방법으로 사용되었지만(예: Dapkus 1985) TA와 현상학이 일치한다는 선언은 거의 설명되지 않는다. 우리는 이것이 TA를 [질적 연구에 대한 광범위한 경험적 접근법에 (유일하게) 양립할 수 있는 것]이며, TA를 ['주관적 관점'의 분석인 것]으로 이해하는 것를 반영한다고 추측한다(Flik 2014, 423). 즉, 언어에 대한 성찰적 관점으로 뒷받침되고, 참여자들의 생생한 경험, 감각 형성, 관점, 요구, 실천 등을 광범위하게 '감정적' 렌즈(Braun and Clarke 2013; Willig 2013)를 통해 탐구하는 데 초점을 맞춘 연구. 이 프레임은 불필요하게 제한적이다.
Before IPA, TA was used as a phenomenological method in psychology (e.g. Dapkus1985), yet the proclamation that TA and phenomenology are aligned is rarely explained. We speculate that this reflects an understanding of TA as (only) compatible with broadly experiential approaches to qualitative research, and the analysis of ‘subjective viewpoints’ (Flick2014, 423) – research underpinned by a reflective view of language and focused on exploring participants’ lived experience, sense-making, views, needs, practices and so on, through a broadly ‘empathic’ lens (Braun and Clarke2013; Willig2013). This framing is unnecessarily limited.
이와는 대조적으로, 우리는 (성찰적) TA를 [경험적 질적 연구]와 [비판적 질적 연구] 두 가지 모두와 양립할 수 있을 만큼 충분히 유연한 접근법으로 포지셔닝한다(Clarke와 Braun 2014b 참조). 이는 의심의 여지 없이 비판적 질적 심리학에 대한 우리의 배경과 훈련을 반영합니다. 또한 심리학에는 주제 분해(Stenner 1993), 주제 담화 분석(가수와 헌터 1999; 테일러와 어셔 2001)과 같은 주제적(thematic) 디스커버리 방법의 전통이 있다. 그리고 우리는 성찰적 TA의 흥미로운 매시업과 디스커버리 및 서술적 접근 방식을 점점 더 많이 볼 수 있으며, TA를 결합하여 주제를 식별하고 참가자의 말account에서 사건의 순차적 구성을 탐구하는 '주제적 내러티브 분석'과 같은 혼합적 접근 방식의 개발을 볼 수 있다. '비판적 주제 분석'(예: Terry and Braun 2011)도 마찬가지로 반사적 TA를 비판적 분산 심리의 일부 특징(예: Wetherell 및 Edley 2009)과 결합한다. 3번 문제에서 기술된, 아무 생각 없이 성찰적 TA를 질적 실증주의와 섞어버린 것과는 반대로, 우리가 환영하는 것은 정확히 이런 종류의 이론적이고 창의적이고 성찰적인 매시업이다.
In contrast, we position (reflexive) TA as an approach that is flexible enough to be compatible with both experientialandcritical qualitative research (see Clarke and Braun2014b) – no doubt a reflection of our background and training in critical qualitative psychology (see Braun and Clarke2019a; Jankowski, Braun, and Clarke2017; Lainson, Braun, and Clarke2019). Moreover, there is a tradition of ‘thematic’ discursive methods in psychology such as thematic decomposition (Stenner1993) and thematic discourse analysis (Singer and Hunter1999; Taylor and Ussher2001). And we increasingly see exciting mash-ups of reflexive TA and discursive and narrative approaches, and the development of hybrid approaches like ‘thematic narrative analysis’, which combines TA to identify themes with narrative analysis to explore the sequential organisation of events in participants’ accounts (e.g. Palomäki, Laakasuo, and Salmela2013). ‘Critical thematic analysis’ (e.g. Terry and Braun2011) likewise combines reflexive TA with some features of critical discursive psychology (e.g. Wetherell and Edley2009). It is precisely this kind of theoretically-knowing, creative and reflexive mash-ups that we welcome, in contrast to the seeminglyunknowing‘mash-ups’ of reflexive TA with qualitative positivism described inProblem three.
TA가 본질적으로 질적 연구에 대한 한 가지 유형의 지향만을 제공하는 것처럼 취급하는 것을 피하십시오. 대신, (성찰적) TA의 특별한 사용 방법과 사용 중인 (성찰적) TA에 대한 특정 지향을 설명하는 근거를 제시하십시오.
The take away …Avoid treating TA as if it inherently offers onlyone type oforientation to qualitative research. Instead, provide a rationale that explains the particular use of (reflexive) TA, and the particular orientation to (reflexive) TA you are taking.
문제 6: TA는 설명만 한다고 가정합니다. Problem six: assuming TA is only descriptive
앞의 두 가지 문제와 밀접한 관련이 있는 것은 TA가 데이터 패턴을 패러프레이즈하거나 요약하는 기술 또는 데이터 감소 방법일 뿐이라는 개념이다.TA 연구는 근거 이론이나 서술 분석과 같은 접근법에 비해 낮은 수준의 해석을 제공하는 것으로 가정되며, TA를 잘못 이해한 경우 종종 TA를 '더 높은 수준의 해석'을 제공하는 다른 접근법(예: 근거 이론)과 결합하는 것을 정당화하기 위해 사용된다. (예: Floersch et al. 2010). 우리는 이 문제 있는 가정에 대해 두 가지 염려가 있습니다. Closely related to the previous twoProblemsis the notion that TA is only a descriptive or data reduction method, in which data patterns are paraphrased or summarised. TA research is assumed to offer a low level of interpretation compared to approaches such as grounded theory or narrative analysis (e.g. Aguinaldo2012; Vaismoradi, Turunen, and Bondas2013), and this impoverished conceptualisation of TA is often used to justify combining TA with other approaches (such as grounded theory) that are positionedasoffering (a higher level of) interpretation (e.g. Floersch et al.2010). We have two concerns with this problematic assumption.
첫째, 기술과 해석은 분리되고 별개의 활동이다. 그리고 기술적 또는 종합적 분석에서, 연구자는 참가자들의 목소리에 대해 수동적이고, 무관심하며, 탈맥락화된 전달자가 되는 것으로 보인다. 우리는 기술적 목적을 가진 TA조차도 다양한 방식으로 위치하며 그들의 특정한 사회적, 문화적, 역사적, 규율적, 정치적, 이념적 위치의 렌즈를 통해 데이터를 읽는 연구자에 의해 수행되는 [해석적 활동]이라고 주장한다. 그들은 참여자의 '목소리'를 편집하고 환기시키지만 궁극적으로는 데이터에 대한 [그들의 이야기]를 들려준다: '목소리를 통해 주조되는 사회적 연구는 일반적으로 우리가 우리의 주장을 경계하기 위해 선택하고 편집하고 배치하는 확인되지 않은 서술적 증거의 조각을 조각내는 것을 포함한다.' (Fine 1992, 218) 그리고 (객관적 과학자의) 수동적 목소리와 같은 [실증-경험적 보고 관행]은 실제로 ('정확성'을 위하여) '코딩 신뢰성'을 입증하였다고 어필하는데, 이는 참가자의 말을 해석하는 방법에 대한 [우리의 책임]을 불명확하게 만든다(클라크와 브라운 2019). 우리가 사용하는 언어는 심지어 명백한 기술적 보고에서조차 중립적이지 않다. First, description and interpretation are positioned as separate and distinct activities. And in descriptive or summative analyses, the researcher appears to become a passive, disinterested and decontextualised conduit for the voices of participants. We contend that even TA with a descriptive purpose is aninterpretativeactivity undertaken by a researcher who is situated in various ways, and who reads data through the lenses of their particular social, cultural, historical, disciplinary, political and ideological positionings. They edit and evoke participant ‘voices’ but ultimately telltheirstory about the data: ‘social research cast through voices typically involves carving out unacknowledged pieces of narrative evidence that we select, edit, and deploy to border our arguments’ (Fine1992, 218). And positivist-empiricist reporting practices, like the passive voice (of the objective scientist), and indeed appeals to demonstrating ‘coding reliability’ – for ‘accuracy’ – can obfuscateour responsibilityfor the ways we interpret participants’ accounts (Clarke and Braun2019). Our language use is never neutral, even in apparently descriptive reporting.
둘째, TA를 낮은 수준의 서술적 방법으로 개념적으로 환원시키면 반사적 TA가 갖는 가능성의 범위가 모호해진다. 무엇보다 TA의 깊은 해석적, 이론화된 분석의 잠재력을 평가절하하게 된다. 그러한 TA의 가능성과 잠재력을 인식하고 충분히 인식한다면, 연구자들은 그들의 TA를 '확장'하기 위해 또 다른 (아마도 더 해석적인) 방법을 추가하는 것을 중단할 수 있다. 그러한 mash-ups는 종종 단지 불필요할 뿐만 아니라, 설득력도 없고, 심지어 문제가 되기도 한다. Second, the conceptual reduction of TA to a low-level descriptive method obscures the range of possibilities reflexive TA holds – most particularly its potential for deeply interpretative, theorised analyses. If such possibilities and potentials were recognised and fully appreciated, researchers could stop adding another (supposedly more interpretative) method to ‘extend’ their TA – such mash-ups are often not just unnecessary, but unconvincing or even problematic.
해석은 (TA) 분석 과정에 내재되어 있으며, TA 방법에서는 단순히 요약적이거나 기술적으로 만드는 것이 없다. 해석의 깊이는 방법이 아니라 분석가의 기술에 있다. 학생/대학원생 연구를 지도하는 연구자들은 학생들에게 이 점을 유용하게 강조할 수 있다. (우리는 TA가 정교함이 부족하고 무이론적이고 순진하며 서술적인 방법이기 때문에 대학원 및 특히 박사 학위 연구에 적합하지 않다는 말을 들은 불안한 학생들로부터 많은 이메일을 받는다.)
The take away …Interpretation is inherent to the (TA) analytic process, and there is nothing in the method of TA that renders it simply summative or descriptive. Interpretative depth lies in the skill of the analyst, not the method. Researchers supervising (postgraduate) student research can usefully emphasise this point to students. (We get many emails from anxious students who have been told that TA is unsuitable for postgraduate and especially doctoral research because it lacks sophistication and isonlyan atheoretical, [naïve] realist, descriptive method.)
문제 7: 코드와 테마를 혼동합니다. Problem seven: confusing codes and themes
성찰적 TA는 코드와 테마를 구별하지만, TA 방법 전반에 걸쳐 코드와 테마의 절대적인 차이는 없다. 많은 TA 접근법에서 이 용어들은 서로 교환적으로 사용되거나, 코딩은 [사전에 정해진 테마에 데이터를 할당하는 과정]으로 개념화된다.
성찰적 TA에서 코드는 [연구자가 (초기) 테마를 개발하기 위해 사용하는 분석 단위 또는 도구]로 개념화된다. 여기서 코드는 (최소한) 하나의 관측치를 캡처하고, (보통) 하나의 면을 표시하는 엔티티로 생각할 수 있다.
대조적으로 테마는 다면적 크리스탈과 같다. 즉, 여러 관찰 또는 측면을 포착합니다.(때로는 풍부하고 복잡하고 다면적인 코드가 [Charmaz 2006] 테마로 '승진promoted'될 수 있는데, IPA에서는 'subsumption'이라고 불리는 과정이다.
Reflexive TA makes a distinction between codes and themes, but there is noabsolutedistinction between codes and themes across TA methods. In many TA approaches, these terms are used interchangeably, or coding is conceptualised as aprocessof allocating data to predetermined themes.
In reflexive TA, a code is conceptualised as an analytic unit or tool, used by researcher to develop (initial) themes. Here, codes can be thought of as entities that capture (at least) one observation, display (usually just) one facet;
themes, in contrast, are like multi-faceted crystals – they capture multiple observations or facets (occasionally, rich, complex and multifaceted codes might be ‘promoted’ to themes [Charmaz 2006], a process called ‘subsumption’ in IPA [Smith, Flowers, and Larkin 2009]).
수많은 '테마'가 제시되는 TA 논문에서 '테마'는 종종 1차원적이고 의미가 얇다.
예를 들어, Fornells-Ambrojo 외 연구진(2017)은 서비스 사용자가 중증 정신 질환 서비스에 대한 심리 치료 접근성을 개선하기 위해 일상적인 결과 모니터링(ROM)을 경험한 것을 혼합된 방법으로 연구했다.
이 보고서는 7개의 '중요한'/'상급superordinate' 주제 및 18개 주제를 보고했다. (참고로 '상급superordinate'이란 표현은 TA가 아니라 IPA와 관련한 표현이다).
가장 중요한 주제는 1) 도움이 되는 측면과 2) 도움이 되지 않는 측면의 ROM이라는 두 가지 제목 아래에 내포되었다.
제시된 정보에서 테마는 각각 사용자의 인식에 대한 [하나의 의미적 관찰 또는 통찰력을 포착]하는 것으로 나타났다(예: 나의 감정을 표현, 이해받음).
이러한 것들은 (반사적 TA에서는) [코드]라고 개념화하는 편이 더 맞다. 가장 중요한 주제나 상위 주제들은 모두 비슷한 수준으로 '얄팍했고thin', 대부분 한 단어(예: 형식, 괴로움, 혐오)로 명명되었다.
In TA papers where numerous ‘themes’ are presented, the ‘themes’ are often one dimensional and meaning-thin; they tend to capture only one (small) observation or facet of meaning (and quite often they are named with just one word).
For example, Fornells-Ambrojo et al. (2017), in mixed methods research on service users’ experiences of routine outcome monitoring (ROM) in an improving access to psychological therapies for severe mental illness service,
reported seven ‘overarching’/‘superordinate’ themes (‘superordinate’ is associated with IPA [Smith et al. 2009] not TA) and 18 themes.
The overarching themes were nested under two headings: 1) helpful and 2) unhelpful aspects of ROM.
From the information presented, the themes appeared to each capture a single semantic observation or insight about users’ perceptions (e.g. expressing my feelings, being understood).
These are better conceptualised as (reflexive TA) codes. The overarching or superordinate themes were similarly ‘thin’, and mostly named with one word (e.g. format, distressing, disliked).
이는 또한 '분석적 조기종결'을 시사한다. 즉, 추가 분석 작업을 통해 이러한 '테마'(코드) 중 여러 개를 특정 의미나 경험의 여러 측면을 드러내는 더 풍부하고 복잡한 테마로 끌어모은 공유 의미의 기본 패턴을 식별할 수 있었을 것이다. (분석의 사전 정의된 목적이 ROM의 긍정적 측면과 부정적 측면을 식별하는 것이었으므로, 패러다임적 포지셔닝에 따라서는 TA에 대한 [코드북] 또는 [코딩 신뢰성] 접근법이 연구의 목적에 더 부합할 수 있었다. 왜냐하면 이 경우 연구가 평가자 간 신뢰성을 측정하는 것이 실증주의자에 더 가깝기 때문이다.)
This also illustrates ‘analytic foreclosure’ (Connelly and Peltzer2016) – with further analytic work, underlying patterns of shared meaning could have been identified that drew together several of these ‘themes’ (codes) into richer, more complex themes that revealed multiple facets of a particular meaning or experience. (As a pre-defined purpose of the analysis was to identify positive and negative aspects of ROM, a codebook or coding reliability approach to TA might have been more in keeping with the purpose of the study, depending on paradigmatic positionings, which in the study leant towards the positivist, as inter-rater reliability was measured.)
코드인가, 테마인가? 어떤 코드와 테마가 무엇을 나타내는지, 분석에서 어떤 역할을 하는지를 명확히 하는 것이 중요하다. 연구자들은 임시 주제 또는 후보 주제가 1차원인지 다차원인지 여부를 고려하고 개념 프레임워크와 분석 결과 보고가 사용하는 TA 버전과 일치하는지 확인해야 한다.
The take away …Is it a code, or is it a theme? Clarification of what codes and themes represent, and what role they play in analysis, is important. Researchers should consider whether their provisional or candidate themes are one- or multi-dimensional and ensure their conceptual frameworks and reporting of analytic outputs align with the version of TA they are using.
8번 문제: 주제와 토픽을 혼동합니다. Problem eight: confusing themes and topics
이는 아마도 발표된 TA 연구에서 가장 흔한 문제 중 하나일 것이다. TA에서 단 하나의 널리 동의하고 채택된 테마의 개념화가 없기 때문에, 테마가 개념화되는 방법에 대한 혼란 때문이기도 하다.(DeSantis & Ugarriza, 2000). 우리는 이후 '주제'에 대한 개념화를 명확히 했는데, 이는 테마를 '일부 수준의 패턴 있는 반응 또는 의미'(Braun and Clarke 2006)를 포착하는 것으로 정의한 것이 분명했기 때문이다. 성찰적 TA에서 '주제'는 [중심 개념 또는 아이디어로 결합된 공유된 의미의 패턴]이다(Braun and Clarke 2013; Braun et al. 2014). 즉, 주제는 겉보기에 다소 이질적으로 보이는 데이터를 한데 모을 수 있습니다. 앞서 언급한 바와 같이, 주제는 다면적이기도 하다. 우리는 테마를 이야기, 즉 데이터에 대한 이야기로 생각하는 것을 좋아합니다. This is probably one of the most common problems in published TA research, and it hinges on confusion around how themes are conceptualised, as there is no one widely agreed on and adopted conceptualisation of a theme in TA (DeSantis & Ugarriza,2000). We have subsequently clarified our conceptualisation of themes, because it was evident that our initial definition of a theme as capturing ‘some level of patterned response or meaning’ (Braun and Clarke2006) left too much room for confusion. Themes in reflexive TA are patterns of shared meaning, united by a central concept or idea (Braun and Clarke2013; Braun et al.2014). This means themes might draw together data that on the surface appear rather disparate. As previously noted, themes are also multifaceted. We like to think of themes as stories – stories we tell about our data.
이렇게 볼 때, 데이터 토픽(도메인이라고도 함)은 주제가 아니다. 데이터 토픽은 인터뷰(말하기)에서 논의된 것들로서, 인터뷰 가이드의 질문으로부터 유도될 수 있다. 참가자는 하나의 토픽을 중심으로 다양하고 이질적인 답변을 제공하는 경우가 꽤 많지만, 토픽이나 영역의 요약이 테마로 제시되는 것이 일반적이다. 이처럼 토픽을 주제화한 것data-topics-as-themes에서는 참가자들의 반응이 요약되어 있지만, '중심 개념'도 '공유된 의미'도 없고 '공유된 '토픽''만 있을 뿐이다.
Data topics (sometimes called domains) are not themes in this way – they are things discussed in (say) an interview, perhaps introduced in a question from the interview guide. Participants quite often provide divergent and disparate responses around a topic, but it is common for summaries of topics or domains to be presented asthemes. In these data-topics-as-themes, the participants responses are summarised, but there is no central concept, nosharedmeaning, only a sharedtopic.
예를 들어, 센더스 외 연구진(2016)은 다발성 경화증 치료에서 스트레스가 어떻게 해소되는지에 대한 환자의 인식을 탐구하는 연구에서,'브라운 & 클라크에 따른 TA'(p. 1678)를 사용했다고 언급하였으나, 코드북과 합의 코딩도 사용하였으며, 두 가지 주제(1) 촉진자 및 2) 의료 방문 시 스트레스에 대한 대화 장벽)를 보고했다. 각각의 테마는 각각 스트레스에 대한 의사소통을 촉진하거나 억제하는 의료 시스템, 임상의 행동 및 환자 행동의 세 가지 하위 테마를 통합했다. 보고된 내용은 예를 들어 촉진제 또는 장벽과 의료 시스템과 관련된 일련의 관찰이다. 이러한 유형의 분석은 [코드북 TA] 또는 [코딩 신뢰성 TA]에 더 적합한 것으로 보이는데, 이러한 유형의 TA에서는 분석 전에 테마를 미리 결정할 수 있고 테마가 데이터 도메인의 요약으로 구성될 수 있기 때문이다.
To give an example, Senders et al. (2016), in research exploring patient perceptions of how stress is addressed in medical treatment for multiple sclerosis, which used TA ‘according to Braun & Clarke’ (p. 1678), but also involved the use of codebooks and consensus coding, reported two themes: 1) facilitators and 2) barriers to talking about stress in the medical visit. Each theme incorporated the same three sub-themes: the medical system, clinician behaviour and patient behaviour, that each facilitated or inhibited communication about stress. What is reported is a series of observations related to the topics of, for instance, facilitators or barriers and the medical system. This type of analysis seems better suited to a codebook or coding reliability TA, in which themes can be predetermined prior to analysis and themes may consist of summaries of data domains.
공유 의미 주제shared meaning themes에 대한 명확한 예를 제공하기 위해, Tischner(2019)는 체중 감량 동기와 건강의 구성을 탐구하는 이야기 완성 연구에서 '모든 여성에게 좋은 체중 감량 활동'이라는 제목의 주제를 포함하여 다섯 가지 주제를 제시했다. 제목만으로도 이것이 중앙 조직 개념 주제와 함께 공유된 의미임을 분명히 전달한다. 즉, 테마 이름 지정의 중요성을 강조하고 있다.(Braun and Clarke 2013). 티슈네르의 주제는 [체중 감량]이 [여성의 외모를 개선하는 방법]으로 긍정적으로 프레임되며, 모든 여성이 원할 뿐만 아니라 바람직한 것이라는 의심받지 않는 지위를 차지하고 있으며, 모든 여성이 삶의 어느 시점에 필연적으로 참여하게 되는 것이라는 것을 포착하였다. To provide a clear example of shared-meaning themes, Tischner (2019), in her story completion study exploring constructions of weight loss motivations and health, presented five themes, including one entitled ‘weight-loss activity as good for every woman’. The title alone clearly conveys that this is a shared meaning with a central organising concept theme – this highlights the importance of naming themes well (Braun and Clarke2013). Tischner’s theme captured the way weight loss was positively framed as a way of improving appearance for women and occupied a mostly unquestioned position as desired and desirable by and for every woman, and something all women would inevitably engage in at some point in their lives.
의심할 여지 없이 혼란스러운 것은, 일부 TA 접근법, 특히 [코딩 신뢰성]과 [코드북 접근법]이 토픽 요약topic-summary을 주제theme로 취급한다는 것이다. 실제로는 이 둘은 주제-의미 패턴의 이해라는 측면에서 상당히 다르다. 실제로, 테마가 분석과 코딩에 앞서 개발된다면, (코드로부터 만들어진 코딩의 결과인) 주제적 패턴thematic pattern의 유형을 상상하는 것이 어렵기 때문에, 주제 요약 이상의 것이 될 수 있을 것 같지 않다. [테마]가 [중심 개념에 의해 뒷받침되는 공유된 의미의 패턴]이 되려면, 입력input이 아닌 분석적 출력analytic output이어야 한다. '무엇이 테마인가'에 대한 개념적 혼란 외에도 [토픽을 테마로 사용하는 것]도 [분석적 조기종결]의 또 다른 예가 될 수 있다(Connelly and Peltzer 2016).
What is no doubt confusing is that some TA approaches, particularly coding reliability and codebook approaches, treat such topic summariesasthemes, when these are quite different from understandings of patterns of thematic-meaning. Indeed, if themes are developed prior to any analysis and coding, it is unlikely they can be much more than topic summaries, as it’s difficult to conceive of the type of thematic patterning that is the outcome of coding, built from codes, being fully anticipated in advance of any or much analytic work taking place. For themes to be patterns of shared meaning underpinned by a central concept, they must be analytic outputs, not inputs. In addition to the conceptual confusion around ‘what is a theme’, the use of topics as themes can also be another example of analytic foreclosure (Connelly and Peltzer2016).
우리는 연구자들이 주제에 대한 이해를 반성하고, '공유된 의미로서의 주제'와 '공유된 토픽으로서의 주제'를 knowingly and reflectively하게 사용하고, 성찰적 TA에서 토픽 요약을 '주제'로 사요한 경우, 그 이유를 명확히 정당화하도록 권장한다.
The take away …We encourage researchers to reflect on their understanding of themes, to use themes-as-shared-meaning and themes-as-shared-topic knowingly and reflexively, and to clearly justifyany use oftopic summaries for ‘themes’ in reflexive TA.
문제 9: 새로운 테마 – '기존 분석으로서의 주제'와 '분석의 결과로서의 주제'를 혼동 Problem nine: emerging themes – confusing ‘themes-as-pre-existing analysis’ with ‘themes-as-the-outcome of analysis’
일부 연구자와 방법론자들이 주제에 대해 쓰는 방식을 보면, 그들은 주제를 개념화할 때, 분석 이전에 데이터 세트에 이미 숨어 있었던 무언가로 개념화하는 것처럼 보인다. 이러한 개념화 하에서 연구자의 임무는 보고를 위해 이러한 테마를 찾고 검색하는 것입니다. 이러한 주제는 [데이터에 대한 해석적 관여를 통해 능동적으로 만들어낸 것]이라기 보다는 연구자가 찾아낸 ['모래에 흩어진 다이아몬드'] 같은 것으로 본다. 이것은 게스트, 번스, 존슨 (2006:66)이 더빙한 것처럼 사실상 '주제적 발견thematic discovery'이다. The way some researchers and methodologists write about themes, they appear to conceptualise them as entities that pre-exist analysis, lurking about in the dataset. The researcher’s task is to locate and retrieve these themes, for reporting. Such themes are ‘diamonds scattered in the sand’ (Braun and Clarke2016, 740), found by the researcher, rather than actively created by them through their interpretative engagement with data. This is effectively ‘thematic discovery,’ as Guest, Bunce and Johnson (2006: 66) dubbed it.
테마가 모래 속의 다이아몬드라는 개념은 수많은 TA 논문 저자들이 사용하고 TA와 같은 질적 방법의 비평가들에 의해 테마 개발의 과정으로 떠오른 '테마가 떠올랐다themes emerged'라는 구절에서 분명하게 나타난다. 우리는 'emergent themes'라는 개념이 IPA(그리고 때로는 TA)와 같은 접근법에 사용되어 테마의 귀납적 생성을 반영한다는 것은 받아들이지만, 우리는 '테마가 나타났다'는 주장의 함축으로 인해 골머리를 앓고 있다. 이 표현은, 일단 주제가 (잠재적으로 불투명한) 데이터 깊이에서 자신의 모습을 드러낸 경우, [연구자의 개입이라고는 추출extraction외에는 거의 없이 데이터에 주제가 존재한다는 것]을 암시하는 과정을 떠오르게 한다.
This notion of themes as diamonds in the sand is evident in the phrase ‘themes emerged’, used by countless authors of TA papers, and evoked by critics of qualitative methods like TA, asthe processof theme development (e.g. ‘thematic analysis in which themes somehow miraculously emerge from the data’; St. Pierre2019, 4). We appreciate that the concept of ‘emergent themes’ is used in approaches such as IPA (and sometimes TA) to reflect the inductive creation of themes, but we are troubled by the implications of the claim ‘themes emerged’. The phrasing evokes a process thatsuggeststhat themes present from data with little intervention from the researcher other than extraction, once the themes reveal themselves from the (potentially murky) data depths.
우리는 2006년 논문에서 '테마가 나타난다themes emerge'라는 언어에 대해 다음과 같이 비판했습니다. '주제의 출현'이나 '발견됨discovered'에 대한 설명은 [분석 과정에 대한 수동적인 설명]으로, 패턴/테마를 파악하고, 관심사를 선정해 독자에게 보고하는 과정에서 [연구자가 늘 하는 적극적인 역할을 부정]한다'(80쪽). 우리는 엘리 외 연구진(1997, 205–6)을 인용했다. Ely는 '테마가 어디엔가 존재reside한다면, 그것들은 [우리의 데이터에 대해 우리가 생각하고]과 [우리가 이해하는 대로 연결을 만드는] [우리의 머릿속]에 존재하고 있을 것이다.'우리의 주장은 특별히 설득력이 없었던 것 같다. 왜냐하면 많은 연구자들이 우리의 논문을 인용하고 우리의 접근법을 따르고 있다고 주장했지만, 그들은 데이터에서 'the themes that emerged'를 언급했기 때문이다. (이것은 의심할 여지 없이 문제 2와 연결된다). We were critical of the language of ‘themes emerge’ in our 2006 paper: ‘An account of themes “emerging” or being “discovered” is a passive account of the process of analysis, and it denies the active role the researcher always plays in identifying patterns/themes, selecting which are of interest, and reporting them to the readers’ (p. 80). We quoted Ely et al. 1997, 205–6) who argued that ‘if themes “reside” anywhere, they reside in our heads from our thinking about our data and creating links as we understand them.’ It seems that our argument was not particularly persuasive, as so many researchers citing our paper and claiming to follow our approach, refer to ‘the themes that emerged’ from their data (this connects, no doubt, to Problem two).
우리는 성찰적 TA의 세 번째 단계인 '테마 검색searching'이라고 이름붙인 대한 우리의 (초기) 표현 때문에 [데이터에 이미 존재하는 entities]로 주제를 개념화하는 혼란을 야기했을 가능성이 높다는 것을 인정한다. 이러한 이유로, 우리는 이 단계에 '초기 테마 생성generating'이라고 레이블을 다시 붙여서, 주제 생성theme creation에 대한 연구자의 적극적인 역할과 처음 개발할 때 테마의 잠정성provisionality을 강조하였다. 주제를 '이미 존재하는 것의 분석'으로 개념화하는 것은 [토픽으로서의 주제]와 [분석적 입력으로서의 주제]에 더 잘 들어맞을지도 모른다. 일부 TA 지지자들은 테마를 [entities that pre-exist analyisis]로 개념화하는 듯 보이지만, 이는 반사적 TA와 일치하지 않는다.
We acknowledge that our (initial) phrasing of the third phase of reflexive TA – ‘searching for themes’ – has likely contributed to confusion around the conceptualisation of themes as pre-existing entities that reside in data. For this reason, we have, for now, relabelled this phase ‘generating initial themes’ to highlight the active role of the researcher in theme creationandthe provisionality of themes when first developed. A ‘pre-existing analysis’ conceptualisation of themes canperhapsbe reconciled with conceptions of topics as themes and themes as analytic inputs, and some TA proponents do appear to conceptualise themes as entities that pre-exist analysis, but this doesnotalign with reflexive TA.
우리는 반사적인 TA를 사용하는 연구자들이 [테마 생성]창의적이고 적극적인 과정으로 서술하며, 테마들이 생겨났다emerged고 주장하는 것은 언제나 지양할 것을 권고한다.3
The take away …We encourage researchers using reflexive TA to write about theme generation as a creative and active process, onetheyare central to, and toalwaysavoid claiming that themes emerged.3
10번 문제: 우리가 말하는 것에 대한 비판적인 수용 Problem ten: uncritical acceptance of what we say
우리가 강조하고 싶은 마지막 문제는, 정말로 절차주의라고 불릴 수 있다. 그러나 우리는 '비판적이고 사고력 있는 연구자이자 작가가 되라'는 암묵적이고 명시적인 우리의 메시지가 10번 조언과 모순되는 것으로 보이지 않길 바란다. 퀄리티에 대한 우리의 강조는 맹종적인 것, 생각 없이 절차를 고수하는 것을 단념시키는 것을 의미한다. 오히려, 우리는 이론적으로 알고 반사적이며 '생각하는aware' TA 사용을 권장한다. 우리는 TA의 다양성과 유연성, 분석 및 품질 절차가 패러다임 및 인식론적 가정을 반영하는 방법을 이해하는 연구자에게 과제를 준다. 우리는 질적 연구자에게 이론적으로 민감하고 창의적인 연구를 위한 유연한 '시작점'을 제공하려는 것이며, 그들이 자신만의 연구를 할 수 있도록 초대하려는 것이다. 성찰적 TA를 잘 수행하기 위해서는, [이론, 데이터 지향 등과 관련한 선택을 내려야 하며], 이것을 [명확하며, 일관성 있게 집행enacted]하여야 한다. The final problem we want to highlight could, indeed, be called proceduralism. But we hope our implicit and explicit message to ‘be a critical, thinking researcher and writer’ makes this point not seem contrary. Our emphasis on quality involves discouraging slavish or unthinking adherence to procedures, and any accusation of that represents a misconceptualisation of our articulation of TA (and qualitative research more widely). Rather, we encourage theoretically-knowing, reflexive and ‘aware’ use of TA; we task researchers with appreciating the diversity and flexibility of TA, and the ways analytic and quality procedures reflect paradigmatic and epistemological assumptions. We offer qualitative researchers reflexive TA as a flexible ‘starting point’ for theoretically sensitive and creative research and invite them to make it their own. To do good reflexive TA, choices related to theory, data orientation and moremustbe made, articulated and coherently enacted.
사려 깊은 연구자가 되어라; 방법론 작가들의 말을 맹종적으로 따르지 마라. 우리는 완전한 풀-패키지를 제공하는 것이 아니다; 우리는 당신의 모험을 항해할 수 있는 나침반과 지도를 제공하려는 것이다. 그리고 우리는 연구자들이 성찰적 TA든, 코딩 신뢰성 TA든, 코드북 TA이든 연구자의 철학적 헌신과 연구의 분석 목적에 가장 적합한 TA가 무엇일지 성찰할 것을 권장한다.
The take away …Be a thoughtful researcher; do not just slavishly follow what methodology writers say. We do not provide a full holiday package; we provide a compass and a map to navigate your adventure (Braun, Clarke, and Hayfield2019b). And we encourage researchers to reflect on whether it is a reflexive, coding reliability or codebook version of TA that is best suited to their philosophical commitments and the analytic purpose of their research.
검토자 및 편집자를 위한 평가 도구 소개 Introducing our evaluation tool for reviewers and editors
TA를 하는 연구자들은 그들이 할 수 있는 최고의 양질의 연구를 해야 할 중요한 책임이 있습니다. 그러나 출판된 작업은 또한 동료 검토, 편집자의 의사 결정 및 지침과 같은 품질 보증 프로세스를 거치며, 이러한 단계는 품질을 보장하는 데에도 중요합니다. 불행하게도, 우리는 개인적인 경험을 통해 그것들이 (위에서 논의된 10가지 중 일부를 포함한) 문제들이 슬금슬금 들어오거나, 심지어 (학술지에 의해서) 요구될 수 있는 지점이 될 수 있다는 것을 안다. 저자들은 검토 과정을 진행하면서 곤란한 입장에 처할 수 있다. 검토자나 편집자가 문제가 되는 것을 제안하거나 요구할 경우 저자들은 다음을 수행해야 한다. Researchers who do TA have an important responsibility to do the best quality research they can. But published work also goes through quality assurance processes – peer review, and editorial decision making and guidance – and these steps are also important for ensuring quality. Unfortunately, we know from personal experience they can also be the points at which problems (including some of the 10 discussed above) can either creep in, or even be demanded. Authors can be in a tricky spot navigating the review process. If reviewers or editors suggest or demand something problematic, authors have to:
1) 문제가 있다는 것을 인지한다.
2) 해쳐나갈 방법을 찾습니다.
1) recognise that it is problematic; and
2) find a way to navigate through it.
우리가 이 논문을 시작한 것과 같은 검토자나 편집자의 논평에 직면했을 때 반사적인 TA 연구의 저자는 무엇을 해야 하는가? 그들은 반사적인 TA를 뒷받침하는 가정인 TA의 복수성에 대해 검토자와 편집자를 '교육'하도록 시도해야 하는가? 그들은 모든 질적 분석 접근방식을 포괄하는 단일 품질 표준의 부족을 강조해야 하는가? (Levitt et al. 2018) 그렇다! 우리는 저자들이 본 논문과 다른 곳에서 제공하는 정보를 사용하여 [편집자와 검토자의 요청 또는 요구사항에 대한 문제제기challenges]를 정당화하기 위해 [자기 연구의 가치를 설명하고 방어할 것]을 권장한다. 우리는 리뷰와 편집 피드백에 대한 우리의 반응을 '모범 사례' 문헌에 포함시켜야 합니다.
What is the author of a reflexive TA study to do, when faced with a reviewer or editor comment like the one we started this paper with? Should they attempt to ‘educate’ reviewers and editors about the plurality of TA, the assumptions underpinning reflexive TA? Should they highlight the lack of a single quality standard that cuts across all qualitative analytic approaches? (Levitt et al. 2018) Yes! We encourage authors toexplainanddefendtheir research values, using the information provided in this paper and elsewhere to justify their challenges to requests or requirements from editors and reviewers. We should embed our responses to reviews and editorial feedback in ‘best practice’ literature.
그러나 저자는 여기까지만 할 수 있을 뿐이다. 궁극적으로는 편집자와 리뷰어가 광범위한 연구 커뮤니티에서 논의되고 개발된 품질 표준의 집행(또는 집행실패)에 대한 책임을 진다. 양질의 TA의 출판을 용이하게 할 수 있는 몇 가지 기본 편집 관행이 있다.
편집자는 자신의 방법론적 한계뿐만 아니라 이론적/개념적, 방법론적 가정 및 가치를 이해해야 한다.
편집자는 TA 원고를 심사할 수 있는 적절한 방법론적 전문지식을 갖춘 심사자를 적어도 한 명 선택해야 한다(Levitt 등 2018).
편집자는 저널의 편집 위원회가 적절한 검토자 선택을 안내하는 데 도움이 될 수 있는 광범위한 전문 지식을 가진 질적 방법론자를 한 명 이상 포함하도록 보장해야 한다.
However, authors can only argue so far … And editors and reviewers hold ultimate responsibility for enacting (or failing to enact) the quality standards debated and developed in the wider research community. There are some basic editorial practices that can facilitate the publication of good quality TA:
editors should understand not just their own methodological limits, but their theoretical/conceptual and methodological assumptions and values;
editors should select at least one reviewer with appropriate methodological expertise to review TA manuscripts (Levitt et al. 2018); and
editors should ensure the journal’s editorial board includes at least one qualitative methodologist with wide-ranging expertise who can help guide appropriate reviewer selection
– 편집자가 질적 방법론자가 아닌 경우 마지막 요점은 매우 중요합니다. 편집자가 선택한 '전문가' 검토자 중 한 명이라도 TA에 대한 매우 광범위하고 깊이 있는 지식을 가지고 있지 않다면, 어떻게 형편없는 연습이 질문이나 도전을 받지 않는지, 그리고 우리가 문서화한 문제들이 그렇게 흔해졌는지 쉽게 알 수 있다. – this latter point is vital if the editor is not a qualitative methodologist. Unless at least one of the ‘expert’ reviewers chosen by the editor has very wide-ranging and in-depth knowledge of TA, it is easy to see howpoorpractice is not questioned or challenged, and how the problems we have documented have become socommon.
TA와 관련하여 더 나은 편집(및 검토자) 관행을 촉진하기 위해 TA와 관련된 주요 긴장 및 모범 사례 중 일부를 제시하는 편집자와 검토자를 위한 평가 질문 목록을 개발했다(표 1 참조). 이러한 중요한 질문들은 적어도 우리가 보는 몇몇 공개된 문제들을 빠르고 쉽게 해결할 수 있다. 예를 들어 저널에 제출할 때 TA 저자가 편집자의 주의를 끌도록 권장한다. To facilitate better editorial (and reviewer) practice in relation to TA, we have developed a list of evaluation questions for editors and reviewers that lay out some of the key tensions and best practices related to TA (seeTable 1). These critical questions can offer a quick and easy resolution to at least some of published problems that we see. We encourage TA authors to bring these to editors’ attention, for instance, when submitting to a journal.
마지막으로 저널 편집자가 TA 및 기타 질적 논문에 대해 더 원고 길이를 더 길게 할 수 있도록 제공할 것을 권고한다(Levitt et al. 2018, 2017). 짧은 단어 수는 TA 연구가 보고되는 방법을 상당히 제약할 수 있으며, 이는 모든 종류의 방법으로 명백히 더 나쁜 관행을 야기할 수 있다. 레빗 외 연구진(2018)이 주장한 것처럼, 품질 기대와 맥락화, 연구 성찰성, 데이터 추출물을 통한 발견 사례화는 더 많은 원고 페이지를 요구한다. 저널이 주로 디지털화되면서 확장의 폭이 넓어졌습니다. 그러나 우리는 데이터나 방법론적 해설이 품질 판단 및 프로세스에 필수적인 것으로 보기 때문에 2차 표 또는 추가 온라인 부록으로 밀려나는 솔루션을 옹호하지 않을 것이다(Braun and Clarke 2019b). Finally, we recommend that journal editors providelongerpage limits for TA – and other qualitative – papers (Levitt et al.2018,2017). Short word counts can significantly constrain how TA research is reported, which can contribute to apparently poorer practice, in all sorts of ways. As Levitt et al. (2018) argued, quality expectations and contextualisation, research reflexivity and illustrating findings with data extractsdemandmore manuscript pages. As journals are now primarily digital, the scope for expansion is increased. But we would not advocate for a solution where data or methodological commentary are relegated to secondary tables or additional online appendices, because we see these asintegralto quality judgements and process (Braun and Clarke2019b).
결론 Conclusion
TA의 품질을 논의하기 위해, 우리는 TA에 대한 성찰적 접근 방식을 인용하거나 따르고 있다고 주장하는 발표된 TA 연구에서 10가지 일반적인 문제를 설명했다. TA가 하나의 접근법이라고 가정하는 이들 중 첫 번째 문제는 다른 대부분의 문제의 기초가 된다. 그리고 실제로, TA의 다양성과 다원성 - TA가 실증주의에서 비판적 질적 패러다임에 이르기까지 - TA 연구의 품질 표준을 규정하는 데 있어 질적 연구 커뮤니티의 핵심 과제를 제시하며, 이는 광범위한 질적 논의를 지속해 온 문제이다.
In order to discuss quality in TA, we have delineated ten common problems in published TA research that cites, or claims to follow, our reflexive approach to TA. The first of these – assuming TA is one approach – underlies most of the other problems. And indeed, it is the diversity and plurality of TA – that TA ranges from positivist to critical qualitative paradigms – that presents a key challenge for the qualitative research community in demarcating quality standards for TA research, an issue that has dogged wider qualitative quality discussions.
출판되는 TA의 품질을 향상시키기 위해, 우리는 연구자들이 양질의 실천quality practice를 포함하여, 분석적 실천과 연구의 존재론적 및 인식론적 기반 사이의 관계를 성찰하고, TA를 knowingly, deliberatively and reflexively 사용할 것을 권장한다. 우리는 이를 실현하기 위해 연구 품질에 대한 효과적인 중재자인 검토자 및 편집자를 지원합니다. 이를 위해 TA 원고를 검토하거나 편집할 때 고려해야 할 중요 질문 20개를 제공했습니다.
To improve the quality of published TA, we encourage researchers to reflect on the relationship between analytic practices, including quality practices, and the ontological and epistemological foundations of their research, and to use TA knowingly, deliberatively and reflexively. We task reviewers and editors – who are effective arbiters of research quality – with supporting researchers in realising this. To this end, we provided twenty critical questions to consider when reviewing or editing TA manuscripts.
하지만 우리가 TA에 대해 쓰는 모든 것들과 마찬가지로, 이것은 우리의 "현재" 생각을 반영할 뿐이며, 모든 것은 변한다. 따라서 반사적이든 다른 접근법이든 TA를 사용하는 모든 사람에게 가장 중요한 조언은 단순히 접근법에 대한 '주요 참조'가 아니라 [가장 최신]에 나온 글과 저자의 조언을 읽는 것이다. 그리고 마지막으로 TA는 [모든 목적에 적합한 방법]이 아님을 강조합니다! 적절하지 않을 때는 프로젝트에 적합하게 만들기 위해 노력하는 대신, 프로젝트에 어떤 다른 훌륭한 질적 분석 방법을 제공할 수 있는지 살펴보십시오.
But like everything we write about TA, this reflects ourcurrentthinking, and things change. So, our most vital piece of advice for anyone using TA, whether reflexive or another approach, is to read the most up-to-date writing and advice from authors, rather than just the ‘key reference’ for an approach. And finally, we emphasise that TA is not a method for all purposes! Instead of trying to make it fit, when it does not, explore what the many other wonderful qualitative analytic approaches might offer your project instead.
ABSTRACT
Developing a universal quality standard for thematic analysis (TA) is complicated by the existence of numerous iterations of TA that differ paradigmatically, philosophically and procedurally. This plurality in TA is oftennotrecognised by editors, reviewers or authors, who promote ‘coding reliability measures’ as universal requirements of quality TA. Focusing particularly on ourreflexiveTA approach, we discuss quality in TA with reference to ten common problems we have identified in published TA research that cites or claims to follow our guidance. Many of the common problems are underpinned by an assumption of homogeneity in TA. We end by outlining guidelines for reviewers and editors – in the form of twenty critical questions – to support them in promoting high(er) standards in TA research, and more deliberative and reflexive engagement with TA as method and practice.
다중 비교에 관한 팩트와 픽션(J Grad Med Educ,2021) Facts and Fictions About Handling Multiple Comparisons Gail M. Sullivan, MD, MPH Richard S. Feinn, PhD
한 가지 측면은 많은 비교를 이용한 분석과 관련이 있다. 다중 독립 비교를 고려하지 않는 교육자와 연구자는 다음과 같은 검토자의 의견을 받을 수 있다.
얼마나 많은 비교를 할 계획이었나요?
이러한 다중 비교를 위해 어떻게 조정했습니까? 또는
다중 비교가 통계적 추론에 어떤 영향을 미칩니까?
One aspect concerns analyses using many comparisons. Educators and researchers who do not take into account multiple independent comparisons may receive reviewer comments such as:
Where did you prespecify how many comparisons you planned to make?
How did you adjust for these multiple comparisons? or
How do the multiple comparisons affect your statistical inferences?
다중 비교를 고려하지 않으면 내부 타당성에 대한 의문이 제기될 수 있습니다(즉, 이러한 결과가 실제로 사실입니까?). 또한 검토자와 저자의 관점에서 저자에 대한 신뢰도를 낮출 수 있다(이 작가들은 그들이 뭘 하는지 알고 있을까? )임상의와 교육자로서 우리는 이러한 문제와 투명하고 잘 다루지 않을 경우 연구나 논문을 파멸시킬 수 있는 방법에 대해 잘 알지 못할 수 있다.
Not considering multiple comparisons can raise questions of internal validity (ie, are these findings actually true?). It can also lower, in the minds of reviewers and authors, confidence in the authors:Do these authors know what the heck they're doing?As clinicians and educators we may be less aware of these issues and how they can doom a study or paper if not handled transparently and well.
정량적 논문을 고려할 때 다음과 같은 3가지 질문이 즉시 제기된다.
(1) 본 논문은 내 환경 또는 교육생(외부 타당성, 일반화 가능성)에 적용되는가?
(2) 연구 대상 전체 모집단에 대한 우연 또는 사실로 인한 발견인가(위양성 대 실제 양성 발견) 및
(3) 소견의 크기 또는 의미(효과 크기)는 어느 정도인가?1
이 사설은 많은 작가들에게 성배인 두 번째 이슈에 대해 간략하게 소개합니다: 상당한 P 레벨입니다.
When considering a quantitative paper, 3 questions immediately arise:
(1) Does this paper apply to my setting or trainees (external validity, generalizability);
(2) Are the findings likely due to chance or true for the overall population being studied (false vs true positive finding); and
(3) How large or meaningful are the findings (effect size).1
This editorial provides a brief introduction to the second issue, the holy grail for many authors: a significantPlevel.
기본으로 돌아가기 Back to Basics
왜 우리는 P 레벨을 소중히 여기는가? 두 평균을 비교하는 단일 비교부터 시작합시다. 내과 레지던트 그룹이 고가의 이사회 검사 준비 과정을 수강했지만 유사한 레지던트 그룹이 수강하지 않았다고 가정하고, 그룹 간 이사회 점수 평균을 비교하여 이 과정을 계속 진행해야 하는지 여부를 결정하려고 합니다. 귀무 가설이 참이라고 가정하면(즉, 그룹 간에 차이가 없다), P 값은 선택된 거주자(모든 전공의의 무작위 표본)가 적어도 발견된 크기의 두 가지 이사회 점수 수단에서 차이를 생성할 확률이다. Why do we cherishPlevels? Let's start with a single comparison, comparing 2 means. Suppose a group of internal medicine residents took an expensive board examination prep course and a similar group of residents did not, and we want to compare board score means between groups to determine if the course should be continued. If we assume that the null hypothesis is true (ie, there is no difference between the groups), thePvalue is the probability that our selection of residents—a random sample ofallresidents—produced a difference in the 2 board score means of at least the size found.
제1종 오류(alpha)는 연구팀이 합당하다고 인정하는 오류의 수준으로, 통계시험을 실시하기 전에 이를 선택해야 한다. 즉, 실제로 차이가 없을 때 그룹 간에 차이가 존재한다고 결론을 내릴 확률이다. 통계 테스트의 P 수준이 선택한 오류 수준보다 작은 경우(보통 5%(0.05)), 테스트 차이는 보드 준비 과정이 아니라 전공의의 선택으로 인해 발견된 차이(전체 모집단을 연구할 수 없기 때문에)일 5%의 확률만 갖는 것으로 본다. (즉, 시험 점수 차이가 우리 연구를 위해 선택된 거주자 때문에 발생할 5% 확률, 즉 우연에 의해서만 발생).
Type I error (alpha) is the error level deemed reasonable by the research team, who must select it before conducting the statistical test. It is the probability of committing a false positive error: in other words, of concluding that a difference between groups exists when there is truly no difference. If thePlevel from the statistical test is less than the selected error level, usually 5% (.05), we view the test difference as having only a 5% chance that the difference found is due to the selection of residents (as we cannot study the entire population) rather than the board prep course (ie, a 5% chance that the test score difference is due to the residents selected for our study, ie, bychance alone).
하지만 이 값비싼 이사회 준비 과정의 대상이 누구인지를 이해하는 데 중요한 추가 요소를 살펴보려면 어떻게 해야 할까요? 예: 교육 중 시험 점수, 레지던트 나이 및 성별, 미국 의대 졸업자 대 국제 의대 졸업자, 레지던트 중 마일스톤 등급(Milestones leveling) 또는 선호되는 아침식사 음료? 우리가 환자를 위한 많은 실험실 검사를 주문할 때도 이러한 문제가 발생할 수 있습니다.
But what if we wish to look at additional factors that might be important to understanding who should be targeted for this expensive board prep course? For example: in-training examination scores, resident age and gender, US medical graduate vs international medical graduate, Milestones ratings during residency—or preferred breakfast drink? These issues can occur when we order many lab tests for a patient, too.
알파 또는 I형 오류 수준이 비교 시마다 0.05로 유지되면 하나 이상의 "통계적으로 유의한" 결과가 나올 확률은 5% 이상 증가합니다(그림 참조). 예를 들어, 10개의 비교의 경우 검사 중인 요인이 아닌 랜덤하게 선택된 주민 모집단(즉, 우연히)으로 인해 적어도 하나의 "통계적으로 유의한"(P < .05) 비교를 찾을 확률이 40%로 증가합니다. 13개의 독립적인 비교의 경우, 우연히 "유의한" P 수준을 찾을 확률은 50%로 증가합니다.2 이러한 값을 familywise error rate이라고 하며, 이는 family of comparison에 의해 발생한다.
If the alpha or type I error level remains at .05 for each comparison, the probability of at least one finding being “statistically significant” increases above 5% (seeFigure). For example, for just 10 comparisons, the probability rises to 40% that you will find at least one “statistically significant” (P< .05) comparison that is due to the population of residents randomly selected rather than the factor under examination—that is, by chance. For 13 independent comparisons, the probability of finding a “significant”Plevel by chance increases to 50%.2These are called family-wise error rates, for a family of comparisons.
아침 식사로 차를 마시는 전공의가 이 보드 준비 과정을 수강하는 데 가장 적합한 대상이라고 잘못 결론을 내릴 수 있는 것이다.
You could erroneously conclude that residents who drink tea for breakfast are the best target for taking this board prep course—and create tortured explanations for this finding in your Discussion section.
통계적 유요성은 허용 오차 수준(알파 또는 유형 I 오류)에 의해 결정되며, 표본 모집단이 전체 모집단과 유사할 가능성(예: 여러 기관에서 2020-2021년 내과 레지던트들이 모든 내과 레지던트들과 유사)을 반영한다는 점을 기억하라. 이 다중 비교 문제는 95% 신뢰 구간과도 관련이 있습니다. 다중 비교를 수행하고 각 비교에 대해 평균 차이의 95% 신뢰 구간을 생성하면 모든 구간에 평균의 실제 차이가 포함될 확률은 95% 미만입니다. Remember that statistical significance is determined by the level of error accepted (alpha or type I error) and reflects the likelihood that the sampled population resembles the entire population (eg, that internal medicine residents in 2020–2021 at several institutions resembleallinternal medicine residents). Note that this issue of multiple comparisons also pertains to 95% confidence intervals. If multiple comparisons are performed and a 95% confidence interval of the difference in means is created for each comparison, the probability that all the intervals will contain the true difference in means will belessthan 95%.
극단적인 예로, 게놈 전체 연관 연구(GWAS)를 수행하는 연구자들이 다중 테스트에 적응하지 않았다고 가정해 보자. GWAS는 질병과의 연관성에 대해 100,000개의 다른 위치를 검사할 수 있다. 각 위치에 0.05의 알파 수준을 사용한 경우 위양성 값이 많이 나올 수 있습니다.
As an extreme example, imagine if researchers conducting genome-wide association studies (GWAS) did not adjust for multiple testing. GWAS may test 100 000 different loci for an association with a disease. If an alpha level of .05 was used for each locus you can guarantee there would be numerous false positives.
낚시 원정대 및 P-해킹 Fishing Expeditions and P-Hacking
낚시 탐험대 또는 [P-해킹]이라는 용어는 연구자들이 독립변수와 종속변수의 관계에 대한 모든 가능한 비교에 대해 그들의 데이터를 검사할 때를 가리킨다.
독립 변수(예: 인구통계학적 요인, 대학원생 수준, 전문성, 학부 위치, 레지던트 순환)
종속 변수(예: 웰빙 지수, 번아웃 지수, 번아웃 서브그룹 요소, 워라밸 지수)
더 많이 비교할수록 P 수준 < .05가 비교 대상으로 발견될 가능성이 높으며, 귀무 가설(즉, 차이 없음)은 부정확하게 기각될 수 있다. 이 용어들은 일반적으로 경멸적이며, 예를 들어 논문의 요약 또는 결과 섹션과 같이 중요한 결과만 보고되는 경우를 위해 남겨둔다. The termsfishing expeditionorP-hackingrefer to when researchers examine their data for every possible comparison of independent variables (eg, numerous demographic factors, postgraduate year levels, specialties, undergraduate locations, residency rotations) and/or dependent variables (eg, well-being index, burnout index, burnout subgroup elements, work-life balance index). The more comparisons, the more likely aPlevel of < .05 will be found for a comparison, and the null hypothesis (ie, no difference) may be rejected inaccurately. These terms are generally pejorative and reserved for when only the significant findings are reported, for example in the Abstract or Results section of a paper.
이 문제는 [흥미로운 발견을 어디서 찾을 수 있을지에 대한 기대 없이 완전히 새로운 질문을 탐구할 때]에는 피할 수 없을지도 모른다. 그러나 의학 교육에서 이것은 거의 사실이 아니다; 우리는 보통 이전의 연구나 그럴듯한 이론에 근거한 가설을 가지고 있다. '낚시'가 나타나는 것을 피하려면 '방법' 섹션에서 자신의 접근 방식에 대한 문헌과 이론적 틀을 바탕으로 계획된 비교를 미리 규정하는 것이 최선이다. 이 fishing의 문제는 임상시험에서 충분히 자주 발견되어 이제 연구자들이 데이터를 수집하고 분석하기 전에 주요 결과물을 공공 사이트(clinicaltrials.gov)에 게시하는 것이 의무화 되었다. 데이터를 본 후에는 분석을 추가하고 싶은 유혹을 이겨내십시오! This problem may be inevitable when exploring entirely new questions with no expectation of where the interesting findings may lie. However, in medical education this is rarely true; we usually have hypotheses based on prior work or plausible theory. To avoid the appearance of “fishing,” it is best to prespecify, based on the literature and theoretical framework for your approach, your planned comparisons in the Methods section. This fishing problem was found often enough in clinical trials that it is now mandatory for researchers to post the primary outcome(s) on a public site (clinicaltrials.gov) before the data are collected and analyzed. Resist the temptation to add additional analysesafteryou have seen the data!
그럴듯한 사전 가설이 없는 경우 많은 비교를 수행하고, 관련된 P 수준 및 신뢰 구간과 함께 모든 가설을 보고하고, 방법 절에 탐색 가설이며, 이러한 이유로 다중 비교를 조정하지 않았다고 기술할 수 있습니다. 검정 횟수가 증가함에 따라 모임별 오류율도 증가하므로 이러한 상황에서는 추론을 그리는 데 주의해야 합니다. When there are no plausible prior hypotheses, it can be acceptable to make many comparisons, reportallof them with the associatedPlevels and/or confidence intervals, and state in your Methods section that these were exploratory hypotheses and that no adjustment for multiple comparisons was made for this reason. Be cautious in drawing inferences in these situations: as the number of tests expands, so does the family-wise error rate.
비교 및 사전 계획 분석을 제한하는 이유 Why to Limit Comparisons and Pre-Plan Analyses
프로젝트를 준비하기 위한 첫 번째 단계는 문헌에 대한 심층적인 검토입니다.
다른 연구자들은 어떤 방법을 사용했나요?
어떤 이론이 다른 접근법을 뒷받침할 수 있는가?
우리의 지식에는 어떤 gap이 있을까요?
In preparing for a project, the first step is a deep dive into the literature:
What methods did other researchers use?
What theories may support different approaches?
What gaps remain in our knowledge?
종종 이전 작업은 다음 단계로 구체적인 방향이나 질문을 제공합니다. 따라서 계획된 데이터 분석뿐만 아니라 데이터 수집도 제한할 수 있습니다. 데이터가 이미 수집되었다면(예: 의학대학원 교육 인증 위원회 및 국가 프로그램 관리자 그룹에는 방대한 데이터 수집이 있다), 질문에 답변하는 데 필요한 사항을 신중하게 선택하십시오.
Often prior work will provide you with specific directions or questions as next steps. This in turn will help you limit the collection of data as well as planned analyses of the data. If data were already collected (eg, Accreditation Council for Graduate Medical Education and national program director groups have enormous data collections to explore), choose carefully what you need to answer your question(s).
여기 문제가 있다: 다중 비교를 수정하지 않으면 복제 스터디에서 다른 연구자는 발견하지 못하는 위양성 결과를 찾을 위험이 있습니다. 다중 비교를 수정하면 실제로 존재하는 차이를 찾을 수 있는 통계적 검정력이 손실됩니다(위음성). 따라서, 당신의 질문에 가장 적합한 것으로 당신의 비교를 제한하세요. Here's the conundrum: If you don't correct for multiple comparisons, you risk finding “significant” results that are false positives and that will not be found by others in replication studies. If you do correct for multiple comparisons, you lose statistical power to find differences that actually exist (false negatives). Ergo, limit your comparisons to what fits your questions best.
비교에 대한 수정이 필요하지 않은 경우도 있습니다. 예를 들어, [새로운 경험적 오리엔테이션 프로그램]이 현재 [미국 정신건강의학 인턴]에서 [6개월째에 집계된 전문직업성 마일스톤]에 미치는 영향을 보고 있다고 생각해 보십시오. 인턴들 중 절반은 새로운 일주일간의 체험 오리엔테이션을 받고, 나머지 절반은 대규모 그룹 오리엔테이션과 가상 오리엔테이션을 병행한다. 경험적 오리엔테이션 프로그램을 받은 사람들은 P < .05 수준에서 유의미하게 더 높은 점수를 받는다. Correction for a comparison may not be needed in some instances. For example, consider that you are looking at the effects of a new experiential orientation week on intern performance on aggregated professionalism milestones at 6 months, in current US psychiatry interns. Half of the interns receive the new week-long experiential orientation, and the other half receive a combination of large group and virtual orientation sessions. Those with the experiential orientation score significantly (and meaningfully) higher at theP< .05 level.
아래의 하위그룹에 대해서 이차 분석을 계획합니다.
국제 의학 졸업생 대 미국 의학 졸업생,
남자 대 여자,
나이가 많은(30세) 대 어린(31세),
USMLE 1단계 5분위수 및
대학 기반 프로그램과 비대학 기반 프로그램의 사용자.
You plan secondary analyses to look at subgroups:
international medical graduates vs US medical graduates,
male vs female,
older (> 30) vs younger (< 31 years),
USMLE Step 1 quintile, and
those at university-based vs non-university-based programs.
이 예에서는 2차 분석에서는 다중 비교를 위해 조정이 필요할 수 있지만, 1차 분석에서는 correction이 필요하지 않다. In this example, it is not necessary to correct for the primary analysis, although the secondary analyses may require adjustment for multiple comparisons.
다중 비교 처리 전략 Strategies for Handling Multiple Comparisons
계획 중인 가장 중요한 비교를 고려한 후 여러 개 이상의 비교를 수행할 경우 다중 비교를 반영하도록 분석을 조정하는 것을 고려해야 합니다. 비교할 항목을 결정하기 전에 데이터를 살펴본다면 이미 다중 비교를 수행한 것입니다. 우리는 당신이 진정으로 탐구적인 연구를 수행하는 것이 아니라면 이것을 하지 말 것을 제안합니다. After considering the most important comparisons you plan to make, if you have more than a few, you should consider adjusting your analysis to reflect the multiple comparisons. (Remember that if you look at your databeforedeciding what comparisons to make,you have already made multiple comparisons. We suggest not to do this unless you are performing truly exploratory research.)
고려해야 할 많은 방법들이 있고, 전문은 물론 수많은 글들이 잘 묘사되어 있다. 이 가운데 본페로니 교정은 의학 교육에 많이 쓰인다. 본페로니 교정은 알파를 계획된 비교 횟수로 나누어 알파 수준(오류)을 하향 조정한다. 10개 비교의 경우 유형 I 오차가 0.05인 경우 수정된 알파 수준은 .05/10 또는 .005입니다. 이를 비교 오류율이라고도 합니다. 본페로니 교정은 기억하기 쉬워서 인기가 있지만, 특히 협회가 사실 서로 독립적이지 않을 경우 지나치게 보수적이다. 따라서 유형 II 오류(위음성)로 이어질 수 있다. 이 일반적인 접근법에는 많은 수정 사항이 있으며, 일부는 덜 보수적인 조정을 사용한다(예: 벤자미니-호흐버그 방법)은 일차 가설과 이차 가설의 알파 수준을 변화시키거나 모든 검정의 알파 수준을 더 낮은 알파 수준으로 변화시킨다(예: 0.05 대신 0.01).
There are many methods to consider, and full texts as well as numerous articles describe them well. Of these, the Bonferroni correction is often used in medical education. The Bonferroni correction adjusts the alpha level (error) downward by dividing alpha by the planned number of comparisons. For 10 comparisons, with a type I error of 0.05, the corrected alpha level is .05/10 or .005. This is sometimes termed thecomparison-wiseerror rate. The Bonferroni correction is easy to remember and thus popular, but it is overly conservative, especially if the associations are not in fact independent of each other. Thus, it can lead to a type II error (falsely accepting the null hypothesis of no association). There are many modifications of this general approach; some include using a less conservative adjustment (eg, Benjamini–Hochberg method), varying the alpha level for primary and secondary hypotheses, or switching to a lower alpha level for all tests (eg, .01 instead of .05).
하지만 우리가 비교하고자 하는 다양한 비교가 서로 독립적이지 않다면 어떨까요? 아니면 우리가 25와 같이 많은 수의 비교를 한다면 어떨까요? 독립 변수 및 종속 변수가 상관관계가 있는 경우와 수많은 검정이 수행되는 상황에 대한 방법이 있습니다. 이 소개 기사의 범위를 벗어나, 독자들이 다중 비교와 방법을 지원할 수 있는 다양한 접근 방식에 대해 자세히 알아볼 수 있는 좋은 자료가 많이 있습니다(자료 참조). But what if the various comparisons we want to make are not independent of each other? Or what if we are making a large number of comparisons, such as 25? There are methods for when independent and/or dependent variables are correlated and situations where numerous tests are performed. While beyond the scope of this introductory article, there are many good resources for readers to learn more about multiple comparisons and the various approaches that can support your methods (see Resources).
제한 사항에 대해 논의하는 방법 How to Discuss in Limitations
지금까지 살펴본 바와 같이, 데이터를 조사하기 전에(최적으로 데이터를 수집하기 전에) 결정을 내려야 하며, 이러한 결정이 결과의 "진실truth"에 영향을 미칠 수밖에 없습니다. 방법 섹션에서 비교 및 알파 오차 수준을 선택하여 추론을 명확하게 제시합니다. 그런 다음 토론 섹션에서 잘못된 긍정(우연히 관측된 차이) 또는 잘못된 부정(존재하나 찾지 못한 차이) 중 어느 방향으로든 결정이 결과에 영향을 미칠 수 있는 방법을 고려하십시오. 이 후자의 문제는 유형 II 오류(베타)의 결과로 더 자주 발생하며, 우리는 이를 다음 논의를 위해 저장해 둘 것이다. 방법의 결정으로 인한 잠재적 효과를 투명하게 나열하면 검토자, 편집자 및 독자의 관점에서 신뢰성이 향상되며, 장황할 필요도 없습니다. '지나친' 투명성은 '너무 적게'은 투명성보다 좋고, 과도한 단어는 개정 과정에서 싹쓸이할 수 있다. As you have seen, decisions must be made before examining your data—optimally before even collecting your data—that will inevitably affect the “truth” of your findings. Clearly present your reasoning in choice of comparisons and alpha error levels in the Methods section. Then, in the Discussion section, consider how your decisions may have affected your findings in either direction: false positives (differences observed that are actually due to chance) or false negatives (no difference found when one does exist). This latter problem more often occurs as a result of a type II error (beta), which we will save for another discussion. Laying out the potential effects of your methods' decisions in a transparent way enhances credibility in the eyes of reviewers, editors, and readers, and does not have to be lengthy. It's better to have “too much” transparency vs “too little,” and any excess words can be trimmed away in the revision process.
결론들 Conclusions
이 기사는 의학교육연구에서 다중비교라는 주제를 거의 다루지 않는다. 교육자와 연구자들이 발표나 출판을 위해 기사를 읽고, 분석을 고려하고, 작품을 작성할 때 이 문제를 염두에 둘 수 있도록 인지도를 높였으면 한다. 가장 중요한 항목: This article barely scratches the surface of the topic of multiple comparisons in medical education research. We hope to raise awareness so that educators and researchers keep this issue in mind when reading articles, considering analyses, and writing up their work for presentations or publications. Most important:
시작할 때 비교를 미리 계획합니다. 아직 분석하지 않았지만 분석을 수행하기 전에 데이터를 검토한 경우에는 이러한 사후 분석을 가능한 모든 비교로 간주하십시오.
비교가 서로 독립적일 가능성이 높은지 또는 일부 비교가 서로 관련이 있을 수 있는지 판단합니다.4
여러 가지 비교를 위해 알파 수준(오차)을 조정하는 것을 고려해 보십시오.
방법 섹션에서 결정을 명확하게 제시합니다.
자신의 방법이 토론에서 발견한 내용에 어떤 영향을 미쳤는지 토론합니다.
의심스러울 때는 친절한 생물통계학자 한 명에게 물어보세요.
Preplan your comparisons at the start. If you have not, but have examined the data before deciding which analyses to make, consider these post-hoc analyses asall possible comparisons.
Decide if your comparisons are likely independent of each other or if some may be related to each other.4
Consider adjusting your alpha level (error) for more than a few comparisons.
Present your decisions clearly in the Methods section.
Discuss how your methods may have affected your findings in the Discussion.
When in doubt, ask a friendly biostatistician.
A general introduction to adjustment for multiple comparisons
In experimental research a scientific conclusion is always drawn from the statistical testing of hypothesis, in which an acceptable cutoff of probability, such as 0.05 or 0.01, is used for decision-making. However, the probability of committing false statistical inferences would considerably increase when more than one hypothesis is simultaneously tested (namely the multiple comparisons), which therefore requires proper adjustment. Although the adjustment for multiple comparisons is proposed to be mandatory in some journals, it still remains difficult to select a proper method suitable for the various experimental properties and study purposes, especially for researchers without good background in statistics. In the present paper, we provide a brief review on mathematical framework, general concepts and common methods of adjustment for multiple comparisons, which is expected to facilitate the understanding and selection of adjustment methods.
Introduction
The statistical inference would be a critical step of experimental researches, such as in medicine, molecular biology, bioinformatics, agricultural science, etc. It is well acceptable that an appropriate significance levelα, such as 0.05 or 0.01, is pre-specified to guarantee the probability of incorrectly rejecting a single test of null hypothesis (H0) no larger thanα. However, there are many situations where more than one or even a large number of hypotheses are simultaneously tested, which is referred to as multiple comparisons (1). For example, it is common in clinical trials to simultaneously compare the therapeutic effects of more than one dose levels of a new drug in comparison with standard treatment. A similar problem is to evaluate whether there is difference between treatment and control groups according to multiple outcome measurements. Due to rapid advances of high-throughput sequencing technologies, it is also common to simultaneously determine differential expression among tens of thousands of genes.
The statistical probability of incorrectly rejecting a trueH0will significantly inflate along with the increased number of simultaneously tested hypotheses. In the most general case where allH0are supposed to be true and also independent with each other, the statistical inference of committing at least one incorrect rejection will become inevitable even when 100 hypotheses are individually tested at significance levelα=0.05 (Figure 1). In other words, if we simultaneously test 10,000 true and independent hypotheses, it will incorrectly reject 500 hypotheses and declare them significant atα=0.05. Of course, estimation of error rate would become more complex when hypotheses are correlated in fact and not all of them are true. Therefore, it is obvious that the proper adjustment of statistical inference is required for multiple comparisons (2). In the present paper, we provide a brief introduction to multiple comparisons about the mathematical framework, general concepts and the wildly used adjustment methods.
Mathematical framework
For a simultaneous testing ofmhypotheses, the possible outcomes are listed inTable 1. Let’s suppose that the number of trueH0ism0, which is an unobservable random variable (0≤m0≤m). After performing statistical inferences we totally foundRH0being rejected and declared significant at the pre-specified significance level; and hereinRis an observable random variable (0≤R≤m). Among the statistically rejected hypotheses ofR, whenR>0, we suppose that there areUH0that have been incorrectly rejected. Similar tom0,Uis also an unobservable random variable with equal to or larger than 0. Accordingly, counts of other possible outcomes could be deduced, including the correctly rejectedH0(R-U), correctly retainedH0(m0-U), and incorrectly retainedH0(m-R-m0+U).
Type I and II errors
For the statistical inference of multiple comparisons, it would commit two main types of errors that are denoted as Type I and Type II errors, respectively. The Type I error is that we incorrectly reject a trueH0, whereas Type II error is referred to a false negative. Because the exact numbers of Type I and Type II errors are unobservable (as denoted inTable 1), we would intend to control the probability of committing these errors under acceptable levels. In general, the controlled probabilities of committing Type I and Type II errors are negatively correlated, for which therefore we must determine an appropriate trade-off according to various experimental properties and study purposes. If a significant conclusion has important practical consequence, such as to declare an effective new treatment, we would control Type I error more rigorously. On the other hand, we should avoid committing too many Type II errors when it intends to obtain primary candidates for further investigation, which is very common in studies of genomics. Here, we specially address the controlling of Type I error because it considerably increases for multiple comparisons.
Adjusted P value or significance level
In statistical inference, a probability value (namely P value) is directly or indirectly computed for each hypothesis and then compared with the pre-specified significance levelαfor determining thisH0should be rejected or not (3). Therefore, there are two ways for adjusting the statistical inference of multiple comparisons.
First, it could directly adjust the observed P value for each hypothesis and keep the pre-specified significance level α unchanging; and this is herein referred to as the adjusted P value.
Second, an adjusted cut-off corresponding to the initially pre-specified α could be also computationally determined and then compared with the observed P value for statistical inference.
In general, the adjusted P value is more convenient because in which the perceptible significance level is employed. However, it would be difficult or impossible to accurately compute the adjusted P value in some situations.
Measures accounting for Type I error
According to possible outcomes of multiple comparisons (Table 1), all efforts would be paid to the control of variableU, for which therefore various statistical measures have been proposed to account (4). Certainly, each of these measures has differential applications with respective strengths and weaknesses.
A simple and straightforward measurement is the expected proportion of variableUamong all simultaneously tested hypotheses ofm, which is referred to as theper-comparison error rate (PCER):
If each hypothesis is separately tested at significance levelα, PCER will be equal toαwhen allH0are true and independent with each other. Obviously, it becomes PCER=αm0/m≤αwhen not allH0are true in fact. However, control of PCER would be less efficient because we would obtain at least one false positive at significance levelα=0.05 when 20 trueH0are simultaneously tested.
In practical applications, it is more reasonable to jointly consider all hypotheses as a family for controlling Type I error; and therefore the most stringent criterion is to guarantee that not anyH0is incorrectly rejected. Accordingly, the measure offamilywise error rate (FWER) is introduced and defined as the probability of incorrectly rejecting at least oneH0:
The control of FWER has been widely used especially when only a few or at most several tens of hypotheses are simultaneously tested. However, FWER is believed to be too conservative in cases that the number of simultaneously tested hypotheses reaches several hundreds or thousands.
Another popular measure for controlling Type I error of multiple comparisons is thefalse discovery rate (FDR), which is defined as the expected proportion of incorrectly rejectedH0among all rejections:
Therefore, FDR allows the occurrence of Type I errors under a reasonable proportion by taking the total number of rejections into consideration. An obvious advantage of FDR controlling is the greatly improved power of statistical inference, which would be useful when a large number of hypotheses are simultaneously tested.
Common methods for adjustment
Suppose that there aremhypotheses ofH1, …,Hmbeing simultaneously tested, which correspond to the initially computed P values ofp1, …,pm. Accordingly, the adjusted P values of multiple comparisons are denoted asp′1, …,p′m. The pre-specified and adjusted significance levels are further denoted asαandα’, respectively. Furthermore, we assume that all hypotheses are ordered asH(1), …,H(m)according to their observed P values ofp(1)≤...≤p(m); and the associated P values and significance level are denoted asp(i),p′(i)andα′(i)for theithordered hypothesis ofH(i). We here provide an illustrative example for demonstrating differences among various adjustment methods. Letm=6 andα=0.05; and the initially computed P values corresponding to six hypotheses arep1=0.1025,p2=0.0085,p3=0.0045,p4=0.0658,p5=0.0201 andp6=0.0304, respectively.
Bonferroni adjustment
Bonferroni adjustment is one of the most commonly used approaches for multiple comparisons (5). This method tries to control FWER in a very stringent criterion and compute the adjusted P values by directly multiplying the number of simultaneously tested hypotheses (m):
Equivalently, we could let the observed P values unchanging and directly adjust the significance level asα′= α/m= 0.05/6. For our illustrative example the adjusted P values are compared with the pre-specified significance levelα=0.05, and the statistical conclusion is obviously altered before and after adjustment (Figure 2). Bonferroni adjustment has been well acknowledged to be much conservative especially when there are a large number of hypotheses being simultaneously tested and/or hypotheses are highly correlated.
Holm adjustment
On the basis of Bonferroni method, Holm adjustment was subsequently proposed with less conservative character (6). Holm method, in a stepwise way, computes the significance levels depending on the P value based rank of hypotheses. For theithordered hypothesisH(i), the specifically adjusted significance level is computed:
The observed P valuep(i)of hypothesisH(i)is then compared with its correspondingα′(i)for statistical inference; and each hypothesis will be tested in order from the smallest to largest P values (H(1), …,H(m)). The comparison will immediately stop when the firstp(i) ≥ α′(i)is observed (i=1, ..., m) and hence all remaining hypotheses ofH(j)(j=i,…,m) are directly declared non-significant without requiring individual comparison (Figure 3). Alternatively, it could directly compute the adjusted P value for each hypothesis and produce same conclusion (Figure 2).
Hochberg adjustment
Similar to Holm method, Hochberg adjustment employs same formula for computing the associated significance levels (7). Therefore, the specifically adjusted significance level forithordered hypothesisH(i)is also computed:
However, Hochberg method conducts statistical inference of hypothesis by starting with the largest P value (H(m), …,H(1)). When we first observep(i) < α′(i)for hypothesisH(i)(i=m,…,1), the comparison stops and then concludes that the hypotheses ofH(j)(j=i,…,1) will be rejected at significance levelα. The adjusted P values of Hochberg method are shown inFigure 2. It is also known that Hochberg adjustment is more powerful than Holm method.
Hommel adjustment
Simes (1986) modified Bonferroni method and proposed a global test ofmhypotheses (8). Let H={H(1), …,H(m)} be the global intersection hypothesis,Hwill be rejected ifp(i) ≤ iα/mfor anyi=1, …,m. However, Simes global test could not be used for assessing the individual hypothesisHi. Therefore, Hommel (1988) extended Simes’ method for testing individualHi(9). Let an index ofj=max{i∈{1, ..., m}:p(m−i+k)>kα/i for k=1, ..., i}be the size of the largest subset ofmhypotheses for which Simes test is not significant. AllHi(i=1,…,m) are rejected ifjdoes not exist, otherwise reject allHiwithpi≤α/j. Although straightforward explanation for computing the adjusted P values of Hommel method would be not easy, this task could be conveniently performed by computer tools, such as the p.adjust() function in R stats package (http://cran.r-project.org).
Benjamini-Hochberg (BH) adjustment
In contrast to the strong control of FWER, Benjamini and Hochberg [1995] introduced a method for controlling FDR, which is herein termed BH adjustment (10). Let be the pre-specified upper bound of FDR (e.g.,q=0.05), the first step is to compute index:
Ifkdoes not exist, reject no hypothesis, otherwise reject hypothesis ofHi(i=1,…,k). BH method starts with comparingH(i)from the largest to smallest P value (i=m,…,1). The FDR-based control is less stringent with the increased gain in power (Figure 2) and has been widely used in cases where a large number of hypotheses are simultaneously tested.
Benjamini and Yekutieli (BY) adjustment
Similar to BH method, a more conservative adjustment was further proposed for controlling FDR by Benjamini and Yekutieli [2001], and this method is also termed BY adjustment (11). Let againqbe the pre-specified upper bound of FDR, the indexkis computed as:
If does not exist, reject no hypothesis, otherwise reject hypothesis ofHi(i=1,…,k). BY method could address the dependency of hypotheses with increased advantages.
Conclusions
Although substantial literature has been published for addressing the increased Type I errors of multiple comparisons during the past decades, many researchers are puzzling in selecting an appropriate adjustment method. Therefore, it would be helpful for providing a straightforward overview on the adjustment for multiple comparisons to researchers who don’t have good background in statistics. Of course, there are many theoretical topics and methodological issues having not been addressed yet in the present paper, such as resampling-based adjustment methods, choice of significance levelα, and specific concerns for genomics data. It is also beyond the scope of this paper to discuss the sophisticated mathematical issues in this filed.
J Grad Med Educ. 2021 Aug;13(4):457-460.
doi: 10.4300/JGME-D-21-00599.1.Epub 2021 Aug 13.
Facts and Fictions About Handling Multiple Comparisons
1is Editor-in-Chief, Journal of Graduate Medical Education (JGME), and Associate Director for Education, Center on Aging, and Professor of Medicine, University of Connecticut Health Center.
2is Statistical Editor, JGME, and Associate Professor of Medical Sciences, Quinnipiac University.
통계학개론 (Adv Health Sci Educ Theory Pract.2019) Statistics 101
Geoff Norman1
간단한 사전 테스트를 준비했습니다. 그건 이런 식이다: I have devised a simple pretest. It goes like this:
대학원생 중 한 명이 최근 연구 결과를 보여 줍니다. 이것은 간단한 두 그룹 비교입니다 – 세부 사항은 중요하지 않습니다. 독립적인 표본 t 검정을 사용하여 두 그룹 평균을 비교했는데, 이는 단지 기호화 –> p = .0498인 것으로 밝혀졌다. One of your graduate students shows you the findings from her latest study. It is a simple two group comparison – the details do not matter. She compared the two group means using an independent sample t test, which turned out to be just significant –> p = .0498.
동네 술집에서 축하를 하고 나면, 당신은 최근 복제 불가능에 대한 모든 홍보에 시달립니다. 그래서 다음 날 당신은 그녀가 확실히 하기 위해 연구를 반복해야 한다고 주장합니다. 그녀는 전에 했던 것처럼 똑같이 합니다. 디자인은 바뀐 것이 없습니다. After due celebration at the local pub, you are haunted by all the recent publicity about non-replication. So the next day you insist that she repeat the study just to be sure. She does it exactly like she did before. Nothing has changed in the design.
질문: 순전히 통계적인 근거로, 두 번째 연구에서 동일한 결론에 도달할 확률, 즉 귀무 가설을 두 번 기각할 확률은 얼마입니까? QUESTION: On purely statistical grounds, what is the probability that you will arrive at the same conclusion in the second study; that is, you will reject the null hypothesis a second time?
다음 페이지의 각주1에서 정답을 찾을 수 있을 것입니다. 정답을 맞힌 사람은 올바른 이유(어떻게 나올지에 대한 정당한 논리적 주장)로 다음 섹션을 건너뜁니다. 나머지는, 계속 읽어보세요. You will find the correct answer in the footnote1 on the next page, just to keep you from peeking. For those who got it right, for the right reasons (a legitimate logical argument as to how it comes out that way), skip the next section. For the remainder, read on.
1 귀무 가설을 두 번째로 기각할 확률은 0.50입니다. 1 The probability that you will reject the null hypothesis a second time is 0.50
통계논리학의 기초 A primer of statistical logic
복습할 시간이에요. 통계 추론의 기본 논리는 이제 약 100년 정도 되었고(RIP 로날드 경), 반복된 도전(Cohen 2016)을 견뎌냈지만 여전히 살아있다. 효과 크기, 신뢰 구간 및 승산비를 추가했지만, 좋든 싫든 마법의 "p < .05"가 없으면 정량적으로 게시하는 데 어려움이 있을 것입니다. It’s time for a review. The basic logic of statistical inference is now about 100 years old (RIP Sir Ronald), and has withstood repeated challenges (Cohen 2016), but lives on. We’ve added effect sizes and confidence intervals and odds ratios, but like it or not, you still will have trouble publishing anything quantitative without the magical “p < .05”.
그러니 그것이 무엇인지 그리고 우리에게 말하지 않는 것을 명확히 하자. 쉽게 설명하려면 이 책에서 가장 간단한 예를 들어 샘플을 모집단에 비교하는 경우를 살펴보겠습니다. 예를 들어, 우리는 "광도"와 소아과 유사점을 찾았다고 가정해 봅시다(그런데 광도는 작동하지 않습니다). 노화에 따른 인지력 저하를 줄이는 대신, 우리는 다른 쪽 끝에서 일할 것입니다. 그리고 유동적인 지능의 흐름을 조금 더 좋게 만들고 아이들의 IQ를 높이기 위해 고안된 온라인 개입인 윤활성을 고안할 것입니다. So let’s be clear on what it is and is not telling us. To make it easy, let’s take the simplest case in the book—comparing a sample to a population. Suppose, for example, we have come up with a pediatric analog to “Luminosity” (which does NOT work, by the way). Instead of reducing cognitive decline with aging, we’re going to work at the other end, and devise an online intervention, Lubricosity—designed to make fluid intelligence flow just a bit better, and raise IQ of kids (that doesn’t work either, but let’s pretend it does for now).
그러나, 우리는 그 반대로 시작하여 "null 가설"을 설정한다. However we begin by doing the opposite and setting up a “null hypothesis”, which in contracted form is:
H0 pop 모평균(모양성) = 모평균 = 100. H0 ∶ Population mean(lubricosity) = Population mean = 100.
기본적인 논리는 간단하다. 만약 우리 연구 아이들이 12세 모두의 집단에서 무작위로 추출된 샘플이고, 만약 치료법이 효과가 없다면, 그리고 만약 우리가 연구를 수 천 번 하고 모든 샘플의 평균 IQ를 표시한다면, 그들은 치료받지 않은 집단의 평균 IQ인 100 정도 정규 분포를 따를 것입니다. The basic logic is simple: If our study kids are a random sample from the population of all 12 year olds, and if the treatment doesn’t work, and if we did the study a zillion times and displayed all the sample mean IQ’s, they would be normally distributed around 100, the mean IQ in the untreated population.
그래서 우리는 무작위로 100명의 6살짜리 아이들을 표본으로 추출하여 3개월 동안 프로그램에 등록한 후 그들의 IQ를 측정합니다. 중요한 것은 표본 크기 100에서 계산된 평균의 분포를 살펴보기 때문에, 정규분포의 width는, 평균의 표준오차라고 하며, 이는 원래 점수의 표준편차를 평균의 제곱근으로 나눈 1.5가 된다는 것입니다. 데이터는 그림 1a)와 비슷할 것이며, 여기서 우리는 IQ를 Z 점수로 변환하여 모든 것을 표준 오차 단위로 표현했다. So we randomly sample 100 6 year olds, enrol them in the program for 3 months, then measure their IQ. Critically, because we re looking at the distribution of means computed from sample size 100, the width of the normal distribution of means, the standard error of the mean, would be the standard deviation of the original scores (15 for IQ) divided by the square root of the sample size (√100 = 10), or 1.5. The data would look like Fig. 1a), where we have also converted the IQ to a Z score, expressing everything in standard error units.
논리의 다음 단계는 연구의 표본 평균이 이 (null 가설) 분포에서 왔다면 우연히 발생할 가능성이 충분히 없는 경우, 귀무 가설을 기각하고 관측된 차이가 통계적으로 유의하다고 선언하는 것이다. 그리고 "비슷하게"는 항상 같은 방식으로 정의된다; 발생 확률은 100분의 5 미만이다. The next step in the logic is to declare that, if the sample mean of the study is sufficiently unlikely to have arisen by chance if it came from this (null hypothesis) distribution, we will reject the null hypothesis and declare that the observed difference is statistically significant. And “unlikely” is always defined the same way; a probability of occurrence of less than 5 in 100.
그런 다음 꼬리 확률이 .05 미만인 분포에 임계값을 설정하며, 이는 일반적으로 "알파"라고 불린다. 간단한 z 테스트의 경우, 그림과 같이 Z가 1.96일 때 발생합니다. 즉, H0을 거부(수용)하지 못하는 [임계값의 왼쪽에 있는 영역]과 H0을 거부(수용)하지 못하는 [임계값의 오른쪽에 있는 영역]입니다. This then establishes a critical value out on the distribution beyond which the tail probability is < .05, which is conventionally called “alpha”. For the simple z test, this arises at a Z of 1.96, as shown in the figure. In turn, this defines two zones: one to the left of the critical value, where we fail to reject (accept) H0, and one to the right, where we reject H0. (Again, because this is a two-tailed test, there is a similar zone on the left side of the graph, but we’ll ignore this). See Fig. 1a).
이제 중요한 부분이 왔다. 만약 우리가 H0을 거부한다면, 우리는 논리적으로 그것이 다른 분포인 H1 분포에서 왔다고 선언한다. 데이터가 나오기 전에 이 모든 것을 가정한다면, H1은 거의 모든 곳에 중심이 맞춰질 수 있습니다. 따라서 표본 크기 계산은 항상 올바른 값을 산출합니다! 그러나 연구가 끝나면 H1 분포가 있을 수 있는 위치, 정확히 관찰한 위치에 대한 정보를 얻을 수 있습니다. 따라서 "작업"한 두 번째 연구 집단은 새로운 모집단 평균인 관측된 표본 평균에 대한 "최상의 추측"에 초점을 맞춘 분포를 가지고 있다고 가정한다. 또한 해당 분포가 치료되지 않은 모집단과 동일한 표준 편차를 갖는다고 가정한다. Now comes the critical part. If we reject H0, we then logically declare it comes from a different distribution, the H1 distribution, somewhere to the right of the critical value. Now, if we were doing all this hypothetically before we had the data, H1 could be centered almost anywhere (which is why sample size calculations always come up with the right number!) But once the study is over, we have information about where the H1 distribution might be—exactly where we observed it. So we assume that the second population of studies that “worked” has a distribution centered on our “best guess” of the new population mean, the observed sample mean. We also assume the distribution has the same standard deviation as the untreated population (“homoscedasticity”, if you want to sound intellectual).
연구 평균이 104.5로 H0 평균보다 3 표준 오차 위에 있다고 가정합시다. 그러면 곡선은 그림 1b와 같다. Let’s assume we found that the study mean was 104.5, 3 standard errors above H0 mean. Then the curve looks like Fig. 1b):
이제 중요한 비트는 임계값 왼쪽의 H1 곡선 영역입니다. 즉, 4.5의 IQ 포인트 차이가 있다는 대립 가설 하에서 유의한 차이를 선언하지 않을 가능성인 베타입니다. 이 경우 0.15입니다. 그리고 (1-베타)는 차이가 있는 경우 이를 검출할 수 있는 가능성으로, 이를 검정력이라고 합니다. 이 값은 (1–.15) =.85입니다. Now the important bit is the area of the H1 curve to the left of the critical value. That is beta, the likelihood that you would not declare a significant difference, under the alternative hypothesis that there was a difference of 4.5 IQ points. In this case, it’s 0.15. And (1-beta) is the likelihood of detecting a difference if there was one, which is called “power”. This is (1–.15) = .85
분명히 하자면, 이 연구는 0.0001의 p 값에 해당하는 Z = 3.0의 차이를 발견했지만 유의미한 차이를 반복할 확률은 여전히 85%에 불과하다는 것을 의미합니다. To be very clear, what this means is that even though this study found a difference of Z = 3.0, corresponding to a p value of 0.0001, the chance of replicating the finding of a significant difference is still only 85%.
그리고 그것은 우리에게 프라이머의 시작 부분에서 제기되는 질문으로 이어집니다. p-값을 정확히 0.05로 계산하면, 이것은 Ho 분포의 Z = 1.96에서 표본 평균에 해당합니다. 즉, H1 분포가 임계값에 바로 중심을 맞춘다는 뜻입니다. 분포의 절반은 임계값의 왼쪽에 있고 절반은 오른쪽에 있습니다. 유의한 차이의 원래 발견을 반복할 가능성은 50%에 불과합니다! And that brings us to the question posed at the beginning of the primer. If we computed a p-value of exactly .05, this corresponds to a sample mean at Z = 1.96 on the Ho distribution. That means the H1 distribution is centred right on the critical value. Half of the distribution lies to the left of the critical value and half to the right. The likelihood of replicating the original finding of a significant difference is only 50%! 그림 2에서, 나는 계산된 p 값의 함수로 복제 가능성을 표시했다. 그것은 0.50에서 0.97까지이다. In Fig. 2, I’ve plotted the likelihood of replication as a function of the calculated p value (for “significant” results). It goes from .50 to .97.
이제 시작 부분에 제시된 세 가지 시나리오로 돌아가겠습니다. Now let’s return to the 3 scenarios posed at the beginning:
1. "Power analysis이 제시되지 않았습니다. 실험 설계의 일부로 포함되어야 한다." 1. “There is not [sic] power analysis presented. Should be included as part of experimental design.”
위에서 설명한 바와 같이, 통계적 검정의 검정력은 (즉, 데이터가 H1 분포에서 나온 경우) 하나일 때 유의한 차이를 찾을 확률이다. 연구에서 우리는 모든 중요한 차이가 0.001에서 0.0001 사이의 p 값을 갖는다고 보고했다. 유의한 차이를 찾을 확률은 1.0이었는데, 그 이유는 우리가 유의한 차이를 발견했기 때문입니다. Power analysis는 아무것도 더하지 않습니다. As we described above, the power of a statistical test is the probability of finding a significant difference when there is one present (i.e. when the data come from the H1 distribution). In the study we reported all the critical differences had p values ranging from 0.001 to 0.0001. The probability of finding a significant difference was 1.0, because we did find a significant difference. The power calculation adds nothing.
검정력 계산은 차이가 예상되지만 발견되지 않을 때 추정된 크기의 차이를 찾을 가능성을 추정하는 데 유용합니다. 차이가 감지되면 가치가 없습니다. Power calculations are useful when a difference is expected but was not found, to estimate the likelihood of finding a difference of some presumed magnitude. They have no value when a difference was detected.
2. 복제 비복제에 대한 Pashler의 해결책은 피험자당 시행 횟수를 증가시켜 (표본 크기를 증가시켜) 연구에 더 큰 통계적 power을 부여하는 것이었다. 2. Pashler’s solution to non-replication was to build greater statistical power into the studies by increasing the number of trials per subject (increasing sample size).
밝혀진 바와 같이 표본 크기가 증가하면 복제되지 않는 문제가 줄어들지 않을지는 유의미한 효과의 원래 결과가 참이었는지 아닌지에 대한 믿음에 달려 있습니다. As it turns out, whether increased sample size will or will not reduce problems of non-replication depends on your belief that the original finding of a significant effect was true or not.
복제와 비복제에 대한 대부분의 문헌은 원래의 결과가 위양성false positive이라는 견해를 가지고 있는 것으로 보인다. (존 외 2012; 마시캄포 및 랄랑드 2012; 시몬스 외 2011). 만약 그렇다면, 우리가 설명한 개념 논리는 알파가 처음부터 0.05로 설정되기 때문에 거짓 양의 가능성은 항상 0.05라는 것을 보여준다. (이 주장을 할 때, 우리는 의도적으로 참고 문헌 목록 중 일부에서 논의된 많은 잠재적인 조사자 편향을 무시하고 단지 이론적 확률을 보고 있다.) It would appear that most of the literature on replication and non-replication holds the view that the original finding is a false positive; the effect is really not there. (John et al. 2012; Masicampo and Lalande 2012; Simmons et al. 2011). If this is the case, then the conceptual logic we have described demonstrates that the likelihood of a false positive is always 0.05, because alpha is set at .05 from the outset. No amount of increase in sample size changes that. (In making this claim, we are deliberately ignoring the many potential investigator biases discussed in some of the references in the bibliography, and are simply looking at the theoretical probability). 그러면 샘플 크기를 늘리면 어떤 효과가 있을까요? 도함수로 돌아가면, 평균의 표준 오차는 감소하므로 두 곡선은 원래 척도에서 더 멀리 이동한다. 겹치는 부분overlap이 감소하면 검정력이 증가하지만, 이는 실제 차이를 탐지할 가능성에만 영향을 미칩니다. 즉, 증가된 검정력은 실제 효과가 있는 경우 점점 더 작은 효과의 탐지를 허용하지만, 효과가 유의하다고 잘못 선언될 가능성은 바꾸지 않는다. So what does increased sample size achieve? Going back to the derivation, as sample size increases, the standard error of the mean decreases, so the two curves move further apart on the original scale. Power increases as the overlap decreases, but this only impacts on the likelihood of detecting a true difference. In other words, increased power will permit detection of smaller and smaller effects if they are real, but does not change the likelihood that an effect will be falsely declared significant.
3. 다중 문항 조사에서 얻어진 문항수준에서의 상관 관계. 3. Correlations at item level from a multi-item survey.
연구 설계가 알파에 미치는 영향의 연장선상에서, 다중 검정이 전체 알파 수준에 미치는 영향에 대한 관심이 부족하다. 다중 항목 목록에서 관찰된 차이의 분석은 적어도 두 가지 이유로 인해 타당하지 않다. 첫째, 검정 횟수가 증가할수록 유의한 차이를 관측할 가능성이 커집니다. 예를 들어, 알파가 0.05인 경우 5개의 검정을 통해 적어도 하나의 유의한 차이(위양성)를 찾을 확률은 0.23, 10개의 검정에서는 0.40, 20개에서는 0.65, 50개에서는 0.92입니다. 거짓과 실제 긍정을 구별하는 것은 불가능하다. 게다가, 수백 명의 참여자들이 참여하기 때문에, 심지어 작은 상관관계도 통계적으로 중요한 것으로 나타날 것이다. 한 가지 해결책은 기존의 알파를 제안된 테스트 수로 나누는 본페로니 보정이다. 발표된 예에서, 논문에 있는 약 40개의 중요한 결과는 본페로니 보정을 통해 3으로 떨어집니다.
As an extension of the effect of study design on alpha, there is insufficient attention to the effect of multiple tests on the overall alpha level. Analysis of differences observed in a multi-item inventory is rarely sensible, for at least two reasons. First, as the number of tests increases, the likelihood of observing a significant difference increases. As a simple example, using an alpha of .05, the likelihood of finding at least one significant difference (false positive) with 5 tests is .23; with 10 tests, .40; with 20, .65 and with 50, .92. It is not possible to distinguish false from real positives. Moreover, with several hundred participants, which is not uncommon in surveys, even tiny correlations will emerge as statistically significant. One solution is a Bonferroni correction, dividing the conventional alpha by the number of proposed tests. In the published example, the approximately 40 significant results in the paper drops to 3 with a Bonferroni correction.
그러한 접근법이 유용하지 않은 두 번째 이유가 있다. 다중문항인벤토리를 사용하는 것의 핵심은, 하나의 문항만으로는 신뢰할 수 있는 결과를 산출하기에 충분히 신뢰성이 없다는 것을 인식하는 것이다. 실제로 요인분석은 기초 치수를 식별하기 위한 항목별 판매 생성 지침을 제공하기 위한 것이며, 전체적인 내부 일관성 계산은 모든 항목이 동일한 기초 치수를 측정한다는 가정에 기초한다. 따라서 분석은 항목item 수준이 아닌 척도scale 또는 하위척도subscale 수준에서 진행되어야 합니다.
There is a second reason why such an approach is not useful. The whole point of a multi-item inventory is recognition that a single item is not sufficiently reliable to yield credible results. Indeed a factor analysis is directed at providing guidance for creating subscales to identify underlying dimensions, and an overall internal consistency calculation is based on the assumption that all items are measuring the same underlying dimension. So analysis should be conducted at the scale or subscale level, not the item level.
결론 Conclusion
다양한 방법론적 편향에 기초한 복제 실패의 이해를 위한 광범위한 문헌이 있지만(Francis 2013; Schulz 등 1995), 비복제가 피셔 통계 추론의 구조적 특징이라는 사실에 대한 인식과 동일하다고 생각한다. While there is an extensive literature directed at understanding failure to replicate based on various methodological biases (Francis 2013; Schulz et al. 1995), there is, I think inadequate recognition of the fact that non-replication is an architectural feature of Fisherian statistical inference.
Cohen, J. (2016). The earth is round (p < . 05). In What if there were no significance tests? (pp. 69–82). Routledge.
Norman, G. (2017). Generalization and the qualitative–quantitative debate. Advances in Health Sciences Education, 22(5), 1051–1055. XXX
Adv Health Sci Educ Theory Pract. 2019 Oct;24(4):637-642.
의학교육의 신화 폭로하기: 반증의 과학(Med Educ, 2019) Debunking myths in medical education: The science of refutation Anique B H de Bruin
교육 연구에서 연구된 많은 개인 차이들 중에서, 한 가지 특별한 요인은 지속적으로 개인이 새로운 정보를 배울 가능성에 영향을 미치고 학습에서 많은 다른 요인들을 합친 것보다 더 많은 차이를 설명해 준다: 바로 학생의 사전 지식 수준이다. 사전지식은 (동기, 사회경제적 지위, 자기 조절 기술 및 성별 이상으로) 새로운 정보를 기존 계획에 이미 저장되어 있는 지식에 연결할 수 있게 함으로써 새로운 학습의 기초를 제공한다. 특정 주제에 관하여 사전 지식이 있는 학생들은 새로운 정보를 더 잘 기억하고, 정보의 더 복잡한 부분을 다룰 수 있으며, 사전 지식이 낮은 학생들과 비교했을 때 다른 교육 형식이 필요할 수 있다.4 Of all the many individual differences studied in education research, one particular factor consistently affects the chance that an individual will learn new information and explains more variance in learning than many other factors combined: the student's level of prior knowledge. More than motivation, socioeconomic status, selfregulation skills and gender, prior knowledge provides a basis for new learning by allowing the connection of new information to knowledge that is already stored in existing schemata.1 Students with prior topic knowledge are more likely to remember new information,2 can handle greater complexity of information,3 and may need a different instructional format compared with those with low prior knowledge.4
그러나 학습자의 사전 지식이 부정확할 경우 어떤 현상이 발생하는가? But what happens when a learner's prior knowledge is incorrect
일이 어려워지는 것은 바로 그 때이다. 사전 지식이 잘못된 경우 사전 지식이 없는 경우보다 올바른 지식을 얻는 것이 더 어렵습니다. 특히 학습자들이 잘못된 정보를 떠나보내는 것은 어렵다. 사전 지식은 변화에 저항적이다. 왜냐하면 인간의 정신은 그 지식의 부정확함에 직면했을 때조차도 더 오랜 기간 동안 알고 사용한 것에 충실하기 때문이다. 정보의 출처가 신뢰성에서 다양해지는 정보 폭발의 시대에 사는 것은 지식이 쉽게 얻어지지만, (얻어진 지식이) 일단 내면화되면 거부하거나 대체하기 어려운 잠재적인 유해한 상황을 만든다. That is when things get rough. When prior knowledge is incorrect, it is more difficult to gain the correct knowledge than when no prior knowledge is available.5 It is particularly hard for learners to let go of incorrect information. Prior knowledge is resistant to change because the human mind is loyal to what it has known and used for a longer period, even when confronted with the incorrectness of that knowledge. Living in an era of information explosion, in which the sources of information vary in reliability, makes for a potentially toxic context in which knowledge is gained easily, but is hard to reject or replace once it has been internalised.
의학 교육은 보편적 법칙이 적용되고 수세기에 걸쳐 유지되는 유기화학이나 양자 물리학이 아니다. 대신에, 의학 교육은 일반적으로 [제한된 증거, 다양한 증거, 그리고 무엇보다 우리가 학습에 대해 가지고 있는 가정에 대한 증거의 부족]으로 특징지어진다. 우리의 직관 중 일부는 정확할 것이다. 그러나 학습 신화는 너무 많은 곳에 있어서 특별히 이 문제를 다루는 디자인, 테스트 그리고 교육 전략의 실행이 필요하다. 어떻게 잘못된 지식을 최대한 거부하고 올바른 지식으로 대체하도록 권장할 것인지의 문제를 다뤄야 한다. Medical education is not organic chemistry or quantum physics, in which universal laws apply and are maintained over centuries. Instead, medical education is more typically characterised by limited evidence, varying evidence or, most commonly, a lack of evidence regarding the assumptions we hold about learning. Some of our intuitions will be correct, but the omnipresence of learning myths calls for design, testing and the implementation of teaching strategies that specifically address the issue of how to maximise the rejection of incorrect knowledge and encourage its replacement with correct knowledge in such a way that learners will use it in practice.
교육 심리학 연구는 약 40년 동안 myth debunking에 대한 고려를 통해 이 문제를 다루어 왔고, 이 연구가 얻은 통찰력은 의학교육에 연구와 교수에 정보를 줄 수 있는 잠재력을 가지고 있다. 이러한 연구가 종종 젊은 학습자(예: 청소년)에서 수행되었고, 대부분 자연과학의 학습 개념과 관련이 있지만, 그들의 연구 결과는 관련성의 몇 가지 일반성을 밝혀냈다. Studies in education psychology have addressed this issue through the consideration of myth debunking for about four decades and the insights this research has gained have potential to inform research and teaching in medical education. Although these studies were often performed in younger learners (eg adolescents) and mostly related to learning concepts in the natural sciences, their findings have revealed several generalities of relevance.
무엇보다도, 학습자의 잘못된 지식을 바꾸는 것은 [지식의 상당한 재편subsantive reorganization]의 문제이지, '어떻게 학생들에게 말하는 것'의 문제가 아니다. 임상적 추론을 개선하는 데 탈-편향debiasing이 충분하지 않은 것처럼, 올바른 지식을 제공하는 것 만으로는 궁극적으로 필요한 지식의 재구성이 이루어지지 않을 것이다. 따라서 잘못된 지식을 극복하는 일은 종종 '개념적 변화conceptual change'를 가능하게 하는 문제로 언급된다. 그렇게 하기 위해서, 학습자들은 과학적으로 올바른 정보에 광범위하게 관여해야 하고, 그들 자신의 잘못된 생각을 탐색하고 그들의 생각의 오류를 이해하려고 노력할 기회가 주어져야 한다. First and foremost, changing learners’ incorrect knowledge is an issue of substantive reorganisation of knowledge, not a matter of ‘telling students how it is.’ Just as debiasing is insufficient to improve clinical reasoning,10 providing the correct knowledge alone will not produce the reorganisation of knowledge that is ultimately required. The task of overcoming incorrect knowledge is, therefore, often referred to as an issue of enabling ‘conceptual change.’ To do so, learners should engage with the scientifically correct information extensively and should be given opportunities to explore their own incorrect ideas and to attempt to understand the errors in their thinking.11
종종, [과학적 설명]은 학습자의 [나이브한 생각과 경험]에 반직관적이다. 따라서 학습자에게는 특히 과학적인 설명 뒤에 숨겨진 추론을 상세히 설명해주어야 하며, 학습자로 하여금 나이브한 개념과 적극적으로 대조하게 해야 한다. 따라서 (잘못된 개념을) 바로잡기 위해서는 [올바른 정보]와 [잘못된 개념]이 모두 다 작업 기억에서 활성화되어야 한다. Often, scientific explanations are counterintuitive to the naïve ideas and experiences of the learner (as in the case of the learning style myth), which makes it particularly necessary to elaborate on the reasoning behind the scientific explanation and have learners actively contrast it with naïve conceptions. The correct information and the misconception should be coactivated in working memory in order for them to be changed.12
이것을 하기 위한 하나의 유망한 접근법은 'refutation'를 사용하는 것이다. 반박 텍스트는 올바른 과학적 지식에 대한 설명과 학습자의 오해에 대한 명백한 거절을 결합한다. 이는 종종 다음과 같은 형태로 나타납니다. One promising approach to doing this is to use ‘refutations.’ Refutation texts combine an explanation of correct scientific knowledge with an explicit rejection of learners’ misconceptions. This is often in the form of:
어떤 사람들은 X라고 생각해요. 그러나 이는 사실이 아닙니다/이 가정에 대한 증거가 없습니다. 대신, Y'에 대한 증거가 있다(Y에 대한 자세한 설명이 뒤따른다). ‘Some people think X. However, this is not true/there is no evidence for this assumption. Instead, there is evidence for Y’ (followed by a detailed explanation of Y).
반박의 통합은 정확한 과학적 정보 및 설명과 능동적인 대조를 촉진하여 잘못된 개념이 거부되고 올바른 정보가 내재화될 가능성을 증가시킨다. 반박 텍스트refutation text는 또한 메타 이해의 정확성을 향상시키기 위해, 학생들이 학습 자료와 더 적극적으로 상호작용하게 만든다(즉, 학습자의 이해에 대한 자기 평가). 그리고 새롭게 얻은 지식의 다른 맥락으로의 전달을 증가시킨다.
The incorporation of the refutation encourages active contrasting with the correct scientific information and explanation and thereby increases the chance that misconceptions will be rejected and the correct information internalised.13 Refutation texts have also been observed to make students interact more actively with the learning material, to improve the accuracy of meta-comprehension14 (ie learners’ self-assessments of their understanding), and to increase the transfer of newly gained knowledge to other contexts.15
단순히 학생들의 개념적 변화를 촉진하는 데 유용한 것이 아니라, 그러한 연구 결과는 우리의 과학적 글쓰기의 발표가 우리의 독자들에게 개념적 변화를 더 용이하게 할 수 있는 방법을 제안합니다. 예를 들어, Dale의 학습 피라미드에 대한 증거를 반박하는 Masters의 초록 말미의 명백한 메시지는, 만약 그것이 다음과 같이 시작된다면, 훨씬 더 영향력이 있을 것이다. 어떤 사람들은 [학습자들이 강의에서 들은 것의 10%를 기억한다]고 생각합니다. 그러나 이에 대한 증거는 없다.' Rather than simply being useful for facilitating conceptual change in students, such findings suggest ways in which the presentation of our scientific writing might better facilitate conceptual change in our readers. For example, perhaps the explicit message refuting the evidence for Dale's pyramid of learning, as stated by Masters7 at the end of his abstract, would be made even more influential if it started with: ‘Some people think that [learners remember 10% of what they hear from lectures]. However, there is no evidence for this.’
만약 학생과 교사가 [학습에 대해 가지고 있는 잘못된 가정]이 [반박]을 통해 명백하고 광범위하게 다루어져야 한다면, 우리의 연구 활동도 마찬가지로 집단 개념화를 바꾸기 위한 수단으로 반박을 통합하기 시작해야 할 가능성이 높다. If the erroneous assumptions students and teachers hold about learning must be tackled explicitly and extensively through refutations, then so too is it likely that our research activities must similarly begin to incorporate refutations as a means through which to change our collective conceptualisations.
학생들의 [사전 지식]과 [사전 지식에 있을 수 있는 오류]를 인식하는 것은, 우리의 가르침이 학생들의 지식 적응과 구성에 미치는 영향을 최적화하기 위한 [전제 조건] 단계이다; 이는 우리 분야에서도 마찬가지일 것이다. Becoming aware of students’ prior knowledge and the possible errors it contains is a prerequisite step to optimising the effect our teaching has on students’ knowledge adaptation and construction; it is similarly likely to be a prerequisite step towards doing the same for our field.
Med Educ. 2020 Jan;54(1):6-8.
doi: 10.1111/medu.14028.
Debunking myths in medical education: The science of refutation
de Bruin argues that efforts to eradicate erroneous assumptions students and teachers hold about learning requires refutation, a process that combines both correct scientific knowledge and rejection of misconceptions.
의학교육에서 이론과 신화: 무엇을 가치있게 여기며, 누구에게 복무하는가? (Med Educ, 2019) Theories and myths in medical education: What is valued and who is served? James Brown1,2 | Debra Nestel1,3
그들의 글에서 마르티미아나키스 등은 우리 세계에 대한 구시대적인 설명 이상으로 신화를 주장한다. 그들은 신화를 단순히 설명적인 해석을 제공하는 것 이상의 [사회적 목적을 충족시키는 공유된 담화]라고 생각한다. 이러한 용도는 다음과 같습니다. In their article Martimianakis et al.1 position myths as more than dated explanations of our world. They identify myths as shared narratives that fulfil social purposes well beyond simply providing explanatory interpretations. These purposes are:
• 공유 의미 만들기 • Shared meaning making • 가치와 이념을 전달하기 위한 수단 • A vehicle for values and ideologies • 사회 권력 구조를 유지하는 수단 • A means of maintaining social power structures
그들은 또한 [신화 파괴] 그 자체조차 [의학교육 공동체 내에 존재하는 신화]에 바탕을 둔 활동으로 간주한다. 즉, 의학 교육을 [검증 가능한 진실에 객관적으로 접근하고, 사실이 의미보다 중시되고, 물리과학이 사회과학보다 우월한 위치에 있는 자연과학]으로 간주한다는 신화이다. Martimanakis 등은 우리가 의학교육이 가지고 있는 교리를 신화로 생각할 때, 우리는 그들의 설명 기능뿐만 아니라 사회적 기능도 탐구해야 한다고 권고한다. 이렇게 함으로써, 우리는 우리의 "과학적" 설명뿐만 아니라 의미 형성, 가치, 그리고 정치를 비평의 대상으로 삼을 수 있다. They also position myth busting as an activity that is itself based on a myth held within our community of medical education. That is, the myth that places medical education as a natural science with an objective approach to truths that are verifiable, where facts are valued over meaning, and physical sciences are positioned as superior to social sciences. Martimianakis et al. recommend that, when we consider tenets held by medical education as myths, we should explore their social function as well as their explanatory function. In doing this, we can subject our meaning making, values and politics to critique as well as our “scientific” explanations.
Hodges와 Kuper에 따르면 [교육 이론]은 "의미있는 전체로서 전달되는 일련의 문제에 대한 체계적이고 체계적인 표현"으로 정의된다.2 이것은 본질적으로 [사회적으로 공유된 이야기]입니다. An educational theory is defined by Hodges and Kuper as an “organised coherent, and systematic articulation of a set of issues … communicated as a meaningful whole”.2 This is essentially a socially shared narrative.
최근 발간된 "잃어버린 인물 이론?"이라는 글에서 우리는 신화의 사회적 기능을 바탕으로 교육 연구 저술에서 교육 이론의 기능에 대한 조사를 틀에 넣었다.3 우리는 [신화]를 [오랜 세월 동안 인간의 경험으로 울려 퍼졌기 때문에, 힘과 지속성을 가진 나레이션된 사회적 은유]라고 위치시킨 조셉 캠벨의 작품을 이용했다.4 우리는 이론의 한 가지 기능은 [의미를 공유하는 매개체]가 된다는 것을 발견했습니다. 이것은 특히 강력한 현대적 currency를 가진 중범위 이론middle range theories5의 경우였다.
In our recently published article, “Theory, a lost character?”, we drew on the social function of myth to frame our investigation into the function of educational theory in educational research writing.3 We drew on Joseph Campbell's work, which positions myths as narrativised social metaphors that have power and persistence because they have resonated with human experience over time.4 We found that one function of theory was to be a vehicle for shared meaning making. This was particularly the case with middlerange theories5 that have strong contemporary currency.
그러한 이론들을 공유된 서술로, 따라서 신화로 보는 것이 도움이 된다. 이러한 세 가지 중범위 이론은 다음과 같다:
성인 학습의 원리,
실천 공동체 이론
역량 기반 교육 이론화.8
It is helpful to view such theories, as shared narratives and therefore as myths. Three such middlerange theories are:
the principles of adult learning6,
communities of practice theory7, and
competency-based education theorising.8
그렇다면 그들이 지니고 있는 공유된 의미, 그들이 지지하는 가치, 그리고 그들이 봉사하는 정치적 구조는 무엇인가? what then are shared meanings that they carry, the values they support and the political structures they serve?
Knowles에 의해 기술된,6 [성인 학습의 원칙]은 Rogers의 인본주의적 사고와 일치한다. 성인 학습 이론의 주장의 타당성에 대해 의문을 제기하는 많은 저술이 있지만, 11 그것은 의학 교육 연구와 실습을 위한 프레임으로 남아있다. 의대 교육 어휘에서 "성인학습 이론"은 [학습자 중심성]이라는 아이디어를 공유하기 위한 운송수단shared vehicle이 되었다.3 Described by Knowles,6 the principles of adult learning align with the humanistic thinking of Rogers.9,10 Although much has been written questioning the validity of the claims of adult learning theory,11 it persists as a frame for medical education research and practice. In the medical education lexicon, “adult learning theory” has become a shared vehicle for the idea of learner centredness.3
이러한 이론은 [개인의 자율성]에 높은 가치를 두며, 교육은 [개인의 "자기실현"을 위한 고유 능력]을 촉진한다고 간주한다. 그렇게 함으로써, 성인학습이론은 개인에 대한 존중을 요구한다. 개인의 이러한 입장은 민주주의와 자본주의 이데올로기와 권력 구조를 유지하는 데 모두 도움이 되며, 개인이 market으로 간주되고, 개인은 자신의 상황에 대한 책임이 있다고 여김으로써, 권력을 쥐고 사회 정책을 결정하는 사람들의 무죄를 입증한다. This theorising puts high value on individual autonomy and positions education as facilitating the individual's inherent capacity to “selfactualise”. In doing so, it demands respect for the individual. This positioning of the individual serves both democratic and capitalist ideologies and power structures where the individual is viewed as a market and is attributed with responsibility for their situation, thus exonerating those who hold power and determine social policy.
벵거의 [실천 공동체 이론]은 사회주의적 사고에 의해 상당히 영향을 받는 사회 구조와 사회 행동의 논리에 기초한다. "실천 공동체"라는 문구는 의학교육 연구 및 실천 언어의 일부가 되었으며, [공동의 목적을 가지고 함께 일하는 집단]이라는 공유된 생각을 전달한다.3 이 이론은 [학습자와 학습자가 참여하는 실천 공동체 사이의 인터페이스]에 초점을 맞추면서 [학습의 사회적 맥락]이라는 관점을 취한다. 참여, 관여 및 의미 부여는 가치있게 여겨지고 특별하게 여겨진다. 이 이론은 학습을 생산 공동체community of production의 사업으로 전경하고 있으며, 이는 시간이 지남에 따라 제공되고 형성된다. 또한 개별 행위자individual agency보다 사회 구조social structure를 우선하여 정체성의 사회적 특성을 개념화할 수 있는 수단을 제공한다. 이데올로기적이고 정치적인 관점에서, 실천공동체 이론은 우리 사회를 구성하는 [사회적 생산단위의 요구]를 우선시하며, 특히 이러한 [생산단위를 담당하는 사람들의 의제]에 복무한다. 이러한 관점은 공동체 실천의 객체object에 대해서는 거의 고려하지 않는데, 의료 공동체에서 그 객체는 바로 환자이다.9 Wenger's theory of communities of practice draws on treatises of social structure and social action that are significantly influenced by socialist thinking.7 The phrase “communities of practice” has become part of the language of medical education research and practice, to carry the shared idea of groups working together with a common purpose.3 This theory takes the perspective of the social context of learning, focusing on the interface between the learner and the community of practice in which they are engaged. Participation, engagement and meaning making are valued and privileged. The theory foregrounds learning as the business of communities of production, which it both serves and is shaped by over time. It also offers a means to conceptualise the social nature of identity, preferencing social structure over individual agency. From ideological and political perspectives, communities of practice theory gives priority to the needs of the social units of production that make up our society and serves particularly the agendas of those in charge of these units of production. This perspective gives little consideration to the object of the community's practice, which in medical communities is the patient.9
[역량 기반 교육]은, [학습자를 목표된 개입을 통해 변화될 수 있는 대상]으로 보는, 교육에 대한 기계적인 관점을 가진 과학적 환운주의에서 비롯된다.8,12 의학교육 담론에서 "역량 기반 교육"은 합리성과 구조에 대한 아이디어를 담고 있다. 이 이론적 접근법은 [효율성과 책무성]을 중시하므로, [프로세스보다 결과를 우선시]하고, [주관적인 것보다 객관적인 것]을 우선시합니다. 역량 기반 의학에서의 담론은 데카르트어인 바이오의학을 사용한다. 정치적인 관점에서, 역량기반교육은 (관계의 맥락에서 학습자 동기 부여와 의미 형성의 복잡성을 다루기를 회피하는) 단순화된 기계론적 모델을 제공함으로써 교수진들에게 복무한다. 또한 교육의 자금 제공자와 제공자에게 도움이 되는 효율성과 비용 절감에 대한 논의와도 부합합니다.2 Competency-based education comes from scientific reductionism with a mechanistic view of education where the learner is an object that can be changed through targeted interventions.8,12 In medical education discourses, “competencybased education” carries the idea of rationality and structure. This theoretical approach values efficiency and accountability and therefore prioritises outcomes over process and the objective over the subjective. Discourse in competency[based medicine uses the Cartesian language of biomedicine. From a political perspective, this serves faculty members by providing a simplified mechanistic model that avoids dealing with the complexity of learner motivation and meaning making in the context of relationships. It also fits with the discourse of efficiency and cost reduction that serves the funders and providers of education.2 Bordage3는 각기 다른 이론적 관점은, [이론의 설명적 기능에 있어서 하나가 다른 것보다 더 옳고 그른 것이 아니라], 각각 다른 것에 대해 다른 렌즈를 제공한다고 주장한다. 우리는 사회적 내러티브로서 이론이 다른 가치와 힘의 중심을 위한 다른 매개체 역할을 한다고 제안한다. 이런 점에서 그들은 옳지도 그르지도 않고, 오히려 무엇이 가치 있고 누구의 이익이 위태로운지를 들여다 볼 수 있는 수단을 제공한다. 이론이 관점이 아닌 진리로 제시될 때 비로소 헤게모닉 도구로서 문제가 된다. Bordage3 puts forward that different theoretical perspectives, rather than being more right or wrong in their explanatory function, each provide a different lens on different things. We suggest that as social narratives, theories also serve as different vehicles for different values and different centres of power. In these respects, they are also neither right nor wrong, rather, they provide the means for a window into what is valued and whose interests are at stake. It is only when theories are held up as truisms, rather than perspectives, that they become problematic as hegemonic tools.
결론적으로, 마르티미아나키스 등이 이야기한 것처럼, 신화의 사회적 기능을 더 앞으로 드러내는 것foregrounding이 중요하다. 그것은 의학 교육 신념에 대한 비판을 그들이 주장하는 것 이상으로, 특정한 가치와 권력의 중심을 지지하기 위해 그들이 하는 일을 고려하는 것으로 확대한다. 우리는 [교육 이론도 신화의 한 가지 형태로 간주함으로써], 신화를 통한 특정한 신념에 대한 조사를 확장하였다. 이론은 설명적인 기능을 가지고 있고, 또한 [특정한 가치]와 [특정한 정치적 구조]를 유지하는 [공유된 담화]를 제공한다. In conclusion, Martimianakis et al.'s foregrounding of the social function of myths is important. It expands the critique of medical education beliefs, beyond what they claim, to considering what they do to support certain values and certain centres of power. We have extended their examination of specific beliefs as myths to considering educational theories as forms of myths. Theories have an explanatory function and they also provide shared narratives that sustain particular values and particular political structures. 우리는 신화가 의학 교육에서 "참을 수 없는 필요성" 이상이라고 주장한다; 그것들은 의학 교육계의 사회적 구조의 중요한 부분이다.
We contend that myths are more than an “unbearable necessity” in medical education; they are an important part of the social fabric of the medical education community.
3. Brown J, Bearman M, Kirby C, Molloy E, Colville D, Nestel D. Theory, a lost character? As presented in general practice education research papers. Med Educ. 2019;53(5):443-457.
Med Educ. 2020 Jan;54(1):4-6.
doi: 10.1111/medu.14003.
Theories and myths in medical education: What is valued and who is served?
신화와 사회적 구조: 참을 수 없는 집합적 신화의 필요성 (Med Educ, 2020) Myths and social structure: The unbearable necessity of mythology in medical education Maria Athina (Tina) Martimianakis1 | Jon Tilburt2 | Barret Michalec3 | Frederic W. Hafferty4
1 | 도입 1 | INTRODUCTION
의학 교육에서, 사람들이 어떻게 학습에 대한 특정한 행동과 태도를 발전시키는지를 포함하여, 어떻게 학습하는지에 대하여 과학에 기반을 둔 이해는 의료 훈련의 조직에 필요한 정보를 제공합니다. 과학의 정신으로 운영되기에, 의학 교육자들은 그들의 교육 작업이 과학적인 신화 (또는 거짓)에 근거하는 것을 꺼린다. 이러한 지식의 "신화" 및 이와 관련된 잘못된 관행을 밝히는 것은 낭비적이고 위험한 학술활동으로부터 자원과 관심을 피하는 데 도움이 됩니다. In medical education, scientifically based understanding of how people learn, including how they develop certain behaviours and attitudes towards their learning, provides necessary information for the organisation of medical training. When operating in the ethos of science, medical educators are reluctant to base their educational work on scientific myths (or falsehoods). The debunking of such knowledge “myths” and associated misguided practices serves to avert resources and attention from wasteful and dangerous scholarship.
간단히 말해서, 비록 신화가 과학의 진보를 방해하지만, 그것들은 여전히 사회적, 정치적 기능을 가지고 있다. 우리가 이러한 신화들의 대체 기능을 연구할 때, 우리는 현대 사회 문화적, 정치적 배열arrangement이 의학 교육을 변화시키는 우리의 역량에 어떻게 방해가 되는지 더 잘 이해할 수 있다. Put simply, although myths interfere with the progress of science, they still have social and political functions. When we study these alternative functions of myths we can better appreciate how contemporary sociocultural and political arrangements interfere with our capacity to transform medical education.
지식 분야는 [어떤 지식이 중요하게 여겨지는지에 대한 공유된 가치 시스템]을 구축함으로써 통해 [사회적 조직]을 이룹니다. 이런 의미에서 모든 정신은 신화를 내포하고 있다. 즉, 모든 윤리적 시스템은 인간의 본성, 자유, 선과 악, 그리고 우주의 작용에 대한 가정을 밝히는 몇 가지 근본적인 이야기에 의존한다. Knowledge fields achieve social organisation through the establishment of a shared value system in relation to what counts as knowledge. In this sense, “[e]very ethos implies a mythos. That is, every ethical system depends upon some fundamental story disclosing its assumptions about human nature, freedom, good and evil, and the workings of the universe”.1
의학, 더 나아가 의학 교육은 "[신화의 규칙]에 따라" 운영되는데, 이 규칙은 "우리의 질서와 안보는 우리 자신에 대한 관심과 과학적인 조사로부터 비롯된다"고 주장한다. Medicine and, by extension, medical education operate “under the rules of a myth,” which claims that “our order and our security stem from interest in and scientific investigation of ourselves as matters of great importance”.2
이것이 [과학의 규범적 차원normative dimension of science]입니다. 신화는 [사고 및 사회 조직]을 생성하기 때문에 사회적 상호작용과 조직을 위한 도관conduit이다. 이처럼 신화는 '끝없이 펼쳐지고' '놀라운 해석과 환생에 열려 있다'는 것이다. 의학 교육에 종사하는 사회 과학자들에게, ["과학"이나 다른 "신화"의 규범적인 기초 위에 전제된] 아이디어와 실천은 많은 중요한 (의학교육) 주제로의 진입점으로서, 예를 들어 그 분야가 무엇을 지식으로 여기는지, 그리고 교육 개혁을 위해 시간과 에너지를 어떻게 어디에 투자해야 하는지 등이 포함된다.
This is the normative dimension of science. Because mythologies create systems of thinking and social organisation (whether they are premised on purported scientific thinking or other accepted value systems), they are conduits for social interaction and organisation. As such, myths are “endlessly unfolding” and “open to amazing interpretation and reincarnation”.3 For social scientists working in medical education, ideas and practices that are premised on the normative underpinnings of “science” or other “mythologies” are entry points to a number of important topics, including how the field comes to appreciate what counts as knowledge, and how and where to invest time and energy for education reform.
이러한 이유로, 우리는 비판적인 서술 방식을 채택했다. 이러한 접근법에 따라, 우리는 의학교육 문헌에서 [신화와 신화 깨부수기myth busting]에 대한 오리엔테이션을 찾았고, 과학의 사회학과 Merton의 명시적 기능과 잠재적 기능에 대한 개념으로부터 분석적으로 끌어낸 이 문헌을 검토했다.
For these reasons, we employed a critical narrative approach.4 Consistent with this approach, we searched the medical education literature for orientations to myths and myth busting, and reviewed this literature analytically drawing from the sociology of science and Merton's concepts of manifest and latent functions.5
우리의 접근방식은 신화 및 신화 버스트에 대해 알려진 것에 대한 철저한 분석을 실시하지 않았다는 점에서 체계적인 검토와 다르다. 대신 우리는 "의대 교육의 모든 신화는 자동적으로 무너질 가치가 있다"는 가정에서의 의도하지 않은 결과를 탐구했고, 이 입장을 문헌의 대표적인 사례로 뒷받침했다.
Our approach differs from a systematic review in that we did not conduct an exhaustive analysis of what is known about myths and myth busting. Instead, we explored the unintended consequences of assuming that “all myths in medical education automatically deserve to be busted”, and supported this position with representative examples from the literature.
2 | "신화"의 어원과 신화를 만드는 사회적 기능 2 | THE ETYMOLOGY OF “MYTH” AND THE SOCIAL FUNCTION OF MYTH-MAKING
"신화myth"라는 용어는 그리스 단어인 Mythos와 현대 라틴 신화에서 직접 유래했습니다. 그것은 사회적 또는 자연적 현상에 대한 설명, 원인론, 정당성을 제공하는 전통적인 이야기, 전설, 민속 또는 설화를 담고 있다.7 그것은 또한 [사실이 아니거나 잘못된 믿음, 널리 받아들여지는 오해, 진실의 잘못된 표현 또는 허구의 무언가]라는 의미를 내포하고 있다.7 두 번째 의미는 첫 번째 의미와 밀접한 관련이 있습니다. 19세기에 이르러, [과학의 발흥]은 "신화의 죽음"을 의미하는 것으로 생각되었다.8 그리고 과학적 결과물work of science 안에서, 우리가 현재 신화라고 부르는 이야기들은 [순진한 것 또는 잘못된 설명]이라는 속성을 갖기 시작했고, 따라서 "우리가 관심을 갖는 사실과는 무관한 것"으로 인식되었다. The term “myth” stems directly from the Greek word mythos and from the modern Latin mythus. It connotes a traditional story, legend, piece of folklore or tale that provides an explanation, aetiology or justification for social or natural phenomena.7 It also connotes an untrue or erroneous belief, a widely held misconception, a misrepresentation of the truth, or something fictitious.7 The second meaning is closely associated with the first. By the 19th century, the rise of science was thought to spell “the death of myths”.8 In turn, and within the work of science, the stories we now call myths began to take on the attributes of naïve or erroneous accounts and thus were perceived to have “no relevance where facts [we] re concerned”.9
[(거짓 이야기나 설명으로 취급되는) 신화]는 [(이 세상이 어떻게 기능하는지에 대한 객관적이고 검증 가능한 진리를 찾는) 자연과학자들]에게는 거의 가치가 없는 것으로 여겨진다. 과학자로서, 의사들은 "질병을 다른 자연 현상과 유사한 방식으로 바라볼 수 있도록" 훈련받았고, 그 결과 "가장 보편적이거나 가장 일반적인 질병이 가장 중요한" (위계라는 관점에서의) 근거를 지향한다. 다양한 의학 이론, 주장, 관행 또는 치유적 전통을 "신화"라고 부르는 것은 의학 교육의 노화와 진보를 나타내는 지표 역할을 한다. 토마스 쿤의 의미에서, [신화 깨부수기myth busting]은 지식을 창출하는 분야의 자연스러운 운영방식이다. [새로운 과학적 발견]은 [현재의 사고 방식]로부터 충분한 분열disjuncture을 만들내고, 이를 통해 (그 분야의 기능을 유지하고, 기존의 잘못된 설명을 없애기 위한) 패러다임 전환이 필요해지게끔 만든다. 이것은 현대 의학의 기원 이야기origin story이자, 의학교육도 이 연장선상에 있다.
Treated as false stories or explanations, myths are seen as holding little value for natural scientists looking for objective, verifiable truths about how the world functions. As scientists, physicians are trained to “view disease in a similar way to other natural phenomena”10 and as a result are oriented towards evidence in hierarchical terms in which “that which is most universal in its application or most general in its import, is the most significant”.2 The labelling of various medical theories, claims, practices11-14 or healing traditions15,16 as “myths” functions as a marker of senescence and progress in medical education.17-21 In the Kuhnian sense,22 myth busting is a natural operation of knowledge-generating fields, whereby new scientific discoveries produce enough disjuncture in the current way of thinking to necessitate a paradigm shift to maintain the function of the field and to rid it of erroneous former explanations. This is the origin story of modern medicine and by extension of medical education.
의학과 의학교육을 포함한 많은 문화들이 기원 스토리origin stories를 구성한다. 이러한 기원 스토리가 특정 문화에서 어떻게 기능하는지는 다양합니다. 신화의 내용을 고려하는 것만으로는 충분하지 않다. [신화의 의미]는 다음과 같은 [언제, 누구에 의해서, 어떤 목적으로 그 신화가 받아들여지는지]와 같은 사회적 기능도 포함한다. 사람들은 신화의 의미를 동시에 그리고 반복적으로 해석하면서 공동 창작을 합니다. [무언가를 신화화하는 것mythologising]은 우리가 세계와의 교류를 체계화하고, 우리가 되어가는becoming 방법을 협상할 수 있게 해준다. 간단히 말해서, 신화는 진공 속에 존재하는 것이 아니다; 그것들은 종종 더 큰 사회 문화적, 정치적 지형의 특정한 측면을 반영한다.
Many cultures, including those of medicine and medical education, construct origin stories. How these origin stories function in specific cultures varies. It is not enough to consider the content of a myth. The meaning of a myth also includes its social function: when it is taken up, by whom and for what purpose. People co-create while simultaneously and iteratively interpreting the meaning of myths.23 Mythologising allows us to organise our engagement with the world and to negotiate ways of becoming. In short, myths do not exist in a vacuum; they often reflect certain aspects of the larger sociocultural and political landscape.
인간의 추론과 인지가 자신 및 타인의 신체와 분리되어 기능한다는 이론인 데카르트 이분법Cartesian split은 "질병은 그 질병을 가진 사람과 분리되어 고려할 수 있다"는 개념을 가능하게 한다. [환자의 의미 형성과 그들의 건강 경험을 해석하기 위한 몰입]은 (이러한 데카르트 및 생의학적 신화에 의해 강화되어) 의학의 문화에서 여전히 "기타other"로 간주되고 있다. The Cartesian split, a theory which holds that human reasoning and cognition function separately from the bodies of themselves and others, makes possible the notion that “disease can be considered as separate from the person with it”.23 Reinforced by this Cartesian/ biomedical mythology, immersion in the meaning making of patients and the interpretation of their health experiences, is still regarded as “other” in the culture of medicine.
이와는 대조적으로 사회과학 및 인문학(인류학, 심리학, 철학, 종교학, 정치학, 사회학)에서는 신화가 [과학적으로 타당한지 여부]에 관계없이, 사회발전의 이해를 위한 포털을 만드는 것으로 보고 있다.* 유통되는 신화, 특히 "정체가 폭로debunk"된 후에도 지속되는 신화는 사회적 기능을 계속 수행하고 있을지도 모른다. 신화는 [신념을 공유]하게 만들며, 그 과정에서 특정한 실천을 둘러싼 [사회적 안정, 정체성 형성 및 공동체]에 기여합니다. 더크하임은 다음과 같이 쓰고 있다. "모든 신화는, 우리가 가장 불합리하다고 생각하는 것조차, 모두 믿어져 왔다. 사람들은 자신의 감각 못지 않게 신화를 굳게 믿어왔다. 사람들은 신화에 기초하여 행동했다."28
By contrast, the social sciences and humanities (anthropology, psychology, philosophy, religious studies, political science and sociology)24-27 view myths as creating a portal to the understanding of social development regardless of whether the narrative is scientifically valid or not.* Circulating myths, especially myths that persist even after they have been “debunked”, may continue to serve social functions.24,26 Myths enjoin shared belief and, in the process, contribute to social stability, identity formation and community around specific practices.25,26 As Durkheim writes, “… all myths, even those which we find the most unreasonable, have been believed. Men have believed in them no less firmly than in their own sensations; they have based their conduct upon them.”28
"신화"라는 용어는 단순히 [거짓이 담긴 그릇]보다 훨씬 더 많은 것을 함축한다. "신화"는 "우리가 공유하고 있는 지적 문화의 일부로서 물려받은 아이디어와 신념"을 포함합니다.29 의학과 의학 교육은 그 자신의 origin story가 그러한 신화 중 하나를 대표한다. 즉, 중요한 지식은 오로지 인체와 (인지를 포함한) 인체의 작동에 대한 과학에 기반한 인식scientifically derived appreciation뿐이라는 것이다. 그 결과, 오늘날 의학 교육에 종사하는 사람들은, 비록 사회 과학과 인문학에 대한 지향을 업무에 포함시키고 싶어도, 과학주의scientism의 기대와 맞서 싸워야 한다. The term “myth” then entails much more than a container for falsehood. It encompasses “ideas and beliefs that we inherit as part of our shared intellectual culture”.29 For medicine and medical education, the origin story of their own fields represent one such myth: that the only knowledge that matters is scientifically derived appreciation of the human body and its operations, including cognition. Those working in medical education today, even if they aspire to include an orientation towards social science and the humanities in their work, must struggle against the expectations of scientism.
신화는 [의미, 문화, 이념을 전달하는 메커니즘]으로서, 심지어 과학과 의학이라는 enterprise에게까지도 전달한다. 신화는 [집단적 정체성]을 형성하며 ,"권력을 위해" 작동하는 사회적 관행social practice입니다.26 그렇기 때문에, 우리는 의학 교육에서 신화, 특히 신화 깨부수기myth busting에서 살아남은 신화를 연구하기 위한 공간을 보존해야 한다고 주장한다. 신화의 사회정치적 차원을 탐구하는 것은 [문화적 실천(의학)의 정체성]과 [그 실천(의학 교육)에 대한 문화적 적응acculturation의 구조, 과정 및 내용]에 대해 의문을 제기할 수 있게 한다. 우리는 그러한 연구가 교육 개혁에 필요한 뉘앙스를 가져올 수 있는 성찰적 교육의 실천으로 이어질 것을 제안한다. Myths, in the sense we are implying, are mechanisms for transmitting meaning, culture and ideology that extend even to the enterprises of science and medicine themselves. They are social practices that shape group identity and operate “in the service of power”.26 It is in this last sense that we argue for preserving space for the study of myths in medical education, particularly myths that survive myth busting. Exploring the sociopolitical dimensions of mythologies allows scholars to raise questions about the identity of a cultural practice (medicine) and the structure, processes and content of the acculturating to that practice (medical education). We propose that such study leads to a reflexive education practice that can bring needed nuance to education reform.
브라운은 "신화만들기mythmaking(이야기를 만들어내는 관행)는 변증법적으로 사회적 형성(생산 방식에 따라 그룹을 조직화하는 관행)과 관련이 있다"고 지적한다. 여기에는 [생산 방식으로서의 과학]도 포함됩니다. 비록 "의학medicine이 '과학'과 '예술'의 결합이라는 것은 널리 인정고 있지만… 의학의 과학science of medicine의 기초가 되는 가정은 거의 설명되거나 논의되지 않는다."
Brown notes that “myth-making—the practice of producing stories—is dialectically related to social formation—the practice of organising in groups based on modes of production”.30 This includes science as a mode of production: although it is “commonly accepted that medicine combines both ‘science’ and ‘art’… the assumptions underlying the science of medicine are rarely explicated or debated”.10
대신, 의학 그 자체의 고유한 기원 스토리origin story는 [두 갈래로 나뉘어진 방식]으로 기능하게끔 이 분야를 만들어왔다. [건강과 질병health and disease은 객관적으로 연구할 수 있는 "자연 현상"으로 접근]하는 반면, [돌봄care는 의사소통 또는 프로세스상의 문제conundrum]로 여겨진다. 이 과학의 신화와 너무 밀접하게 동일시된 나머지, 그 내러티브를 충족시킨다는 것은, 우리가 ["의사와 환자 사이의 상호작용"이 "질병의 결과에 영향을 미칠 것"으로 기대하지 않음]을 의미합니다. 더군다나 의학 교육에는 의학의 기본구조fabric에 너무 강하게 엮여진woven나머지, 신화깨부수기의 대상조차 되지 않는 신화도 있다.
Instead, medicin's own origin story has set up the field to function in a bifurcated way. Health and disease are approached and related to as “natural phenomena” that can be studied objectively, whereas care is thought to be a communication or process conundrum. Identifying with this science myth too closely, along with fulfilling its narrative, implies that we would not expect “the interaction between doctor and patient” to have “influence on the outcome of the disease”.10 Furthermore, there are myths in medical education that are not subject to myth busting because they are so strongly woven into the fabric of the field.
분야로서의 의학교육의 유래는 "의학은 과학이며, 따라서 세상에 대한 올바른 과학적 이해에 기초해야 한다"는 가정에 전제를 두고 있다. 하지만 의학은, 의학을 지배하는 지식의 신화에도 불구하고, "과학적인" 근거가 없는 신념을 계속 고집하고 있다. 예를 들어 '의학은 문화가 없는 문화'라는 믿음과 '과학의 객관성'과 '문화의 주관성'의 구별이 그것이다.
The origin story of medical education as a field is premised on the assumption that “medicine is a science, and as such should be based in a properly scientific understanding of the world”.29 Medicine, notwithstanding its dominant mythology of knowledge, continues to hold beliefs that have no “scientific” basis. For instance, the belief that “medicine is a culture of no culture” and the distinction between “the objectivity of science” and the “subjectivity of culture”,
의학 및 의학 교육에 대한 이러한 오랜 신념 체계를 문제화함problematising에 있어서, 우리는 [의학의 연구와 적용에 있어서 중립적이고 객관적인 과학적 지향과 실천을 유지할 수 있다]는 개념을 단순히 "깨부수고bust" 싶지는 않다. In problematising this longstanding belief system in medicine and medical education, we do not want to merely “bust” the notion that we can ever maintain a neutral, objective scientific orientation and practice in the study and application of medicine.
요컨대, 의학의 과학적이고 객관적인 현실을 영속시키는 신화들은 어떤 목적에 도움이 되며, 그 신화들을 밝혀내는 과정에서 우리가 잃을 수 있는 것은 무엇일까? 객관성과 주관성의 이진법을 대신할 수 있는, 이원론을 초월하는 이 분야의 기원 스토리를 재창조한다면 무엇을 얻을 수 있을 것인가?
In short, what purpose do myths that perpetuate medicine's scientific and objective reality serve and what might we lose in the process of debunking them? What might we gain if, instead of operating within a binary of objectivity and subjectivity, we were to transcend this dualism and reinvent the field's origin story?
3 의학교육의 신화만들기 사회학을 향하여 3 | TOWARDS A SOCIOLOGY OF MYTHMAKING IN MEDICAL EDUCATION
이 시점까지, 우리는 신화가 작용하는 기능은 그 공동체 구성원들에 의해 인식되거나 유효한 것으로 인식되지 않을 수 있으며, Merton의 [명시적 기능]과 [잠재적 기능]에 대한 개념을 상기시키는 포인트라고 주장해 왔다.5
[명시적 기능]은 명시되고 인정된 객관적 결과, 즉 [조직과 사회 시스템의 안정]이라는 의도된 목적을 가진 사회 운영의 차원을 나타낸다.
반대로, [잠재적 기능]은 시스템의 참가자가 명시적으로 의도하거나 인식하지 못하는 관측 가능한 효과이다. [잠재적 기능]은 의도하지 않았더라도, 시스템의 안정성에도 도움이 될 수 있습니다.
Until this point, we have argued that the function a myth comes to play may be other than that appreciated or recognised as valid by members of that community, a point that reminds us of Merton's concepts of manifest and latent functions.5
Manifest functions represent stated and recognised objective consequences, namely, dimensions of social operations that have an intended purpose in the organisation and stability of a social system.5,6
Conversely, latent functions are observable effects that are neither explicitly intended nor recognised by participants in the system. Latent functions, although unintended, may also serve in the stability of a system.
Merton은 [명시적 기능과 잠재적 기능을 휴리스틱하게 구별하는 것]은 사회학자들이 "(명백한 목적이 달성되지 않았음에도 불구하고 유지되는) 일견 비합리적으로 보이는 사회적 패턴을 명확히 할 수 있게 해준다"고 주장했다. 머튼은 아메리카 원주민들의 레인댄스 의식ritual의 예를 제시했다. 그는 비록 우리가 과학적으로 레인댄스 의식의 명백한 기능을 탐구할 수 있고, 그것이 거짓으로 전제된 것이라고 결론지을 수 있지만, 그러한 의식ritual의 잠재적 기능에 대한 조사를 통해 그들의 "공언된 목적avowed purpose"을 넘어, 미국 원주민 인식론, 문화, 정체성, 의미 형성의 보존에 있어서 이러한 의식이 수행하는 역할을 밝혀낼 수 있을 것이라고 언급했다.
Merton argued that distinguishing between manifest and latent functions heuristically allows sociologists to clarify “seemingly irrational social patterns [italics in original]. … which persist even though their manifest purpose is clearly not achieved”.5 Merton offered the example of Native American rain dance rituals. He noted that although we can scientifically explore the manifest function of the rain dance ceremony and conclude that it is falsely premised, an investigation of the latent functions of such rituals might uncover the roles played by these rituals, beyond their “avowed purpose”, in the preservation of Native American epistemologies, culture, identities and meaning making.5
즉, 신화는 [명시적 기능]과 [잠재적 기능]을 모두 가지고 있을 수 있다. In other words, myths may have both manifest and latent functions
Latour와 Woolgar가 우리에게 보여주었듯이, 과학적 작업work은 [사실]과 [사실에 대한 규범적인 구조]를 갖춘 사회 활동입니다. 이러한 [사실에 수반되는 사회적 구조, 정체성, 경제성]을 인정하지 않고 [특정 사실의 타당성]에만 문제를 제기challenge한다면, 우리는 '부분적 진실'만을 전파하게 될 것이며, 의료 교육과 실천을 혁신하려는 노력은 오히려 훼손될 것이다. [명시적 기능]과 [잠재적 기능]을 구분하고자 할 때, 연구자는 왜 명백한 근거가 있음에도 불구하고 소위 신화가 계속 존재하는 이유를 질문해야 한다.
As Latour and Woolgar have shown us, in considerable detail, scientific work is a social activity replete with the normative structures for relating to facts as facts.33 When we challenge only the validity of particular facts without appreciating the social structures, identities and economies that accompany these facts, we run the risk of propagating “partial truths” and undermining our efforts to transform medical education and practice. Making a distinction between manifest and latent functions challenges the researcher to ask why, in the face of evidence (the proposed truth narrative), so-called myths continue to exist.
다음 항목에서는 이러한 접근 방식이 의료 업무 및 의료 교육의 복잡성을 이해하는 데 어떻게 도움이 되는지에 대한 몇 가지 예를 제공합니다. In the following subsections we offer some examples of how this approach can help us appreciate the complexity of medical practice and medical education.
3.1 | "이상적 후보"의 신화 3.1 | The myth of the “ideal candidate”
의학 교육에서 엄격하고 까다로운 입학 과정(그리고 의과대학 입학과 관련된 다양한 요건)은 의학을 위한 최고의 지원자를 선정하기 위한 것이며, 따라서 명백한 관문 활동gatekeeping activity으로 운영된다. 입학 과정을 둘러싼 다양한 증거와 신화는 입학 선택과 입학 과정에 다양한 영향을 미친다. In medical education, the rigorous and demanding admissions process (and various requirements associated with medical school admissions) is intended to select the best possible candidates for medicine and thus operates as a manifest gatekeeping activity. A variety of evidence and myths that surround the admissions process variably influence matriculate choices and admission processes.
예를 들어, 우리가 입학 전 전공분야의 준비도disciplinary preparation에 근거하여 '이상적 후보'를 선택할 수 있다는 증거는 거의 없다. 이런 이유로 많은 의과대학들이 과정 선수조건course prerequisites을 없앴다. 그러나 입학 과정의 [잠재적 기능]은 ["일부 형태의 준비"를 다른 것보다 더 관련성이 있는 것으로 규범화하는 것]이며, 종종 [의과대학에서 찾고 있는 "이상적인 후보"와 관련된 이야기를 퍼뜨리는 것]입니다. 이처럼 "중요한 것과 중요하지 않은 것"의 구분은 이르면 고등학교 때 학습자 결정에 영향을 미치며 의료 훈련 내내 지속됩니다. For example, there is little evidence to suggest that we can select for an “ideal candidate” based on previous disciplinary preparation. For this reason, many medical schools have eliminated course prerequisites. However, a latent function of the admissions process is the normalisation of “some forms of preparation” as being more relevant than others, often propagated on circulating stories related to what schools are looking for in an “ideal candidate”. These distinctions of “relevant and irrelevant” educational preparation influence learner decisions as early as during high school and continue throughout medical training.
[의과대학에서는 생물학과 다른 생명과학에서 뛰어난 학생을 찾는다]는 개념은 적응장애를 일으키는 행동을 낳는다. 예를 들면, 자신의 커리어에서 위험을 감수하고자 하지 않는 학생들이 [사회과학 및 인문학적 지식(또는 "대체" 지식의 종류)을 버리고 때로는 완전히 평가 절하하는] 것이다. The notion that medical schools are looking for students who are exceptional in biology and other life sciences results in maladaptive behaviours, including the jettisoning and sometimes outright devaluing of social science and humanities knowledge (or any kind of “alternative” knowledge) by students who are not willing to risk their career success.34
많은 의과대학 입학 페이지에 명료하게 나와 있는 것과 정반대의 증거에도 불구하고 '생명과학적으로 준비된 이상적인 지원자'라는 신화가 지속되는 이유는 무엇일까. "이상적 지원자"에 대한 신화는 지속되는데, 이 이야기들은 의과대학 입학 과정의 [명확한 공식 구성 요소 밖]에서 작동하는 지식, 태도, 행동 및 실습의 전달을 통해 학생들에게 전달되기 때문입니다. Why does the myth of an “ideal candidate, who is biomedically prepared” perpetuate even in the face of evidence to the contrary that is clearly spelled out on many medical school admission pages?35-37 Myths of an “ideal candidate” persist because these stories are part of medical education's hidden curriculum38 and are received by students through the transmission of knowledge, attitudes, behaviours and practices that function outside the articulated formal components of the medical school admissions process.
단순히 학생들에게 그런 이야기들이 사실이 아니라고 말하는 것만으로 신화가 사라지지는 않았다. 이러한 신화의 [잠재적 기능]은 (조직화된 의학교육에서 아무리 부인하더라도) 의료 분야에서 생체의학적 접근 방식을 영속화하는 것이다. 입학전형은 정교한 지식과 기술의 숙달로 구분되는 엘리트 직종으로 의료계를 대표하는 것에서 도출되는 사회적 자본의 재생산과 강화에 기여한다. 실제로, 현재 입학 과정에 관여하고 있는 대부분의 교수진과 직원들은 기초 과학 경력이 없는 사람들이 "훌륭한 의사"가 되지 않을 것이라고 생각하도록 훈련을 받는다. 입학 전형을 바꾸는 것은 또한 이미 확립된 정체성을 위협할 것이며, 학생들이 "이상적 지원자"가 될 수 있도록 준비시키면서 많은 돈을 버는 교육-관련 경제를 위협한다.
Simply telling students that such stories are untrue has not dispelled the myths. The latent function these myths serve to perpetuate is a biomedical approach in health care even in the face of organised medical education's disclaimers. The admissions process contributes to the reproduction and reinforcement of the social capital to be derived from the representation of the medical profession as an elite profession distinguished by the mastery of a sophisticated body of knowledge and skills. Indeed, most faculty and staff currently involved in admissions processes are trained to think that individuals without a basic science background will not be “good doctors”. Changing admissions processes also threatens established identities and education-associated economies that make a lot of money out of preparing students to be “ideal candidates”.
3.2 | "cut-throats"의 신화 3.2 | The myth of “cut-throats”
피터 콘래드는 pre-medical school의 학생 문화를 연구하기 시작했으며 브랜다이스 대학의 pre-medical school의 학생들 사이에서 확인되는 흔한 믿음인 "무자비한cut-throats 행위"를 구체적으로 탐구했다. "무자비한 행위"는 "지나치게 경쟁적이고 이기적이며 성적에 굶주린 학생들로서, 책과 실험 보고서를 훔치고 실험을 사보타지하는" 학생들이다. 그의 연구는 이 신념을 사실상 무너뜨렸다. 실제로 콘래드는 학생들 사이에서 인신공격적인 행동보다 협조적인 행동의 증거를 더 많이 발견했다. 흥미롭게도, 이 과정에서 콘래드는 이 신화가 특정한 [잠재적 기능]을 한다는 사실도 발견했다.
Peter Conrad set out to study pre-medical school student culture and specifically explored the common belief in “cut-throats” amongst pre-medical students at Brandeis University; “cut-throats” are students who are “excessively competitive, selfish, grade hungry who cheat, steal books and lab reports and sabotage lab experiments”.40 His study effectively debunked this belief. Indeed, Conrad found more evidence of cooperative than cut-throat behaviour amongst students.40 Interestingly, in the process, Conrad also discovered that this particular myth served a specific latent function.
[무자비한 행위]는 학생들의 체면치레face-saving의 일종으로서, [의대에 들어가지 못한 것]에 대한 문화적인 설명을 제공했다. 이 신화는 pre-medical 학생들이 매우 경쟁적이고 심리적으로 소모적인 교육 과정을 경험하는 "집단적 불안"을 대변했다. 그러나 신화를 밝히면서 콘래드는 pre-medical school syndrome과 이와 관련된 cut-throat에 대한 고정관념이 바뀔 것 같지 않다고 결론지었다. 왜냐하면 (학생들의 증상 및 이로 인한 신화를 발생시키는) 근본적인 구조적 요인은 근본적으로 변하지 않았기 때문이다. 따라서 그는 신화 부수기myth busting의 복잡성에 대한 통찰력을 보여주었는데, (이 신화를 바로잡기 위한) 개혁reform은 학습자 행동을 억제하는 것뿐만 아니라, 의료 훈련을 조직하고 전달하는 방식을 혁신하는 데 초점을 맞춰야 한다는 것을 시사합니다.
It provided a cultural explanation for failure to make it into medical school, a type of face-saving for students. The myth represented the “collective anxiety” of pre-medical students experiencing a highly competitive and psychologically draining educational process.40 However, in debunking the myth, Conrad also concluded that the pre-medical school syndrome and related stereotype of the cut-throat were unlikely to change because the underlying structural factors generating both student symptomatology and the consequential myth remained fundamentally untouched. He thus exposed insights into the complexity of myth busting, which suggest that reform needs to focus not only on curbing learner behaviours but on transforming the way we organise and deliver medical training.
3.3 | "사체 이야기"의 신화 3.3 | The myth of “cadaver stories”
프레데릭 해퍼티41은 [해부학 실험실에서 학생들의 극도로 부적절한 행동]에 대한 카데바 이야기 또는 신화의 사회화 기능을 폭로했다. 14년 동안 200여 점의 사체 이야기가 수집되고 분석되었습니다. 억제와 약점 근절을 위한 다양한 시나리오에서 전체 시체 또는 특정 부분(극단 또는 성 장기)의 물리적 및 상징적 조작physical and symbolic manipulation 에 대한 내러티프 유형이 나타났다. 콘래드와 마찬가지로, 해퍼티도 이러한 이야기와 연관된 중요한 사회화 메커니즘을 밝혀냈다. 예를 들어서, 1학년 학생들이 pre-medical school 때부터 이어져온 불안과 공포에 대응하기 위한 부적응적 행동과 같은 것이다. 그는 "이 이야기들의 문자 그대로의 정확성은 묘사된 사건들에 있는 것이 아니라 학생들이 접근하여 실험실을 경험하기 시작할 때 가지고 있는 실제 두려움과 우려의 상징적 변형에 있다"고 언급했다. Frederic Hafferty41 exposed the socialising function of cadaver stories, or mythologies about grossly inappropriate behaviours of students in anatomy laboratories. Over the course of 14 years, nearly 200 cadaver stories were collected and analysed. A typology of narratives of the physical and symbolic manipulation of whole cadavers or certain parts—extremities or sexual organs—in various scenarios for the express purpose of challenging inhibitions and rooting out weaknesses emerged.41 Hafferty, like Conrad, exposed important socialising mechanisms linked to these stories, including maladaptive practices for dealing with the anxiety and fear of first-year medical students, carried forward from pre-medical school years. He noted that “the literal accuracy of [the] ‘trueness’ of these stories lies not in the events depicted but in the symbolic transformation of the actual fears and concerns held by students as they approach and thus begin to experience lab”.41
Hafferty는 우리가 일반인에서 건강 전문가로 전환하는 과정에서 학생들이 겪는 불안과 심리적인 딜레마에 효과적으로 대처하지 못하는 한 신화와 달갑지 않은 행동 모두 지속될 것이라고 결론지었다. Hafferty concluded that both myths and unwelcome behaviours will persist as long as we ineffectively deal with the anxiety and psychological dilemmas faced by students during this liminal phase in their transition from lay person to health professional.41
3.4 | "학습 스타일"의 신화 3.4 | The myth of “learning styles”
학습 스타일에 대한 이론은 학습 방법이 다르고 학생이 자신의 학습 스타일(청각, 시각, 촉각 또는 수렴)을 이해한다면 공식 및 비공식 환경에서 학습 효과를 향상시킬 수 있다는 개념에 전제를 두고 있습니다. 20 학습 스타일이 집중력, 기억력 및 동기를 향상시키며 학습자에게 더 만족스러운 교육 경험을 제공한다는 주장이 제기되었습니다. 학습 스타일 이론은 또한 커리큘럼과 커리큘럼의 전달이 학습자의 개별 스타일에 맞춰져야 한다는 개념을 촉진합니다. 교실에서 이 이론을 적용하는 명백한 목적은 학생들의 학습을 향상시키는 것입니다. 그러나 이러한 사회적 관행, 즉 학습 방식을 교육적 접근법으로 사용하는 것은 30년 이상 과학적으로 도전받아 왔습니다. 실제로, 학습 스타일 기반의 교육설계 접근법은 많은 해로운 영향과 관련된다. The theory of learning styles is premised on the notion that there are di fferent opti mal ways to l earn and that i f a student understands his or her own learning style (ie auditory, visual, tactile or convergent), that student can improve his or her learning effectiveness in formal and informal settings. 20 Claims have been made that learning styles improve concentration, memory and motivation and lead to more satisfying educational experiences for learners. Learning style theory also promotes the notion that the curriculum and its delivery should align with the individual style of the learner. The manifest purpose behind the application of this theory in the classroom is to improve student learning. This social practice, however, that is, the use of learning styles as an instructional approach, has been challenged scientifically for over 30 years.18,42-44 Indeed, a number of harmful effects are associated with the use of a learning stylesbased approach to instructional design.
그렇다면 왜 신화는 계속되는 것일까? Why then does the myth persist?
이러한 사회적 관행의 잠재적 기능 중 하나는 [경제적 이득]을 위한 조건을 구성한다는 것이다. 학습 스타일의 개념을 중심으로 전체 산업이 조직된 것은 우연이 아니며 교육용 소프트웨어, 책, 테이프 및 컨설턴트 서비스의 생산을 포함합니다.42 단순히 신화를 디버깅한다고 해서 이러한 제품이 교육자와 학습자에게 미치는 영향이 사라지지는 않습니다. one possible latent function of this social practice is that it constructs the conditions for economic gain. It is not coincidental that an entire industry has been organised around the notion of learning styles and includes the production of educational software, books and tapes, and consultant services.42 Simply debunking the myth will not eliminate the influences of these products on educators and learners.
학습 스타일은 교육 문제를 해결하기 위한 손쉬운 해결책이며, 특히 개입이 검증된 도구에 의존할 때 더욱 그렇습니다. 학습 스타일을 전제로 하는 교육학은 (긍정적인 강의실 심리를 이용하여) 학습자 선호에 맞춰 교육을 조정함으로써, 커리큘럼 문제에 대한 [표면적 해결책]을 제공합니다.의학교육은 [학습자 만족]을 [학습 또는 교육 효과]의 대용물로 사용하는 것은 오랜 전통을 가지고 있습니다. 예를 들어, 강사는 학습자 만족도를 포함하여 학습자의 학습 인식에 따라 평가됩니다. 학습자에게 개인 욕구를 학습자로써 해결하는 것으로 인식되지 않는 교사는 가혹하게 판단됩니다. 교원평가는 그 후 교사의 승진에 사용된다. 이러한 사회정치적 의존은 많은 명백한 잠재된 교실 행동을 조장합니다. 이러한 행동들이 비록 교사들과 학습자들의 더 큰 만족으로 이어질 수 있지만, 이 모든 것이 과학적으로 더 나은 학습으로 이어지는 것은 아닙니다.
Learning styles are an easy solution for solving educational problems, particularly when the intervention draws on purportedly validated tools.42 Pedagogies premised on learning styles offer a surface fix to curriculum issues that capitalises on the positive classroom psychology afforded by aligning instruction with learner preferences. In medical education, the use of learner satisfaction as a proxy for learning or teaching effectiveness has a long tradition.45,46 For example, instructors are evaluated based on learners’ perceptions of their learning, including learner satisfaction. Teachers who are not perceived by learners as addressing their individual needs as learners are judged harshly. Teacher evaluations are then used in the promotion (or not) of teachers. This sociopolitical dependency encourages a number of manifest and latent classroom behaviours, not all of which are scientifically proven to lead to better learning, although they may lead to greater satisfaction of teachers and learners.
비록 학습 스타일이 신화이긴 하지만, 이 이론은 우리가 소중히 여기는 [교수자 및 학습자 태도]와 밀접하게 연관되어 있기 때문에 debunking의 효과보다 끊임없이 더 큰 효과를 낼 것입니다. 학습 선호의 개념은 학습자 및 교수자에게 직관적이기 때문에, 단순히 이 이론의 과학적 전제를 debunking하는 것만으로는 '어떻게 학습을 우선시할 것인가'에 대한 결정을 바꾸기 어려울 것이다. 또한, 보건 전문가가 자기 주도적 학습과 평생 학습에 참여하기 위한 의무는 학습자가 지속적인 공식 학습에 참여하도록 동기를 부여받는 데 크게 의존합니다.
Although learning styles are a myth, this theory will continue to have material effects way beyond its debunking because it is intimately linked to instructor and learner attributes we value. For those students and teachers for whom the notion of learning preferences makes intuitive sense, decisions about how to prioritise learning will be hard to change simply by debunking the scientific premise of the theory. Further, imperatives to ensure that health professionals engage in self-directed and lifelong learning rely to a large extent on the learner being motivated to engage with ongoing formal learning.
3.5 | "환자 정보 전단"의 신화 3.5 | The myth of “patient information leaflets”
지난 10년간 암스트롱 외 연구진은 암 실험 환자 모집을 돕기 위해 사용된 동의서들의 명시적 기능과 잠재 기능을 의도적으로 탐색했다. 이들은 환자 의사 결정 개선에 있어 비효과적이라는 증거가 증가하고 있음에도 불구하고 환자 정보 전단(PIL)의 사용이 지속되는 이유를 조사했다. 암스트롱 등은 [PIL의 의도하지 않은 기능]에 대하여, 의료 기관이 [환자 의사 결정]을 개선해야 한다는 의무를 어떻게 방해했는지interfere with 문서화했다. 의료기관은 [환자에게 정보를 제공하고 그들이 암 실험에 참여하기를 원하는지 아닌지를 결정]하도록 하는 대신, 프로세스에 "환자가 참여해야 한다patients should participate"라는 가정assumption을 주입하였다고 볼 수 있다.
In the past decade, Armstrong et al47 deliberately explored the manifest and latent functions of the informed consent documents used to aid patient recruitment for cancer trials. They examined why the use of patient information leaflets (PI Ls) persists despite growing evidence of their ineffectiveness in improving patient decision making. By attuning to the PIL's unintended functions, Armstrong et al documented how the health care organisation interfered with its espoused mandate to improve patient decision making by infusing the process with assumptions of how “patients should participate” rather than providing patients with information and allowing them to decide whether or not they wanted to participate in cancer trials.47
그들은 (환자 행동에 영향을 줘야 하기 때문에 자주 실패하는 - 하지만 필요한 - ) PIL의 가독성 향상에 초점을 맞추는 대신, 의료기관은 [연구 윤리가 규제되고 실행되는 방법]에 맞춰서 practice를 재구조화하는데 에너지를 더 투자한다. 또한 의료기관은 환자 교육의 가장 취약한 부분인 '지식생성의 정치학'의 프로세스에 노출시킨다. 그러므로, 신화의 명백하고 잠재된 기능을 감상하는 것은 우리가 의료 분야에서 가장 취약한 행위자들을 목표로 하는 개혁을 위한 개입을 개발할 때 문제에 대한 더 미묘한 그림을 개발할 수 있게 해준다.
They concluded that instead of focusing on improving the readability of the PIL, a strategy that often fails because it targets patient behaviours, the health care organisation might invest its energy more productively in restructuring practices related to how research ethics are regulated and practised, exposing in the process the politics of knowledge making that constitute the underbelly of patient education.47 Thus, appreciating the manifest and latent functions of myths allows us to develop a more nuanced picture of issues when developing interventions for reform that target the most vulnerable of the actors in health care.
4 | 결론 4 | CONCLUSIONS
[신화 깨부수기에 대한 집착]은 의학 교육에 적용되는 과학주의적 인식론의 발현이다.29 우리는 신화에 대한 대안적 접근법, 즉 [교육 관행의 사회정치적, 문화적 차원을 탐구]할 수 있는 접근법을 소개했다. 이러한 신화에 대한 (대안적) 접근방식은 [(교사, 학습자, 의료 제공자 및 환자가) 과학적 신화나 문화적 신화를 광범위하게 채택하는 과정에서 영속화되는 지식의 상징적 표현을 통해 공유된 의미를 도출한다는 점]을 높이 평가합니다.48 신화는 스토리텔링과 의미 형성의 한 형태이며, 우리로 하여금 "추론을 가능하게 하는 복잡한 규범적 구조뿐만 아니라, 세계와 그 안에 있는 우리의 위치에 대한 그림"을 전달하도록 해준다. The preoccupation with myth busting is a manifestation of the epistemology of scientism as applied to medical education.29 We have introduced an alternative approach to the myth, one that allows us to explore the sociopolitical and cultural dimensions of education practice. This approach to myth appreciates that teachers, learners, health care providers and patients derive shared meaning through symbolic representations of knowing perpetuated through the wide adoption of scientific or cultural myths.48 Myths are a form of storytelling and meaning making that allows us to transmit “whole pictures of the world and our place within it, as well as the complex normative structures that make reasoning possible”.29
우리는 의학교육과 의학에서 영속되는 신화가 [우리의 지적 역사의 필수적인 부분]을 이루고 있으며, 그렇기에 [신화를 지워내는 것은 쉽지 않을 수도 있고, 어쩌면 완전히 지워져서는 안 된다]고 주장한다. We have argued that the myths that perpetuate in medical education and medicine form an integral part of our intellectual history that may not be easily and perhaps ought not to be entirely expunged.
과학과 의학은 항상 신화를 동반한다. 그렇지 않다고 주장하는 것은 그 자신의 반쪽 진실을 영속시키는 것이다. 과학적으로 진실이 되기 위한 우리의 탐구에 있어서, 우리는 [우리는 무엇이 진실이 되기 위해 노력하고 있는지], 그리고 [이러한 진실들을 어떻게 돌봄의 전달에 적용시키고자 하는지]에 대한 중요한 value-laden questions를 던져야 한다. 현재 우리 분야가 [보다 강력한 인본주의적 치료 모델의 통합]과 함께 [치료에 대한 기술주의적 추구]의 균형을 재조정하기 위해 몰두하고 있는 것은, [가치에 대한 결연한 재협상]과 [질병 경험의 피할 수 없는 주관성에 대한 인식]을 필요로 합니다. Science (and medicine) as a social practice is always accompanied by mythologising. To insist otherwise is to perpetuate its own half-truth. In our quest to be scientifically true, we must ask important value-laden questions that concern what we are trying to be true to and how we want to put these truths to work in the delivery of care. Our field's current preoccupation with rebalancing technocratic pursuits for cures with a stronger concentration and integration of humanistic models of care49-57 requires the concerted renegotiation of values and an appreciation of the inevitable subjectivity of illness experiences.
이 제안의 핵심은 '과학'은 "현실의 본질에 대해 우리에게 무엇인가를 드러내기"에 [신화는 '과학'과 반대되는 것이 아니]라는 인식입니다. 그리고 그 현실을 우리는 의학medicine이라 부릅니다. 하지만 그것은 결코 인간의 건강 경험의 전모full story가 될 수 없습니다. At the very heart of this proposal is an appreciation that myth is not antithetical to science and that science “reveals to us something of the nature of [the] reality”29 that we call medicine, but it can never be the full story of the human health experience.
Med Educ. 2020 Jan;54(1):15-21.
doi: 10.1111/medu.13828.Epub 2019 Aug 28.
Myths and social structure: The unbearable necessity of mythology in medical education
1Department of Paediatrics, Hospital for Sick Children and Wilson Centre, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada.
2Divisions of General Internal Medicine and Health Care Policy and Research, and Biomedical Ethics Research Program, Mayo Clinic, Rochester, Minnesota.
3Department of Sociology, Center for Interprofessional Development, Education and Research (CIDER), University of Delaware, Newark, Delaware.
4Division of General Internal Medicine, Program on Professionalism and Values, Mayo Clinic College of Medicine and Science, Rochester, Minnesota.
Context:Myth busting engages scholars in the critical examination of commonly accepted but poorly evidenced claims with the goal of instilling quality and trust in knowledge making. The debunking of such knowledge "myths" and associated misguided practices purportedly serves to avert resources and attention from wasteful and dangerous scholarship. We address the myth that "all myths in medical education deserve to be busted".Results:Our analysis revealed the important function of myths in the social practice of medical education and practice. A deconstruction of five salient examples of the contemporary myth in medical education (the myth of the "ideal candidate", the myth of "cut-throats", the myth of "cadaver stories", the myth of "learning styles", and the myth of "patient information leaflets") demonstrates that myths continue to have material effects even after they have been busted.
Conclusions:Our analysis makes evident that myth busting disrupts, renegotiates and reconstitutes socio-epistemic relationships rather than simply correcting falsehoods. We also argue that myths play important and inescapable roles in the social practice of medical education and the negotiation of values, and in constructing the conditions for group change and transformation. Imperatives related to humanism, compassion and patient engagement offer a healthy humanising counter-mythologising that we suggest must survive any contemporary myth-busting endeavour aimed at improving medical education practice.
Methods:Using a critical narrative approach, we searched the medical education literature for orientations to myths and myth busting, and reviewed this literature analytically drawing from the sociology of science and Merton's concepts of manifest and latent functions. The results of this analysis are presented in the form of a narrative that deploys the articles reviewed to explore the utility of myth busting for medical education reform and begins with a brief exploration of the etymology of "myth" and how meaning making is related to symbols, practices and storytelling.
의학교육에서 한때 있었던, 미래의 있을 미신(J Grad Med Educ, 2020 ) The Once and Future Myths of Medical Education Geoff Norman, PhD, MA, BSc, FRSC
교육 분야는 [그럴듯하지만 검증되지 않은 아이디어와 유행]에 특히 민감해 보인다. 긴 세월에 걸쳐 등장했다가 사라진 여러가지 그럴듯한 이론이나 다소 허술한 연구에 근거해 흥미로운 사상사를 쓸 수도 있다. 그리고... 일단 아이디어가 자리를 잡으면 뿌리 뽑기가 어렵다. —Henry L. Roediger III, PhD1 The field of education seems particularly susceptible to the allure of plausible but untested ideas and fads (especially ones that are lucrative for their inventors). One could write an interesting history of ideas based on either plausible theory or somewhat flimsy research that have come and gone over the years. And . . . once an idea takes hold, it is hard to root out. —Henry L. Roediger III, PhD1
Roediger1이 지적한 바와 같이, 이러한 신화들 중 많은 것들은 놀랄 만한 수명을 가지고 있다. 어떤 신화들은 100년 이상 존재했을 뿐만 아니라 100년 전에 반증되었다. As Roediger1 points out, many of these myths have remarkable longevity. Some myths have not only been around for more than 100 years, but also were disproved more than 100 years ago (see TABLE).
"좋은 과학"에 기초한 무수한 공격 앞에서조차 , 많은 신화가 견고하게 오래 유지된다는 것은 [신화 부수기myth-busting]가 [유의미한 과학적 사실에 대한 진술]보다 훨씬 더 많이 수반되어야 한다는 명백한 증거이다. the robustness and longevity of many of these myths, in the face of multiple assaults based on ‘‘good science,’’ is prima facie evidence that myth-busting must involve far more than a statement of the relevant scientific facts.
교육신화의 특징 Characteristics of Educational Myths
교육 신화의 성격에 대한 일부 반영은 다른 신화들과 몇몇 독특한 측면들을 드러낸다. 의학 교육 신화는 다른 한편으로는 과학적인 증거의 영향에 영향을 받지 않는 것으로 보인다. 그런 점에서 그들은 (지구가 평평하고, 예방접종은 자폐증을 유발하고, 동종요법으로 질병을 치료한다는 것과 같은) 더 대중적인 신화들과 공통적인 특징을 공유한다. Some reflection of the nature of education myths reveals properties common to other myths and some unique aspects. On the one hand, medical education myths endure and are apparently immune to the impact of scientific evidence. In that regard they share common characteristics with other more popular myths, like the earth is flat, vaccinations cause autism, and homeopathy cures illness.
반면에, 지구의 평탄도나 예방접종에 관한 것과 달리, 교육신화는 간단히 고쳐지지 않는다; 'trainee의 학습 스타일에 맞추는 것이 학습을 강화시킨다'는 것과 같이, 많은 교육 신화가 대학원 수준의 교사 양성 과정의 핵심 커리큘럼의 일부이다. 게다가, 이러한 신화를 공유하는 공동체는 고학력자이고, 그들 스스로 과학 문헌에 대한 문해력을 갖추었다고 생각할 가능성이 높다. On the other hand, unlike those concerning the earth’s flatness or vaccinations, education myths are not proselytized by a small fringe; many, like adjusting for trainee learning styles enhances learning, are part of the core curriculum in postgraduate level teacher training courses. Moreover, the community that shares these myths is highly educated and would likely consider themselves scientifically literate.
왜 교육계가 신화 전파에 취약한가? Why Is the Education Community Vulnerable to the Dissemination of Myths?
1. 인간 1. Human
교육자들은 인간이고, 인간들은 우리가 정보를 처리하는 방식에 내재된 다양한 편견에 취약하다는 것을 보여주었다. 사람들은 정보를 객관적으로 처리하지 않는다. 오히려 사람들은 선입견을 통해 정보를 걸러낸다. Educators are human, and humans have been shown to be vulnerable to various biases inherent in the way we process information. People do not process objectively. information Rather, people filter information through their preconceptions.
확증편향 Confirmation Bias:
사람들은 자신의 선입견에 부합하는 정보를 적극적으로 찾고 우선 순위를 매기는 경향이 있으며, 이는 자신의 이전 관점을 반박하는 정보보다 높습니다. People tend to actively seek out and prioritize information consistent with their preconception, higher than information that refutes their prior view.
Wason5는 [3개의 숫자로 구성된 시퀀스]를 사용하여 효과의 초기 데모를 발표했습니다. 참가자들은 순서를 만든 잠재적인 기본 규칙을 추론하거나 제안하도록 요청받았다. 그들은 세 개의 숫자로 이루어진 다음 문자열을 시퀀스에 제안함으로써 규칙을 테스트할 수 있습니다. 올바른 기본 규칙을 결정한 사람은 거의 없었지만, 대부분은 확인 사례를 일관되게 제시함으로써 확인 편견을 입증했다. The initial demonstration of the effect was published by Wason5 using sequences of 3 numbers. Participants were asked to infer or propose potential underlying rules that created the sequence. They could test a rule by suggesting the next string of 3 numbers in the sequence. Few determined the correct underlying rule, but most demonstrated confirmation bias by consistently suggesting confirmatory examples.
수학적 게임에서 교육적 신화로 연결되는 다리를 만드는 것은 어렵다. 그러나 또 다른 검증 편향 연구는 훨씬 더 확실한 연관성을 드러냈습니다. 이 연구에서 로드 등은 사형 억제 가치에 대한 찬반 견해가 강한 참가자를 식별했다. 연구원들은 [명백히 과학적인 증거]를 주더라도, 토론의 불씨를 진정시키기보다는 빈번하게 부채질할 것이라고 결론지었다."6 It is difficult to make a bridge from a mathematical game to educational myths. But another study of confirmation bias revealed a much more solid link. In this study, Lord et al6 identified participants who had strong views for and against the deterrent value of capital punishment. The researchers concluded that provision of ostensively scientific evidence ‘‘will frequently fuel rather than calm the fires of debate.’’6
사회적, 행동적, 임상적 연구에 내재된 불확실성을 감안할 때, [논쟁의 양쪽 측면 모두에서 연구 결과를 찾기는 꽤 쉽다]. 확인 편향은 교육자들이 그들의 결론을 뒷받침하는 증거를 "체리 픽"할 것이라는 불행한 결론으로 이어지고, 그래서 추가적인 자료들은 그들의 신화에 대한 믿음을 증가시키는 역설적인 효과를 가져올 수 있다.
Given the uncertainties inherent in social, behavioral, and clinical research, it is quite easy to find studies on both sides of a debate. Confirmation bias then leads to the unfortunate conclusion that educators will ‘‘cherry pick’’ the evidence that supports their conclusion, so that the additional data may have the paradoxical effect of increasing their belief in the myth.
생생성/가용성 편중: Vividness/Availability Bias:
인간의 기억은 들어오는 자극과 기억 속에 저장된 지식 사이의 연관성을 만든다. 반복 노출은 이러한 연관성을 향상시킵니다. 불행하게도, 다른 요인들, 예를 들어 특히 극적인 사건이나 생생한 사건 묘사도 마찬가지입니다.7 사건 발생 가능성에 대한 [통계 정보]를 처리하는 것보다 사건에 대한 [이야기를 기억]하는 것이 훨씬 쉽습니다. 이것은 실제로 교육적으로 유용한 전략이 될 수 있다; 일련의 연구에서, 우즈 외 연구진은 기초 과학을 질병의 징후와 증상을 상기시키는 데 도움을 주는 "이야기"로 볼 수 있다는 것을 보여주었다. Human memory makes associations between incoming stimuli and knowledge stored in memory. Repeated exposure enhances these associations. Unfortunately, so do other factors, such as particularly dramatic or vivid portrayals of events.7 It is much easier to recall a story about an event than to process statistical information about the likelihood of the event. This can actually be an educationally useful strategy; in a series of studies, Woods et al8,9 have shown that basic science can be viewed as a ‘‘story’’ to aid in recall of signs and symptoms of diseases.
이러한 생생한 발견이 보여주는 것은 [사람들은 하나의 생생한 반례로 과학적 증거를 기각하는 것에 거리낌이 없다는 사실]이다. 한 가지 자주 반복되는 예는 공항으로 가는 도중에 교통사고로 사망할 확률이 비행기 사고로 사망할 가능성보다 높다는 것입니다. 그러나 소형 비행기나 사망자가 거의 없는 항공 추락사고도 대서특필되고 있지만 고속도로 사망자는 거의 없습니다. The consequence of this vividness heuristic is that people have no qualms about dismissing scientific evidence by using a single vivid counter example. One frequently repeated example is that your chance of being killed in a car accident on the way to the airport is higher than your chance of being killed in an air crash. But air crashes, even involving small airplanes and few deaths, make headlines—highway deaths rarely do.
교육에서도 유사한 메커니즘이 발생할 수 있다. 예를 들어, 아무도 자신을 시각 학습자나 언어 학습자로 선언하는 데 어려움을 겪지 않기 때문에, 이 버전의 학습 스타일은 그 진실성을 뒷받침할 많은 직접적 증언을 찾을 수 있습니다. 불행하게도, [스스로 보고한 시각/언어 학습]은 [직접 측정한 공간 및 언어 능력]이나, [시각 또는 언어 지향적 교육 자료를 통한 학습]과는 관련이 없는 것으로 나타났다.10 In education, similar mechanisms can arise. For example, no one has any difficulty declaring themselves as visual or verbal learners, so this version of learning style can find many firsthand testimonials to support its veracity. Unfortunately, self-reported visual/verbal learning has been shown to have no relation to either direct measures of spatial and verbal ability, or learning from visually or verbally oriented instructional materials.10
2. 과학자 2. Scientists
과학적인 글쓰기는 "possible", "may", "likely"와 같은 조건부 단어들로 가득 찬 독특한 양식 형태를 가지고 있다. 과학적인 글쓰기는 회색 음영으로 나오며, 검은색과 흰색은 팔레트에 나타나지 않는다. 이 설명은 모든 과학에서 사실이지만 임상, 사회 및 행동 과학에서는 두 배로 그렇습니다. 기본적인 증거가 이론적 예측에 있는 자연과학에 비해, 우리의 이론은 일반적으로 H0-차이없음, H1-차이있음의 형태를 취한다. Scientific writing has a peculiar stylistic form, replete with conditional words like ‘‘possible,’’ ‘‘may,’’ and ‘‘likely.’’ Scientific writing comes in shades of gray; black and white do not appear in the palette. While this description is true of all sciences, it is doubly so in clinical, social, and behavioral sciences. Compared with natural sciences, where the fundamental proof lies in a theoretical prediction, our theories generally take the form of H0–no difference, H1–difference.
더욱이, [전통적인 피셔 통계 추론]은 그 로직의 필수적인 구성요소로서 [불확실성]에 기반을 두고 있다. 통계적 추론은 항상 차이가 없을 때 차이를 선언할 확률 5%에 해당하는 임계값(허위 양수)으로 시작합니다. 이는 거짓 음의 비율에 영향을 미칩니다. 정확히 0.05 수준에서 가설을 기각할 경우 복제 가능성은 50%에 불과합니다. 11,12 따라서 임상 및 행동 분야에서 [연구 결과를 복제하지 못하는 것]에 대한 우려가 증가하는 것은 놀라운 일이 아닙니다.13,14 Moreover, traditional Fisherian statistical inference builds in uncertainty as an essential component of the logic. Statistical inference always begins with a critical value corresponding to a 5% probability of declaring a difference when there is none: a false positive. This in turn has implications for the false negative rate: if the hypothesis is rejected at exactly the 0.05 level, the likelihood of replication is only 50%.11,12 Therefore, it is not surprising that failure to replicate findings is a growing concern in the clinical and behavioral disciplines.13,14
임상 연구에서는 적어도 치료(300mg 용량)와 결과(치사율, 심박출량)에서 일관성을 가질 수 있다. 의료 교육에서, 현실적 환경(예: 교실)에서는 그러한 일관성이 사실상 불가능하다. 일부 랩 기반 실험 연구는 서면 또는 비디오 프리젠테이션과 객관식 테스트와 같은 결과를 사용하여 개입을 완전히 표준화할 수 있지만, 이러한 엄격한 제어는 예외입니다. 또한, 문제 기반 학습(PBL)과 같은 개념은 표준화를 거스를 정도로 많은 형태로 운영될 수 있습니다. 그러므로 비복제가 의학교육에서 중요한 문제라는 것은 이해할 수 있다. 널리 인용된 연구인 '''복제 프로젝트Replication Project'''에 의하면 심리학의 고전적 발견 중 39%만이 복제될 수 있다고 보고했다. In clinical research, it is at least possible to have consistency in treatments (a 300mg dose) and outcomes (mortality, cardiac output). In medical education, in realistic environments (eg, classrooms), such consistencies are virtually impossible. While some lab-based experimental research may be able to completely standardize interventions using, for example, written or video presentations, and outcomes, such as multiple-choice tests, such tight control is the exception. Moreover, a concept like problem-based learning (PBL) can be operationalized in so many forms that it defies standardization. It is therefore understandable that non-replication is a significant issue in medical education. A widely cited study, the ‘‘Replication Project,’’14,15 reported that only 39%of classic findings in psychology were able to be replicated.
이 문제에 대한 한 가지 가능한 해결책은 BEME(Best Evidence Medical Education) 프로젝트에서 지원하는 메타 분석 기법의 사용이다.16 여기서도 교육 연구의 성격의 결과로 문제가 빠르게 발생한다. 첫 번째, 임상 연구에서 문헌 검색은 적절한 논문의 높은 비율을 산출할 수 있으며, 때로는 식별된 논문의 50%에 근접할 수 있습니다. 교육에서, "PBL"이나 "자체 평가" 또는 "직업 간 교육"과 같은 용어가 매우 많은 맥락에서 사용될 수 있기 때문에, 검색을 통한 경험적 연구의 산출량yield이 매우 낮다. 몇 년 전 20개의 BEME 리뷰를 자세히 검토해 본 결과, 최초 검색에서 약 10만 개의 기사를 확인했지만 실제 리뷰는 총 818개의 논문에 근거하여 0.8%의 산출량yield을 기록했습니다. One possible solution to this problem is the use of meta-analytical techniques, as supported by the Best Evidence Medical Education (BEME) project.16 Here, too, problems quickly arise as a consequence of the nature of educational research. The first is that in clinical research, a literature search can yield a high proportion of appropriate articles, sometimes approaching 50% of those identified. In education, because a term like ‘‘PBL’’ or ‘‘self-assessment’’ or ‘‘interprofessional education’’ can be used in so many contexts, the yield of empirical research fromsearches is very low. A fewyears ago, I reviewed 20 BEME reviews in detail and found that, while in the initial search they identified about 100000 articles, the actual reviews were based on a total of 818 papers, a yield of 0.8%.
두 번째 문제는 [용어의 부정확성]에서 발생한다. "가상 현실"과 같은 용어가 컴퓨터 모니터의 사실적인 동적 프리젠테이션에서 매우 다른 결과를 가지고 눈으로 직접 이미지를 표시하는 헤드셋에 이르기까지 모든 것을 의미할 수 있다.17 따라서 개입과 결과가 다를 때, 그리고 연구의 결과 샘플이 작을 때, 좋은 정보를 제공하는 메타 분석이 불가능합니다. The second problem arises from the imprecision of the terms, where a term like ‘‘virtual reality’’ can mean anything from a realistic dynamic presentation on a computer monitor to a headset displaying images directly to the eyes, with very different consequences.17 Thus, when the interventions and outcomes differ, and the resulting sample of studies is small, an informative meta-analysis is not possible.
그 결과, 정확히 반대 입장을 지지하는 연구 뿐만 특정 입장을 지지하는 연구도 비교적 쉽게 찾을 수 있다. 다시, 인간으로서 데이터를 확인하려는 경향을 감안할 때, 우리는 우리의 입장을 뒷받침하는 연구를 인용합니다. The consequence, is that it is relatively easy to locate studies that support a particular position as well as its exact opposite. In turn, given our propensity as humans to seek confirming data, we cite the study that supports our position.
3. 교사들 3. Teachers
어떤 이성적인 사람도 물리학자만큼 양자역학을 잘 이해한다고 가정하거나 외과의사만큼 복강경 수술을 할 수 없다고 가정하지 않을 것이다. 그러나 모든 사람들이 자신의 의견이 소위 전문가와 동등하다고 생각하는 분야도 있다. 예술Art은 그러한 특징을 지니는 한 분야이다. 많은 사람들은 집 페인트 캔 몇 개와 오래된 붓 몇 개를 고려하면 잭슨 폴록과 동등할 수 있다고 믿는다. 유감스럽게도 교육도 (자신의 의견이 전문가와 동등하다고 생각하는) 또 다른 분야로 보인다. 모든 사람들은 사람들이 다른 것에 기초하지 않더라도, 단지 그것을 하기 위해 노력한 오랜 세월을 바탕으로 어떻게 배우는지에 대해 상당한 이해를 하고 있다고 상상합니다. 그 결과, 교육은 지속적 신화로 가득 차 있으며, 일부는 교육 전문성에 대한 특별한 주장이 없는 선의의 학자들에 의해 행해지고 있다. No rational person would presume that they understand quantum mechanics as well as a physicist, or could perform laparoscopic surgery as well as a surgeon. Yet there are areas where everyone presumes that their opinions are the equal of so-called experts. Art is one area: many believe that, given a few cans of house paint and some old brushes, they could be the equal of Jackson Pollock. Regrettably, education appears to be another area. Everyone imagines themselves to have considerable understanding of how people learn, based, if on nothing else, on the many years they spent trying to do just that. As a consequence, education is rife with enduring myths, perpetrated in part by well-meaning academics who have no particular claim to educational expertise.
다음과 같은 인간의 상태에 대한 격언이 붙어있는 알버트 아인슈타인의 포스터가 얼마나 많은가? How many posters of Albert Einstein, accompanied by a maxim about the human condition, have been printed? Here are a few:
지식보다 상상력이 더 중요합니다.
지성의 진정한 표시는 지식이 아니라 상상력이다.
진짜 가치 있는 건 직감뿐입니다.18
Imagination is more important than knowledge.
The true sign of intelligence is not knowledge but imagination.
The only real valuable thing is intuition.18
아인슈타인이 물리학에 대한 탁월함으로 어떻게 학습에 대한 그의 의견이 건전하다는 결론을 내리게 되었는지는 명확하지 않다. 우리는 한 분야의 전문가가 다른 모든 분야에서 경청되어야 한다고 생각하는 것 같다 (유감스럽게도, 할리우드 배우들도 같은 과대망상에 시달리고 있으며, 자격증은 훨씬 적다.) It is not clear to me how Einstein, with his brilliance in physics, came to the conclusion that his opinions about learning were sound. We appear to believe that an expert in one area should be heard in all other areas. (Regrettably, Hollywood actors suffer from the same delusion of grandeur, with far fewer credentials.)
내가 보기에, 고작 이 짧은 몇 줄에 [교육에서 가장 오래 지속되고 잘못된 신화 중 하나]가 무엇인지 요약되어 있다. 지식은 불필요한 악으로 간주되고, 그 모든 고약한 시험에 합격하기 위해 습득되었다가 잊혀진다는 것이다. In my view, these few succinct lines summarize what is one of the most enduring and misguided myths in education. Knowledge is viewed as an unnecessary evil, acquired to pass all those nasty exams—and then forgotten.
실제 연구에 의해 반증된 100년의 이론 이후, 1990년까지 인지 심리학은 [하나의 영역에서 성공적인 문제 해결]은 상상력이 아닌 관련 [지식의 양]에 의해 결정된다는 것을 확인했습니다.19,20 퍼킨스와 살로몬 21은 다음과 같이 말했습니다. After a century of theories disproved by actual research, by 1990, cognitive psychology resolved that successful problem solving in one domain was determined by the amount of relevant knowledge— not imagination—the problem solver possessed.19,20 As Perkins and Salomon21 said:
사고는 [특정한, 맥락 의존적 기술] 및 (다른 지식영역에 대한 적용도가 낮은) [지식 단위]에 의존한다. (한 맥락에서 훈련받은 다음 다른 영역으로 전이될 수 있는) [일반화되고 맥락-독립적 기술]이라는 것에 대한 굳건한 경험적인 증거는 부족하고, 이것이 그저 희망적 생각wishiful thinking임이 증명되었다.21 Thinking depends on specific, context-bound skills and units of knowledge that have little application to other domains . . . The case for generalizable, context-independent skills that can be trained in one context and transferred to other domains has proven to be more a case of wishful thinking than hard, empirical evidence.21
이 관점에 도전할 만한 것은 아무것도 나오지 않았다. 그러나 교육자들은 이제 보편화된 이 발견을 받아들이려 하지 않는 것 같다. 물론, 사고와 전문지식은 단순한 팩트facts 이상의 것을 필요로 한다. 학습에 있어 중요한 연구 영역 중 하나는 전이transfer이다. 즉, 관련 지식을 메모리에서 검색하여 유사하지만 새로운 문제를 해결하는 것입니다. 일반적으로 관련 지식을 습득한 참가자는 새로운 문제를 해결하기 위해 해당 지식을 회수할 수 있습니다. Nothing has emerged to challenge this perspective. However, educators appear reticent to accept this now universal finding. To be sure, thinking and expertise do require more than facts. One critical area of research in learning is transfer—retrieving relevant knowledge from memory to solve new, dissimilar, but related problems. Typically, participants who have learned the relevant knowledge may be able to retrieve it to solve a new problem more than 10% to 30%of the time.
많은 의학 교육자들은 전이transfer의 역할에 대해 알지 못한다. 대신, 교육계는 임상적 추론이나 문제 해결과 같은 일반적이고 내용이 없는 기술을 기본으로 합니다. 그리고 아이의 장난감처럼, 한 개의 못을 다른 못에 박으면, [맥락-비의존적 기술]이라는 개념은 메타인지, 인지적 편견, 비판적 사고와 같은 이름만 바꿔가며 끊임없이 변신하고 있다.22
Many medical educators are not aware of the role of transfer. Instead, the education community defaults to general, content-free skills like clinical reasoning or problem solving. And, like the child’s toy where, when you hammer one peg down another takes its place, the notion of these context-free skills is constantly mutating into different labels like metacognition, cognitive biases, and critical thinking.22
신화의 지속성에 대해 우리가 할 수 있는 일은? What Can We Do About the Persistence of Myths?
[단순 증거 제시]만으로 최초 판단과 관련된 관성을 극복할 것 같지는 않다. 실제로, Lord et al6가 보여주었듯이, 이러한 노출은 (태도가 더욱 극단적으로 되는) "태도 양극화attitude polarization"를 초래할 수 있다는 몇 가지 증거가 있다. it is unlikely that simple presentations of evidence will overcome the inertia associated with the original judgment. Indeed, as Lord et al6 showed, there is some evidence that this exposure can result in ‘‘attitude polarization’’ where attitudes become more extreme.
마찬가지로, "가능한 한 객관적이고 편견이 없어야 한다"는 권고도 연구의 품질이나 데이터의 설득력 판단에 영향을 미치지 않았다. 속도를 늦추거나, 철저하거나, 체계적이어야 하는 지침이 정확도에 미치는 영향을 최소화한 진단 추론에 대해 수행한 여러 연구에서 유사한 비-효과non-effects가 ㅗ학인되었다 Similarly, admonitions to ‘‘be as objective and unbiased as possible’’23 had no effect on judgments of the quality of the study or persuasiveness of the data. Similar non-effects have been noted in a number of studies we have conducted on diagnostic reasoning, where instructions to slow down, be thorough, or be systematic had minimal effects on accuracy.24,25
그러나 한 가지 효과적인 전략은 참가자들에게 [연구가 정반대의 결론에 도달했을 때 어떻게 반응할지 고려하도록 하는 것]이었다.23 이 조건에서 편향 효과는 사라졌다. However, one strategy that was effective was to get participants to consider how they would respond if the study came to the opposite conclusion.23 In this condition, biasing effects disappeared.
결론 Conclusions
교육 신화는 고등교육에서 많은 개인들을 끈질기게 쥐고 있는 것으로 보인다. 사활이 걸린 문제는 아니지만 이론에 매달리고 비효과적인 개입으로 알려진 것은 자원 낭비를 의미한다. 게다가, 그 판돈stakes이 항상 대수롭지 않은 것은 아니다. 동적 반응 전신 시뮬레이션과 같은 일부 교육 기술은 10만 달러 이상의 비용이 들 수 있지만, "고충실성"의 이점은 입증되지 않은 채로 남아 있다. 어떤 증거가 있는지는 효익이 미미할 것이라는 것을 시사한다. 마찬가지로, 해부학 교육을 위한 가상 현실 기술은 하드웨어에 대해 세트당 5,000달러의 비용이 들 수 있지만, 현재까지 입증된 이점은 없습니다. Educational myths appear to have a tenacious hold on many individuals in higher education. While hardly a life and death matter, clinging to theories and known to interventions that are be ineffective represents a squandering of resources. Moreover, the stakes are not always insignificant. Some educational technologies, such as dynamic responsive whole body simulations, may cost upward of $100,000, yet the benefit of ‘‘high fidelity’’ remains unproven. What evidence there is suggests that the benefits will be marginal. Similarly, virtual reality technologies for instruction in anatomy may cost $5,000 per set for the hardware, yet to date they have no proven benefit.
금전적 비용이 전부는 아니다. 구글이 아무리 매력적이라도, 오늘날의 학생들은 과거의 학생들보다 (더 적은 것이 아니라) 더 많은 사실을 터득해야 한다. 학습자가 알려진 효과적인 전략을 최대한 사용하지 않고 알려진 비효율적인 전략을 피하는 것은 잘못된 행동입니다. 이를 이루기 위해서는 강경주의적jingoist '증거 기반'이 의료 교육 커뮤니티 문화의 중심 부분이 되어야 한다.
The dollar cost is not the whole story. Despite the allure of Google, today’s students must master more, not fewer, facts than their predecessors. It is a disservice to learners to not maximally use the known effective strategies and avoid the known ineffective strategies. For that to be achieved, the jingoist ‘‘evidence-based’’ must become a central part of the culture of the medical education community.
12. Norman GR. Statistics 101. Adv Health Sci Educ Theory Pract. 2019;24(4):637–642. doi:10.1007/ s10459-019-09915-3.
2. De Bruyckere P, Kirshner P, Hulshof D. Urban Myths About Learning and Education. San Diego, CA: Academic Press; 2015.
4. Martimianakis MA, Tilburt J, Michaelic B, Hafferty F. Myths and social structure: the unbearable necessity of mythology in medical education. Med Educ. 2020;54(1):15–21. doi:10.1111/medu.13828.
26. de Bruin ABH. Debunking myths in medical education: the science of refutation. Med Educ. 2020;54(1):6–8. doi:10.1111/medu.14028.
모두에게 맞는 사이즈는 없다: 보건전문직교육 연구에서 개인-중심 분석(Perspect Med Educ, 2020) ‘One size does not fit all’: The value of person-centred analysis in health professions education research Rashmi A. Kusurkar · Marianne Mak-van der Vossen · Joyce Kors · Jan-Willem Grijpma · Stéphanie M. E. van der Burgt · Andries S. Koster · Anne de la Croix
도입 Introduction
의료 교육 저널을 빠르게 스캔한 결과, 보건 직업 교육(HPE)에서 수행된 연구는 주로 변수-중심 분석variable-centred analysis [1]이라고 할 수 있는 것을 채택하고 있음을 알 수 있습니다. [주어진 표본에서 두 개 이상의 변수 간의 관계]를 조사하는 이러한 유형의 분석은 HPE 연구의 변수가 서로 어떤 영향을 미칠 수 있는지를 이해하는 데 중요합니다. 그러나 [많은 연구가 단지 몇 가지 변수에만 초점을 맞추고 있지만, 교육적 실천은 복잡하고 상황에 의존적이며 지저분할 수 있기 때문에], 교육자는 그러한 분석에 근거하여 실천 방식을 적용하거나 바꾸기가 어려울 수 있다. A quick scan of medical education journals shows that the research conducted in health professions education (HPE) predominantly employs what can be called variable-centred analysis [1]. This type of analysis, which investigates the relationships between two or more variables in a given sample, is important in understanding how variables in HPE research can influence one another. However, it can be hard for educators to adapt or change their practice on the basis of such analysis, as many studies focus only on a few variables and educational practice can be complex, context-dependent and messy.
[사람 중심 분석]은 하위집단subgroup 전체에 걸쳐 변수가 서로 어떻게 관련되는지를 기반으로 [개인의 하위집단subgroup이 어떻게 만들어질 수 있는지]를 조사하는 추가 접근법입니다 [1]. 개인 중심 분석은 교육자에게 개인별 실천 이니셔티브를 위한 도구를 제공할 수 있는 결과를 생성합니다.
Person-centred analysis is an additional approach, which investigates how subgroups of individuals can be made based on how variables are related to each other across sub-groups [1]. Person-centred analysis generates findings that could provide educators with tools to personalize practice initiatives.
사람 중심 분석이란 무엇입니까? What is person-centred analysis?
주어진 데이터 집합에서 [독립 변수에 대해 유사한 특성 또는 유사한 점수를 가진 사람들이 함께 군집화]하는 방식으로 [사람 그룹groups of people]을 만들 수 있다 [2]. 이는 [사례 기반 분석case-based analysis]의 한 유형으로, 즉 유사한 특성을 가진 개인 또는 사례에 대한 분석입니다. 이를 위해 일반적으로 변수 중심 분석에 사용하는 것과 다른 유형의 파일을 만들 필요가 없습니다. 유일한 차이점은 분석이 수행되는 방식입니다. In a given dataset we can create groups of people in such a way that people with similar characteristics or similar scores on the independent variables are clustered together [2]. This is a type of case-based analysis, i.e. analysis of individuals or cases with similar characteristics. For this, we do not need to create a different type of file than what we would normally use for a variable-centred analysis. The only difference is the way the analysis is carried out.
종속 변수와의 연관성을 독립 변수로 간주하여 계산한다면, 특정 특성(예: 높은 공감과 높은 복원력)을 가진 그룹 1이 종속 변수(학업 성과)와 어떤 연관성을 가지는지를 보여주고, 그룹 2(예: 낮은 공감과 높은 복원력)가 보이는 종속 변수(학업성적)와의 연관성이 (그룹1과) 다르거나 유사하다는 것을 보여줍니다.
If the associations with the dependent variables are computed by considering group membership as the independent variable, we demonstrate that group 1 with certain characteristics (e.g. high empathy and high resilience) shows a certain type of association with the dependent variables (academic performance), group 2 (e.g. low empathy and high resilience) shows a different or similar association with the dependent variables (academic performance), and so on.
[사람 중심 분석]에서는 데이터의 패턴을 기반으로 '덜 명확한' 범주를 찾으려고 시도합니다. 통계적으로 말하면, 우리는 총 변동성을 '군간' 변동성과 '군내' 변동성‘between-group’ variability and ‘within-group’ variability으로 나누고 그룹 간의 차이를 해석하는 데 더 집중함으로써 데이터의 '잡음'을 줄이려고 합니다. 그런 다음 이러한 연구 결과에서 도출된 실제적인 의미는 특정 요구에 따라 [서로 다른 그룹에 맞게 커스터마이징]될 수 있습니다. In person-centred analysis, the attempt is to find the ‘less obvious’ categories on the basis of patterns in the data. Statistically speaking we try to reduce the ‘noise’ in the data by splitting the total variability into ‘between-group’ variability and ‘within-group’ variability, and further concentrating on interpreting the differences between groups. The practical implications derived fromthese research findings can then be customized for the different groups as per their specific needs.
[사람 중심 분석]은 [[전체 표본] 또는 [인구통계학적 특성에 기반한 표본의 부분군]에 대해서 변수 간의 연관성을 찾는 변수 중심 분석]을 보완합니다.
Person-centred analysis complements variable-centred analysis, in which we look for associations between variables for the entire sample or subgroups in the sample made on the basis of demographic characteristics.
변수 중심 분석 [3]과 사람 중심 분석 [2]을 비교하는 예는 그림 1을 참조하십시오. See Fig. 1 for an example comparing variablecentred [3] and person-centred analyses [2].
표 1은 예제 연구 질문에 대한 변수 중심 분석과 사람 중심 분석이 서로 어떻게 비교되고 보완되는지를 보여준다.
Tab. 1 illustrates how variable and person-centred analyses for an example research question compare with as well as complement each other.
문헌의 구체적인 사례를 포함한 사람 중심 분석 수행 방법 How to conduct person-centred analysis including concrete examples fromthe literature
전자 보완 자료에서 찾을 수 있는 본 문서의 부록에는 이 세 가지 방법, 이 방법을 사용한 분석 수행 방법에 대한 실제 단계 및 분석 결과를 해석하는 방법에 대한 세부 사항이 포함되어 있습니다. 자세한 내용에 관심이 있는 독자는 온라인 부록을 참조하시기 바랍니다. In the Appendix of this paper, which can be found in the Electronic Supplementary Material, we have included details on these three methods, practical steps on how to conduct analyses using these methods, and how to interpret the findings of such analyses. We encourage the readers who are interested in more details to consult the online Appendix.
군집 분석 Cluster analysis
군집 분석 [4]은 [두 개 이상의 변수의 조합]에 대한 점수 또는 결과에 따라 연구 참가자를 함께 그룹화하는 방법입니다. 이 방법은 모든 종류의 샘플 크기에 사용할 수 있습니다. 이는 '그룹 내' 변동성을 줄이고 '그룹 간' 변동성을 극대화하여 데이터의 노이즈를 줄이려고 합니다. Cluster analysis [4] is a method in which study participants are grouped together based on their scores or results on a combination of two or more variables. This method can be used with all kinds of sample sizes. It tries to reduce noise in the data by reducing ‘within-group’ variability and maximizing ‘betweengroup’ variability.
제이콥스 외 연구진[5] 이 연구의 목적은 COLT(학습 및 교육에 대한 교사 개념) 사이의 패턴을 탐구하는 것이었다. 저자들은 COLT의 3가지 차원 즉 교사 중심, 능동적 학습의 감사, 전문적 실무에 대한 오리엔테이션에 대한 참가자들의 점수를 이용하여 클러스터 분석을 실시했다. 이들은 5개의 클러스터로 구성된 클러스터 솔루션을 수용했습니다. 이러한 5가지 COLT 프로파일은 전송기, 조직자, 중간자, 촉진자 및 개념 변경 에이전트로 분류되었습니다.
Jacobs et al. 2014 [5] The aimof this study was to explore patterns among teachers’ conceptions for learning and teaching (COLT). The authors ran a cluster analysis using the participants’ scores on the three dimensions of the COLT: teacher-centredness, appreciation of active learning and orientationto professional practice. They accepted a cluster solution comprising five clusters. These five COLT profiles were labelled as transmitters, organizers, intermediates, facilitators and conceptual change agents.
Kusurkar et al. 2013 [2] 본 연구는 학생들의 [동기 부여와 성과] 사이의 관계를 조사하는 것을 목표로 하였다. 본 연구에서는 1~6학년 의대생들의 내적 및 통제된 동기 부여에 대한 점수를 바탕으로 프로필을 만들었다. 고유 저조 제어, 고유 고조 제어, 저 고유 고조 제어 및 저 고유 저조 제어로 분류된 네 가지 프로파일이 발견되었습니다. 그런 다음 이러한 프로파일과 학습 및 성과 결과의 연관성을 조사했습니다. 이러한 프로파일 각각은 이러한 결과와 서로 다른 연관성을 가지고 있었으며, [높은 내인성 낮은 통제] 프로파일은 더 많은 학습 시간, 심층 학습 전략, 우수한 학업 성과 및 낮은 학업 피로 측면에서 최상의 결과를 나타냈다. 사실 [높은 내인성 낮은 통제] 프로파일은 학업으로부터의 높은 소모와 연관지어 [높은 내인성 높은 통제] 프로파일과 차이가 있을 뿐이었고, 이는 연구 결과에 중요한 뉘앙스였다. 이러한 프로필은 모니터링 및 멘토링의 다른 방법이 필요하다는 권고 사항이었습니다.
Kusurkar et al. 2013 [2] This study aimed to investigate the relationship between student motivation and performance. In this study, profiles of medical students fromyear 1-6 were created on the basis of their scores on intrinsic and controlled motivation. Four profiles were found which were labelled as high-intrinsic low-controlled, high-intrinsic high-controlled, low-intrinsic high-controlled and low-intrinsic low-controlled. The associations of these profiles with learning and performance outcomes were then explored. Each of these profiles had different associations with these outcomes and the high intrinsic low controlled profile had the best outcomes in terms of more study hours, deep learning strategy, good academic performance and low-exhaustion from study. In fact the high intrinsic low controlled profile only differed from the high intrinsic high controlled profile in its association with higher exhaustion from study, which was an important nuance in our findings. Recommendations were that these profiles would need different ways of monitoring and mentoring.
Orsini et al. 2018 [6] 이 연구의 목적은 치과 학생들의 동기 부여와 그 학업 결과를 조사하는 것이었다. 저자들은 학생들의 본질적이고 통제된 동기를 바탕으로 프로필을 만들었습니다. Orsini et al. 2018 [6] The purpose of this study was to investigate dental students’ motivation and its academic outcomes. The authors created profiles of students on the basis of their intrinsic and controlled motivation.
잠재 클래스 분석 Latent class analysis
잠재 클래스 분석[10](LCA)은 연구에 포함된 표본의 부분군(클래스, 클러스터)을 구성하는 것을 목표로 하는 [탐색적 통계 기법]이며, 이러한 표본의 관측된 지표를 기반으로 합니다. LCA는 범주형 데이터와 함께 사용할 수 있습니다. LCA의 출력output은 [지표의 조합에 기초한 가설적 그룹화hypothesized grouping]입니다. Latent class analysis [10] (LCA) is an exploratory, statistical technique that aims at forming subgroups (classes, clusters) of the samples included in a study, based on observed indicators of these samples. LCA can be used with categorical data. The output of LCA is a hypothesized grouping based on a combination of indicators.
보스카딘 외 연구진[11] 이 연구는 교정조치에 대한 학생을 식별하고 교정조치에 대한 최선의 방법론적 접근법에 대한 합의에 기여하는 것을 목표로 했다. LCA는 임상성과검사에서 의대생 147명의 점수를 분석하는 데 사용되었다. 성능이 낮은 두 개의 하위 그룹을 포함하여 세 가지 뚜렷한 성능 프로파일이 식별되었습니다. [낮은 성과 부분군]을 두 그룹으로 구분하는 것은 의미가 있었는데, 이 두 그룹이 보여준 [성과 지표 집합]이 달랐기 때문이다. 첫 번째 하위그룹은 임상지식과 [모든 종류의 임상기술]에서 모두 결손이 나타났고, 두 번째 하위그룹은 주로 [의사소통 능력]에서 결손이 나타났다. Boscardin et al. 2012 [11] This study aimed to identify students for remediation and to contribute to consensus about the best methodological approach for remediation. LCA was used to analyze scores of 147 medical students on the Clinical Performance Examination. Three distinct performance profiles were identified, including two low performing subgroups. Distinguishing two different low performing subgroups had significant implications, as the two groups had low scores on contrasting sets of performance indicators. The first subgroup of students showed deficits in both clinical knowledge and all kinds of clinical skills, while the second subgroup mainly displayed a deficit in communication skills.
Mak-Van der Vossen et al. 2016 [12] 본 연구의 목적은 의과대학에서 만족스럽지 못한 전문적 행동 평가를 받은 의대생들의 행동 패턴을 식별하고 이러한 패턴의 분류에 사용할 수 있는 변수를 정의하는 것이었다. 잠재적 그룹의 수에 대한 다양한 선택권을 가진 잠재 클래스 모형이 반응 데이터에 적합되었습니다. 이 경우, 응답 데이터는 앞서 문헌 검토에 기초한 템플릿에 요약된 바와 같이 109개의 비전문적 행동 각각을 학생 평가 보고서에서 '관찰됨' 또는 '관찰되지 않음'으로 기술했는지 여부를 나타냈다. LCA는 불만족스러운 전문 행동 보고서를 받은 학생 중 '신뢰성 저하', '신뢰성 저하 및 통찰력 저하', '신뢰성 저하, 통찰력 저하 및 적응성 저하' 등 3개 계층classes을 발표했다. Mak-van der Vossen et al. 2016 [12] The purpose of this study was to identify patterns in the behaviours of medical students who received an unsatisfactory professional behaviour evaluation in medical school, and to define a variable that could be used for the categorization of these patterns. A latent class model with various choices for the number of latent groups was fitted to the response data. In this case, the response data indicated whether each of 109 unprofessional behaviours, as earlier summarized in a template based on a literature review, was described as ‘observed’ or ‘not observed’ in student evaluation reports. LCA yielded three classes of students who received unsatisfactory professional behaviour reports: ‘poor reliability’, ‘poor reliability and poor insight’, and ‘poor reliability, poor insight and poor adaptability’.
Lambe & Bristow 2011 [13] 이 연구의 초점은 학생 수행의 '유형학' 모델을 식별하는 것이었다. LCA는 선행 학업성취도 측정, 의과대학 입학 당시 면접등급, 과정 전반의 후속 성과 측정치를 바탕으로 학생 하위그룹을 만드는 데 사용되었다. LCA는 학생 시험 성과의 '유형'을 나타내는 구별되는 하위집단의 세 가지 클래스 모델을 식별했다. Lambe & Bristow 2011 [13] The focus of this study was to identify a model of ‘typologies’ of student performance. LCA was used to make subgroups of students based on measures of
prior academic achievement,
interview rating at the time of medical school admission and
outcome measures of subsequent performance across the course.
LCA identified a three class model of distinct subgroups representing ‘typologies’ of student examination performance.
Q-정렬 분석 Q-sort analysis
Q 방법론은 [주관성] 연구(예: 관점, 아이디어 및 의견)에 적합하다[16–18]. 참가자가 동의에 따라 순서를 매겨야 하는 자극(일반적으로 진술 형식)을 사용한다. 요인 분석의 특별한 형태를 사용하여 연구 대상 주제에 대해 비슷하게 생각하는 참가자를 그룹화한다. Q-methodology is suitable for the study of subjectivity (e.g. viewpoints, ideas and opinions) [16–18]. It uses stimuli (usually in the form of statements) that participants need to rank order according to agreement. A special form of factor analysis is used to group participants who think similarly about the topic under study.
Fokkema et al. 2014 [19] 이 연구는 산부인과 레지던트 및 담당 의사의 작업장 기반 평가에 대한 인식을 결정하는 것을 목표로 했다. 36개의 진술과 65명의 참가자들이 있었다. 저자들은 열정, 규정 준수, 노력, 중립성, 회의의 다섯 가지 유형의 인식을 발견했습니다. 이 다섯 가지 프로파일의 기본 문제는 혁신의 의도된 목표, 적용 가능성 및 실제 영향에 대한 아이디어였습니다. 그들은 이 연구가 '동료들이 혁신에 대한 서로의 반응을 이해하는 데 도움이 될 수 있다'고 느꼈다. Fokkema et al. 2014 [19] This study aimed to determine the perceptions of obstetrics-gynaecology residents and attending physicians about workplacebased assessment. There were 36 statements and 65 participants. The authors found five types of perceptions: enthusiasm, compliance, effort, neutrality, and scepticism. The issues underlying these five profiles were ideas about intended goals of the innovation, its applicability, and actual impact. They felt that the study ‘may help colleagues understand one another’s responses to an innovation’.
Dotters-Katz et al. 2016 [20] 본 연구는 미국 의대 졸업생들의 교육 태도와 동기 부여에 초점을 맞췄다. 47개의 문장이 사용되었다. 편의 표본추출을 통해 '다양한 전문분야 및 대학원생 수준의 전공의 107명'이 연구에 참여했으며, Q 정렬과 사후면접은 디지털 방식으로 진행됐다. 이들의 분석 결과 열정, 거부감, 보상이라는 세 가지 프로파일이 나왔습니다. 이러한 연구결과는 '교육을 촉진하고 교육생들의 교육 동기를 개선하는 태도 강화 및 장려'를 위한 교사로서의 레지던트 프로그램 설계 변경 사항을 알리기 위해 사용되었다. Dotters-Katz et al. 2016 [20] This study focused on US medical graduates’ attitudes and motivation for teaching. Forty-seven statements were used. Through convenience sampling, 107 residents ‘from a wide variety of specialties and postgraduate year levels’ joined the study, and the Q-sorting and post-interview were done digitally. Their analysis yielded three profiles: enthusiasm, reluctance and rewarded. These findings were used to inform modifications in the design of resident-as-teacher programmes that ‘reinforce and encourage attitudes that promote teaching as well as improve trainees’ motivation to teach’,
Berkhout 등[21] Berkhout 및 동료들은 임상 환경에서 학생들의 자기조절 학습 행동 패턴을 찾는 것을 목표로 했다. 그들은 이론과 학생 인터뷰를 통해 52개의 진술문를 만들었습니다. 서로 다른 병원의 11개 임상실습에 속해 있는 4명의 학생이 진술서를 분류했다. 온라인 데이터 수집 절차를 사용했으며 '실시간' 분류후post-sorting 면접은 없었다. 그들의 분석은 참여적이고, 비판적으로 기회주의적이며, 불확실하고, 절제되고, 노력적인 다섯 가지 학습 패턴으로 이어졌다.
Berkhout et al. 2017 [21] Berkhout and colleagues aimed to find patterns in students’ self-regulated learning behaviours in the clinical environment. They created 52 statements from theory and student interviews. Four students in 11 different clinical clerkships, in different hospitals, sortedthe statements. An online data collection procedure was used and there was no ‘live’ post-sorting interview. Their analysis led to five patterns of self-regulated learning behaviour, which they called engaged, critically opportunistic, uncertain, restrained and effortful.
사람 중심 분석을 위한 세 가지 방법의 비교, 장점 및 단점 Comparisons, advantages and disadvantages of the three methods for person-centred analysis
세 가지 분석 방법의 구체적인 장점과 단점은 표 3에 비교 요약되어 있다. The specific advantages and disadvantages of the threeanalysismethodsarecomparedandsummarized in Tab. 3.
개인 중심 분석의 한계 및 윤리적 고려 사항 Limitations and ethical considerations of personcentred analysis
표본에서 발견되는 부분군은 [문화적으로 민감하고 맥락 의존적culturally sensitive and context-dependent]일 수 있습니다. 따라서 이 분석의 프로파일과 결과는 다른 모집단으로 일반화하기가 어려울 수 있다. 실제 개입을 설계하는 데 사람 중심 분석 결과를 사용하려면 [지역 대상 모집단local target population]의 프로파일 구조를 조사하는 것이 좋습니다. 사람 중심 분석은 변수 중심 분석을 대체하는 것이 아니라 보완 분석입니다. [특정 집단에 대한 오명stigmatization]을 남길 수 있다는 게 사람 중심 분석의 위험이다. 이러한 위험을 최소화하려면 다음과 같은 것이 중요합니다. Subgroups found in samples may be culturally sensitive and context-dependent. The profiles and findings from this analysis could thus be difficult to generalize to other populations. To use the results of personcentred analyses for designing practical interventions, it is better to investigate the profile structure in the local target population. A person-centred analysis is not a replacement for variable-centred analysis, but a complementary analysis. A risk of person-centred analysis is that it can lead to stigmatization of certain groups. To minimize this risk, it is important that:
A. 개인 중심 분석을 사용하는 연구원들은 윤리 승인을 신청하고 연구 결과를 발표하는 경우 다음 작업을 수행합니다. A. Researchers using person-centred analysis always do the following while applying for ethical approval and publishing their research:
– 이러한 분석을 수행한 배경과 근거를 설명합니다. – Explain the background and rationale for conducting such an analysis;
– 분석 결과를 어떻게 해석해야 하는지 설명하며, 특히 상황에 유의해야 합니다. – Explain how the results of this analysis should be interpreted, especially keeping in mind its context; and
– 이러한 연구 결과는 특정 그룹에 오명을 남기지 않고 사용자 개입을 맞춤화하는 건설적인 방법으로 사용되어야 한다고 선언합니다. – Make a declaration that the results of such research should be used in a constructive way to customize interventions and not to stigmatize certain groups.
B. 윤리검토위원회는 항상 다음 사항을 고려한다. B. Ethical Review Boards always consider the following:
– 연구진이 사람 중심 분석을 사용할 수 있는 충분한 근거를 제시했습니까? – Have the researchers provideda goodrationale for using person-centred analysis?
– 연구자들이 실제로 생성된 프로파일을 맞춤형 또는 맞춤형 개입에 사용하고 있습니까? – Are the researchers actually using the generated profiles for tailor-made or personalized interventions?
– 연구원들은 이 분석 결과를 어떻게 처리할 것인지 명확히 설명했습니까? – How have the researchers clarified how they will treat the findings from this analysis?
Methodological details of cluster, latent class and Q-sort analyses
Cluster analysis1 - This analysis can be done quite easily using SPSS. Two ways of conducting this analysis are K-means clustering and hierarchical clustering. In SPSS, an additional ‘Two Step’ clustering procedure can be used to suggest an optimal cluster number.
K-means clustering is the most commonly used data clustering method. The methods sorts cases in a predefined number of clusters. The number of clusters can be based on theoretical (existing literature) or practical (applicability) considerations. Initial k-cluster centers are selected and then iteratively refined assigning each data point to its closest cluster-center and updating each cluster-center to be the mean of its constituent data points. An acceptable cluster solution should explain at least 50% of the variance in the variable scores and have an incremental effect over the cluster solution with (k-1) groups.
Hierarchical clustering is an approach in which all data points are clustered hierarchically until only one cluster is left. The optimal cluster solution is decided on the basis of a hierarchical diagram called a dendrogram, a taxonomy or hierarchy of data point. This is a convenient representation which answers questions such as: ‘How many useful groups are present in this data?’ and ‘What salient interrelationships are present?’.2
Hierarchical clustering techniques are fundamentally different from K-means clustering. K-means tries to find compact clusters, where cluster members are similar (as far as possible). Hierarchical clustering leads to a tree of clustering, where it remains arbitrary at what level you want to set the borders between clusters.
After using one of the cluster methods, the cluster solutions can be tested for stability using a double split cross validation procedure in which the sample is divided into two and the cluster solution with the same cluster centers is tested in each sample. For a stable cluster solution, the Cohen’s kappa values, derived from this procedure, should be as close to 1 as possible.3
For use on categorical data, this data needs to be treated first (e.g. with Homogeneity analysis using alternating least squares - HOMALS).4
Practical steps for K-means cluster analysis: -Prepare your data file in SPSS just like for any other analysis. -Compute standardized scores (z-scores) for the variable which you would like to use to make the clusters. -Exclude outliers from the data as cluster analysis is sensitive to outliers. -Use the command “Classify” and enter the number of clusters (“n”)that you would like to test (start with 2 and then go on with 3 and more), choose “save assigned cluster”. -Then repeat the process with “n+1”, “n+2”, “n+3” clusters. -Check for the percentage of variance explained by the 2-cluster, 3-cluster, 4-cluster, etc. solutions. Using a benchmark of at least 50% variance explained, choose the cluster that explains a significant amount of variance The optimal number of clusters can be selected on the basis of statistical parameters and interpretability. -Once you have chosen a cluster solution, create two new files splitting your sample into two random subsamples. Run the clustering analysis on each subsample and see if you get similar clusters in both. Compute the Cohen’s kappa for checking the stability of the cluster solution. -Use cluster membership as the independent variable and run t-tests or Analysis of Variance or Multiple Analysis of Variance for the dependent variables of interests to see the relationship of the different clusters with the outcome measures. Interpretation of findings: -Try to understand the meaning of the clusters based on your hypothesis, theoretical framework and the scores on the variables used for clustering. -If possible label the clusters (without being judgemental) and provide a description of each cluster so that your interpretation becomes clear to the readers or practitioners. -Try to understand how the cluster characteristics are associated with outcome variables. -Before ascribing any meaning to the clusters, it is important to establish the cluster stability mentioned above. -Be cautious in projecting your findings to other contexts and cultures.
Latent Class Analysis5 – This is also called Latent Partition Analysis (LPA). This is done in a manner that the samples in the study are homogeneous within, and heterogeneous between the formed subgroups. It is a flexible method, as the best fitting model is established by testing several combinations of numbers of classes. This can be done using the software programmes R6 or Latent Gold7.
LCA can be used if there exists a still-unknown, so called ‘latent’ variable that can be used to make subgroups of the samples under investigation. This newly emerging variable can be identified as a distinguishing factor for the content of the subgroups. The researchers then determine if the distinguishing factor has practical relevance, and attribute a meaningful description and name to it.
LCA has an advantage over other clustering methods because it can reveal patterns, i.e. combinations of indicators within a sample, that cannot easily be detected by other methods. LCA is a probabilistic method. It means that there is no one-to-one relationship between a class and the occurrence of an indicator within that class, but each class is composed of a subgroup that is more likely to display a certain pattern than the subgroup belonging to a different class. A similar classification process is applied in diagnosing a disease: The presence or absence of a certain symptom in a patient (indicator in a sample) does not always lead to one specific diagnosis (class), but a certain combination of symptoms (pattern) makes this diagnosis more likely. Thus, instead of making a black-and-white decision on the subgroups of samples as cluster analysis does, LCA defines the probability of certain patterns in the samples, and thus sketches a more attenuated picture.
LCA has the possibility of defining ‘prototypes’ in each subgroup. To achieve this, LCA specifies for each class a probability of a sample belonging to that class. The probabilistic statement indicates the certainty of the assignment of a sample, based on a certain combination of indicators, to that class. In particular, samples that have a high, say >90%, probability of belonging to a certain class could be considered as prototypes of that class.
Practical steps for Latent Class Analysis: -Conduct thematic or content analysis of your descriptive data. -Convert the categorical data into binary response data, e.g. presence/absence of the indicator in each sample (SSPS or Excel file). -Put your binary data into one of the abovementioned software programmes. -Test different numbers and properties of classes. -Determine the best fit for the number and properties of classes by considering the following: ·the statistical information indicating between class differences and within class homogeneity. ·the practical relevance of the content of the classes. ·the number of cases per class. -Define prototypes for each class by taking the samples that have the highest probability to belong to that class (e.g. the top 10). -Provide the prototypes of each class with narrative information from your descriptive data to generate profile descriptions for each class. Interpretation of findings: -Try to understand the meaning of the classes based on the practical relevance of the content of the classes and the descriptions of the prototypes. -Identify the latent variable that distinguishes the classes from each other, and give this variable a meaningful name. -Be aware that the samples are clustered into hypothetical patterns (the classes) based on the chance that they display a combination of indicators. -Be cautious in projecting your findings to other contexts and cultures.
Q-sort analysis8-10- Although there is considerable flexibility in Q-methodology, there are some common practices. A Q-methodological study starts with the development of a set of statements on a topic (the Q-set). This set of statements can be created as a result of interviewing stakeholders, looking at teaching evaluations, theories and literature, focus groups, etc. This initial Q-set is often piloted and refined before use in a study.
Each participant sorts statements in a Grid (the Q-sort), with most statements placed in the middle, and the fewest placed at the edges (i.e. bell-curve shaped). These edges have 'strongly agree' or 'very important' on one side, and 'strongly disagree' or 'not at all important' on the other. This ranking process is called ‘Q-sorting’ and forces participants to make choices based on their own opinions and experiences. Usually the Q-sorting procedure is followed by a post-sorting interview or survey questions. In this post-sorting (often semi-structured) interview, or in some open survey questions, the participant elaborates on the reasons and stories behind the Q-sort, to enrich the data collected from the Q-sort.
Q-sorts are then compared to identify groups of individuals (profiles) who have similar attitudes on the subject of interest. This is often done using using Q-sort analysis software called PQmethod.11 The ranking scores are analysed statistically to lead to different factors10 using Q-sort analysis software. The number of profiles are dependent on how the participant scores 'load' onto a specific profile, similar to factor analysis. The qualitative data can aid the decision for the number of factors/profiles. The profiles are finalized through a combination of statistical, methodological and qualitative data analysis from a post Q-sort interview or survey questions. A description of the prototype of each profile is constructed by the researchers while constantly consulting the data.
Practical steps for Q-sort analysis: -Develop a set of statements from the literature and pilot them with some study participants, refine them and your Q-set will be ready. - Select participants using theoretical sampling strategies, in order to include participants with diverse viewpoints. -Ask participants to sort the statements into the Q-grid, and ask participants to elaborate on their choices. -Enter the Q-sort of each participant into the abovementioned software and run the Q-sort analysis. -Check the different solutions for predetermined statistical criteria. At the minimal , you should take into account the percentage of variance explained by different solutions, eigenvalues, and number of Q-sorts per factor, total number of Q-sorts loading significantly on one factor, and Q-sorts loading on more than one factor or no factor at all. -Check the different solutions for methodological criteria: are the factors coherent, differentiated and recognizable? -Check if the qualitative data (from post-sorting interview) corroborates the factor solution. Interpretation of findings: -Try to understand the meaning of the profiles based on your research question and theoretical framework. -Combine the result from the factor analysis with the answers the post-sorting questions to create a rich and accurate profile description. -Label the profiles to capture their essence and improve the reader’s capability of comparing and contrasting the findings.
10. Vermunt JK, Magidson J. Latent class cluster analysis. In: HagenaarsJ,McCutcheonA,editors. Appliedlatentclass analysis. Cambridge: Cambridge University Press; 2002. pp. 89–106.
Perspect Med Educ. 2021 Aug;10(4):245-251.
doi: 10.1007/s40037-020-00633-w.Epub 2020 Dec 7.
'One size does not fit all': The value of person-centred analysis in health professions education research
1Amsterdam UMC, Faculty of Medicine, Vrije Universiteit Amsterdam, Research in Education, Amsterdam, The Netherlands. R.Kusurkar@amsterdamumc.nl.
2LEARN! Research Institute for Learning and Education, Faculty of Psychology and Education, Vrije Universiteit Amsterdam, Amsterdam, The Netherlands. R.Kusurkar@amsterdamumc.nl.
3Amsterdam UMC, Faculty of Medicine, Vrije Universiteit Amsterdam, Research in Education, Amsterdam, The Netherlands.
4LEARN! Research Institute for Learning and Education, Faculty of Psychology and Education, Vrije Universiteit Amsterdam, Amsterdam, The Netherlands.
5LEARN! Academy, Faculty of Behavioural and Movement Sciences, Vrije Universiteit Amsterdam, Amsterdam, The Netherlands.
6Center for Evidence Based Education, Amsterdam UMC-location AMC, Amsterdam, The Netherlands.
7Department of Pharmaceutical Sciences, Utrecht University, Utrecht, The Netherlands.
PMID:33284407
DOI:10.1007/s40037-020-00633-wAbstractKeywords:Person-centred analysis; Personalized approach; Research method.
Health professions education (HPE) research is dominated by variable-centred analysis, which enables the exploration of relationships between different independent and dependent variables in a study. Although the results of such analysis are interesting, an effort to conduct a more person-centred analysis in HPE research can help us in generating a more nuanced interpretation of the data on the variables involved in teaching and learning. The added value of using person-centred analysis, next to variable-centred analysis, lies in what it can bring to the applications of the research findings in educational practice. Research findings of person-centred analysis can facilitate the development of more personalized learning or remediation pathways and customization of teaching and supervision efforts. Making the research findings more recognizable in practice can make it easier for teachers and supervisors to understand and deal with students. The aim of this article is to compare and contrast different methods that can be used for person-centred analysis and show the incremental value of such analysis in HPE research. We describe three methods for conducting person-centred analysis: cluster, latent class and Q‑sort analyses, along with their advantages and disadvantage with three concrete examples for each method from HPE research studies.
인지심리학은 어떻게 의학교육의 얼굴을 바꾸었는가 (Adv Health Sci Educ Theory Pract,2020) How cognitive psychology changed the face of medical education research Henk G. Schmidt1 · Silvia Mamede1
도입 Introduction
의학교육에 대한 연구는 1951년 의학저널(현재의 Academic Medicine)이 발간되면서 심각한 관심을 끌기 시작했다. 놀랄 것도 없이, 처음부터 그것은 학습과 가르침의 심리에서 현재의 것에 영향을 받아왔고 항상 지속적인 우려를 반영해 왔다. Research into medical education began to attract serious attention with the publication of the Journal of Medical Education (now Academic Medicine) in 1951. Not surprisingly, from its very beginning it has been influenced by what was current in the psychology of learning and instruction and always reflected its ongoing concerns.
50년대와 60년대에 의학교육 문헌에서는 [행동주의 언어]가 지배적이었다. 학습은 반복과 보상의 결과로 간주되었으며, 이른바 '학습 기계'(Owen et al. 1965, 1964), 프로그램된 교육(Lysaught et al. 1964; Weiss and Green 1962), 그리고 '행동적' 목표에 중점을 두었다(Varagunam 1971). In the fifties and sixties the language of behaviorism was dominant in the medical education literature. Learning was seen as the result of repetition and reward, with its application to so called ‘learning machines’ (Owen et al. 1965, 1964), to programmed instruction (Lysaught et al. 1964; Weiss and Green 1962), and with its emphasis on ‘behavioral’ objectives (Varagunam 1971).
'기억', '유지retention', '추론reasoning'과 같은 [인지심리학적 개념]은 70년대 초반부터 나타나기 시작했고(엘슈타인 외 1972; 클라코와 리드 1975; 레빈과 포만 1973), 엘슈타인과 동료들의 의학 문제 해결의 획기적인 연구에서 초기 합성을 찾았다(엘슈타인 외 1978).
Cognitive-psychology concepts such as ‘memory,’ ‘retention,’ and ‘reasoning’ started to appear only in the early seventies (Elstein et al. 1972; Klachko and Reid 1975; Levine and Forman 1973), and found an early synthesis in the groundbreaking work of Elstein and colleagues on medical problem solving (Elstein et al. 1978).
지식 습득의 인지 심리에 대한 간략한 소개 A brief introduction to the cognitive psychology of knowledge acquisition
의대 1학년 학생들이 가이튼과 홀의 의학 생리학 교과서의 한 장에서 새로운 정보를 접하게 되면,
그들은 새로운 정보를 해석하는 것을 돕기 위해 고등학교 또는 대학의 생물학에서 나온 사전 지식을 활성화activate한다.
그들은 새로운 지식을 구성construct하기 위해 기존의 지식을 사용한다.
이러한 새로운 이해는 충분히 철저하다면 후속 학습이나 응용에 사용할 수 있도록 장기 기억 장치에 저장된다(Anderson et al. 2017).
그러나 배울 수 있는 것은 지식이 의식적으로 처리되는processed 기억의 부분인 작업 기억의 제한에 달려 있다.
마지막으로, 생존을 위해 지식은 생물학적으로 기억 속에 통합consolidated되어야 합니다(Lee 2008; McGaugh 2000). 이 결합은 자연에서 먼저 생화학적이고 그 다음에 시냅스적 결합입니다. 이러한 프로세스는 안정화하는 데 몇 시간이 걸립니다.
숙면을 취하면 배운 것에 대한 기억력memory이 훨씬 좋아진다는 것은 잘 알려져 있다.
세 번째이자 마지막 프로세스는 기억을 해마 부위에서 피질까지 이동시켜 파괴할 수 없는 상태로 만드는 시스템 통합systems consolidation입니다(Wincur 및 Moscovitch 2011). 이 과정은 몇 년이 걸립니다.
인출 가능성retrievability은 학생들이 충분한 가변성의 맥락에서 지식을 적용하는 정도와 이러한 맥락이 처음에 학습한 맥락과 유사한 정도에 의해 영향을 받는다(Eva et al. 1998; Norman 2009).
When first-year medical students are confronted with information new to them from a chapter of Guyton and Hall’s textbook of medical physiology,
they activate prior knowledge from high-school or college biology to help them interpret the new information;
they use existing knowledge to construct new knowledge.
This new understanding, if sufficient thorough, is stored in long-term memory to be used for subsequent learning or application (Anderson et al. 2017).
What can be learned however is also dependent on limitations of working memory, the part of memory where knowledge is consciously processed (Baddeley and Hitch 1974; Mayer 2010).
Finally, knowledge needs to be biologically consolidated in memory in order to survive (Lee 2008; McGaugh 2000). This consolidation is biochemical in nature first, then synaptic. These processes take several hours to stabilize.
It is wellknown that memory for things learned is much better after a good night sleep.
A third and final process is systems consolidation in which memories are moved from the hippocampal area to the cortex and become indestructible—although not necessarily retrievable (Winocur and Moscovitch 2011). This process takes years.
Retrievability is influenced by the extent to which students apply their knowledge in contexts of sufficient variability and the extent to which these contexts resemble the context in which it was learned initially (Eva et al. 1998; Norman 2009).
학습을 촉진하는 교육적 개입 Instructional interventions that foster learning
위에서 설명한 인지 과정은 [학습에 관여하는 마음이 자연스럽게 하는 것]을 설명하고 있으며, 이 과정은 교육적 개입에 의해 촉진될 수 있습니다. The cognitive processes described above, delineating what the mind, engaged in learning, does naturally, can be boosted by instructional interventions.
사전 지식과의 관계를 강화하기 위한 개입 Interventions aimed at strengthening the relationship with prior knowledge
자기 설명 권장 Encouraging self‑explanation
[자기 설명]은 배운 것에 대한 정교화의 한 형태이다. 학생들은 이전에 습득한 지식에 새로운 정보를 관련시키거나 [자신의 말로 정보를 반복함]으로써 이 작업을 수행한다(Chi et al. 1989, 1994). 단순 반복(Craik과 Lockhart 1972)보다는 [정교화]가 더 도움이 되는 것으로 알려져 있습니다. 치 외 연구진(1994)은 순환계에 대해서 한 줄 한 줄을 읽고 자기설명을 한 학생들이 본문을 두 번 읽은 학생들보다 사전 시험부터 사후 시험까지 훨씬 더 많은 지식을 습득한 것으로 나타났다. Self-explanation is a form of elaboration upon what is learned. The students do this by relating new information to knowledge previously acquired or repeat the information verbally in their own words (Chi et al. 1989, 1994). Elaboration is known to be more helpful than simple repetition of new material (Craik and Lockhart 1972). Chi et al. (1994) found that students who were asked to self-explain after reading each line of a passage on the human circulatory system had a significantly greater knowledge gain from preto posttest than students who read the text twice.
자세한 토론 진행 Facilitating elaborative discussion
학생들이 또래들과 [주제를 토론]할 수 있게 하거나 선생님에 의해 자극을 받는다면, 학습은 상당히 향상된다. 메타 분석에 따르면, [소그룹 학습]은 대부분의 다른 교육 개입의 효과보다 학습에 훨씬 더 큰 효과를 발견했다. Versteeg 외 연구진(2019)은 [정교화-토론 그룹]이 [자기 설명 그룹]보다 우수한 반면, 두 그룹 모두 대조군 그룹보다 우수한 성능을 보인다는 것을 발견했다. 흥미롭게도, [처음에 잘못된 개념을 가진 학생]들은 [처음에 잘못된 이해를 한 동료]와 토론할 때도 이득을 보았다. If students are allowed to discuss subject matter with peers or are being prompted by a teacher, learning improves considerably. In a meta-analysis of small-group learning (Springer et al. 1999) found effects on learning considerably more sizable than those of most other educational interventions. Versteeg et al. (2019) found that the elaborative-discussion group outperformed the self-explanation group, while both outperformed the control group. Interestingly, students with initially wrong concepts profited even when discussing them with a peer who also had an initial wrong understanding.
분산 연습 촉진 Promoting distributed practice
학습과 검색 활동을 시간이 지남에 따라 분산시켜 같은 콘텐츠로 두어 번 되돌아가면 지식이 더욱 공고해집니다. 분산학습distributed-study 기회는 일반적으로 몰아치기 학습massed-study 기회보다 더 나은 기억력을 생산한다(Delaney et al. 2010).
If one spreads learning and retrieval activities over time, returning to the same contents a couple of times, knowledge become better consolidated. Distributed-study opportunities usually produce better memory than massed-study opportunities (Delaney et al. 2010).
새로운 정보 처리를 촉진하기 위한 개입 Interventions aimed at facilitating processing of new information
인지 부하를 줄이는 것을 돕기 Help in decreasing cognitive load
위와 같이 작업 메모리는 제한된 정보만 동시에 처리할 수 있습니다. 인지 부하가 높아져서 처리할 수 있는 정보수준을 초과할 경우 학습이 방해됩니다(van Merrienboer and Sweller 2010). 많은 연구들이 어떻게 인지 부하를 지시로 최적화할 수 있는지에 대한 질문을 조사했다. 성공적인 전략 중 하나는 [해결예시사례worked example]를 사용하는 것입니다. 교사는 학생들이 특정 영역의 문제를 스스로 해결하도록 요구하는 대신, 이러한 문제의 해결예시 사례worked-out example를 학습에 제시한다(Chen et al. 2015). 여기서 가정은 [문제를 해결하는 데 필요한 모든 요소]를 봄으로써 인지 부하를 감소시킨다는 것입니다. 지식이 부족한 학생들은 그러한 접근법으로 이익을 얻는 반면, 충분한 지식을 가진 학생들은 때때로 방해를 받는다(Kalyuga et al. 2001). As indicated above, working memory allows for only limited information to be processed at the same time. If the cognitive load of information exceeds what can be processed, learning is hampered (van Merrienboer and Sweller 2010). Much research has gone into the question how cognitive load could be optimized by instruction. One successful strategy is the use of worked examples. Rather than require students to solve problems in a particular domain by themselves, the teacher presents worked-out examples of these problems for study (Chen et al. 2015). The assumption here is that by seeing all elements required to solve a problem, decreases cognitive load. Students with limited knowledge seem to profit from such approach, whereas students with enough knowledge are sometimes hampered (Kalyuga et al. 2001).
장기 기억력 강화를 위한 개입 Interventions aimed at strengthening long‑term memory
인출 연습 촉진 Fostering retrieval practice
예를 들어 학생들에게 [정기적으로 퀴즈]를 제공하여 기억에서 배운 정보를 검색하도록 요청하면, 이런 방식으로 다시 활성화되는 지식은 기억 속에 더욱 고착화됩니다. When you ask students to retrieve information previously learned from memory, for instance by providing them with regular quizzes, knowledge reactivated this way becomes more entrenched in memory.
인터리빙 실무 육성 Fostering interleaving practice
임상추리연습에서 진단이 다른 사례를 제시하면 학생들이 [겉보기에는 같지만 진단이 다른 사례]와 [겉보기에는 다르지만 진단은 같은 사례]를 구분하는 학습이 활성화된다. 인터리빙(교차연습)은 초기 학습 속도를 늦출 수 있지만, 결국 보존 및 적용 개선으로 이어집니다. Offering cases with different diagnoses in a clinical reasoning exercise boosts learning because students learning to distinguish between cases that look the same but have different diagnoses, and cases that look different but have the same diagnosis. Interleaving may slow initial learning but, in the end, leads to better retention and application.
이러한 개입이 의료 교육의 실천에 어느 정도 적용됩니까? To what extent are these interventions applied to the practice of medical education?
문제 기반 학습(PBL)은 사실 초기 혁신이었습니다. 그것은 1969년 입학한 20명의 의과대학 학생들을 대상으로 캐나다 맥마스터 대학에서 개발되었다. PBL에는 다음과 같은 6가지 특성이 정의됩니다.
(i) 생물의학 또는 임상 문제는 학습의 출발점으로 사용된다.
(ii) 학생이 일부 시간 동안 소규모 그룹으로 협업한다.
(iii) 튜터의 유연한 지도 아래 진행한다. 문제는 배움의 계기이기 때문이다.
(iv) 커리큘럼에 포함한 강의의 수를 제한한다.
(v) 학습은 학생 주도이다.
(vi) 커리큘럼에는 자율 학습을 위한 충분한 시간이 포함된다.
Problem-based learning. (PBL) was actually an early innovation. It was developed at McMaster University, Canada where in 1969 a first group of 20 students entered medical school. PBL has the following six defining characteristics:
(i) Biomedical or clinical problems are used as a starting point for learning;
(ii) students collaborate in small groups for part of the time;
(iii) under the flexible guidance of a tutor. Because problems are the trigger for learning
(iv) the curriculum includes only a limited number of lectures;
(v) learning is student-initiated, and
(vi) the curriculum includes ample time for self-study.
PBL을 처음 만든 교수들에게 PBL은 단지 학생들 사이에서 동기부여를 증가시키기 위한 좋은 교육 관행의 조합이었다(Servant-Miklos 2019a). 그러나 70년대 말, 네덜란드 마스트리히트 대학에서 이루어진 연구로 인해 PBL은 인지심리학 연구결과(Schmidt 1983; Servant-Miklos 2019b)에 따라 재해석을 거쳤다. 표 1은 PBL의 기초가 되는 인지 과정 및 개입에 대한 저자들의 라벨링을 포함한다(Schmidt et al. 2011).
For the founding staff PBL was merely a combination of good educational practices aimed at increasing motivation among students (Servant-Miklos 2019a). However, by the end of the seventies, and due to work done at Maastricht University, the Netherlands, PBL underwent a reinterpretation in line with cognitive psychology findings (Schmidt 1983; Servant-Miklos 2019b). Table 1 contains the authors’ labelling of cognitive processes and interventions underlying PBL (Schmidt et al. 2011).
팀 기반 학습(TBL)은 1997년 미국 센트럴 미주리 대학의 래리 마이클슨에 의해 개발되었으며, 학급 규모가 커지면서 소크라테스 방식으로 가르칠 수 없게 되었다(마이클슨 외 2002). 이 아이디어는 2005년 의학 교육 문헌에 처음으로 등장했다(Koles et al. 2005). TBL은 세 단계로 구성됩니다.
(i) 준비 단계: 학생이 사전 할당된 자료를 개별적으로 학습하며, 비디오를 통해 전달되는 경우가 많다.
(ii) 수업 내 준비 상태 확인 단계: 개별 테스트를 하고, 이후 개별 테스트에 대한 답을 팀에서 논의하여 치르는 후속 테스트, 교사의 피드백
(iii) 수업 내 응용 단계: 팀 간 원활한 토론을 통해 학생들이 새로운 문제를 해결하고 초기 학습 자료에서 도출된 새로운 질문에 답하는 단계
Team-based learning (TBL)was developed in 1997 by Larry Michaelsen at the University of Central Missouri, US, when increasing class sizes prevented him from teaching in the Socratic fashion (Michaelsen et al. 2002). The idea emerged for the first time in the medical education literature in 2005 (Koles et al. 2005). TBL consists of three phases:
(i) A preparatory phase, in which students study individually preassigned materials often conveyed through video;
(ii) an in-class readiness assurance phase, consisting of an individual test, a subsequent retest taken after discussion of the answers to the individual test are discussed in a team, and teacher feedback;
(iii) an in-class application phase in which students through facilitated interteam discussion solve new problems and answer new questions derived from the initial learning materials.
작업 예worked example는 물리학, 수학, 화학에 관한 교과서에서 흔히 볼 수 있다. 문제를 해결하면서 인지 부하를 줄일 수 있는 가능성을 본 사람은 아마도 스웰러와 쿠퍼(1985)일 것이다. 이전 섹션에서 우리는 이미 보건 직업 분야에서 인지 부하 이론을 성공적으로 적용한 사례를 제공하였다(Chen et al. 2015). 그러나, 그 문헌에서 보고된 작업 사례에 대한 연구 수는 여전히 제한적이다. 3대 저널을 검색한 결과 15개의 기사가 발견되었는데, 가장 오래된 것은 2002년에 나온 것이다. worked example이 임상 추론을 가르치는 데 사용되는 방법의 도구상자에 유용하게 추가될 수 있지만, 분명히 더 많은 연구가 필요하다.
Worked examplesare common in text books on physics, mathematics and chemistry. It was probably Sweller and Cooper (1985) who saw their potential for reducing cognitive load while problem solving. In the previous section we have already provided a successful example of the application of cognitive load theory in the health professions field (Chen et al. 2015). However, the number of studies on worked examples reported in that literature is still limited. A search into the three most-cited journals in health professions education, Academic Medicine, Medical Education, and Advances in Health Sciences Education unearthed 15 articles, the oldest being from 2002. The use of worked examples would potentially be a fruitful addition to the arsenal of methods used to teach clinical reasoning, but we definitively need more studies.
혼합 연습 또는 인터리빙은 특히 중요한 기능 중 하나가 진단 문제 해결의 가르침이기 때문에 의료 교육의 잠재력이 크다(Richland et al. 2005; Rohrer 2012). 겉으로 보기에는 똑같은 경우가 원인이 다를 수 있다. 다른 방법으로는, 상당히 다른 종류의 증상을 보이는 사례들이 동일한 근본적인 병리현상을 보일 수 있다. 이러한 사례를 비교하고 대조하도록 학생을 교육하는 것이 이 교육 방식을 사용하는 데 최적일 것입니다. 그러나 현존하는 의료계 문헌에서는 6가지 사례만 찾아볼 수 있었으며, 흥미롭게도 대부분은 제프리 노먼과 맥마스터 대학의 그의 동료들에 의해 제공되었습니다.
Mixed practice or interleavinghas large potential for medical education, in particular because one of its important functions is the teaching of diagnostic problem solving (Richland et al. 2005; Rohrer 2012). Cases that superficially look the same may have different causes. Alternatively, cases demonstrating a quite different array of symptoms, may have the same underlying pathology. Training student to compare and contrast such cases would be optimal using this instructional approach. However, only six illustrative examples could be found in the extant health professions literature, interestingly most of them provided by Geoffrey Norman, and his associates from McMaster University.
의료 전문 지식 연구 The study of medical expertise
의료 전문성은 인지 심리학자들에게 매력적인 연구 영역이다. Medical expertise is an attractive domain of study for cognitive psychologists.
의사는 매우 광범위하고 복잡한 지식 기반에서 수술하며 임상 문제 해결은 주의력과 인식에서부터 의사결정까지 광범위한 인지 과정을 수반한다. 의학적 전문성이 40년 이상 연구자들의 관심을 끈 것은 놀랄 일이 아니다(Norman 2005) 이 연구는 임상적 추론, 특히 진단 과정에 초점을 맞추었다. 의대 교육의 주요 목표 중 하나는 학생들의 임상추론능력을 발전시키고 학생들이 좋은 진단가가 되도록 돕는 것이다. Physicians operate upon an extremely broad and complex knowledge basis, and clinical problem-solving involves a large spectrum of cognitive processes, ranging from attention and perception to decision-making. Not surprisingly, medical expertise has drawn researchers’ attention over four decades (Norman 2005). This research has focused on clinical reasoning, particularly the diagnostic process. One of major goals of medical education is to develop students’ clinical reasoning and helping students become good diagnosticians is much valued.
임상적 추론의 특성 The nature of clinical reasoning
임상 문제 해결의 일반 모델로서의 '가설연역적' 방법 The ‘hypothetico‑deductive’ method as a general model of clinical problem‑solving
임상 만남 초기에 의사들은 하나 또는 몇 개의 진단 가설을 생성하고 그 후에 이러한 가설을 확인하거나 반박하기 위한 추가 정보를 수집합니다. Early in a clinical encounter, physicians generate one or a few diagnostic hypotheses and subsequently gather additional information to either confirm or refute these hypotheses.
이러한 '가설연역적' 방법은 1970년대에 (의사와 학생이) 표준화된 환자와 상호작용는 동안 think-aloud하는 것을 관찰하는 것과 같은 전통적인 인지 심리학 연구 방법을 사용하여 수행한 선구적 연구로 밝혀졌다(Elstein et al. 1978, 2009). 이 연구들은 전문가들의 추론을 특징짓는 과정을 밝혀내려고 시도했고, 그 과정을 학생들에게 가르치고자 했다. This ‘hypothetico-deductive’ method was revealed by pioneering studies conducted in the 1970s using traditional methods of cognitive psychology research, such as observing physicians and students interacting with standardized patients while thinking aloud (Elstein et al. 1978, 2009). These studies attempted to uncover the reasoning process that characterizes experts’ reasoning, which could then be taught to students.
그러나, 비록 가설연역적 방법이 진단 추론의 일반적인 표현을 제공하지만, 후속 연구는 [가설연역적 추론능력이 전문가 성과를 설명하지 않는다는 것]을 보여주었다(Elstein et al. 1978; Neufeld et al. 1981). 의대생들도 같은 접근법을 채택했으며, 전문가와 초보 진단가를 구별하는 것은 [특별한 추론 과정]이 아니라 [진단 가설의 질]이었다(Barrows et al. 1982) 같은 기간의 또 다른 중요한 발견은 [한 임상 사례의 진단 성과가 다른 사례의 성과를 예측하지 못했다]는 것이다. 이러한 현상은 Elstein에 의해서 '내용 특수성'으로 명명되었으며, 심지어 동일한 전공 내에의 사례에 대해서도 발생하는 것으로 입증되었다.
However, although the hypothetico-deductive method provides a general representation of diagnostic reasoning, subsequent studies soon showed that it does not explain expert performance (Elstein et al. 1978; Neufeld et al. 1981). Medical students also employed the same approach, and what differentiated expert and novice diagnosticians was not a particular reasoning process but rather the quality of their diagnostic hypotheses (Barrows et al. 1982). An additional crucial finding of the same period was that diagnostic performance on one clinical case did not predict performance on another case. The phenomenon, labeled by Elstein ‘content specificity’ (Elstein et al. 1978), was proved to happen even when the cases were within the same specialty (Eva et al. 1998; Norman et al. 1985).
의학 지식은 어떻게 기억 속에 구조화되어, 진단 추론에 사용되는가 How medical knowledge is structured in memory and used in diagnostic reasoning
그것은 전문가 성과를 결정하는 [특별한 과정]이 아니라 [추론의 내용], 즉 지식 그 자체이다(Norman 2005). 이러한 결론은, 앞서 언급한 연구결과에 직면한 연구자들이, [의학적 지식의 종류 및 그 지식이 기억 속에서 지식이 어떻게 구조화되고 임상적 문제를 진단하는 데 활용되는지]에 관심을 돌린 새로운 연구 시대에서 도출되었다. 이러한 연구는 전문가와 비전문가 진단가의 지식 구조 차이에서 신중하게 검색하기 위해 인지 심리학 연구의 방법에 크게 의존했다. 예를 들어, 이러한 연구들 중 다수는 서로다른 수련연차의 의대생들 및 경험이 많은 의사들에게 임상 사례를 진단하고 환자의 징후와 증상을 설명하거나 또는 소리내어 생각하며thinking-aloud 사건을 해결할 것을 요청하였다. 진단 추론 중 사용된 지식의 종류와 양을 식별하기 위해 프로토콜이 분석되었다(Patel and Groen 1986; Schmidt et al. 1990).
It is not a particular process that determines expert performance, but rather the content of reasoning, i.e. knowledge itself (Norman 2005). This conclusion came from a new era of studies conducted when researchers, faced with the aforementioned findings, turned attention to the kinds of medical knowledge, how knowledge is structured in memory and used to diagnose clinical problems. These studies relied heavily on methods from cognitive psychology research to carefully search from differences in knowledge structures of expert and non-expert diagnosticians. For example, many of these studies requested medical students at different years of training and (more or less) experienced physicians to diagnose clinical cases and subsequently explain the patient’s signs and symptoms or, alternatively, to solve the case while thinking-aloud. The resulting protocols were analyzed to identify the kinds and amount of knowledge used during diagnostic reasoning (Patel and Groen 1986; Schmidt et al. 1990).
예를 들어 질병이 원형(Bordage 및 Zacks 1984), 이전에 본 환자의 인스턴스(Norman et al. 2007), 또는 스키마와 스크립트로 기억 속에 표현될 것이라는 여러 가지 지식 구조가 제안되었다(Schmidt et al. 1990).
이러한 제안 중 [프로토타입 모델]과 같은일부는 오랫동안 심리학에 존재하는 [표현 모델representation model]을 의학 지식에 적용하는 것으로 구성되었습니다.
다른 저자들은 [질환 스크립트illness script]의 개념과 같이 특별히 의학 지식을 표현하기 위한 형식을 개발하였다. 질병 스크립트는 질병이 발생하는 상태, 질병 과정 자체, 그리고 가능한 징후, 증상 및 관리 대안의 측면에서 그 결과에 대한 정신적 시나리오입니다(Feltovich와 Barrows 1984).
어떤 제안에 대해서는 일부 실증적 근거가 있으며, 의사 기억 속에는 필요할 때 동원될 수 있는 다양한 지식 구조가 공존할 가능성이 있다(Custers et al. 1996; Schmidt and Rikers 2007).
Several knowledge structures have been proposed, suggesting that diseases would be represented in memory, for example, as prototypes (Bordage and Zacks 1984), or as instances of previously seen patients (Norman et al. 2007), or yet as schemas and scripts (Schmidt et al. 1990).
Some of these proposals, such as prototype models, consisted of application of representation models long existing in psychology to medical knowledge.
Other authors however developed formats specifically for representing medical knowledge, such as the concept of illness scripts. Illness scripts are mental scenarios of the conditions under which a disease emerges, the disease process itself, and its consequences in terms of possible signs, symptoms, and management alternatives (Feltovich and Barrows 1984).
Some empirical support exists for several proposals, and it is likely that (some of) these different knowledge structures coexist in physicians’ memory to be mobilized when needed (Custers et al. 1996; Schmidt and Rikers 2007).
이러한 개념화는 진단 추론을 이해하는 데 틀을 잡았습니다. 일부 차이는 있지만, 이 개념들은 [질병은 기억 속에서 일련의 관찰 가능한 임상 징후와 연관되어 있다]는 기본적인 아이디어를 공유합니다. 간략히, [환자가 가진 manifestation의 존재]가 [의사의 기억 속에서 질병의 정신적 표현mental representation을 활성화]시켜 진단 가설을 생성합니다. 질병과 관련된 다른 징후가 실제로 존재하는지 여부를 확인하기 위해 추가 정보를 검색합니다. 이 검색을 통해 초기 진단과 상반되는 결과가 드러나고 오히려 다른 결과를 제시하게 되면 새로운 가설이 활성화되어 환자의 결과에 대해 테스트될 수 있습니다.
These conceptualizations have framed our understanding of diagnostic reasoning. Notice that, despite their differences, they share the basic idea that diseases are associated in memory with a set of observable clinical manifestations. Briefly, the presence of some of these manifestations in a patient activates in the physician’s memory the mental representation of the disease, generating a diagnostic hypothesis. Search for additional information follows to verify whether other manifestations associated with the disease are actually present. When this search reveals findings that contradict the initial diagnosis and rather suggest others, new hypotheses may be activated and tested against the patient findings.
진단 추론의 이중성 The dual nature of diagnostic reasoning
추리의 이중 프로세스 이론은 두 가지 다른 형태의 추리가 존재한다고 가정합니다.
하나는 패턴 인식에 기초하고, 하나는 빠르고, 힘들이지 않으며, 대체로 무의식적인 것입니다(일반적으로 시스템 1 또는 유형 1).
다른 하나는 규칙을 적용하기 위해 느리고, 노력하며, 의식적인 통제 하에 이루어집니다(시스템 2 또는 유형 2).
유형 1 프로세스가 직관적인 판단을 설명한다면,
유형 2 프로세스는 이러한 판단을 검증할 때 이루어져야 합니다.
Dual-process theories of reasoning assume that two different forms of reasoning exist,
one that is associative, based on pattern-recognition, fast, effort-less and largely unconscious (usually named System 1 or Type 1) and
another that depends on applying rules, is slow, effortful and takes place under conscious control (System 2 orType 2) (Evans 2008, 2006; Kahneman 2003).
While Type 1 processes accounts for intuitive judgments,
Type 2 processes have to take place when these judgments are verified.
이 모델을 의료 진단에 적용해보면, 유형 1 추론은 유형 2 프로세스에 따라 후속 검증이 달라지는 진단 가설의 생성을 설명할 것이다. Appling this model to medical diagnosis, Type 1 reasoning would explain the generation of diagnostic hypotheses whose subsequent verification depends on Type 2 processes.
의사가 진단에 도달하기 위해 비분석적 추론을 사용한다는 실질적인 증거가 있습니다(Norman 및 Brooks 1997). 예를 들어 방사선 전문의는 200ms에 약 70%의 정확도로 의료 영상의 이상을 감지할 수 있었다(Evans et al. 2013; Kundel and Nodine 1975). There is substantial evidence that physicians use non-analytical reasoning to arrive at diagnoses (Norman and Brooks 1997). Radiologists, for example, were able to detect abnormalities in medical images with around 70% accuracy in 200 ms (Evans et al. 2013; Kundel and Nodine 1975).
또한 의사들이 사례의 [복잡성 수준]이나, 사례가 [얼마나 문제가 될 수 있는지]에 대한 인식과 같은, 상황에 따라 [직관적 추론 모드]와 [분석적 추론 모드]를 모두 다른 수준으로 채택한다는 실질적인 증거가 있다(Maede et al. 2007, 2008). There is also substantial evidence that physicians adopt both intuitive and analytical reasoning modes in different degrees depending on the circumstances such as the level of complexity of the case or perception of how problematic a case might be (Mamede et al. 2007, 2008).
진단 추론의 이중 프로세스 표현이 의학 문헌에서 두드러졌다(Croskery 2009). 연구 전통은 진단 오류 문제와 함께 우려의 증가로 촉발되었다. 의사의 인지 프로세스의 결함은 대부분의 진단 오류(Graber 2005)에서 감지되었으며, 인지 오류의 출처는 의학 문헌(Norman 2009; Norman et al. 2017)에서 많이 논의되었다.
몇몇 저자들은 추론의 결함을 발견에 의해 유발된 인지 편견, 유형 1 프로세스에서 추론이 자주 발생하는 [휴리스틱 및 지름길에 귀인]하였다(Croskery 2009; Redelmeier 2005).
반대로, 다른 저자들은 휴리스틱스가 일반적으로 효율적이며 추론 결함에 대한 설명으로 특정 추론 프로세스보다는 [특정 지식의 결함]을 지적한다(Eva and Norman 2005; McLaughlin et al. 2014; Norman et al. 2017).
이 논란은 의대 교육에 직접적인 영향을 미치기 때문에 이론적인 논의로만 봐서는 안 된다. Dual-process representations of diagnostic reasoning have become prominent in the medical literature (Croskerry 2009). A research tradition has grown triggered by increasing concerns with the problem of diagnostic error. Flaws in the physician’s cognitive processes have been detected in the majority of diagnostic errors (Graber 2005), and the sources of cognitive errors have been much discussed in the medical literature (Norman 2009; Norman et al. 2017).
Several authors have attributed flaws in reasoning, and consequently errors, to cognitive biases induced by heuristics, shortcuts in reasoning frequent in Type 1 processes (Croskerry 2009; Redelmeier 2005).
Conversely, other authors argue that heuristics are usually efficient and point to specific knowledge deficits rather than particular reasoning processes as the explanation for reasoning flaws (Eva and Norman 2005; McLaughlin et al. 2014; Norman et al. 2017).
This controversy should not be seen as a theoretical discussion only, because it has direct consequences for medical education.
의대생 임상추론의 개발 The development of clinical reasoning in medical students
전문가가 되기 위한 과정에서 의대생들은 자신의 성과를 뒷받침하는 [질적으로 다른 지식 구조]를 가진 [여러 단계]를 거친다(Schmidt et al. 1990; Schmidt and Rikers 2007). 이 [의료 전문성 개발의 재구조화 이론restructuring theory of medical expertise]은 [학생들이 교육을 통해 발전함에 따라 지식이 어떻게 기억 속에서 구성되고 임상적 문제를 해결하기 위해 사용되었는가]를 이해하는 데 초점을 맞춘 연구 프로그램에서 나왔다. In the course towards becoming an expert, medical students move through different stages characterized by qualitatively different knowledge structures that underlie their performance (Schmidt et al. 1990; Schmidt and Rikers 2007). This restructuring theory of medical expertise development has come out of a research program focused on understanding how knowledge was organized in memory and used to solve clinical problems as students progress through education.
[교육의 첫 해]에 학생들은 병리 생리학적 메커니즘에 기초하여 질병의 기원과 결과를 설명하는 인과 네트워크를 대표하는 정신 구조를 빠르게 개발한다(Schmidt et al. 1990; Schmidt and Rikers 2007). 이 단계에서 학생들에게 임상적 문제 진단을 요청한 연구에 따르면, (이 단계의) 학생들은 여전히 [연결된 증상의 패턴을 인식하지 못하기 때문에] 인과적 메커니즘을 바탕으로 개별 증상isolated symptom에 대해 설명하려고 한다. 이러한 처리는 기초과학 지식을 많이 사용하여 힘들고 상세합니다. In the first years of their training, students rapidly develop mental structures representing causal networks that explain the origins and consequences of diseases on the basis of their pathophysiological mechanisms (Schmidt et al. 1990; Schmidt and Rikers 2007). Studies that asked students at this stage to diagnose clinical problems showed that, because students still do not recognize patterns of connected symptoms, they try to explain isolated symptoms based on their causal mechanisms. This processing is effortful and detailed, with much use of basic sciences knowledge.
지식 구조의 [첫 번째 질적 변화]는 학생들이 임상적 문제를 해결하기 위해 [습득한 지식을 적용하기 시작할 때]일어난다. 점차 증상으로 이어지는 일련의 사건에 대한 상세한 지식은 [보다 일반적인 설명 모델]이나 [상세한 설명을 나타내는 진단 라벨]에 '캡슐화encapsulated'된다(Schmidt et al. 1990; Schmidt and Rikers 2007). 이 과정을 통해 (예를 들어 증후군이나 단순화된 인과 메커니즘과 같은) [소수의 추상적이고 고차적인 개념]이 [더 많은 수의 하위 수준 개념]을 '요약summarize'하게 된다.
예를 들어, 학생들에게 세균성 심내막염과 패혈증이 있는 환자에게서 임상 징후를 설명하도록 요청했을 때, 그들은 그 결과, 즉 증상까지 오염된 주사기의 사용으로 시작되는 일련의 사건들을 단계적으로step-by-step 추론했다.
반대로, 전문가들은 '패혈증' 개념을 진단 추론에 이 지식을 사용할 필요 없이, 사건 사슬의 많은 부분을 '캡슐링'하는 라벨로 사용했다(Schmidt et al. 1988).
A first qualitative shift in knowledge structure occurs when students start to apply the knowledge that they have acquired to solve clinical problems. Gradually, the detailed knowledge of the chain of events that leads to a symptom is ‘encapsulated’ in more generic explanatory models or diagnostic labels that stands for the detailed explanation (Schmidt et al. 1990; Schmidt and Rikers 2007). Through this process, a small number of abstract, higher-order concepts, representing for example a syndrome or a simplified causal mechanism, ‘summarize’ a larger number of lower-levels concepts.
For example, when students were requested to explain the clinical manifestations in a patient presenting with bacterial endocarditis and sepsis, they reasoned step-by-step through the chain of events that starts with the use of contaminated syringes until their consequences, i.e. the symptoms.
Conversely, experts used the concept of ‘sepsis’ as a label that ‘encapsulates’ much of the chain of events, without the need to use this knowledge in their diagnostic reasoning (Schmidt et al. 1988).
많은 연구에 따르면 전문가들은 사례를 통해 추론할 때 이러한 유형의 '캡슐화된encapsulated' 개념을 많이 사용한다. 그 결과 think aloud나 recall protocol을 해보면, 학생보다 [기초 과학 개념이나 기본 메커니즘을 덜 참조]하는 것으로 나타났다(Boshuizen 및 Schmidt 1992; Rikers et al. 2004, 2000).그러나 기초과학 지식은 여전히 이용가능하며, 간접적인 추론 척도를 가진 연구가 보여주었듯이 진단 중에 실제로 '무의식적으로unconsciously' 사용된다(Schmidt와 Rikers 2007).
Many studies have shown experts to make much use of this type of ‘encapsulated’ concepts when reasoning through a case, leading to think aloud or recall protocols that contain less reference to basic sciences concepts or underlying mechanisms than the students’ ones (Boshuizen and Schmidt 1992; Rikers et al. 2004, 2000). However, basic sciences knowledge remains available and is indeed ‘unconsciously’ used during the diagnosis as studies with indirect measures of reasoning have shown (Schmidt and Rikers 2007).
[지식 구조의 두 번째 변화]는 [환자에 대한 노출이 증가함]에 따라 발생한다. 캡슐화된 지식은 [특정 질병을 가진 환자를 '대표represent'하는 서술적 구조]로 점차 재편된다(Feltovich and Barrows 1984; Schmidt et al. 1990). 이러한 '질병 스크립트'는 (캡슐화로 인하여) [질병의 인과적 메커니즘]에 대한 지식은 거의 담겨있지 않지만, [질병의 활성화 조건과 임상 발현]에 대한 임상 지식이 풍부하다(Custers et al. 1998). [활성화 조건enabling consition]에 대한 지식은 경험에 따라 증가하는 경향이 있으며, 전문가 의사의 추론에 중요한 역할을 한다(Hobus et al. 1987). 실제 환자에 대한 노출이 늘어나면서 이전에 본 환자의 흔적도 기억 속에 저장된다. 따라서 질병 스크립트는 질병 프로토타입의 표현부터 이전에 본 환자의 표현(Schmidt 및 Rikers 2007)까지 다양한 수준의 일반성different levels of generality에 존재합니다. A second shift in knowledge structures occurs as exposure to patients increases. Encapsulated knowledge is gradually reorganized into narrative structures that ‘represent’ a patient with a particular disease (Feltovich and Barrows 1984; Schmidt et al. 1990). These ‘illness scripts’ contain little knowledge of the causal mechanisms of the disease, because of encapsulation, but are rich in clinical knowledge about the enabling conditions of the disease and its clinical manifestations (Custers et al. 1998). Knowledge of enabling conditions tends to increase with experience and play a crucial role in expert physicians’ reasoning (Hobus et al. 1987). As exposure to actual patients increases, traces of previously seen patients are also stored in memory. Illness scripts exist therefore at different levels of generality, ranging from representations of disease prototypes to representations of previously seen patients (Schmidt and Rikers 2007).
[성공적인 진단 추론]은 결정적으로[질병에 대한 풍부하고 일관성 있는 정신표현이 개발되었는지]에 좌우되는 것으로 보인다(Cheung et al. 2018). 예를 들어, 진단 추론에서 기초의학 지식의 역할을 조사하고자 했던 일련의 연구에서는, 학생들이 질병과 관련된 임상 특성을 학습할 때 설명을 주거나 주지 않은 상태에서 학습하도록 했다(Woods et al. 2007). [인과적 메커니즘]에 의해 임상적 특성이 어떻게 연결되어 있는지를 알게 된 학생들은, delay 후에 해당 질병의 환자를 진단할 때 진단 정확도가 높아졌다. 이러한 연구는, 지식의 캡슐화 과정knowledge encapsulation process에 대한 추가적인 증거를 제공할 뿐만 아니라, [질병의 기본 메커니즘을 이해하는 것]이 [임상적 특징을 함께 '접착'하는 데 도움]이 되고, 질병에 대한 보다 [일관성 있고 안정적인 정신표현]으로 이어지며, 향후 [유사한 사례를 진단]할 때 질병을 더 쉽게 인식할 수 있도록 한다는 것을 시사한다.
Successful diagnostic reasoning seems to depend critically on developing rich, coherent mental representations of diseases (Cheung et al. 2018). For instance, a series of studies attempting to investigating the role of biomedical knowledge in diagnostic reasoning had students learning the clinical features associated with a disease either together with explanations of how they are produced or without explanation (Woods et al. 2007). Learning how the clinical features are connected by causal mechanisms led to higher diagnostic accuracy when diagnosing cases of the disease after a delay. Besides bringing additional evidence of the knowledge encapsulation process, these studies suggest that understanding their underlying mechanisms help ‘glue’ the clinical features together, leading to more coherent and stable mental representations of the diseases, which make it easier to recognize them when diagnosing similar cases in the future.
임상 추론 교육 The teaching of clinical reasoning
위에서 설명한 연구는 [전문가 의사는 어떤 특정한any peculiar 추론 방식을 채택하지 않으며], 학생들에게 가르칠 수 있는 [일반적인 추론 기술 같은 것은 없다]는 실질적인 증거를 제공한다. 그럼에도 불구하고 1990년대에 학생들에게 '보편적인 추론 방법'을 가르쳐야 한다는 제안은 여전히 문헌에서 매우 빈번하게 나타나고 있다(Schmidt와 Mamede 2015). 실제로 최근에는 이중 프로세스 이론이 주목받으면서, 이러한 제안도 [임상 추론] 및 [인지 편향]을 다루는 과목과 같은 개입의 형태로 나타났다(Norman et al. 2017). The research described above provides substantial evidence that expert physicians do not employ any peculiar reasoning mode and there is no such thing as general reasoning skills that can be taught to students. Nevertheless, proposals for teaching students how to reason, common in the 1990s, are still very frequent in the literature (Schmidt and Mamede 2015). Indeed, more recently, as dual-process theories have gained attention, these proposals have also gained the form of interventions such as courses on clinical reasoning and cognitive bias (Norman et al. 2017).
놀랄 것도 없이, 훈련생들의 실제 진단 성과를 평가할 때마다, 이러한 [프로세스 지향적 개입의 효과는 무효이거나 미미]했다(Norman et al. 2017; Schmidt and Mamede 2015). 반대로 (임상적 추론의 성격과 그것이 어떻게 전개되는지에 대해 우리가 알고 있는 것과 더 부합하는 것 같은) [질병 지식의 획득과 재구조화를 지향하는 개입]이 훨씬 더 유망해 보였다. 예를 들어, [서로 비슷해보이는 질병을 구별짓는 특징에 관한 지식을 향상시키기 위한 개입]은 추론에서 나타날 수 있는 편향에 대하여 의사를 '면역immunize'시키는 것으로 나타났다.(Mamede et al. 2020).
Not surprisingly, whenever trainees’ actual diagnostic performance was evaluated, the effect of these process-oriented interventions has been null or minimal (Norman et al. 2017; Schmidt and Mamede 2015). Conversely, interventions directed towards acquisition and restructuring of disease knowledge, which seems more in line with what we know about the nature of clinical reasoning and how it develops, looked much more promising. For example, an intervention directed at increasing knowledge of features that discriminate between similar-looking diseases successfully ‘immunized’ physicians against bias in reasoning (Mamede et al. 2020).
[가설연역적 모델의 시뮬레이션을 사용한 직렬-단서 접근법]은 임상 추론 교육을 위해 제안된 가장 보편적인 개입으로 문헌의 최근 리뷰에서 나타났다(Schmidt와 Mamede 2015). 이 접근 방식에서는 사례의 정보가 [단계별로 공개]되며, (학습자는) 각 단계에서 진단 가설을 생성하고, 진단 결정에 도달하기 위해 필요한 추가 정보를 파악해야 한다. 이 접근방식은 거의 조사되지 않았다. The serial-cue approach with simulation of the hypothetico-deductive model appeared in a recent review of the literature as the most prevalent intervention proposed for the teaching of clinical reasoning (Schmidt and Mamede 2015). In this approach information of the case is disclosed step-by-step, and students required in each step to generate diagnostic hypotheses and identify which additional information is needed to arrive at a diagnostic decision. The approach has rarely been investigated.
실제 연습과 유사하기 때문에 시리얼 큐 접근법이 광범위하게 사용되는 것은 설명될 수 있지만, 아직 [정보 검색을 가이드할 질병 스크립트를 개발하지 못한 학생들]에게는 이 방식이 크게 부담스러울 수 있다는 주장이 제기되어 왔다. Its similarity to real practice may explain the widespread use of the serial cue approach, but it has been argued that it may be overwhelming for students who do not have yet developed illness scripts to guide the search for information.
임상 추론 교육을 위한 지침적 접근법으로서의 [자기 설명]은 최근 챔버랜드와 동료들이 수행한 일련의 연구(챔버랜드 외 2013, 2015, 2011)에서 테스트되었다. Self-explanation as an instructional approach for the teaching of clinical reasoning has been tested in a series of studies conducted by Chamberland and colleagues (Chamberland et al. 2013, 2015, 2011) in recent years.
[자기 설명을 사용한 학생들]은 자기 설명 없이 연습한 학생들보다 테스트에서 유사한 경우를 더 잘 진단했다. 학생들은 생체의학 지식을 폭넓게 활용해야 하는 사례에 대한 자기 설명만으로 이득을 얻는데, 이는 진단 추론에서 그러한 지식의 가치를 재확인하는 연구 결과입니다. [신중한 성찰deliberate reflection](아래 참조)과 함께, 자기 설명은 최근 보고된 Sherbrooke 의과대학의 종방향 커리큘럼 프로그램에 채택되었다(체임버랜드 외 2020). Students who used self-explanation better diagnosed similar cases in the test than their peers who had practiced without self-explanation. Students only benefitted from self-explanation on cases with which they were less familiar and which required them to extensively use biomedical knowledge, a finding that reaffirms the value of such knowledge in diagnostic reasoning. Together with deliberate reflection (see below), self-explanation has been adopted in a longitudinal curricular program at the Sherbrooke Medical school, an experience which has been recently reported (Chamberland et al. 2020).
(자기 설명과는 달리), 생체의학적 지식보다 [임상적 지식에 초점을 맞춘 교육적 개입]도 제안되었다. 이러한 개입은 임상 문제와 관련하여 실습하는 동안, [이전에 습득한 임상 지식의 인출 및 당면한 정보에 대한정교화]를 촉진합니다. 이러한 개입은 다양한 형식을 취함에도 불구하고 당면한 문제에 대해 서로 다른 대체 진단 방법을 비교하고 대조할 수 있는 지침을 학생들에게 제공한다는 기본 개념을 공유합니다. Instructional interventions that, differently from self-explanation, focus on clinical rather than biomedical knowledge have also been proposed. These interventions foster retrieval of previous acquired clinical knowledge and elaboration on the information at hand during practice with clinical problems. Despite the different formats they may take, these interventions share the basic idea of providing students with guidance to compare and contrast different alternative diagnoses for the problem at hand.
일반적으로 의료교육에서 '혼합연습mixed practice' 이라고 하는 인터리빙 연습interleaving practice는 위에서 언급한 개입의 요건이다. [생김새는 비슷하지만 실제로는 진단이 다른 임상적 문제]와 [실제로는 다른 질병이지만 생김새가 비슷한]의 특징을 한 연습에서 함께 제시해야 비교하고 대조할 수 있다. [같은 진단의 예를 함께 제시]하는 [블록 연습blocked practice]과 비교했을 때, [혼합 연습]의 이점은 혼합 또는 차단된 연습으로 훈련된 후 심전도 해석 시 학생들의 성과를 비교하는 연구에서 입증되었다(Ark et al. 2007; Hatala et al. 2003). Interleaving practice, usually referred to in medical education as ‘mixed practice’, is a requirement for the abovementioned interventions. It is only possible to compare and contrast the features of clinical problems that may look similar but have in fact different diagnoses when problems of different diseases that look alike are presented together in the same exercise. The benefits of mixed practice relative to blocked practice, which presents examples of the same diagnosis together, have been demonstrated in studies comparing students’ performance when interpreting EKG after being trained either with mixed or blocked practice (Ark et al. 2007; Hatala et al. 2003).
임상 추론을 가르칠 때 worked example를 사용하여 (정보) 처리량을 줄이는 것은 거의 조사되지 않았습니다. 그럼에도 불구하고, 이 개입이 더 많은 관심을 받을 가치가 있다는 징후는 학습 진단 지식에 대한 잘못된 예와 다른 유형의 피드백의 사용의 영향 또는 진단 역량에 대한 반사 추론의 연구(Ibiapina)의 장점을 탐구하는 몇 가지 연구에서 나왔다. 외. 2014).
Decreasing processing through the use of worked examples in the teaching of clinical reasoning has been more scarcely investigated. Nevertheless, indication that this intervention deserves further attention has come from a few studies exploring the influence of using erroneous examples and different types of feedback on learning diagnostic knowledge (Kopp et al. 2008, 2009) or the benefits of studying worked examples of reflective reasoning for diagnostic competence (Ibiapina et al. 2014).
이러한 아이디어를 기술한 원고는 얼마나 자주 보건학 교육의 진보에 나타나나요? How often do manuscripts delineating these ideas appear in advances in health sciences education?
Table 2
의학 교육의 인식의 미래: 인지과학 The future of cognition in medical education: Cognitive science
첫째, 교육에 강한 영향을 미치는 임상 실습의 발전은 새로운 연구 수요를 가져왔다. 그 중 하나가 인공지능의 통합 등 의료의 디지털화다(Wartman and Combs 2018). 전문가 지식 또는 기계 학습에서 파생된 컴퓨터 기반 알고리즘은 진단 및 예후 결정을 획기적으로 개선할 것으로 기대된다(Obermeyer 및 Emanuel 2016). First, developments in clinical practice that have strong implications for education have brought new research demands. One of these developments is the digitalization of health care, including the incorporation of artificial intelligence (Wartman and Combs 2018). Computer-based algorithms, whether derived from expert knowledge or machine learning, are expected to dramatically improve diagnostic and prognosis decisions (Obermeyer and Emanuel 2016).
그러나 이러한 변화의 "부작용side effect"도 이미 오래전에 확인되었다. 예를 들어, 자동화 시스템에 지나치게 의존함으로써 발생하는 "자동화 편향automation bias"은 임상의가 초기 인상initial impression을 검토하는 빈도를 낮추고, 결국 오류를 발생시키는 경향이 있다(Bond et al. 2018; Lyell and Coiera 2017). 향후 연구는 임상의들이 이러한 편견을 뒷받침하는 메커니즘을 더 잘 이해하고 훈련생들을 그들에게 덜 민감하게 만드는 방법을 연구하기 위해 이러한 개발을 실무에 통합할 수 있도록 어떻게 더 잘 준비할 수 있는지 탐구해야 한다. 게다가, 의료의 디지털화는 임상적 환경에 변화를 가져왔으며, 이는 학생들이 그들의 경험을 통해 배울 수 있는 것에 영향을 미칠 것이다. 예를 들어,현재여러 기관에서전자 건강 기록(EHR)과 연계된 [임상 의사결정 지원 시스템]을 채택하고 있다(Keenan et al. 2006).컴퓨터가 광범위하게 활용되면서 환자 진료 방식이 크게 변화되었다.임상현장은 '의사-컴퓨터-환자'라는 삼각구도를 이루게 되었고, staff room은 학생 및 레지던트들이 한줄로 컴퓨터 화면을 응시하는 모습이 되었다.
However, “side effects” have long been identified. For example, “automation bias” resulting from overreliance on automation systems tends to make clinicians less prone to review their initial impressions, eventually causing errors (Bond et al. 2018; Lyell and Coiera 2017). Future research should explore how clinicians can be better prepared to incorporate these developments in their practice, aiming also at better understanding the mechanisms underlying such biases and how to make trainees less susceptible to them. Moreover, the digitalization of health care has brought changes to the clinical setting that affect what students can learn from their experiences there. Think, for example, of clinical decision support systems, often associated with electronic health records (EHR), now widely adopted (Keenan et al. 2006). Patient care has been substantially altered by the widespread presence of computers, with clinical encounters now involving the ‘provider-computer-patient triangulation’ and staff rooms changed into rows of students and residents staring at computer screens.
한편, EHR은 강력한 교육 도구가 될 수도 있습니다. 이들 중 다수는 관리 지점에서 온라인 학습 리소스에 대한 즉각적인 액세스를 제공합니다. 예를 들어, 수련생은 clinical encounter 상황에서 환자관리에 대한 임상 가이드라인이나 권고안을 '가져올pull' 수 있습니다. 이것은 새로운 지식이 미래에 사용될 것과 매우 유사한 맥락에서 학습될 수 있도록 할 것이며, 이는 검색가능성을 촉진하는 기본 원칙이다. 또한 EHR은 교육생들에게 사례를 쉽게 검토할 수 있는 기회를 제공하고,환자의 임상 경험을 쉽게 추적할 수 있도록 지원할 것이다(Keenan et al. 2006; Tierney et al. 2013). On the one hand, EHRs can be powerful educational tools. Many of them offer instant access to online learning resources at point of care. Trainees can, for example, ‘pull’ clinical guidelines or recommendations about care management during the clinical encounter. This would allow for new knowledge to be learned in a context very similar to the one in which it would be used in the future, a basic principle to facilitate retrievability. EHRs also gives trainees the ossibility to easily go back to review a case and facilitates keeping track of one’s clinical experiences (Keenan et al. 2006; Tierney et al. 2013).
반면에 잠재적인 부작용은 논의되었다. 예를 들어, 온라인 정보의 양이 압도적일 수 있으며, 훈련생들의 관심은 [환자]보다도 [데이터 입력 프로세스]로 옮겨갈 수 있습니다. 좀 더 미묘하게, EHR로 인해, 교육생들은 연구 결과를 해석하고, 해석한 결과를 바탕으로 내러티브를 구성하지 않아도 될 수도 있으며, 오히려 환자의 raw data를 지도의사에게 쉽게 전달할 수 있는 가능성이 생긴다. 따라서 학생이나 전공의가 문제를 두고 고민할reflect upon 인센티브가 감소하며, 담당 의사와 논의할 기회도 감소합니다(Peled et al. 2009; Wald et al. 2014). EHR과 CDDS가 교육생 학습에 어떤 영향을 미치며, 학습 육성을 위해 시스템 자체 또는 시스템 용도의 특정 특성을 최적화할 수 있는지가 인지과학 연구 내에서 주목을 끌 가능성이 높은 영역의 예이다.
On the other hand, potentially adverse effects have been discussed. For example, the volume of online information may be overwhelming, and trainees’ attention may be diverted from the patient to the dataentering process. More subtly, EHRs give trainees the possibility to easily convey the raw patient data to supervisors, without being compelled to interpret findings and build a narrative out of them. Incentive for the student or resident to reflect upon the problem therefore decreases, and so does the opportunity for discussion with attending physicians (Peled et al. 2009; Wald et al. 2014). How EHRs and CDDS affect trainees learning and which specific characteristics of the system itself or of its use can be optimized to foster learning are examples of areas that are likely to call attention within cognitive science research.
Adv Health Sci Educ Theory Pract. 2020 Dec;25(5):1025-1043.
doi: 10.1007/s10459-020-10011-0.Epub 2020 Nov 26.
How cognitive psychology changed the face of medical education research
In this article, the contributions of cognitive psychology to research and development of medical education are assessed. The cognitive psychology of learning consists of activation of prior knowledge while processing new information and elaboration on the resulting new knowledge to facilitate storing in long-term memory. This process is limited by the size of working memory. Six interventions based on cognitive theory that facilitate learning and expertise development are discussed: (1) Fostering self-explanation, (2) elaborative discussion, and (3) distributed practice; (4) help with decreasing cognitive load, (5) promoting retrieval practice, and (6) supporting interleaving practice. These interventions contribute in different measure to various instructional methods in use in medical education: problem-based learning, team-based learning, worked examples, mixed practice, serial-cue presentation, and deliberate reflection. The article concludes that systematic research into the applicability of these ideas to the practice of medical education presently is limited and should be intensified.
섬과 군도: 프로그램적 연구와 기회주의적 연구의 조화(Perspect Med Educ,2020) Islands and archipelagos: Reconciling programmatic vs. opportunistic research in health professions education Glenn Regehr
연구 프로그램에 참여하는 것이 무엇을 의미하는지 생각해 볼 수 있는 몇 가지 방법이 있습니다. "프로그램적"이라는 개념을 어떻게 정하느냐는, 당신의 직업에서 [기회주의적 연구]의 위치에 대해 어떻게 생각하는가에 영향을 미칠 것입니다.
실제로 보건직 교육 분야에서는 특정 주제 분야를 선택하고 대부분의 연구 시간을 해당 분야에서 보내는 연구자들이 있습니다. 이들 중 일부는 임상 진단 및 관리에 대한 전문지식의 성격과 같은 보다 개념적인 문제에 초점을 맞춘다.
다른 이들은 특정 교육 혁신 또는 평가 도구의 개발 및 개선과 같은 보다 구체적인 문제에 초점을 맞춥니다.
또한 다른 이들은 위탁 결정의 성격과 기록 방법(개념적 질문과 실제적 질문을 모두 포함하는)과 같은 중간의 공간을 찾는다.
There are several ways to think about what it means to engage in a program of research. How you choose to frame the notion of “programmatic” will affect how you think about the place of opportunistic research in your career.
There are indeed some researchers in health professions education who pick a specific topic area and spend the majority of their research time in that area. Some of these individuals focus on a more conceptual issue, such as the nature of expertise in clinical diagnosis and management.
Others focus on more concrete problems, such as the development and refinement of a particular educational innovation or assessment tool.
Still others find a space that is somewhere in between, such as exploring the nature of entrustment decisions and how to record them (which encompasses both conceptual and practical questions).
그러나 이러한 고도로 집중된 개인들도 어떤 이유로든 종종 다른 연구 분야로 이탈할stray 가능성이 높습니다. 연구자의 핵심 주제 분야가 아니더라도 연구를 희망하는 타인에 대한 일정 수준의 지원이 직무기술에 포함되어 있기 때문일 수 있다. 또는 연구자가 포기할 수 없는 기회에서 비롯될 수도 있다(내 동료 중 한 명은 특정 주제와 상관없이 연구팀과 함께 일하는 것이 흥분되어 가끔 연구 프로젝트에 참여하는 것을 묘사한다). 일부 핵심 연구 분야에 대한 그들의 깊은 헌신 때문에, 이러한 한 분야에 집중하는 연구자들은 [(그들이 적극적으로 추구하는) 프로그램적 연구]와 그들이 [기회주의적으로 참여하는 "기타" 연구] 활동을 구별할 수 있다. 따라서, 그들은 적극적으로 그들이 참여하는 기회주의적 연구의 양을 제한하고 그들의 연구 프로그램에 최대한 초점을 맞추려고 노력할 수 있습니다.
Yet even these highly focused individuals are likely to stray into other areas of research occasionally, for any number of reasons. Their side forays may be because their job description includes a certain amount of support for others who are hoping to conduct research, even if it is not directly in the researcher’s core topic area. Or it may result from chance opportunities a researcher feels cannot be passed up (one colleague of mine describes occasionally joining research projects because she is excited to work with members of the research team regardless of the particular topic). Because of their deep commitment to some core research area, these focused researchers may drawthe distinction between “their” programmatic research(which they actively pursue) and the “other” research activities they engage in opportunistically. Thus, they may try to actively limit the amount of opportunistic research they engage in and keep as much focus as possible on their own research program(an approach that your supervisor seems to be recommending).
저 자신의 연구 접근법은 프로그램적 연구와 기회주의적 연구의 경계를 모호하게 만드는 경향이 있습니다. 내 여러 연구결과물에서 이어지는 주제도 있지만, 그 주제들은 각각 다른 사람들과의 작업 때문에 기회주의적으로 생겨났다. 그리고 각각은 새로운 개인이 그 분야에 대한 관심과 새로운 관점을 가지고 나에게 다가오기 때문에 앞으로 나아갑니다. 예를 들어, "나의" 자기 평가 관련 연구작업은 수년 전 정신과 레지던트와의 가벼운 산책에서 시작되었는데, 그는 어떤 학문적인 분야에 관심이 있느냐고 물었더니 학생들의 자기 평가를 개선하고 싶다고 말했다. 이어진 대화로 우리는 과연 자기 평가가 무엇이고, 무엇을 위한 것인지에 대해 궁금해지기 시작했다. 이것은 그가 새로운 자기 평가 모델(상대 순위 모델이라고 부르는 것)을 개발했기 때문에 그의 석사 논문의 주제가 되었습니다.
My own approach to research has tended to blur the boundaries between programmatic and opportunistic research. There are certain themes that run through my work, but each of those themes arose opportunistically because of my work with others. And each moves forward because a new individual comes to me with an interest in the area and a new perspective on the issue. As an example, “my” self-assessment work began many years ago during a casual walk with a psychiatry resident who, when I asked him what scholarly area he was interested in, said that he wanted to improve students’ self-assessment. The ensuing conversation led us to start to wonder what self-assessment really was, and what it was for. This became the topic for his Master’s thesis, as he developed a new model of self-assessment (something he called the relative ranking model).
그 연구 프로그램을 뒷받침해준 몇 가지 연구 후에, 그는 다른 방향으로 나아갔다. 그래서 그 "내" 연구의 영역은 몇 년 동안 그 분야의 연구를 더 진행했고, 몇 년 후 그 분야를 연구하기 시작한 한 주니어 동료가 나에게 접근하였다. 이 새로운 공동작업자는 임상의가 실무에서 안전을 유지하는 방법에 대한 보다 합리적인 개념화로서 자가 모니터링 개념을 발전시킨 여러 연구를 주도했습니다. 그 기간 동안, 또 다른 어떤 외과 동료는 수술에서 안전한 실습에 대한 개념을 이해하는 데 관심을 보였고, 이로 인해 저는 일상적인 실습에서 자가 모니터링을 탐구하는 그녀의 박사 논문을 돕게 되었습니다.
After a few studies supporting that research program, he moved in different directions. So that area of “my” research lay fallow for a few years until a junior colleague started working inthe area and approached me to collaborate with him. This new collaborator led several studies that developed the idea of self-monitoring as a more sensible conceptualization of how clinicians stay safe in practice. During that time, a surgeon colleague was showing interest in understanding the notion of safe practice in surgery, which led to my supporting her PhD thesis exploring self-monitoring in everyday practice (what she called “slowing down when you should”).
나에게 있어, 그 연구 분야는 다른 학생 및 동료연구자들의 관심 때문에, [피드백에서 "자기"의 역할에 대한 탐구]로 바뀌었습니다. OSCE 측정, 직장 기반 평가, 전문 정체성 구축 또는 임상 추론에 대한 전문 지식과 관련된 내 연구 주제에 대해 비슷한 이야기를 할 수 있습니다. 이 중 어느 분야도 '내 연구'로 적극적으로 추진하지는 않았지만 기회가 생기면 그 사람의 관심사와 내가 생각해 온 것을 함께 연구하게 되어 기뻤다. 그리고 저는 그 특정 분야에 대해 생각하기 시작했습니다. 왜냐하면 어떤 사람이 처음에 저에게 흥미로운 문제를 가지고 다가왔기 때문입니다. 그래서 아마도 나의 연구 스타일에 대한 가장 좋은 설명은 다른 사람들과의 상호작용을 통해 기회주의적으로 발생하는 교육의 실질적인 문제들을 해결하는 [프로그램적 접근방식]을 가지고 있다는 것입니다.
For me, that area of research has now morphed into explorations of the role of the “self” in feedback because of the interests of other students and collaborators. I could tell similar stories about my research themes around OSCE measures, workplace-based assessment, professional identity construction, or expertise in clinical reasoning. I did not actively pursue any of these areas as “my research”, but when opportunities arose, I was happy to marry the person’s interests with something I had been thinking about. And I only started thinking about that particular area because someone had initially approached me with an interesting problem they wanted to explore. So perhaps the best description of my own research style is that I have a programmatic approach to addressing the practical problems of education that arise opportunistically through my interactions with others.
그러나 내가 해온 모든 연구 연구활동의 보다 심층에는 "프로그램적" 일관성이 있습니다. 즉, 제가 작업 중인 모든 분야에 일관된 [개념 렌즈 세트]입니다. 저는 우리들(또는 적어도 우리들 대부분은)이 특정 학문분야의 훈련을 통해 자신만의 렌즈 세트를 개발한다고 생각합니다. 우리는 부분적으로는 멘토와 감독자로부터, 부분적으로는 우리가 선택하여 읽고 따르기로 한 문헌으로부터 '렌즈의 세트set of lenses'를 물려받습니다. 이 렌즈들은 우리가 세계를(그리고 그 세계의 문제를) 프레이밍하는 방법을 정의합니다. 그것은 상황을 해석하는 방법, 우리가 자연스럽게 던지는 질문의 종류, 그래서 우리가 찾을 수 있는 해답을 형성합니다. However, there is also a deeper level of “programmatic” coherence across all my research enterprises: the consistent set of conceptual lenses that I bring to whatever I am working on. I think each of us (or at least most of us) develop our own set of lenses through our disciplinary training. We inherit them, in part, from our mentors and supervisors and, in part, from those we choose to read and follow in the literature. These lenses define the ways in which we tend to frame the world (and its problems). It shapes our ways of interpreting situations, the sorts of questions we naturally ask and, therefore, the sorts of answers we can find.
따라서, 우리의 개념적 렌즈는 해당 분야의 다른 사람들과의 관계 속에 우리를 위치시킵니다. 제 뿌리는 인지심리학에 있습니다. 그리고 제가 개발한 모든 연구 질문들은 인지주의 틀을 가지고 있습니다. 그래서 주제와 상관없이 저는 항상 [개인]에 초점을 두고 있습니다. 즉, 사람들이 주변의 세상에 대해 어떻게 이해하는지, 그리고 그러한 이해가 그들의 결정과 행동방식에 어떻게 영향을 미치는지 말입니다. 물론, 다른 사람들은 그들만의 렌즈를 가지고 옵니다: 사회학, 수사학, 정신분석학, 인구과학, 시행과학, 또는 비판 이론.
Thus, our conceptual lenses position us relative to others in the field. My own roots are in cognitive psychology, and all the research questions that I develop have this cognitivist framing. So regardless of topic, my focus is always on the individual—how people develop an understanding of the world around them and how that understanding affects their decisions and ways of acting in the world. Others, of course, bring their own lenses: sociology, rhetoric, psychometrics, population sciences, implementation sciences, or critical theory (to name just afew).
위의 개념적 렌즈는 여러분의 "프로그램" 연구에 대한 또 다른 사고방식을 제공합니다. 여러분이 다루는 [특정한 문제]들은 상당히 정기적으로 바뀔 수 있지만, 여러분이 그 문제들에 [적용하는 렌즈]들은 더 일정할 것입니다. 비유하자면, 저는 저의 연구 접근법과 그 결과로 생긴 공동 출판 기록을 [바다의 섬]에 비유합니다. 저와 함께 일하는 각 공동작업자는 우리가 건설하고 있는 섬의 소유권을 합법적으로 주장할 수 있습니다(특정 주제 또는 질문). 하지만 1만 미터 상공에서 이 모든 섬들을 보면, 하나의 군도를 이루고 있다는 것이 명백해집니다.내가 이 일에 기여한 것은 [단순히 섬의 구축하는 것]이 아니라 [각각의 섬이 구축된 수면아래에 자리잡고 있는 개념적이고 방법론적인 땅덩어리]이다. 한 사람의 작업이 군도에서 너무 멀리 떨어져 있다면, 섬 자체(연구)가 형성되기 전에 훨씬 더 많은 기초 작업(대양 바닥에 재료를 붓는 일)이 필요하다. 하지만 만약 내가 내 땅 가까이에 있는 사람을 협상할 수 있다면, 그것은 그 사람의 섬의 발전을 더 쉽게 지지해주고 내 군도를 확장시켜준다.
These conceptual lenses offer another way of thinking about your “program” of research. The specific problems you address may change fairly regularly (because of the various opportunities that arise) but the lenses you apply to them (the way you frame them and explore them), will be more constant (although these too might evolve with time). By way of analogy, I liken my research approach and my resulting collaborative publication record to islands in an ocean. Each collaborator I work with can legitimately claim ownership of the island we are co-constructing (the particular topic or question). But if one looks at all these islands from10,000 metres up, it becomes clear that they forman archipelago. My contribution to the work is not just the building of the island, but the conceptual and methodological landmass that sits under the water on which each of the islands are built. If a person’s work is too far away from the archipelago, then it takes a much greater amount of foundational work (pouring material onto the ocean floor) before the island itself (the study) can take shape. But if I can negotiate the person close to my landmass, then it more easily supports the development of the person’s island and it extends my archipelago.
특정 학문을 기반으로 한 박사과정 프로그램을 통해 보건 직업 교육 분야에 진입한 많은 사람들에게, 우리는 그 땅덩어리의 모양을 명시적으로 정의할 필요도 없었고, 따라서 어떻게 그것이 HPE 유형의 섬들을 효과적으로 지지할 수 있을지에 대해 생각해볼 필요도 없었습니다. 이러한 이유로 나는 종종 [이 분야에 입문하는 사람들]에게 그들만의 선언문manifesto을 쓰는 데 시간을 할애할 것을 추천한다. 그렇게 한다면, 자기자신과 다른사람 모두가 [자신이 어떤 관점을 이 분야로 가지고 왔고, 그 관점이 어떤 독특한 시각을 제공하며, 그리고 그 새로운 통찰이 어떻게 다루고있는 문제를 해결하는 데 도움을 줄 수 있는지]를 알게 될 것이다.
For many of us who come to the field of health professions education from a discipline-based PhD training program, we have never had to explicitly define the shape of that landmass, nor think about how it might effectively support HPE types of islands. It is for this reason that I often recommend to those entering the field that they spend some time writing their own manifesto in order to help them develop a clear understanding for themselves and others
what perspective they bring to the field,
what their perspective allows them to uniquely see, and
how that new insight might help others in the field address the problems they are grappling with.
이것은 다른 사람들이 당신의 군도의 10,000미터 경치를 이해하고 감상할 수 있도록 도와줍니다. (현장에서 무작위로 주제를 수집한 것처럼 보일지라도 CV의 일관성을 유지합니다.) 또한 협업 대상을 합리적으로 선택할 수 있도록 지원합니다(만약 대상을 선택할 수 있는 상황이 아니라면 협업을 의미 있게 만들게끔 도와준다). 이 선언서는 일반적으로 쓰기가 쉽지 않고 때로는 1-2년 정도 걸릴 수 있다. 왜냐하면 그것은 단지 여러분이 누구인지 말하는 것이 아니라, 자기 자신의 배경, 목표, 그리고 렌즈를 가진 다양한 분야의 전문가들과 관련 있는 청중들에게 이치에 맞는 방식으로 shaping하는 것이기 때문입니다.
This helps others understand and appreciate the 10,000 metre view of your archipelago (the coherence of your CV, even if it might look like a random collection of topics on the ground). And it helps you make rational choices about what to collaborate on (or how to make a collaboration meaningful if choice is not an option). This manifesto is generally not easy to write and can sometimes take up to a year or two, because it is not just a matter of stating who you are but shaping it in a way that makes sense (and sounds relevant) to an eclectic audience of disciplinarians and practitioners with differing backgrounds, goals and lenses of their own.
중요한 것은 [다른 사람들에게 당신의 관점을 가르치는 것]이 아니라, [그 관점이 드러낼 수 있는 것의 힘을 보여주는 것]입니다. 하지만 잘만 한다면, 그러한 문서는 당신의 땅덩어리의 쓰여진 표현과 당신이 프로그램적으로 일련의 섬을 공동 건설할 수 있는 토대가 될 수 있습니다.
The point is not to teach others your perspective, but to show them the power of what that perspective can reveal. But if done well, such a document can become the written manifestation of your landmass, and the foundation on which you can co-construct a set of islands programmatically.
Perspect Med Educ.2020 Dec;9(6):367-369.
doi: 10.1007/s40037-020-00628-7.Epub 2020 Nov 19.
Islands and archipelagos: Reconciling programmatic vs. opportunistic research in health professions education
교육과 (의료)서비스: 어떻게 이론이 긴장을 이해하게 하는가 (Med Educ, 2019) Education and service: how theories can help in understanding tensions Jennifer Cleland1 & Steven J Durning2
도입 INTRODUCTION
의료 환경의 주된 목적은 안전하고 효과적인 의료 서비스를 제공하는 것입니다. 그러나 고품질의 환자 진료 제공과 동시에 병원, 클리닉 및 기타 의료 시설에서도 미래 세대의 의료 전문가 교육 및 훈련을 진행한다.1 이로 인해 서비스와 교육이 제한된 시간과 자원을 두고 경쟁하는 상황이 초래됩니다.2 의료 교육은 점점 더 압박되고 규제되는 환경에서 일하는 컨설턴트 및 기타 의료 교수진에게 요구되는 여러 가지 [경쟁적 요구competing demands] 중 하나입니다.3–6 훈련 중인 의사(전공의)도 예를 들어, 더 적은 시간 이내에 역량을 달성해야 할 필요성과 의료 및 기술 지식의 확대로 인해 교육 압박이 가중되고 있습니다.10 The main purpose of health care environments is to provide safe and effective health care. However, at the same time as delivering high-quality patient care, hospitals, clinics and other health care facilities also host the education and training of future generations of health professionals.1 This results in the situation where service and education compete for limited time and resources.2 Medical education is one of multiple, competing demands for consultants and other health care faculty members working in increasingly pressured and regulated environments.3–6 Doctors in training (residents or registrars) also face increasing educational pressures because of, for example, the need to achieve competencies within fewer hours7–9 and the expansion of medical and technological knowledge.10
간단히 말해, [규제 제한regulatory restriction]이 증가하는 환경에서 [실습과 교육 요구가 증가]하면 교직원이 교육할 수 있는 시간과 오늘날의 의료 환경에서 교육받을 수 있는 시간이 줄어듭니다. In short, increased practice and educational demands in the milieu of growing regulatory restrictions mean less time is available for faculty members to teach and for trainees to learn in today’s health care environment.
교육과 서비스 간 긴장 도전에 대한 대응은 다양했다. 여기에는 의대 교육의 변화를 요구하는 내용도 포함되어 있습니다. Responses to the challenge of tension between education and service have been diverse. These have included calls for the transformation of medical education,
수련생과 레지던트가 환자 진료 제공에 의미 있게 참여하는 의료 환경에서 의료 훈련의 대다수가 계속 제공된다면(그리고 우리는 그렇지 않은 시나리오는 상상할 수 없다), 서비스와 교육이 (서로 분리되고 경쟁하는 활동보다는) 생산적으로 조정될 수 있는 방법을 검토하는 것이 필수적이다. if the majority of medical training continues to be delivered in health care contexts where trainees and residents meaningfully participate in the delivery of patient care (and we cannot imagine a scenario where this would not be the case), then it is essential to examine how service and education can be aligned productively rather than being seen as separate, competing activities.24–26
방법 METHODS
우리는 의료 교육 및 훈련의 서비스-교육 긴장에 대한 문헌 검토를 수행했습니다. 우리의 검색 목적은 엄격함을 위해 이 주제에 대해 발표된 연구를 평가하거나 이를 위한 공식적인 방법론을 사용하여 연구 결과를 비교하는 것이 아니었다. 오히려, 우리는 연구의 초점과 이론의 사용, 그리고 견실한 방법론에 관심이 있었습니다. We carried out a review of the literature on service– education tensions in medical education and training. The purpose of our search was not to assess published research on this topic for rigour, or to compare study outcomes using a formal methodology for doing so. Rather, we were interested in the study focus and use of theory and robust methodologies.
문헌에서 분명한 것은 의료 교육자와 수련의사 또는 레지던트들이 그들의 훈련 프로그램이 임상 교육과 서비스의 균형에 맞지 않는 인상을 가지고 있다는 것이다. 특히, 전공의들은 (교육보다는) 서비스 쪽의 과잉을 더 자주 보고한다. 비록 서비스 및 교육에 대한 전공의와 Trainer의 정의가 완전히 일치하지는 않지만, 두 그룹 모두 서비스 활동이 교육적으로 가치가 있을 수 있다는 점을 인정합니다. What was clear from the literature is that medical educators and doctors in training or residents hold mismatched impressions of their training programmes’ balance of service obligations with clinical education. Specifically, residents more frequently report an overabundance of service. Both groups acknowledge that service activities can be educationally valuable, although the residents’ and trainers’ definitions of service and training are not fully aligned.
이러한 긴장은 직장 학습에 관한 폭넓은 문헌 측면에서 타당하다. 많은 연구자에 따르면, 업무 참여와 학습 사이에는 구분이 없다.34 [업무 활동, 직장, 기타 근로자, 관찰 및 경청 등]이 작업을 통해 근로자가 직업 활동을 학습할 수 있는 주요 원천으로 일관되게 보고되고 있다.35 그러나 직장 내에서의 여러 활동이 갖는 가치는 사람마다 다르다. These tensions make sense in terms of the wider literature on workplace learning. For many authors, there is no separation between participation in work and learning.34 Work activities, the workplace, other workers and observing and listening are consistently reported as key sources for workers to learn their vocational activities through work.35 What does differ, however, is the value individuals place on different activities within the workplace.
학습자는 직장에서 일어나는 [동화적이고 수용적인assimilative and accommodative 학습]에 비해 [공식적인 학습 기회]를 인식하고 더 중시할privilege 높일 가능성이 높습니다.38,39 이러한 점을 감안할 때, 컨설턴트, 트레이너, 교육생 및 레지던트의 관점이 다르다는 것은 놀라운 일이 아닙니다. 무엇보다 Trainer와 Trainee는 동일한 활동에 대해서 서로 다른 관점을 가지고 있으며, 서비스란 무엇이고 교육이란 무엇인지에 대한 서로 다른 정의를 가지고 있기 때문이다. learners are more likely to recognise and privilege formal learning opportunities, and be more motivated to be receptive to these, compared with the more assimilative and accommodative learning that takes place in the workplace.38,39 Given this, it is unsurprising that consultants and trainers, and trainees and residents, have different perspectives on the same activities, and different definitions of what is service and what is education.
그러나, 우리의 문헌 검색은 이러한 서로 다른 관점이나 긴장의 정확한 성격을 명확히 하려는 시도가 드물게 이루어졌음을 보여주었다. However, our literature search indicated that only infrequently have attempts been made to clarify the precise nature of these different perspectives or tensions
이들은 의학 교육의 다른 여러 분야와 마찬가지로, 이론과 방법론을 다른 분야에서 차용한 분야에 대한 (lags behind하다는) 주요 비판이다. These are major criticisms of work on this topic, which, like several others in medical education, ‘lags behind’ areas where theories and methodologies have been borrowed from other fields
이론적 프레임워크의 사용 The use of theoretical frameworks
[이론]은 공통점과 패턴을 강조하고, 개념적 일반화 가능성을 창출하는 방식으로, 데이터를 조직하고 해석할 수 있는 체계를 제공할 수 있다.44,45 이것의 장점은 여러 가지이다.
첫째, findings이 다른 상황과 다른 맥락에 대한 전이가능성과 적용가능성에 대해 다른 사람들에 의해 평가될 수 있습니다.46
둘째, 이론 프레임의 사용은 연구 대상 현상에 대한 강력한 설명을 개발하는 데 도움이 되며, 이는 향후 연구에서 정교하게 다듬어질 수 있다.47
셋째, 이론은 이전에 충분히 탐구되지 않은 현상을 이해하는 데 사용할 수 있는 한 분야의 예상된expected 연관성 및 상호작용 로드맵을 제공할 수 있다.
마지막으로, 개념적 및 이론적 프레임워크는 연구 대상 문제의 특정 측면을 조명하고 확대하기 위한 수단이다.48 실제로, 둘 이상의 개념적 또는 이론적 프레임워크는 주어진 상황, 특히 복잡한 사회적 이슈를 수반하는 상황과 관련될 수 있다.48,49
Theory can provide a framework to organise and interpret the data in such a way as to highlight commonalities and patterns and generate conceptual generalisability.44,45 The advantages of this are multiple.
First, findings can be assessed by others for their transferability and potential for applicability to other situations and different contexts.46
Second, the use of theoretical framing helps develop robust explanations of the phenomena under study, which can be elaborated and refined in future research.47
Third, theory can provide a roadmap of expected associations and interactions from one field that can be used to understand a previously underexplored phenomenon.
Finally, conceptual and theoretical frameworks are a means to illuminate and magnify certain aspects of the problem under study.48 Indeed, more than one conceptual or theoretical framework may be relevant to a given situation, particularly situations that involve complex social issues.48,49
우리는 공통의 근본적인 문제와 교육 서비스 긴장에 대한 잠재적 해결책을 식별하기 위해 네 가지 이론적 프레임워크의 예를 적용합니다. we apply four examples of theoretical frameworks to identify common underlying issues and potential solutions to education–service tensions.
그림 세계;50
건축 실습;51,52
위치 학습, 53-55 그리고
문화-역사 활동 이론(CHAT 또는 AT)
figured worlds;50
practice architectures;51,52
situated learning,53–55 and
cultural-historical activity theory (CHAT or AT ).
이러한 (실천 아키텍처) 중 하나는 우리가 아는 한 MER에게는 매우 새로운 것입니다. One of these (practice architectures) is to the best of our knowledge, quite novel to MER.
하지만 왜 이런 이론들이죠? 우리의 입장은 [학습은 사회적이고 참여적]이며, 따라서 [사회적 맥락에 위치]하기 때문에 우리는 주로 광범위한 [사회문화 이론]의 계통family으로부터 이론을 끌어냈습니다. 이러한 관점에서 서비스와 교육은 사업장의 사회적 맥락에서 발생하며, 사업장의 맥락에서 다른 사람과 상호작용에 의해 형성되고 차례로 형성됩니다. 학습은 특정 지식과 기술을 습득하는 것뿐만 아니라, 직장 내 다른 사람의 특정 전문 커뮤니티와의 참여도 수반합니다. But why these theories? Our stance is that learning is social and participatory59 and thus situated in social contexts so we have drawn our theories primarily from the broad family of sociocultural theories. From this perspective, service and education occur in the social context of the workplace and are shaped by, and in turn shape, the other people and interactions in the workplace context. Learning involves not only acquiring particular knowledge and skills but also engagement with a particular professional community of other people in the workplace
어떤 이론들은 다른 이론들보다 학습 맥락, 연습, 정체성 형성에 있어서 유물뿐만 아니라 다른 사람들의 역할도 더 고려한다. 실무 건축 이론과 CHAT에서는 '[환경, 다른 동물, 사물 및 인공물]들은 단순한 배경 상황이나 도구가 아닌, 인간 존재와 사회 생활의 집행enactment에 필수적인 것'으로 취급한다'61. Some theories take more account of the role of artifacts (‘things’) as well as other people in learning contexts, practices and identity formation than others. Practice architecture theory51,60 and CHAT56–58 are situated within this broadly sociomaterial arena, where ‘environment, other animals, objects and artefacts are treated as integral to the enactment of human existence and social life rather than as simply background context or tools’61.
[인간의 행위자성human agency]은 퍼즐의 한 부분일 뿐이다. 비인간적 물질(예: '로타', 전공의의 포트폴리오, 커뮤니케이션 시스템) 또한 이 사고 학파에서 힘과 영향력을 가지고 있다. 게다가, 다른 사람들은 다양한 방식으로 그들의 사회적 (직장) 환경과 자신을 연관시킵니다. Actor(개인)의 위치는 시간이 지남에 따라 바뀔 수 있으며, 자신의 '역사-문화적 Baggage(예: 성별, 인종, 과거 경험, 기대 등)' 때문에, 활동activities에 대한 배우actor의 인식과 사회적, 문화적 세계에서의 자신의 위치와 관련된 전문적 관행 및 정체성 사이에 차이가 있을 수 있다. Human agency is only one part of the jigsaw: non- human materials (e.g. ‘the rota’, the resident’s portfolio, the communication system) also have power and impact in this school of thought. Moreover, different people relate themselves to their social (workplace) surroundings in various ways. Actors’ (individuals’) positions may shift over time, and there may be gaps between actors’ perceptions of activities and the professional practices and identities that are associated with their position in the social and cultural world, because of their own ‘historical–cultural baggage’ (e.g. their gender, ethnicity, past experiences, expectations and so on).50,63
Table 1.
형상화된 세계 Figured worlds
Holland 외 연구진(1998)은 형상화된 세계Figured World(FW)를 [사람들이 새로운 자아 이해(정체성)를 생산(수행)하는 '사회적으로 생산된, 문화적으로 구성된 활동']으로 폭넓게 정의했다. 상상된 세계FW는 문화적, 사회적 기반을 가지고 있으며, 권력, 지위 및 계급의 관계에 의해 조정되며, 일상 활동을 통해 관련되고 조직됩니다. 각자의 상상된 세계FW는 세계가 바탕이 되는 [사회적으로 구성된 선입견]에 의해 조직됩니다(예: 수련의 의사로서, 나는 가르침을 받기 위해 여기에 있습니다). 일상적인 사회적 관행과 활동은 이러한 내러티브에 대하여 해석됩니다(예: 어떤 활동은 서비스 '직무'으로, 다른 활동은 교육의 기회로 간주). Trainee은 동일한 공간 내에서, [학습자]와 [(서비스를 제공하는) 의사]라는 다수의 정체성을 두고 협상해야 하며, 시스템과 정체성에 따라 지속적으로 긴장이 발생합니다.64 Holland et al. (1998)50 broadly defined figured worlds as ‘socially produced, culturally constituted activities’ where people produce (perform) new self- understandings (identities). Figured worlds are culturally and socially based, mediated by relations of power, status and rank, and implicated and organised through daily activities. Each figured world is organised by socially constructed preconceptions on which the world is based (such as: as a doctor in training, I am here to be taught). Day-to-day social practices and activities are interpreted against these narratives (e.g. one activity is seen as a service ‘job’, another is seen as an educational opportunity). Trainees must negotiate the multiple identities of a learner and a doctor who delivers service within the same space, leading to tensions arising from systems and identities in constant flux.64
상상된 세계FW는 정적이지 않으며, 일상적인 행동과 '위치'의 과정을 통해 구성되고 재구성됩니다. 즉, 특정 형상화된 세계(예: 연습생, 컨설턴트 또는 감독자)에 있는 사람들에게는 '직위position'가 부여되고, 이를 수락, 거부 또는 협상할 수 있습니다. 이것을 '저작의 공간space of authoring'이라고 한다.50 예를 들어, [형상화된 세계]가 [원래 만들어진 세계]와 다를 때, 개인의 반응은 [특정한 세계]를 향하여(또는 바깥으로) 스스로를 재서술rewrite하는 것일 수 있다. 즉석에서 이루어지는 이러한 개인적 협상은 거시적으로 구성된 의료 교육 세계macro figured world에 대항하여 이루어집니다.65 Figured worlds are not static, rather they are constructed and reconstructed through daily actions and a process of ‘positionality’; that is, the positions ‘offered’ to people in a certain figured world (such as trainee, consultant or supervisor), which they may accept, reject or negotiate. This is called the ‘space of authoring’.50 Where there is a challenge, when for example the figured world is different to what was originally constructed, an individual’s response may be to rewrite themselves into (or out of) that particular world. These personal negotiations, referred to as improvisations, take place against the macro figured world of medical education.65
서비스 교육 긴장에 Figured worlds 이론 적용 Applying the theory of figured worlds to service–training tensions
의료 훈련을 [문화적으로 구성된 세계culturally figured world]라고 생각하게 되면 다음이 드러난다.
[서비스 및 훈련에 대한 정책]은 어떤 방식으로 작용하여 실천을 형성하는지,
[지배적인 담론(예: 서비스가 수련보다 우선한다)]은 어떤 방식으로 [훈련생과 전공의(및 훈련자)의 실천practice 및 그들에게 허용되는 정체성]을 형성하는지
Conceiving medical training as a culturally figured world reveals
how policies about service and training work to shape practices, and
how dominant narratives (e.g. service is prioritised over training) may work to shape the practices of, and identities available to, trainees and residents (and their trainers).
이것은 인과관계의 문제가 아니라, 훈련생과 전공의에게 있어서 [시간에 따라 창발하고 변화해 가는 형상화된 세계에 관한 것]이며, [이러한 변화에 기여하는 것이 무엇인지]에 대한 것이다.
This is not about cause and effect but about the figured world of trainees and residents emerging and shifting over time, and what it is that contributes to shifts.
예를 들어, 수련생이나 전공의는 교육적 요구가 서포트되었으면 하는 요구에 대한 기대가 충족되지 않는 경우, 교육을 그만두거나 다른 전공으로 옮길 것을 생각할 수 있다.
수년 동안 less-powered한 입장에서의 관찰에도 불구하고, 의료 훈련의 세계가 그들이 기대했던 것이 아니었던 것에 대한 반응일까?
그들이 교육자들에게 가지고 있는 (종종 무언의) 기대가 충족되지 못하고 있기 때문일까?
개인의 역사와 과거 경험(예: 이전 고용 및 학습 경험) 및 의료 훈련 세계와의 상호작용에 의해 형성되는 개인 간의 공동 구성은 무엇입니까?
서비스와 교육의 균형이 맞지 않고, 전문적 개발에서 적절히 뒷받침되지 않는다고 느끼는 상황을 경험한다면, 상위 레벨의 교육에 지원할 가능성이 낮아지는가?
For example, where trainee’ and residents’ expectations about how their education needs to be supported are unmet,25,42,74 they may think of quitting training or shifting to another specialty.
Are these responses due to the world of medical training not being what they expected, even after many years of observation from the lesser-powered position of student?75
Is it because the (often unspoken) expectations they have of their educators are not being meet?76
What is the co-construction between individuals, shaped by their history and past experiences (e.g. their previous employment and learning experiences), and their interactions with the world of medical training?
If they experience contexts where service and training are not well balanced, where they do not feel they are adequately supported in their professional development, are they less likely to apply for higher-level training?
현재 지배적인 서술은 훈련보다 봉사가 우선시된다는 것이지만(앞부분 참조), [상상된 세계FW 이론]은 또한 의학 내에서 [학습과 학습자의 정체성을 재정립하는 수단]으로서 [이 담론에 대한 저항을 촉진하는 수단]을 제공할 수 있습니다. 이러한 재조정은 파열, 변화 및 기회와 관련하여 발생할 수 있으며,
[비판적인 의견]의 공간을 열어주고,
[가치 있게 여겨지는 것이 무엇인지]에 대한 담론에 영향을 미치며,
[새로운 형상화된 세계]와 [상상된 미래]를 창조할 수 있습니다.50
Although the current dominant narrative is that service is prioritised over training (see earlier), figured worlds theory may also provide a way of promoting resistance to this discourse, a means of refiguring the identity of learning and learners within medicine. This refiguring is likely to occur in relation to ruptures, changes and opportunities that
open up critical comment,
have an impact on the discourse of what is valued, and
create new figured worlds and imagined futures.50
실천 아키텍처 Practice architectures
Kemmis와 Grootenboer60 및 Shatzki는 [교육적 실천education practice]는 다른 무언가를 희생하는 가운데, 어떤 종류의 행동을 형성하거나, 활성화하거나, 제약하는 전제조건(실천 아키텍처)에 의해 이뤄진다be held고 주장한다. 넓게 말하면, 실천 구조 이론은 개인보다는 [장소]에 초점을 맞춘다. Kemmis and Grootenboer60 and Schatzki78,79 propose that education practices are held in place by preconditions (practice architectures) that shape, enable and constrain some kinds of action at the expense of others. Broadly speaking, the theory of practice architectures focuses on place rather than the individual (as is the case in figured worlds theory).
이 이론은 본질적으로 [사회적, 문화적 개념]으로, [실천practice은 장소 안에서 발생하며 그 장소와 얽혀 있다]는 것을 강조합니다. This theory is inherently social and cultural, emphasising that practices occur in, and are enmeshed with, places.
예를 들어, 의료훈련의 조직은 전반적으로 매우 유사할 수 있지만, [다양한 현장(실천 환경)]에서 정확히 일어나는 일은 (현장마다) 다를 수 있다. 이러한 실무 아키텍처는 물질적 및 경제적 조건(예를 들어, 의료 조직이 교육 제공에 대해 급여를 받는 방식, 교육 조직 및 관리 방식, 팀에 상주 인원이 부족할 경우 발생하는 현상)과 관련될 수 있다. [팀 내, 훈련생과 감독자 간의 관계 또는 의사와 고용주 간의 관계]와 같은 사회적 및 정치적 관계일 수 있습니다. 문화적 및 담론적일 수도 있다('여기서 일이 어떻게 돌아가는가'). For example, the organisation of medical training may be very similar overall, but what precisely happens in practice at diverse sites (the practice landscapes) may differ. These practice architectures may relate to material and economic conditions (e.g. how health care organisations are paid for delivering training, how training is organised and managed, and what happens if the team is short of a resident). They might be social and political relationships, such as the relationships within a team, between trainees and their supervisors, or between doctors and their employers. They may be cultural and discursive (‘How things are done around here’).
Kemmis 등은 사회적 세계에서의 관행practice이 의미 공간, 물리적 공간, 사회적 공간에서 형성된 '상호 주관성의 3차원'에 함께 존재한다고 제안합니다. 이러한 주관적 공간들은 '말하기', '하기', '관계'를 통해 교육이 이루어질 수 있는 공간을 형성한다. 실무에서 이러한 '함께 어울림'이라는 개념은 실무가 그 자체로 이러한 행동들 중 하나로 축소될 수 없다는 것을 의미하기 때문에 중요하다. Kemmis et al.51 suggest that practices in the social world hang together in ‘three dimensions of intersubjectivity’ formed in semantic space, in physical space–time and in social space. These intersubjective spaces form places for education to be enacted through ‘sayings’,‘doings’ and ‘relatings’. The notion that these ‘hang together’ in a practice is important because it means that practices cannot be reduced to any one of these actions on its own.
Fig. 1.
이러한 이론적 관점에서 실천을 변화시키려면 [개별 참가자의 인식, 이해, 관심 및 기술]을 변화시킬 뿐만 아니라 [기존 관행을 기존의 위치에 고정시키는 실무 아키텍처]를 변화시켜야 합니다. From this theoretical perspective, changing practices requires not only changing the awareness, understanding, concerns and skills of individual participants, but also changing the practice architectures that hold existing practices in place.
서비스 교육 긴장에 실무 아키텍처 이론 적용 Applying practice architecture theory to service–training tensions
[실무 아키텍처 이론]은 다음을 밝히는 데 도움을 줄 수 있습니다.
훈련과 서비스가 발생하는 조건에 의해 활성화되고 제약되는 방법,
그리고 이러한 조건(실무 아키텍처)이 어떻게 이들을 가능하게 하고 제자리에 고정시키는지
The theory of practice architectures can help reveal
the ways training and service are enabled and constrained by the conditions under which they occur, and
how these conditions (the practice architectures) make them possible and hold them in place.
또한 의료 교육 훈련을 변경하는 방법을 찾는 데 혁신적 자원이 될 수 있습니다: 현재 상태를 유지하고 있는 것이 무엇인지 파악하고 이해해야만 변화를 시도할 수 있기 때문이다. It can also be a transformational resource for finding ways to change medical educational training52: only by identifying and understanding what is maintaining the status quo can you attempt to change it.
그 중 첫 번째는 다음과 같습니다. 개별 행동(말하기, 행동하기, 관계하기)에서 의료 교육 관행은 어떻게 구성되며 이러한 관행은 어떻게 연결되어 있습니까? The first of these is descriptive: How are medical training practices constituted in individual actions (the sayings, doings and relatings) and how are these linked?
두 번째는 [의료 훈련이 놓여진situated 세계world]의 설정set-up에 의해 실무가 어떻게 활성화되거나 제약되는지 탐구하는 분석입니다.
사용 가능한 리소스는 무엇입니까? (예: 후배 의사들이 간호사들과 자기 방이나 따뜻한 책상이 있나요? 어떻게 자금을 지원하죠? 누가 온라인 포트폴리오 리소스를 소유합니까?)
조직 내부와 외부의 규칙, 계층 및 관계 측면에서 어떤 arrangement가 이루어집니까?
개인(기관) 수준에서 관계에 영향을 미치는 것은 무엇입니까(예: 경험, 임상 부하, 의료 및 교육 설정 익숙성, 자료 및 기대치)?
이러한 문화적-담론적, 물질적-경제적, 사회적-정치적 배치가 어떻게 서로를 형성합니까?80
The second is more analytic, exploring how practice is enabled or constrained by the set-up of the world in which medical training is situated.
What resources are available? (For example: Do the junior doctors have their own room or hot desk with the nurses? How are things funded? Who owns online portfolio resources?)
What are the arrangements like in terms of organisational rules, hierarchies and relationships within and beyond the organisation?
At the individual (agency) level, what influences relationships (e.g. experience, clinical load, familiarity with the health care and education set-up, materials and expectations)?
How do these cultural-discursive, material-economic and social-political arrangements shape each other?80
이 이론의 세 번째 용도는 실무적 아키텍쳐practice architectures가 어떻게 변화될 수 있는지를 검토하는 것입니다. 일반적으로 의료 교육 및 훈련의 실무 아키텍처는 전통에 잘 내재되어 있으며, 최근에는 [책임 압박, 업무 강화 및 의료의 표준화]로 인하여, 개인이 무슨 말과 행동을 하고, 어떻게 관계하는지를 변경할 수 있는 방해와 가능성disruptions and possibilities 에 대응할 수 있는 방법을 제한할 수 있다. The third use of the theory is to examine how practice architectures can be changed. Generally speaking, the practice architectures of medical education and training are well embedded in tradition, and more recently in accountability pressures, work intensification and standardisation of practices, which may limit ways in which individuals may be able to respond to disruptions and possibilities to change what they say and do, and how they relate.60
실무 아키텍처 이론은 [교육과 서비스의 다양한 차원이 어떻게 상호 연결되는지]를 탐구하는 분석 도구로서 유용합니다. 실천건축이론은 다음을 고려하는 관점에서 실천을 볼 수 있게 해준다.
개인과 집단이 환경과 사람에 어떻게 반응하는지,
대응이 어떻게 실천을 형성하고 교육 환경을 변화시키는지
The theory of practice architectures is useful as an analytic tool for exploring how various different dimensions of education and service are interconnected. Practice architecture theory allows us to view practices from a stance that considers
how individuals and groups respond to circumstances and people, and
how responses shape practice and change the education landscape.
이 이론은 [변화가 학습 및 서비스 제공에 미치는 영향]을 바라보는 프레임워크로 사용될 수 있습니다. 예를 들어, 레지던트 프로그램 책임자가 바뀌는 것이 현지local 교육 계획을 어떻게 형성합니까?
This theory could be used as a framework for considering the impact of change on learning and service delivery. For example, how does a change of residency programme director shape the local training arrangements?
위치 학습 Situated learning
위치 학습은 1990년대 장 라브와 에티엔 벵거가 처음 개발한 학습의 관점이다. [위치 학습]은 학습에 대한 [사회적 상호작용]과 [적극적인 참여]의 중요성을 강조합니다. 그것은 의미를 창출하기 위한 실제 경험의 필요성을 더욱 강조합니다. 따라서, Lave와 Wenger는 [학습]을 [살아있는 경험lived experience에 기초한 본질적으로 사회적이고 상호작용적인 과정]으로 봅니다. 그러므로 [배움]은 [사실이나 상징의 획득]이 아니라 [자신의 정체성이 되어감 또는 형성하는 것]입니다. Situated learning is a view of learning first developed by Jean Lave and Etienne Wenger in the 1990s.53,81,82 Situated learning emphasises the importance of social interactions and active participation in learning. It goes further in stressing the necessity of actual experiences for creating meaning. Thus, Lave and Wenger view learning as an inherently social and interactive process based on lived experiences. Learning is therefore about becoming or forming one’s identity, as opposed to the acquisition of facts or symbols.
위치 학습 이론에는 CoP(공동체)와 LPP(합법적 주변 참여)라는 두 가지 핵심 요소가 있습니다. 학습은 [특정 장소와 시간] 내에 이루어지며(즉 situated) [특정 CoP] 내에서 상호 작용해야 합니다. 이 공동체 내의 학습은 시간이 지남에 따라 확대되는 적극적인 참여(또는 연습)를 수반합니다. There are two key component parts (which now are sometimes cited as two separate theories) to situated learning theory: communities of practice (CoP) and legitimate peripheral participation (LPP). Learning takes place (i.e. is situated) within a specific place and time and involves interacting within a specific CoP. Learning within this community entails active participation (or practice) that expands over time.
경험이 풍부하거나 핵심적인 CoP 구성원은 CoP의 관행, 역사 및 문화에 익숙한 반면,
신규 구성원은 더 주변부에 있으며, CoP에 대한 적극적인 참여를 통해 학습을 진전시킨다.
More experienced, or core, members of the CoP are familiar with its practices, history and culture,
whereas newer members are more peripheral, advancing their learning through greater active participation in the CoP.
[새로운 회원]은 [시간과 경험이 쌓임에 따라] 주변부에서 완전한 참여로, 또는 초보자에서 보다 전문적인 회원으로 변해간다 Newer members move from peripheral to fuller participation, or from being a beginner to a more expert member, through time and experience.83
즉, 공동체(CoP)의 진정한 활동에 참여하는 것은 (LPP를 통해) 학습으로 이어지는 관계와 지식을 쌓고, 학습은 공동체의 일부가 되는 것을 수반한다. In other words, participation in the authentic activities of the community (CoP) builds relationships and knowledge that lead to learning (through LPP) and in turn learning entails becoming a part of a community.84,85
CoP는 지역사회 구성원의 상호 목표, 목표 및 이익을 중심으로 나타나는 것으로 여겨집니다. 흥미롭게도, 최근 연구는 인공적으로 만들어진 CoP가 문제가 있다는 것을 보여준다. 그들은 내재된 학습의 힘과 잠재력을 포착하기 위해 자연스럽게 진화해야 합니다.
A CoP is believed to emerge around mutual goals, objectives and interests of community members. Interestingly, recent research shows that artificially created CoPs are problematic. They need to evolve naturally to capture the power and potential of situated learning.86
위치 학습 이론을 서비스 교육 긴장에 적용 Applying situated learning theory to service–training tensions
중요한 것은 위치 학습situated learning(이 경우 서비스와 교육 사이의) '긴장tension'이 특별히 좋거나 나쁘다고 보지 않으며 (협상을 통한) 긴장이 실제로 배움의 일부라는 것을 인정한다는 것입니다. 지엽적인 것에서 공동체에서의 완전한 참여로 나아감에 따라 다른 역할들은 자연스러운 긴장감으로 이어진다. Importantly, situated learning does not view tension (in this case, tensions between service and training) as being good or bad and acknowledges that tensions (through negotiation) are actually a part of learning. The differing roles as one moves from peripheral to fuller participation in the community lead to natural tensions (that can help learning).
그러므로, 위치 학습situated learning은 [긴장]과 그의 역할을 인정하며, [긴장]의 원천을 이해하고자 노력하며, (학습자가 커뮤니티에서 더 두드러지는 부분이 될 수 있도록) [참여가 최적으로 설계될 수 있는 방법]을 파악하고자 할 것이다. 즉, 목표는 [서비스 대 교육]의 긴장을 제거하는 것이 아니라, 서비스를 최적화하는 것입니다. Thus, situated learning would acknowledge the tensions and their role and would seek to understand the sources of the tensions and how participation could be designed optimally to enable the learner to become a more prominent part of the community. the goal is not removing the service versus teaching tension but rather optimising it.
상황 학습 이론은 또한 CoP에서 서비스와 가르침의 역할에 의문을 제기할 뿐만 아니라 이러한 긴장감을 탐색하여 LPP를 최적화하는 방법을 모색할 것입니다. 또한, 현장 학습은 이러한 탐구를 통해 다른 관련 CoP가 어떻게 영향을 받을 수 있는지를 고려한다.86 이러한 이론적 원칙을 활용하여 다음을 이해하는 데 도움이 될 수 있다.
신뢰,
학습자의 점진적 독립성,
병동 및 임상 팀의 역학 관계(예: 참여를 증가시키는 동료의 역할은 무엇인가?)
암묵적(또는 명시적)으로 유지되는 가치관, 신념, 편견
Situated learning theory would also question the roles of service and teaching in the CoP, in addition to seeking ways to optimise LPP through exploring these tensions. Further, situated learning would consider how other, related, CoPs may be impacted through this exploration.86 These theoretical tenets could be leveraged to help understand
trust,
progressive independence of the learner,
dynamics of ward and clinical teams (e.g. what is the role of peers in increasing participation?),
implicitly (and explicitly) held values, beliefs and biases,
...to name a few potential lines of work.
현장 학습은 인턴(또는 F1 의사)이 병동 팀 전공의가 되어가는 과정을 탐색하는 유용한 방법을 제공할 수 있습니다. Situated learning could provide a useful way to explore how interns (or F1 doctors) learn to become ward team residents (registrars).
문화-역사 활동 이론(CHAT 또는 AT) Cultural-historical activity theory (CHAT or AT)
[문화사적 활동 이론]은 [개인의 행동뿐만 아니라 사회 문화적 맥락까지 고려하여 인간의 행동과 학습을 이해하는 방법]을 제공한다. 그것은 다른 방식으로 그렇게 한다. AT는 [전체 활동(또는 작업) 시스템]을 [모든 구성 요소 부분과 상호 작용하는 방식을 포함하는 것]으로 간주합니다. 이러한 구성요소에는 다음이 포함됩니다.
개별 주체,
작업 목표,
커뮤니티,
커뮤니티를 위한 노동 분할,
커뮤니티 규칙
이 모든 것들의 상호작용
Cultural-historical activity theory56–58 offers a way of understanding human action and learning that, takes into account not only the individual but also their social and cultural context. It does so in a different way. AT considers an entire activity (or work) system to include all of its component parts and how they interact. These component parts include
individual subjects,
objects of work,
the community,
division of labour for the community,
community rules, and
their interactions.
Engestroom의 원래 프레임워크는 이후 수년간의 확장을 거쳐서(3세대 AT; 그림 2 참조) 여러 상호작용 활동 시스템의 네트워크를 통합하였으며, 서로 다른 시스템이 중복된다는 것을 인정하게 되었다. Engestr€om’s original framework has expanded over the years to incorporate networks of multiple interacting activity systems, to acknowledge that different systems overlap (third-generation AT56; see Fig. 2).
AT는 다섯 가지 원칙을 사용하여 요약할 수 있습니다. CoP, LLP와 달리, 개인이 아니라 [시스템]이 분석 단위입니다. AT can be summarised with the help of five principles. Unlike CoP and LLP, the system, not the individual, is the unit of analysis.
예를 들어, 전체를 아우르는 시스템은 [의료 훈련 시스템medical training]일 수 있으며, 다른 (하위) 시스템(예: 외과 또는 가정의학 훈련)은 이 중요한 시스템 내에서 작동할 것이다. For example, the overarching system could be that of medical training, and other (sub)systems (such as surgical or family medicine training) would operate within this overarching system.
시스템은 다양한 참가자에 대해, 시스템 내에서, 다양한 직책을 가진, 다수의 목소리multi-voiced로 이뤄져있다.(교육은 일반적으로 훈련의 각각의 단계에 있는 전공의, 감독자, 트레이너 및 교수진, 그리고 관리자와 같은 여러 그룹을 포함합니다). The system is multi-voiced with different positions within the system for different participants (education would typically involve residents at different stages of training, supervisors, trainers and faculty members, and possibly other groups such as administrators).
참가자와 시스템 자체는 역사와 규칙 등을 가지고 있다(이것은 훈련 프로그램이나 레지던트 디렉터가 지역적으로 총괄하는 것과 같은 사회 구조와 위계를 나타낼 수 있다). Both the participants and the system itself carry histories, rules and so on (this could refer to social structures and hierarchies, such as the training programme or the residency director being in overall charge locally).
시스템은 자신의 역사와 맥락에 기반하여against 이해되며, 활동 시스템 내부within와 활동 시스템 간between의 모순이나 구조적 긴장은 변화의 원천(확장적 변환)이며 개발의 원천이 될 수도 있고, 혹은, 덜 긍정적으로는, 변화를 차단할 수 있습니다. Systems are understood against their own history and context, and contradictions or structural tensions within and between activity systems are a source of change (expansive transformation) and development, or, less positively, can block change.
상호작용하는 서로 다른 시스템의 네트워크(예: 영국의 의료 훈련에 관련된 수많은 기관과 조직)가 있는 경우, 다중 음성multi-voice 측면이 증폭된다. Where there are networks of different systems interacting (e.g. the numerous bodies and organisations involved in medical training in the UK), the multi-voice aspect is multiplied.
의료 시스템은 교육 시스템을 '주최host'할 것이며, 전체 교육 시스템 내에는 특정 레지던트 프로그램과 같은 소규모 시스템이 포함될 것이다. A health care system will ‘host’ an education system, and within the overall education system will be smaller systems such as specific residency programmes,
AT는 이러한 구성요소와 [시스템 내부 및 시스템 간]의 상호 작용 방식을 명확히 함으로써, 서비스-티칭 긴장의 요소인 [[개인 참여자]와 [사회적 현실] 사이의 격차]를 해소할 수 있습니다. 따라서 AT는 개별 구성요소(개체object 포함), 상호작용 및 대형 시스템을 자세히 설명합니다. By being explicit about these components and how they interact within and between systems, AT can bridge the gap between the individual participant and the social reality, which is an element of the service–teaching tension. Thus, AT details the individual component parts (to include objects), interactions and the larger system.
예를 들어 레지던트 자리가 비어 있는 경우 서비스 제공에 대한 즉각적인 문제가 생기며, 이에 더하여 향후 서비스를 위한 컨설턴트 등급에 충분한 수의 의사를 교육해야 하는 장기적 문제가 있습니다. 이를 위해서는 시스템 경계를 넘나들며, 그렇지 않으면 분리된 활동 시스템(예: 의과대학 입학, 대학원 교육 제공자, 고용주, 규제자 및 교육, 계약 문제에 대한 모든 하위 의사의 권리를 지지하는 그룹)을 함께 묶어야 한다. AT는 이러한 각 그룹과 시스템의 역사와 문화를 명확히 하고, 서로 다른 활동 시스템이 상호 작용하는 방식을 검토하여 대화 및 상호 작용 활동 시스템의 여러 관점을 이해하는 데 도움이 됩니다. (AT 프레임워크를 사용하여) 영향과 관계를 더 깊이 이해하게 된다면, progress에 inform하고, 개별 단위는 역사로부터 학습할 수 있습니다.
For example, in contexts where residency posts lie empty, there are immediate issues of service delivery, plus longer-term issues of training sufficient numbers of doctors to consultant grade for future service. To do this will require working across systems boundaries, to tie otherwise separate systems of activity together (e.g. medical school admissions, postgraduate training providers, employers, the regulator, and the groups that stand up for the rights of all junior doctors on education, training and contractual issues). AT can help make explicit the history and culture of each of these groups and systems, and examine how different activity systems interact with each other, to understand dialogues and multiple perspectives of interacting activity systems.87 The deeper understanding of influences and relationships enabled by using the AT framework can inform progress and help units learn from their history.
서비스 교육 긴장에 AT 적용 Applying AT to service–training tensions
AT는 서비스와 교육 간의 긴장을 탐색하기 위한 독특한 접근 방식을 제공합니다. [각 부품component parts]과 [부품이 상호 작용하는 방식]을 명확하게 정의하며, 예상 및 예상치 못한 결과를 모두 파악할 수 있는 렌즈를 제공합니다. AT는 동기 부여, 커뮤니티 규칙 및 분업이 개인과 시스템에 어떤 영향을 미칠 수 있는지 탐구하는 데 사용될 수 있습니다. 예를 들어, 활동 이론은 이러한 긴장에 대한 우리의 이해를 높이기 위해, 여러 참가자 그룹과 다양한 규칙과 문화가 있는 복잡한 병동이나 클리닉 환경에 적용될 수 있다. AT offers a unique approach for exploring the tensions between service and teaching. It clearly defines each of the component parts and how these parts interact, and provides a lens for both anticipated and unanticipated findings. AT could be used to explore how motivation, community rules and division of labour may impact on the individual and the system. For example, activity theory could be applied to complex ward or clinic settings with multiple participant groups and varying rules and cultures to enhance our understanding of these tensions.
AT의 강점은 [서비스-교육 긴장]을 이해하고 분석할 수 있는 이론적 렌즈를 제공한다는 것입니다.
상호작용을 통해 패턴을 식별하고, 추론할 수 있게 한다.
서비스-교육 긴장 현상을 설명하고
이러한 현상을 내장된 언어와 수사학을 통해 표현합니다.
A strength of AT is that it provides a theoretical lens for understanding and analysing service– education tensions,
allowing for the identification of patterns and making inferences through interactions,
describing the phenomenon of service–teaching tension and
presenting this phenomenon through a built-in language and rhetoric.
AT는 시뮬레이션 문헌에 성공적으로 적용었으며, 여러 참가자와 규칙 및 긴장으로 복잡한 활동을 이해할 수 있는 고유한 렌즈를 제공합니다. AT has been successfully applied to the simulation literature, providing a unique lens for understanding a complex activity with multiple participants, rules and tensions.87,88
AT는 현장 학습과 마찬가지로 주로 질적 방법을 통해 서비스 교육 긴장을 조사할 수 있는 기회를 제공합니다. 단, 정량적 방법도 사용할 수 있습니다. 또한 AT를 활용하여 '모순'이라는 용어를 통해 교육 및 서비스 내에서 또는 서비스 간에 하위 긴장(또는 긴장을 유발하는 구성요소)을 탐색할 수 있습니다. Like situated learning, AT brings the opportunity to investigate service–education tensions, primarily through qualitative means although quantitative methods can also be used. Further, AT can be leveraged to explore sub-tensions (or the component parts leading to tensions) within or between teaching and service through the term ‘contradictions’.
결론 CONCLUSION
우리가 제시한 이론들은 일반적으로 질적인 연구 방법 및 데이터 수집 도구와 결합됩니다. 그 이유 중 일부는 사회문화이론이 다른 참여자와 환경과의 상호작용을 수반하기 때문이며, 이는 본질적으로 비선형성과 예측하지 못한 것의 출현을 의미하기 때문이다. 그러나 앞서 언급한 인지 이론과 같이 직장 학습에 대한 다른 이론적 렌즈에는 서로 다른 연구 설계, 방법론 및 데이터 수집 도구가 필요하다.9 The theories we have suggested are typically coupled with qualitative research methods and data collection tools. Part of the reason for this is that sociocultural theories involve interactions with other participants and the environment, which inherently means non-linearity and the emergence of the unforeseen.94 However, on the other hand, a different theoretical lens on workplace learning, such as the aforementioned cognitive theories, would require different study designs, methodologies and data collection tools.95
이 논문의 우리의 목적은 두 가지를 설명하는 것이었다. 첫째, 봉사와 교육 사이의 긴장을 조사하는 것과 관련하여 '좋은 이론만큼 실용적인 것은 없다'는 것입니다. 두 번째 요점은 서로 다른 이론이 현상의 여러 측면을 조명하고 확대한다는 것입니다. 이 경우 서비스-교육 긴장입니다.
our aim in this paper was to illustrate two things. First, that ‘there is nothing as practical as a good theory’96 in relation to examining the tensions between service and education. Our second point is that different theories will illuminate and magnify different aspects of a phenomenon48,in this case service–education tensions.
Med Educ. 2019 Jan;53(1):42-55.
doi: 10.1111/medu.13738.Epub 2018 Oct 24.
Education and service: how theories can help in understanding tensions
Objectives:This paper reviews why tensions between service and education persist and highlights that this is an area of medical education research (MER) that, to date, lacks a robust body of theory-driven research. After carrying out a review of the literature on service-education tensions in medical education and training, we turn to consider how theory can help provide new insights into service-education tensions.Results:We identified 44 out of 603 relevant papers. Their focus fell into four broad categories: time residents spent on 'service' and 'education'; perceptions of the balance between service and education; considerations of how best to define service and education, and the impact of structural and systems changes on education/training. Of the papers reporting primary research, the dominant methodology was the bespoke survey. Rarely were the precise natures of tensions or how different factors interact to cause tensions examined in detail.Conclusions:The use of theory in research studies will not resolve service-education tensions. However, what theory can do is illuminate and magnify different aspects of service-education tensions, to generate new insight and knowledge that can then be used to inform future research and changes in practice.
Discussion:Through discussion and reflection, we then agreed on the applicability of four sociocultural theories for illuminating some examples of service-education tensions. We present four sociocultural theories: Holland's figured worlds, Kemmis et al.'s practice architectures, Lave and Wenger's situated learning and Engeström's cultural-historical activity theory (CHAT or AT). We describe each and then briefly illustrate how each theory can support new ways of thinking and potential directions for research focusing on education-service tensions.
Methods:We conducted a search of the literature on service-education tensions since 1998 to examine the use of theory in studies on this topic.
이론을 명시적으로 만들기: 의학교육 연구자는 이론과의 연계성을 어떻게 기술하는가(BMC Med Educ, 2017) Making theory explicit - An analysis of how medical education research(ers) describe how they connect to theory Klara Bolander Laksov1,2*, Tim Dornan3,4 and Pim W. Teunissen4,5
배경 Background
10년 이상, 명확한 이론적 근거가 결여된 의대 교육 연구 간행물에 대한 우려의 표현이 있어왔다[1–5]. 의학 교육에서 이론의 활용이 증가하는 징후[6]가 있지만, 문제를 식별하는 것뿐만 아니라 문제를 더 잘 이해하고 해결하는 것이 흥미롭다. 이 논문의 목적은 과거에 사람들이 어떻게 해왔는지 살펴보고 다른 사람들이 미래에 어떻게 할 수 있는지를 제시함으로써 연구자들이 이론을 더 잘 활용할 수 있도록 돕는 것이다. 우선, 우리가 '이론'이란 단어로 무엇을 의미하는지 더 자세히 설명해야 합니다. For over a decade, there have been expressions of concern about medical education research publications lacking an explicit theoretical basis [1–5]. Although there are signs of an increase in use of theory in medical education [6], it is of interest to not only identifying the issue, but to better understand and remedy it. The aim of this paper is to help researchers make better use of theory by examining how people have done so in the past and suggesting how others might do so in the future. First, this requires an elaboration of what we mean by theory.
이론의 일반적인 설명은 [어떤 현상을 설명하기 위한 아이디어의 체계]라는 것이다. 이론에 대한 이러한 관점은 생물 의학 및 물리 연구에서 종종 받아들여지는 견해와 일관되며, 이론과 반복적으로 시험될 수 있는 것으로 명확하게 연결되어 있어 모든 경우에 활동을 안내합니다. A general description of theory is that it is a system of ideas intended to explain a phenomenon. This perspective on theory is consistent with the view that is often taken in biomedical and physical research and is clearly linked to theory as something that can be repeatedly tested, and hence guide activity in all cases.
그러나 의대교육의 이론은 생의학과 다른 시각으로 볼 필요가 있다. [7] [입증의 필요성]을 강조하기 보다는, 출발점은 조사가 수행된 특정 렌즈를 가지고 [현상에 대한 서로 다른 설명을 둘러싼 과학적 대화에 참여]하는 것이며, 이는 이론 생성[8]을 초래할 것이다. However, theory in medical education needs to be viewed as different from the biomedical view. Rather than emphasising an imperative of proof [7], the point of departure is the participation in scientific dialogue around different explanations of phenomena with a specific lens through which the inquiry was conducted, which will result in theory generation [8].
리브스와 동료(ibid.)는 이론을 다음과 같이 정의했다: [의미 있는 전체]로서 소통되는 일련의 이슈에 대한 조직화된, 일관성있는, 체계적인 설명 Reeves and colleagues (ibid.) define theory as: an organized, coherent, and systematic articulation of a set of issues that are communicated as a meaningful whole”.
교육에서 이론의 개념화는 역사적으로 [20세기 초기의 고수준의 이론에서부터, 1960년대의 중범위 이론, 1900년대 말까지 개인실천 이론에 이르기까지] 추상화abstraction의 여러 수준에 따라 연속체상에 배치될 수 있다. The conceptualisation of theory in education can be placed historically during the 20th century [9] at a continuum that covers different levels of abstraction ranging from high level theories at the turn of the 20th century, to middle range theories in the 1960s, and personal practice theories by the end of the 1900s.
[고차원 이론high level theories]은 시스템의 근본적인 변수를 제시하고, 마르크스주의 이론처럼 높은 수준의 추상성을 포함합니다. 예를 들어, 경험적 연구나 직접 이끌지 않는 범위 내에서 '설명할 대상과 무관함'(사회적 투쟁)이다. 이러한 수준의 이론은 실증적 연구empirical research로부터 유래한 것은 아니며, (시험 가능한 아이디어나 가설을 통해) 실증적 연구로 직접 이끌지lead는 않지만, 경험적 조사empirical enquiry를 위한 지침guidance은 제공할 수 있습니다. High level theories state the fundamental variables of systems and include a high level of abstractness, like Marxist theory, which are ’independent of the thing to be explained’ (social struggle, for example) to the extent that they might not arise from empirical research or lead directly, via testable ideas or hypotheses, to empirical research, however it can provide guidance for empirical enquiry.
반세기 전, Merton(1968)은 [중간 범위의 이론]이 있다는 아이디어를 도입했다. [중범위 이론]이란 다음의 사이에 놓여있다 - [일상적 연구에서 풍부하게 발전하는, 작지만, 필요한 작업 가설들]과 [사회 행동, 사회 조직, 그리고 사회 변화의 모든 관찰된 획일성을 설명할 통일 이론을 개발하기 위한 전면적인 체계적 노력] In a seminal paper half a century ago, Merton (1968) introduced the idea that there are middle range theories – theories that lie between the minor but necessary working hypotheses that evolve in abundance during day-to-day research and the all-inclusive systematic efforts to develop a unified theory that will explain all the observed uniformities of social behavior, social organization, and social change ([10]p. 39.).
가장 자세하고 개별적인 수준에서 '개인적 이론'[12]은 우리 모두의 일상적인 활동을 안내합니다. 예를 들어, 학생들의 성과에 대한 피드백을 제공하는 방법에 대한 우리의 선택은 대부분 성과를 전달하고 평가하는 방법에 대한 매우 개별적인 이론에 의해 이끌어집니다. 이 이론은 [비록 학생과의 관계에서 무엇을 어떻게 말해야 하는지만 말해준다 하더라도],(경험적 관찰과 쌍방 관계에 있는) 개인의 이론personal theory이다. At the most detailed and individual level, ’personal theories’ [12] guide the day-to-day activities of every one of us. Our choice of how to feedback on student performance, for example, is most often guided by a highly individual theory of how to communicate and appraise performance. It is a personal theory, which is in a two-way relationship with empirical observations, even if it only tells us when to say what and how in relation to the student.
교육 분야에서 Donald Schön(1991)의 연구는 이른바 사용중인 이론(theory-in-use)에 초점을 맞췄다. 이는, 교사가 일상적인 교육에 적용하는 것이다. 또한 이것이 '옹호된 이론espoused theory'와 어떻게 관련되는지를 보았는데, 이는 피드백 및 커뮤니케이션 패턴에 대한 미드레인지 이론일 수도 있고, 교수개발 과정에서 학습했을 수 있는 과정 설계가 관련될 수 있습니다. In education, Donald Schön’s (1991) research has focused on these so called theories-inuse, that teachers apply in everyday teaching, and how they relate to their ’espoused theory’, which could be midrange theories of feedback and communication patterns together with course design that might have been learned in a faculty development course.
이론 개발에 대한 기여는 학계 커뮤니티가 '실제적 목적적합성을 달성하기 위해 얼마나 효과적으로 연구 프레임워크를 통합하느냐'에 달려 있기 때문에, 이 논문의 초점은 중범위 이론을 어떻게 명시할 수 있는지에 있다[13]. The focus of this paper is on how middle-range theory can be made explicit, since the contribution to development of theory depends on how effectively the community of scholars ‘integrates inquiry frameworks to achieve practical relevance’ [13].
어떤 패러다임이든, 연구의 이론적 가정에 대해 명확히 하는 것은 가치를 더한다. 사람들이 의학 교육 연구를 더 잘 이론화해야 한다고 요구할 때, 그들은 연구자들에게 그들의 연구를 어떤 명시적인 이론적 틀 안에서 포지셔닝하고, 그들이 그렇게 한 방법과 이유를 정당화할 수 있고, 그 틀에서 도출된 통찰력을 사용하여 경험적 관찰을 해석할 수 있도록 요청하고 있다. Whatever one’s paradigm, being clear about the theoretical assumptions that underly research adds value to it. When people call for medical education research to be better theorised, they are asking researchers to
position their work within some explicit theoretical framework,
be able to justify how and why they did so, and
use insights derived from the framework to help interpret empirical observations.
철학적 고려에서 좀 더 실용적인 고려로 넘어가면서, Bordage (2009)는 교육 연구자들이 [개념적 체계conceptual framework]를 '문제나 연구에 대한 사고 방식, 또는 복잡한 사물이 어떻게 작용하는지를 표현하는 방법'으로 어떻게 사용할 수 있는지를 설명했다. 이러한 개념적 프레임워크는 연구자들이 특정한 방법으로 문제를 검토하도록 유도하거나 시험할 가설을 생성할 수 있으며[14] 따라서 이론과 경험적 데이터 사이의 연관성에 있어 매우 중요하다. 그것들은 그들 자신의 연구나 타인의 연구로부터 발생할 수 있고 개념적 체계는 특정 이론에서 도출될 수 있다. 한 이론이 많은 다른 연구자들에 의해 채택된다면, 그 분야는 비로소 개별 연구가 진행되었던 조건을 넘어 전이될 수 있는transferable 일관된 연구결과집합체body of work를 구축하게 된다. Moving from philosophical considerations to more practical ones, Bordage (2009) explained how education researchers can use conceptual frameworks as ‘ways of thinking about a problem or study, or a way of representing how complex things work.’ Such conceptual frameworks may guide researchers to look at problems in particular ways or generate hypotheses to be tested [14] and are thus crucial in the linkage between theory and empirical data. They may arise from their own or other people’s research and the conceptual framework can be derived from a specific theory. When theories are adopted by many different researchers, they help the field build up a coherent body of work, which is transferable beyond the conditions in which individual studies were conducted.
교육 연구 방법론 교사로써, 석사과정 학생, 박사과정 학생, 의대신입학 연구자들이 이론에 관여하기 어려운 주제라는 것을 꾸준히 발견해 왔습니다.
As teachers of education research methodology, we have consistently found that Masters students, PhD students, and new medical education researchers find theory a difficult topic to engage with.
방법 Methods
개념적 지향 Conceptual orientation
이 연구는 사회적 구성주의 접근법을 따랐다. 사회구성주의social constructivism는 집단이나 공동체가 그들의 [상호작용의 결과로 공유된 의미를 창출한다]고 가정한다. 이러한 [공유된 의미shared meaning]는 저널이나 직책, 직책과 같은 '인공물artefacts'이라 불리는 사물로부터 기인할 수 있으며, 이것들이 모여 [공유된 문화shared culture]를 이룬다.
A social constructivist approach [15] guided our research [16–18]. Social constructivism assumes that groups or communities create shared meaning as a result of their interactions. These shared meanings can be attributed to things, which are called ’artefacts’, such as a journal or a position or title, and together contribute to a shared culture.
이번 프로젝트에서는, [출판물]을 의학교육계의 협업으로 제작된 인공물artefacts으로 보았다는 점에서 본 연구는 "사회적social"이었다. 한편, 세 저자 사이의 데이터 분석과 이론 개발의 반복적인 과정을 통해 우리가 데이터로 포함시킨 출판물에 개념적 프레임워크에 대한 연결이 어떻게 형성되고 사용되는지에 대한 해석을 구성할 수 있었다는 점에서 "구성주의적constructivist"이였다.
In this project, the research was social in that we regarded publications as artefacts produced by the collaborative efforts of the medical education community. It was constructivist in that an iterative process of data analysis and theory development between the three authors allowed the construction of an interpretation of how connections to conceptual frameworks were formed and used in the publications we included as data.
데이터 수집 절차 Data collection procedure
이 프로젝트의 데이터 집합은 의학 교육 분야에서 영향력이 있다고 여겨지는 발표된 논문 집합으로 구성되었습니다. The dataset for this project consisted of a set of published papers that were deemed influential in the medical education domain.
선정된 연구진은 연구 pp주제, 성별, 지리뿐만 아니라 자체 연구에 일반적으로 적용되는 방법론적 선호도 변화에서 차이를 보였다(표 1 참조). 그들은 다음과 같은 요청을 받았다. The selected researchers differed in their variation of methodological preferences usually applied in their own research as well as research topic, gender and geography (see Table 1). They received the following request:
의학 교육 분야에서 영향력이 있다고 생각되는 약 5개의 연구 논문을 지명해 주십시오. 각 논문마다 왜 그것을 선택했는지에 대해 몇 개의 문장을 써주세요. Please nominate approximately 5 research papers you consider as influential in the field of medical education. For each paper, please write a few sentences saying why you chose it.
"영향력있는"이라는 단어의 의미를 우리는 "[의학 교육 관행이나 연구에서 전반적인 영향]을 미쳤거나, 혹은 [응답자 개인의 연구 또는 교육 관행]에 영향을 미쳤던 연구 논문"으로 명확히 했습니다. By influential we clarified that it could be “research papers that have, in your opinion, impacted medical education practice or research in general or your own research or educational practice”.
분석 Analysis
주요 분석을 안내하는 4가지 주요 질문의 공식화: the formulation of four main questions to guide the main analysis:
1) "이 논문의 출발점starting point은 무엇이었습니까?" 그 출발점은 예를 들어 실용적 문제 또는 이론적 문제 또는 이전 연구의 발견일 수 있습니다. 1) ”What was the starting point of this article?” The starting point could be, for instance, a practical or theoretical problem, or the findings of previous research.
2) "문제에 접근하기 위해 어떤 개념적 체계conceptual framework를 사용하였는가?" 이것이 우리가 이론적인 개념이나 프레임워크와 다소 명백한 연관성을 볼 수 있는 곳입니다. 2) ”What conceptual framework was used to approach the problem?”.This is where we could see a more or less explicit linkage to theoretical concepts or frameworks.
3) "이 논문은 방법론적으로 문제를 어떻게 다루었는가?" Guba & Lincoln의 [20] 유형 방법론적 접근법이 우리의 분석을 이끌었다. 3)”How did the paper address the problem methodologically?”;Guba & Lincoln’s [20] typology of methodological approaches guided our analysis.
4) "이 기사가 이론에 어떤 기여를 했는가?" 4)”How did the article contribute to theory?”.
1. 저자들의 출발 지점은 무엇이었습니까? a) 문제는 어디에서 발생하였는가(예: 실제 문제, 이전 논문, 이론 문제, 이론에 근거한 가설)? 1. What was the authors’ point of departure? a) Where did the problem come from (e.g. practical issue, previous papers, theoretical problem, hypothesized based on theory)?
2. 저자들은 어떤 경로를 택했는가? a) 이슈는 어떻게 문제화되고 개념화되었는가? b) 질문 1과 2의 답변은 서로 어떤 관련이 있습니까? c) 저자들은 자신의 문제를 다루기 위해 어떤 방법론을 사용했으며, 선택권을 얼마나 명확히 고려했는가? 2. What route did the authors take? a) How was the issue problematized and conceptualized? b) How do the answers to questions 1 and 2 relate to each other? c) What methodology did the authors use to tackle their problem and how explicit were they in considering their options?
3. 저자들은 어디에 도착했나요? a) 조사 중인 문제를 해결하는 데 어떻게 기여했다고 제안했습니까? b) 이 과학적 여정의 여러 요소들 사이의 명백한 관계는 무엇인가? 3. Where did the authors arrive? a) How did they suggest they had contributed to addressing the problem under investigation? b) What is the apparent relationship between the different components of this scientific journey?
결과 Results
초청연구가 15명 중 남성 6명, 여성 4명 등 10명이 총 41편의 논문을 내정했다. 두 명은 초대를 거절했고 세 명은 응답하지 않았다. 논문은 추가 파일 1: 부록 1에 나열되며 경험적 논문부터 검토, 개념적 논문 및 사설까지 다양합니다. Ten of the 15 invited researchers, six men and four women, nominated a total of 41 papers. Two declined the invitation and three did not reply. The papers are listed in Additional file 1: Appendix 1 and ranged from empirical papers, to reviews, conceptual papers and editorials.
근접 탐사 Close-up exploration
여기서 연구자들은 전공의들이 실제 경험을 통해 배우는 방법 등 몇 가지 [구체적인 현상을 설명하는 것]을 목표로 했다. [국지적 이슈]에 의해 촉발되거나, [다른 연구에서 제기된 이슈]를 바탕으로, 그들은 이러한 [현상에 대한 현재의 이해를 더할 필요성이나 기회]를 포착하였다. 이를 통해 그들은 구체적인 질문을 하고, 연구 계획을 결정하고, 연구를 착수할 수 있었다. 중범위이론은 이들이 질문, 방법, 연구 진행 환경 등을 선택할 수 있도록 도움으로써 기여했고, 그 결과 관심 주제에 대한 보다 명확하고 참신한 이해를 쌓을 수 있었다. Here, researchers aimed to explain some specific phenomenon, such as how residents learn from practical experience. Either instigated by a local issue or issues raised in other studies, they recognized a need or opportunity to add to the current understanding of this phenomenon. This allowed them to formulate a specific question, decide on a research plan, and set out to do the research. Middle range theory contributed to this process by helping them choose questions, methods, and a setting in which to conduct the research, which would contribute to building a clearer or novel understanding of the topic of interest.
Example 1
이 범주의 연구 예는 Lingard 외 연구진들의 연구이다. (2004). Lingard와 동료[21]는 수술실의 커뮤니케이션 장애를 조사하면서 이전 연구에서 비롯된 문제를 출발점으로 삼았다. An example of a study in this category is a study by Lingard et al. (2004). Examining communication failures in operating rooms, Lingard and colleagues [21] took as their point of departure an issue stemming from previous research:
최근의 증거는 오류로 인한 부작용은 입원환자 환경에서 수용할 수 없을 정도로 높은 비율로 발생하며 팀 구성원 간의 비효율적이거나 불충분한 의사소통이 종종 기여 요소임을 시사한다(330페이지). Recent evidence suggests that adverse events resulting from error happen at unacceptably high rates in the inpatient setting and that ineffective or insufficient communication among team members is often a contributing factor. (p.330)
의료 분야에서 팀워크와 안전의 관계, 연구 방식의 동향에 관한 문헌의 증가 추이를 언급함으로써, 지식의 격차를 확인했다. By referring to a growing body of literature regarding the relationship between teamwork and safety in health care, and trends in the way it had been studied, the route taken by Lingard et al. identified a gap of knowledge:
이러한 모델은 효과적인 팀 기능에서 의사소통의 중요성을 강조해 왔지만, 다차원성은 커뮤니케이션의 개별 변수에 대한 깊은 관심을 배제합니다. While these models have reinforced the importance of communication in effective team function, their multidimensionality precludes in depth attention to the individual variable of communication. (p.330)
저자들은 "표준화와 팀 통합의 부족"이라고 공식화한formulated 수술실의 특정 맥락에서의 의사소통에 관한 연구 결과를 언급하며 계속했다. 여기서, 그들은 항공 산업에서의 의사소통에 대한 사고 방식(즉, 다른 분야에서의 이론화)을 언급함으로써, 당면한 이슈를 프레이밍(의사소통실패)하였고, 문제 극복을 위한 개입을 선택하였다. The authors continued by referring to the findings from studies on communication in the specific context of operating rooms, formulated as ”lack of standardization and team integration”. Here, they referred to the ways of thinking about communication in aviation industry (i.e. theoretization from another field) both as a way to frame the issue at hand (communication failures) and to choose interventions to overcome the problem:
OR 팀 커뮤니케이션의 기술된 약점에 대한 하나의 잠재적 해결책은 항공 산업에서 체계적인 비행 전 팀 커뮤니케이션을 위해 현재 사용 중인 체크리스트 시스템을 조정하는 것이다… 우리는 세심하게 조정된 체크리스트 시스템이 OR 팀에서 더 안전하고 효과적인 커뮤니케이션을 촉진할 수 있을 것으로 예상한다. (p.330) One potential solution to the described weaknesses in OR team communication is to adapt the checklist system currently in use for systematic preflight team communications in the aviation industry … we anticipate that a carefully adapted checklist system could promote safer, more effective communications in the OR team. (p.330)
방법 섹션은 논문 초기에 식별된 방법론적 격차에 맞춰 조정되었으며 관찰된 커뮤니케이션의 현장 노트를 분석하기 위해 이론 기반의 프레임워크를 사용했다. 이를 통해 연구진은 의사소통 장애의 특성을 파악하고 탐구 중인 주제에 대한 보다 자세한 이해를 할 수 있었습니다. 이를 통해 시스템, 프로세스 및 환자 수준에서 이러한 장애를 분석하고 조사 중인 환경, 즉 수술실에서의 커뮤니케이션을 자세히 이해할 수 있었습니다. The methods section aligned with the methodological gap identified at the outset of the paper and used a theory-based framework for analysis of the fieldnotes taken of the communication that was observed. This enabled the researchers to approach and identify the characteristics of communication failures and arrive at a more detailed understanding of the topic under exploration. It allowed them to analyse these failures in relation to the effects at system, process, and patient level and arrive at a detailed understanding of the landscape under investigation: communication in the operating room.
Example 2
첫 번째 범주의 또 다른 예는 Van Zanten의 연구이다[22]. 의사 인종과 관련된 환자 만족 주제에 대한 기존 지식의 개요로 시작합니다. 저자들은 다른 사람들이 발견한 것을 요약합니다. 과학적 풍경을 재개념화하기 위해서가 아니라 자신이 탐구하고자 하는 부분과 발견하기를 기대하는 부분을 설명하기 위해서입니다.
Another example of the first category is the study by Van Zanten [22]. It starts with an overview of existing knowledge on the topic of patient satisfaction in relation to physician ethnicity. The authors summarize what other people have discovered, not to reconceptualise the scientific landscape but to explain what part of it they want to explore and what they expect to find:
특정 관점 A specific perspective
이 범주에는 의도적으로 선택된, 고정된 유리한 지점에서 [이론 구축theory building을 추가하기 위한 연구]가 포함되었습니다. 연구자들은 심리, 사회, 인류학 또는 철학적 영역에서 도출된 특정 연구 관점을 의료 교육 분야의 이슈에 적용할 수 있는 장점을 주장했다. This category included research that intended to add to theory buiding from a deliberately chosen, fixed vantage point. Researchers argued for the advantages of applying a particular research perspective derived from psychological, sociological, anthropological, or philosophical domains to an issue in the field of healthcare education.
Example 1
Example 2
Kerosuo와 Engestrom[23]에 의해 해결된 현실적 문제는 다중 전문 그룹multi-professional groups에 의한 돌봄care 제공이었다. 그들은 조직 내 사람들이 [어떻게 집단적으로 일하는 법을 배웠는지] 검토하기 시작했다. 그들은
[인간의 활동을 체계적이고 사회적으로 자리잡은 현상으로 이해]하고, 이에 따라 [개인 주체와 사회적 현실의 차이를 메워주고],
그들이 일하고 있는 [의료 환경을 이해하고 변화시키기 위한 이론]인,
...활동 이론(Activity Theory)에 의해 inform된, 변화 연구실 접근법Change Laboratory approach을 취했다. The practical problem addresssed by Kerosuo and Engeström [23] was provision of care by multi-professional groups. They set out to examine how people in organisations learned to work collectively. They took a Change Laboratory approach, informed by Activity Theory, a theory that seeks
to understand human activities as systemic and socially situated phenomena and hence bridges the gap between the individual subject and the social reality,
to understand and change the health care environments they were working in.
거리두기 관점 A distanced perspective
이 세 번째 범주는 비교적 [추상적인 수준]에서 운영된다. 학자들은 연구 영역을 스캔하여 다른 연구자들이 이전에 매핑한 내용을 종합하고 모순과 추가 탐사가 필요한 영역을 식별합니다. 특정 현상에 대한 면밀한 탐사를 하거나 특정 관점에서 문제를 살펴본 연구자들의 노력이 없었다면 이런 유형의 작업은 불가능했을 것이다. 그러나 때로는 한 발짝 물러서서 정보의 일부가 어떻게 서로 들어맞는지 살펴봐야 합니다. 일반적으로 이 세 번째 범주의 논문들은 새로운 경험적 데이터를 보고하지 않고, 그 대신 이전의 연구 결과가 그들의 데이터이다. This third category operates at a relatively abstract level. Scholars scan an area of research, piecing together what others had previously mapped and identifying contradictions and areas that need further exploration. It would not be possible to do this type of work were it not for the efforts of researchers who have done close up explorations of specific phenomena or looked at the issue from a specific perspective. However, sometimes one needs to take a step back and look at how the pieces of information fit together, or not. Typically, papers in this third category do not report new empirical data; instead, previous research findings are their data.
Example 1
Steinert 등[24]의 교수진 개발에 대한 체계적인 검토는 수많은 교수진 개발 프로그램이 효과의 차이를 명확히 이해하지 못한 채 제공되었다는 관찰에서 시작되었습니다. 다른 학자들이 만들어낸 수많은 지식들을 스캔함으로써, 저자들은 이 조각들이 어떻게 서로 맞고 겹쳐지고 발견되지 않은 부분들을 정리할 수 있었다. 이것은 이전의 연구에 의해 생성된 지식을 종합하는 개념적 프레임conceptual framework으로 이어졌다.
A systematic review by Steinert et al. [24] on faculty development started from the observation that a myriad of faculty development programs had been delivered without any clear understanding of differences in their effectiveness. By scanning the numerous pieces of knowledge produced by other scholars, the authors were able to map out how these pieces fitted together, overlapped, and left areas undiscovered. This led to a conceptual framework that synthesized the knowledge generated by previous research.
이 프레임워크에서는 교수진의 다양한 역할을 인정하며, 교육teaching은 그 중 하나이다. 이 프레임워크는 특정 교수개발 활동을 넘어서는 많은 중재 요인이 교사의 효율성에 영향을 미칠 수 있으며, 그 결과는 여러 수준에서 관찰될 수 있다는 사실을 강조한다(p.500). This framework acknowledges the different roles of faculty members, of which teaching is one. It also highlights the fact that many mediating factors beyond specific faculty development activities can influence teacher effectiveness, and that outcome can be observed at a number of levels. (p.500)
저자들은 교수 발달에 대한 증거를 이용하여 사람들의 행동에 대한 사고에 기여하는 틀을 만들었습니다. The authors used evidence about faculty development to produce a framework that contributes to people’s thinking about their actions.
Example 2
이 예는 Schmidt, Norman & Boshuizen[25]에 의해 제공되며, 그는 임상 역량에 대한 문헌 검토에서 다음과 같이 결론지었다. This example is provided by Schmidt, Norman & Boshuizen [25], who concluded from a review of literature on clinical competence:
…임상 역량의 성격에 대한 몇 가지 근본적인 가정에 의문을 제기하면서 여러 가지 반복적인 문제가 나타났습니다. (p.611) …a number of recurrent problems emerged, casting doubt on some of the fundamental assumptions about the nature of clinical competence. (p.611)
고찰 Discussion
그러나 세 가지 접근방식은 우리의 주요 데이터(논문)와 구별되었지만, 하나의 범주로만 쉽게 분류할 수 없는 논문도 있었다. 이는 대부분 이 논문들이 이론적 출발점을 명확히 밝히지 않았기 때문이다. However, although the three approaches were discerned from our primary data (the papers), there were papers that could not easily be categorized into only one of the categories. This was mostly due to the fact that these papers had not made their theoretical point of departure explicit.
범주화뿐만 아니라, 우리의 분석은 은유를 만들어냈고, 우리는 이것이 이론이 어떻게 사용되는지를 설명하는 데 도움이 되기를 바란다. 이 비유는 해안 풍경을 탐험하고 싶은 사람이 배, 등대, 비행기로부터 탐험할 수 있다는 것이다. 해안의 풍경은 사람들의 행동과 함께 탐구 영역을 구성하는 사회적 과정을 나타낸다. 보트, 등대, 비행기는 세 가지 관점, 세부 수준, 조도 유형을 제공합니다. 이 '이야기'는 아래와 같다. As well as a categorisation, our analysis has produced a metaphor, which we hope will help explain how theory is used. The metaphor is of a person wanting to explore a coastal landscape and being able to do so from a boat, a lighthouse, or a plane. The coastal landscape represents the people, their behaviour, and the social processes that together constitute a field of inquiry. The boat,lighthouse, and plane provide three different perspectives, levels of detail, and types of illumination of the landscape. This ’story’ is outlined below.
이 논문에서 사용되는 은유 체계를 설명하는 서술 A narrative explaining the system of metaphors used in this paper
멀리 떨어져 있는 섬을 도표로 만들어야 한다고 상상해 보세요. 그곳에는 먼 옛날에 살았던 사람들이 만든 조잡하고 부정확한 지도들이 있다. 섬의 좋은 지점vantage point에 등대의 외딴 잔해가 서 있다. 그 섬에는 [귀중한 광물 퇴적물]이 있을 수 있기 때문에 조사되고 있다. 세 가지 방법으로 자유롭게 조사할 수 있습니다. 배를 타고 바위 해안으로 접근하거나, 등대 꼭대기에서 측량하거나, 상공 비행을 할 수 있습니다. Imagine you have to chart a far-off island. There are some crude, inaccurate maps of it made by people who lived there in the distant past. At a vantage point on the island stand the solitary remains of a lighthouse. The island is being surveyed because there may be valuable mineral deposits there. You have, at your disposal, three ways of surveying it. You can approach its rocky coast by boat, you can survey it from the top of the lighthouse or you can overfly it.
이 비유에 따르면,
[섬]은 연구 주제입니다.
[귀중한 광물 퇴적물]은 그것을 조사하기 위한 목적이다.
[지도]는 주제에 대한 지식 상태를 나타냅니다.
보트, 등대, 비행기는 지도를 정교화하는[세 가지 다른 방법]이다. 즉, 근접 탐사(보트), 특정 관점(등대), 개요(비행).
According to this metaphor,
the island is a research topic.
The valuable mineral deposits are a purpose for surveying it.
The map represents the state of knowledge of the topic.
The boat, lighthouse, and plane represent the three different ways theory can help refine the map discussed in the finding section:
theory as close-up exploration (boat);
theory as a specific perspective (lighthouse); and
theory as overview (plane).
당신은 그것들로부터 매우 다양한 종류와 세부사항, 그리고 바위 경관에 대한 관점을 얻을 수 있을 것입니다. 마찬가지로, 여러분이 물려받은 [조잡한 지도]도 땅을 조사한 관점의 영향을 받았을 것이며, 여러분이 앞으로 생산할 [정교한 지도]도 마찬가지로 여러분이 선택한 관점의 영향과 섬의 위상학적 특성에 영향을 받을 것입니다. You would get very different types and levels of detail, and perspectives on the rocky landscape from them. In the same way, the crude map you inherited was influenced by the perspective from which the land was surveyed and the sophisticated map you produce will, likewise, be influenced by the perspective you have chosen as well as the topographical features of the island.
이 은유법은 연구에 대한 기본적인 원리를 보여준다. 하나의 주제를 아는 단 하나의 논쟁의 여지가 없는 방법은 없다. 마치 한 풍경을 아는 데 논쟁의 여지가 없는 방법은 없는 것과 같다. 우리가 그것을 인정하든 말든, "진리"는, 지도와 마찬가지로, 그것이 얻어진 이론적인 관점에 의해 영향을 받습니다. 궁극적으로, 원근법과 거리가 지도에 지워지지 않는 흔적을 남기는 것과 마찬가지로, 이론은 여러 가지 방법으로 우리의 연구에 스며든다. 광물 퇴적물처럼 탐구할 가치가 있는 주제라는 결정도 이론의 영향을 받는다. 하지만 그 세 가지 관점과 목표를 달성하는 데 어떻게 도움이 될 수 있는지는 지켜보자. This metaphor illustrates a fundamental principle about research. There is no single, incontrovertible way of knowing a topic, just as there is no incontrovertible way of knowing a landscape. Whether we acknowledge it or not, “truths”, like maps, are influenced by the theoretical perspective from which they were gleaned. Ultimately, theory permeates our research in many ways, just as perspective and distance leaves their indelible marks on a map. Even the decision that a topic is, like mineral deposits, worth exploring is influenced by theory. But let’s stick with those three different perspectives and how they can help you achieve your goal.
보트는 풍경 가까이 다가갈 수 있게 해줍니다. 심지어 만질 수도 있습니다. 아주 미세한 디테일을 얻을 수 있습니다. 예를 들어, 귀중한 광물을 수출하는 선박을 위한 선착장을 어디에 지을지 계획한다면 매우 값진 일일 것입니다. 하지만 섬 전체를 일관된 시각으로 바라보는 데는 그리 좋지 않을 것이다. 연구용어로, 이러한 이론의 사용은 특정한 관심 영역을 식별하고, 그곳에서부터 지도의 특정 부분을 조사하는 것을 의미합니다. 주제 전체의 일관성 있는 지도를 작성하는 것보다는, 주제 일부를 세부적으로 설명하는 목적에 더 좋습니다. 보트만으로 측량하면 관심 분야에 대해서 [해결되지 않은 상반된 결과]가 동반된 짜깁기 지도가 나올 수 있습니다. The boat allows you to come close to the landscape; even touch it. You can get very fine detail. It would be invaluable if, for example, you wanted to plan where to build a dock for ships exporting the valuable mineral. But it would not be so good for putting the entire island into a coherent perspective. In research terms, this use of theory means identifying a specific area of interest, getting out there and investigating a specific piece of the map. It is better at giving fine detail of part of a topic than producing a coherent map of the topic as a whole. Surveying solely by boat could produce a patchy map of the field of interest with unresolved, conflicting results.
만약 [등대]가 위치한 [고정된 유리한 지점]으로 인해, 광산에서 물결치는 경관을 가로질러 선착장으로 가는 경로를 선택할 수 있다면 등대를 선택할 수 있습니다. 마찬가지로, 이론은 여러분이 [의도적으로 선택한, 고정된 유리한 위치]에서 진화하는 과학 지식의 지도에 정보를 추가하는 데 도움을 줄 수 있습니다. 여러분은 특정한 심리학적, 사회학적, 인류학적 또는 철학적 입장을 선택할 수 있습니다. 왜냐하면 [그 입장]이 [이 주제]에 대해 어떤 것을 말해 줄지 알고 싶기 때문입니다. 등대에서 그렇게 하다 보면 배에서 관찰한 것과 같은 세부 수준은 아니지만 주제에 대한 가치 있는 새로운 시각을 갖게 될 것입니다. You would choose the lighthouse if its fixed vantage point helped you, for example, choose the route from the mineral mine to the dock across an undulating landscape. Likewise, theory can help you add a piece of information to the evolving map of scientific knowledge from the deliberately chosen, fixed vantage point. You might choose some specific psychological, sociological, anthropological or philosophical stance because you want to know what that stance will tell you about the topic. Having done so from the lighthouse, you would shed a valuable new perspective on a topic, though perhaps not at the same level of detail as if you had surveyed it from a boat.
혹은 비행기를 타고 전체 풍경을 둘러볼 수 있다. 이로서, 탐구자들이 이전에 보트 및 등대를 사용하여기울였던 노력을 어느 정도 적합한 전체로 통합할 수 있습니다. 연구자로서 비행기의 관점은 잘못된 표현이나 추가 탐사가 필요한 지역을 식별하는 데 도움이 될 수 있지만, 등대나 보트처럼 세부적으로 주제를 조사할 수는 없습니다. 지금까지의 지도 상태에 대한 귀중한 통찰력을 제공하고 향후 연구 의제를 추진하는 데 도움이 되는 새로운 통찰력을 제공할 수 있습니다. A plane allows you to overview the entire landscape and, for example, pull together the previous efforts of surveyors in boats and lighthouses into a more or less fitting whole. As a researcher, the plane perspective could help you identify misrepresentations or areas that need further exploration, though it would not allow you to examine topics in the same detail as either a lighthouse or a boat. It could give you valuable insights into the state of the maps so far and provide new insights that help drive future research agendas.
의학 교육 연구에서 이론의 다양한 이용 방법에 첨부된 은유와 약점을 밝혀낼 수 있습니다. 예를 들어, 보트는, 탐색 범위를 제한하는 한계가 있다. 보트는 잘 정의된 영역에서 한 번에 하나의 질문에 집중할 때 가장 효과적입니다. 여러 연구자들이 서로 다르지만 관련 질문에 답하려고 노력한 결과는, [잘 정의된 영역과 사각지대와 상반된 조사 결과]가 뒤섞여서, 해당 분야에 대한 [짜깁기 지도patchy map]로 이어질 수 있다. 등대의 관점은 다양한 지역을 관찰하고 그 특이점을 연구하는데 활용될 수 있다. By applying the metaphors, strengths and weaknesses attached to different ways of using theory in medical education research can be uncovered. Being in a boat limits, for example, the scope of the quest; it works best when focusing on one question at a time in a well-defined area. The result of many researchers trying to answer different but related questions is a patchy map of the field of interest, with areas that are well defined, blind spots, and conflicting findings. The lighthouse perspective can be used to look at different areas and study their peculiarities.
이전에 보트로 연구했던 지역들을 재조명할 수 있고, 이는 가치 있는 깨달음으로 이어질 수 있다. 하지만 등대에서 세계를 연구하려면 유연성의 희생이 따른다. [등대]는 보트처럼 연구주제를 중심으로 움직일 수 없기 때문에, [선택한 시각]이라는 빛이 도달하지 않는 지역은 탐사가 불가능하다. 따라서 등대 연구진이 관점을 철저히 설명하고, 다른 관점(또는 빛)을 사용했다면, 다른 연구 결과를 이끌어 냈을 수도 있음을 인정하는 것이 필수적이다.
Areas that were previously researched by boat can be re-examined and this can lead to valuable enlightenment. However, researching the world from a lighthouse comes at the expense of flexibility. Areas on which the chosen perspective does not shed light cannot be explored because the lighthouse cannot move around a research topic like a boat can. It is thus essential that lighthouse researchers describe the perspective thoroughly and acknowledge that using a different perspective (or light) might have been brought forward different findings.
[비행기 접근법]은 다른 사람의 작업을 일반화 및 구축하거나 비평함으로써 연구 커뮤니티에 중요한 자원을 제공합니다. 그러나 관심 영역으로부터의 거리를 두었기 때문에 세부 정보를 잃게 됩니다. 반면에 비행기를 타면서 얻게 되는 감시는 지금까지의 지도 상태에 대한 [중요한 윤곽]을 이끌어낼 수 있고, 심지어 미래의 연구 의제를 주도하는 새로운 통찰을 낳을 수도 있다.
The plane approach provides an important resource to the research community by generalising and building on or critiquing different people’s work. However, the distance from the area of interest results in loss of detail. On the other hand, the oversight one gets from being in a plane can lead to valuable outlines of the state of the map so far and even result in new insights that drive future research agendas.
이 연구가 추가하는 내용 What this study adds
그렇다면, 어떻게 이론이 만들어지는지에 대한 세 가지 관점이 이론에 대한 우리의 이해를 어떻게 알려줄까요? 이론은 경험적 연구의 자동화된 결과가 아니며, 연구자 쪽에서 선택하는 것이다 [26]. 이론을 (연구 아이디어를 창출하고 경험적 연구의 결과를 예측하는 도구로 기능하는) 생물 의학 연구에 적용되는 실증주의 패러다임에서 이론의 사용과 달리, 본 연구에서 우리가 가지고 있는 실증적 연구에서는 세 가지 접근법에 의해 이론의 사용을 예로 들었다. So, how do the three perspectives of how theory is made explicit inform our understanding of theory? Theory is not an automated result of empirical research but emerges from a choice on the part of the researcher [26]. In contrast to theory use in the positivist paradigm applied in biomedical research, where the function of theory is as a tool in generating research ideas and predict outcomes in empirical studies we have in this study exemplified the use of theory in medical education by the three approaches.
이론에 어떻게 접근했는지를 분석함으로써 우리는 접근법의 변화를 볼 수 있었다.
첫째, 포함된 연구들은 미시 수준micro-level 이론에서 중간 범위 이론에 접근했다는 것을 알 수 있었습니다 [10].
두 번째로 우리는 각 논문에서 어떤 현상을 더 잘 이해하기 위해 이론을 어느 정도로 쓰는지에 차이가 있음을 보았다. 한 쪽 끝에는 [(이론으로부터) 연구 질문, 방법론 및 해석을 생성]하는 것이 있다면, 다른 쪽 끝에는 [(자료 분석의 귀납적 과정의 결과로) 이론에 기여]하는 연구가 있었다.
By analysing how theory was approached in the articles we could see a variation in approaches.
Firstly, we could see that the included articles approached theory ranging from micro-level theory to mid-range theory [10].
Secondly we saw a difference in the degree to which the articles worked with theory to better understand a phenomenon, i.e. generated research questions, methodology and interpretation at one end, or contributed to theory as a result of an inductive process of data analysis, at the other.
여러 논문이 실제적인 문제에 근거하고 있었기 때문에, 이 특정한 질문에 대한 해답을 특별히 목표로 했으며, 의도적으로 중거리 이론에도 기여하지 않았다. 여기서, 종종, 이론은 이전의 연구에서 나온 발견으로만 여겨졌습니다. 그러나 이론과 관련하여 연구문제를 틀에 넣은 사례도 있는데, 연구문제가 특정 이론에 근거한 것이며, 논문은 그 이론과 관련된 논쟁의 예이며, 따라서 이론토론에 대한 기여도 있다.
As several of the papers were based on a practical problem, the paper specifically aimed to answer this specific question, and did not intentionally also contribute to mid-range theory. Here, often, theory was only viewed as findings from previous research. However, there were also examples where the research question was framed in relation to theory, where the research question was based on particular theories, and the paper is an example of an argumentation in relation to that theory, and as such is a contribution to a theoretical discussion.
마지막으로 논문에서 이론이 도입된 방식에는 차이가 있었다. 이것은 [매우 미묘하거나 암묵적인 이론적 입장]을 도입한 것부터, [이론적 관점에 대한 매우 명확하고 개념적인 설명]에 이르기까지 다양했습니다. 배경[8]에 언급된 이론의 정의로 돌아가자면, 이론을 명시적으로 드러내지 않으면 덜 도움이 됩니다. 일부 저자들이 취한 이론적인 입장의 관점에서 행간을 읽는 것은 가능했지만, 이론을 명백하게 밝힌 논문들은 (어떤 것의 증거를 발견했다고 주장하기 보다는) 특정한 렌즈로 과학적인 대화에 참여하고 있다는 것이 분명해졌다.
Finally there was a difference in the way in which theory was introduced in a paper. This ranged from very subtle or implicit introduction of theoretical stance, to very clear and conceptual explanations of the theoretical perspective. If we go back to the definition of theory referred to in the background [8] it is less helpful when theory is not made explicit. Although it was possible to read between the lines in terms of the theoretical stance taken by some authors of the publications, it became clear that papers where theory was made explicit were participating in a scientific dialogue with a specific lens, rather than claiming to having found proof of something, in a technical sense.
서로 다른 분야나 과학 전통에 있어서 서로 다른 접근법이 필요하고 다른 수준으로 작용하고 있습니다. 의학 교육에 적용해보자면, 비록 사회 과학이기는 하지만, [객관적인 진리를 정립하려는 목표]가 오랫동안 연구를 지배해 온 것으로 보이는데, 이는 여기서 예로 든 (후기) 실증주의 전통의 관점에서 이뤄진 연구로부터 확인할 수 있다. 그러나, 이 연구에 포함된 여러 논문들은 이러한 견해에 이의를 제기하였고, 해석적hermeneutic 지식과 해방적 지식 모두를 포함한 논문들도 포함되었다. Different approaches are necessary and in play to different degree in different disciplines or scientific tradtions. Adapted to medical education, it seems that although to a large degree being a social science, the aim for establishing objective truths has for a long time dominated the research, something that is also part of our findings as exemplified by studies written in a (post) positivist tradition. However, several of the papers included in this study challenged this view and papers including both hermeneutic and emancipatory knowledge interests were also included.
의학교육연구 분야에 초보자 연구자를 대상으로 한 안내 논문은 이미 다수 존재한다. 그러한 논문 중 하나가 '연구 나침반'[30]인데, 여기서 독자들은 탐구, 실험, 관찰 및 번역 연구의 네 가지 범주를 통해 안내된다. 핵심은, 연구는 [일반화된 지식]으로 이어지고, [실질적으로 관련이 있는 연구 가능한 문제]에 관한 것이어야 한다는 것이다.
간단한 질문을 하고 간단한 방법을 사용함으로써, [면밀한 탐구로서의 이론] 및 [구체적인 관점으로서의 이론] 접근은 교수와 학습의 발전에 대한 학문적 접근(scholarship of teaching and learning)을 제공한다는 점에서 모두 중요한 역할을 한다. 한편 [개괄overview로서의 이론]을 사용될 때에는 더 높은 수준에서 이론의 발전을 위한 기초를 제공합니다.
A number of guiding articles to researchers who are new to the field of medical education research already exist. One such article is ’The research compass’ [30], in which readers are guided through four categories of research approach; explorative, experimental, observationaland translational studies. A main point made in that paper is that research should be about researchable problems that lead to generalisable knowledge and are practically relevant. By asking simple questions and use simple methods, the approaches theory as close-up exploration and theory as specific perspective play a crucial role both in terms of providing a scholarly approach to the development of teaching and learning (scholarship of teaching and learning), and in providing the basis for the development of theory at higher level as when theory is used as overview.
마지막으로, Thomas [26]는 교육적 탐구에서 더 많은 'bricolage'가 필요하다고 주장하며, 연구 분야를 탐구하는 데 있어 다양한 이론적 접근 방식을 사용할 수 있는 여지를 제공합니다. 이러한 다양한 관점의 필요성은 최근 의학교육의 증가 [27]로 언급되었으며, 의학교육에서 이론을 특정 관점으로 하는 연구가 증가하고 있다는 우리의 견해와 일치한다.
Finally, Thomas [26] argues for the need for more ’bricolage’ in educational enquiry, giving room for multiple theoretical approaches in exploring the field of research. This need for multiple perspectives was recently commented as increasing in medical education [27] and it is in line with our view that research with theory as a specific perspective is increasing in medical education.
방법론적 고려 Methodological considerations
결론 Conclusion
의료교육 연구를 이론적 근거가 부족한 분야로 지속적으로 비판하는 것은 명분이 낮아질 수밖에 없다. 복수의 학문적, 패러다임적 배경을 가진 연구자들이 진행하는 연구가 특징인 만큼 의학 교육 연구의 이론 문제를 어떻게 다룰지에 대한 가정은 연구에 가져오는 관점에 따라 논쟁이 될 것으로 보인다. 최소한 이론의 사용은 분명히 해야 한다고 우리는 주장한다. The continuous criticism of medical education research as a field that lacks theoretical basis is subject to decreased justification. As it is an area characterized by research carried out by researchers from multiple disciplinary and paradigmatic backgrounds the assumptions of how to treat the issue of theory in medical education research will probably be contentious depending on the perspective one brings to research. At a minumum, we argue, theory use needs to be made explicit.
BMC Med Educ. 2017 Jan 19;17(1):18.
doi: 10.1186/s12909-016-0848-1.
Making theory explicit - An analysis of how medical education research(ers) describe how they connect to theory
Background:As medical education develops into a varied and well-developed field of research, the issue of quality research anchored in or generating theory has gained increasing importance. Medical education researchers have been criticized of not connecting their work to relevant theory. This paper set out to analyse how researchers can connect to theory in medical education. The goal of this paper is to provide an accessible framework for those entering medical education research, regarding how theory may become an integral part of one's work.
Methods:Fifteen purposefully selected researchers in medical education were asked to nominate papers they considered influential in medical education. Through this process 41 papers were identified and included in the study.
Results:The papers were analysed with thematic content analysis, which resulted in three approaches to the use of theory: as close-up exploration; as a specific perspective; and as an overview. The approaches are exemplified by quotes from the papers included in our dataset and further illuminated by a metaphoric story.
Conclusions:We conclude by pointing at the importance of making explicit how theory is used in medical education as a way to collaboratively take responsibility for the quality of medical education research.
문헌고찰: 양질의 의학교육연구를 위한 초석(J Grad Med Educ.2016) The Literature Review: A Foundation for High-Quality Medical Education Research Lauren A. Maggio, PhD, MS (LIS) Justin L. Sewell, MD, MPH Anthony R. Artino Jr, PhD
의학 교육1의 발표된 학술연구가 급증하고 교육 연구를 출판하는 저널의 급속한 성장에도 불구하고 원고 acceptance rate은 계속 떨어지고 있다.2 [중요한 문제를 식별하고 연구를 맥락에 배치하는 철저하고 정확하며 최신의 문헌 검토를 실시하지 않는 것]은 일관되게 rejection의 가장 큰 이유 중 하나이다. Despite a surge in published scholarship in medical education1 and rapid growth in journals that publish educational research, manuscript acceptance rates continue to fall.2 Failure to conduct a thorough, accurate, and up-to-date literature review identifying an important problem and placing the study in context is consistently identified as one of the top reasons for rejection.3,4
문헌 검토 정의 The Literature Review Defined
의학 교육에서, 어떤 조직도 연구 논문의 문헌 검토에 대한 공식적인 정의를 명확히 하지 않았습니다. 따라서, 문헌 검토는 여러 가지 형태를 취할 수 있습니다. 기사의 유형, 대상 저널 및 특정 주제에 따라 이러한 형태는 방법론, 엄격성 및 깊이에서 다양합니다. In medical education, no organization has articulated a formal definition of a literature review for a research paper; thus, a literature review can take a number of forms. Depending on the type of article, target journal, and specific topic, these forms will vary in methodology, rigor, and depth.
우리는 그러한 문헌검토를 [기존의 지식 내에서 (현재 연구의 위치를 포함하여) 연구하려는 주제에 대해 알려진 것과 알려지지 않은 것의 종합적 검토와 요약]으로 정의한다. 이러한 유형의 문헌 검토는 체계적인 검토에 의해 요구되는 집중적인 검색 과정을 요구하지 않을 수도 있지만, 신중하고 엄격한 접근 방식을 사용할 가치가 있습니다. We define such a literature review as a synthetic review and summary of what is known and unknown regarding the topic of a scholarly body of work, including the current work’s place within the existing knowledge. While this type of literature review may not require the intensive search processes mandated by systematic reviews, it merits a thoughtful and rigorous approach.
문헌검토의 목적과 중요성 Purpose and Importance of the Literature Review
현재 문헌에 대한 이해는 연구 연구의 모든 단계에서 매우 중요하다. 링가드9는 최근 자신의 연구가 더 큰 의학교육 대화에 어떻게 적합한지를 이해하기 위해 "대화로서의 저널" 은유를 사용했다. 그녀는 이렇게 묘사한다.
당신이 사교 행사에서 대화에 참여하는 것을 상상해 보세요. 무슨 말을 하는지 알기 위해 엿듣고 있다가(이것이 문헌 검토가 '대화conversational'에 해당하는 것이다), 당신이 주제에 대한 공통 관심사를 가지고 있으며, 이미 말한 내용에 대한 지식이 있고, 자신의 의도를 나타내며 대화에 참여한다.
An understanding of the current literature is critical for all phases of a research study. Lingard9 recently invoked the ‘‘journal-as-conversation’’ metaphor as away of understanding how one’s research fits into the larger medical education conversation. As she described it:
‘‘Imagine yourself joining a conversation ata social event. After you hang about eavesdropping toget the drift of what’s being said (the conversational equivalent of the literature review), you join the conversation with a contribution that signals your shared interest in the topic, your knowledge of what’s already been said, and your intention.’’9
문헌 검토는 [맥락을 제공하고, 방법론을 알려주며, 혁신을 식별하고, 중복 연구를 최소화하며, 전문적 기준을 충족]하도록 함으로써 모든 연구자가 '대화에 참여'할 수 있도록 도와줍니다. 현재의 문헌에 대한 이해는 또한 Boyer가 제안한, 학문적 작업을 평가해야 하는 6가지 기준 중 5가지에 기여함으로써 장학금을 증진시킨다.11 구체적으로, 문헌 검토는 연구자에게 다음과 같은 도움을 준다. The literature review helps any researcher ‘‘join the conversation’’ by providing context, informing methodology, identifying innovation, minimizing duplicative research, and ensuring that professional standards are met. Understanding the current literature also promotes scholarship, as proposed by Boyer,10 by contributing to 5 of the 6 standards by which scholarly work should be evaluated.11 Specifically, the review helps the researcher
(1) 명확한 목표를 명시한다.
(2) 적절한 준비의 증거를 보여준다.
(3) 적절한 방법을 선택한다.
(4) 관련 결과를 전달한다.
(5) 성찰적 비평에 참여한다.
(1) articulate clear goals,
(2) show evidence of adequate preparation,
(3) select appropriate methods,
(4) communicate relevant results, and
(5) engage in reflective critique.
수준 높은 문헌 검토를 수행하지 못한다면, [반복적이고, 이론에 기초하지 않으며, 방법론적으로 취약하고, 단일 설정 이상으로 지식을 확장하지 못하는 것] 등과 같이 의학 교육 문헌에서 확인된 여러 문제로 이어진다.12 실제로 많은 연구가 이미 출판된 연구의 반복 작업을 수행한 것이고 새로운 지식에는 거의 기여하지 않는다고 의료 교육 학자들은 불평한다. 명백한 원인은 적절한 문헌 검토를 수행하지 못했기 때문이다.3.4 Failure to conduct a high-quality literature reviewis associated with several problems identified in the medical education literature, including studies that are repetitive, not grounded in theory, methodologically weak, and fail to expand knowledge beyond asingle setting.12 Indeed, medical education scholars complain that many studies repeat work already published and contribute little new knowledge—alikely cause of which is failure to conduct a proper literature review.3,4
마찬가지로, 이론적인 기초나 개념적 프레임워크가 결여된 연구는 연구 설계와 해석을 어렵게 만든다.13 의학 교육 연구에 이론이 사용될 때, 종종 피상적인 수준에서 호출된다. Norman14가 지적한 바와 같이, 이론이 적절하게 사용될 때, 그것은 [함께 연결될 수 있는 변수]와 그 이유를 명확히 표현하는데 도움을 주고, 연구자가 [가설을 세우고 연구의 맥락과 범위를 정의]할 수 있게 해준다. Likewise, studies that lack theoretical grounding or a conceptual framework make study design and interpretation difficult.13 When theory is used in medical education studies, it is often invoked at asuperficial level. As Norman14 noted, when theory isused appropriately, it helps articulate variables that might be linked together and why, and it allows the researcher to make hypotheses and define a study’s context and scope.
또 다른 문제는 많은 의학 교육 연구가 방법론적으로 취약하다는 것이다.12 좋은 연구를 위해서는 관련 교육을 받은 연구 조사자 질문이 필요한데, 이들은 관심 변수를 운영적으로 정의하고 특정 연구 질문에 대한 최선의 방법을 선택할 수 있다. Another problem is that many medical education studies are methodologically weak.12 Good research requires relevant trained research investigators questions, who can articulate operationally define variables of interest, and choose the best method forspecific research questions.
마지막으로, 의대 교육에 관한 많은 연구들은 "일회성one-offs"이다. 즉, 기회가 현지에서 나타났기 때문에 수행되는 단일 연구이다. 이러한 연구는 종종 다른 환경에 대한 점진적인 구축과 일반화를 지향하지 않습니다. 문헌에 대한 확실한 이해는 연구에 대한 프로그램적 접근을 장려할 수 있다. Finally, many studies in medical education are‘‘one-offs,’’ that is, single studies undertaken because the opportunity presented itself locally. Such studies frequently knowledge are not oriented toward progressive building and generalization to other settings. A firm grasp of the literature can encouragea programmatic approach to research.
문헌 검토 접근 중 Approaching the Literature Review
문헌 검토를 계획하려면 저널에 따라 크게 달라지는 저널 요건을 이해해야 합니다(표 1). 저자들은 문헌 검토의 결과 보고와 관련된 일반적인 문제점을 주목하는 것이 좋다. 표 2는 우리가 작가, 검토자, 편집자로서 직면했던 가장 일반적인 문제들을 열거합니다. Planning the literature review requires understanding of journal requirements, which vary greatly by journal (TABLE 1). Authors are advised to take note of common problems with reporting results of the literature review. TABLE 2 lists the most common problems that we have encountered as authors, reviewers, and editors.
문헌 찾기 및 구성 Locating and Organizing the Literature
인적 자원 Human Resources
의학 사서는 연구 관심사를 효과적인 검색 전략으로 변환하고, 이용 가능한 정보 리소스를 연구자에게 익숙하게 하며, 정보를 정리하는 데 필요한 정보를 제공하고, 새롭게 부상하는 연구에 최신 정보를 제공하기 위한 전략을 도입할 수 있습니다. 종종, 사서들은 또한 그들의 기관 전반에 걸친 연구에 대해 알고 있고 비슷한 관심사를 가진 연구원들을 연결할 수 있을 것이다. 동료들에게 제안을 구하면 연구원들이 레이더에 없을 자원을 빠르게 찾는 데 도움이 될 수 있다. A medical librarian can help translate researchinterests into an effective search strategy, familiarize researchers with available information resources, provide information on organizing information, and introduce strategies for keeping current with emerging research. Often, librarians are also aware of research across their institutions and may be able toconnect researchers with similar interests. Reaching out to colleagues for suggestions may help researchers quickly locate resources that would not otherwise be on their radar.
이 과정에서 연구자들은 다른 연구자들이 자신들의 주제에 대해 쓰고 있는 것을 확인할 것으로 보인다.연구자들은 이러한 관련 연구자들의 출판물 검색을 고려해야 한다(검색 전략은 표 3 참조). 또한 기관 웹사이트에는 해당 교직원의 교육과정 이력서, 도서장, 논문, 기술보고서 등 어려운 자료를 포함하여 해당 교직원의 전체 위치 간행물, 기록물 등을 포함할 수 있다. During this process, researchers will likely identifyother researchers writing on aspects of their topic.Researchers should consider searching for the publications of these relevant researchers (see TABLE 3 for search strategies). Additionally, institutional websites may include curriculum vitae of such relevant faculty with access to their entire locate publication publications, record, including difficult to such asbook chapters, dissertations, and technical reports.
검색 도구 및 관련 문서 Search Tools and Related Literature
의학교육 연구는 다양한 학문으로 이루어지기 때문에, 연구원들은 [의학을 넘어서는 범위](예: 심리학, 간호학, 교육학, 인류학)와 보고서, 기준집, 학술대회 초록, 단행본 서적과 같은 [여러 출판 유형]을 다루는 검색 도구를 포함해야 한다(여러 정보 자원은 BOX 참조). 많은 검색 도구에는 선택한 기사의 인용문을 보기 위한 옵션이 포함되어 있습니다. 인용된 참조를 검토하면 검토를 위한 추가 기사와 선택한 기사가 해당 필드에 미치는 영향에 대한 느낌을 얻을 수 있습니다. Because medical education research draws on avariety of disciplines, researchers should include search tools with coverage beyond medicine (eg, psychology, nursing, education, and anthropology) and that cover several publication types, such as reports, standards, conference abstracts, and book chapters (see the BOX for several information resources). Many search tools include options for viewing citations of selected articles. Examining cited references provides additional articles for review and a sense of the influence of the selected article on its field.
참고문헌 정리하기 Getting Organized
앞서 언급한 리소스는 엄청난 양의 정보를 제공할 가능성이 높기 때문에 잘 정리하는 것이 매우 중요합니다. 연구자들은 어떤 세부사항이 그들의 연구에 가장 중요한지 결정하고(예: 참가자, 설정, 방법, 결과) 그러한 세부사항을 체계적이고 접근 가능하도록 유지하는 전략을 만들어야 한다. 연구자들이 Evernote와 같은 디지털 도구를 사용하여 이러한 정보를 캡처하고 있으며, 이를 통해 디지털 작업 공간 및 검색 기능에 액세스할 수 있습니다. Citation manager의 사용은 인용문을 저장하기 때문에 유용할 수 있으며, 경우에 따라 참고 문헌을 작성할 수 있다(표 4). As the aforementioned resources will likely provide a tremendous amount of information, organization is crucial. Researchers should determine which details are most important to their study (eg, participants, setting, methods, and outcomes) and generate a strategy for keeping those details organized and accessible. Increasingly, researchers utilize digital tools, such as Evernote, to capture such information, which enables accessibility across digital workspaces and search capabilities. Use of citation managers can also be helpful as they store citations and, in some cases, can generate bibliographies (TABLE 4).
언제 말해야 하는지 알기 Knowing When to Say When
연구자들은 종종 citation이 충분하다는 것을 어떻게 알 수 있는지 묻는다. 안타깝게도 마법의 숫자나 이상적인 숫자는 없습니다. 문헌 취재를 점검하는 전략 중 하나는 관련 논문의 참고 문헌을 점검하는 것이다. 연구자들이 참고 문헌을 검토하면서 새로운 문헌이 거의 나타나지 않고, 동일한 문헌이 반복되는 것을 알아차리기 시작할 것이다. 이것은 연구자가 특정 주제에 관한 문헌을 (충분히) 다루었음을 나타낼 수 있다. Researchers often ask how to know when they have located enough citations. Unfortunately, there is no magic or ideal number of citations to collect. One strategy for checking coverage of the literature is to inspect references of relevant articles. As researchers review references they will start noticing a repetition of the same articles with few new articles appearing. This can indicate that the researcher has covered the literature base on a particular topic.
모두 합치기 Putting It All Together
연구논문 작성을 준비할 때는 어떤 citation을 포함시킬지, 그리고 introduction과 discuttion에 어떻게 활용inform할지 고민하는 것이 중요하다. 대상 저널에 대한 'Instructions to Authors'은 종종 문헌 검토(또는 소개)와 각 기사 범주에 허용되는 총 인용 횟수에 대한 지침을 제공한다. In preparing to write a research paper, it is important to consider which citations to include and how they will inform the introduction and discussion sections. The ‘‘Instructions to Authors’’ for the targeted journal will often provide guidance on structuring the literature review (or introduction) and the number of total citations permitted for each article category.
Introduction에 대한 참고문헌을 선택할 때에는, 핵심 배경 이론 및 방법론 개념뿐만 아니라 [최근에 발표된 관련 연구]를 설명하는 것을 고려한다. 서론에서 제시하는 참고문헌은 사용 가능한 문헌의 너저분한 목록이나 단순 서술이 아니라, 현재 연구에 대한 맥락을 제공하고, 연구가 채우려는 문헌의 격차를 파악하기 위한 [종합적 요약]이므로, 간략해야 한다. 논의를 위해 현재 연구의 조사 결과를 현재 문헌과 비교 및 대조하고 현재 연구가 어떻게 필드를 발전시키는지를 나타내기 위해 citation을 신중히 선택해야 한다. When selecting references for the introduction consider those that illustrate core background theoretical and methodological concepts, as well as recent relevant studies. The introduction should be brief and present references not as a laundry list or narrative of available literature, but rather as a synthesized summary to provide context for the current study and to identify the gap in the literature that the study intends to fill. For the discussion, citations should be thoughtfully selected to compare and contrast the present study’s findings with the current literature andto indicate how the present study moves the field forward.
결론 Conclusion
J Grad Med Educ.2016 Jul;8(3):297-303.
doi: 10.4300/JGME-D-16-00175.1.
The Literature Review: A Foundation for High-Quality Medical Education Research
"일단 척도가 과녁이 되면, 좋은 척도로서는 끝이다" (J Grad Med Educ,2021) ‘‘When a Measure Becomes a Target, It Ceases to be a Good Measure’’ Christopher Mattson, MD Reamer L. Bushardt, PharmD, PA-C, DFAAPA Anthony R. Artino Jr, PhD
여러분이 대형 학술 의료 센터에서 레지던트 프로그램을 이끌고 있으며, 이 프로그램은 매년 열리는 ACGME(Arcreditation Council for Graduate Medical Education) 레지던트/동료 설문 조사를 준비하고 있다고 상상해 보십시오. 최근 주 80시간 근무 위반이 발생하여 ACGME에 보고될 것을 우려하여, 설문조사 1개월 전에 전공의들에게 이메일을 보내 현재 작업량을 줄이기 위한 일정 변경 사항을 공지합니다. 또한 근무 시간 위반에 대한 ACME 인용은 프로그램과 채용 노력에 중대한 부정적인 결과를 초래할 수 있다고 언급했습니다. 조사 당일, 대부분의 전공의들은 근무시간 위반 빈도를 묻는 질문에 "절대" 또는 "거의 절대"라고 대답한다. Imagine you are leading a residency program at a large academic medical center, and the program is preparing for the annual Accreditation Council for Graduate Medical Education (ACGME) Resident/Fellow Survey. You are concerned that 80-hour workweek violations have recently occurred and will be reported to the ACGME. You email the residents one month before the survey to announce forthcoming schedule changes to decrease residents’ current workload. You also mention that an ACGME citation for work hour violations could have major negative consequences for the program and recruitment efforts. On the day of the survey, most residents respond by answering ‘‘never’’ or ‘‘almost never’’ when asked about the frequency of work hour violations.
1970년대 영국 경제학자 찰스 굿하트는 통화 성장 목표를 토대로 재정 정책의 효과를 측정하는 함정을 설명했다. 현재 [굿하트의 법칙]으로 알려진 것은 인류학자 마릴린 스트라던의 인용문에서 가장 자주 일반화된다. "어떤 조치가 목표가 되면, 그것은 좋은 척도가 되는 것을 중단한다."1 Goodhart의 법칙은 최초 형태에서 "[관찰된 통계 규칙성]은 통제 목적으로 압력이 가해지면 붕괴되는 경향이 있습니다."라고 언급했습니다. 처음에는 우스꽝스럽던 것이 널리 퍼지고 보편적으로 적용할 수 있는 아이디어가 되었다. In the 1970s, British economist Charles Goodhart described the pitfalls of measuring the effectiveness of fiscal policy based on monetary growth targets. What is now known as Goodhart’s law is most often generalized in a quote from anthropologist Marilyn Strathern, ‘‘When a measure becomes a target, it ceases to be a good measure.’’1 In its original form, Goodhart’s law stated, ‘‘Any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes.’’2,3 What was initially a jocular aside has become a widely disseminated and universally applicable idea.4
학습자, 교사, 임상의 및 학자들에게 Goodhart의 법칙은 보건 직업 교육의 근본적인 진리를 말해줍니다. 특히, 조치를 대상으로 한 후 학습자를 평가하고 프로그램을 평가하는 데 사용하는 관행이 대학원 의학 교육(GME)에 상당히 만연해 있다.
For learners, teachers, clinicians, and scholars, Goodhart’s law speaks to a fundamental truth in health professions education. In particular, the practice of targeting measures and then using them to assess learners and evaluate programs, even when the measures are no longer credible, is quite pervasive in graduate medical education (GME).
관련 아이디어 및 GME 예제 Related Ideas and GME Examples
Goodhart의 법칙의 근간이 되는 원칙은 경제학에만 국한되지 않는다. The principle underlying Goodhart’s law is not limited to economics.
실험적이고 준실험적인 연구 설계 방법의 선구자인 캠벨은 "어떤 양적인 사회적 지표가 사회적 의사결정에 더 많이 사용될수록, 부패 압력corruption pressures에 더 취약해질more subject 것이며, 감시하고자 하는 사회적 과정을 왜곡하고 부패시키는 방향으로 적응할more apt 것"이라고 말했다. A pioneer of experimental and quasi-experimental study design methods, Campbell noted, ‘‘The more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor.’’5
첫 번째 예에서 프로그램 책임자는 전공의의 대응 방식이 어떻게 사용되는지 알고 있으며, 이에 따라 최선의 대응 방법에 대해 전공의를 지도해야 한다는 압박감이 생깁니다. 결과적으로 [근무시간 규정을 준수하지 않은 사례]가 탐지되지 않을 수 있습니다. ACME는 이 조치measure를 목표targeting로 함으로써, 프로그램 책임자와 전공의의 행동에 조치 자체를 왜곡할 수 있는 방식으로 영향을 미치고 있으며, 이로 인해 조치measure가 의도된 목적intended purpose에 덜 유용하게 됩니다. In the opening example, Program directors are aware of how their residents’ responses are used, which creates pressure to coach residents on how best to respond. As a result, noncompliance with work hour regulations may go undetected. By targeting this measure, the ACGME is influencing program director and resident behavior in a way that may distort the measure itself, which renders the measure less useful for its intended purpose.
USMLE(United States Medical Licensing Examination) Step 1 점수는 레지던트 프로그램 책임자들이 전공의 신청서를 심사하고 전공의 순위를 매길 때 사용하는 경우가 많습니다. 1단계 점수는 의학적 지식을 평가하고 전체 지원자 품질의 대체물로 사용됩니다. 이 실습은 USMLE 1단계 준비에 상당한 시간과 노력을 쏟는 의대생들에게 잘 알려져 있습니다. 그러면 점수는 [학습된 의학적 지식과 미래의 잠재력]이 아닌, [시험 준비에 쏟는 시간과 시험 준비 자원에 대한 액세스]를 대변하는 쪽으로 나타나기 시작한다. 이러한 초점은 또한 현지 과정 검사를 위한 공부, 소규모 그룹 및 동료 학습 활동에 적극적으로 참여하거나 임상 기술을 개발하는 등 다른 학습 활동을 희생하면서 이뤄진다. 궁극적으로 GME 교수진이 [USMLE 1단계 점수를 목표로targeting 하는 것]은 [레지던트 준비와 실습에 부정적인 영향을 미칠 수 있는 의대생 행동]에 영향을 미칩니다.
United States Medical Licensing Examination (USMLE) Step 1 scores are often used by residency program directors when screening resident applications and ranking residents. Step 1 scores assess medical knowledge and are used as a surrogate for overall applicant quality. This practice is well known to medical students, who focus a significant amount of time and effort on preparing for the USMLE Step 1. The scores then begin to represent this increased focus, including the amount of dedicated study time and access to test preparation resources, rather than learned medical knowledge and future potential. This focus also comes at the expense of other learning activities, such as studying for local course examinations, actively participating in small group and peer-learning activities, or developing clinical skills.6,7 Ultimately, the targeting of USMLE Step 1 scores by GME faculty influences medical student behaviors inways that may negatively affect their preparation for residency and practice.
마지막으로, 학계의 '간행물 수'와 저널 임팩트 팩터에 대한 집착은 GME 연구 환경에서도 느낄 수 있다.8 부서 의장과 승진 위원회는 임명 및 승진 결정을 돕기 위해 이 숫자를 사용합니다. 이와 같이 교수진들은 논문 발표량, 저널 임팩트 요소 결함으로 잘못 측정되는 저널의 보고 품질에 초점을 맞추도록 유도된다. 이러한 대상에 집중하는 것은 차선의 연구 방법을 장려하는 것으로 널리 알려져 있습니다.9 그것은 또한 보건직 교육연구에서 흔히 볼 수 있는 "살라미 슬라이싱"10과 명예 저자honorary authorship과 같은 문제적 연구행위questionable research practice에 동참할 압력을 가하고 있다.11
Finally, the fixation in academia on ‘‘number of publications’’ and journal impact factor is also felt in GME research environments.8 Department chairs and promotion committees use these numbers to help make appointment and promotion decisions. As such, faculty are incentivized to focus on the quantity of papers published, and the reported quality of journals, erroneously measured by the flawed journal impact factor, over the quality of the research itself. Focusing on these targets is widely known to encourage suboptimal research methods.9 It also addspressure to engage in other questionable research practices such as ‘‘salami slicing’’10 and honorary authorship, both of which are common in health professions education research.11
의도하지 않은 결과 완화 Mitigating Unintended Consequences
GME 교수진은 구체적인 조치measure가 목표target가 될 때 부정적인 결과를 예상해야 한다. 의도하지 않은 결과를 인식하는 것이 가장 중요한 단계이며, 이는 평가 및 프로그램 평가 계획을 개발할 때 중요한 논의를 자극할 수 있습니다. 마찬가지로, 이러한 부정적 영향이 어떻게 완화될 수 있는지를 고려하는 것이 중요하다. 다른 방법으로, 우리는 현재 존재하는 시스템을 고려할 때, [어떤 행동이 보상받을 것]인지 고려해야 합니다.12 GME faculty should anticipate negative consequences when specific measures become targets. Recognizing the unintended consequences is the most important step; this can stimulate important discussions when developing assessment and program evaluation plans. Likewise, it is vital to consider how these negative effects might be mitigated. Said another way, we should consider what behaviors will be rewarded given the system that currently exists.12
표준 참조norm-referenced 평가 대신, 준거 참조criterion-referenced 를 선택하는 것은 Goodhart와 Campbell의 행동 법칙을 완화하기 위한 또 다른 전략이다. 예를 들어, 숙달 학습mastery learning 기법은 "교육 진행도가 [커리큘럼 시간]이 아닌 [입증된 성과]에 기초하는 교육 접근법"으로 설명되어 왔다. 따라서 "학습자는 지정된 숙달 수준에 도달할 때까지 반복적으로 연습 및 재시험을 수행한다" 14 강사 및 커리큘럼 설계자는 개인의 성공을 위해 필요한 지식, 기술 및 태도를 결정하는 데 초점을 맞추며, 서로 상대적인 순위를 매기는 데 초점을 맞추지 않습니다. 역량 기반 프레임워크는 숙달 학습을 적용한 한 가지 예이며, 역량 기반 평가 시스템은 어려움을 겪고 있는 개인을 식별하는 데 있어 가능성을 보여주었다.15 [최고 성과자를 식별하는 것]보다 학습에 초점을 두고, [고군분투하는 학습자를 찾는 것]에 초점을 맞추는 것이 GME의 주요 목표가 되어야 한다. 준거-참조 평가도 (전통적인 평가 시스템 내에서 작동하는 데 익숙한 학습자들 사이에 존재할 수 있는) 경쟁 인센티브competition incentive의 일부를 제거할 수 있도록 지원합니다. Selecting criterion-referenced over norm-referenced assessments is another strategy to mitigate Goodhart’sand Campbell’s laws in action. For example, mastery learning techniques have been described as ‘‘an instructional approach in which educational progress is based on demonstrated performance, not curricular time. Learners practice and retest repeatedly until they reach a designated mastery level.’’14 Instructors and curriculum designers focus on determining the knowledge, skills, and attitudes that are needed for individual success, rather than focusing on ranking individuals relative to one another. Competency-based frameworks are an example of applied mastery learning, and competency-based assessment systems have shown promise in identifying individuals who are struggling.15 The focus on learning and finding struggling learners rather than identifying the highest performers should be a primary goal in GME. Criterion-referenced assessments also help to eliminate some of the competition incentives that may exist among peers who are accustomed to functioning within more traditional assessment systems.
추가적으로, 논란의 여지가 있지만, 규범-참조norm-referenced 성과가 아닌 준거criteria에 초점을 맞춘 전략은 의대 입학에 대해서 추첨lottery을 사용하는 것이다.16 의과대학 [입학에 필요한 구체적인 기준을 정의]하고, 이를 추첨 대상자의 입학 기준으로 활용함으로써, 신청자가 이 기준 이상으로 지표를 부풀리려 하는 압박이 줄어들 수 있다. An additional, albeit controversial, strategy that focuses on criteria over norm-referenced outcomes is the use of a lottery for medical school admissions.16 By defining specific criteria necessary for success in medical school and using them as entrance criteria to the lottery, there may be less pressure on applicants to attempt to inflate their metrics beyond these thresholds.
GME 교수진은 또한 [특정 시점 성과]보다는 [학습자 및 프로그램 성장 프로세스에 초점]을 맞춰 평가 및 평가 시스템을 강화할 수 있습니다. 이러한 접근 방식은 의학 교육에서 "종방향 및 발전적 사고"라는 맥락에서 설명되었습니다. 이는 교수진으로 하여금
개인 또는 프로그램이 어떻게 수행하는지(예: '''1년차 전공의가 4년차 전공의 수준으로 수행'') 를 넘어
왜 개인 또는 프로그램이 그러한 방식으로 행동하는지 (예: ''초기 전공의는 개인 진료 데이터를 독립적으로 검토하고 진료실습을 개선할 수 있는 능력을 보여주며, 복잡한 환자의 의료팀 논의를 주도한다'') 로 나아가게 한다.
GME faculty can also fortify their assessment and evaluation systems with a focus on the processes of learner and program growth versus specific time-point outcomes. This approach has been described in medical education in the context of ‘‘thinking longitudinally and developmentally.’’17 It challenges faculty to move
beyond how an individual or program performs (eg, ‘‘the first-year resident performs at the level of a senior resident’’) and
towards why an individual or program performs the way they do (eg, ‘‘the first-year resident shows an ability to independently review personal practice data and improve practice, and also leads health care team discussions of complex patients’’).
마지막으로, assessment and evaluation 에서 "숫자"에 과도하게 의존하는 것을 피하면 Goodharts와 Campbell의 법칙의 일부 영향을 완화할 수 있다. 이 아이디어는 앞서 GME의 양적 오류를 피하는 관점에서 논의된 바 있다.18 숫자는 완전히 포착할 수 있는 역량의 범위가 상당히 제한적이다. 또한 쿡 등이 지적한 바와 같이, "숫자 점수는 본질적으로 미래에 중요할 속성과 행동을 포착하는 데 제한된다." 19 반대로, [서술적 평가]는 교수들이 의도적으로 추구하거나 다른 방법으로 발견하지 않았을 수 있는 정보를 밝혀낼 수 있도록 한다. 서술적 접근법은 복잡한 행동이나 활동을 수치적 대리인으로 축소하지 않기 때문에 뉘앙스와 맥락을 식별하고 탐구할 수 있는 수단을 제공한다. Finally, avoiding overreliance on ‘‘the numbers’’ in assessment and evaluation can mitigate some of the effects of Goodhart’s and Campbell’s laws. This idea has been previously discussed through the lens of avoiding the quantitative fallacy in GME.18 Numbers are quite limited in the range of competencies that they can completely capture. Further, as noted by Cook, et al, ‘‘Numeric scores are inherently limited to capturing attributes and actions prospectively identified as important.’’19 In contrast, narrative assessments allow faculty to uncover information that might not have been intentionally sought or otherwise discovered. Because narrative approaches do not reduce complex behaviors or activities into a numerical surrogate, they provide a means to identify and explore nuance and context.
숫자 평가 및 평가에서 벗어나 주관성을 인정하고 수용해야 할 필요성이 대두됩니다.20,21 이러한 접근 방식은 교수들로 하여금 서술형 평가의 복잡성과 난잡함을 환영하도록 장려합니다. 정성적 연구 접근법과 서술적 평가는 본질적으로 풍부하고 조작하기 어려우며 신뢰할 수 있는 의사결정을 내릴 수 있다.19,22 서술적 평가는 종종 완전한 구성 샘플링을 보장하기 위해 복수의 관찰을 요구한다. 정량적 측정에 여러 관측치를 사용하는 경우 측정 품질의 한 표식은 반복 측정치 간의 변동성이 없다는 것입니다. 개인이나 프로그램은 매번 같은 결과를 얻도록 행동을 바꿀 수 있습니다. 매번 달성해야 하는 "단일한 정답"의 존재는 Goodhart의 법칙과 Campbell의 법칙이 정량적 측정의 맥락에서 특히 관련이 있는 이유를 설명합니다. 그러나 서술 기반 측정에 복수의 관측치를 사용하는 경우, 측정의 품질은 서로 다른 관점을 통해 설명되는 차이에 의해 결정된다. 단 하나의 예상 결과가 없기 때문에 서술적 논평은 조작하기가 훨씬 더 어려워집니다. Along with the movement away from numeric assessments and evaluations comes the need to acknowledge and embrace subjectivity.20,21 This approach encourages faculty to welcome the complexity and messiness of narrative assessments. Qualitative research approaches and narrative assessments are inherently rich, are harder to manipulate, and can produce credible decisions.19,22 Narrative assessment often requires multiple observations toensure complete construct sampling. When multiple observations are used for a quantitative measure, one marker of the measure’s quality is the lack of variability between iterative measurements. Individuals or programs can change their behavior such that the same outcome is achieved every time. The existence of a single ‘‘right answer’’ to be achieved every time explains why Goodhart’s and Campbell’s laws are particularly relevant in the context of quantitative measures. However, when multiple observations are used for a narrative-based measure, the measure’s quality is determined by differences that are elucidated through different perspectives. The lack of a single expected outcome renders narrative comments much more difficult to manipulate.
요약 Summary
Goodhart's와 Campbell의 법률은 이제 경제학과 사회과학 분야에서 그 본래의 맥락을 넘어서 인정받고 있습니다. 사회적 의사결정에 정보를 제공하기 위해 정량적 사회적 지표에 의존하는 평가 및 평가 시스템에 위험이 존재한다.5 위의 예에서 알 수 있듯이 이러한 개념은 GME와 관련이 있습니다. The implications of Goodhart’s and Campbell’s laws are now appreciated beyond their original contexts in economics and the social sciences. Risks exist in assessment and evaluation systems that rely on quantitative social indicators to inform social decision-making.5 These concepts are relevant to GME, as demonstrated by the above examples.
[Goodhart 및 Campbell의 법칙]에 따른 피해를 방지하거나 최소화하기 위한 단계는 다음과 같습니다. steps to prevent or minimize harms from Goodhart’sand Campbell’s laws include:
평가 및 평가 시스템을 계획할 때, 정량적 조치의 의도하지 않은 잠재적 결과에 대해 논의합니다.
학습자 평가 및 프로그램 평가 노력의 설계에 로직 모델 또는 기타 구조화된 접근 방식을 적용합니다.
준거 기반 평가를 고려한다.
학습자 평가 및 프로그램 평가에 대한 주관적이고 서술적인 접근 방식을 수용합니다.
discuss the potential unintended consequences of quantitative measures as you plan your assessment and evaluation system;
apply a logic model or other structured approach in the design of your learner assessment and program evaluation efforts;
consider criterion-referenced (over norm-referenced) assessments; and
embrace subjective, narrative approaches to learner assessment and program evaluation.
J Grad Med Educ. 2021 Feb;13(1):2-5.
doi: 10.4300/JGME-D-20-01492.1.Epub 2021 Feb 13.
"When a Measure Becomes a Target, It Ceases to be a Good Measure"
감정과 평가: 위임의 평가자-기반 판단에서 고려사항(Med Educ, 2018) Emotions and assessment: considerations for rater-based judgements of entrustment Carlos Gomez-Garibello & Meredith Young
도입 INTRODUCTION 평가는 어떤 교육적 맥락에서든 초석cornerstone을 이룬다. 엡스타인은 의학적 맥락에서 평가가 세 가지 목표에 부합한다고 말한다.
미래의 학습을 위한 동기 부여와 정보를 제공한다;
무능한 전문가를 찾아냄으로써 대중을 보호하고,
지원자들을 상급 훈련에 입학시킬 수 있는 기초를 제공한다.
Assessment constitutes a cornerstone in any educational context. Epstein states that in the medical context, assessment serves three goals:
it provides motivation and information for future learning;
it protects the public by detecting incompetent professionals, and
it provides a basis for admitting applicants to advanced training.1
최근에는 [학습을 위한 평가]가 [피드백 제공과 개선을 위한 영역 식별]을 통하여 [평가의 교육적 가치]를 갖는다는 것을 강조하면서 [평가의 교육적 역할]에 더욱 중점을 두고 있다. Recently, more emphasis has been placed on the educational role of assessment, with assessment for learning highlighting the educational value of assessment through the provision of feedback and identification of areas for improvement.2,3
최근의 연구는 [평가자 기반rater-based 평가]에서 작용하는 인지적 기초와 과정을 조명했다. 보건직업교육(HPE)에서 평가자에 대한 광범위한 문헌의 대다수는 평가판단에 영향을 미치는 인지적 또는 상황적 요인에 초점을 맞추고 있다. 그러나 평가는 공백 상태에서 이루어지는 것이 아니라, 교육-관련 요구를 충족시키는 사회적 맥락 안에서 이루어진다. recent work has shed light on the cognitive underpinnings and processes at play in rater-based assessment.4–8 The majority of the broader literature on raters in health professions education (HPE) has focused on cognitive4–6 or contextual8 factors that influence rater judgements. However, assessment does not take place in a vacuum, but within a social context9 that serves to fulfil education-related demands.
위탁 가능한 전문 활동EPA은 학습자의 [발달적 궤적]을 파악하고, 교육 맥락에서 임상 교사가 '자연적으로' 하고 있는 것과 일치시키기 위해 개념화되었다. 즉, 훈련생이 [과제를 독립적으로 완수할 준비가 되었는지] 또는 graded supervision에 대한 의사결정이 그것이다.
Entrustable professional activities were conceptualised in order to capture the developmental trajectory of learners, as well as to align with what clinical teachers were ‘naturalistically’ doing in educational contexts: making decisions regarding whether (or not) trainees were ready to complete a task independently or with graded supervision.10–12
위탁 가능한 전문활동은 다음과 같은 활동을 말한다.
(i) 특정 분야의 필수 업무이다.
(ii) 지식, 기술 및 태도의 적절한 통합이 필요하다.
(iii) 관찰 가능한 결과를 초래한다.
(iv) 자격을 갖춘 학습자에게 위임된다.
(v) 독립적으로 실행할 수 있다.
(vi) 기간 내에 수행되어야 한다.
(vii) 과정과 결과에 대해서 관찰 및 평가할 수 있다.
(viii) 둘 이상의 역량 또는 역량 영역의 통합을 반영한다.
Entrustable professional activities refer to activities that:
(i) are essential tasks of a discipline;
(ii) require adequate integration of knowledge, skills and attitudes;
(iii) lead to observable outcomes;
(iv) are entrusted to qualified learners;
(v) are independently executable;
(vi) are performed within a timeframe;
(vii) are observable and assessed in process and results, and
(viii) reflect the integration of two or more competencies or domains of competence.10
평가 관점에서, 평가자는 일상적으로 학습자에게 직무 환경에서 특정한 활동 수행을 위임하기 때문에 [EPA의 개념이 임상 실무에 직관적]이라고 생각한다. 학습자가 어떤 활동을 수행하는 [독립성의 수준level of independence]은 훈련생, 감독자, 과업의 성격, 상황별 상황 및 훈련생과 감독자 사이의 관계에 따라 달라집니다. From an assessment perspective, raters find the concept of EPAs intuitive to their clinical practice as they routinely entrust learners to perform activities in workplace settings.14–17 The level of independence at which learners perform these activities depends on factors related to the trainee, the supervisor, the nature of the task, contextual circumstances, and the relationship between the trainee and supervisor.17–19
[신뢰]는 많은 요인이 작용하기 쉬운, 사회적 판단을 나타낸다고 주장되어 왔다.9 신뢰에 근거한 평가자 기반 판단과 관련된 과제에 기여하는 것은 신뢰의 정의와 관련 평가 모델이 위임의 목적 또는 학습자에게 위임하기 위해 감독자가 이용할 수 있는 증거에 따라 다르다는 사실이다. 예를 들어, 10 Kate는 위임은 총괄적이거나 임시적이라고 제안한다. it has been argued that trust, represents a social judgement in which many factors are likely to be at play.9 Contributing to the challenges associated with rater-based judgements grounded in trust is the fact that definitions of trust and associated models of assessment vary depending on the purpose of entrustment or the evidence available to supervisors to entrust learners.17 For example, ten Cate propose that entrustment is summative or ad hoc
또한, 10명의 케이트 외 연구진들은 훈련생과 감독자 사이의 관계에 [세 가지 임시 신뢰 모드]를 정의합니다.
추정된 신뢰: 동료의 자격 증명 및 코멘트에 기초한 것
초기 신뢰: 첫인상에 따라 달라지는 것
근거된 신뢰: 관측 가능한 증거를 이용할 수 있을 때 발생하는 것
Further, ten Cate et al. define three modes of ad hoc trust in the relationship between trainee and supervisor:
presumptive, which is based on credentials and comments from colleagues;
initial, which is dependent on first impressions, and
grounded, which occurs when observable evidence is available.17
역량, 위탁가능성 또는 성과 결정에 영향을 미치는 상황별 요인의 식별을 고려할 때, 평가자-특이적 요인들이 평가에 영향을 미칠 수 있다는 점을 고려하는 것이 합리적일 수 있다. 새로운 작업이 평가자 기반 작업에 대한 인지 요인과 접근법의 역할을 식별했지만, 여기서는 CBME의 구현으로 인하여 점차 [평가자 기반 평가에 대한 의존도가 증가]하고, [평가자 내에서 요구되는 판단의 복잡성]을 고려할 때, CBME라는 패러다임에서는 [평가자 감정에 대한 신중한 조사]가 시기적절할 수 있다고 제안한다. Given this identification of contextual factors that influence decisions of competence, entrustability or performance, it may be reasonable to consider that rater-specific factors might influence assessment. Although emerging work has identified the roles of cognitive factors and approaches to rater-based tasks,4–6 here, we propose that a careful investigation into rater emotions may be timely given the increased reliance on rater-based assessments associated with the implementation of CBME, and the complexity of the judgements required of raters within this paradigm
[감정]은 [강렬한 생리적, 심리적 반응]으로 정의되어 왔으며, 그것을 [경험하는 개인에게 의미 있는 것]으로 인식되어 왔고, [개인이 속한 환경에서의 상황에 대한 반응]에서 비롯됩니다. 평가자(교육자/교사)와 평가 받는 훈련생 모두에 대해 평가자 기반 평가 과정 내에 감정이 존재할 수 있다고 가정하는 것은 어렵지 않을 것이다. Emotions have been defined as intense physiological and psychological reactions, perceived as meaningful to the individual experiencing them, and resulting from a response to a situation in an individual’s environment.21–24 It would not be difficult to surmise that emotions may be present within a rater-based assessment process, for both the rater (educator/teacher) and the trainee being assessed.
HPE 내의 연구는 [감정과 인식 사이의 연관성]을 검토하는 것이 훈련생 성과에 대한 우리의 이해를 풍부하게 할 수 있다고 주장해 왔습니다. 특히 맥코넬과 에바는 감정이 사람들이 정보를 식별하고 처리하고 행동하는 방식에 영향을 미친다고 주장한다. 의료 비상사태에 대한 팀 기반 시뮬레이션처럼, 보다 복잡한 교육 환경에서는 부정적인 감정(예: 불안)이 (고차원적 프로세스(예: 추론 및 메타인지 모니터링)보다는) 저원차적 인지 프로세스(예: 요약 또는 정보 제공)와 연관될 것을 제안한다.26
Work within HPE has argued that examining the association between emotions and cognitions might enrich our understanding of trainee performance.25 In particular, McConnell and Eva claim that emotions influence the ways in which people identify, process and act on information.25 In more complex educational environments, such as team-based simulations of medical emergencies, it is suggested that negative emotions (e.g. anxiety) are associated with lower- order cognitive processes (e.g. summarising or providing information) rather than higher-order processes (e.g. reasoning and metacognitive monitoring).26
교육 환경의 정서 EMOTIONS IN EDUCATIONAL SETTINGS
연구자들은 학습에서 감정의 영향을 조사하는 것이 동기 부여와 학습과 성과에 어떤 영향을 미치는지에 대한 더 나은 이해를 이끌어냈다고 제안했다. researchers have suggested that examining the influence of emotions in learning has resulted in better understanding of how motivation and affect influence learning and performance.24,27
라인하르트 페크룬Reinhard Pekrun의 통제-가치 이론control–value theory은 교육적 맥락에서 감정과 성과 사이의 연관성을 조사할 수 있는 포괄적인 프레임워크를 제공합니다. 이 이론에 따르면, 감정은 감정적, 인지적, 동기적, 표현적, 생리학적 과정을 포함합니다. Pekrun은 교육 활동(예: 강의)과 결과(예: 시험의 결과)에 대한 학습자의 인지적 평가(특히, 인식된 통제와 가치)가 학습자의 다른 감정(예: 기쁨, 자부심, 수치심, 좌절)을 유도하여 수행과 과제 결과에 영향을 미칠 수 있다고 주장합니다. 그 결과, 활동 및 결과에 대한 평가된 가치appraised value와 통제력은 학습자의 동기 부여, 학습 전략, 인지 리소스, 자기 규제 및 학업 성취도에 영향을 미칩니다. Reinhard Pekrun’s control–value theory offers a comprehensive framework with which to examine the association between emotions and performance in educational contexts.24 According to this theory, emotions encompass affective, cognitive, motivational, expressive and physiological processes.24 Pekrun argues that learners’ cognitive appraisal (specifically, perceived control and value) of educational activities (e.g. a lecture) and outcomes (e.g. results of an examination) elicit different emotions in learners (e.g. joy, pride, shame, frustration), which, in turn, can influence performance and task outcomes.24,29 As a result, the appraised value and control of activities and outcomes elicit different emotions in learners, which, in turn, impact learners’ motivation, learning strategies, cognitive resources, self-regulation and academic achievement.29
일부 연구는 학생 평가에서 감정의 역할을 탐구했지만, 대부분의 연구는 '시험 불안'의 인지 구성 요소를 이해하는 데 초점을 맞췄다. 저자는 [시험 불안]을 [시험이나 과제가 완료되기 전이나 완료되고 난 후, 평가 상황이나 개인의 성과와 관련된 내부 대화internal dialogue에 대한 개인의 반응]으로 정의한다. 근거에 따르면, 수행능력을 최적화하려면 일정한 수준의 각성이 필요하다는 것을 시사하지만, 극도로 낮거나 높은 각성은 성능을 저해하는 것으로 보인다. Some research has explored the role of emotions in student assessment, but the majority of work has focused on understanding the cognitive components of ‘test anxiety’.30 Authors define test anxiety as an individual’s reactions to assessment situations or any internal dialogue related to the individual’s performance before, during or after the examination or task is completed.21 Evidence suggests that a certain level of arousal is necessary to optimise performance; however, extreme low or high arousal appears to impede performance.30
다른 교육적 맥락에서와 마찬가지로 건강 직업의 학습자는 학습과 수행에 방해가 될 수 있는 감정을 경험합니다. As in any other educational context, learners in the health professions experience emotions that may interfere with their learning and performance.
교사의 감정을 다룰 때, 문헌에서는 주로 교사의 관점에서 [분노나 좌절의 느낌]에 초점을 맞추는 경향이 있다. 작가들은 또한 교사들이 교실에서 보여주는 감정과 신념, 목표, 정체성이 어떻게 관련되어 있는지를 탐구했다. 이 연구에 따르면, 교사들은 개인적 기대(예: 목표, 신념)와 문화적 기대(예: 학습과 가르침에 관련된 믿음)를 교실에 가져오고, 이는 그들의 인지적 감정과 정서적 경험의 결과로서 증명되거나 반박된다corroborated or refuted.33 When considering teachers’ emotions, the literature tends to focus primarily on feelings of anger or frustration from the perspective of the teacher.32 Authors have also explored how beliefs, goals and identity relate to emotions that teachers display in classrooms.33 According to this research, teachers bring to their classrooms a set of personal expectations (e.g. goals, beliefs) and cultural expectations (e.g. beliefs related to learning and teaching) that are corroborated or refuted as a result of their cognitive appraisal and emotional experiences.33
감정 및 의사결정 작업 EMOTIONS AND DECISION-MAKING TASKS
일반적으로 의사결정 과정에는 다음을 포함한다.
사람들이 선택하는 옵션,
그 결정의 잠재적 결과
의사결정이 이루어진 후 다른 결과가 발생할 확률
In general, a decision-making process encompasses
the options among which people choose,
the potential outcomes of that decision, and
the probability of different consequences occurring after the decision has been made.34,36
연구자들은 감정이 사람들이 결정을 내리는 방법에 중요한 영향을 미친다고 주장해왔다. 사실, 신경생물학 연구에서 나온 증거는 감정이 모든 의사결정 과정에서 중요한 역할을 한다는 것을 암시합니다. 저자는 세 가지 유형의 감정이 의사결정 과정에 영향을 미칠 수 있다고 강조합니다.
(i) 결정을 내리는 사람의 정서적 특성 또는 기질(Mood)
(ii) 당사자가 의사결정을 할 때 유도되는 감정(Incidental emotion)
(iii) 가능한 결정의 결과에 대한 예상 감정(expected emotion).
researchers have argued that emotions have significant impact on how people make decisions.34,37–39 In fact, evidence from neurobiological studies suggests that emotions play a critical role in all decision-making processes.38 Authors stress that three types of emotion can influence decision-making processes:
(i) emotional traits or the temperament of the person who is making the decision (mood);
(ii) emotions elicited when the person makes the decision (incidental emotions), and
(iii) anticipated emotions of the outcomes of the possible decisions (expected emotions).40
증거는 긍정적인 감정을 경험하는 사람들은 결정을 내리기 위해 휴리스틱한 전략을 사용할 가능성이 더 높다는 것을 암시합니다; 반대로 부정적인 감정을 가진 사람들은 체계적인 접근을 사용하는 경향이 있습니다. Evidence suggests that individuals experiencing positive emotions are more likely to use heuristic strategies to make decisions; contrarily, individuals bearing negative emotions tend to use a systematic approach.39
이 프레임워크를 HPE 내 위탁에 대한 판단 적용까지 확장하면
긍정적인 감정(예: 기쁨, 자부심)을 보고하는 평가자가 전체론적holistic 관점에서 학습자를 평가할 가능성이 높아지고, 후광 효과의 결과로 학습자의 준비 상태를 잘못 나타낼misrepresentation 수 있습니다.
반면 부정적인 감정(예: 불안, 두려움)을 경험하는 평가자들은 훈련생, 절차 또는 상황에 대한 세부사항에 더 집중할 가능성이 더 높으며, 마찬가지로 연습 준비 상태의 잘못된 표현으로 이어질 수 있습니다.
If we extend this framework to the application of judgements of entrustment within HPE,
raters who report positive emotions (e.g. joy, pride) may be more likely to appraise their learners from a holistic perspective, resulting in misrepresentations of the readiness of the learner as a result of the halo effect;
whereas raters who experience negative emotions (e.g. anxiety, fear) may be more likely to focus on details of the trainee, the procedure or the situation,25 also potentially leading to misrepresentations of readiness to practise.
요약하자면, 여러 분야의 문헌을 폭넓게 검토한 결과, 학자들은 [스스로의 감정에 대한 인식 부족]이 편향된 의사결정을 초래할 수 있다는 데 동의한다는 것을 밝혀냈다.
To summarise, a broad review of the literature across several domains has revealed that scholars agree that a lack of awareness of one’s emotions may lead to biased decision making.41–43
평가자 인식 RATER COGNITION
평가자 인식의 몇 가지 개념적 모델이 등장했고, 다른 저자들은 평가 과정의 다른 구성요소를 대상으로 삼았다. [평가자 인식]을 다룬 문헌 내에서 평가자 기반 평가는 첫 인상, 평가자의 주의력 및 인지 한계, 평가의 인지 과정, 평가자가 의미를 전달하기 위해 사용하는 '코드', 평가 결정의 사회적 특성, 즉시 평가 컨텍스트의 역할 등에 관하여 검토되었습니다. 사용되는 렌즈와 상관없이, 평가자 기반 평가는 [여러 요인에 의해 영향을 받을 수 있는 복잡한 과정]이라는 일반적인 공감대가 있다. Several conceptual models of rater cognition have emerged,4–6 and different authors have targeted different components of the assessment process. Within the rater cognition literature, rater-based assessment has been examined through the lenses of first impressions,7 the attentional and cognitive limits of raters,6 the cognitive processes of rating,4 the ‘codes’ that raters use to transfer meaning,44 the social nature of assessment decisions,9 and the role of the immediate rating context.8 Regardless of the lens used, there is a general consensus that rater-based assessment is a complex process that can be influenced by a multitude of factors.
평가자는 [편향되거나 본질적으로 오류가 있는 것]으로, [오류 분산의 기여자]로서, 그리고 [전문지식이나 전문가의 판단의 원천]으로 다양하게 여겨져 왔다.
평가자가 편향되거나 오류가 있는 것으로 간주되는 경우, 평가 접근법의 방어가능성은 개인이 도구를 '적절하게' 사용하고 있고 체계적인 편견 없이 사용할 수 있도록 보장하는 것을 목표로 하는 좋은 평가자 훈련의 맥락에서 증가할 것으로 예상할 수 있다.
또한, 평가자가 '무작위 노이즈'를 통해 측정 오류에 기여하는 것으로 인식되는 경우, 평가 품질을 높이는 최선의 방법은 충분한 수의 평가자가 '참된' 성과를 보다 적절하게 포착하기 위해 평가를 완료하도록 보장하는 것이다.
마지막으로, 평가자는 [판단을 내리기 위해] [전문지식을 통해 translate할 정보 소스를 동원할 수 있는 능력]을 갖춘 전문가 의사결정자로 포지셔닝될 수 있다. 이러한 포지셔닝에서 방어가능한 평가 시스템은 잠재적으로 유해한 영향으로부터 보호하면서 평가자의 전문성으로부터 얻을 수 있는 효익을 극대화하는 방식으로 구축될 것이다.
Raters have variously been considered to be biased or inherently error-ridden, as contributors to error variance, and as sources of expertise or expert judgement.5,6
If raters are considered as biased or error-ridden, the defensibility of assessment approaches can be expected to increase in the context of good rater training that aims to ensure that individuals are using the tool ‘appropriately’ and without any systematic bias.
Additionally, if raters are recognised as contributing to measurement error through ‘random noise’, the best means of increasing assessment quality will be to ensure that a sufficient number of raters complete assessments in order to more appropriately capture ‘true’ performance.
Finally, raters may be positioned as expert decision makers, with ability to mobilise several sources of information that they will translate through their expertise in order to make a judgement. In this positioning, a defensible assessment system would be constructed in a way that maximises the benefit that can be drawn from raters’ expertise while protecting against potentially deleterious effects.
평가 기반 평가에서의 감정 EMOTIONS IN RATER-BASED ASSESSMENT
Gingerich가 제안했듯이, 신뢰와 판단은 본질적으로 사회적이며, 사회적 판단에서 감정은 중요한 역할을 합니다.9 이러한 관계를 설명하기 위해 평가자가 [프로시져를 수행하는 전공의를 평가]하는 상황을 상상해보자. 이 평가 과정이 인지적 판단consideration에만 의존한다고 상상하기는 어렵다. 대신에 인지적, 관계적(사회적) 및 정서적 고려consideration 사이의 상호작용(즉 통제와 가치의 관점에서 평가 후 도출된 감정)이 평가 과정이 전개되는 방식을 더 잘 나타낼 수 있다. As suggested by Gingerich, trust and judgement are inherently social, and emotions play an important role within social judgements.9 In order to illustrate this relationship, we must imagine the ways in which a rater assesses a resident performing a procedure. It is difficult to imagine that this process relies exclusively on cognitive considerations; instead the interaction among cognitive, relational (social) and emotional considerations (i.e. emotions elicited after appraisal in terms of control and value) might better represent the ways in which the assessment process unfolds.
간단히 말해서, 평가자 기반 평가에서 감정의 역할은 다음을 반영하는 것으로 간주될 수 있다. In brief, the role of emotion in rater-based assessment might be considered to reflect:
(i) 편향된 의사결정을 초래하는 감정
(ii) 평가 측정에 무작위 소음을 추가하는 감정 및
(iii) 평가 결정에 기여하는 정당한 정보 소스를 나타내는 감정.
(i) emotions that lead to biased decision making;
(ii) emotions that add random noise to assessment measurement, and
(iii) emotions that represent a legitimate source of information that contributes to assessment decisions.
편향된 의사결정을 이끌어 내는 감정 Emotions that lead to biased decision making
자극arousal과 교사의 감정에 대한 문헌을 요약해보면, 감정은 평가자 기반 평가의 [체계적 편향에 대한 기여자]로 간주될 수 있다. 간단히 요약하면, 각성 상태나 감정 상태에서의 차이가 [수행의 특정 측면]으로 주의를 돌리게 하거나, [대조 효과]가 두드러지게 만들 수 있다. 평가자 기반 평가에서 감정의 역할에 대한 이러한 개념화에서, 감정의 잠재적 함의에는
감정의 역할을 완화하기 위한 평가 훈련의 제안
또는 잠재적인 편견을 [완화하거나 통제하기 위한 수단]으로서, 평가 작업 중 평가자의 감정 반응을 측정하는 도구 또는 과제의 개발이 포함된다.
Given the summary of the literature on arousal25,45 and teacher emotions,24,46 emotions might be considered as contributors to systematic bias in rater-based assessment. To briefly summarise, it is possible that differences in arousal or emotional states could shift rater attention to particular aspects of performance, or perhaps even highlight contrast effects.8 In this conceptualisation of the role of emotion in rater-based assessment, potential implications of emotion include
suggestions of either rater training in order to mitigate the role of emotion, or
perhaps the development of tools or tasks with which to measure the emotional responses of raters during assessment tasks as a means of mitigating or controlling for potential bias.
평가 측정에 무작위 노이즈를 추가하는 감정 Emotions that add random noise to assessment measurement
단일 평가자 기반 평가 판단에서 감정의 역할은 맥락에 관련되어 있으며, ten Cate 외 연구진과 고바어트가 요약한 바와 같이 여러 상호 연관된 요인(학습자 요인, 교사 요인, 상황적 요인 등)에서 비롯될 가능성이 높다. 감정이 평가 시스템에 '소음'을 추가한다는 제안은 위에서 언급한 것과 유사한 해결책으로 귀결됩니다. 즉, 특정 후보자의 수행을 평정rating하는 수를 늘리는 것이다. 특히 EPA의 이해도가 낮은 영역에 비추어 볼 때, 우리는 관찰과 수행능력의 평정 숫자를 늘리는 것이 잠재적인 해로운 영향이 거의 없다고 느낀다.
The role of emotions in a single rater-based assessment judgement is likely to be contextually related and to result from several interconnected factors (learner factors, teacher factors, contextual factors, etc.) as summarised by ten Cate et al.17 and Govaerts.47 The suggestion that emotions add ‘noise’ to the assessment system results in a similar solution to that mentioned above: an increase in the number of ratings of performance for a given candidate. Particularly in view of the little- understood area of EPAs, we feel there are few potential detrimental effects to considering an increased number of observations and ratings of performance.
평가 결정에 기여하는 정당한 정보 소스를 나타내는 감정 Emotions that represent a legitimate source of information that contributes to assessment decisions
감정은 모든 의사결정 과정의 본질적인 구성 요소를 구성합니다. 여러 분야의 문헌에서, 결정을 내릴 때 인지적, 정서적, 상황적 요인의 얽힘을 강조한다. 그런 의미에서 평가에서 감정의 역할을 무시하거나 소홀히 하면 이 과정에 대한 이해가 줄어들 것이다. 우리의 관점에서는 감정을 엄격하게 통제하거나(개념화 A) 무의미한 교란으로 간주하는 방식(개념화 B)으로 감정을 개념화하는 것은 최적의 옵션이 아니다. 오히려, 우리는 평가 과정에서 [감정의 중요성을 인정하는 틀을 만드는 것]을 지지합니다. 평가자를 감정 상태에 따라 선정해서는 안 되지만, 평가자가 자신의 감정에 대한 [자기 인식]과 [자기 조절]을 촉진하는 데 초점을 맞춘 전략의 잠재적인 이익을 고려해야 할 것이다.48
Emotions constitute an inherent component of any decision-making process.23,34,45 Literature from different fields highlights the intertwining of cognitive, emotional and contextual factors when it comes to making decisions. In this sense, disregarding or neglecting the role of emotions in assessment will reduce understanding of this process. From our perspective, conceptualising emotion by tightly controlling for it (Conceptualisation A) or counting it as meaningless disturbance (Conceptualisation B) are not optimal options. Rather, we advocate for generating frameworks that acknowledge the importance of emotions in assessment processes. Raters should not be selected on the basis of their emotional states, but perhaps we should consider the potential benefit of strategies focused on facilitating self- awareness and self-regulation of raters’ emotions.48
향후 연구를 위한 영역 AREAS FOR FUTURE RESEARCH
평가 시 평가자의 감정 이해 Understanding raters’ emotions in assessment
위탁 이해 Understanding entrustment
평가 및 사회적 요인 Assessment and social factors
학습자 평가에서 감정의 역할을 탐구할 수 있는 잠재적 지향 프레임워크 중 하나는 평가 도구 설계, 평가 수행 및 평가 생성 점수 해석 과정에 관련된 세 가지 요소를 식별하는 펠레그리노 외 연구진(49)의 평가 삼각망입니다. 특히, 이러한 요소에는 다음이 포함됩니다.
인지: 평가자의 정신 모델 및 학습 인지 이론으로 정의되는 인지,
관찰: 학습자의 반응과 해석을 이끌어내기 위해 사용할 과제의 특성을 구성하는 관찰
해석: 관찰로부터 추론의 규칙과 가정을 정의(그림 1).
One potential orienting framework with which to explore the role of emotions in the assessment of learners is Pellegrino et al.’s assessment triangle,49 which identifies three elements involved in the process of designing assessment tools, performing assessment, and interpreting assessment-generated scores. Specifically, these elements include:
cognition, defined as assessors’ mental models and cognitive theories of learning;
observation, comprising the characteristics of the tasks to be used to elicit learners’ responses, and
interpretation, or defining the set of rules and assumptions of reasoning from observations (Fig. 1).49,50
이 세 가지 측면은 [임상 절차를 수행하는 학습자가 직접 관찰]되는 가상의 사례를 사용하여 설명할 수 있습니다. 이 전형적인 평가 시나리오에서
[인지]는 임상 프로시져에서 역량의 입증을 위해 평가자가 필요하다고 생각하는 지식, 기술, 태도의 집합을 말한다.
[관찰]은 반드시 관심을 기울여야attended to 하는 임상 수행능력의 측면을 의미하며,
[해석]은 이러한 관찰을 바탕으로 학습자의 역량에 대해 가정하는 것을 의미합니다.49
These three facets may be illustrated using a hypothetical case in which a learner performing a clinical procedure is directly observed. In this typical assessment scenario,
cognition refers to the set of knowledge, skills and attitudes that the assessor considers necessary to demonstrate competence during the clinical procedure.
Observation would refer to aspects of the clinical performance that must be attended to, and
interpretation refers to the assumptions made about the learner’s competence based on these observations.49
우리는 평가 프로세스가 인식, 관찰, 해석 및 감정 등 4가지 차별화 요소들로 구성된 테트라드로 더 잘 정의될 것을 제안한다(그림 2). we suggest that the assessment process is better defined as a tetrad comprised of four differentiated, yet related, elements – cognition, observation, interpretation and emotions – and that these elements are intertwined throughout the act of assessing (Fig. 2).
결론 CONCLUSIONS
감정을 [평가와 의사결정 과정의 핵심 구성요소]로 인식하는 것은 감정을 단순히 비인지적 변동의 원천으로 개념화하지 않게 해준다. 오히려, 이러한 인식은 감정이 [평가 생성 데이터의 설계, 실행 및 해석에 있어 근본적인 역할]을 할 수 있음을 시사합니다. Recognising emotions as a key component of assessment and decision-making processes moves us away from conceptualising emotions as merely non-cognitive sources of variation in developing assessment judgements. Rather, this recognition suggests that emotions can, and should, play a fundamental role in the design, execution and interpretation of assessment- generated data.
결론적으로 [평가]는 [평가자가 학습자의 지식, 기술 및 태도에 대한 판단을 내리는 의사결정 과정으로 정의]할 수 있습니다. In conclusion, assessment can be defined as a decision-making process in which raters generate judgements regarding learners’ knowledge, skills and attitudes.
우리는 평가자의 감정에 대한 고려가 평가의 설계, 개념화, 구현 및 사용, 그리고 평가자가 생성하는 점수 해석에 중심적이어야 한다고 주장한다. 감정을 평가 과정에 포함하는 것은 평가자를 '측정 도구'로 보는 개념에서 벗어나, 사회적, 정서적 맥락 안에 평가 프로세스를 포함한다는 것을 시사합니다. CBME 프레임워크 내의 평가가 학습을 지원하고 촉진하는 목표를 달성할 수 있도록 보장하기 위해서는 감정적 요소와 관련된 평가 기반 평가에 기여하는 프로세스에 대한 이해를 확대해야 합니다. We argue that consideration for raters’ emotions should be central to the design, conceptualisation, implementation and use of assessments, and to the interpretation of the scores they generate. The inclusion of emotions as an element within the assessment process suggests a move away from the idea of a rater as a ‘measurement instrument’ and instead embeds the assessment process within a social and emotional context. Expanding our understanding of the processes that contribute to rater-based assessment, including those related to emotional elements, is necessary to ensuring that assessment within a CBME framework can achieve the goals of supporting and facilitating learning.
Med Educ. 2018 Mar;52(3):254-262.
doi: 10.1111/medu.13476.Epub 2017 Nov 9.
Emotions and assessment: considerations for rater-based judgements of entrustment
Context:Assessment is subject to increasing scrutiny as medical education transitions towards a competency-based medical education (CBME) model. Traditional perspectives on the roles of assessment emphasise high-stakes, summative assessment, whereas CBME argues for formative assessment. Revisiting conceptualisations about the roles and formats of assessment in medical education provides opportunities to examine understandings and expectations of the assessment of learners. The act of the rater generating scores might be considered as an exclusively cognitive exercise; however, current literature has drawn attention to the notion of raters as measurement instruments, thereby attributing additional factors to their decision-making processes, such as social considerations and intuition. However, the literature has not comprehensively examined the influence of raters' emotions during assessment. In this narrative review, we explore the influence of raters' emotions in the assessment of learners.Conclusions:We identify and discuss three different interpretations of the influence of raters' emotions during assessments: (i) emotions lead to biased decision making; (ii) emotions contribute random noise to assessment, and (iii) emotions constitute legitimate sources of information that contribute to assessment decisions. We discuss these three interpretations in terms of areas for future research and implications for assessment.
Methods:We summarise existing literature that describes the role of emotions in assessment broadly, and rater-based assessment specifically, across a variety of fields. The literature related to emotions and assessment is examined from different perspectives, including those of educational context, decision making and rater cognition. We use the concept of entrustable professional activities (EPAs) to contextualise a discussion of the ways in which raters' emotions may have meaningful impacts on the decisions they make in clinical settings. This review summarises findings from different perspectives and identifies areas for consideration for the role of emotion in rater-based assessment, and areas for future research.
글로벌 평정척도가 체크리스트보다 전문성의 상승단계 측정에 더 나은가? (Med Teach, 2019) Are rating scales really better than checklists for measuring increasing levels of expertise? Timothy J. Wooda and Debra Pughb
도입 Introduction
객관적 구조화 임상검사(OSCE)에서 성과를 평가할 때 평정 척도rating scale는 학습자의 전문성 증가에 민감하지만, 체크리스트는 그렇지 않다는 것이 원칙이 되었다. 이에 대한 일반적인 설명은, 초보자들이 익숙하지 않은 문제에 직면했을 때 상세한 접근법을 사용할 가능성이 높은 반면, 더 경험이 많은 임상의들은 진단에 도달하기 위해 지름길을 사용할 수 있기 때문에 체크리스트를 사용하여 평가할 때 실제로 낮은 점수를 받을 수 있다는 주장과 관련된다(Regehr et al. 1998; Hawkins and Bullet 2008). 이와 같이, 체크리스트(조치 수행 여부를 평가하는 것)는 [철저성과 데이터 수집 능력을 보상한다]는 비판을 자주 받는 반면, 평정 척도rating scale(평가자가 조치가 얼마나 잘 수행되었는지 판단할 수 있게 하는 것)는 임상적 추론과 같이 전문가에게 보이는 고차적 기술을 평가하는 데 더 낫다는 평을 받는다. It has become a doctrine that, when assessing performance in an objective structured clinical examination (OSCE), rating scales are sensitive to the increasing expertise of learners, whereas checklists are not. A common explanation for this relates to the assertion that novices are likely to use a detailed approach when encountering an unfamiliar problem while more experienced clinicians are able to use shortcuts to arrive at a diagnosis and, thus, may actually get lower scores when assessed using a checklist (Regehr et al. 1998; Hawkins and Boulet 2008). As such, checklists (which assess whether or not an action was performed) are often criticized for rewarding thoroughness and data-gathering ability, while rating scales (which allow raters to judge how well an action was performed) are touted as being better for assessing the higher-order skills seen in experts, such as clinical reasoning (Hodges and McIlroy 2003; Yudkowsky 2009).
이론적인 관점에서 볼 때, 증가하는 전문성을 포착하는 데 있어서 등급 척도가 체크리스트보다 낫다는 주장이 타당하다. 이중 프로세스 이론은 문제에 직면했을 때 자동, 비분석 프로세스(유형 1) 또는 노력이 드는, 분석적 프로세스(유형 2)를 사용할 수 있다고 제안합니다. 따라서 OSCE 환경에서,
전문 임상의가 사례에 접근할 때 무의식적(유형 1) 프로세스를 더 강조하여 실제로 일부 체크리스트 항목을 누락할 것으로 예상할 수 있다.
반대로, 같은 경우에 접근하는 초보자는 보다 체계적(유형 2) 접근법에 더 큰 중점을 둘 수 있으며, 결과적으로 체크리스트 과제를 더 많이 수행하기 때문에 더 높은 점수로 보상받을 수 있다.
From a theoretical perspective, the assertion that rating scales are better than checklists at capturing increasing levels of expertise makes sense. Dual-process theory suggests that when faced with a problem we may use automatic, non-analytic processes (i.e. Type 1) or effortful, analytic processes (i.e. Type 2) (Evans 2008, 2018; Kahneman 2011).
In an OSCE setting, therefore, one might expect an expert clinician to place greater emphasis on unconscious (i.e. Type 1) processes when approaching a case and therefore actually miss some checklist items.
In contrast, a novice approaching the same case may place greater emphasis on a more systematic (i.e. Type 2) approach and, consequently be rewarded with a higher score because they perform more of the checklist tasks.
연구 결과를 설명할 수 있는 또 다른 접근방식은, 전문가가 될수록 전문가는 다른 개발 단계를 거쳐 발전한다는 것이다(Dreyfus and Dreyfus 1986). [초보 단계]는 대량의 데이터 수집을 강조하는 반면, [전문가]들은 집중된 데이터를 보다 효율적으로 수집할 수 있으며 주어진 문제를 해결하도록 이끈 모든 단계를 파악하기 위해 어려움을 겪을 수 있습니다. 마찬가지로, 전문가들은 임상 데이터를 신속하게 해석할 수 있는 질병 스크립트를 개발하여 초보자가 수행할 수 있는 모든 단계를 따르지 않고도 문제를 해결할 수 있도록 할 수 있다(Schmidt et al. 1990). Another approach that could account for the findings is that professionals progress through different developmental stages as they become experts (Dreyfus and Dreyfus 1986). The novice stage isc haracterized by an emphasis on the gathering of large amounts of data, while experts are able to gather focused data more efficiently and may struggle to identify all the steps that led them to solve a given problem. Similarly,experts may capitalize on their experience to develop illness scripts that allow them to quickly interpret clinical data, allowing them to solve problems without following all the steps that a novice might (Schmidt et al. 1990).
이러한 세 가지 이론을 고려할 때, 전문성이 높은 수험생을 평가할 때 평가 척도가 체크리스트보다 더 나은 도구가 될 것으로 예상할 수 있다. Given these three theories, one would expect rating scales to be a better tool than checklists when assessing examinees with increasing levels of expertise.
그러나, 이러한 등급 척도 우위에 대한 주장은 정당한가? 가장 자주 인용되는 연구에서 가정의사는 글로벌 등급 점수(5점 만점 기준)에서 전공의나 임상실습생보다 높은 점수를 받았지만, 2개 스테이션 정신의학 OSCE(Hodges et al. 1999)에 대한 체크리스트로 평가했을 때 두 그룹보다 더 나쁜 점수를 받았다.
But, is this claim of rating scale superiority warranted? In the most frequently cited study, family physicians scored higher than residents and clinical clerks on a global rating score (derived from five 5-point rating scales), but worse than both groups when assessed with a checklist on a two-station psychiatry OSCE (Hodges et al. 1999).
호지스 외 연구진(1998)은 8개 스테이션의 정신의학 OSCE에서 전공의와 임상실습생을 비교했다. 전공의들은 임상실습생보다 Rating scale 등급이 높았지만 체크리스트 점수는 비슷했다. 더 많은 스테이션이 있음에도 불구하고, 이러한 결과 패턴이 서로 다른 도메인을 평가하는 OSCE로 일반화 될지는 완전히 명확하지 않다. 저자들이 지적하듯이, 정신의학은 중요한 면에서 다른 학문과 다를 수 있다. study by Hodges et al. (1998) compared residents and clerks on an 8-station psychiatry OSCE. Residents had higher global ratings than clerks but similar checklist scores. Despite having more stations, it is not entirely clear if this pattern of results would generalize to OSCEs assessing different domains. As the authors point out, psychiatry may differ fromother disciplines in important ways.
체크리스트의 한계에도 불구하고, 성과 평가 시 많은 장점을 제공한다. 즉, 체크리스트는 비교적 사용하기 직관적이고, 균일한 등급 기준을 제공하고, 높은 신뢰성을 가질 수 있으며, 취약 영역에 대한 특정 피드백을 제공할 수 있다(Harden et al. 2016; Norcini 2016). 실제로 잘 구성된 체크리스트와 등급 척도가 종종 다른 교육 수준을 구별하는 유사한 결과를 낳는다는 것을 보여주는 문헌 기구가 증가하고 있다. 예를 들어, 최근의 체계적인 검토(Ilgen et al. 2015)는 시뮬레이션 기반 평가에서 체크리스트와 등급 척도의 사용에 대한 타당성 증거를 탐색했다. 그 중 7개는 등급 척도 사용을 선호했고, 2개는 체크리스트 사용을 선호했으며, 대다수는 도구에서 차이를 발견하지 못했다. 그러나 이 체계적인 검토는 시뮬레이션 기반simulation-based 평가에만 초점이 맞춰져 있다는 점에 유의해야 한다. 시뮬레이션과 직접 관련되지 않은 수행능력 기반performance-based 평가에 대한 점검 목록과 등급 척도의 비교에는 제한된 증거만 있을 뿐이다.
Despite the purported limitations of checklists, they offer many advantages when assessing performance, namely: checklists are relatively intuitive to use; provide uniform rating criteria; can have high reliability; and allow for the provision of specific feedback on areas of weakness to residents (Harden et al. 2016; Norcini 2016). In fact, there is a growing body of literature demonstrating that wellconstructed checklists and rating scales often produce similar results in discriminating between different levels of training. For example, a recent systematic review (Ilgen et al. 2015) explored validity evidence for the use of checklists and rating scales in simulation-based assessment. Of those, seven favored the use of rating scales, two favored the use of checklists, and the vast majority (n¼25) found no difference in the tools. However, it is important to note that this systematic review focused only on simulation-based assessments. There is only limited evidence in the comparison of checklists and rating scales for performance-based assessments not directly related to simulation.
방법 Methods
참여자 Participants
Internal Medicine 진행률 검사 OSCE(IM-OSCE)는 Ottawa University(PGY1–PGY4)의 모든 Internal Medicine 레지던트에게 필수적이지만 형식적인 연례 검사로 시행됩니다. The Internal Medicine progress test OSCE, or IM-OSCE, is administered as a mandatory, but formative, annual examination for all Internal Medicine residents at the University of Ottawa (PGY1–PGY4).
설계 Design
IM-OSCE는 지식, 임상 의사 결정, 신체 검사 기술 및 커뮤니케이션 기술을 평가하도록 설계된 9개 스테이션으로 구성되었습니다. 시험의 각 행정의 청사진은 캐나다 왕립의과대학 외과의가 정한 내과 교육 목표(RCPSC 2011)에 기초했다. 각 행정부마다 다양한 신체 시스템과 분야를 대표하는 사례가 선정되었습니다. 각 IM-OSCE의 내용은 사례 반복 없이 매년 달랐다. The IM-OSCE consisted of nine stations that were designed to assess knowledge, clinical decision making, physical examination skills, and communication skills. The blueprint for each administration of the exam was based on the Objectives of Training for Internal Medicine set by the Surgeons of Royal College of Physicians and Canada (RCPSC 2011). For each administration, cases were selected to represent a variety of different body systems and disciplines. The content on each IM-OSCE was different every year, with no repetition of cases.
내과 전문의들은 각 스테이션마다 고유한 평가자 한 명씩을 두고 각 역마다 전공의들의 성과를 평가했다. 그러나 IM-OSCE의 설계 때문에 평가자는 분석에 포함되지 않았다. 각 IM-OSCE는 하나의 관리에서 두 개의 좌석이 있었고 각 좌석에 여러 개의 트랙이 있었습니다. 이 설계는 평가자와 표준화된 환자가 교락 요인이 되고 트랙과 좌석에 내포된다는 것을 의미합니다. 전공의는 이러한 선로에 무작위로 할당되고 PGY 레벨에 의해 체계적으로 할당되지 않았기 때문에 설계가 더욱 복잡했으며, 따라서 정격자 또는 선로와 같은 요소를 포함하면 상당한 데이터 누락과 전력 상실로 이어질 수 있었다. 따라서 우리는 스테이션 수준에서 데이터를 분석하기로 결정했으며, 분석에 트랙이나 레이터를 포함하지 않았습니다. Internal Medicine specialists assessed the residents’ performance on each station with a single, unique examiner at each station. Raters were not included in the analysis, however, because of the design of the IM-OSCE. Each IM-OSCE had two sittings in one administration and multiple tracks within each sitting. This design would mean that raters and standardized patients would be confounded factors and would be nested within track and sitting. The design was further complicated because residents were randomly allocated to these tracks and not systematically assigned by PGY level, therefore including factors like rater or track would have led to considerable missing data and a loss of power. We decided therefore to analyze data at the station level and did not include track or rater in the analysis.
Pugh 외 연구진(2014)에 기술된 바와 같이, 전공의들은 스테이션-특이적 체크리스트와 작업-특이적 평정 척도(MeanGR)를 조합하여 평가받았다. 또한 표준 설정에 사용되는 단일 글로벌 등급 척도(GRS)를 사용하여 평가했으며, 응시자의 성과를 의대생 수준 또는 PGY 1~4의 연수생 수준으로 평가하기 위해 개발된 교육 수준 평가 척도traning level rating scale도 사용했다. 이 시험의 경우, 스테이션 점수는 표준 설정의 수정된 경계선 방법(McKinley 및 Norcini 2014)을 적용하는 데 사용되는 GRS와 체크리스트와 MeanGR(위원회가 결정한 각 가중치)의 조합을 사용하여 도출되었다. PGY1-4 척도는 피드백용으로만 사용되었으며 스테이션 점수에 반영되지 않았습니다. 각 스테이션별 점수를 합산해 총점을 만들어 수험생에게 보고했다.
As described in Pugh et al. (2014), residents were scored using a combination of station-specific checklistsand task-specific rating scales(MeanGR). They were also assessed using a single global rating scale(GRS) used for standard setting, as well as a training level rating scale developed to rate candidate performance as being at the level of a medical students or at the level of a trainee in PGYs 1 to 4. For this examination, station scores were derived using a combination of the checklist and the MeanGR (weightings for each determined by a committee) with the GRS used to apply the modified borderline method of standard setting (McKinley and Norcini 2014). The PGY1–4 scale was used only for feedback and did not factor into the station score. A total score was created by summing the scores on each station and were reported to examinees.
분석 Analysis
시험 연도 내의 각 스테이션에 대해 체크리스트와 MeanGR 점수를 먼저 z-점수로 변환하여 두 측정치의 점수와 등급이 동일한지 확인했습니다. 음수를 제거하기 위해 각 측도의 z-점수는 평균 100, 표준 편차는 10으로 표준화되었습니다. For each station within an exam year, the Checklist and MeanGR scores were first converted to z-scores to ensure scores and ratings on both measures were on the same scale. To remove the negative numbers, the z-scores for each measure were standardized to have a mean of 100 and a standard deviation of 10.
시험 연도별 각 스테이션마다 주 요인subject factor으로 취급되는 전공의의 PGY 수준(PGY1–4)과 반복 측정 요인repeated measure factor으로 취급되는 측정(즉, 체크리스트 및 평균GR 점수)을 사용하여 혼합 분산 분석을 수행하였다. 주된 관심은 다음과 같다.
(1) PGY 수준의 주요 효과가 있었던 비교: 훈련 증가의 함수에 따라 점수가 변경되었음을 나타낼 수 있기 때문
(2) PGY 수준과 두 측정값 사이에 교호작용 비교: 이는 한 측정값에서 점수가 다른 측정값과 다르게 증가했음을 나타내기 때문
For each station by exam year, a mixed ANOVA was conducted with PGY level of the resident (PGY1–4) treated as a between subject factor and the measure (i.e. Checklist and MeanGR scores) treated as a repeated measures factor. Of most interest were:
(1) comparisons in which there was a main effect of PGY level, because this would indicate that scores changed as a function of increases in training; and
(2) comparisons producing an interaction between PGY level and the two measures, because this would indicate that scores increased differently for one measure compared to the other.
스테이션에서 교호작용이 발견되면 교호작용의 근원을 탐색하기 위해 후속 분석이 수행되었습니다. 해당 스테이션에 대한 각 측도에 대해 PGY 수준을 과목 간 인자로 처리한 상태에서 과목 간 분산 분석을 별도로 수행했습니다. If an interaction was found on a station, a subsequent analysis was conducted to explore the source of the interaction. For each measure on that station, a separate between subjects ANOVA was conducted with PGY level treated as a between subject factor.
윤리 Ethics review
결과 Results
2014년 총 73명, 2015년 85명, 2016년 86명의 전공의가 시험에 응시했다. 그림 1-3은 주어진 관리 연도의 각 스테이션 별 체크리스트와 평균 GR 점수를 나타낸 막대 그래프를 보여준다. There was a total of 73 residents attempting the examination in 2014, 85 in 2015 and 86 in 2016. Figures 1–3 display bar graphs depicting Checklist and Mean GR scores by PGY for each station in a given administration year.
즉, 27개 스테이션에 걸쳐 총 13개 스테이션에서 체크리스트 점수와 평균 GR 점수에 대해 동등하게 교육 수준 상승 함수로 점수가 증가했음을 입증했으며, 한 스테이션만 체크리스트 점수가 증가하지 않고 등급 척도가 증가했음을 입증했다. In other words, across 27 stations, a total of 13 stations demonstrated that scores increased as a function of increase in training level equally for both Checklist and Mean GR scores and only one station demonstrated that checklist scores did not increase but rating scale did.
고찰 Discussion
본 연구의 목적은 OSCE 내에서 전문지식의 증가와 채점 도구 사이의 관계를 재검토하여 [평정 척도rating scales]가 [체크리스트]보다 전문지식의 증가에 실제로 더 민감한지를 판단하는 것이었다. 체크리스트는 그렇지 않지만, 평정 척도는 전문지식 수준에 민감하다는 일반적인 견해를 고려할 때, 평정 척도 점수는 PGY 수준의 함수로 증가해야 하는 반면, 점검표 점수는 증가해서는 안 된다고 예상할 수 있다. 우리의 결과는 전문성 증가를 측정할 때 체크리스트에 비해 종종 인용되는 등급 척도 우위에 대한 주장에 반대challenge한다. 우리가 조사한 27개 스테이션 중 rating scale에서만 PGY 수준별 차이가 나타난 것은 1개뿐이었다. The purpose of this study was to reexamine the relationship between increases in expertise and scoring instruments within an OSCE in order to determine if ratings scales are indeed more sensitive to increases in expertise than checklists. Given the prevailing view that rating scales are sensitive to levels of expertise whereas checklists are not, one would expect that rating scale scores should increase as a function of PGY levels whereas checklist scores should not. Our results challenge the oft-cited claim of rating scale superiority over checklists when measuring increases in expertise. Of the 27 stations we examined, there was only one in which rating scales but not checklists demonstrated a difference by PGY level.
우리의 결과는 시뮬레이션과 관련된 여러 논문에서 보고된 결과를 복제하지만(Ilgen et al. 2015) 왜 우리의 연구 결과가 [등급 척도의 우월성]에 대한 일반적인 가정에 도전하는지 의문을 제기한다. 여러 가지 이유가 있을 수 있습니다. 첫째, 체크리스트 설계는 초기 Hodges 등 연구 이후 발전해 왔다. 즉, 체크리스트는 요청되거나 [수행될 수 있는 모든 단계의 전체 목록]을 나타내지 않으며, 사례의 주요 기능key feature에 초점을 맞출 가능성이 더 높아졌습니다(Daniels et al. 2014; Yudkowsky et al. 2014). 확실히, 이것은 본 연구에 포함된 OSCE가 주요 특징key features에 초점을 두고 개발된 사례이다. Our results replicate findings reported in several papers related to simulation (Ilgen et al. 2015) but raise the question as to why our findings challenge the common assumption of rating scale superiority. A number of reasons might exist. First, the design of checklists has evolved since the initial Hodges et al. study. That is, checklists are now less likely to represent an exhaustive list of all steps that could be asked or done, and more likely to focus on the key features of the case (Daniels et al. 2014; Yudkowsky et al. 2014). Certainly, this is the case with the OSCEs included in the present study which were developed with a focus on key features.
세 번째 가능성은 스테이션들의 난이도와 관련이 있을 수 있다. Hodges 등의 연구에서 스테이션은 임상 실습생 수준으로 설계되었지만 전공의와 수련후 의사를 테스트했다. 본 연구의 관측소는 PGY-4 수준의 성능을 테스트하기 위해 만들어졌기 때문에 상당히 어려웠다. A third possibility could be related to the difficulty of the stations. The Hodges et al. stations were designed to be at the level of clinical clerks but tested residents and practicing physicians. The stations in this study were considerably more difficult, having been created to test ability at the level of a PGY-4.
연구 대상 27개 스테이션 중 13개 스테이션만only이 사용하는 채점도구와 무관하게 PGY 수준별 차이를 보인 것은 다소 놀라운 일이었다. PGY-4 수준에서 설정된 난이도 시험이지만 모든 수련 연차의 전공의가 시도한 진도 시험임을 감안할 때, 모든 스테이션에 적어도 하나의 도구instrument에서 변화가 있을 것으로 예상할 수 있다. 그러나 이는 적어도 부분적으로는 스테이션 유형의 함수일 수 있습니다. 주목할 점은 의사소통 스테이션 (0/3) 중 단 한 곳도 없었고, 단지 신체검진 스테이션에서 3/12에서만 두 척도 중 하나 이상에서 PGY level에 따른 차이가 나타났다. It was somewhat surprising that only 13 of the 27 studied stations demonstrated a difference by PGY level regardless of the scoring instrument used. Given that this is a progress test with a difficulty set at a PGY-4 level but attempted by residents of all training years, one would have expected changes with at least one of the instruments in all stations. However, this may be again, at least in part, a function of station type. It is noteworthy that none of the communication stations (0/3) and only 3/12 physical examination stations examined demonstrated a difference by PGY level for either of the measures.
세 번째 신체 검사 스테이션은 상호작용이 있었고, 평정 척도만이 PGY 수준이 증가를 보였다. 신체 검사 스테이션과 관련된 이러한 발견은 많은 신체검사 기술(예: 관절 검사 또는 신경 검사 수행 능력)이 수련 초기에 획득되었을 것으로 예상되고 레지던트 기간 동안 크게 발전하지 않았을 수 있기 때문에 발생했을 수 있습니다. 의사소통 스테이션에 대한 PGY 수준의 차이가 없는 것과 관련하여, 이는 수련기간 증가에 따른 내과 레지던트 의사소통 능력 개발의 진전이 없음을 입증하는 이전에 발표된 연구와 일치한다(Pugh et al. 2016). A third physical examination station had an interaction with only the rating scale producing increases in PGY level. This finding related to physical examination stations may have occurred because many of the skills tested (e.g. ability to perform a joint or neurologic exam) might be expected to have been acquired early in training and may not have evolved much during residency. With regards to the lack of differences seen by PGY-level on the communication stations, this is in keeping with a previously published study which also demonstrated no progression in the development of Internal Medicine residents’ communication skills over time (Pugh et al. 2016).
이론의 여지없이, (수험생이 효율적인 데이터 수집하고, 진단을 내리고, 관리 계획을 수립하는 과정에서 문제에 대한 접근 방식을 입증해야 하는) [구조화된 구술structured oral]은 더 복잡하며, 따라서 주니어 훈련생과 시니어 훈련생 사이의 차이를 입증할 가능성이 더 높을 수 있다. (10/12 structured oral station는 PGY-수준별 차이를 보였다.) Arguably, structured orals, which require an examinee to demonstrate an approach to a problem that includes efficient data gathering, diagnosis and formulation of a management plan, are more complicated and therefore may be more likely to demonstrate a difference between junior and senior trainees (10/12 structured oral stations demonstrated a difference by PGY-level).
본 연구의 가장 큰 한계는 동일한 평가자가 체크리스트와 평가 척도를 모두 완료했기 때문에 두 측정이 서로 영향을 미쳤을 가능성이 매우 크다는 것이다. 즉, 체크리스트가 역량 증가를 측정할 수 없다는 가정이 얼마나 일반적인지를 고려할 때, 두 측정이 서로 교란되어 있더라도 우리의 결과는 최소한 주의를 시사해야 합니다. A major limitation to our study is that the same rater completed both the checklist and the rating scales and therefore it is quite possible that the two measures influenced each other. That said, considering how common the assumption is that checklists cannot measure increases in competency, our results should at the least suggest caution even with both measures being confounded with each other.
결론적으로, 우리는 체크리스트가 등급 척도보다 낫거나 나쁘다고 주장하는 것이 아니다 – 둘 다 특정한 상황에서 장점이 있다.
In conclusion, we are not arguing that checklists are better or worse than rating scales – both have merits under particular circumstances.
Med Teach. 2020 Jan;42(1):46-51.
doi: 10.1080/0142159X.2019.1652260.Epub 2019 Aug 20.
Are rating scales really better than checklists for measuring increasing levels of expertise?
Background:It is a doctrine that OSCE checklists are not sensitive to increasing levels of expertise whereas rating scales are. This claim is based primarily on a study that used two psychiatry stations and it is not clear to what degree the finding generalizes to other clinical contexts. The purpose of our study was to reexamine the relationship between increasing training and scoring instruments within an OSCE.Approach:A 9-station OSCE progress test was administered to Internal Medicine residents in post-graduate years (PGY) 1-4. Residents were scored using checklists and rating scales. Standard scores from three administrations (27 stations) were analyzed.Findings:Only one station produced a result in which checklist scores did not increase as a function of training level, but the rating scales did. For 13 stations, scores increased as a function of PGY equally for both checklists and rating scales.Conclusion:Checklist scores were as sensitive to the level of training as rating scales for most stations, suggesting that checklists can capture increasing levels of expertise. The choice of which measure is used should be based on the purpose of the examination and not on a belief that one measure can better capture increases in expertise.
친구 다음에 OSCE를 볼 때의 이득: 후향적 연구(Med Teach, 2018) Gaining an advantage by sitting an OSCE after your peers: A retrospective study Asim Ghouria, Charles Boachieb, Suzanne McDowalla, Jim Parlec, Carol A. Ditchfielda, Alex McConnachieb, Matthew R. Waltersa and Nazim Ghouria
도입 Introduction
OSCE는 임상 관행을 반영하기 위한 "실제" 시나리오를 시뮬레이션하는 여러 스테이션으로 구성됩니다. 따라서 OSCE 검사를 통해 학생의 임상 기술을 평가할 수 있습니다. Miller의 피라미드(Gormley 2011)의 "Shows how"를 보여줍니다. The OSCE consists of multiple stations simulating “real life” scenarios, which are intended to reflect clinical practice. Hence the OSCE examination allows assessment of a student’s clinical skills: the “shows how” of Miller’s pyramid (Gormley 2011).
조직적인 이유로 OSCE 전달의 현재 구성은 종종 연속적인 날짜에 스테이션의 재사용을 수반합니다. 그러나 이는 응시자들이 시험 내용에 대해 결탁할 수 있는 잠재적 기회(즉, 부정행위)를 주며, 나중에 시험을 치르는 학생들에게 잠재적으로 유리할 수 있다(Park et al. 2006). 궁극적으로 [담합 의혹]은 시험성적의 타당성에 대한 의구심을 불러일으킬 수 있고, 이러한 행위에 연루된 것으로 의심되는 학생들의 정직성integrity에 의문을 제기할 수 있으며, 이로 인해 의료계에 대한 국민의 신뢰가 훼손될 수 있다. 게다가 이러한 유착은 weaker student에게 더 이득이 되어서, 결과적으로는 합격하지 않았어야 할 학생이 합격하는 결과를 낳는다. For organizational reasons the current configuration of OSCE delivery often involves the re-use of stations on consecutive days. This however gives candidates a potential opportunity to collude over the contents of the examination (i.e. cheat), potentially conferring an advantage to students undertaking the examination on later sittings (Parks et al. 2006). Ultimately, the suspicion of collusion can raise doubts over the validity of the examination grades and draw into question the integrity of students suspected of participation in this behavior, with consequent risk to the trust of the public in the medical profession (Smith 2000). In addition such collusion may advantage the weaker who students more and result in some passing should not.
OSCE 결과에 대한 이전의 연구는 [시간이 지남에 따라 반복되는 스테이션]에서 학생 점수가 크게 향상되지 않았다. 이 연구들은 미국, 영국, 한국의 3학년과 4학년 학생들을 대상으로 실시되었다. Previous studies of OSCE results have not shown a significant improvement in student scores for stations repeated over time . These studies have been performed using third year and fourth year students in USA, UK and South Korea.
현재까지 가장 많은 학생을 대상으로 한 연구는 Parks 등이 수행했다. (2006년), 2일 동안 의대 3학년생 255명의 OSCE 점수를 분석했습니다. 학생 담합은 의과대학이 설치한 온라인 토론 게시판을 통해 확인됐다. 그러나 OSCE의 1일차 총점에서는 2일차 대비 유의한 차이가 관찰되지 않았다. 슬라이드가 바뀌었음에도 불구하고 1일차에 적용된 진단을 2일차에 82명이 잘못 적어낸 병리학 스테이션의 한 하위 항목에서만 담합 효과를 명확히 알 수 있었다. The study with the largest number of students to date was performed by Parks et al. (2006), who analyzed the OSCE marks of 255 third year undergraduate medical students over a 2-day period. Student collusion was confirmed via an online discussion board set up by the medical school. However, no significant difference was observed in the total mark for the OSCE on day 1 compared with day 2. A clear indication of the effects of collusion could only be obtained from a single subsection of a pathology station, where 82 students on day 2 incorrectly gave the diagnosis which had applied on day 1 despite the slide having been changed.
방법 Methods
학생 그룹Student population
영국 글래스고 대학(University of Glasgow, UK, Scotland)에서 의대생 OSCE 최종학년의 시험 성적이 분석되었다. 이 연구의 목적상, 최종 연도 코호트 6개(2009-2010~2014-2015 포함)가 연속 포함되었다. 1505명의 학생들의 데이터가 포함되었습니다(n→238, 262, 226, 261, 259, 259). 모든 학생은 OSCE에 응시하기 전에 최종 종료 전까지 다른 서킷 또는 장소에서 OSCE를 보게 될 학생과 OSCE 내용을 논의해서는 안 된다는 안내를 받는다.
(1) 형형성 문제 및 동료에 대한 존중 문제
(2) 개인적으로 GMP의 표준을 충족하지 못하는 문제
(3) 대학 시험 규정 위반
Examination performance of final year medical students OSCE at (Year 5) undertaking their the University of Glasgow, Scotland, UK, was analyzed. For the purpose of this study, 6 consecutive final year cohorts were included (2009–2010 to 2014–2015 inclusive). Data from 1505 students was included (n¼238, 262, 226, 261, 259, 259 in consecutive years). All students are given instructions prior to sitting the OSCE advising that they must not discuss the content of the OSCE with candidates sitting the OSCE at other sites or circuits until the final completion of the examination due to
(1) issue of equity and respect to colleagues;
(2) issue of failure to personally meet standards of Good Medical Practice; and
(3) breach of University examination rules.
또한 시험이 진행되는 동안 [어떤 방법으로든 OSCE의 내용에 대해 논의한 것]으로 판명될 경우 상원에 회부하고 공식적인 실무 적합성 절차를 밟는 등의 징계 조치를 취할 것을 권고합니다.
They are also advised that if they are found to be discussing the content of the OSCE by any means while the examination is running, they will be subject to disciplinary action in the form of referral to Senate and formal Fitness to Practice procedures.
OSCE 형식 OSCE format
매년 최종 학부 의학 커리큘럼의 임상 구성요소에 기여하는 OSCE 스테이션이 32개에서 50개 사이였다. 시험은 A~D의 네 부분으로 나뉘었다. 각 파트는 서로 다른 필드를 평가했습니다.
A – 산부인과 및 정신의학,
B – 의학 및 수술,
C – 소아과,
D – 기타 전문 분야.
For each year, there were between 32 and 50 OSCE stations that contributed to the clinical component of the final year undergraduate medical curriculum. The examination was divided into four parts: A–D. Each part assessed different fields:
A – Obstetrics and Gynaecology and Psychiatry,
B – Medicine and Surgery,
C – Paediatrics,
D – Other specialties.
모든 SP들은 그 역할을 위해 훈련을 받는 훈련된 배우들이다. 또한 대다수의 SP들은 커뮤니케이션 기술 교육에 참여하기 때문에 SP의 역할에 경험이 많습니다. All SPs are trained actors who undergo training for the role. The majority of the SPs also take part in the teaching of communication skills so are highly experienced in the role of SP.
각 스테이션에는 회로 중에만 평가자examiner가 한 명씩 있었습니다. 모든 examiner은 선임 임상의사였고 모두 OSCE 평가에 대한 교육을 받았다. 평사자는 같은 날 또는 다른 날에 두 개 이상의 회로에 대해 동일한 스테이션을 표시할 수 있지만, 어떤 평가자도 동일한 스테이션을 전체 4-5일 동안 채점하지examined 않았습니다. 또한, 평가자는 같은 날 또는 다른 날에 다른 서킷의 다른 스테이션을 평가했을 수 있습니다. Each station had one examiner only during a circuit. All examiners were senior clinicians and all were trained in OSCE assessment. While an examiner could mark the same station for more than one circuit on the same day or on different days, no individual examined the same station for the full 4–5 days. In addition, examiners may have assessed a different station during another circuit on the same or different days.
각 스테이션에 대해 학생은 객관적인 항목 목록에 대해 20점 만점으로 채점되었다. 또한, 평가자는 학생의 성적을 글로벌하게 판단하여 "합격", "실패", "경계선"으로 분류하였다. 그런 다음, 각 스테이션의 합격점수는 경계선 등급을 받은 모든 응시자의 숫자 점수를 취하여 이 점수의 평균을 계산하여 계산하였다. 학생들의 합격/불합격은 score로만 결정되었고, 이러한 점에서 전반적global 판단은 어떠한 가중치도 부여되지 않는다. For each station, the student was marked out of 20 against an objective list of items. In addition, the examiner made a second, global judgment of the student’s performance and categorized it as a “Pass”, “Fail” or “Borderline”. The pass mark for each station was then calculated by taking the numerical scores for all candidates who were rated as borderline and calculating the mean of these scores. Students passed or failed by their scores alone; the global judgment is not given any weighting in this regard.
데이터 보호 및 윤리 승인 Data protection and ethical approval
통계 분석 및 데이터 표시 Statistical analysis and data presentation
각 연도 그룹에 대해 매일 통과된 스테이션 비율이 그래픽으로 표시됩니다. 혼합 효과 로지스틱 회귀 분석을 사용하여 각 개별 측점을 통과할 확률과 관련된 요인을 모형화했습니다. 모형에는 학생과 회로에 대한 랜덤 효과가 포함되었습니다. 고정 효과는 검사일(1~5일), 시간(오전/오후), 성별 및 연도와의 연관성을 평가하기 위해 포함되었다.
The percentage of stations passed on each day are presented graphically for each year group. Mixed effects logistic regressionwas used to model factors associated with the probability of passing each individual station. Models included random effectsfor students and circuits. Fixed effectswere included to assess the association with day of examination (1–5), time of day (am/pm), gender and year.
우리는 OSCE에 합격한 각 학생의 예상 확률을 추정하기 위해 우리의 모델을 사용했습니다. 그런 다음, 각 학생에 대해 각 역이 사용된 날짜와 시간의 조합을 같은 학년 그룹에서 서로 주어진 해당 조합으로 대체했습니다. 이러한 방식으로 우리는 같은 해 학생에게 스테이션이 할당되는 방식의 제약 내에서 각 학생에 대한 OSCE 합격 확률에 대한 요일별 및 시간별 합격률 변동의 잠재적 영향을 평가할 수 있었습니다.
We used our model to estimate the predicted probability of each student passing the OSCE overall. Then, for each student, we replaced the combination of days and times that each station was taken, with the corresponding combinations that each other student was given in the same year group. In this way, we were able to assess the potential impact of variation in pass rates by day and time on the overall probability of passing the OSCE, for each student, within the constraints of the way that stations were allocated to students in the same year.
결과 Results
인구통계학적 변수 및 일반 OSCE 성능 Demographic variables and general OSCE performance
표 1은 학생들의 인구통계학적 특성을 요약한 것이다. Table 1 summarizes the students’ demographic characteristics;
OSCE 측점을 통과할 가능성에 영향을 미치는 변수의 유의성 Significance of influencing variables on likelihood of passing OSCE stations
표 2는 혼합 효과 로지스틱 회귀 분석에서 도출된 학년도, 성별, 일, 시간 간의 추정 연관성 및 스테이션 합격 확률을 보여줍니다. 6년 동안 스테이션를 합격할 확률에는 유의한 차이가 없었습니다. 여학생보다 남학생이 각 스테이션을 합격할 확률이 낮았습니다(p<0.001). 하루가 지날 때마다 스테이션 통과 확률이 20%씩 증가하는 추세가 있었습니다. 이러한 연관성은 그림 1에서도 확인할 수 있습니다. 전체적으로 학생 한 명이 통과하는 평균 역 수가 5일 동안 증가했습니다. Table 2 shows the estimated associations between academic year, gender, day, and time, and the probability of passing a station, derived from the mixed effects logistic regression analysis. There were no significant differences in the probability of passing stations across the six year groups. Male students were less likely to pass each station than female students (p<0.001). There was a trend across days, with the odds of passing a station increasing by 20% for each additional day. This association can also be seen in Figure 1. Overall, the mean number of stations being passed by each student rose over the 5 days.
OSCE 합격 확률 예측 Predicted probability of passing the OSCE
그림 2는 각 학생이 OSCE 시험을 전체적으로 통과하는 데 필요한 최소 스테이션 수를 통과할 수 있는 예측 확률을 보여줍니다. 이는 각 학생이 할당된 날짜와 시간의 실제 조합과 같은 연도 그룹의 다른 학생으로부터 얻은 가능한 모든 대체 조합에 기초한 혼합 효과 로지스틱 회귀 분석 모형에서 파생되었습니다. Figure 2 shows the predicted probability of each student passing the minimum number of stations needed to pass the OSCE examination overall. This was derived from the mixed effects logistic regression model, based on the actual combination of days and times that each student was allocated, and under all possible alternative combinations, taken from the other students in the same year group.
혼합 효과 로지스틱 회귀 분석 모형에는 학생에 대한 랜덤 효과가 포함됩니다. 즉, 학생의 능력이 모형에 기본 제공되는 것으로 가정된 분포가 있습니다. 이 분포의 맨 아래에 있는 학생만 전체 예측 합격 확률이 100% 미만으로 유의하게 떨어집니다. 이러한 학생의 경우 각 측점을 사용하는 요일과 시간을 변경하면 전체 합격 확률에 더 큰 영향을 미칩니다. 이 모델에 따르면 이러한 효과는 클 수 있습니다. 일부 학생의 경우 합격 확률은 자신이 소속된 요일과 시간에 따라 10%~90% 정도 달라질 수 있습니다. 그러나 이러한 예측은 모형의 극단적 가장자리에서 이루어지는 것이므로, 이러한 학생들이 관측소를 선택한 시기의 영향을 정확하게 나타내지 못할 수 있습니다. The mixed effects logistic regression model includes a random effect for students; in other words, there is an assumed distribution of students’ abilities built in to the model. Only for those students at the lower end of this distribution does the overall predicted probability of passing dip noticeably below 100%; for these students, varying the days and times on which each station is taken has a greater effect upon overall probability of passing the examination. According to the model, this effect can be large: for some students, the probability of passing could vary between 10% and 90%, depending on the days and times on which they take their stations. Note, however, that these are predictions being made at the extreme fringes of the model and may not be an accurate representation of the impact of when stations were taken for these students.
학생 성과별 일수 및 시간 분포 Distribution of days and times by student performance
표 3은 학생들이 매년 자신의 역에 앉아 최종 학점에 따라 나눈 평균 날을 보여줍니다. Table 3 shows the mean day on which students sat their stations each year, divided according to the final grade achieved.
고찰 Discussion
우리의 연구에 따르면 최종 학년 의대생들은 시험 기간 [초기]에 같은 OSCE 스테이션을 수강하는 학생들에 비해 [나중]에 응시할 경우 OSCE의 스테이션을 통과할 가능성이 상당히 높았으며, 특히 이러한 효과는 [약체 학생weaker student]들에게 두드러졌다. 이는 학생 담합이 OSCE 합격의 기회를 증가시키는 데 기여 가능한 요소임을 시사한다. 가장 가능성이 높긴 하지만 담합만이 가능한 설명은 아니다. 시간이 지날수록 수험 적응도가 높아지고, 담합이 없는 상황에서도 성적이 좋아질 수 있다. 시험관은 시간이 지남에 따라 점수를 매기는 경향이 일정하게 변화했을 수 있습니다. 예를 들어, 대부분의 시험관은 반나절 이상 수업을 하지 않기 때문에 이는 가능성이 낮지만, 이것이 발생할 것으로 예상할 이유는 없습니다. 메커니즘과 상관없이, 우리의 데이터는 시험을 보는 날이 시험 성과에 영향을 줄 수 있음을 시사합니다. Our study suggests that final year medical students were significantly more likely to pass a station in the OSCE if undertaken on a later day compared to students undertaking the same OSCE station on earlier days of the examination period and that this effect was particularly marked for weaker students. This suggests that student collusion is a possible contributory factor in increasing the chances of passing an OSCE station. Although most probable, collusion is not the only potential explanation. Students may become more attuned to the examination process over time and show improved performance even in the absence of collusion. Examiners may demonstrate trends in their marking over time, for example, becoming more lenient on later days, though this is unlikely since the vast majority of all our examiners do not do more than one half-day session and there is no reason to expect this to occur. Regardless of the mechanism, our data suggests that the day on which an exam is taken may influence examination performance.
그림 1에서 볼 수 있듯이 최소 3일 후 시험을 치르는 학생들을 비교할 때 유의미한 이점이 나타나기 시작하는데, 이는 담합 효과가 점차 발생함을 시사한다. 본 연구에서 사용된 대규모 데이터 집합은 특정 스테이션에서 합격할 가능성과 관련된 요인에 대한 강력한 평가를 가능하게 했으며 따라서 일 및 오후와의 연관성을 더 정확하게 추정할 수 있게 되었다. As indicated in Figure 1, significant advantages start to appear when comparing students doing examinations at least three days later, suggesting that any effect of collusion accrues gradually. The large dataset used in our study has made possible a robust assessment of factors associated with the likelihood of passing a station and therefore allowed for estimation of the associations with day and am/pm with greater precision.
분석 결과에 대응하여, (연구자의 소속기관에서는) 이후의 회로later circuit에 있는 후보자에게 어떠한 내용도 알려지지 않도록 하고, (모든 사이트와 회로에 걸쳐 모든 후보자에 대한 공정한 검사를 보장하기 위해) OSCE 기간 동안 모든 후보자가 격리됩니다. 여기에는 학생들이 완전히 전자적으로 격리되지 않은 상태가 포함됩니다. 다만 이 상태는 감독자invigilator가 감시한다. 또한, 모든 MBChB 신입생들은 이제 학생 협약에 서명합니다. 이 협약은 소셜 미디어와 관련하여 다음과 같은 내용을 담고 있습니다.
"전문적으로 커뮤니케이션해야 할 책임이 디지털 미디어까지 확대된다는 것을 알고 있습니다. 나는 의대생이나 의사가 기대하는 개인적인 특성에 따라 개인에게 걱정이나 고통을 줄 수 있는 이미지나 문자를 온라인에 올리지 않을 것이다. Placement 중에는 NHS 리소스를 통해 소셜 미디어에 액세스하지 않을 것입니다."
In response to the outcomes from our analysis, to ensure that no content becomes known to candidates sitting in later circuits and to ensure a fair examination for all candidates across all sites and circuits, all candidates are now quarantined during the OSCE. This involves the students not having full electronic isolation – supervised by invigilators. Further, all new MBChB students also now sign a student agreement, which notes the following with regards to social media –
“I am aware that my responsibility to communicate professionally extends to digital media. I will not post images or text online which may cause concern or distress to any individual, in keeping with the personal attributes expected of a medical student or doctor. I will not access social media through NHS resources while on placement”.
마지막으로, 일반적인 조치의 일환으로, 학교 전체의 학부생들이 디지털 능력 향상 프로젝트에 참여했습니다. 학생들은 디지털 아이덴티티 설문조사에 참여하도록 초대되었다. 조사 결과로부터 학생들이 더 많은 지침을 원하는 주요 주제를 파악했다.
디지털 아이덴티티 관리,
온라인 환경에서의 전문성,
디지털 웰빙,
생산성 기술(디지털 산만distraction 관리 포함),
온라인 커뮤니케이션 및 협업 기회 등
40명의 학생 파트너는 이러한 분야의 잠재적인 과제, 해결책 및 커리큘럼 개발 기회에 초점을 맞춰 직원들과 협업했습니다. Finally, as part of general measures, undergraduate students from across the school have engaged in a digital skills enhancement project. Students were invited to participate in the Digital Identity survey. The results identified key topics on which students want more guidance, including
digital identity management,
professionalism in an online environment,
digital well-being,
productivity skills (including management of digital distractions), and
opportunities for communication and collaboration online.
Forty student partners worked in collaboration with staff, focusing on potential challenges, solutions, and opportunities for curriculum developments in these areas.
결론적으로, 우리의 증거는 나중에 같은 OSCE 스테이션을 받는 학생들이 시험 기간 초반의 학생들에 비해 더 나은 합격 기회를 가지고 있으며, 이는 특히 능력이 떨어지는 학생들에게서 두드러진다. 이것이 학생 간의 담합을 반영하는 것인지, 시험관 평가의 동향인지, 아니면 일부 다른 편견의 원천을 반영하는 것인지 결정할 수 없다. 우리는 우리의 연구가 특히 약한 학생들을 대상으로 한 첫 번째 연구라고 믿는다. 우리가 설명하고 있는 효과는 성적이 더 높은 학생들 사이에서 덜 명백할 것으로 보인다. 그리고 환자의 관점에서 볼 때, 의사들이 그렇지 않을 경우 자격을 얻을 수 있는 이러한 가능한 효과는 매우 중요합니다. In conclusion, our evidence suggests that students undertaking the same OSCE stations later on in an examination period have a better chance of passing compared to students earlier in an exam period, and this is particularly evident for the less able students. Whether this reflects collusion between students, trends in examiner assessments, or some other source(s) of bias, cannot be determined. We believe ours is the first study to look particularly at weaker students; it seems likely that any effects we are describing would be less apparent among the higher-performing students. And, from the point of view of the patient, this possible effect, which could result in doctors qualifying who would not otherwise do so, is of key significance.
담합: 종종 비밀스럽고 신중한 시험 내용을 학생들 간에 고의적이고 용납할 수 없는 공유는 부정행위나 다름없다.
Collusion: The intentional and impermissible sharing of exam contents between students, which is often secret and discreet, and is tantamount to cheating.
Purpose:To investigate if final year medical students undertaking an OSCE station at a later stage during examination diet were advantaged over their peers who undertook the same station at an earlier stage, and whether any such effect varies by the student's relative academic standing.Methods:OSCE data from six consecutive final year cohorts totaling 1505 students was analyzed. Mixed effects logistic regression was used to model factors associated with the probability of passing each individual station (random effects for students and circuits; and fixed effects to assess the association with day of examination, time of day, gender and year).Results:Weaker students were more likely to pass if they took their OSCE later in the examination period. The odds of passing a station increased daily by 20%. Overall, the mean number of stations passed by each student increased over the 5 days.Conclusions:Students undertaking the same OSCE stations later in examination period statistically had higher chances of passing compared to their peers, and the weaker students appear to be particularly advantaged. These findings have major implications for OSCE design, to ensure students are not advantaged by examination timing, and weaker students are not "passing in error".
의학교육에서 기준선 설정: 고부담 평가(Understanding Medical Education 3rd Ed, Ch 24) 24 Standard Setting Methods in Medical Education: High‐stakes Assessment
Andre F. De Champlain
Research and Development, Medical Council of Canada, Ottawa, Ontario, Canada
의사 결정의 필요성 The Need to Make Decisions
사람, 객체, 사물을 '분류classification'하는 의사결정의 필요성은 일상적인 것에서 가장 중요한 것에 이르기까지 일상생활의 모든 측면에 스며 있다. 예를 들어 운전면허 취득을 위한 시험에 합격하려면 교통법규 및 성과(합격, 평행주차 등)에 관한 일정 수준의 숙련도를 갖추어야 한다. 이러한 분류의 목적은 안전하지 않은 운전자들이 차량의 운전대를 잡지 못하게 하는 것이다. 마찬가지로, 형사 재판에서 판결을 내리는 배심원단은 사건의 증거(즉, 관련 자료 분석)를 신중하게 검토한 후 피고를 '유죄' 또는 '무죄'로 '분류'하는 혐의를 받는다. 배심원단은 여러 측면에서 평가에서 표준 설정과 유사하다.
The need to make decisions that assign people, objects, or things into ‘classifications’ permeates all aspects of daily life, from the mundane to the most significant. For instance, passing an examination to obtain a driver’s licence requires meeting a certain level of proficiency with regard to knowledge of traffic laws and performance (passing, parallel parking, etc.). The aim of such a classification is to keep unsafe drivers from getting behind the wheel of a vehicle. Similarly, a jury that renders a verdict in a criminal trial is charged with ‘classifying’ a defendant as ‘guilty’ or ‘not guilty’, after carefully weighing the evidence of a case, i.e. analysing relevant data. The jury analogy seems particularly relevant to standard setting in assessment on a number of counts:
• 두 활동 모두 모집단에서 충분히 크고 대표적인 참가자 집단이 필요하다(시민권 또는 직업권). • Both activities require a sufficiently large and representative participant group from the population (whether a citizenry or a profession).
• 두 활동 모두 분류 목적으로 사용할 결정이 필요하다(판결 제출 또는 통과/실패 기준 설정). • Both activities necessitate a decision that will be used for classification purposes (rendering a verdict or setting a pass/fail standard).
• 정보의 의도된 사용은 각 사례에서 매우 유사하다(형사 재판에서의 수용 및/또는 갱생과 그에 상응하는 공공의 보호 및 표준 설정에서의 교정조치 고려사항). • The intended use of the information is very similar in each instance (incapacitation and/or rehabilitation in a criminal trial and the corresponding protection of the public and remediation considerations in standard setting).
의사 결정의 필요성 또한 학부 의학 교육에서 재검증까지 의사 생활의 모든 단계에서 중요한 부분입니다. 주요 결정은 의과대학 수준[8–12]뿐만 아니라 의과대학 수준[1]에서 자격증을 부여하거나 보유할 때, 또는 보유할 때, 또는 자격증은 [3–5] 또는 전문기관[6, 7]에 대한 진입을 허용하거나 거부할 때 발생한다. 이러한 결정은 기준선 설정standard setting이라고 하는 프로세스를 통해 이루어집니다. Cizek [13]은 기준선 설정을 '[두 개 이상의 상태 또는 성과 정도를 구별]하기 위하여 [숫자의 할당]을 초래하는 [규정되고 합리적인 규칙 또는 절차의 적절한 추종]'(예: 통과/실패)으로 설명한다. 졸업자뿐 아니라 자격증 및 면허 소지자가 안전한 임상 실습을 허용하는 지식과 기술을 보유하고 있는지 확인해야 한다는 점을 감안할 때, 보건 전문가 내에서 이 활동은 특히 중요합니다 [14, 15]. 그럼에도 불구하고 용어 컷 점수 및 합격 기준에 대한 기본적인 오해는 여전히 지속되고 있습니다(박스 24.1 참조).
The need to make a decision is also part‐and‐parcel of all phases of a physician’s professional life, from undergraduate medical education to revalidation. Key decisions occur when awarding or denying an unrestricted licence to practise medicine [1, 2], granting or withholding a credential [3–5], or granting or denying entry into a professional body [6, 7], as well as at the medical school level [8–12]. These decisions are arrived at through a process that is referred to as standard setting. Cizek [13] describes standard setting as ‘the proper following of a prescribed, rational system of rules or procedures resulting in the assignment of a number to differentiate between two or more states or degrees of performance’ (e.g. pass/fail). This activity is especially critical within the health professions, given the need to ensure the public that graduates as well as holders of certificates and licences possess the knowledge and skill sets that permit safe clinical practice [14, 15]. In spite of this, a basic misconception still persists regarding the terms cutscoreand passing standard(see Box 24.1).
BOX 24.1 정의 BOX 24.1 Definitions • 표준(기준선)은 성과 수준에 대한 질적 설명이며, 역량의 개념적 정의로 볼 수 있다.
• 컷점수 또는 합격점수는 이 표준을 반영하는 숫자에 해당하며, 역량의 조작적 정의로 볼 수 있다.
•Astandardis a qualitative description of a level of performance and can be viewed as a conceptual definition of competence. •Acut‐scoreor passing score corresponds to a number that reflects this standard and can be viewed as an operational definition of competence
표준 대 절단→점수 Standard Versus Cut‐score
기준과 참조 설정에서 시험 점수를 주로 사용하는 것은, 응시자가 [시험의 기초가 되는 것으로 추정되는 역량의 집합]을 숙달했는지 여부를 결정하는 것이다. 학교 수준이든, 면허 또는 인증 결정이든, 기준 설정은 합격 기준을 식별하기 위해 정기적으로 수행되며, 이는 중요하다고 간주되고 시험에 의해 측정되는 기술 영역의 숙달 또는 역량의 지표로 취급됩니다. The primary use of any test score in a criterion‐referenced setting is to determine whether a candidate has mastered a set of competencies presumed to underlie performance on the examination. Whether at the school level or for licensure and/or certification decisions, standard setting exercises are routinely carried out to identify a passing standard, which is treated as an indicator of mastery or competency in the skill areas deemed important and measured by an examination.
케인[16]은 [합격기준passing standard]을 [실무에서 요구되는 허용 가능한 수준의 성과와 지식에 대한 질적 설명]으로 정의한다. 이와 같이 통과기준은 역량의 개념적 정의 또는 질적 정의로 볼 수 있다. 예를 들어, 최종 1년간의 학부 OSCE에서는 경계선 후보가 [감독된 의료에 진입하는 데 필요한 데이터 수집, 신체 검사 및 의사소통 기술을 입증]하도록 규정할 수 있다.
Kane [16] defines a passing standard as a qualitative description of an acceptable level of performance and knowledge required in practice. As such, the passing standard can be viewed as a conceptual or qualitative definition of competence. For example, in a final‐year undergraduate OSCE, a standard might stipulate that the borderline candidate demonstrate the data gathering, physical examination, and communication skills necessary for entry into supervised practice.
반면 [컷(cut) 점수]는 표준을 반영하는 점수 척도를 따르는 [숫자]입니다. 이것은 역량에 대한 조작적 정의입니다. 이전 예에서 전문가 패널리스트는 [65% 이상의 점수]를 받은 응시자가 최종 1년제 학부 OSE의 성과 표준을 충족했다고 판단할 수 있습니다.
The cut‐score, on the other hand, is a number along the score scale that reflects the standard. It is an operational definition of competence. In our previous example, expert panellists might decide that a candidate who scores at or above 65% has met the performance standard for the final‐year undergraduate OSCE.
표준 설정의 주요 고려 사항 Key Considerations in Standard Setting
[표준 설정standard setting]은 [점수 척도를 두 개 이상의 범주로 분할할 수 있도록 합리적이고 방어 가능한 방법으로 인간의 판단을 종합할 수 있는 과정]이다. [전문가의 판단]에 중점을 둔다는 점에서, 모든 [표준은 본질적으로 주관적]이라는 점을 강조하는 것이 중요합니다. 따라서 시험에서 컷-점수를 정할 때는 'gold standard'가 없다. 컷(cut) 점수는 표준과 참여 심판 패널 설정을 위해 선택한 방법을 포함하여 여러 요인의 함수로 달라질 수 있으며 이에 국한되지 않는다[17–21]. Standard setting is a process that allows human judgements to be synthesised in a rational and defensible way to facilitate the partitioning of a score scale into two or more categories. Given the emphasis on expert judgement, it is important to underscore that all standards are intrinsically subjective in nature. Consequently, there is no ‘gold standard’ when it comes to setting a cut‐score on an examination. Cut‐scores can and will vary as a function of several factors, including, but not limited to, the method selected to set the standard and the panel of participating judges [17–21].
Jaeger[18]는 '판단을 제공하는 사람들의 마음을 뺀다면, 아마도, (기준 설정에서의) 정답이 존재하지 않을 것이다'고 언급함으로써 이 점을 가장 잘 요약하였다. 적절한 경험적 증거로 뒷받침되는 체계적인 과정을 따르는 것은 표준 설정 패널이 (정책 기반) 판단을 방어 가능한 방식으로 점수 척도로 해석하는 데 도움이 될 수 있지만, 숙련자를 비숙련자로부터, 또는 통과자를 실패자로부터 완벽하게 구분하는 어떤 '참true' cutscore를 추정하는 데 사용할 수 있는 방법은 없다.
Jaeger [18] best summarised this point by stating that ‘a right answer (in standard setting) does not exist, except, perhaps, in the minds of those providing judgement’. Following a systematic process that is supported with appropriate empirical evidence can help standard setting panels translate (policy‐based) judgement onto a score scale in a defensible manner, but no method can be used to estimate some ‘true’ cut‐score that perfectly separates masters from non‐masters or passers from failers.
모든 표준 설정 프로세스의 [내재적 주관성]을 고려하여, 모범 사례는 배경 및 교육 특성과 관련하여 대상 시험 모집단을 광범위하게 대표하는 심판 패널의 선발을 필요로dictate 한다[22, 23]. 표준 설정 패널 구성은 의료 교육에서 평가가 복잡하다는 점을 감안할 때 훨씬 더 관련이 깊어집니다. 그들의 연공서열과 전문지식 수준에도 불구하고, 평가의 목적을 감안할 때 결과적인 컷(cut) 점수가 합리적인지 확인하기 위해서는 패널리스트에 대한 광범위한 교육이 필수적입니다 [24]. 적어도, 평가의 목표, 표준 설정의 목적, 완료를 요구하는 과제, 최소한의 숙련도 또는 경계선 성과를 구성하는 일반적인 정의 등과 관련하여 [모든 패널리스트가 서로 조화를 이루도록 보장하기 위한 교육]이 필요하다[25].
In view of the inherent subjectivity of any standard setting process, best practice dictates selection of a panel of judges that broadly represents the target examination population, with respect to background and educational characteristics [22, 23]. The composition of the standard setting panel becomes even more relevant given the complexity of assessments in medical education. Despite their seniority and level of expertise, extensive training of panellists is essential to ensure that the resulting cut‐score is reasonable given the objectives of the assessment [24]. If nothing else, training is necessary to ensure that all panellists are in harmony with one another in regard to the goal of the assessment, the purpose of the standard setting exercise, the task that they are asked to complete, and a general definition of what constitutes minimal proficiency or a borderline performance [25].
일반적인 표준 설정 교육 세션에는 다음과 같은 여러 단계가 필요합니다.
(i) 패널리스트에 대한 검체 검사 자료의 제공
(ii) 참가자에게 완료를 요구하는 과제의 명확한 표시
(iii) 경계선 후보의 정의에 할당된 토론 기간
(iv) 예시 세트에 대한 판단
(v) 참가자 간의 오해를 명확히 하기 위한 토론 기간
(vi) 훈련의 모든 측면에 대한 사후 조사[22].
A typical standard setting training session requires a number of steps including:
(i) the provision of sample examination materials to panellists;
(ii) a clear presentation of the task that participants are being asked to complete;
(iii) a period of discussion allocated to the definition of the borderline candidate;
(iv) judgements on a set of exemplars;
(v) a discussion period to clarify any misconceptions amongst participants; and
(vi) a post‐exercise survey on all aspects of training [22].
이러한 주의사항에도 불구하고, 이 장에 설명된 방법들은 결과적인 cut-score가 변덕스러운 판단보다는 정보에 입각한 판단에 근거하도록 보장하기 위해 따를 수 있는 체계적인 단계를 제공한다. 우선 검사의 절단 점수 결정을 위한 일반적인 방법의 개요(박스 24.2 참조)를 살펴보고, [표준 참조 표준]과 [기준 참조 표준]의 차이를 알아볼 것이다.
Despite these caveats, the methods outlined in this chapter will provide systematic steps that can be followed to ensure that the resulting cut‐score is defensible and based on informed, rather than capricious, judgements on the part of the expert panel. The difference between a normreferenced standard and a criterion‐referenced standard will first be reviewed prior to an overview of common methods for determining a cut‐score on an examination (see Box 24.2).
BOX 24.2 주요 고려 사항 BOX 24.2 Key considerations • 표준 설정에는 'gold standard'가 없습니다.
• 표준 및 그에 수반되는 감점 점수는 [역량을 구성하는 것에 대한 전문가의 판단]을 반영해야 하며, 몇 가지 근거 출처에 의해 뒷받침되어야 한다.
• 표준 설정 패널은 성별, 연령, 전문 분야, 지리적 영역 등과 관련하여 모든 핵심 검사 이해 당사자를 폭넓게 대표하는 전문가로 구성되어야 한다.
• 표준설정행위의 모든 측면에 대해 패널리스트를 철저히 교육하는 것은 채택된 방법에 관계없이 모든 표준 설정 연습의 성공에 필수적인 작업이다.
•There is no‘gold standard’in standard setting. •A standard and accompanying cut‐score should reflect expert judgement as to what constitutes competence, supported by several sources of evidence. •A standard setting panel should be composed of experts who broadly represent all key examination stakeholders with respect to gender, age, specialty, geographical area, etc. •Thoroughly training panellists on all aspects of the exercise is a task critical to the success of any standard setting exercise, regardless of the method adopted.
Norm → 참조 대 기준 → 참조 Norm‐ referenced Versus Criterion‐referenced Standards
아주 넓게 본다면, 표준은 성격상 [규범-참조] 또는 [준거-참조]로 분류될 수 있다[26]. At a very high level, standards can be classified as either norm‐referenced or criterion‐referenced in nature [26].
[규범 참조 표준]은 비교 후보 그룹의 성과에서 절단 점수가 도출된다는 점에서 [상대적인 표준]이다. 절단 점수를 클래스 평균보다 높은 표준 편차로 설정하거나 절단 점수를 분포의 90번째 백분위수 순위에서 고정하는 등, 표준 참조 표준의 예는 많습니다. 기본적인 개념은 컷아웃 점수가 비교 집단의 상대적 성과의 함수로만 설정된다는 것이다. 우리는 순전히 다른 응시자들이 얼마나 잘(또는 못) 시험을 잘 보느냐에 따라 응시자를 합격시키거나 불합격시킵니다. A norm‐referenced standard is a relativestandard in that the cut‐score is derived from the performances of a comparative group of candidates. There are many examples of norm‐referenced standards, such as setting the cut‐score at one standard deviation above the mean of the class or fixing the cut‐score at the 90th percentile rank of a distribution. The fundamental notion is that the cut‐score is set solely as a function of the relative performances of a comparative group. We pass or fail a candidate on an examination purely based on how well (or badly) other test takers performed.
반면에, [준거 참조 프레임워크] 내에서, 표준은 일반적으로 그룹 성과에 관계없이 후보자가 입증해야 하는 영역의 지식의 함수로 설정된다. 따라서 이것은 절대적인 기준입니다. 예를 들어, 의료 전문가 패널은 전문적 판단과 검사의 목적에 따라 지원자가 최소의 역량을 갖춘 것으로 간주되려면 해당 영역의 70%를 마스터해야 한다고 결정할 수 있다. On the other hand, within a criterion‐referenced framework, the standard is typically set as a function of the amount of knowledge of the domain that the candidate needs to demonstrate, irrespective of group performance. As such, it is an absolute standard. For example, a panel of medical experts might determine that a candidate needs to master 70% of the domain to be deemed minimally competent, based on their professional judgement and the objectives of an examination.
전문적 검사의 경우, 일반적으로 여러 가지 이유로 [준거 참조 표준criterion‐referenced standards]이 선호된다.
첫째, 규범 참조 표준은 그룹의 상대적 성과에 전적으로 기초하기 때문에 주어진 후보가 알고 있거나 모르는 것에 대해 거의 또는 전혀 언급하지 않는다.
둘째, 더 중요한 것은, 규범 참조 표쥰에서의 컷(cut) 점수는 [그룹의 능력 수준]에 따라 다양하다는 것이다.
For professional examinations, criterion‐referenced standards are generally preferred for a number of reasons.
First, a norm‐referenced standard tells little to nothing about what a given candidate knows or does not know, since it is entirely based on the relative performance of the group.
Second, and more importantly, the cut‐score selected in a norm‐referenced standard setting exercise will vary as a function of the ability level of the group.
응시자의 수준이 낮으면 낮은 cut-score를 낳을 것이며, 더 능력이 뛰어난 응시자들의 cut score는 더 높아질 것이다. 이는 결국 능력 수준에 따라 다양한 후보군을 배출합니다. 예를 들어, 평균보다 1-표준 편차(1SD)로 컷(cut) 점수를 설정하면 [응시자(집단)의 지식수준에 관계없이 코호트의 약 16%가 실패]합니다. 그러나, 이 그룹들은 도메인에 대한 지식에 있어 큰 차이가 있을 수 있습니다. 만약 그 수업이 능력 있는 학생 대 능력 없는 학생으로 구성되어 있다면 분포의 '평균에 가까운' 점수는 상당히 다른 의미를 가질 수 있다. 즉, [합격 수행능력(즉, '최소한의 역량')]의 의미는 후보자가 언제, 누구와 합격했는지에 따라서 달라질 수 있다.
Lower cut‐scores will result from the performances of less proficient candidates, whereas higher cut‐scores will be set with more able cohorts. This, in turn, produces cohorts of candidates who vary in regard to their level of competence. For example, setting a cut‐score at one standard deviation below the mean will result in failing about 16% of any cohort, irrespective of what candidates may or may not know. However, it is conceivable that these groups could differ drastically in their knowledge of the domains. Scoring ‘near the average’ of a distribution can have quite a different meaning if the class is composed of high ability candidates versus less able students. That is, the meaning of a passing performance (and consequently ‘minimal competence’) can vary as a function of when and with whom the candidate passed. 따라서, 통과 기준을 설정하는 norm‐referenced 접근법은 정치적 및 직업적 관점 모두에서 방어할 수 없다untenable. 표준 참고 표준을 사용할 수 있는 유일한 상황은 [소수의 지원자를 선발해야 할 때]입니다(예: 제한된 수의 대학원 연수 시간). Consequently, a norm‐referenced approach to setting a passing standard is untenable from both political and professional perspectives. The only instance in which it may be acceptable to use a norm‐referenced standard is when the selection of a small number of candidates is necessary (e.g. for a restricted number of postgraduate training slots).
기준을 설정하는 Criterion‐referenced 방법은 이러한 많은 한계를 극복하기 때문에 매력적이다. Criterion‐referenced 방법을 사용하여 설정한 컷(cut) 점수는 특정 직업의 광범위한 분야를 대표하는 전문가들이 안전 실천에 필요한 기술과 지식을 보유한 후보자를 나타내는 숙련도 수준을 반영한다. 이러한 이유로, 의료 면허 분야뿐만 아니라 다른 보건 전문가 검사 프로그램에서도 몇 년 동안 Criterion‐referenced 설정 방법이 성공적으로 채택되고 옹호되어 왔다[1, 2, 27–29]. 다음 두 절에서는 가장 일반적으로 사용되는 기준 기준 설정 방법을 간략하게 설명합니다(박스 24.3 참조).
Criterion‐referenced methods for setting a standard are appealing because they overcome many of these limitations. A cut‐score that is set using a criterion‐referenced method reflects a level of proficiency that experts representing wide sectors of a given profession agree is indicative of a candidate who possesses the skills and knowledge required for safe practice. For this reason, criterion‐referenced methods for setting cut‐scores have been successfully employed and defended for several years in the medical licensing arena as well as with other health profession examination programmes [1, 2, 27–29]. The following two sections briefly describe the criterion‐referenced standard setting methods in most common use (see Box 24.3).
BOX 24.3 표준 대 기준 → 기준 BOX 24.3 Norm‐referencing versus criterion‐referencing • 표준 참조 표준norm‐referenced standard 은 상대적 표준이며 임의의 후보 그룹 성과 함수로 설정됩니다.
• 준거 참조 표준criterion‐referenced standard 은 절대적인 표준이며, 후보 그룹의 전체 성과에 관계없이 전문가가 역량을 반영한다고 생각하는 함수로 설정됩니다.
• 의학 교육에서의 시험의 경우, 표준 참조 표준은 선발 목적으로만 적합하다. 대다수의 결정(졸업, 사무직 합격 등)에 대해서는 criterion‐referenced standard이 적절합니다.
•A norm‐referenced standard is a relative standard and set as a function of the performance of an arbitrary group of candidates. •A criterion‐referenced standard is an absolute standard and set as a function of what experts believe reflects competence, regardless of the overall performance of any group of candidates. •With medical education examinations, norm‐referenced standards are only appropriate for selection purposes. For the vast majority of decisions (e.g. graduation, passing a clerkship, etc.), criterion‐referenced standards are appropriate.
테스트 중심 방법 Test‐ centred Methods
[준거-참조 테스트-중심 방법Criterion‐referenced test‐centred methods]은 객관식 검사와 같은 지식 평가에 대한 합격 점수를 설정하는 데 호소하고 있다. 이러한 표준 설정 형식에서, 전문가들은 시험 또는 과제의 각 항목에 요구되는 성능 수준을 판단하도록 요청받는다(예: 최소한의 숙련도). 자주 사용되는 일반적인 테스트 중심 방법에는 Angoff, Ebel, Nedelsky 및 Bookmark 절차[30]가 포함됩니다(상자 24.4 참조).
Criterion‐referenced test‐centred methods are appealing for setting a pass mark on knowledge assessments, such as multiple‐choice examinations. In this form of standard setting, experts are asked to judge the level of performance required on each item of the test or task to meet the standard (e.g. minimal proficiency). Common and frequently used test‐centred methods include the Angoff, Ebel, Nedelsky, and Bookmark procedures [30] (see Box 24.4).
BOX 24.4 FOCUS ON: 시험 중심 방법 BOX 24.4 FOCUS ON: Test‐centred methods • MCQ의 경우, 표준은 일반적으로 테스트 중심test‐centred 방법을 사용하여 설정됩니다. 널리 사용되는 테스트 중심 방법에는 Angoff, Ebel, Nedelsky 및 Bookmark 방법이 포함됩니다.
• 패널리스트가 시험 중심의 표준 설정 연습에서 최소한의 숙련도 있는 후보자에 대해 각 항목의 특성을 추정해야 하는 경우, 즉 Angoff 및 Bookmark 방법의 어려움, Ebel 방법과의 관련성, 그리고 추가로 Nedelsky 접근법으로 '추측'을 해야 하는 경우, 논의 훈련 단계에서 경계선 후보를 구성하는 것에 대한 폭넓은 합의가 매우 중요합니다.
• Angoff 및 Bookmark 방법은 고유의 단순성으로 인해 MCQ 검사에 대한 표준을 설정하는 데 가장 일반적으로 사용됩니다.
• Ebel과 Nedelsky 방법은 패널에게 더 강력한 인지 요건을 부과하는데, 이 요건들이 많은 시험에서 충족이 어려울 수 있다. 각각 관련성을 결정하고 경계선 후보가 주의 산만 요소를 제거할 가능성을 결정한다.
•For MCQs, standards are typically set using a test‐centred method. Popular test‐centred methods include the Angoff, Ebel, Nedelsky, and Bookmark methods.
•Given that panellists are essentially asked to estimate characteristics of each individual item for the minimally proficient candidate in a test‐centred standard setting exercise, i.e. difficulty with the Angoff and Bookmark methods, difficulty and relevance with the Ebel method, and additionally‘guessing’with the Nedelsky approach, discussion and broad agreement as to what constitutes a borderline candidate in the training phase is of critical importance.
•The Angoff and Bookmark methods are most commonly used to set a standard on MCQ examinations due to their inherent simplicity.
•The Ebel and Nedelsky methods impose stronger cognitive requirements on the part of panellists that may be difficult to meet with many examinations; respectively determining relevance as well as the likelihood that a borderline candidate will eliminate distractors.
앙고프 방법 Angoff Method
Angoff 절차에서 패널리스트는 항목별로 각 항목에 정확하게 답변할 수 있는 [최소 숙련도 후보자의 비율]을 추정해야 한다[31]. 사실상 이것은 전문가의 판단에 근거하여 테스트의 각 구성 요소 부분의 [난이도를 평가]하는 것이다. 그런 다음 이러한 비율은 각 전문가 심판에게 합산됩니다. 일반적으로 심판의 항목 비율의 평균 또는 중위합은 검사에서 컷-점수로 처리됩니다. 상자 24.5는 세 개의 패널 목록을 사용한 5가지 항목 검사에 기초한 Anoff 절차에 대한 간단한 그림을 제공합니다. 이 예제에서 패널 목록 절단 점수는 1.35(또는 1/5)에서 2.65(또는 3/5) 사이였습니다. 따라서 전체 컷 점수가 1.97/5(또는 2/5)와 같으므로 최종 컷 점수를 선택할 수 있습니다. In the Angoff procedure, panellists are asked to estimate, on an item‐by‐item level, the proportion of minimally proficient candidates that would answer each item correctly [31]. Effectively this constitutes an assessment of the degree of difficulty of each component part of the test based on expert judgement. These proportions are then summed for each expert judge. Typically, the mean or median sum of item proportions across judges is treated as the cut‐score on the examination. Box 24.5 provides a simple illustration of the Angoff procedure based on a five‐item examination with three panellists. In this example, panellist cut‐scores ranged from 1.35 (or 1/5) to 2.65 (or 3/5). An overall cutscore equal to 1.97/5 (or 2/5) could therefore be selected as the final cut‐score.
[수정된 Angoff 방법] 또한 표준의 결정을 위해 제안되었습니다 [9, 32–35]. 한 가지 수정방식으로는 패널리스트에게 일반적인 논의 후에 판단을 수정할 수 있도록 하는 것이다 [36]. 다른 수정방식으로는 패널리스트에게 [최종 라운드]에서 '현실 성과 점검reality performance check'을 제공함으로써, 최초 판단을 측정하고guage, 원하는 경우 수정할 수 있도록, 최초 등급 라운드 후에 규범적normative 데이터(예: 문항 난이도 및 변별도)를 제공하는 것이다[37]. Modified Angoff methods have also been proposed for determining a standard [9, 32–35]. One adaptation of the Angoff method allows panellists to modify their judgements following a general discussion [36]. Other revisions entail providing normative data (e.g. item difficulty and discrimination indices) following the initial round of ratings in order to provide panellists with a ‘reality performance check’ against which to gauge their initial judgements and modify them, if so desired, in a final round [37].
장점 및 제한 사항 Advantages and Limitations
Angoff 방법군의 주요 장점 중 하나는 MCQ 및 성능 기반 평가를 포함하여 다수의 검사와 함께 광범위하게 사용됐다는 것이다 [34]. 따라서, 그러한 연습을 수행하고자 하는 모든 연구자는 풍부한 증거와 정보를 이용할 수 있다. 또한 앙고프 방식은 패널리스트가 테스트 항목을 검토하고 재료 및 후보자에 대한 전문 지식을 바탕으로 판단을 내려야 한다는 점에서 어느 정도 직관적이라는 매력을 가지고 있다. 마지막으로 Angoff 방법은 '예/아니오' 방법을 통해 능률화할 수 있으며 [38] 방법은 작업을 더욱 단순화할 수 있습니다. One main advantage of the Angoff family of methods is that they have been used extensively with a host of examinations, including both MCQ and performance‐based assessments [34]. As such, a wealth of evidence and information is available to any researcher interested in carrying out such an exercise. Also, the Angoff method holds a certain amount of intuitive appeal in that panellists are required to review test items and offer judgements based on their expert knowledge of the material and candidates. Finally, the Angoff method is amenable to streamlining such as through the ‘Yes/No’ method [38], which can simplify the task even more.
한편, Angoff 방법은 패널리스트가 완료해야 하는 두 가지 주요 과제의 본질적인 특성, 즉, [무엇이 최소한의 숙련도를 구성하는지]를 명확히 하고, 각 테스트 항목에 정답을 맞출 수 있는 [최소 숙련도 응시자의 비율을 일관되게 추정]하는 것 때문에 많은 비판을 받았다[35].
Shepard [39]는 패널리스트에게 제시된 과제가 너무 인지적으로 어려우며 아마도 대부분의 참가자가 감당할 수 없을 것이라고 주장했다. 그러나 다른 이들은 이러한 주장을 반박하고 이러한 어려움을 패널리스트의 불충분한 교육이나 판단을 유도할 성능 데이터의 부재 때문이라고 지적했습니다 [40].
Plake 외 연구진[41]에 의해 수행된 조사에서도 문항 성능 추정치item performance estimate는 패널 내부와 패널 간뿐만 아니라, 당해 및 수년 간에 걸쳐 고부담의 인증 검사를 위한 것으로 나타났다. 이러한 발견은 표준 설정 연습에 적합한 심판 패널 선택의 중요성을 다시 한 번 강조하고, 더 중요한 것은 당면 과제의 성격에 대한 오해를 없애기 위해 모든 전문가에게 광범위한 교육을 제공한다는 것이다.
On the downside, the Angoff methods have come under heavy criticism due to the inherent nature of the two main tasks that panellists are required to complete, namely to articulate what constitutes minimal proficiency and then consistently estimate proportions of minimally proficient candidates who would correctly answer each test item [35].
Shepard [39] argued that the task presented to panellists was too cognitively challenging and probably beyond the capability of most participants. Others, however, have refuted this claim and ascribed these difficulties to insufficient training of panellists or the absence of performance data to guide judgements [40].
Research conducted by Plake et al. [41] also showed that item performance estimates were consistent within and across panels, as well as within and across years for a high‐stakes certification examination. These findings once more underscore the importance of selecting appropriate panels of judges for standard setting exercises and, more importantly, offering extensive training to all experts to eliminate any misconceptions regarding the nature of the task at hand.
이러한 한계에도 불구하고, Angoff 방법군은 검사에 대한 컷☆스코어를 설정하기 위한 가장 보편적이고, 오래 지속되며, 잘 연구된 일련의 절차들 중 하나입니다 [30].
Despite these limitations, the Angoff family of methods continues to be one of the most prevalent, longstanding, and well researched set of procedures for setting a cut‐score on an examination [30].
에벨 방법 Ebel Method
에벨이 개괄적으로 설명한 절차는 패널리스트에게 각 항목에 대한 난이도 추정치뿐만 아니라, 검토의 기초가 될 것으로 추정되는 영역을 고려하여 내용 관련성까지 제공하도록 요청함으로써 Angoff의 방법을 확장한다[42]. 컷(cut) 점수는 [난이도]와 [관련성 판단]의 [곱셈값cross-products]을 추가하여 계산한다.
The procedure outlined by Ebel extends Angoff’s method by asking panellists not only to provide difficulty estimates for each item but also content relevance, given the domains that are presumed to underlie the examination [42]. The cut‐score is computed by adding the cross‐products of the difficulty and relevance judgements.
상자 24.6은 2차원 Ebel 그리드의 간단한 예를 제공합니다. 이 예에서 심사위원들은 50개 항목 중 5개가 내용에 필수적이며 난이도가 '쉬운' 수준이라고 느꼈다.비슷한 맥락에서 패널리스트에게도 최소한으로 숙달된 후보자가 올바르게 답할 수 있는 각 내용 관련성/난이도 셀 항목의 비율을 추정하도록 요청받았다. 그 결과로 나온 절단 점수는 관련성/난이도 셀 교차성 제품의 합계입니다. 이 예에서 응시자는 시험에 합격하려면 25/50 항목(50%)을 올바르게 답해야 합니다.
Box 24.6 provides a simple example of a two‐dimensional Ebel grid. In this example, judges felt that 5 of 50 items were essential to the content and ‘easy’ level of difficulty. In a similar vein, panellists were asked to estimate the proportion of items, in each content relevance/difficulty cell, that the minimally proficient candidate would correctly answer. The resulting cut‐score is the sum of the relevance/ difficulty cell cross‐products. In this example, candidates would need to correctly answer 25/50 items (50%) to pass the examination.
장점 및 제한 사항 Advantages and Limitations
아이러니하게도, 기준 제정을 위한 Ebel 방법의 장점 중 하나인 [난이도] 외에 [항목 관련성]이 패널리스트의 판단에 반영될 수 있다는 것이 Ebel 방법의 약점이기도 하다. 예를 들어, Berk[43]는 패널리스트가 연습 중에 내용(난이도)과 목적적합성 판단을 [분리할 수 있는지]에 의문을 제기한다. 이 두 차원이 많은 경우 상당히 높은 상관관계를 갖는다고 주장한다. 시험 개발의 관점에서, 시험에는 애초에 [관련성이 낮은 항목]을 포함시키는 것이 더 나은 것이 아닌가라는 의문을 제기할 수 있다. 대부분의 맥락에서, 총점은 (상호 관계가 있는) 여러 도메인에서 후보자들의 역량을 전반적으로 반영하는 것으로 해석됩니다. 따라서 (Ebel 방법에서) [관련성이 낮다고 여겨지는 항목]은 전체적인 역량(예: 합격/불합격)이나 순위에 대한 추론에 거의 기여하지 않는다.
Ironically, one advantage of the Ebel method for setting a standard, namely that item relevance, in addition to difficulty, can be factored into panellists’ judgements, is also its chief weakness. Berk [43], for example, questions the ease with which panellists can separate content (difficulty) and relevance judgements during an exercise, largely based on the argument that these two dimensions are often correlated quite highly. From a test development standpoint, one could also question the merits of including test items that are not relevant in an examination. In most contexts, the total score is interpreted as an overall reflection of candidates’ competencies on a composite of (interrelated) domains. Consequently, items that are deemed irrelevant contribute little to nothing in informing inferences about overall competency (e.g. pass/fail) or standing.
네델스키 방법 Nedelsky Method
네델스키[44]는 [(응시자가) MCQ에 답할 때, 최소한 숙련도 있는 후보들이 먼저 재료에 대한 지식을 바탕으로 부정확하다고 식별한 옵션을 제거한 다음 나머지 선택 항목 중에서 무작위로 추측한다는 전제] 하에 이뤄지는 표준 설정 방법이다. 실제 컷(cut) 점수는 나머지 대안 수의 역수 항목 전체의 합에 해당합니다. 예를 들면, 패널리스트 그룹은 5가지 항목, [5개 문항 MCQ 시험]에서 [최소한 숙달된 후보자]가 각 항목에 걸쳐 2, 1, 3, 4개의 옵션을 각각 제거할 것으로 추정한다. 따라서 네델스키 절단 점수는 1/3 + 1/4 + 1/2 + 1/2 + 1/1 = 2.58/5 또는 3/5 60%에 해당합니다.
Nedelsky [44] outlined a standard setting method based on the premise that when answering MCQs, minimally proficient candidates first eliminate options that they identify as incorrect based on their knowledge of the material, and then randomly guess amongst remaining choices. The actual cut‐score corresponds to the sum across items of the reciprocal of the remaining number of alternatives. To illustrate; assume that a group of panellists estimates that the following number of options would be eliminated, respectively, by the minimally proficient candidate on a five‐item, five‐option MCQ examination: 2, 1, 3, 3, 4, across each of the items. The Nedelsky cut‐score would therefore correspond to: 1/3 + 1/ 4 + 1/2 + 1/2 + 1/1 = 2.58/5 or 3/5 60%
장점 및 제한 사항 Advantages and Limitations
네델스키 방법의 주요 장점은 패널리스트가 판단을 내릴 때 [보기distractors 요소의 품질], 즉 MCQ에 대답할 때 최소한의 숙달된 후보자가 가질 수 있는 부분적 지식을 고려할 수 있다는 것이다. 그러나 이 절차의 여러 단점들로 인해 어려움을 겪는다는 것이 잘 문서화되어있다. 첫째, 패널리스트에 부과된 과제는 Angoff 또는 Ebel 연습에서 예상되는 것보다 훨씬 더 부담스럽다. 패널리스트는 최소한의 숙련도 있는 응시자의 정확한 응답 확률을 추정해야 할 뿐만 아니라, 후자의 시험 응시자가 distractor가 부족하거나 부분적인 지식으로 인해 제거할 수 있다고 믿는 옵션에 비추어 그렇게 해야 합니다.
The main advantage of the Nedelsky method is that it allows panellists to factor in the quality of the distractors when making their judgements, that is, any partial knowledge that the minimally proficient candidate may possess when answering an MCQ. However, the procedure also suffers from a number of well‐documented shortcomings. First, the task imposed on panellists is much more onerous that what is expected in either an Angoff or Ebel exercise. Panellists must not only estimate the probability of a correct response on the part of the minimally proficient candidate, but they must do so in light of options they believe the latter test taker can eliminate either due to poor distractors or partial knowledge.
또한 절차의 특성으로 인해 패널리스트가 제공할 수 있는 확률 값이 사실상 제한된다. 예를 들어, MCQ 옵션이 5개인 경우 판사가 제공할 수 있는 타당한 추정치는 0.20, 0.25, 0.33, 0.50 및 1.00 [43]뿐입니다. 즉, 최소 숙련도 응시자는 신뢰할 수 없는 경우 0, 1, 2, 3 또는 4 옵션을 제거할 수 있습니다.
Additionally, probability values that are provided by panellists are de facto restricted due to the nature of the procedure. For example, with a five‐option MCQ, the only plausible estimates that judges can provide are: 0.20, 0.25, 0.33, 0.50, and 1.00 [43]. That is, the minimally proficient candidate can eliminate either 0, 1, 2, 3, or 4 options as non‐plausible.
마지막으로, 가장 중요한 것은 네델스키 방법에서 [최소한의 숙련도 응시자의 시험 응시 행동이 동일하다고 가정한다]는 것이다. 즉, 그러한 대안에서 타당성이 없는 것으로 제거되지 않은 것과 동일한 방식으로 추측한다는 것이다. 위험 행동, 차등 부분 지식 및 기타 요소를 고려할 때 이러한 가정에 대한 의문이 심각하게 제기되었다[45, 46]. 이러한 한계를 다루기 위해 절차의 수정이 제안되었지만[47], 네델스키 방법은 그 내재적 복잡성과 더 많이 사용되는 방법에 비해 실질적인 효익이 거의 없기 때문에 지난 수십 년간 인기가 떨어졌다.
Finally, and most importantly, the Nedelsky method assumes that the test‐taking behaviour of minimally proficient candidates is identical, i.e. they guess in the same fashion from those alternatives not eliminated as implausible. This assumption has been seriously called into question given risk behaviours, differential partial knowledge, and other factors [45, 46]. Though modifications of the procedure have been proposed to address these limitations [47], the Nedelsky method has waned in popularity over the past few decades due to its inherent complexity and few practical benefits over more popular methods.
책갈피 방법 Bookmark Method
또한 책갈피 방법은 [본질적 단순성]으로 인해 절단 점수를 설정하는 데 상당히 정기적으로 사용됩니다[48]. 이 접근방식으로 [시험 문항이 가장 쉬운 것부터 어려워지는 순서로 패널리스트에 제시]됩니다(책자 한 페이지당 한 항목). 이 방법의 원래 의도는 항목 대응 이론(IRT) 기반 난이도 추정의 함수로 항목의 순서를 정하는 것이었지만, 방법을 조정하고 간단한 p-값(정확한 응답의 비율)으로 MCQ를 정렬하는 것도 가능하다. 각 패널 목록은 최소한 숙달된 후보자가 나머지 항목에 올바르게 답변하지 못할 것으로 예상되는 지점에 책갈피(정지 규칙stopping rule)를 배치해야 합니다. The Bookmark method is also used quite regularly to set a cut‐score due to its intrinsic simplicity [48]. With this approach, test items are presented to panellists by order of difficulty from least to most difficult (one item per page in a booklet). Though the original intent of the method was to sequence the items as a function of item response theory (IRT)‐based difficulty estimates, it is also possible to adapt the method and order the MCQs by simple p‐values (proportion of correct responses). Each panellist is required to place a bookmark (a stopping rule) beyond which a minimally proficient candidate would not be expected to correctly answer remaining items. Note that the
책갈피 방법은 여러 단계로 구분해야 하는 경우(예: 초급, 중급, 고급 수준의 결정)에 자주 사용된다. 가장 간단한 애플리케이션에서 최종 절단 점수는 여러 패널 목록에서 책갈피 항목 중 [중위수]에 해당합니다. 원래의 책갈피 절차에서도 이 절단 점수를 기본 IRT 가능성 측정 기준[48]으로 변환했다는 점을 지적하는 것이 중요합니다.성능 벤치마크를 추가하는 방법의 확장도 제안되었습니다 [49, 50]. 이러한 개정에 대한 자세한 내용을 얻고자 하는 독자는 이 참고 자료를 참조할 것을 권장합니다.
Bookmark method is also frequently employed for multiple judgements (e.g. determining levels of basic, proficient, and advanced). The final cut‐score, in its simplest application, would correspond to the median number of items at the bookmark across panellists. It is important to point out that the original Bookmark procedure also translated this cut‐score to the underlying IRT ability metric [48]. Extensions of the method that entail adding the use of performance benchmarks have also been proposed [49, 50]. Readers wishing to obtain more details on these revisions are encouraged to consult these references.
장점 및 제한 사항 Advantages and Limitations
Bookmark 방법의 주요 장점은 [단순성]과 패널 목록에 부과되는 비교적 [낮은 인지 부하]입니다. 적어도 다른 테스트 중심 방법과 비교됩니다. 시험 항목은 난이도(참가자에게 알려지지 않음)에 따라 정렬되며, 패널리스트는 둘 이상의 숙련도 범주를 설명하기 위해 하나 또는 여러 개의 북마크를 배치해야 합니다. 책갈피 방법의 또 다른 매력적인 특징은 혼합 형식mixed-format 평가뿐만 아니라 객관식 및 수행능력 검사에 쉽게 적용할 수 있다는 점이다. 마지막으로, IRT 숙련도 메트릭스에 대한 전통적인 연계는 대부분의 대규모 테스트 프로그램이 시험 구축, 채점, 규모 조정 및 등식을 포함한 다수의 활동에 [IRT 기반 방법을 구현]한다는 점에서 큰 매력을 가지고 있다. 따라서 북마크 표준 설정 방법은 unified IRT 프레임워크에 쉽게 통합될 수 있습니다. The main advantage of the Bookmark method is its simplicity and the relatively light cognitive load that is imposed on panellists, at least in comparison to other testcentred methods. Test items are ordered according to difficulty (again, unbeknownst to participants) and panellists are required to place one or several bookmarks to delineate two or more proficiency categories. Another attractive feature of the Bookmark method is that it can be readily applied to multiple‐choice and performance examinations as well as mixed‐format assessments. Finally, its traditional link to an IRT proficiency metric also holds great appeal given that the majority of large‐scale testing programmes implement IRT‐based methods for a host of activities, including test construction, scoring, scaling, and equating. As such, the Bookmark standard setting method can easily be integrated into a unified IRT framework.
이러한 장점에도 불구하고 책갈피 표준 설정 방법에는 실무자가 알아야 할 여러 가지 제한이 있습니다.
첫째, 책갈피 표준 설정 연습의 컷(cut) 점수는 시험 양식의 난이도와 불가분의 관계에 있다. 예를 들면, 응시자의 숙련도 대비 매우 '쉬운' 시험을 떠올려 볼 수 있다. 이는 최초 응시자의 90% 이상이 전형적으로 합격하는 의료 면허 및 인증 시험의 경우에 해당됩니다 [27]. 이 'mis-targeting'으로 인해 패널 목록이 적절한 책갈피를 설정하지 못할 수 있습니다. 경우에 따라서는 응시자군의 능력이 높을 때에는 책자의 마지막(=가장 어려운) 문항조차도 너무 쉬워서 숙련자와 비숙련 구분할 수 없다고 보는 것이 타당하다. 다른 사람들이 [30]을 언급했듯이, 이 문제는 다른 테스트 중심 방법과도 함께 발생할 수 있습니다. 책갈피 접근법은 품목의 난이도 때문에 이러한 문제를 명백하게 만듭니다.
또 다른 실질적인 한계는 일부 문항의 퍼포먼스가 낮아서 삭제할 경우 소책자(즉, 페이지당 하나의 항목이 있는 경우 테스트 항목)를 재주문해야 한다는 것이다.
마지막으로 문항이 테스트 양식 전체에 걸쳐 난이도가 낮음에서 높음으로 일정하게 배치되지 않을 수 있으며, 실제로도 문항의 난이도가 그렇지 않을 수도 있다는 것입니다. 따라서 패널리스트가 마스터와 비 마스터를 가장 잘 구별하는 척도를 따라 실제 포인트를 식별하기가 어려울 수 있다. 즉, 문항 난이도에 gap이 있을 경우 책갈피를 식별할 수 없을 수 있다.
Despite these advantages, the Bookmark standard setting method does possess a number of limitations that the practitioner should be aware of.
First and foremost, the cut‐score in a Bookmark standard setting exercise is inextricably linked to the difficulty of the test form. To illustrate, consider a test that is very ‘easy’ in relation to the proficiency level of candidates. This is often the case with medical licensing and certification examinations where over 90% of first‐time test takers typically pass [27]. This ‘mis‐targeting’ can make it impossible for panellists to set an appropriate bookmark. In certain instances, it is plausible that even the last item in a booklet is too easy to distinguish between masters and non‐masters when the candidate sample is highly able. As others have mentioned [30], this problem could also crop up with other test‐centred methods. The Bookmark approach, by virtue of item difficulty ordering, makes any such problems glaringly obvious.
Another practical limitation of this standard setting method is that booklets (i.e. test items if there is one item per page) need to be re‐ordered if some items are deleted due to poor performance.
A final limitation is that items may not, and in fact are probably not, evenly spaced in terms of differences in difficulty from low to high throughout a test form. Thus, it might be difficult for panellists to identify an actual point along the scale that best discriminates between masters and non‐masters, i.e. the bookmark might not be identifiable given gaps in item difficulty.
이러한 제약이 책갈피 방법을 무효화하지는 않지만 실무자는 이러한 잠재적 이슈를 인식하고 실제 기준 설정 연습 전에 그에 따라 계획을 수립해야 한다. While these limitations do not invalidate the Bookmark method, practitioners should be aware of these potential issues and plan accordingly prior to the actual standard setting exercise.
수험생 중심 방법 Examinee‐ centred Methods
반면에 [준거(Criteria)-참조, 응시자-중심 방법examinee‐centred methods]에는 자격을 갖춘 전문가 패널 그룹의 글로벌 성과 판단에 근거한 표준 설정이 포함된다. 의학교육에서 성과 평가의 통합된 다차원적 특성을 고려할 때, 후자의 방법은 OSCE에 대한 컷(cut) 점수를 설정하는 데 특히 적합하다[51]. 두 가지 일반적인 검사자 중심 표준 설정 방법은 대조군 방법과 경계선 그룹 방법이다[52, 53]. (박스 24.7 참조). Criterion‐referenced examinee‐centred methods, on the other hand, involve setting a standard based on global judgements of performance by a group of qualified expert panellists. Given the integrated, multi‐dimensional nature of performance assessments in medical education, the latter methods are particularly well suited for setting a cut‐score on OSCEs, for example [51]. Two popular examinee‐centred standard setting methods are the contrasting groups method and the borderline group method [52, 53]. (see Box 24.7).
BOX 24.7 FOCUS ON: 수행능력 평가를 위한 표준 설정 BOX 24.7 FOCUS ON: Standard setting for performance assessments • OSCE 및 작업장 기반 평가와 같은 [수행능력 시험]의 경우 일반적으로 검사자 중심의 방법을 사용하여 표준을 설정합니다. 일반적인 검사자 중심 표준 설정 방법에는 대조 그룹 및 경계선 그룹 방법이 포함됩니다.
• 이러한 방법은 패널리스트가 전반적으로overall holistic 수행능력을 판단할 수 있도록 하기 때문에 수행능력 평가에 매우 적합하고 매력적이다. 패널리스트는 두 개 이상의 숙련도 범주(예: 마스터/비매스터, 허용되지 않음, 허용 경계선, 명확하게 허용 가능 등)에 후보를 배정할 것을 요구합니다.
• 매력적이지만, 이러한 방법은 본질적으로 패널을 'gold standard'로 취급합니다. 따라서 경계선 성능의 정의뿐만 아니라 작업이 잘 이해되도록 충분한 교육이 필요합니다.
• 검사자 중심의 표준 설정 방법을 구현할 때 다음을 포함한 여러 가지 기술적 문제를 고려해야 합니다. (i) 위양성 및 위음성 분류와 관련된 비용을 결정해야 한다. (ii) 경계선 허용 집단borderline acceptable group에 할당된 응시자 수가 충분히 크게 구성되도록 보장해야 한다. (iii) 대조 그룹 방법의 경우, 패널리스트가 두 가지 카테고리 중 하나에 후보를 할당할 능력이 있어야 한다.
•For performance examinations, such as OSCEs and workplace‐based assessments, examinee‐centred methods are generally used to set a standard. Common examinee‐centred standard setting methods include the contrasting groups and borderline group methods. •These methods are appealing and well‐suited to performance assessment as they allow panellists to provide overall holistic judgements of performance. They require panellists to assign candidates to two or more proficiency categories (e.g. master/non‐master, unacceptable, borderline acceptable, clearly acceptable, etc.). •While appealing, these methods inherently treat the panel as the‘gold standard’. Ample training is therefore necessary to ensure that the task is well understood as well as the definition of borderline performance. •A number of technical issues need to be considered when implementing any examinee‐centred standard setting method, including: (i) determining the costs associated with false‐positive and false‐negative classifications; (ii) ensuring that the borderline acceptable group is composed of a sufficiently large number of candidates; and (iii) for the contrasting groups method, assuring that panellists are able to assign candidates to one of two categories.
대조 그룹 방법 Contrasting Groups Method
대조 그룹 방법에서 패널리스트는 각 후보자에게 수행능력 프로파일(예: OSCE 스테이션의 검사 목록 및 등급 척도)을 검토하고 테스트 응시자가 시험에 합격할 자격이 있는지 여부를 판단하도록 요청받습니다. 그런 다음 두 후보 그룹(무자격 및 자격)에 대한 OSCE 측점 점수가 그래프에 표시됩니다. 일반적으로 두 그룹의 테스트 응시자를 가장 잘 구별하는 점수는 컷★점수로 선택됩니다[52–54].
In the contrasting groups method, panellists are asked, for each candidate, to review a performance profile (e.g. checklists and rating scales on an OSCE station) and determine whether the test taker is qualified or unqualified to pass the examination. OSCE station scores for both groups of candidates (unqualified and qualified) are then plotted on a graph. The score that best discriminates between both groups of test takers is typically selected as the cut‐score [52–54].
예시를 위한 대조 그룹 그림은 그림 24.1에 나와 있습니다. 이 예에서, 위양성과 위음성 결정이 동등하게 중요할 경우, 교차 구역의 중간점을 절단 점수 값으로 선택할 수 있다. 단, 검사의 목적이 부정행위로부터 환자를 보호하는 것이라면 교차구역 상부의 값을 선택할 것이다(위양성 결정 최소화, 즉 합격을 위해 필요한 임상 기술을 보유하지 않은 합격자의 수 최소화).
A sample contrasting‐groups plot is shown in Figure 24.1. In this example, the mid‐point of the intersection zone could be selected as the cut‐score value if false-positive and false‐negative decisions were of equal importance. However, if the intent of the exam is to protect patients from malfeasance, a value in the upper part of the intersection zone would be chosen (minimising false‐positive decisions, i.e. minimising the number of passing candidates who do not possess the clinical skills necessary to pass).
경계선 그룹 방법 Borderline Group Method
경계선 그룹 방법에서 패널리스트는 각 후보자에 대한 성능 프로파일을 검토하고 [허용가능한 수행능력]과 [허용불가능한 수행능력]을 식별하라는 요청도 받습니다. 또한 패널리스트는 허용 가능한 성과 수준에 불과하다고 판단되는 후보자를 지정해야 합니다. 그런 다음 합격자의 점수가 그래프에 표시됩니다. 일반적으로 [중위수median 점수 값]이 검사의 cut score로 선택됩니다[1, 53]. 이 접근법의 한 가지 한계는 borderline acceptable group의 크기가 상당히 작기 때문에 [매우 불안정한 절단 점수(예: 중위수) 값]을 낳을 수도 있다는 것이다.
In the borderline group method, panellists are also asked to review a performance profile for each candidate and identify unacceptable as well as acceptable performances. Additionally, panellists must designate those candidates that are deemed to lie just at a borderline acceptable performance level. The scores of these borderline acceptable examinees are then plotted on a graph. Typically, the median score value is chosen as the cut‐score on the examination [1, 53]. One limitation that has been raised with this approach is that the size of the borderline acceptable group might be quite small, thus contributing to a very unstable cut‐score (e.g. median) value.
이러한 단점을 해결하기 위한 수단으로 [경계 회귀법borderline regression method]이 대안적인 관련 표준 설정 방법으로 제안되었다. 이 절차에서는 선형 회귀 모델링을 사용하여 점수 척도의 절단 점수를 등급 범주(예: 허용되지 않음, 허용 가능, 허용 가능)의 함수로 예측합니다. 즉, 특정 OSCE 스테이션의 합격 점수는 후보 점수(예: 체크리스트 점수)를 글로벌 등급으로 회귀시켜 획득합니다. 기존의 경계선 그룹 방법과는 달리, (borderline acceptable candidate의 점수 뿐만 아니라) [모든 데이터 포인트]가 컷 점수를 결정하는 데 사용됩니다 [55].
As a means of addressing this shortcoming, the borderline regression method was proposed as an alternative, related standard setting method. As it implies, this procedure uses linear regression modelling to predict the cut‐score on the score scale as a function of the rating categories (e.g. unacceptable, borderline acceptable, acceptable). That is, the pass mark for a given OSCE station is obtained by regressing candidate scores (e.g. checklist scores) onto the global ratings. Unlike the more traditional borderline group method, all data points are used in determining the cutscore, not only those associated with borderline acceptable candidates [55].
장점 및 제한 사항 Advantages and Limitations
대조집단 및 경계집단 방법은 패널리스트에게 [응시자의 전반적인 성과를 두 가지(또는 그 이상) 범주로 분류]하는 방식으로 전반적 판단holistic judgement하도록 요구한다]는 점에서 매우 유사하다. 실제로 경계집단법을 전문가들이 성과에 대한 허용여부를 판단할 필요가 있을 뿐만 아니라 '가장자리(on the cusp)' 즉, 허용가능한 경계에 대한 접근방식의 일반화로 생각할 수 있다. 두 방법 간의 유사성이 높다는 점을 감안할 때, 이 방법들이 동일한 장점과 한계를 가지고 있다는 것은 별로 놀랄 일이 아니다.
The contrasting groups and borderline group methods are very similar in that they require panellists to make holistic judgements on the overall performance of candidates by classifying them into two (or more) categories. In fact, one could conceive of the borderline group method as a generalisation of the contrasting groups approach where experts not only need to determine whether a performance is acceptable or unacceptable, but also ‘on the cusp’, i.e. borderline acceptable. Given the high degree of similarity between the methods, it should come as little surprise that they carry the same advantages and limitations. 한편, 두 가지 방법 모두 패널리스트가 보다 '직관적'인 작업을 완료하도록 요구하기 때문에, [OSCE 및 작업장 기반 평가와 같은 수행능력 평가]에서 종종 선호됩니다. 즉, 후보자를 unacceptable, acceptable 또는 borderline acceptable로 분류합니다. 또한 분류 판단을 내리는 차원들dimensions이 종종 높은 관련성을 갖는다는 점을 고려할 때, 이러한 복잡한 평가에 매우 적합하다. 따라서 이러한 방법은 [후보자에 대한 분류 결정을 내릴 때] [패널리스트가 모든 고려사항을 통합할 수 있는 관용성]을 제공한다.
On the plus side, both methods are often preferred for performance assessment such as OSCEs and workplacebased assessments as they require panellists to complete a task that is more ‘intuitive’, i.e. classify candidates as either unacceptable, acceptable, or borderline acceptable. They are also well suited to these complex assessments given that dimensions on which to make classification judgements are often highly related. As such, these methods provide panellists with the latitude to incorporate all of their considerations when arriving at a classification decision with a candidate.
(두 가지 접근법 모두) 패널리스트에게 높은 수준의 유연성을 제공한다는 점이 주된 한계가 된다. 두 방법 모두 패널리스트 판단을 [본질적으로 신뢰할 수 있고 타당한 것]으로 간주합니다. 즉, gold standard으로 간주합니다. 패널리스트가 이러한 판단을 내릴 수 있는 능력을 손상시킬 수 있는 요소는 예측하기 어려운 방식으로 최종 컷(cut)-점수 가치를 편향시킴으로써, [일부 후보군에 명백히 불공정한 표준]으로 이어질 수 있습니다. 따라서 주최자는 패널리스트에게 적절히 교육을 제공하여, 이러한 영향을 최소화하고, 궁극적으로 모든 이해관계자에게 방어 가능한 프로세스를 보장할 수 있도록 하는 것이 중요하다. 심사 대상자에게 매우 친숙할 수 있는 패널리스트가 판단을 제공할 때 [construct‐irrelevant factors] 에 의해 영향을 받는 시나리오를 쉽게 예상할 수 있다. 이러한 construct‐irrelevant factors 에는 성별, 민족성, 복장, 성격, 작업 습관 및 광범위하게 정의된 바와 같이 '능력'과 무관한 무수한 기타 외부 특성이 포함될 수 있다.
The greater level of flexibility that is afforded by both approaches also potentially constitutes their chief limitation. Both methods treat panellist judgements as intrinsically reliable and valid, i.e. as thegold standard. Any factor that can detract from the panellists’ ability to provide such judgements will bias the ultimate cut‐score value in a way that is difficult to predict and will lead to a standard that is most certainly unfair to subgroups of candidates. Consequently, the moderator plays a critical role in ensuring that the training offered to panellists can at least minimise this effect to ultimately assure a defensible process for all stakeholders. It is easy to envisage a scenario where panellists, who might very well be familiar with the candidates who they are evaluating, are affected by construct‐irrelevant factors when providing their judgements. Such construct‐irrelevant factors might include gender, ethnicity, dress, personality, work habits, and a myriad of other extraneous features that are unrelated to ‘competency’, as broadly defined by the examination. 대조 그룹과 경계선 그룹 방법 모두 [cut score 설정을 위해, 현장에서 충분히 많은 대표 전문가 그룹을 식별할 수 있으며, 이들이 지시에 따라 과제를 완료하도록 훈련할 수 있다]는 기본적인 전제에 의존한다. [부적절한 훈련]은 (borderline acceptable 에 불균형적으로 많은 수의 후보자를 할당하는 것과 같은) 다수의 바람직하지 않은 결과를 초래할 수 있다[56, 57]. Both the contrasting groups and borderline group methods also rest on the central premise that a sufficiently large group of representative professionals in the field can be identified for an exercise and also trained to complete the task at hand as instructed. Inadequate training can lead to a number of undesirable outcomes, including the propensity to assign disproportionally large number of candidates to the borderline acceptable group [56, 57].
이는 후자 그룹의 실적에서 점수가 나온다는 점에서 매력적으로 들릴 수 있지만, 거의 모든 응시자를 허용 가능한 경계선으로 분류하는 것은 시험, 교육 및 기타 요인에 대한 심각한 문제를 제기한다. 또한 확인하기 어려운 방식으로 다시 편향된 컷 스코어를 산출합니다.
While this may sound appealing, given that the cut‐score is derived from the performances of the latter group, classifying nearly all candidates as borderline acceptable seriously raises questions about the quality of the examination, instruction, and other factors, while yielding a cut‐score that is again biased in ways that are difficult to ascertain.
이 점과 관련하여, 경계선 그룹 방법은 후자 그룹이 충분히 큰 숫자로 구성되어야 합니다. 그렇지 않으면 그 결과로 얻어진 cut-score는, (가장 단순한 경우의 중위수 점수 또는 보다 복잡한 통계 모델링에 기초한 예측 값(예: 로지스틱 회귀 분석, 잠재 클래스 분석 등)이든), 불안정하고 '역량'을 부적절하게 반영할 것이다. 전통적인 대조집단 표준 연습에서 요구되는 과제의 이분법적 성격을 고려할 때, 패널리스트는 borderline acceptable performance라는 선택지가 없을 때, 허용가능과 허용불가능으로 나누기 어려울 수 있다. Plake와 Hambleton[56]은 의사결정 척도의 세밀한 축척을 허용하는 방법의 확장을 제안했다. Related to this point, the borderline group method does require that the latter group be composed of a sufficiently large number or the resulting cut‐score, whether the median score in the simplest case or a predicted value based on more complex statistical modelling (e.g. logistic regression, latent class analysis, etc.), will be unstable and inappropriately reflect ‘minimal competency’. Given the dichotomous nature of the task that is required in a traditional contrasting groups standard exercise, it might also be difficult for panellists to classify candidates as either unacceptable or unacceptable, with no option for a borderline acceptable performance. Plake and Hambleton [56], amongst others, proposed an extension of the method that does allow for a finer gradation of the decision scale.
마지막으로, 두 가지 방법 모두 의료 교육자가 응시자를 잘못 분류했을 때의 결과를 요약하는 정책을 명확히 수립하는 것이 중요합니다. [국민의 보호가 최우선 고려 대상]인 경우 위양성(불합격해야 할 응시생의 합격)과 위음성(합격해야 하는 응시생의 불합격) 결정을 동등하게 다루는 것은 바람직하지 않을 수 있다. 이 경우, 위양성 분류를 최소화하는 것이 더 큰 관심사이다. 반대로 부담이 낮은lower stake 설정에서는 거짓 음성 오류를 최소화하는 정책도 완전히 수용가능하다. Finally, it is critical, for both methods, that the medical educator clearly set a policy that outlines the consequences of misclassifying a candidate. Treating both false‐positive (passing a candidate who should have failed) and false‐negative (failing a candidate who should have passed) decisions equally might be quite undesirable in instances where protection of the public is of prime consideration. Under the latter scenario, minimising false‐positive classifications is of greater concern. Conversely, in lower‐stakes settings, minimising false‐negative errors could be perfectly acceptable as a policy.
패널리스트에 전달된 엄청난 책임을 감안할 때 대조 그룹 및 경계선 회귀 방법과 관련된 모든 잠재적 제한은 그러한 표준 설정 연습에서 사회자moderator가 수행해야 하는 역할이 중요함을 다시 강조한다. 실제로 사회자moderator가 경계선 그룹 또는 대조 그룹 표준 설정을 '좌지우지make or break' 할 수 있다고 해도 과언이 아니다. All of the potential limitations associated with the contrasting groups and borderline regression methods, given the immense responsibility that is conveyed upon panellists, again underscore the critical role that the moderator needs to play in such standard setting exercises. Indeed, it is not an exaggeration to state that the moderator can ‘make or break’ a borderline group or contrasting groups standard setting exercise.
호프스티 방법 Hofstee Method
기준 설정을 위한 준거 참조 접근법을 사용할 때, [의사결정과 관련된 정치적 고려]를 전혀 하지 않는다면, 수용할 수 없는 결과를 초래할 수 있다. 즉, 표준 설정의 결과로 얻어진 컷(cut) 점수는 지나치게 크거나 작은 비율의 후보를 합격하시키거나 불합격시키지 말아야 한다. 예를 들어, 특정 의료 전문 검사가 지속적으로 15%의 응시자 중 불합격시켜왔다고 가정해 보십시오. 또한 이 모집단은 매년 매우 유사하고 능력 면에서 우수하다고 가정한다. Angoff 연습 후 설정한 컷(cut) 점수가 후보자의 50%를 낙제시키는 결과를 가져온다면, 그 표준은 비현실적이며 정책적 관점에서 매우 받아들일 수 없을 것이다.
The use of criterion‐referenced approaches for setting a standard can lead to unacceptable outcomes in the absence of political considerations associated with the decision. That is, the cut‐score arrived at following a standard setting exercise should not result in failing or passing an unacceptably large or small proportion of candidates. To illustrate, assume that a given medical specialty examination has consistently failed around 15% of candidates. Further assume that this population is very comparable, ability wise, from year to year. If the cut‐score set after an Angoff exercise results in failing 50% of candidates, the standard is unrealistic and might very well be unacceptable from a policy standpoint. Hofstee [58]는 '현실 확인reality check'을 제공하는 수단으로 패널 목록에 다음 질문을 하고 그에 대한 답을 (Hofstee) 플롯에 표시함으로써 '타협compromise'하는 방법을 제안했다. As a means of providing a ‘reality check’, Hofstee [58] proposed a ‘compromise’ method that involves asking panellists the following questions, the answers to which are subsequently graphed in a (Hofstee) plot:
• 내용 전체를 고려할 때 최대 및 최소 허용 컷 점수는 얼마입니까? 이러한 값은 일반적으로 Hofstee 그림에서 Cmin 및 Cmax로 표시됩니다. • Considering the content as a whole, what are the maximum and minimum tolerable cut‐scores? These are typically labelledCminandCmaxon the Hofstee plot.
• 최대 및 최소 허용 불합격률은 얼마입니까? 이러한 값은 일반적으로 Hofstee 플롯에 Fmax 및 Fmin으로 나열됩니다. •What are maximum and minimum tolerable failure rates? These are usually listed asFmaxandFminon the Hofstee plot.
Hofstee 그림의 예는 그림 24.2에 나와 있습니다. An example of a Hofstee plot is provided in Figure 24.2.
이 그림을 생성하려면 먼저 정확한 누적 백분율 분포를 계산해야 합니다. 이 분포는 점수 척도에 따라 각 지점에서 불합격할 후보자의 누적 비율을 요약합니다. 그런 다음 좌표(Cmin, Fmax)와 (Cmax, Fmin)를 그림 24.2와 같이 직선으로 표시하고 결합합니다. 이 직선과 분포곡선 사이의 교차점이 [Hofstee cut-score]에 해당합니다. 절단 점수는 x축에 표시된 'cut' value로 표시됩니다. In order to create this plot, a cumulative percentagecorrect score distribution needs to first be computed. This distribution outlines the cumulative percentage of candidates who would fail at each point along the score scale. Then, the coordinates (Cmin, Fmax) and (Cmax, Fmin) are plotted and joined by a straight line, as illustrated in Figure 24.2. The point of intersection between this line and the frequency distribution corresponds to the Hofstee cut‐score. The cut‐score is illustrated by the ‘cut’ value shown on the x‐axis.
그림 24.2에 설명된 예에서 패널리스트는 컷☆스코어가 55(Cmin) 이하, 85(Cmax) 이하가 되어야 한다고 생각했습니다. 마찬가지로, 고장률은 최소 10%(Fmin)여야 하지만 50%(Fmax)보다 높으면 안 된다는 것을 나타내었습니다. 두 좌표 세트를 모두 연결하고 x축에 선을 그리면 Hofstee 컷스코어 값 65가 생성되어 후보 코호트의 약 35%가 불합격합니다. Hofstee 방법의 목적은 일반적으로 기준 기준 표준이 Hofstee 기반 값의 근처에 속하는지 여부, 즉 기준 표준이 절단 점수 값과 고장률의 정치적 고려사항 및 전역적 인상과 일관되는지 여부를 결정하는 것이다[59].
In the example outlined in Figure 24.2, panellists felt that the cut‐score should be no lower than 55 (Cmin) and no higher than 85 (Cmax). Similarly, they indicated that the failure rate should be at least 10% (Fmin) but not higher than 50% (Fmax). Linking both sets of coordinates and drawing a line down to the x‐axis yields a Hofstee cut‐score value of 65, which would result in failing about 35% of the candidate cohort. The aim of the Hofstee method is generally to determine whether criterion‐referenced standards fall within the vicinity of the Hofstee‐based value, i.e. whether they are consistent with political considerations and global impressions of cut‐score values and failure rates [59].
장점 및 제한 사항 Advantages and Limitations
Hofstee 방법의 주요 장점은 패널리스트가 [거의 또는 아무런 제한 없이 컷-점수 값과 불합격률에 대한 전체적인 판단]을 제공할 수 있다는 것입니다. 패널리스트는 경험, 테스트 내용에 대한 지식 및 검사 목표에 따라 성능 매개변수 한계를 정의해야 합니다. Hofstee 방법을 구현할 수 있는 유연성과 용이성 또한 주요 한계입니다. 즉, 이 방법은 일반적으로 [1차 기준 설정 방법이 아니라],시험자 중심의 다른 접근방식을 보완하기 위한 ['reality check' 또는대체 방법]으로 간주된다.
The primary advantage of the Hofstee method is that it allows panellists to offer holistic judgements on cut‐score values and failure rates with few to no constraints. Based on their experience, knowledge of the test content, and objective of the examination, panellists must define performance parameter limits. The flexibility and ease with which one can implement the Hofstee method also constitutes its chief limitation. That is, it is not generally viewed as a primary standard setting method but rather as a ‘reality check’ or fall‐back method meant to complement other approaches, whether test‐ or examinee‐centred.
이처럼 Hofstee 방법은 supportive한 역할을 한다고 했을 때, 실무자가 패널 리스트의 일반적인 기대치에 따라 더 전통적인 방법으로 설정된 컷-스코어가 사라지는지를 판단하는 데 도움이 되는 귀중한 정보를 제공할 수 있습니다. 그러나 그러한 특수성을 고려할 때 일반적으로 개별 측정치로 사용해서는 안 된다. 의료 교육 분야에서 점점 더 많이 사용되는 표준 설정의 또 다른 방법은 박스 24.8에서 논의된다.
Within this supporting context, the Hofstee method can provide valuable information that can help the practitioner gauge whether a cut‐score set with a more traditional method gibes with the general expectations of panellists. However, it should generally not be used as a standalone measure given its ad hoc nature. Another more controversial method of standard setting increasingly used in the medical education arena is discussed in the Box 24.8.
BOX 24.8 FOCUS ON: Cohen 방법 BOX 24.8 FOCUS ON: The Cohen method Anoff와 같은 표준 설정 방법은 리소스를 많이 소모하고 시간이 많이 소요됩니다. 직원 수가 적고 재원이 제한된 교수진은 신뢰할 수 있고 유효한 방법에 필요한 충분한 수의 전문가를 모으기 위해 애쓸 수 있습니다.
Cohen 방법은 '최우수' 학생(95번째 백분위 또는 P95에서의 학생 점수)이 기준점으로 사용되는 의료 교육에서 점점 더 많이 사용되는 표준 설정의 대안 형태입니다[10]. 의료 교육자는 이 높은 성과를 내는 그룹 점수 중 어느 비율이 컷 점수로 허용되는지 결정합니다(예: 60% × P95). 수정된 Cohen은 프로그램 내에서 여러 기준과 참조 시험의 과거 데이터가 전문가 패널이 예상하는 합격 점수를 더 잘 반영하도록 이 Cohen 합계를 개인화할 수 있다고 제안합니다.
따라서 수정된 Cohen은 절단 점수를 생성할 때 criterion-referenced 데이터와 norm-referenced데이터를 모두 결합한 혼합 방법입니다 [60]. 이 방법의 사용자는 모든 학생이 시험에 합격할 수 있고 시험 난이도에 따라 점수가 변경된다는 점에서 코헨 점수를 깎는 것이 시간 효율적이고 자원 집약적이지 않으며 학생들에게 공정하다고 생각한다. 그러나 Cohen 방법을 비판하는 사람들은 이 절단 점수가 원하는 criterion-참조가 아닌 norm-참조로 인식되는데, 이는 절단 점수를 생성하기 위해 실제 코호트 성능의 사전 결정되고 상대적으로 임의적인 비율에 의존하기 때문이다.
Standard setting methods such as Angoff are resource intensive and time‐consuming. Faculty with small staff numbers and limited financial resources can struggle to collect a sufficient number of experts required for reliable and valid methods. The Cohen method is an alternative form of standard setting increasingly used in medical education where the‘best performing’students (student score at the 95th percentile or P95) are used as a reference point [10]. Medical educators determine what proportion of this high‐performing group score is acceptable as a cut score, e.g. 60%×P95. The modified Cohen takes this further proposing that historical data from multiple criterion‐referenced exams, within the programme, can personalise this Cohen sum to better reflect the pass mark expected by panels of experts.
The modified Cohen is therefore a mixed method, combining both criterion‐referenced and norm‐referenced data in the creation of the cut score [60]. Users of the method think the Cohen cut score is time efficient and less resource intensive and fair to students in that all students can pass the exam and the cut‐score changes with the level of difficulty of the exam. Critics of the Cohen method, however, perceive this cut‐score to be norm‐referenced, rather than the desired criterion‐referenced, as it relies on a pre‐determined and relatively arbitrary proportion of the actual cohort performance to create the cut‐score.
기준 참조 표준 설정 방법 선택 Selecting a Criterion‐referenced Standard Setting Method
미국교육연구협회 '교육 및 심리검사를 위한 표준'[61, 페이지 53]은 '모든 시험 또는 모든 목적에 대해 cut-score를 결정하는 유일한 방법은 있을 수 없으며, 어떤 단일한 절차도 방어성을 완전히 확립할 수는 없다'고 분명히 명시하고 있다. 이러한 노선을 따라 Angoff[61]는 '컷(cut) 점수 설정 문제와 관련하여, 서로 일치하는 결과를 산출하지 못할 뿐만 아니라 반복 적용 시에도 동일한 결과를 산출하지 못하는 몇 가지 판단 방법을 관찰했다'고 언급했다.
The American Educational Research Association ‘Standards for Educational and Psychological Testing’ [61, p. 53] clearly state that ‘there can be no single method for determining cut‐scores for all tests or for all purposes, nor can there be any single set of procedures for establishing their defensibility’. Along these lines, Angoff [61] also noted that ‘regarding the problem of setting cut‐scores, we have observed that the several judgemental methods not only fail to yield results that agree with one another, they even fail to yield the same results on repeated application’.
어떤 하나의 방법으로도 '최적' 절단 점수 값을 식별할 수 없음에도 불구하고, 후자는 항상 전문적인 판단에 포함되기 때문에, 의학 교육자가 표준 설정 접근방식을 선택할 때 고려하고자 하는 여러 요소가 있다. 다음은 이러한 요인에 대한 개요입니다.
Despite the fact that no single method can lead to the identification of an ‘optimal’ cut‐score value, as the latter is always embedded in professional judgement, there are nonetheless a number of factors that the medical educator might wish to consider when selecting a standard setting approach. An overview of these factors is presented next.
[명확한 표준 설정 프로세스를 준수하는 정도]가 cut-score에 가장 큰 영향을 미칩니다. 무슨 방법을 쓰든지, 표준 설정 과정에는 [표준 설정 연습 및 시험의 목표에 대한 명확한 정의, 잘못된 인식을 최소화하기 위한 패널리스트의 광범위한 교육, 그리고 최소한의 숙련도 또는 허용 가능한 성과를 구성하는 것이 무엇인지에 대한 명확한 개요]가 포함되어야 한다. 그러나 시험 목표와 시험 점수 사용자가 원하는 관련 결정을 고려하여 가장 적합한 표준 설정 방법을 선택하는 것은 여러 요인을 고려할 수 있다.
The extent to which a clear standard setting process is adhered to has the greatest impact on the cut‐score. This process, regardless of the method adopted, should include a clear definition of the objective of the examination as well as the standard setting exercise, extensive training of panellists to minimise any misconceptions, as well as a clear outline of what constitutes minimal proficiency or a borderline acceptable performance. However, a number of factors can be considered to select a standard setting method that might be most suitable given the intended aims of the examination and the associated decision that the test score user wishes to make.
첫 번째 질문 중 하나는 [시험 형식]이 어떻게 되는지이다.
지식 기반 검사(예: MCQ)의 경우 패널리스트가 완료해야 하는 과제를 감안할 때, 즉 실제 테스트 항목의 검토에 근거하여 컷(cut) 점수를 추정하는 것이 가장 적절하다.
반대로 OSCE 및 작업 공간 기반 작업과 같은 성능 평가의 경우 복잡한 다차원 성능 특성을 고려할 때 검사 중심 방법이 표준을 설정하기에 더 적합합니다. 후자는 일반적으로 성과에 대한 전체론적 판단을 수반한다.
One of the first questions to ask is what is the format of the examination?
For knowledge‐based examinations (e.g. MCQs), test‐centred methods are most appropriate given the task that panellists are asked to complete, i.e. estimate a cut‐score based on a review of the actual test items.
Conversely, for performance assessments, such as OSCEs and workplace‐based tasks, examineecentred methods are more suitable for setting a standard given the complex, multi‐dimensional nature of performance. The latter typically entail holistic judgements of performance.
둘째, 사용자는 시험 형식을 고려할 수도 있습니다. 예를 들어, 일부 표준 설정 방법(예: Nedelsky 방법)은 MCQ와 함께 사용하기 위해 개발되었습니다. 일부 방법은 서로 다른 형식(예: Angoff 방법)으로 사용할 수 있지만, 기대치를 충족할 수도 있고 충족하지 못할 수도 있는 특정 가정이 이루어진다. 예를 들어, Angoff 방법과 그 파생물offshoot들은 본질적으로 수행능력이 보상적compensatory이라고 가정한다. 즉, 응시자들은 다른 섹션에서 잘함으로써 시험의 특정 부분에서 잘 하지 못한 것을 보상할 수 있다. 따라서 이러한 방법들은 서로 다른 요소들이 성공적으로 독립적으로 완성되어야 하는 결합적 환경에서는 적절하지 않을 것이다. 다른 방법(Hofstee, 대조군)은 테스트 형식에 무관하도록test-format invariant 개발되었습니다. Second, the user may also wish to consider the format of the examination. For example, some standard setting methods (e.g. the Nedelsky method) were developed exclusively for use with MCQs. While some methods can be used with different formats (e.g. Angoff methods), certain assumptions are made that may or may not meet expectations. For example, the Angoff method and its offshoots assume that performance is compensatory in nature, i.e. candidates can compensate for doing poorly in certain parts of the examination by doing well in other sections. These methods would therefore be inappropriate in a conjunctive setting, where different components need to be successfully and independently completed. Other methods (Hofstee, contrasting groups) were developed as test‐format invariant.
종종 공표되는 한 가지 잘못된 믿음은 표준을 설정할 때 [다수의 방법을 결합하면 '더 나은 컷 스코어'를 제공한다는 것]이다. 표준 설정과 삭감 점수 선택은 정보에 입각한 판단에서 도출되기는 하지만, 궁극적으로는 [정책 결정]이라는 점을 반복적으로 강조할 수 밖에 없다. 복수의 방법을 결합하면 '더 나은' 표준이 될 것이라는 증거는 거의 없다[57]. '올바른correct' cut-score가 없는데, 어떻게 여러 접근방식의 결과를 종합할 수 있는가? 또한 이 전략에는 훨씬 더 많은 리소스가 필요합니다. 몇 가지(부실하게) 구현된 접근법의 결과를 제공하기보다는 항상 하나의 표준 설정 방법을 체계적으로 구현하는 것이 더 낫다.
One erroneous belief that is often promulgated is the one that suggests that combining a multitude of methods when setting a standard will provide a ‘better cutscore’. It is important to reiterate that standard setting and the selection of a cut‐score are ultimately policy decisions, albeit derived from informed judgement. There is little evidence to suggest that combining multiple methods will lead to a ‘better’ standard [57]. Since there is no ‘correct’ cut‐score, how can policy makers synthesise results from multiple approaches? This strategy also requires significantly more resources. It is always better to systematically implement one standard setting method rather than provide results from several (poorly) implemented approaches.
다시 말하지만, [cut-score에 뒤따르는 프로세스]가 궁극적으로 방어해야 할 사항입니다. 후자는 기준 설정 연습의 [모든 단계를 적절히 문서화]하여, 패널리스트의 [선발과 훈련을 명확히 기술]하고, cut-score의 사용을 [뒷받침하는 경험적 증거]를 제공하는 것을 포함한다. 이러한 데이터에는 일반적으로 컷-점수 값에 대한 변동성 소스(판단, 패널 등)의 영향뿐만 아니라 컷-점수 구현 결과(예: 과거 추세에 비추어 합격/불합격률의 적절성)가 포함된다. 절단 점수 확인의 중요성은 다음 섹션에서 강조합니다(상자 24.9 참조).
Again, the process that is followed when arriving at a cut‐score is ultimately what needs to be defended. The latter includes properly documenting all phases of a standard setting exercise, clearly describing the selection and training of panellists, as well as providing empirical evidence to support the use of a cut‐score. These data typically include the impact of sources of variability (judges, panels, etc.) on the cut‐score value as well as the consequences of implementing a cut‐score (e.g. the appropriateness of pass/fail rates in light of historical trends). The importance of validating any cut‐score is underscored in the next section (see Box 24.9).
상자 24.9 방법: 표준 설정 방법 선택 BOX 24.9 HOW TO: Choose a standard setting method • 모든 표준 설정 방식은 '무엇이 역량을 구성하는가'에 대한 전문가의 내적 구조internal construction에 기초하기 때문에, (어떤 방식으로도) '최적optimal' 절단점수 값은 산출할 수 없다.
• [프로세스가 체계적으로 구현되고 적절한 근거 출처로 뒷받침되는 것]이 어떤 표준 설정 방법을 선택하느냐보다 훨씬 더 중요하다.
• 그러나 표준 설정 방법의 선택에는 (MCQ 대 성능 평가) 몇 가지 요소를 고려할 수 있다.
• 몇 가지 방법을 결합해도 결국 여러 가지 고려사항에 기초한 정책 결정이기 때문에 '더 나은' 표준이 만들어지지는 않을 것이다. •No standard setting method can yield an‘optimal’cut‐score value as this is based on experts’internal construction of what constitutes competence.
•The extent to which a process is systematically implemented and supported with appropriate sources of evidence is much more important than the selection of any standard setting method. •However, several factors can be considered in the choice of a standard setting method, including the format of the examination (MCQ versus performance assessment). •Combining several methods will not yield a‘better’standard as the choice of any cut‐score is ultimately a policy decision based on a number of considerations.
컷-점수를 지원하기 위한 유효성 증거 수집 Gathering Validity Evidence to Support a Cut‐score
어떤 표준 설정 방법을 채택하였든, [얻어진 표준을 검증하기 위한 증거를 수집하는 것]은 중요한 단계입니다 [62, 63]. 이 장에서 언급한 바와 같이, 모든 표준 설정 연습에서 궁극적으로 중요한 것은 프로세스가 체계적으로 준수되고 여러 증거 소스를 사용하여 방어될 수 있는 범위입니다. Regardless of the standard setting method adopted, gathering evidence to validate the resulting standard is a critical step [62, 63]. As stated throughout this chapter, what is ultimately of importance with any standard setting exercise is the extent to which a process is systematically adhered to and can be defended using a number of evidential sources.
[절차적 타당성procedural validity을 뒷받침하는 근거]는 표준 설정 보고서에 명확히 기록될 필요가 있다. 이것은 일반적으로 모든 표준 설정 보고서의 첫 부분으로 구성되며, 다음을 포함하여 연습의 각 단계에 대한 철저한 설명을 수반한다. The evidence to support procedural validityneeds to be clearly documented in the standard setting report. This usually comprises the first part of any standard setting report and entails a thorough account of each step of the exercise including:
• 대상 시험의 개요 및 목적
• 근거 근거와 함께 구현된 선택된 표준 설정 방법에 대한 명확한 설명.
• 전문가 심판단 선정 과정, 심사위원의 자격 설명, 전문직 전체를 대표하는 정도 설명
• 훈련 과정, 성과 표준의 정의 및 데이터 수집 방법을 포함한 연습의 모든 단계에 대한 개요
•An overview of the targeted examination and its purpose.
•A clear articulation of the selected standard setting method implemented with a supporting rationale.
•The process used to select the panel of expert judges, as well as a description of their qualifications and the extent to which they represent the profession as a whole.
•An outline of all phases of the exercise, including the training process, definition of the performance standard, and how data were collected.
표준 설정 연습의 다양한 측면에 대한 조사 패널 목록은 절차적 타당성 증거를 뒷받침하는 마지막 중요한 부분을 구성합니다. 패널 리스트가 공정에서 얼마나 신뢰하며, 더 중요한 것은 컷-스코어 결과에서 얼마나 신뢰합니까? 훈련 단계에 대한 심판의 인상과 점수를 평가하는 것은 모든 표준 설정 연습에 대한 강력한 확인을 제공할 수 있다. Surveying panellists on various aspects of the standard setting exercise constitutes a final important piece of supporting procedural validity evidence. How confident are the panellists in the process and, more importantly, in the resulting cut‐score? Evaluating judges’ impressions of the training phase as well as the cut‐score can provide strong confirmation for any standard setting exercise.
대부분의 기준 참조 검사의 높은 위험 특성을 고려할 때 cut-score의 내부 타당도를 뒷받침하는 증거도 매우 중요하다. 즉, 절단 점수의 추정은 얼마나 정확하며 관심 있는 모든 측면에서 얼마나 재현 가능합니까? 정밀도와 관련하여, 항목 응답 능력 지표와 관련된 항목 응답 능력 지표의 경우, 절단 점수와 관련된 숙련도 추정치의 (조건부) 표준 오차는 후자 값의 안정성을 직접적으로 나타낼 수 있다. 관측된 점수 척도(예: 숫자 , 오른쪽, 백분율 correct 정확 등)를 사용하여, 실무자는 복합 이항 모델을 사용하여 절단 점수와 관련된 오차의 양을 추정할 수도 있다[64]. Evidence to support the internal validityof the cut‐score is also of great importance given the high‐stakes nature of most criterion‐referenced examinations. That is, how precise is the estimate of the cut‐score and how reproducible is it across any facet of interest? With regard to precision, if the cut‐score is relatable to an item response theory ability metric, the (conditional) standard error of the proficiency estimate associated with a cut‐score can provide a straightforward indication of the stability of the latter value. With an observed score scale (e.g. number‐right, percentage‐correct, etc.), the practitioner can also estimate the amount of error associated with a cut‐score using a compound binomial model [64].
또한, 표준 설정에 참여하는 심판, 심판 패널(여러 그룹이 참여하는 경우), 선택한 항목/스테이션 등의 기능으로 절단 점수가 영향을 받는 정도는 [일반화가능도 이론]을 사용하여 쉽게 평가할 수 있다[8, 65]. 이 프레임워크를 통해 의료 교육자는 위에 열거된 측정 오류의 측면 또는 잠재적 원천에 기인할 수 있는 점수(컷☆스코어 포함)의 변동성을 추정할 수 있다. 이와 유사하게, IRT 기반 등급 척도 모델[66]은 또한 후보자의 능력 분포, 항목/역의 어려움 및 등급의 엄격성과 관련하여 유용한 정보를 제공할 수 있다. 내부 타당도 의 증거를 수집하기 위해 사용하는 모델의 복잡성에 관계없이, 이 중요한 정보의 출처는 절단 점수가 추정되는 안정성이나 정밀도에 대한 지표를 제공하는 데 있으며, 주로 오용을 최소화하기 위해 실무자에게 일부 경계를 제공하는 데 있다. Additionally, the extent to which the cut‐score is impacted as a function of the judges participating in an exercise, the panel of judges (if multiple groups are involved), the items/stations selected, etc. can be readily assessed using generalisability theory [8, 65]. This framework allows the medical educator to estimate the amount of variability in scores (including the cut‐score) that can be ascribed to any facet or potential source of measurement error as listed above. Similarly, IRT‐based rating scale models [66] can also provide useful information with respect to the ability distribution of candidates, difficulty of items/stations, as well as stringency of raters. Regardless of the complexity of the models utilised to gather evidence of internal validity, the aim of this critical source of information is to provide an indication of the stability or precision with which a cut‐score is estimated, primarily to provide some boundaries to the practitioner in order to minimise its misuse.
[절단 점수의 외부 타당도external validity을 뒷받침하는 증거]도 표준 설정 노력의 일부가 되어야 한다. 이는 표준 구현의 영향과 직접 관련이 있기 때문이다. (과거의) 불합격률에 미치는 영향에 비추어 절단 점수의 합리성을 평가하는 것은 일반적으로 외부 검증 노력의 핵심이다. 예를 들어, 일반적으로 졸업 OSCE에서 한 학년의 10~12% 사이에서 불합격해왔다고 가정해보자. 표준 설정 연습에 따른 55%의 불합격률이 나왔다면, 코호트가 과거 그룹 및 유사한 난이도의 OSCE와 비교할 수 있는 능력을 가졌다고 가정할 때 컷(cut) 점수 및 그 적정성에 대한 상당한 정밀 조사를 보증할 것이다. Evidence to support the external validityof a cut‐score should also be part of any standard setting effort as this relates directly to the impact of implementing a standard. Assessing the reasonableness of the cut‐score in light of its impact on failure rates is generally at the core of external validation efforts. For example, assume that a graduation OSCE has typically failed between 10 and 12% of a class. A failure rate of 55%, following a standard setting exercise, would warrant considerable scrutiny of the cut‐score and its appropriateness, assuming that the cohort is of comparable ability to past groups and the OSCE of a similar difficulty level.
(표준 설정의) 결과를 [다른 평가와 비교하는 것]은 제안된 모든 절단 점수에 대한 외부 타당도의 또 다른 중요한 원천을 구성한다. 예를 들어, 유사한 구조(예: 이전 OSCE)를 측정하는 다른 시험에서의 합격/불합격률 또는 학생 현황과 얼마나 비교가 됩니까? 두 번의 검사가 정확히 동일한 도메인 조합을 측정할 것이라고 기대하지는 않지만, 그럼에도 불구하고 대부분의 응시자들에게 동등한 지위를 줄 것입니다.
A comparison of results to other assessments constitutes another important source of external validity for any proposed cut‐score. For example, how comparable are pass/ fail rates to grades or the status of students on other examinations measuring similar constructs (e.g. a prior OSCE)? Though we would not expect two examinations to measure exactly the same combination of domains, they should nonetheless yield a comparable standing for most candidates.
결론 Conclusions
표준 설정은 학부 교육에서 의사 재검증 노력에 이르기까지 의료 교육의 모든 평가 활동에서 필수적인 부분입니다. 응시자가 시험의 기초가 되는 역량을 습득했는지 여부를 결정하는 것은 개별적인 판단뿐만 아니라 프로그램 효과성, 교육 효과성 등을 평가하는 데 사용되는 핵심 결과이다. [67, 68]. Standard setting is an intrinsic part of all assessment activities in medical education, from undergraduate training to physician revalidation efforts. Determining whether a candidate has mastered any number of competencies underlying an examination is a key outcome used not only to render individual judgements but also to evaluate programme effectiveness, teaching efficacy, etc. [67, 68].
무엇보다도, gold standard가 없으며, 모든 cut-score는 궁극적으로 ['역량'을 구성하는 수준]에 대해서 [내용전문가 집단이 내린 정보에 입각한 판단]을 반영한다는 점을 다시 한 번 강조해야 한다. 따라서 표준 설정 프로세스를 체계적으로 따르고 적절한 경험적 증거를 사용하여 이를 사용하는 것이 그러한 연습의 핵심이다. First and foremost, it is important to reiterate that there is no gold standard and that all cut‐scores ultimately reflect informed judgement from a group of content experts on what level of performance constitutes ‘competency’. Systematically following a standard setting process and supporting its use with appropriate empirical evidence is therefore central to any such exercise.
시험에 대한 cut-score 결정에 어떤 방법을 사용하든, 표준 설정 연습을 수행하기 전에 몇 가지 문제를 해결해야 한다. Irrespective of the method selected to arrive at a cutscore on an examination, several issues need to be addressed prior to undertaking a standard setting exercise.
첫째, 심사 위원단은 모든 시험 이해관계자의 축소판으로 보아야 하며, 따라서 지리적 영역, 의과대학 위치, 전문성, 성별 또는 민족성이 직업에 의해 중요하다고 간주되는 특성을 반영해야 한다. 그러한 광범위한 패널을 소집하는 것은 대부분의 전문직 종사자들의 견해가 실무에 통합되고 궁극적으로 표준이 되도록 보장할 것이다. First, the panel of judges should be viewed as a microcosm of all exam stakeholders and as such should mirror any characteristic deemed important by the profession, be that geographical area, medical school location, specialty, gender, or ethnicity. Convening such a broad panel will ensure that views from most members of the profession are incorporated in the exercise, and ultimately, the standard.
모든 표준 설정 패널에 적합한 수의 패널 목록을 결정하는 것도 중요합니다. 너무 적은 수의 패널리스트를 초대하는 것은 바람직하지 않다. 한 명의 반대 심판의 판단이 최종 컷-점수의 가치에 과도한 영향을 미칠 수 있기 때문이다. 반면에 지나치게 대형 패널을 구성하는 것은 비용 효율적이지 않을 수 있습니다. 따라서 위에서 설명한 바와 같이 패널집단에게 원하는 특성을 명확하게 식별하면, 패널의 최적 크기를 결정하는 데 귀중한 정보를 제공할 수 있다.
Determining a suitable number of panellists for any standard setting panel is also critical. Inviting too few panellists is ill‐advised, as the judgements of a single dissenting judge could have an undue impact on the value of the final cut‐score. On the other hand, assembling a large panel may not be cost‐effective. Consequently, clearly identifying the desired characteristics of the group, as outlined above, can provide valuable information for determining the panel’s optimal size.
일단 cut-score가설정되면, 정치적 또는 내용적 성격에 기반하여 직업에서 발생할 수 있는 모든 변화에 비추어 지속적인 적합성을 보장하기 위해 모든 검사의 컷(cut) 점수를 주기적으로 재검토하는 것도 중요하다. 마지막으로, 표준 설정 방법이 다르면 컷-점수 값이 달라진다는 점을 다시 언급하는 것이 중요합니다.
Once set, it is also important that the cut‐score for any examination be periodically revisited to ensure its continued appropriateness in light of any changes that may have occurred in the profession, whether political or content‐based in nature. Finally, it is important to restate that different standard setting methods will produce different cut‐score values.
모든 표준 설정 연습의 중심 목표는 다음과 같아야 한다.
(i) 특정 방법의 선택을 방어한다.
(ii) 연습 내내 따르는 모든 단계를 꼼꼼하게 문서화해야 한다.
(iii) 기준의 선택은 가능한 한 많은 경험적 증거에 기초하며, 주어진 cut-score 채택의 결과뿐만 아니라, 전체적 인상을 고려한다
The central aim in any standard setting exercise should be to:
(i) defend the choice of a particular method,
(ii) meticulously document all steps followed throughout the exercise, and
(iii) base the selection of the standard on as much empirical evidence as possible, factoring in global impressions as well as the consequences of adopting a given cut‐score.