총괄평가가 학습에 영향을 미치는 메커니즘(Adv in Health Sci Educ, 2010)

The mechanism of impact of summative assessment on medical students’ learning (Adv in Health Sci Educ, 2010)

Francois J. Cilliers • Lambert W. Schuwirth • Hanelie J. Adendorff • Nicoline Herman • Cees P. van der Vleuten





Introduction


I think, as a result of assessment, I know much less than I otherwise would have. (6(V)F65)


It has become axiomatic to refer to the powerful impact of assessment on student learning. Terms like the ‘‘backwash effect’’ (Biggs 1996; Elton 1987, used in general educational literature) and the ‘‘washback effect’’ (Alderson and Wall 1993; Bailey 1996, used in language teaching and testing literature) of assessment, ‘‘consequential validity’’ (Boud 1995), ‘‘test-enhanced learning’’, the ‘‘testing effect’’ or the ‘‘testing phenomenon’’ (Glover 1989; Roediger and Karpicke 2006) and ‘‘test expectancy’’ (Lundeberg and Fox 1991) have been used in this regard.


The impact of assessment on student learning is generally held to be profound. Elton and Laurillard (1979) went so far as to state that ‘‘the quickest way to change student learning is to change the assessment system’’. Boud et al. (1999) state that ‘‘[a]ssessment is the single most powerful influence on learning in formal courses’’. If this is the case, then assessment may well be one of the most powerful tools we have at our disposal to influence student learning. However, even after a almost a century of research, efforts to positively influence learning through assessment do not always yield encouraging results (Gijbels et al. 2009).


Internal-to-programme summative assessment may well exert both a stronger and a more pervasive influence on learning than other assessment practices in higher education (HE), however. As Boud (1995) highlighted, students cannot escape the impact of summative assessment. Given the stakes, the design of such assessment is more typically informed by psychometric than learning considerations and so even if other aspects of assessment in a course have been designed to promote meaningful learning, the impact of summative assessment could trump beneficial effects achieved by other means. Furthermore, more students in HE probably encounter internal-to-programme summative assessment than external-to-programme standardised testing.


As for ‘‘learning’’, it is often not the only phenomenon that authors highlight when writing about the impact of assessment. In HE, the impact of assessment on not just learning but also on non-learning student behaviours intended to enhance marks e.g., ingratiating themselves with lecturers, on student stress and on students’ choice of courses has been highlighted by various authors (Becker et al. 1968; Miller and Parlett 1974; Snyder 1971). From the opposite perspective, assessment is typically identified as one of the contextual factors that impact on learning in models of learning (Biggs 1987; Ramsden 1984; Ross et al. 2003; Vermunt 1996).


There is some descriptive literature focussing on the ‘‘what’’ of the impact of internal-to-programme summative assessment on the process of student learning in HE as Maxwell (2004a: 4) puts it, ‘‘whether x caused y’’ (emphasis in original). In contrast, very little has been written explaining ‘‘how it did so’’ (Maxwell 2004a: 4, emphasis in original). As Bunge (2004: 199) noted, ‘‘any mechanism-free account must be taken to be shallow and therefore a challenge to uncover unknown mechanism(s)’’.


From a process theory perspective, this paper deals with ‘‘events and the processes that connect them’’ (Maxwell 2004b: 248) specifically in one distinctive, internal-to-programme, high-stakes assessment system; thus, the local mechanisms at play in a ‘‘complex network of events and processes in a situation’’ (Miles and Huberman 1994: 146; 147).


외적 동기부여

Extrinsic motivation


평가는 학생의 학습 노력의 양과 분포에 대한 외부의 동기와 영향을 제공합니다. 평가가 있다는 사실만으로도 학생들로 하여금 학습하도록 유도하고 따라서 학습에 소비되는 노력의 양에 영향을 미친다 (Miller and Parlett 1974; Snyder 1971; van Etten 외. 1997). 그러나 평가의 영향이 항상 긍정적 인 것은 아닙니다. 학생들이 점수를 얻기를 희망하지 않거나 뒤늦게 따라 잡을 수 없다고 생각해서 예를 들어 점수가 성공적으로 협상을 할 수 없다고 판단하면 학습을 중단 할 수 있습니다 (Becker 외 1968). 또한 외적 동기 부여에 대한 평가에 대한 반응이 모든 학생에게 균질하지도 않다.


Assessment provides extrinsic motivation and impacts on the amount and distribution of students’ learning efforts. The mere fact of assessment motivates students to learn and therefore influences the quantum of effort expended on learning (Miller and Parlett 1974; Snyder 1971; van Etten et al. 1997). The impact of assessment on effort is not necessarily always positive, however. If students perceive they are unable to successfully negotiate assessment, for example because their marks are so bad they cannot hope to achieve a pass or they are so far behind they believe they cannot catch up, this can result in them stopping learning (Becker et al. 1968). Nor is the response to assessment as extrinsic motivation uniform.


결과

Consequences


평가의 잠재적 결과는 또한 학생 학습에 영향을 미칩니다. 학생들은 배운 내용과 학습 된 내용을 이해하는 것보다 강사의 요구 사항을 충족시키기 위해 무엇을 어떻게 배우는지 적응합니다 (Becker et al., 1968; Ramsden 1984, 1992; Snyder 1971). 이것은 적어도 부분적으로는 그렇게하지 않는 위험이 크고, 자기 존중과 단기 및 장기간의 물질적 이익면에서 일치하는 상당한 보상 (Parlett 1969; Snyder 1971)이기 때문입니다. 주제가 평가에서 다루어질 가능성은 학생들이 학습할 내용을 선택하는데 영향을 미친다 (Becker 등 1968, Becker 등 1961, Miller and Parlett 1974, Snyder 1971, Vermunt 1996) Snyder (1971)가 언급 한 것 '선택적 무시'로 간주합니다. 또한 학생들이 학습 자료에 참여하는 데 철저하게 영향을 미칩니다 (Laurillard 1979, van Etten 외. 1997). 이것은 또한 학생이 선택하도록하는 과제 (Snyder 1971)와 학생들이 과제에 기울이는 노력의 양 (Becker 외 1968; Janssens 외 2002, Struyven et al 2005에 인용)에도 적용됩니다. 학생들이 학습 자료에 참여하는 철저한 방법은 주어진 과제에 대한 성과가 최종 성적을 계산하는 데 기여할 때 영향을받습니다 (Ramsden 1992, Snyder 1971). 구두 평가에서 무지하게 나타날 위험 같은 개인적인 결과 또한 학생들의 철저한 준비에 영향을주었습니다 (Joughin 2007).


The potential consequences of assessment also impact student learning. Students adapt both what and how they learn so as to meet the lecturers’ requirements as manifested in assessment rather than understand the material being learned (Becker et al. 1968; Ramsden 1984, 1992; Snyder 1971). This is at least in part because the risks of not doing so are great, the rewards for conforming, substantial, both in terms of self-esteem and in terms of short and longer term material benefits (Parlett 1969; Snyder 1971). The likelihood of subject matter featuring in assessment impacts on what content students select to learn (Becker et al. 1968; Becker et al. 1961; Miller and Parlett 1974; Snyder 1971; Vermunt 1996) or not—what Snyder (1971) referred to as ‘‘selective negligence’’. It also influences the thoroughness with which students engage with learning material (Laurillard 1979; van Etten et al. 1997). This also holds for assignments students choose to do or not (Snyder 1971) and the amount of effort students devote to tasks (Becker et al. 1968; Janssens et al. 2002, cited by Struyven et al. 2005). The thoroughness with which students engage with learning material is impacted by the contribution that performance on any given assign- ment will make towards the calculation of a final grade (Ramsden 1992; Snyder 1971). Personal consequences like the risk of appearing ignorant in an oral assessment also impacted how thoroughly students prepare (Joughin 2007).


바람직한 결과를 얻기 위하여

Achieving a desired outcome


주어진 학습 결과가 원하는 평가 결과를 가져올 가능성은 학생들의 행동에 영향을 미칩니다. 학생들이 공부하는 데 소비하는 시간은 학습자료의 양과 그것과는 독립적으로 학습자료의 난이도가 증가함에 따라 점차 증가한다 (van Etten et al. 1997). 학생들은 평가 과제의 요구에 가장 잘 대비 한 평가 준비를위한 자원과 활동을 선택합니다 (Frederiksen 1984; Newble and Jaeger 1983). 또한 학생들은 학습 결과를 평가 과제의 요구와 일치시켜 원하는 결과를 얻습니다 (Becker et al., 1968; Sambell and McDowell 1998).

The likelihood of any given learning behaviour bringing about a desired assessment outcome influences students’ actions. The amount of time students spend studying increases, up to a point, as the volume of material and, independent of that, the degree of difficulty of the material, to be studied, increases (van Etten et al. 1997). Students select resources and activities to prepare for assessment that best prepare themfor the demands of the assessment task (Frederiksen 1984; Newble and Jaeger 1983). Student also match the nature of their learning to the demands of the assessment task to achieve a desired outcome (Becker et al. 1968; Sambell and McDowell 1998).


학생들은 학습자가 원하는 결과를 평가 (Becker et al., 1968, 1961) 할 수 있도록 학습하기 위해 내용 선택을 안내하기 위해 신호기, 다른 학생 및 과거 논문을 찾고 심지어이를 끝내기 위해 속일 수 있습니다 (Becker et al., 1968). 많은 양의 작업으로 학생들은 원하는 결과를 얻으려는 목적으로 어떤 내용에 대해보다 선별 적으로 선택하고 낮은 수준의인지 처리 전술을 채택해야합니다 (Ramsden 1984; Snyder 1971; van Etten 외. 1997). 노력은 주어진 시간에 혜택이나 보상이 가장 유용하다고 여겨지는 곳을 기초로 코스에 할당됩니다 (Becker 외 1968)

Students seek cues from lecturers, other students and past papers to guide their selection of content to learn, in the interests of achieving their desired outcome with assessment (Becker et al. 1968, 1961), and may even cheat to achieve this end (Becker et al. 1968). High volumes of work drive students to be more selective about what content to engage with and to adopt low level cognitive processing tactics in the interests of achieving a desired outcome (Ramsden 1984; Snyder 1971; van Etten et al. 1997). Effort is allocated across courses based on where generating benefit or reward is deemed most useful at any given time (Becker et al. 1968).



목표

Goals


학생들의 목표는 평가에 대한 그들의 반응에 영향을 미칩니다. 학생들은 자신이 원하는 수준의 학업 성취도를 측정합니다 (Becker et al., 1968; Miller and Parlett 1974; van Etten 외. 1997). 학생들이 주제를 향상시킬 필요가 있는지 여부, 자료가 흥미로운 지 여부, 자료가 다루기가 쉽지 않은지 (예 : 이해하기가 불가능하지 않은지 여부) 및 과제가 주요 연구 영역에 있는지 여부 (van Etten et al., 1997). 흥미롭게도, 학생들이 인식하는 평가 요구를 충족시키기 위해 채택하는 학습 유형은 장기 목표에 따라 달라질 수 있습니다.

Students’ goals influence their response to assessment. Students gauge the magnitude oftheir efforts by what grade they aimto achieve (Becker et al. 1968; Miller and Parlett 1974;van Etten et al. 1997). Various factors influence the priority students accord reading assignments, including 

    • whether they need to improve in the subject, 

    • whether the material is interesting, whether the material is manageable (e.g., not impossible to understand) and 

    • whether the assignment is in their major area of study (van Etten et al. 1997). 

Interestingly,the type of learning students adopt to meet the perceived demands of assessment may be discordant with their long-term goals.


규범

Norms


평가에 대한 개별 반응은 동료 집단 내에서 사회적으로 구성되고 공유 된 기준 틀에 의해 조절 될 수있다 (Becker et al., 1968). 피어 그룹 내의 규범은 학생이 학습을 시작할 때 조절할 수 있으며, 그렇지 않으면 나중에 선택하기 시작합니다 (Thomson and Falchikov 1998).

Individual responses to assessment can be modulated by a socially constructed and shared frame of reference within a peer group (Becker et al. 1968). The norms within a peer group can modulate when a student starts learning, resulting in them starting later than they would otherwise have chosen to (Thomson and Falchikov 1998).


에이전시

Agency


학습에 대한 평가가 학습 성과에 영향을 미칠지에 대한 학생들의 신념은 학습 동기에 영향을 미칩니다 (van etten 외. 1997). 학생들이 학습을 시작할 때, 주어진 작업량을 고려할 때, 주어진 지각과 복잡성에 대한 대처 능력에 대한 그들의 인식에 영향을 받는다 (Snyder, 1971).

Students’ beliefs as to whether studying would influence their performance on assessments affects their motivation to learn (van Etten et al. 1997). When students start learning is influenced by their perception their ability to cope with a task of given magnitude and complexity, given the prevailing workload (Snyder 1971).


감정

Emotion


Fransson (1977)은 또한 학습에 대한 학생들의 접근 방식은 평가와 관련된 두 가지 요소 인 위협과 불안의 정도에 영향을 받음을 보고했습니다. 평가에 대한 걱정은 학습 노력 배분에 영향을 미치는 것으로보고되었다 (Miller and Parlett 1974).

Fransson (1977) also reported students’ approach to learning is impacted by the degree of threat and anxiety they experience, both factors associated with assessment. Worry about assessment has also been reported to influence allocation of effort to learning (Miller and Parlett 1974).


기존 문헌에서 두 가지 사실이 두드러진다. 첫 번째는 대부분이 연구가 학습에 대한 평가의 영향을 체계적으로 조사하도록 고안되지 않았기 때문입니다. 학습에 대한 평가의 영향에 대한 증거를 제공하는 것으로 종종 인용되는 다양한 연구가 있습니다. 그러나 이들 중 많은 것들이 생태 학적 타당성이 제한된 통제 된 환경에서 수행 된 실험적 작업이었다 (Lundeberg and Fox 1991). 또한, 이러한 많은 연구는 초등 학교를 포함한 학교 환경에서 실시되었으므로 HE 환경에서의 유용성을 더욱 제한하고 있습니다.

Two things about this literature are striking. The first is that, for the most part, these studies were not designed to systematically investigate the impact of assessment on learning. There are various studies that are often cited as providing evidence of the impact of assessment on learning. However, many of these were experi- mental work conducted in controlled settings with limited ecological validity (Lundeberg and Fox 1991). Furthermore, many of these studies were conducted in school settings, including elementary schools, further limiting their usefulness in HE settings.


이 문헌에 두드러진 두 번째 점은 이론적 틀 내에서 평가의 영향을 설명하기위한 제한된 시도 만이 이루어 졌다는 점입니다.

The second thing that is striking about this literature is that only limited attempts have been made to explain the impact of assessment within a theoretical framework.





방법

Methods


맥락

Context


This study was conducted at the Faculty of Health Sciences of Stellenbosch University in South Africa. Medical students there follow a 6 year, modular program.


대상 및 윤리

Subjects and ethics


Thirty-two students volunteered for interviews.


Some characteristics of respondents are summarized in Table 1.


자료 수집 및 분석

Data collection and analysis


In-depth, unstructured interviews (Charmaz 2006; DiCicco-Bloom and Crabtree 2006; Kvale 1996) were conducted with individual students, each lasting approximately 90 min. In keeping with the inductive nature of the study, no formal interview schedule was used. Interviews were loosely constructed around exploring three issues: how respondents learned, what assessment they had experienced and how assessment had impacted on their learning. Open-ended questions were used and statements respondents made were probed to clarify meaning, obtain additional detail and ascertain what assumptions underlie them. For example, vague statements like ‘‘I learn differently for long questions and multiple choice questions’’ were probed for detail about what respondents did differently in the two situations and why they did so.


Although the interviews were conducted at one point in time, students’ experience of different assessment methods and how they learned in varying contexts across all of their years of study were explored, compared and contrasted during interviews, though typically not chronologically. This revealed qualitative and quantitative differences and changes in respondents’ learning across varying assessment contexts and time. Each interview was


allowed to develop its own direction within the broad three-topic framework, so as to allow in-depth exploration of each respondent’s experiences and conceptions of the relationships being studied. Given that data collection proceeded in tandemwith, and was later informed by, data analysis, as analysis proceeded, emerging constructs were also discussed with respondents to confirminterpretation and explored in greater depth in subsequent interviews.


All interviews were conducted by the same investigator, an educational adviser involved in curriculum development in the faculty with little direct student interaction, but much interaction with lecturers. All interviews were conducted in a setting suggested by respondents. Interviews were conducted in either English or Afrikaans, according to respondents’ preference. Care was taken to alert respondents to the fact that their personal accounts were of interest, so that they recounted their own experiences and views rather than what they may have perceived the interviewer to want to hear. Several respondents had to be encouraged to relate their personal experiences and approaches ‘‘warts and all’’, rather than their sanitized impressions of how they thought they should be learning or of how they perceived the nebulous ‘‘they’’ (i.e., other students) to approach learning and assessment. Despite being given an undertaking regarding the confidentiality of data at the start of each interview, several respondents also had to be reassured during their interview about the confidentiality of their comments, before they proceeded to share information they perceived could elicit unfavourable responses from the lecturers concerned. That said, almost all interviews ‘‘caught fire’’ and had to be carefully kept on track as respondents enthusiastically discussed the topic at hand.


All interviews were audio recorded and transcribed verbatim, to ultimately generate almost 1,000 pages of transcripts. Data analysis commenced even as data collection pro- ceeded. Before progressing to more detailed analysis, field notes were reviewed and each transcript was read to obtain a global impression of how assessment impacts on student learning. Initial open coding was then undertaken by one of us (FC). As data collection and analysis progressed, codes were developed, refined and revised in an iterative process (Charmaz 2006; Dey 1993; Miles and Huberman 1994). Ongoing data collection, com- parisons of codes within and between interviews and discussions between team members served to confirm and clarify codes. Clustering and partitioning of codes led to the emergence of categories as data analysis progressed, which categories were also iteratively refined, revised, discussed and ultimately related to one another.


As analysis progressed and relationships between constructs became more established, it became evident that various dimensions of motivation and emotion featured prominently when exploring the link between assessment and learning. Focussed coding of the existing dataset at that point was undertaken. However, while confirming a role for motivation and emotion, this proved to be an inadequate explanatory framework. In many instances, it was simply not possible to label a mechanism by which assessment exerted an influence on learning using this framework. Despite extensive efforts re-appraising existing data and exploring constructs in subsequent interviews, no further useful constructs could be dis- cerned. In fact, nothing new emerged during data collection subsequent to interview fourteen, despite the individualized nature of each interview and adaptations that were made on the basis of preliminary data analysis. Analysis stalled at this point, it being apparent that a framework was needed that transcended motivation and emotion.


결과

Results


Respondents’ learning behaviour was influenced by appraising the impact of assessment, appraising their learning response, by their perceptions of agency and by contextual factors (Fig. 1).


영향력에 대한 판단

Appraisal of impact


응답자는 평가의 영향과 관련하여 두 가지 요인, 즉 발생할 가능성이 얼마나 될지와 결과의 크기가 어느 정도인지를 고려했습니다.

Respondents considered two factors relating to the impact of assessment: how likely consequences were to accrue and what the magnitude of consequences was likely to be.


Likelihood of impact


Magnitude of impact


반응에 대한 판단

Appraisal of response


평가를 심사숙고 할 때 응답자는 특정 결과, 응답의 비용 및 응답자의 개인 목표 및 성공과 건강에 대한 개념에 대해 측정 한 응답의 가치를 달성 할 때 주어진 학습 반응의 효용성을 다양하게 고려했습니다. 평가에 대한 학습 반응은 일반적으로 고립되어 고려되지 않았으며 응답자의 삶의 다른 차원에 대한 요구와 관심과 균형을 이루었습니다.

When contemplating assessment, respondents variously considered the efficacy of any given learning response in achieving a particular outcome, the costs of that response and the value of that response as measured against the respondent’s personal goals and their conceptions of success and wellness. The learning response to assessment was typically not considered in isolation, but rather balanced against demands from and interests in other dimensions of respondents’ lives.


Response efficacy


Response costs


Value attached to expected outcome


자기효능감에 대한 인식

Perceived self-efficacy


자기 효능감은 역경에도 불구하고 상황에 대해 어느 정도 통제력을 발휘할 수 있다는 인식과 관련이 있습니다. 응답자들은 주어진 시간대에 학업 적으로 성취 할 수있는 것을 시간이 지남에 따라 개발하고 평가 될 때 미리 정해진 목표를 달성하기위한 학습 노력의 규모, 분포 및 성격을 조정할 수 있다고보고했습니다 (인용 4, 6).

A sense of self-efficacy has to do with the perception of being able to exert some control over a situation, even in the face of adversity. Respondents reported developing a sense over time of what they were able to achieve academically in any given time frame, and being able to calibrate the magnitude, distribution and nature of their learning efforts to achieve their predetermined goals when being assessed (cf. Quotes 4, 6).


맥락적 요인

Contextual factors


응답자의 맥락에서 가장 중요한 맥락 적 요인은 다양한 referent이었다. Referent은 개인의 가치관이 의도와 행동에 영향을 미치는 데 중요한 역할을하는 사람들입니다. 그들은 동기 부여가된다면 개인이 자신의 행동을 조정할 수있는 규범 적 신념을 제공합니다. 응답자의 경우 주요 referent 그룹은 강사 및 기타 학생들이었습니다. 강사는 직접적으로나 간접적으로 referent이되었다. 학생들은 응답자의 동료와 이전에 특정 학습 연도를 성공적으로 협상 한 학생을 모두 포함시킬 수 있습니다. 일부 응답자는 밀러와 파렛 (Miller and Parlett, 1974)이 기술 한 것과 같이 큐 레이서 (cue seeker)라는 범주에 속하게되었습니다. 다른 사람들은 큐 의식이 있었고 더 많이 그들이 자신이 있다고 느끼는 문제의 정도가 커졌습니다.


The most important contextual factors in respondents’ context were various referents. Referents, people whose opinion an individual values, play an important role in influencing intent and behaviour. They provide normative beliefs against which an individual can calibrate their behaviour, if so motivated. For respondents, two key groups of referents were lecturers and other students. Lecturers served as referents both directly and indirectly. Students could include both peers of the respondent and students who previously success- fully negotiated the particular year of study. Some respondents clearly fell in the category of cue seekers as described by Miller and Parlett (1974). Others were cue conscious and became more so the greater the degree of trouble they perceived themselves to be in.


Normative beliefs


Motivation to comply with normative beliefs


Negative cases




고찰

Discussion


이 연구에서 설명한 요인들이 개입의 단순한 목표가 되지 못합니다. 주어진 시간에 주어진 모든 학생에 대해 이러한 요인들이 모두 작용하는 것은 아니며, 시간 및 상황에 따라 주어진 학생의 일정한 요소에 대한 요인도 아닙니다. 두 학생의 동일한 요소가 작용한다고하더라도, 그 영향의 강도는 개인적 또는 다른 상황에 따라 달라질 수 있습니다. 이것은 "현상의 사회적 및 문화적 맥락이 인과 적 메커니즘의 작동을 이해하는데 결정적이다"(Maxwell 2004a : 6)는 것을 강조한다. Gebhardt와 Maes (2001)가 건강 행동의 맥락에서주의하는 것처럼, 모든 행동이 행동을 유도하는 요인들에 대한 고려 된 반응의 결과 인 것은 아니다. 따라서 학습에 영향을 미치기 위해 평가가 조작되면 학생은 처음에는 고의적 인 변화를 고려하기 위한 노력을하기보다는 확립 된 행동 패턴을 취할 수 있습니다. 이것은 신중하게 설계된 평가 개입의 바람직한 영향력 부족을 설명하는 부분적 방법이 될 수 있습니다.

The factors described in this study do not form a simple target for intervention. Not all of these factors are in play for any given student at any given time, nor are the factors in play for any given student constant across time and context. Even if the same factors are in play for two students, the intensity of that impact may vary based on personal or other contextual influences individual to each. This serves to underline that ‘‘the social and cultural contexts of the phenomenon studied are crucial for understanding the operation of causal mechanisms’’ (Maxwell 2004a: 6). To complicate matters even further, as Gebhardt and Maes (2001) caution in the context of health behaviour, not all behaviour is the result of a considered response to the factors inducing the behaviour. Hence, when assessment is manipulated to influence learning, students may initially act out established patterns of behaviour rather than making the effort to make considered, deliberate changes. This might go part way to explaining the lack of desirable impact of thoughtfully designed assessment interventions.


또한 평가는 전형적으로 학생들이 반응하는 단일한 동질적 존재가 아니라는 점을 강조합니다. 각 모듈 또는 코스는 종종 다른 학생들과 동기화 된 방식보다는 독립적으로 학생들의 요구를합니다. 궁극적으로 가능한 한 많은 학생들을 대상으로 여러 차원의 학습에 영향을 미치기 위해서는 개별 평가 이벤트를 조정하는 것보다 평가 시스템 즉, 평가 시스템을 다룰 필요가 있습니다. 그러나 이러한 복잡성을 고려하지 않으면 평가를 통한 학습에 긍정적 인 영향을 미치는 노력이 실패하게됩니다.

It also bears emphasising that assessment is typically not a single, homogeneous entity to which students respond. Each module or course makes its own demands of students, often independently of rather than in synchronised fashion with others. Ultimately, to have an impact on as many dimensions of learning of as many students as possible, it will be necessary to manipulate multiple dimensions of assessment i.e., assessment systems, rather than tweak individual assessment events. Yet not taking this complexity into account will result in failed efforts to positively influence learning using assessment.


학습에 영향을 미치기 위한 평가는 결과를 보여야하며, 학생들의 표식과 진행에 대한 결과 또는 다른 요인들, 예를 들면 프로젝트 발표 나 동료 평가 또는 대행 감각의 경우 동료 학생의 눈에 띄는 존중 피드백의 경우처럼

Assessment that is intended to impact learning should have consequences, be those consequences on students’ marks and progression or on other factors e.g., their esteem in the eyes of fellow students as may be the case with project presentations or peer assessment or their sense of agency as may be the case with feedback.


어떤 평가 활동의 영향도는 아마도 그것과 관련된 결과의 심각성의 정도와 강하게 상관 될 것이다. 학생의 학년 중 10 %를 기여하는 독창적 인 과제에 대한 피드백을 도입하면인지 적 과제의 수준을 리콜에서 문제 해결로 변경하는 것보다 덜 성공적인 개입이 될 가능성이 높습니다. 객관식 평가에서 50 % 학생의 학년 중.

The degree of impact of any assessment activity will probably be strongly correlated with the magnitude of the severity of consequences associated with it. Introducing feed- back on a one-of-a-kind assignment contributing 10% of a student’s grade is likely to be a less successful intervention than changing the level of cognitive challenge from recall to problem-solving in a multiple choice assessment contributing 50% of a student’s grade.


평가는 학생들이 학습 반응의 효능을 평가할 때 평가가 학계에서 그들이 배워야한다고 생각하는 방식으로 학습하도록 유도해야합니다. 분명히 Newble and Jaeger (1983)와 Frederiksen (1984)은 이러한 변화를 가져올 수있었습니다. 이론 모듈에서는 길고 짧은 질문 유형의 혼합 백을 사용하면 학생들이 학습 내용과 학습 방법 측면에서 학습 자료와 다르게 참여해야합니다. 그들은 물어볼 질문의 길이 나 유형에 따라 단순히 일을 생략 할 수 없습니다. 평가 당 한 번 더 긴 질문 (예 : 20 점)을 짧은 질문과 섞으면 학생들의 학습에서 질적 인 차이가 발생합니다. 분명히, 그런 디자인은 심리 측정 적 및 정치적 고려 사항을 포함하여 다양한 다른 것에 대해서 또한 무게를 달아야 할 것이다 (van der Vleuten 1996).

Assessment should be designed in such a way that when students make their appraisal of the efficacy of their learning response, that appraisal leads them to learn in ways we as academics believe they should be learning. Evidently, Newble and Jaeger (1983) and Frederiksen (1984) were able to bring about just such changes. In theory modules, using a mixed bag of longer and shorter questions types would force students to engage differently with learning material, both in terms of what they learn and in terms of how they learn. They would be unable to simply leave out work based on the length or type of questions to be asked. Having one longer (e.g., 20 mark) question per assessment mixed with shorter questions should lead to qualitative differences in students learning. Clearly, such a design would also have to be weighed against various other, including psychometric and prag- matic, considerations (van der Vleuten 1996).


주어진 학습 반응에 대한 학생들의 비용은 너무 높아서는 안됩니다. 평가 시스템의 요구가 너무 부담 스럽기 때문에 비용 편익 분석을 통해 학생들은 지름길을 찾을 수 있습니다. 여기서 평가를위한 포트폴리오의 도입을 생각합니다. 이것은 건전한 교육 근거를 기반으로하지만 학습에 항상 유익한 영향을 미치지는 않습니다 (Driessen 외. 2007).

The costs to students of any given learning response should not be too high. Where the demands of an assessment system become too onerous, the cost-benefit analysis will lead students to find short cuts. One thinks here of the introduction of portfolios for assessment. This is based on sound educational grounds, but does not always lead to a salubrious impact on learning (Driessen et al. 2007).


마찬가지로, 학생들이 알 수 없거나 복잡하거나, 너무 복잡한 자료 (van Etten 외 1997)에 기반하거나, 학술 모듈 내에서 제한된 시간 내에 의미있게 참여하기에는 너무 방대하다면, 학생 학습에 긍정적 인 영향을 미치지 않을 것입니다.

Equally, assessment tasks that challenge students’ sense of agency by virtue of being unknown or complex, or based on material too complex (van Etten et al. 1997) or too voluminous to engage with meaningfully in the limited time available within an academic module, will be unlikely to have a positive impact on student learning.


마지막으로, 모듈 및 / 또는 강사 주위에 소용돌이 치는 평가에 대한 '신화 및 전설'의 영향은 시야에서 사라져서는 안됩니다. 과거 세대의 학생들에게서 다음 세대의 학생들에게 과거의 시험 서류가 전달되지 않는 대학은 실제로는 드물다. 이들은 많은 학생의 학습을 알리는 내용 및 스타일 분석의 기초를 형성합니다. 따라서, 그들은 그림자에서 벗어나 평가 시스템에 공개적으로 통합되어야합니다.

Finally, the impact of the ‘‘myths and legends’’ about assessment that swirl around a module and/or a lecturer should not be lost from sight. The university where no volumes of past examination papers are passed from one generation of students to the next is likely a rare place indeed. These form the basis of analyses of content and style that inform the learning of many a student. As such, they should be brought out of the shadows and incorporated openly into the assessment system.


또한이 모델은 총괄평가의 맥락을 넘어서는 유용 할 것으로 기대된다. 피드백을 사용하는 수수께끼 중 하나는 잠재적으로 학생 학습에 강력한 영향을 미치는 것으로 밝혀졌지만 (Black and Wiliam1998), 종종 학생들이 놓치거나 잘못 이해하게됩니다 (예를 들어 Gibbs and Simpson 2004 참조). 피드백에 대한 연구 결과의 일부에 영향 평가 및 반응 평가 렌즈를 적용하면 이러한 현상을 밝힐 수 있다고 추측하는 것은 유혹스러운 일입니다. 이 연구에서 강사의 피드백이 학습에 영향을 미치는 요인으로 작용하지 않았다는 점은 흥미 롭습니다.

It is also anticipated that this model might be useful beyond the context of summative assessment. One of the conundrums with using feedback is that whilst it has been found to potentially have a powerful impact on student learning (Black and Wiliam1998), it is often missed or misunderstood by students (see Gibbs and Simpson 2004 for examples). It is tempting to speculate that applying the lens of impact appraisal and response appraisal to some of the findings of research on feedback could shed some light on these phenomena. It is interesting to note that feedback from lecturers did not feature as a factor influencing learning in this study.


램스 덴 (Ramsden, 1992)은 다음과 같이 지적했다. "부적절한 평가 방법은 학생들에게 잘못된 학습 접근법을 강요하는 불가항력적인 압력을 부과한다." 평가가 학생 학습에 미치는 영향에 대해 더 잘 이해하면 의미있는 학생 학습을 유도하고 이러한 상황을 개선하기 위해 평가를 더 잘 활용하는 방법을 모색하는 것이 가능할 것으로 기대됩니다. 평가가보다 효과적으로 활용되도록하는 중요한 링크에는 학생들을 평가하는 학계와 학계가 책임 져야하는 요구 - 평가 - 관련 및 기타 사항의 혼합을 점점 더 결정하는 관리자가 포함됩니다. 더 큰 학문적 기계에서 이러한 톱니 바퀴를 이해하면 앞으로 수십 년 동안 학습에 대한 평가의 비통 한 영향을 아직도 애도하지 않고 있음을 확인할 수 있습니다.

As Ramsden (1992) pointed out: ‘‘Unsuitable assessment methods impose irresistible pressures on a student to take the wrong approaches to learning tasks’’. With a better understanding of how assessment impacts on student learning, it will hopefully be possible to start exploring how assessment can be better utilized to bring about meaningful student learning and remedy this situation. Crucial links in ensuring that assessment is utilized more effectively will include the academics who assess students, and administrators who increasingly decide on the mix of demands—assessment-related and otherwise—to which academics should be answerable. Understanding these cogs in the greater academic machine will hopefully ensure that we are not still lamenting the deplorable impact of assessment on learning some decades hence.









 2010 Dec;15(5):695-715. doi: 10.1007/s10459-010-9232-9. Epub 2010 May 9.

The mechanism of impact of summative assessment on medical students' learning.

Author information

1
Stellenbosch University, Stellenbosch, Western Cape, South Africa. fjc@sun.ac.za

Abstract

It has become axiomatic that assessment impacts powerfully on student learning, but there is a surprising dearth of research on how. This study explored the mechanism of impact of summative assessment on the process of learning of theory in higher education. Individual, in-depth interviews were conducted with medical students and analyzed qualitatively. The impact of assessment on learning was mediated through various determinants of action. Respondents' learning behaviour was influenced by: appraising the impact of assessment; appraising their learning response; their perceptions of agency; and contextual factors. This study adds to scant extant evidence and proposes a mechanism to explain this impact. It should help enhance the use of assessment as a tool to augment learning.

PMID:
 
20455078
 
PMCID:
 
PMC2995206
 
DOI:
 
10.1007/s10459-010-9232-9


교육평가에서 새로운 심리측정 모델을 위한 항변(Med Educ, 2006)

A plea for new psychometric models in educational assessment

Lambert W T Schuwirth & Cees P M van der Vleuten




도입

INTRODUCTION


특히 평가에서의 현재의 발전에 비추어 볼 때, 우리는 엄격한 심리측정 모델이 더 이상 지속 가능하지 않다고 생각하며 통계 개념 및 평가 접근법의 주요 개정에 대한 항변을 하고 싶습니다.

Particularly in the light of current developments in assessment, we think that the strict psychometric model is no longer sustaina- ble and we would like to make a plea for a major revision of the statistical concepts and approaches to assessment.


오랫동안 의학적 역량에 대한 지배적인 이론에서는 역량을 잠재된 형질이나 구인으로 접근하였다. 이 모델에서 구인은 서로 "독립적으로 측정 할 수있는 일반적이고 안정적이며 균질한 특성"이다.

For a long time, the dominant theoretical approach to medical competence has been that of latent traits or constructs. In this model, constructs are used as generic, stable and homogenous characteristics, which can be measured independently of each other.


의료역량에서 가장 유명한 모델은 지식, 기술, 문제 해결 능력 및 태도였다. 이 모델은 1980 년대 초에 폐기되었지만 여전히 일상적으로 일상 언어로 사용되고 있다1

In medical com- petence the most popular model was that of know- ledge, skills, problem-solving ability and attitudes. Although this model was abandoned in the early 1980s, it is still used in our everyday language.1


위에서 언급했듯이, 모델은 기본적으로 최소한 측정 기간 동안에는 측정 대상 (구조물)이 안정하다는 것을 전제로 한다. 따라서 central trait로부터의 모든 관찰의 deviation은 자동으로 오류로 간주된다. 


예컨대, 자녀 2 명과 함께 소아과 의사를 방문한다고 가정 해보십시오. 첫 번째 자녀는 잘 치료하지 못해 사망하였지만, 두 번째 자녀는 완전히 잘 치료받아 회복됩니다. 이 때 이 성적을 평균적으로 수용가능하다고 말할 수 있습니까? 그렇지 않을 것이다. 그러나 현재의 통계 모델은 우리에게 그렇다라는 대답을 강요한다. 통계 모델은  이소아과 의사가 평균적으로는 합리적인 의료를 수행했으며, 이 평균치에서 벗어난 편차는 측정 오류라고 제안한다.


As we stated above, innate to the model isthe premise that the object of measurement (the construct) is stable, at least during the time of measurement. A corollary of this is that any deviationin observations from this hypothesised central trait must automatically be treated as error. 


An illustrationmay clarify what we mean here. Suppose you visit a paediatrician with your 2 children. He performs poorly in 1 case, leading to the death of your first child, and extremely well in the other, leading to thecomplete recovery of your second child. Would you  then say that on average his performance was acceptable? We would not. Yet the statistical model to describe, measure and predict this performance forces us to do so. The statistical model in fact suggests that on average the paediatrician performed reasonably and that the deviation fromthis average is measurement error.


실제 세계를 기술하고 예측하는 데 사용되는 모델은 종종 우리가 관찰 된 분산의 대부분을 오차 분산으로 버리도록 강요합니다.

the model used to describe and predict the real world often forces us to throw away most of the observed variance as error variance.


또 다른 희생은 정보의 낭비이다. 100 개 항목의 객관식 테스트에도 상당한 정보가 포함되어 있습니다. 그것은 학생들에게 어떤 대답을했는지 그리고 어떤 대답을하지 않았는지를 알려주지 만, 어떤 비틀 거리기가 선택되었고 어떤 오해가있을 수 있는지 알려줍니다. 그러나 단일 점수를 얻기 위해서는 이 모든 측정 정보가 버려져야합니다. 심지어 이것은 0 %와 100 % 사이에서 학생이 득점 한 위치를 알려주는 점에서 다소 유익합니다. 심지어 더 많은 측정 정보를 폐기함으로써 합격 / 불합격 결정을 내린다.

Another sacrifice concerns the waste of information. Even a 100-item, multiple-choice test contains con- siderable information. It tells you not only which answers the student knew and which he or she did not, but it tells you also which distractors were chosen and which possible misconceptions may exist. In our model, all this measurement informa- tion has to be thrown away to arrive at a single (percentage) score. Even this is still somewhat informative, in that it does tell us whereabout between 0% and 100% the student scored. But this is then dichotomised into a pass ⁄ fail decision by the throwing away of even more measurement information.


신뢰성의 본래적 의미는 테스트 점수가 우주 점수를 나타내는 정도이다

Reliability according to its original meaning indicates the extent to which the test score is a representation of the universe score


신뢰도 추정에는 흔히 항목 간 상관관계와 같은 내적 일관성이 사용된다. 사실, 이 때 시험(테스트)는 가능한 한 많은 부분으로 분할된다. 그리고 테스트의 모든 항목은 테스트의 다른 항목과 더 잘 연관 될수록 우리는 우주 점수의 표현이 더 낫다고 가정합니다.

Popular estimates of reliability are based on internal consistency, such as the use of inter-item correlations. In fact, this involves splitting up the test into as many parts as possible. This means that the better every item correlates with any other given item in the test, the better we assume the representation of the universe score is.


지금까지 접근법은 (논리적으로 보일지 모르지만) 우주의 동질성을 전제로하고있다.

Thus far the approach may appear logical, but it is firmly based on the assumption of homogeneity of the universe.


그러나 우리는 우주가 동질적이지 않다는 것을 이미 알고 있습니다. 영역 특이성은 1970 년대 후반에 처음 언급되었다 .2 그래서 신뢰성은 우리가 내용의 타당성보다 우주에 대해 다른 가정을하도록 강요한다. 서로 반대되는 가정이 동시에 발생할 수 있다는 것은 논리적 인 것처럼 보이지 않습니다. 이 문제는 새로운 것이 아니며 타당성과 신뢰성 사이의 고전적 역설로 이미 알려져 있습니다. 그러나 이것은 이론의 진정한 모순이자 근본적인 약점입니다.

Yet, we already know that the universe is not homogenous; domain specificity was first mentioned in the late 1970s.2 So reliability forces us to make other assumptions about the universe than content validity. It does not seem logical to us that both opposing assumptions can betrue at the same time. This problemis not new and itis already known as the classical paradox between validity and reliability. But in our opinion it is a true contradiction and an essential weakness of the theory.


이러한 모순은 종종 테스트 설계 및 품질 보증에있어서 특이한 행동을 하게 만든다. 한 가지 예는 문항분석을 사용하여 테스트의 품질을 최적화하는 것입니다. 많은 기관에서는 문항통계에 따라 테스트에서 불량한 통계를 보여주는 문항을 자동으로 제거합니다. 그러나 이 문항들이 relevant하고, 정확하게 표현되고, 코스 목표의 일부로 올바르게 교육되고 있으며, 적절한 내용을 포함한다면 어떻게 될까요? 이렇게 문항을 제거하면 의심 할 여지없이 문항통계와 Cronbach's 알파는 나아질 것이지만, 표본에서 타당한 요소가 삭제되고, 샘플 크기가 줄어들고, 유니버스 표현이 불량 해집니다. 오히려 이 경우에 올바른 결론은 이 항목을 시험에 포함시키는 것이며, 그 이유는 우주가 원래 가정 된 것보다 더 변종 적이기 때문이다..

This contradiction often leads to peculiar actions in test design and quality assurance. One example is in using item analyses to optimise the quality of a test. Many institutes automatically eliminate items that have poor item statistics from a test, according to the itemstatistics. But what if, after careful scrutiny, these items were found to be relevant, correctly phrased, part of the objectives of the course, taught correctly and had content beyond doubt? In such cases eliminating the items would undoubtedly lead to better item statistics and even a better Cronbach’s alpha, but valid elements of the sample would be deleted, the sample size decreased and the universe representation would become poorer. In our opinion the correct conclusion in such a case must be that more of such items must be included in the test rather than fewer, simply because the universe was found to be more variant than originally assumed.


Outlier를 제거하거나 합의를 위한 전문가 패널의 회의(예 : 표준 설정 절차)에서도 유사한 문제가 발생할 수 있습니다. 이것은 아마도 새로운 것은 아니지만 사실 마이크로 수준에서 도메인 특이성을 가지고하는 것입니다. 우리는 우주가 동질성이라는 가정에서 출발하기 때문에 관측자 들간의 차이를 오류로 기각합니다. 그러나 사실 더 논리적인 결론은 우주가 더 변종적이라는 것입니다. 우리는 포트폴리오 및 다중 소스 피드백과 같은 현재 널리 사용되고있는 평가 방법에 동일한 원칙을 적용하는 경향이 있습니다. 우리는 모든 평가자를 동일하게 만들기 위해 평가자 훈련을 연장하는 경향이 있습니다. 우리는 심사관 역할에서 이상치를 제거 할 수도 있습니다. 즉, 우리는 피평가자가 완전히 훈련되지 않은 다양하고 혼란스러운 상황에서 일할 준비가되었는지를 평가하기 위해, 동질성을 확립하는 것을 목표로하는 수렴적 전략을 사용합니다.

A similar problem may arise in expert panels – for example in standard-setting procedures – in the process of eliminating outliers or holding consensus meetings. This is probably not new, but it is in fact what we do with domain-specificity at the micro level. We dismiss variance between observers as error because we start from the assumption that the universe is homogenous, where in fact the more logical conclusion would have been that the universe is more variant. We have a tendency to apply the same principle to currently popular assessment methods, such as portfolios and multi-source feedback. We tend to extend the training of examiners to make sure all examiners are the same. We may even eliminate outliers from the examiner role. Thus, we use a convergent strategy aimed at establishing homogeneity to assess whether a candidate is ready to work in a completely untrained, diverse and some- what chaotic context.




학생과 평가자 모두가 동일한 제약상황에서 구체적인 처방을 받아 수행하는 것보다, 더 중요한 것은 다양한 평가자에게 적응할 수있는 유연성이다. 따라서 테스트에서 항목의 분산 및 상호 작용의 분산을 없애고 최적화하는 데 노력해야합니다.

It is the flexibility to adapt to different examiners that is more important than the ability to perform in a certain prescribed strat- egy, to which both students and examiners are trained to the same confinement. In tests we should therefore not strive to eliminate item variance and interaction variance but to optimise it.



통계적 접근법을 적용하기 위해 충족되어야하는 또 다른 기본 가정은 해당 항목의 국소적 독립성local independency입니다. 지역 독립성은 2 개 문항간에 자연적 상관 관계가 없어야 함을 의미합니다. 체크리스트의 항목이 유사한 기술에 속하거나, 이전 항목의 결과로 평가 대상이 변경된 경우가 여기에 해당 될 수 있습니다.

Another basic assumption that must be met to apply our statistical approaches is local independency of the items. Local independency means that there should be no natural correlation between 2 items. This could be the case if items in a checklist belong to a similar skill or when the object of the assessment changes as a result of the previous item.



심장 질환 2 개, 심근 경색 2 개, 흉통 2 개는 어떨까요? 영역 특이성은 일반적으로 예측할 수 없지만 개인 수준에서는 국소적 독립성의 존재 또는 부재를 가정 할 수 없다는 것이 너무 불확실합니다. 그러나 우리는 일상적으로 어떤 것들을 객관적으로 독립적으로 취급하기도 하고(객관식 검사의 항목), 다른 것들(객관적 구조화 임상 검사 체크리스트의 항목)은 그렇지 않기도 한다. 또한 국소적 독립성은 포트폴리오, 진행 테스트 및 작업장 평가와 같은 종단 적 평가 접근법에서 어려운 가정입니다. 이러한 접근법에서 이미 관측의 국소적 의존성은 그 방법에 자체에 내재되어있다. 그것은 피할 수 없으며 피할 수도 없습니다. 그것은 실제로 극대화되어야하는 의도 된 교육 효과입니다.

But what about 2 items on cardiac disease, 2 items on myocardial infarction or 2 items about chest pain? Domain specificity is very unpredictable in general, but at the individual level it is so uncertain that we cannot assume the presence or absence of local independ- ency. Yet we routinely treat certain things as locally independent (items in a multiple-choice test) and others not (items in an objective structured clinical examination checklist). In addition, local independ- ency is a difficult assumption in longitudinal assess- ment approaches, such as portfolio, progress testing and workplace assessment. In these approaches local dependency of observation is inherent to the method. It cannot and should not be avoided. It is the intended educational effect, which should actually be maximised.3


특성 접근법trait approach는 무언가를 측정한다는 것은 일정한 안정된 특성을 지칭한다는 개념에 기초한다. 특정 테스트가 의미를 갖기 위해서는 많은 항목에 대해 점수를 합산해야합니다. 이것은 거의 항상 문항 간의 무한한 상호보완가능성을 의미합니다. 성격검사에서는 이러한 접근법이 수용가능할 것이다.

The trait approach is based on the notion that the measurement refers to a certain stable trait. in order for a certain test to make sense, we need to sum the scores on the many items. This nearly always implies an unlimited compensation between items. In the personality inventories from which our test statistics are derived, this is acceptable.


예를 들어 MMPI (Minnesota Multiphasic Personality Inventory)와 같은 no로 채점 된 항목은 MMPI의 동일한 차원에있는 다른 항목으로 대체 될 수 있습니다.

Any item scored with a  no , such as, for example, on the Minnesota Multiphasic Personality Inventory (MMPI), can be replaced by any other item loading on the same dimension of the MMPI.


그러나 이 원칙이 성취도 평가에서도 마찬가지일 것인가? 폐렴에 대한 지식이 풍부하면 심근 경색에 대한 부족한 지식을 보상 할 수 있습니까? 또는 좋은 복부 검사 기술로 가난한 소생술에 대한 보상을 할 수 있습니까?

One might wonder, though, whether this principle is also true in achievement tests. Can you compensate for poor knowledge about myocardial infarction by good knowledge about pneumonia? Or can you compensate for poor resuscitation skills with good abdominal examination skills?


1983 년 에벨(Ebel)은 시험에서의 문항의 타당성은 문항의 본질적인 의미에서 비롯한다고 제안했습니다 .4 예컨대, 소생술을 수행 평가에서, 테스트중인 유일한 것은 소생술을 수행 할 수 있는지 여부이며, generic trait를 테스트하는 것이 아니다.

In 1983 Ebel suggested that the validity of items in study tests comes from the intrinsic meaning of the item.4 So if you are asked to perform resuscitation, the only thing that is being tested is whether you are able to perform resuscitation, not some sort of generic trait.


개별 항목을 항상 결합해야한다는 생각은 현재 평가 도구에서 이상한 접근 방식을 초래합니다. 환자를 진단하는 능력과 질병의 심리 사회적 측면에 대처능력이 합산되어 평균될 수 있는가? 이는 결과를 단일 숫자로 표현하고 싶거나 둘 다 단일 공통 요소에서 기반한다고 생각하는 경우에만 가능합니다. 그러나 피드백을 주려고 할 경우, 두 항목은 다른 항목으로 보완 할 수 없으며 보완해서는 안되는 본질적인 의미를 가지고 있습니다.

The idea that individual items should always be combined leads to strange approaches in current assessment instruments. Does the ability to diagnose patients and the ability to respond to psychosocial aspects of illness really need to be averaged? Only if you want to express the results in a single number or if you think they both load on a single common factor. However, in feedback both items have an intrinsic meaning that cannot and should not be compensated for with other items.


만약 의사가 이러한 치료한다고 가정 해보십시오. 예를 들어 혈압, 나트륨 수준 및 적혈구 침강 속도 (ESR)의 곱으로 환자의 건강 상태를보고합니다. "이 환자의 건강 상태는 1 260 000입니다." 임상의료행위에서는 완전히 다른 방식으로 정보를 처리합니다. 

  • 병력 복용, 신체 검사 및 추가 진단 절차를 통해 각 환자에 대한 데이터를 기록합니다. 

  • 이러한 데이터는 환자 차트에 기록되며 합격 / 불합격 결정에서 백분율 점수로 변환되거나 이분법 화되지 않으므로 정보가 풍부한 것으로 취급됩니다. 

  • 치료 중 차트의 정보는 추가 진단 방법을 결정하고 확실하지 않은 것을 재검사하고 치료 계획을 수립하고 진행 상황을 지속적으로 평가할 수있는 기반이됩니다. 

  • 결국 퇴원이나 추가 관리에 관한 이분법적인 결정이 내려 지지만, 정보가 풍부한 전체 론적 평가에 기반하고 숫자 정보가 부족한 환원 주의자 평가는 아닙니다.

Suppose we were to treat medicine in the same way. Then, for example, we would report the health status of a patient as the product of blood pressure, sodium level and erythrocytes sedimentation rate (ESR):  The health status of this patient is 1 260 000.  Medical evaluation deals with information in a completely different way. 

  • It records data for each individual patient through history taking, physical examination and additional diagnostic procedures. 

  • These data are recorded in a patient chart and are treated as information-rich, in that they are not converted into a percentage score nor dichotomised in a pass ⁄ fail decision. 

  • During the treatment the information in the chart serves as a basis to determine further diagnostic approaches, to retest what you are not sure of, to set out a treatment scheme and to evaluate the progress continuously.

  • In the end the dichotomous decision concerning discharge or further manage- ment is made, but based on an information-rich holistic appraisal and not on a numerical informa- tion-poor reductionist assessment.



따라서 우리는 평가의 초점을 "교육 활동의 결과를 측정하는 것"에서 "교육의 필수적인 부분으로서의 평가"로 전환 할 필요가 있다. 이 역시 의료행위에 대응될 수 있다. 현재 우리는 스크리닝 검사와 같은 방식으로 평가하고 있으며, 일반적으로 개별적으로 환자를 개별적으로 검사하지 않고 일반적으로 고안된 검사로서 검사에 대한 예 / 아니오 응답 만 요구합니다 (위험도가 높거나 질병의 초기 단계). 이를 위해서는 검사를 표준화해야합니다. 감수성과 특이성 사이의 최적을 결정하기 위해 cut-off 점수를 결정할 필요가있다. 긍정적이고 부정적인 예측 값은 우리의 기준 타당도 접근법과 유사한 방식으로 수립되어야합니다. 

Thus, in our opinion, we need to shift the focus of assessment from measurement of the outcome of an educational activity to assessment as an integral part of education. There is – again – a parallel in medicine. At the moment we often treat assessment the way medicine treats screening programmes, as tests that are designed generically, largely independ- ently of the individual patient to be tested, and require only yes ⁄ no answers to the questions (con- cerning elevated risk or early stage of disease). Tests therefore need to be standardised; cut-off points need to be determined to establish an optimum between sensitivity and specificity. Positive and neg- ative predictive values need to be established in a way that is comparable with our criterion validity approach. 


그러나 이것은 의학의 작은 부분 일뿐입니다. 

  • 대부분은 환자 차트가 양적 및 질적 정보를 결합하는 평가 및 평가 도구로 사용되는 의료 환경에서 발생합니다. 

  • 여기 신뢰성은 절차적 접근법에서 비롯됩니다. : 의사가 확신이 없으면 특정 측면에 대한 추가 정보를 얻습니다. 모든 정보는 다른 정보와 관련하여 평가됩니다. 

  • 이것은 완전히 보상적이거나 완전한 결합적인 방식으로 수행되는 것이 아니라 신중하게 균형 잡힌 전문가 판단으로 수행됩니다. 

  • 의사가 환자의 상태가 불만족 스럽다고 느끼면 환자는 동료 또는 다른 전문가에게 문의합니다. 

  • 환자를 종단적으로 모니터링하여 어떤 조치의 영향을 확인하고 변화하는 상황에 맞게 진단을 최적화하고 조정합니다. 

  • 이러한 맥락에서는 신뢰성을 위해 generic stability를 가정할 필요가 없다.

But this is only a small part of medicine. 

  • Most of it takes place in care settings where a patient chart is used as an assessment and evaluation instru- ment to combine quantitative and qualitative infor- mation. 

  • Reliability here comes from a procedural approach: if the doctor is unsure, he or she seeks further information about the specific aspect. 

  • All information is evaluated in relation to other infor- mation. 

  • This is not carried out in a fully compensa- tory nor a fully conjunctive way, but as a carefully balanced expert judgement. 

  • If the doctor encoun- ters aspects of a patient’s condition about which he or she does not feel sufficiently qualified, he or she confers with a colleague or other expert. 

  • The patient is followed longitudinally to monitor the effects of any action and to optimise and tailor the diagnostics to the changing situation. 

  • In this context the assumption of generic stability is not needed for reliability.


우리가 벗어나고 싶지 않은 안정적인 평균에 대한 통계를 목표로하는 대신, 새로운 정보의 비중이 이미 존재하는 정보에 따라 확률론적으로 결정되는 베이지안 방식을 채택하기를 원할 수 있습니다. 이 질문에 대한 대답은 이 후보자의 안정적이거나 평균적인 능력이란 무엇입니까? 그 학생의 역사와 새로 수집 된 정보를 감안할 때, 미래의 사례에서이 학생이 표준보다 심각하게 수행 할 위험이 얼마나 큽니까?

Instead of aiming statistics on the stable average from which we do not want to deviate, we may want to adopt a more probabilistic or Bayesian approach, in which the value of new information is weighed against already existing information. In this the question to answer is not  What is the stable or average competence of this candidate?  but  How big is the risk of this student performing seriously below the standard in a future case, given his or her history and the newly collected information? 





1 Schmidt HG, Norman GR, Boshuizen HPA. A cognitive perspective on medical expertise: theory and implica- tions. Acad Med 1990;65(10):611–22.




 2006 Apr;40(4):296-300.

plea for new psychometric models in educational assessment.

Author information

1
Department of Educational Research and Development, Maastricht University, Maastricht, The Netherlands. l.schuwirth@educ.unimaas.nl

Abstract

OBJECTIVE:

To describe the weaknesses of the current psychometric approach to assessment as a scientific model.

DISCUSSION:

The current psychometric model has played a major role in improving the quality of assessment of medical competence. It is becoming increasingly difficult, however, to apply this model to modern assessment methods. The central assumption in the current model is that medical competence can be subdivided into separate measurable stable and generic traits. This assumption has several far-reaching implications. Perhaps the most important is that it requires a numerical and reductionist approach, and that aspects such as fairness, defensibility and credibility are by necessity mainly translated into reliability and construct validity. These approaches are more and more difficult to align with modern assessment approaches such as mini-CEX, 360-degree feedback and portfolios. This paper describes some of the weaknesses of the psychometric model and aims to open a discussion on a conceptually different statistical approach to quality of assessment.

FUTURE DIRECTIONS:

We hope that the discussion opened by this paper will lead to the development of a conceptually different statistical approach to quality of assessment. A probabilistic or Bayesian approach would be worth exploring.

PMID:
 
16573664
 
DOI:
 
10.1111/j.1365-2929.2006.02405.x


임상역량의 Authentic 평가: 역량 추구의 함정 (Acad Med, 2010)

Toward Authentic Clinical Evaluation: Pitfalls in the Pursuit of Competency

Shiphra Ginsburg, MD, MEd, Jodi McIlroy, PhD, Olga Oulanova, MA, Kevin Eva, PhD, and Glenn Regehr, PhD




의학 교육자들은 수십 년 동안 레지던트의 임상적 능력을 평가하는 최선의 방법에 대해 고심하고있다. 흥미롭게도, 임상 수행에 대한 대부분의 평가는 여전히 연수생의 행동에 대한 판단을 내리는 평가자에게 크게 의존합니다. 이 수수께끼에 대한 지배적 인 해결책은 표준화를 통해 이러한 주관적인 효과를 완화하려는 시도이며, 이를 위해

  • 무엇이 평가되어야 하는지(예 : 의사 소통과 같은 영역에서 특정 지식, 태도 또는 기술이 평가되고 있음), 

  • 어떻게 다양한 성과 수준으로 구성되는지(예 : "뛰어난 성과", "기대치 초과"및 "개선 필요"와 같은 용어가 의미하는 것)

...에 대한 합의가 이루어졌습니다 

Medical educators have struggled for decades with the question of how best to evaluate the clinical competence of residents. Interestingly, most evaluations of clinical performance, still rely extensively on evaluators making judgments about trainees’ behaviors. The dominant solution to this conundrum has been to try to mitigate these subjective effects through standardization, so that there is some consensus about 

  • what is being evaluated (e.g., what specific knowledge, attitudes, or skills are being assessed in a domain such as communication) and 

  • what constitutes various levels of performance (e.g., what is meant by such terms as “outstanding performance,” “exceeds expectations,” and “needs improvement”).


동시에 의학 교육자 (및 사회)는 "훌륭한 의사"가된다는 것을 더 확실하게 표현하는 방향으로 나아갔습니다.

At the same time, medical educators (and society) have moved toward the development of a more authentic representation of what it means to be a “good doctor.”


(CanMEDS)

(ACGME)


이러한 프로젝트는 "역량 획득여부를 평가하기 위한 유용하고 신뢰할 수있는 유효한 방법"을 개발하는 데 도움을주기위한 것입니다.

The project was also meant to assist programs to develop “useful, reliable, and valid methods for assessing attainment of the competencies.”


이러한 목표에도 불구하고, 최근 문헌을 체계적으로 검토 한 결과, 하나의 역량을 다른 역량과 구분되는 독립적 구인으로서 신뢰성있게 측정 할 수있는 평가 방법이 없음을 발견했습니다.5 저자는 역량 자체가 "틀린 것"은 아니지만 평가 방법은 그렇지 않음을 결론지었습니다 프레임 워크와 깔끔하게 대응합니다. 또한 일부 역량 (시스템 기반 실습과 같은)은 다른 개인 및 외력에 크게 의존하므로 레지던트가 속해있는 시스템에서 레지던트만을 분리하여 평가할 수 없습니다.

Despite these goals, a recent systematic review of the literature found no assessment methods that can reliably measure the competencies separately from one another as independent constructs.5 The authors concluded that it is not that the competencies themselves are “wrong” but that assessment measures do not correspond neatly with the framework. In addition, some of the competencies (like systems-based practice) are so dependent on other individuals and external forces that it may not be possible to evaluate a resident separate fromthe systemin which the resident is functioning.


의학 교육자들이 학습 체계를 구성하고 안내하는 학습 도구로서의 역량을 평가 도구로서의 역량으로 직접 번역하려고 시도하는 것이 이 둘 사이의 구분을 모호하게했을 수도 있습니다. 우리는 역량 프레임 워크와 교수의 일상 생활 평가에 대한 경험 사이에 존재하는 명백한 긴장을 더 잘 이해하려고 노력했습니다.

It may be that medical educators have blurred the distinction between using competencies as an educational framework to organize and guide learning, and attempting to translate themdirectly into evaluation tools. With this in mind, we sought to better understand the apparent tensions that exist between competency frameworks and faculty’s experience in the day-to-day evaluation of residents.



방법

Method


Participants and interviews


Potential participants included all clinical faculty at two Canadian universities (University of Toronto and McMaster University) who had at least two years of experience in teaching and evaluating residents in internal medicine. Sampling was purposive, in that we initially targeted faculty in general internal medicine who attended on the general medical wards at any of our five main teaching hospitals, as they would likely have the most experience in the areas we were exploring.


Faculty attendings were invited to participate by e-mail. Each attending was interviewed for 30 to 60 minutes by the same trained research assistant according to a script developed by the research group. One pilot interview was conducted to test the script; some refinements were made, and that interview was not used in our analysis. During the interviews, attendings were asked to describe (without mentioning names) first a specific outstanding resident they had supervised, then a problematic resident, and finally an average resident. These descriptions could be about any aspect of performance, and there was no attempt to encourage discussion of any particular area. However, descriptions had to be of actual residents rather than generalized opinions. Probes were used where necessary to promote specific descriptions of behaviors (e.g., if the attending stated that the resident was “very professional,” the research assistant would ask, “How was that displayed?” or “What did you observe that led to that opinion?”). Probes were also used where necessary to identify areas in which excellent residents revealed deficiencies and problematic residents showed strength. The interviews were audiotaped and transcribed verbatim, with any potentially identifying features removed.



Analysis


Analysis of the interviews began alongside data collection...

    • to ensure the interviews were effectively eliciting the types of descriptions we had anticipated and 

    • to determine when theoretical saturation had been reached.6 

This occurred after 15 interviews were done at the first university and 4 at the second, resulting in a final sample of 19 interviews that were analyzed using grounded theory. We chose grounded theory for this analysis because we were attempting to develop a theoretical framework to describe how faculty actually thought—and talked—about their residents.7 Each researcher read the initial transcripts during the open coding process. We then met repeatedly as a group and refined the coding using constant comparison, where categories were further defined, merged, or deleted. Agreement was achieved through consensus, and discussions proceeded until the coding structure was deemed stable. It was then entered into NVivo software, which was used by the research assistant to code all 19 transcripts.8




결과

Results


녹취록을 분석 한 결과, 지식, 전문성, 환자 상호 작용, 팀 상호 작용, 체계, 처분, 신뢰 및 직원에 대한 영향 등 거주자에 대한 의견을 표명 할 때 참석자가 고려한 사항을 모두 반영하는 8 개의 주요 영역 또는 주제가 파악되었습니다. 이 영역의 정의와 예는 표 1에서 볼 수 있으며 각 빈도는 그림 1에서 그래픽으로 표시됩니다.

Analysis of the transcripts resulted in the identification of eight major domains, or themes, that together reflect what faculty attendings consider when forming opinions about their residents: knowledge, professionalism, patient interactions, team interactions, systems, disposition, trust, and impact on staff. Definitions and examples of these domains can be seen in Table 1, and the frequencies with which each was mentioned are presented graphically in Figure 1.




성과 영역과 그것이 다뤄진 방법

Domains of performance and how they were discussed


첫 번째 중요한 발견은 역량 영역의 본질, 그리고 그것이 레지던트에 대한 전반적인 인식에 어떻게 통합되었는지이다. 그러나 개별 설명에서 참석자는 모든 레지던트에 대해 모든 도메인을 논의하지는 않았다.

Our first major finding related to the nature of the domains of competence discussed and how they were incorporated into the overall impression of the resident. However, in their individual descriptions, attendings did not discuss every domain for every resident,


더 흥미롭게도 도메인은 해당 레지던트의 다른 퍼포먼스 영역에 따라 중요성이 달라졌다. 각 테마는 긍정적이거나 부정적인 용어로 논의 될 수 있지만 토론 된 레지던트의 유형에 반드시 의존하지는 않습니다.

More interestingly, a domain could take on variable importance, depending on other areas of performance for that resident. Each of the themes could be discussed in either positive or negative terms, but this was not necessarily dependent on the type of resident being discussed.



흥미롭게도 "탁월한 레지던트가 되려면 탁월한 지식 기반을 보유해야합니다. 다른 모든면에서 뛰어나더라도, 내과적 지식이 부족하다면 뛰어나다고 말할 수 없다. "이러한 상대적인 결함은 지식 기반이나 지식 번역 (n = 9) 분야에서 가장 빈번하게 발생했습니다.

Interestingly, despite such comments as “To be outstanding you have to have outstanding knowledge base, I think. You can be outstanding in everything else but if you don’t know enough internal medicine you can’t,” these relative deficiencies were most often in the area of knowledge base or knowledge translation (n = 9).


또한 지식 자체에 대한 접근성이 높다고 여겼기 때문에 ( "모르는 것은 누구나 바로 구글에서 찾아볼 수 있다"), 대부분은 지식을 수월성의 진정한 표식으로 고려하지 않았습니다.

Furthermore, because knowledge itself was seen as being easily accessible (“You don’t know what it is, you Google it, you go on any of the online resources—most people have themon a handheld”), it was not considered by most to be a true marker of who is excellent.



흥미롭게도, 세 명의 주치의는 자신의 일에 "너무 투자"하거나 번아웃 위험에 처한 우수한 레지던트에 대한 우려를 제기했습니다.

Interestingly, three attendings brought up concerns about excellent residents who seemed “too invested” in their work and at risk of burning out.


요약하면, 참석자들은 자신들이 뛰어난 것으로 생각하는 레지던트의 결점을 간과하거나 변명하는 것처럼 보였던 반면, 일부 '문제있는 레지던트'에 대해서는 일부 도메인에서 우수성을 보여주더라도, 이것이 그들을 '구해save'주지 못했다. 주치의가 가진 인상은 레지던트에게 노출된 수의 선형적 합산 결과가 아니며, 더욱이, 무엇이 가장 중요하거나 덜 중요한지는 가변적이며 idiosyncratic하였다.

In sum, attendings seemed to overlook, or excuse, deficiencies in residents they thought of as being outstanding, whereas competence or even excellence in some domains did not “save” other residents from being thought of as problematic. Attendings’ impressions did not result from a linear sum of dimensions; further, what was weighted most or least heavily in any one description seemed to be variable and idiosyncratic.


테마의 상대적 중요성

Relative prominence of themes


우리의 두 번째 발견은 그림 1에서 묘사 된 바와 같이 주제의 상대적 빈도와 관련이 있습니다. 직업윤리는 전체 데이터 세트에서 가장 자주 사용되는 코드였으며 참석자들이 우수한 레지던트에 대해 토론했을 때 특히 두드러졌습니다. 

Our second finding relates to the relative frequencies of the themes, as depicted in Figure 1. Work ethic was by far the most frequently used code in the entire data set and was especially prominent when attendings discussed excellent residents.


또 다른 사람은 "그는 항상 자리에 있었고, 민감하게 반응했다. 그는 능동적으로 문제를 예측했다. 그는 그들에게 일어날 일을 기다리지 않았다. 그는 그것이 발생할 것으로 미리 예상했다. "

 Another stated, “He was available, he would always respond. He was proactive in anticipating problems. He did not wait for them to happen; he expected them to develop.”


"역량이라고 분류할 수 없는 것들"

“Noncompetency” constructs


우리의 세 번째 주요 결과는, 참석자들이 사실상 전혀 역량이라고 할 수 없는 것들에 대해서 자세히 설명했다는 점이다. 예를 들어 '성향'이 있다. 참석자가 레지던트가 문제가 있다고 생각하는 이유에 대한 설명으로, 태도 및 성격 특성에 대해 자주 언급하였다.

Our third major finding was that attendings elaborated several constructs that affected their opinions of residents that were not in fact competencies at all. Consider, for example, the theme of disposition. Attendings frequently commented on residents’ attitudes and personality characteristics, as typified by this explanation of why one attending thought a resident was problematic:


마찬가지로, 'Staff에 대한 영향'이라는 주제는, 레지던트가 교수 구성원의 삶에 어떻게 영향을 주었는지에 따라 레지던트에 대한 의견이 달라짐을 보여준다. 다시 말하지만, 이러한 의견은 특정 분야의 역량이나 역량을 설명하지는 않았으며, 오히려 참석자의 명시된 의견에 대한 설명으로 제공되었습니다.

Similarly, the theme of impact on staff evolved to capture comments attendings made in which their opinion of a resident was shaped by how that resident affected the faculty member’s life. Again, these comments did not describe a particular area of performance or competency but, rather, were offered as support or as explanation for attendings’ stated opinions.




고찰

Discussion


"핵심 역량"을 평가하기 위한 평가 도구를 개발하는 것은 어려웠습니다. 각각의 역량이 다른 역량과 별도로 평가 될 수 없는 것처럼 보이며, 대부분의 평가는 하나의 구인만을 측정한다 (또는 다수의 구인을 측정하나 프레임 워크에 깔끔하게 매핑되지 않는다.).

Developing assessment instruments to evaluate these “core competencies” has been difficult, as recently reported by Lurie et al.5 It seems the individual competencies cannot be evaluated separately fromone another, and most assessments probably measure a single construct (or several that do not map neatly onto the framework, as supported by our findings).


이러한 어려움에 대한 한 가지 가능한 이유는 원하는 역량 중 상당 부분이 어떤 식으로든 사회적으로 결정된다고 인식하기 때문이다. 예를 들어, ACGME 역량 중 Practice-BL이나 SBP와 관련된 개인의 성과는 다른 사람들 및 환경과의 상호 작용에 의존합니다. 따라서 개인의 기여를 구분해내기가 어렵다. 5 그러나 무엇보다도, 올바른 도구만 있다면, 개인의 "진정한 점수"를 정확하게 측정 할 수 있다는 근본적인 전제가 여전히 존재하는 것 같습니다.

One possible reason for these difficulties relates to a growing recognition that many of the desired competencies are in some ways socially determined. For example, an individual’s performance related to the ACGME competencies of practice-based learning or systems-based practice is dependent on interactions with other people and the environment. An individual’s contribution cannot be easily teased out.5 Perhaps more important, however, an underlying presupposition still seems to exist that there is a “true score” within an individual that can be measured accurately once the right tools are found.



특정 상황 (필기 시험과 같은 지식을 시험하는 시험)에는 이것이 적용가능할지도 모르지만, 평가 방법의 선택은 객관성이나 표준화에 대한 맹목적인 욕구가 아니라 교육적 맥락이나 시험 상황의 목적에 따라 결정되어야합니다. 아마도 임상 환경에서 역량 평가의 어려움은, 평가의 출발점이 역량이 관찰되는 맥락이 아니라, 역량 그 자체라는 사실에서 비롯됩니다.

That may be true for certain situations (like written exams to test knowledge), but the choice of assessment method should be determined by the educational context or by the purpose of the testing situation, not by a blind desire to be as objective or standardized as possible. Perhaps some of the difficulties in evaluating competencies in a clinical setting arise fromthe fact that the starting point is usually the competency one wants to assess, rather than the context in which it is being observed.



둘째, 감독관은 개인의 성과를 고려하는 메타-역량의 집합에 따라 연수생의 성과를 개념화한다고 제안했다. 예를 들어, Bogo 등 10)은 감독자가 뛰어나거나 문제가 있는 사회 복지 연수생을 논의할 때, 해당 연수생에 대한 전반적인 의견에 따라 특정 도메인의 상대적 중요성이 높아지거나 낮아지는 것으로 드러났다.

Second, others have suggested that faculty supervisors conceptualize trainees’ performance according to a set of meta-competencies, within which they consider an individual’s performance. For example, Bogo et al10 found that, as supervisors discussed their outstanding and problematic social work trainees, they would elevate—or discount—the relative importance of a particular domain, depending on their overall opinion of a given trainee.


Bogo와 동료 연구에서, 이러한 설명은 "그러나 진술but statements"로 구성되었다. 예를 들어, 모범적인 학생이 특정 스킬에서 개선이 필요할 경우, 감독관은 이것이 공식적인 훈련이 부족한 결과라고 믿으며, 이를 감싸주었다. 이것은 귀인 이론attribution theory에 의해 설명 될 수 있습니다.이 예에서 관리자는 피교육자의 부족을 교육 부족으로 인한 것이라고 귀인한 것이다

In Bogo and colleagues’ study,10 these descriptions were framed as “but statements”; for instance, an exemplary student’s skills in a particular area needed work but the supervisor excused it, believing it was simply the result of a lack of formal training in that area. This can be explained by attribution theory, as the supervisor in this example attributed the deficiency to a lack of training


따라서 어떤 학습자에게 약점이 있다고, 그 학습자가 뛰어난 학생으로 평가받지 못하는 것이 아니었다. 유사하게, 참석자들은 문제 학습자가 적절한 (또는 잘 발달 된) 영역의 성과를 보일 때 거부감을 느꼈습니다. 따라서 레지던트에 대한 전반적인 인상은 다양한 차원의 단순한 선형 합산이 아니며, 이들 차원에 가중치를 주더라도 레지던트를 평가하는 감독자의 감각을 적절하게 포착해내지 못한다. 

 Thus, as supported by our data, a weakness does not necessarily preclude a learner frombeing considered outstanding. As a corollary to this process, attendings were often dismissive of adequate (or even well- developed) areas of performance in learners they think of as problematic. Thus, consistent with research comparing scores fromchecklists versus global ratings,12 the overall impression of the resident is far froma simple linear addition of the various dimensions being assessed, and even a weighting of these dimensions would be unlikely to adequately capture the supervisor’s sense of the resident as a clinician-in-training.


우리는 사람들에게 자신의 언어로, 예를 들어 동료들과 이야기하는 방식으로, 레지던트의 수행능력을 이야기해달라고 권고했습니다. 이에 참여자들은 모든 레지던트에 대해 모든 구인(역량)을 다루지 않았다. 그러나 일반적으로 평가 도구는 역량이 설정된 순서대로 제시되도록 설계되어 있기 때문에, 각 역량에 대해 거의 동일한 시각적 공간을 제공합니다. 이 순서는 각 역량의 상대적 중요성에 대한 레지던트 프로그램의 암묵적인 믿음을 나타낼 수 있으며, 동등한 간격은 각 역량이 동등하게 고려되어야 함을 의미합니다. 그러나 우리의 연구 결과에 따르면이 시각적 레토릭은 교수진이 레지던트의 성과를 개념화하는 방식이나 이에 대한 의견을 표현하는 방식과 일치하지 않습니다.

We explicitly encouraged them to discuss residents’ performance in their own language, the way they would speak, for example, with their colleagues. They did not, therefore, address every construct for every resident. In contrast, evaluation instruments are usually designed so that the competencies are presented in a set order, giving approximately equal visual space to each. This order may reveal the residency program’s implicit beliefs about the relative importance of each competency, and the equal spacing implies that each should be considered equally for each resident. Our findings suggest that this visual rhetoric is inconsistent with the way faculty actually conceptualize and express their opinions about the performance of their residents. 


우리가 분석 한 또 다른 중요한 주제는 레지던트가 교수들에게 미치는 영향이었습니다.

Another critical theme that arose in our analysis was a resident’s impact on the attending.


객관성을 추구 할 때 함정에 대한 van der Vleuten 등의 우려에서 보자면, 임상 교육에서는 주관적인 접근이 실제로 바람직 할 수 있습니다. 이 상황을 객관화하려는 노력이 오히려 authenticity를 상실하게 한다. 따라서 우리는 역량 프레임 워크가 "평가 영역 바깥"에 존재할 때 가장 적합하다고 생각할 수 있습니다. 역량 프레임워크는 분명히 교육지도에 매우 유용하지만, 평가 목적에 있어서는 최고의 장소가 아닐 수도 있습니다. 역량 프레임 워크는 평가에서 중요하지 않지만 평가는 단순히 다양한 차원의 합이 아니다.

Returning to the concerns of van der Vleuten et al about pitfalls in the pursuit of objectivity, in the setting of clinical teaching units, a more subjective approach to evaluation may actually be desirable. In an effort to objectify in this setting, we risk the loss of authenticity. We agree, therefore, that competency frameworks may best be thought of as “outside the realm of evaluation”; they are certainly very useful in guiding education, but they may not be the best place to start from for evaluation purposes. It is not that the competency frameworks are unimportant in assessment, but evaluation is more subtle than a sum of the various dimensions.


또한 Hodges14에서 제시 한 바와 같이 교육 및 평가 모델은 숨겨진 "부작용"을 초래할 수 있습니다. 역량의 측정과 계산을 명시적으로 지나치게 강조함으로써 우리는 오히려 역량을 인식하지 못하거나, 심지어 경우에 따라서는 incompetence를 유발할 수 있습니다.

Further, as Hodges14 has suggested, any model of education and evaluation may result in hidden “side effects.” By overemphasizing what we explicitly choose to measure and count, we may fail to recognize—or in some cases may even create—incompetence.



앞 단락에서 설명한 문제는 평가 양식을 간단하게 수정하여 해결할 수 없습니다. 한 가지 역량이 항상 다른 것보다 중요하지 않은 경우가 아니기 때문에 종종 차별화 된 가중치를 지정하는 것이 좋습니다. 도메인의 상대적인 중요성은 평가 대상이 되는 특정 개인뿐만 아니라 교수 개인의 특이성이 존재하기 때문에 평가를 내리는 특정 평가자에게도 의존한다.

The issues described in the preceding paragraphs cannot be resolved with simple tweaks to the evaluation forms. Differentially weighting the scales, for example, which is often suggested, will not work because it is not the case that one competency is always more important than another. The relative importance of a domain depends not only on the particular individual being described, but also on the particular evaluator, as it has also been shown that idiosyncrasies exist in terms of what individual faculty attendings value.15


또한, 관측에서 해석에 이르기까지 추상화 한 다음 스케일상의 숫자를 변환하는 것은 문제가되는 것으로 나타 났으며 결과적으로 신뢰성이 떨어졌습니다 .16 레지던트의 성과에 대한 표준화 된 내러티브 설명을 사용하여 평가 한 결과, 임상 수퍼바이저가 실제로 사용하는 언어로 쓰여진 문장이 기존의 구조화 된 평가 양식보다 borderline 성능을 향상시키는 데 더 좋을 수 있습니다 .17

Further, the act of abstracting from observations to interpretations and then translating into numbers on scales has been shown to be problematic, with a resulting loss of authenticity.16 Promising research in social work has found that evaluations using standardized narrative descriptions of residents’ performance, written in the language that clinical supervisors actually use, may be better at picking up borderline performance than traditional, structured evaluation forms.17





결론

Conclusions



 임상 환경에서 레지던트의 성과를 평가하는 것은 표준화 된 역량 프레임 워크를 증진하려는 노력에도 불구하고 여전히 주관적인 요인에 크게 영향을 받고 있다. 그러나 이것은 실패로 간주되어서는 안됩니다. 우리는 감독자로서의 역할을 인간으로서의 자신과 분리 할 수 ​​없다는 것을 보여주었습니다. 인간적 요소에 대한 과도한 의존, 상황에 대한 과소 평가, 우리가 학습자에 대해 갖는 주관적인 의견과 감정적 반응 등등, 인간으로서 우리에게 영향을 미치는 것은 평가자로서 우리에게도 영향을 미칩니다. 

 assessment of residents’ performancein the clinical setting is still, despite concerted efforts to promote standardized competency frameworks, heavily influenced by the subjective. But this should not be considered a failure. Along with others, we have shown that, as faculty attendings, we cannot separate ourselves as human beings from the role we play as supervisors. Whether it is our demonstrated overreliance on person factors and underappreciation of the situation19,20 or the subjective opinions and emotional reactions we have about our learners,13,21 what affects us as human beings affects us as evaluators. 


나아가 Leach가 제안한 것처럼 "평가의 relevance는 역량의 통합적 버전에 의존하는 반면, 측정은 역량의 세분화적 버전에 의존한다. 이 역설은 쉽게 해결 될 수 없습니다. 역량이 구체화될수록 전체 역량과의 관련성은 낮아진다. "

Further, as suggested by Leach,22 the relevance of evaluation is “dependent on an integrated version of the competencies, whereas measurement relies on a speciated version of the competencies. The paradox cannot be resolved easily. The more the competencies are specified, the less relevant to the whole they become.









14 Hodges B. Medical education and the maintenance of incompetence. Med Teach. 2006;28:690–696.





 2010 May;85(5):780-6. doi: 10.1097/ACM.0b013e3181d73fb6.

Toward authentic clinical evaluationpitfalls in the pursuit of competency.

Author information

1
Wilson Centre for Research in Education, University Health Network, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada. shiphra.ginsburg@utoronto.ca

Abstract

PURPOSE:

The drive toward competency-based education frameworks has created a tension between competing desires-for quantified, standardized measures on one hand, and for an authentic representation of what it means to be a good doctor on the other. The purpose of this study was to better understand the tensions that exist between competency frameworks and faculty's real-life experiences in evaluating residents.

METHOD:

Interviews were conducted with 19 experienced internal medicine attendings at two Canadian universities in 2007. Attendings each discussed a specific outstanding, average, and problematic resident they had supervised. Interviews were analyzed using grounded theory.

RESULTS:

Eight major themes emerged reflecting how faculty conceptualize residents' performance: knowledge, professionalism, patient interactions, team interactions, systems, disposition, trust, and impact on staff. Attendings' impressions of residents did not seem to result from a linear sum of dimensions; rather, domains idiosyncratically took on variable degrees of importance depending on the resident. Relative deficiencies in outstanding residents could be overlooked, whereas strengths in problematic residents could be discounted. Some constructs (e.g., impact on staff) were not competencies at all; rather, they seem to act as explanations or evidence of attendings' opinions. Standardized evaluation forms might constrain authentic depictions of residents' performance.

CONCLUSIONS:

Despite concerted efforts to create standardized, objective, competency-based evaluations, the assessment of residents' clinical performance still has a strong subjective influence. Attendings' holistic impressions should not be considered invalid simply because they are subjective. Instead, assessment methods should consider novel ways of accommodating these impressions to improve evaluation.

PMID:
 
20520025
 
DOI:
 
10.1097/ACM.0b013e3181d73fb6


미래 의사 교육훈련: 왜 코치는 심판이 될 수 없는가? (JAMA, 2011)

The Education and Training of Future Physicians: Why Coaches Can’t Be Judges

Rodrigo B. Cavalcanti, MD, MSc

Allan S. Detsky, MD, PhD




의사는 환자를 진단하고 치료할 수 있어야합니다. 필요한 임상 기술에는 데이터 수집, 중요하지 않은 사실과 중요한 차이점 조사, 추가 조사 및 치료에 대한 결정, 치료법 구현, 후속 조치, 교육 및 상담 제공이 포함됩니다. 임상기술들은 독서 또는 교실에서만 배울 수 없습니다. 실무적인 경험이 필요합니다. 현재 의사가 실무 경험에 노출되는 방법은 위계에 따른 책임 수준을 팀의 최하위 구성원으로 참여하여, 자신의 의사 결정을 더 경험이 많은 의사에게 검토받는 것입니다.

A PHYSICIAN MUST BE ABLE TO DIAGNOSE AND TREAT patients. The clinical skills required to be successful include gathering data, differentiat- ing important from unimportant facts, making de- cisions about further investigations and treatments, imple- menting therapy, and providing follow-up, education, and counseling. These skills cannot be learned through read- ing or in classrooms alone; practical experience is re- quired. The present method of exposing physicians-in- training to practical experience involves a hierarchical team approach with graded levels of responsibility whereby the decisions of the most junior members of the team are re- viewed by physicians with more experience and seniority.


견습 경험에서는 상급 계층의 구성원이 하위 계층의 구성원을 평가하게 된다. 따라서, Supervisor는 코치 (임상 기술 향상에있어서 연수생을 지시하고 보조하는)이면서 동시에 심사위원 (동일한 연수생의 성과 평가 책임자)이다 .1

Part of the apprenticeship experience also includes hav- ing members at higher levels of the hierarchy evaluate those at lower levels. As such, the supervising individuals are both coaches (instructing and assisting trainees in improving their clinical skills) and judges (responsible for performance as- sessment of the same trainees).1


연수생을 평가하는 목적은 경쟁에 대한 평가뿐만 아니라 학습에 동기를 부여하고 직접 지시하는 것입니다. 대부분의 설정에서 훈련 중 평가보고 (ITER)가 표준적 평가 방법이다 .2-4

The purpose of assessing trainees is to motivate and direct learning, as well as to provide an evaluation of compe- tence. Inmost settings, in-training evaluation reports (ITERs) form the standard method of evaluation.2-4



수련중평가(ITE)의 과제

Challenges of In-Training Evaluations


기존 연구에서 ITER은 다른 평가 척도의 상관관계가 낮다는 것을 보여 주었다 .5) 재생산성이 낮은 것은 평가자의 관대함, 점수의 범위 제한 ), 후광 효과 (1 가지 특성에 기반하여 성과의 모든 측면을 평가하는 경향), 평가받지 못한 평가자 교육, 임상 기술을 수행하는 동안 연수생의 직접적인 관찰의 부족 등이 포함됩니다 .3,4 또한 감독자는 연수생을 유급시키기를 꺼려한다 .7

Studies of the validity of ITERs have shown that they cor- relate poorly with other assessment measures.5,6 Poor re- producibility has been widely documented and explained by many factors including leniency of raters, restriction of range of scores (toward the top end), the halo effect (the tendency to rate all aspects of performance based on 1 trait), inadequate rater training, and lack of direct observation of trainees while performing clinical skills.1,3,4 In addition, su- pervisors are reluctant to fail trainees.7


피교육자는 교육자에게 압박을 느끼지만, 반대로 교육자는 건설적인 피드백조차 그것이 부정적인 내용일 경우 피드백 주기를 꺼려한다.4 주어진 이유는 연수생의 수용력이 부족하고, 추가적인 일이나 스트레스와 같은 부정적 결과, 그리고 피훈련자도 교육자을 평가한다는 사실 등이 포함됩니다. 특히 피훈련자에게 불합격 점수를주는 것은 피훈련자(교대 재 소집)와 교육자 모두에게 심각한 결과를 초래합니다 (교육자에 대한 항소가 있을 수 있고, 많은 서류작업을 해야 할 수 있음).

Despite the perception that trainees are intimidated by their medical supervisors, these same supervisors find it es- pecially difficult to provide negative feedback, even if that feedback may be presented constructively.4 The reasons given include a lack of receptivity by trainees, adverse conse- quences to the faculty such as extra work and stress, and the knowledge that trainees in turn evaluate faculty mem- bers. In particular, giving a trainee a failing grade has im- portant consequences for both the trainee (having to re- peat the rotation) and supervisor (there may be appeals and need for extensive documentation).


또한, 몇 가지 인지적 편향이 ITER의 측정 오류에 영향을 줄 수있다 .1 

  • 확증 편향은 모순 된 관찰을 할인하고 확인적인 평가를 과대 평가하는 등의 초기 노출을 확인하기 위해 평가자가 정보를 찾고 해석하는 현상을 말한다. 

  • 앵커링 편향는 단일 주제에 대한 탁월한 프리젠 테이션이나 훌륭한 진단과 같은 전반적인 인상을 유도하기 위해 하나의 사례에 대한 과도 의존성으로 인해 발생합니다.

In addition, several cognitive biases may contribute to measurement error in ITERs.1 

  • Confirmation bias refers to the phenomenon by which evaluators seek and interpret information to con- firm initial impressions, both discounting contradictory observations and overvaluing confirmatory ones. 

  • Anchoring bias results from overreliance on 1 piece of informa- tion to guide overall impression, for example, relying solely on an excellent presentation on a single topic or a brilliant diagnosis in 1 case.


연수생은 자신의 환자에 대한 토론에서, 다소 모호한 주제로 돌리는 기술을 써서 평가에 영향을 미칠 수 있습니다. 특히 감독자가 해당 분야의 전문 지식이 부족하다는 것을 알고있는 경우에는 더욱 그렇습니다.

Trainees are able to affect their evaluations by techniques such as turning a discussion about their patients toward a moderately obscure topic of which they have de- tailed knowledge, especially if they know their supervisor lacks expertise in that area.9




코치 겸 재판관 역할은 무엇이 문제인가

Why the Coach/Judge Role Is Problematic



코치와 재판관의 이중 역할에는 크게 두 가지 문제가 있습니다. 

  • 첫째, 이중 역할은 연수생이 결핍을 인지하는 분야의 기술 습득에 이상적인 세팅이 아니다. 어떤 연수생도 ​​평가자에게 자신의 약점을 보여주고 싶지 않아 한다. 그러므로 교사는 이전 연수생과의 경험을 통해 연수생이 배우고 추측해야 할 것을 폭로해야합니다. 

  • 두 번째로, supervisor는 코치로서 연수생의 성공에 관심을 가지게 되므로, 평가자로서 이해관계 상충이 생긴다.

There are 2 main problems with the dual role of coach and judge. 

  • First, the dual role provides a suboptimal setting for trainees to seek help in gaining skills in areas in which they perceive deficiency. No trainee would want to show an evalu- ator his or her weaknesses. Therefore, the teacher has to try to expose what the trainee needs to learn or guess from ex- perience with previous trainees. 

  • Second, the dual role creates a conflict of interest for the evaluator because, as coach, he or she will also have a vested interest in the trainee’s success.



이 문제에 대한 간단한 해결책은 연수생의 지식과 수행에 대한 모든 평가가 후보자의 성공에 기득권이없는 개인에 의해 수행되도록 보장하는 것입니다. 그러나 이 방법은 비현실적입니다. 

The simple solution to this problem would be to ensure that all assessments of trainees’ knowledge and performance are conducted by individuals who have no vested interest in the success of the candidate. However, this approach is unrealistic. 


  • 첫째, 코치는 연수생이 기술을 얼마나 잘 배웠는지에 대한 직접적인 직접적인 정보를 얻을 것입니다. 사실, 현재의 의학교육은 평생 학습자를 육성하기위한 것이므로 특정 시점의 특정 영역에서의 역량 수준은, 미래에 다른 영역에 대한 학습능력보다 덜 중요 할 수 있습니다. 코치는 시간이 지남에 따라 성과를 평가할 수있게되어 연수생이 새로운 지식을 습득하고 기술을 개발할 수있는 능력을 평가할 수 있게 됩니다. 고정 된 시점의 외부 평가자는 역량을 한 번만 평가할 수 있습니다.

First, the coach will have firsthand direct information about how well the trainee learns skills. In fact, since the current approach to medi- cal education is to develop lifelong learners, the level of competency in any specific area at one point in time may be less important than a physician’s ability to acquire competence in other areas in the future. The coach will be able to evaluate performance over time and thereby assess a trainee’s ability to acquire new knowledge and develop skills. An external evaluator at a fixed point in time can only assess competency once.


  • 둘째, 교육 위계에서 상위에 있는 의사가 전문성이 더 많기 때문에 하위 계층의 구성원은 항상 자신의 지위에 따라 어떤 식 으로든 위협을 받게됩니다. 예를 들어, 임상 감독관은 단순히 공식 ITER에 대한 평가를 제공하는 것이 아니라 공식 서한이나 비공식적 인 추천서를 참고 서적으로 작성하거나 레지던트 선발위원회 위원으로 참여한다. 그럼에도 불구하고, 높은 이해 관계에 초점을 맞추고, 임상 기술을 가르치는 동일한 개인의 합격 실패 유형 평가, 의료 훈련의 현재 구조

Second, because members at the top of an educational hi- erarchy have more seniority and expertise, members at the lower levels will always be threatened in some way by their position. For example, clinical supervisors do not simply provide assessments on formal ITERs but also make both formal and informal recommendations in reference letters or by serving as members of residency selection commit- tees. This phenomenon cannot be counteracted. Neverthe- less, by focusing on high stakes, pass-fail type assessment from the same individuals who teach clinical skills, the cur- rent structure of medical training


결론

Conclusion


임상 강습의 초점을 피드백 및 코칭 (전문 지식 습득을 위해)으로 이동시킴으로써, 교사는 연수생이 가장 도움이 필요한 분야를 개선하도록 도울 것입니다. 현재 임상 감독자의 이중 역할은 의사가 최대한의 잠재력을 발휘할 수 있도록 지원하지 못하므로, 수련중인 의사의 요구를 충족시켜주지 못한다.

By shifting the focus of clinical train- ing to feedback and coaching (for the acquisition of expertise10), tutors will help trainees improve the areas in which they need the most help. Until this change occurs, the current dual role of clinical supervisors will continue to fail the needs of physicians-in-training by not helping them to reach their full potential.


현재의 프로그램은 자신의 약점은 숨기고 강점을 드러내는 피훈련자에게 보상을 주고 있다.

programs rewards trainees for showcasing their strengths without properly addressing their weaknesses.






 2011 Sep 7;306(9):993-4. doi: 10.1001/jama.2011.1232.

The education and training of future physicianswhy coaches can't be judges.

Author information

1
Department of Medicine, University of Toronto, Toronto, Ontario, Canada.
PMID:
 
21900141
 
DOI:
 
10.1001/jama.2011.1232


합목적적 평가 프로그램 설계를 위한 전문가 가이드라인 (BMC Med Educ, 2012)

Expert validation of fit-for-purpose guidelines for designing programmes of assessment

Joost Dijkstra1*†, Robert Galbraith2, Brian D Hodges3, Pauline A McAvoy4, Peter McCrorie5, Lesley J Southgate5, Cees PM Van der Vleuten1, Val Wass6 and Lambert WT Schuwirth1,7




배경

Background


퀄리티에 대한 서로 다른 목표와 관점,

different aims and adopting diverse view- points on quality,


  • 심리측정 관점에서의 퀄리티는 종합적 결정의 신뢰성과 "타당성에 대한 통일된 관점"으로 정의된다 [9-13]. 

  • 교육적 관점에서 초점은 목표, 교육, 그리고 바람직한 학습행동을 ​​자극하기 위한 평가의 사용에 관한 것이 었습니다

From a psychometric per- spective quality has been almost exclusively defined as the reliability of combinations of decisions and a “unified view of validity” [9-13]. 

From an educational perspective the focus has been on the alignment of objectives, instruction, and on using assessment to stimulate desirable learning behaviour [14-16]


  • Baartman [17]은 역량 기반 교육을 퀄리티의 기반으로 삼았고, authenticity와 유의미성과 같은 교육 기반 기준을 추가 할 것을 제안했다.

. In another study Baartman [17] took competency-based education as a basis for quality, and proposed adding education-based criteria, such as authenticity and meaningfulness, to the established psy- chometric criteria.


대부분의 연구들은 이미 평가가 수행 된 이후에 평가 품질을 결정합니다. 불행하게도, 이것은 양질의 평가프로그램을 개발하려는 디자이너에게는 크게 도움이 되지 않습니다.

Most of this research determines as- sessment quality afterwards, when assessment has already taken place. Unfortunately, this does not provide assess- ment designers with much support when they intend to construct a high-quality programme.


반면에 보다 광범위한 교육 수준의 지침이 있는데, 예를 들어 g., the Standards for educational and psychological testing 가 있다[18]. 그러나 이러한 표준은 주로 평가 프로그램 대신 단일 테스트 (즉, 측정 도구)에 집중됩니다. 그리고 표준이 전문가 판단에 개방되어 문맥상의 차이 (예 : 규정)를 인정하고 있음에도 불구하고 그들은 특정 시험 틀과 학습 평가의 관점에서 여전히 공식화되어있다.

On the other hand guidance is available at a broader educational level, e.g., the Standards for educational and psychological testing [18]. But these standards focus predominantly on single tests (i.e. the measuring instrument) instead of on programmes of as- sessment. And, despite the standards being open to expert judgement and acknowledging contextual differences (e.g. in regulations), they are still formulated from a specific testing framework and from the perspective of assessment of learning [19].


프레임 워크는 여러 계층으로 나누어지며 이해 관계자 및 인프라 (외부 계층)의 컨텍스트에 배치됩니다. 시작점은 프로그램의 목적 (프레임 워크의 핵심 요소)입니다. 이 목적을 위해 5 개의 층 (차원)이 구별되었습니다. 

  • (1) 실행중인 프로그램은 프로그램의 핵심 활동, 즉 정보 수집, 정보 결합 및 평가, 후속 조치를 설명합니다. 

  • (2) 프로그램 지원은 테스트 건설 및 교수진 개발 개선, 이해 관계자의 수용 가능성 및 호소 가능성 확보와 같은 현재 평가 프로그램을 최적화하기위한 활동을 설명합니다. 

  • (3) 프로그램을 문서화하면 방어 가능한 프로그램을 달성하고 조직 학습을 포착하는 데 필요한 활동이 설명됩니다. 여기에는 규칙 및 규정, 학습 환경 및 도메인 매핑이 포함됩니다. 

  • (4) 프로그램 개선은 프로그램이 승인 된 후에 평가 프로그램의 재 설계를 목표로하는 차원을 포함합니다. 활동은 R & D 및 변경 관리입니다. 

  • (5) 프로그램을 정당화하는 최종 계층은 효과 성, 효율성 및 수용 가능성을 고려하여 프로그램의 목적이 달성되었다는 증거를 제공하기위한 활동을 설명합니다.

The framework is divided into several layers and is placed in the context of stakeholders and infrastructure (outer layer). The starting point is the purpose of the programme (key element in the framework). Around the purpose, 5 layers (dimensions) were distinguished. 

  • (1) Programme in action describes the core activities of a programme, i.e. collecting information, combining and valuing the information, and taking subsequent action. 

  • (2) Supporting the programme describes activities that are aimed at optimizing the current programme of assess- ment, such as improving test construction and faculty de- velopment, as well as gaining stakeholder acceptability and possibilities for appeal. 

  • (3) Documenting the programme describes the activities necessary to achieve a defensible programme and to capture organizational learning. Ele- ments of this are: rules and regulations, learning environ- ment, and domain mapping. 

  • (4) Improving the programme includes dimensions aimed at the re-design of the programme of assessment, after the programme is admi- nistered. Activities are R&D and change management. 

  • (5) The final layer justifying the programme describes activities that are aimed at providing evidence that the purpose of the programme is achieved taking account of effectiveness, efficiency, and acceptability.





Method


Study design


The development and validation of design guidelines was divided into four phases, 

    • starting with a brainstorm phase to generate ideas using a core group of experts (JD, CvdV and LWTS), 

    • followed by a series of discussions with a wider group of international experts to elaborate on this brainstorm. 

    • Next in a refinement phase, the design guidelines were fine-tuned based on the analysis of the discussions. 

    • Finally a member check phase was initiated to validate the guidelines based on expert consensus.


Participants


Procedure and data analysis


The brainstorm was done by the research team (JD, CvdV,LWTS) based on their experience and data from the preceding study [5]. This resulted in a first draft of the set of guidelines, which served as a starting point for the discus-sion phase. The discussion took place in multiple (Skype®)interviews with the participants. Individual interviews were held with each participant and led by one researcher (JD)with the support of a second member of the research team(either CvdV or LWTS). The interview addressed the first draft of guidelines and was structured around three open questions: 

    • 1. Is the formulation of the guidelines clear, con-cise,correct?

    • 2. Do you agree with the guidelines? 

    • 3. Are any specific guidelines missing? 

The interviews were recorded and analysed by the research team to distil a con-sensus from the various opinions, suggestion, and recom-mendations. One researcher (JD) reformulated the guidelines and to avoid overly adherence to initial formulations the interview data (expert suggestions) were taken as starting point. The goal of the new formulation was to rep- resent the opinions and ideas expressed by the experts as accurately as possible. Peer debriefing was done to check the reformulation by the research team (JD, CvdV, & LWTS) to reach initial consensus. After formulating a complete and comprehensive set of guidelines, a member- check procedure was conducted by e-mail. All participants were sent the complete set for final review and all responded. No content-related issues had to be resolved and some wording issues were resolved as a final consensus document was generated.


Results



일반사항

General



I). 결정 (및 그 결과)은 그것이 근거하고 있는 정보의 품질에 비례해야 합니다.

I). Decisions (and their consequences) should be proportionate to the quality of the information on which they are based.


II) 설계 프로세스의 모든 결정은 과학적 증거 또는 모범 사례의 증거에 의해 뒷받침되는 것이 바람직하다. 평가 프로그램을 설계 할 때 내린 선택을 뒷받침하는 증거가 없다면, 그 결정은 연구를 위해 우선 순위가 높은 것으로 식별되어야합니다.

II) Every decision in the design process should be underpinned preferably supported by scientific evidence or evidence of best practice. If evidence is unavailable to support the choices made when designing the programme of assessment, the decisions should be identified as high priority for research.


III) 평가 프로그램에서 활동을 수행하기 위해서는 특정 전문 지식을 이용할 수 있어야한다.

III) Specific expertise should be available (or sought) to perform the activities in the programme of assessment.




영역별 핵심 가이드라인 

Salient guidelines per dimensions in the framework



목적, 이해관계자, 구조

Purpose, stakeholders, and infrastructure


A1 평가 프로그램의 하나의 핵심 목적이 공식화되어야한다.

A1 One principal purpose of the assessment programme should be formulated.


A4 평가 프로그램에 대한 기회뿐만 아니라 제한 사항은 초기 단계에서 확인되어 설계 과정에서 고려되어야합니다.

A4 Opportunities as well as restrictions for the assessment programme should be identified at an early stage and taken into account in the design process.


A7 다양한 이해 관계자가 설계 프로세스에 참여하는 수준은 프로그램의 목적과 이해 관계자 자신의 필요에 따라 결정되어야합니다.

A7 The level at which various stakeholders participate in the design process should be based on the purpose of the programme as well as the needs of the stakeholders themselves.




프로그램 실행 

Programme in action


B1 프로그램의 평가 요소를 선택할 때 평가 프로그램의 목적에 기여하는 정도가 지침 원칙이어야합니다.

B1 When selecting an assessment component for the programme, the extent to which it contributes to the purpose(s) of the assessment programme should be the guiding principle.


B14 서로 다른 평가 요소에 의해 얻어진 정보의 결합은 목적, 내용 또는 데이터 패턴에 의해 정의된 유의미한 실체에 기초하여 정당화되어야한다.

B14 Combination of the information obtained by different assessment components should be justified based on meaningful entities either defined by purpose, content, or data patterns.


B21 정보는 평가의 목적과 관련하여 이해 관계자에게 최적으로 제공되어야한다.

B21 Information should be provided optimally in relation to the purpose of the assessment to the relevant stakeholders.



프로그램 지원

Supporting the programme



C4 평가 구성 요소 구축을 지원하려면 도메인 전문 지식 및 평가 전문성이 필요합니다.

C4 Support for constructing the assessment components requires domain expertise and assessment expertise.


C6 고부담 평가일수록 절차가 더 강력해야 한다.

C6 The higher the stakes, the more robust the procedures should be.


C8 프로그램의 acceptance가 광범위하게 모색되어야한다.

C8 Acceptance of the programme should be widely sought.




프로그램 문서화

Documenting the programme


D9 도메인 맵은 평가 프로그램에서 도메인을 적합하게 보여주어야한다.

D9 A domain map should be the optimal representation of the domain in the programme of assessment.


프로그램 개선

Improving the programme


E1 정기적 인 반복적 인 평가 및 개선 프로세스가 마련되어 피드백 루프를 마감해야합니다.

E1 A regular and recurrent process of evaluation and improvement should be in place, closing the feedback loop.


E4 변화를위한 모멘텀은 필요한 우선 순위 또는 외부 압력으로부터 생성되어야한다.

E4 Momentum for change has to be seized or has to be created by providing the necessary priority or external pressure.



프로그램 합리화

Justifying the programme


F2 새로운 시도 (개발)에는 평가, 바람직하게는 과학 연구가 수반되어야합니다.

F2 New initiatives (developments) should be accompanied by evaluation, preferably scientific research.


F6 비용 편익 분석은 프로그램의 목적에 비추어 정기적으로 이루어져야한다. 장기적으로보다 자원 효율적인 대안을 모색하는 적극적인 접근 방식을 채택해야합니다.

F6 A cost-benefit analysis should be made regularly in light of the purposes of the programme. In the long term, a proactive approach to search for more resource-efficient alternatives should be adopted.


F10 기밀성 및 정보 보안은 적절한 수준에서 보장되어야합니다.

F10 Confidentiality and security of information should be guaranteed at an appropriate level.




고찰 및 결론 

Discussion and conclusion


최대한 포괄적이되도록 노력하면서 우리는 과잉 포용의 위험에 대해 인정합니다. 우리는 평가 프로그램을 설계 할 때 이러한 지침을 신중하게 적용해야한다는 점을 강조하고자합니다. 인식한 상황과 실제 상황이 다르다는 것을 강조하며, 모든 지침이 모든 상황에서 적절하지 않을 수도 있습니다. 따라서 평가 프로그램을 설계하는 것은 어떤 지침을 다른 지침보다 우선해야 하는지를 선택하는 등 선택의 폭이 넓고 타협하는 것을 의미합니다. 그럼에도 불구하고 우리는이 프로그램이 평가 프로그램의 프레임 워크와 결합되어 설계자가 평가 프로그램의 복잡한 역 동성에 대한 개요를 유지할 수 있다고 생각합니다. 상호 연관된 일련의 가이드 라인은 설계자가 문제가있는 영역을 예측하는 데 도움을 주며 그렇지 않은 경우 실제 문제가 발생할 때까지 암시 적으로 유지됩니다.

In trying to be as comprehensive as possible we acknow- ledge the risk of being over-inclusive. We would like to stress that when designing a programme of assessment, these guidelines should be applied with caution. We recog- nise and indeed stress that contexts differ and not all guidelines may be relevant in all circumstances. Hence, designing an assessment programme implies making delib- erate choices and compromises, including the choice of which guidelines should take precedence over others. Nevertheless, we feel this set combined with the frame- work of programmes of assessment enables designers to keep an overview of the complex dynamics of a programme of assessment. An interrelated set of guide- lines aids designers in foreseeing problematic areas, which otherwise would remain implicit until real problems arise.



Additional file 1 Addendum complete set of guidelines - BMC Med Educ - final.doc. This addendum contains the set of 72 guidelines developed and validated in this study.



12909_2012_589_MOESM1_ESM.docx





Introduction

GENERAL GUIDELINES

I           Decisions (and their consequences) should be proportionate to the quality of the information on which they are based.

II         Every decision in the design process should be underpinned preferably supported by scientific evidence or evidence of best practice. If evidence is unavailable to support the choices made when designing the programme of assessment, the decisions should be identified as high priority for research.

III        Specific expertise should be available (or sought) to perform the activities in the programme of assessment.

PURPOSE OF THE PROGRAMME

A1       One principal purpose of the assessment programme should be formulated.

A2       Long-term and short-term purposes should be formulated. But the number of purposes should be limited.

A3       An overarching structure which projects the domain onto the assessment programme should be constructed.

INFRASTRUCTURE

A4       Opportunities as well as restrictions for the assessment programme should be identified at an early stage and taken into account in the design process.

A5       Design decisions should be checked against consequences for the infrastructure. If necessary compromises should be made, either adjusting the purpose(s) of the assessment programme or adapting the infrastructure.

STAKEHOLDERS

A6       Stakeholders of the assessment programme should be identified and a rationale provided for including the expertise of different stakeholders (or not) and the specific role(s) which they should fulfil.

A7       The level at which various stakeholders participate in the design process should be based on the purpose of the programme as well as the needs of the stakeholders themselves.

PROGRAMME IN ACTION

Collecting Information

B1       When selecting an assessment component for the programme, the extent to which it contributes to the purpose(s) of the assessment programme should be the guiding principle.

B2       When selecting an assessment (component or combination), consideration of the content (stimulus) should take precedence over the response format.

B3       The assessment should sample the intended cognitive, behavioural or affective processes at the intended level.

B4       The information collected should be sufficiently informative (enough detail) to contribute to the purpose of the assessment programme.

B5       The assessment should be able to provide sufficient information to reach the desired level of certainty about the contingent action.

B6       The effect of the instruments on assessee behaviour should be taken into account.

B7       The relation between different assessment components should be taken into account

B8       The overt and covert costs of the assessment components should be taken into account and compared to alternatives.

B9       Assessment approaches that work well in a specific context (setting) should first be re-evaluated before use in another context (setting) before implementation.

B10     A programme of assessment should deal with error and bias in the collection of information. Error (random) is unpredictable and should be reduced by sampling (strategies). Bias (Systematic) should be analysed and its influence should be reduced by appropriate measures.

B11     Any performance categorisation system should be as simple as possible.

B12     When administering an assessment (component), the conditions (time, place, etc.) and the tasks (difficulty, complexity, authenticity, etc) should support the purpose of the specific assessment component.

B13     When scheduling assessment, the planning should support instruction and provide sufficient opportunity for learning.

Combining Information

B14     Combination of the information obtained by different assessment components should be justified based on meaningful entities either defined by purpose, content, or data patterns.

B15     The measurement level of the information should not be changed.

B16     The consequences of combining information obtained by different assessment components, for all stakeholders, should be checked.

Valuing Information

B17     The amount and quality of information on which a decision is based should be in proportion to the stakes.

B18     A rationale should be provided for the standard setting procedures.

Taking Action

B19     Consequences should be proportionally and conceptually related to the purpose of the assessment and justification for the consequences should be provided.

B20     The accessibility of information (feedback) to stakeholders involved should be defined.

B21     Information should be provided optimally in relation to the purpose of the assessment to the relevant stakeholders.

SUPPORTING THE PROGRAMME

Construction Support

C1       Appropriate central governance of the programme of assessment should be in place to align different assessment components and activities.

C2       Assessment development should be supported by quality review to optimise the current situation (Programme in Action), appropriate to the importance of the assessment.

C3       The current assessment (Programme in Action) should be routinely monitored on quality criteria.

C4       Support for constructing the assessment components requires domain expertise and assessment expertise.

C5       Support tasks should be well-defined and responsibilities should lie with the right persons.

Political and Legal Support

C6       The higher the stakes, the more robust the procedures should be.

C7       Procedures should be made transparent to all stakeholders.

C8       Acceptance of the programme should be widely sought.

C9       Protocols and procedures should be in place to support appeal and second opinion.

C10     A body of appeal should be in place

C11     Safety net procedures should be in place to protect both assessor and assessee.

C12     Protocols should be in place to check (the programme in action) on proportionality of actions taken and carefulness of assessment activities.

DOCUMENTING THE PROGRAMME

Rules and Regulations (R&R)

D1       Rules and regulations should be documented.

D2       Rules and regulations should support the purposes of the programme of assessment.

D3       The impact of rules and regulations should be checked against managerial, educational, and legal consequences.

D4 In drawing up rules and regulations one should be pragmatic and concise, to keep them manageable and avoid complexity.

D5       R&R should be based on routine practices and not on incidents or occasional problems.

D6       There should be an organisational body in place to uphold the rules and regulations and take decisions in unforeseen circumstances.

Learning Environment

D7       The environment or context in which the assessment programme has to function should be described.

D8       The relation between educational system and assessment programme should be specified.

Domain Mapping

D9       A domain map should be the optimal representation of the domain in the programme of assessment.

D10     A domain map should not be too detailed.

D11     Starting point for a domain map should be the domain or content and not the assessment component.

D12     A domain map should be a dynamic tool, and as a result should be revised periodically.

IMPROVING THE PROGRAMME

R&D

E1        A regular and recurrent process of evaluation and improvement should be in place, closing the feedback loop.

E2        If there is uncertainty about the evaluation, more information about the programme should be collected.

E3        In developing the programme (re-design) again improvements should be supported by scientific evidence or evidence of best practice.

Change Management

E4        Momentum for change has to be seized or has to be created by providing the necessary priority or external pressure.

E5        Underlying needs of stakeholders should be made explicit.

E6        Sufficient expertise about change management and about the local context should be sought.

E7        Faculty should be supported to cope with the change by providing adequate training

JUSTIFYING THE PROGRAMME

Effectiveness

Scientific Research

F1        Before the programme of assessment is designed, evidence should to be reviewed.

F2        New initiatives (developments) should be accompanied by evaluation, preferably scientific research.

External Review

F3        The programme of assessment should be reviewed periodically by a panel of experts.

F4        Benchmarking against similar assessment programmes (or institutes with similar purposes) should be conducted to judge the quality of the programme.

Efficiency: cost-effectiveness

F5        In order to be able to justify the resources used for the assessment programme, all costs (in terms of resources) should be made explicit.

F6        A cost-benefit analysis should be made regularly in light of the purposes of the programme. In the long term, a proactive approach to search for more resource-efficient alternatives should be adopted.

Acceptability: political-legal justification

F7        Open and transparent governance of the assessment programme should be in place and can be held accountable

F8        In order to establish a defensible programme of assessment there should be one vision (on assessment) communicated to external parties.

F9        The assessment programme should take into account superseding legal frameworks.

F10      Confidentiality and security of information should be guaranteed at an appropriate level.




 2012 Apr 17;12:20. doi: 10.1186/1472-6920-12-20.

Expert validation of fit-for-purpose guidelines for designing programmes of assessment.

Author information

1
Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands. Joost.dijkstra@maastrichtuniversity.nl

Abstract

BACKGROUND:

An assessment programme, a purposeful mix of assessment activities, is necessary to achieve a complete picture of assessee competence. High quality assessment programmes exist, however, design requirements for such programmes are still unclear. We developed guidelines for design based on an earlier developed framework which identified areas to be covered. A fitness-for-purpose approach defining quality was adopted to develop and validate guidelines.

METHODS:

First, in a brainstorm, ideas were generated, followed by structured interviews with 9 international assessment experts. Then, guidelines were fine-tuned through analysis of the interviews. Finally, validation was based on expert consensus via member checking.

RESULTS:

In total 72 guidelines were developed and in this paper the most salient guidelines are discussed. The guidelines are related and grouped per layer of the framework. Some guidelines were so generic that these are applicable in any design consideration. These are: the principle of proportionality, rationales should underpin each decisions, and requirement of expertise. Logically, many guidelines focus on practical aspects of assessment. Some guidelines were found to be clear and concrete, others were less straightforward and were phrased more as issues for contemplation.

CONCLUSIONS:

The set of guidelines is comprehensive and not bound to a specific context or educational approach. From the fitness-for-purpose principle, guidelines are eclectic, requiring expertise judgement to use them appropriately in different contexts. Further validation studies to test practicality are required.

PMID:
 
22510502
 
PMCID:
 
PMC3676146
 
DOI:
 
10.1186/1472-6920-12-20


전문역량 평가: 이론 개발을 위한 구성 요소 (Best Pract Res Clin Obstet Gynaecol, 2010)

The assessment of professional competence: building blocks for theory development

C.P.M. van der Vleuten, PhD, Professor of Education a,*, L.W.T. Schuwirth, MD, PhD, Professor for Innovative Assessment a,d, F. Scheele, MD, PhD, Gynaecologist and Professor of Medical Education b,e, E.W. Driessen, PhD, Senior Lecturer in Education a,d, B. Hodges, PhD, Psychiatrist, Richard and Elizabeth Currie Chair in Health Professions Education Research c, f

a Department of Educational Development and Research, Maastricht University, P.O. Box 616, 6200 MD, Maastricht, The Netherlands

b Department of Obstetrics and Gynaecology, Saint Lucas Andreas Hospital, Jan Tooropstraat 164, 1016 AE Amsterdam, The Netherlands

c The Wilson Centre for Research in Education, 200 Elizabeth Street, 1ES 565, Toronto, Ontario, Canada, M5G 2C4






Miller의 피라미드는 이 평가 검토를 구성하는 편리한 프레임 워크 3로 사용됩니다 (그림 1).

Miller’s pyramid is used by the authors as a convenient framework3 to organise this review of assessment (Fig. 1).


처음 세 개의 레이어 : 'Knows', 'Knows how', 'Shows how'

The first three layers: ‘Knows’, ‘Knows how’ and ‘Shows how’


역량은 구체적이지 제네릭이 아닙니다.

Competence is specific, not generic


이것은 평가 문헌에서 가장 잘 입증 된 경험적 연구 결과 중 하나입니다 .4 의학 교육에서는 소위 환자 관리 문제 (PMP)에 대한 연구에서 처음 설명되었습니다 .5,6 PMP는 정교하고 작성된 환자 시뮬레이션 및 후보자의 경로와 문제 해결에서의 선택은 점수를 매겨 임상 적 추론의 적격성을 나타냅니다. 반직관적이지만, 한 케이스에 대한 성과가, 심지어 동일한 영역 내의 다른 케이스에 대해서좌, 성과를 예측하는 지표로 좋지 않다는 결과가 나왔다. 이 현상은 후에 (무엇을 측정하는가와 무관하게) 기본적으로 모든 평가 방법에서 입증되었습니다. 이것을 (임상) 능력의 '내용-특이성'문제로 부른다.

This is one of the best-documented empirical findings in the assessment literature.4 In medical education, it was first described in the research on so-called patient management problems (PMPs).5,6 PMPs are elaborate, written patient simulations, and candidates’ pathways and choices in resolving a problem are scored and taken as indications of competence in clinical reasoning. A quite discon- certing and counterintuitive finding was that candidates’ performance on one case was a poor predictor of performance on any other given case, even within the same domain. This phenomenon was later demonstrated in basically all assessment methods, regardless of what was being measured. It was termed the ‘content specificity’ problem of (clinical) competence.


역량 및 기술에 관한 많은 아이디어는 성격 특성에 대한 연구에서 나온 개념에 기반을 두었습니다. 성격 특성은 관측불가능하여, (행동에서) '유추'되고, 안정된 형질이며, 다른 형질과 구별되며 단조로운 선형 성장을 특징으로 한다. 전형적인 예는 지능입니다. 직접 관찰 할 수는 없으므로 행동에서 유추해야합니다. 다른 개성과는 무관합니다.

much of the thinking about competencies and skills was based on notions from research on personality traits. Personality traits are unobservable, ‘inferred’, stable traits, distinct from other traits and characterised by monotonous linear growth. Atypical example of a trait is intelligence. It cannot be observed directly, so it has to be inferred from behaviour; it is independent of other personality traits, etc.


내용특이성은 인지 심리학에서도 발견되었는데, 오래전부터 학습에서 transfer가 중요한 문제로 확인되었기 때문이다. 9 이것은 인지 심리학에 대한 많은 연구를 촉발하여 학습자가 문제를 어떻게 추론하는지, 현저하게 중요한 지식이 어떻게 존재하는지, 어떻게 개인적 경험의 결과로  정보가 청크되고 자동화되고 개인화되는지, 사람들이 고의적이고 지속적인 연습을 통해 전문가가 되는지 10,11

Content specificity resonated with findings from cognitive psychology, where much earlier transfer was identified as a fundamental problem in learning.9 This sparked a great deal of research in cognitive psychology, providing insights on 

    • how learners reason through problems, 

    • how eminently important knowledge is therein, 

    • how information is chunked, automated and personalised as a result of personal experience and 

    • how people become experts through deliberate and sustained practice.10,11 


인지심리학의 관점에서 볼 때 내용특이서 현상은 매우 논리적 이고 자연스러운 현상이다.

Viewed from the perspective of cognitive psychology, the phenomenon of content specificity thus becomes understandable as a quite logical natural phenomenon.


간단히 말해, 하나의 측정 값은 측정 값이 아니며, single-point 평가는 신뢰할 수 없습니다. 가장 현명한 전략은 오랜 시간에 걸쳐 다양한 평가 소스에서 정보를 결합하는 것입니다.

In short, one measure is no measure, and single-point assessments are not to be trusted. The wisest strategy is to combine information across content, across time and across different assessment sources.



객관성은 신뢰성과 동일하지 않습니다.

Objectivity does not equal reliability


신뢰도는 방법의 객관성에 따라 달라지는 것이 아니다. 즉, 주관적 테스트도 높은 신뢰성을 가질 수 있으며, 객관적 테스트도 샘플링에 따라 신뢰도가 낮을 수 있다12. 폭넓은 표본추출을 해야 하는 이유가 내용특이성만 있는 것은 아니다.

reliability does not co-vary with the objectivity of methods; so-called subjective tests can be reliable and objective tests can be unreliable, all depending on the sampling within the method.12 It became clear that content specificity was not the only reason to sample widely across content.


OSCE의 개념은 기존의 임상 평가 절차의 주관성을 극복하기 위해 창안되었습니다. 객관성과 표준화가 그 해결책이었고, 따라서 머리 글자에서 'O'와 'S'를 사용했습니다. 그러나 연구가 축적됨에 따라 OSCE의 신뢰도는 다른 방법들과 마찬가지로 표본 추출에 달려있음이 확인되었다.15) 신뢰도는 객관성과 표준화에 달려있는 것이 아니었으며, 오히려 스테이션과 평가자 샘플링에 영향을 받았다. 

The concept of the OSCE arose to combat the subjectivity of the then-existing clinical assessment procedures. The solution was sought in objectivity and in standardisation, hence the ‘O’ and ‘S’ in the acronym. However, as research accumulated, the OSCE turned out to be as (un)reliable as any method, all depending on the sampling within the OSCE.15 Apparently, reliability depended less on objectivity and standardisation than on sampling of stations and assessors. 


또 하나의 퍼즐은 글로벌 등급 척도와 체크리스트 등급 사이의 강한 상관 관계이다. 16,17 분명히 글로벌 평가에서 평가자간 신뢰도가 약간 감소하지만, 스테이션 간 신뢰도는 증가하여 이러한 손해를 보상한다. 더 분석적인 체크리스트 점수와 비교할 때 글로벌 평가는 수행능력의 특정 요소만을 집중하게 만들기도 하지만, 오히려 이것이 여러 스테이션에 걸쳐 더 일반화가능하였다. 또한 글로벌 평가 척도가 보다 타당한 것으로 판명되었다. 즉, 글로벌 평가에서 전문성 수준을 더 잘 구분할 수 있었으며, 이는 전문가의 판단이 '잡음'만 측정하는 대신 의미있는 '신호'를 잡아낼 수 있음을 보여준다.

Further research around the OSCE revealed yet another piece of the puzzle: a strong correlation between global rating scales and checklist ratings.16,17 Admittedly, global ratings were associated with a slight decrease in inter-rater reliability, but this was offset by a larger gain in inter- station reliability. Apparently, compared with the more analytical checklist scores, global, holistic judgements tended to pick up on elements in candidates’ performance, which were more generalisable across stations. In addition, global rating scales proved to be more valid: they were better able to discriminate between levels of expertise.18,19 This was a clear and intriguing first indication that human expert judgement could add (perhaps even incrementally) meaningful ‘signal’ to measurements instead of only ‘noise’.


객관성이 신뢰성과 동의어가 아니라는 개념은 광범위한 실제적 결과를 가져옵니다. 가장 중요한 것은 인간(전문가)의 판단에 대한 의존을 정당화해준다.

The notion that objectivity is not synonymous with reliability has far-reaching practical conse- quences. Most importantly, it justifies reliance on (expert) human judgement.


우리의 샘플링이 적절하다면, 우리는 우리의 평가 레퍼토리에서 주관적이고 전체론적인 판단을 금지 할 이유가 없다. 우리의 견해로 이것은 OSCE가 도입되었을 때 포기한 임상 환경에서의 평가의 재도입을 정당화한다. 다만 차이는, 이제는 이러한 움직임이 평가 이론에 의해 과학적으로 뒷받침된다는 점이다.

It is reassuring to know that, provided our sampling is adequate, we have no reason to ban subjective and holistic judgements from our assessment repertoire. In our view, this justifies the return of assessment to the clinical environ- ment, which it had abandoned when the OSCE was introduced. Only this time, the move is scientifically underpinned by assessment theory.





무엇이 측정되느냐는 응답 형식보다는 자극 형식에 의해 결정됩니다

What is being measured is determined more by the format of the stimulus than by the format of the response



모든 평가 방법은 자극 형식 응답 형식으로 이루어져있다. 자극은 응시자에게 제공되는 작업이며 응답은 어떻게 응답이 캡처되는지 결정합니다. 

    • 자극 형식은 사실을 이끌어내는 서면 과제, 진단 선택을 촉구하는 서면 환자 시나리오 일 수 있습니다. 

    • 응답은 짧은 객관식 질문 (MCQ) 또는 긴 메뉴 응답, 글쓰기, 에세이, 구두 상황, 체크리스트에보고 된 직접 관찰 등으로 파악할 수 있습니다. 

Any assessment method is characterised by its stimulus and response formats.20 The stimulus is the task presented to the candidate, and the response determines how the answer is captured. 

    • A stimulus format may be a written task eliciting a fact, a written patient scenario prompting a diag- nostic choice . 

    • Responses can be captured by short multiple-choice questions (MCQ) orlong menu answers, a write-in, an essay, an oral situation, direct observation reported in a checklist,etc. 


하나의 평가방법이 다양한 응답 형식을 사용할 수 있지만, 평가 방법은 대개 응답 형식 (즉, MCQ, 에세이, 구강 등)을 기준으로 구분된다.

Although different response formats can be used with one method, assessment methods are typically characterised by their response formats (i.e., MCQs, essays, orals, and so on). 


경험적 연구에서 놀랍게도, 무엇이 측정되는가, 즉 타당도는 응답 형식에 의해 크게 결정되지는 않는다는 것이 밝혀졌습니다 .20 사례의 특수성과 마찬가지로,이 발견은 처음에는 반 직관적인 것처럼 보였습니다. 실제로 테스트 개발자들 사이에서는 에세이는 이해를 평가하고, 객관식 질문은 지식을 평가한다고 널리 받아들여져 왔다. 무엇을 측정하는지를 결정하는 것이 응답 형식이 아니라 자극 형식임을 부정 할 수는 없습니다. 예를 들어, 인지심리학에 대한 연구는 케이스 형태로 주어진 자극에서 유발된 사고 과정은 사실적 지식으로부터 유발된 사고 과정과 다르다는 것을 보여 주었다 .23,24 또한, 지필고사 형식의 평가가이 OSCE 성과를 상당 부분 예측한다는 증거가있다 .25

What empirical research revealed, surprisingly, was that validity – what is being measured – was not so much determined by the response format as by the stimulus format.20 Like case specificity, this finding seemed highly counterintuitive at first sight. In fact, among test developers, it remains a widely accepted notion that essays tap into understanding and multiple-choice questions into factual knowledge. Although there are certain trade-offs (as we pointed out in relation to checklists and rating scales), there is no denying that it is the stimulus format and not the response format that dictates what is being measured. Studies in cognitive psychology, for example, have shown that the thought processes elicited by the case format differ from those triggered by a factual recall stim- ulus.23,24 Moreover, there is evidence that written assessment formats predict OSCE performance to a large extent.25


타당성을 결정할 때 자극 형식이 무엇보다 중요하다는 것은 실제적인 함의를 가지고 있습니다. 적절한 응답 형식보다 적절한 자극 형식을 고안해야합니다. 자극 형식에는 authenticity가 필수적이며, 이를 위해서는 적절한 수준의 복잡성complexity가 필요하다. 짧은 시나리오는 비교적 쉽게 개발할 수 있을 뿐만 아니라 매우 효율적이었습니다 (넓은 샘플링에 적합). 미국과 캐나다의 인증 시험은 짧은 시나리오에 기반한 자극형식을 활용함으로써 'Knows'측정에서 'Knows how'측정으로 완전히 바뀌 었습니다. 26,27 적절한 authenticity를 갖춘 자극형식은 OSCE에도 필요하다. 고전적인 OSCE는 단편화된 임상 기술을 평가하는 짧은 스테이션으로 구성됩니다 (예 : 스테이션 1 : 복부 검사, 스테이션 2 : 의사소통). 비록 기술을 분절화하여 평가하는 것이 훈련 초기 단계에서는 타당할지 몰라도(이조차도 의문은 있지만), 상위 훈련 단계에서는 기술을 통합적으로 평가하는 것이 실제 임상상황과 더 근접한 자극 형식이다 .

The insight that the stimulus format is paramount in determining validity has first of all a practical implication: we should worry much more about designing appropriate stimulus formats than about appropriate response formats. An additional, related, insight concerns the stimulus format: authenticity is essential, provided the stimulus is pitched at the appropriate level of complexity. Thus, short scenarios turned out to be not only relatively easy to develop, but they were quite efficient as well (good for wide sampling). It is no coincidence that written certifying examinations in the US and Canada have completely moved from measuring ‘Knows’ to measuring ‘Knows how’, using short scenario-based stimulus formats.26,27 Pitching formats at the appropriate level of authenticity is relevant for OSCEs too. The classic OSCE consists of short stations assessing clinical skills in fragmentation (e.g., station 1: abdominal examination, station 2: communi- cation). Although fragmented skills assessment may be defensible at early stages of training (although one might question that too), at more advanced stages of training, integrated skills assessment is obviously a more appropriate stimulus format, since it provides a closer approximation of the real clinical encounter.


자극 형식의 중요성에 대한 두 번째 의미는보다 이론적이다.

A second implication of the significance of the stimulus format is more theoretical,


평가를 통해 정보를 수집 할 때 우리는 의미있는 실체meaningful entity를 사용해야하며, 이는 주로 자극형식의 내용에 따라 결정된다. 이것은 single method-to-trait match로부터의 이탈을 의미합니다

When we aggregate information across assessments, we should use meaningful entities, probably largely determined by or related to the content of the stimulus format. This signifies a departure from the single-method-to-trait match


이는 특성 접근법과 일치하지만 많은 평가 방법의 특징입니다. 하나의 방법으로 집합하는 것이 쉽습니다.

which is in line with the trait approach and still characteristic of many assessment practices: it is easy to aggregate within one method.


예를 들어, 병력청취 스테이션의 점수를 인공 호흡 스테이션 점수와 합산하는 것이 이치에 맞습니까? 분명히, 두 스테이션은 매우 다른 기술을 측정합니다. 방법의 유사성이 점수 합산의 합리성을 보장합니까? 우리는 정당성이 없다고 봅니다. 유사한 의미의 정보 출처에 대한 정보들만이 서로 합산되어야 함을 의미합니다.

For example, does it make sense to add the score on a history-taking station to the score on the next station on resuscitation? Clearly, these stations measure very different skills. Why does similarity of method warrant aggregation? We see no legitimacy. Nonetheless, inour view, the prominence of the stimulus implies that we should aggregate information across sources of information that are meaningfully similar and make sense.



타당성은 '내장'될 수 있습니다.

Validity can be ‘built-in’


평가는 개발하기 쉽지 않고, 평가에 투입되는 시간과 에너지만큼만 좋다는 것입니다. 우수한 평가는 테스트 개발과 테스트 관리 둘 다에 대한 품질을 보증해야 한다. 

    • 개발 단계의 시험에 대한 품질 평가는 필수적입니다. 피어 리뷰는 평가의 품질을 향상시키기위한 필수 요소입니다 .29 불행히도, 의대에서 시험자료가 시험관리 전후에 잘 검토되지 않는다. 당연히 학교 내의 테스트 자료의 질이 좋지 않은 경우가 종종 있습니다 .30 

    • 테스트 관리의 경우에도 마찬가지입니다. 예를 들어, OSCE에 대해 SP 및 평가자를 훈련시키는 것은 중요합니다. 왜냐하면 측정에서 노이즈를 방지하는 측면에서 차이가 있기 때문입니다.

The general notion here is that assessment is not easy to develop and is only as good as the time and energy put into it. Good assessment crucially depends on quality assurance measures around both test development and test administration. 

    • Quality appraisal of tests during the developmental stage is imperative. Peer review is an essential ingredient of efforts to improve the quality of test materials significantly.29 Unfortunately, it is not uncommon for test materials in medical schools to go unreviewed both before and after test administration. Not surprisingly, the quality of test materials within schools is often poor.30 

    • The same holds for test administration. For example, it is important to train SPs and assessors for an OSCE, because it makes a difference in terms of preventing noise in the measurement.


교육 성과 테스트에 관한 초기 이론가 중 한 명인 에벨 (Ebel)은 타당성이 평가 방법의 '내장'될 수 있다고 주장했다. 밀러 피라미드의 아래 세 층에서는 모든 평가가 통제되고 최적화 될 수 있다. 평가자료를 검토하고, 이해 관계자를 준비하고, 관리 절차를 표준화하고, 심리 검사 절차를 마련하는 등의 조치를 취할 수 있다. 이러한 과정을 얼마나 잘 했느냐가 궁극적으로 평가에 의해 뒷받침되는 추론의 타당성을 결정한다.

Ebel, one of the early theorists on educational achievement testing, argued that validity can be a ‘built-in’ feature of an assessment method. We take the view that all assessment at the three bottom layers of Miller’s pyramid can be controlled and optimised: materials can be scrutinised, stakeholders prepared, administration procedures standardised, psychometric procedures put in place, etc. The extent to which this is actually done will ultimately determine the validity of the inferences supported by the assess-ment. 


이것의 실용적인 의미는, 리소스가 허용하는 한 테스트 구축 및 관리 프로세스에 많은 시간과 노력을 투자해야 한다는 것입니다. 또 다른 의미는 자원 공유에 대해 고려해야한다는 것입니다. 훌륭한 평가 자료는 비용이 많이 들기 때문에 학교와 교육 기관에서 공유하지 말아야 할 이유는 무엇입니까?

The logical practical implication is to invest as much time and effort in test construction and administration processes as resources will allow. Another implication is that we should consider about sharing resources. Good assessment material is costly, so why not share it across schools and insti- tutions?


평가는 학습을 유도한다

Assessment drives learning


"평가는 학습을 유도한다"는 말은 이제 거의 진부 해졌습니다. 좋든 나쁘든 평가가 학습에 영향을 미친다는 것을 "결과적 타당성"이라고도 부른다. [33] 그것은 내재적 동기 부여를 부정한다고 주장하는 사람들에 의해 비판 받았다. 의심 할 여지없이, 학습자는 스스로 동기를 부여하지만, 영향력지수가 연구자들의 출판행위를 유도하듯, 학습자도 성공의 기회를 극대화하려고 노력할 것입니다.

By now, it has almost become a cliché in assessment that assessment drives learning. The idea that assessment affects learning, for better or for worse, is also termed ‘consequential validity’.33 It has been criticised by some who argue that it negates intrinsic motivation.34 Without any doubt, learners are also intrinsically motivated but at the same time, learners will try to optimise their chances of success, much as researchers allow impact factors to drive their publication behaviour.


이러한 전략에 참여한 학습자를 비난 할 수는 없습니다. 그럼에도 불구하고이 관계는 제대로 이해되지 않고 있습니다.

one cannot blame learners for engaging in these strategies. Nevertheless, the relationship remains poorly understood (what happens, to whom and why?)


이것의 즉각적인 함의는 평가를 모니터하고 학습자에게 미치는 영향을 평가해야한다는 것입니다. 평가는 종종 의도한 것과 반대 효과를 얻는 것으로 알려져 있습니다. 예를 들어, 우리 학교에 OSCE를 도입했을 때, 학생들은 즉시 체크리스트를 암기하기 시작했고, OSCE에서의 퍼포먼스도 보통 수준이었다.35 이것은 우리가 품질 관리에 대해 강조한 점을 강화하고 테스트 관리를 넘어서서 확장합니다.

The immediate implication is that we should monitor assessment and evaluate its effect on learners. Assessment has been known to achieve the opposite effect to that intended. For example, when we introduced OSCEs within our school, students immediately started memorising checklists, and their performance in the OSCE was trivialised.35 This reinforces the point we made about quality control, and extends it beyond test administration.



완벽한 단 하나의 방법은 없다.

No single method can do it all


이러한 현실화는 '평가프로그램 (Assessment of Assessment)'를 옹호하는 데 영감을주었습니다 .2,36 각 단일 평가는 일종의 생검biopsy이며, 일련의 생검이 보다 완전하고 정확한 그림을 보여줄 것이다.

This realisation has inspiredus to advocate ‘Programmes of Assessment’.2,36 Each single assessment is a biopsy, and a series of biopsies will provide a more complete, more accurate picture.


평가 프로그램은 커리큘럼에 비유될 수 있다. 커리큘럼은 계획, 준비, 구현, 조정, 평가 및 개선 단계를 밟는다. 평가 프로그램에도 동일한 프로세스가 있어야 한다. 그러한 프로그램은 학생들이 한 지점에서 반성하고, 다른 장소에서 글을 쓰거나, 특정 상황을 발표하거나, 다른 배치 된 지점에서의 행동 수행을 시연하는 등의 자극을주기 위해 계획되고 의도적으로 준비되어야합니다. 

We see an analogy here with a curriculum and how it is governed. A modern curriculum is planned, prepared, implemented, co-ordinated, evaluated and improved. We believe the same processes should be in place for an assessment programme. 

Such a programme needs to be planned and purposefully arranged to stimulate students 

    • to reflect at one point, 

    • to write at another, 

    • to present on certain occasions, 

    • to demonstrate behavioural performance at other arranged points, etc. 


평가 프로그램에서 모든 방법의 효용성은 합목적성에 달려있다. 주의 깊은 유틸리티 타협에 찬성하여, 예를 들어, 학습에 유익한 효과를 사용하기에 덜 신뢰할만한 평가 방법을 포함시킬 수 있다고 주장했다.

In a programme of assessment, any method can have utility, depending on its fitness for purpose. In our earlier reviews, we argued in favour of mindful utility compromises, allowing, for example, inclusion of a less reliable assessment method to make use of its beneficial effect on learning.1


지금까지 논의한 평가에 대한 교훈과 통찰력으로 무장 한 우리는 이제 Miller 's 피라미드의 최첨단을 다룰 준비가되었습니다.

Armed with the lessons and insights on assessment, which we have discussed so far, we are now ready to tackle the top end of Miller’s pyramid.




'Does' 수준의 평가

Assessing ‘Does’


'Does'수준의 평가 방법의 특징은 지식을 가진 사람들의 정보에 의존하여 성과를 판단하는 방식이다. 본질적으로 자연 환경에서의 모든 평가는 지식이있는 다른 사람knowledgeable others 또는 '전문가'판단에 의존합니다. 때로는 간접적으로 의존할 때도 있고, 예컨대 평가가 주로 인공물 (예 : 처방전 기록, 차트 검토, 절차 완료)에 의존 할 때이다.

Any assessment method at the ‘does’ level is characterised one way or another by reliance on information from knowledgeable people to judge performance. Essentially, all assessment in natural settings relies on knowledgeable others or on ‘expert’ judgements. Sometimes reliance is indirect, as when assessment primarily relies on artefacts (e.g., prescription records, chart review, procedures done),


'전문가'라는 용어는 동료, 상사, 동료, 교사, 상사 및 평가자의 업무 또는 교육 성과에 대해 잘 아는 사람을 포함하도록 광범위하게 해석되어야합니다. 평가는 이러한 판단을 정량적 또는 정성적 형태로 수집하는 것으로 구성됩니다. OSCE와는 달리, 본질적으로 Does 평가의 자극 형식은 표준화되지 않고 덜 구조화된 authentic context입니다. 응답 형식은 일반적으로 다소 일반적이며, 특정 평가 맥락에 맞추어 tailored되지 않다.

The term ‘expert’ should be interpreted broadly to include peers, superiors, co-workers, teachers, supervisors, and anyone knowledgeable about the work or educational performance of the assessee. The assessment consists of gathering these judgements in some quantitative or qualitative form. Unlike the OSCE, however, the stimulus format is the authentic context, which is essentially unstandardised and relatively unstructured. The response format is usually more or less generic and is not tailored to a specific assessment context.


미국 대학원 의학 교육 협의회 (Canadian Acceleration Council of Graduate Medical Education)와 캐나다의 'CanMEDS (CanMEDS)'역량에서 잘 알려진 일반적인 역량은 공통적으로 의료 영역에만 국한되지 않고 다른 전문 영역과 동등한 역량에 중점을두고 있습니다. 한 예로 CanMEDS Competency 'Collaborator'또는 'Communicator'가 있습니다. 이러한 역량은 어느 정도 generic하지만, 평가를 할 때는 다른 기술이나 역량과 마찬가지로 맥락-특이적이 된다. 이러한 프레임 워크가보다 일반적인 역량을 집중적으로 강조해야한다는 것은 흥미 롭습니다. 일반적으로 임상에서 문제상황이 발생하면, 이러한 역량이 시험대에 놓인다. 연구에 따르면 노동 시장에서의 성공은 특정 영역의 스킬보다는 일반generic 스킬에 의해 더욱 강력하게 결정됩니다.

the well-known general competencies from the US Accreditation Council of Graduate Medical Education37and the Canadian ‘CanMEDS’ competencies.38 have in common is their emphasis on competencies that are not unique to the medical domain but have equal relevance to other professional domains. An example is the CanMEDS competency ‘Collaborator’ or ‘Communicator’, which has wide applicability. Although these competencies are generic to some extent, we immediately acknowledge that, for assessment purposes, they are just as context-specificas any other skill or competency. It is interesting that these frameworks should heavily emphasise more generic competencies, and they probably do so for all the right reasons. Typically, when things turn bad in clinicians’ performance, it is these competencies that are at stake. Research shows that success in the labour market is more strongly determined by generic skills than by specific domain-specific skills.39


따라서 일반적인 기술을 평가하는 것이 필수적입니다. 그러나 불행히도 이러한 능력은 정의하기가 어렵습니다. 예를 들어 professionalism의 정의는 무척 다양하.3) 상세한 정의와 조작은 체크리스트에 통합 될 수 있지만 사소한 부분은 커진다.

Therefore, it is imperative that generic skills are assessed.Unfortunately, these competencies are as difficult to define as their assessment is indispensable. An illustration in point is professionalism, a competency that has given rise to a plethora of definitions.43 Detailed definitions and operationalisations can be incorporated in a checklist, but the spectre of trivialisation looms large.44 


영역-비특이적 역량을 평가하기 위해서는, 어떤 형태로든 전문가 판단을 활용한 피라미드 상단의 평가에 의존 할 수밖에 없다. 'does'수준에서 효과적인 평가의 핵심은 전문가 판단이다.

We would argue that, to evaluate domain-independent competencies, we have no choice but to rely on assessment at the top of the pyramid, using some form of expert judgement. It follows that expert judgement is the key to effective assessment at the ‘does’ level.


(대학원) 교수 역할을 담당하는 임상 전문가들은 전통적으로 임상 책임을지고 직접 감독없이 임상 작업을 안전하게 수행 할 수있는 능력으로 인해 연수생의 전문성을 측정합니다. '(does)'수준의 포괄적 인 평가 프로그램은 statements of awarded responsibility (STAR)를 달성해야한다.

Clinical professionals in a (postgraduate) teaching role traditionally gauge the professional maturity of trainees by their ability to bear clinical responsibility and to safely perform clinical tasks without direct supervision. It has been advocated that a summative assessment programme at the ‘does’ level should result in statements of awarded responsibility (STARs).45


'Does'수준의 모든 현대적 평가 방법은 교육적 또는 임상적 맥락과 평가자에 대한 빈번한 표본 추출을 동반한다. 내용특이성을 처리하기 위해서는, 일정한 범위의 컨텍스트에 걸쳐 샘플링하는 것이 항상 중요하다. 동시에 전문가 판단의 주관성 역시 전문가 / 평가자를 통한 추가 표본 추출에 의해 균형을 이루어야 한다. 이론적으로는 합산된 정보가 개별 평가의 주관성을 극복하기에 충분해야합니다.

All modern methods of assessment at the ‘does’ level allow for or apply frequent sampling across educational or clinical contexts and across assessors. The need to deal with content specificity means that sampling across a range of contexts remains invariantly important. At the same time, the subjectivity of expert judgements needs to be counterbalanced by additional sampling across experts/ assessors. The aggregate information must theoretically suffice to overcome the subjectivity of indi- vidual assessments.




직접 수행능력 측정

Direct performance measures


직접수행능력측정에서 기간의 길이에 따라 평가가 이루어지는 두 가지 평가 방법이 있다. 

    • 'Individual Encounter'방법에서 성과 평가는 환자의 만남 (부분)과 같은 단일 구체적인 상황에 국한됩니다. 여기에는 Mini-Clinical Evaluation Exercise (Mini-CEX48), Practical Skills의 직접 관찰 (DOPS49), Professionalism Mini-evaluation (P-Mex50) 및 임상 만남의 비디오 관찰이 포함됩니다 .51 구체적인, 시간이 정해진, 짧은 (따라서 '미니'별칭), authentic encounter를 통해서, 평가자는 여러 역량을 반영하는 일반 등급 형식에 따라 평가한다.

      개별 연수생의 경우,이 평가 절차는 여러 번의 만남과 평가자에 걸쳐 반복됩니다.

Within direct performance measures, we make another distinction between two classes of assessment methods, characterised by the length of the period over which the assessment takes place. In ‘Individual Encounter’ methods, performance assessment is confined to a single concrete situation, such as one (part of a) patient encounter. Instruments that are found here include the Mini-Clinical Evaluation Exercise (Mini-CEX48), Direct Observation of Practical Skills (DOPS49), the Professionalism Mini-evaluation (P-Mex50) and video observation of clinical encounters.51 In a concrete, time-bound, usually short (hence the ‘mini’ epithet), authentic encounter, performance is appraised by an assessor using a generic rating form often reflecting multiple competencies,


For individual trainees, this assessment procedure is repeated across a number of encounters and assessors.


    • 두 번째 종류의 방법은 장기간의 방법longer-term methods으로, 성능은 몇 주에서 몇 달 또는 심지어 수 년의 장기간에 걸쳐 평가됩니다. 개별적인 만남을 판단하는 대신 평가자는 오랜 시간 동안 학습자의 업무에 노출된다. 이 예로는 동료 평가 52와 다중 소스 피드백이 있습니다. Multisource 또는 360, feedback (MSF)은 피어 피드백의 연장입니다.

      MSF의 구체적인 절차는 다를 수 있습니다. 경우에 따라서는 학습자가 평가자를 선택합니다. 어떤 경우에는 학습자가는 선택권이 없습니다. 때로 평가자는 익명으로 유지되며 때로는 그들의 신분이 학습자에게 공개됩니다.

The second class of methods we propose are longer-term methods, in which performance is assessed over a longer period of time, ranging from several weeks to months or even years. Instead of judging individual encounters, assessors here rely on their exposure to the learner’s work for an extended period of time. Examples of these methods include peer assessment52 and multisource feedback.53 Multisource,   or 360 , feedback (MSF) is an extension of peer feedback.


Concrete procedures around MSF may vary. In some implementations, the learner selects the assessors; in others, the learner has no say in this. Sometimes the assessors remain anonymous and sometimes their identity is disclosed to the learner.



다른 모든 성과 평가 방법과 달리 수련중평가in-training evaluation (ITE) 는 단일 평가자를 기반으로합니다. 그러나 이것이 이 평가법의 유용성을 낮추는 것이 아니며, 단지 그에 합당하게 취급되어야 함을 의미합니다. ITE는 당연히 더 큰 평가 프로그램의 일부가 될 수 있습니다 (어떤 방법도 프로그램 내의 기능에 따라 유용성을 가질 수 있다). 충분한 표본 추출이 이루어지면 이러한 글로벌 성과 평가를 신뢰하지 못할 이유가 없다.

Unlike all other performance-appraisal methods, in-training evaluation is based on a single assessor. This does not mean that it is less useful, it only means that it should be treated as such. Naturally, it can be part of a larger assessment programme (remember any method can have utility depending on its function within a programme). It should also be noted that, with sufficient sampling across assessors, there is no reason why these global performance evaluations cannot be reliable.54






점수 합산법

Aggregation methods


두 번째는 점수 합산법이며, 이 경우 장기간 또는 지속적으로 성능을 샘플링합니다. 로그북과 포트폴리오는 많이 사용되는 두 가지 도구입니다. 포트폴리오는 집계 도구로서 특히 유명 해졌다. 'OSCE'와 마찬가지로 포트폴리오라는 용어는 많은 표현, 사용 목적 및이를 둘러싼 절차를 포괄하는 포괄적인 용어입니다. 반 타트와 스크 (Van Tartwijk)와 드라이서 센 (Driessen)은 기능에 따라 포트폴리오를 분류한다 : 모니터링계획, 코칭성찰, 평가


실제로 로그북은 모니터링과 계획에 초점을 맞춘 특별한 종류의 포트폴리오로 분류 할 수있다.

The second class of methods comprises aggregation methods, sampling performance across a longer period of time or even continuously. Two much-used instruments are the logbook and the portfolio. Portfolios have become particularly popular as an aggregation instrument. Just like ‘OSCE’, the term portfolio is an umbrella term that covers many manifestations, purposes of use and proce- dures surrounding it. Van Tartwijk and Driessen classify portfolios in terms of the functions they can serve: monitoring and planning, coaching and reflection, and assessment.55 In fact, one might classify a logbook as a particular kind of portfolio with an exclusive focus on monitoring and planning.


포트폴리오는 여러 기능이 결합되었을 때 가장 잘 작동한다. 즉, 포트폴리오가 계획, 코칭, 그리고 평가에 사용될 때를 말한다. 포트폴리오는 또한 학습지도, 코칭 및 종단 역량 개발 모니터링에있어 중심 기능을 수행하는 경우에 더 효과적work best인 경향이 있습니다.

it is important to be aware that portfolios tend to work best if functions are combined,55 in other words, when the portfolio is used for planning, coaching ‘and’ assessment. Portfolios also tend to work best if they perform a very central function (rather than peripheral) in guiding learning, in coaching and in monitoring longitudinal competency development.





신뢰할 수있는 추론을 위해서는 어느 정도 표본이 필요합니다.

A feasible sample is required to achieve reliable inferences


연구 간 차이는 있으나, 현실적인 숫자의 표본very feasible sample만을 가지고 신뢰할 수 있는 추론을 이끌어낼 수 있다. 이 숫자는 평가도구의 유형과 측정 대상과 관계없이 8 ~ 10 사이의 어딘가에 있는 것 같 (환자 등급을 사용할 때를 제외하고 더 많은 것이 필요합니다). 이것은 신뢰성이 표준화 또는 평가 구조화가 아니라 표본 추출의 문제임을 다시 한번 확인시켜준다. 다른 방법과 비교했을 때, 신뢰성은 실제로 표준화 된 평가보다 다소 나은 것으로 나타났습니다 2.

Despite variation between studies, we conclude that reliable inferences can be made with very feasible samples. The magical number seems to be somewhere between 8 and 10, irrespective of the type of instrument and of what is being measured (except when patient ratings are used; then many more are needed). This is a very clear confirmation that reliability is a matter of sampling, not of standardisation or structuring of assessment. Compared with other methods, the reliabilities actually appear to be somewhat better than those of standardised assessments.2



편견은 전문가 판단의 본질적인 특성입니다.

Bias is an inherent characteristic of expert judgement


신뢰성이 일정 수준이라고 해서, 글로벌 평가 판단에서 편견이 배제되는 것은 아니다. 사실, 글로벌 평가 판단은 보다 구조화되고 분석적인 방법보다 훨씬 편향적인 경향이있다 .68 직접 관찰 방법을 사용했을 때 점수의 인플레이션이 지적되었다. 다중 소스 피드백에서 평가자 선택이나 평가자의 배경이 편향의 원인이 될 수 있다. 71 편향의 또 다른 원인은 평가 맥락이다. 평가자에 따라서는 학습자와의 관계를 손상시키지 않기 위해서, 그리고 부정적인 평가로 인한 귀찮은 작업(및 문제)를 피하기 위해서 점수표에서 (긍정적인) 부분 만 사용하는 경향이 있.

Adequate reliability does not preclude bias in global judgements. Indeed, global judgements are prone to bias, probably much more so than more structured, analytical methods.68 With direct observation methods, inflation of scores has been noted.69,70 In multisource feedback, selection of assessors or the background of assessors can introduce worrisome biases.71 Another potentially important source of bias is the assessment context. Assessors’ propensity to use only (the positive) part of the scale is heavily influenced by their desire not to compromise the relationship with the learner or to avoid more work (and trouble) consequent to negative evaluations.


평가자의 임무는 학습자가 훌륭한 의사인지 판단하는 것이 아니라, 특정 사건에서 어떤 일이 발생했는지 판단하고, 학습자가 성과를 향상시키는 데 도움이되는 방식으로 피드백을 주고, 차후에 그 자료를 가지고 의미있는 검토를 할 수 있도록 적절한 방법으로 이를 문서화하는 것이다. 이것은 정보가 어떤 식 으로든 어딘가에, 나중에 프로세스에서 합리적으로 사용될 수 없다는 것을 의미하지는 않습니다.

The assessor’s task is not to judge if the learner is a good doctor, but to judge what happens in a specific encounter, to feed this back in a way that helps the learner to improve performance and, finally, to document this in an appropriate way for later meaningful review by the learner and by others. This is not to imply that the information cannot be used summatively somewhere somehow, later in the process,


고부담 결정은 개별 평가방법 또는 평가 전반에 걸친 여러 원천을 기반으로 해야하며, 모든 풍부한 정보를 종합했을 때 견고robust해진다. 가능하다면 잠재적으로 타협 할 수있는 복수의 역할에 대한 평가자의 해소를 장려 할 것입니다.

A high-stakes decision should be based on multiple sources of assessment within or across methods, and robustness lies in the aggregation of all that rich information. Wherever possible, we would encourage relieving the assessor of potentially compromising, multiple roles. 


또 다른 중요한 편향은 자기평가에서 기인합니다. 연구 결과는 명백합니다. 우리는 자기평가를 매우 못하며73-77 자신을 과대 평가하는 것 만큼이나 과소 평가하는 경향이 있습니다 .78 샘플링의 관점에서 볼 때 이것은 놀라운 것이 아닙니다. 자체 평가는 본질적으로 단일 평가이다. 당연히, 자기평가의 타당성은 다른 단일 평가와 비교할 때 그리 좋지 않을 수 있습니다. 그러나 자기평가에서 표본 크기는 증가 될 수 없습니다. 따라서, 자기평가는 결코 독자적으로 의미를 지닐 수stand 없고, 항상 다른 정보와 triangulation 되어야한다. CPD에서도 자기평가는 항상 다른 평가, 즉 '감독 된 자기 평가directed self-assessment'라고 불리는 접근법에 의해 보완되어야한다고 제안한다.

Another important bias stems from self-assessment. The literature is crystal clear: we are very poor self-assessors,73–77 equally likely to underestimate as to overestimate ourselves.78 From a sampling perspective, this is not surprising. Self-assessment is inherently confined to a single assessment. In fact, the validity of a single self-assessment may not be so bad when it is compared with other single assessments. Nevertheless, sample size in self-assessment cannot be increased. The implication is that self-assessment can never stand on its own and should always be triangulated with other information. even in continuous professional development, it is sug- gested that self-assessment should always be complemented by other assessments, an approach sometimes referred to as ‘directed self-assessment’.79



타당성은 어떤 도구를 사용하였느냐보다 누가 그 도구를 사용하느냐에 달려있다.

Validity resides more in the users of the instruments than in the instruments that are used


Miller 's 피라미드의 하위 층위에서 우리는 가능한 한 평가도구를 '날카롭게'할 수 있지만, 'does'수준에서는 평가자가 얼마나 평가를 잘 수행하였느냐가 평가의 질을 결정한다.

In the lower layers of Miller’s pyramid, We can ‘sharpen’ the instrument as much as we can, but at the ‘does’ level, assessment can only be as good as the job done by the assessors using the instrument.


표준화, 구조화 및 객관화를 통해 시끄러운 현실 세계를보다 효과적으로 제어 할 수 있습니다. 그러나, 이는 평가를 해칠뿐 아니라 보잘것 없는 것으로 만들어버린다. 이것을 개선하기 위해서는 평가도구보다 평가자를 '날카롭게'해야합니다. 따라서 구현의 품질은 성공의 열쇠가 될 것입니다 .80 피드백을 받고 제공하려면 훈련을 받고, 연마하고, 최신 상태로 유지해야하는 기술이 필요합니다. 평가에 필요한 기술은 의사와 환자의 만남을 위한 기술과 매우 유사하다. 그럼에도 불구하고, 의사 소통 기술과 마찬가지로, 모든 교사가 이를 갈고닦는 것make up은 아니다. 그렇지만, 이러한 기술은 향상 될 수 있고 육성되어야합니다.

Increased control of the noisy real world by standardising, structuring and objectifying is not the answer. On the contrary, it will only harm and trivialise the assessment. To improve we must ‘sharpen’ the people rather than the instruments. Therefore, the quality of the implementation will be the key to success.80 Receiving and giving feedback requires skills that need to be trained, honed and kept up-to-date. we knowthat the skills required are very similar to the skills for the doctor–patient encounter. Nevertheless, like communication skills, they are not part of every teacher’s make-up: they can and must be fostered.



평가의 형성적 및 총괄적 기능은 일반적으로 결합됩니다

Formative and summative functions are typically combined


학습자가 평가에서 학습적 가치를 얻지 못하는 한 평가는 사소한 것이 됩니다. 

    • 목적이 8개의 Mini-CEXs로 좁혀지면, 학습자는 게임을 시작하고 관찰자와 평가자 선정에 관한 자신의 전략적 선택을 할 것입니다 .81 평가자가 게임에 참여하면 적절한 판단없이 정보를 수집하고 루틴으로 돌아갑니다. 

    • 포트폴리오에서 '성찰'의 주요 목적이 평가위원회를 기쁘게하는 것이 되어버리면, 포트폴리오는 학습자에게 모든 중요성을 잃게됩니다. 우리는 일지와 비슷한 일이 일어나는 것을 보았습니다 .82

As soon as the learner sees no learning value in an assessment, it becomes trivial. If the purpose is narrowed to doing eight summative Mini-CEXs, learners will start to play the game and make their own strategic choices regarding moments of observation and selection of assessors.81 If the assessors join in the game, they will provide judgement without adequate information and return to their routines. If the main objective of the reflections in the portfolio is to please the assessment committee, the portfolio will lose all significance to the learner. We have seen similar things happen with logbooks.82


평가가 유용하려면, 학습을 성공적으로 유도하여, 궁극적으로 학습에 없어서는 안 될 것으로 간주되어야 한다. 평가가 효과적이기 위해서는 특정 조건을 충족시켜야합니다. 우리는 피드백이 종종 무시되고 수신자에게 도달하지 못한다는 것을 알고 있습니다. 83 긍정적인 피드백은 부정적인 피드백보다 더 많은 영향을 미칩니다. 84 (부정적인 피드백은 가치가 없음을 의미하지 않습니다.) 개인에 대한 피드백은 피하고, 작업에 대한 피드백을 주어야 하며, 긍정적 학습 환경이 필수적이라는 것을 알고있다 .87 성공적인 피드백은 사회적 상호 작용, 코칭, 멘토링, 멀티 소스 피드백에 관한 포트폴리오 및 중재 토론, 이 원칙은 심지어 '할아버지'수준의 모든 평가까지 확대 될 수 있습니다.

Assessment has utility insofar as it succeeds in driving learning, and ultimately comes to be regarded as indispensable to the learning practice. For assessment to be effective, certain conditions need to be met. We know that feedback is often ignored and fails to reach the intended recipient,83 positive feedback has more impact than negative feedback,84 (not implying that negative feedback has no value) feedback directed at the individual should be avoided and task-oriented feedback is to be preferred.85 We know the rules of feedback86 and we know that a positive learning climate is essential.87 The literature suggests that successful feedback is conditional on social interaction,58 such as coaching, mentoring, discussing portfolios and mediation around multisource feedback,88 and this principle may even extend to all assessment at the ‘does’ level.


질적, 서사적 정보가 중요하다.

Qualitative, narrative information carries a lot of weight


피드백이 평가의 중심이고, 사회적 상호 작용이 효과적인 피드백에 중요하다면, 숫자와 양적 정보만으로는 분명한 한계가 있으며, 학습자는 풍부한 내러티브, 서술적 언어 및 언어 정보를 더 높이 평가할 것이다.

If feedback is central to assessment and if social interaction mediates effective feedback, numerical and quantitative information has obvious limitations, while narrative, descriptive and linguistic information is often much richer and more appreciated by learners.89,81


환자의 만남에서 상담 기술에서 5점 중 2점을 받았다는 것 자체로는, 학습자에 대해 우려를 자아냄에도, 이 단순한 수치 평점은 학습자가 실제로 무엇을했는지, 그리고 개선을 위해 무엇을해야 하는지를 알려주지 못한다. 평가에 대한 풍부함을 더 많이 제공할 수 있는 우수한 도구인 언어가 있습니다. 효과적인 형성 평가는 질적으로 풍부한 정보를 전제로 한다. 평가도구의 개발자는 모든 평가도구에 정성적 정보 (예 : 주관식 코멘트 기입 공간)를 포함시킬  수 기능이 있는지 확인하고, 평가자가 이러한 정보를 정기적으로 제공하고 문서화하도록 자극해야합니다.

It is quite clear that a rating of 2 out of 5 on counselling skills in a patient encounter should raise some concern with the learner, but a mere numerical rating fails to disclose what the learner actually did and what she should do to improve. To provide richness to the assessment to a greater extent, we have an excellent tool: language. We would argue that effective formative assessment is predicated on qualitatively rich information. We should encourage instrument developers to ensure that all their instruments have built-in facilities to elicit qualitative information (e.g., space for narrative comments) and we should stimulate assessors to routinely provide and document such information.



총괄적인 결정은 비 psychometric 질적 연구 절차로 더욱 rigorous해질 수 있습니다.

Summative decisions can be rigorous with non-psychometric qualitative research procedures


심리측정 담론에서 우리는 일반적으로 점수와 성적을 계산하고 평균화하여 수치를 정한다.

Within the conventional psychometric discourse, we typically quantify: we calculate and average scores and grades,


더 이상의 판단 전략이 필요하지 않은, 순전히 정량적인 전략만으로 충분한 상황은 거의 없습니다.

There are few situations in which purely quantitative strategies suffice, requiring no further judgement strategies.


Rigor는 내적 타당도에 대한 기존 개념을 신뢰성, 외부 유효성, 전달 가능성, 의존성에 의한 신뢰성 및 순응성에 의한 객관성으로 대체하는 'trustworthiness'전략에 의존합니다. 각 개념에 대해, 장기간 참여, 삼각 측량, 동료 심사, 구성원 점검, 구조적 일관성, 시간 샘플링, 단계별 복제, 감사 및 두꺼운 설명과 같은 연구 방법을 엄격하게 적용하는 방법 론적 전략이 제안됩니다.

Rigour depends on ‘trustworthiness’ strategies replacing conventional notions of internal validity by credibility, external validity by transferability, reliability by dependability and objectivity by conformability. For each of these notions, methodological strategies are proposed that bring rigour to the research: prolonged engagement, triangulation, peer examina- tion, member checking, structural coherence, time sampling, stepwise replication, audit and thick description.


예를 들면 질적 인 엄격함에 대한 우리의 생각을 더 잘 설명 할 수 있습니다. 평가 실례의 예시는 Driessen et al. (1994)에 의해 제시된다. 작업 기반 환경에서 학습자의 포트폴리오를 판단하기 위해 엄격한 판단을 내리기 위해서는위원회가 포트폴리오를 판단하는 것이 바람직하다 (구조적 일관성 및 동료 심사). 위원회는 학습자와 포트폴리오에 익숙한 멘토 (장기간의 참여)로부터 의견을받습니다. 학습자 - 멘토 관계를 얼마나 보호하기 원하는지에 따라,이 입력은 포트폴리오가 학습자의 진도에 대한 확실한 증거를 제공한다는 멘토 선언과 같이 제한 될 수 있습니다. 위원회는 사전 정의 된 기준을 사용하여 예를 들어 결정 범주 (감사)를 설명하는 루 브릭의 형태로 판단을보다 투명하게 만듭니다. 위원회는 서면 동의 (감사)로 의사 결정을 심의하고 정당화합니다. 결정을 내리기가 어렵다면,위원회는 더 심의하고 더 많은 정당성을 표명하고 추가 위원을 초대하거나 관련 당사자와 협의한다 (삼각 관계). 제출 포트폴리오를 준비 할 때, 학습자는 기준을 알고 있고, 어떤 형태의 사회적 상호 작용 (즉, 동료 또는 멘토와 함께)의 초기 초안에 대한 피드백을 갖게 될 것이므로위원회의 판단은 학습자 (그리고 멘토) (회원 확인)에 대한 놀랄만 한 사실. 학습자와 스승은 모두 자신의 임무를 위해 훈련을 받았습니다. 위원회 위원들은 (재) (주기적으로) 훈련을 받고 벤치 마크 포트폴리오를 사용하여 의사 결정 (장기 계약 및 구성원 점검)을 조정합니다. 위원회 결정은 문서화되고 (감사), 학습자를위한 항소 절차가 마련되어있다 (감사). 절차와 조치가 많을수록 결과 결정은 더욱 신뢰할 수 있습니다.

An example may serve to further explain our ideas about qualitative rigour. An illustration from assessment practice is given by Driessen et al.94 

  • To achieve rigour in the judgement of a learner’s portfolio in a work-based setting, it is wise to have a committee judge the portfolio (structural coherence and peer examination)

  • The committee receives input froma mentor who is familiar with the learner and his or her portfolio (prolonged engagement)

  • Depending on how much one wants to protect the learner–mentor relationship this input may be limited, for example, to a declaration of the mentor that the portfolio provides authentic evidence of the learner’s progress. 

  • The committee uses predefined criteria to make their judgement more transparent, for example, in the form of rubrics describing decision categories (audit).

  • The committee deliberates and justifies its decisions in a written motivation (audit). 

  • If the decision is difficult to make, the committee deliberates more and justifies more and perhaps even invites additional committee members or consults relevant parties (triangulation)

  • In preparing the portfolio for submission, the learner is aware of the criteria and will have had feedback on earlier drafts of the portfolio with some form of social interaction (i.e., with peers or a mentor) so that the committee’s judgement will only rarely come as a complete surprise to the learner (and mentor) (member checking). 

  • Both learner and mentor are trained for their tasks; committee members are (re)trained (periodically) and use benchmark portfolios to calibrate their decision making (prolonged engagement and member checking).

  • Committee decisions are documented (audit), and appeal procedures for learners are in place (audit). 

  • The more procedures and measures, the more trustworthy the resulting decision will be.


평가에서 합격선 설정을 둘러싼 타당도에 대한 토론과 비슷하게, 황금률이 없는 상황에서는, 모든 기준과 그에 따른 결정에는 어느 정도 추상성이 있을 수 밖에 없다. 표준은 얼마나 절차에 충실함했느냐에 따라 신뢰성이 달라질 수 있습니다 .95

To some extent, this resonates with the validity discussion around standard setting procedures in assessment, where, in the absence of a gold standard, arbitrariness is always part of any standard and the resulting decisions. A standard is more or less credible, depending on due diligence of the procedures.95




고찰

Discussion


우리가 제시하고 다른 사람들과 일치하는 논거를 토대로, 우리는 평가 방법 내에서 그리고 평가 프로그램에서 정보의 집합 내에서 필수적인 정보 원천으로서 평가 목적을 위한 전문가 판단의 사용을 앞당긴다. 전문가 판단은 임상 실습에서 우리의 일상 업무이기 때문에 어느 정도까지는 수용되어야 한다. 그럼에도 불구하고 (임상) 전문가 판단이 틀릴 수 있고 비판받을 수 있다는 것을 인식해야합니다. 전문가가 보험 통계 또는 통계 모델보다 가난한 판단을한다는 것을 보여주는 많은 다양한 전문 분야에 대한 풍부한 연구가 있습니다

Based on the arguments we have presented and in line with others,97 we advance the use of expert judgement for assessment purposes as an indispensable source of information both within methods of assessment and in the aggregation of information in a programme of assessment. To some extent, this should be comforting, since expert judgement is our daily business in clinical practice. Nevertheless, we must also realise that (clinical) expert judgement is fallible and open to criticism. There is a wealth of research in many diverse professional areas showing that experts make poorer judgements than actuarial or statistical models


이 연구는 확률 적 및 경험적 정보를 활용해서 판단을 'scaffolding'할 것을 강력히지지합니다. 이것은 임상 적 의사 결정, 지침의 개발과 사용에 공감합니다 .100 당연히 임상 실습에서와 마찬가지로 평가에서는 개별적인 학습자에게 지침을 해석하고 맞춤화해야합니다. 우리는 판단과 의사 결정의 심리, 인식과 의학 전문 지식 개발, 자연 주의적 의사 결정과 같은 다양한 연구 전통으로부터 화해하고 이익을 얻을 필요가있다.

This research strongly advocates the ‘scaffolding’ of judgement with probabilistic and empirical information. This resonates with clinical decision making and the devel- opment and use of guidelines.100 Naturally, in assessment, as in clinical practice, guidelines must be interpreted and tailored to individual learners. We need to reconcile and benefit from various research traditions such as psychology of judgement and decision making,98 cognition and medical expertise development10 and naturalistic decision making.101


우리는 평가 자료에 대해 의미있는 정보 aggregation를 권고했다. 그러나 '충분하다'는 것은 어떻게 알 것인가? 102 질적 연구는 '포화 상태에 이르렀을 때'라고 말합니다. 이는 일정부분 심리측정연구의 신뢰성 또는 일반화 가능성에 상응합니다.

We recommended meaningful aggregation of information across assessment sources . However, when is ‘enough’ enough?102  Qualitative research would say, ‘when saturation is reached’.To some extent, this is the counterpart of reliability or generalisability in psychometric research.


전문가의 판단에 의존할 경우, 개별 평가자의 독특하고 고유판단에 의존합니다. 따라서 여러 심사 위원은 여러 가지 현실감을 가지고 있으며, 일부 또는 전부가 일치하지 않을 수 있습니다. 그렇다면 이것이 도움이 되지 않습니까? 아닙니다. 실제로 개별적인 학습자가 다른 관점에 노출되는 것이 관련성이 높고 유익 할 수 있습니다. 따라서 우리는 총체적 의사 결정을 유도하는 개념으로서 삼각 측량과 정보 포화를 선호합니다. 새로운 정보를 발견 할 확률이 낮 으면 포화 상태가되며 이는 추가 증거 검색의 중단을 정당화합니다.

If we have to rely on expert judgement, we rely on judgements that are idiosyncratically constructed realities unique to individual judges. Multiple judges therefore have multiple constructed realities, which may not or only partly coincide. Does this make them less useful?We think not. It may actually be highly relevant and beneficial to individual learners to be exposed to different perspectives. We therefore prefer triangulation and saturation of information as concepts to guide aggregate decision making. When the probability of finding new information is low, saturation is achieved and this justifies discontinuation of the search for further evidence.


그럼에도 불구하고이 과정을 더 공식화 할 수 있습니까? 이 결정을 내릴 수있는 확률 론적 규칙을 생각해 낼 수 있을까요? 베이 즈의 정리는 적어도 이론적으로는 매력적인 모델로 보인다. 왜냐하면 이전 정보에 비추어 새로운 정보의 가치를 해석하기 때문이다. 그러나 평가 결정에 적용하려는 시도는 적어도 우리 지식에 있어서는 존재하지 않습니다.

Nevertheless, can this process be further formalised? Can we think of certain probabilistic rules to guide this decision making? Bayes’ theorem seems an attractive model, at least in theory, because it interprets the value of new information in the light of prior information. However, attempts to apply it to assessment deci- sions are non-existent, at least to our knowledge.


학습의 효과는 평가 프로그램에 대한 학습자의 인식을 통해 이루어지며, 학습자의 인식과 학습 전략은 변화에 매우 저항적일 수 있다 .109 또한 학습자와 교사의 인식은 사실상 정반대이고 서로 상반 될 수있다. 107 , 전통적 평가 프로그램은 학습에 부정적인 영향을 미친다. 그러면 문제는 어떻게 변하는 것입니까? 피드백 연구에 대한 리뷰에서 grade 그 자체로는 poor한 피드백이며, 학습자에게 거의 영향을 미치지 못한다는 사실을 알게됩니다 .85 심지어 일부 데이터는 grade가 학습을 저해한다고 제안하기도합니다 .10 집중적인 형성적 피드백 시스템을 세심하게 도입하여, 학습행동이 근본적으로 형성평가를 통해 영향을 받도록 해야 한다80

The effect of learning is mediated by the learner’s perceptions of the assessment programme,108 and these perceptions and the resulting learning strategies can be very resistant to change.109 Perceptions of learners and teachers may actually be quite opposite and con- flicting.107 In all, traditional summative programmes of assessment appear to have quite a negative effect on learning. The question then is how to change? From reviews on feedback studies, we learn that grades provide poor feedback and hardly influence learners.85 Some data even suggests that grades impair learning.110 Solutions need to be sought in integral programmatic systems of intensive formative feedback57 with careful implementation strategies to ensure that learning behaviour is fundamentally influenced through the formative assessment.80









 2010 Dec;24(6):703-19. doi: 10.1016/j.bpobgyn.2010.04.001. Epub 2010 May 26.

The assessment of professional competencebuilding blocks for theory development.

Author information

1
Department of Educational Development and Research, Maastricht University, The Netherlands. c.vandervleuten@educ.unimaas.nl

Abstract

This article presents lessons learnt from experiences with assessment of professional competence. Based on Miller's pyramid, a distinction is made between established assessment technology for assessing 'knows', 'knowing how' and 'showing how' and more recent developments in the assessment of (clinical) performance at the 'does' level. Some general lessons are derived from research of and experiences with the established assessment technology. Here, many paradoxes are revealed and empirical outcomes are often counterintuitive. Instruments for assessing the 'does' level are classified and described, and additional general lessons for this area of performance assessment are derived. These lessons can also be read as general principles of assessment (programmes) and may provide theoretical building blocks to underpin appropriate and state-of-the-art assessment practices.

PMID:
 
20510653
 
DOI:
 
10.1016/j.bpobgyn.2010.04.001


프로그램적 평가: 학습의 평가에서 학습을 위한 평가로(Med Teach, 2011)

Programmatic assessment: From assessment of learning to assessment for learning

LAMBERT W. T. SCHUWIRTH & CEES P. M. VAN DER VLEUTEN

Maastricht University, The Netherlands




도입

Introduction


최근 수십 년 동안 교육에서 평가의 역할에 대한 사고의 변화가 발생했습니다. 이러한 변화는 평가 학습에서 학습을 위한 평가로의 이행으로 가장 잘 특징 지어진다 (Martinez & Lipson 1989).

In the recent decades, a change in thinking about the role of assessment in education has occurred. This change is best characterised as a shift from assessment learning to of assessment for learning (Martinez & Lipson 1989).


학습을 위한 평가라는 아이디어는 새로운 것이 아닙니다. Martinez & Lipson (1989)은 1989 년에 이미 그것을 제안했다. 학습 평가의 초기 해석은 발달 단계에 있었고, 단지 분산 된 시험 행정과 더 많은 피드백의 개념을 능가하지는 않았지만, 평가라는 것이 교육에 필수적이고 관련성이 높다는 인식을 보여주었고, 또한 평가가 단순히 학생을 분류하고 순위를 매기는 시험만으로는 충분하지 않다는 인식을 보여주었다.

The idea of assessment for learning is not new; Martinez & Lipson (1989) already proposed it in 1989. Though their early interpretation of assessment for learning is in its developmental phase and does not surpass the notion of more dispersed test administrations and the use of more feedback, it is an early demonstration of a growing awareness that for assessment to be an integral and more relevant aspect of education, tests that merely try to classify and rank order students do not suffice anymore.


한편, 학습 프로그램 평가에 대한 이론적 관점은 상당히 진화했다. '학습의 평가'라는 개념이 20 세기 시절의 교육과 능력에 대한 확고한 뿌리를 가지고 있었다는 점에서, 이러한 진화가 비논리적이지 않다. Shepard (2009)는 교육에 대한 이전의 견해를 개념적으로 공장 생산 프로세스와 동일하게 설명합니다. 이러한 견해의 중심은 학습에 대한 행동 주의적 개념으로, 한 영역에서 유능해진다는 것은 많은 수의 작은 단계 나 모듈을 수행 한 결과이며, 각 모듈은 마지막 지점에서 평가받는다. 모듈을 성공적으로 완료 한 후에 학생은 다음 단계로 진행할 수 있습니다. 논리적으로 평가는 환원 주의적 접근법을 취해야하며, 전체를 구성 요소의 합으로 간주해야합니다.

In the mean time, the theoretical perspective of assessment for learning programmes has evolved considerably. This is not illogical because originally the concept of assessment of learning the had firm roots in 20th century discourse of education and ability. Shepard (2009) describes the previously prevailing views on education as conceptually equivalent to a factory production process. Central in these views is a behaviouristic concept of learning, implying that becoming competent in a domain is the result of following a large number of small steps or modules, each of which has to be assessed at the end. Only after successful completion of a module can the student progress to the next. It follows then logically that assessment has to take a reductionist approach as well, viewing the total only as the sum of its constituent parts.



학습 이론에서 사회적 구성주의가 새롭게 출현하고, 성과로서 역량의 개념이 등장하면서, 우리가 설정하고 사용했던 교육 과정의 지표에 급진적 변화가 요구되었다.  (Boud 1990; Brown 2004; van der Vleuten & Schuwirth 2005, Shute 2008). 이것은 전통적인 접근법에 대항하여 고도로 요구되는 반항 운동이었습니다.

With the emergence of new– social constructivist – theories on learning and the notion of competencies as outcome the indicators of educational process the call for radical changes in the way we set up and use assessment is heard in the literature (Boud 1990; Brown 2004; van der Vleuten & Schuwirth 2005; Shute 2008). This was a highly needed antithetic movement against the traditional approaches.


'학습을 위한 평가'에 대한 문헌은 이미 다양한 그림을 얻기 위해 다양한 도구가 필요할 것이라고 이미 인정했지만 (Ram 1998; Prescott et al., Epstein & Hundert 2002; Davies et al. 2005; Carr 2006), 프로그래밍 방식 평가에 대한 아이디어는 더 나아갑니다. 프로그램적 평가에서 현대의 접근법은 반드시 기존의 것을 대체하지 않고 오히려 보완한다 (Prescott et al., 2002; van der Vleuten & Schuwirth 2005, Dannefer & Henson 2007, Fishleder et al.) 프로그램적 평가의 핵심은 평가 방법의 신중한 선택, 규칙 및 규정의 수립 및 조직 시스템의 설계를 통해 학생들의 능력에 대한 전체적인 그림을 얻을 수 있도록 평가 프로그램을 설정한다는 것입니다.

And although the literature on assessment for learning already acknowledged that a variety of instruments would be needed to obtain a more complete picture (Ram 1998; Prescott et al. 2001; Epstein & Hundert 2002; Davies et al. 2005; Carr 2006), the idea of programmatic assessment goes further. In pro- grammatic assessment, modern approaches do not necessarily replace but rather supplement traditional ones (Prescott et al. 2002; van der Vleuten & Schuwirth 2005; Dannefer & Henson 2007; Fishleder et al. 2007). 


The central key is that the programme of assessment is set up to allow the whole picture of a student’s competence to be obtained by a careful selection of assessment methods, formulation of rules and regulations and design of organisational systems.








우리는 지금 어디에 있는가?

Where are we now?


많은 전통적 시험 프로그램은 의료 능력을 네 가지 별도의 구성으로 세분화했습니다 : 지식, 기술, 문제 해결 기술 및 태도 또는 전문성. 이 관점에서 훌륭한 평가 프로그램은 이러한 각각의 구성 요소에 대한 도구의 조합으로 구성됩니다. 20 세기의 의학 평가 논문은 이전의 방법보다 구인 중 하나를 더 잘 측정한다거나, 복수의 방법을 비교하여 그 중 하나의 우월성을 증명한다고 제안하는 논문이 지배합니다. 그러나 이 견해는 다음의 것들을 가정하고 있다.

Many traditional examination programmes subdivided medical competence into four separate constructs: knowledge, skills, problem-solving skills and attitudes or professionalism. A good assessment programme in this view is composed of a combination of instruments for each of these constructs. The medical assessment literature in the 20th century is dominated either by papers presenting new instruments suggesting they measure one of the constructs better than previous methods or comparing different methods to prove the superiority of one of them. This view, however, has important underlying assumptions which we will discuss here.



각 구인은 안정되고 일반적인 특성이다. (X)

Each construct is treated as a stable and generic trait


여기서 특성은 안정적이고 일반적인 것으로 가정합니다. 예를 들어 지능과 외향성과 비슷합니다. 사람의 지능은 적어도 단기간에 측정을 통해 안정적이라고 가정합니다.

Traits, here, are assumed to be both stable and generic. Much like, for example intelligence and extraversion. The intelli- gence of a person is assumed to be stable – at least in the short run – across measurements.


형질은 또한 일반적인 것으로 가정되며, 지능형 및 내향 형 또는 지능형 및 특이 형이거나 그 반대 일 수 있습니다. 유사하게, 네 가지 구조 사이에는 고유 한 관계가 없다. 지식, 기술, 문제 해결 기술 및 태도.

The traits are also assumed to be generic, one can be intelligent and introverted or intelligent and extraverted and vice versa. Similarly, there is no inherent relationship assumed between the four constructs; knowledge, skills, problem- solving skills and attitudes.


따라서 시험 점수의 재현성이 신뢰성 (또는 우주 점수 표현)을 가장 잘 결정한다는 것은 당연한 것입니다.

From this it follows naturally that reliability (or universe score representation) can best be determined by reproducibil- ity of the test scores.


물론 이것은 결코 사실이 아닙니다. 행렬은 표 3에 표시된 것과 유사합니다.

Of course this is never the case; matrices look more like as shown in Table 3.



개별 항목 또는 테스트 요소는 원칙적으로 의미가 없습니다.(X)

Individual items or elements of a test are in principle meaningless


만약 개별 문항에 대한 퍼포먼스가 다양할 때, 이 변동성이 오류로 간주되는 경우 개별 항목 자체는 의미가없는 것으로 간주 될 수 있습니다. 개별 항목의 유일한 가치는 그들이 총 점수에 기여하는 정도이며, 총 점수는 평가에 의미와 타당성을 줄 수있는 것입니다.

If performance on individual items can vary and this variability is seen as error, it is only logical that individual items in themselves can be treated as meaningless; their only value is the extent to which they contribute to the total score, and the total score is what can give meaning and validity to the assessment.


두 가지 항목이 직관적으로 더 의미가있는 경우, 예를 들어 인공 호흡과 OSCE의 의사 소통 스테이션과 같이 더 문제가됩니다. 대부분의 사람들은 좋은 의사 소통 기술이 열악한 소생술 기술을 보상make up할 수 있는가에 의문을 제기합니다.

It becomes more problematic if the two items are intuitively more meaningful, for example resuscitation and a communi- cation station in an OSCE. Most people would question whether good communication skills can make up for poor resuscitation skills


통계는 정보의 제거를 기반으로합니다. (X)

Statistics are based on elimination of information


학생이 객관식 테스트에 대한 답을 가져옵니다. 답변에서 어떤 정답이 주어 졌을뿐만 아니라 오답이 주어 졌는지를 도출 할 수 있습니다. 그런 다음 해답을 해답 키와 비교하여 1-0 점수로 변환합니다. 이제 부정확 한 답이 무엇인지에 대해 더 이상 알지 못하지만 주어진 질문에만 잘못된 답이 해당됩니다. 그런 다음 항목 점수가 합산됩니다. Nowit은 어느 항목에 대해 정확하고 올바르지 않은 답이 주어졌지만 얼마나 많은 항목에 대해 정확하지 않거나 정답이 주어 졌는지를 가려냅니다. 총 점수는 pass-fail 커트라인과 비교되며, 단지 정확한 답 수가 충분했는지 여부만을 알려준다. 루브릭 작성 및 표준 설정 방법에 관한 문헌은 기본적으로 평가 정보를 어떻게 버리는 것이 가장 좋은가에 관한 문헌입니다 (Cusimano 1996).

Take the answers a student gives to a multiple-choice test. From the answers, it can be derived not only which correct answers were given but also which incorrect answers were given. But then the answers are compared to an answer key and converted to 1–0 scores. Now it is not known anymore what the incorrect answers were but only to which question an incorrect answer was given. Then the item scores are totalled. Now it is obscured to which items an incorrect and correct answer was given but only to how many items an incorrect or correct answer was given. This total score is then compared to a pass–fail score and now it is only known whether the number of correct answers was sufficient or not. The literature on scoring rubrics and standard setting methods is basically literature on how best to throw away assessment information (Cusimano 1996).



각 특성에 맞는 단일한 최상의 도구가 있다(X)

One single best instrument for each trait


그 결과는 - 이전에 말했듯이 전통적 시험 프로그램은 각자의 특성에 맞는 단일 모델에 따라 구축된다는 것입니다.

The consequence of this is – as said before – that traditional examination programmes are built according to the one-best- instrument-for-each-trait model.





우리는 어디로 가고자 하는가?

Where do we want to go?


많은 공식 기관에서 자체 역량 도메인 또는 전문 역량을 발급했습니다. 

  • CanMeds (1996)에는 의료 전문가, Communicator, 공동 작업자, 관리자, 보건 옹호론자, 학자 및 전문가 영역이 포함되어 있습니다. 

  • ACGME (2007)은 환자 치료, 의학 지식, 실습 기반 학습 및 개선, 대인 및 의사 소통 기술, 전문성 및 시스템 기반 실천 영역을 정의했습니다. 

  • 네덜란드 의학 교육 청사진은 네 가지 역할을 수행했다. (Metz et al. 1994) : 의료 전문가, 과학자, 건강 관리 시스템의 근로자, 인간.

Many official institutes issued their own set of competency domains or professional roles. The CanMeds (1996) contain the domains: Medical expert, Communicator, Collaborator, Manager, Health advocate, Scholar and Professional. The ACGME (2007) defined the domains: Patient care, Medical Knowledge, Practice-based Learning and improvements, Interpersonal and Communication skills, Professionalism and Systems-based practice. The first Dutch blueprint for medical education used four roles (Metz et al. 1994): Medical Expert, Scientist, Worker in the health care system and Person.



교육자들이 당면한 위험은, 우리는 각 영억마다, 하나의 최상의 도구만을 사용하여 평가 프로그램을 만드는 경향이 있다는 것입니다. 이 방법으로 전통적인 평가 프로그램에서와 마찬가지로 동일한 실수를 범하게됩니다. 즉, 도메인을 일차원적이고 안정적이며 일반적인generic entity로 취급하는 것이다. 그러나 이러한 방식으로는 새로운 평가 프로그램을 구축하는 것이 아니라, 단순히 단어 ('특성' 대신 '역량')만을 대체 할 것입니다. 혁신적인 평가 프로그램에서 중요한 것은 n : n 관계의 개념에 기반한다는 것입니다. 즉, 모든 평가 역량 출처에 대한 정보를 사용하여 모든 기존 도메인 및 다양한 정보 소스를 통해 제공되는 모든 역량 도메인에 대해 알릴 수 있습니다.

The risk we as educators run now is that we would now be inclined to build an assessment programme in which one single best instrument is used for each of the domains. This way we would be making the same mistake as with the traditional assessment programmes,namely treating the domains as unidimensional, stable and generic entities. But then we would simply be replacing words(‘traits’ by ‘competencies’) instead of building a really new assessment programme. An important thing in innovative assessment programmes is that they are based on the notion of an n:n relationship. In other words, information of all assessment competency sources can be used to inform about all the are domains, and all competency domains informed by various information sources. 



임상의는 이력 수집, 신체 검사, 검사 결과, 병리학 보고서 등 관련 정보를 필요로하는지 여부, 더 나아가 진단이나 치료법, 환자의 건강 여부 등을 결정합니다. 이것은 우리가 평가 프로그램에서 사용하기를 제안하는 n : n 관계입니다.

clinician takes the relevant information from history taking, physical exam- ination, lab results, pathology reports, etc. to determine whether needed, further diagnostics are what therapy or management to start and whether the patient is healthy or not. This is exactly the n:n relationship we suggest to use in assessment programmes.



대부분의 평가 프로그램에서 전통적 접근 방식은 OSCE의 의사소통기술 스테이션에서의 결과를 소생술 결과와 합해서 결과를 낸다. 그렇게 하는 이유는 이 두 가지가 합리적으로 결합 될 수 있기 때문이 아니라 단순히 동일한 형식 사용하기 때문이다. (다시 비유하자면 나트륨과 칼륨 레벨을 합하는 것과 같다). 시험이 무엇을 평가하는가를 결정하는 것은 형식이 아니라 내용이라는 여러 연구 결과가 있다. (Ward 1982; Norman et al., 1985; Schuwirth et al.) 이론적으로는 형식이 유사하기 때문이 아니라, 내용이 유사할 때 정보를 결합하는 것이 더 논리적입니다. 그림 1과 2는 이러한 차이점을 보여줍니다.

The traditional approach in most assessment programmes relies on adding the results on the communication skills station of an OSCE to the resuscitation skills, not because they can be combined rationally but simply because they have the same format (to use the analogy again: so do the sodium and potassium level). This is strange especially because a plethora of research has shown that it is not the format which determines what a test or an item assesses but the content (Ward 1982; Norman et al. 1985; Schuwirth et al. 1996). Theoretically, it is more logical to combine information that is similar in content and not because it is similar in format. Figures 1 and 2 demonstrate this difference.


그러한 평가 프로그램에서, 구인은 안정적이고 일반적인 특성으로 정의 될 필요가 없으며, 일부는 가변적이고 일부는 안정적으로 정의되어야한다. 다시 한 번, 임상 작업과의 유추를 사용하여 : 일부 매개 변수는 너무 안정되어있어 한 번의 측정만으로도 그 값을 결정하기에 충분하고(나트륨 수준, 헤모글로빈 수준), 다른 일부는 반복적으로 여러 번 측정하더라도 상당히 달라지게 되어있어서(혈압, 혈당 수준). 다수의 측정 또는 일간 변동 커브가 도움이 된다.

In such an assessment programme, the constructs do not have to be defined in stable and generic traits, some will have to be defined as variable and some as stable. Again, using the analogy with clinical work:some parameters are supposed to be so stable that one measurement suffices to determine them (sodium level,haemoglobin level) and some others are supposed to vary considerably (blood pressure, blood glucose level) that only repeated enough. measurements or daily curves are informative


따라서 평가의 개별 요소는 그 자체로 의미가있을 수 있습니다. mini-CEX에서 '역사 기록'항목의 점수가 낮 으면 그 의미는 그 자체로 의미가 있으며 교정 작업으로 이어질 수 있습니다. 한편, 개별 항목이나 요소는 다른 테스트 요소와 조합하여 의미를 얻을 수 있습니다. OSCE의 복부 검사 스테이션에서 fail한 학생이 복부 해부학 테스트 항목에서도 fail하였다면, 환자 의사 소통 스테이션에서 열악한 학생과는 다른 판단이 적용됩니다.

So, individual elements of the assessment can be mean- ingful in themselves. The low score on the item‘history taking’ in a mini-CEX is meaningful in itself and can lead to remedial actions. On the other hand, individual items or elements can acquire meaning in a combination with elements of other tests. A failed abdominal examination station in an OSCE will have different repercus- sions for the student if s/he has also performed poorly on test items on abdominal anatomy than for the student whose patient communication is poor.


'객관적인'테스트 만 신뢰할 수 있고 '주관적인'테스트는 신뢰할 수 없다는 오해가 널리 퍼져 있습니다. 불행히도 이러한 사고 방식은 평가의 질을 개선하는 데별로 도움이되지 않습니다. 내과에 대한 단일 항목 객관식 테스트는 소위 객관적인 테스트이지만, 한 항목이 너무 작아서 신뢰할 수있는 테스트가 될 수 없습니다. 반면에 특정 퍼포먼스 (예 : 음악적 예술)에 대한 전문가 의견 모음은 매우 신뢰할 만하다.

There is a widespread misconception that only ‘objective’ tests can be reliable and that ‘subjective’ tests are unreliable. Unfortunately, this kind of thinking is not very helpful in improving the quality of the assessment. A single-item multiple choice test on internal medicine would be a so-called objective test, but it can hardly be a reliable test as one item is simply too small a sample. On the other hand, a collection of expert opinions on a certain performance (e.g. musical artistry) can be highly reliable,


객관성을 지나치게 추구하다보면, 많은 경우 평가가 trivialize될 수 있다. 예를 들어 포트폴리오에 대한 점수 루 브릭을 설계하는 것 (Koretz 1998) 등이 있습니다. 평가 프로그램에서 주관적인 요소가 trivialize되지 않아야 하며, 샘플링 절차를 최적화하여 평가해야한다 (Schuwirth et al., 2002; Driessen et al. 2005).

There are many cases in which assessment designers in their pursuit of objectivity have unnecessarily trivialised the assess- ment, for example by designing scoring rubrics for portfolios (Koretz 1998). In programmes of assessment, subjective elements should not be trivialised but should be assessed by optimising the sampling procedure (Schuwirth et al. 2002; Driessen et al. 2005).


물론 이것이 전체 평가 과정을 더 쉽게 만들지는 않습니다. 평가 과정에서 인간의 판단이 핵심적인 경우, 판단을 내리는 사람의 품질과 전문성이 평가의 질에 결정적인 요인이 될 수 있습니다.

Of course this does not make the whole assessment process easier, quite the contrary. When human judgement is central in the assessment process, it may be clear that the quality and expertise of the person who is making the judgement is decisive for the quality of the assessment.



평가의 품질을 보장하기 위해 구인타당도과 재현성에만 관심을 두는 것은 더 이상 충분하지 않습니다. 공정성, 신뢰성 및 알 필요성과 같은 개념. 의존성도 포함될 수있다 (Driessen et 2005).

To ensure the quality of the assessment then, the exclusive focus on construct validity and reproducibility do not suffice anymore. Concepts such as fairness, trustworthiness and need to al. dependability also be included (Driessen et 2005). sions for


이 방법으로, 평가 프로그램은 각 학생의 개별적인 필요에 맞게 맞춤화 될 수 있습니다. 

  • 첫째, 교사 / 멘토는 개별 학생이 자신의 능력에 대한 완전한 그림을 확보 할 수 있도록 특정 평가 정보를 수집하도록 조언 할 수 있습니다. 모든 기준에 대해 7 가지 우수한 독립적 인 미니 CEX 판단을받은 학생의 경우, 데이터의 추가 수집은 아마도 유용하지 않지만, 7 가지 매우 가변적 인 판단의 경우 더 많은 정보가 필요할 수 있습니다. 이것은 학습 평가를위한 '진단 적'결정이라고 할 수 있습니다. 

  • 또한 위에 설명 된대로 치료에 대한 맞춤 조언을 각 학생에게 줄 수 있는데, 이는 '치료 적'결정이라고 할 수 있습니다. 

  • 마지막으로, 충분한 능력에 이르는 올바른 길을 걷고있는 학생이 각 학생에 대해 결정될 수 있다는 예후 결정이 내려집니다.

This way, the assessment programme can be tailored specifically to the individual needs of each student. First, this enables the teacher/mentor to advise that specific assessment information be collected for an individual student to ensure a complete picture of his/her competence. For a student who has had seven excellent independent mini-CEX judgements onall criteria, further collection of data is probably not useful,whereas in the case of seven highly variable judgements more information may be necessary. This could be called the as ‘diagnostic’ decisions in assessment for learning. Also, described above, a tailored advice for remediation can be given for each student, which could be called the ‘therapeutic’decision. Finally, a prognostic decision – is the student on the right track to sufficient competency – can be made about each student.




연구에 대한 함의

Implications for research


무엇이 양질의 평가프로그램을 만드는가?

What constitutes high-quality assessment programmes?


1996 년에 van der Vleuten (1996)은 개별 평가 도구의 퀄리티를 다양한 기준 간의 trade-off로 평가하도록 주장하였다. 이러한 기준은 개별 평가도구에는 유용하다고 보이지만, 평가 프로그램 전체에 대한 적용 가능성은 제한적입니다.


In 1996, van der Vleuten (1996) published a paper in which he advocated to evaluate the quality of individual assessment instruments as a trade-off between various criteria. Although these criteria have been shown to be useful for individual instruments their applicability to an assessment programme as a whole is limited.


Program in action에 관한 설계 기준을 포함하는 모델이 등장했습니다. 

    • 평가 정보 수집, 

    • 다양한 도구의 평가 정보 결합, 

    • 최종 정보를 평가하여 결정

    • 결정에 대한 조치를 취함

그러나 이에 더하여 일련의 서로 다른 계층들도이 정의되었습니다. 

    • 프로그램의 지원 측면에 관한 기준, 

    • 평가 프로그램에 대한 정보의 문서화 및 보급, 

    • 프로그램의 지속적인 개선을위한 척도 

    • 프로그램의 책임을 지탱하는 모든 procedure의 품질

a model emerged which incorporated of course the most obvious design criteria, namely those concerning the programme in action (

    • collecting assessment information, 

    • combining assessment information from various instruments, 

    • valuing the resultant information to come to decisions, and 

    • taking action upon these decisions). 

In addition, however, a series of different layers were defined: 

    • criteria concerning the supporting aspects for a programme, 

    • criteria for documenta- tion and dissemination of information about the assessment programme, 

    • measures for continuous improvement of the programme and the quality of all procedures supporting the accountability of the programme.


어떻게 평가가 학습에 영향을 주는가?

How does assessment influence learning?



Cilliers et al. (2010) : 세 가지 주요 요소가 확인되었습니다 : 영향의 원천, 이러한 근원이 학생들의 학습에 영향을 미치는 메커니즘 및 영향의 결과.

Cilliers et al. (2010): Three main elements were identified: sources of impact, mechanisms by which these sources impact on student learning and the consequences of the impact.


영향 메커니즘은 학생들이 평가 프로그램의 영향, 학습 응답, 기관 및 문맥 적 요인에 대한 자신의 인식을 평가하는 방법을 구성합니다. 출처로는 주요 요구 사항은 작업 요구, 평가의 임박, 평가 시스템의 설계 및 단서 (Cilliers et al. 2010)였다.

Mechanisms of impact constituted the ways students appraised...

    • the impact of the assessment programme, 

    • their own learning response, 

    • their own perceptions of agency and contextual factors. 


As sources, main factors were 

    • task demands, 

    • imminence of assessment, 

    • the design of the assessment system and the cues (Cilliers et al. 2010).





심리측정모델의 확장

Extension of psychometric models


2006 년에는 mini-CEX, 360 피드백 및 포트폴리오와 같은 관측-기반 평가도구를 더 잘 충족시키는 새로운 방법이 개발 될 것이라고 주장했습니다. 1960 년대와 1970 년대에는 기준 참조 시험 (Berk 1980; Rickets 2009)과 관련하여 이미 이 분야에서 발전이 있었다. 그 이후로, 심리 측정 이론과 결과 통찰력이 크게 바뀌 었습니다.

In 2006, we advocated that new methods would be developed that cater better to more observation-based instruments, such as mini- CEX, 360  feedback and portfolios. It turns out that there have already been developments in this area in the 1960s and 1970s with respect to criterion-referenced tests (Berk 1980; Rickets 2009). Since then, psychometric theory and resulting insights have changed dramatically.


Kane은 관측 결과에서 target domain에 대한 결론에 이르는 주장-기반 추론의 필요성을 강조합니다. 이 접근법에서 연구자 또는 평가자는 target domain의 본질에 대한 명시적인 가정을 해야 하며, stable trait을 간주하지 않기 때문에 절충적입니다.

Kane highlights the need for an argument based set of inferences from observations eventually to conclusions about the target domain. This approach is eclectic because it requires the researcher and/or assessors to make explicit assumptions about the nature of the target domain, and it does not automatically subsume a stable trait.


중요한 추론 중 하나는 관찰 된 스코어에서 universe score(신뢰성의 일종)에 이르는 것입니다. 이를 위해 우주 점수의 개념화가 필요하며 이 개념화는 다른 형태를 취할 수 있습니다. 우리의 생각의 대부분은 Guttman 척도의 개념에 어느 정도 기초합니다. 그림 3은 이러한 Guttman 스케일의 예를 보여줍니다.

One of the important inferences to make is the one from observed score to universe score (as a sort of reliability). For this, a conceptualisation of the universe score is needed and this conceptualisation can take different forms. Most of our thinking is more or less based on the notion of the Guttman scale. Figure 3 shows an example of such a Guttman scale.



Guttman scale에서, 기본 가정은 일부 문항은 본질적으로 다른 문항보다 쉽다는 것입니다. 예를 들어, 나의 장녀는 보조바퀴 없이 않고 자전거를 탈 수 있습니다. 따라서 그녀는 보조바퀴를 달고 자전거를 탈 수 있다고 가정할 수 있으며, 삼륜차를 탈 수 있고, 똑바로 앉을 수 있다고 가정할 수도 있다. 이런식의 문항 세트는 Guttman 척도에 잘 부합하며, 컴퓨터 적응형 테스트와 같은 특정 평가 방법에 매우 적합합니다. Guttman scale에서는 assumed scale에 따르지 않는 모든 분산은 측정 오차로 보는 것이 논리적이다. 따라서 딸이 한 번은 보조바퀴없이 탈 수 있었다가, 그 다음에는 보조바퀴를 달고 타지 못한다면, 유일한 합리적 가정은 이것을 측정 오류로 보는 것이다. 샘플은 homogeneous universe에서 추출된다. 

In such a scale, the underlying assumption is that some items are inherently easier than others. For example, my eldest daughter can ride her bike without training wheels. Therefore, it is safe to assume that she is also able to ride a bike with training wheels, and following from this that she can ride a tricycle, and that she is able sit straight, etc. Sets of items that behave well according to such a Guttman scale are very well suited for certain assessment approaches, such as computer adaptive testing. The logical consequence is that any variance not in accordance with the assumed scale is measurement error. So if at one day my daughter is observed being able to ride without training wheels and subsequently fail to ride the bike with trainers, the only logical assumption is this to be measurement error. It subsumes a homogeneous universe from which the sample is drawn.


평가의 모든 측면이 이러한 방식으로 가장 잘 모델링될수 있는지 궁금해 할 수 있습니다. 우리가 계면 활성제가 II 형 폐구균에 의해 생성된다는 것을 알고 있다고 해서, 자동적으로 어떤 세포가 칼시토닌을 생성하는지, 또는 II 형 폐구균이 어디 있는지까지 알 수는 없다. 그러한 경우 우주 표현의 측정은 우주의 대표에 대한 새로운 정보를 제공하는 새로운 관찰의 가능성을 설명 할 필요가 있지만 우주의 동질성을 규정하지는 않는다.

One can of course wonder whether all aspects of assess- ment in a programme of assessment are best modelled this way. If we knowthat surfactant is produced by type II pneumocytes, this does not automatically imply that we know which cells produce calcitonin, or even where the type II pneumocytes are located. In such cases measures of universe representation need to describe the probability of a new observation providing new information about the repre- sentation of the universe, but it does not prescribe homogeneity of the universe.









How to scaffold human judgement?


전통적으로 시험 시스템에서는 정성적 정보를 정량화한다.

Traditionally in examination systems, information from qualitative sources is quantified


피드백과 정보가 풍부한 절차가 요구되는 학습을 위한 평가프로그램에서, 정보는 질적 인 방식으로 결합되어야합니다. 이것은 필연적으로 인간의 판단을 포함합니다. 불행히도, 인간의 판단은 종종 실수로 간주되며, 특히 actuarial 방법과 비교했을 때 그러하다(Dawes et al., 1989). 이것은 당연한 결과인데, 왜냐하면 (결론에 도달하기 위해 모든 개별 데이터를 평가하는 것부터 시작하는) 의식적인 bottom-up 처리가 필요하며, 이를 통해 hard data conclusion을 이끌어 낼 뿐만 아니라 수치적 모델링을 가능하게 해주기 때문이다.  그러나 이것은 인간의 제한된 단기 메모리 처리 용량으로 인해서 취약한 부분이다. 이러한 경우에는 반드시 전체 데이터 세트 중 일부만 처리하는 것으로 되돌려 야합니다.

In assessment for learning programmes, in which feedback and information-rich procedures are required,information needs to be combined in a qualitative way. This involves inevitably human judgement. Unfortunately though,human judgement is often considered fallible, especially whenc ompared to actuarial methods (Dawes et al. 1989). This is of course logical, because in such comparisons conscious bottom-up processing (starting with evaluating all the individ-ual data to arrive at a conclusion) is required, which isintended to lead to hard data conclusions and which can be numerically modelled. It is obvious that this is exactly what humans with their limited short-term memory processing capacities are not good at (Van Merrienboer & Sweller 2010).In such cases they necessarily have to revert to processing only a limited part of the whole data set.


그러나 우리는 엄청난 양의 정보를 처리 할 수 ​​있기도 하다. 특히 시각 시스템의 정보는 대략 초당 10 ~ 2,000 만 비트 범위입니다. 자연주의적 의사 결정에 대한 연구에서, 인간의 결정은 hard 하거나 numerical하지 않고 judgemental하다(Klein 2008). 지나치게 정확한 데이터 모델링은 오히려 표면적인 모델링보다 부정확한 예측을 내놓는다(Marewski et al. 2009). 다시 말해, 정보의 과부하 상태에서 처리된, 막연한 인간 판단의 결과는 왜 여전히 그렇게 좋은가? 그러한 판단 과정에서 더 많은 하향식 처리 활동이 필요하다는 것은 분명합니다. 그러나, 인지 부하의 감소를위한 방법이 여전히 필요하다. 이 관점에서 필수적인 중요한 요소가 표현에 포함된다면, 정보를 불완전하게 대표하는 것이 반드시 나쁜 대표성이라고 볼 필요는 없습니다. 이것은 전문가의 이론에서 스크립트와 굉장히 흡사합니다. (Schmidt & Boshuizen 1993)

However, we are also capable of processing enormous amounts of information. Estimates, especially those including information from the visual system, are in the range of between 10 and 20 million bits per second. The research into naturalistic decision making focuses on human decisions in areas where the outcomes are not hard or numerical, but judgemental (Klein 2008), where too precise modelling of the data often leads to more inaccurate prediction than more superficial modelling (Marewski et al. 2009). In other words, why is human judgement with such an overload of information to process and vague outcomes still so good? It is clear that for such judgements processes more top-down processing activities are needed. Still, however, methods for reduction of cognitive load are required. In this view, an incomplete representation of the information is not necessarily a bad representation, provided the essential important elements are in the representation. This bears a striking resemblance with scripts in the theory on expertise. (Schmidt & Boshuizen 1993)


Govaerts et al. (2007)에 따르면 복잡한 케이스에서는 초보자보다 전문가가 더 많은 시간을 필요로 하지만, 단순한 케이스에서는 전문가가 더 빠르다.  퍼포먼스를 관측하면서 전문가들은 초보자에 비해서 추론/해석을 더 많이하며, 초보자는 프로세스에 대한 문자적 묘사를 더 많이 한다. 또한 전문가는 맥락적 단서를 더 많이 사용하고, 더 많은 평가를 내린다. 이것은 모두 진단 전문 지식에 대한 결과와 매우 일치합니다 (Schmidt & Boshuizen 1993; Eva 2004).

Govaerts et al. (2007) found that in complex case experts needed more time than novices, but in the simple case they were faster. Experts make more inferences/interpretation whilst observing the performance, while novice provides more literal descriptions of the process, experts use more contextual cues and considerations and make more evaluations. This is all highly in concordance with the findings about diagnostic expertise (Schmidt & Boshuizen 1993; Eva 2004).






Conclusion










 2011;33(6):478-85. doi: 10.3109/0142159X.2011.565828.

Programmatic assessment: From assessment of learning to assessment for learning.

Author information

1
Department of Educational Development and Research, Maastricht University, The Netherlands. l.schuwirth@maastrichtuniversity.nl

Abstract

In assessment a considerable shift in thinking has occurred from assessment of learning to assessment for learning. This has important implications for the conceptual framework from which to approach the issue of assessment, but also with respect to the research agenda. The main conceptual changes pertain to programmes of assessment. This has led to a broadened perspective on the types of construct assessment tries to capture, the way information from various sources is collected and collated, the role of human judgement and the variety of psychometric methods to determine the quality of the assessment. Research into the quality of assessment programmes, how assessment influences learning and teaching, new psychometric models and the role of human judgement is much needed.

PMID:
 
21609177
 
DOI:
 
10.3109/0142159X.2011.565828


평가자료가 단어일 때: 질적교육평가의 타당도 근거 (Acad Med, 2016)

When Assessment Data Are Words: Validity Evidence for Qualitative Educational Assessments

David A. Cook, MD, MHPE, Ayelet Kuper, MD, DPhil, Rose Hatala, MD, MSc,

and Shiphra Ginsburg, MD, MEd




계산 할 수 있는 모든 것이 중요한 것은 아니며, 중요한 모든 것을 계산할 수도 없습니다. -W. B. 캐머론 1

Not everything that can be counted counts, and not everything that counts can be counted. —W. B. Cameron1



교육자들은 양적 점수가 연수생의 모든 중요한 특성을 포착하지 못함을 점점 더 인식하게됨에 따라, 그들은 정성적 데이터를 통합하고 받아들이 기 시작했습니다 .9-11 지난 30 년 동안 교육 연구에서 벌어진 학습자 평가에서의 르네상스는 질적 방법과 혼합 방법 접근의 증가 된 경향과 유사합니다 

As educators increasingly recognize that quantitative scores fail to capture all important features of a trainee’s performance,7,8 they have begun to incorporate and embrace qualitative data.9–11 This renaissance in learner assessment parallels the increased presence of qualitative and mixed- methods approaches in education research over the past 30 years.12



유효성 프레임 워크의 간략한 개요

A Brief Overview of Validity Frameworks


3 가지 유형의 타당도 -준거, 기준, (상관성, 동시성 또는 예측 성이라고도 함) 및 구조 - 에 대한 "고전적"모델은 평가의 해석 및 사용을 지원하기 위한 보완적인 접근 방식을 제공하는 두 개의 현대 프레임 워크로 대체되었습니다. Messick's22 프레임 워크에서 모든 타당성은 다섯 가지 다른 출처 (아래 정의 됨)에서 파생 된 증거에 의해 뒷받침되는 구조 타당성의 포괄적 인 우산 아래 통합됩니다.

The “classical” model of three types of validity—content, criterion (also referred to as correlational, concurrent, or predictive), and construct—has been replaced by two contemporary frameworks that offer complementary approaches to support the interpretations and uses of assessments. In Messick’s22 framework all validity is unified under the overarching umbrella of construct validity, which is supported by evidence derived from five different sources (defined below).


그러나 Messick의 프레임 워크는 여러 증거 출처 중 우선 순위를 지정하지 않으며, 평가마다 우선순위가 다를 수 있다. 이 문제를 해결하기 위해 Kane23은 타당성 근거 프로세스(타당화), 특히 평가의 점수에 대한 타당성 주장의 계획과 평가에서 네 가지 주요 단계 또는 추론을 강조하는 프레임 워크를 개발했습니다. 실제로 스코어와 결정의 타당성을 뒷받침하기 위해 데이터를 수집하고 해석 할 때 교육자는 일반적으로 이 두 현대 프레임 워크 중 하나를 선택하여 사용한다.

However, Messick’s framework does not prioritize among the different evidence sources or indicate how such prioritizing might vary for different assessments. To address this problem, Kane23 developed a framework focusing on the process of collecting validity evidence (validation), specifically highlighting four key phases or inferences in planning and evaluating a validity argument for an assessment’s scores. In practice, an educator would typically choose to use one of these two contemporary frameworks when collecting and interpreting data to support the validity of scores and decisions.


우리가 아래에서 자세히 설명 할 때, 이러한 틀은 실증주의 패러다임 (즉, 객관적인 현실이 특정하고 발견 가능한 자연 법칙으로 존재한다는 것)으로 제한되지 않는다. 오히려 둘 다 적절하게 해석주의적 입장(즉, 현실은 언어와 공유 된 의미를 통해 사회적으로 구성되며 여러 해석에 개방되어있다)을 취한다.

As we elaborate below, neither of these frameworks is restricted to a positivist paradigm (i.e., that an objective reality exists with specific, discoverable natural laws); rather, both lend themselves to an appropriately interpretivist stance (i.e., that reality is socially constructed through language and shared meaning and is open to multiple interpretations).



방어가능한 결정을 내리기 위한 질적 평가의 역할

The Role of Qualitative Assessment in Making Defensible Decisions


모든 평가의 궁극적 인 목적은 평가 대상자에 대한 타당한(즉, 방어 가능한) 결정 또는 판단에 도달하는 것입니다. 이러한 결정은 단독 또는 조합으로 학습자의 삶과 의학의 세계, 그들이 일하는 환자, 동료 및 시스템에 중요한 영향을 미칩니다.

The ultimate purpose of any assessment method is to come to a valid (i.e., defensible) decision or judgment about the person being assessed. These decisions, alone or in combination, have important consequences for the lives of learners and, in the world of medicine, for the patients, peers, and systems with which they work.24


수치 점수의 결함에는 평가자 편견 (관용, 엄격함 및 특이성), 범위 제한, 시험에 대한 가르침 (또는 무엇을 가르쳤는지에 대한 시험), 그리고 "객관성"의 거짓 안전을 포함합니다. 11,25

Other deficiencies in numeric scores include 

  • rater biases (leniency, strictness, and idiosyncrasies), 

  • restriction of range, 

  • teaching to the test (or testing to what was taught), and 

  • the false security of “objectivity.”11,25 


물론, 질적인 평가도 한계가 있다. 평가자와 분석가의 개인적인 편견과 특이성에 대한 감수성, 맥락 전반에 걸친 일반화 가능성의 부재, 그리고 종종 많은 양의 질적 데이터 인 것을 수집하고 분석하는 데 필요한 시간과 훈련에 대한 실질적인 우려를 포함하는 자체적 인 관심사를 가지고있다.

Of course, qualitative assessment has its own share of concerns, including 

  • susceptibility to the personal biases and idiosyncrasies of assessors and analysts, 

  • lack of generalizability across contexts, and 

  • practical concerns about the time and training required to collect and analyze what is often a large volume of qualitative data.


무엇이 정성적 평가입니까?

What Counts as Qualitative Assessment?


내러티브를 숫자 점수 (예 : 10 점 척도로 트레이닝 평가 내러티브 평가)로 변환하는 것은 연구 및 평가 모두에서 일반적인 관행이나, 이 점수의 유용성과 나름의 역할과 별개로 (우리의 정의에 따라) 이것은 정성 평가가 아니다. 오히려 실제 질적 평가에서 교육자는 학습자의 성과에 관한 공통 주제, 패턴, 불일치, 예 및 불확실한 사례를 식별하기 위해 생생한 서사 데이터를 분석하고 이를 해석하여 서술하고 요약하여 판단으로 종합합니다. 적절하게만 이뤄진다면 내러티브 합성은 내러티브를 단순한 숫자로 줄이는데 잃어버린 의미의 깊이, 폭, 뉘앙스 및 풍부함을 유지합니다. It is common practice in both research and assessment to convert such narratives to numeric scores (e.g., rating an in-trainingevaluation narrative on a 10-point scale), but while such scores are useful and have a role in assessment, they do not (by our definition) count as qualitative assessment. Rather, in true qualitative assessment educators analyze the raw narrative data to identify common themes, patterns, disagreements, examples, and disconfirming examples regarding learner performance, and synthesize these into an interpreted narrative and summary judgment. When properly done, such narrative syntheses retain a depth, breadth, nuance, and richness of meaning that would be lost in reducing the narratives to mere numbers. 

Hodges16이 지적했듯이, "행동을 숫자로 변환 한 다음 다시 문장으로 변환하는 것은 불필요한 우회입니다."
As Hodges16  noted, “Perhaps the translation of behaviours into numbers and then numbers back into statements is an unnecessary detour.” 

용어에 대한 간단한 설명이 필요하다. 질적 평가에 관해 논의 할 때 우리는 학습자의 성과를 관찰하고 문서화하는 사람을 assessor 또는 observer 와 같은 중립적인 용어로 부르기를 선호한다. Rater와 같은 단어는 숫자 등급의 생성을 암시하기 때문에 가급적 피한다. 우리는 마찬가지로 등급 및 점수라는 단어를 피하고 대신에 서술 (관측에서 생성 된 단어 또는 원시 데이터)합성 또는 해석 (다른 데이터로 분석, 해석 및 삼각화된 내러티브)라는 단어를 사용할 것이다. 질적 인 연구에서 합성과 해석 기능은 전형적으로 질적 인 방법에서 특정한 훈련과 경험을 가진 분석가를 필요로한다.

We wish to make a brief note regarding terminology. When discussing qualitative assessment, we eschew the word rater when referring to the person observing and documenting the learner’s performance, since it connotes the creating of a numeric rating, preferring instead a neutral term such as assessor or observer. We likewise avoid the words rating and score, and use instead the words narrative (to refer to the words or raw data generated from the observation) and synthesis or interpretation (to refer to narratives that have been analyzed, interpreted, and triangulated with other data). in qualitative research the synthesis and interpretation function typically require analysts with specific training and experience in qualitative methods.



우리는 질적 평가에서 "유효성"에 대해 말할 수 있습니까?

Can We Talk About “Validity” in Qualitative Assessment?


결정은 그것이 기반하고 있는 데이터만큼만 우수합니다.

A decision is only as good as the data on which it was founded.


양적 평가에서 증거는 타당도의 렌즈를 통해 그룹화되고 해석되며, 타당도는 "제안 된 시험 용도에 대한 시험 점수의 해석을 증거 및 이론이 뒷받침하는 정도"로 정의된다.

In quantitative assessment, evidence is grouped and interpreted through the lens of validity, which is defined as “the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests.”31(p11)


질적 연구자들은 연구의 타당성에 대한 개념을 피하고 credibility나 trustworthiness와 같은 용어를 사용하여 rigor함을 해석합니다 .18-21

Qualitative researchers eschew the concept of study validity, and instead interpret rigor using terms such as credibility and trustworthiness.18–21


그러나 양적연구의 타당도 개념은 그것의 핵심 가치와 질적연구의 본질적으로 다른 패러다임을 희생하지 않고도 질적 평가에 적절하게 적용될 수 있다. 이 주장에서 우리는 구체적으로 평가 타당도에 대해서만 이야기하고자 한다. 연구 타당도의 판단은 이 논문의 범위를 벗어나는 완전히 다른 방법과 표준을 구성한다.

Yet we believe that the concept of validity can, in fact, be appropriately applied to qualitative assessment without sacrificing the core values and inherently different paradigms that define this field and approach. In asserting this, we specifically restrict our claim to the evaluation of assessment validity; judgments of research validity constitute an entirely different set of methods and standards,32 and fall outside the scope of this article.



질적 평가를 언급 할 때 타당도와 타당화의 개념을 가져와야하는 이유는 적어도 세 가지입니다.

We see at least three reasons to invoke the concepts of validity and validation when referring to qualitative assessments.



첫째, 타당도 확인은 주어진 결정의 방어력을 뒷받침하는 증거 수집을 의미한다. 타당도의 포괄적 정의는 증거의 본질에 아무런 제한을 두지, 않으며 실제로 정량적인 점수를 뒷받침하기 위해 수집 된 많은 증거는 본질적으로 정성적인특성을 갖는다 (예 : 내용 타당도 근거에는 종종 테스트 개발에 대한 서술이 포함되어 있습니다 34). 의사 결정에 중점을 둠으로써, 우리는 평가를 단지 숫자와 동일한 것으로 보는 관점을 넘어서, 정성적 분석에서 나오는 판단과 서사의 합성을 비롯하여 더 광범위하고 미묘한 범위의 평가 데이터를 수용한다는 일반 관념에 다다를 수 있다. 좋은 결정은 (숫자 정보든 단어 정보든) 무엇이든 기반으로 할 수 있으며, 아마도 이상적으로는 함께하는 것이 좋다.

First, validation refers to the collection of evidence to support the defensibility of a given decision.23,33 This broad definition makes no restriction on the nature of the evidence used, and in fact much of the evidence collected to support quantitative scores is qualitative in nature (e.g., content evidence often includes a narrative description of test development34). The focus on decisions also enables us to move beyond the lay notion that assessment is synonymous with numeric scores, and accept a broader and more nuanced range of assessment data including judgments and narrative syntheses emerging from qualitative analyses. Good decisions can be based on information presented as either numbers or words—and, perhaps ideally, both in concert.


둘째, 교육 평가 분야가 발전하고, 더욱 다양해진 데이터 유형을 수용하기 위해서는 언어와 어휘의 공통점을 찾아야합니다. 우리는 질적 평가에서 엄격함을 정의하기 위해 선택된 어휘는 사소한 문제가 아니라는 것을 인정합니다. 언어는 신념을 형성하고, 패러다임을 정의하고, 다른 사람들에 대한 어떤 담론에 권력을 부여합니다. 실제로 질적 분석의 모든 단계에서 단어가 중심적으로 설명됩니다. 어떤 사람들은 두 가지 독립적인 어휘 (별개의 언어)를 유지하기를 바랄 수도 있고, 아니면 질적 연구의 언어를 채택하고 그것을 정량적 평가 용도로 조작화하자고 주장할 수도 있다. 그러나 양적 평가 문헌의 타당도 확인 개념은 이미 상당히 잘 발달되어 있으며 많은 교육자들이 수용 할 수있는 견고한 체계를 갖추고 있다. 따라서 우리 중 두 명 (AK, SG)이 주로 질적 / 해석 주의적 연구 패러다임에서 일하는 경우 연구원과 교육자가 양적 평가 문헌에서 일반적으로 사용되는 용어를 질적 연구의 언어와 패러다임에 맞게 다시 조작하고 확장함으로써 이익을 얻을 수 있다는 실용적인 합의에 이르렀다. 

Second, for the field of educational assessment to move forward and embrace a greater diversity of data types we need to find common ground in language and vocabulary. We acknowledge that the vocabulary chosen to define rigor in qualitative assessment is no trivial matter. Language shapes beliefs, defines paradigms, and affords power to some discourses over others. Indeed, words figure centrally in all phases of qualitative analysis. Some might argue to retain two independent vocabularies—distinct languages—or to adopt the language of qualitative research and operationalize it for quantitative assessments. However, the concept of validation in the quantitative assessment literature is already quite well developed and reflects a robust framework that is accepted by many educators. Thus, even though two of us (A.K., S.G.) work primarily in a qualitative/ interpretivist research paradigm, we came to a pragmatic consensus that researchers and educators might benefit from reoperationalizing and broadening terms typically used in the quantitative assessment literature such that they align with both the language and paradigms of qualitative research.


셋째, 가장 중요한 것은 질적 연구에서 엄격함을 확립하기 위해 전통적으로 사용된 증거와 패러다임은 질적 평가의 엄격 성을 뒷받침하기 위해 현대 타당도 프레임워크의 렌즈를 통해 쉽게 재해석 될 수 있다는 것이다 .17,35 고전적 타당도 모델은 심리측정 전통에 크게 의존하지만 이제 시대에 뒤 떨어진 것으로 간주됩니다. 대조적으로, Messick과 Kane의 프레임 워크는 질적 평가에 근거한 결정의 방어력을 뒷받침하는 증거의 수집과 해석을 용이하게 한다.

Third, and most important, the evidence and paradigms traditionally used to establish rigor in qualitative research can be readily reinterpreted through the lens of contemporary validity frameworks to support the rigor of qualitative assessments.17,35 The classical validity model drew heavily on psychometric traditions but is now considered out of date. By contrast, Messick’s and Kane’s frameworks readily guide the collection and interpretation of evidence that supports the defensibility of decisions founded on qualitative assessments.



질적 평가에 Messick의 프레임 워크 적용 : 증거의 다섯 가지 출처

Applying Messick’s Framework to Qualitative Assessment: Five Sources of Evidence


중요하게는, 이러한 증거의 출처들은 서로 다른 유형의 타당성이 아니라 오히려 타당성에 대한 판단에 정보를 제공하는 다양한 범주의 증거입니다. 주어진 해석을 뒷받침 할 수있는 여러 출처에서 증거를 찾아야합니다. 표 2에는 이 다섯 가지 출처에 대한 정의가 들어 있는데,

Importantly, these sources of evidence are not different types of validity but, rather, different categories of evidence that inform judgments about validity. Evidence should be sought from several sources to support any given interpretation. Table 2 contains definitions for these five sources,


간략하게 요약하면 다음과 같습니다.

To summarize briefly:



• 내용 증거는 "시험 내용과 측정하려는 구인과의 관계"를 평가한다. 31 (p14) 질적 평가를 위해 내용 증거는 특정 프롬프트 (질문)를 선택하는 방법, 프롬프트의 표현 지침, 샘플링 전략 (특정 관점을 탐구하기 위해 종종 의도적으로 또는 의도적으로, 반복적으로 데이터 수집의 기간 및 초점을 조정)을 포함한다. 

• Content evidence evaluates the “relationship between the content of a test and the construct it is intended to measure.”31(p14) For a qualitative assessment, content evidence might include 

  • the method for selecting specific prompts (questions), 

  • the wording of prompts and instructions, and 

  • the sampling strategy (often deliberate or purposeful, to explore specific perspectives; and iterative, to tailor the duration and focus of data collection). 

추가적인 관찰이 새로운 주제를 제시하지 않을 때까지 포화 36- 목적적이고 반복적인 데이터 수집 및 분석 - 에 대한 질적 연구 개념은 실제로 완전한 포화가 아니라 "충분 함"이 일반적으로 목표 일지라도 유용한 이론적 샘플링 종점을 제공합니다.

The qualitative research concept of saturation36—continuing purposeful, iterative data collection and analysis until additional observations do not suggest new themes—provides a useful theoretical sampling end point, although in practice “sufficient” rather than complete saturation will usually be the goal.



• 응답 프로세스 증거는 공식적으로 "구인와 실제로 발생하는 성능의 세부 특성 사이의 적합성"으로 정의됩니다. 31 (p15)보다 실질적인 관점에서는 관찰 자체과 그것의 문서화 기록을 연결시키는 프로세스를 반영합니다 (답변, 평가 , 내러티브) 

  • 자신의 내러티브 설명의 기초가 되는 사건에 대한 평가자의 해석 (즉, 정신 프로세스), 또는 

  • 그 주석이 기록되는 시스템 (예 : 사무 또는 컴퓨터 프로세스). 

• Response process evidence is formally defined as “the fit between the construct and the detailed nature of performance … actually engaged in.”31(p15) In more practical terms it reflects the processes that link the observation itself to the record (answer, rating, narrative) documenting that observation, such as 

  • the assessor’s interpretations of events (i.e., mental processes) that underlie his or her narrative comments or 

  • the system by which such comments are recorded (e.g., clerical or computer processes). 

이에 해당하는 근거로는...

Evidence might show 

  • 평가자가 지침을 따르고 있다.that assessors follow instructions, 

  • 내러티브가 풍부한 자료를 제공하고 있으며, 같은 평가자라도 학습자마다 다른 다료를 만들고 있다.that narratives offer rich data and differ between learners for the same assessor, 

  • 평가자의 reflexivity가 고려되었다. that assessors’ reflexivity (such as their relationships with learners and context) has been considered, or 

  • 컴퓨터 인터페이스가 확장된 내러티브를 지원한다. that the computer interface allows extended narratives.




• 내적 구조는 동일한 평가에서 데이터 요소 간의 일관성 (또는 그 결여)과 이러한 요소를 의미있는 메시지로 합성하는 근거 및 방법을 반영합니다. 질적 평가를 뒷받침하는 증거는 

  • 서로 다른 데이터 요소의 삼각측량 (예 : 다른 평가자 또는 다른 상황에서 수집 한 내러티브), 

  • 분석 자체의 특성 (예 : 반복해서 포화가 될 때까지 추가 데이터 수집) 또는 

  • 분석가의 reflexivity

• Internal structure reflects the relationship among data elements in the same assessment— their coherence (or lack thereof), and the rationale and method for synthesizing these elements into a meaningful message. Evidence to support qualitative assessment might explore 

  • the triangulation among different data elements (e.g., narratives collected from different assessors or different contexts), 

  • the nature of the analysis itself (e.g., iteration, and often additional data collection, until saturation), or 

  • the reflexivity of the analysts. 


예를 들어, 교육자는 불일치하는 내러티브를 강조하고 이러한 불일치를 설명하는 추가 데이터 또는보다 미묘한 해석을 추구 할 수 있습니다.

For example, educators might highlight discordant narratives and seek additional data or a more nuanced interpretation that accounts for this seeming inconsistency.37



내부 구조는 평가 내 요소 간의 연관성과 합성 접근법을 바라 보는 반면, 다른 변수와의 관계는 최종 합성과 연구중인 평가 외부의 다른 정보 소스 간의 연관성을 조사합니다. 삼각 측량 (여기서는 외부 데이터 소스와 함께)과 이전 가능성 (예 : 다른 상황 또는 미래 또는 과거 공연)에 대한 질적 연구 개념의 적용은 이러한 관계의 증거를 제공 할 수 있습니다.

• Whereas internal structure looks at associations among elements within the assessment and the approach to synthesis, relationships with other variables examines the associations between the final synthesis and other information sources outside the assessment under study. Application of the qualitative research concepts of triangulation (here, with external data sources) and transferability (e.g., to other contexts or future or past performances) can supply evidence of these relationships.


• 마지막으로, 결과의 증거는 평가의 실질적인 영향과 관련된 결정 및 행동을 조사합니다. 24 그러한 증거의 수집은 평가의 학습자 및 강사의 인상과 그것이 그들의 삶에 어떻게 영향을 미치는지를 탐구하기 위해 질적 또는 양적 연구 방법을 사용할 수 있습니다. 또한 의도되거나 의도하지 않은 결과에 대한 객관적인 증거, 결정이 다른 이해 관계자와 공존하는 정도도 여기에 포함된다.

• Finally, evidence of consequences looks at the actual impact of the assessment and the associated decisions and actions.24 The collection of such evidence might use qualitative or quantitative research methods to explore learner and instructor impressions of the assessment and how it influenced their lives, objective evidence of intended and unintended consequences, or the degree to which decisions resonate with other stakeholders.




정량적 평가에 Kane의 프레임 워크 적용 : 4 가지 검증 추론

Applying Kane’s Framework to Qualitative Assessment: Four Validation Inferences



케인의 틀은 타당성 주장에서 핵심 추론에 초점을 맞추고있다 (표 3 참조). 최근 우리 중 일부가 다른 곳에서 요약 한 바와 같이 17 :

Kane’s framework focuses on key inferences in the validity argument (see Table 3). As some of us recently summarized elsewhere17:


본질적으로 Kane은 단일 관찰 (예 : 객관식 시험 문제, 기술 역, 임상 관찰 또는 포트폴리오 항목)의 점수에서 관찰 점수를 사용하여 성능을 나타내는 전반적인 테스트 점수를 생성하는 관찰을 추적합니다. 테스트 설정 (일반화), 테스트 점수가 실제 성능 (외삽)을 암시 할 수 있는지에 대한 추론을 작성한 다음이 정보를 해석하고 결정을 내리기 (함의). 이 과정의 각 단계는 몇 가지 가정과 함께 추론을 나타냅니다.

essentially, Kane traces an assessment from the Scoring of a single observation (e.g., multiple-choice exam question, skill station, clinical observation, or portfolio item), to using the observation score(s) to generate an overall test score representing performance in the test setting (Generalization), to drawing an inference regarding what the test score might imply for real-life performance (Extrapolation), and then to interpreting this information and making a decision (Implications). Each phase in this process represents an inference laden with several assumptions.


Kane의 접근법은 증거의 출처가 아닌 논쟁 자체에 초점을 맞춤으로써 정량적으로 선정 된 평가, 질적 평가 및 평가 프로그램에 똑같이 적용됩니다 .35 Kane은 연구자가 연구 질문을 전향적으로 식별하고 그 질문에 답하는 데 필요한 연구 데이터의 개요를 설명하는 것처럼, 평가에서도 의도된 용도와 결정 및 증거를 선불로up front 드러내고, 그러한 결정을 뒷받침하는 데 필요한 근거를 강조했다.

By focusing on the argument itself rather than sources of evidence, Kane’s approach applies equally well to quantitative selected)assessments, qualitative assessments, and programs of assessment.35 Kane emphasizes the imperative to articulate up front both the intended uses and decisions and also the evidence needed to support such decisions (the “interpretation/use argument”),38 just as a researcher would prospectively identify the research question and outline the research data required to answer the question.


첫 번째 추론인 scoring은 하나 이상의 실적 관측을 기반으로 통찰력 있고 정확한 response (예 : 이야기 설명)을 생성하는 것과 관련이 있습니다. Scoring inference을 뒷받침하는 데이터에는 다음이 포함될 수 있습니다.
  • 서술 응답을 이끌어내는 질문 또는 프롬프트의 워딩
  • 원시 서사의 풍부함, 
  • 관찰자의 신뢰도 
  • 최종 보고서의 "두꺼운 설명"으로 인용구문 이미지의 사용

The first inference—scoring—concerns the generation of an insightful and accurate response (e.g., narrative comment) based on one or more observations of performance. Data to support the scoring inference might include 

  • the wording of questions or prompts inviting a narrative response, 

  • the richness of the raw narrative, 

  • the credibility of the observers, and 

  • the use of “thick description” quotes or images in the final report.


다음 추론은 일반화generalization으로, 개개의 데이터 요소 (예를 들어, 코멘트)가 테스트 설정에서의 성능에 관한 일관되고 통찰력 있고 정확한 판단으로 합성되는 것이다. 정 성적 평가는 통상적 인 의미에서 일반화 될 수 없다. 오히려 질적 평가 교육자들은...

The next inference is generalization, in which individual data elements (e.g., comments) are synthesized into a coherent, insightful, and accurate judgment regarding performance in the test setting. Qualitative assessments are not intended to be generalizable in the usual sense19; rather, in qualitative assessment educators



일반화 추론은 샘플링 및 데이터 분석을위한 엄격한 방법에 의해 지지된다. 
  • 목적적 샘플링, 
  • 반복적이고 반응적인 데이터 수집 (이상적으로 포화까지 계속), 
  • 삼각 측량 (보완 소스로부터의 의도적 인 데이터 선택 및 합성)
  • 분석가의 훈련 및 경험.

The generalization inference would be supported by rigorous methods for sampling and data analysis, including 

  • purposeful sampling, 

  • iterative and responsive data collection (ideally continuing until saturation), and 

  • triangulation (deliberate selection and synthesis of data from complementary sources). 

  • The training and experience of analysts would also inform this inference.


외삽은 해석을 테스트 설정 이상으로 확장하고 실제 상황과 향후 성과에 대한 관련성을 주장합니다. 외삽 증거는 주로 두 가지 출처로부터 온다. 
  • 테스트 또는 평가가 실제 퍼포먼스의 가장 중요한 측면을 반영하도록하는 단계 
  • 테스트 퍼포먼스와 실제 퍼포먼스와의 관계를 (양적으로 또는 질적으로) 평가하는 경험적 분석
Extrapolation extends the interpretations beyond the test setting and claims relevance to real-life situations and future performance. Extrapolation evidence comes primarily from two sources: 
  • steps taken to ensure that the test or assessment reflects the most important aspects of real- life performance, and 

  • empiric analyses that evaluate (quantitatively or qualitatively) the relationship between test performance and real-world performance. 


테스트 설정 평가 데이터와 해당 실제 데이터 모두 양적, 질적 또는 둘 다일 수 있습니다.

Note that both the test-setting assessment data and the corresponding real-world data could be quantitative, qualitative, or both.



마지막으로, 함축 추론implication inference은 실제 성과에 대한 주장과 그에 기반한 결정 및 행동 사이의 연관성을 탐구한다. 이 단계에서는 평가에 기반한 의사 결정에 따른 의도하거나 의도하지 않은 결과를 평가하고, 대부분의 측면에서, 위에 논의 된 결과 증거를 병행합니다.

Finally, the implications inference explores the link between claims for real- world performance and the decisions and actions based thereon. This step evaluates the intended or unintended consequences of assessment-informed decisions and, in most respects, parallels the consequences evidence discussed above.





기존 평가 접근법에 적용

Application to an Existing Assessment Approach


정의와 목적

Definition and purpose


학습 포트폴리오 (이하 "포트폴리오")는 일반적으로 학습자가 자신의 평가자 (즉, 유물 중 많은 부분을 선택하고 논평한다)이며 학습자가 (하나 이상의 교수들과 함께) 흔하게  분석(성찰 요소의 합성)에 기여한다는 점에서 비정형 적이다. . 

Learning portfolios (hereafter, “portfolios”) are atypical among assessments in that learners are usually their own assessors (i.e., they select and comment on many, if not all, of the artifacts), and learners also frequently contribute to the analysis (i.e., synthesis during the reflective component) along with one or more faculty members.42,56



Applying Messick’s framework


As detailed in Table 2, we find supportive evidence from all five of Messick’s sources. 

    • Two areas of concern are that residents, in the assessor (data collector) role, could bias the assessment by selectively including only favorable data,13,42,44,53 and that the use of excessive structure might impede reflection.57 

    • Both of these issues could be addressed through portfolio redesign (e.g., involving others in artifact selection). 

    • Evidence of consequences is quite extensive for portfolios, likely because they have been explicitly viewed as training interventions as well as assessment instruments.39–41 

    • While generally favorable, fairness and overall value have been questioned.43–45,47,52,55


Applying Kane’s framework

    • Kane의 접근법에서는 근거를 수집하기 전에 '의도한 사용'과 '해석/사용 주장'을 먼저 밝혀야 한다. 
      Applying Kane’s approach requires that we not only identify the intended use (i.e., to provide formative feedback, as noted above) but that we also articulate the interpretation/use argument38 (i.e., the evidence and interpretations that would support such use) before embarking on a search for evidence.17 

    • To support the proposed use, for the scoring inference we would hope to find evidence that those collecting information (typically the residents) had proper training and/ or instructions, that they were allowed sufficient time to collect their artifacts, and that the artifacts accurately reflect the original activity being assessed and contain sufficient information to allow insightful interpretations. 

    • To support generalization, we would hope to find evidence that the artifacts represent a variety of meaningful activities and collectively form a coherent, accurate, and complete picture of the resident across multiple clinical situations. Ideally, artifacts suggesting conflicting or incomplete interpretations would prompt additional data collection or a narrative explanation from the resident. We would further expect that those conducting the interpretive analysis (e.g., mentors or program directors) have appropriate training or experience, that the interpretation integrates but does not rely exclusively on the learner’s reflections, and that the analysis process is transparent and rigorous. This might include explicit consideration of personal idiosyncrasies when providing feedback (analyst reflexivity). 

    • To support extrapolation, we would hope that the final synthesis is coherent with other information (e.g., qualitative or quantitative assessments) about the resident (triangulation) and that those involved in the original activities would agree with this final synthesis (member check). 

    • Finally, to support the proposed implications, we would hope to find evidence that relevant stakeholders (e.g., the resident and program director) agree with the decision (in this case, specific feedback) based on these narratives, and that actions based on this feedback have the desired effect without unanticipated negative impact.


Further evidence and summary



과제, 불확실성, 다음 스텝

Challenges, Uncertainties, and Next Steps


Limitations of this work


질적 평가에서의 실질적 이슈

Practical issues in qualitative assessment



연구에서처럼, 평가에서 양적 및 질적 방법은 서로 다른 목적을 제공하고, 서로 다른 필요를 충족 시키며, 서로 다른 강점과 약점을 실증하기 때문에 상호 보완 적입니다. 혼합 방식 연구와 마찬가지로, 견고한 혼합 방식 평가는 각 접근 방식 (즉, 양적 및 질적)에 개별적으로 초점을 맞춰 최적의 방법, 데이터 및 인적 자원을 각각 확보 한 다음 결과를 삼각화합니다.

Just as they do in research, quantitative and qualitative methods in assessment complement one another as they serve different purposes, address different needs, and exemplify different strengths and weaknesses. As with mixed- methods research,59 robust mixed- methods assessment will ideally focus on each approach (i.e., quantitative and qualitative) separately—ensuring optimal methods, data, and human resources for each—and then triangulate the results.



질적 데이터의 수집과 일단 수집 된 데이터 분석은 정량적 평가보다 더 많은 시간, 더 많은 에너지 및 매우 다른 기술을 요구하는 경향이 있습니다. 

  • 통찰력있는 서사를 제작하고 기록하는 데 일반적으로 체크리스트 또는 평가 척도를 표시하는 것보다 시간이 오래 걸리며 여러 가지 다른 질문에 이어 프롬프트가 나오면 서술의 품질이 저하 될 수 있습니다(예 : 평가자 피로)

  • 의미있는 서술 (정확한 양적 평가와 마찬가지로)은 상황에 따른 성과를 충분히 관찰 할 필요가 있으며, 시간의 압박을 느껴 평가자는 대충 하려는 유혹을 받을 수 있습니다. 

  • 대량의 원시 서사를 의미있는, 실행 가능한 통찰력으로 합성하려면 정성 분석 기술, 상황 및 내용 별 지식 및 적절한 시간이 필요합니다. 

  • 질적 평가의 통합을 고려하는 프로그램은 평가자와 분석가를 위한 기술 개발과 같은 요구 사항을 고려해야 할 것입니다.

Both the collection of qualitative data and the analysis of data once collected tend to demand more time, more energy, and vastly different skills than do quantitative assessments. Crafting and recording an insightful narrative typically takes longer than marking a checklist or rating scale, and narrative quality may suffer if prompts are preceded by numerous other questions (i.e., assessor fatigue). Meaningful narratives (just like accurate quantitative ratings) also require sufficient observation of performance- in-context, which time-pressed assessors may be tempted to shortchange. a large volume of raw narratives that must then be distilled and synthesizedinto meaningful, actionable insights requires people with qualitative analysis skills, context- and content-specific knowledge, and adequate time. Programs considering theincorporation of qualitative assessments will need to take into account such resource requirements, which might include skill development for assessors and analysts.



모든 평가는 데이터 및 해석의 품질만큼만 견고하며, 질적 평가는 양적 측정과 다른 품질 문제의 영향을 받기 쉽습니다. 

  • 첫째, 데이터의 양과 내용에 큰 variability이 있습니다. 풍부한 내러티브 설명은 통찰력으로 포화 될 수 있지만 얕은 의견은 해석하기가 어렵고 내러티브 길이가 반드시 풍부함 또는 유용성을 반영하지는 않습니다. 평가사 훈련, 동기 부여, 시간 압박 및 피로와 같은 요소는 의견의 질에 영향을 미칠 수 있습니다. 

  • 둘째, 원시 내러티브와 그 해석에는 필연적으로 모두 평가자와 분석가의 특이성이 반영된다. 예를 들어, 평가사는 자신의 정체성을 가려 내기 위해 의견을 베일을 씌울 수 있고, 판단을 피하기 위해 강하게 indictment하지 않을 수 있습니다 .60,61 

  • 마지막으로, 질적인 데이터는 퀄리티 문제를 식별하는 것이 더 어려울 수 있습니다 신뢰성, 후광 효과, 누락 된 데이터 및 차별과 같은 조치를 쉽게 계산할 수있는 정량적 평가와는 달리 부정적인 인상을 기록합니다 60).

All assessments are only as robust as the quality of the data and interpretations, and qualitative assessments are susceptible to quality issues that are different from those of quantitative measures. 

  • First, there is inherently greater variability in the amount and content of data; rich narrative comments may be saturated with insights, whereas shallow comments are harder to interpret, and narrative length does not necessarily reflect richness or utility. Factors such as assessor training, motivation, time pressure, and fatigue can influence the quality of comments. 

  • Second, both raw narratives and synthesized interpretations will inevitably reflect the idiosyncrasies of assessors and analysts, respectively. For example, assessors may veil their comments to mask their identity or may defer strong indictments to avoid passing judgment.60,61 

  • Finally, it may be more difficult to identify problems in the quality of qualitative data (such as shallow comments, or failure to record negative impressions60) in contrast with quantitative assessment, for which measures such as reliability, halo effect, missing data, and discrimination can be readily calculated.


질적 분석은 일반적인 의미에서 일반화 될 수있는 것이 아니라, 오히려 (새로운 상황으로 이전 될 수도 있는) context-bound 인상을 정확히 반영하기위한 것이다. 따라서 샘플링은 무작위보다는 의도적으로 목적이 있으며, 일반적으로 주제별 만족을 목표로하며 반드시 큰 샘플을 필요로하지는 않습니다. 그러나 샘플링은 축적 된 증거에 반응하여 관련 이론에 따라 가이드되어야 하며 대부분의 경우 데이터의 variability을 극대화하는 데 주의를 기울여야합니다.

Qualitative analyses are not intended to be generalizable in the usual sense19,62 but, rather, to accurately reflect context-bound impressions that may transfer to new situations. Sampling is thus intentionally purposive rather than random, typically aims for thematic sufficiency, and does not necessarily require large samples. However, sampling must be guided by relevant theories, responsive to accumulating evidence, and in most cases attentive to maximizing the variability in data.



아마 단기적으로 가장 큰 도전은 교육에서의 양적 / 정신 측정 모델의 압도적 인 지배력과 비교하여 질적 평가의 적절성에 의문을 제기하는 편견과 선입견을 극복하는 것일 것입니다 .63

Perhaps the greatest challenge—at least in the short term—will be to overcome the biases and preconceptions that question the relevance of qualitative assessment in comparison with the overwhelming dominance of the quantitative/ psychometric model of assessment in education.63




Conclusions and next steps


우리는 양적 및 질적 평가 방법의 분리에 적극적으로 반대합니다 .71 오히려, 우리는 명확하게 진술 된 목적이 데이터 수집 및 분석의 성격과 접근 방식을 결정하는 "방법 중립적"접근법을지지합니다. Patton72가 말한 것처럼,

We vigorously oppose the segregation of quantitative and qualitative assessment methods.71 Rather, we advocate a “methods-neutral” approach, in which a clearly stated purpose determines the nature of and approach to data collection and analysis. As Patton72 stated,


중요한 도전은 목적과 질문에 대한 방법을 적절하게 일치시키는 것이지, 모든 탐구 상황에 대해 단일 한 방법 론적 접근을 보편적으로 그리고 무조건적으로 지지하는 것이 아니다.

a consensus has gradually emerged that the important challenge is to appropriately match methods to purposes and inquiry questions, not to universally and unconditionally advocate any single methodological approach for all inquiry situations.


양적 또는 질적 인 평가를 평가할 때 현대의 유효성 틀을 사용하도록 촉구하지만, 우리는 Messick이나 Kane을 강력하게 선호하지 않습니다. 검증에서 가장 중요한 것은 의도 된 결정의 방어 가능성을 평가하는 일관된 주장을 전략적으로 증거하고자하는 증거입니다.

Although we urge the use of a contemporary validity framework when evaluating any assessment, quantitative or qualitative, we do not strongly favor either Messick or Kane. What matters most in validation is that evidence is strategically sought to inform a coherent argument that evaluates the defensibility of intended decisions.





6 Cook DA, Brydges R, Zendejas B, Hamstra SJ, Hatala R. Mastery learning for health professionals using technology-enhanced simulation: A systematic review and meta- analysis. Acad Med. 2013;88:1178–1186.



7 Ginsburg S, McIlroy J, Oulanova O, Eva K, Regehr G. Toward authentic clinical evaluation: Pitfalls in the pursuit of competency. Acad Med. 2010;85:780–786.


8 Schuwirth LW, van der Vleuten CP. A plea for new psychometric models in educational assessment. Med Educ. 2006;40:296–300.



9 Kuper A, Reeves S, Albert M, Hodges BD. Assessment: Do we need to broaden our methodological horizons? Med Educ. 2007;41:1121–1123.


10 Govaerts MJ, Van de Wiel MW, Schuwirth LW, Van der Vleuten CP, Muijtjens AM. Workplace- based assessment: Raters’ performance theories and constructs. Adv Health Sci Educ Theory Pract. 2013;18:375–396.




 2016 Oct;91(10):1359-1369.

When Assessment Data Are WordsValidity Evidence for Qualitative Educational Assessments.

Author information

1
D.A. Cook is professor of medicine and medical education, associate director, Mayo Clinic Online Learning, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine, Rochester, Minnesota.A. Kuper is assistant professor, Department of Medicine, Faculty of Medicine, University of Toronto, scientist, Wilson Centre for Research in Education, University Health Network/University of Toronto, and staff physician, Division of General Internal Medicine, Sunnybrook Health Sciences Centre, Toronto, Ontario, Canada.R. Hatala is associate professor of medicine and director, Clinical Educator Fellowship, University of British Columbia, Vancouver, British Columbia, Canada.S. Ginsburg is professor, Department of Medicine, Faculty of Medicine, University of Toronto, scientist, Wilson Centre for Research in Education, University Health Network/University of Toronto, and staff physician, Mount Sinai Hospital, Toronto, Ontario, Canada.

Abstract

Quantitative scores fail to capture all important features of learner performance. This awareness has led to increased use of qualitative data when assessing health professionals. Yet the use of qualitative assessments is hampered by incomplete understanding of their role in forming judgments, and lack of consensus in how to appraise the rigor of judgments therein derived. The authors articulate the role of qualitative assessment as part of a comprehensive program of assessment, and translate the concept of validity to apply to judgments arising from qualitative assessments. They first identify standards for rigor in qualitative research, and then use two contemporary assessment validity frameworks to reorganize these standards for application to qualitativeassessment.Standards for rigor in qualitative research include responsiveness, reflexivity, purposive sampling, thick description, triangulation, transparency, and transferability. These standards can be reframed using Messick's five sources of validity evidence (content, response process, internal structure, relationships with other variables, and consequences) and Kane's four inferences in validation (scoring, generalization, extrapolation, and implications). Evidence can be collected and evaluated for each evidence source or inference. The authors illustrate this approach using published research on learning portfolios.The authors advocate a "methods-neutral" approach to assessment, in which a clearly stated purpose determines the nature of and approach to data collection and analysis. Increased use of qualitative assessments will necessitate more rigorous judgments of the defensibility (validity) of inferences and decisions. Evidence should be strategically sought to inform a coherent validity argument.

PMID:
 
27049538
 
DOI:
 
10.1097/ACM.0000000000001175


WBA의 타당도: 지평 넓히기 (Med Educ, 2013)

Validity in work-based assessment: expanding our horizons

Marjan Govaerts & Cees PM van der Vleuten




도입

INTRODUCTION


WBA에는 미니 임상 평가 운동, 실용 기술 직접 관찰, 전문성 미니 평가 운동, 다중 소스 피드백 및 연수생 개종자를 전형적으로 요구하는 연수 평가 보고서 등의 평가 도구가 포함됩니다 미리 정해진 규칙과 기준에 따라 수치로 점수를 매기고 훈련생의 능력에 대한 정확하고 쉽게 전할 수있는 설명을 얻는다.

Work-based assessments include assess- ment tools such as mini-clinical evaluation exercise, direct observation of practical skill, professionalism mini-evaluation exercise, multi-source feedback as well as in-training evaluation reports that typically require clinical assessors to convert trainee perfor- mance into a numerical score, according to prede- fined rules and criteria, to obtain accurate and easily communicable descriptions of a trainee’s abil- ity.


연구 결과는 총괄 평가 목적을 위한 WBA의 유용성에 심각한 우려를 제기합니다. 

  • 첫째, 현실 세계에서의 평가 작업은 예측할 수없고 본질적으로 표준화되지 않으며 여러 부서마다 동일하지 않습니다. 심리측정 관점에서 볼 때 이것은 평가의 신뢰성과 타당성에 심각한 위협을 제기합니다. 

  • 둘째, 전문가 판단이 WBA에 내재되어 있으므로 평가의 주관성에 대해 심각한 우려가 제기됩니다. 평가자는 일반적으로 측정 오류의 주요 원인으로 간주됩니다 .2.3 등급은 받아 들일 수 없도록 편향되어 있으며 후광 및 관대화 영향을받으며 성능 등급의 내부 및 내부 신뢰도는 종종 표준 이하임을 나타냅니다 .4-6

research findings raise serious concerns about utility of WBA for sum- mative assessment purposes. 

  • First, assessment tasks in the real world are unpredictable and inherently unstandardised and they will not be equivalent over different administrations. From a psychometric per- spective, this poses serious threats to reliability and validity of assessment. 

  • Second, as professional judge- ment is inherent in WBA, serious concerns are raised about the subjectivity of assessments. Raters are generally considered to be major sources of measurement error.2,3 Performance ratings are con- sidered to be unacceptably biased, suffering from halo and leniency effects, and intra- and inter-rater reliability of performance ratings are often found to be substandard.4–6


WBA에 대한 대부분의 비판은 심리측정의 정량적 틀과 일치하는 타당성과 타당화에 대한 접근에서 유래한다. 

  • 타당성은 증거 또는 이론적 근거에 의해 정당화되면서 의사 결정과 행동 측면에서 제안 된 해석과 평가 결과의 사용 (예 : 성과 등급 또는 시험 점수)이 적절하고 적절하다는 정도를 나타냅니다. 

  • 타당화는 다른 출처로부터 얻은 여러 종류의 증거를 축적하고 통합함으로써 시험 점수의 의도 된 해석과 제안 된 용도와의 관련성을 뒷받침하는 과학적으로 건전한 타당성 주장을 개발하는 것으로 정의 될 수있다.

  • 타당화는 코흐 (Koch)와 델 루카 (DeLuca) 11에 명시된 바와 같이 : '... 타당성 확인은 평가 실무에 대한 지속적인 조사를 촉진하는 생성 과정이어야한다.'

most criticisms of WBA stem from approaches to validity and validation con- sistent with the quantitative framework of psycho- metrics. 

  • In essence, validity refers to the degree to which the proposed interpretations and the uses of assessment outcomes (e.g. performance ratings or test scores) in terms of decisions and actions are adequate and appropriate, as justified by evidence or theoretical rationales.8,9 

  • Validation can then be defined as ‘developing a scientifically sound validity argument to support the intended interpretation of test scores and their relevance to the proposed use’10 through accumulation and integration of dif- ferent kinds of evidence from different sources. 

  • Or, as stated by Koch and DeLuca11: ‘..validation should be a generative process that promotes continuous inquiry into assessment practice’.


이 글은 WBA에서 타당성과 타당화에 대해 심리측정접근에만 초점을 맞춘 접근이 더 이상 적합하지 않을 수도 있다는 것을 보여주기 위함이다.

In this article, it is our intent to illus- trate that an exclusive focus on traditional psycho- metric approaches to validity and validation in WBA may no longer be appropriate


심리측정의 예측론적 틀 안에서, 평가는 일반적으로 일반화 가능한 설명이나 예측을 목표로한다. 9,12 현재 평가에서 심리측정적 담론의 중심은 진정한 성과true performance를 나타내는 진정한 점수true score의 추론에 거의 초점을 맞추고있다.

Within the predictive, deterministic framework of psychometrics, assessment typically aims for general- isable explanations or predictions.9,12 Central to the psychometric discourse in current assessment are its almost exclusive focus on the inference of a true score representing true performance;


WBA에 대한 현재의 접근법과 WBA의 타당성 확인에서 세 가지 가정이 특히 눈에 띈다

In current approaches to WBA and validation of WBA, three assumptions in particular seem to stand out:


1 학습 (전문성 개발)은 사전에 식별하고 지정할 수있는 결정적이고 선형적인 프로세스입니다. 과제 수행과 학습 (평가 점수로 표현됨)은 전형적으로 맥락과는 별도로 추상화되고 해석된다.

1 Learning (professional development) is a deter- ministic, linear process that can be identified and specified in advance; task performance and learning (as represented by assessment scores) are typically abstracted and interpreted indepen- dent of context;


2 능력으로부터 추론 된 능력은 고정적이고 영구적이며 탈맥락화된 속성, 즉피훈련자의 고유 한 특성 또는 능력이다,

2 Competence, as inferred from performance, is a fixed, permanent and decontextualised attri- bute, i.e. an inherent trait or ability of health care workers (or trainees), and


3 성과는 '객관화'될 수 있으며 평가자는 수행 할 수있는 경우 실제 수준의 성과를 관찰하고 관찰 할 수 있습니다.

3 Performance can be ‘objectified’ and assessors, if they were only capable to do so, would be able to rate and observe some true level of per- formance.



그러나 산업 및 조직 심리학의 연구 결과는 직무 수행능력은 복잡한 직무에서 특히 시간적 안정성이 결여되어 있음을 보여 주었다 .13,14 직무 수행의 실제 개인 내 편차는 개인의 변화로 인해 발생할 수있다. 동기, 피로, 능력 수준의 변화), 직업 환경의 변화 14) 이와 유사하게, 의학 교육에서의 연구 결과는 상황 (즉, 작업 환경 또는 작업 환경)이 의사의 진료행동에 결정적인 영향을 미친다는 것을 보여주었다. 예를 들면, 전문가(내과의사)의 임상추론능력은 상황에 따라 매우 specific했으며, 그 상황에서 누구를 만나느냐(환자와 의사) 또는 목표 및 설정이 어떠하느냐에 따라 달랐다.

however, findings from research in industrial and organisa- tional psychology show that job performance lacks temporal stability, especially in highly complex jobs.13,14 True intra-individual variation in job per- formance may result from changes in the individual (e.g. due to motivation, fatigue, changing levels of competence) as well as changes in the job environ- ment.14 Similarly, research findings in medical edu- cation indicate that context (i.e. task environment or work environment) critically influences behav- iours in practising doctors. Durning and col- leagues,15 for instance, reported that contextual factors affected clinical reasoning performance by experts (board certified internists) in ways that were very specific to the situation and were influenced by participants in the encounter (patient and doctor), their goals and the setting.


또한 WBA에서의 평가자의 영향은 단순히 bias가 아니며, 오히려 수행능력에 대한 대체적이고 보완적인 타당한 견해를 보여주는 것이다.

Similarly, increasing evidence from industrial and organisational psychology, as well as medical education, supports contentions that rater effects in WBA do not represent (mere) rater biases, but rather represent alternative and comple- mentary valid perspectives on trainee perfor- mance,16


최근의 연구 결과와 복잡한 사회 환경에서의 학습에 대한 이해의 증대는 WBA의 현재 타당도 증거의 중요성과 적합성이 의문시 될 수 있으며, psychometrics에 포함 된 일반적인 타당성 이론은 더 이상 유지할 수 없다고 제안합니다. 우리는 잘못된 가정하에 운영 될 수 있습니다.

Recent research findings and growing understand- ing of learning in complex social environments therefore suggest that meaningfulness and appropri- ateness of current validity evidence in WBA can be called into question, and common validity theory, which is framed in psychometrics, may no longer hold: we may be operating on faulty assumptions.




WBA와 학습의 예측가능성

WBA AND PREDICTABILITY OF LEARNING



의학 교육에서 행동 주의적,인지 주의적, 구성 주의적 학습 이론에서 기인 한 시각은 오랫동안 교육 및 평가의 발전을 주도 해왔다. 이러한 학습 이론은 공통적으로 개별 학습자에 초점을 두어 학습의 인지 적 측면 (즉, 사고와 반성)을 강조하고 학습이 학습자의 마음에 위치한 '물건'으로 간주된다는 점이 공통적이다. 이 이론들은 맥락이 학습 과정의 질과 학습이 얼마나 잘 이루어지는지에 영향을 미친다는 것을 인정하지만, 학습한 내용이나 배워야 할 내용은 맥락에 상대적으로 무관하다는 견해를 가지고있다.

In medical education, perspectives originating from behaviourist, cognitivist and constructivist learning theories have long dominated developments in instruction and assessment. These learning theories have in common that they focus on individual learners, that they stress cognitive aspects of perfor- mance (i.e. thinking and reflection) and that learn- ing is treated as a ‘thing’ or product located in the mind of the learner. Although these theories acknowledge that context influences quality of learning processes and thus how well learning occurs, their view is that the nature of what is learned or is to be learned, is relatively independent of context.17


그들은 일반적으로 직무 학습을 공식 학습과 유사한 선형 과정으로 취급하는데, 학습자가 무능력incompetent에서 유능함competent으로 발전하여 학습 및 성과 개발을 형성하는 데 사회, 문화 및 조직적 요인의 역할을 거의 무시합니다.

They generally treat workplace learn- ing as a linear process, akin to formal learning, through which a learner develops from incompetent to competent, largely neglecting the role of social, cultural and organisational factors in shaping learn- ing and performance development.


그러나 지난 수십 년 동안 직장에서의 학습에 대한보다 강력한 이론이 나타 났다.

During the past decades, however, more robust theories of work- place learning have emerged,



특히 직장 학습의 사회문화이론 그룹은 직장 환경에서 학습을 이해하는 데보다 강력한 틀을 제공하는 것으로 보인다. 사회 문화적 학습 이론학습은 공동체의 활동에 적극적으로 참여하고 작업 환경의 복잡하고 역동적 인 시스템과 상호 작용함으로써 출현한다고 주장한다 .18 따라서 이 이론에서는 학습과 전문성 개발이 학습이 일어나는 맥락의 특징들과 불가분의 관계로 본다. 즉, 맥락이 변화함에 따라 학습 과정은 물론 학습 결과가 변한다 .17,19 연수생이 무엇을, 어떻게, 왜 배우는지는 피훈련자와 공동 참여자 (예 : 감독자, 평가자, 동료 및 임상 적 맥락에서의 환자들)들의 경험, 의미, 결과에 따라 달라진다.

Especially the group of socio-cultural theories of workplace learning seem to offer more powerful frameworks for understanding learning in workplace settings . Socio-cultural learning theories claim that learning and learning outcomes emerge through active participation in activities of a community and interaction with the complex and dynamic systems of the work environment.18 Socio-cultural learning theories therefore consider learning and expertise development to be inextricably linked to features of the context in which the learning occurs; learning processes as well as learning outcomes change as contexts change.17,19 What, how and why trainees learn is shaped by unique experiences and the meaning or consequences that trainees and co-par- ticipants (e.g. supervisors, assessors, co-workers and patients in a clinical context) attach to these experi-ences.9 


사회적 상호 작용에 의해 생성 된 지식에 중점을 둔 사회 문화적 학습 이론은 특히 임상환경의 학습에서 유용하다. 임상환경의 학습은 다음과 같은 특징을 갖는다.

Socio-cultural learning theories, with their focus on knowledge produced by social interaction, are particularly useful for thinking about learning in clinical training and health care settings. 

  • In these settings, learning is produced by a trainee’s engagement in non-standardised and unpredictable tasks of authentic health care practices and the ongoing social interaction around authentic tasks, shaped by (unique) physical, social and organisational contexts.20 

  • Learning in clinical work settings then inevitably becomes a dynamic, non-linear and non-deterministic process. 

  • The increasing complexity of health care as well as its ever-changing context furthermore demand that we move beyond predictability of individual learning and competence towards conceptualisations of competence as a collective, sit-uated and dynamically produced through interac- tion and learning in functional clinical groups.20 


(개인 능력에서 팀 경쟁력으로 초점을 전환해야하는) 팀 기반 진료가 보건 의료 시스템에서 급속도로 표준화되고있을뿐만 아니라 헬스케어시스템의 복잡성과 역동성은 더 이상 역량을 "달성해야 하는 상태"로 볼 수 없다는 것을 의미합니다. 오히려 요즘 업무 기반 학습 및 역량의 개념에는 변화에 지속적으로 적응할 수있는 능력이 포함되어야합니다. 역량은 지식과 기술의 습득에 관한 것이 아니라 변화하는 업무 프로세스에 대한 응답으로 새로운 지식을 창출하는 능력에 관한 것입니다 .21 이러한 관점에서 학습은 지속적으로 진화하는 상황에 적응하는 사회적 네트워크 및 실천 공동체에서의 협력 적 프로세스를 통해 '아직 존재하지 않는 것'을 학습하는 것을 포함한다.22,23

Not only is team-based care rapidly becoming the norm in our health care systems (requiring a shift in focus from individual competence to team com- petence), the complex and dynamic nature of health care systems also implies that we can no longer see competence as ‘a state to be achieved’. Rather, nowadays, notions of work-based learning and competence should include the ability to con- tinuously adapt to change. Competence it is not just about acquisition of knowledge and skills, but about the ability to create new knowledge in response to changing work processes.21 From this perspective, learning involves learning things ‘that aren’t there yet’, through exchange and interactions in social networks and collaborative processes in communi- ties of practice that adapt to continuously evolving circumstances.22,23


학습자와 환경 사이의 복잡하고 역동적 인 상호 작용 프로세스에서 '학습자와 환경은 서로를 재구성합니다'. 학습은 '팽창적'이며 학습은 '끊임없이 변화하는 환경의 도전에 맞추어 유연하고 건설적이며 혁신적인 방식으로 행동하는 (집단적) 능력의 향상'이라는 개념으로 해석 될 수있다 .17 따라서 미래의 실천을위한 학습은 학습 분명한 종점이없는 진행중인 프로세스입니다. 학습은 결코 끝나지 않습니다. 이것은 학습이 잘 정의되고 안정된 학습 성과로 계획되고 공식적인 사건에 초점을 맞추는 의학 교육의 전통적인 접근 방식에 직접적으로 반대된다. 따라서 직장 학습의 최근 이론은 예측 가능하고 결정할 수있는 직장 학습 시스템이 설계 될 수 있는지에 대해 의문을 갖는다. 이론들 중 일부는 복잡성 이론에 기초를두고 있으며, 학습은 예측 불가능하고 예기치 않은 방식으로 그 맥락에서 창발적으로 발생하는 창조적 인 과정이라고 강조한다.

Complex and dynamic interactive processes between the learners and their environ- ment then ‘mutually reconstruct both the learner and the environment’. Learning is ‘expansive’22 and can be conceptualised as ‘an increasing (collective) capacity for acting in flexible, constructive and inno- vative ways appropriate to the challenges of ever changing circumstances’.17 Learning for future prac- tice thus implies that learning is an ongoing process without a clear endpoint; learning is never com- plete. This is directly opposed to traditional approaches in medical education where learning focuses on planned, formal events with well-defined and stable learning outcomes.24 Very recent theories of workplace learning therefore explicitly question whether predictable and decidable systems of work- place learning can be designed and implemented. These theories, some of which build on complexity theory, emphasise the view that learning is an ongo- ing creative process, emergent from its context in unpredictable and unanticipated ways.17


비록 사회 학습 이론이 의학 교육에서 점차적으로 사용되고 있지만, 현재의 이론의 상당 부분은 직장 학습을 이해하고 설명하려는 목적이 있어서, 양질의 학습을 지원하고 향상시킬 수 있는 균일한uniform 조건을 확인하고 실행하려고 한다. 실제로 직업 기반 학습 및 WBA를 향상시키기위한 많은 노력은 전문성 개발의 '올바른'이론 개발을 통해 훈련생의 학습을 예측 가능한 방식으로 조장하는 임상 교육의 설계를 목표로하는 것으로 보입니다. 또한 학습 환경 (예 : 주요 프로젝트)에서 사전에 정의 된 단계마다 달성해야하는 역량표준을 명시하려는 것도 한 방법이다25

Although social learning theory is increasingly beingused in medical education,19 much of current theo- rising still seeks to understand and explain work- place learning so that conditions that uniformly support and enhance quality learning can be identi- fied and implemented. In fact, a lot of current efforts to improve work-based learning and assess- ment seem to aim for the design of clinical training that steers trainees’ learning in predictable ways, through development of the ‘right’ theories of pro- fessional development, better analyses of task envi- ronments and the technology to model them,12 as well as specifying standards for competent perfor- mance that have to be achieved at predefined stagesin the learning process (e.g. milestones project).25 



이러한 (마치 법과 같은) 예측 가능성은 평가, 학습 및 성과 모델을 psychometric 프레임 워크와 호환 가능하게 만드는 데 필요합니다. 그러나 학습이 본질적으로 상황 의존적이고situated, 협동적이며, 변형적이고 팽창적인 (즉, 재생산보다는 지식 생산에 초점을 맞춘)것이라고 보는 개념은 학습 내용의 예측 가능성과 통일성에 대한 가정에 도전한다. 미리 정의 된 학습 성과에 초점을 맞춘 평가는 반드시 전문성 개발 과정의 arbitrary한 단계를 지나치게 단순화한다.

Such (law-like) predictability is neces- sary to make models of assessment, learning and performance compatible with the psychometric framework. However, conceptualisations of learning as inherently situated, collaborative, transforma- tional and expansive (i.e. focusing upon knowledge production rather than reproduction) challenge assumptions of predictability and uniformity in what is learned and what is to be learned. Assessment that focuses on predefined and specified learning outcomes then necessarily becomes an oversimplifi- cation of an arbitrary stage in the process of profes- sional development.26



WBA와 고정된 특성으로서의 역량

WBA AND COMPETENCE AS A FIXED ATTRIBUTE


과제나 상황에 따라 달라지는 맥락 특이성 또는 수행능력 변화가 의학 교육에서 잘 알려진 현상이지만, 평가 및 그 타당성 평가에 대한 접근 방식은 다음과 같은 가정을 기반으로합니다. "'측정'가능한 '진짜' 수행능력의 수준이 있고, 시간, 작업, 상황의 변화에 따라 발생하는 개개인의 수행능력의 차이variability는 측정오차로 간주한다' 역량은 전문 영역 내에서 성능 샘플링으로 추측 할 수있는 안정적인 특성으로 개념화되며, 일단 개발되고 확립 된 전문 지식은 한 상황에서 다른 상황으로 이전 할 수 있는 것으로 간주됩니다. 실제로, 대부분의 면허 및 인증 절차는 이 가정을 정확히 설명하는 듯 하다.

Although context specificity or performance variabil- ity from one case or task to the next is a well-known phenomenon in medical education,27 current approaches to assessment and its validation build on assumptions that there must be some level of true performance that can be ‘measured’: variability of an individual’s performance over time or across tasks and work settings is typically viewed as mea- surement error. Competence is conceptualised as a stable trait, to be inferred from performance sam- pling within the professional domain, and expertise, once developed and established is considered to be portable and transferable from one context to another. In fact, most licensure and certification procedures seem to build on exactly this assump- tion.



이러한 능력과 전문성의 개념화에 도전하는 연구가 점차 증가하고 있습니다. 개인 내의 편차는 상당하다. 개인 간 차이만큼 커질 수있다 .28-30 학습 과정에서 학습자의 수행능력은 전문적인 실습 참여를 통해 배우고 발전함에 따라 변화한다는 것은 자명하다. 실제로, 현재 WBA의 초점은 성과 및 전문성 개발을 향상시키기위한 지속적인 평가와 피드백이다.

There is an increasing body of research that chal- lenges these conceptualisations of competence and professional performance. Within-person variation in performance is substantial and can be as large as between-person differences.28–30 Obviously, perfor- mance of learners changes during training, as they learn and develop through participation in profes- sional practice. Indeed, the focus of current WBA is ongoing evaluation and provision of feedback to improve performance and expertise development.31



또한 우리는 학습자와 전문직 종사자가 항상 최선을 다하고있는 것은 아니며, 그 수행은 날마다 또는 심지어 같은 날안에서도 다양하다는 것을 쉽게 인정할 수 있다. 특히 복잡한 작업에서 성능은 시간적 안정성이 부족합니다 .13,14 이유는 동기 부여가 될 수 있습니다 (예 : 충돌하는 작업으로 인한 성과 목표 및 노력의 변화), 생리적 (예 : 피로) 또는 개인 성능에 영향을주는 기타 불안정한 원인 기분 또는 정서적 경험 .32

We also readily accept that learners and profession- als are not always performing at their best, and that performance varies from day to day or even within the same day. Especially in highly complex jobs, per- formance lacks temporal stability.13,14 Reasons may be motivational (e.g. changes in performance goals and effort due to conflicting tasks), physiological (e.g. fatigue) or any other unstable cause affecting individual performance, such as mood or emotional experiences.32


더 중요한 것은, 작업 환경에서의 성과의 역동적 특성이 환경 요인에 의해 유발된다는 것이다. 즉 전문가조차 작업 환경의 기회와 제약에 의해 영향을 받는다. 산업 및 조직 심리학 및 인적 자원 관리 분야의 연구 결과에 따르면 Talented performance란 한 회사에서 다른 회사로 직접 옮겨 갈 수 있는 것이 아니며, 이는 talent는 '구입가능하다'라는 조직의 인적자원의 근본 가정에 도전하는 것이다.

More importantly, however, there is an increasing body of research indicating that the dynamic nature of performance in work settings is caused by envi- ronmental factors, i.e. opportunities and constraints in the work setting, even in experts and talented performers. Research findings in industrial and or- ganisational psychology and human resource man- agement suggest that talented performance is not directly portable from one company to another, thereby challenging one of the foundational assumptions underlying human resource practices in organisations, namely that talent can be bought.


일반적으로 연구 결과에 따르면 성과는 상황에 따라 다르며 '새로운 환경에서 주어지는 과제에 맞지 않는 한 재능은 이전되지 않을 것'이라고 나타났습니다 .33 

  • 예를 들어, 월스트리트의 '스타'는 다른 회사로 옮긴 후 장기간의 실적 하락이 있었고 실적 저하가 최대 5 년간 지속되었습니다 .34 

  • 연구 결과에 따르면 새로운 역할과 업무 환경의 특정 기능이 성과 저하에 영향을 미쳤습니다. 작업 수행의 맥락적이고 상황적 성질은 동료 집단과 함께 움직인 스타가 단독으로 움직인 경우보다 수행능력이 뛰어났다는 사실에 의해 확인되었다. 

  • 리더쉽의 이식성에 관한 연구는 뛰어난 재능을 가진 최고 경영자가 다른 회사로 옮겼을 때 항상 능력이 발휘되지는 않는다는 것을 보여주었습니다. 기술과 경험이 새 직업에서 가치있게 증명되었는지 여부는 새로운 작업 환경의 특수한 특성에 달려있다 .33 

  • 마찬가지로 축구 선수의 개인별 성과 변화에 대한 연구에 따르면 변화의 상당 부분이 행동을 제한함으로써 설명 될 수 있었다 팀원을 포함한 다른 사람들의 더욱이 환경 적 제약에 대한 민감성은 플레이어와 작업의 복잡성에 따라 달라 지므로 성능은 사람, 작업 및 환경 간의 상호 작용에 의해 결정된다는 것을 암시합니다 .30 

이러한 결과는 문화적, 사회적 환경 및 특정 작업 환경에서 개인 및 그룹과의 지속적 상호작용의 산출물로서의 성과의 개념과 일치합니다. 

In general, research findings indicate that perfor- mance is contextual and that ‘talent won’t transfer unless it maps to the challenges of the new environ- ment’.33 

  • For instance, ‘star’ investment analysts on Wall Street showed significant short- and long-term performance decline after moving to another firm and the drop in performance persisted for up to 5 years.34 

  • Research findings suggested that specific features of the new role and work setting influenced the drop in performance. The contextual and situ- ated nature of job performance was affirmed by findings that stars who moved with a group of col- leagues performed better than those who moved solo. 

  • A study on the portability of leadership also showed that highly talented chief executive officers who were recruited by other firms did not always deliver; whether skills and experience proved valu- able in the new job depended on specific character- istics of their new work environment.33 

  • Similarly, research on intra-individual performance variation in football players showed that a significant portion of variance could be explained by constraining actions of others, including teammates. Moreover, susceptibility to environmental constraints varied across players and job complexity, suggesting that performance is determined by the interaction between person, task and environment.30 

These findings are consistent with the notion of perfor- mance and competence being the product of cul- tural and social circumstances and of ongoing interaction with individuals and groups (teams) in a specific work setting.



최근 의학 교육에 대한 연구는 지식의 안정과 숙달과 지식의 일반적인 이전 가능성에 대한 가정을 동등하게 다루지 않는다. 예를 들어, Wenghofer와 그의 연구진은 의사의 성과에 대한 연구에서, 의사의 작업 환경과 체계적 (지역 사회 관련) 요인이 성능에 크게 영향을 미치고 다수의 수행능력에 다양한 영향을 미친다는 사실을 발견했습니다. 이 연구는 의사 자체의 요인이 수행능력에 유의미한 영향을 주었지만, 기존에 가정한 것 만큼 중요하지는 않다는 것을 보여주었습니다. 의사 행동에 대한 상황의 비판적인 영향은 Ginsburg와 동료 연구에서도 설명되었는데, 의사의 수행능력은 '각 상황에 고유한 다중적인 상호의존적이고 특이한 힘'의 영향을 받는다고 결론 지었다.

Recent research in medical education equally chal- lenges na€ıve assumptions about performance stabil- ity and generic transferability of knowledge and skilful practice. In their study on family practitio- ners’ performance, Wenghofer and colleagues,35 for instance, found that the doctor’s work setting as well as systemic (community-related) factors signifi- cantly impacted performance, with varying effects across different performance dimensions. The study furthermore showed that, although doctor factors significantly influenced performance, they were not nearly as important as previously assumed. The criti- cal influence of context on doctor behaviour was also illustrated in a study by Ginsburg and col- leagues,36 con- cluded that a doctor’s performance was subject to ‘multiple interdependent, idiosyncratic forces unique to each situation’.


맥락적 요소와의 상호 작용으로 인한 성능 변화는 '측정 오류'로 기각되어서는 안되며 개인의 전문 역량을 평가할 때 잠재적으로 가치 있고 의미있는 정보로 간주되어야합니다 .37

perfor- mance variability resulting from interaction with con- textual factors should not be dismissed as ‘measurement error’, but considered as potentially valuable and meaningful information in the appreci- ation of an individual’s professional competence.37




WBA와 수행능력의 객관화

WBA AND OBJECTIFICATION OF PERFORMANCE


사회 문화적 관점에서 볼 때, 퍼포먼스는 사회적으로 구성되며 각 개인의 인식과 작업의 상황 별 특성과의 상호 작용에 의해 결정됩니다. 이 프레임 워크를 작업 환경에서의 성과 평가에 적용하면, 수행능력에 대한 '그림'은 결코 객관적 일 수 없으며, 항상 개별 평가자의 관점과 가치에 따라 개념화되고 구성됩니다. 평가는 평가자 자신의 독특한 경험, 평가 과제 및 그 맥락에서의 사회적 구조에 영향을 받았다.

From a socio-cultural perspective, performance is socially constructed and determined by each per- son’s perception of and interaction with situational characteristics of the task at hand. When this frame- work is applied to the assessment of performance in work settings, a picture emerges of performance that can never be ‘objective’, but is always concep- tualised and constructed according to the perspec- tives and values of an individual assessor, influenced by his or her unique experiences and the social structures in the assessment task and its context.38


실제로, 산업 및 조직 심리학에서의 연구 결과는 작업 환경에서의 성과에 대한 평가자의 판단이 현장에서만 이해 될 수 있음을 나타냅니다. 평가자의 행동은 평가가 이루어지는 맥락 내에서 이루어집니다. 

  • WBA에서 평가자는 복잡하고 예측할 수없는 업무에 종사하고 있으며, 시간 압박과 상충되는 목표, 정의가 불분명한 목표를 자주 직면합니다. 39,40 

  • 평가자의 행동과 평가 결과는 개인간의 관계 (학습자 및 동료와의 관계), 정치적, 정서적 및 문화적 요인과 같은 업무 환경에서의 다양한 다른 요소들에 의해서도 영향을 받는다.

In fact, research findings in industrial and organisa- tional psychology indicate that assessors’ judgements of performance in work settings can only be under- stood in situ: assessor behaviours are framed within the context in which assessment takes place. In WBA, assessors are engaged in complex and unpre- dictable tasks, more often than not in a context of time pressures and conflicting as well as ill-defined goals.39,40 Assessors’ behaviours and assessment out- comes are furthermore influenced by a broad range of other factors in the work context, such as inter- personal relationships (with the learner as well as with co-workers), political, emotional and cultural factors.41,42


구성 주의자, 사회 문화적 평가 방법에서 평가자는 더 이상 수동적 측정 도구가 아니고, 평가 컨텍스트의 자체적인 현실성을 해석하고 구성하는 능동적인 정보 처리자이다. Deres와 Petrosky가 말한 것처럼 43) : '재판관'의 가치관, 경험 및 관심사는 복잡한 수행능력을 해석 할 수있게 해주는 요소이지만, 광범위한 훈련과 보정을 하더라도 이들을 구분지어주는 특성이 절대 사라지지 않을 것이다.

Central to constructivist, socio-cultural approaches to assessment is the view that assessors can no longer be seen as passive measurement instruments, but as active information processors who interpret and construct their own personal real- ity of the assessment context. Or, as stated by De- landshere and Petrosky43: ‘Judges’ values, experiences, and interests are what makes them capable of interpreting complex performances, but it will never be possible to eliminate those attributes that make them different, even with extensive train- ing and “calibration”.’


이것은 실무 집단 내에서 그리고 그 사회 전반에 걸쳐 정직한 의견 차이가있을 수 있음을 의미한다. 예를 들어 환자와의 만남에서 적절한 감독자 평가자의 동의는 동료, 연수생 또는 환자. 평가자의 해석 및 성과 관련 행동의 점수 산정에서의 차이점은 '각각의 소스가 각기 다른 상황에서의 행동을 평가할 때, 공통된 개인의 직업 성과에 대한 별개의 견해'로 볼 수있다. 

This implies that there can be honest disagreement within and across communi- ties of practice: a specific supervisor–assessor’s con- ception of appropriate performance in, for instance, a patient encounter may be different from that of co-workers, the trainee or the patient. Differences in an assessor’s interpretation and scoring of perfor- mance-related behaviours may then be viewed as ‘distinct views of a common individual’s job perfor- mance that may be equally valid’44 or ‘meaningful differences in….. behavior across sources, especially when each source rates… behavior in different situ- ations’.16


최근 의학 교육에 관한 연구 45,46은 산업 및 조직의 정신병 학에서 발견 한 사실을 확인시켜 준다. Govaerts 등의 연구에 따르면 연수생의 성과를 관찰하고 평가할 때 평가자는 업무 효율성에 관한 판단과 결정에 도달하기 위해 작업 별 성과 이론 및 사람 스키마와 함께 일반적인 방법을 사용했습니다.

Recent research in medical education45,46 confirms findings from industrial and organisational psychol- ogy. A study by Govaerts et al.46 showed that, when observing and evaluating trainee performance, assessors interac- tively used general as well as task-specific perfor- mance theory and person schemas to arrive at judgements and decisions about performance effec- tiveness.


이러한 발견은 WBA에 대한 사회 문화적 접근을 지원하며, 평가자는 훈련, 사회화 및 업무 경험을 통해 자신의 성과 이론 및 역량 개념을 구성하고 재구성하는 '사회적 인식자'로 간주되어야합니다. 따라서 작업 환경의 평가자는 본질적으로 특이한 것idiosyncratic이므로 다수의 평가자는 다수의 현실을 구성하게됩니다.

These find- ings provide support for socio-cultural approaches to WBA, in which assessors are to be seen as ‘social perceivers’ who construct and reconstruct their own performance theories and conceptualisations of competence through training, socialisation and task experience. Consequently, assessors in work settings are inherently idiosyncratic, and multiple assessors will have multiple constructed realities.



WBA와 타당화에 대한 함의

IMPLICATIONS FOR WBA AND VALIDATION


이 논문에서 제시된 연구와 통찰력을 토대로, 우리는 WBA가 본질적으로 가치-의존적인, 사회적 해석적 행동이라고 주장하고 싶다. 평가 과정에 참여한 개인의 경험, 의미, 의도 및 해석을 반영한다 ( '해석 적 공동체'). 47 사회 문화적 이론에 근거한 학습과 수행의 개념은 학습 성과에만 중점을 두는 것이 아니라, 오히려 그보다도 역동적이고 복잡한 작업 환경 설정에서 벌어지는 학습, 퍼포먼스 및 퍼포먼스 해석의 기초가 되는 프로세스에 대해 초점을 두기를 바란다. 이는 평가의 목적이 학습이나 학습 결과를 '객관적으로' '정확하게'정량화하는 것이 아니라 피훈련자와 의사가 무엇을, 어떻게, 왜 배우고 있는지 이해하는 것임을 의미합니다. 이것은 학습자, 학습 환경 및 학습이 일어나고있는 더 큰 사회 시스템과의 관계 등의 상황을 이해하고 설명하는 것을 수반한다. 평가 질문Assessment question은 학습자의 경험, 그들이 참여한 활동 학습 성과, 학습 결과 및 성과 해석을 형성하는 사회적, 문화적, 윤리적 문제에 대한 것이어야 한다.

On the basis of the research and insights presented in this paper, we want to argue that assessment in work settings is a socially situated interpretive act, which is inherently value laden. It reflects the expe- riences, the meanings, intentions and interpreta- tions of individuals involved in the assessment process (‘the interpretive community’).47 Concep- tions of learning and performance based in socio- cultural theory call for assessment that does not just focus on learning outcomes, but also (and perhaps even more so) on the processes underlying learning, performance and performance interpretations in dynamic, complex workplace settings. This implies that the purpose of assessment is not to ‘objectively’ and ‘accurately’ quantify learning or learning out- comes, but to understand what, how and why train- ees and doctors are learning. This entails under- standing and explicating context, i.e. the relation- ship between learners, the learning environment and the larger social systems within which learning is occurring.9 Assessment questions need to address learners’ experiences, the activities that they are engaged in as well as the social, cultural and ethical issues that shape learning, learning outcomes and performance interpretations.12



질적 연구 패러다임 (예 : 구성 주의자 - 해석 적) 내에 위치하는 질의 시스템이 여기에 적합하다.

Inquiry systems that are situated within qualitative research paradigms (e.g. constructivist- interpretive) seem to be well suited for this task.


지난 수십 년 동안 사회 구성 론적, 사회 문화적 학습 이론과 이론에 입각하여 평가에 대한 '해석주의적 접근'이 제안되었다. 9,11,12,48,49 이러한 접근 방식의 중심적인 특징은 다음과 같다. 해석주의적 접근에서 성과 평가는 절대적이고 객관적인 진리가 아니라 사회적 구조 또는 그에 대한 해석으로 간주된다 49. 성과의 '진정한'점수 또는 '객관적인'점수는 없습니다. 오히려 '진실'은 특정 시점에서, 최대한 정보에 입각하여 성과에 대한 정교한 판단을 내려야 하는 평가사들 사이의 합의의 문제입니다.

During the past decades, ‘interpretivist approaches’ to assessment have been proposed, in line with social-constructivist and socio-cultural theories of learning and performance.9,11,12,48,49 A central fea- ture of these approaches is that performance assess- ments are seen as social constructions or interpret- ations, rather than absolute, objective truths49; there is no single ‘true’ score or ‘objective’ rating of per- formance. Rather, ‘truth’ is a matter of consensus among assessors who have to arrive at judgements on performance that are as informed and sophisti- cated as can be at a particular point in time.



각 접근법에는 고유 한 기원과 뉘앙스가 있지만 해석 주의적 평가 접근법의 주요 특징은 다음과 같이 요약 할 수있다 43,48,49,51 :

Although each approach has its own origin and nuances, key char- acteristics of interpretivist assessment approaches could be summarised as follows43,48,49,51:


1 WBA 평가에서 task은 상호교환가능한 것은 아니나, 학습 및 평가에 고유한 기여를 합니다. WBA는 평가자와 평가 대상자 사이에'사회적으로' 구성되므로, 학습자는 일반적으로 situated assessment process를 파악하기 위해 학습 및 평가 활동을 문서화 한 서류 또는 포트폴리오를 준비합니다. 평가는 학습자가 학습하고 경험하는 내용, 학습 목표 및 학습 계획, 평가 활동 (예를 들어 작업 샘플링) 및 성과 평가를 문서화하기 위해 학습자가 작업 (및 학습)하는 상황을 설명하도록 요구합니다. 학습자가 특정 평가 작업의 요구를 어떻게 인식하는지 아는 것은 퍼포먼스 해석에서 중요한 정보이다. 따라서 학습자의 관점은 일반적으로 평가 프로세스에 통합되며, 피드백 사이클과 학습 및 업무 성과에 대한 비판적인 분석 및 성찰이 포함됩니다.

1 In WBA assessment, tasks are not interchange- able, but make unique contributions to learning and assessment. As assessments in work settings are ‘socially constructed’ between assessors and the person who is being assessed, learners typi- cally prepare a paper or portfolio documenting their learning and assessment activities to cap- ture situated assessment processes. Assessment asks learners to describe the contexts in which they work (and learn), to document their learn- ing experiences, learning goals and learning plans as well as assessment activities (work sam- pling, for instance) and performance evalua- tions. Knowing how a learner perceives the demands of any particular assessment task is considered critical information in performance interpretations. Therefore, the learner’s point of view is typically incorporated in the assess- ment process, as are intermittent feedback cycles with critical analyses and reflection on learning and task performance;


2 평가는 수치 적 점수가 아닌 서술에 의존합니다. 전문가 판단 (평가가 이루어지는 맥락에 대해 가장 잘 알고있는 사람, 의도적으로 파악하고 설명하는 사람)을 통해서 성과에 대해 정교하고 서면으로 평가 된 의견을 형성함으로써, 의도적으로 성과의 맥락-특이적 측면을 잡아낸다. 점수 자체만으로는 의미가 없기 때문에, 평가 도구는 평가자가 학습자의 역량 개발을 이끌어 내고 역량 달성에 관한 의사 결정에 의미있는 서술문을 제공하는데 도움이 되어야 한다.

2 Assessments rely on narratives rather than numerical scores: assessments seek to purpose- fully generate elaborate, written evaluative state- ments about performance by expert judges – those who are most knowledgeable about the context in which assessment occurs, intention- ally capturing and accounting for context-spe- cific aspects of performance. As scores have little intrinsic meaning, assessment instruments challenge assessors to provide narrative com- ments that are useful in guiding the learner’s competence development as well as meaningful in decision making about competence achieve- ment;


3 평가 프로세스의 모든 이해 관계자는 지속적으로 도전을받으며 기본 해석과 가정 해석을 문서화해야합니다.

3 All stakeholders in the assessment process are thus continuously challenged and required to document their performance interpretations as well as to articulate underlying values and assumptions;


4 개인의 성과 레퍼토리를 심층적으로 이해하고, 다양한 업무 요구 사항에 대한 적응 능력을 알기 위해 광범위한 업무, 상황 및 평가자로부터 성과 평가가 수집됩니다.

4 Written performance evaluations are collected across a broad range of tasks, contexts and assessors, in order to gain in-depth understand- ing of a person’s performance repertoire and capability to adapt to various task requirements,


5 역량에 대한 추정은 평가과정에서 이해 관계자 간의 공개적인 심사숙고와 대화를 통해 사용 가능한 모든 성과 증거를 비판적으로 검토하는 것을 기반으로합니다. 해석적 접근에서 해석은 단일 시기의 성과 또는 단일 성과 문서에 한정되지 않는다. 의미있는 해석은 평가 및 성능 평가 전반에 걸쳐 구성 될 수 있고, 그래야 한다. 여러 출처로부터의 데이터는 작업 및 성격 전반에 걸친 성과 패턴뿐만 아니라 외향적 측면의 성과를 식별하기 위해 삼각측량, 검토 및 논의되어야한다. 전체적인 수준의 성과에 대한 일관된 해석이나 통합적 판단이 내려질 때까지 해석은 모든 가용 증거를 활용하여 반복적으로 검증된다. 필요하다면, 결정은 성과의 특정 측면에 관한 추가 정보 수집을위한 조사 전략을 포함한다. 이것은 '아무것이나 해도 된다anything goes'는 의미는 아닙니다. 

5 Inferences about professional competence are based on critical review of all available perfor- mance evidence, through open deliberative and critical dialogue among stakeholders in the assessment process. An interpretive approach does not imply that interpretations are bound to single assessment occasions or to single per- formance documentations. Meaningful interpre- tations can, and should be, constructed across assessment occasions and performance evalua- tions. Data from multiple sources are to be tri- angulated, reviewed and discussed to identify patterns of performance across tasks and con- texts as well as any outlying aspects of perfor- mance. Interpretations are repeatedly tested against all available evidence, until a coherent interpretation or an integrative judgement on an overall level of performance can be accounted for43,48. If necessary, decisions involve inquiry strategies for additional informa- tion gathering about specific aspects of perfor- mance. This does not mean that ‘anything goes’; 


본질적으로 최종 결정을 내릴 때는 전문적인 판단이 필요합니다. 전문적인 판단은 그 판단이 방어 가능하고 신뢰할 수있는 방식으로 증명되고, 동기 부여되고 구체화되어야합니다. 성과 평가를 안내하기 위해 가치 및 표준에 대한 집단 토론을 통해 상호주의적인 범주 또는 차원을 개발할 수 있습니다. 증거에 대한 비판적 검토, 의사 결정 과정의 문서화, 다른 해석 및 가정에 대한 의문 제기는 모두 필수적이며 최종 결정의 타당성과 공정성에 기여합니다. 평가의 해석적 접근의 강점 중 하나는 추적가능성이며, 이는 풍부하고 의미있는 정보와 가치와 표준에 대한 문서화에 의해 이뤄진다. 외부 평가자는 프로세스가 공정하고, 전문적인 표준을 반영하며, 무능한 전문가로부터 일반 대중을 보호하기에 충분히 엄격하다는 것을 보증하기 위해 감사 역할을 맡을 수 있습니다. 이러한 관점에서, 해석적 평가는 평가자의 생각을 숨기는 일련의 점수에 의존하는 평가보다 더 신뢰할 수있다.

essentially, final decision making requires professional judgements that should be corrobo- rated, motivated and substantiated in such a way that the judgement is defensible and credi- ble. To guide the performance evaluation, inter- pretive categories or dimensions can be developed through collective discussion of val- ues and standards. The critical review of the evi- dence, the questioning of the different interpretations and assumptions as well as the documentation of the decision-making process are all essential and contribute to the validity and fairness of the final decision. Part of the strength of interpretive approaches to assess- ment is its traceability, through documentation of rich, meaningful information and articulation of values and standards. External evaluators may then assume an auditing role to ensure that the process is equitable, reflects pro- fessional standards and is sufficiently rigorous to protect the public from incompetent profession- als. In this respect, interpretive assessment may be more trustworthy than assessments relying on a set of scores that mask assessors’ think- ing.51



평가에 대한 이러한 견해는 심리측정 기반의 환원주의적 (실증주의 중심의) 접근 방식과는 근본적으로 다르다. 그럼에도 심리측정적 기반과 구성주의- 상호주의적 평가 방법이 갖는 공통점은 신뢰할만한 증거에 근거하여 전문역량에 대한 신뢰성 있고 방어 가능한 추론을 해야 한다는 것이다. 두 가지 틀 내에서 평가 타당성 확인은 '관찰 된 성과에서 결론 및 결정으로 이어지는 일련의 추론 및 가정의 개발'과 '이러한 추론 및 가정의 타당성 평가 ... 적절한 증거의 사용'을 포함한다.

These views on assessment are fundamentally differ- ent from prevailing psychometric-based, reductionist (positivist-oriented) approaches to assessment. What both the psychometric-based and constructivist-inter- pretivist assessment approaches have in common, though, is that inferences about professional compe- tence need to be credible and defensible, based on trustworthy evidence. Within both frameworks, assessment validation comprises the ‘development of a series of inferences and assumptions leading from the observed performances to conclusions and decisions…’ and ‘evaluation of the plausibility of these inferences and assumptions ….. using appro- priate evidence’.52



분명히, 정량적 평가와 관련된 신뢰성과 타당성에 대한 전통적인 관념은 상황에 따른 성과 해석의 평가에서는 유용성이 제한적이다. 해석주의적 평가 접근법의 근본적인 가정은, 이론적인 틀로서의 타당성 이론과 질적 평가에서 타당화 과정에 사용될 개념적 도구를 요구한다. 해석주의자 평가 접근법에서 사용되는 질적탐구의 '타당성'을 결정하기 위하여 이러한 도구가 사용되어야 한다. 링컨 (Lincoln)과 구바 (Guba) 53,54의 평가에 대한 고전적 연구에서 구성주의자 - 해석주의자 평가의 적절성을 판단하는 데 사용할 수있는 기준이 제안되었습니다. 평가 품질을 평가하기위한 신뢰성 (즉, 신용, 이전 가능성, 의존성 및 확인 가능성) 및 진위성 (즉, 공평성, 개방성, 협상 및 공유 된 이해)과 같은 기준의 사용을 제안합니다.

Clearly, traditional notions of reliability and validity related to quantitative evalua- tion of assessment practices have limited usefulness in the evaluation of situated performance interpre- tations. The theoretical assumptions underlying interpretivist assessment approaches, call for validity theory that provides the theo-retical framework and the conceptual tools to guide the validation process in qualitative assessment inquiry , and we argue that they can and should be used to determine ‘validity’ (i.e., trustworthiness, credibility and defensibility) of the qualita- tive inquiry in interpretivist assessment approaches.  Criteria and standards that can be used to judge the adequacy of constructivist-interpretivist assessment have been suggested by Lincoln and Guba53,54 in their classical work on evaluation. They suggest the use of criteria such as trustworthiness (i.e. credibility, transferability, dependability and confirmability) and authenticity (i.e. fairness, openness, negotiation and shared understanding) to evaluate assessment quality.



그들은 또한 질적 탐구를 엄격하게하기 위해 다양한 기술이나 방법론적 전략의 사용을 제안한다. 이러한 기술에는 다음이 포함됩니다. 피어 브리핑; (신흥 해석에 도전하는 반박 표본을 적극적으로 추구하는) 불확실한 증거 분석, 신원 확인을위한 진보적 인 주관성, (양도 성 달성을위한) 두껍고 풍부한 설명, 감사 추적, 외부 감사 및 평가 결정 프로세스 (의존성 및 확인 가능성 확보).

They furthermore propose the use of vari- ous techniques or methodological strategies to bring rigour to the qualitative inquiry. These techniques include: 

  • prolonged engagement in the assessment process; 

  • peer debriefing; 

  • analysis of disconfirming evidence (i.e. actively seeking counterexamples that challenge emerging interpretations), 

  • member checks and progressive subjectivity (to achieve credibility) as well as 

  • thick, rich description (to achieve transferability) and 

  • the audit trail, external audit and documentation of the assessment decision pro- cesses (to achieve dependability and confirmability).




CONCLUDING REMARKS


우리의 주장은, 평가의 (평가)에서 특정 프레임워크를 구축 할 때, 그 사용을 뒷받침하는 가정에 대해 아주 명확해야한다는 것이다. 사회 - 문화 학습 이론에 기초하여 우리는 전문 역량의 중요한 측면에 대한 심층적 인 이해와 의미있는 정보를 생성하기 위해 질적 (구조적 - 해석 주의적) 연구 패러다임에 기반한 WBA 접근법을 제안한다. 학습 성과를 풍부하고 서술 적으로 평가하고 기본 성과 이론 및 가치를 명확히하는 것은 학습을 최대화하기위한 평가 시스템의 형성 기능을 향상시킬뿐 아니라 총괄 평가에서 신뢰할만한 의사 결정에 필수 불가결하다. WBA에 대한 구성주의자 - 해석 주의자 접근법에 대한 인식이 높아지며, 심리측점담론에만 초점을 둔 현대 보건의료교육의 평가에 더 이상 도움이되지 않을 수도 있다는 인식이 점차 커지고있는 것으로 보인다 .60,61

Our argument, is that when building on specific frameworks in (evaluation of) assessments, one has to be very clear about assump- tions underlying its use. On the basis of socio-cul- tural learning theories we propose approaches towards WBA that are grounded in qualitative (con- structivist-interpretivist) research paradigms, to gen- erate in-depth understanding of and meaningful information about critical aspects of professional competence. Rich, narrative evaluations of perfor- mance as well as articulation of underlying perfor- mance theories and values not only enhance the formative function of the assessment system to maximise learning,58 but are indispensible for trust- worthy decision making in summative assessments. Our constructivist-interpretivist approach to WBA seems to cater to the growing awareness in the liter-ature that an exclusive focus on the psychometric discourse may no longer be helpful in facing assess- ment challenges in modern health care practices and education.60,61 


오히려 우리는 평가 프로그램의 양적 접근 방식과 질적 접근 방식의 균형을 조심스럽게 유지하면서, 평가 목적뿐만 아니라 학습 및 성과 / 역량의 개념화에 근거하여 선택을 정당화하는 것을 목표로 삼아야합니다.

Rather, we should aim for careful balancing of quantitative and qualitative approaches in our assessment programmes, justify- ing our choices on the basis of assessment purposes as well as conceptualisations of learning and perfor- mance/competence.


WBA에 대한 해석주의적 접근의 함의는 '해석적인 공동체interpretive community'는 그것을 만들 수 있는 평가자뿐만 아니라 성과평가를 숫자에서 단어로 전환함을 의미한다. 이것은 평가자가 자신의 가치와 판단을 뒷받침하는 가정을 기꺼이 드러낼 수 있음을 의미합니다. 그들은 비판적 대화와 의미있는 협상에 기꺼이 참여하고, 다른 사람들을 건설적으로 비판하고, 변화에 개방적이어야한다. 가장 큰 과제는 평가 과정에서 신뢰를 확보하는 데 필요한 시간과 에너지를 쏟는 것이다.

Implications of interpretivist approaches to WBA include a shift from numbers to words in perfor- mance assessment as well as assessors who are will- ing and able to create an ‘interpretive community’. This means that assessors must be able to demon- strate commitment to articulation of their own val- ues and assumptions underlying judgements; they must be willing to engage in critical dialogue and meaningful negotiation, offer criticisms to others and be open for change in the light of the negotia- tion. The biggest challenge may very well be to make the necessary commitments of time and energy that are required to achieve trustworthiness in the assessment process.


마지막으로, 이 논문에서 설명서 평가 및 타당도의 개념화가 다양한 범위의 (학교 기반) 교육 환경에서 모든 종류의 비표준화 평가에 적용된다. 학습 평가에 대한 평가의 변화는 평가 및 평가 타당성에 대한 고전적 개념의 재검토를 요구합니다.

Finally, we think that conceptualisations of assess- ment and validity as described in this paper apply to all kinds of unstandardised assessments – in a range of (school-based) educational contexts. Changes in assessment towards assessment for learning, increas- ingly call for reconsideration of conventional notions of assessment and assessment validity.



GLOSSARY TABLE


Social/socio-cultural learning theories emphasise learning through active participation in social (authentic, profes- sional activities). Learners develop by actively engaging in ongoing processes of workplaces. The learning processes as well as learning outcomes (performance) are deter- mined by social, organisational, cultural and other contex- tual factors. However, socio-cultural learning theories also reject the idea that the individual learner should be the exclusive focus of analysis: learning can be either individ- ual or social (collective).17


Constructivist-interpretivist assessment approaches view assess- ment to be value laden and socially constructed. Assessors are social beings who construct the assessment according to their own values, beliefs and perceptions. Performance can therefore never be objective. The interpretive approach focuses on participants’ own perspectives in conceptualising and reconstructing their experiences, expectations, interpretations and assumptions.38


23 Mennin S. Self-organisation, integration and curriculum in the complex world of medical education. Med Educ 2010;44:20–30.


36 Ginsburg S, Bernabeo E, Ross KM, Holmboe ES. “It depends”: results of a qualitative study investigating how practicing internists approach professional dilemmas. Acad Med 2012;87 (12):1–9.


50 Kuper A, Reeves S, Albert M, Hodges BD. Assessment: do we need to broaden our methodological horizons? Med Educ 2007;41:1121–3.




 2013 Dec;47(12):1164-74. doi: 10.1111/medu.12289.

Validity in work-based assessmentexpanding our horizons.

Author information

1
Educational Development and Research, Maastricht University, Maastricht, the Netherlands.

Abstract

CONTEXT:

Although work-based assessments (WBA) may come closest to assessing habitual performance, their use for summative purposes is not undisputed. Most criticism of WBA stems from approaches to validity consistent with the quantitative psychometric framework. However, there is increasing research evidence that indicates that the assumptions underlying the predictive, deterministic framework of psychometrics may no longer hold. In this discussion paper we argue that meaningfulness and appropriateness of current validity evidence can be called into question and that we need alternative strategies to assessment and validity inquiry that build on current theories of learning and performance in complex and dynamic workplace settings.

METHODS:

Drawing from research in various professional fields we outline key issues within the mechanisms of learning, competence and performance in the context of complex social environments and illustrate their relevance to WBA. In reviewing recent socio-cultural learning theory and research on performance and performance interpretations in work settings, we demonstrate that learning, competence (as inferred from performance) as well as performance interpretations are to be seen as inherently contextualised, and can only be under-stood 'in situ'. Assessment in the context of work settings may, therefore, be more usefully viewed as a socially situated interpretive act.

DISCUSSION:

We propose constructivist-interpretivist approaches towards WBA in order to capture and understand contextualised learning and performance in work settings. Theoretical assumptions underlying interpretivist assessment approaches call for a validity theory that provides the theoretical framework and conceptual tools to guide the validation process in the qualitative assessment inquiry. Basic principles of rigour specific to qualitative research have been established, and they can and should be used to determine validity in interpretivist assessment approaches. If used properly, these strategies generate trustworthy evidence that is needed to develop the validity argument in WBA, allowing for in-depth and meaningful information about professional competence.

PMID:
 
24206150
 
DOI:
 
10.1111/medu.12289


"전문직 역량 평가: 방법에서 프로그램까지" 다시보기 (Med Educ, 2016)

Revisiting ‘Assessing professional competence: from methods to programmes’

Cees P M van der Vleuten




이전 논문은 모든 평가 방법의 5 가지 퀄리티특성을 확인했습니다 : 신뢰성; 효력; 교육적 영향; 수용 가능성 및 비용 2이 다섯 가지 기준은 평가 연구에서 자주 사용되었지만 이것은 논문의 주된 메시지가 아니 었습니다 .2 논문의 핵심 교리는 어떤 하나의 평가방법도 완벽할 수 없다는 것이 었습니다. 실제로 평가는 항상 타협을 수반합니다.

The earlier paper identi- fied five distinct quality characteristics of any assessment method: reliability; validity; educational impact; acceptability, and costs.2 Although these five criteria have been used frequently in research on assessment, this was not the main message of the paper.2 The central tenet of the paper2 was that any single assessment method can never be per- fect on all criteria and in reality assessment always involves a compromise.


2005 년 논문에서 우리는 어떤 단일 평가도 실제로는 측정이 아니라고 주장했다. 새로운 것이든 오래된 것이든, 객관적이든 주관적이든, 표준화든 비 표준화 된 모든 평가는 안정성을 최소화하기 위해 최소 3-4 시간의 테스트 시간이 필요합니다. 신뢰도 기준이 0.80 인 경우에도 합격 / 불합격 판정의 20 %는 오판 (긍정 판정)과 부정 판정 (합격 / 불합격 판정 점수와 관련된 점수 분포에 따라) 일 수 있습니다.

In the 2005 paper,1 we argued that any single assess- ment has such severe limitations that any single measurement is really no measurement. Any assessment, old or new, objective or subjective, standardised or unstandardised, requires at least 3–4 hours of testing time to achieve minimal reliability. Even with a reliability criterion of 0.80, we should realise that 20% of the pass/fail decisions we make may be false positives and nega- tives (depending on the distribution of scores in relation to the pass/fail cut-off score).


우리가 한 가지 방법으로 모든 것을 가질 수 없다면, 여러 가지 방법으로 사용하면 가능할까?

If we can’t have it all in a single measure, can we then have it all across measures?


예를 들어, 트레이닝 평가 프로그램의 여러 방법에서 평가 정보를 결합하면 개별 방법의 신뢰성과 교육적 영향에 대한 신뢰도가 떨어질 수 있습니다. 나는 개별 조치의 신뢰성에 대한 검사를 포함하는 인정 관행에 대해 알고 있습니다. 그 인증평가에서는 신뢰도가 충분히 높지 않으면 문제가 된다. 하나의 정신 측정 방법을 절대적으로 사용한다는 것을 듣고 나서 경악했다. 하나의 척도 (신뢰성 계수)는 아무것도 없는 것과 같다. 오히려 우리는 전체 프로그램의 교육적 맥락과 목적에 비추어 타협이 정당화될 수 있는 평가방법의 조합을 주의 깊게 선택해야합니다.

For example, if we combine assessment information across methods in an in-training assess- ment programme, we might compromise more on the reliability of individual methods and less on educational impact. I am aware of accreditation practices which involve inspection of the reliabilitiesof individual measures: if these are not high enough, the schools in question are in trouble. I shiver when I hear about such an absolute use of a single psychometric measure. Here, one measure (the reliability coefficient) is no measure. Rather,  we should make a mindful choice of a combination of methods in which compromises are justified in light of the educational context and the purpose of the whole programme.


나중에이 연구는 평가 프로그램을위한 교육 중립적 인 설계 가이드 라인을 개발했을 때 Joost Dijkstra의 연구 결과로 보완되었습니다 .6이 가이드 라인은 적어도 두 가지 이상의 평가 요소가있는 평가 환경에 적합합니다. 또한 인증 컨텍스트에 적합합니다. 그들은 진료 지침이 아니라 처방전입니다. 예를 들어, 매우 기본적인 가이드 라인은 다음과 같다 : '결정 (및 결과)은 그들이 기반으로하는 정보의 질에 비례해야한다.'6 더 구체적인 가이드 라인은 다음과 같다 : '표준 설정 절차에는 이론적 근거를 제공해야한다 .

Later this work was complemented by that of Joost Dijkstra when we developed a set of education-neutral design guide- lines for assessment programmes.6 These guidelines are appropriate for any assessment context that has at least two or more assessment elements. They are also appropriate for a certification context. They are truly guidelines, not prescriptions. As an example, a very basic guideline is: ‘Decisions (and the conse- quences) should be proportional to the quality of the information on which they are based.’6 A more specific guideline is: ‘A rationale should be pro- vided for the standard-setting procedures.’6


나는 2010 년에 이러한 일관성을 출판하여 '평가의 원칙'으로, 전문 역량 평가 이론의 발전을위한 'building block'로 지정했다. 이 원칙은 표준화 평가(밀러의 피라미드의 처음 세 층)과 비표준화 평가(피라미드의 꼭대기)로 나뉘어진다. 

  • 첫 번째 예는 품목 및 테스트 개발에 대한 품질 보증의 필요성을 나타내는 '타당도는 빌트인 될 수 있음'입니다. 

  • 후자의 예로 '평가 도구의 타당도는 도구보다 사용자에 달려있다'로서, 사용자를 신중하게 준비해야 할 필요성을 지적한다.

I published these consis- tencies in 2010, designating them as ‘principles of assessment’ and perhaps as ‘building blocks’ for the further development of theory in the assessment of professional competence.8 The principles were divided into two classes for, respectively, standar- dised (the first three layers of Miller’s pyramid) and unstandardised (the top of the pyramid) assessment. An example of the first is ‘Validity can be built in’, which points to the need for quality assurance around item and test development. An example of the latter is ‘Validity resides more in the users of the instruments than in the instruments that are used’, which points to the need to carefully prepare users of the instruments (e.g. assessors and learners) for their roles in the assessment.


'교육적 결과'는 2005 년 논문 1에 의도적으로 포함되었으며, '평가가 학습을 유도한다'는 원칙은 2010 년 논문에서 매우 두드러졌다. 여기서 assessment for learning이 언급되었다. 10 assessment of learning은 교육 시스템에 부정적인 영향을 미칩니다. 이러한 평가에서 실패한 경우, 우리는 아무 생각없이 테스트를 반복한다. 그리고는 문제가 무엇인지 보지 않고 단순히 다음과 같이 말합니다 : '최소한의(!) 표준을 갖추었는지 다시 한번 증명하라' 그러한 평가 시스템에는 학습자에 관한 정보가 거의 없습니다.

‘Educational con- sequences’ were deliberately included in the 2005 paper,1 and the principle of ‘assessment drives learning’ was very prominent in the 2010 paper.8 In the assessment literature, the notion of assessment for learning emerged.10 Assessment of learning often leads to negative effects on learning and the educa- tional system: In the event of a fail, we take a mindless deci- sion: repeat the test. We don’t look at what the problem is, we simply say: show us again whether you can surpass a minimum (!) standard. There is very little information in such an assessment system about the learner.


이것은 현대의 학습 견해와 일치하지 않습니다. 현대 교육은 본질적으로보다 구성주의적이거나 사회 문화적 학습 이론에 기초한다. 학습자는 지식을 구성하고 실제 지식을 적용, 경험 및 연습합니다. 피드백, metacognition, 성찰, 자기 모니터링 및 자기 주도는 평생 학습을위한 중요한 개념이다.

it does not accord with modern views on learning. Modern education is more con- structivist in nature or is based on socio-cultural learning theories. Learners construct knowledge, and apply, experience and practise knowledge in action. Feedback, metacognition, reflection, self- monitoring and self-directing are important con- cepts for lifelong learning.


내 생각에, 학습이 평가를 주도하기 시작했. 다시 한 번 매우 영향력있는 동료와 함께 2012 년에 평가 프로그램을위한 모델 또는 이론적 틀을 발표했습니다 .11 모든 평가는 하나의 데이터 요소로 간주됩니다. 합격 / 불합격 결정은 개별 데이터 포인트에서 분리됩니다. 각 데이터 포인트는 학습자에게 정보를 최대한 제공하고 정보가 풍부합니다. 결정은 많은 데이터 포인트를 기반으로합니다. 학습자는 스스로 분석해야하며, 멘토도 이 과정을 함께합니다. 필요한 데이터 요소의 수는 의사 결정의 중요성에 비례합니다. 고부담 결정은 많은 데이터 요소와 풍부한 정보를 기반으로 이뤄진다.

In my thinking, learning started to drive assessment. Again with very influential colleagues, I published a model or theoretical framework for assessment programmes in 2012.11 Any assessment is seen as but one data point. Pass/fail decisions are decoupled from individual data points. Each data point is maximally informative to the learner and is information-rich. Decisions are taken on the basis of many data points. Learners are required to self-analyse and are mentored as they do so. The number of data points required is proportional to the importance of the decision. High-stake decisions are taken on many data points and a lot of rich information.


평가 정보는 학습자에 대한 이야기를 들려주어야 한다

Assessment information should tell a story about the learner


프로그램적 평가를 위한 이 모델이 교육 실무에서 잘 받아 들여지고 있지만 구현하기가 어렵습니다. 평가를 둘러싼 사고의 문화적 변화가 필요합니다. 교사 또는 감독자는 기존 레퍼토리 내에 있지 않을 수도있는 평가에서 다른 역할을 부여받습니다. 이러한 변화는 실증주의적 관점의 평가에서 좀 더 구성주의-상호주의적 평가 방식으로의 전환을 필요로한다 .12 교육의 문화적 변화는 하룻밤 사이에 이루어지지 않는다. 비슷한 문화적 변화가 필요한 문제 중심 학습은 개발에 수년이 걸렸습니다. 혁신은 천천히 진행되고 프로그래적 평가도 그러할 것이다.


Although this model for programmatic assessment is well received in educational practice, it is diffi- cult to implement. It requires a cultural change in our thinking around assessment. Teachers or supervisors are given different roles in assessment that may not lie within their existing repertoire. Such a change requires a shift from a positivist view of assessment to a more constructivist–inter- pretivist approach to assessment.12 Cultural changes in education are not made overnight. Problem-based learning, which required a similar cultural change, has taken many years to develop. Innovations move slowly, and so will programmatic assessment.







4 Baartman LKJ, Bastiaens TJ, Kirschner PA, van der Vleuten CPM. The wheel of competency assessment. Presenting quality criteria for competency assessment (2):153–70. programmes. Stud Educ Eval 2006; 32


5 Baartman LKJ, Prins FJ, Kirschner PA, van der Vleuten CPM. Determining the quality of assessment programmes: a self-evaluation procedure. Stud Educ (3):258–81. Eval 2007;


6 Dijkstra J, Galbraith R, Hodges BD, McAvoy PA, McCrorie P, Southgate LJ, van der Vleuten CP, Wass V, Schuwirth LW. Expert validation of fit-for-purpose guidelines for designing programmes of assessment. BMC Med Educ 2012; :20.


8 van der Vleuten CP, Schuwirth LW, Scheele F, Driessen EW, Hodges B. The assessment of professional competence: building blocks for theory development. Best Pract Res Clin Obstet Gynaecol (6):703–19. 2010;


12 Govaerts M, van der Vleuten CPM. Validity in work- based assessment: expanding our horizons. Med Educ (12):1164–74. 2013; 47



 2016 Sep;50(9):885-8. doi: 10.1111/medu.12632.

Revisiting 'Assessing professional competence: from methods to programmes'.

Author information

1
Department of Educational Development and Research, Maastricht University, Maastricht, the Netherlands.
PMID:
 
27562885
 
DOI:
 
10.1111/medu.12632


합목적성을 위한 평가 프로그램 모델(Med Teach, 2012)

A model for programmatic assessment fit for purpose

C. P. M. VAN DER VLEUTEN1, L. W. T. SCHUWIRTH2, E. W. DRIESSEN1, J. DIJKSTRA1, D. TIGELAAR3, L. K. J. BAARTMAN4 & J. VAN TARTWIJK5

1Maastricht University, The Netherlands, 2Flinders Medical School, Australia, 3Leiden University Graduate School of Teaching, The Netherlands, 4Utrecht University of Applied Sciences, The Netherlands, 5Utrecht University, The Netherlands




도입

Introduction


목적 적합성은 퀄리티의 기능적 정의이며, 그 본질은 평가 프로그램의 목적 달성에 기여한다는 개념이다. 따라서 목적 적합성은 목적으로 해석되는 다른 퀄리티 정의 (예 : 제로 결함)를 포함하는 포괄적 퀄리티 개념이다 (Harvey & Green 1993).

Fitness for purpose is a functional definition of quality, the essence of which is the notion of contributing to the achievement of the purposes of the assessment programme. Fitness for purpose is thus an inclusive notion of quality, encompassing other quality defi- nitions (e.g. zero defects) which are interpreted as purpose (Harvey & Green 1993).


좋은 시험은 좋은 품질의 문항의 무작위 집합이라는 것 이상이라는 견해는 이제 일반적으로 받아들여지고 있으며, 훌륭한 평가 프로그램은 무작위의 훌륭한 도구 세트 (Schuwirth & Van der Vleuten 2011) 이상입니다. 프로그래밍 방식 평가의 문제는 이 분석을 넘어서서도 확장됩니다. 좋은 품질의 평가문항item은 얻을 수 있지만, 이상적인 도구instrument은 없습니다. 1996 년 초 우리는 어떠한 single assessment도 퀄리티 기준에 대한 타협을 의미한다고 주장했다 (Van der Vleuten 1996).

Analogous to the now generally accepted view that a good test is more than a random set of good quality items, a good programme of assessment is more than a random set of good instruments (Schuwirth & Van der Vleuten 2011). The problem of programmatic assessment extends even beyond this anal- ogy. For, whereas good quality items are achievable, there is no such thing as an ideal instrument. As early as 1996, we contended that any single assessment implies a compromise on quality criteria (Van der Vleuten 1996).


제안 된 모델은 교육적 측면에서 프로그램 적 평가에 국한되므로 라이센스 평가 프로그램은 고려하지 않습니다. 이 모델은 '학교 기반', 교실 수업 강조 또는 대학원 전문 교육 프로그램과 같은 '업무 기반'인 학습 프로그램 유형과 관련한 것이다.

The proposed model is limited to programmatic assessment in the educational context, and consequently licensing assess- ment programmes are not considered. The model is generic with respect to types of learning programmes, which may be ‘school based’, emphasising classroom teaching, or ‘work based’, such as postgraduate specialty training programmes.


우리는 모델에 맞는 평가 프로그램 내에서 통합되어야하는 세 가지 근본적인 목적을 정의한다, 즉 

  • 습을 최대한 촉진하는 프로그램 (학습을위한 평가)

  • 고부담 의사 결정의 견고성을 극대화하는 프로그램 (승진 / 학습자 선택); 

  • 육 및 커리큘럼 향상에 필요한 정보를 제공하는 프로그램. 

우리의 주안점은 처음 두 가지 목적을 최적화하기 위해 고안된 이론 기반 모델 (Schuwirth et al. 2011)입니다.

We define three fundamental purposes that should be united within an assessment programme that fits our model: 

  • a programme that maximally facilitates learning (assessment for learning); 

  • a programme that maximises the robustness of high- stake decisions (on promotion/selection of learners); 

  • a programme that provides information for improving instruction and the curriculum. 

Our main focus for now is a theory-based model (Schuwirth et al. 2011) designed to achieve optimisation of the first two purposes.



평가의 원칙

Principles of assessment


(1) 단 하나만으로도 완벽한 평가란 없다.

(1) Any single assessment data point is flawed


Miller 's (1990) 피라미드 중 어느 한 수준에서 평가 방법을 한 번 관리하는 것과 같은 단일 샷 평가, 즉 모든 포인트 측정은 본질적으로 제한되어 있습니다. 내용-특이성(Eva 2003)으로 인해, 개인의 수행은 맥락-의존적이어서 최소한의 신뢰할만한 결과를 얻기위해서는 큰 시험 항목의 표본 (용어의 가장 넓은 의미에서)과 긴 시험 시간이 필요하다 (Van der Vleuten & Schuwirth 2005) . 일회성 측정은 또한 변화 또는 성장을 확립하지 못할 것입니다.

Single-shot assessments, such as a single administration of an assessment method at any one level of Miller’s (1990) pyramid, in other words, all point measurements are intrinsi- cally limited. Due to content specificity (Eva 2003), the performance of individuals is highly context dependent, requiring large samples of test items (in the broadest sense of the term) and long testing times to produce minimally reliable results (Van der Vleuten & Schuwirth 2005). A one-off measure will also not be able to establish change or growth.


(2) 표준화된 평가는 타당도가 '빌트인' 될 수 있다.

(2) Standardised assessment can have validity ‘built-in’ the instrument



테스트 구축과 관련된 품질 관리 절차는 테스트 자료의 품질에 큰 영향을 줄 수 있습니다 (Verhoeven et al., 1999; Jozefowicz 외 2002). 평가자를 교육하고, 점수 목록을 객관화하고, SP를 교육 할 수 있습니다.

Quality control procedures around test construction can have a dramatic effect on the quality of the test material (Verhoeven et al. 1999; Jozefowicz et al. 2002). If applicable, assessors can be trained, scoring lists objectified, simulated patients standardised, etc.



(3) 비표준화된 평가의 타당도는 도구가 아니라 사용자에 달려 있다.

(3) Validity of non-standardised assessment resides in the users and not so much in the instruments


실세계는 표준화되지 않았으며, 위험스럽다. 더 중요한 것은 표준화에 대한 어떤 시도라도 평가를 단순화 할 뿐이라는 것이다 (Norman et al., 1991). 평가 문헌에서 우리는 현재 WBA분야와 같이 성과의 'does'수준을 평가하기 위한 '기술'개발을 목도하고 있습니다 (Norcini 2003; Norcini & Burch 2007). 그러나 정규 교육 환경 (예 : 강의실, 자습서 및 실험실)의 평가는 습관적 성과 평가와 동일한 범주에 속합니다.

The real world is non-standardised and haphazard, and, more impor- tantly, any attempt at standardisation will only trivialise the assessment (Norman et al. 1991). In the assessment literature, we are currently seeing the development of ‘technologies’ for assessing the ‘does’ level of performance, for example in the field of work-based assessment (Norcini 2003; Norcini & Burch 2007). However, assessment in regular educational settings (e.g. classroom, tutorials and laboratory) also comes under the same category of assessment of habitual performance.


이러한 상황(정규교육환경)에서 평가의 타당성을 결정하는 것은 전형적으로 '표준화 된 형식'이 아니다 (Hodges et al. 2011). 평가자, 학습자 및 환자와 같은 '사용자'가 '도구'보다 더 중요합니다. 평가도구 사용에 대한 전문성, 평가를 진지하게 받아들이는 정도 및 지출 할 수있는 시간과 함께 이러한 측면은 평가가 잘 수행되었는지 여부를 결정합니다. 객관식 테스트 시험지를 학생에게 배부하는데에는 교육이 필요하지는 않지만, 표준화되지 않은 관찰 평가를 통해 평가 과정에 참여한 모든 사람들은 광범위한 교육을 받아야합니다.

It is typically not ‘standardised forms’ that determine the validity of the assessment in such situations (Hodges et al. 2011). The users, i.e. the assessors, learners and patients, are more important than the instrument. Their expertise in using the instrument, the extent to which they take the assessment seriously and the time they can spend on it, these aspects together determine whether or not the assessment is performed well. While extensive training is not required for someone handing out multiple choice test booklets to students, with non-standardised observational assessment it is of crucial importance that all those involved in the assessment process should receive extensive training.



피드백을 주거나 양식에 서술을 기록하는 데 반영된 것처럼 사용자가 평가 작업을 진지하게 받아들이는 정도는 궁극적으로 이러한 방법의 유용성을 결정합니다. 사용자, 평가자 및 평가자가 평가의 의미와 목적을 완전히 이해하지 못하면 평가는 보잘것없어질trivialize 것입니다.

The extent to which the users take their assessment task seriously, as reflected in their taking time to give feedback or record a narrative on a form, ultimately determines the utility of these methods. If the users, assessors and assesses do not fully understand the meaning and purpose of the assessment, the assessment is doomed to be trivialised.


(4) 평가의 '부담'은 의사결정에 포함되는 데이터의 숫자와 '부담'간의 비례적 관계에 있는 연속체이다.

(4) The stakes of the assessment should be seen as a continuum with a proportional relationship between increases in stakes and number of data points involved


프로그램적 평가의 개념적 틀의 관점에서, formative-summative 구분은 유용하지 않은데, 왜냐하면 이 framework는 어떤 평가든 정도의 차이만 있을 뿐 형성적이면서 총괄적이어야 한다고 주장하기 때문이다. 따라서 낮은 부담부터 높은 부담까지의 연속체로서 평가의 부담을 개념화하는 것이 더 유용하게 보인다. 저부담 평가에서 결과는 승진, 선택 또는 인증 측면에서 학습자에게 미미한 영향을 주지만, 고부담 평가는 광범위하고 극적인 결과를 초래할 수 있습니다. 평가 프로그램에서 저부담 결정만이 single data point에 의존할 수 있으며, 고부담 결정에는 많은 사람들로부터의 입력이 필요합니다. 고부담 평가일수록 helper로서 교사의 역할은 더욱 쉽게 손상됩니다.

From the perspective of a conceptual framework of programmatic assessment, the formative–summative distinc-tion is not a very useful one, considering that the framework predicates that any assessment should be both formative and summative, only to varying degrees. Therefore, conceptualis-ing the stakes of the assessment as a continuum from low tohigh stakes seems more useful. In low-stake assessment the results have limited consequences for the learner in terms of promotion, selection or certification, whereas high-stake assessment can have far-reaching and dramatic consequences.In a programme of assessment, only low-stake decisions canbe based on single data points, whereas all high-stake decisions require input from many. With higher stake assess-ment, the role of the teacher as helper is more easily compromised.


그러나, 고부담 의사결정이 많은 데이터 포인트에 의해 정보가 제공 될 때, 단일 데이터 포인트로부터 도출 된 풍부한 정보를 무시하는 것은 어리석은 일이다. 따라서 저부담 평가를 결합한 정보는 고부담 정보로 feed되어야 한다. 그러나 아무리 개별 데이터포인트가 저부담이더라도, '무부담'은 아니다.

However, when high-stake decision making is informed by many data points, it would be foolish to ignore the information from the rich material derived from all the single data points. Information from combined low-stake assessments should therefore feed into high-stake information. However low stake an individual data pointmay be, it is never zero stake. 



(5) 평가가 학습을 유도한다.

(5) Assessment drives learning


이것은 평가 문헌에서 일반적으로 받아 들여지는 개념이지만, 동시에 제대로 된 이해는 부족하다. 대부분의 경우, 평가는 커리큘럼 목표에 부합하지 않거나 부적절하기 때문에 바람직하지 않은 학습 전략을 유도합니다. 이러한 상황은 정보가 부족하거나, 단순 합계 시스템에서 특히 그러하다. (Al Kadri et al.2009)

This is a generally accepted concept in the assessment literature, but at the same time it remains poorly understood. In all likelihood, many assessments drive undesirable learning strategies because the assessment is not at all or ill aligned with curriculum objectives. This situation is particularly common in poor information, purely summative systems (Al Kadri et al.2009)


형성 피드백은 학습을 향상시킬 수 있다는 증거가 풍부합니다 (Kluger & DeNisi 1996; Hattie & Timperley 2007; Shute 2008). 평가가 학습을 유도하는 것이라면, 학습자에게 의미있는 단어와 평가 정보를 가능한 풍부하게 만들어야한다. 정보는 양적으로나 질적으로나 다양한 방법으로 풍부해질 수 있습니다. 이 시점에서 우리는 평가가 종종 성적(하고만) 관련이 있으며 점수는 가장 초라한 형태의 피드백 (Shute 2008) 중 하나라는 점에 유의해야합니다. 프로파일 점수 및 참조 실적 정보와 같은 다른 유형의 정량적 정보가 필요합니다. 그러나 우리는 또한 질적 정보의 중요성에 주목한다.

There is a wealth of evidence that formative feedback can enhance learning (Kluger & DeNisi 1996; Hattie& Timperley 2007; Shute 2008). We note that, if assessment isto drive learning, it is imperative that it should produce words,meaningful assessment information information to the learner. In rich other should be as as possible.Information can be rich in many different ways, both quantitatively and qualitatively. At this point, we should note that assessment is often associated with grades (only), and that grades are one of the poorest forms of feedback (Shute 2008).Different types of quantitative information are needed, such asprofile scores and reference performance information.However, we also note the importance of qualitative informa-tion. 


무의미는 Trivialization으로 이어지고, 이것은 평가의 중대한 위협이다. 학습자가 객관적인 구조 임상 시험 (OSCE)을 통과 했음에도 불구하고 환자와 관련이 없는 체크리스트만을 암기한 경우, 그들이 한 행동은 무의미하다. 평가자가 체크리스트의 모든 항목을 한 줄로 그어서 끝내버리면 평가는 모든 의미를 잃어 버린다. 그러나 평가 정보가 의미있는 경우 학습은 의미있는 방식으로 향상됩니다. 저부담의 개별 데이터 포인트가 학습을 촉진하기 위해서는 가능한 한 의미가 있어야 하며, 고부담 결정은 많은 개별 데이터 포인트를 기반으로해야한다. 유의미한 데이터 포인트를 aggregation함으로써 의미있는 고부담 결정을 내릴 수 있다

Lack of meaningfulness leads to trivialisation, a serious and frequent hazard in assessment. If learners are required to memorise checklists for passing the objective structured clinical examination (OSCE) but have no connection with patients, their performance is trivial; if an assessor completes all items on a professional behaviour rating form by one strikeof the pen, the assessment loses all meaning and is trivialised. However, if the assessment information is meaningful, learning will be enhanced in a meaningful way. We argue that low-stake individual data points should be as meaningful as possible to foster learning, and we also argue that high-stakedecisions should be based on many individual data points.Aggregation of meaningful data points can result in a meaningful high-stake decision


개별 데이터 포인트가 높은 지위를 가질 수있는 한 가지 예외가 있습니다. 이것은 학습 과제가 숙달 과제 (즉, 어린이들을위한 곱셈 테이블, 의과대학 학생에게 소생술 교육)인 경우이다. 숙달 작업은 프로그램에서 발생할 때와 마찬가지로 인증을 받아야합니다. 그러나 이것은 숙달 작업에 피드백이 필요 없다는 것을 의미하지는 않습니다.

There is one exception where individual data points can be high stake. This is when the learning task is a mastery task (i.e.the tables of multiplication for children, resuscitation for medical students). Mastery tasks need to be certified as and when they occur in the programme. The proposed model should accommodate this exception. This does not imply,however, that mastery tasks do not require feedback. 



(6) 전문가 판단은 불가피하다.

(6) Expert judgement is imperative



역량은 복잡한 현상입니다. 특질이라 부르든, 역량이든, 역량 영역이든 평가 결과를 해석하기 위해서는 항상 인간의 판단이 필요하다. 평가표, 표준 수행 등을 제공해서 판단의 주관성을 줄일 수 있으나, 완전한 객관화를 달성하려는 시도는 평가 과정을 단순화 할뿐입니다 (원칙 5의 예 참조). 우리는 평가 과정의 다양한 시점에서 지식이 풍부한 개인의 전문가 판단에 의존 할 수밖에 없습니다. 또한 개별 데이터 요소에 대한 정보를 결합하려면 전문가의 판단이 필요합니다.

Competence is a complex phenomenon. Regardless of whether it is defined in terms of traits (knowledge, skills,problem-solving skills and attitudes) or competencies or competency domains (Frank and Danoff 2007; Accreditation Council for Graduate Medical Education [ACGME] 2009),interpreting assessment results always requires human judge-ment. By providing support, e.g. scoring rubrics, training and performance standards, we can reduce the subjectivity in judgements (Malini Reddy & Andrade 2010), but if we try to achieve complete objectification, we will only trivialise the assessment process (see the examples of principle 5). We have no choice but to rely on the expert judgements of knowl-edgeable individuals at various points in the assessment process. We also need expert judgement to combine informa-tion across individual data points




방대한 의사 결정에 관한 문헌에서 보험 통계적 의사 결정 (Shanteau 1992)에 비해 인간의 마음은 오류가 없다면 아무 것도 아님을 압니다. 그러나 스마트 샘플링 전략과 절차적 근거에 의한 체계적인 편향으로 판단의 무작위 편향을 극복 할 수 있다. 샘플링 관점은 많은 유형의 평가 상황에서 효과적임이 입증되었다 (Van der Vleuten et al., Williams et al., 2003; Eva et al. 2004). 우리는 많은 판단을 사용하여 신뢰할 수있는 정보를 생산할 수있다.

From a vast amount of literature on decision making, we know that the human mind is nothing if not fallible, compared to actuarial decision making (Shanteau 1992). We argue, how-ever, that random bias in judgement can be overcome by smart sampling strategies and systematic bias by procedural mea-sures. The sampling perspective has been proven to be effective in many types of assessment situations (Van der Vleuten et al. 1991; Williams et al. 2003; Eva et al. 2004):we can produce reliable information simply by using many judgements.


사실, 판단에 크게 의존하는 평가 방법은 대부분의 객관화되고 표준화 된 방법 (Van der Vleuten et al. 2010)보다 훨씬 작은 샘플을 필요로합니다.

In fact, assessment methods that rely heavily on judgement require considerably smaller samples than are required for most objectified and standardised methods (Van der Vleuten et al. 2010).



표 1은 그러한 절차 전략의 개요를 제공합니다. 이러한 절차를 작성하고 수행하는 과정에서 고려해야 할 사항에 따라 편향을 줄일 수 있으며 그 결과 결정을보다 신뢰할 수 있고 방어 할 수 있습니다.

Table 1 provides an overview of such procedural strategies. Depending on the care taken in creating and conducting these procedures, biases can be reduced and the resulting decisions will be more trustworthy and defensible.


이는 평가 프로그램의 모든 부분을 객관화 할 필요를 없애줍니다. 객관화(의 지나친 추구)는 평가와 학습 모두에서 환원주의와 평범함으로만 이어질 것입니다.

This obviates the need to objectify every part of the assessment programme, which, as we have noted earlier, will only lead us to reductionism and trivialisation of both assessment and learning.




평가 프로그램의 실행 모델

Model of programmatic assessment in action


Based on the above principles, we propose a model that is optimised for fitness of purpose. The purpose of an assessment programme is to maximise assessment for learning while at the same time arriving at robust decisions about learners’ progress. Figure 1 provides a graphical representation of the model.



학습 활동

Learning activities


우리는 4C-ID 모델 (Van Merrie¨nboer 1997) 이후에 작은 원으로 표시된 학습 과제로 구성된 첫 번째 교육 활동부터 시작합니다. 학습 과제는 강의, 실제, 환자와의 만남, 병원 운영 극장에서의 작업, 문제 기반 학습 (PBL) 자습서, 프로젝트, 학습 과제 또는 자체 학습 등 학습에 이르는 모든 것일 수 있습니다. 일부 학습 과제는 큰 원으로 표시된 것처럼 학습의 인공물을 산출 할 수 있습니다. 이러한 인공물은 프로젝트 보고서와 같이 결과와 관련되거나, 수술실에서 수행되는 수술 절차 목록과 같이 프로세스 지향적 일 수 있습니다.


We start with a first period of training activities consisting of learning tasks denoted by small circles (after the 4C-ID model (Van Merrie¨nboer 1997)). A learning task can be anything that leads to learning: a lecture, a practical, a patient encounter, an operation in the hospital operating theatre, a problem-based learning (PBL) tutorial, a project, a learning assignment or self- study. Some learning tasks may yield artefacts of learning, as denoted by the larger circles. These artefacts can be outcome related, such as a project report, or they can be process oriented, such as a list of surgical procedures performed in the operating theatre.



평가 활동

Assessment activities


1시기의 평가 활동은 작은 피라미드로 표시되며 각각은 단일 평가 포인트입니다. 각 단일 데이터 포인트는 밀러의 피라미드의 모든 계층에서 모든 방법과 관련 될 수 있기 때문에 의도적으로 선택됩니다. 필기 시험, OSCE, 임상 적 만남 (즉, Mini-CEX)의 관찰, 임상 시험 (예 : Mini-CEX)의 동료 평가에서 PBL 튜토리얼 평가 등

The assessment activities in period 1 are shown as small pyramids, each representing a single data point of assessment. This symbolic shape is deliberately chosen, because each single data point can relate to any method at any layer of Miller’s pyramid, be it a written test, an OSCE, an observation of a clinical encounter (i.e. Mini-CEX), a peer evaluation in a PBL tutorial assessment, etc.


모든 평가 활동은 원칙 3 (평가는 학습을 유도한다)를 보장하고자, 학습자의 지속적인 학습을 최대한 지원할 수 있도록 구성되어야합니다. 이 원칙은 모든 평가가 학습에 최대로 의미가 있어야하며 정량적으로든 질적으로든 풍부한 정보가 학습자의 수행에 대한 피드백을 제공해야합니다.

All assessment activities should be arranged so as to maximally support the learner’s ongoing learning to ensure adherence to principle 3 (assessment drives learning). This principle requires that all assessment be maximally meaningful to learning and provide feedback on the learner’s performance that is information-rich, whether quantitatively or qualitatively.


각 단일 데이터 포인트는 낮은 지분 (원칙 5)입니다. 성능 피드백은 분명히 어떤 종류의 성능 표준과 관련하여 정보를 제공하지만 마스터 테스트에서 수행 할 수있는 것처럼 하나의 평가 점을 기준으로 학습자를 통과 시키거나 실패하는 것에 대해 특히 주의해야합니다. 각 데이터 포인트는 데이터 포인트의 array에서 하나의 요소일 뿐이다다 (원칙 1). 단일 데이터 포인트가 낮은 지분이지만, 이것이 커리큘럼의 나중 시점에서 진도 결정을 위해 사용되는 것을 배제하지 않습니다.

Each single data point is low stake (principle 5). Although perfor- mance feedback obviously provides information in relation to some kind of performance standard, we strongly caution against passing or failing a learner based on one assessment point, as can be done in a mastery test. Each data point is but one element in a longitudinal array of data points (principle 1). Although single data points are low stake, this does not preclude their use for progress decisions at a later point in the curriculum.


단순히 특정 표준을 달성했는지 여부를 선언하는 것은 유용하지 않습니다. 평가사는 교사 또는 촉진자로서의 역할은 보호되지만 판사로서의 역할은 아닙니다 (원칙 5). 가능한 한 많은 두 가지 역할을 해소합니다. 물론 모든 평가자는 학습자가 잘했는지 여부를 판단 할 것입니다. 검은 피라미드로 표시되는 예외가 하나 있습니다. 일부 업무는 숙달 지향적이며 숙달의 시연이 필요합니다. 예를 들어, 인공 호흡은 숙달이 이루어질 때까지 뚫어야 할 숙련입니다.

It is not useful to simply declare whether or not someone has achieved a certain standard. Assessors are protected in their role as teacher or facilitator, but not in their role as judge (principle 5). Both roles are disentangled as much as possible, although, obviously, any assessor will judge whether or not the learner did well. There is one exception, which is represented by the black pyramid. Some tasks are mastery oriented and require demonstration of mastery. For example, resuscitation is a skill that needs to be drilled until mastery is achieved.



그럼에도 불구하고 대부분의 평가 과제는 (숙달 지향적이지 않고) 역량에 대한 숙련도 향상이라는 측면에서 발달 적입니다. '등급'이 주어진 유일한 피드백이 되는 것을 경고한다. 성적은 poor feedback이며 모든 종류의 불리한 교육적 부작용을 겪는 경향이 있습니다 (학습자는 성적을 사냥하지만, 자신이 무엇을 어떻게 배웠는지 무시하고, 교사는 성적 피드백을 제공하지 않는 이유로 학점의 객관성을 피드백을 주지 않는 구실로서 만족한다).

Nevertheless, most assessment tasks are not mastery oriented but developmental in terms of working towards proficiency in a competency. We similarly warn against grades as the only feedback that is given. Grades are poor feedback carriers and tend to have all kinds of adverse educational side effects (learners hunting for grades but ignoring what and how they have learned; teachers being content to use the supposed objectivity of grades as an excuse for not giving performance feedback).



모든 평가 방법은 프로그램 내의 기능에 따라 유용 할 수 있으므로 특정 평가 방법에 대한 선호도와 관련해서 알수 있는 것은 없다. 우리는 전문가로부터 주관적인 정보 나 판단을 명시 적으로 배제하지 않는다 (원칙 6). '전문가'라는 명칭은 유연하게 정의되며 지식이있는 모든 개인에게 적용될 수 있습니다. 맥락에 따라 '전문가'는 교사, 교사, 감독자, 동료, 환자, 그리고 학습자도 전문가가 될 수 있습니다.

We are agnostic with respect to any preference for specific assessment methods, since any assessment approach may have utility depending on its function within the programme. We explicitly do not exclude subjective information or judgements from experts (principle 6). The designation ‘expert’ is defined flexibly and can apply to any knowledgeable individual. Depending on the context, this may be the teacher, the tutor, the supervisor, the peer, the patient and, last but not least, the learner him or herself.




지원 활동

Supporting activities


같은 기간에 지원 활동은 두 가지입니다. 첫째, 학습자는 학습 및 평가 활동에서 얻은 정보로 성찰합니다 (원칙 4 및 6). 이것은 밑줄이 그어진 작은 원으로 표시됩니다. 시작과 끝에서 더 많은 반사 활동이있을 수 있지만 연속적입니다. 자기 주도적 학습 활동 피드백은 해석되어 새로운 학습 과제 또는 목표를 계획하는 데 사용됩니다 (Van Merrie¨nboer & Sluijsmans 2009).

The supporting activities in the same period are twofold. First, the learner reflects on the information obtained from the learning and assessment activities (principles 4 and 6 com- bined). This is shown as underscored connected small circles. There may be more reflective activity at the start and at the end, but is continuous. self-directed learning activity Feedback is interpreted and used to plan new learning tasks or goals (Van Merrie¨nboer & Sluijsmans 2009).


우리는 사람들이 반성하고 자기 주도하도록하는 것이 얼마나 힘든지를 압니다 (Korthagen 외 2001; Driessen 외 2007; Mansvelder-Longayroux 외 2007). 자기주도학습의 모순 중 하나는 외부 지침과 스캐폴딩을 필요로한다는 것입니다 (Sargeant 외 2008; Driessen 외. 2010). 그러므로 우리는 일종의 사회적 상호 작용을 통한 자기 주도적 학습의 스캐폴딩을 제안합니다.

we know how hard it mostly is to get people to reflect and self-direct (Korthagen et al. 2001; Driessen et al. 2007; Mansvelder-Longayroux et al. 2007). One of the paradoxes of self-directed learning is that it takes considerable external direction and scaffolding to make it useful (Sargeant et al. 2008; Driessen et al. 2010). We therefore propose scaffolding of self-directed learning with some sort of social interaction.


자기 주도 학습 지원의 주요 형태는 코칭 또는 멘토링 (감독 활동)이지만, 대안으로는 고위 학습자 또는 동료 ( '인터뷰'활동)가 지원을 제공 할 수 있습니다. 자기주도적 학습은 (시간, 내용 및 사회적 상호 작용과 관련하여) 성찰활동을 구조화하고 문서화하는 도구에 의해서도 촉진 될 수있다 (Embo 등, 2010). 일반적으로, 성찰과정의 문서화를 장려하지만 지나치게 사용하는 것은 경고합니다. 문서화 된 학습 활동은 'lean and mean'하고, 직접적인 의미있는 학습 가치가있는 경우에만 유효하다(Driessen 외. 2007). 그렇지 않으면 행정적 잡무이며, 쓰레기 용지만을 다량 생산합니다. 사회적 상호 작용이 성찰적 활동에 의미를 부여하기위한 전제 조건이라는 것을 확고히 명심한다면 이러한 유형의 trivialization은 피할 수 있습니다.

The principal form of support for self-directed learning is coaching or mentoring (supervision activities), but alternatively, support can be provided by more senior learners or peers (‘intervision’ activities). This process can also be facilitated by dedicated instruments in which reflective activity is structured (with respect to time, content and social interaction) and docu- mented (Embo et al. 2010). In general, we encourage documentation of the reflective process, but warn against overdoing it. Documented reflective activities will only work if they are ‘lean and mean’ and have direct meaningful learning value (Driessen et al. 2007). Otherwise, they are just bureau- cratic chores, producing reams of paper for the rubbish bin. This type of trivialisation can be avoided if we keep firmly in mind that social interaction is prerequisite to lend meaning- fulness to reflective activities.



중간 평가

Intermediate evaluation


이 기간의 끝에서 지원 활동의 모든 인공물, 평가 정보 및 (선택된) 정보는 중간 평가에서 평가됩니다. 모든 데이터 포인트에서 수집 된 정보는 독립적이고 권위있는 평가자 그룹, 즉 심사 위원으로 구성된 성과 기준에 부합합니다. 전문가의 판단이 모든 데이터 요소에 걸쳐 정보를 모으는 데 불가피하므로, 위원회가 적절하다(원칙 6). 그러나 정보의 수치적 aggregation의 미덕을 간과하려는 것이 아니며, 적절하고 가능한 모든 정보를 사용해야합니다.

At the end of the period, all artefacts, assessment information and (selected) information from the supporting activities are assessed in an intermediate evaluation of progress. The aggregate information across all data points is held against a performance standard by an independent and authoritative group of assessors, i.e. a committee of examiners. We think a committee is appropriate because expert judgement is imper- ative for aggregating information across all data points (principle 6). We do not wish to downplay the virtues of numerical aggregation of information and we should use it whenever appropriate and possible.


데이터 포인트는 바람직하게는 meaningful entity에 걸쳐 집계되어야합니다. 전통적으로 이 엔티티는 방법 (Miller 's pyramid의 계층) 이었지만 트레이닝 프로그램이나 역량 프레임 워크 (Schuwirth & Van der Vleuten 2011)와 같은 다른 의미있는 집계 범주는 생각할 수 있습니다.

Data points should preferably be aggregated across meaningful entities. Traditionally, these entities have been methods (or layers of Miller’s pyramid), but other, more meaningful aggregation categories are thinkable, such as the themes of the training programme or a competency framework (Schuwirth & Van der Vleuten 2011).



그러나 일부 학습자의 경우,위원회는 실질적인 토론, 심의 및 논증에 참여해야 할 것입니다. 그들의 결정은 수행 표준과 관련하여 유익하지만 진단 적, 치료 적 및 예후 적 가치에 유익합니다. 

    • 전문가는 강점과 개선 영역 (진단)에 대한 정보를 제공하며, 

    • 학습자가 바람직한 성능 목표 (치료)를 달성하고 

    • 훈련 프로그램의 후반부에 특정 성과 결과 (예후)를 예측하도록 

...돕기위한 개선을 제안 할 수 있습니다. 

For some learners, however, the committee will have to engage in substantial debate, deliber- ation and argumentation. Their decision is informative in relation to the performance standard, but also informative in its diagnostic, therapeutic and prognostic value. 

    • The experts provide information on areas of strength and improvement (diagnosis), and 

    • they may suggest remediation to help the learner achieve desirable performance objectives (therapy) and 

    • predict certain performance outcomes later in the training programme (prognosis). 

중간 평가는 remediation oriented이다.이것은 일반적으로 숙달 지향적 인 재래식 유형과는 매우 다릅니다. 우리의 접근 방식에서 가장 중요하게 생각하는 것은 'development'이다. 우리는 개별 학습자에게 맞춤화되고 진단 정보를 조건으로 추가 학습을위한 정보가 풍부한 권장 사항을 제안합니다. 위원회의 평가는 중간 지분으로 자격을 얻을 수 있습니다.

Very importantly, this intermediate assessment is remediation oriented. This is very different from conventional types of assessment, which are typically mastery- oriented: Our approach is first and foremost developmental: we propose an information-rich recommendation for further learning, tailored to the individual learner and contingent on the diagnostic information. The committee’s assessment can be qualified as intermediate stake.



중간 평가에는 방화벽 딜레마가 있는데, 여러 가지 방법으로 해결할 수 있다. 이 딜레마는 지원자 시스템이 지원 시스템에 입력함으로써 발생합니다. 장기간 참여의 기준 (표 1)에 따르면, 코치, 멘토 또는 학습자가 가장 풍부한 정보를 제공할 수 있지만, 동시에 support system의 actor들에게 의사 결정권을 부여함으로써 도우미와 학습자 간의 관계가 훼손 될 수 있습니다 (Cavalcanti & Detsky 2011). 이를 해결하기 위한 한 가지 엄격한 방법은 지원 활동과 의사 결정 활동간에 막을 수없는 방화벽을 세우는 것입니다. 그러나 이것 은위원회가 귀중한 정보를 모르고 있다는 것을 의미 할 것이며, examiner들이 해야 할 일이 더 늘어날 수 있고, 더 많은 편견과 더 높은 비용을 초래할 수 있습니다.

The intermediate evaluation poses a firewall dilemma, which can be resolved in multiple ways. The dilemma is posed by the actors’ input into the support system. According to the criterion of prolonged engagement (Table 1), a coach, mentor or learner provides the richest information. At the same time by vesting the power of decision making in the actors of the support system, the relationship between helper and learner can be compromised (Cavalcanti & Detsky 2011). One rigorous way of resolving this is to erect an impenetrable firewall between activities of support and activities of decision making. However, this would mean that the committee remains oblivious of valuable information, it would likely lead to more work for the examiners and potentially more bias and higher costs.



보호 방법 중 하나는 코치가 학습자의 정보를 인증하도록 요구하는 것입니다. 정보는 학습자의 유효한 그림을 제공한다는 선언입니다. 한 걸음 더 나아가 코치는 학습자가 수정할 수있는 성과 결정에 대한 추천을 요청받을 수 있습니다. 결론적으로, 방화벽 딜레마를 해결할 최선의 유일한 전략은 없습니다.

One protective approach is to require the coach to authenti- cate the information from the learner: a declaration that the information provides a valid picture of the learner. One step further: the coach may be asked to make a recommendation on the performance decision, which can be amended by the learner. To sum up, there is no single best strategy to resolve the firewall dilemma



학습 과제, 적절한 피드백 및 (지원되는) 자기 방향을 통한 학습자의 논리적인 종단적 발달은 매우 중요합니다. 이는 한 번 시험에 합격하면 평생을 유능하다고 선언하는 순전히 숙달 지향적 인 접근 방식과는 완전히 반대입니다.

The logical longitudinal development of the learner through learning tasks, appropriate feedback and (supported) self-direction is of key importance. This is entirely the opposite of a purely mastery-oriented approach where passing an exam means being declared competent for life.


최종 평가

Final evaluation



이것은 학습자에게 중대한 결과가 있는 고부담 결정입니다. 이 결정은 (장기간 참여) 중간 평가를 수행 한 동일한 심사 위원위원회가 결정하지만, 가능하다면 다음의 절차적 안전 조치도 취할 수 있습니다. 

    • 항소 절차, 

    • 학습자 및 코치 입력 절차 (방화벽 딜레마), 

    • 평가자의 훈련 및 벤치마킹,

    • 위원회 규모, 

    • 심의 및 문서화 정도, 

    • 성능 표준 및 / 또는 루 브릭, 

    • 평가 절차를위한 품질 개선 조치 전체적으로, 그리고 마지막으로 

    • 중간 평가를 포함하여 이전 기간의 모든 데이터 포인트를 포함하는 것 (원칙 5).

This is a high-stake decision with major conse- quences for the learner. The decision is taken by the same committee of examiners that conducted the intermediate evaluation with (prolonged engagement) but even more stringent procedural safeguards in so far as these are feasible. Examples are 

    • procedures of appeal

    • procedures of learner and coach input (firewall dilemma), 

    • training and benchmarking of examiners

    • committee size, 

    • extent of deliberation and docu- mentation, 

    • performance standards and/or rubrics, 

    • quality improvement measures for the evaluation procedure as a whole and, last but by no means least, 

    • the inclusion of all data points from the preceding period including the intermediate evaluations (principle 5).



성과 분류 (즉, 성적)가 판단의 미묘함을 증가시킬뿐만 아니라 분류 오류 및 판단력있는 두통의 위험도 증가한다는 것을 여기서 주목해야합니다. 시스템이 잘 작동하면 결과 결정은 학습자 (또는 코치)에게 놀랄 일이 아닙니다.

One should note here that more performance classifications (i.e. grades) do not only augment the subtlety of judgement but also the risk of classification error and judgemental headache. If the system works well, outcome decisions will come as no surprise to the learner (or coach).


진행 결정의 성격에 따라,위원회는 추후 훈련이나 개선을위한 권고안을 제시 할 수있다. 전반적으로 최종 결정은 튼튼하며 풍부한 정보와 수많은 데이터 포인트를 기반으로합니다 (원칙 6). 견고성은 결정의 신뢰성에 있습니다. 결정이 어려운 경우 법원 에서조차도 책임지고 방어 할 수 있어야합니다.

Depending on the nature of the progress decision, the committee may provide recommendations for further training or remediation. Overall, the final decision is robust and based on rich information and numerous data points (principle 6). The robustness lies in the trustworthiness of the decision. If the decision is challenged, it should be accountable and defensible, even in a court of law.





Discussion


도전

Challenges


제안 된 프로그래밍 방식의 명백한 

  • 첫 번째 과제는 이러한 프로그램을 실행하는 데 필요한 비용과 리소스입니다. 비용을 낮추려면, 많은 것들을 잘못하는 것보다 더 적은 일을하는 것이 현명하다( 'less is more'원칙입니다). 정보를 거의 주지 못하는 방대한 양의 데이터를 수집 할 필요는 없습니다. 그것은 단지 시간과 노력과 돈 낭비 일뿐입니다. 

  • 두 번째, 우리의 프로그램 방식에서 평가와 학습 활동 간의 경계가 흐려진다는 것입니다. 진행중인 평가 활동은 학습 프로그램의 상당 부분을 차지하고 있으며, 실제로 그것들은 불가분하게 그 안에 포함되어있다 (Wilson & Sloane 2000). 

  • 셋째, 경제적 타협이 이루어질 수 있고 그래야 한다. 평가 활동 중 일부는 특히 저부담 평가 활동을 저비용으로 잘 수행 할 수 있습니다. 예를 들어, 온라인 상품 은행을 통해 학생들은 특정 도메인에서 자신의 지식을 스스로 평가할 수 있습니다. 또한, 여러 학교가 시험 자료를 공유하는 것이 현명한 전략이며, 앞서 지적했듯이 (Van der Vleuten 등 2004). 전문성이나 의사 소통과 같은 전문적인 자질은 동료 평가 (Palchikov & Goldfinch 2000)에 매우 적합합니다. 또한 부담과 자원 간의 균형에 따라, 모델의 특정 요소 또는 커리큘럼의 특정 기간에 타협이 이루어질 수 있다고 생각할 수 있습니다. 

  • 마지막으로 McIntyre와 Bok에 기인 한 인용문은 여기에 적절하게 보입니다. '교육이 비싸다고 생각한다면, 무지를 시도하십시오.'

An obvious first challenge of the suggested programmatic approach is the cost and resources needed for running such a programme. 

  • Our first remark here is that, in keeping costs down, it is wiser to do fewer things well than to do many things badly (the ‘less is more’ principle). There is no point in gathering a vast amount of data that provides little information; it would only be a waste of time, effort and money. 

  • A second remark is that, in our programmatic approach, the boundaries between assessment and learning activities are blurred. The ongoing assessment activities are very much part and parcel of the learning programme, indeed they are inextricably embed- ded in it (Wilson & Sloane 2000). 

  • Third, economic compro- mises can and must be made. Some of the assessment activities, particularly low-stake ones, can be done well at low cost. For example, an online item bank would enable students to self-assess their knowledge in a certain domain. Furthermore, the sharing of test materials across schools is a smart strategy, as we have pointed out earlier (Van der Vleuten et al. 2004). Certain professional qualities, like professionalism or communication, lend themselves very well to peer assess- ment (Falchikov & Goldfinch 2000). It is also thinkable that compromises are made on certain elements of the model or in certain periods in the curriculum, depending on the balance between stakes and resources. 

  • And finally, a quote attributed to McIntyre and Bok seems appropriate here: ‘If you think education is expensive, try ignorance’.




정면으로 직면해야하는 두 번째 큰 도전은 관료주의, 평범함 및 환원주의입니다. trivialisation는 이 글에서 여러 번 나왔다. 이는 의도적인데, trivialization은 사방에 숨어 있기 때문입니다. 평가 도구, 평가 전략 또는 평가 절차가 원래 의도했던 것보다 더 중요해지면, 그것은 그 추악한 머리를 되 돌린다. 우리는 그것이 항상 일어나는 것을 봅니다. 학습자는 시험에 합격하기 위해 꾀를 부리며, 교사는 펜의 한 획으로 양식을 완성합니다 (단지 행정적 절차만 처리했을 뿐 의미가 없다). 

A second huge challenge that must be faced squarely is bureaucracy, trivialisation and reductionismThe word trivialisation has cropped up time and again in this article. Our frequent usage of it is intentional, for trivialisation lurks everywhere. As soon as an assessment instrument, an assess- ment strategy or an assessment procedure becomes more important than the original goal it was intended to accomplish, trivialisation rears its ugly head. We see it happening all the time. Learners perform tricks to pass exams, teachers complete forms with one stroke of the pen (administrative requirement completed but judgement meaningless), we stick to proce- dures for no other reason than that we have always done it this way (we want grades because they are objective and accountable to society) or because of institutional policy.


우리가 암시장에서 시험 자료가 교환되거나 인터넷에 자료들이 올라오는 것을 보자 마자 우리는 평가 과정을 평범한 것으로 확신 할 수 있습니다. 프로그램 평가의 모든 행위자는 자신이하는 일, 왜 그 일을하는 이유, 왜 그렇게하는지 이해해야합니다. 그렇지 않으면 그들은 평가의 진정한 목적을 잃을 위험에 처해 있으며 관료 주의적 절차와 무의미한 인공물로 돌아갈 것입니다. 우리가 여기서 옹호하는 바와 같이 프로그램 적 평가를 실현하려면 사소한 일을 피하십시오. 아마도 가장 힘든 일이지만 가장 시급한 과제입니다. 관료제를 방지하기 위해 우리는 전체 과정을 촉진하는 지원 시스템이 필요합니다. 컴퓨터 기술은 facilitator로서 중요한 역할을하는 명백한 후보자로 보인다 (Bird 1990; Dannefer & Henson 2007). 우리는 이러한 기술을 탐색하기 시작했을 뿐이지 만 작업 부하를 줄이고 일부 문제에 지능적인 솔루션을 제공 할 수 있다는 큰 가능성을 보여줍니다.

 As soon as we notice the exchange of test materials on the black market or new internet resources peddling rafts of ready-made reflections, we can be sure that we have trivialised the assessment process. All actors in programmatic assessment should understand what they are doing, why they are doing it and why they are doing it this way. Otherwise they are in danger of losing sight of the true purpose of assessment and will fall back on bureaucratic procedures and meaningless artefacts. Steering clear of trivialisation is probably the hardest yet most urgent task we have to tackle if we are to realise programmatic assessment as advocated here. To prevent bureaucracy, we need support systems to facilitate the entire process. Computer technology seems an obvious candidate for an important role as facilitator (Bird 1990; Dannefer & Henson 2007). We have only begun to explore these technologies, but they show great promise to reduce workload and provide intelligent solutions to some of the problems.




세 번째 도전은 법적 제한입니다. 커리큘럼은 대학 규정이나 국내 법규를 준수해야합니다. 이들은 대개 매우 보수적이며 코스, 성적 및 학점으로 학습하는 숙달 지향적 인 접근 방식을 선호하는 경향이 있습니다.


A third challenge is legal restrictions. Curricula have to comply with university regulations or national legislation. These are usually very conservative and tend to favour a mastery-oriented approach to learning with courses, grades and credits.


이것은 최종 도전에 우리를 데려옵니다 : 참신과 무지. 제안 된 프로그램 평가 모델은 우리에게 익숙한 고전적 총괄평가 프로그램과 크게 다릅니다. 우리의 새로운 모델에 직면했을 때, 많은 이해 관계자들은 우리가 소프트 온 (soft on)으로 평가했다고 말하기 쉽습니다. 주관적인 정보와 판단에 의존하는 것에 대해 많은 사람들이 부드러운soft 선택으로 생각합니다. 우리는 열렬히 반대하며, 우리가 제안하는 의사 결정 절차가 왜 실제로하고 있는지, 그리고 어떤 목적을 위해서인지를 이해하는 많은 수의 배우들에게 맡겨지면 실제로 매우 tough하다는 것을 보여주기를 희망합니다. 참으로 힘든 일이지만 우리가 전심으로 지원하는 것입니다.


This brings us to the final challenge: the novelty and the unknown. The proposed model of programmatic assessment is vastly different from the classical summative assessment programme familiar to most of us from personal experience as learner and teacher. When confronted with our new model, many stakeholders are likely to tell us we have turned soft on assessment. Our willingness to rely on subjective information and judgement, in particular, is seen by many as a soft option. We fervently disagree and we hope to have demonstrated that the decision-making procedures we propose can actually be extremely tough, provided they are put in the hands of a large body of actors who really understand why they are doing and for which purpose. A daunting task indeed, but the one we support wholeheartedly.



기회

Opportunities


우리는 또한이 모델을 통해 개인의 평가 도구에 대한 독창적 인 정신 측정 방식의 담론을 넘어서기를 희망합니다 (Hodges 2006).

We also hope that, with this model, we can move beyond the exclusively psychometrically driven discourse of individual assessment instruments (Hodges 2006).


Conclusion


우리는 일관된 구조와 요소의 시너지가 합목적성을 보장한다고 믿습니다. 학습 지향과 의사 결정의 견고 함을 목적으로합니다. 이 모델은 실제 프로그램의 경우 제한적이지만 프로그램 적 평가를위한 프레임 워크의 다른 요소 (프로그램 지원, 문서화, 개선 및 정관화)에는 적용되지 않는다는 점에 유의하십시오 (Dijkstra 외. 2010).


We believe its coherent structure and synergy of elements ensure its fitness for purpose. Fit for purpose in its learning orientation and in its robustness of decision making. We note that the model is limited for the programme in action, but not for the other elements (programme support, documentation, improvement and jus- tification) of the framework for programmatic assessment (Dijkstra et al. 2010).



Hodges B. 2006. Medical education and the maintenance of incompetence. Med Teach 28:690–696.


Cavalcanti RB, Detsky AS. 2011. The education and training of future physicians: Why coaches can’t be judges. JAMA 306:993–994.


Cilliers FJ, Schuwirth LW, Adendorff HJ, Herman N, van der Vleuten CP. 2010. The mechanism of impact of summative assessment on medical students’ learning. Adv Health Sci Educ Theory Pract 15:695–715.


Cilliers FJ, Schuwirth LW, Herman N, Adendorff HJ, van der Vleuten CP. 2011. A model of the pre-assessment learning effects of summative assessment in medical education. Adv Health Sci Educ Theory Pract, DOI: 10.1007/s10459-011-9292-5.


Schuwirth LW, Van der Vleuten CP. 2011. Programmatic assessment: From assessment of learning to assessment for learning. Med Teach 33:478–485.






 2012;34(3):205-14. doi: 10.3109/0142159X.2012.652239.

model for programmatic assessment fit for purpose.

Author information

1
Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, The Netherlands. c.vandervleuten@maastrichtuniversity.nl

Abstract

We propose a model for programmatic assessment in action, which simultaneously optimises assessment for learning and assessment for decision making about learner progress. This model is based on a set of assessment principles that are interpreted from empirical research. It specifies cycles of training, assessment and learner support activities that are complemented by intermediate and final moments of evaluation on aggregated assessment data points. A key principle is that individual data points are maximised for learning and feedback value, whereas high-stake decisions are based on the aggregation of many data points. Expert judgement plays an important role in the programme. Fundamental is the notion of sampling and bias reduction to deal with the inevitable subjectivity of this type of judgement. Bias reduction is further sought in procedural assessment strategies derived from criteria for qualitative research. We discuss a number of challenges and opportunities around the proposed model. One of its prime virtues is that it enables assessment to move, beyond the dominant psychometric discourse with its focus on individual instruments, towards a systems approach to assessment design underpinned by empirically grounded theory.

PMID:
 
22364452
 
DOI:
 
10.3109/0142159X.2012.652239
[Indexed for MEDLINE]


행간 읽기: 서술적 평가 코멘트에 대한 교수들의 해석(Med Educ, 2015)

Reading between the lines: faculty interpretations of narrative evaluation comments

Shiphra Ginsburg,1 Glenn Regehr,2 Lorelei Lingard3 & Kevin W Eva2





도입

INTRODUCTION


HPE에서 많은 일들이 일어나며, 이는 수습생의 이야기에 대한 네러티브 코멘트가 영향력있는 역할을한다. 예를 들어, 병동 기반 트레이닝 평가 보고서 (ITER)는 또한 승급 및 교정에 관한 결정을 내리는 프로그램 디렉터에게 평가 목적에 필요한 정보를 제공합니다.

There are many circumstances in health professions education in which narrative commentary on a trai- nee’s performance plays an influential role. For example, on ward-based in-training evaluation reports (ITERs) comments also serve more evaluative purposes such as communicating tothe programme director information that can sup- port decisions about promotion and remediation.2


전문가의 주관적이고 서술적인 의견 사용에 대해 Hodges는 평가에 대한 후기-심리측정적 접근법으로 묘사하였으며, '포괄적 인 평가에서 '신뢰할 수있는 의사 결정에 필수 불가결'로 제시되었다.

These uses of experts’ subjective, narrative comments regarding trainee performance – described by Hodges as ‘post-psychometric’ approaches to evaluation3 – have recently been put forward as ‘indispensable for trustworthy decision making in summative assess- ments’.4


네러티브 코멘트를 해석하는 복잡성은 의학 교육에서 잘 설명되어 있습니다. 연구원은 응급 의학 레지던시 프로그램에 지원하는 신청자의 학장의 편지에서 "good"이라는 단어가 실제로 '평균 이하'라는 단어라는 결론을 내 렸습니다. 방사능 재난에 대한 적용 패키지에 대한 또 다른 연구는 '우수'라는 단어가 의학 학교에서 가장 많이 사용 된 적이없는 것으로 밝혀졌으며, 절반 이상의 학교에서는 'excellent'한 학생이 하위 50%에 해당할 수 있습니다.6

The complexity of interpreting narrative comments is well documented in medical education. In one studyof deans’ letters for applicants applying to an emer-gency medicine residency programme, researchers  concluded that the word ‘good’ was actually a code word for ‘below average’. Another study of application packages to a radiologyresidency found the word ‘excellent’ was never usedby medical schools with reference to the top cate- gory of students and, for more than half the schools, an ‘excellent’ student could be in the  bottom half of the class.6


ITER 코멘트는 성과 예측이나 재교육 필요성을 판단하는데 가치가 있 .8,9 이러한 연구 결과는 평가 언어의 작성 및 해독과 관련하여 비교적 잘 이해 된 '숨겨진 코드'가 있음을 시사한다.

it appears that ITER comments may have value in predicting perfor- mance or need for remediation.8,9 In combination, such studies suggest that there may be a relatively well-understood ‘hidden code’ involved in writing and deciphering assessment language.


의사 소통 언어로 알려진 언어학의 이론은 의사 소통에 문자 적 ​​의미를 넘어서는 언어의 특징이 어떻게 사용되는지 이해하는 데 도움이 될 수 있습니다. 영어로 흔히 볼 수있는 비문 상적인 의사 소통의 잘 알려진 예에는 아이러니, 풍자 및 은유가 포함됩니다 .10 이러한 비-문자적 ​​의미를 정확하게 해석하는 능력은 누가, 누구에게, 무엇을 어떤 목소리로, 어떤 설정에서, 어떤 목적으로 말하는지 등등에 따라 달라진다..

Theory from the branch of linguistics known as prag- matics can help us understand how features of lan- guage beyond literal meaning are used for communication. Well-known examples of non-literal communication, which is common in English, include irony, sarcasmand metaphor.10 The ability to correctly interpret these non-literal meanings depends heavily on context, including awareness of who is speaking, to whom, in what tone of voice, in what setting, for what purpose, and so forth.



METHODS


The data collected for the analysis described here were generated during interviews of participants immediately after they had completed a ‘narrative ranking’ task which is described in full in Ginsburg et al.7



Materials


Each resident in our IM programme receives approximately eight or nine ITERs per year, each of which contains 19 items rated on a 5-point scale and a box for free-text comments that asks the per- son completing the ITER to: ‘Provide a general impression of the trainee’s development during this rotation, including general competence, motivation and consultant skills. Please emphasise strengths and areas that require improvement.’


The 63 PGY1 and 63 PGY2 documents were sepa- rately assigned to 12 packages of 15 or 16 docu- ments each so that no two packages were alike and each document appeared in three packages. The decision to include 15 or 16 documents for each rater was based on previous work indicating that this is a reasonable number of narratives to categorise and rank-order within a timeframe considered appropriate by participants.7 The decision to use three raters per resident document for each PGY set resulted in a required sample size of 24.




Participants and procedure


To be included in the study, physician participants were required to have attended an in-patient IM ser- vice at any of our university’s teaching hospitals and to have at least 2 years of experience in evaluating residents. This led to a list of approximately 60 eligi- ble faculty attendings, from which we recruited 24 attending physicians. The resulting sample con- tained 14 men and 10 women, with an average of 9.3 years of experience (range: 2–33 years).


In a one-to-one setting, participants were oriented to the four categories describing residents’ perfor- mance that were developed in a previous study: 

      • A = outstanding, excellent, exemplary; 

      • B = solid, safe, may need some fine tuning; 

      • C = borderline, bare minimum, remediable, and 

      • D = unsafe, unac- ceptable, multiple deficits.7,11 

Their first task was to categorise the 15 or 16 residents in their package by placing as many in each category as they wished. They were then asked to rank-order the residents within each category.


Subsequent to this process, each participant was interviewed by a single research assistant, who had qualitative research experience in education but was not involved in any way with our residency pro- gramme and was thus unknown to participants. One pilot interview was co-conducted with the lead author, but because no changes were made to the protocol afterwards, this interview was included in our dataset. During each semi-structured interview, participants were asked about the ranking process, how they had decided to place the residents in the four categories and rank-order them, how they had made cut-point decisions (i.e. how they had decided whether to place a resident at the bottom of one category or at the top of another), and what lan- guage in the comments had influenced their deci- sions. They were also asked to provide comments on the ITERs in general. The entire task took approximately 90 minutes per participant and the interview portion lasted 15–30 minutes. Interviews were audiotaped, transcribed and anonymised.



Analysis


The transcripts were analysed using principles of constructivist grounded theory.12 As sensitising con- cepts, we considered that participants may have been influenced by such factors as the strength of adjectives used, the mention of particular compe- tency domains, and the presence of ‘lukewarm’ lan- guage that may be interpreted negatively.13 SG conducted the primary analysis using a line-by-line approach to identify codes that were then grouped into themes. We used a constant comparative approach to coding in an iterative fashion, whereby each transcript was read numerous times to look for confirming or disconfirming examples in a process that continued until the coding structure appeared stable and sufficient (i.e. until no new codes emerged after multiple reads).14 The codebook (the coding framework with definitions and examples) was then presented to three other members of the research team along with several uncoded tran- scripts. Each team member read the transcripts before reviewing the codebook and provided critical feedback on the codes and their interpretation. No substantive changes to the coding were made during this process; rather, feedback was used to further clarify and define existing codes. NVivo Version 10.0 (QSR International Pty Ltd, Melbourne, Vic., Australia) was used to organise the data and facili- tate coding.




RESULTS


인터뷰 내역서 150 페이지를 분석 한 결과 참여자가 순위 결정 및 분류 판단에 어떻게 도달했는지 이해할 수있는 프레임 워크를 제공하는 몇 가지 주제가있었습니다. 참여자들이 ITER 코멘트를 읽고 해석하는 방법을 설명하는 가장 중요한 주제는 '회선 사이 읽기'라고했습니다.

Analysis of the 150 pages of interview transcripts resulted in several themes that provide a frame- work for understanding how participants came to their rank-ordering and categorisation judgements. The overarching theme, which explains how partic- ipants read and interpreted the ITER comments, we called ‘reading between the lines’.



행간 읽기

Reading between the lines


모든 참가자는 내러티브 코멘트를 이해하려면 행간을 읽어야 한다고 말했다.

All participants either directly or indirectly expressed a need to read between the lines when attempting to understand narrative comments:


'해석'이라는 단어는 공통적이었습니다.

The word ‘interpret’ or variations thereof were com- mon in participants’ responses:


참가자들은 완곡 어법 (euphemisms)

Participants also noted euphemisms,


일부는 '좋은'것으로 보이는 것이 실제로 '나쁘다'고 말했습니다.

Some commented that what appears to be ‘good’ is actually ‘bad’:


코멘트 언어가 액면 그대로 사용되어서는 안되며 실제 의미가 숨겨져 있는 descriptor가 많았다.

The data abounded with such descriptions of how language should not be taken at face value and that the real meaning was implicit:


요약하면, 이 예제들은 언어가 액면 그대로 사용되지 않았으며, 서로 암묵적으로 공유되는 코드가 있었고, 참가자들은 과거의 비슷한 경험을 토대로 단어를 지속적으로 '번역'하였다.

In sum, these examples demonstrate that language was not taken at face value and that there is an implicit code that was shared, with participants ‘translating’ words consistently based on their past experiences with similar comments.


다만 코멘트를 해독하는 것은 참가자가 특정 언어 단서를 찾았다고 나타내는 적극적인 과정임을 유의해야합니다. 이들은 자주 무수한 코멘트 속에서 부정적이거나 긍정적인 것을 나타내는 "red fleg"의 적절한 단서를 스캐닝한다고 말했다.
The specific factors that fed into this code will be explored below. Beforehand, however, it is impor- tant to note that the decoding of comments was an active process in which participants indicated that they sought particular language cues. They fre- quently mentioned scanning for ‘red flags’, both positive and negative, to help them find the relevant cues in a sea of comments.

수많은 'red flag'가 다수 참여자들로부터 일관되게 나타났으며, 여기에는 잠재적인 문제 (예 : '좋음', '괜찮음') 또는 수퍼 스타 ( '모범적 인', '치프 레지던트 수준') 등이 있다..

Numerous red flag words or phrases were consis- tently identified by participants, suggesting either potential problems (e.g. ‘good’, ‘solid’) or super- stars (‘exemplary’, ‘chief resident material’). Table 2 shows further examples.



판단에 영향을 주는 구체적 요인들

Specific factors influencing judgements


참가자들이 각 문장을 읽으면서 위에서 언급 한 언어 단서와 더불어 몇 가지 특정 요소가 그들의 판단에 영향을 미치는 것으로 보였다 (표 1).

As participants read between the lines of the com- ments, several specific factors in addition to the lan- guage cues described above appeared to influence their judgements (Table 1).



일관성

Consistency


참가자들은 정기적으로 의견의 일관성에 영향을받는 것으로보고했습니다. 모든 인터뷰에는 여러 로테이션 및 평가자 또는 도메인 전반에 걸쳐 일관성에 대한 여러 참조가 포함되었습니다.

Participants regularly reported being influenced by the consistency of the comments: every interview contained multiple references to consistencies over time, across different rotations and evaluators, or across domains.


'다중 평가자'와 '매 로테이션마다'는 일관된 성과를 나타냈다. 참가자들에게 도메인 간의 일관된 성능 유지 또한 중요했습니다.

the ‘multiple evaluators’ and ‘in every single rotation’ signalled consistent perfor- mance. Consistency of performance across domains was also important to participants,


로테이션과 영역에 걸쳐 일관되게 긍정적 인 의견이 있었음에도 불구하고 참가자들의 의견 모순에 대한 해석이 다양했다. 일부 참가자는 일관성이 낮을 경우 이것이 레지던트가 전반적으로 weak할 것을 우려했다.

Although the presence of consistently positive comments across rotations and domains was inter- preted favourably, participants’ interpretations of inconsistency in comments varied. Inconsistencies were a concern for some participants, to whom they suggested that the resident might be weaker overall.


정확히 어떻게 비일관된 코멘트를 조율해야하는지가 긴장의 원인이 될 수 있습니다. 예를 들어, 한 참가자는 부정적인 의견에도 불구하고 D 카테고리에 레지던트를 두지 않은 이유를 설명하기 위해 애를 썼다. 마침내 '누군가가 자신이 정말로 좋다고 생각하기 때문에'(I2)라고 이유를 설명했다.

Exactly how inconsis- tencies should be reconciled could be a source of tension. For example, one participant struggled to explain why he or she did not put a resident in category D despite negative comments, finally con- ceding ‘...because someone thinks they’re really good’ (I2).



역량 영역

Competency domains


코멘트에 등장한 역량 영역은 참가자의 해석 및 순위 판단에도 영향을 미쳤습니다. 지식에 관한 코멘트는 특히 수월성의 마커로 간주되었는데, '탁월한 지식없이 A등급을 줄 수는 없다'는 대표적인 것이다(I14). 반대로, 지식과 관련된 '눈에 띄는 결함'은 의심의 여지가 있습니다. 특히 레지던트가 자신이 얼마나 열심히 일했는지에 대한 의견을 받았지만 지식 기반에 대한 의견이없는 경우 특히 그렇습니다. 사실 직장 윤리 ( '열심히', '위대한 노력'등)의 '내재적 역량'15에 대한 의견은 '누구한테나 해주는 좋은 말'로 해석되어 (I21) 특히 도움이되지 않는다고 생각되었습니다 . 그러나 지식이 언제나 카테고리를 구분하는 주요 원인이되지는 않았습니다.

The domain of competency featured in a comment was also influential to participants’ interpretation and ranking judgements. Comments about knowl- edge were specifically viewed as markers of excel- lence, illustrated in the representative assertion that ‘...you can’t be an A without outstanding knowl- edge’ (I14). Conversely, ‘conspicuous absences’ related to knowledge raised suspicions, particularly if a resident had received comments about how hard he worked but none about his knowledge base. Indeed, sometimes comments about the ‘implicit competency’15 of work ethic (‘hardworking’, ‘great effort’, etc.) were interpreted as ‘those nice things you say about everyone’ (I21) and thus were thought to be particularly unhelpful. However, knowledge was not always the primary trigger for categorising;



코멘트의 구체성

Specificity of comments



보다 구체적이고 자세한 설명은 작가가 실제로 알고 거주자와 시간을 보냈던 표지로 해석되었다. 그러므로 이러한 주장은 더 믿을 만하고 더 많은 무게를 지녔다.

More specific and detailed comments were inter- preted as signs that the writer really knew and had spent time with the resident; therefore, these com- ments were seen as more credible and carried more weight:



대조적으로, 일반적인generic 코멘트는 신용 할 여지가 적고 의심스러운 것으로 인식되었습니다. 참여자들은 어떤 조직에 대해서도 글을 쓸 수 있었기 때문에 유용한 정보를 전달하지 못했다고 느꼈다.

By contrast, generic comments were seen as less credible and were perceived as suspect. Participants felt that they could have been written about any- body and thus did not convey any useful informa- tion.


일반적인 언어를 싫어하는 것은 적기에 대한 스캔 전략을 설명 할 수 있습니다. 일부에서는 일반적인 주석으로 인해 여러 줄 사이의 추가 읽기가 발생하여 부정적인 해석이 생길 수 있습니다.

The dislike of generic language may explain the strategy of scanning for red flags. For some, generic comments led to further reading between the lines, potentially resulting in a negative interpretation:


(코멘트의) 양

Quantity


인터뷰 대상자는 주어진 거주자에 대한 의견의 수량에 대해 종종 언급했지만, 훌륭한 레지던트와 문제가 많은 레지던트 모두에게 해당하는 것이기 때문에 레지던트의 품질보다는 의견의 신뢰성을 나타내는 것으로 간주하는 것처럼 보였다. 더 긴 코멘트는 더 많은 노력을 들여 글을 썼다는 인상을 주었다. 따라서 레지던트를  얼마나 잘 알고있는지 또는 작성자가 얼마나 기꺼이 노력을 들였는지를 나타내는 것으로 해석 할 수 있습니다.

Interviewees often remarked on the quantity of comments for a given resident, but seemed to regard this as an indication of the credibility of the comments rather than of resident quality as lengthy comments were seen for both outstanding and problematic residents. Longer comments gave the impression that greater effort had gone into writing them; therefore, they could be interpreted as indi- cating how well the resident was known by the wri- ter or how much effort the writer had been willing to expend.


맥락적 요인

Contextual factors


평가자 정체성, 로테이션 유형 및 타이밍과 같은 ITER 의견의 해석에 영향을 미치는 세 가지 중요한 상황 요인이 발생했다.

Three important contextual factors that influenced the interpretation of ITER comments arose: evalua- tor identity, rotation type, and timing.


평가자의 정체성과 주치의에 따라 글쓰기 스타일이 현저하게 다를 수 있다고 지적했다. 일부는 수식어가 많은 언어를 사용하고, 다른 언어는 더 간결합니다. 어떤 사람들은 최상위 형용사를 사용하지만 다른 사람들은 그렇지 않습니다. 평가자가 알려지지 않았고 동일한 사람이 주어진 거주자에 대해 하나 이상의 의견을 작성한 것 같지 않았기 때문에 참여자는 연구 과제의 좌절 한 측면을 발견했습니다.

Regarding evaluator identity, many participants noted that the style of writing might differ markedly between different attending doctors: some write more, others less; some use flowery language, others are more terse; some use superlative adjectives, oth- ers do not. As the evaluator was not known, and it was unlikely that the same person had written more than one comment for a given resident, participants found this a frustrating aspect of the research task:


많은 참가자들은 로테이션 유형을 아는 것이 해석에 필수적이라고 느꼈습니다. 일반적인 내과 (GIM) 순환에서 유래 한 의견은 하위 스페셜티에서 얻은 의견, 특히 짧은 로테이션 블록에서의 의견보다 중요했습니다.

Many participants also felt that knowing the rotation type was essential to their interpretation. Comments derived from a general internal medicine (GIM) rotation carried more weight than comments obtained from a subspecialty, especially those for which attending blocks are shorter:



세 번째 문맥 적 요소는 타이밍이었다. 예를 들어, 많은 참가자들은 특정 의견이 도출 된시기를 주목하는 것이 중요하다고 생각했습니다.

The third contextual factor was timing. For exam- ple, many participants thought it was important to note the time of year at which certain comments were derived:


시간이 지남에 따라 개선되지 않으면 주민의 부분에 대한 통찰력이 부족할 수 있습니다. 대조적으로, 참가자들은 상주 공연의 부정적인 특징을 암시하는 것으로 변화를 나타내는 동사 (예 : '발전', '발전', '계속', '진화')의 사용에 대해 반복적으로 논평했다.

Lack of improvement over time might suggest a lack of insight on the resident’s part. By contrast, partici- pants recurrently commented on the use of verbs indicating change (e.g. ‘improving’, ‘developing’, ‘continues’, ‘evolving’) as implying a negative char- acteristic of resident performance:



ITER에 대한 일반적 코멘트

General comments about ITERs


많은 사람들은 ITER가 레지던트들이 개선 될 수 있도록 형성 피드백을 제공하는 수단을 대표한다고 생각했다. ITER의 목적에 대한 논의에서 '피드백'이라는 단어가 반복적으로 등장했다. 다른 사람들은 실제로 의사들이 참석 한 의사 결정 과정에서 의사 결정 과정이나 의사 결정 과정에서 훨씬 더 건설적인 피드백을 제공한다고 말하면서 ITER를 순수 총합계로보고 레지던트의 '최종 판단'으로 간주해서, 모든 것을 문서화 할 필요는 없다고 지적했다.

Many considered the ITER to represent a means of providing formative feedback so that resi- dents could continue to improve. The word ‘feed- back’ arose repeatedly in discussions of the purpose of the ITER. Others noted that in practice, attend- ing physicians provide much more constructive feed- back during the rotation or in a discussion setting and do not necessarily document everything on the form, viewing the ITER as purely summative, a ‘final judgement’ of a resident’s performance.



고찰

DISCUSSION


공통의 디코딩 전략이 명백하게 존재 함에도 불구하고, 코딩 된 언어의 사용은 문제가 아니 었습니다. 우리 참가자들은 Lye등의 연구와 같이 모호하고 일반적인 의견을 해석하는 데 어려움을 겪었으며 종종 레지던트의 성향에 초점을 두었다. 저자는 소아과 실력 평가에서 가장 흔한 구절은 '쾌적한 / 일하기를 좋아하는 것'이었는데, 결과적으로 의대생으로서 성공하지 못한 것에 대해 경각심을 품은 결과였습니다. 이 연구에서 특정 임상 기술과 관련된 의견은 31 %에서만 발견되었다 .16 Ginsburg 등은 IM 레지던트들의 ITER에 대한 서면 의견의 내용 분석에서 레지던트의 '태도 또는 성향'은 흔히 있었으며, 이는 역량에 직접적으로 연결되지 않은 다른 해설들도 그러했다. 해석에 종속되는 모호하고 배열적인 논평의 문제는 의학에 고유하지 않으며 다른 고등교육영역에서도 발견 될 수있다. 17-19

Despite the apparent existence of shared decoding strategies, the use of coded language was not unpro- blematic. Our participants claimed to struggle with interpreting vague and generic comments, often focused on the resident’s disposition, thereby echo- ing a study by Lye et al., 16 in which the authors found that the single most common phrase in pae- diatric clerkship evaluations was ‘pleasant/a plea- sure to work with’, a result they considered alarming for its irrelevance to success as a medical student. In that study, comments related to specific clinical skills were found only 31% of the time.16 Similarly, Ginsburg et al., in a content analysis of written comments on IM residents’ ITERs, found that comments about a resident’s ‘attitude or dispo- sition’ were common, along with other commentary not linked directly to competencies.15 The problems associated with the writing of vague, dispositional comments that are subject to (mis)interpretation are not unique to medicine and can be found else- where in higher education.17–19


그러나 다른 사람들이 지적했듯이, 우리의 데이터가 보여주는 바와 같이, ITER는 여러 목적을 동시에 수행하고 있으며, 그 중 일부는 상당한 사회적 복잡성을 수반 할 수 있습니다. 잠재적 인 사회적 목적 중 하나는 레지던트의 '체면'(즉, 자신이 가진 긍정적 인 이미지)에 주의를 기울이는 것일 수 있습니다. 공손함에 대한 이론에 따르면, 팀에 큰 가치가 있다고 인식되는 긍정적 인 기술을 강조함으로써 교수들은 레지던트가 '체면을 차리'거나 자신의 긍정적 자아상을 유지 또는 향상키도록 도와줄 수 있다. 이렇게 할 수 있는 것은, 작성자 입장에서 독자가 자신의 의견을 정확하게 해석 할 수있는 코드를 공유하고 있다고 생각하기 때문에, 의도 한 메시지를 보내면서도 레지던트의 체면도 챙겨줄 수 있다고 생각하기 때문이다.

However, as others1 have noted, and as our data show, it is likely that the ITER is serving multiple purposes simultaneously, some of which may involve considerable social complexity. One potential social purpose may be to attend to residents’ ‘face’ (i.e. the positive image a person has of him or herself). According to theories of politeness,20 by emphasis- ing positive skills that are perceived to be of great value to the team – such as being hardworking, pleasant to work with and possessing ‘those other basic qualities that, if you’re a good person, you get’ – faculty attendings may be allowing residents to ‘save face’, or to maintain or enhance their positive self-image. It is possible that faculty members are able to do this because they believe readers share the code for interpreting their comments accurately, and thus they can attend to residents’ face while still sending their intended message.


여기에서 관련이있을 수있는 두 번째 공손 개념은 'conventional indirectness'으로 알려져 있으며, 의도적으로 '문자 적 의미와는 다르지만, 문맥상으로는 모호하지 않은' 표현을 사용한다. 이는 왜 '좋은', '단단한'및 '기대 충족'과 같은 단어가 실제로는 부정적인 의미를 나타내는 단어가 아님에도, 교수가 경계선 이하의 평균치 이하의 수행 능력을 전달하려는 의도로 이해되는지를 보여준다.5,6 독자에게는 의미가 명확하게 보이지만, 이 용어에 대한 레지던트의 해석이 알려지지 않았다는 점에 주목하는 것이 중요합니다. 레지던트가 그 용어를 액면 그대로 이해하면, 자신의 퍼포먼스가 얼마나 향상되어야 하는지를 깨닫지 못할 수도 있다. 만약 레지던트가 이 용어를 액면 그대로 사용하지 않는다면, 그 비용은 교수진이 보존해주려고 했던 '체면'의 손실 일 수 있습니다.

A second politeness concept that may be relevant here is known as ‘conventional indirectness’ and refers to the use of phrases that, by virtue of con- vention, ‘have contextually unambiguous meanings which are different from their literal meanings’.20 This can explain why words and phrases such as ‘good’, ‘solid’ and ‘meets expectations’ are under- stood as intending to convey performance that is borderline or below average without requiring the attending doctor to actually use those undesirable terms.5,6 Although these meanings seem clear to physician readers, it is important to note that resi- dents’ interpretations of these terms are unknown. If residents take the terms at face value, they may not appreciate the degree to which their perfor- mance could be improved. If they do not take the terms at face value, the cost of their understanding the code may be the loss of ‘face’ that faculty mem- bers seek to help them preserve.


두 경우 모두 ITER 코멘트는 유용하지만 코드가 보편적이지 않고 저자의 내용을 완전히 이해하지 않으면 해독하기 어렵다는 것을 분명하게 나타냅니다.

In either case, the data collected in this study clearly indicate that, although it is generally useful, the code is not universal and is difficult to decipher without a full understanding of the author’s con- text.


참가자들은 전반적인 퍼포먼스 저하를 반영하여 개선 할 부분 (또는 이전에 제정 된 변경 사항)을 나타내는 언어 큐를 포착했습니다. 물론 레지던트 교육에 대한 문제가 제기됩니다. 숨겨진 코드가 있지만 불완전하게 이해되고 적용되는 경우, 레지던트는 개선되지 않으면 나빠질 수 있지만, 설령 반대로 개선이 되더라도 마찬가지로 나쁘게 보일 수도 있습니다. 더 문제는, 그녀의 개선 내용이 문서화되어도 부정정 평가를 받을 수 있다는 것이다. 이것은 ITER의 의도 된 목적과 실제 (또는 인식 된) 용도 사이의 불일치 문제를 강조한다.

Our participants picked up on lan- guage cues indicating areas for improvement (or previously enacted change) as reflective of a weaker performance overall. This of course raises issues for resident education. If there is a hidden code but it is imperfectly understood and applied, a resident might look bad if she doesn’t improve, but equally bad if she does. More to the point, she could look bad if her improvement is documented. This high- lights the problem of a misalignment between the intended purpose of the ITER and its actual (or perceived) use.


어떤 평가 도구에 대해서도 이러한 정렬 불일치는 '임의적 판단'22의 위험을 증가시킬 수 있으며, 따라서 이 도구가 실제로 어떻게 사용되고 해석되는지 이해하는 것이 매우 중요합니다. 실제로 우리 참가자들은 감독자가 누구인지 (예를 들어, 모든 연수생을 위해 개선 영역을 문서화했는지 여부) 알지 못하면 이러한 '균형 잡힌'의견을 해석하는 방법이 확실하지 않다는 우려를 표명했습니다.


For any assessment instrument, such misalignment can increase the risk for ‘arbitrary judgement’22 and thus it is critically important to understand how the instrument is actually being used and interpreted. Indeed, our participants expressed concern that without knowing who the supervisor was (and whether, for example, he or she documents areas for improvement for all trainees), they were not certain how to interpret these ‘balanced’ comments.


이것은 언어학의 추가적인 개념을 고려한 것으로서, 의사가 논평의 문맥에 대한 완전한 지식을 갖지 못한 것에 대해 의사가 표현한 좌절감을 설명하는 데 도움이 될 수 있습니다. 언어 실용주의자들은 특정 단어 및 어구의 의미를 이해하는 데 필요한 문맥 정보를 deixis로 표시했습니다. 한 가지 유형의 묵시(deixis)는 이야기의 이해에 필수적인 사람, 장소 또는 시간에 대한 지식을 가리킨다 .23 우리 참가자들은 끊임없이 이러한 정보를 원했고 정보가 없을 때는 적절히 코멘트를 평가할 수 없었다. 그러나 이것은 교수들이 ITER코멘트를 기반으로 레지던트의 순위를 매기는 것에 대한 자신감이 그들의 실제 능력보다 더 과장되었음을 보여준다. 즉, 이 'deictic marker'는 실제의 필요보다 인식된 필요를 더 나타낸다.

This leads to consideration of an additional concept from linguistics that may help to explain the frustra- tion expressed by attending physicians over not hav- ing full knowledge of the context in which the comments arose. Linguistic pragmatists have labelled the idea that contextual information is necessary to understand the meaning of certain words and phrases as ‘deixis’. One type of deixis refers to knowl- edge of the person, place or time as essential for understanding a narrative.23 Our participants rou- tinely expressed a desire for more information along these lines and felt that, in its absence, they were unable to properly assess the comments. However, this may speak more of their confidence in rank- ordering the residents than of their actual abilities to do so (i.e. these ‘deictic markers’ may represent a perceived necessity rather than an actual need).



결론적으로, ITER 코멘트를 평가하는데 중요하다고 느껴지는 정보들이 부재했음에도 참여자들이 의견을 바탕으로 레지던트를 높은 신뢰도로 순위를 매길 수 있었던 이전 연구의 결과는 놀랍다.7 이는 행간을 의견을 디코딩하는 전략은 참여자간에 매우 일관된 것으로 보입니다.

In sum, the multiple apparent purposes expected of ITER comments, the idiosyncratic faculty writing styles, and the absence of what is felt to be key infor- mation in many ITER comments make it surprising that participants as demonstrated in previous work were able to reliably rank-order residents based on comments alone.7 Their strategy of reading between the lines and decoding the written comments appears to have been remarkably consistent across participants.



Limitations


CONCLUSIONS



참가자가 '행간을 읽는' 능력은 그들이 어떻게 서면 의견을 말하고 어떻게 효과적으로 레지던트들을 진단 할 수 있었는지를 설명합니다. 그러나 이 전략은 또한 상황 해석 정보가 누락되거나 유추되는 경우 특히 다양한 해석이 쉽게 발생할 수있는 메커니즘을 제안합니다.

Participants’ ability to ‘read between the lines’ explains how they made sense of written comments and how they were able to effectively cat- egorise residents. However, this strategy also sug- gests a mechanism whereby variable interpretations can easily arise, particularly when contextual infor- mation is missing and inferred.


4 Govaerts M, van der Vleuten CPM. Validity in work- based assessment: expanding our horizons. Med Educ 2013;47 :1164–74.


7 Ginsburg S, Eva KW, Regehr G. Do in-training evaluation reports deserve their bad reputations? A study of the reliability and predictive ability of ITER scores and narrative comments. Acad Med 2013; 88 :1539–44.


12 Charmaz K. Coding in grounded theory practice. Constructing Grounded Theory: A Practical Guide Through Qualitative Analysis. London: Sage Publications 2009;42–71.


13 Frohna A, Stern D. The nature of qualitative comments in evaluating professionalism. Med Educ 2005;39 :763–8.







 2015 Mar;49(3):296-306. doi: 10.1111/medu.12637.

Reading between the linesfaculty interpretations of narrative evaluationcomments.

Author information

1
Department of Medicine, University of Toronto, Toronto, Ontario, Canada.

Abstract

OBJECTIVES:

Narrative comments are used routinely in many forms of rater-based assessment. Interpretation can be difficult as a result of idiosyncratic writing styles and disconnects between literal and intended meanings. Our purpose was to explore how faculty attendings interpret and make sense of the narrative comments on residents' in-training evaluation reports (ITERs) and to determine the language cues that appear to be influential in generating and justifying their interpretations.

METHODS:

A group of 24 internal medicine (IM) faculty attendings each categorised a subgroup of postgraduate year 1 (PGY1) and PGY2 IM residents based solely on ITER comments. They were then interviewed to determine how they had made their judgements. Constant comparative techniques from constructivist grounded theory were used to analyse the interviews and develop a framework to help in understanding how ITER language was interpreted.

RESULTS:

The overarching theme of 'reading between the lines' explained how participants read and interpreted ITER comments. Scanning for 'flags' was part of this strategy. Participants also described specific factors that shaped their judgements, including: consistency of comments; competency domain; specificity; quantity, and context (evaluator identity, rotation type and timing). There were several perceived purposes of ITER comments, including feedback to the resident, summative assessment and other more socially complex objectives.

CONCLUSIONS:

Participants made inferences based on what they thought evaluators intended by their comments and seemed to share an understanding of a 'hidden code'. Participants' ability to 'read between the lines' explains how comments can be effectively used to categorise and rank-order residents. However, it also suggests a mechanism whereby variable interpretations can arise. Our findings suggest that current assumptions about the purpose, value and effectiveness of ITER comments may be incomplete. Linguistic pragmatics and politeness theories may shed light on why such an implicit code might evolve and be maintained in clinical evaluation.

PMID:
 
25693989
 
DOI:
 
10.1111/medu.12637


의학교육에서 행동과학과 사회과학 역량 평가를 위한 도구들: 체계적 종설 (Acad Med, 2016)

Tools to Assess Behavioral and Social Science Competencies in Medical Education: A Systematic Review

Patricia A. Carney, PhD, Ryan T. Palmer, EdD, Marissa Fuqua Miller, Erin K. Thayer, Sue E. Estroff, PhD, Debra K. Litzelman, MD, Frances E. Biagioli, MD, Cayla R. Teal, PhD, Ann Lambros, PhD, William J. Hatt, and Jason M. Satterfield, PhD




2004 년 보고서에서 IOM (Institute of Medicine)은 조기 사망률 및 사망률의 원인 중 50 %가 행동 및 사회적 요인과 관련되어 있지만 이러한 영역에서 의과 대학 교과 과정은 불충분하다고 결론지었습니다 .1-3 IOM이 강조한 행동 및 사회적 영역에는

  • (1)건강 및 질병에서의 심신 상호 작용, 

  • (2) 환자 행동, 

  • (3) 의사 역할 및 행동, 

  • (4) 의사 - 환자 상호 작용, 

  • (5) 헬스케어의 사회문화적 이슈

  • (6) 건강 정책과 경제 

...등이 있다. IOM은 26개의 우선 순위 주제를 확인했다. 

In a 2004 report, the Institute of Medicine (IOM) concluded that, although 50% of the causes of premature morbidity and mortality are related to behavioral and social factors, medical school curricula in these areas are insufficient.1–3 The behavioral and social science (BSS) domains that the IOM deemed critical in their report included (1) mind–body interactions in health and disease, (2) patient behavior, (3) physician role and behavior, (4) physician–patient interactions, (5) social and cultural issues in health care, and (6) health policy and economics.1 Within these six domains, the IOM identified 26 high-priority topics, such as health risk behaviors, principles of behavior change, ethics, physician well-being, communication skills, socioeconomic inequalities, and health care systems design.1


또한, LCME는 BSS 영역 5에서 의과대학 인정을 위한 요구 사항의 일부로서, BSS분야에서 전문직과 대중이 의사에게 기대하는 능력을 확인하도록 요구하고 있습니다. 의과 대학은 학습자의 이러한 역량에 대한 진전 및 성취를 입증하기 위해 내용 기반 평가와 결과 기반 평가를 사용해야합니다. 그렇게하기 위해 많은 학교에서는 전문 ACGME 핵심 역량 인 전문성, 의학 지식, 환자 간호, 대인 관계 기술 및 의사 소통, 시스템 기반 실습, 실습 기반 학습 및 개선을 사용합니다.

In addition, the Liaison Committee on Medical Education (LCME) incorporates, as part of its educational program requirements for accreditation, BSS domains5 and requires that schools identify the competencies in these areas that both the profession and the public can expect of a practicing physician. Medical schools must use both content and outcomes-based assessments to demonstrate their learners’ progress toward and achievement of these competencies. To do so, many schools use the broad ACGME core competencies—professionalism, medical knowledge, patient care, interpersonal skills and communication, systems-based practice, and practice-based learning and improvement.6



그러나 BSS 커리큘럼에 대한 다양한 교육 모델 또는 교육용 디자인의 효과를 평가하는 데 도움이 될 수 있는 평가 도구의 표준화가 결여되어 있어서 의과 대학에서 수집 한 평가 데이터를 모으는 것이 어렵다. 

This lack of standardization makes it difficult to pool evaluation data collected across medical schools, which could help evaluate the effectiveness of different training models or instructional designs for BSS curricula.


또한, 신뢰할 수있는 전문 활동이나 이정표 달성 수준을 결정하고 엄격한 교육 연구를 수행하는 경우 역량 개발 측정이 유효해야합니다. 그러나 종종이 중요한 단계를 완전히 건너 뛰거나 완전히 완료하지 않거나 신뢰할 수있는 결과를 산출하는 데 필요한 엄격함이 부족합니다.

Moreover, determining the levels of achievement of entrustable professional activities or milestones7 as well as conducting rigorous educational research require that measures of competency development are validated. However, often this important step is skipped entirely, not fully completed, or lacks the rigor needed to produce reliable results.




Method


Guiding principles


We used the Best Evidence Medical and Health Professional Education Guide8 in our systematic review.


To accomplish this step, we analyzed the LCME accreditation requirements,5 which are divided into five sections: 

    • (1) institutional setting (e.g., governance and organizational environment);

    • (2) educational program for the MD degree (e.g., objectives, learning environment and approach, structure in design and content); 

    • (3) medical students (e.g., student demography, admissions, student services); 

    • (4) faculty (e.g., qualifications, personnel, organization and governance); and 

    • (5) educational resources (e.g., faculty background and time, finances and facilities).


To focus our review, we selected components from the LCME’s Section II: Educational Program for the MD Degree (ED) and focused specifically on educational content. (The LCME standards provided more detail than the ACGME milestones, and thus we relied heavily on the LCME verbiage as we refined our review.)


Search terms



Inclusion/exclusion criteria


We sought to include articles reporting on some form of validity or reliability testing in more than one learning setting for BSS competency assessment measures.



Methods for data abstraction


Methods for assessing instrument quality and study design


For example, 

    • a high-quality article was one that applied a validated BSS instrument (either from the published literature or the included article) using a rigorous study design, such as a randomized controlled trial. 

    • A low-quality article was one that applied an unvalidated measure of BSS competency and used a weak study design to measure the impact of the educational intervention, such as a post-intervention survey of student satisfaction.


We categorized the level of evidence supporting each BSS competency assessment instrument and study design as weak, moderate, or strong. 

    • The weak evidence category included studies containing limited information on the validity and/or reliability of the evaluation instrument or a weak study design, such as a single-group pre–post design. 

    • The moderate evidence category included studies that provided some information about the reliability of the measures used but were not assessed rigorously, retested in the study sample, or had a moderately strong study design, such as a single-group historical cohort assessment. 

    • The strong evidence category included studies in which the evaluation instruments were tested rigorously in the study population and used a strong study design, such as a randomized controlled or crossover trial design.


Methods for article categorization, data entry, and analysis


Articles identified for data abstraction were classified into three categories: 

    • (1) 도구 개발 instrument development with psychometric assessment only, defined as articles devoted to the statistical validation of a new or existing competency tool, such as a measure of physician empathy; 

    • (2) 교육 연구 educational research, defined as articles that used a specific study design and BSS competency assessment tool to draw conclusions about a defined educational research question; and 

    • (3) 교육과정 평가 curriculum evaluation, defined as articles that assessed specific curriculum features.




결과

Results


Of these, we categorized 21 studies as instrument development with psychometric assessment only, 62 as educational research, and 87 as curriculum evaluation (see Supplemental Digital Appendix 2 at http://links.lww.com/ACADMED/ A328).


IRB리뷰

The majority of articles mentioned IRB review (13 of 20 instrument development studies, 35 of 48 educational research studies, and 36 of 46 curricular evaluation studies) with most getting approval or exemption (see Supplemental Digital Appendix 2). 


연구설계

  • Randomized study designs with or without controls were most common for educational research studies (23 of 48; 48%) compared with instrument development studies (1 of 20; 5%) and curricular evaluation studies (0 of 46; 0%), 

  • while prospective cohort pre–post designs were most common for curriculum evaluation studies (24 of 46; 52%) compared with educational research studies (6 of 48; 13%) and instrument development studies (1 of 20; 5%) (see Supplemental Digital Appendix 2). 


타당도

Validation using formal psychometric assessment was most common for instrument development (19 of 20; 95%) and educational research studies (25 of 48; 52%) compared with curriculum evaluation studies (17 of 46; 37%).


역량

  • The most common BSS learner competency assessed across all types of articles was communication skills (see Supplemental Digital Appendix 3 at http://links.lww.com/ACADMED/A328). Cultural competence and behavior change counseling (which included motivational interviewing) also were commonly assessed, especially in educational research and curriculum evaluation studies. 

  • Using the ACGME competency language, interpersonal skills and communication (in > 90% of included articles), patient care (> 62% of articles), and medical knowledge (> 43% of articles) were most commonly assessed, with practice-based learning and improvement (≤ 10% of articles) and systems-based practice (≤ 10% of articles) less commonly assessed (see Supplemental Digital Appendix 3).

  • Validated instruments that assessed knowledge, attitudes, and skills were most commonly used to evaluate BSS competencies (65%–85%), with standardized patients assessing learners’ performance being the second most common (30%–44%) (see Supplemental Digital Appendix 3).


강력한 근거를 보여주는 문헌

We ranked 33 articles (29%) as contrib- uting strong evidence to support BSS competency measures of communication skills, cultural competence, empathy/ compassion, behavioral health coun- seling, professionalism, and teamwork. Most of these were educational research studies (see Supplemental Digital Appendix 3).


기타

In Supplemental Digital Appendix 4, we provide additional details regarding the included articles. In Supplemental Digital Appendixes 5 and 6, we describe the 62 articles (54%) that yielded moderate evidence in support of a BSS assessment tool and the 19 articles (16.7%) that yielded weak evidence, respectively.


고찰

Discussion


우리는 의사 소통 기술을 평가하는 도구가 가장 엄격한 검증 및 연구 설계 접근법에 의해 뒷받침되었음을 알게되었습니다. 이 도구에는 표준화 된 환자와 함께 수행 된 평가뿐 아니라 지식, 태도 및 기술을 평가하는 필기 시험이 포함되었습니다. 전체적으로 실제 환자와 상호 작용하는 학습자의 직접적인 관찰을 사용한 평가가 부족했다. 이러한 접근 방식은 시간과 자원을 많이 필요로 하지만, 학습자 역량 평가에서 직접 관찰은 중요하다.123-126

We learned that tools assessing communication skills were supported by the most rigorous validation and study design approaches. These tools included both written tests assessing knowledge, attitudes, and skills as well as assessments conducted with standardized patients. Overall, we found a paucity of assessments that used the direct observation of learners interacting with actual patients. Although such approaches are time and resource intensive, several articles support the value of direct observation in assessing learner competencies.123–126


다른 우수한 평가는 문화적 능력, 공감 / 동정, 행동 변화 상담 (예 : 동기 부여 면담) 및 전문성을 평가합니다. 그러나 고품질 평가 도구 하나만이 팀워크를 평가했습니다.

Other high-quality assessments evalu- ated cultural competence, empathy/ compassion, behavior change counseling (e.g., motivational interviewing), and professionalism. However, only one high-quality assessment tool, described in a 2008 article, evaluated teamwork.


교육자 및 교육 연구가는 학습자의 BSS 역량 평가를 위해 reinventing the wheel하기보다는, 기존의 검증 된 도구에 대한 문헌을 검토하는 편이 낫다.

We recommend that educators and educational researchers review the literature for established, validated tools to assess BSS competencies in their learners rather than reinventing the wheel.


이 검토를 완료하는 데있어서 가장 중대한 과제 중 하나는 평가 도구의 강점과 연구 설계의 강점을 구별하는 것이 었습니다. 예를 들어, 사용 된 도구는 매우 강할 수 있지만 평가 설계가 너무 약해서 연구 결과에서 강한 결론을 이끌어 내기 위해 측정 강도가 설계의 약점을 극복 할 수 없었습니다.

One of the most significant challenges in completing this review was distinguishing between the strength of the assessment instruments and the strength of the study designs. For example, the tool used might be very strong but the evaluation design was so weak that the strength of the measure could not overcome the weakness in the design in terms of drawing strong conclusions from the study findings.


교육 연구에서도 엄격한 연구 설계를 적용 할 가능성이 있지만 타당화 방법은 항상 도구 개발연구에서 설명한 것만 큼 강하지는 않았습니다. 그러나 독자가 강력한 평가 설계를 채택한 교육 연구에서 결론을 도출하더라도, 현실에서는 디자인은 사용한 척도measures만큼만 우수합니다.

Although educational research articles were also likely to apply rigorous study designs, their validation approaches were not always as robust as those described in instrument development articles. This finding is worrisome as readers may draw conclusions from educational research that employs a strong evaluation design, when in reality the design is only as good as the measures used.


또한 커리큘럼 평가 연구는 타당도가 입증된 도구를 사용할 가능성이 낮고, 흔하게 약한 연구 방법을 포함하는 것으로 밝혀졌습니다. 연구자들 그들이 사용하는 평가 설계 또는 평가 방법이 차선책 인 경우 교육 과정 접근에 대한 강력한 증거를 생성 할 수 없습니다. 따라서 여기서 중요한 발견은 교육 연구 및 커리큘럼 평가를 대표할 수 있는, 양적 및 질적 연구에서의 잘 검증 된 도구를 사용해야한다는 것입니다.

Even more concerning is our finding that curriculum assessment studies were the least likely to include validated instruments and frequently used weak research methods. Researchers cannot generate strong evidence for curricular approaches if the evaluation designs or assessment measures they use are suboptimal. Thus, an important finding from our work is the need for the use of well-validated instruments in quantitative and qualitative studies that represent both educational research and curriculum evaluation.


1 Institute of Medicine. Improving Medical Education: Enhancing the Behavioral and Social Science Content of Medical School Curricula. Washington, DC: National Academies Press; 2004.






 2016 May;91(5):730-42. doi: 10.1097/ACM.0000000000001090.

Tools to Assess Behavioral and Social Science Competencies in Medical Education: A Systematic Review.

Author information

1
P.A. Carney is professor of family medicine and of public health and preventive medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. R.T. Palmer is assistant professor of family medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. M.F. Miller is senior research assistant, Department of Family Medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. E.K. Thayer is research assistant, Department of Family Medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. S.E. Estroff is professor, Department of Social Medicine, University of North Carolina at Chapel Hill School of Medicine, Chapel Hill, North Carolina. D.K. Litzelman is D. Craig Brater Professor of Medicine and senior director for research in health professions education and practice, Indiana University School of Medicine, Indianapolis, Indiana. F.E. Biagioli is professor of family medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. C.R. Teal is assistant professor, Department of Medicine, and director, Educational Evaluation and Research, Office of Undergraduate Medical Education, Baylor College of Medicine, Houston, Texas. A. Lambros is active emeritus associate professor, Social Sciences & Health Policy, Wake Forest School of Medicine, Winston-Salem, North Carolina. W.J. Hatt is programmer analyst, Department of Family Medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. J.M. Satterfield is professor of clinical medicine, University of California, San Francisco, School of Medicine, San Francisco, California.

Abstract

PURPOSE:

Behavioral and social science (BSS) competencies are needed to provide quality health care, but psychometrically validated measures to assess these competencies are difficult to find. Moreover, they have not been mapped to existing frameworks, like those from the Liaison Committee on Medical Education (LCME) and Accreditation Council for Graduate Medical Education (ACGME). This systematic review aimed to identify and evaluate the quality of assessment tools used to measure BSS competencies.

METHOD:

The authors searched the literature published between January 2002 and March 2014 for articles reporting psychometric or other validity/reliability testing, using OVID, CINAHL, PubMed, ERIC, Research and Development Resource Base, SOCIOFILE, and PsycINFO. They reviewed 5,104 potentially relevant titles and abstracts. To guide their review, they mapped BSS competencies to existing LCME and ACGME frameworks. The final included articles fell into three categories: instrument development, which were of the highest quality; educational research, which were of the second highest quality; and curriculum evaluation, which were of lower quality.

RESULTS:

Of the 114 included articles, 33 (29%) yielded strong evidence supporting tools to assess communication skills, cultural competence, empathy/compassion, behavioral health counseling, professionalism, and teamwork. Sixty-two (54%) articles yielded moderate evidence and 19 (17%) weak evidence. Articles mapped to all LCME standards and ACGME core competencies; the most common was communication skills.

CONCLUSIONS:

These findings serve as a valuable resource for medical educators and researchers. More rigorous measurement validation and testing and more robust study designs are needed to understand how educational strategies contribute to BSS competency development.

PMID:
 
26796091
 
PMCID:
 
PMC4846480
 [Available on 2017-05-01]
 
DOI:
 
10.1097/ACM.0000000000001090


CBME에서 평가의 역할 (Med Teach, 2010)

The role of assessment in competency-based medical education

ERIC S. HOLMBOE1, JONATHAN SHERBINO2, DONLIN M. LONG3, SUSAN R. SWING4 & JASON R. FRANK5, FOR THE INTERNATIONAL CBME COLLABORATORS

1American Board of Internal Medicine, USA, 2McMaster University, Hamilton, Canada, 3Johns Hopkins University, Baltimore, USA, 4Accreditation Council for Graduate Medical Education, USA, 5Royal College of Physicians and Surgeons of Canada and University of Ottawa, Canada




도입

Introduction


역량 기반의 의학 교육 (CBME)은 강력하고 다면적 인 평가 시스템을 필요로한다 (Norcini 외. 2008).

Competency-based medical education (CBME), by definition, necessitates a robust and multifaceted assessment system (Norcini et al. 2008).


CBME에서는 학습자가 발달과 필요한 능력을 획득할 수 있도록, 고품질의 피드백을 자주 받을 수 있도록 형성 평가에관심을 둬야 한다. 또한 특정 지식 분야, 기술, 태도에 문제가 있는 학습자에 대해서는 remedial action를 안내하는 '조기 경보 시스템'을 제공 할 수 있습니다.

For trainees, CBME requires enhanced attention to formative assessment to ensure they receive frequent and high-quality feedback to guide their development and the acquisition of the necessary competen- cies (Carraccio et al. 2002; Bing-You & Trowbridge 2009). For those trainees with deficiencies in certain knowledge areas, skills, or attitudes, CBME can provide an ‘‘early warning system’’ to guide remedial action;


프로그램 수준에서 효과적인 평가는 학습자의 진급에 대한 프로그램 수준의 결정이 신뢰성 있고 공정하게 이루어 지도록하는 데 필요한 정보와 판단을 제공합니다 (Hawkins & Holmboe 2008). 효과적인 평가란, 현재와 같이 역량의 대리지표로서 'dwell time'에 대한 의존도를 감소시켜야 한다. (Carraccio 외. 2002).

At the program level, effective assessment provides the information and judgment necessary to enable program-level decisions about trainee advancement to be made reliably and fairly (Hawkins & Holmboe 2008). Effective assessment also potentially reduces dependence on educational ‘‘dwell time’’ as a proxy for competence – a characteristic that describes most current medical education programs (Carraccio et al. 2002).


미국에서 교육 프로그램에서의 역량에 대한 aggregated measurement는 프로세스와 구조를 덜 강조하되, 교육성과의 달성을 좀 더 강화하는 방식으로 인증 시스템을 발전시켜왔다. 그리고 이러한 시스템은 지속적인 품질 향상에 중점을 둘 것입니다 (Goroll 외 2004; Nasca 2008).

In the United States, aggregated measurement of competence in training programs has been proposed as a way to allow the accreditation system to evolve in a manner that places more emphasis on the attainment of educational outcomes and less on process and structure; such a systemwould thus be focused on continuous quality improvement (Goroll et al. 2004; Nasca 2008).


마지막으로 강력하고 정확한 평가는 의학 교육에 부여되는 특권이라고 볼 수 있는 "전문적인 자기 규제"에 필수적이지만, 전 세계적으로 회의와 냉소주의에 휩싸여있다. 예를 들어, 호주, 캐나다 및 영국 정부는 의학 교육 규제에보다 직접적으로 관여하고 있으며 유사한 흐름이 미국에서 시작되고 있습니다 (Chantler & Ashton 2009, Shaw 외 2009, Medicare 지불 자문위원회 2009). 거의 모든 국가에서 의사의 양성은 공공 자금으로 상당한 재정 지원이 이뤄지는 매우 값 비싼 business이다.

Finally, robust, accurate assessment is essential to profes- sional self-regulation, a privilege granted to medical education but increasingly viewed with skepticism and cynicism world- wide. For example, the governments in Australia, Canada, and the United Kingdom have become more directly involved in the regulation of medical education, and similar conversations are beginning to occur in the United States (Chantler & Ashton 2009; Shaw et al. 2009; Medicare Payment Advisory Commission 2009). Training a physician is a very expensive enterprise for which, in almost every country, substantial financial support is provided from the public purse.



훈련과 평가의 세팅

The setting of training and assessment


심리 측정의 필수요소에 기반한 전통적인 측정 방법은 WBA에 대해 의심스러운 시선을 보냈는데, 임상적 환경에 편견이 내재되어 있고, 진점수에 대한 결정을 어렵게 만드는 맥락적 요소를 '보정'하기가 어렵기 때문이다 (Rethans et al., 2002; Williams et al., 2003; Govaerts et al., 2007).


Traditional approaches to measurement, based in the psychometric imperative, have been leery of work-based assessment, given the biases inherent in the clinical setting and the challenges of ‘‘adjusting’’ for contextual factors that make it difficult to determine the ‘‘true’’ score, or rating, of competence (Rethans et al. 2002; Williams et al. 2003; Govaerts et al. 2007).




임상 마이크로시스템

Clinical microsystems


피훈련자가 일하고 배우는 주된 임상 단위 (예 : 외래 진료소, 병원 병실, 수술실 및 집중 치료실)가 마이크로 시스템입니다. 넬슨 (Nelson)과 동료들에 의해 정의 된 바와 같이, 임상 마이크로시스템은 환자의 특정 하위군에 대한 치료를 제공하기 위해 정기적으로 함께 일하는 소수의 사람들이다. 그것은 임상 및 사업 목표, 연계 된 프로세스 및 공유 된 정보 환경을 갖추고 성과를 산출합니다. "(Nelson et al., 2007).


The predominant clinical units where trainees work and learn – for example, ambulatory clinics, hospital wards, surgical suites, and intensive care units – are microsystems. As defined by Nelson and colleagues, a clinical microsystem is ‘‘a small group of people who work together on a regular basis to provide care to discrete subpopulations of patients. It has clinical and business aims, linked processes, and a shared information environment, and produces performance out- comes’’ (Nelson et al. 2007).


마이크로 시스템은 업무 중심의 교육 및 평가를위한 환경을 제공합니다. 논리적으로 CBME의 전제 조건은 훈련생이 경쟁력 확보를 위해 기능적인 마이크로 시스템에서 일하고 학습하는 것이지만 평가 시스템은 필연적으로 교육 시스템에 내장embed된다. 따라서 교육자는 다양한 마이크로시스템의 문화와 기능이 평가 프로세스에 어떻게 영향을 미치는지 신중하게 고려해야한다 (Rethans et al., 2002). 불행히도, 연수생은 종종 기능 장애가있는 마이크로 시스템에서 배우고 일한다는 실질적인 증거가 있습니다. 이러한 현실은 일반적으로 CBME의 주요한 장애물이며, 특히 평가에 큰 장애가 될 수있다 (Bowen et al., 2005; Reddy et al., Hafferty & Levinson 2008).


Microsystems provide the context for work-based training and assessment. Although it follows logically that a prerequi- site for CBME would be that trainees work and learn in functional microsystems to enhance the attainment of compe- tency, the assessment system is also inevitably embedded in the microsystems of the training program, making it important for educators to carefully consider how the culture and functionality of these multiple microsystems affect assessment processes (Rethans et al. 2002). Unfortunately, there is substantial evidence that trainees too often learn and work in dysfunctional microsystems. This reality may be a major impediment to CBME in general and to assessment in particular (Bowen et al. 2005; Reddy et al. in press; Hafferty & Levinson 2008).



효과적인 평가 시스템의 필수 구성 요소

Necessary components of an effective assessment system


평가는 복잡한 적응adaptive 시스템의 맥락에서 보아야한다 (McDaniel & Driebe 2001; Nelson et al., 2007). 복잡한 적응 시스템은 몇 가지 중요한 특성을 공유합니다. 첫째, 그들은 서로에게서 배우고, 적응하고, 따라서 변화 할 수있는 능력을 가진 개인을 포함하여 여러 상호연결된 요소로 구성됩니다 (Suchman 2006). 평가 시스템은 trainee와 협력적으로 여러 평가 방법 및 도구를 사용하는 여러 '에이전트agent'로 구성되어 있다.

Assessment should be viewed in the context of a complex adaptive system(McDaniel & Driebe 2001; Nelson et al. 2007). Complex adaptive systems share several important character- istics. First, they consist of multiple interconnected elements, including individuals who have the capacity to learn from one another, to adapt, and therefore to change (Suchman 2006). Assessment systems consist of multiple ‘‘agents’’ (e.g., faculty members, peers, patients, and other non-physician health care providers) using multiple assessment methods and tools (e.g., exams, mini-CEX, audit, multi-source feedback, simulation, etc.) in collaboration with the trainee in a competency-based training model.


1. 평가는 지속적이고 빈번해야합니다.

1. Assessment needs to be more continuous and frequent


CBME는 총괄평가보다 형성평가를 강조한다. 이것은 총평 평가가 중요하지 않다는 것을 말하는 것이 아닙니다. 사실상 의학교육 공동체는 연수생이 궁극적으로 감독받지 않은 상태에서 의료행위를 할 수 있는지를 대중에게 공개 할 의무가있다. 교육 이론 (McCowan 1998; Hodge 2007)도 뒷받침하듯, 형성평가에 대한 강조는 "deliberate practice"(Ericsson 2006, 2007)을 통한 전문성 개발 작업과도 일치합니다. Deliberate practice의 개념은 효과적인 코칭, 멘토링 및 피드백의 필요성을 강조합니다. 피드백은 피드백을 제공하기 위한 목적으로 시행되는 평가의 질을 뛰어넘지 못한다. 부정확평가는 비효율적 인 피드백과 발달 지연을 초래합니다. 그러나 효과적인 피드백은 전문성 개발을위한 강력한 도구가 될 수 있습니다 (Hattie & Timperley 2007).


As Carraccio and colleagues have outlined (2002), a compe- tency-based education program emphasizes formative over summative assessment. This is not to say that summative assessment is unimportant; indeed, the medical education community has a professional obligation to the public to ensure that its trainees are ultimately competent for unsuper- vised practice. A greater emphasis on formative assessment, while supported by educational theory (McCowan 1998; Hodge 2007), is also consistent with work on the development of expertise through ‘‘deliberate practice’’ (Ericsson 2006, 2007). The deliberate practice concept highlights the need for effective coaching, mentoring, and feedback. Feedback is only as good as the assessment that informs it: inaccurate potentially assessment leads to ineffective feedback and delayed development. However, effective feedback can be a powerful tool for professional development (Hattie & Timperley 2007).


Hattie와 Timperley가 교육의 연속체에 대한 광범위한 검토에서 언급했듯이 피드백은 학습자 진행을 돕기 위한 가장 강력한 '개입'일 수 있습니다 (Hattie & Timperley 2007). 임상 교육의 피드백은 평가 시스템에 단단히 통합된 특정 기술을 포함하는 복잡한 프로세스입니다 (van der Ridder 외. 2008). 고립적으로 수행한 자기평가는 효과가 없을뿐만 아니라 위험할 수 있다 (Davis 외 2006, Eva & Regehr 2008). 또한 피드백은 역량 기반 시스템에서 특히 중요한 "self-directed assessment seeking" (Eva & Regehr 2008)을 위해 연수생을 안내하는 핵심 구성 요소입니다. 효과적인 CBME 시스템은 견고한 평가와 견고한 피드백을 지속적으로 연결해야합니다.


As noted by Hattie and Timperley in their extensive review across the continuum of education, feedback may be the most potent ‘‘intervention’’ in helping learners progress (Hattie & Timperley 2007). Feedback in clinical education is a complex process involving specific skills that must be tightly integrated into the assessment system (van der Ridder et al. 2008). We now know that, when performed in isolation, self-assessment is not only ineffective but is potentially dangerous (Davis et al. 2006; Eva & Regehr 2008). Furthermore, feedback is a key component that guides trainees in more meaningful self- directed assessment-seeking behaviour that is critical in a competency-based system (Eva & Regehr 2008). An effective CBME system must continuously link robust assessment with equally robust feedback on a continuous basis.



2. 평가는 발달 적 관점을 사용한 준거기반 평가여야 한다.

2. Assessment must be criterion-based, using a developmental perspective


교육 기관 내에서 피훈련자 간 상대평가를 기반으로 한 규범적 접근은 진정한 결과를 달성하는 것을 매우 어렵게 만듭니다. 결과적으로 적절한 기대치 아래로 기준이 설정되는 상황이 빈번하게 발생한다.

A normative approach to assessment, based on comparable trainees within an institution, makes the attainment of true outcomes very difficult. As a result, standards are too often set below appropriate expectations.


(한 연구의) Baseline 평가에서 본질적으로 모든 레지던트들은 중심관 삽입을 독립적으로 수행 할 때 최소한의 안전 기준을 충족시키지 못했습니다. 즉, 단순히 올바른 혈관에 혈류를 옮기는 것만으로는 충분하지 않았습니다. 실제로, 레지던트들의 기본 성과는 현저하게 유사하여,이 상황에서의 평가에 대한 규범 적 접근이 그룹의 대부분의 구성원이 유능하다는 잘못된 판단을 이끌어 낼 수 있다는 사실을 보여주었다. 사실 모든 사람들이 중앙을 삽입 할 능력이 없었기 때문이다 라인 안전 (Barsuk 외. 2009).

At the baseline assessment, essen- tially all the residents failed to meet the criteria for minimal safety in independently performing central line insertion: in other words, simply getting the line into the right vessel was not enough. In fact, the baseline performance among the residents was remarkably similar, making the point that a normative approach to assessment in this situation could have led to a mistaken judgment that most members of the group were competent, when in fact everyone was incompetent to insert central lines safely (Barsuk et al. 2009).


적절한 기준은 발달적이어야한다. 일반적으로 마일스톤 또는 벤치 마크라고하는 발달 조건으로 기준을 정의하면 프로그램에서 연수생이 적절한 "궤적"에 있는지 여부를 결정할 수 있습니다 (Green et al. 2009). 실제로 이정표는 평가를위한 청사진이되고 평가 방법과 도구의 적절한 선택에 도움이 되며, 연수생이 발달적으로 있어야하는 곳의 전반적인 내러티브 또는 '이야기'를 만드는 데 도움이 될 수 있습니다 (Green et al. 2009) .

Criteria should also to be developmental in nature, where appropriate. Defining the criteria in developmental terms, commonly called milestones or benchmarks, allows programs to determine whether the trainee is on an appropriate ‘‘trajectory’’ (Green et al. 2009). Milestones, in effect, become the blueprint for assessment and help to guide the appropriate selection of assessment methods and tools, and can help to create the holistic narratives or ‘‘stories’’ of where trainees should be developmentally (Green et al. 2009).



3. 역량 기반의 의학 교육은 연수생이 궁극적으로 할 역할에 중점을 두고 있으며, 확고한 WBA가 필요합니다.

3. Competency-based medical education, with its emphasis on preparation for what the trainee will ultimately do, requires robust work-based assessment


특히 시뮬레이션은 학습 초기 단계에서 즉각적인 평가와 피드백을 비롯한 deliberate practice를 위한 장소를 제공하고 환자를 잠재적인 위험으로부터 보호합니다 (Issenberg 외. 2005). 그럼에도 불구하고 평가는 "authentic"한 환자 접촉와 빈번한 직접 관찰에 근거해야만한다. WBA가 전통적인 양식 (Norcini 2003)보다 우수하다는 강력한 증거가 없지만 WBA는 CBME의 필수 구성 요소이며 특히 형성 평가 및 피드백의 필요성이 커지면 더욱 그렇습니다.

Simulation, in particular, provides a venue for deliberate practice, including immediate assessment and feedback during the early stages of learning, while protecting patients from potential harm (Issenberg et al. 2005). Nonetheless, assess- ment must also be based on ‘‘authentic’’ encounters and frequent direct observation (Carraccio et al. 2002; Williams et al. 2003; Govaerts et al. 2007). Although some have noted the lack of strong evidence that work-based assessments are better than more traditional forms (Norcini 2003), we believe that work-based assessment is an essential component of CBME, especially given the greater need for formative assessment and feedback.


결과적으로, CBME 평가 시스템에서는 교수진에 대한 요구 사항은 전혀 적지 않다. 교수진은 매일 연수생과 나란히 work하므로 실시간 평가 및 피드백을 제공 할 수있는 훌륭한 위치에 있습니다. 그들은 연수생의 퍼포먼스를 정확하게 관측해야 한다.

As a result, a CBME assessment system places more, not fewer, demands on faculty. Faculty work side by side with trainees on a daily basis and are therefore in an excellent position to provide real-time evaluation and feedback. They need to be keen and accurate observers of trainee perfor- mance,


연구 결과에 따르면 교수들은 종종 연수생의 임상 기술의 결함을 확인하지 못하는 것으로 나타났습니다 (Herbers et al., 1989; Kalet et al 1992; Holmboe 2004).

studies have demonstrated that faculty frequently fail to identify deficiencies in trainees’ clinical skills (Herbers et al. 1989; Kalet et al 1992; Holmboe 2004).


주요 과제 중 하나는 교수들을 어떻게 더 정확한 관찰자로, 더 나은 수행능력 평가자로 훈련시키는 것이다. 또한 직접 관찰 할 수 없는 경우 다른 감독활동과 협력적으로 관찰 및 판단하는 것도 효과적인 평가에 중요한 요소입니다 (Kennedy et. 2007).

One of the major be more challenges will be how best to train faculty to and accurate observers better assessors of performance, In addition, faculty corroboration of trainee findings and judgments through other supervisory activities beyond direct observation are also important inputs into effective assessment (Kennedy et al. 2007).


4. 훈련 프로그램은 최소한의 퀄리티 기준을 충족하는 평가 도구를 사용해야합니다.

4. Training programs must use assessment tools that meet minimum standards of quality


지역 사회는 여러 가지 '자가 재배'평가 도구를 개발하지 않고 국가 또는 지역 내의 모든 프로그램에서 사용할 핵심 평가 도구 세트를 채택해야합니다. 의학교육은 평가도구의 선택과 사용에 있어서 너무 많은 변화를 겪었으며, 이는 의료 서비스에서의 가변성과 유사하다 (Fisher et al., 2003). 평가 도구의 품질 평가를 안내하기 위해 여러 프레임 워크를 사용할 수 있습니다. 이들 중 하나 인 유틸리티 지수 (van der Vleuten 1996)는 간단하지만 유용한 공식입니다.

The community needs to move away from developing multiple ‘‘home-grown’’ assessment tools and work instead toward the adoption of a core set of assessment tools that will be used across all programs within a country or region. Medical education has suffered from too much variability in the choice and use of assessment tools, akin to the variability seen in the delivery and quality of health care (Fisher et al., 2003). Several frameworks are available to guide the evalua- tion of the quality of assessment tools. One of these, the utility index (van der Vleuten 1996), is a simple but useful formula:


유용성 = 타당도 x 신뢰성 x 교육적 영향 x 수용력 x 비용 효과 성 :

Utility = validity x reliability x educational impact x acceptability x cost effectiveness:


우리는 "완벽한"평가 도구를 기다릴 수는 없다. 오히려 목적에 맞는 최상의 도구 조합을 사용해야합니다. "충분이 좋다"는 것은 도구가 만족할만한 정신측정학적 특징을 갖는지 여부에만 의존하지 않는다는 사실도 중요합니다.

However, a word of caution is in order: we cannot wait for the ‘‘perfect’’ assessment tools but, rather, must use the best combination of tools available for the purpose. It is also important to highlight the fact that being ‘‘good enough’’ does not depend only on whether a tool has satisfactory psychometric characteristics.


예를 들어 직접 관찰을 위해 가장 잘 연구 된 평가 도구는 mini-CEX이며, 이에 대한 적어도 20 개의 연구가 현재 인쇄되고 있지만, 우리는 여전히 mini-CEX을 최대한 활용하는 방법에 대한 완전한 이해가 부족합니다 (Kogan et al. 2009). 이는 어떤 WBA 도구도 그것을 사용하는 개인의 수준을 넘을 수 없다는 인식이 부족하기 때문이다 (Landy & Farr 1980; Murphy & Cleveland 1995). CBME가 궁극적으로 성공하기 위해서는 더 나은 평가 도구뿐만 아니라 도구를 사용할 숙련된 평가자가 필요합니다.

For example, the best- studied assessment tool for direct observation is the mini-CEX; although at least 20 studies of this tool are nowin print, we still lack a full understanding of how best to utilize it (Kogan et al. 2009). The primary reason for this state of affairs is the lack of recognition that any work-based assessment tool is only as good as the individual using it (Landy & Farr 1980; Murphy & Cleveland 1995). For CBME to be ultimately successful, we need not only a combination of better assessment tools but also more skilled faculty and other assessors who will use them.



5. 우리는 평가에 대한보다 "질적 인"접근법을 기꺼이 받아 들여야한다.
5. We must be willing to incorporate more ‘‘qualitative’’ approaches to assessment


평가에 대한 질적 접근에는 서술적 자료와 평가 세션 중 발생하는 대화 등이 포함될 수 있습니다. 특히 전문성 (Hemmer et al., 2000; Battistone et al. 2001)과 같은 어려운 역량과 관련하여 평가 세션에서 가치 있고 방어 가능한 정보를 얻을 수 있으며, 포트폴리오를 평가에도 reliable하게 사용될 수 있음을 보여 주었다 Driessen et al., 2005).

Qualitative approaches to assessment could include written narrative and the synthesis of conversations that occur during evaluation sessions. Research has shown that valuable and defensible information can be obtained during evaluation sessions, especially with respect to difficult competencies such as professionalism(Hemmer et al. 2000; Battistone et al. 2001), and that qualitative methods can be used reliably to judge portfolios (Driessen et al. 2005).


어떤 사람들은, 숫자 대신 Words로 효과적인 판단이 가능함에도, 평가의 객관화에 너무 많은 강조가 있다고 주장했다 (Govaerts et al., 2007). 예를 들어, 교수진의 DOA 결과는 평가 척도에서의 숫자 또는 판단적 언어 또는 서술적 묘사가 될 수 있다. 이 세 가지 모두가 판단력을 발휘할 수있는 능력을 가지고 있지만, 서술적 묘사만이 연수생의 개선과 학습 계획 수립에 필요한 구체적 정보를 제공합니다.

Some have argued that there is too much emphasis on the ‘‘objectification’’ of assessment when judgment can just as effectively be expressed in words instead of numbers (Govaerts et al. 2007). For example, the results of a direct observation assessment by faculty could be synthesized into 

    • a number on a rating scale, 

    • a categorization using words of judgment (e.g., ‘‘satisfactory’’), or 

    • a narrative description (e.g., ‘‘the trainee appropriately began the patient interview with an open-ended question and effectively gathered key information for diagnosis’’). 

All three have the capacity to provide a judgment, but the narrative example provides the level of specificity needed by the trainee to make improvements and develop learning plans.


6. 평가는 그룹의 지혜를 이끌어 내고 연수생의 적극적인 참여를 필요로합니다.

6. Assessment needs to draw upon the wisdom of a group and to involve active engagement by the trainee


어떤 개인도 고립된 상태에서 연수생의 역량에 대해서 판단을 내리면 안 되며, 특히 총괄 결정에 대해서는 더욱 그러하다(Swing 외. 2010). CBME 시스템의 평가는 레지던트를 평가 프로세스에 적극적으로 참여시켜야합니다. 의사에게와 마찬가지로 "자기 주도적 평가 탐색"의 개념은 피훈련자에게도 똑같이 중요한 개념이다 (Eva & Regehr 2008). CBME는 피훈련자의 적극적인 참여를 요구하며, 평가에서 피훈련자를 empower시켜야 한다.

No single individual should make judgments about the competence of a trainee in isolation, especially for summative decisions (Swing et al. 2010). Assessment in a CBME system must actively engage the resident in the assessment process. The concept of ‘‘self-directed assessment seeking’’ for practis- ing physicians is an equally important concept for trainees (Eva & Regehr 2008). CBME demands active involvement by the trainee, and programs must empower trainees in assess- ment.


자신의 의료행위에 대한 신뢰할 수 있고 유효한 평가를 찾고, 스스로 수행하는 능력을 갖추 었는지 확인하는 것은 역량 유지에 필수적입니다 (Duffy 외. 2008).

Ensuring that all physicians have the skills to seek and perform reliable and valid assessments of their own practice performance is essential to the maintenance of competence (Duffy et al. 2008).



미래의 평가 개념

Future concepts for assessment


최근까지 우리는 '시스템'을 주로 평가를 위한 맥락으로 간주했습니다. 그러나 이제 우리는 의사들이 마이크로 시스템 내에서 성공적으로 작업하기 위해 특정 지식, 기술 및 태도를 필요로한다는 것을 인식하기 시작했습니다. 이러한 마이크로시스템 역량의 예로 팀 구성원으로 효과적으로 일하는 것, 의사가 아닌 의료 서비스 제공자와 효과적인 전문 직업인 간 상호 작용 등이 있습니다. 시스템을 역량의 "맥락"으로 바라보는 것시스템 자체를 특정한 측면의 "역량"으로 바라보는 것 사이의 구분선은 점점 희미 해지고 있습니다. 다시 말해, 역량의 한 요소는, 의사와 시스템 사이의 효과적인 상호작용이며, 이를 통해 프로세스를 효과적으로 완료하거나, 임상 진료 프로세스를 개선하기 위한 시스템을 변화를 이룬다.

Until recently, we have viewed the ‘‘system’’ mainly as context for assessment. However, we are now beginning to recognize that physicians need specific knowledge, skills, and attitudes to work successfully within microsystems. Examples of such microsystem competencies include working effectively as a member of a team and effective interprofessional interactions with non-physician health care providers. The dividing line between systems as providing a ‘‘context’’ for competency and as a specific facet of ‘‘competency’’ is increasingly blurred, for competency is not only demonstrated within the specific context of a system but also pertains to engagement with the system itself. In other words, one element of competency is how effectively a trainee or physician interacts with the system, either to get a task or process done well, or to change the system in order to improve a clinical care process.


피훈련자는 자신의 일하고 선도하는 마이크로 시스템에 책임이있을 때 이러한 기술이 필요할 것입니다. CBME의 경우, 평가를위한 필수적인 철학적 질문은 마이크로 시스템에 대해서 어떤 '보정'이, 얼마나, 연수생의 평가에 포함되어야 하는지, 피훈련자와 마이크로 시스템과의 어떤 상호 작용을 역량으로 봐야 할 것이지 등은 반드시 고려해야 할 질문이다.

Trainees will need these skills when they become responsible for working and leading microsystems of their own. For CBME, an essential philosophical question for assessment will be what and how much ‘‘adjustment’’ for the microsystem should be part of the assessment of trainees, and what aspect of trainees’ interactions with their microsystems is itself a competency.


마지막으로, 평가 시스템의 판단 측면 인 평가는 통합적이고 종합적이어야합니다. CBME의 주요 비판 중 하나는 학습 및 평가를 일련의 '체크박스'으로 축소시키는 경향이 있다는 것입니다 (Leung 2002; Talbot 2004).

Finally, evaluation – the judgment aspect of the assessment system – must be integrative and synthetic. One of the major criticisms that has been made of CBME is that it has a propensity to reduce learning and assessment to a series of ‘‘checkboxes’’ (Leung 2002; Talbot 2004).


인간의 판단은 당분간은 평가 프로세스의 일부가 될 것입니다. CBME 시스템의 작업 기반 평가 측면에 대한 도전은 인간의 관찰 및 판단의 품질을 최대화하는 것입니다

Human judgment, will be part of the assessment process for the foreseeable future. The challenge for the work-based assess- ment aspects of the CBME system is to maximize the quality of human observation and judgment.



연구 의제

Research agenda



다른 긴급한 필요 영역은 교수진을 더 나은 평가자로 양성하는 방법을 결정하는 것입니다. 환자, 동료 및 기타 건강 관리 제공자와 같은 다른 사람의 평가도 중요하지만 시뮬레이션이 많이 제공된다는 사실에도 불구하고 교수진은 프로세스에서 제거 할 수 없으며 제거해서도 안됩니다.

The other urgent area of need is to determine how to train faculty to be better evaluators. Although assessments by others such as patients, peers, and other health care providers are also critical, and despite the fact that simulation has much to offer, faculty cannot and should not be removed from the process.



마지막으로 평가 프레임 워크는 전문 지식을 고려해야합니다. 역량 기반의 의학 교육 모델에서 평가 방법을 연구 할 때 CBME는 역량을 궁극적 인 국가로 추구하지 않고 오히려 전문성이 최종 목표임을 인식해야합니다.

Finally, our assessment frameworks need to account for expertise. As we study approaches to assessment within the competency-based model of medical education, we must remember that CBME does not seek competence as an ultimate state, but rather recognize that expertise is the end goal.







 2010;32(8):676-82. doi: 10.3109/0142159X.2010.500704.

The role of assessment in competency-based medical education.

Author information

1
American Board of Internal Medicine, USA. eholmboe@abim.org

Abstract

Competency-based medical education (CBME), by definition, necessitates a robust and multifaceted assessment system. Assessment and the judgments or evaluations that arise from it are important at the level of the trainee, the program, and the public. When designing an assessment system for CBME, medical education leaders must attend to the context of the multiple settings where clinical training occurs. CBME further requires assessment processes that are more continuous and frequent, criterion-based, developmental, work-based where possible, use assessment methods and tools that meet minimum requirements for quality, use both quantitative and qualitative measures and methods, and involve the wisdom of group process in making judgments about trainee progress. Like all changes in medical education, CBME is a work in progress. Given the importance of assessment and evaluation for CBME, the medical education community will need more collaborative research to address several major challenges in assessment, including "best practices" in the context of systems and institutional culture and how to best to train faculty to be better evaluators. Finally, we must remember that expertise, not competence, is the ultimate goal. CBME does not end with graduation from a training program, but should represent a career that includes ongoing assessment.

PMID:
 
20662580
 
DOI:
 
10.3109/0142159X.2010.500704
[Indexed for MEDLINE]


전문직 역량 평가: 방법에서 프로그램까지(Med Educ, 2005)

Assessing professional competence: from methods to programmes

Cees P M van der Vleuten & Lambert W T Schuwirth




도입

INTRODUCTION


몇 년 전에 우리는 평가 방법의 유용성을 정의하기위한 개념적 모델을 제안했습니다. 모델은 평가 도구가 평가 될 수있는 여러 기준을 곱함으로써 유용성을 얻었습니다 .1 물론 이 유용성 방정식은 단순히 개념 모델로 의도되었으며 결코 알고리즘이나 새로운 심리측정 index로 의도되지 않았습니다. 또한 투명성transparency, 의미성meaningfulness, 인지 복잡성cognitive complexity, 직접성directness 및 공정성fairness과 같은 다른 기준도 포함되지 않았습니다 .2-4 어떤 공식이 공식에 포함되었는지에 관계없이 모델이 전달하고자하는 메시지는 평가 방법을 선택하는 것은 필연적으로 타협을 수반하며, 그 타협의 유형은 각 평가 환경에 따라 다르다는 것이다.

Some years ago we proposed a conceptual model for defining the utility of an assessment method. The model derived utility by multiplying a number of criteria on which assessment instruments can be judged.1 Of course, this utility equation was merely intended as a conceptual model and by no means as an algorithm or new psychometric index. Neither were all possible criteria included in the model, such as transparency, meaningfulness, cognitive complexity, directness and fairness.2–4 Regardless of which cri- teria were included in the equation, the overriding message the model was intended to convey was that choosing an assessment method inevitably entails compromises and that the type of compromise varies for each specific assessment context.


공식의 두 번째 결과는 신뢰도와 타당성에 대한 방대한 문헌이 제시하는 것처럼 평가가 단지 측정 문제가 아니라 교육 설계, 구현 및 자원 측면을 포함하는 교육 설계 문제이기도 하다는 것입니다.

A second corollary of the  formula  is that assessment is not merely a measurement problem, as the vast literature on reliability and validity seems to suggest, but that it is also very much an instructional design problem and includes educational, implementation and resources aspects.



경험적, 이론적 발전

EMPIRICAL AND THEORETICAL DEVELOPMENTS


우리는 평가 도구가 목표 자체가 아니라고 강력히 믿는다는 점에서 개별적인 (새로운) 도구를 강조하거나 지지하거나 제안하지 않을 것입니다 .5 다양한 퀄리티 기준이 달성되는 정도는 특정 도구의 내재적이고 불변하는 특성이 아닙니다 .6,7

We will not highlight, advocate or propose any individual (new) instrument, because we strongly believe that assessment instruments are not goals in themselves.5 The degree to which the various quality criteria are attained is not an inherent, immutable characteristic of a particular instrument.6,7


신뢰도, 유효성를 비롯한 어떤 것도 평가 도구의 절대적, 내재적 특성과 같은 것은 없습니다.

There is no such thing as the reliability, the validity, or any other absolute, immanent characteristic of any assessment instrument.



신뢰도

Reliability


신뢰성은 평가에서 얻은 점수의 재현성을 나타냅니다. 일반적으로 0 (신뢰도 없음)에서 1 (완벽한 신뢰도) 범위의 계수로 표현됩니다. 검사의 목적에 따라 낮거나 높을 수도 있지만 (예 : 면허 시험의 경우 더 높아야 함) 종종 0.80을 최소 허용 값으로 간주합니다. 신뢰성은 여러 가지 오류 또는 편향 요인에 의해 부정적인 영향을받을 수 있으며, 신뢰성을 높이려면 unwanted variance의 출처를 고려하여 샘플링을 해야한다는 결론을 내릴 수 있습니다. 샘플링과 관련된 문제를 잘 이해하면 테스트 개발에서보다 많은 자유도를 얻을 수 있습니다.

Reliability refers to the reproducibility of the scores obtained from an assessment. It is generally expressed as a coefficient ranging from 0 (no reliability) to 1 (perfect reliability). Often 0.80 is regarded as the minimal acceptable value, although it may be lower or higher depending on the examina- tion’s purpose (for instance, it will have to be higher for a licensing examination). Reliability can be negatively affected by many sources of error or bias, and research has provided conclusive evidence that, if we want to increase reliability, we will have to ensure that our sampling takes account of all these unwanted sources of variance. A good understanding of the issues involved in sampling may offer us many more degrees of freedom in test development.


역량이 맥락이나 내용에 크게 의존하기 때문에 평가의 신뢰성에 영향을 미치는 주된 조건은 영역 또는 내용 특수성입니다. 이것은 우리가 테스트 대상의 내용을 가로 질러 큰 샘플을 사용하는 경우에만 신뢰할 수있는 점수를 얻을 수 있다는 것을 의미합니다 .8 지능형 테스트 디자인을 사용하면 여러 조건에서 효율적으로 샘플을 샘플링 할 수 있습니다 (예 : OSCE), 일반적으로 적절한 시험 시간을 투입하면 신뢰할 수있는 점수를 얻을 수 있습니다.

The predominant condition affecting the reliability of assessment is domain- or content-specificity, because competence is highly dependent on context or content. This means that we will only be able to achieve reliable scores if we use a large sample across the content of the subject to be tested.8 With intelligent test designs, which sample efficiently across conditions (such as using different examiners for each station in an OSCE), reliable scores will generally be obtained within a reasonable testing time.


지금까지 이것은 새로운 것이 아닙니다. 그러나 새로운 점은 객관성과 표준화에 대한 신뢰성이 무조건적인 것이 아니라는 점입니다. 객관성과 신뢰성이 종종 혼란 스럽다는 사실은 이론적으로는 얼마 전에 다루어졌지만, 경험적 증거는 현재 설득력있게 분명 해지고 평가에서 새로운 방향을 가리킬 수 있습니다. 요점을 설명하기 위해 OSCE를 살펴 보겠습니다.

So far, this is nothing new. What is new, however, is the recent insight that reliability is not conditional on objectivity and standardisation. The fact that objec- tivity and reliability are often confused was addressed theoretically some time ago,9 but the empirical evidence is becoming convincingly clear now and may point towards new directions in assessment. To illustrate our point, let us look at the OSCE.


OSCE의 주된 이점은 신뢰성의 토대가 되는 객관성과 표준화였다. 그러나 많은 조사 결과, OSCE의 신뢰성은 특히 임상 적 내용을 포함한 신중한 샘플링과 적절한 수의 스테이션에 달려 있다는 것을 보여준다는 것이 드러났습니다. 이는 일반적으로 몇 시간의 테스트 시간이 필요하다는 것을 의미합니다.

The main perceived advantage of the OSCE was objectiv- ity and standardisation, which were regarded as the main underpinnings of its reliability. However, an abundance of study evidence has since shown that the reliability of an OSCE is contingent on careful sampling, particularly across clinical content, and an appropriate number of stations, which generally means that several hours of testing time are nee- ded.10


이 발견은 OSCE만의 것이 아닙니다. 최근 몇 년 동안, 샘플링이 적절하다면, 평가 상황이 표준화되지 않았거나 평가가 주관적이더라도 신뢰도를 달성 할 수 있다는 많은 연구가있었습니다. 표 1은 상이한 정도의 표준화를 가진 여러 계측기에 대한 신뢰성 추정치를 제시함으로써 이를 보여줍니다.

This finding is not unique to the OSCE. In recent years many studies have demonstrated that reliability can also be achieved with less standardised assessment situations and more subjective evalua- tions, provided the sampling is appropriate. Table 1 illustrates this by presenting reliability estimates for several instruments with differing degrees of standardisation.



중요한 점은 모든 방법에 대해 실질적인 샘플링이 필요하다는 점이다. 그리고 구술 시험, 긴 사례 시험, 미니 임상 시험 평가 (mini- CEX)와 같이 덜 구조화되거나 표준화 된 방법이 더 구조화되고 객관적인 방법보다 더 신뢰도가 높을 수 있습니다.

The important point is to illustrate that all methods require substantial sampling and that methods which are less structured or standardised, such as the oral examination, the long case exam- ination, the mini-clinical evaluation exercise (mini- CEX) and the incognito standardised patient meth- od, can be entirely or almost as reliable as other more structured and objective measures. 


이러한 모든 신뢰성 연구에 따르면 샘플링은 신뢰할 수 있는 점수를 얻는 데 있어 필수적인 요소이며, 신뢰성은 구조화 또는 표준화 정도와는 직접적인 관련이 없음을 보여줍니다.

All these reliability studies show that sampling remains the pivotal factor in achieving reliable scores with any instrument and that there is no direct connection between reliability and the level of structuring or standardisation.


이 통찰력은 평가 수행에 광범위한 영향을 미칩니다. 기본적으로 측정 조건에 따라 표본 추출이 적절하다면, 어떠한 방법도 본질적으로 신뢰할 수 없는 것이 아니며, 모든 방법이 충분히 신뢰할 수 있다.

This insight has far-reaching consequences for the practice of assessment. Basically, the message is that no method is inherently unreliable and any method can be sufficiently reliable, provided sampling is appropriate across conditions of measurement.


우리가 그러한 도구를 현명하고 전문적으로 사용한다면, 우리는 어떤 평가 도구가 주관적이거나 완벽하게 표준화되지 않다는 이유로 추방 할 필요가 없습니다. 반대로 평가 도구 상자에 구조화되고 표준화 된 것들만 들어있다고 측정의 신뢰성이 자동으로 보장된다고 생각해서도 안됩니다.

there is no need for us to banish fromour assessment toolbox instruments that are rather more subjective or not perfectly standard- ised, provided that we use those instruments sensibly and expertly. Conversely, we should not be deluded into thinking that as long as we see to it that our assessment toolbox exclusively contains structured and standardised instruments, the reliability of our measurements will automatically be guaranteed.


타당도

Validity


타당도는 평가도구가 실제로 의도 한 바를 측정하는지 여부를 나타냅니다. 타당도와 관련한 평가 방법의 발전은 일반적으로 측정의 authenticity을 높여 임상 역량을 보다 직접적으로 평가하고자하는 욕구와 관련이 있다. 이것은 환자 관리 문제에 의한 임상적 추론의 평가와 함께 1960 년대에 시작되어 1970 년대 OSCE 도입과 함께 계속되었습니다. authenticity는 candidate에게 (종이, 컴퓨터, 실험실 세팅 등을 통해) 실제 세계에서의 도전 과제를 시뮬레이션하여 제시함으로써 달성될 수 있으며, 이러한 평가 방법은 발전과 개선을 거쳐왔다.

Validity refers to whether an instrument actually does measure what it is purported to. Newer developments concerning assessment methods in relation to validity have typically been associated with the desire to attain a more direct assessment of clinical competence by increasing the authenticity of the measurement. This started in the 1960s with the assessment of  clinical reasoning  by patient management problems and continued with the introduction of the OSCE in the 1970s. Authenticity was achieved by offering candi- dates simulated real world challenges, either on paper, in computerised forms or in a laboratory setting. Such assessment methods have passed through major developments and refinements of technique.12


그러나 이러한 분야의 급속한 진전 이외에도 미래에 우리 측정의 타당성에 큰 영향을 미칠 수있는 여러 가지 상호 연관된 발전이 있음을 알 수 있습니다.

However, on top of the rapid progress in those areas, we see a number of interrelated developments, which may have a marked impact on the validity of our measurements in the future.


첫째, 우리는 매일 매일의 실천 환경에서의 평가를 추구하는 authenticity 운동의 지속적인 진전을 목격 할 가능성이있다 .13 OSCE의 성공은 기본적으로 평가를 작업장으로부터 (Authentic한 과제 통한) 표준화되고 객관화 된 실험실 통제 환경으로 옮기는 것에 근거했다. 샘플링과 신뢰도의 관계에 대한 통찰력은, 우리가 다시 (덜 표준화되었음에도 신뢰성을 갖춘) 작업장의 현실 세계에서의 평가로 돌아올 수 있게 해주었다. 

Firstly, we are likely to witness the continued progress of the authenticity movement towards assessment in the setting of day-to-day practice.13 Whereas the success of the OSCE was basically predicated on moving assessment away from the workplace to a laboratory-controlled environment by providing authentic tasks in a standardised and objectified way, today, insights into the relationship between samp- ling and reliability appear to have put us in a position where we can move assessment back to the real world of the workplace as a result of the development of less standardised, but nevertheless reliable, methods of practice-based assessment.



두 번째 발달은 역량의 통합을 향한 움직임에 관한 것이다 .19-21 기본적으로,이 운동은 현대 교육 이론으로부터 통찰력을 얻는다.이 이론은 작업이 통합 될 때 학습이 촉진된다고 시사한다 .22 구성 요소 또는 역량의 하위 계급의 적재에만 국한되는 학습 프로그램은 다양한 작업 구성 요소가 통합 방식으로 실행되는 방식보다 유능한 전문가를 양성하는 데 덜 효과적이다. 다양한 작업 구성요소가 통합될 때 transfer가 촉진된다.

A second development concerns the movement towards the integration of competencies.19–21 Essen- tially, this movement follows insights from modern educational theory, which postulates that learning is facilitated when tasks are integrated.22 Instructional programmes that are restricted to the  stacking  of components or subskills of competencies are less effective in delivering competent professionals than methods in which different task components are presented and practised in an integrated fashion, which creates conditions that are conducive to transfer.


그러나 평가에서 우리는 더 작은 단위로 역량을 쪼개어 평가하는 경향을 지속하고 있습니다.

However, in assessment we tend to persist in our inclination to break down the competency that we wish to assess into smaller units,


평가에서의 환원주의는 평가방법에 의해서 기술을 과도하게 단순화시키는 것으로부터 나타났는데, 기본 아이디어는 각각의 기술에 대해 단일 (그리고 단 하나의) 도구를 개발하여 사용할 수 있다는 이다. 원자화는 trivialization을 유도하며, 타당성을 위협 할 수 있으므로 피해야합니다. Competency movement는 전문 지식의 (총체적 또는 암묵적) 본질을 존중하는 통합 된 접근 방식을 추구한다.

Reductionism in assess- ment has also emerged from oversimplified skills-by- method thinking,1 in which the fundamental idea was that for each skill a single (and only a single) instrument could be developed and used. Atomisation may lead to trivialisation and may threaten validity and, therefore, should be avoided. The competency movement is a plea for an integrated approach to competence, which respects the (holistic or tacit) nature of expertise.


수십 년 전과 비교할 때, 오늘날의 문항은 맥락적, 비네트기반 또는 문제 지향적이며 사실을 간단하게 리콜하기보다는 추론 기술을 필요로합니다. 이러한 맥락화는 중요한 퀄리티 또는 타당성 지표로 간주됩니다 .26 평가자가 authenticity를 존중한다면 어떤 평가 방법의 타당성도 크게 향상 될 수 있습니다.

Compared with a few decades ago, today’s items are contextual, vignette-based or problem-oriented and require reasoning skills rather than straightforward recall of facts. This contextualisation is considered an important quality or validity indicator.26 The validity of any method of assessment could be improved substantially if assessment designers would respect the characteristic of authenticity.


진정성은 단순하게 피라미드를 등반하는 것이 아니라, 피라미드의 모든 단계에서 실현되어야 하는 문제이며, 유사한 authentic한 정보가 피라미드 내의 다양한 출처에서 나올 수 있다. 따라서 다양한 소스로부터 정보를 삼각 측량하여 전반적인 판단을 내리기 위해 이러한 여러 가지 정보 소스를 사용하는 것이 좋습니다. 이는 훌륭한 평가 작업을 수행하기 위해 여러 가지 방법이 사용해야 한다는 주장과 같다.

We can also reverse the authenticity argument: when authenticity is not a matter of simply climbing the pyramid but something that should be realised at all levels of the pyramid, we can also say that similar authentic information may come from various sources within the pyramid. It is, therefore, wise to use these multiple sources of information from various methods to construct an overall judgement by triangulating information across these sources, a fact that supports the argu- ment that we need multiple methods in order to make a good job of assessment.


최종 추세는 역량 운동과 관련이 있다. 

A final trend is also related to the competency movement. The importance of general professional competencies ) which are not unique to the medical profession ) is acknowledged. there is currently a marked tendency to place more and more emphasis on such general competencies in education and, therefore, in assessment.


그러한 일반 역량general competencies을 평가하기 위한 정보 수집은 점차 정량적, 수치 데이터가 아닌 정성적, 서술적 정보를 중요시하게 될 것이다. 이러한 정성적인 정보는 단순한 미리 설정된 표준을 기준으로 판단 할 수 없습니다. 그렇기 때문에 평가를위한 적절한 사용을 보장하기 위해서는 전문적인 평가가 반드시 필요합니다.

Information gathering for the assessment of such general competencies will increasingly be based on qualitative, descriptive and narrative information rather than on, or in addition to, quantitative, numerical data. Such qualitative information cannot be judged against a simple, pre-set standard. That is why some form of professional evaluation will be indispensable to ensure its appropriate use for assessment purposes.


복잡한 역량의 평가를 향해 나아감에 따라, 우리는 익숙했던 것보다 더 많은 정보 소스에 의존해야 할 것입니다. 또한 의사 결정의 기초로서 전문적인 판단에 더 의존하게 될 것입니다. 해결해야 할 과제는 객관성을 핑계로 내용을 trivialize 하지 않고 가능한 한 엄격한 의사 결정을 내리는 것입니다. 

As we move further towards the assessment of complex competencies, we will have to rely more on other, and probably more qualitative, sources of information than we have been accustomed to and we will come to rely more on professional judgement as a basis for decision making about the quality and the implications of that information. The challenge will be to make this decision making as rigorous as possible without trivialising the content for objectivity  reasons. There is much to be done in this regard.31



학습에 대한 영향

Impact on learning


학습에 대한 평가의 영향은 또한 미국 교육 연구 협회 (American Educational Research Association)에 의한 정당성의 공식 정의에 포함 된 consequential validity라고 불려왔다. 이것은 두 가지의 다소 역설적 인 관찰을 가져온다.

The impact of assessment on learning has also been termed  consequential validity ,4 which is incorpor- ated in the formal definition of validity by the American Educational Research Association.32 This brings us to 2 somewhat paradoxical observa- tions.


첫 번째는 평가가 학습에 영향을 미친다는 개념이 점점 더 받아들여지고 있다는 것이다. 많은 출판물이 평가와 학습 간의 강력한 관계를 인정했습니다. 평가가 학습의 원동력이라는 개념에 대한 인식은 평가에서 우수 실행 원칙의 하나로서 점차 중요시되고있다.

The first observation is that the notion of the impact of assessment on learning is gaining more and more general acceptance. Many publications have acknow- ledged the powerful relationship between assessment and learning. Recognition of the concept that assessment is the driving force behind learning is increasingly regarded as one of the principles of good practice in assessment.33


두 번째 관찰은 평가와 학습의 관계에 대해 밝힌 문헌이 부족하다는 것입니다 .35불행히도이 분야에서 우리의 사고와 진보를 더욱 촉진 할 수있는 출판 된 정보는 찾기 어렵습니다.

The second observation is that there is a paucity of publications that shed light on the relationship between assessment and learning.35 From our daily experience in educational practice we are familiar with some of the crucial issues in this respect: 

    • how to achieve congruence between educational objectives and assessment; 

    • how to provide and increase feed- back from assessment; 

    • how to sustain formative feedback; 

    • how to combine and balance formative and summative assessment; 

    • how much assessment is enough; 

    • how to spread assessment over time, etc. 

Unfortunately, published information that can fur- ther our thinking and progress in this area is hard to come by.


이 희소성은 평가의 맥락에 대해 알지 못하고 학습에 대한 평가의 영향을 연구하는 것이 거의 불가능함을 설명하는 것일 수 있습니다. 예를 들어, 최근 논문은 OSCE 스테이션에서의 학생들의 수행능력이 과거의 주제에 대한 경험보다 학생들의 순간적 맥락 (그들이 있었던 순환)과 훨씬 더 강한 관계가 있음을 보여 주었다. 평가 방법의 특성은 각 방법에 내재되어 있는 것이 아니라, 평가가 이루어지는 방법 및 상황에 의존한다는 개념은 (유틸리티 방정식의 어떠한 특성보다도) 학습에 미치는 영향의 사례에 훨씬 더 잘 적용된다. 유사한 방법이라도 전반적인 평가 프로그램에서의 사용 및 위치에 따라 교육 효과가 크게 다를 수 있습니다.

An explanation of this scarcity may be that it is almost impossible to study the impact of assessment on learning without knowing about the context of the assessment. For example, a recent paper showed that students’ performance on an OSCE station had a much stronger relationship with the students’ momentary context (the rotation they were in) than with their past experience with the subject.36 The concept that a characteristic of an assessment method is not inherent in the method but depends on how and in what context assessment takes place is even more applicable in the case of its impact on learning than for any of the other characteristics in the utility equation. Similar methods may lead to widely differing educational effects, depending on their use and place in the overall assessment programme.



교육 설계로서 평가

ASSESSMENT AS INSTRUCTIONAL DESIGN


앞의 논의는 평가와 관련하여 초점이 바뀌는 것을 강력히 촉구하는 것입니다. 즉, 역량의 개별 부분에 대한 평가 방법에서 다른 모든 측면과 함께 불가분하게 짜여진 구성 요소로서의 평가로 옮겨가는 것입니다. 훈련 프로그램의 이러한 교수 설계 관점에서, 개념적 실용 모형은 통합 평가 프로그램의 수준에서 적용되어야한다. 그런 다음 평가는 심리 측정 문제를 단일 평가 방법으로 해결하여 전체 커리큘럼을 포함하는 교육 디자인 문제로 변경됩니다. 주어진 상황 (예 : 직원의 전문 지식 수준, 과거의 평가 경험, 학생 및 직원의 신념) 및 사용 가능한 리소스에서 수용 가능한 것을 염두에두고 도전은 모든 평가 기준을 충족하는 평가 프로그램을 설계하는 방법이됩니다.

It is our view that the preceding discussion constitutes a strong plea for a shift of focus regarding assessment, that is, a shift away from individual assessment methods for separate parts of competencies towards assessment as a component that is inextricably woven together with all the other aspects of a training programme. From this point of view, the instruc- tional design perspective, the conceptual utility model should be applied at the level of the integral assessment programme. Assessment then changes froma psychometric problemto be solved for a single assessment method to an educational design problem that encompasses the entire curriculum. Keeping in mind what is acceptable in a given context (i.e. level of expertise of staff, past experience in assessment, student and staff beliefs) and the available resources, the challenge then becomes how to design an assessment programme that fulfils all the assessment criteria.


문제는 구식 또는 현대식 평가 방법을 사용하는지 여부가 아니라, 주어진 상황에서 도구 상자에서 이 방법이나 도구를 선택해야하는 이유와 방법에 관한 것입니다.

The issue then is not whether one uses  old-fashioned  or  modern  methods of assessment, but much more why and how we should select this or that method fromour toolbox in a given situation.


평가에 대한 프로그램 방식의 교수 설계 접근법은 개별 코스 개발자 또는 교사의 자율성을 능가합니다. 중앙 계획과 조정이 필요하며 잘 작성된 마스터 플랜이 필요합니다. 근본적으로,이 개념은 현대 교육 과정 설계의 개념을 따른다. 신중한 조정과 계획없이 교과 과정 갱신이 성공하지 못할 것입니다 .37 평가 프로그램에 대해서도 마찬가지입니다. 커리큘럼 디자인에 대한 또 다른 닮은 점은 정기적 인 재평가와 재 설계가 필요하다는 것입니다. 학습에 대한 평가의 효과는 예측할 수 없으며 시간이 지나면 변할 수 있습니다.

A programmatic, instructional design approach to assessment surpasses the autonomy of the individual course developer or teacher. It requires central planning and co-ordination and needs a well written master plan. Essentially, this notion follows that of modern curriculum design. No curriculum renewal will be successful without careful orchestration and planning.37 The same holds for an assessment programme. Another likeness to curriculumdesign is the need for periodic re-evaluation and re-design. The effect of assessment on learning can be quite unpredictable and may change over time.


여러 척도를 사용하면 자동으로 신뢰성과 타당성이 증가한다고 말할 수는 없습니다. 완전히 다른 출처의 정보를 결합 할 때 우리는 사과에 오렌지에 첨가하는 것이 필연적으로 유효성 평가를 복잡하게 만드는 것처럼 보일 수 있습니다. 그러나 합격 또는 불합격 결정을 내리는 것은 다시 프로그램 수준에서 평가되어야하는 것입니다. 우리는 이것 역시 전문적인 판단이 필요하다고 생각합니다. 1 단계 평가에서 1 단계 평가 방법으로 전환해야합니다 .5 우수한 평가 프로그램은 신뢰할 수있는 표준을 사용하여 여러 차례에 걸쳐 해당 역량을 평가하기 위해 여러 역량 요소와 여러 정보원을 통합합니다. 얻은 정보는 최종 (판촉) 결정으로 통합되어야합니다.

We cannot say that the use of multiple measures will automatically increase reliability and validity. When we combine information from totally different sources, we may seem to be adding apples to oranges in a way that will inevitably complicate the evaluation of the validity. Yet making pass or fail decisions is something that – again – should be evaluated at the level of the programme. We think that this too will require professional judgement. We should move away from the 1-competence)1-method approach to assessment.5 A good assessment programme will incorporate several competency elements and multiple sources of information to evaluate those competencies on mul- tiple occasions using credible standards. The infor- mation obtained will have to be aggregated into a final (promotion) decision.



모든 출처가 같은 방향을 가리키면 정보가 일관되고 결정이 비교적 간단합니다. 정보가 서로 상충되면 의사 결정이 더욱 어려워지며 방어 가능한 판단을 내리기 위해서는 더 많은 정보를 얻거나 더 많은 의사 결정권자를 추가하거나 승진 결정을하거나 결정을 연기해야할 수 있다. 그러한 의사 결정 절차는 포화 상태에 도달 할 때까지 정보를 축적하고 결정이 신뢰할 수 있고 방어 가능해질 때까지 수집하는 질적 인 접근법과 훨씬 더 유사합니다.

When all sources point in the same direction, the information is consistent and the decision is relatively straightforward. With con- flicting information, decision making is more prob- lematic and a defensible judgement will require additional information, by obtaining more informa- tion, by adding more decision makers, by a condi- tional promotion decision or by postponing the decision. Such a decision-making procedure bears far greater resemblance to a qualitative approach that continues to accumulate information until saturation is reached and a decision becomes trustworthy and defensible.31



연구 개발의 함의

IMPLICATIONS FOR DEVELOPMENT AND RESEARCH



평가에 대한 프로그래밍 방식의 교수 설계 접근 방식에서는 간단한 심리측정 평가만으로는 충분하지 않습니다. 아마도 그러한 평가 프로그램에 대한보다 자세하고 적절한 설명으로 시작해야 할 것입니다.

In a programmatic, instructional design approach to assessment,  simple  psychometric evaluation will not suffice. We should probably start with more and proper descriptions of such assessment pro- grammes.


평가 연구가 개별 평가 방법에 지나치게 집중되어 있고 지나치게 심리측정의 문제만 다룬다는 의견이 있습니다. 우리는 사용법과 프로그램적 맥락에 따라 어떤 방법이라도 유용 할 수 있다는 견해를지지합니다. 본질적으로 좋지 않거나 좋은 평가 방법은 없습니다. 그들은 모두 친척입니다. 중요한 것은 평가 프로그램이 커리큘럼에 통합되어야 하며 이것이 우리의 관심과 노력의 주요 초점이어야한다는 것입니다. 결정적인 질문은 전반적으로 평가 프로그램의 유용성에 관한 것입니다.

It is our opinion that the assessment literature is overly oriented towards the individual assessment method and too preoccupied with exclusively psy- chometric issues. We advocate the perspective that any method can have utility, depending on its usage and the programmatic context. There are no inher- ently bad or good assessment methods. They are all relative. What really matters is that the assessment programme should be an integrated part of the curriculum and this should be the main focus of our attention and efforts. The crucial question concerns the utility of the assessment programme as a whole.






 2005 Mar;39(3):309-17.

Assessing professional competence: from methods to programmes.

Author information

1
Department of Educational Development and Research, University of Maastricht, Maastricht, The Netherlands. C.vanderVleuten@educ.unimaas.nl

Abstract

INTRODUCTION:

We use a utility model to illustrate that, firstly, selecting an assessment method involves context-dependent compromises, and secondly, that assessment is not a measurement problem but an instructional design problem, comprising educational, implementation and resource aspects. In the model, assessment characteristics are differently weighted depending on the purpose and context of the assessment.

EMPIRICAL AND THEORETICAL DEVELOPMENTS:

Of the characteristics in the model, we focus on reliability, validity and educational impact and argue that they are not inherent qualities of any instrument. Reliability depends not on structuring or standardisation but on sampling. Key issues concerning validity are authenticity and integration of competencies. Assessment in medical education addresses complex competencies and thus requires quantitative and qualitative information from different sources as well as professional judgement. Adequate sampling across judges, instruments and contexts can ensure both validity and reliability. Despite recognition that assessment drives learning, this relationship has been little researched, possibly because of its strong context dependence.

ASSESSMENT AS INSTRUCTIONAL DESIGN:

When assessment should stimulate learning and requires adequate sampling, in authentic contexts, of the performance of complex competencies that cannot be broken down into simple parts, we need to make a shift from individual methods to an integral programme, intertwined with the education programme. Therefore, we need an instructional design perspective.

IMPLICATIONS FOR DEVELOPMENT AND RESEARCH:

Programmatic instructional design hinges on a careful description and motivation of choices, whose effectiveness should be measured against the intended outcomes. We should not evaluate individual methods, but provide evidence of the utility of the assessment programme as a whole.

PMID:
 
15733167
 
DOI:
 
10.1111/j.1365-2929.2005.02094.x
[Indexed for MEDLINE]


왜 의학교육의 평가가 현대검사이론의 굳건한 토대를 필요로 하는가 (Adv in Health Sci Educ, 2017)

Why assessment in medical education needs a solid foundation in modern test theory

Stefan K. Schauber1 • Martin Hecht2 • Zineb M. Nouns3



도입

Introduction


Classics Test Theory (CTT), Generalizability Theory (G 이론) 및 Item Response Theory (IRT)에서 개발 된 심리 측정 모델은 의학 교육의 연구 및 평가 분야에서 널리 사용되었습니다. 현대의 시험 이론은 또한 PISA, Programme for International Student Assessment or the National Assessment of Educational Progress(Ray and Wu 2003; von Davier et al., 2006; Rutkowski et.)과 같은 대규모 교육 평가에서 측정의 방어 가능성을 확보하기위한 기초를 제공합니다 al., 2013).

Psychometric models—developed within Classical Test Theory (CTT), Generalizability Theory (G Theory), and Item Response Theory (IRT)—have been widely employed in the field of research and assessment in medical education. Modern test theory also provides the basis for securing the defensibility of measurements in large-scale educational assessments, such as the Programme for International Student Assessment or the National Assessment of Educational Progress (Ray and Wu 2003; von Davier et al. 2006; Rutkowski et al. 2013).


이러한 평가의 결과에 근거한 결정은 때로는 전체 사회 시스템에 영향을 미치는 광범위한 결과를 초래할 수 있습니다. 예를 들어, Programme for International Student Assessment(Grek 2009)에서 학생들의 열등한 성과로 인해 막대한 교육 개혁이 제정되었습니다. 의료 면허 시험에서 평가는 개인의 경력 (의사가 될 것인가 못 될 것인가)에 대한 결정의 기초 일뿐만 아니라, 전체 보건의료 시스템의 품질을 보장하는 데 필수적인 부분입니다 (누가 의사가 되고 누가 안 되는가) (Norcini et al. 2011).

Decisions based on the results of these assessments can have far-reaching consequences, sometimes affecting a whole social system. For instance, vast educational reforms have been enacted as a consequence of students’ inferior performances on the Programme for International Student Assessment (Grek 2009). In medical licensing examinations, assessments form not only the basis of decisions on an individual’s career (becoming a doctor or not), but also are an integral part of securing the quality of the whole health care system (who becomes a doctor and who does not) (Norcini et al. 2011).


예를 들어 Schuwirth and van der Vleuten (2006)은 "새로운 정신 측정 모델에 대한 탄원"을 주장하였으며, Hodges는 "정신적 후 심적 시대"에 대한 아이디어를 반복적으로지지했다 (Hodges 2013; Eva and Hodges 2012 ). 이 저자들이 제기 한 우려는 심리 측정 모델이 취하는 환원주의적 접근과 관련이 있습니다. 즉, 인간 행동의 풍부한 변화를 하나의 숫자로 집계하고 합산하는 행위에 대한 지적이다. 그러나, 이 정신 과학에 대한 비판적 입장은 의학 교육 분야에만 국한되지 않습니다. 비슷한 우려가 교육평가 분야에서도 제기되었다. 실제로 1970 년대 이래로 몇몇 저자들은 교육 환경에서 규범 참조 시험의 부적합성 (내용 적성 검사 (McClelland 1973)이나, Content-aptitude test의 무의미성 (Pophamand Husek 1969)을 주장했다.

For instance, Schuwirth and van der Vleuten (2006) articulated a ‘‘plea for new psychometric models’’, and Hodges repeatedly advo- cated for the idea of a ‘‘post-psychometric era’’ (Hodges 2013; Eva and Hodges 2012). The concerns raised by these authors are related to the reductionist approachthat psychometric models take: the act of aggregating, summing, and thus reducing a richvariety of human behavior to a single number. However, this critical stance towardspsychometrics is not limited to the field of medical education. Similar concerns have alsobeen raised in the field of educational assessment. Indeed, since the 1970s, several authorshave argued repeatedly against the meaninglessness of content-aptitude tests (McClelland1973), the inappropriateness of norm-referenced testing in educational settings (Pophamand Husek 1969)


Schuwirth and van der Vleuten (2011)은 학생들의 학습과 전문성 개발이 중요한 역할을 하는 '프로그램적 평가'의 개념을 개발했습니다. Hodges (2013)는 평가의 개념을 게스탈트(gestalt)으로 제시했다. "의미있는 전체는 단순한 부분의 합보다 더 중요하다."이 저자들은 분명히 psychometrics에 비판적이지만 그것 자체의 사용을 거부하지는 않는다. 다만 그것은 평가에서 마이너한 역할을 한다. 최근의 논문에서 van der Vleuten et al. (2014)는 고부담 의사결정은 합법적으로 전문적인 판단에 근거 할 수 있고, 그러한 결정의 신뢰성은 전문가위원회에 의해 보장되어야한다고 제안했다.

Schuwirth and van der Vleuten (2011) developed the concept of ‘programmatic assessment’, in which stu- dents’ learning and professional development plays a crucial role. Hodges (2013) put forward the idea of assessment as a gestalt: a meaningful whole that is ‘‘…more than its parts.’’ Although these authors are clearly critical of psychometrics, they do not reject its use per se; but it plays a minor role in their conception of assessment. In a recent publi- cation, van der Vleuten et al. (2014) suggested that high-stakes decisions could legiti- mately be based on professional judgment, and that the trustworthiness of such decisions should be ensured by expert committees.


현대 시험 이론의 관점에서, 평가는 평가의 목적을 정의하고, 시험 내용을 구체화하고 개발하고, 합격 및 실패 결정을 내리는 것에 이르는 모든 것을 포함하는 체계적인 접근입니다 (Wilson 2005). 분명히, 전체적으로 평가는 통계적 공식의 적용만으로 수행 될 수는 없지만, 실제 시험되는 시험이 전체 이야기의 일부분이 되는 엄격한 테스트 개발 과정에 의해 수행 될 수 있습니다. 사실 지금까지 의학 교육에 대한 토론에서는 general measurement process의 특정 부분, 즉 정보의 통계적 조합에만 초점을 맞추었습니다.

 Assessment, from the perspective of modern test theory, is a systematic approach that encompasses everything from defining the purpose of an assessment, to specifying and developing test content, to reaching conclusions such as passand fail decisions (Wilson 2005). Obviously, assessment as a whole cannot be carried outby the application of a statistical formula alone, but rather by the process of rigorous testdevelopment, in which the actual tests or exams administered are just part of the story.Indeed, discussions in medical education so far have only focused on a specific part of thegeneral measurement process, that is, on the statistical combination of information.


다양한 영역에서 인간의 판단에 관한 연구를 통해 사람들은 정보를 어떻게 평가하고 결합하여 의사 결정 또는 의사 결정을 내리는지 거의 인식하지 못한다는 것을 반복적으로 보여주었으며, 이는 즉, 의사 결정은 완전히 conscious하지 않아 잠재적으로 error-prone하다는 것을 의미한다 

  • Evans et al. (2003), "전문가가 이러한 판단의 기초가되는 과정에 대한 자기 통찰력이 부족하면 무의식적으로 편향 될 수 있습니다."(608 페이지) 

  • 전문가들은 매일 정확한 판단과 결정을 내립니다. 그러나 판단의 정확성은 실질적으로 상황의 구조와 판단의 대상 모두에 의존 할 수 있다고 지적했다 (Hammond et al., 1987). 

  • 예를 들어, 최근 연구에 따르면 전문가들은 이상적인 모습에 근접한 성과를 인식하는 데 오히려 정확하지만, low-level 수행자를 충분히 구별해낼 수는 없다 (Larson and Billeter 2016). 

  • 또한 전문가의 판단 정확도는 일반적으로 전문가의 암시적 규칙에 기반한 수학적 모델이 더 잘 수행한다 (Goldberg 1970, Karelaia and Hogarth 2008).

Research on human judgment in various domains has repeatedly shown that individuals are hardly aware of how they weigh and combine available information to forma judgment or decision—decision making is not fully conscious, and therefore it is potentially error-prone. 

  • As stated by Evans et al. (2003), ‘‘If experts lack self-insight into the processes underlying these judgments, they may be unconsciously biased.’’ (p. 608) 

  • Experts do make fairly accurate judgments and decisions every day; however, previous research has indicated that such accuracy may depend substantially on both the structure of the situation and the object of judgment (Hammond et al. 1987). 

  • For instance, a recent study found that experts may be rather accurate in recognizing close-to-ideal performances but are less able to sufficiently discriminate between low-level performers (Larson and Billeter 2016). 

  • In addition, the accuracy of an expert’s judgment is usually outperformed by mathematic models based on experts’ implicit rules (Goldberg 1970; Karelaia and Hogarth 2008).


사실, psychometrics를 생각하는 한 가지 방법은, 심리측정을 체계적으로 적용된 수학적 규칙의 집합, 또는 그 규칙의 적합성을 조사하는 방법으로 보는 것이다. 특히 양적 방법에 대한 한 가지 비판은 관측 된 성과에 숫자를 할당하는 과정인 이러한 '규칙'이 본질적으로 환원주의적이며 결과적으로 다양한 관찰을 aggregate하거나 summarize하는 것이 합리적이라고 가정한다는 점이다 (Hodges 2013). 이와 관련하여 역량 평가를 위한 정신 측정 모델 사용에 관한 논란에 특유한 한 가지 쟁점이있다. 일반적으로 '사례 특이성'이라고 불리는 발견이다. 일반적으로 사례 특이성이란 임상 사례, 과제 또는 문제 전반에 걸친 성과의 불안정성이다. 

Indeed, one way to conceive of psychometrics is as a set of systematically applied mathematical rules, and the corresponding methods to investigate the appropriateness of those rules. As noted above, one critique of quantitative methods in particular has been that these ‘rules’, the process of assigning numbers to observed performance, are reductionist in nature and that, consequently, this approach would assume that it is sensible to aggregate or summarize across observations (Hodges 2013). In this regard, there is one issue that is specific to the controversy on the use of psychometric models for the assessment of medical competence: a finding usually referred to as ‘case specificity’. Broadly speaking, case specificity is the finding of instability of performances across clinical cases, tasks, or problems. 


사례 특이성의 발견은 대개 두 가지 유형의 연구에서보고됩니다.

  • 첫째, Norman (2008)이 지적한 바와 같이, 한 개인의 다양한 퍼포먼스는 서로 연관성이 낮은 것으로 나타났다.

  • 둘째, 심리 측정 연구는 여러 평가 시나리오에서 "설명 할 수 없는 분산"의 양이 비교적 큼을 반복적으로 나타냈다. 사실, 총 변동의 60-70 %는 설명 할 수없는 상태로 남는다 (Brannick et al., 2011; Wrigley et al., Ricketts et al., Dory et al., Norman et al., Colliver et al. Jarjoura et al., 2004; De Champlain et al., 1999; Swanson et al., 1995; Richter Lagha et al., 2012). 

종합하면, 사례 특이성이란 어떤 사람에 대한 하나의 평가 내에서도 문항간 또는 사례간 퍼포먼스의 일관성이 낮다는 말과 같으며, 또한 여러 평가 간 일관성도 낮음을 말한다. 비슷한 결과가 다른 영역에서도 발견되었다 (Shavelson et al., 1993, 1999).

Findings of case specificity are usually reported in two types of studies. First, as noted by Norman (2008), results from correlational studies indicate that associations between performances are often low (see also Elstein 1978; Norman et al. 1985; Roberts and Norman 1990). Second, psychometric studies have repeatedly indicated that the amount of unexplained variance in various assessment scenarios is comparably large. Indeed, 60–70% of the total variance often remains unexplained (Brannick et al. 2011; Wrigley et al. 2012; Ricketts et al. 2010; Dory et al. 2010; Norman et al. 2006; Colliver et al. 1990; Jarjoura et al. 2004; De Champlain et al. 1999; Swanson et al. 1995; Richter Lagha et al. 2012). Taken together, the finding of case specificity is synonymous with a low degree of within-person consistency of performances across items or cases within and across assessments. Similar results have also been found in other domains (Shavelson et al. 1993, 1999).


실제로 사례 특이성의 발견은 심리 검사에서 중요한 역할을 할 수 있습니다. 사례 특이성은 의학교육에서 "단 하나의 진실"이라고 불려지는데 (Eva 2011의 John Norcini, 22 페이지), 사례 특이성과 관련된 변이성이 거의 모든 곳에서 그리고 많은 문맥에서 발견되기 때문이다 (Eva 2003). 이에 대해서 "... 관찰 된 분산의 작은 부분 만 설명 할 수있는 과학적 모델은 기껏해봐야 moderately strong model이다."(Schuwirth 2009, 299 페이지)라고 한 것은 흥미롭다. Schuwirth and van der Vleuten (2006)은 latent variable과 같은 심리 측정 이론의 핵심 개념이 의학에서의 역량평가에서는 의미가 없을 수도 있다고 주장했다. "의학에서의 역량을 latent construct로 보는 것은 틀렸다고 본다. 왜냐하면 그러한 모델에서 construct는 generic, stable, homogenous한 것으로 사용되기 때문이다". 분명히 사례 특이성의 발견은 stability라는 개념과 상당히 대조적 인 것으로 보인다. 종합하여, 사례 특이성의 발견이 의료 적 능력 평가에서 심리 측정 모델의 부적합에 대한 경험적 논증으로 간주 될 수 있는지의 문제를 야기한다.

Indeed, the finding of case specificity may play a crucial role in the reservations psy- chometrics is faced with. Case specificity has been called the ‘‘…one truth in medical education’’ (John Norcini in Eva 2011, p. 22), since the associated variability of perfor- mances is found almost everywhere and across many contexts (Eva 2003). Knowing this, the remark that ‘‘…a scientific model capable of explaining only such a small portion of the observed variance is at best a moderately strong model’’ (Schuwirth 2009, p. 299) is highly interesting. Schuwirth and van der Vleuten (2006) also argued that core concepts of psychometric theory, such as latent variables, might not be meaningful in the assessment of medical competence, stating ‘‘we […] think the assumption that they [i.e., the aspects of medical competence] can be treated as latent constructs is incorrect…’’ (p. 297), amongst other reasons, because ‘‘…[i]n this model, constructs are used as generic, stable and homogenous characteristics’’ (p. 296). Clearly, the finding of case specificity seems to represent quite the contrast to the notion of stability. Taken together, this raises the question of whether the finding of case specificity can be regarded as an empirical argu- ment for the inadequacy of psychometric models in the assessment of medical competence.


잠재 변수

Latent variables


우리는심지어 알지도 못하는 채로, 매일 잠재 변수를 다룹니다. 예를 들어 특정 학생이 시험에서 반복적으로 속임수를 쓰고 숙제를 도용했다고 의심되는 경우, 우리는 이 학생이 '속이는 사람'이라는 결론에 도달한다. 간단히 말해, 우리는 관찰 된 behavior (예 : 시험에 컨닝 시트를 가져오는 것)의 원인을 그 사람의 trait로 보는 경향이 있다. Trait란 사람의 성격에서 안정된 측면 또는 상황에 따라 어떤 특징적인 방식으로 행동하는 일반적인 성향이다 (예 : '사기꾼').

Presumably without even knowing, we deal with latent variables on a daily basis. For instance, if we observe a particular student cheating repeatedly in exams and suspect that he/she plagiarized a homework assignment, it is likely that we will come to the conclusion that this student is in fact a ‘cheating’ person. In short, we tend to attribute the observed behavior (e.g., the event of bringing a crib sheet to an exam) to a trait, that is, a stable facet of a person’s character or a general disposition to act in some characteristic way across situations (e.g., being a ‘cheater’).


이 특성은 보고, 느끼고, 맛보거나,들을 수 없습니다. 그것은 어느 정도 숨겨져 있거나 잠재된 것이다. 사람의 행동을 성격에 귀속시킴으로써 우리는 암묵적으로 둘 사이의 인과성을 가정한다.

However, we cannot see, feel, taste, or hear this trait; it is to some extent hidden or latent. By attributing a person’s behavior to their character, we implicitly assume a causal force,


잠재 변수의 가장 가치있는 특징은 종종 "제한된 수의 잠재 변수를 통하여 광범위한 행동을 설명하는 직관성"에서 볼 수 있습니다. "(Borsboomet al. 2003, 203 페이지). 심리측정 논문들은 성찰적 측정 모델 (Edwards and Bagozzi 2000; Borsboom et al., 2003; Bollen and Lennox 1991)과 같은 심리측정의 이론적 근거 (즉, 잠재 변수에 의한 관측)를 기술하기도 했다. 이론적으로, 관찰 된 행동은 잠재 변수의 영향의 지표로 생각된다. 이것은 배심 재판에서 법적인 절차가 정황 증거에 의존하는 것과 유사하다.

The most worthwhile feature of latent variables is often seen in ‘‘…the intuitive appeal of explaining a wide range of behaviors by invoking a limited number of latent variables.’’ (Borsboomet al. 2003, p. 203). The psychometric literature describes the model underlying such a rationale (i.e., observations caused by a latent variable) as a reflective measurement model (Edwards and Bagozzi 2000; Borsboom et al. 2003; Bollen and Lennox 1991). Theoretically, the observed behaviors (performances on items, ratings on check-lists, responses to questionnaires, etc.) are conceived of as indicators of the effect of the latent variable. Similar inferences may be made in jury trials when the legal proceedings rely on circumstantial evidence.


한 시점에서의 행동은 다른 잠재적 인 행동이나 반응의 예측 인자로 사용됩니다. 왜냐하면 그것들은 모두 같은 잠재 변수에 의해 유발되기 때문입니다. 이 암시적 인과 관계는 (부정 행위, 배신, 표절을 유발하는 부정직과 같은) 구조적 방정식 모델의 그래픽으로도 묘사됩니다. 여기서 화살표는 잠재 변수 (타원으로 표시)에서 명시 지표(사각형으로 표시) 에 연결된다. 1.

 Thebehavior at one point in time is used as a predictor of a behavior or response at anotherpoint, since they all are evoked by the same latent variable. This implicit causal attribution(e.g., dishonesty causing cheating, betrayal, plagiarizing) is also depicted in the graphicalnotation system of structural equation models, in which arrows point from a latent variable(depicted by ellipses) to manifest indicators (depicted by squares), as shown in Fig. 1.



잠재 변수 분석에서 이론적 모델을 정당화하는 한 가지 방법은 지정된 모델 (및 대안 모델)을 관측 된 데이터와 비교하는 것입니다. 모델과 데이터 간의 정렬을 탐색하는 데 사용되는 방법은 통계 모델링의 핵심 개념이며 일반적으로 모델 적합성 평가라고합니다. Sijtsma (2006)에 따르면, 심리 측정 모델은 관측 된 데이터의 수학적 응축으로 생각할 수있다. 잠재 변수 - 잠재 성질, 요인, 잠재력 클래스 - 는 데이터의 요약이며 그 이상은 아니다. 452 쪽) 모델은 항상 단순화 된 것이다. 따라서 공식화 과정에서 deviation이 발생됩니다. 사실, 데이터의 모든 세부 사항이나 세부 사항을 설명하는 모델은 다른 상황에서는 거의 일반화 될 수 없습니다. 그럼에도 불구하고 더 복잡한 모델은 관측에서보다 많은 특이성을 설명하기 때문에, 적어도 설명 할 수 없거나 모델화되지 않는 것보다는 동등하거나 우수합니다. 모델 적합성을 평가하는 접근법의 한 가지 의미는 동일한 데이터 세트에 대해서도 각 모델은 각기 다양한 수준으로 데이터를 설명 할 수 있다는 것입니다. 경쟁 모델의 상대적인 적합성을 조사하는 것은 평가 자료가 요약되는 방법을 정당화하기위한 한 가지 방법 일 수 있으며, 따라서 결과적으로 중요한 의사 결정이 이루어지는 방법을 정당화 할 수 있습니다.

One way to justify a theoretical model in a latent variable analysis is to compare the specified model (and alternative models) to the observed data. The method used to explore the alignment between a model and the data is a central concept in statistical modelling and is usually referred to as the evaluation of model fit. According to Sijtsma (2006), psy- chometric models can be conceived of as a mathematical condensation of the observed data: ‘‘latent variables—latent traits, factors, and latent classes—are summaries of the data and nothing more.’’(p. 452) A model is always a simplification; hence, deviations fromthat formalization are expected. Indeed, a model that would account for all details or specifics in the data will hardly be generalizable to other occasions or instances. Nevertheless, more complex models are at least equally good or better in explaining the data, as they account for more idiosyncrasies in the observations, which would otherwise remain unexplained or un-modelled. One implication of the approach to evaluate model fit is that, for a set of models applied to an identical dataset, each model may explain the data to varying degrees. Investigating the relative fit of rivaling models may be one approach to justify the way assessment data is summarized and consequently how corresponding high-stakes decisions are made.


모델 적합성을 평가하는 데 중요한 부분은 관찰 된 데이터를 설명하기 위해 이론적으로는 서로 다른 모델의 상대적 효율성을 비교하는 것입니다. 이러한 비교가 수행 될 때 궁극적으로 선택된 모델은 관측 된 정보의 가장 적절한 요약으로 간주 될 수 있습니다.

The crucial part in assessing model fit is to compare the relative efficiency of different, theoretically sound models to explain the observed data. When these comparisons are performed, the model ultimately chosen can be regarded as the most appropriate summary of the observed information.


IRT의 맥락에서, 이 두 가지 별개의 항목 속성을 설명하는 명백한 선택이 있으며, 학생의 능력에 대한 추론은 더 잘 맞는 IRT 모델에서 파생 된 능력 평가를 기반으로 할 수 있습니다. 이 시나리오에서는 두 개 이상의 모델을 지정하여 데이터에 적용 할 수 있습니다. 

  • 첫째, 일변수 모델. 변별도가 일정하다고 가정하면서 문항 난이도의 차이를 설명합니다. 

  • 둘째, 이변수 모델, 시험의 문항의 변별도와 난이도 변수를 모두 추정하는 모델입니다. 

그런 다음 두 모델의 설명력을 다양한 모델 적합 기준을 사용하여 비교할 수 있습니다.

In the context of IRT, there is an explicit choice to account for these two distinct itemproperties, and inferences on students’ ability might be based on the ability estimates derived fromthe better fitting IRT model. In this scenario, at least two models might be specified and applied to the data. First, a 1-parameter-logistic model, which accounts for differences in item difficulties while assuming item discriminations to be constant. Second, a 2-parameter-logistic model, which estimates both difficulty and discrimination parameters for the items in the exam. The explanatory power of both models can then be compared using various model fit criteria.


그러나 어떤 모델이 가장 적합한지를 결정하는 것은 통계적 기준의 기능 일뿐만 아니라 평가의 목적이기도합니다. 따라서보다 더 복잡한 모델 대신 단순하고 덜 적합한 모델이 선택 될 수 있습니다.

However, determining which model is most suitable is not only a function of statistical criteria, but also of the purpose of an assessment. Therefore, a simpler and possibly less well fitting model may be chosen over a more complex model.


요약하면, 잠재 변수 분석의 핵심은 관측치가 결합되어 잠재 변수를 형성한다는 것입니다. 이 방법의 장점은 관련이 없는 여러 관측을 설명하거나, 행동을 예측하거나, 행동 예측을 통해 수행능력을 예측하게 해줄 수 있다. 특정 모델의 적합성의 정도를 평가하기 위해서는 모델에 대한 데이터의 적합성을 검사해야합니다. 특정 모델의 선택은 통계적 비교 또는 적용 맥락 중 하나로서 전문적인 판단의 문제 일 수 있습니다. 그러나 잘 맞지 않는 모델을 선택하면 (특히 일상적인 평가와 같은 실용적인 용도로 사용하는 경우), 잘못된 추론의 이점, 단점 및 의미를 분석하고 평가할 수 있습니다. 잠재적 인 변수 모델 - 데이터 요약 -는 통계적 특성과 실제 결과에 따라 테스트 할 수 있습니다.

To summarize, a central concept in latent variable analyses is that observations are combined to form a latent variable. The advantage of this approach is that it gives the ability to explain otherwise unrelated observations, predict behavior, or, for that matter, performances. In order to evaluate the degree of suitability of a particular model the fit of the model to the data must be examined. The choice of a particular model can be as much a matter of professional judgment as one of statistical comparisons or the context of application. If, however, a less well fitting model is selected—especially when it is used for practical purposes such as routine assessments—the benefits, drawbacks, and implications of possibly incorrect inferences can be analyzed and evaluated. Latent variable models— summaries of the data—can be tested based on both their statistical properties and their practical consequences.



측정 정확도

Measurement precision


일반적으로 측정 정확도는 측정의 재현성 (예 : 시험 결과, 등급, 분류)을 평가하기위한 모든 노력, 즉 평가 결과가 동일 할 것이라는 예상치를 포함합니다. 즉, "비슷한 상황에서 반복한다면 비슷한 평가결과가 나올 것이다. "(Norcini et al., 2011). 심리측정의 관점에서, 그러한 추정은 시험 점수에 근거한 주장(예: Proficiency에 대한 추론)의 신뢰성을 확보하는 데 중요합니다. 시험 결과의 재현성을 결정하는 한 가지 접근법이 G 이론에서 개발되었다 (Brennan 2001). 간단히 말해서, "G 이론은 ... 측정 오류의 원인을 정확하게 지적하고,이를 풀고, 각각을 추정합니다. "(Webb 외 2006). 측정 오차와 측정 정확도는 밀접한 관련 개념입니다. 측정 오류의 원인을 조사하면 더 많은 복제 가능 평가를 구축하는 데 도움이 될 수 있습니다. 이와 관련하여 G 이론은 종종 CTT보다 더 유연하다고 여겨진다 (Crossley et al., 2002). 이것은 G 이론이 CTT의 단일 일반 오차항("관찰점수 = 진점수 - 오류" 공식)과 대조되는 다각적 인 측정 오차를 생각하기 때문이다. G 이론은 이 single error term을 더 '풀어내는 것unpack'(Zumbo 2006)을 목표로합니다.

Generally speaking, the topic of measurement precision encompasses all efforts that aimto estimate the reproducibility of measurements (e.g., exam results, ratings, classifications), that is, an estimate of the extent to which ‘‘…results of the assessment would be the same if repeated under similar circumstances.’’ (Norcini et al. 2011). From a psychometric per- spective, such an estimate is important in securing the trustworthiness of claims that are based on test scores (e.g., inferences of proficiency) (Kane 1996, 2013; Messick 1989). One approach to determine the reproducibility of test results has been developed in G Theory (Brennan 2001). Briefly, G Theory ‘‘…pinpoints the sources of measurement error, disentangles them, and estimates each one.’’ (Webb et al. 2006). Measurement error and measurement precision are closely related concepts, since examining the sources of measurement error may help to build more replicable assessments. In this regard, G Theory is often considered to be more flexible than CTT (Crossley et al. 2002). This, because G Theory conceives of measurement error as multi-faceted, which is in contrast to the single general error term in CTT ‘‘observed score = true score ? error’’ formulation. G Theory aims to ‘unpack’ (Zumbo 2006) this single error term further.


잔분산 (residual variance) ... (Cronbach and Shavelson 2004) 

Residual variance 

‘‘…represents what is commonly thought of as error of measurement, combining the variability of performance to be expected when an individual can sometimes exceed his norm by gaining insight into a question and sometimes fall short because of confusion, a lapse of attention, and so forth.’’ (Cronbach and Shavelson 2004) 


일반적인 시험에서 보통 조사 할 수없는 것은 학생과 문항 간의 상호 작용입니다. 이는 학생들이 같은 문항에 다시 응답했을 때 동일한 점수를 받을지 여부를 모른다는 것과 같다. 일반적인 시험에서 이 상호 작용은 나머지 구성 요소로부터 분리 될 수 없습니다. 따라서 학생-문항 상호 작용과 잔분산이 결합되어 세 번째 변동성 원천이된다. 요약하면, 전형적으로, 학생 간 차이 (학생 facet)는 관심의 변이의 원천이며 잔여 성분은 항상 측정 오류로 간주되어 설명되지 않는 데이터 변동성을 나타냅니다. 그러나 어떤 분산 구성 요소가 오차 분산을 나타내며 관심 대상 구성을 형성하는지는 이론적인 고려 사항입니다.

What usually cannot be investigated in a typical exam is the interaction between the student and the item, meaning we don’t know if students would receive the same score if they had to answer that same item again. In a typical exam, this interaction cannot be disentangled from the residual component; thus student-item-interaction and residual variance combined form a third source of variability. In summary, in typical applications, the between-student differences (the student facet) are the source of variation of interest, while the residual component is always regarded as measurement error and represents the unexplained variability in the data. However, which variance component represents error variance and which forms the construct of interest is a matter of theoretical consideration.


특정 facet이 측정 오류를 구성하는지 여부는 실질적인substantive 결정이며 적용의 맥락에 특이적이다.

Whether or not a specific facet constitutes measurement error is a substantive decision and is specific to the context of application, which can be illustrated by two examples.


이와 관련하여 잠재 변수 모델링과 유사하게 G 이론을 통해 연구자는 관찰이 동일한 클래스의 관찰인 것으로 간주되는 기대치를 공식화하고 평가할 수 있으며 해당 클래스 내의 관찰이 복제 할 수있는 정도를 추정 할 수 있습니다.

In this respect, and similar to latent variable modelling, G Theory allows the researcher to formulate and evaluate expectations on which observations are deemed to be observations fromthe same class and estimate the degree to which observations within that class are replicable.


G 이론과 잠정적 변수 모델링은 모두 systematic variation을 설명하는 것을 목표로하는 통계 기법, 즉 데이터에서 일종의 일관성과 복제 가능성을 찾는 것을 나타냅니다. 결과적으로, G 이론이 특별한 유형의 잠재 변수 모형으로 간주 될 수 있다는 것은 놀라운 일이 아니다 (Skrondal and Rabe-Hesketh 2007, Zumbo 2006, Marclides 1996). 의사가 당뇨병 환자를 보는 임상 만남을 생각해보십시오. 그러한 만남에서, 의사는 우선 일상 생활에서 당뇨병을 다루는 방법에 대한 정보를 제공 한 다음 올바른 약물을 처방하고 인슐린 방출 메커니즘에 대한 지식을 바탕으로 그렇게 할 수 있습니다. 여러 명의 의사를 이 세 영역 (환자 교육, 약물 및 기제)에 대하여 평가했을 때 다양한 실행 패턴을 나타낼 수 있습니다. 예를 들어 인슐린 방출에 대한 설 포닐 유레아의 영향을 떠올리는 것은 일부 의사들에게는 어려울 수있다.

Both G Theory and latent variable modelling represent statistical techniques that aim to explain systematic variation, that is, to find some sort of consistency and replicability in the data. Consequently, it may not be surprising that G Theory can be regarded as a special type of latent variable model (Skrondal and Rabe-Hesketh 2007; Zumbo 2006; Mar- coulides 1996). Consider a clinical encounter where a physician sees a patient with dia- betes. In such an encounter, the physician may first need to give information on how to handle diabetes in everyday life, and then prescribe the correct medication, drawing on knowledge of the mechanisms of insulin release to do so. An assessment that covers these three domains (patient education, medication, and mechanisms) administered to a group of physicians might indicate different patterns of performance; for example recalling the influence of sulfonylurea on insulin release may have become challenging for some physicians.



표 1은 이러한 다양한 패턴의 성능을 보여줍니다. 각 의사는 각기 다른 작업마다의 수행능력은 다르지만, 한 가지 작업에 내에서는 일관된다. 모든 관찰을 가로 지르는 inconsistency는 systematic할 수 있으며 능력의 여러 하위 도메인에 반영 될 수 있습니다. 이러한 시나리오에서, G 이론 모델의 변형은 실제로 그림 1과 같이 잠재 변수 프레임 워크를 사용하여 데이터에 적합 할 수 있습니다. 2 (Marcoulides 1996). 이러한 접근법 사이의 완벽한 번역은 불가능하지만, 이론적으로나 분석적으로는 상당한 오버랩이있다 (Webb 외. 2006).

Table 1 illustrates these different patterns of performance: different physicians perform differently on each task—but consistently within tasks. Inconsistency across all observations may then be systematic and reflected in several subdomains of competence. In such a scenario, a variant of a G Theory model could indeed be fit to the data using a latent variable framework, as shown in Fig. 2 (Marcoulides 1996). Complete translation between these approaches is not possible, but there is substantial theoretical and analytical overlap (Webb et al. 2006).





사례특이성과 심리측정에 대한 비판

  • The finding of case specificity and its relation to criticisms of psychometrics


특정 관측 세트에 대한 복제 가능성이나 안정성의 개념이 심리측정 개념에서 중요한 역할을하는 반면, 반복적으로 발견된 사례 특수성은 그 반대가 의학교육에서의 "유일한 진리"임을 시사한다 (John Norcini, Eva 2011, p. 22)

While the concept of replicability or stability across a specific set of observations plays a crucial role in the psychometric concepts discussed, the recurrent finding of case specificity suggests that the opposite is the ‘‘one truth’’ (John Norcini in Eva 2011, p. 22) in medical education, i.e.,


소개에서 언급했듯이,이 발견은 심리 측정 모델에 대한 비평에서 결정적인 역할을 할 수있다. 사례 특이성에 대한 광범위한 발견은 정신 측정 모델의 '부적합성'에 대한 경험적 증거로 간주 될 수 있으며,  "관찰 된 분산의 작은 부분만을 설명 할 수 있는 과학적 모델은 기껏해봐야 중간정도의 모델 "이라는 주장을 지지한다."(Schuwirth 2009, 299 페이지).

As noted in the intro- duction, this finding might play a crucial role in the criticisms levelled at psychometric models. The widespread finding of case specificity might be regarded as empirical evi- dence of ‘misfit’ of psychometric models and may therefore underpin the argument that ‘‘ …a scientific model capable of explaining only such a small portion of the observed variance is at best a moderately strong model.’’ (Schuwirth 2009, p. 299).


사례 특수성의 발견은 흥미로운 현상이지만, psychometrics와 잠재 변수 모델링은 다양한 고려 사항을 탐구하여 설명 할 수없는 많은 차이가있는 현상을 인정하는 다양한 접근법을 제공합니다. 

  • 첫째, 사례 특이성은 error-prone한 평가 절차의 결과가 아니라, 심리측정모델로 조사 될 수 있는 다수의 측정되지 않은 요인들 때문이다.

  • 둘째로, 다차원적 구인인 의학적 역량의 복잡한 구조를 가정함으로써 추가적인 variance가 설명 될 수있다. 적어도 performance-based assessment의 평가의 결과는보다 복잡한 분석 기법을 사용하여 가장 잘 모델링 될 수 있습니다 (Keller et al. 2010).

While the finding of case specificity remains an interesting phenomenon, psychometrics and latent variable modelling offer various approaches to acknowledge the phenomenon of comparably large amounts of unexplained variance by exploring various considerations. 

  • First, the phenomenon of case specificity might not be the result of error-prone assessment procedures but rather of a multitude of unmeasured factors that could be taken into account and investigated with psychometric models (Colliver et al. 1990; Kreiter and Bergus 2007; Crossley 2010). 

  • Second, additional variance may be explained by assuming a more complex structure of medical competence, which may be understood as a multi-dimen- sional construct (Wimmers and Fung 2008; Wimmers et al. 2007; Mattick et al. 2008). At the very least, results from performance-based assessments may be best modelled using more complex analysis techniques (Keller et al. 2010).


서론에서 언급 한 바와 같이, 사례 특이성은 특정 평가 맥락에서 흔히 전체 변이의 70%가 설명되지 않는다는 사실로부터 확인된다. 그러한 70%라는 수치가 자극적이라고 들릴 수도 있지만, 이론적으로 잔여 분산의 비율이 얼마나 작을 수 있는가? 다르게 말해서, 70 %가 정말로 큰 수치인가? 에 대한 질문을 한 적은 없다.

As noted in the introduction, case specificity is frequently assigned to the finding that up to 70% of the total variance in a particular assessment context remains unexplained. While such a share may sound irritating, a critical question that has rarely been addressed is: how small could the proportion of residual variance theoretically be? Put differently, is 70% really large?


일관성과 설명 된 변이의 기대치는 잔차의 기대치와 같은 이론 모델에 의존한다. CTT 또는 G 이론 모델과 같은 결정 론적 모델에서 전체 분산의 잔여 편차의 비율은 거의 0 % 일 수 있으며, 이상적으로는 도달 할 수 있습니다. 표 2는 관측치의 스코어가 완벽하게 안정적인 응답 패턴을 보여줍니다.

The expectance of consistency and explained variation are as dependent on the theo- retical model as the expectance of residual variation. In deterministic models, such as CTT or G Theory models, the proportion of residual variation in the total variance could be virtually 0%, and ideally this would be reached. Table 2 illustrates such a response pattern, where scores across observations are perfectly stable.




대조적으로, IRT 모델과 같은 확률론적 모델에서 잠재 변수와 관찰 된 결과 (예를 들어, 케이스를 정확하게 진단하는 것과 그렇지 않은 것) 사이의 관계는 성공 가능성의 관점에서 공식화된다. 그러한 확률 과정이 가정된다면, 데이터는 모델과 완벽하게 일치 할 수 있지만, 결정 론적 모델의 관점에서 잔차 분산의 양은 상당히 높을 것이다.

In contrast, in probabilistic models such as IRT models, the relation between a latent variable and the observed outcome (e.g., diagnosing a case correctly or not) is formulated in terms of chances for success. If such a probabilistic process is assumed, data can be in perfect agreement with the model, but the amount of residual variance, from the perspective of a deterministic model will be com- parably high.


G이론 기반 분석에서 평균적으로 전체 분산의 2.5 %가 사람에 기인하고 25 %는 항목에 해당하며 72.5%가 잔분산에 의한 것임을 보여준다. 이러한 분산 구성 요소의 패턴은 사례 특이성의 발견으로 해석 될 가능성이 높습니다. 그러나 확률 론적 모델의 관점에서, 70%의 잔분산이 큰 것은 아니지만 주어진 시나리오에서 다차원성의 효과나 측정하지 않은 요인의 영향 가능성을 배제하면 쉽게 예상 할 수 있습니다.

A G Theory-based analysis, conducted in the R language for statistical computing (R Core Team 2013; Bates et al. 2015), showed that on average, 2.5% of the total variance was attributable to persons, 25% to items, and 72.5% to residual variance. This pattern of variance components would likely be interpreted as the finding of case specificity. However, from the perspective of a probabilistic model, 70% residual variance is not large, but can be readily expected in the given scenario while ruling out the pos- sibility of an effect of multi-dimensionality or the influence of unmeasured factors.


상대적으로 큰 비율의 잔분산은 심리 측정 문제를 일으키지 않을 수도 있지만 오히려 본질적으로 능력과 성공 (또는 실패) 사이에 존재하는 확률론적 관계를 지적 할 수 있습니다. 이러한 관점은 일반적으로 판단 과정에 관한 오랜 전통의 연구와 일치하며, 진단 유추 과정의 최근 개념을 암시한다. Hertwig et al. (2013)은 

A relatively large share of residual variance may not pose a psychometric issue at all, but rather may point to an inherently stochastic relation between ability and success (or failure) on items, cases, or tasks. This perspective is generally in alignment with a long tradition of research on judgmental processes (Slovic and Lichtenstein 1971; Hammond et al. 1964; Cooksey 1996) and echoes a recent conception of the process of diagnostic inference. Hertwig et al. (2013) argued that 


" '... 인식과 인식이 확률적이며 불완전한 단서를 기반으로하면 정확도에 대한 한도가 있는 것은 자연스럽다. 불가피한 오류는 있을 수 있지만, 추론 시스템의 실패를 반영하는 것이 아니라 사용 가능한 신호로부터 완벽하게 예측할 수없는 확률적인 환경을 반영합니다. "(p. 534) 

‘‘…[b]ecause cognition and perception are probabilistic and based on imperfect cues, there is a natural limit to how accurate they can be. Inevitable though errors may be, they do not reflect a failure of the inferential system but a probabilistic environment that is not perfectly predictable from the available cues.’’ (p. 534) 


그러한 확률적 환경이 합법적으로 가정 될 수 있다면, IRT는 본질적으로 확률론적인 과정을 모델링하기 위한 이론적으로 적절한 적합성 일 수 있습니다. 진단적 추론의 확률 론적 성격의 명제 (Hertwig et al. 2013, p.534)는 우리가 실제적인substantive 관점에서 사례 특이성의 발견을 설명하는 데 너무 익숙해 졌을 수도 있음을 시사한다. 의료 능력 평가의 복잡성 때문에, 그 패턴들이 매우 단순하지만 확률적인 대응 과정에 의해 통제 될 수 있다는 가능성을 인식하는 것은 매우 어렵다.

If such a probabilistic environment can legitimately be assumed, methods developed within IRT may be a theoretically adequate fit to model such inherently stochastic processes. The proposition of the ‘‘probabilistic nature of diagnostic inference’’ (Hertwig et al. 2013, p. 534) suggests that we may have become so used to explaining the finding of case specificity from a substantive point of view, as a result of the complexities in assessing medical competence, that it is very hard to recognize the possibility that those patterns could also be governed by a very simple, but probabilistic, response process.


의학 역량 평가에서 심리측정의 역할

The role of psychometrics in the assessment of medical competence


위의 섹션에서 설명 된 고려 사항은 IRT 내에서 개발 된 확률 론적 모델이 이론적 및 경험적 의미에서 전통적이고 결정론적인 모델보다 의학 역량의 평가에 더 적합한 정신 측정 모델에 기여할 수 있음을 시사합니다. 그러나 IRT의 틀 안에서 만들어진 모델은 종종 소규모 시나리오 (예 : 200 자 이하)에서의 적용 가능성에 대한 우려에 직면합니다. 이 점을 안다면 작은 샘플 시나리오에서 이러한 심리 측정 방법의 적용 가능성에 대한 초기 조사를하는 것이 가치가있을 수 있습니다. 간단한 IRT 모델은 약 100 명의 학생 표본에서 legitimate하게 사용될 수 있습니다 (Jones 외. 2006). 또한 의학 교육의 특정 상황에 대한 시뮬레이션 연구 및 실제 검사 데이터의 2 차 분석은 의과 대학 일상적 응용에서의 probabilistic 측정 모델 사용에 대한 실질적인 권고에 도달하는 유망한 분석 전략 인 것으로 보인다.

The considerations delineated in the sections above suggest that probabilistic models, as developed within IRT, could contribute to a psychometric model that fits the assessment of medical competence better than traditional, deterministic models in both a theoretical and an empirical sense. However, models created within the framework of IRT often face concerns regarding their applicability, especially in small-scale scenarios (e.g., 200 stu- dents or less). Knowing this, it may be worthwhile to draw on earlier investigations on the applicability of such psychometric approaches in small-sample scenarios, which point out that simple IRT models may be legitimately used in sample of about 100 students (Jones et al. 2006). Furthermore, for the specific context of assessment in medical education, simulation studies, and secondary analyses of actual examination data seem to be promising analytic strategies to arrive at practical recommendations for the use of prob- abilistic measurement models in routine applications in medical schools.


우리는 또한 현대 시험 이론에서 개발 된 몇 가지 개념이 Schuwirth와 van der Vleuten (2011)에 의해 묘사 된 바와 같이 프로그램 평가의 틀 안에서 큰 이익을 줄 수 있다고 제안합니다. 우리는 프로그램 적 평가의 함의에 부합하는 세 가지 구체적인 개념을 간략하게 강조하고자한다. 

  • 첫째, 개별 학생에게 평가를 맞추는 아이디어는 심리 측정 적 의미에서 '정보'개념과 잘 부합된다 (Mellenbergh 1996). 이를 통해 신뢰할 수있는 피드백을 제공하거나 방어 가능한 결정을 내릴 수있는 사람의 능력에 대한 충분한 데이터를 언제 사용할 수 있는지 판단 할 수 있습니다. 

  • 둘째, 임상 시험을 위해 개발 된 통계 방법은 순차 표본 추출과 목적 표본 추출의 개념에 의존한다 (Bartroff et al., 2013); 필요하고 가장 유익한 것으로 간주되는 데이터를 얻고 샘플 링하는 아이디어는 프로그램 적 평가의 틀에서도 분명하게 드러납니다. 

  • 셋째, 베이지안 접근법은 퍼포먼스에 관한 사전 정보가 일반적으로 이용 가능하다는 것과, 다른 소스의 데이터를 체계적으로 결합하는 규칙을 제공한다는 아이디어를 이용한다. 사전 정보는 전문가의 판단에 기인하지만 체계적으로 적용되고 조사 될 수 있습니다. 

  • 또한 베이지안 접근법은 기존 추정 기법이 제한적이고 소 표본 시나리오에서 특히 유용 할 수있는 상황에서 흥미로운 대안이다. 이러한 접근법을주의 깊게 기술하는 것은이 논문의 범위를 벗어나지 만 Schuwirth와 van der Vleuten (2006)의 새로운 정신 측정 모델에 대한 호출과 "확률 론적 베이지안 접근법"을 탐구하는 다음 단계가 될 수있다. (300 쪽).

We furthermore propose that several concepts developed in modern test theory can be of great benefit within the framework of programmatic assessment as delineated by Schuwirth and van der Vleuten (2011). We want to briefly highlight three specific concepts that align with the implications of programmatic assessment. 

  • First, the idea of tailoring the assess- ment to the individual student aligns well with the concept ‘information’ in a psychometric sense (Mellenbergh 1996). This allows us to determine at which point enough data is available on a person’s ability to give reliable feedback or make defensible decisions. 

  • Second, statistical methods developed for clinical trials lean on the concept of sequential sampling and purposeful sampling (Bartroff et al. 2013); the idea of obtaining and sam- pling data where it is deemed necessary and most informative is also evident in the framework of programmatic assessment. 

  • Third, Bayesian approaches capitalize on the idea that prior information on performances is usually available and, again, offer a rule for combining data fromdifferent sources in a systematic manner. Prior information may stem from expert judgment but could then be applied and investigated systematically. 

  • Fur- thermore, Bayesian approaches are also an interesting alternative in situations where tra- ditional estimation techniques are limited and may be especially useful in small-sample scenarios. A careful delineation of those approaches is beyond the scope of this paper, but these concepts may constitute the next steps to following Schuwirth and van der Vleuten’s (2006) call for new psychometric models, and to exploring a ‘‘probabilistic or Bayesian approach’’ (p. 300).


Discussion



우리는 심리 측정 방법과 현대 시험 이론이 일반적으로 설명 된 것보다 훨씬 융통성이 있다는 것을 강조하고 싶습니다. 그러나 우리는 엄격한 CTT 접근법이 일반적으로 의학적 역량 평가를 위한 시나리오에는 적합하지 않을 것이라는 데 동의합니다. 중요한 것은 심리 측정 이론이 단일화 단계에 있기 때문에, 가능한 분석적 접근 방식도 폭넓게 늘어났다. 예를 들어, 일반화 된 선형 혼합 모델의 틀 하에서, 분산 이론 (G Theory)과 IRT와 같은 분산 요소의 추정을 상호 연결하는 방법은 이제 쉽게 이용 가능하고 적용 가능하게되었다 (Doran et al., 2007). 따라서 심리측정의 여러 전통들 사이의 뚜렷한 대조는 사라진 것처럼 보인다. 

We want to stress that psychometric methods and modern test theory are in general much more flexible than usually described. However, we agree that a strict CTT approach might be less suitable for scenarios that are typically of interest in the assessment of medical competence. Importantly, psychometric theories seem to be in a phase of unifi- cation, which comes with an increasing breadth of possible analytic approaches. For instance, under the framework of generalized linear mixed models, methods that inter- weave the estimation of variance components (as in G Theory) and IRT have now become easily available and applicable (Doran et al. 2007). Hence, the stark contrast between psychometric traditions seems to have vanished. 


그러한 확장 된 도구 상자에 비추어 볼 때 모델을 데이터에 맞추기 전에 다루어야 할 실질적인 질문은 측정 모델 자체의 개념 적 적합성과 관련이 있습니다. ''심리측정 기술과 모델은 큰 가능성을 가지고 있다. 단 그것이 응답 프로세스의 substantive theory에 대해서 유도될 때에만 그러하다" (Borsboom et al., 2004, p.1070). "(Borsboom et al., 2004).

In the light of such a broadened toolbox, the substantive question that needs to be addressed before fitting a model to the data and drawing inferences from it is related to the conceptual appropriateness of the measurement model itself: ‘‘Psychometric techniques and models have great potential for improving measurement practice […] but only if they are driven by a substantive theory of response processes.’’(Borsboom et al. 2004, p. 1070).


Conclusion









 2017 Mar 16. doi: 10.1007/s10459-017-9771-4. [Epub ahead of print]

Why assessment in medical education needs a solid foundation in modern test theory.

Author information

1
Centre for Educational Measurement at the University of Oslo (CEMO) and Centre for Health Sciences Education, University of Oslo, Oslo, Norway. stefan.schauber@cemo.uio.no.
2
Department of Psychology, Humboldt-Universität zu Berlin, Berlin, Germany.
3
Institute of Medical Education, Faculty of Medicine, University of Bern, Konsumstrasse 13, 3010, Bern, Switzerland.

Abstract

Despite the frequent use of state-of-the-art psychometric models in the field of medical education, there is a growing body of literature that questions their usefulness in the assessment of medical competence. Essentially, a number of authors raised doubt about the appropriateness of psychometric models as a guiding framework to secure and refine current approaches to the assessment of medical competence. In addition, an intriguing phenomenon known as case specificity is specific to the controversy on the use of psychometric models for the assessment of medical competence. Broadly speaking, case specificity is the finding of instability of performances across clinical cases, tasks, or problems. As stability of performances is, generally speaking, a central assumption in psychometric models, case specificity may limit their applicability. This has probably fueled critiques of the field of psychometrics with a substantial amount of potential empirical evidence. This article aimed to explain the fundamental ideas employed in psychometric theory, and how they might be problematic in the context of assessing medical competence. We further aimed to show why and how some critiques do not hold for the field of psychometrics as a whole, but rather only for specific psychometric approaches. Hence, we highlight approaches that, from our perspective, seem to offer promising possibilities when applied in the assessment of medical competence. In conclusion, we advocate for a more differentiated view on psychometric models and their usage.

KEYWORDS:

Assessment; Case specificity; Error; Latent variables; Measurement; Medical competence; Post-psychometric era

PMID:
 
28303398
 
DOI:
 
10.1007/s10459-017-9771-4


평가를 향한 공통의 접근법 (Med Teach, 2012)

Towards a systems approach to assessment

C. P. M. VAN DER VLEUTEN1 & ELAINE F. DANNEFER2

1Maastricht University, Maastricht, The Netherlands, 2Western Reserve University, USA




2009 년 말라가에서 열린 AMEE 컨퍼런스에서 Janet Grant 교수는 역량에 대한 평가를 '의학교육의 왕관 보석'이라고 명명했다. 실제로 평가는 우리 분야에서 매우 풍부한 역사를 가지고 있습니다. 1988 년부터 2010 년까지의 의학 교육 문헌에 대한 최근의 분석에서 평가는 평가에 전념 한 총 논문 수의 약 26 %를 차지하여 가장 인기있는 주제로 나타났습니다 (Rotgans 2011). 지난 몇 년 동안 우리는 네 가지 주요한 발전을 보았습니다.

In her plenary at the AMEE conference 2009 in Malaga, Professor Janet Grant labeled the assessment of competence field ‘‘the crown jewels’’ of medical education. Indeed, assessment has a very rich history in our field. In a recent analysis of the medical education literature from 1988 to 2010, assessment was found to be the most popular topic with approximately 26% of the total number of papers dedicated to assessment (Rotgans 2011). Over these years, we see four major developments.


우선 지금까지 많은 방법들이 제안되고 조사 되었다. 수십 년 만에 우리는 수많은 평가 도구로 Miller 's (1990) 피라미드를 '등반 할 수있었습니다. 아마도 피라미드의 처음 세 단계에서는 의학교육의 연속체 스펙트럼 전반에 걸쳐 표준화된 평가기술이 교육 프로그램의 평가를 위해 확립되었다고 할 수 있습니다. 우리는 현재 표준화되지 않은 방법을 개발하여, authentic setting(교육환경이든 진료환경이든)에서 수행능력을 평가하려는 과정에 있다.

One is the plethora of methods that have been proposed and investigated. Within a few decades, we have in essence been able to ‘climb’ Miller’s (1990) pyramid with numerous assessment instruments. One might say that in the arena of standardized assessment technology (first three layers of the pyramid), we could speak of an established technology which is heavily used in assessment practices in our training programs across the whole spectrumof the training continuum in medical education. Currently, we are in the midst of developing non-standardized methods, assessing performance in the authentic setting, either in the educational environment or in the professional workplace.


이러한 진정한 평가와 관련하여 때로는 영역-독립적 기술, 일반 기술, 전문성, 의사 소통 및 협업과 같은 부드러운 기술이라고하는 복잡한 대응이 두드러집니다. 이러한 기술은 최적의 전문 기능을 발휘하기 위해 점점 더 중요시되고 있습니다. 이러한 복잡한 역량은 표준화 된 평가 기술로는 거의 평가할 수 없습니다.

Associated with this authentic assessment is the prominence of complex compe- tencies, sometimes called domain-independent skills, generic skills, or soft skills, such as professionalism, communication, and collaboration. These skills are increasingly being con- sidered to be essential for optimal professional functioning. These complex competencies can hardly be assessed with standardized assessment technology.


두 번째 발전은 평가를 중심으로 잘 발달 된 방법론입니다. 항목 및 테스트 구성, 자극 및 응답 형식, 채점, 항목 및 테스트 분석, 표준 설정 및 유효성 검사 전략에서 '기술'을 많이 사용할 수 있습니다.

A second development is is the well-developed methodology around assessment. In areas of 

  • item and test construction, 

  • stimulus and response formats, 

  • scoring, 

  • item-and test analysis, 

  • standard setting, and 

  • validation strategies, 

...a lot of ‘technology’ is available.


세 번째 발전은 assessment of learning와는 대조적으로 assessment for learning에 대한 개념이다. 후자의 개념에서 중앙 인증, 의사 결정, 승진은 기본적으로 평가 된 사람이 특정 영역의 숙달 (최소) 숙달 여부를 확인하는 개념입니다. 학습을 위한 평가에서 평가의 학습 기능이 강조됩니다.

A third development is the notion of assessment for learning as opposed to assessment of learning. In the latter notion, central certification, decision making, and promotion are concepts, basically to ascertain if a person assessed has acquired (minimum) mastery of a certain domain. In assess- ment for learning, the learning function of assessment is emphasized.


마지막으로, 네 번째 발전은 개별 평가 방법을 뛰어 넘는 보다 시스템-지향적 인 접근 방식으로, programmatic assessment라고 합니다. 이것은 평가 프로그램이 일련의 평가 활동을 계획적으로 조정한다는 견해입니다.

Finally, the fourth development is the move beyond the individual assessment method toward a more system-oriented approach, also called programmatic assessment. This is the view that an assessment program is a deliberate arrangement of a set of assessment activities.


우리는 평가영역에서 시스템 접근법의 개발이 긴급하다고 생각합니다. Baartman et al. (2007)과 Dijkstra et al. (2010)를 제외하면, 시스템 접근법은 평가 프로그램을 설계 할 때 거의 찾아 볼 수 없으며, 구현 및 기능에 대해서도 거의 없습니다.

We think the assessment field requires urgent progression in the development of the systems approach. Except for the work of Baartman et al. (2007) and the initial work of Dijkstra et al. (2010), very little can be found on designing assessment programs and virtually nothing about their implementations and their functioning.


Dannefer와 동료들은 Cleveland Clinic Lerner College의 평가 프로그램에 대한 설명을 제공합니다. 첫 번째 논문 에서처럼 이론적 모델에 따라 매우 기능합니다. 그것은 모든 종류의 평가원으로부터받은 피드백 수집에 크게 의존합니다. 학생들은이 피드백을 사용하여 학습을지도하고 진도 결정에 사용 된 증거를 선택합니다.

Dannefer and coworkers provide a description of the assessment program of the Cleveland Clinic Lerner College of Medicine. It very much functions in conformity with the theoretical model as in the first paper. It relies heavily on the gathering of feedback from all kinds of assessment sources. Students use this feedback to direct their learning and select evidence used for progress decisions.


Altahawi와 그의 동료 학생들은 평가 프로그램을 어떻게 경험했는지보고합니다. 그들은  주로 Grade기반의 전통적인 평가 시스템에서 교육을 받은 학습자에게 익숙하지 않은 접근법에 대해 성찰적으로 설명합니다.

Altahawi and his fellow students report on how they experience the assessment program. They provide a reflective account of how unfamiliar the approach is to learners who have been mainly educated in a grade-based, traditional assessment system.


Rotgans JI. 2011. The themes, institutions, and people of medical education research 1988-2010: Content analysis of abstracts from six journals. Adv Health Sci Educ Theor Pract. 10.1007/ s10459-011-9328-x.



 2012;34(3):185-6. doi: 10.3109/0142159X.2012.652240.

Towards a systems approach to assessment.

Author information

1
Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, The Netherlands. c.vandervleuten@maastrichtuniversity.nl

PMID:
 
22364448
 
DOI:
 
10.3109/0142159X.2012.652240


평가프로그램 설계를 위한 새로운 프레임워크 (Adv in Health Sci Educ, 2010)

A new framework for designing programmes of assessment

J. Dijkstra • C. P. M. Van der Vleuten • L. W. T. Schuwirth




도입

Introduction


오랫동안 의학 교육 평가에 대한 연구는 개인 측정 도구와 psychometric quality에 크게 초점을 맞춰왔다. 그러나 의사의 역량이 지식, 기술, 태도 및 문제 해결과 같은 개별 요소로 구성되어있다는 관점이 팽배하며, 각각에 대한 하나의 최상의 측정 도구를 찾으려는 노력이 있어왔음을 고려하면, 이상한 것도 아니다. 이 접근법의 좋은 예는 임상술기 측정의 수단으로 선호되는 OSCE, 그리고 문제해결능력 평가를 위한 key feature 문항의 확고한 지위이다. 

For long, research on assessment in medical education has strongly focused on individual measurement instruments and their psychometric quality. This is not illogical given the prevailing view of medical competence as consisting of separate elements—knowledge, skills, attitude, and problem solving—and the quest for the single best measurement instrument for each. Good examples of this approach are the established position of the Objective Structured Clinical Examination as the preferred instrument for skill measure- ment (Van der Vleuten and Swanson 1990) and key feature as approach of choice for problem solving skills (Page et al. 1995; Schuwirth 1998). 


심리측정 기준의 가치와 단일 도구에 쏠린 초점은 도구의 장점과 약점에 대한 통찰력을 제공하였으며, 어떤 절충안이 필요한지에 대한 아이디어를 주었다. 그러나 이러한 접근법만으로는 역량을 총체적으로 평가할 수 있는 양질의 평가를 하기에 충분하지 않다. 의학적 역량은 개별 entity의 합이 아니라 통합된 전체integrated whole이기 때문에, 의학과 같은 포괄적인 학문에서는, 어떤 도구가 정신 분석적으로 타당할지라도, 단일 평가도구만으로는 종합적인 평가를위한 모든 정보를 제공 할 수 없다는 결론을 내리는 것이 논리적이다. 

Without detracting from the value of psychometric criteria and the focus on single instruments, which has provided valuable insights into the strengths and weaknesses of instruments as well as into the trade- offs that have to be made (Newble et al. 1994; Schuwirth and Van der Vleuten 2004; Van der Vleuten 1996), such an approach is not sufficient to high quality assessment of com- petence as a whole. From the point of view that medical competence is not the sum of separate entities but an integrated whole, it is only logical to conclude that no single instrument, however psychometrically sound, will ever be able to provide all the infor- mation for a comprehensive evaluation of competence in a domain as broad as medicine.


밀러의 피라미드는 역량의 discrete elements에 대한 적절한 도구를 선택하는 데 유용한 반면, layer 간의 관계 또는 도구의 조합 내에서의 관계를 설명하지는 않습니다. 불행히도 이러한 고도로 통합 된 평가 수준에서의 관계, 타협 및 절충에 대해서는 알려진 바가 거의 없습니다. 물론 도구의 혼합만으로 충분하지 않습니다. 능력을 종합적으로 측정하기 위해 목적을 지닌 방법의 배열이 필요합니다. 테스트가 무작위 샘플 항목 이상인 것과 마찬가지로 평가 프로그램은 무작위 추출 도구 이상이어야합니다.

While being a useful aid in selecting appropriate instruments for discrete elements of competence, Miller’s pyramid does not describe the relationships between the layers or within com- binations of instruments. Unfortunately, little is known about relations, compromises and trade-offs at this highly integrated level of assessment. Of course not just any mix of instruments will suffice: a purposeful arrangement of methods is required for measuring competence comprehensively. Similar to a test being more than a random sample of items, a programme of assessment should be more than a random selection of instruments.


'평가 프로그램'에 대한 단일 정의를 내리는 것은 쉽지 않지만, 핵심은 프로그램의 목표에 대한 명확한 정의로부터 시작하는 설계 프로세스입니다. 이것을 바탕으로...

It is not easy to provide a single definition of such a ‘‘programme of assessment’’, but central to the concept is a design process that starts with a clear definition of the goals of the programme. Based on this; 

  • 평가 영역에 대한 결정 well-informed, literature-based, and rational decisions are made about the different assessment areas to be included

  • 구체적인 평가 방법 the specific assessment methods, 

  • 다양한 소스의 결과가 통합되는 방법 the way results from various sources are combined, and 

  • 프로그램의 요소 간 강점과 약점을 조화하는 타협안 the trade-offs that have to be made between strengths and weaknesses of the programme’s components.


프로그램적 평가를 공부하는 것은 포괄적 역량의 수준에서만 이루어질 수 있으며, 이는 의학을 integrated whole task로 보아야 한다. 이것은 역량을 분리되어있는 entity로 나누거나 심지어는 이들 entity의 합으로 보는 관점과는 상반되는 것이다. 평가에 대한 holistic 관점에서 programmatic approach은 몇 가지 이론적 이점을 제공합니다.

Studying programmatic assessment can only be at the level of comprehensive competence, framing medicine as an integrated whole task. This in contradiction to the view of com- petence as split up into separate entities, or even as the sum of these entities. From a holistic perspective on assessment, a programmatic approach offers several theoretical advantages.

  • 무엇이 측정되고 측정되지 않는지에 대한 개요를 만드는 데 도움이 된다. 이것은 내용과 능력의 다른 측면 사이의 균형을 이뤄주며, 관련성이 떨어지는 사실적 지식과 같이 쉽게 측정 할 수있는 요소를 지나치게 강조하는 함정을 막습니다.

  • 다른 도구의 강점을 통해 일부 도구의 결함을 보상 할 수 있기 때문에, 전체적으로 능력을 확보 할 수있는 다양한 스펙트럼의 보완적 측정도구를 사용할 수 있고, competence as a whole을 잡아낼 수 있다.

  • 평가도구를 매칭함으로써 정보 수집의 중복을 줄이고, 효율성을 높일 수 있습니다. 한 테스트의 데이터가 이미 다른 테스트에서 사용 가능하다면, 시험 시간과 공간을 더 확보할 수 있다.

  • 하이 스테이크 (high-stakes) 시험에서, 여러 출처 (시험 또는 도구)의 정보를 결합한 정보에 입각하여 고도로 방어 가능한 결정을 내릴 수 있습니다.


  • – It can help to create an overview of what is and what is not being measured. This promotes the balancing of content and other aspects of competence and counteracts the pitfall of overemphasising easy-to-measure elements, like unrelated factual knowledge.

  • – It allows for compensation for the deficiencies of some instruments by the strengths of other instruments, resulting in a diverse spectrum of complementary measurement instruments that can capture competence as a whole.

  • – Matching instruments can increase efficiency by reducing redundancy in information gathering. When data on a subject are already available from another test, test time and space is freed for other subjects.

  • – In high-stakes examinations, information from different sources (tests or instruments) can be combined to achieve well-informed and highly defensible decisions.


물론 평가 프로그램의 기존 사례가 이미 많이 있습니다. 그러나 불행히도 이 분야의 퀄리티를 지원하거나 향상시키는 데 도움이되는 연구는 거의 없습니다.

Of course, many existing examples of programmes of assessment are around already, Unfortunately however, there is little research in this area that would help to support or improve their quality.



  • 평가가 학습을 유도한다는 개념을 기반으로 한 이 분야의 초기 발달 중 하나는 올바른 학생 행동을 달성하기 위한 목표, 교육 및 평가의 조정이었습니다 (Biggs 1996). 이론적으로는 교육 환경의 복잡성으로 인해 전체 평가 프로그램을 포괄 할 수 있지만 이러한 맞춤의 적용 수준은 측정 내용 (Webb 2007)을 훨씬 넘어서서 확대되는 경우는 거의 없다. 즉, 평가는 커리큘럼 목표에 따라 blueprinting한다. 

  • 심리 측정 기준의 적용에 초점을 둔 또 다른 접근법 (Harlen 2007)은 "unified view of validity"(Birenbaum 2007)와 높은 이해 관계 평가 프로그램에 대한 연구에 크게 의존 한 품질 분석을위한 틀을 만들었다 높은 합성 신뢰성을 목표로하는 의사의 인증 (Burch et al., 2008; Knight 2000; Wass et al. 2001). 

  • One of the early developments in this area, based on the notion that assessment drives learning, was the alignment of objectives, instruction, and assessment to achieve con- gruent student behaviour (Biggs 1996). Although in theory it might encompass an entire assessment programme, probably due to the complexity of educational environments, the application level of this alignment has rarely extended beyond the content of measure- ment (Webb 2007), i.e. blueprinting assessment based on curriculum objectives. 

  • Another approach focused on the application of psychometric criteria to combinations of methods (Harlen 2007), resulted in a framework for quality analysis which relied heavily on a ‘‘unified view of validity’’ (Birenbaum 2007) and research into high-stakes assessment programmes for certification of physicians aimed at high composite reliability (Burch et al. 2008; Knight 2000; Wass et al. 2001). 


그러나 둘 다 평가에 대한 일관된 프로그램 방식을 달성하지 못했습니다.

Neither achieved a coherent programmatic approach to assessment, however.


검사의 심리측정 품질은 중요하지만, 도구의 실제적인 실현 가능성, 교육 목표, 평가 환경 및 환경이 중요합니다. Ba- artman (2008)은 최근 진실성과 의미 성 같은 교육 기반 기준을 추가 할 것을 제안했다.

Undeniably, psychometric quality is important, but so are practical feasi- bility of instruments, educational goals, and context and environment of assessment. Ba- artman (2008) recently proposed adding education-based criteria, such as authenticity and meaningfulness.


Method


연구 디자인

Study design


We conducted focus group interviews to explore the experiences and views of assessment experts concerning good practices and new ideas about theoretical and practical issues in programmes of assessment. Prior to data collection, the research team devised a rough and ready framework (list of topics) as a starting point for the discussions. The framework consisted of six elements of assessment relating to theoretical issues as well as practical suggestions for an assessment programme (see Fig. 1). 

    • The overall purpose of the assessment (Goals) and objectives of the curriculum, 

    • determine what needs to be tested (Collecting information) to gain data about medical competence of students. 

    • The data from different tests or sources needs to be merged (Combining information) 

    • into an overview which can be distributed among various stakeholders (Reporting). 

    • Based on the goals and data a further action needs to be taken (Decision taking). 

    • Finally in order to ensure high-standard assessment, a system of quality checks and measures should be in place (Quality control).



참여자

Participants


An email giving details of the objectives and the topics of the focus groups invited 12 experts with extensive experience with difficulties and problems associated with pro- grammes of medical assessment to participate in the study. A total of nine experts vol- untarily took part in two focus groups. Three had to decline because of diary or health problems. The experts, five from North America and four fromEurope, fulfil different (and some multiple) roles in their assessment practice


절차

Procedure


The meeting was divided in four sessions on 1 day

    • a plenary introductory session in which the guiding (initial) framework was presented; 

    • two sessions split into groups, first on theoretical issues; and 

    • second on practical recommendations; and 

    • a plenary retrospective session summarising the discussions. 


It was explained to the participants that we were interested in variety of views and that there were no correct or incorrect answers. Dissent was encouraged. All sessions were semi-structured using the framework. Two of the researchers (LS & CvdV) moderated the sessions of one group each. A third researcher (JD) took field notes.


자료 분석

Data analysis


All sessions were audio recorded, transcribed, and read by the research team. One coder (JD) analysed the transcripts, starting with using the categories from the initial framework. Because this exploratory research requires an informed but open mind, the framework, including concepts and theories, was further developed in a continuous process of checking and refinement, without adhering to this pre-set framework. Furthermore the data was analysed by identifying and labelling new emerging themes and issues. When the research team met to evaluate the resulting themes and issues, they were forced to conclude that the first draft of the model (the framework guiding the discussions) was overly simplistic, causing ambiguities in coding and occasionally precluding coding altogether. The model was revised until the research team reached consensus that saturation of coding was reached and no new topics emerged. Finally the model was send to the participants to check if it reflected the discussion correctly and whether our interpretation of the dis- cussion was accurate. No major revisions were suggested by the participants, just a minor suggestion as to the specific captions in English was made by a native English speaking participant.


결과

Results



대체 프레임 워크 (그림 2 참조)는 초기 프레임 워크의 개선과 등장한 새로운 테마를 기반으로합니다. 그것은 우리의 초기 프레임 워크보다 더 상호 연관되고 포괄적이지만 본질적으로 덜 순차적입니다.

The alternative framework (see Fig. 2)is based on the refinement of the initial framework and new themes which emerged. It is more interrelated and comprehensive than our initial framework, but is less sequential in nature.


프레임 워크를 비교하면 둘 다 "목표" 중심적입니다. 다음으로 초기 프레임 워크 인 수집, 결합,보고 및 의사 결정의 네 가지 요소는 Program in Action이라는 새로운 프레임 워크에서 한 차원으로 표현되는 밀접한 관련 활동입니다. 정의의 일부 변경 사항을 제외하고이 두 가지 프레임 워크는 이와 유사합니다. 대조적으로,이 분석은 엄청난 양의 품질 관리 정보를 산출했습니다. 우리의 첫 번째 틀은 품질과 관련된 활동의 다양성과 이 문제에 대한 전문가의 중요성에 대한 정의를하지 못하는 것으로 보입니다. 품질은 다단계로 밝혀졌으며 프로세스 마지막 단계에서 '목표'는 '실행된 프로그램'과 통합되었습니다. 최종 틀에서 4 개의 계층 (차원)이 식별되었으며, 목표와 프로그램과 동일한 수준으로 배치되었습니다. 이는 지원, 문서화, 개선 및 회계입니다.

Comparing the frameworks the dimension Goals is a central in both. Next, the four elements from the initial framework—Collecting, Combining, Reporting, and Decision Taking—are closely related activities that are represented in one dimension in the new framework, named Programme in Action. With the exception of some changes in defini- tion, the two frameworks are similar in this respect. In contrast, the analysis yielded a huge amount of information on Quality Control. It appeared that our first framework did not do justice to the diversity in activities related to quality and the importance the experts placed on this issue. Quality turned out to be multi-layered and integrated with Goals and the Programme in Action in stead of a single element at the end of the process. In the final framework four layers (dimensions) were identified, which were placed on the same level as goals and programme in action. These are supporting, documenting, improving, and accounting.



목표

Goals


전문가들은 일반적으로 아이디어와 제안을 특정 프로그램 목표에 연결하여 목표가 토론을 지배했습니다.

Goals dominated the discussions, with experts typically linking ideas and suggestions to specific programme goals.


목표는 초기 프레임 워크의 일부이기도 하지만 다른 프로그램 요소에 대한 거의 모든 논의에서 예상치 못한 중심성에 시달렸습니다. 분명히, 이러한 요소들을 평가의 목표와 분리하여 고려하는 것은 불가능했습니다.

Although goals were also part of our initial framework, we were struck by their unexpected centrality in almost every discussion on the other programme elements. Apparently, it was impossible to consider these elements in isolation from the goals of the assessment.


교육 개념 (예 : 전통 교육, 문제 기반 학습) 또는 평가의 특정 기능 (예 : 학습 도구, 라이센싱 결정)에 관계없이 평가 프로그램의 품질은 목적 적합성fitness for purpose 측면에서 틀을 둡니다. 이는 명확하게 정의 된 프로그램 목표가 고품질 프로그램의 전제 조건임을 의미합니다.

Regardless of educational concept (e.g. traditional education, problem-based learning) or the specific function of assessment (e.g. learning tool, licensing decisions), the quality of assessment programmes was framed in terms of fitness for purpose. This implies that clearly defined programme goals are prerequisite for high-quality programmes.




실제로 진행되는 프로그램

Programme in action


포커스 그룹 토의는 주로 실행중인 프로그램이나 실행중인 평가 프로그램이 최소한으로 요구되는 모든 활동에 중점을 두었습니다. 여기에는 정보 수집에서 해당 정보를 기반으로 취하는 행동까지 포함됩니다.

The focus group discussions focused predominantly on Programme in Action or—in other words—on all the activities minimally required to have a running assessment programme. These activities encompass activities ranging from collecting information to taking action based on that information.


초기 프레임 워크의 요소와 유사한 새로운 주제는 사실상 모든 평가 프로그램의 핵심 활동으로 간주되는 정보, 보고 및 의사 결정을 결합하여 정보를 수집하는 것이 었습니다.

Emerging themes that were similar to elements of the initial framework were collecting information, combining information, reporting, and decision making, which were regarded as core activities of virtually any assessment programme.


또 다른 공통적 인 문제는 정보의 출처가 많이 모아 지지만 시스템이 설정되어 있지 않아서 모두 [...] 통합되지 않고 수집 된 모든 자료를 고려하지 못한다는 것입니다. (P2)

Another common problem is that lots of sources of information are gathered but the system is not set up so that they are all considered […] they’re not integrating and considering all of the material that is gathered…(P2)


... 문제는 당신이 그것을 만들 수 있는가입니다, 그래서 당신은 한 곳에서 그것을 얻을 수 있고 당신은 그것을 각각에 관련시킬 수 있고 당신은 다른 것들의 중요성을 이해할 수 있고 당신은 판단에 도달 할 수 있습니다 [...]하지 마십시오. 부적절 할 때 결합해서는 안되는 것들을 부적절하게 결합해서는 안됩니다. (P6)

…the problem is how you can make it, so that you can get it in one place and that you can relate it to each and that you can understand the importance of different things and you can come to a judgment […] Don’t inappropriately combine things which shouldn’t be combined to force them together when they shouldn’t be. (P6)


하지만 ...이 정보를 보유하고 있거나 적절한 정보를 보유해야하는 이해 관계자를 고려해야하는 문제가 있습니다. 따라서 결코 제공하지 않는 방법이 아닙니다. (P1)

But … there is an issue … about considering which stakeholders need to have this information or appropriate to have this information, so it is not a way of never giving it out. (P1)


...하지만 모든 테스트가 모든 이해 관계자에게 피드백을 제공한다는 생각에 동의하지 않습니다. [Mod : 목표에 따라 다름] ... 테스트의 성격은 피드백에 크게 영향을받습니다. 주어진. (P2)

… but I don’t agree either with the idea that every test provides feedback to every stakeholder, that to me, no…[Mod: It’s depending on the goals]…the nature of the test will be greatly influenced by the feedback that will be given. (P2)



프로그램을 수행할 때, "실제적인 결과가 있고 학생들의 능력을 결정하는 데 필수적인" 핵심 활동에 중점을두고 있다. 실행 중은 활동을 수행하는 것이 평가에 필수 불가결하다는 것을 나타냅니다. 요약하면, 프로그램 활동의 네 가지 핵심 활동은 정보 수집, 정보 결합, 정보 가치 평가 및 행동 취하기입니다.

As Programme in Action focuses on core activities that have practical consequences and are essential to determine students’ abilities, it deserves extensive attention. In Action signifies that conducting the activities is indispensable for any assessment. In summary, the four core activities of Programme in Action are: Collecting Information, Combining Information, Valuing Information and Taking Action.


프로그램에 대한 지원

Supporting the programme


프로그램 활동의 요소가 평가 프로그램을 수립하기에 충분하지만 높은 표준을 보장 할 수는 없습니다. 다시 말해, 초기 프레임 워크에서 품질 관리와 관련된 것으로 분류 된 활동의 대부분은 활동중인 프로그램 (활동)을 지원하는 활동으로보다 적합하게 자격이 부여 된 것처럼 보입니다.


Although the elements of Programme in Action suffice to establish a programme of assessment, they cannot guarantee a high standard. In other words, a major part of the activities classified as relating to quality control in the initial framework appear to be qualified more appropriately as activities in support of the programme in action (activities).


두 가지 지원 관련 주제는 품질의 개념을 목적에 대한 적합성으로 보았다. 하나는 기술 지원으로 평가 자료의 품질에 기여합니다. 평가가 수행되기 전의 사전 행동 (예 : 항목 검토 패널, 교수진 개발)과 평가 후 모니터링 (예 : 심리 측정 및 기타 분석)이 구분됩니다. 평가의 퀄리티는 검사 항목 또는 요소가 요구되는 특성을 충족하는지 여부를 결정하는 review에 따라 다릅니다. 심리 측정 및 기타 분석은 평가의 품질을 결정하며, 개선을 위해 조치가 필요한지 여부를 결정하는 역할을합니다. 평가의 성공은 주로 사용자에 달려 있기 때문에 교수진 개발은 평가 프로그램의 품질을 향상시키는 데 중요합니다. 기술technical이라는 용어는 교육적으로 건전한 평가 시스템을 설계하고 수행하는 데 필요한 지식, 기술 및 태도를 포괄합니다.


Two support-related themes matched the concept of quality as fitness for purpose. One is technical support, contributing to the quality of assessment materials. A distinction was made between proactive activities before an assessment is conducted (e.g. item review panels, faculty development) and monitoring after the assessment (e.g. psychometric and other analyses). Test quality depends on review, which determines whether test items or elements meet the required characteristics. Psychometric and other analyses serve to determine the quality of an assessment and whether steps are needed to make improve- ments. As the success of an assessment depends largely on its users, faculty development is important to promote the quality of assessment programmes. The term technical also captures the knowledge, skills, and attitudes necessary for designing and conducting an educationally sound assessment system.


두 번째 지원과 관련된 주제는 이해 관계자의 조기 참여평가의 수용 가능성을 높이고 불공정 행위를 피하기위한 항소 절차를 시행하는 것을 목표로하는 정치 및 법률 지원에 관한 것입니다. 수용 가능성이 없다면 지원은 고품질을 달성하기에 불충분 할 수 있습니다. 평가 프로그램의 설계에 이해 관계자가 참여하면 독창적인 아이디어의 투입을 촉진 할뿐만 아니라 실행을 위한 적합성을 보장합니다. 이해 관계자에게 프로그램 소유권을 부여함으로써 지원을 얻지 못하면 목표를 달성하기가 어렵습니다. 국가 또는 지역의 법적 고려 사항과 관련된 문제도 고려해야하며 프로그램 설계의 자유도에 영향을 미칠 수 있습니다.


The second support-related theme concerned political and legal support, targeted at increasing the acceptability of the assessment by early involvement of stakeholders and by putting in place an appeal procedure to avoid unfair conduct. Without acceptability, support will likely be insufficient to achieve high quality. Stakeholder involvement in the design of assessment programmes not only promotes input of creative ideas, but also ensures a certain fitness for practice. It can give stakeholders a sense of ownership of the programme, thereby gaining their support, without which goals can remain elusive. Issues related to (inter)national or local legal considerations need to be considered too and can influence the degrees of freedom in programme design.


프로그램 내용의 문서화

Documenting the programme


평가 문서화에는 두 가지 목적이 있습니다. 

    • 첫째, 문서화는 프로그램 최적화를 위한 주기적 시스템을 허용함으로써 조직의 학습을 용이하게합니다. 

    • 둘째, 프로그램의 투명성과 투명성을 향상시킵니다.

Documenting assessment serves two purposes. 

    • Firstly, documentation will facilitate learning of the organisation by allowing the cyclic system of optimising the programme in action to function properly. 

    • Secondly, it enhances the clarity and transparency of the programme.


따라서 책임, 권리, 의무, 규칙 및 규정을 포함하여 프로그램을 지원하고 프로그램을 지원하는 모든 요소는 평가 절차가 모호하지 않고 방어가 가능하도록 기록되어야 합니다. 이러한 측면에서 3 가지 요소가 특별히주의를 기울일 필요가 있습니다.

Thus all the elements of programme in action and supporting the programme, including responsibilities, rights, obligations, rules, and regulations, must be recorded to ensure that the assessment process is unambiguous and defensible. Three elements deserve special attention in this respect.


평가 프로그램은 공백 상태에서 작동하는 것이 아니다. 

따라서 첫 번째 요소, 프로그램의 (가상) 학습 환경 및 컨텍스트를 다루는 것이 매우 중요합니다.

Because assessment programmes do not function in a vacuum, it is of vital importance to address the first element, the (virtual) learning environment and context of a pro- gramme,


평가 프로그램의 내용과 적용 가능성을 명확히 기술해야한다.

The context and applicability of an assessment programme have to be clearly described.



둘째, 규칙 및 규정은 이해 관계자가 평가의 목적 및 프로그램 실행 및 프로그램 지원과 관련하여 모든 이해 관계자의 권리 및 의무를 검토 할 수있는 참조를 설정합니다. 

    • 종종 평가가 수행되는 조건과 이해 관계자에 대한 특정 요구가 규칙에 포착 될 수 있습니다. 

    • 규정은 특정 (표준) 상황에서 취할 결과와 행동을 설명합니다. 

    • 책임은 명확하게 정의되어 프로그램의 모든 레벨에 할당 될 수 있으므로, 오류나 실수가 발생한 경우 적절한 사람에게 접근 할 수 있습니다

Secondly, rules and regulations, establishes a reference for stakeholders to review the purpose of the assessment and the rights and duties of all stakeholders in relation to programme in action and supporting the programme. 

    • Often the conditions under which the assessment is to be conducted and specific demands on stakeholders can be captured in rules. 

    • Regulations describe the consequences and actions to be taken in specific (standard) situations. 

    • Responsibilities can be clearly defined and allocated on all levels of the pro- gramme, so that the proper person is approached in cases of errors or mistakes.


내용은 평가 목표와 밀접하게 관련되어 있으므로 나중에 참조 할 수 있도록 기록해야합니다. 따라서 세 번째 요소 인 청사진 (blueprinting)은 콘텐츠를 프로그램과 프로그램에 사용되는 도구로 매핑하는 도구입니다. 이와 관련하여 정보 수집과 관련된 설계 원칙과 밀접하게 관련되어 있습니다. 청사진은 또한 도메인을 효율적으로 샘플링하는 도구로 간주 될 수 있습니다.

Because content is strongly related to assessment goals, it should however be recorded for future reference. So the third element, blueprinting, is a tool to map content to the programme and the instruments to be used in the programme. In this respect, it is strongly tied to the design principles relating to information collecting. Blueprinting can also be regarded as a tool to sample the domain efficiently.


프로그램 개선

Improving the programme


대부분의 개선 활동에는 문제가있는 측면을 파악하기 위해 프로그램을 면밀히 평가하기 위한 연구 개발이 필요합니다. 그러나 데이터 수집에서 중단되어서는 안되며, 진단 된 문제를 해결하기 위한 조치를 실제로 구현해서 loop을 close해야 한다.

Most improvement activities involve research and development aimed at careful evaluation of the programme to ascertain problematic aspects. It is imperative, however, that the evaluation loop should not stop at data gathering: it must be closed by the actual implementation of measures to address diagnosed problems.


프로그램에서 문제를 해결하기 위한 조치를 제외하고 정치적 변화 또는 새로운 과학적 통찰력으로 인해 개선이 이루어질 수 있습니다. 개선과 관련하여 수립 된 개념은 변화관리로서, 변화에 대한 절차와 변화에 대한 잠재적 저항에 대처하기위한 활동으로 구성된다. 변화의 (정치적) 수용은 프로그램의 (일부분의) 변화를 의미합니다.

Apart from measures to solve problems in a programme, political change or new sci- entific insights can also trigger improvement. A concept that cropped up in relation to improvement was change management, comprising procedures for change and activities to cope with potential resistance to change. (Political) acceptance of changes refers to changes in (parts of) the programme.



프로그램에 대한 설명

Accounting for the programme


프레임 워크의 이전 차원은 평가 프로그램을 담당하는 기관 또는 조직의 내부 측면과 관련이 있지만, Accounting for the programme는 공공적 책임에 대한 요구 증가와 관련이 있습니다. 이 차원에서 활동의 목적은 활동중인 프로그램의 현재 관행을 방어하고, 프로그램 목표의 중요성에 비추어 목표를 충족하였음을 입증하는 것입니다.

While the previous dimensions of the framework related to internal aspects of the insti- tution or organisation responsible for the assessment programme, Accounting for the programme relates to the increasing demand for public accountability. The purpose of activities in this dimension is to defend the current practices of the programme in action and demonstrate that goals are met in light of the overarching programme goals.


Accounting 활동의 네 가지 주요 그룹을 구별 할 수 있습니다. 

Four major groups of accounting activities can be distinguished.


전문가들은 과학적 연구의 필요성을 확인했으며, 종종 평가 활동에 대한 불확실성을 연구 결과의 결여로 돌리고 증거 기반 실습을위한 의학의 중요성에 부합하는 확실한 증거로 사례를 지원하기위한 연구를 요구했습니다.

 The experts identified a need for scientific research, frequently attributing uncertainty about assessment activities to a lack of research findings and calling for research to support practices with sound evidence, which is in line with the prominence in medicine of the drive for evidence-based practice.


책임성은 또한 평가 프로그램에 대한 외부 검토가 필요합니다. 일반적인 방법은 외부 전문가의 외부 검토로, 프로그램에 대한 정보를 판단하고 경우에 따라 정보를 확인하고 지역 이해 관계자의 견해를 듣기 위해 기관을 방문합니다

Accountability also requires external review of programmes of assessment. A common method is external review by outside experts, who judge information on the programme and in some cases visit an institution to verify information and hear the views of local stakeholders.


평가 프로그램은 외부 이해 관계자의 요구와 희망에 따라 형성됩니다. 평가 프로그램은 진공상태에서 존재하는 것이 아니기 때문에, 정치적 및 법적 요구 사항에 따라 평가 프로그램의 일부분 (설계의 일부)을 설계하고 고려해야하는 경우가 종종 있습니다.

Assessment programmes are also shaped by the needs and wishes of external stake- holders. As assessment programmes do not exist within a vacuum, political and legal requirements often determine how (part of) the programme of assessment has to be (re)designed and accounted for.


모든 기관이나 조직에서 리소스는 제한적이다. 따라서 비용 효율성은 바람직한 목표로 간주됩니다. 평가 프로그램의 성공은 종종 자원의 가용성에 달려있다. 즉, 프로그램의 품질은 가용 자원의 한계에도 불구하고 목표를 달성 할 수있는 범위로 정의됩니다.

In every institution or organisation, resources—including those for assessment pro- grammes—are limited. Cost-effectiveness is regarded as a desirable goal. The success of assessment programmes often hinges on the avail- ability of resources. In other words, the quality of a programme is also defined in terms of the extent to which it enables the attainment of the goals, despite the boundaries of available resources.


고찰

Discussion


이 문서에서 설명한 모델은 프로그램 개발자 및 사용자를 위한 공통 언어 (공유 정신 모델)뿐만 아니라 디자인 원칙을 공식화 할 때 다루어야 할 차원에 대한보다 포괄적 인 그림을 제공하기 때문에 평가 프로그램을 구성하는 데 도움이 될 수 있다고 생각합니다. . 그러나 이것은 우리 연구 결과를 이전 연구와 연관시키는 것을 어렵게 만든다.

We believe the model described in this paper can help to frame programmes of assessment, because it not only provides a common language (shared mental model) for programme developers and users but also a more comprehensive picture of the dimensions to be covered when formulating design principles. However this makes it hard to relate our findings to previous research.


높은 수준의 평가와 그것을 달성하는 데 필요한 활동이 평가 프로그램의 목표에 의해서만 정의 될 수 있다는 것이 핵심입니다. 목표는 프로그램 설계의 기본 원칙이다. 목표는 평가와 관련된 모든 활동과 밀접하게 되어있으며, 퀄리티는 목표와 불가분의 관계가 있습니다.

A central concept was that high quality assessment and the activities needed to achieve it can only be defined in terms of the goals of an assessment programme. Goals underpin the guiding principle of programme design: fitness for purpose. Quality is inextricably interwoven with goals, which are closely tied to all activities related to assessment.


이 논증을 더 설명하고 뒷받침하기 위해 우리는 평가 프로그램의 품질이 그 목적에 비추어 판단 될 수 있다는 가장 중요한 그리고 아마도 가장 명백한 결과로 돌아 간다.

To explain and support this argument further we come back to our most important and maybe most obvious finding that quality of an assessment programme can only be judged in light of its purpose.



초기에는 discrete and sequential step을 정의하듯, 포커스 그룹을 안내 할 때 동일한 분리 된 접근 방법을 사용했습니다. 새로운 모델은 평가의 상호 연관성과 복잡성을 중요시하며 직관적으로 논리적 인 순서는 그대로 유지됩니다. 예를 들어 실행중인 프로그램 내에서 (처음 수집 한 다음 조합하고 값을 계산하고 마지막으로 조치를 취함)이 시퀀스는 디자인의 관점에서 역전 될 수 있습니다. 연구의 핵심은 평가 프로그램의 설계를위한 프레임 워크 내의 요소들의 상호 연관성입니다.

Initially we took a same isolated approach when drawing up our initial model to guide the focus groups, in which we defined discrete and sequential steps. The new model values interrelatedness and complexity of assessment, while undeniably, an intuitively logical sequence retains. For example within the programme in action (first collect, then combine and value, and finally take action), but this sequence can also be reversed, especially from the design point of view. Key is the interrelatedness of the elements within the framework for the design of assessment programmes that resulted from this study.







 2010 Aug;15(3):379-93. doi: 10.1007/s10459-009-9205-z. Epub 2009 Oct 10.

new framework for designing programmes of assessment.

Author information

1
Department of Educational Development and Research, Maastricht University, The Netherlands. joost.dijkstra@educ.unimaas.nl

Abstract

Research on assessment in medical education has strongly focused on individual measurement instruments and their psychometric quality. Without detracting from the value of this research, such an approach is not sufficient to high quality assessment of competence as a whole. A programmatic approach is advocated which presupposes criteria for designing comprehensive assessment programmes and for assuring their quality. The paucity of research with relevance to programmatic assessment, and especially its development, prompted us to embark on a research project to develop design principles for programmes of assessment. We conducted focus group interviews to explore the experiences and views of nine assessment experts concerning good practices and new ideas about theoretical and practical issues in programmes of assessment. The discussion was analysed, mapping all aspects relevant for design onto a framework, which was iteratively adjusted to fit the data until saturation was reached. The overarching framework for designing programmes of assessment consists of six assessment programme dimensions: Goals, Programme in Action, Support, Documenting, Improving and Accounting. The model described in this paper can help to frame programmes of assessment; it not only provides a common language, but also a comprehensive picture of the dimensions to be covered when formulating design principles. It helps identifying areas concerning assessment in which ample research and development has been done. But, more importantly, it also helps to detect underserved areas. A guiding principle in design of assessment programmes is fitness for purpose. High quality assessment can only be defined in terms of its goals.

PMID:
 
19821042
 
PMCID:
 
PMC2940030
 
DOI:
 
10.1007/s10459-009-9205-z


Psychometrics와 그 불만: 측정에 대한 담화의 역사적 관점(Adv in Health Sci Educ, 2015)

Psychometrics and its discontents: an historical perspective on the discourse of the measurement tradition

Jordan Richard Schoenherr1,2 • Stanley J. Hamstra3




어떤 분야 나 방법론과 마찬가지로 평가에 대한 심리 측정 접근법에는 한계가 있습니다 (Norman 2002). 이 주장의 핵심은 심리 측정 방법에 의존하는 교육자는 '차원', '특성'또는 '역량'측면에서 개별 학습자의 특성에 너무 좁게 초점을 맞추고 맥락 (Ginsburg 외 2000), 개인 성격 (Hodges 2013), 팀 내 성과의 관점 (Lingard 2012) 등의 영향을 고려하지 않는다는 것이다.

As with any discipline or methodology, the psychometric approach to assessment has its limitations (Norman 2002). Central to this argument is that educators who rely on psychometric methods focus too narrowly on characteristics of the individual learner in terms of ‘‘dimensions’’, ‘‘features’’, or ‘‘competencies’’, and miss the influence of context (Ginsburg et al. 2000), individual character (Hodges 2013), and the perspective of per- formance within a team (Lingard 2012).



겉으로 볼 때, 이러한 주장은 평가 과정 자체가 동질성을 촉진하고, 학습자 개인으로서의 특성을 무시한다는 것을 암시한다. 그러나 학습자의 성과는 항상 특정한 맥락 안에서 존재한다. 따라서 심리 측정 접근법을 기반으로 한 평가는 진급 결정에 필수적인 정보의 풍부함을 무시하거나, 기껏해야 부적절한 기술 개발 또는 유한한 교육 자원의 오용으로 이어질 수 있다는 우려가 커졌습니다 (Schuwirth 및 van der Vleuten 2006).

Taken at face value, these arguments imply that the assessment process per se promotes homogeneity and neglects the unique nature of learners as individuals, whose performance will always be embedded in a certain context. As such, some have grown concerned that assessments based on a psychometric approach may neglect the richness of information which may be essential for promotions decisions, or at best, lead to the development of irrelevant skills or misallo- cation of finite training resources (Schuwirth and van der Vleuten 2006).


다음에, 우리는 '포스트 심리 측정 시대'를 수립해서는 안된다고 주장한다 (Hodges 2013). 보완적인 방법을 조사할 필요가 있지만, 정신 측정 평가에 대한 접근 방식은 의학 교육 문헌에서 지금까지 무시되어 왔으며, 지금도 발생하고 있는 심리측정 분야의 풍부하고 미묘한 담론을 설명하지 못하고 있다.

In what follows, we claim that we should not seek to establish a ‘‘post-psychometric era’’ (Hodges 2013). While complementary methods should be investigated, we argue here that the approach to psychometric assessment being challenged by these concerns fails to account for a rich and nuanced discourse within the field of psychometrics which may have been heretofore neglected in the medical education literature and which is still taking place.


표 1 정신 계측사의 패러다임 발전

Table 1 Paradigm development in psychometrics history 





전-패러다임 단계의 정신 측정학

Psychometrics in the pre-paradigmatic stage


패러다임의 정의에 관해서는 상당한 논쟁이 있지만, 우리는 psychometrics 패러다임이 거의 안정된 이론, 방법 및 데이터 집합으로 구성된다고 가정합니다 (Laudan, 1984). 우리는 진점수의 개념, 데이터의 종류 및 규모 구성의 방법과 같은 여러 가지 psychometrics discourse의 특징을 고려합니다.

While there is considerable debate as to the definition of a paradigm, we assume that the psychometrics paradigm consists of a more- or-less stable set of theories, methods, and data (Laudan 1984). We consider a number of prominent features of psychometrics discourse: the concept of a true score, the kinds of data, and the methods of scale construction.



오류, 변동성 및 진점수의 이해

Understanding error, variability, and the true score


오류는 과학사에서 중요한 역할을했습니다. 예를 들어, 초기 천문학 자들은 "올바른 관찰방법"이 있고, 오류란 관찰자가 모범 사례에서 벗어난 것 때문이라고 믿었다 (예 : Hoffmann 2007; Schaffer 1988). 그러나, 이러한 차이가 관찰자의 정신적 과정의 체계적 특성을 반영 할 수 있고 이러한 차이를 설명하기 위해 방정식을 도출 할 수 있다는 것이 곧 명백 해졌다 (Bessel 1823). 이러한 추세는 인간의 성능 측정 및 스케일링의 공통된 특징입니다.

Error has played an important role in the history of science. For instance, early astronomers believed that there was a ‘‘right method’’ of observation and that errors reflected a departure from best practices on the part of the observer (e.g., Hoffmann 2007; Schaffer 1988). However, it soon became clear that these differences might reflect systematic properties of the observer’s mental processes and that equations could be derived to describe these differences (e.g., Bessel 1823). This trend is a common feature of the measurement and scaling of human performance.


Cattell은 심리측정에 대해서 다음과 같이 말했다.

Cattell, notes that psychometrics:


(심리측정은) 많은 수의 개인에게 일련의 정신 테스트와 측정을 적용함으로써 [특정 과학에] 완성될 수 있습니다. 정신적 과정의 일관성, 상호 의존성, 다른 상황에서의 변이를 발견 할 때 결과는 상당한 과학적 가치가있을 것입니다. 그러한 시험의 과학적 및 실용적인 가치는 획일적인uniform 체계가 채택되면 훨씬 커질 것입니다. 서로 다른 시간과 장소에서 결정이 비교되고 결합 될 수있다. (Cattell 1890; 원래 강조)

could be made [into a certain, exact science] by applying a series of mental tests and measurements to a large number of individuals. The results would be of considerable scientific value in discovering the constancy of mental processes, their interdepen- dence, and their variations under different circumstances… the scientific and prac- tical value of such tests would be much increased should a uniform system be adopted, so that determinations made at different times and places could be com- pared and combined, (Cattell 1890; emphasis in original)


결국,이 접근법과 다른 접근법이 재구성되어 고전적 시험 이론CTT의 기초가되었다 (Gregory 1992; Traub 1997). 학습자의 실적 (즉, '관측 된 점수')는 이상적인 실적 (즉, '실제 점수')과 '오류'의 결과로 간주됩니다. 여기에서 '진정한 점수'는 Cattell의 '정신 과정의 불변성'에 대한 언급으로부터 암시된다. 의학교육의 현대 담론에서, 이것은 신뢰성으로 조작화될 수 있다.

Eventually, this and other approaches were reformulated and provided the basis for classical test theory (e.g., Gregory 1992; Traub 1997). A learner’s performance (i.e., their ‘‘observed score’’) is thought to be the result of their ideal performance (i.e., their ‘‘true score’’) and ‘‘error’’. Here, ‘‘true score’’ is implied in Cattell’s reference to ‘‘the constancy of mental processes’’. In the contemporary discourse of medical education, this might be operationalized in terms of reliabilities,



특히, Cattell은 위에 인용 된 구절에서 언급된 맥락의 역할을 강조하려고 조심스럽게 노력했다. 처음부터, psychometrics는 인간 본성의 연구에 대한 가능한 실행 가능한 접근법으로 공식화되었습니다. Galton과 Cattell과 같은 개척자들은 인간의 수행 능력을 측정 할 수 있다고 믿었지만 안정적인 측정 계기 및 연구 대상은 아직 알려지지 않았습니다. 더욱이 Cattell의 접근 방식은 응답 프로세스와 근본 역량 (즉, '진정한 점수') 간의 개념적 차이에 대한 인식을 보여 주며, 심리 측정 전문가는 두 가지 variance sources가 모두 (assume되기 보다는) specified되는 모델을 만들어야합니다.

In particular, Cattell was careful to emphasize the role of context, which is mentioned twice in the passage quoted above. From the outset, psychometrics was formulated as one viable approach to the study of human nature. While pioneers such as Galton and Cattell believed that human performance can be measured, a stable set of measurement instru- ments and objects of study were not yet known. Moreover, Cattell’s approach to psy- chometrics demonstrates an awareness of the conceptual distinction between response processes and underlying competencies (i.e. the ‘‘true score’’), and that psychometricians must create a model where both sources of variance are specified rather than assumed.


패러다임 단계에서의 정신 측정학 : 데이터의 의미

Psychometrics in the paradigmatic stage: the meaning of data


초기의 심리 측정자들은 numerical rating에 어떤 의미가 투사 될 수 있는지를 명시 적으로 고려했습니다. 숫자 구조에 대한 매핑 구조의 적절성과 그러한 과정이 암시하는 가정에 대한 이론적 논쟁이있었습니다 (비교의 종류, 공리의 관련성 및 특정 질문에 가장 적합한 저울의 유형에 대한 질문을 포함하여) Coombs 1953, 1960, Hoilder 1901, Krantz 등 1971, Luce and Krumhansl 1988). 아마도 이것들 중 가장 유명한 것은 Stevens (1946)의 것으로, 측정 이론에 널리 사용되는 네 가지 유형의 척도(명목, 서열, 간격 및 비율)을 개발했습니다. 중요하게, Stevens는 이러한 각 척도가 질적으로 다른 유형의 정보를 제공한다고 주장했습니다.

Early psychometricians also explicitly considered what meaning can be invested in numerical ratings. There has been considerable theoretical debate concerning the adequacy of mapping constructs onto number scales and the assumptions that such a process implies, including questions about the kinds of comparisons being made, the relevance of axioms, and the types of scales best suited for certain questions (e.g., Coombs 1953, 1960;Ho¨lder 1901; Krantz et al. 1971; Luce and Krumhansl 1988). Perhaps the most famous of these treatments is that of Stevens (1946), who developed four types of measurement scales that are now widely used in measurement theory: nominal, ordinal, interval, and ratio. Importantly, Stevens assumed that each of these scales provided a qualitatively different type of information.


명목 척도

Nominal scales


명목 척도는 임의의 방식으로 객체, 아이디어 또는 사람에게 숫자를 할당하고 entity 간의 차이에 대한 가정을하지 않는 척도입니다. 스티븐 (Steven) (1946)은 "명목척도는 가장 제한받지 않는 숫자의 할당이다"라고 지적하고있다 (P.678, 원래는 it).

Nominal scales are those that assign a number to an object, idea, or person in an arbitrary manner and make no assumptions concerning the differences between entities. As Steven’s (1946) notes ‘‘the nominal scale represents the most unrestricted assignment of numerals,’’ (p. 678; itl. in original).


학습자에게 학생 번호가 주어진다면, 그 번호를 할당 한 개인은 학습자를 평가하려고 시도한 것이 아니다.

When learners are given student numbers, the individual who assigns that number is not attempting to assess the learner.


서열 척도

Ordinal scales


서열척도는 순위 지정에 사용되기 때문에 명목 척도보다 더 많은 의미와 전달할 수 있습니다. 따라서 서열척도를 사용하려면 주어진 개인의 순위를 판단하는 데 사용되는 몇 가지 기준을 채택해야하지만, (서열 간) 일정한 간격을 반영한다고 가정하지는 않습니다. 그러나 평가하거나 사용하는 사람들이 이 척도의 기본 가정을 고려하지 않는다면, 이 척도에서 나온 증거는 부적절하게 사용될 수 있습니다. 의학 교육에서 사용되는 다른 많은 척도들이 비슷한 성질을 가지고있다 (Kimet al., 2009; Martin et al. 1997). 명목 척도와는 달리 서열 척도에 의한 평가에는 의미가 담겨져 있다.

Ordinal scales can convey more meaning then nominal scales as they are used to assign rank Use of an ordinal scale thus requires the adoption of some criterion that is used to judge the rank of a given individual, but is not assumed to reflect an equal interval between ranks. However, if the underlying assumptions of the scale are not considered by those evaluating or using the scale, the evidence that follows fromthe scale can be used inappro- priately. A number of other prominent scales in medical education have similar properties (e.g., Kimet al. 2009; Martin et al. 1997). Unlike a nominal scale, assessments made on an ordinal scale convey meaning.


간격 척도

Interval scales


간격 척도는 인접한 순위 간의 차이가 동일하다고 가정되는 entity 간의 관계에 대해 더 많은 정보를 전달할 수 있습니다. 그러나 간격척도에서 reference로 절대 0을 사용하지 않습니다.

An interval scale can convey still more information about the relationship between entities that are assessed, in that the difference between neighboring ranks is assumed to be equal. Interval scales, however, do not use an absolute zero as their point of reference.


비율 척도

Ratio scales


비율 척도에는 평가 구인과 관련된 대부분의 정보가 포함됩니다. 균등 간격을 기준으로 등급을 제공하는 것 외에도, 비율 척도는 0이라는 절대값을 갖는 것으로 정의됩니다.

Ratio scales contain the most information concerning a construct being assessed. In addition to providing ratings based on equal intervals, ratio scales are also defined by having an absolute zero


비율 척도는 다른 척도보다 연구하고자 하는 구인에 관한 더 많은 정보를 제공하지만, 이것만으로 적절한 구조가 측정되고 있음을 의미하지 않습니다. 실제로,이 토론에서 척도가 가진 특정 의미에 대한 가정을 반영하지 않는다는 것을 인식하는 것이 중요합니다. 이것은 이 개념을 개발하는 사람들에게 맡겨져 있습니다. 케인 (Kane, 1992)이 지적했듯이, 이 척도를 사용하는 사람은 데이터 해석 방법에 대한 타당성 주장을해야한다 (우리는 이것을 아래로 돌아갈 것이다). 오히려 스티븐스의 척도 typology은 평가자가 구인을 숫자 척도 위에 일관된 방식으로 매핑하는데 필요한 syntax를 제공하기 위한 것이지,  의미를 이해하기 위한 semantic과 관련된 것이 아니다.

While a ratio scale provides more information concerning the construct under investigation then other scales, this in no way implies that the appropriate construct is being measured. Indeed, it is crucial to recognize that this discussion does not reflect assumptions about the particular meaning of a scale—this is left to those developing it. As Kane (1992) has noted, users of the scale must make validity arguments as to how to interpret their data (we will return to this below). Rather, Stevens’ scale typology is concerned with developing a framework that provides raters with a syntax for constructing an internally consistent mapping of constructs onto number scales, not a semantics for understanding meaning.


패러다임 단계의 심리측정학: 평가의 프로세스

Psychometrics in the paradigmatic stage: the process of assessment


스티븐스 (Stevens)의 척도 유형학은 psychometrics 패러다임에서 얻은 데이터의 잠재적 의미를 이해하는 것이 중요하다는 것을 강조한다. 그러나 또 다른 meaning이 심리학 담론을 지배하게되었고, 그것은 바로 '타당도'로 표현되는 평가의 의미이다 (예 : Cronbach 1975, Kane 1992, Messick 1995). 타당도의 초기에는 척도가 유효하거나 유효하지 않다고 제안했지만, 점차 이 접근법은 타당도 주장을 뒷받침 할 수 있는 evidentary chain으로 대체되었다 (Campbell and Fiske 1959, Messick 1995). 이것은 진리를 유지하는 과학 철학의 이론과 일치한다. (우리의 경우, ''진정한 ''점수는) 아직 미완성 가설의 집합으로 표현된다 (참조, Popper 1959). 따라서 정신 측정학에서 우리가 개발하기를 희망하는 것은 타당도를 뒷받침해주는 주장이거나, 기존의 정신 측정 데이터에 기초하여 만들어진 의미에 대한 최선의 가설입니다.

Stevens’ scale typology underscores the importance placed on understanding the potential for meaning of obtained data in the emerging psychometrics paradigm. However, another source of meaning has come to dominate psychometrics discourse: the meaning of ratings expressed as validity (e.g., Cronbach 1975; Kane 1992; Messick 1995). While initial formulations of validity suggested that a scale was either valid or invalid, this approach has been supplanted by subsequent calls for an evidentiary chain of data to support validity arguments (Campbell and Fiske 1959; Messick 1995). This is in line with theories in the philosophy of science which hold that truth (or in our case, the ‘‘true’’ score) is, at best, represented by a collection of as yet unrefuted hypotheses (cf. Popper 1959). Thus, in psychometrics the most we can hope to develop is an argument for validity, or a best hypothesis for meaning based on existing psychometric data.


타당도 주장

Validity arguments


Kane (1992)은 유효성에 대한 주장을 구성하기 위해 Messick (1989)이 원래 밝힌 다섯 가지 증거 자료 (내용, 반응 과정, 내부 구조, 다른 변수와의 관계 및 사회적 결과)의 사용을 권고했다.

In order to construct an argument for validity, Kane (1992) recommended the use of five sources of evidence, originally identified by Messick (1989): content, response process, internal structure, relations to other variables, and social consequences.


마지막으로 평가 프로세스의 사회적 결과도 고려해야합니다. 예를 들어, 명목 척도는 임의적이기 때문에 어떤 label이 붙든지 무해하다. 그러나 사회적 행동에 대한 연구는 집단에 대한 임의적arbitrary 할당조차 집단 내 및 집단 외 상호 작용 (예 : Sherif 1958)에 중요한 영향을 미칠 수 있다는 것을 반복적으로 입증 해왔다. 채점을 할 때, 어떤 사람을 실적이 저조한 사람으로 분류하면, 장차 더 많은 실패가 발생할 수 있습니다 (예 : Guinote 2013, Robertson 2012). 의료계의 사회적 조직은 평가 척도를 사용하는 것에 따른 영향이 있는데, 교수자는 학생들에게 낙제점을 주는 것을 꺼려하고, 그 결과 미래에 동일한 척도를 사용할 때의 타당도가 손상된다.

Finally, the social consequences of the assessment process must also be considered. For instance, nominal scales reflect a seemingly innocuous label given that they are arbitrary. However, studies of social behaviour have demonstrated repeatedly that even arbitrary assignment to groups can have important consequences for in-group and out-group interaction (e.g., Sherif 1958). When considering grading, being labeled a poor performer might lead to further failure due to disempowerment (e.g., Guinote 2013; Robertson 2012). The social organization of med- icine has also been shown to affect the consequences of using rating scales, where instructors demonstrate reluctance to fail students (Dudek et al. 2005; Speer et al. 2000), which in turn can damage the validity of future ratings made using exactly the same scale (Regehr et al. 2007).


시험 개발 단계의 질적 고려

Qualitative considerations in the test development process


심리 측정 연구의 모범 사례로부터 연구자가 시험 개발과정에서 두 가지 연속 단계를 통과해야 함을 알 수 있다(예 : Gregory 1992, Kline 2000). 첫째, 설득력있는 타당도 주장을 개발하기 위해 탐색적 질적 과정이 수행됩니다. 이 때 rating을 할 내용전문가와 참가자 뿐만 아니라 그 척도가 사용될 맥락을 신중히 선택하여야 한다.

Best practices in psychometric research require that researchers pass through two con- secutive phases in the test construction process (e.g., Gregory 1992; Kline 2000). First, an exploratory qualitative process is conducted to develop the potential for constructing a convincing validity argument. This involves judicious selection of SMEs and participants who will provide ratings as well as the context in which the scale will be used.


수렴적 증거는 관찰하고자 하는 역량이나 특성과 기존의 척도와의 관련성(긍정적 또는 부정적)에서 찾아 볼 수있다 (Messick 1995). 시험 작업 중에 예측 된 결과를 얻지 못하면 연구자의 접근 방식을 조정해본다.

Converging evi- dence is sought from existing scales that are related (positively or negatively) to the competencies or characteristics under consideration (Messick 1995). Failure to obtain the predicted findings during pilot work results in adjustment of the researcher’s approach.



이 반복 프로세스는 안정적인 요소 집합이 얻어 질 때까지 계속됩니다. 

This iterative process continues until a stable set of factors are obtained. 


둘째로, 첫 번째 단계에서 얻은 결과를 또 다른 참가자, 평가자 또는 상황으로 복제하고 확장하려는 확증적 분석이 이어집니다. 최종 선택 항목을 안내하기 위해 더 많은 수렴 또는 발산 증거를 제공하기 위해 추가 도구를 도입 할 수 있습니다. 추가 조정을 통해 주제별 포화가 생기면, 이 도구는 혁신으로 전파 될 수 있으며, 이 도구 사용을 방어하기 위한 타당성 주장은 위에 나열된 5 가지 증거 자료 (Hamstra)의 지속적인 수집을 통해 지속적으로 테스트 및 업데이트되어야합니다 2014; Kline 2000).

Second, a confirmatory analysis follows that seeks to replicate and extend the findings obtained in the first phase with a different sample of participants, raters or context. Additional instruments can be introduced to provide further converging or diverging evidence to guide final selection of items. Once further adjustment yields thematic satu- ration, the instrument can be disseminated as an innovation, with the understanding a defensible validity argument for the use of the instrument must be continuously tested and updated through ongoing collection of the five sources of evidence listed above (Hamstra 2014; Kline 2000).



확립 된 패러다임에 대한 현대적 도전 : (지식) 번역과정에서의 손실

Contemporary challenges to an established paradigm: lost in (knowledge) translation


예를 들어 미첼 (Michell, 1997)은 "많은 심리학 연구자들은 자신이 사용하는 방법에 대해 무지하다. 내가 언급하는 무지는 자료를 수집하거나 분석하는 것보다는, 오히려 방법론적 관행의 논리에 관한 것이다"(356 쪽)라고 말했다. 메타 이론적 담론을 강조하지 않은 결과, 이 분야의 intellectual product을 채택하는 실무자는 이러한 문제에 대해 무지할 수 있습니다. psychometrics에서 중요한 것은 데이터의 의미를 주장하기 위한 근거를 사용하는 것이지만, 이 논리를 이해하지 못하면 손상될 수 밖에 없다.

For instance, Michell (1997) claims that ‘‘manypsychological researchers are ignorant with respect to the methods they use…the ignorance I refer to is about the logic of methodological practices,’’ (p. 356) rather than with the methods of data collection and analysis. As a result of failing to highlight the meta-theoretical discourse, practitioners that adopt the intellectual products of such a field may be blinded to these issues. What is critical for psychometrics is to use evidence to make an argument for the meaning of data, but without understanding this logic the approach is undermined.


의학교육에서의 심리측정

Psychometrics in medical education


일반적으로 심리측정을 의학 교육에 적용하는 것은 타당도 증거의 질 측면에서 여러 가지 이유로 비판을 받아왔다. 특히 신뢰도는 종종 acceptable criterion으로 오인되며, 평가 도구를 검증하는 데 사용되는 표본은 너무 작거나 너무 동질적이며, 측정하려는 구인이 너무 구체적이지 않은 경우도 많다(예 : 초보자와 전문가의 구분). 학습자가 자신의 환경과 사회적 맥락을 배제하는 데 과도하게 집중하고는 했다(Hodges 2013, Lingard 2012, Cook et al 2014). 

The application of psychometrics in medical education has been criticized on multiple grounds, typically in terms of the quality of validity evidence (for a general discussion, see Cook and Beckman 2006; Schuwirth and van der Vleuten 2005). In particular, 

    • reliability is often mistaken as an acceptable criterion, 

    • samples that are used to validate assessment instruments are often too small and homogeneous, 

    • the construct that is being measured is often too non-specific (e.g., differentiation between novices and experts), and 

    • there is often undue focus on the learner to the exclusion of their environment and social context (Hodges 2013; Lingard 2012; Cook et al. 2014). 

이 비판들을 다 모아보면, 비판의 초점은 static한 척도를 만들고 사용하는 문제에 초점을 맞추고있다. static 척도는 위에서 제시된 미묘한 차이보다는 validity를 불변의 것이라고 가정한다.

Taken together, these criticisms focus on issues of creating and using a static scale that assumes an immutable conception of ‘‘va- lidity’’, rather than the more nuanced treatment of the field presented above.


역량 평가는 학습자의 수행능력의 모든 가능한 부분집합에 초점을 맞추기 때문에 운명적으로 doomed endeavor라고 주장하는 사람들도 있습니다. 만약 대표적인 부분을 검토함으로써 전체를 이해할 수 없다면, 평가 도구는 학습자를 적절하게 반영 할 수 없습니다.

Some have claimed that competency assessment is a doomed endeavour due to its focus on a subset of all possible features of a learner’s performance. On this account, if the whole cannot be understood by examining representative parts, assessment tools cannot adequately reflect the learner. 


Hodges (2013)가 그것을 능숙하게 표현한 것처럼

As Hodges (2013) has eloquently put it


능력은 개인의 특성이 아니라 집단에 내포되어있다. 역량은 고정 된 안정된 특성이 아니라 상이한 맥락에 따라 달라진다. 평가는 개인의 생각과 행동을 형성 할 수있는 힘을 가지고 있습니다. 마지막으로, 개인 간의 차이를 구분하는 것은 한 개인 내의 능력을 구분하는 것보다 덜 도움이 될 수 있습니다 (565 쪽, 강조에서 본래의 것).

competence is not a characteristic of individuals but is embedded in collectivities; competence is not a fixed, stable characteristic but one that varies in different con- texts; tests have the power to shape the thoughts and behaviors of individuals; and finally, discriminating between individuals might be less helpful than some form of differentiation of abilities within individuals, (p. 565, emphasis in original).


Hodges (2013)는 척도를 사용함으로써, 오히려 학습자의 기술과 성격에 대한 이해를 향상시킬 수있는 중요한 주관적 차이를 불명료하게 만들 수 있음을 주장하였고, 이것이 trade-off이다. 척도는 학습자의 성과 중 일부에만 민감할 것이며, 따라서 척도를 선택하거나 여러 척도를 사용하는 것은 당연하게 받아들여질 수 없는 중요한 단계입니다.

While Hodges (2013) is correct in suggesting that the use of a scale can obscure important subjective differences that can enhance our understanding of a learner’s skills and character, this reflects a trade-off. Scales will be sensitive tosome features of learner performance and not others, thereby making the selection of a scale or the need to use multiple scales a crucial step that cannot be taken for granted.


연구자들은 여러 관련 요소 또는 설명 프레임 워크 중에서 선택해야합니다. 이것은 아마도 psychometrics에 대한 양적 접근에서 가장 뚜렷한 특징이지만, 질적인 접근의 결과이기도 합니다.

Researchers must select from among multiple relevant factors or explanatory frameworks. Although this is perhaps most evident in the quantitative approaches to psychometrics, it is also a result of qualitative approaches.


수행능력의 평가의 relevance는 심리 측정자의 주장뿐만 아니라 평가 정보가 어떻게 사용되는지에 달려있다 (Kane, 1992). 역량의 확인과 측정에 대한 심리 측정 방식을 invalidate하는 대신, 정량적 심리 측정 방식의 사용 여부와 무관하게, 학습자의 성과를 평가할 수있는 최상의 방법을 고려할 때 이것들을 먼저 생각해봐야 한다. 즉, 평가자가 단일 성과 테스트에 의존하기보다는 수렴적 증거와 역량을 적극적으로 찾는 것이 중요하다.

The extent to which an assessment of performance is relevant will be relative to the claims that are made of psychometricians as well as how that information is used (Kane 1992). Rather than invalidating the psychometric approach to the identification and measurement of competencies, such considerations need to be kept in the fore when considering the best means to assess the performance of learners, whether using quantitative psychometric approaches or otherwise. At their most critical, these concerns suggest that assessors should actively seek out converging evidence and multiple competencies rather than relying on single tests of performance.


결론

Conclusions


Psychometrics는 개인적인 차이 (Galton 1886)뿐만 아니라 맥락 (Cattell 1890)의 중요성을 인정한 오랜 역사와 함께, 인간 본성과 성과의 연구를 돕기위한 관련 방법의 집합체로서 처음에 제안되었다. 측정 개념과 기법 개발의 역사에 대한 논의에서, Marx (1963)는 목표 구인(즉, 능력, 역량)의 언어를 보다 구체화하기 위한 반복적인 과정을 간략히 설명하면서, 동시에 측정 도구의 정밀도를 높이기 때문에, 구인을 특정 척도로 완벽하게 매핑 할 수있는 기회가 줄어든다고 주장하였다. 이것은 심리측정가뿐만 아니라 이들이 만든 척도를 사용하는 사람도 이해해야하는 trade-off이다. 모든 도구와 마찬가지로 평가 도구는 특정 작업을 수행하도록 설계되었습니다. 우리의 우려가 특정 척도의 적절성에 대한 것이라면, 우리는 측정하려는 구인에 대한 해당 척도의 적절성에 의문을 제기해야합니다.

Psychometrics was initially proposed as a cluster of related methods to aid in the study of human nature and performance, with a long history of acknowledging the importance of individual differences (Galton 1886) as well as context (Cattell 1890). In his discussion of the history of the development of measurement concepts and techniques, Marx (1963) outlines an iterative process of refining the language of target constructs (i.e. abilities, competencies) to become more specific, while at the same time refining measurement tools to gain precision (see also Laudan 1980), thus reducing the chances for a perfect mapping of any construct to a particular scale. This is best seen as a trade-off, one that must be understood not only by psychometricians but also by adopters of these scales. As with any tool, an assessment instrument is designed to perform a specific task. If our concern is with a particular scale’s adequacy, we should question the appropriateness of that scale for the construct being measured.


Cook, D. A., & Beckman, T. J. (2006). Current concepts in validity and reliability for psychometric instruments: Theory and application. The American Journal of Medicine, 119, e7–e16.


Hodges, B. (2013). Assessment in the post-psychometric era: Learning to love the subjective and collective. Medical Teacher, 35, 564–568.


Schuwirth, L. W. T., & van der Vleuten, C. P. M. (2005). Assessing professional competence: From methods to programmes. Medical Education, 39, 309–317.




 2016 Aug;21(3):719-29. doi: 10.1007/s10459-015-9623-z. Epub 2015 Aug 25.

Psychometrics and its discontents: an historical perspective on the discourse of the measurement tradition.

Author information

1
Faculty of Medicine, University of Ottawa, Ottawa, Canada.
2
Department of Psychology, Carleton University, Ottawa, Canada.
3
Accreditation Council for Graduate Medical Education, 515 N. State Street, Suite 2000, Chicago, IL, 60654, USA. shamstra@acgme.org.

Abstract

Psychometrics has recently undergone extensive criticism within the medical education literature. The use of quantitative measurement using psychometric instruments such as response scales is thought to emphasize a narrow range of relevant learner skills and competencies. Recent reviews and commentaries suggest that a paradigm shift might be presently underway. We argue for caution, in that the psychometrics approach and the quantitative account of competencies that it reflects is based on a rich discussion regarding measurement and scaling that led to the establishment of this paradigm. Rather than reflecting a homogeneous discipline focused on core competencies devoid of consideration of context, the psychometric community has a history of discourse and debate within the field, with an acknowledgement that the techniques and instruments developed within psychometrics are heuristics that must be used pragmatically.

KEYWORDS:

History; Measurement and scaling; Medical education; Psychometrics

PMID:
 
26303112
 
DOI:
 
10.1007/s10459-015-9623-z


ACGME 마일스톤 활용에 딴지걸기: 글로벌레이팅의 한계(Acad Med, 2015)

Placing Constraints on the Use of the ACGME Milestones: A Commentary on the Limitations of Global Performance Ratings

Reed G. Williams, PhD, Gary L. Dunnington, MD, John D. Mellinger, MD,

and Debra L. Klamen, MD, MHPE





1999 년, Accreditation Council for Graduate Medical Education, ACGME는 인증 결정의 초점을 과정과 구조에서 성과로 옮기기 시작했습니다. 결과적으로 레지던트 프로그램은 레지던트가 6 개 일반 실무 차원에서 역량을 획득했음을 객관적으로 문서화해야합니다 .1 최근에, 의학 전문 분야는 "개발 기반의 전문 분야별 성과로서, 수련과정의 각 기간에 따라 레지던트들이 갖추어야 할 것으로 기대되는 교육 이정표milestone를 수립했습니다. "1

In 1999, the Accreditation Council for Graduate Medical Education (ACGME) began to shift the focus of accreditation decisions from process and structure to outcomes. As a result, residency programs were required to objectively document that their residents achieved competence in six general dimensions of practice.1 More recently, medical specialties have formulated educational milestones, which are “developmentally based, specialty-specific achievements that residents are expected to demonstrate at established intervals as they progress through training.”1


그러나 우리는 프로그램 디렉터가 단순히 기존의 평가에다가 로테이션 종료시 글로벌 평가 문항을 추가하거나 레지던트의 성과에 대한 반기별 또는 연례 검토 양식을 사용함으로써 이러한 새로운 ACGME 인증 지침을 충족 시키려고하는지 우려하고 있습니다. 

However, we are concerned that program directors will be tempted to meet these new ACGME accreditation guidelines by simply adding corresponding items to existing end-of-rotation global rating forms and/or by using the forms for semiannual or annual reviews of residents’ performance and progress.


인간 판단을 사용한 성과 측정

Using Human Judges to Measure Performance


표 1은 인간 심사 위원이 성과를 측정하는 상황의 네 가지 예를 제공합니다. 각각의 사례마다 Referent, 즉, 측정 대상은 상당히 상이하다. 첫 번째 예제에서 네 번째 예제로 이동함에 따라 real-world referent는 덜 구체적인 반면, 고려해야 할 attributes의 수는 증가합니다.

Table 1 provides four examples of situations in which human judges measure performance. The referent (i.e., what is measured) is quite different in each of these examples. As one moves from the first to the fourth example, the real-world referent becomes less specific and the number of performance attributes considered increases.


Weekley와 Gier5는 피겨 스케이팅 성과에 대한 전문가 등급을 연구하고 프리스케이트 점수에 대한 평가자간 일치도가, 모든 스케이터가 동일한 요소를 수행하는 퍼포먼스 점수에 대한 평가자간 일치도보다 낮은 것으로 나타났습니다. 이 결과는 평가자가 프리스케이트에 점수를 매길 때 더 많은 수의 attributes를 고려하기 때문에, 심사위원의 주의 및 가중치의 차이로 인해 등급이 달라지게 됨을 의미합니다.

Weekley and Gier5 studied expert ratings of figure skating performances and demonstrated that the interrater agreement for free skate scores is lower than that for scores of performances in which all skaters perform the same elements. This finding suggests that raters consider a greater number of performance attributes when scoring the free skate performance, leading to divergences in ratings due to differences in the judges’ attention and weighting.


네 번째 예제 - 로테이션 종료 시 글로벌 평가 -은 근본적으로 차이가 있다. 첫째, real-world referent는 레지던트의 성과에 대한 불변의 속성이 아니며, 레지던트에 대해 평가자가 가지고 있던 인상이다. 따라서 고려되는 attributes가 평가자에 따라 달라진다. 이러한 차이는 평가자가 레지던트의 어떠한 성취를 관찰한 경험이 있는가, 또는 평가자가 무엇을 선호하고 어떠한 경향이 있는지에 따라 결정됩니다.

The fourth example—end-of-rotation global ratings—is fundamentally different from the others. First, the real- world referent is the rater’s impression of the resident rather than specific, invariant attributes of the resident’s performance. Thus, the attributes considered differ depending on the rater. These differences are a function of both the samples of the resident’s performance observed and the rater’s rating preferences and tendencies. 


그러나 평가자가 몇 주 동안 레지던트의 전반적인 성과에 대해 가졌던 인상을 표현할 때에는 망각 및 선택적 회상과 같은 복잡한 요인이 관여된다.

However, formulating an impression of the resident’s overall performance over a period that spans weeks introduces complicating factors, such as forgetting and selective recall.6



각기 다른 평가자가 각 레지던트에게 등급을 매기므로 전체적인 판단을 종합 한 평가의 의미는 매우 다양합니다. 평가자가 레지던트에게 준 점수는 그 점수를 받은 레지던트만큼이나 평가자에 대해 많은 것을 보여준다.

Because different raters rate each resident, the meanings of the ratings that are combined into an overall summative judgment are highly variable. The rating reveals as much about the rater as it does about the resident being rated.6


따라서 새로운 milestone 운동에 대해서, 우리는 프로그램 디렉터가 ACGME 요구 사항을 충족시키기 위해 로테이션 종료시에 글로벌 평가등급 양식에 항목을 추가할 것이며, 이러한 평가방식이 매우 구체적인 attributes를 측정 할 때(처음 세 개의 사례)만큼 동일한 정밀도를 갖게된다고 가정하는 상황을 우려한다. 현실은 네 번째 예제에서 사용 된 것과 더 가깝다.

Thus, our major concern with the new milestones movement is that program directors will add items to end-of- rotation global rating forms to meet ACGME requirements and that they will assume that these rating forms will have the same precision for measuring specific performance attributes as those presented in the first three examples. In reality, we believe they will be more analogous to those used in the fourth example.




단순히 글로벌 척도를 포함시키는 것의 문제점

The Problems With Simply Adding Items to Existing Global Rating Forms



기존의 평가에 글로벌 평가등급 양식만을 단순히 추가하는 것의 첫 번째 문제는 각 등급을 뒷받침하는 근거 자료에 대한 것이다.

The first issue with simply adding items to existing global rating forms is the evidence base supporting each rating.


다른 사람에게 전해들은 증거나 간접적으로 수집한 정보는 레지던트 평가의 근거로서는 의심스럽다. 그러한 간접적 인 증거는 종종 일련의 잘못된 가정을 요구한다 (예 : 사례 발표에 반영된 전문 지식이 의료 팀의 다른 구성원보다는 레지던트에게 귀속된다고 가정). Williams와 Dunnington은 기존의 6 가지 ACGME 역량에 포함 된 28 가지 구성 요소 역량 중 6 가지만이 일반적으로 교수진에 의해 '직접' 관찰된다는 점을 주장했습니다. Chisholm등은 레지던트 (이 경우 응급 의학 레지던트)에 대한 교수의 직접적 관찰시간을 조사한 결과 교수진이 비 중환자 영역에서 고작 9 시간 교대 당 2 분, 교대 근무 당 11 분 동안 레지던트를 관찰했다고보고했다. 평가 서식에서 평가점수를 매기라고 하면, 평가자는 (어떻든간에) 점수를 매긴다.

Hearsay evidence and/ or secondhand information provide questionable bases for the assessment of residents. Such indirect evidence requires a long chain of supporting assumptions (e.g., assuming that the expertise reflected in a case presentation is attributable to the resident rather than to other members of the health care team) that are often incorrect. Williams and Dunnington7 argued that only 6 of the 28 component competencies included in the original six ACGME competencies are typically directly observed by faculty. Chisholm and colleagues8 investigated the amount of direct faculty observation of residents (in this case, emergency medicine residents) and reported that faculty observed residents for 2 minutes per nine-hour shift in the non-critical-care area and for 11 minutes per shift in the critical care area. If a rating form asks for a competency rating, raters will provide a rating.



글로벌 신용 평가 양식의 두 번째 문제점은 인간의 기억과 정보 처리 특성이다. 첫째, 임상 수행 평가 자료의 증거를 고려하십시오. 많은 연구에 따르면 전문가 평가자는 단일 요소 (전반적 성과) 또는 두 가지 요소 (임상 적 성과, 전문적인 행동) 만을 사용하여 의사 및 연수생의 행동을 판단한다. Williams와 동료 6은이 연구에 대해보다 포괄적 인 검토를 제공합니다.

The second issue with global rating forms involves human memory and information processing characteristics. First, consider the evidence from the clinical performance appraisal literature. A number of studies9,10 support the view that expert raters judge physician and trainee behavior using either a one-factor (overall performance) or two-factor (clinical performance, professional behavior) view of performance. Williams and colleagues6 provide a more comprehensive review of this research. 



Gingerich등은 그러한 판단 과정은 진화적으로 형성된 것이며, 사람의 역량과 우정 (잠재적 인 친구 또는 적)의 판단에 기초한 1 차원 또는 2 차원의 프레임 워크를 사용하는 분류로 이어진다고 제안한다.

Gingerich and colleagues11 suggest that such judgment processes are shaped by human evolution and lead to classifications using a one- or, at most, two-dimensional framework based on judgments of the person’s competence and friendliness (potential friend or enemy).


Ginsburg와 동료 12는이 문제를 다른 방향에서 접근하여 주치의에게 그들이 감독 한 레지던트들을 회상하고 설명하라고 요청했습니다. 단, 이 때 레지던트는 여러 레지던트가 복합된 것이 아니라 아닌 특정한 실제 레지던트여야했습니다. prompting이나 guidance가 없는 상황에서, 주치의는 레지던트의 수행에서 가장 특징적이라고 생각되는 단일 수행 특성을 밝힌 뒤, 다른 관련 성과 속성을 추가하여 이 인상을 보충하였다.


Approaching this issue from a different direction, Ginsburg and colleagues12 asked the attending physicians to recall and describe the residents they had supervised. These residents had to be actual residents rather than generalized composites of many residents. Without prompting and guidance, the attending physicians started by stating the single performance attribute they considered most characteristic of that resident’s performance and embellished this impression by adding other associated performance attributes.


이 모든 연구는 의학에 사용 된 평가 시스템이 6 가지 ACGME 역량을 독립적 인 구성으로 정확하게 측정하지 못한다는 Lurie와 동료의 결론을지지합니다.

All of this research supports the conclusions of Lurie and colleagues13— that the assessment systems used in medicine do not reliably measure each of the six ACGME competencies as independent constructs.


Going Forward


Huddle과 Heudebert14는 holistic한 전문가 판단이 trainee의 평가에 여전히 도움이된다는 사실에 동의합니다. 이러한 글로벌 평가등급은 레지던트의 전반적인 기능과 능력을 측정하는 중요한 수단입니다. 그러나 개별 핵심 역량에 대한 레지던트의 성과를 평가하기 위해서는 업무별 척도가 필요합니다.

we agree with Huddle and Heudebert14 that holistic expert judgments still have a place in the assessment of medical trainees. Such global ratings provide an important measure of a resident’s overall functioning and competence. However, task-specific measures still are needed to evaluate residents’ performance of individual key competencies.


ACGME 역량 운동은 레지던트를 평가할 때 고려해야 할 성과 차원의 수와 유형을 확장하려는 시도였다. 그 뒤에 따라온 milestone은 훈련 목표를 더욱 발전시키고 전문화시키려는 목적으로 만들어졌습니다. 개별 전문 분야에서 개발 한 milestone 문서는 커리큘럼 개발, 평가 시스템 설계 및 교육을 안내하는 청사진이다. 그러나 프로그램 디렉터가 로테이션 종료시의 평가등급 양식에 몇개 항목을 추가하기만 하는 것은, 성과에 대한 유용한 정보를 주지 않으면서 교수에게 요구하는 시간만 더 늘어날 수 도 있다.

The ACGME competencies movement represents an attempt to expand the number and type of performance dimensions considered when rating residents. The milestones initiatives that followed were designed to further develop these training goals and to make them specialty specific. The milestones documents developed by the individual specialties should serve the profession well as blueprints to guide curriculum development, assessment system design, and training. However, if they only lead program directors to add more items to global end-of-rotation rating forms, the result is likely to be a dramatic increase in demand on faculty time without any increase in the usefulness of the performance information collected.



13 Lurie SJ, Mooney CJ, Lyness JM. Measurement of the general competencies of the Accreditation Council for Graduate Medical Education: A systematic review. Acad Med. 2009;84:301–309.


11 Gingerich A, Regehr G, Eva KW. Rater-based assessments as social judgments: Rethinking the etiology of rater errors. Acad Med. 2011;86(10 suppl):S1–S7.






 2015 Apr;90(4):404-7. doi: 10.1097/ACM.0000000000000507.

Placing constraints on the use of the ACGME milestones: a commentary on the limitations of global performance ratings.

Author information

1
Dr. Williams is adjunct professor of surgery, Indiana University School of Medicine, Indianapolis, Indiana, and J. Roland Folse, MD, Professor of Surgical Education Research and Development Emeritus, Southern Illinois University School of Medicine, Springfield, Illinois. He served as a member of the General Surgery Milestones Development Committee. Dr. Dunnington is chairman, Department of Surgery, and Jay L. Grosfeld Professor of Surgery, Indiana University School of Medicine, Indianapolis, Indiana. He served as a member of the committee that developed the original ACGME competencies. Dr. Mellinger is J. Roland Folse, MD, Chair and professor, Division of General Surgery, and program director, General Surgery Residency Program, Southern Illinois University School of Medicine, Springfield, Illinois. Dr. Klamen is associate dean for education and curriculum and chair, Department of Medical Education, Southern Illinois University School of Medicine, Springfield, Illinois.

Abstract

As part of the outcomes-based accreditation process, the Accreditation Council for Graduate Medical Education (ACGME) now requires that medical specialties formulate and use educational milestones to assess residents' performance. These milestones are specialty-specific achievements that residents are expected to demonstrate at established intervals in their training. In this Commentary, the authors argue that the pressure to efficiently use program directors' and faculty members' time, particularly in the increasingly clinical-revenue-dependent model of the academic medical center, will lead program directors to meet these new accreditation expectations solely by adding items that assess these competencies to global end-of-rotation rating forms. This approach will increase the workload of faculty but will not provide new and useful information about residents' competence. These same concerns could apply if assessment committees attempt to measure these new performance dimensions without using direct observation to evaluate residents' performance. In these circumstances, the milestones movement will fall short of its intention and potential. In this Commentary, the authors outline and provide evidence from the literature for their concerns. They discuss the role that human judges play in measuring performance, the measurement characteristics of global performance ratings, and the problems associated with simply adding items to existing global rating forms.

PMID:
 
25295965
 
DOI:
 
10.1097/ACM.0000000000000507


의학교육에서 시험부정행위의 10가지 현상수배범(Med Educ, 2016)

The 10 most wanted test cheaters in medical education

Kenneth Royal,1 Marian-Wells Hedgpeth,1 Jamie Mulkey2 & John Fremer2



도입

INTRODUCTION


학부의학교육에서의 부정 행위에 대한 연구는 의대에서 학생의 58 %가 속임수를 쓴다고 추정한다 .1 대학원 의학 교육의 연구에 따르면 '족보 복원'(기존 시험문항 및 답변에 대한 접근)의 사용은 매우 흔하게 발생하여 레지던트 문화의 일부가된다. 2,3 부정행위에 대한 자료수집이 보통 자기보고형이라는 점을 감안할 때 부정 행위에 대한 이러한 추정은 과소 평가 되어있을 가능성이 높다. 더욱이, 의학 교육 환경은 객관식 질문 항목이 대부분이고, 학생들은 잘 해야 한다는 압박이 있고, 과중한 학업량에 시달리고 있어서 부정 행위에 특히 취약합니다.

Research on cheating in under- graduate medical education esti- mates that up to 58% of studentshave cheated during medical school.1 Research from graduate medical education suggests the use of ‘examination recalls’ (ac- cess to previous examination items and answers) has become so prevalent that it is part of resi-dency culture.2,3 Most disturbing is that any estimates of cheating are likely to be underestimated given that most data are self- reported. Further, medical educa- tion environments are particularlyvulnerable to cheating as a result of the prevalent use of multiple- choice question items, the pres- sures students feel to do well, and the heavy workloads they face. 



Finn and Frone4는 부정 행위에 대한 주된 동기는 간단합니다 : 학생들은 더 높은 성적을 원합니다. Cizek5는 학생을위한 부담stake가 더 높을 때 부정 행위가 발생할 가능성이 더 높다고 말합니다. 의학 교육에서 일상적인 수업 평가조차도 학생에게 중등 및 중급 지분을 소지 할 수 있습니다. 개인이 불안감을 느낄 때 위협에 대한 인식이 증가하고, 결과적으로 더 큰 위협을 느낀다는 사실을 보여줍니다.

Finn and Frone4 note that the pri- mary motivation for cheating is simple: students want higher grades. Cizek5 notes that cheating is more likely to occur when the stakes are higher for students. In medical education, even routine classroom assessments may carry moderate to high stakes for stu- dents. Devel- oping research6 suggests that when individuals experience anxiety, their threat perception is increased, which, in turn, often results in their committing unethi- cal acts.


부정행위가 여러 가지 validity threat을 야기하기 때문에 의학 교육자들이 속임수를 억제하는 것이 중요합니다. 또한,부정 행위의 습관이 형성되면, 잠재적으로 그러한 습관은 직장에까지 확장될 수 있다.

It is critical that medical educators curb cheating because cheating poses a number of validity threats. Further, numer- ous researchers have discussed the habit-forming nature of cheating and its potential for extending to other areas, including the work- place8–10 and at home.11,12




부정행위자의 분류법

TAXONOMY FOR TEST CHEATERS


So what exactly can those responsible for maintaining a healthy academic environment do to curb cheating? We believe the answer is to educate faculty staff about the common ways


10가지 현상수배범

THE 10 MOST WANTED TEST CHEATERS IN MEDICAL EDUCATION



밀수꾼

The smuggler


This individual attempts to carry forbidden materials to an examina- tion setting. Smugglers try to bring in a wide variety of contraband, including cheat sheets, notes, for- mulas and electronic devices.


관광객

The tourist


This individual likes to take in all the sights, especially in examina- tion settings. Tourists often have trouble with wandering eyes and are a constant threat to examina- tion integrity.



요실금환자

The incontinent


This individual requires frequent restroom breaks during an exami- nation, often to access unautho- rised notes and materials. The incontinent knows that surveil- lance in restrooms is off-limits, so he or she uses these safe zones to review notes or locate answers. For example, the incontinent will con- ceal crib notes in rolls of bath- room tissue.


위장술사

The impersonator


This individual utilises a number of strategies to impersonate other students. Impersonators often present a false ID or credential to a proctor in order to take an exami- nation on another person’s behalf, forge the name of another student on a sign-in sheet, or share electronic log-in information with an absent student to ensure the absentee receives credit for partici- pation and performance.



해커

The hacker


This individual is an ever-present threat because anyone who can access an item bank or potentially change students’ grades poses a tremendous danger to examination security and integrity.


이야기꾼

The storyteller


종종 '시간 여행자'와 함께함.

This individual attempts to share information, often innocently, with others who have yet to take an examination. Storytellers often work closely with time travellers (individuals who exploit situations in which examina- tions are offered at different points in time).




항공교통관제사

The air traffic controller


수하물 취급자, 로그 파일럿.

This individual directs traffic on secret or private Facebook and social media sites on which unauthorised materials appear and inappropriate discussions about examinations occur. Such individuals work closely with baggage handlers, who ensure there is plenty of precious cargo to go around. They are particularly difficult to catch without the assistance of a rogue pilot (an individual who has visited the website) blowing a whistle.


협력가

The collaborator


It is often desirable for students to work in teams in educational set- tings, but this is not appropriate when we are evaluating individual competence.



공감자

The empathiser



Empathy is an important character- istic for any future medical profes- sional; however, these individuals take the sentiment too far. Empathisers (typically students froma previous year) often feel the pain of upcoming students and want to help make their lives easier by sharing examination items and other unauthorised materials.



로빈훗

Robin Hood


Sometimes well-intentioned instructors also participate in cheating. A Robin Hood is an instructor who provides unfair assistance to less competent stu- dents (often at the expense of others) in order to help inflate their scores.



의학교육자와 법집행기관의 유사성

PARALLELS BETWEEN MEDICAL EDUCATORS AND LAW ENFORCEMENT PERSONNEL


Parallels between law enforcement personnel and medical educators, particularly as they pertain to matters of prevention and detection, are presented in Table 1.





부정행위 방지

PREVENTION OF CHEATING


예방은 다음과 같은 행동을 포함한다 : 

  • (i) 기관의 시험 보안과 관련된 정책, 절차 및 관행을 수립하는 시험 보안 핸드북 개발, 

  • (ii) 시험 응시자 합의서 및 명예 훈령 개발: 평가에 있어 학생의 역할과 integrity에 대한 책임 명시 

  • (iii) 테스트 관리자, 직원 및 의사에 대한 교육 개발: 상황 발생시 경계하고 대응할 수 있도록한다. 

  • (iv) 직원 및 교수진에 대한 시험 보안 역할 및 책임

  • (v) psychometric의 모범 사례를 활용한다 .5, 17-19

Prevention includes such actions as: (i) devel- oping a test security handbook which establishes policies, proce- dures and practices around test security for the institution;13 (ii) developing test taker agree- ments13,14 and honour codes14,15 that specify the student’s role in completing assessments and his or her responsibility to the integrity of the programme; (iii) developing training for test administrators, fac- ulty staff and proctors16 so that they can be vigilant and respond to inci- dents should they occur; (iv) creat- ing test security roles and responsibilities for staff and faculty members,16 and (v) utilising psy- chometric best practices.5,17–19


부정행위 탐색

DETECTION OF CHEATING


때때로 예방만으로는 충분하지 않습니다. 따라서 테스트 보안 사고가 언제 발생하는지 감지하기위한 메커니즘이 마련되어 있어야합니다. 이러한 메커니즘에는 다음이 포함됩니다. 

  • (i) 사건이 발생했을 때 정보와 증거를 수집 할 수있는 강력한 감독 절차. 

  • (ii) 학생들이 동료들 사이에 부정 행위 또는 부당 행위를 신고하는 (비밀이 보장되는) 행위의 메커니즘; 

  • (iii) 속임수 또는 문항 절도를 나타내는 비정상적인 응답 패턴을 탐지하기위한 통계 분석 (데이터 포털) 5,20,21의 사용 및 

  • (iv) 실제 테스트 컨텐츠가 공유되거나 판매되는지를 탐지하는 웹 모니터링 22.

Sometimes, prevention is not enough. Therefore, mechanisms must be in place to detect when test security incidents happen. These mechanisms include: (i) strong proctoring procedures that enable the collection of information and evidence when incidents transpire; (ii) mechanisms for students to report (often confidentially) inci- dents of cheating or misconduct among their peers; (iii) the use of statistical analysis (data foren- sics)5,20,21 to detect unusual response patterns indicative of cheating or test theft, and (iv) web monitoring22 to detect if actual test content is being shared or sold.


기타 고려사항

OTHER CONSIDERATIONS


부정행위의 효과가 그 시험에만 localize되어 있다고 종종 생각하지만, 반드시 그러한 것은 아니다. 연구 결과에 따르면 비윤리적 행위를 하는 사람은 종종 시간이 지남에 따라 빈도와 심각성이 증가하는 행동 양식을 보인다. 또한 Royal과 Puffer7에 따르면 부정 행위는 수험생뿐만 아니라 항목의 난이도, 비교 가능한 형태의 시험 출제 능력, 미래의 수험생의 합격 기준에까지 영향을 미친다.


Although faculty staff often assume the effects of cheat- ing are localised, this is not neces- sarily true. Research suggests persons who commit ethical trans- gressions often develop patterns of behaviour that increase in fre- quency and severity over time.23 Further, Royal and Puffer7 have described how cheating may impact not only examinees, but also the calibration of item diffi- culty estimates, the ability to pro- duce comparable forms of an examination, and even the passing standard for future examinees.




 2016 Dec;50(12):1241-1244. doi: 10.1111/medu.13096.

The 10 most wanted test cheaters in medical education.

Author information

1
Department of Clinical Sciences, North Carolina State University, Raleigh, North Carolina, USA.
2
Caveon Test Security, Midvale, Utah, USA.

Abstract

This paper takes on a list of the 10 most wanted test cheaters comparable with 'most wanted' lists used by law enforcement agencies to bring attention to the issue of test cheating in medical education. The research provides an overview of test cheating in modern medical education, presents a typology of common cheaters, and provides guidelines for the prevention and detection of cheating.

PMID:
 
27873405
 
DOI:
 
10.1111/medu.13096


밀러의 피라미드에 대한 새로운 관점: Is와 Do 레벨의 평가 (Med Educ, 2016)

A fresh look at Miller’s pyramid: assessment at the ‘Is’ and ‘Do’ levels

Mohamed Al-Eraky1,2 & Hesham Marei3,4






도입

INTRODUCTION


조지 밀러 (George Miller)의 획기적인 피라미드는 지난 20 년간 보건 전문 교육 분야의 평가 실무를 이끌 기위한 프레임 워크로 사용되었습니다.

The ground-breaking pyramid of George Miller1 has been used as a framework to guide assessment practice in health professions edu- cation over the past two decades.


피라미드 구조에 대한 가정들

ASSUMPTIONS OF PYRAMIDAL STRUCTURES


피라미드는 많은 문명에 의해 만들어졌습니다. 건축 관점에서 피라미드 구조의 레벨 구성은 계층 구조와 테이퍼링이라는 두 가지 가정을 의미합니다. 

  • '계층 구조'는 레벨 2가 레벨 1보다 뛰어나다는 것을 의미합니다. 

  • '테이퍼링'은 정점쪽으로의 높이가 바닥에있는 것보다 표면적이 작음을 의미합니다. 

실무 (Does 수준)에서 독립적인 전문가를 평가할 때, 정확하고 신뢰성있게 측정하는 것이 가장 어렵습니다. 피라미드에서 테스트되는 스킬이 높을수록 임상 적으로 더 authentic한 평가가 필요합니다 .2 그러나 Miller 피라미드의 계층 구조에 대한 오해의 여지가 있다. 왜냐하면, 그 어떤 단계도 quality, validity, reliability, authenticity에 관하여 특별히 더 우위에 있지 않기 때문이다. 따라서 우리는 Miller의 레벨이 세그먼트 화 된 피라미드 (그림 1b)의 방식으로 재구성 될 수 있다고 상상할 수있다. 왜냐하면 높은 상위 단계가 반드시 더 높은 품질의 평가를 보증하지 않으며, 대신 점증하는 요구와 더 많은 자원의 필요성을 나타 내기 때문이다.

Pyramids have been built by many civilisations. From an architectural perspective, the organisation of levels in a pyramidal construction implies two assumptions: hierarchy and tapering. ‘Hierarchy’meansthat Level 2 is superior to Level 1 and so on. ‘Tapering’ means that higher levels towards the apex are smaller in surface area than those at the base. Assessment of independent professionals in real practice (at the Does level) is clearly the most diffi- cult to measure accurately and reli- ably. The higher the skills being tested in the pyramid, the more clinically authentic the assessment needs to be.2 Yet the hierarchy in Miller’s pyramid could be mislead- ing, because no level is (actually) superior with regard to quality, validity, reliability and authenticity.2 We therefore, can imagine that Mill-er’s levels can be reconfigured in a segmented pyramid (Fig. 1b), because the higher levels do not promise higher quality of assessment, but instead represent escalating demands and the need for more resources. 


두 번째 특징은 테이퍼링이며, 레벨이 정점쪽으로 갈수록 작아지는 데 이는 두 가지 가설로 해석 할 수 있습니다. 

  • 첫째, 아마도 더 적은 수의 학생들이 'narrow'top에 도달 할 것으로 예상됩니다. 밀러의 피라미드는 결과가 아닌 평가를 위한 영역을 묘사하기 때문에이 가설은 무효화됩니다. 

  • 둘째, 역량과 성과 (apex)를 평가할 수있는 도구가 지식을 평가할 수있는 도구 (base)보다 적다. 이것은 또한 평가자가 피라미드를 자신있게 올라갈 수있게 해주는 WPBA (workplace-based assessment) 도구가 점점 더 많아짐에 따라 무효화됩니다. 

다시 말하지만, 우리는 밀러 피라미드의 tapering이 두 가지 이유에서 기만적인 것으로 생각할 수 있습니다. 

  • (i) 학생들은 이제 정보에 쉽게 액세스 할 수 있어서, 단순한 지식 평가의 가치가 낮아졌다. 

  • (ii) WPBA에 대한 현대 연구의 관심과 본질은 더 높은 차원의 중요성을 강화시키고, 위쪽으로 넓어 지도록 제안한다. 

그렇다면 실제로 피라미드를 뒤바꿀 수 있으며 실제 사례에서 평가를 위해 더 많은 공간 (가치)을 제공 할 수 있습니다 (그림 1c).

The second feature is tapering, as the levels are getting smaller towards the apex, which can be interpreted by two hypotheses. First, perhaps fewer students are expected to reach the ‘narrow’ top. This hypothesis is nullified, because Miller’s pyramid depicts domains for assessment, not results. Second, fewer instruments are available to assess competence and performance (at the apex) than those available to assess knowledge (at the base). This too is nullified by the growing num- ber of workplace-based assessment (WPBA)3 instruments that enable assessors to more confidently climb the pyramid. Again, we think that tapering in Miller’s pyramid could be deceptive for two reasons: (i) students now can easily access information, which minimises the value of assessment of mere knowledge; and (ii) the mounting interest and body of modern research in WPBA reinforce the significance of higher levels and suggest broadening (not tapering) towards the top. Then, perhaps we may invert the pyramid, to offer more space (value) for assessment in real practice (Fig. 1c).


계층 구조와 테이퍼링 외에도 Miller의 모델에는 실제 피라미드에없는 세 번째 가정이 있습니다. 학습자가 실제로 잘 수행하면 Knows와 Knows는 어느 정도의 수준을 얻었지만 그 역reverse은 확실하지 않은 것으로 추측되며 이는 평가 도메인의 중첩을 제안합니다 (그림 1d).

In addition to hierarchy and taper- ing, there is a third assumption in Miller’s model, which is absent in real pyramids. If learners perform well in practice it is presumed that they attain the Knows and Knows how levels, but the reverse is uncer- tain, which suggests nesting of assessment domains (Fig. 1d).


그러나이 중첩 개념은 도전받을 수 있습니다. 의사가 적절한 인지 기반없이 특정 작업을 수행할 수 있습니까? 때로는 그렇다. 주기적으로 테스트하지 않으면 지식이 쇠퇴하지만, 퍼포먼스는 시간이 지남에 따라 향상될 수 있다. 숙련 된 기술자, 간호사 및 외과 의사조차도 유능한 사람 일 수 있지만 지식이없는 사람도있을 수 있습니다. 일부 절차의 이론적 근거를 잊을 수 있기 때문입니다. 이러한 결과는 평가자에게 지식이 지원되지 않는 교수형 다락방(hanging attic)  (그림 1e)의 가능성을 경고합니다.

Yet, this concept of nesting can be challenged. Can practitioners mas-ter particular tasks without a proper cognitive base? Answer: Yes, sometimes. Knowledge decays if not tested periodically and per- formance is enhanced by practice over time. Seasoned technicians, nurses and even surgeons may be competent, but not necessarily knowledgeable, because they may forget the theoretical basis of some procedures. These findings alert assessors to the possibility of a hanging attic (Fig. 1e), where performance is not supported by knowledge.


Fig. 1은 코스의 성격, 교육의 단계, 평가 시스템의 통합 정도 및 성숙도와 관련된 변수를 고려하여 결정될 수있다. 예를 들어, 

  • 원래 모델 (그림 1a)은 지식에 중점을 둔 기초과목 (해부학과 같은)의 학부의학교육에서 평가에 적합하지만 

  • 반전 된 피라미드 (그림 1c)는 외과 레지던트 프로그램에서 WPBA의 가치를 보여주고, 

  • 매달린 다락방 (그림 1e)은 분석가에게 WPBA의 기본 지식을 경계해야한다고 경고합니다.

Selecting a particular arrangement in Fig. 1 can be decided in view of variables related to: the nature of the course, stage of education, extent of integration and maturity of the assessment system. For instance, the original model (Fig. 1a) suits assessment of under- graduate students in pure-content subjects (like anatomy) with more emphasis on knowledge, whereas the inverted pyramid (Fig. 1c) sig- nifies the value of WPBA in surgi- cal residency programmes. The hanging attic (Fig. 1e) alerts asses- sors to be vigilant to the baseline knowledge in WPBA.





새롭게 등장한 평가영역

EMERGING DOMAINS FOR ASSESSMENT


밀러의 피라미드는 평가를 이끌어내는 이정표이지만, 현대 평가에서 진화하는 구조를 수용 할 수있을 정도로 포괄적입니까? 직업 교육, 감성 지능, 양심, 공감, 반성, 메타인지, 팀워크, 리더십, 문화적 경쟁력, 직업적 정체성  등의 의학 커리큘럼에서 검색 및 평가하고자하는인지 적 및 비인지 적 구성 요소의 목록이 많이 있습니다.  밀러의 피라미드의 네 층은 위의 진화하는 구조를 포함하고 있는가?

Miller’s pyramid is a milestone to guide assessment, but we ask: is it still comprehensive enough to accommodate the evolving constructs in modern assessment? There is a long list of cognitive and non-cognitive components that medical curricula seek to deli- ver and assess, such as: profession- alism,4 emotional intelligence,5 conscientiousness,6 empathy,7 reflection,8 metacognition,9 team- work,10 leadership,11 cultural com- petence12 and professional identity.13 Do the four layers of Miller’s pyramid encompass the above evolving constructs?


'Is'수준에서의 평가

ASSESSMENT AT THE ‘IS’ LEVEL


밀러의 피라미드는 학습자가 know and does하는 것을 평가하지만, 그거 실제로 누구인가(is)를 평가하지는 않는다. Jarvis-Selinger et al.는 의사의 직무 뿐만 아니라, '의사가 되기 위해서 필요한 것'들에 대해 더 광범위한 관점을 가져야 한다고 주장했다. 전문직업성의 평가는 관찰 가능한 행동을 넘어서서 개인의 근본적인 태도, 가치 및 신념을 탐구하기 위해 확대되어야합니다. 이것이 바로 Cruess와 동료들이 졸업생의 전문성을 평가하기 위해 Miller의 피라미드에 다섯 번째 레벨을 추가 한 이유입니다.

Miller’s pyramid assesses what a learner knows and does, but not what he or she really is. Jarvis- Selinger et al. inspired a move away from the exclusive focus on doing the work of a physician toward a broader one that also includes being a physician.14 Assessment of professionalism should extend beyond observable behaviours to explore the individ- ual’s underlying attitudes, values and beliefs that drive (un)profes- sional behaviours. That is why Cruess and colleagues have recently added a fifth level (Is)to Miller’s pyramid to assess profes- sional identity of graduates.15


평가가 학생의 행동이 아니라 학생 개인을 tagging하지 않도록 유념해야 하지만, 자신의 직업적 정체성 획득에 대한 각 개인의 발전 상황을 모니터링하는 것이, 의학 교육을 받는 첫 번째 날부터 주된 목표가되어야합니다. 

Monitoring the progress of each individual toward the acquisition of their professional identity should be the principal objective of medical education from day one, even as we must be careful to not fuel a judgemental ambiance of assessment that results in tagging students them- selves instead of their behaviours.


'Do'수준에서의 평가

ASSESSMENT AT THE ‘DO’ (TOGETHER) LEVEL


즉 의학 교육에서의 근본적인 딜레마는 Cruess 등이 최근에 Miller 's 피라미드에 추가 한 것 이상의 수준을 추가하게 할 것입니다. 대학은 개인의 능력에 따라 학위를 수여하지만, 졸업 후 의사는 다기능 팀의 일원으로 일하고, 유능한 의사가 무능한 팀을 창출 할 수 있습니다 .17 환자 진료의 제공은 intraprofessional에서 interprofessional로 이동했습니다. 이는 집단 역량에 초점을 둔 평가 결과를 강조합니다 .18 따라서 우리는 'Do'(together) 수준에서 학습자를 팀으로서 평가할 필요성을 인식했습니다.

That said, there is a fundamental dilemma in medical education that would prompt us to add a level beyond Cruess et al.’s recent addi- tion to Miller’s pyramid. Universities award degrees based on an individ- ual’s ability.16 Then, after gradua- tion, doctors work as members of multiprofessional teams and individ- ually competent physicians can cre- ate incompetent teams.17 The delivery of patient care has moved fromintraprofessional to interpro- fessional practice, which highlights the consequence of assessment that focuses on collective competence.18 We, therefore, recognised the neces- sity to assess learners in teams at the ‘Do’ (together) level.


팀 기반 학습, 다중 전문 교육 및 직업 간 교육과 같은 현대 교육 전략은 팀원에 대한 새로운 패러다임 평가를 채택해야합니다.

Modern educational strategies, such as team-based learning, multi- professional education and inter- professional education, require adopting a new paradigmof assess- ment of teammembers.


팀의 평가는 여러 가지 이유로 어려움을 겪었지만, 'Does' 수준의 평가는 밀러가 펜을 종이에 넣었을 때의 꿈일뿐입니다. 평가자는 집단역동성 (과정)과 제품 (결과)에 대한 평가 기준을 명확히 정의해야합니다. 그러나 'Do'수준에서의 평가의 어려움은 그룹 성과를 개별 성적으로 변환하여 공정성과 형평성에 대한 우려를 불러 일으키는 것입니다. Miller의 피라미드에 'Is'와 'Do'레벨을 통합하여 Miller가 자신의 원래 개념으로 할 수 있었던 방식으로 우리 분야를 이끌 수 있을지도 또 다른 과제입니다.

Assessment of teams is challenging for a number of reasons, but assessment at the ‘Does’ level was just a dreamwhen Miller put pen to paper. Assessors have to define clear criteria for eval- uation of group dynamics (process) and the product (outcome). The daunting task of assessment at the ‘Do’ level, however, is to translate group performance into individual grades, which raises concerns for fairness and equity. Just as daunting is how we incorporate the ‘Is’ and ‘Do’ levels into Miller’s pyramid in a way that has the potential to steer our field the way Miller was able to do with his original conception.




피라미드 바깥에서 생각하기: 평가 '궤도'

THINKING OUTSIDE THE PYRAMID: THE ASSESSMENT ‘ORBITS’


그러나 우리는 피라미드 밖에서 생각하고 새로운 프레임 워크를 제안하고자합니다. 즉, 학생들 사이를 중심으로 회전하는 Five Assessment 'Orbits'를 제안합니다.

Yet, we yearn to think outside the pyramid and suggest a novel framework, namely the Five Assess- ment ‘ Orbits’, revolving around and between students.


Fig. 그림 2에서 볼 수 있듯이 '궤도'는 학생 A의 근원을 중심으로 자신의 개인적 특성을 평가합니다. 실제로 학습 및 스타일에 대한 접근 방식을 유도합니다. '수준'에서의 학습 평가는 학생들이 왜 특정한 방식으로 행동 하는지를 해석하고 교사가 자신의 행동을 합리화하고 더 많은 지침, 정보 피드백 및 상담 판매를 제공 할 수 있도록 도와줍니다. 'Do' 궤도는 한 팀에서 (함께) 함께 일할 때 학생 A, B, C의 수행 능력을 나타냅니다. 필기 시험에서 평가할 수있는 모든인지 능력을 포용하기 위해 두 가지 수준의 Miller를 하나의 궤도 (Knows)로 병합했습니다. 'Shows'및 'Does'궤도는 Miller 모델의 최상위 계층과 동일한 기능을 수행합니다.

As in Fig. 2, the ‘Is’ orbit revolves proximal to student A to assess his or her per- sonal qualities, which actually drive his or her approach to learning and style of performance. Assess- ment for learning at the ‘Is’ level can be used to interpret why stu- dents act in a specific manner and assists teachers to rationalise their behaviours and provide more guid- ance, informed feedback and coun- selling. The ‘Do’ orbit addresses performance of students A, B and C when they work (together) in a team. We merged two levels of Mill- er’s into one orbit (Knows)to embrace all cognitive abilities that can be assessed in written exams. The ‘Shows’ and ‘Does’ orbits serve the same functions as in the top lay- ers in Miller’s model.


예를 들어, 

  • 노드 1 (Is 9 Do)은 팀의 대인 관계에 영향을 미치는 개인의 특성 (예 : 외향성, 개방성, 동등성 및 첨부 스타일)을 표시합니다. 

  • 노드 2 (Knows 9 Do)는 그룹 역학의 인지 기반과 팀 구성원이 다양한 역할을 채택하는 방법을 나타냅니다. (Belbin (공장, 코디네이터, 셰이퍼, 모니터, 구현 자 및 마무리 자 등)에 설명 된대로) 

  • 노드 3 및 4는 시뮬레이션 및 실제 연습에서 팀의 성과를 평가한다.

For instance, 

  • Node 1 (Is - Do) marks the personal qualities that impact the interpersonal dynamic of teams, such as: extraversion, open- ness, agreeableness and attach- ment styles. 

  • Node 2 (Knows - Do) indicates the cognitive base behind group dynamics and how team members embrace different roles, as described by Belbin (such as plant, coordinator, shaper, moni- tor, implementer and finisher).20 Nodes 3 and 4 assess performance of teams in simulations and in real practice, respectively.


평가 궤도는 세계적으로 유명한 역량 프레임 워크의 간과 된 요구를 충족시킵니다. 예를 들어, 'Is'궤도는 감정적 인 개인적 지능에 관련된 Dundee Three-Circle Model의 외층에 나타난 결과를 평가할 수있는 공간을 제공한다. 21) 'Do'궤도는 전통적 역할에 대한 평가를 포용한다 CanMEDS.22의 공동 작업자이자 관리자 / 리더

The Assessment Orbit fulfils the overlooked needs of world- renowned competency frameworks. For instance, the ‘Is’ trajectory offers a space to assess the out- comes indicated in the outer layer of the Dundee Three-Circle Model related to emotional and personal intelligences.21 The ‘Do’ orbit embraces assessment of the tradi- tional roles of collaborator and manager/leader in CanMEDS.22



결론

CONCLUSION


평가 궤도 프레임 워크는 교육자에게 피라미드 구조에 뿌리 내린 계층 구조 또는 테이퍼링과 같은 기능을 암시하지 않으면서 새로운인지 및 비인지 구조를 평가할 필요성을 경고합니다. 

  • 'Is'궤도는 우리가 의사가 될 수 있는 (또는 되지 않을 수도있는) 졸업생들의 개인적 특성에 영향을 미친다. 

  • 'Do'(together) 수준의 팀 평가는 학생들 사이의 경쟁력 순위 결정 (storming)에서 팀으로의 규범 수행 및 수행에 이르는 패러다임 변화를 제공합니다.


The Assessment Orbits framework alerts educators to the need to assess emerging cognitive and non-cognitive constructs without implying features such as hierar- chy or tapering that are ingrained in pyramidal structures. 

  • The ‘Is’ orbit attends to the per- sonal qualities of graduates ‘who’ we may (or may not) trust to be our physicians. 

  • Assessment of teams at the ‘Do’ (together) level offers a paradigm shift in assess- ment from competitive ranking (storming) among students toward norming and performing as teams.




1 Miller GE. The assessment of clinical skills/competence/ performance. Acad Med 1990; S63–7. :65 


14 Jarvis-Selinger S, Pratt DD, Regehr G. Competency is not enough: integrating identity formation into the medical education discourse. Acad Med:1185–90. 2012; 87 


15 Cruess RL, Cruess SR, Steinert Y.Amending Miller’s pyramid to include professional identity formation. Acad Med 2015; :1. 90 







 2016 Dec;50(12):1253-1257. doi: 10.1111/medu.13101.

fresh look at Miller's pyramidassessment at the 'Is' and 'Do' levels.

Author information

1
Medical Education Department, College of Medicine, University of Dammam, Saudi Arabia.
2
Faculty of Medicine, Zagazig University, Egypt.
3
College of Dentistry, University of Dammam, Saudi Arabia.
4
Faculty of Dentistry, Suez Canal University, Egypt.

Abstract

In its silver jubilee, we celebrate the ground-breaking pyramid of George Miller by submitting a fresh look at it. We discuss two questions. (i) Does the classical pyramidal structure perfectly portray the relationships of the four levels that were described by Miller? (ii) Can the model of Miller fulfill the unmet needs of assessors to measure evolving essential constructs and accommodate the increasingly sophisticated practice of assessment of health professionals? In response to the first question, Miller's pyramid is revisited in view of two assumptions for pyramidal structures, namely: hierarchy and tapering. Then we suggest different configurations for the same classical four levels and indicate when to use each one. With regard to the second question, we provide a rationale for amending the pyramid with two further dimensions to assess personal qualities of students at the 'Is' level and their performance in teams at the 'Do' (together) level. At the end of the article, we yearn to think outside the pyramid and suggest the Assessment Orbits framework to assess students as individuals and in teams. The five Assessment Orbits alert educators to assess the emerging cognitive and non-cognitive constructs, without implying features such as hierarchy or tapering that are ingrained in pyramidal structures. The 'Is' orbit attends to the personal qualities of graduates 'who' we may (or may not) trust to be our physicians. Assessment of teams at the 'Do' level (together) offers a paradigm shift in assessment from competitive ranking (storming) among students toward norming and performing as teams.

PMID:
 
27873421
 
DOI:
 
10.1111/medu.13101


형성평가에 집중하기: 학생의 성장과 발달을 목적으로 하는 평가시스템 (Acad Med, 2016)

Focusing on the Formative: Building an Assessment System Aimed at Student Growth and Development

Lyuba Konopasek, MD, John Norcini, PhD, and Edward Krupat, PhD





학생들에게 피드백과 지침을 제공함으로써 형성 평가는 학습과 성과에 긍정적 인 영향을 미친다. 2,3 형성평가는 자기 조절 학습과 informed-자기 평가의 필수적인 요소이다.

By providing feedback and guidance to students, formative assessment has positive effects on learning and performance.2,3 It is an essential element of self-regulated learning4,5 and informed self-assessment.6


총괄 평가를 수행 할 때 우리는 교육자보다는 규제자regulator로서의 역할을 하게 된다. 포괄적인 평가가 반드시 필요한 것은 사실이지만, 우리의 평가 초점은 훨씬 더 넓어 져야합니다. 교육자는 형성평가를 통해 정보를 전달하고, 가치를 심어주고, 우수성과 지속적인 학습을 유도하게 된다.

when practicing summative assessment, we are acting far more as regulators than educators. Although summative assessment is certainly necessary, our assessment focus must be far broader. The educator’s role, accomplished via formative assessment, is to impart information, instill values, and inspire excellence and ongoing learning.


현재 교육트렌드에서의 형성평가

Formative Assessment in Light of Current Educational Trends


학습 결과와 특정 학습 목표를 연결하는 역량 기반 평가에서는 지속적이고 빈번한 평가가 필요합니다 .11,12 자기 주도적 평가 추구 행동 (self-directed assessment-seeking behavior)과 같은 활동을 통해 학습자를 적극적으로 참여시키는 것이 역량 기반 의학 교육의 필수 구성 요소로 간주됩니다.

Competency-based assessment that links learning outcomes with specific learning objectives requires continuous and frequent assessment.11,12 Actively engaging the learner, through activities such as self-directed assessment- seeking behavior,13 in which students actively seek feedback on performance for the purpose of improvement, is considered an essential component of competency-based medical education.12


학부 의학 교육에서의 형식 중심 평가 시스템의 사례

The Case for a Formatively Focused Assessment System in Undergraduate Medical Education


LCME는 학부 의학 교육 (UME)의 요구 사항으로서 형성 평가를 요구했으며, 이는 학생들로부터 재교육을 목적으로 midclerkship 또는 midcourse 피드백을 주는 것이다.

The Liaison Committee on Medical Education (LCME) has mandated formative assessment as a requirement in undergraduate medical education (UME) through midclerkship and/ or midcourse feedback to students for remediation purposes.14


피드백이 예상되고 존중되며 모든 학습자에게 정기적으로 주어지는 음악 및 스포츠와 같은 다른 전문 교육 문화와는 달리, 의학 교육에서는 진정한 피드백 문화를 육성하지 못했습니다 .15,16

Unlike other professional training cultures such as music and sports, in which feedback is expected, respected, and given regularly to all learners, we have not yet cultivated a true feedback culture in medical education.15,16


오늘날 일반적으로 사용되는 형성평가는 서로 의사 소통을하지 않는 의사들이 각자 독립적으로 수행하는 일련의 펀치 생검에 비유 될 수 있습니다. 이러한 평가는 context-dependent하며, 종종 대충대충 이루어지고, 학습자가 잘 지내고 있는지 확인하는 데 중점을 둡니다. 이러한 평가는 매우 심각하지 않으며 학생들이 "학점에 반영되지"않기 때문에 진정으로 가치를 평가받지 못합니다. 잠재적 인 문제를 발견하는데 도움이 되지만, 대개 remedial 과정은 교사의 수업 시간으로 제한됩니다. 부정적이든 긍정적이든 정보는 후속 강좌 및 강사에게 거의 전달되지 않습니다.

Formative assessments typically used today could be likened to a series of punch biopsies performed by independent physicians who do not communicate with each other. They are highly context dependent, often done on the fly, and focused on ensuring that the learner is doing well. These assessments do not go very deep, nor are they truly valued by the students because they do not “count for a grade.” They may uncover a potential problem, but remediation efforts are usually limited to the time of that teacher’s course. Information, negative or positive, is rarely passed on to future courses and instructors.


평가는 서로 무관한 일련의 사건이기보다 조직적이고 지속적인 프로세스의 일부일 때 가장 유용하다고 제안합니다. 평가과정은 다음과 같은 정보를 만들어야 한다.

  • (1) 학생들에게 그들의 성과에 대해 알리는 상세한 피드백으로 체계적으로 번역되는 정보 

  • (2) 교수가 지원하고지도하는 개선을위한 특정 계획을 개발하게 하는 정보

  • (3) 학생들은 진도의 증거를 제시해주는 정보

  • (4) 시간이 지남에 따라 계속되는 주기의 일부로서의 정보. 

We suggest that assessment is most useful when it is part of an organized and ongoing process rather than a set of unrelated events. The process should generate information that 

(1) is systematically translated into detailed feedback that informs students about their performance, 

(2) leads to the development of specific plans for improvement supported and guided by faculty, 

(3) is subject to follow- through whereby students present evidence of progress, and 

(4) is part of a continuous cycle over time. 


그러한 과정은 학습자가 의학의 질적 향상에 일반적으로 사용되는 체계 인 개인적이고 교육적인 PDSA주기 (그림 1 참조)에 참여하도록 권장합니다.

Such a process would encourage the learner to engage in a personal, educational plan–do–study–act (PDSA) cycle (see Figure 1), a commonly used framework in quality improvement in medicine,17





대학원 의학 교육 (GME)의 차세대 인증 시스템은 형성 및 총괄 평가를  단일 시스템으로 통합하여 체계적으로 모아서 학습자와 의도적으로 공유함으로써 궁극적으로 최종 합계 결정을 알려줍니다.

The Next Accreditation System18,19 in graduate medical education (GME) integrates formative and summative assessments into one system, with formative data gathered systematically and shared deliberately with the learner over time, ultimately informing the final summative decision.



마일스톤은 형성평가를 위한 틀을 제공하고, 수련 프로그램 과정에서 레지던트가 역량을 달성하고 독립적 인 진료행위를 준비해갈 수 있도록 종적, 발달 적 접근을 촉진하기위한 것입니다. 이 새로운 평가 시스템은 performance가 아니라 learning에 관심을 가지게 하며, 이는 UME 평가를 지지하는 것과 거의 같은 방식이다.

Milestones are intended to serve as a framework for formative assessment20 and to promote a longitudinal, developmental approach, over the course of a residency program, to achieving competence and becoming ready for independent practice. This new assessment system shifts attention away from performance and instead emphasizes learning in much the same way that we are advocating for UME assessment.


UME에 집중적으로 집중 한 평가 시스템 구축에 대한 도전

Challenges to Building a Formatively Focused Assessment System in UME


대조적으로, UME에서의 평가에 대한 도전 과제는 상당히 다양합니다. 교수들은 기대역량에 대한 명확한 기준이 없으며, 잠재적으로 자신의 분야에 들어올 가능성이 낮은 학습자에게 투자를 덜 한다. 더욱이 학생들은 개인적인 성취도와 경쟁 우위에 초점을 둔 문화에서 의대에서 건설적인 피드백을 받거나 신뢰할 준비가 되어있지 않다. 긍정적인 피드백이 아닌 모든 것은 학생들을 "경쟁에서 뒤떨어지게"한다고 여긴다. UME의 교수들은 종종 자신을 지식의 전달자로 간주하여 평가를 다른 사람들에게 넘긴다. 더우기 교수들이 학생들을 만나는 시간이 일반적으로 짧기 때문에 교사들은 어떤 형태의 평가를 통해 학생들의 강점과 단점을 알게 되는 순간, 학생은 이미 다른 교수에게 가 있다.

In contrast, the challenges for assessment in UME are considerably more diverse; faculty might be uncertain about expected standards of competence and potentially less invested in learners who are not entering their field. Further, students often come to medical school from a culture that focuses on individual achievement and competitive advantage,21,22 and they may not be prepared to accept constructive feedback or to trust that anything but positive feedback will somehow put them at a “competitive disadvantage.” They may not see the value of formative assessment if it does not “count towards the grade.” Teachers in UME often view themselves narrowly as imparters of knowledge, leaving assessment to others. Compounding the problem, their exposure to students is typically brief, so that by the time teachers come to know their students’ strengths and shortcomings through some form of assessment, the students become someone else’s “gift,” if they are strong—or “burden,” if they have challenges.



형성평가 중심적 시스템의 개념적 토대

Conceptual Underpinnings of a Formatively Focused Assessment System


형성평가를 강조하는 평가 시스템은 개선을 포용하고 지원하는 문화에서만 번성 할 수 있습니. 대부분 개인의 방향을 언급하면서, 심리학자 캐롤 드벡 (Carol Dweck)은 "수행"오리엔테이션 과 "학습"오리엔테이션을 구별했다. 23,24 

  • 전자를 평가하는 시스템에서 학생들은 잘 보이기 위해, 다른 사람에게 호감을 얻고자 한다. 이러한 방향으로 학생들은 오류를 숨기고, 불확실성을 숨기거나 거부하며, 피드백을 징벌 적으로보고 일반적으로 피해야합니다. 

  • 대조적으로 학습 오리엔테이션은 학생의 목표가 향상되는 것인데, 당면 과제 또는 기술에 대한 숙달을 얻는 것입니다. 학습 오리엔테이션을 통해 학생들은 조언을 얻기 위해 자유롭게 불확실성을 인정합니다. 의견은 향상시킬 수있는 방법과 방법을 확인하는 방법으로 환영받을 것입니다.

An assessment system that emphasizes the formative can only thrive in a culture that embraces and supports improvement. Referring largely to individual orientations, psychologist Carol Dweck has distinguished between a “performance” orientation versus a “learning” or “mastery” orientation.23,24 In the system that values the former, students have the goal of looking good, to make others think favorably of them. With such an orientation, students are prone to hide errors, mask or deny any uncertainty, and view feedback as punitive and generally to be avoided. In contrast, a learning orientation is one in which the student’s goal is to improve—to gain mastery over the subject or skill at hand. With a learning orientation, students would freely admit uncertainty in order to gain advice and counsel. Feedback would be welcomed as a way of ascertaining where and how to improve.


형성 평가가 효과적이기 위해서는 의대에서 학습 오리엔테이션이 번창 할 수있는 문화를 창조 할 수 있어야합니다. 이것은 의과 대학의 첫 날에 학생들이 위험을 감수하고 자신의 강점과 도전을 드러낼 수 있다고 들을 때 시작되며 교과 과정 전반에 걸쳐 그 원칙이 강화됩니다.

For formative assessment to be effective, a medical school can (and must) create a culture in which a learning orientation can thrive. This begins on day one of medical school, when students are told that they can take risks and expose both their strengths and challenges, and that principle is reinforced throughout the curriculum.


Vygotsky의 근 지구 ​​발달 지대 (ZPD) 이론은 형식 중심의 평가 시스템에 정보를 제공하는 데 유용합니다. ZPD는 학생의 능력의 한계에있는 지식이나 기술, 도전을 받았지만지도를 통해 달성 할 수있는 지식 "기술"이라고 정의됩니다. 

Vygotsky’s26 theory of the Zone of Proximal Development (ZPD) is also useful in informing a formatively focused assessment system. The ZPD is defined as..

the “learning edge”: the knowledge or skills that are at the limits of a student’s competence, the ones by which they are challenged but that are achievable through guidance. 


비고츠키에 따르면, 특정 분야를 마스터 한 "지식이 풍부한 다른 사람"이 ZPD에서 학습자를 지도해야합니다. 이 코칭에서 형성평가가 중요합니다. 교수진이 ZPD에서 "지식이 풍부한 다른 사람"로 역할을 하고, 이를 위해 학생들과의 신뢰를 구축하는 것은 성과에 대해 학습하는 것을 장려하는 교육 시스템을 향한 진정한 문화 변화가 될 것입니다.

According to Vygotsky, a “knowledgeable other,” someone who has mastered the area already, needs to coach learners in their ZPD. Formative assessment is critical to this coaching. Empowering faculty to function as “knowledgeable others” in the ZPD and building the trust of the students that faculty will function in this way would be a real culture shift toward an educational system that encourages learning over performance.


UME에서 형성평가에 초점을 둔 시스템 도입

Implementing a Formatively Focused Assessment System in UME



요소

Elements


사실상 모든 평가 접근법은 형성평가에 사용할 수 있으며, 다만 자기 반성을 장려하고 학습지도, 안내 및 촉진에 사용되는 피드백 제공에 중점을 두도록 고안되기만 하면 된다.

Virtually all assessment approaches can be used in formative assessment, as long as they are specifically devised to emphasize providing feedback that encourages self-reflection and are used to direct, guide, and catalyze learning.


특성

Characteristics


List 1 highlights the characteristics of an institutional culture


기관문화의 특성

List 1 Institutional Characteristics of a Formatively Focused Assessment System


기관에서 형성평가는...

• 체계적이고 통일 된 체계의 특성을 지니면서 조직되고, 통합되고 포괄적이어야합니다

• 총괄 평가 시스템을 보완한다. 시스템을 매핑 할 때 교육자는 형성적 요소와 총괄적 요소의 목적과 최적 사용을 고려해야합니다.

• 다양한 출처에서 다양한 형태로 데이터와 피드백을 제공합니다.

• central stewardship과 local accountability를 겸비한다. 의과 대학 지명 위원은 두 평가 기능이 서로 보완 할 수 있도록 형성 및 총괄 평가 시스템을 감독해야합니다.

• 학습자의 전체 기간 동안 지속적인 프로세스로 간주되어 여러 시점에서 구현됩니다.

• 피드백 및 개선 토론이 학습자와 교사라는 개인 사이의 정보 전달이 아니라 팀 노력의 일부가되도록 평가 데이터의 체계적인 수집 및 활용을 포함시킵니다.

• 개선의 책임은 학습자와 교사 모두에게 맡기고, 진행 상황을 찾고 모니터링하는 데 책임을 지도록하십시오.

• 피드백을 효율적으로 찾고, 받고, 사용하는 방법에 관한 학습자 세션을 포함시킵니다.

• 교사가 학습자의 자기 개선을 장려하기위한 적절한 동기 부여 기법을 사용하여 코치로 참여하는 법을 배울 수 있도록 교수진 개발 세션을 포함시킵니다.


Institutionally, a formative assessment system should:


• Be organized, integrated, and comprehensive, having the characteristics of a coordinated and uni ed system.


• Be complementary to the summative assessment system. In mapping a system, educators should consider purpose and optimal use of formative and summative elements.


• Provide data and feedback in many different forms from a variety of sources.


• Have both central stewardship and local accountability. A designee of the medical school should oversee both formative and summative assessment systems to ensure that both assessment functions are serving to complement one another.


• Be seen as a continuous process over the learner’s entire tenure and implemented at multiple points in time.


• Include systemic collection and utilization of assessment data so that feedback and improvement discussions become part of a team effort rather than a private transfer of information between learner and teacher.


• Place responsibility for improvement on both learner and teacher, and hold both accountable for seeking and monitoring progress.


• Include learner sessions on how to effectively seek, receive, and use feedback.


• Include faculty development sessions so that teachers can learn how to engage as coaches, using appropriate motivational techniques to encourage self-improvement in learners.


List 2 articulates attributes of this culture’s learner–teacher relationship.


교사-학습자 관계

List 2 Learner–Teacher Relationship in a Formatively Focused Assessment System


형성평가에서 학습자와 교사의 관계는 다음과 같아야 한다.

Interpersonally, the nature of the student–teacher relationship in a formative assessment should:


• 발달적이다. 평가자와 학생 모두 적절한 표식과 교수가 학생이 다음 단계에 도달 할 수있는 방법을 알릴 수 있도록 마커 또는 마일스톤을 배치해야합니다.

• 학습자 중심이다. 평가 방법은 학생의 학습 목표와 관련되어야하며 학생의 수행은 외부 수행 측정과 관련되어야합니다.

• 개선을 중시한다. 학습자는 지속적인 개선을 위해 끊임없이 노력하고 최소한의 능력으로 시험 점수를 수락하고 새로운 과목으로 옮기기보다는 우수성을 열망해야합니다.

• 학생들의 자기 반성을 장려하십시오. 학생들은 자체 평가 능력을 향상시키고 성과 향상을 위해 피드백을 사용하는 기술을 내부화 할 수 있도록 자신의 성과 평가에 대한 책임을 져야합니다.

• 광범위한 평가 데이터를 활용하여 학습자의 사고 프로세스 및 다양한 차원의 성과를 탐구하도록 유도하십시오.

정기적으로 예정된 피드백을 학습자에게 참여시켜 루프를 닫습니다. 피드백은 정기적으로 스케줄링되어야하며, 학습자가 지속적으로 향상시킬 동기를 부여하기 위해 실질적이고 구체적이어야합니다.

• 관계 구축을 장려하십시오. 피드백은 학습자와 교사 간의 유대감을 강화하기 위해 코칭을 중심으로 직접 대면해야합니다.

• 학습자가 계속해서 성과 문제에 대해 책임을 지는지 확인하기위한 후속 조치를 포함시킵니다.

• 막연한 격려가 아닌 개선 방향 및 자원을 학습자에게 제공하고 학습자가 개선을위한 자신의 전략을 식별하도록 권장합니다.

• 피드백 대화의 본질과 그것을 더욱 효과적으로 만드는 방법에 대한 교사의 자기 반성을 장려하십시오.


• Be developmental. Markers or milestones must be laid out for both assessors and students so that they have a sense of the proper expectations and faculty can communicate how student may reach the next level.


• Be learner centered. Assessment methods should relate to the student’s learning goals, and the student’s performance should be related to external measures of performance.


• Be improvement focused. Learners should be encouraged to work constantly towards continuous improvement and aspire to excellence rather than accepting a test score, even minimal competence, and then moving on to a new subject.


• Encourage student self-reflection. Students should be encouraged to take responsibility for assessing their own performance so as to improve skills in self-assessment and internalize skills for using feedback to improve performance.


• Draw on a broad range of assessment data, which encourage exploration of the learner’s thinking process and multiple dimensions of performance.


• Involve regularly scheduled feedback to the learner to close the loop. Feedback must be regularly scheduled rather than exclusively “on-the-fly,” and be substantive and specific to motivate the learner to continue improving.


• Encourage relationship building. Feedback should be given face to face, with a coaching focus so as to strengthen the bond between learner and teacher.


• Include follow-up to ensure that the learner is accountable for continuing to work on performance issues.


• Provide learners with directions and resources to improve, rather than just vague encouragement, and encourage the learners to identify their own strategies for improvement.


• Promote teacher self-reflection on the nature of the feedback conversation and ways of making it more effective.


인프라

Infrastructure


역량 기반 평가 시스템의 토대는 성취에 대한 일련의 기대치입니다.

The foundation of any competency-based assessment system is a set of defined expectations for achievement.


잘 정의 된 성취 마커의 토대 위에는 형식 중심의 평가 시스템을 지원하는 네 가지 기둥, 즉 교수 개발, 학습자 개발, 장기 어드바이저 및 코칭 프로그램, 문서 작성 방법이 있습니다.

On this foundation of well-defined markers of achievement stand four pillars to support the formatively focused assessment system: faculty development, learner development, a longitudinal advising and coaching program, and a method for documentation.

교수개발

Faculty development.


효과적인 학생 - 교사 관계를 구축하는 것은 최적의 학습에 필수적이며 이것은 명시적으로 가르 칠 수 있습니다 .34 피드백 전략은 학생 - 교사 관계를 구축하고 학습자가 개선을위한 자체 전략을 스스로 평가하고 개발하도록 도전해야합니다. ask-discuss-ask 피드백 프레임 워크는 이러한 목표를 달성하기 위해 고안되었습니다.

Building an effective student–teacher relationship is essential to optimal learning and can be taught explicitly.34 Feedback strategies should be tailored to building the student–teacher relationship and challenging learners to self-assess and develop their own strategies for improvement. The ask–discuss–ask feedback framework35 is designed to achieve these goals.


마지막으로 교수진은 비고츠키의 ZPD에서 "지식이 풍부한 타자"의 역할을 하도록 교육 받아야하며, 학생들이 자신의 "학습 장점"을 발견하고 공유하고 개선을 위해지도하도록 권장해야합니다.

Finally, faculty need to be trained in Vygotsky’s ZPD, to serve as the “knowledgeable other,” encouraging students to discover and share their “learning edge” and coaching them for improvement.



학습자 발달

Learner development.


피드백, 발달 및 성장주기에 참여하기 위해 의대생을 훈련시키는 과정은 학생들이 자신의 한계를 인정하고 피드백을 얻는 과정이 안전하며, 심지어 보상받는 것처럼 느끼는 학습 / 숙달 문화를 만드는 것으로 시작됩니다.

The process of training medical students to become engaged in the cycle of feedback, development, and growth begins with creating a learning/mastery culture where students feel safe, even rewarded, for acknowledging their limitations and seeking feedback.


종단적 학문적 조언과 코칭

Longitudinal academic advising and coaching.


우리가 제안하려는 시스템에는 교수들이 조언자(학생)에게 밀접하게 투자되고 학생이 교수를 가치있는 자원으로 보게되는 종단 학업 상담 프로그램은 필수적입니다. 어드바이저는 학생들의 총괄평가와 형성평가에 액세스 할 수 있으며 개별 학습 계획 (ILP)을 개발하는 데 도움을 줄 책임이 있습니다.

A longitudinal academic advising program, in which faculty members become closely invested in their advisees and students come to see faculty as valuable resources, is essential to our proposed system. Advisors would have access to students’ summative evaluations, as well as formative evaluations, and would be responsible for assisting them in developing individual learning plans (ILPs).38


교사와 학습자 사이의 신뢰 관계를 수립하는 것은 지속적인 장기간의 관계를 통해 달성되는데, 이는 주로 임상 코칭 프로그램보다 조언 프로그램에서보다 쉽게 ​​구현된다. 왜냐하면 학생은 로테이션 블록이 짧고, 교수들은 입원환자 블록이 짧기 때문이다.

establishing a trusting relationship between teacher and learner is achieved through sustained, longitudinal relationships, more easily implemented in an advising program than in a clinical coaching program, given the short curricular rotation blocks for students and shorter inpatient blocks for faculty.


그러나 많은 학교에서는 종일 학생 - 교사 경험을 구조화하는 것이 현실성이 낮다는 것을 발견했다,

However, many schools have not found it feasible to structure longitudinal student–teacher experiences,


UME에서 학생들에 관한 정보를 공유하거나 "forward feeding"에 관한 많은 논쟁이 있습니다. 어떤 사람들은 자기 실현적인 예언, 라벨링, 잠재적 인 낙인 찍힘의 위험에 대해 경고하고, 다른 사람들은 올바르게 끝나면 학생의 이익을위한 정보를 공유하는 것이 의미있는 종단 평가에 기여하고 더 나은 의사를 개발한다고 주장한다. 사실, 대다수의 내과 전임 강사가 승인했으며 학생 교육 전반에 걸쳐 형성 평가를 체계화하고 학습 결과에 대한 책임을 증진시키는 데 중요한 요소가 될 수 있습니다.

Much controversy surrounds sharing information about students, or “forward feeding,” in UME. Some have warned about the dangers of self-fulfilling prophecies, labeling, and potential stigmatization, while others argue that when done correctly, sharing information for the student’s benefit contributes to meaningful longitudinal assessment and develops better doctors.43–45 In fact, forward feeding has been endorsed by a majority of internal medicine clerkship directors46 and may be a critical element of systematizing formative assessment throughout a student’s education and promoting accountability for learning outcomes.


학습과 평가의 연속성을 일반화하는 한 가지 방법은 교사와 학습자 모두에게 정보를 전달하는 것입니다.

One way to generalize the continuity of learning and assessment is to charge both teacher and learner with carrying information forward.



문서화

Formative documentation.


학습 활동, 달성 된 역량 및 주어진 피드백에 대한 필수 문서화는 형식에 중점을 둔 평가 시스템에서 필수적입니다. 성적표는 요약 평가의 공식 문서로 사용되지만, 학습자가 심각한 어려움을 겪지 않는 한 조형 평가는 종적으로 문서화 될 가능성이 적습니다. 많은 사람들이 총괄적인 목적으로 엄격하게 사용되었지만 개발 능력을 문서화하기 위해 포트폴리오를 동등하게 사용할 수 있습니다.

Required documentation of learning activities, competence achieved, and feedback given is essential in a formatively focused assessment system. While the transcript serves as a formal documentation of summative assessment, formative assessment is less likely to be documented longitudinally unless a learner is experiencing serious difficulties. Although used by many strictly for summative purposes, the portfolio can be used equally for documenting developing competence.


자원

Resources


우리가 제안하는 대부분은 새로운 프로그램을 위해서 많은 자본 지출이 필요하다가보다, 문화적 변화에 대한 강력한 지도력과 관리 및 기존 인프라의 재구성이 필요하다.

Much of what we propose demands strong leadership and management of cultural change and a retooling of existing infrastructure, rather than a large outlay of capital for new programs.



결론

Conclusion


형성평가는 폐쇄 루프를 형성하는 여러 구성 요소를 포함하는 연속 프로세스로 간주되어야합니다. 

  • 관련된, 유용한 정보를 수집하는 것

  • 학생과 그가 상호 작용하는 모든 사람들간에 정보를 공유하는 것; 

  • 목표를 달성하기위한 지침 및 자원의 도움을 받아 자기 주도적으로 (그러나 면밀한 감독하에) 학습 목표를 개발

  • 목표를 달성하기위한 진전과 장벽을 파악하기 위해 정기적으로 후속 조치를 취해야합니다.

Formative student assessment must be seen as a continuous process involving several components forming a closed loop: 

  • collecting relevant, usable information; 

  • sharing that information between a student and all those with whom he or she interacts; 

  • developing self-directed (but closely overseen) learning goals along with guidance and resources for accomplishing these goals; and 

  • regularly following up to identify progress and any barriers to achieving those goals.


예를 들어, 코스가 끝날 때의 인터뷰에서 학생은 강점, 도전 과제 및 학습 목표를 공유하고 교수로부터 피드백을받을 수 있습니다. 학생들은 advisor과 만나서 다음 번 clerkship을 위한 학습 계획을 수립하고 교육용 PDSA주기의 일부로 그것을 공유하고 구현할 준비가되었습니다.

For example, in an interview at the end of a course, a student would share strengths, challenges, and learning goals and receive feedback from a faculty member. Students would then meet with their advisor to develop a learning plan for the next clerkship and arrive prepared to share it and implement it as part of their educational PDSA cycle.


흔히 인정되지는 않지만, 교육에서 지지되는 원칙과 임상 진료의 질적 향상의 원칙 사이의 유사점은 주목할 만하다. 학습자 중심 교육에 대한 관심으로부터 환자 중심의 치료에 대한 헌신은 어떻게 다른가요? 치료의 지속성과 조정은 우리가 환자의 회복뿐 아니라 학생의 발달에 관해 이야기 할 때도 마찬가지로 중요합니다. 평가 및 품질 관리는 시스템의 모든 요소가 동기화되어있는 경우와 격리 된 개인의 기술에 의존하기보다는 함께 일하는 전문가들 간의 팀워크가있는 경우에 가장 효과적입니다. 환자 중심의 치료와 학습자 중심의 교육 모두에서 성공적인 핸드 오프를 수행하고 지속적인 모니터링을 수행하는 방법을 아는 것이 중요합니다. 본질적으로, 의대생의 양질의 형성 평가는 좋은 약의 실습 그 이상이며, 우리가 임상에있는 것처럼 교육 분야에서 헌신적이어야합니다.

Although not often recognized, the parallels between the principles espoused here and those of quality improvement in clinical care are noteworthy. How different is a commitment to patient- centered care from a concern for learner- centered education? Continuity and coordination of care seem equally relevant when we talk about improvement of the student as well as recovery of the patient. Assessment and quality care both work best when all of the elements of the system are in sync, and when we have teamwork among professionals working together rather than relying on the skills of isolated individuals. It is crucial in both patient-centered care and learner- centered education to know how to conduct successful handoffs and engage in constant monitoring. In essence, quality formative assessment of medical students is little more than the practice of good medicine, and we should be as committed to it in the educational sphere as we are in the clinical.






12 Holmboe ES, Sherbino J, Long DM, Swing SR, Frank JR. The role of assessment in competency-based medical education. Med Teach. 2010;32:676–682.


15 Archer JC. State of the science in health professional education: Effective feedback. Med Educ. 2010;44:101–108.


16 Watling C, Driessen E, van der Vleuten CP, Vanstone M, Lingard L. Beyond individualism: Professional culture and its influence on feedback. Med Educ. 2013;47:585–594.


20 Holmboe ES. Realizing the promise of competency-based medical education. Acad Med. 2015;90:411–413.


22 Gunderman RB, Kanter SL. Perspective: “How to fix the premedical curriculum” revisited. Acad Med. 2008;83:1158–1161.


27 van der Vleuten CP, Dannefer EF. Towards a systems approach to assessment. Med Teach. 2012;34:185–186.


28 Dijkstra J, Van der Vleuten CP, Schuwirth LW. A new framework for designing programmes of assessment. Adv Health Sci Educ Theory Pract. 2010;15:379–393.


41 Hirsh DA, Holmboe ES, ten Cate O. Time to trust: Longitudinal integrated clerkships and entrustable professional activities. Acad Med. 2014;89:201–204.


42 Hauer KE, O’Brien BC, Hansen LA, et al. More is better: Students describe successful and unsuccessful experiences with teachers differently in brief and longitudinal relationships. Acad Med. 2012;87:1389– 1396.






 2016 Nov;91(11):1492-1497.

Focusing on the FormativeBuilding an Assessment System Aimed at StudentGrowth and Development.

Author information

1
L. Konopasek is designated institutional official, NewYork-Presbyterian Hospital and associate professor of pediatrics, Weill Cornell Medicine, New York, New York. J. Norcini is president and chief executive officer, Foundation for Advancement of International Medical Education and Research, Philadelphia, Pennsylvania. E. Krupat is director, Center for Evaluation, Harvard Medical School, Boston, Massachusetts.

Abstract

This Perspective addresses the need for an integrated system of formative and summative assessment in undergraduate medical education with a focus on the formative. While acknowledging the importance of summative assessment, which asks whether trainees have met criteria for progression, the authors propose that a formatively focused assessment system can best accomplish a central task of competency-based medical education: transmitting feedback to learners in a format and a manner that will help them to improve, develop, and grow. Formative assessment should not be seen as a set of singular events but, rather, as a process that is organized and integrated over time, much like the cycle of quality improvement in medicine. To justify this position, the authors discuss its conceptual underpinnings and rationale, including the need to prepare learners for the formatively focused assessment system of graduate medical education. Next, the authors identify assessment strategies that could be employed, as well as the characteristics of an institutional culture and the learner-teacher relationship necessary for a learner-centered, improvement-focused assessment system to succeed. Finally, an infrastructure for such a system is proposed. This consists of a foundation of well-articulated and disseminated milestones for achievement and four pillars: faculty development, learner development, longitudinal academic advising and coaching, and documentation of developing competence. The authors conclude by suggesting that the guidelines proposed are analogous to the principles of continuity and coordination of care, so much valued in the world of medicine yet often overlooked in the world of education.

PMID:
 
27028028
 
DOI:
 
10.1097/ACM.0000000000001171


오픈북 시험과 클로즈드북 시험 비교(Systematic Review) (Acad Med, 2016)

Comparing Open-Book and Closed-Book Examinations: A Systematic Review

Steven J. Durning, MD, PhD, Ting Dong, PhD, Temple Ratcliffe, MD, Lambert Schuwirth, MD, PhD, Anthony R. Artino Jr, PhD, John R. Boulet, PhD, and Kevin Eva, PhD




정보접근성이 쉬워지면서 CBE의 적절성에 대한 의문이 생긴다. 일부 학자는 시험은 외부 리소스를 찾고, 이해하고, 평가하고, 사용하는 능력을 평가해야한다고 주장합니다. OBE (Open-Book Examination)의 지지자는 OBE가 실전 연습에보다 정통하며 성공은 "단순 암기"가 아니라고 주장합니다. 1-3

This easy access to information raises fundamental questions about the adequacy of closed-book examination (CBE) practices commonly used by the health professions. Some scholars argue that any examination of relevance must assess the examinee’s ability to find, understand, evaluate, and use external resources. Such proponents of the open-book examination (OBE) argue that OBEs are more authentic to real-world practice and that success is not about “rote memorization.”1–3 


CBE를 지지하는 학자들은 전문가의 성과는 풍부하고 잘 조직화된 내용지식과 밀접한 관련이 있음을 발견 한 문헌을 인용합니다. 예를 들어 연구에 따르면 CBE에 대한 높은 수행 능력은 보다 나은 practice outcome과 관련이 있음을 발견했습니다 .5,6 또한 많은 경우 정보를 찾아볼 수 있는 능력은 (여러 환경적 요인 등으로) 제한된다

Scholars defending CBEs cite literature that has consistently found expert performance to be closely tied to rich, well-organized content knowledge of a subject. For example, studies have found that high performance on CBEs is associated with better practice outcomes.5,6 In many situations a physician’s ability to look up unknown information is restricted


To inform this issue, which affects the examination of physicians across the continuum of their careers, we conducted a systematic review of the literature comparing the two assessment strategies.


단순히 의사의 손끝에 더 많은 정보를 제공하는 것만으로는 치료가 개선되지 않을 수 있다. 왜냐하면 의사는 어떤 것을 찾아봐야 할지에 대한 지식이 있어야 하고, 새로운 정보를 기존의 경험과 통합시킬 수 있어야 하기 때문이다. 따라서 정보 기술에만 의존하게되면 인지 부하 (즉, 정신적 노력)가 악영향을받을 수 있고 정보 학습 및 critical appraisal 능력이 저하되며 궁극적으로 환자의 건강을 해칠 수 있습니다 .7

Merely putting more information at a physician’s fingertips is, therefore, not likely to result in improved care because the physician needs knowledge to guide his or her search and to integrate new information with previous experience. Thus, reliance on information technology could detrimentally increase cognitive load (i.e., mental effort), decrease learning and critical appraisal of information, and ultimately harm patient care.7 



방법

Method


 

범위 Scoping search


Systematic review


We followed PRISMA Guidelines8 and guidelines provided in the medical education literature.9 We limited our search to full-length, published, peer- reviewed, English-language journal articles involving learners in either descriptive reports or educational interventions, using any study design related to our research questions. We further limited the papers reviewed to those that empirically compared (either directly or indirectly) OBEs and CBEs.


We used a data collection form (Supplemental Digital Appendix 2, http:// links.lww.com/ACADMED/A310) to rate each article. This form was constructed based on the findings of our scoping review and refined through conference calls among the authors.


We structured the outcome categories according to the themes that were generated from our scoping review. We report them here in the sequence in which they would occur in the testing process:

  • (1) examination preparation,

  • (2) test anxiety,

  • (3) exam performance,

  • (4) psychometrics and logistics,

  • (5) testing effects, and

  • (6) public perception.

Any article could have multiple outcomes and was reviewed for relevant themes by two of the study authors.



The quality of each manuscript was examined by addressing the extent to which the research found was fit for purpose. This was done by having each reviewer code the manuscript for the presence of explicit research questions, hypotheses, conceptual and/or theoretical frameworks, and by recording additional quality judgments. Reviewers used a five- point rating scale (1 = strongly disagree, 2 = disagree, 3 = neutral, 4 = agree, 5 = strongly agree) to assess four domains:

  • trustworthiness of findings,

  • study rigor,

  • implementation of study findings, and

  • appropriateness of data analysis.

 

These latter judgments were made in relation to the degree to which each study effectively addressed a research question comparing the relative benefits of OBEs versus CBEs.


 

결과

Results


The frequency with which outcomes were identified was as follows:
  • (1) exam preparation (n = 20; 54%);

  • (2) test anxiety (n = 14; 38%);

  • (3) exam performance (n = 30; 81%);

  • (4) psycho- metrics and logistics (n = 5; 14%);

  • (5) testing effects (n = 13; 35%); and

  • (6) public perception (n = 5; 14%).



연구 퀄리티

Study quality


Overall, the quality of the articles included in our review was deemed to be adequate for our purpose. Explicit research questions were presented in 31 articles (84%), hypotheses were stated in 14 (38%), and hypotheses were justified in 10 (27%). Conceptual and/or theoretical frameworks were described in 7 articles (19%).



연구 맥락

Study context


  • Thirty-four investigations (92%) were single-institution studies.

  • Nearly half were performed in the United States (n = 18; 49%).

  • Other locations included the Netherlands (n = 5; 14%), the United Kingdom (n = 4; 11%), Greece (n = 3; 8%), and Australia (n = 2; 5%), and 1 study (3%) was included from each of the following locations: Canada, Denmark, Norway, Africa, and Israel.


대부분 대학생

The majority of studies pertained to college-level students (n = 24; 65%); 2 studies investigated high school students (5%); 8 investigated medical students (22%; 2 of these were multi- institutional); 2 investigated other postcollege instructional settings (5%); and 1 study (3%) included practicing physicians.

 

대부분 중-부담 시험

For the majority, the stakes of the examination were rated as medium (n = 21; 57%) in that the assessments were generally end-of- course examinations. Two (5%) were considered high-stakes, being equivalent to national licensing examinations. Few studies included a formal incentive (e.g., extra credit or a small payment) (n = 6; 16%) to participants beyond earning a course grade.


 

시험 준비

Exam preparation


종합해보면, 시험 준비 시간은 CBE에서 더 길었다.

In terms of preparation time, findings were inconsistent across studies, but in sum appear to favor CBEs.


시험 준비 시간이 길다는 것은 (학습이 향상되었음을 보여주는 대리지표라기보단) 사전에 학습자료와의 engagement가 불충분했다는 의미일 수 있다.

Of note, an increase in preparation time could indicate insufficient prior engagement with the material rather than being a proxy for improved learning and performance.15


OBE나 CBE에서 학습전략이 달라지지 않았다.

Reviewing the articles examining preparation strategy revealed that students did not change study tactics for OBEs versus CBEs,16,17 and no correlation between test format and deep versus surface learning approaches was found.17


학생이 어떻게 시험준비를 하는지는 CBE나 OBE나 차이가 별로 없다. 차이가 있었을 경우에는, 참가자들은 CBE일 때 더 공부하였다.
Thus, research exploring exam preparation was equivocal with respect to whether students prepare differently (or at greater length) for CBEs or OBEs. When differences did exist, they tended to show that participants studied more when they expected a CBE.



시험 불안

Test anxiety


감정은 인지 능력에 영향을 미친다. 부정적인 감정은 한때 성과에 독점적으로 해로운 영향만을 미쳤다고 생각되었지만 감정의 현대 이론은 그러한 가정이 지나치게 단순하다는 것을 암시한다. 예를 들어, 불안과 같은 부정적인 감정은 실제로 학생이 CBE는 OBE를 준비중인 스트레스를받지 않는 학생과 비교했을 때 뛰어난 성능을 나타낼 수 있습니다. 그럼에도 불구하고 시험 불안감을 줄이는 것이 종종 OBE를 고려한 첫 번째 동기라고보고됩니다. 그러나 우리의 연구 결과에 따르면, 불안 효과는 일반적으로 연구의 주요 목적 (부록 1 참조)과 관련하여 2 차적 문제로 조사되었으며, 감정을 평가 한 모든 연구에는 이론적 근거가 부족한 것으로 나타났습니다.

Emotions affect cognitive performance.44 Although negative emotions were once thought to have exclusively deleterious effects on performance, contemporary theories of emotion suggest that such an assumption is overly simplistic.45 For example, a negative emotion like anxiety might actually motivate a student to study for a CBE, which could result in superior performance when compared with an unstressed student preparing for an OBE. Regardless, reducing test anxiety is often reported to be a primary motivation for considering OBEs. Our findings indicate, however, that anxiety effects were typically examined as a secondary issue relative to a study’s primary purpose (see Appendix 1), and all studies that assessed emotions lacked a theoretical grounding.


 

학생들이 OBE 또는 부분적인 OBE (즉, 학생들이 원하는 자료에 액세스하지 않고 "치트 시트"와 같은 준비된 자료를 가져올 수있는 시험)자신의 불안을 줄이는 효과가 있다는 것을 과대 평가할 수 있다는 증거가 있습니다. 여러 연구에 의하면 학생들은 덜 우울한 태도로 OBE를 연관 시키지만, 소수의 학생 만이 실제로 불안감을 덜보고한다고 제안하고있다 .24,28 더 어려운 문제가 출제될 것이라는 생각은 학생들에게 불안감을 유발할 수 있습니다 .19

Evidence suggests that students may overestimate the effect that OBEs or partial OBEs (i.e., exams in which students can bring some prepared material like a “cheat sheet” rather than having access to any desired material) have on reducing their anxiety. Several studies suggest that students associate OBEs with less anxiety,16,27,28 but only a minority of students actually report lower anxiety.24,28 It has been suggested that certain aspects of OBEs, such as the belief that examiners will choose questions of greater difficulty, can be anxiety provoking for students.19


 

종합하면, 이러한 결과는 OBE가 불안을 ​​줄이는데 미치는 영향을 과대 평가할 수 있으며 잠재적으로 성적을 향상시킬 수 있음을 시사합니다. 불안 효과를 조사하기위한 방법과 분석에 대한 보고가 불완전하지만, 이러한 영향은 현존하는 연구의 afterthought로 탐구되며, 이론적 인 근거가 부족합니다.

On balance, these findings suggest that students may overestimate the impact that OBEs have on reducing their anxiety and, by extension, on potentially improving their performance. Not only was the reporting of methods and analyses for examining anxiety effects incomplete, but these effects are often explored as an afterthought in extant studies, and they lacked theoretical grounding.



시험 수행능력

Exam performance




가장 일반적인 결과는 학습자의 OBE 대 CBE 성취도 (부록 1)와 비교 한 시험 수행이었다. 직관적으로, 수험생이 책을 찾아볼 수 있기 때문에 OBE 성적이 더 좋을 것이라고 기대할 수 있습니다. CBE를 반대하는 사람들은 OBE 형식이 본질적으로 난이도를 낮추는 것은 아니지만 대신 시험에서 지식을 적용 할 수있는 능력에 대한 질문에 초점을 맞추도록 (즉, 간단히 책을 찾아서는 알 수 없는 것을 테스트하는) 하는 장점이 있음을 강조한다.
The most common outcome explored was examination performance, defined as comparing learners’ achievement on OBEs versus achievement on CBEs (Appendix 1). Intuitively, one might expect that examinees would perform better on OBEs because they have the capacity to look up answers. Opponents suggest that the OBE format does not inherently lessen difficulty but, instead, frees the examiner to focus questions on the test taker’s ability to apply knowledge (i.e., testing what cannot simply be “looked up”),



시험 성과를 결과로 고려할 때 두 가지 주의 사항이 주목할 만하다.

  • (1) 대부분의 연구에서 학생들은 OBE에 대한 경험이 거의 없었습니다.

  • (2) 시험 성적은 문제의 난이도 등에 따라 달라지므로 성과로서 평가하기에 어려운 부분이 있으며, 다만 OBE의 일부 지지자는 강사가 다른 스타일 또는 다른 포커스의 문항을 출제할 수 있는 점을 강조한다.

Two caveats are noteworthy when considering exam performance as an outcome: (1) In most studies, students had little to no experience with OBEs—only one study21 that addressed examination performance reported that students had prior OBE experience; and (2) exam performance is a challenging outcome to study because the difficulty of an exam depends on the questions asked, and some proponents of OBE argue that its main advantage is enabling instructors to pose questions with a different style or focus.



대부분의 시험은 MCQ 형식 이었지만 일부는 에세이 및 / 또는 짧은 대답이었습니다 (부록 1). 전형적으로, 수험자의 성과에서 중요한 차이는 발견되지 않았고, CBE (30,34,38)에서 성과가 더 좋았다 (부록 1).

The majority of the examinations were MCQ format, but some were also essay and/or short answer (Appendix 1). Typically, no significant difference in examinee performance was found,30,34,38 or performance was better on CBEs (Appendix 1).


결론적으로 CBE에서 시험성적이 더 높은 것처럼 보입니다. 그러나 OBE에 대한 경험이 비교적 적은 것과 두 시험에서 나타나는 시험 준비의 차이는 학생들에게 OBE에 대해 더 알려주거나, 연습시험을 제공하여 OBE에서의 학업성취를 향상시킬 수 있음을 제시한다. 학생들이 OBE에서 잘 하기 위해서는 무엇이 필요한지에 대한 right expectation을 가져야 한다고 언급했다.

In sum, studies comparing exam performance appear to favor CBEs. However, the combination of relatively little experience with OBEs and the differences in exam preparation noted in several investigations highlighted in this section leave open the possibility that OBE performance could be improved through instructing students about OBEs or providing practice tests. On this point, three sets of authors indicated that students need to have the right expectation for what it takes to do well on OBEs.19,21,24



Psychometrics 과 로지스틱스

Psychometrics and logistics


연구에 따르면 일반적으로 검사의 validity는 형식보다 내용에 따라 결정됩니다 .46-48
Research has generally shown that the validity of a test is determined more by the content of the questions included than by the examination format.46–48


실제로 문항 수를 일정하게 유지하면서 테스트 형식에 대한 안정성을 비교하는 것이 현실적이지 않을 수 있습니다. 시험을 치는 데 필요한 시간에 미치는 영향에 대해 CBE와 OBE를 비교 한 3 가지 연구에서 OBE를 완료하는 데 10 % ~ 60 % 더 오래 걸리는 것으로 나타났습니다 .10,30,32 따라서 시험시간의 양을 제어하는 ​​경우, OBE 형식에서의 문항이 더 줄기때문에 CBE 형식 시험의 신뢰도가 높아질 수 있습니다.

In practice, it may not be realistic to compare reliability across test formats while keeping the number of items constant. Three studies that compared CBEs with OBEs with respect to their influence on the time required to take the test found that students took 10% to 60% longer to complete OBEs.10,30,32 Thus, if one controls for amount of testing time, it is likely that fewer questions would be asked in OBE format, and, hence, the reliability of the equivalent CBE-formatted exam can be anticipated to be higher.



시험 효과

Testing effects


 

Testing effect는 시험을 본느 것 자체로 후속 성과가 향상되는 것을 말한다. 이러한 향상은 간접적인 방법 (예 : 공부하도록 유도하는 등) 또는 직접적인 방식으로 나타난다(참가자가 단순히 공부만 할 때보다 시험을 보는 과정에서 자료가 더 memorable하게 됨). study group보다 tested group이 성적이 더 좋은 걸 보여줘서 확인가능하다. 이 testing effect는 여러 분야에서 확인되었습니다.

Testing effects occur when taking an exam improves subsequent performance. Such benefits can arise in indirect ways (e.g., being prompted to study) or from direct effects of the material becoming more memorable when participants are tested on it than when they simply study for a test.49 The testing effect is demonstrated when the tested group outperforms the study group on a subsequent outcome exam. This testing effect (test-enhanced learning) has been well documented in multiple fields.50


 

CBE의 지지자들은 학습이란 기억의 능동적 구성이라고 주장하며, 문제에 답하기 위해서 외부 자료에 의존할 때는 발생할 가능성이 낮다고 주장한다. OBE 지지자들은 OBE에서는 단순암기가 강조되지 않기 때문에 OBE가 지식을 적용하는 능력을 향상시킬 수 있다고 주장합니다.

Proponents of CBE argue that learning requires active construction of memory that is less likely to occur when one relies on external resources to answer test questions. OBE proponents argue that OBEs may enhance the ability to apply knowledge because rote memorization is not emphasized.



OBE와 CBE 모두에서 시험 효과가 나타난다. OBEs와 CBEs를 비교 한 4 개의 연구는 testing effect가 두 방식에서 거의 동일 함을 보여 주었다.

Both OBE and CBE demonstrate testing effects (Appendix 2). Four studies comparing OBEs and CBEs demonstrated testing effects that were roughly equivalent10,13,31,37 (Appendix 2).

  • The testing effect of CBEs was superior in one study.12 These researchers demonstrated that during a summative CBE participants performed worse on material covered by an OBE intervention relative to a CBE intervention.12

Testing effects는 시험 형식과 관계 없이 나타난다. 이것은 학생들의 collective self-perceptions 는 testing effect에 대한 연구결과와는 반대로 나타난다는 기존 연구 결과와도 부합하는 것이다. 학생들은 OBE든 CBE든 시험을 보는 것보다 공부만 하는 것studying alone이 더 효과적인 준비라고 느꼈다.

Testing effects were observed regardless of examination format. Consistent with prior studies, students’ collective self-perceptions ran counter to the empirical finding that testing effects occur regardless of test format; students felt that studying alone was more effective preparation than taking either an OBE or CBE.31



공공의 인식

Public perception


연구에 따르면 학습자는 CBE보다 OBE에 대해 긍정적인 인식을 가지고 있음을 보여줍니다. 반면에 학생들은 OBE 문제가 더 어렵고 OBE 형식에 대한 추가 연습이나 훈련이 필요하다고도 의견을 말했습니다 .17

Studies suggest that learners have a more positive perception of OBEs over CBEs.2,17,19,22 On the other hand, students also commented that OBE questions were more difficult and that they desired additional practice or training for the OBE format.17


교사들은 종종 OBE도입에 반대한다. 교사들은 OBE를 준비하는 과정에서 resource가 더 필요하다는 것, 그리고 OBE 준비에 요구되는 추가 시간에 대해 우려했다 .2,22

Teachers’ views often challenged the implementation of OBEs.17,23 Teachers expressed concerns over the increased resources associated with preparing OBEs, as well as the perceived additional time required for learners to take OBEs.2,22


 

고찰

Discussion



연구 분야 (예 : 의학 교육 대 교육)와 콘텐츠 수준 (예 : 대학생 대 대학원생))에 따라 OBE와 CBE 사이의 체계적인 차이점은 없었다. 연구를 하기 전에는 결과는 모호했다. 테스트 형식이 outcome에 영향을 미친다면, 사람들이 CBE를 볼 때에 많이 준비한다는 주장이 옳아야 한다. 이것은 학생들이 OBE를 볼 때 불안이 줄어들 것으로 기대하기 때문인데, 실제로 불안이 줄어드는 것으로 보이지는 않는다.

The studies we reviewed were generally of adequate quality for the questions addressed, and we did not identify any systematic differences in the use of OBE versus CBE by the field studied (e.g., medical education versus education versus other) or level of content (e.g., graduate versus undergraduate student). Prior to the examination, findings were equivocal; if test format does affect outcomes, it favors the argument that people prepare more for CBEs. This may be driven by the finding that students anticipate lessened anxiety with OBEs even though this does not appear to translate to actual experiences of lessened anxiety.

 

학생들은 OBE 시험을 보는데 데 더 오랜 시간이 걸리며, 시험 시간이 일정하다면, 이것은 신뢰도에 영향을 줄 수 있있고, 또는 동일한 신뢰도의 시험에 필요한 시간에도 영향을 줄 수 있다. 시험 성과에 대해서는 CBE에서 더 성과가 높았는데, 특히 학습자가 OBE보다 CBE를 준비하는 데 더 많은 시간을 할 경우 그러하였다. CBEs와 OBEs의 postexamination 결과와 관련하여, 우리는 testing effect 또는 public perception의 차이에 대한 확실한 증거를 찾지 못했다. 즉, 사람에 따라서는 "만약 인터넷에서 찾아봐야 뭘 알수 있는 사람이라면, 어떻게 전문가라 부를 수 있나?"라고 우려하는 환자가 있을 수 있다.

During the examination, examinees appear to take longer to complete OBEs, which could either influence the test’s reliability, if testing time is kept constant, or influence the length of time that must be offered to candidates to complete an equally reliable exam. Studies addressing examination performance favored CBEs, particularly when learners reported spending more time preparing for CBEs than for OBEs. With respect to postexamination outcomes of CBEs and OBEs, we did not find robust evidence for differences in testing effects or public perception. That said, one might imagine concerned patients who wonder, “How can you be an expert if you need to look things up on the Internet?”51



 

어떤 유형의 시험을 사용하는가는 학습성과나 수행능력성과에 따라서 결정되기보다는 로지스틱한 한계에 의해서 결정될 수 있으며, 또한 실제 진료상황에서는 어떻게 하게되는지에 대한 authentical representation을 위해서 결정될 수도 있다. OBE와 CBE 모두 testing effect가 있었기 때문에, 그리고 학생들의 testing effect에 대한 인식은 연구결과와 정반대로 나오기 때문에, 관련된 질문은 'testing effect를 최대화하기 위해서는 얼마나 자주 시험을 봐야 하는가'이다.

The type of examination used might need to be based less on learning and performance outcomes and more on logistical limitations, as well as the desire to authentically represent what individuals do in practice. Given that we found evidence of the testing effect under both OBE and CBE conditions, and that participants’ perceptions of testing effects run counter to empirical findings, a related question is how often an individual should be examined to maximize testing effects.



고부담시허에서 시험기간 동안 인터넷을 사용하게 하는 것은 시험보안에 위협이 된다. 동시에 제한된 수의 웹-기반 외부자료를 정해주는 것은 authenticity를 떨어뜨려서, 선택한 tool에 덜 익숙한 응시생에 불이익을 줄 수 있고, 시험을 치르는 동안 technical difficulties가 발생하면 공정성에도 영향을 준다. 또 다른 feasibility 문제로는 웹-기반 resource를 허용하는데 필요한 비용이며, OBE에서 동일한 신뢰도를 얻기 위에 필요한 추가적 비용이다.

It is challenging for high-stakes testing organizations that value test security to allow learners to have unrestricted access to the Internet during an exam.53 At the same time, choosing a limited number of Web-based external resources erodes authenticity, could disadvantage examinees who are less familiar with the chosen tools, and potentially affects fairness if technical difficulties arise during an examination. Additional feasibility questions include the cost of allowing Web-based resource access and the additional time required to achieve the same reliability with OBE relative to CBE. Issues such as cost and fairness have not been addressed in prior investigations.



authenticity와 관련해서, 지금까지는 '고부담'시험에 대한 연구가 거의 없었다. 정보검색능력이 의사에게 중요한 능력이라는 것에 대해서는 이론의 여지가 별로 없으나, OBE가 CBE보다 더 쉽다는 인식이 있을 수 있다. ABO의 발췌문

In terms of authenticity, the studies conducted to date have rarely looked at “high-stakes” assessment. Although there is good reason to argue that a physician’s ability to find information is an important skill to maintain, there can be a perception that OBEs are easier than CBEs. Although studies are lacking, an excerpt from the American Board of Ophthalmology regarding changes to their recertification examination captures the sentiment of many:


The decision to change from an open- book, take-home examination to a closed-book, computerized proctored examination was based primarily on the recognition of the value of the certificate within the public domain … state medical licensing boards are increasingly asking for a proctored(감독받는) examination.54



proctored exam을 선호하는 것이 OBE가 덜 엄격하고 validity가 낮다는 인식을 나타낸다.

We believe this preference is indicative of the perception that OBEs are perhaps less rigorous and/or less valid than a proctored examination.



OBE와 CBE는 서로의 장단점을 보완하기 때문에 부분적으로 평가 프로그램에 기여할 수 있습니다. OBE는 CBE의 대안으로 생각되어서는 안되지만, OBE의 가치는 CBE가 측정하는 것 이상에 있습니다. 예를 들어, 인터넷에서 정보를 찾는 "기술"을 평가하는 것은 CBE를 달성하기 어려울 것이다. 따라서 전략은 신뢰도를 손상시키지 않으면서 이러한 다양한 "기술"을 탐구하기 위해 OBE와 CBE를 결합 할 수 있습니다. 더욱이, testing effect와 관련하여 몇 번의 시험을 봐야 가장 적절한지의 문제는 아직 최적화되지 않았습니다. 의무적이지만 ungraded OBE는 학습자 불안을 크게 증가시키지 않으면서도 testing effect를 유도할 수 있다. 많은 인증 기관이 시행하는대로 매 10 년마다 한 번씩 시험을 치르는 것으로는 시험의 교육적 효과를 극대화하거나, 지속적인 전문직 개발의 습관 유도할 수 없다. 또한 OBE 항목을 부분적으로 포함시킴으로써 authenticity를 향상시킬 수 있으며, '찾아봐야만 안다'라는 식의 낙인stigma을 줄일 수 있다.

OBEs and CBEs can contribute to an assessment program in part because of their complementary pros and cons. OBEs should not be thought of as an alternative to CBEs, but their value may be in expanding beyond what is measured by CBEs. For example, exploring the “skill” of looking up information on the Internet seems unlikely to be accomplished through CBE. A strategy, therefore, could be coupling OBEs with CBEs to explore these different “skills” without compromising reliability. Furthermore, testing effects are not currently being optimized given the infrequency of examinations. A series of mandatory but ungraded OBEs might help to improve aspects of these processes, such as capitalizing on the testing effect without dramatically increasing learner anxiety. One examination each decade, as is practiced by many certifying bodies, is unlikely to maximize the educational impact of testing or induce habits of continuous professional development. Further, by including some OBE items, the opportunity for improving authenticity and reducing the stigma with the need to look things up could be leveraged.




Conclusions







 2016 Apr;91(4):583-99. doi: 10.1097/ACM.0000000000000977.

Comparing Open-Book and Closed-Book Examinations: A Systematic Review.

Author information

  • 1S.J. Durning is professor of medicine and pathology, Uniformed Services University of the Health Sciences, Bethesda, Maryland. T. Dong is assistant professor of medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland. T. Ratcliffe is assistant professor of medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland. L. Schuwirth is professor of medical education, Flinders University, Bedford Park, South Australia, Australia, and professor for innovative assessment, Maastricht University, Maastricht, the Netherlands. A.R. Artino Jr is professor of medicine, Uniformed Services University of the Health Sciences, Bethesda, Maryland. J.R. Boulet is vice president of research and evaluation, Foundation for Advancement of International Medical Education and Research, Philadelphia, Pennsylvania. K. Eva is professor of medicine, University of British Columbia, Vancouver, British Columbia, Canada.

Abstract

PURPOSE:

To compare the relative utility of open-book examinations (OBEs) and closed-book examinations (CBEs) given the rapid expansion and accessibility of knowledge.

METHOD:

systematic review of peer-reviewed articles retrieved from MEDLINE, ERIC, Embase, and PsycINFO (through June 2013). In 2013-2014, articles that met inclusion criteria were reviewed by at least two investigators and coded for six outcome categories: (1) examination preparation, (2) test anxiety, (3) exam performance, (4) psychometrics and logistics, (5) testing effects, and (6) public perception.

RESULTS:

From 4,192 identified studies, 37 were included. The level of learner and subject studied varied. The frequency of each outcome category was as follows: (1) exam preparation (n = 20; 54%); (2) test anxiety (n = 14; 38%); (3) exam performance (n = 30; 81%); (4) psychometrics and logistics (n = 5; 14%); (5) testing effects (n = 24; 65%); and (6) public perception (n = 5; 14%). Preexamination outcome findings were equivocal, but students may prepare more extensively for CBEs. For during-examination outcomes, examinees appear to take longer to complete OBEs. Studies addressing examination performance favored CBE, particularly when preparation for CBE was greater than for OBE. Postexamination outcomes suggest little difference in testing effects or public perception.

CONCLUSIONS:

Given the data available, there does not appear to be sufficient evidence for exclusively using CBE or OBE. As such, a combined approach could become a more significant part of testing protocols as licensing bodies seek ways to assess competencies other than the maintenance of medical knowledge.

PMID:
 
26535862
 
DOI:
 
10.1097/ACM.0000000000000977
[PubMed - indexed for MEDLINE]


그룹활동에서 "나" 평가하기: 현황과 권고(Med Teach, 2016)

Assessing the ‘‘I’’ in group work assessment: State of the art and recommendations for practice

Joost Dijkstraa,e, Mieke Latijnhouwersb,e, Adriaan Norbartc,e and Rene A. Tiod,e


aMaastricht University, Maastricht University Office, Maastricht, the Netherlands; bRadboud University Medical Center Nijmegen, Radboudumc Health Academy, Nijmegen, the Netherlands; cLeiden University Medical Center, Leiden, the Netherlands; dDepartment of Cardiology and Center for Educational Development and Research in Health Professions, University Medical Center Groningen, Groningen, the Netherlands; eSpecial Interest Group on Assessment of the Netherlands Association for Medical Education (NVMO)





Introduction


의대생은 전문가가되기 위해 훈련을받으며 팀에서 함께 일해야합니다. 따라서 의학 교육에서 '협력자collaborator’’ '의 역량 역할을 다루는 것이 중요합니다 (Frank et al 2015).

Medical students are trained to become professionals, who must work together in teams. It is therefore important to address the competency role of ‘‘collaborator’’ in medical education (Frank et al. 2015),


  • 집단 작업 평가Group work assessment는 이 역량을 평가하는 가장 보편적 인 방법이며 (Epstein & Hundert 2002), GW는 학습에 여러 가지 이점이있다. 깊이 있고 적극적인 학습 (Davies 2009), 지식 성과, 팀워크 기술 및 상호 작용 향상 (McMullen 외 2014) 및 직원 및 학생 만족도 향상 (Zgheib 외. 2010).

    Group work assessment is the most common way of assessing this com- petency (Epstein & Hundert 2002) and Group work has multiple advantages for learning. It leads to deep and active learning (Davies 2009), increased knowledge outcomes, teamwork skills and interactivity (McMullen et al. 2014) and staff and student satisfaction (Zgheib et al. 2010).


GW평가에서 그룹 전체는 종종 그룹 작업 (예 : 종이, 발표, 포스터)의 결과 인 그룹 제품에 대해 단일 등급을받습니다 (Cheng & Warren 1999) .
In group work assessment, the group as a whole often receives a single grade for a group product, which is the out- come of the group work—for example, a paper, a presenta- tion, a poster (Cheng & Warren 1999).


 

그룹 프로세스가 면밀히 모니터링되지 않고 개별 학생의 기여가 확인되지 않은 경우 (Watson et al., 1993), 개별 학생의 그룹 점수의 유효성에 대한 문제가 제기 될 수 있습니다. 무임승차자는 그룹 활동에 노력을 기울이지 않지만 다른 사람들의 과업에서 과도하게 이익을 얻기를 희망하는 학생으로 정의됩니다. 질문은 다음과 같습니다 : 우리는 그룹 작업에서 개별 구성 요소를 확인하고 이를 평가 기준에 포함시킬 수 있습니까? 그룹과제을 평가 할 때 accountability에 대한 걱정이 생기는 이유는 주로 개인 기여가 평가되는 방법이 불분명하기 때문이다
When group processes are not closely monitored and contributions of individual students not identified (Watson et al. 1993), the validity of group scores for individual students may be challenged. Free riders are defined as students who do not put effort into group work but hope to benefit excessively from the work of others. The question is as follows: can we identify the individual component in group work and include this in the assessment criteria? Worries about accountability arise when dealing with group assignments, mainly because it is often unclear how individual contributions are assessed.


Methods



주요 포함기준

Main inclusion criterion:

  •   Assessment of the individual component of group work is described


추가 포함기준

Additional inclusion criteria:

  •   The type of group work is described in sufficient detail

  •   Grading/judgment procedures/criteria are described in sufficient detail

  •   Publication in English

 

 


Results



Thirteen articles met our inclusion criteria. During an additional citation search, we identified one (Spatar et al. 2015) that cited several of the articles selected and fitted all our inclusion-criteria. We included this paper and ended with a total of 14 articles.


The results from the literature review and the question- naire are presented regarding tools, criteria, and procedures, respectively. Characteristics of the 14 selected studies are described and summarized in Table 1.


 

 

평가도구 Tools


동료평과와 자기평가를 대부분 같이 사용

In most studies, the individual component was assessed using peer and/or self-assessment: 12 studies used peer assess- ment, seven of which in combination with self-assessment.



교사가 관찰하지 못하는 부분을 평가하기 위해서 뿐만 아니라, 동료를 평가하면서 배울 수 있게 하려는 교육적 이유도 있다.

Evaluation by peers was not only utilized to assess aspects that cannot be observed directly by teachers (not-ably collaboration in the group) but also for educational reasons, as students learn through the evaluation of the assignments of peers. 


평가준거 Criteria


 

 

process 또는 product가 별도의 기준으로 사용되곤 하지만, 더 흔한 경우는 ‘‘contribu-tion to the group work.’’ 라는 식으로 명명되는 것이었다. 그러나 이 'contribution'이 무엇인지는 잘 정의되지 않았다.

In our review, we found that in peer assessment, process or product were seldom used as separate criteria to evaluate individual students but more often framed as the ‘‘contribu-tion to the group work.’’

  • This concept of contribution was poorly defined in eight of the 14 studies.

  • The other six used well-described criteria or rubrics regarding the group pro-cess.

  • The study by Lejk and Wyvill describes a set of six cri-teria plus keyword indicators (Lejk & Wyvill 2001, 2002)

  • that is also used by Sharp (2006), such as motivation, adaptabil-ity, creativity, communication skills, general team skills, and technical skills.

  • Strom et al. describe a set of 25 criteria on collaboration skills (Strom et al. 1999).

  • In the remaining 10 studies, students were asked to judge the contributions in a more holistic manner.


holistic judgment 가 준비과정에서 이뤄지기도 한다. 학생에게 출석/노력/책임감 등을 성찰하게끔 시키기도 한다.

This holistic judgment was sometimes preceded by some preparation by the students.

  • Students were, for example, instructed to reflect on a set of behavior-related questions, for example, concerning peer attendance,effort, responsibility (Dingel & Wei 2014).

  • Another way of assessing individual contributions is described by Tucker who used a validated instrument using specific and well-described aspects of group work combined with a more holistic approach (Tucker 2013). 


다양한 사례들

  • In only one study, specific teamwork skills were described and used for individual assessment (Strom et al.1999).

  • In the wiki study by Caple and Bogle (2013), specific aspects of the process were assessed using the Wikispace platform: a History tab revealed the evolution of the page over the duration of the project (and the student respon-sible for each edit); and the Wiki Statistics function collated every contribution/edit made by an individual member(Caple & Bogle 2013).

  • In the study by Kuisma (2007), a port-folio was used for individual grading, and hence, in this case, only reflection on own learning and no peer assess-ment was used.

  • The content of the portfolios was graded using the SOLO taxonomy (Biggs & Collis 1982).

  • Finally, in one study, explicit criteria for evaluating the end product, a presentation, were mentioned. These, as well as a weighting scheme were negotiated with the class (Knight 2004). 


그룹 과제에 추가로 개인별 과제를 주고, 이를 기반으로 평가하기도 한다. 예를 들면 결과물 발표의 일부를 담당하게 하여, 개개인이 발표와 관련하여 질의응답 하도록 함.

Other ways to identify an individual component mentioned were based on assessing an additional individual task related to the group assignment. For example, being responsible for a part of the presentation of results of the group work, or individually answering questions regarding the presentation.



Box 1. Recommendations for group work assessment*


1. GW에 적합한 과제 Develop tasks that are suited for group work

  •    collaboration is beneficial for the result (big enough tasks e.g.)

  •    related to a collaborative process in professional practice (realistic/ authentic) 

2. 그룹 구성에 관심갖기 Pay attention to group composition

  •    limited group size may diminish the risk of free riding 

3. 학습목표와 평가기준에 '협력'을 넣기 Incorporate collaboration in the learning objectives and assessment criteria 

4. 능숙한 교사가 '그룹 프로세스'에 관심을 갖고 가이드하기(결과에만 집중하지 않기) Provide attention and guidance to the group process by skilled and experienced teachers (do not focus merely on the resulting product) 

5. 그룹 프로세스를 '정기적'으로 평가하기 Evaluate the group process periodically, not only after finishing the task 

  •   give opportunity to use feedback to improve group process and product 

6. GW의 평가에서 개인별 요소를 구분하게 하여, 개개인의 퍼포먼스를 인정해주고, 무임승차를 억제하기 Distinguish an individual component in the assessment of group work in order to acknowledge individual performance, as well as to discour- age free-riding 

7. 학생을 피드백과 평가에 참여시키기 Involve students in feedback and assessment 

  •    provide clear guidelines and criteria (rubrics) at the start of the group work

  •    apply self- and peer feedback/peer assessment



평가절차 Procedures


개인별 점수: 단순한 것부터 복잡한 것까지

The individual grade was most often based on an algorithm taking peer and/or self-assessment into account.

These procedures varied in complexity ranging from a holistic view (Lejk & Wyvill 2001, 2002) to a com- plex procedure—which

  • normalized raw peer ratings,

  • calcu- lated individual weighting factors,

  • partially corrected for inter-rater agreement and

  • constrained above-average con- tributions (Spatar et al. 2015).


 

대체로 Summative 한 특성이 있지만, 일부에서는 narrative feedback을 제공하게 하였고 이는 학생에게 유용하다.

Respondents to the survey reported a summative nature of group work assessment as the main purpose in all but one institution. of were Summative assessments group assignments reported to provide students with a qualification and also some kind of narrative feed-back (written or oral, provided standard or on request). Such narrative feedback may provide students with useful input for future learning. 



GW평가에서 무임승차자가 잠재적 문제였지만, 대부분은 이것을 크리티컬 하다고 보진 않았음.

Free riding is recognized as a potential problem in group work assessment by all of the seven medical schools that use the group work for summative assignments, but most do not regard it as a critical issue.




추가적 관찰결과

Additional findings from the questionnaire



GW는 교육적으로 협력을 배울 수 있는 수단으로 여겨지지만, 현실적인 이유도 있었다. MCQ나 다른 평가들은 더 노동집약적이다. GW평가에서는 supervision이나 correcting에 더 적은 교수만이 필요하다.

Although group work is seen as a means for learning to collaborate and thus is applied for educational reasons, it should be noted that respondents also explicitly mentioned practical reasons for applying group work. Compared to multiple-choice examinations, other forms of assessment, such as essays or papers, are more labor-intensive in terms of staff time needed for correcting. By using group assign- ments, fewer staff are needed for supervision and correcting compared to individual assessments.





고찰

Discussion


 

 

평가도구 Tools


조사 결과에 따르면 개인 기여에 대한 동료 평가는 네덜란드의 의과 대학의 정규 관행이다.

peer assessment of individual contributions. is in agreement with regular practice in medical schools in the Netherlands according to the findings based on the questionnaire.



우리의 검토에서 연구의 절반에서 자가 평가가 사용되었지만 Lejk and Wyvill (2002)과 Spatar et al. (2015)는 GW의 총괄평가에서 개개인의 (기여)요소를 식별하기 위해 자체 평가를 사용하지 말라는 권고한 바 있다. 자기 평가는 다양성을 감소시키고 (Lejk & Wyvill 2002), 무임승차자를 굳이 식별 할 필요가 없으며, 학생들은 종종 자신을 평가할 수없는 것처럼 보인다. 그러나 형성평가 목적이나 학습 기회를 위해서는 자체 평가가 여전히 중요 할 수 있습니다.

Although self-assessment is used in half of the studies in our review, we agree with Lejk and Wyvill (2002) and Spatar et al. (2015) who advise not to use self-assessment for identifying the individual component of group work in summative assessments.

  • Self-assessment reduces the vari- ability (Lejk & Wyvill 2002),

  • it is not necessary to identify free riders, and

  • students often appear unable to assess themselves (Spatar et al. (2015) for an elaborate discus- sion on this issue).

Yet, for formative assessment and very learning opportunities, self-assessment can still be valuable.



평가준거 Criteria


개별 기여도 평가는...

The assessment of individual contribution may be derived from

  • 산출물에 대한 개별 노력 the perceived effort individual students put in the group product and/or from

  • 프로세스에 참여 the perceived participa- tion in the group process (e.g. attendance, active participa- tion, creativity).

Process와 Product의 구분에 관한 끊임없는 논쟁이 있다. 동료평가로는 process와 product를 구분할 수 없습니다. 결국 '기여도'라는 모호한 용어를 쓰게 된다. 동료 평가의 기준이 명확하지 않고 잘 정의되지 않은 경우 개인 기여도 평가는 인식된 노력perceived effort의 평가일 뿐입니다. 따라서 우리는 Process와 Product에 대한 학습 목표를 먼저 정의하고 이에 대한 명확한 기준을 수립하는 것이 중요하다는 점을 강조합니다 (Box Recommendation 7 참조).

A recurrent discussion in practice is the distinction between assessing the process or the product of the group work. With peer assessment, it is difficult to dif- ferentiate between process and product. This results in col- lating both with the vague term ‘‘contribution.’’ If the criteria for peer assessment are not clear and well defined, the assessment of individual contribution becomes only an assessment of perceived effort. Therefore, we stress the importance of first defining the learning goals on process and/or product and formulating clear criteria accordingly (see the Box recommendation 7).



평가절차 Procedures


거의 모든 연구에서 교사평가와 동료평가의 조합으로 개인 성적을 부여하였다. 동료 평가의 신뢰성에 대해 종종 의문이 제기된다 (Dancer & Dancer 1992, Stefani 1992, Pond et al 1995, Orsmond et al 1996, Falchikov & Goldfinch 2000). 또한 많은 연구자들이 최종 성적에 동료평가를 넣는 것에 대해 우려를 표한다.
 

In almost all studies, a combination of tutor and peer assessment was used to give an individual grade. The reli- ability of peer assessment is often questioned (Dancer & Dancer 1992; Stefani 1992; Pond et al. 1995; Orsmond et al. 1996; Falchikov & Goldfinch 2000) and various authors warn to be cautious in weighing peer assessment of contribution into the final grade.


 

이 두 가지를 비교하는 결정은 학습 목표에 기초해야합니다. 가장 중요한 학습 목표가 product에 의해서 다뤄진다면, 더 많은 가치가 추가되어야하지만, 팀 기술 또는 일하는 기술이 가장 중요하다면 동료 평가에 더 많은 무게를 줘야합니다. 이러한 결정은 언제나 일종의 타협이.

  • 최종 product에만 초점을 맞추는 것은 개개인의 기여를 고려하면 정의롭지 않다. 최종 product을 고려하지 않고 진공 상태에서 공동 작업 기술을 평가하는 것은 인위적입니다.

  • 반면에, 의 공통 목표(product)가 채점 절차에서 중요하지 않게되면 팀의 기능에 영향을 미쳐 결과적으로 validity에도 영향을 준다.

The decision about weighing these two should be founded on the learn-ing objectives (the the Box recommendation 3). If the final product covers most important learning objectives,more value should be added to it, but if team skills or col-laboration skills are most important more weight should be given to peer assessment. Weighing different factors in the decision is always a compromise. Focusing purely on the end product will not do justice to individual contributions.Assessing collaboration skills in a vacuum without taking the final product into account is artificial. On the other hand, if the shared goal of the team (the final product)becomes unimportant in the grading procedure, it will influ-ence the functioning of the team and consequently the val-idity of the assessment of collaboration skills. 


GW평가에서 그룹 크기를 고려해야 한다. 

It is important to take the group size into account for group work assessment


보통 그룹 사이즈는 7명 이내로 작았고, 4~6명이 적절하다고 Storm은 말한다. 그룹 크기가 커짐에 따라 그룹의 점수에 개인 성과에 대한 정보가 적어 지므로, 개인 성과를 식별하는 것이 점차 중요해지게 된다. 따라서 팀이 클수록 individual component가 더 가중치를 받아야합니다.

The group sizes in the studies included in the review were small (maximum 7 students). According to Strom et al.(1999), four to six students per group is ideal. With increas-ing group size, a group mark becomes less informative of individual performance, so identifying individual perform-ance becomes increasingly important. Hence, the bigger the teams, the more weight the individual component should receive. 


팀이 유지되는 기간도 중요하다. 오랜 기간 지속되는 경우는 짧게 끝나는 경우와 다르다. GW동안의 개별기여에 대한 평가가 학생에게 중요한 피드백을 주기 때문에, 장기간 유지되는 팀에서는 다수의 저부담 형성평가가 좋다. 

Related to this is the duration of team composi- tions. A continuous group process over a longer period of time differs from a single end-of-course activity. Since evalu- ation of individual contributions during group work pro- vides students with valuable feedback, multiple formative low-stakes assessment moments over a longer period of time are preferred


학생들이 피드백을 받고 성찰해볼 수 있을 것 

This enables students to reflect upon the feedback received and improve their teamwork activities.



익명으로 진행될 수 있는데, 비밀이 보장될 때 솔직한 답변이 나온다. 익명일 때 spread of score가 더 높았다.

Finally, peer assessment can be done in the open or anonymously. When given in secret, more honest com- ments can be expected. Lejk and Wyvill (2001) found that the spread of scores is higher in anonymous peer assessment.



추가 이슈 Additional issues


 

(1)학생의 행동(태도), (2)그룹 구성 

During our screening and analysis of the literature, two add- itional issues in defining group work assessment emerged: (1) student behavior (or attitude) and (2) group compos- ition.


 

여러 연구에 따르면 일반적으로 학생들의 인식은 그룹에 긍정적인 방향으로 나타납니다 (예 : 기사 2004). 그러나 우리를 놀라게 한 점은 성적 시스템의 특성을 학생 행동에 연계시키는 연구가 없었기 때문입니다. Jin (2012)은 단지 공평성이 등급 시스템의 복잡성과 관련이 없다는 것을 발견했습니다. 학생들은 무임 승차 행동을 고려한 성적 시스템이 선호하지 않는 시스템보다 선호 함을 나타냅니다 (Maiden & Perry 2011). 다른 연구들은 또한 직원들과 학생들이 무임 승차 문제를 수입 주제로 간주하고 있음을 보여 주었다 (Maiden & Perry 2011; Spatar 외 2015). 그러나 무임승차자를 식별하는 것이 채점 시스템의 주요 목표가되어서는 안됩니다. 협동 기술에 대한 피드백을 제공하고 학생들의 강점과 약점을 파악하는 것이 더 중요합니다.

Multiple studies found that students’ perceptions work positive towards group are generally (e.g. Knight 2004). However, what struck us was that no study linked the characteristics of the grading system to student behav- ior. Only Jin (2012) found that perceived fairness was not related to the complexity of the grading system. Students do indicate that grading systems that take free-riding behavior into account are preferred over systems that do not (Maiden & Perry 2011). Other studies also indicate that staff and students regard the free-riding issue as an import- ant topic (Maiden & Perry 2011; Spatar et al. 2015). However, identifying free riders should not be the main goal of a grading system. Providing feedback on collabor- ation skills and identifying students’ strengths and weak- nesses should be more valuable.


 

두 번째 쟁점은 집단 구성 (Takeda & Homberg 2014, Dingel & Wei 2014, Spatar 외 2015)에 기인 한 편향에 관한 것이다. 우리는 그룹의 구성이 그룹의 기능에 영향을 줄 수 있음을 인정합니다. 피어 마킹에서 성별 편견에 대한 주장을지지하는 증거는 거의 없다 (Tucker, 2013). 그러나 평가 이전에 그룹 구성은 그룹 작업 중 공동 작업에 영향을 미칠 수있다. 예를 들어 여성의 팀 스킬이 더 높을 수 있고 (Strom et al. 1999), 성 균형 그룹이 불균형보다 공평한 기여를 하게된다는 증거가있다 그룹 (Takeda & Homberg 2014). 그러나 그룹 작업 평가를위한 그룹 구성의 실질적인 관련성은 코스의 그룹 구성이 종종 영향을 미치기 어렵 기 때문에 덜 명확합니다.

The second issue concerns biases due to group compos- ition (Takeda & Homberg 2014; Dingel & Wei 2014; Spatar et al. 2015). We acknowledge that the composition of the group is likely to influence how the group functions. There is little evidence to support an argument for gender bias in peer marking (Tucker 2013). However, prior to assessment, group composition may influence collaboration during group work—for example, women may have higher team- work skills (Strom et al. 1999) and there is evidence that gender balanced groups result in more equitable contribu- tions than imbalanced groups (Takeda & Homberg 2014). Still, the practical relevance of group composition for group work assessment is less obvious as the composition of groups in a course is often difficult to influence.



한계 Limitations


 

 

고찰

Conclusion


목표가 협업을 평가하는 것이라면 타당도는 단순히 product 이상이 되어야 하며, 그룹 전체 및 개인에 관한 process를 포함해야한다고 생각합니다.
if the goal is to assess collaboration, we believe the validity argument should also be based on more than a group product and should include the process, both regarding the group as a whole and its individuals.


문제는 여전히 남아 있습니다 : 그룹 작업 평가를위한 채점 시스템이 어떻게 설정되어야합니까? 다음을 고려하자

The question remains: how should a grading system for group work assessment be set up? In the Box, recommen- dations are provided, collected from the health faculties in the Netherlands. From the studies and the questionnaire, we conclude that the following steps should be considered when constructing and implementing group work assessment.


1. 주요 학습 목표는 무엇입니까? product and process 의 상대적 중요성에 대한 결정이 내려져야한다.
1. What are the main learning goals? A decision should be made about the relative importance of product and process.


2. 가중치 체계와 공식이 목적에 부합합니까? 동료 평가에 대한 기준이 잘 정의되어 있습니까? 동료 평가를 시작하기 전에 교사와 학생들 간의 동료 평가를 위한 그룹 작업 및 기준에 대한 공헌의 성격을 논의하는 것이 좋습니다.
2. Does the weighting scheme and formula fit the pur- pose? Are the criteria for peer assessment well defined? It is worth considering discussing the nature of the contributions to group work and criteria for peer assessment between tutors and students before start- ing the peer assessment.


3. 최종 product(과제)는 GW에 적합한가? (Box Recommendation 1 참조)
3. Is the end product (task) suitable for group work? (see Box recommendation 1)


4. 그룹 구성이 평가 결과에 bias을 의심 할만한 이유를 제시합니까? 만약 그렇다면  이를 방지하기 위해 어떤 안전 조치가 취해 있습니까?

4. Does the group composition give reason to suspect bias in assessment results? If yes: What safety measures are in place to counteract this?


5. 팀 스킬이 그룹에서 항상 분명하지는 않습니다. 이러한 기술을 개발할 수있는 지침과 기회를 제공하십시오. Box Recommendation 4. 마지막에뿐만 아니라 주기적으로 피드백을 제공하십시오.

5. Team skills are not always evident in groups. Provide guidance and opportunities to develop these skills— Box recommendation 4. Provide feedback periodically, not only at the end.


 

 




 2016 Jul;38(7):675-82. doi: 10.3109/0142159X.2016.1170796. Epub 2016 Apr 25.

Assessing the "I" in group work assessmentState of the art and recommendations for practice.

Author information

  • 1a Maastricht University, Maastricht University Office , Maastricht , the Netherlands ;
  • 2e Special Interest Group on Assessment of the Netherlands Association for Medical Education (NVMO).
  • 3b Radboud University Medical Center Nijmegen, Radboudumc Health Academy , Nijmegen , the Netherlands ;
  • 4c Leiden University Medical Center , Leiden , the Netherlands ;
  • 5d Department of Cardiology and Center for Educational Development and Research in Health Professions , University Medical Center Groningen , Groningen , the Netherlands.

Abstract

INTRODUCTION:

The use of group work assessment in medical education is becoming increasingly important to assess the competency of collaborator. However, debate continues on whether this does justice to individual development and assessment. This paper focuses on assessing the individual component within group work.

METHOD:

An integrative literature review was conducted and complemented with a survey among representatives of all medical schools in the Netherlands to investigate current practices.

RESULTS:

The 14 studies included in our review show that an individual component is mainly assessed by peer assessment of individual contributions. Process and product of group work were seldom used separately as criteria. The individual grade is most often based on a group grade and an algorithm to incorporate peer grades. The survey provides an overview of best practices and recommendations for implementing group work assessment.

DISCUSSION:

The main pitfall when using peer assessment for group work assessment lies in differentiating between the group workprocess and the resulting product of the group work. Hence, clear criteria are needed to avoid measuring only effort. Decisions about how to weigh assessment of the product and peer assessment of individual contribution should be carefully made and based on predetermined learning goals.

PMID:
 
27111741
 
DOI:
 
10.3109/0142159X.2016.1170796
[PubMed - in process]


결과타당도근거(Consequences Validity Evidence): 교육평가의 임팩트 (Acad Med, 2016)

Consequences Validity Evidence: Evaluating the Impact of Educational Assessments

David A. Cook, MD, MHPE, and Matthew Lineberry, PhD




 

Emerging reforms 으로 인해 valid assessment가 중요해짐.

Emerging reforms in health professions education such as competency-based education, mastery learning, entrustable professional activities, and adaptive learning environments underscore the need for valid assessments of learning outcomes.

 

평가의 타당도에 대한 현재의 standard framework는 Messick이 1989년에 제안한 것.

The currently standard framework for thinking about assessment validity, first proposed by Messick1 in 1989, defines validity as

“the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests.”2

 

타당도는 이렇게 볼 수도 있다.

Validity can be viewed as

a hypothesis about the meaning (interpretations) and application (uses) of test scores.

 

일반적인 가설과 마찬가지로 validity hypothesis 역시 근거를 수집함으로서 검증될 수 있고, 수집된 근거는 강점/약점/Residual gaps 등을 도출하는 validity argument로 요약된다. 핵심 assumption을 타겟으로 한 근거가 강력한 validity argument를 만드는데 중요하다.

Like any hypothesis, the validity hypothesis can be tested by collecting evidence, which is then summarized in a coherent narrative or validity argument that identifies strengths, weaknesses, and residual gaps (i.e., the degree of support).3,4 Evidence targeting key assumptions is vital to crafting a strong validity argument.


다섯 개의 sources.

In this framework, evidence derives from five different sources:

  • content,

  • internal structure,

  • relationships with other variables,

  • response process, and

  • consequences (see Table 1).5,6

처음 세 개는 각각 content validity / reliability / criterion, correlational, and construct validity에 비견될 수 있다. 그리고 이것들은 교육자들이 잘 이해하고 있다.

The first three sources map to prior notions of content validity; reliability; and criterion, correlational, and construct validity, respectively,7 and as such have been readily understood by educators.


그러나 response process 나 consequences 에 대한 것은 기존 프레임워크에 해당하는 것이 없고, 교육자들은 이 개념을 이해하고 실제로 적용하는데 어려움을 겪는 것으로 보임.

However, the concepts of response process and consequences have no counterpart in the older framework, and in our experience it has been challenging for educators to understand these concepts and visualize how these might be implemented in practice.




그러나 여러 연구자들은 consequences evidence 의 중요성을 반복해서 강조하고 있다.

Yet, authors have repeatedly emphasized the critical significance of consequences evidence in presenting a compelling validity argument.3,5,6,9


consequences evidence 를 설명하고자 한다.

The purpose of this article is to explain consequences evidence in easily understood terms and propose a framework for organizing the collection and interpretation of such evidence along with several examples.

 

 

 



“Consequences”란 무엇인가?

What Do We Mean by “Consequences”?


Consequences evidence는 평가의 유익하거나 유해하거나 의도하거나 의도하지 않은 영향을 조사한다. 이러한 의미에서 평가는 개입intervention으로 간주 될 수있다.
Consequences evidence looks at the impact, beneficial or harmful and intended or unintended, of assessment.2,13 In this sense, assessment can be viewed as an intervention.


시험 관리, 시험, 점수 분석 및 해석, 후속 결정 및 조치(교정, 피드백, 판촉 또는 Board 인증 등)는 모두 평가 대상 및 다른 사람 및 시스템에 직접적인 영향을 미칩니다 ( 교사, 환자, 학교 등). 이러한 영향은, 이상적으로는, 실제 이익이 예상 이익과 일 치하는지, 그 이익이 비용이나 부작용보다 중요한지 판단하기 위해 평가되어야합니다.
The act of administering or taking a test, the analysis and interpretation of scores, and the ensuing decisions and actions (such as remediation, feedback, promotion, or board certification) all have direct impacts on those being assessed and on other people and systems (e.g., teachers, patients, schools). These impacts should ideally be evaluated to determine whether actual benefits align with anticipated benefits and outweigh costs and adverse effects.


유방 조영술은 유방암 검사를위한 평가 (진단 검사)입니다. 현재의 증거에 따르면 해석이 더 어렵고 판단이 내려지기 전에 old films와의 비교가 자주 필요하며 오탐 (false positive)이 흔하며 불필요한 생검 및 감정적 인 스트레스를받는 여성이 있기 때문에 젊은 여성에게 덜 유용하다고 제안합니다. 그러나 대부분의 전문가들은 50 세에서 74 세 사이의 여성의 경우 유방암의 부작용을 크게 줄이기 때문에 매년 유방 검사를받는 것이 유익하다는 것에 동의합니다 .24,25 유방조영술은 검사의 불완전성과 의도하지 않은 부정적 결과에도 불구하고, 시험의 영향은 전반적으로 유익하다.
Mammograms are assessments (diagnostic tests) used to screen for breast cancer. Current evidence suggests that they are less useful in younger women because interpretation is more difficult, that comparison with old films is often required before a judgment can be made, and that false positives are common and subject women to unnecessary biopsies and emotional stress.19–23 Yet most experts agree that for women aged 50 to 74, annual screening mammograms are beneficial because they substantially reduce the adverse consequences of breast cancer.24,25 Despite the imperfections of the test and unintended negative consequences of false-positive results, the test has an overall beneficial impact.


그러나 어떤 가이드라인에 따르면 젊은 여성 (위양성 비율이 더 높은 경우)과 노인 여성 (유방암으로 사망하기 전에 다른 원인으로 사망 할 수도 있음)의 경우, 유방 X 선 검사는 자동으로 수행되어서는 안됩니다. 논란의 여지가있다 .26 다른 임상 예에는 심장 마비 진단을위한 brain natriuretic peptide 의 사용, 대장 암 검진을위한 유연한 S 자 결장경 검사 28, 관상 동맥 질환 탐지를위한 컴퓨터 단층 촬영 혈관 조영술 29이 포함된다. 이 검사들 각각은 무작위연구를 통해서 검사를 받지 않았을 경우와 비교했을 때 장기적인 영향이 어떠한지 평가된 바 있다. 검사라는 것은 비용, 편익 및 잠재적 harm를 수반하는 Intervention이다.
However, for younger women (for whom the false-positive rate is higher20) and for older women (who might die of other causes before they die of breast cancer) screening mammograms should not be automatic according to some guidelines,24 although this is a matter of controversy.26 Other clinical examples include the use of brain natriuretic peptide for diagnosing heart failure,27 flexible sigmoidoscopy for colon cancer screening,28 and computed tomographic angiography for detection of coronary artery disease29—each of which has been evaluated using randomized trials comparing the long-term impact of testing (and its associated clinical decisions) vs no testing. In each case, the act of testing is in fact an intervention with costs, benefits, and potential harms.



 

마찬가지로, 교육 평가 역시 잠재적인 비용, 편익 및 손해가 있는 intervention으로 간주 될 수 있습니다. 예를 들어, 보드 인증 시험은 무능한 의사로부터 환자를 보호하고 의사에게 공부를 하게끔 encourage할 수 있지만 시험보는 능력은 떨어지는 유능한 의사에게 불필요한 remediation을 하도록 강요 할 수 있습니다. 이때 이 시험은 의사와 환자의 삶에 "개입"되어 유익하거나 해로운 결과를 가져옵니다.
Similarly, educational assessments can be viewed as interventions with potential costs, benefits, and harms. For example, a board certification exam might protect patients from incompetent physicians and encourage physicians to study, but might also force competent physicians with poor test-taking skills to engage in needless remediation. This exam has “intervened” in the lives of physicians and patients and led to both beneficial and harmful consequences.



다른 말로 표현하자면 Consequences evidence 는 "우리가 측정하고 있다고 생각하는 것을 측정하고 있습니까?"(다른 유효성의 증거에 의해 답변 된 질문) 문제를 다루지 않습니다. 오히려, "측정 활동과 그에 따른 해석 및 점수 적용이 부작용이 거의없이 원하는 결과를 얻나요?"
Stated another way: Consequences evidence does not address the question, “Are we measuring what we think we are measuring?” (a question answered by the other sources of validity evidence). Rather, it addresses, “Does the activity of measuring and the subsequent interpretation and application of scores achieve our desired results with few negative side effects?”


 

연구자들은 때때로 consequence를 validity evidence출처 (이 논문의 초점)와 "결과"라는 단어의 다른 용도 (예 : 영향 또는 결과의 일반적인 동의어)로 혼동합니다. 예를 들어, 교육 활동 (코스, 커리큘럼, 온라인 모듈 또는 시뮬레이션 시나리오)의 결과를 테스트 환경이나 실제 임상에서 측정 된 outcome measure를 사용하여 평가하고는 한다. 이러한 교육 개입의 평가는 assessment validity을 뒷받침하는 consequences evidence를 평가하는 연구와 개념적으로 구별된다

Investigators occasionally confuse consequences as a source of assessment validity evidence (the focus of this article) with other uses of the word “consequences” (e.g., as a general synonym for impact or outcome). For example, studies often evaluate the consequences of training activities (courses, curricula, online modules, or simulation scenarios) using outcomes measured in a test setting or in real clinical practice; such evaluations of training interventions are conceptually distinct from studies evaluating consequences evidence to support assessment validity



혹은, assessment validation은 시험 점수와 환자, 프로그램 또는 사회의 다른 동시 또는 미래 측정 (즉, 실제 결과 또는 "결과") 간의 연관성을 평가할 수 있습니다. 그러한 association은 "relationships with other variables"를 확립함으로써 validity argument에 도움이 되겠지만 consequences validity evidence 를 반영하지는 않는다 (즉, 평가 자체의 consequence보다는 점수 간의 relationship에 중점을 둡니다).
Alternatively, an assessment validation study might evaluate the association between test scores and other concurrent or future measurements of patients, programs, or society (i.e., real- life outcomes or “consequences”). Such associations would inform the validity argument by establishing “relationships with other variables”2,7 but would not reflect consequences validity evidence (i.e., the analysis focuses on the relationships among scores rather than the consequences of the assessment itself).


 

물론 impact 측정이 평가 consequences(평가는 결국 개입이므로)의 증거가되며, 상관 분석은 결과 증거를 제공 할 수있는 상황이 있습니다 (표 2 및 예 1 참조). 중요한 것은 연구 설계 나 통계 분석이 아니라 오히려 validity argument에서 증거가 어떻게 제시되는입니다. Consequences evidence 는 해석의 영향과 평가 점수의 사용을 결정establish합니다.
Of course, there are situations in which measures of impact constitute evidence of assessment consequences (assessments are, after all, interventions), and correlational analyses can provide consequences evidence (see Table 2 and Appendix 1 for examples). What matters is not the study design or statistical analysis but, rather, how the evidence is presented in the validity argument: Consequences evidence establishes the impact of interpretations and uses of assessment scores.


 



The Importance of Consequences Evidence


 

 

임상의는 pt management를 향상시키지 않는다면 종종 검사를 하지 말라고 교육받는다. 교육 평가의 경우에도 마찬가지입니다. (교육 평가는) 학습 성과 향상이 비용 및 잠재적 위험보다 크지 않다면 사용해서는 안됩니다. Messick1 (p85)은 "테스트의 결과와 부작용에 대한 평가는 테스트 사용의 유효성 확인에서 핵심적인 부분입니다."Kane's3 (p54)는 최근의 유효성 재구성 개념을 재구성하여 유사한 결과를 뒷받침하는 증거에 유사한 우선 순위를 부여합니다 평가 : "결과 또는 결과는 의사 결정 절차 평가의 최종선입니다. 목표를 달성하지 못하거나 너무 높은 비용으로 의사 결정 절차를 포기한 경우에도 완벽하게 정확한 정보를 바탕으로 결정 절차가 포기 될 수 있습니다. "다른 저자도 결과 증거의 우위를지지했습니다 .5,6 , 9

Clinicians are often taught not to order a test if it won’t improve patient management. The same holds true for educational assessments: If they do not lead to improved learning outcomes sufficient to outweigh costs and potential harms, they should not be used.

  • Messick1(p85) argued that “Evaluation of the consequences and side effects of testing is a key aspect of the validation of test use.”

  • Kane’s3(p54) more recent conceptual reframing of validation, gives similar priority to evidence supporting the consequences of assessment: “Consequences, or outcomes, are the bottom line in evaluating decision procedures. A decision procedure that does not achieve its goals, or does so at too high a cost, is likely to be abandoned, even if it is based on perfectly accurate information.”

  • 다른 저자도 consequences evidence의 우위를지지했습니다.
    Other authors have also supported the primacy of consequences evidence.5,6,9



진단 검사의 가치에 대한 궁극적인 증거가 진료에 미치는 영향인 것과 마찬가지로 교육 평가의 가치에 대한 궁극적 인 증거는 학습자, 교사를 비롯하여 대중과 시스템에 미치는 영향입니다 .12 임상 시험과 마찬가지로 교육 평가는 의도 한 이익을 실현시키지 못하거나 이익을 상회하는 비용 또는 의도하지 않은 부정적 결과를 초래할 수 있습니다 .12,13,17

Just as the ultimate evidence for the value of a diagnostic test is the impact on practice, the ultimate evidence for the value of an educational assessment is the impact on learners, teachers, and the people and systems they influence.12 Like clinical tests, educational assessments may fail to realize their intended benefits or may have costs or unintended negative consequences that outweigh the benefits.12,13,17



(부정적 결과를 초래한) 그런 경우에는 도구 개발의 정확성, 점수의 신뢰성 및 다른 변수와의 점수 상관 관계의 강도가 실제로 중요하지 않다고 주장 할 수 있습니다. 이러한 우려는 Board 자격 갱신 과정에서 이뤄지는 고부담 시험에 대한 많은 비판을 뒷받침합니다 .30 이러한 이유 때문에 결과의 증거가 궁극적으로 validity argument의 가장 중요한 source라고 생각합니다.

In such instances one could argue that the rigor of instrument development, the reliability of scores, and the strength of score correlations with other variables really don’t matter. Such concerns underpin many recent criticisms of high-stakes testing as part of the board recertification process.30 For this reason, we believe that evidence of consequences is ultimately the most important source of validity evidence.


 

 

HPE연구에서 Consequences Evidence

Consequences Evidence in Health Professions Education Research


 

Consequences evidence 는 보건 전문가 교육에서 보고되는 일이 드물다
Consequences evidence is reported only infrequently in health professions education.


  • A systematic review of 22 clinical teaching assessments found only 2 studies (9%) that reported consequences evidence, and in neither case did the original researchers identify the evidence as such.

     

    • One study found that providing formative feedback to teachers enhanced their teaching scores,31 whereas

       

    • the other study found that the assessment raised awareness of effective teaching behaviors.32

  •  

  • A systematic review of 417 articles examining simulation- based assessment6 found only 20 studies (5%) reporting consequences evidence.

     

    • The majority of this evidence comprised establishing a pass/fail cut point (n = 14).

       

    • Two studies explored an anticipated impact on students or patients,33,34 3 contrasted the number of actual vs. expected passing grades,35–37 and

       

    • 1 study noted differential item functioning as a possible source of invalidity.38 No study reported an unanticipated impact.

  •  

  • Finally, a systematic review of 55 studies evaluating assessment tools for direct observation18 found 11 studies (20%) reporting consequences evidence other than satisfaction with the assessment activity. All of these evaluated the impact of assessment,

    • documenting outcomes including curricular changes based on common deficiencies,39

    • improved feedback,40–43

    • poor recall of feedback provided (i.e., failure to achieve intended consequence),44

    • improved objectively measured skills,45,46 and

    • increased test preparation activities.47


A Framework for Evaluating Consequences Evidence



Consequences evidence 는 학습자, 교육자 및 교육 기관 등 다양한 당사자에 대한 평가의 영향에 대한 데이터로 구성됩니다. 환자, 제공자 및 건강 관리 기관; 심지어는 사회 전체에 대한 영향도 포함된다. 이러한 영향은 유익하거나 유해 할 수 있으며 의도적이거나 의도하지 않을 수 있습니다 .13

의도적인 이익은 아마도 예상하고 측정하기가 가장 쉽습니다.

의도하지 않은 피해는 (쉽게 예상되거나 명시 적으로 목표를 정할 수 없기 때문에) 가장 어려울 수 있습니다 .48


Consequences evidence consists of data on the impact of an assessment on diverse parties: learners, educators, and educational institutions; patients, providers, and health care institutions; and even society at large. Such impact can be beneficial or harmful, and it may be intentional or unintentional.13 Intentional benefits are probably the easiest to anticipate and measure; unintentional harms may be the most difficult (because they cannot be easilyanticipated or explicitly targeted).48 


 

전문가들은 간접적인 영향 (예 : 학생 동기 또는 준비 활동, 강사 수업 계획 및 대중 인식에 대한 영향)으로부터 점수 사용 (예 :지도 지침 또는 진급 결정)의 직접적인 효과를 구별합니다 .17 그러나 이러한 분류는 일단 수집된 근거를 분류, 해석, 보고할 때에는 유용할지 모르나, validation study를 계획할 때 potential source로 광범위하게 고려하는 것을 돕기에는 부적절합니다.

Experts have also distinguished direct effects of score use (e.g., instructional guidance or advancement decisions) from indirect effects (e.g., influence on student motivation or preparation activities, instructor lesson plans, and public perceptions).17 However, although these classifications are helpful for categorizing, interpreting, and reporting consequences evidence once it has been collected, they are inadequate for helping investigators to consider broadly the potential sources of consequences evidence when planning an assessment validation study.



 

또한 proposed theory에 따라서 동일한 효과도 의도되거나 의도되지 않은 것으로, 유익하거나 또는 유해한 것으로, 직접적이거나 간접적인 것으로 생각 될 수 있습니다.

Moreover, the same effect might be considered intended or unintended, beneficial or harmful, and direct or indirect depending on the proposed theory, interpretation, and use of the assessment.

  • mastery goal oritentation을 의도했으나, performance goal orientation을 가질수도
    For example, an assessment might have unintended effects on learners’ general orientations toward performing well relative to peers vs. mastering content for its own sake (performance vs. mastery goal orientations49). However, promoting stronger mastery goal orientations may be an explicitly intended consequence of assessment when adopting a mastery learning curricular model.50

  • 위험을 줄이기 위한 의사의 행동이 보는 측면에 따라 beneficial할 수도, detrimental할 수도.
    Similarly, one could imagine educational assessments that lead physicians to be risk averse in beneficial ways (e.g., carefully following protocol for central line placement after a central line assessment) or in detrimental ways (e.g., practicing “defensive medicine” by ordering unnecessary lab tests after a test of medical knowledge).




이전의 저자들은 classification cut points의 rigor, appropriateness, and consistency 에 대한 평가를 consequences evidence로 포함시켰다 .5-7,50 이러한 증거는 평가에서 비롯된 함의와 결정에 직접적인 영향을 미치지 만, 우리는 평가의 실제 결과에 영향을 미치기보다는 그것이 영향을 주기 때문에 preconsequences evidence 로 더 정확하게 분류 될 수 있다고 생각합니다. 이것을 고려하더라도, 우리는 그러한 증거가 Messick의 프레임 워크에서 결과 증거로 가장 적절하게 일치한다는 것에 계속 동의합니다. (Kane의 최근의 프레임워크에서 그러한 evidence는 "implications and decision"에 대한 inference에 잘 들어 맞는다3,9)

Previous authors, including ourselves, have included evaluations of the rigor, appropriateness, and consistency of classification cut points and labels as consequences evidence.5–7,50 Although such evidence has direct bearing on the implications and decisions arising from the assessment, on careful reflection we believe it might be more correctly labeled preconsequences evidence because it affects, rather than results from, the actual consequences of assessment. With this caveat, we continue to agree that such evidence fits most appropriately as consequences evidence in Messick’s framework. (As an aside, we note that in Kane’s more recent framework such evidence fits squarely under the inference of “implications and decision.”3,9)




연구자들의 consequences evidence 자료 수집과 자료 소비자들의 evidence gap 도출을 돕기 위하여, 위의 개념을 통합한 comprehensive framework를 만들었다.

In considering how to help investigators prospectively plan the collection of consequences evidence and help consumers identify evidence gaps, we have integrated the above conceptual elements to create a comprehensive framework for systematically prioritizing and organizing consequences evidence



  • First, evidence can derive from evaluations of the impact on examinees, educators, and other stakeholders (e.g., patients), and the impact of classifications (“preconsequences,” e.g., different cut scores or labels, and accuracy across examinee subgroups).

  • Second, studies can be distinguished as evaluating the impact of test score use (similar to the “direct” effects noted above) such as the effectiveness of score-guided remediation or advancement decisions; or the impact of the assessment activity itself (independent of scores) such as change in preassessment study behaviors or the effect of test-enhanced learning.

    • 임상에 비유한다면: 암을 발견 할 수 있다는 두려움 때문에 잠재적 인 통증이나 재정적 인 비용 (검사점수의 활용으로 인한 impact)에 대해 걱정할지도 모를 여성은 다가오는 유방 X 선 사진에 대해 불안해 할 수도 있습니다. ("점수"와 무관 한 시험 활동). 이러한 각각의 차원에는 의도되었거나 의도되지 않았거나 유익하거나 유해한 결과가 포함될 수 있습니다. 후자의 점을 추가하면 4 차원 프레임 워크가 완료됩니다 (그림 1 참조).
      To use a clinical example: A woman might get anxious about an upcoming mammogram because she is scared that it might detect cancer (impact of [anticipated] “score” use), or she might be worried about the potential pain or financial cost (impact of the test activity independent of the “score”). Each of these dimensions could include consequences that are intended or unintended, and beneficial or harmful; adding the latter points completes a four-dimensional framework (see Figure 1).






Appendix 1 with examples spanning all dimensions.


 

 

임상 진단 테스트와 교육 평가 모두에 대한 테스트의 impact을 평가하는 직접적인 접근법은 테스팅을 완료하기 위해 절반을 무작위로 테스트하고 테스트하지 않기 위해 나머지 절반을 무작위로 추출하는 것입니다 (13,51).

A straightforward approach to evaluate a test’s impact—for both a clinical diagnostic test and for an educational assessment—would be to randomize half to complete the test and the other half to no test,13,51 


 

덜 강력하지만 여전히 유용한 접근법은 덜 엄격한 연구 설계 (예 : 비 무작위 집단, 단일 그룹 사전 테스트 - 사후 테스트 또는 단일 그룹 사후 테스트 전용 연구)를 사용하지만 동일한 결과를 측정 할 수 있습니다. 평가 대상자 만이 평가의 영향을받는 것은 아닙니다.

A less robust but still useful approach might use less rigorous study designs (such as nonrandomized cohort, single-group pretest–posttest, or even single-group posttest-only studies) but measure the same outcomes. Those being assessed are not the only ones impacted by an assessment.


 

 

preconsequences 증거 . 평가결과(interpretations and decision)에 근거한 classification의 defensibility에 직접적으로 영향을 주는 요인들을 포함한다.

As noted above, preconsequences evidence includes factors that directly influence the defensibility of classifications based on test results (interpretations and decisions), such as

  • 검사가 뭐라고 불리는가 the labels applied to the test itself and any subtests1;

  • 합격선의 결정 the definition of the passing score (e.g., at what point is remediation required?)5; and

  • (비슷해야하는) 하위그룹간의 점수차이 존재여부  differences in scores among subgroups where performance ought to be similar (e.g., men vs. women), suggesting that decisions may be spurious.52

  • 합/불합 비율 Finally, investigators could monitor pass/fail rates; for example, a failure rate higher or lower than expected might indicate a test that is either too hard or too easy, respectively.


그럼에도 불구하고 예상 할 수없고 전향 적으로 측정 할 수있는 의도하지 않은 결과unintended consequence는 사실 후에 만 ​​식별 할 수있는 예기치 않은 결과unforeseeable consequence와 구별됩니다. 우리는 데이터가 숫자 일 필요는 없다는 점을 강조합니다. 적절하게 계획되고 수집 된 질적 데이터는 특히 의도하지 않았거나 예측할 수없는 결과를 확인하고자 할 때 강력한 증거를 제공 할 수 있습니다.

We distinguish unintended consequences, which can be nonetheless anticipated and prospectively measured, from unforeseeable consequences, which can only be identified after the fact. We further emphasize that data need not be numeric. Qualitative data, properly planned and collected, could provide strong evidence9—especially when seeking to identify unintended or unforeseeable consequences.


 

 

이 예들의 많은 데이터는 매우 주관적이며 대안 해석이 가능합니다. 예를 들어, 점수가 동일해야 할 경우 하위 그룹 간의 점수 차이는 무효의 표시 일 수 있지만 점수가 다를 것으로 예상되는 경우 유효성을 지원하는 것으로 해석 될 수도 있습니다. 마찬가지로 이상적인 failure rate 은 상황에 따라 다릅니다. 평가와 그 결과를 연결하는 행동 이론theory of action 에 의해 종종 유도되는 validity arguement9,10,53을지지하거나 훼손시키는 것이 무엇인지를 사전에 분명히 밝혀야한다 .3,54

 

궁극적으로, 그러나 평가와 그 결과 사이에 명확한 원인 - 결과 관계를 보여주기 어려울 수 있다. 그렇다고 해서 교육자가 validity argument의 중요한 요소를 무시하는 것을 정당화해서는 안된다. 다양한 증거 자료와 데이터 수집 방법의 삼각 측량은 방어 할 수있는 주장을 수립하는 데 도움이 될 것입니다.

The data in many of these examples are highly subjective and open to alternative interpretation. For example, score differences among subgroups could be a sign of invalidity if scores should be the same, but could also be interpreted as supporting validity if scores would be expected to vary. Similarly, the ideal failure rate will vary by situation. It is essential to articulate in advance what findings would support or undermine the validity argument,9,10,53 often guided by a theory of action linking the assessment and its consequences.3,54 Ultimately, it may be difficult if not impossible to establish a clear cause–effect relationship between the assessment and its consequences.14 This should not, however, justify educators in ignoring this important element of the validity argument. Triangulation of different evidence sources and data collection methods will help establish a defensible argument.


 

 

마지막으로 평가의 의도 된 용도의 부작용side effect을 오용misuse의 영향과 혼동해서는 안됩니다 .10 기존의 증거의 범위를 벗어나는 테스트 점수의 적용은 엄밀히 말해서 오용이라고 할 수 있습니다. 여기에는 평가를 새로운 목적에 사용하는 것 (예 : 면허 시험 점수를 사용하여 입학 결정을 알리는 것)를 채택하거나 도구, 절차 또는 학습자 집단의 요소를 변경하여 평가를 적용하는 것이 포함됩니다. 기존 평가를 채택하거나 채택하는 것이 일반적이지만 종종

"시험 제작자는 테스트 오용으로 인한 부정적인 결과에 대해 책임을지지 않습니다. ... 사용자가 테스트 개발자가 승인하고 시험하지 않은 목적으로 적절한 테스트를 수행 할 때 사용자는 필요한 유효성 조사를 수행 할 책임이 있습니다. "13 (p8)

 

 

Finally, the side effects of intended uses of an assessment should not be confused with the effects of misuse.10 Any application of test scores beyond the scope of existing evidence constitutes, strictly speaking, a misuse. This would include adopting an assessment for new purposes (e.g., using licensure exam scores to inform admissions decisions) or adapting an assessment by changing elements in the instrument, procedures, or learner population. Although it is commonplace and often profitable to adopt or adapt an existing assessment, those doing so should remember that

“Test makers are not responsible for negative consequences following from test misuse.… When users appropriate tests for purposes not sanctioned and studied by the test developers, users become responsible for conducting the needed validity investigation.”13(p8)



 

Consequences Evidence 사용하기

Identifying and Using Consequences Evidence in Practice



모든 consequences evidence 가 똑같이 compelling 한 것은 아닙니다. 같은 시험을 한 번 더 보면, 시험 점수를 간단하게 향상시킬 수 있습니다 (예 : "재시험을했을 때 학생이 더 좋았으며, 이는 첫 번째 시험의 결과로 기술이 향상되었음을 시사한다"). 이런 것은 설득력있는 consequence evidence에 기여하지 못한다. 왜냐하면 우리가이 변화에 대한 대안적 설명이 충분히 존재하기 때문이다 (즉, 다른 경험으로부터 배우기).

Not all consequences evidence is equally compelling. Simple improvement in test scores from one testing occasion to the next (e.g., “Students did better when they were retested, suggesting that their skills had improved as a result of the first test”) would not, for example, contribute persuasive evidence of consequences because we can imagine plausible alternative explanations for this change (i.e., learning from other experiences).


 

평가에 대한 만족도, 자기평가 점수의 향상, 비교 기준점이없는 합격 / 불합격률에 대한 학습자 및 교수 평가는 유용하지만 다소 약한 증거를 제공합니다.
Learner and faculty ratings of satisfaction with the assessment, self-reported improvements in skill attributed to the assessment, and pass/fail rates without a comparison reference point would provide useful but rather weak evidence.


 

유사하게, 합격 / 불합격 컷오프 포인트의 수립은, 얼마나 엄격하게 수행되었는지에 관계없이, 실제로 컷팅 포인트의 결과가 평가 될 때까지 비교적 약한 증거이다. 강력한 양적 또는 질적 데이터가없는 일화anecdote는 마찬가지로 약한 지원만을 제공합니다.
Similarly, the establishment of a pass/fail cut point, regardless of how rigorously done, is relatively weak evidence until the consequences of that cut point have been evaluated in practice. Anecdotes without robust quantitative or qualitative data likewise provide only weak support.




보다 강력한 증거는 비교 집단 (무작위 또는 무작위 적으로 역사적 또는 병행 대조군)을 사용한 연구에서 나올 것이다. 시험 자체와는 다른 원하는 결과의 객관적 측정. 또는 엄격한 질적 데이터 수집 및 분석.
Stronger evidence will come from studies using a comparison group (randomized, or nonrandomized historical or concurrent control group); objective measures of the desired outcomes that are different from the test itself; or rigorous qualitative data collection and analysis.



consequences evidence 가 가장 중요한 증거이지만 테스트 개발자, 테스트 사용자, 연구원 및 저널 편집자는 validity argument를 구성하는 여러 요소 중 하나라는 것을 기억해야합니다. 어떤 단일 소스도 dominate 할 수 없다. 더욱이 강력한 consequences evidence 는 "테스트가 일정 기간 동안 의도 된대로 사용되기 전까지는 증거를 수집 할 수 없습니다."14 (p15) 이와 같이 단계별 접근법은 합리적인 것처럼 보입니다. 초기 장비 평가에서는 쉽고 비용이 적게 드는 증거 소스 (예 : 콘텐츠, 내부 구조 / 신뢰성, 다른 변수와의 관계, 대응 프로세스 [표 1 참조])를 수집하고 이 증거가 도움이된다면 그 이후 엄격한 평가로 진행할 것을 제안합니다.

Although consequences evidence is the most important source of evidence, test developers, test users, researchers, and journal editors must remember that it constitutes only one of several elements in a comprehensive validity argument. No single source can or should dominate. Moreover, robust consequences “evidence cannot be collected until the test is used as intended for some period of time.”14(p15) As such, a stepwise approach seems reasonable. We propose that during initial instrument evaluation, developers and researchers might prioritize presumably easier and less costly evidence sources (e.g., content, internal structure/ reliability, relationships with other variables, response process [see Table 1]) and then progress to rigorous evaluation of consequences if this evidence proves supportive.




consequences evidence 의 유형, 수량 및 엄격 성은 평가에 따라 달라질 것입니다

The type, quantity, and rigor of consequences evidence will vary depending on the assessment


예를 들어, 환자 안전을 향상시키는 것으로 주장되는 면허 시험 (예상되는 혜택)은 실패한 의사의 고용 가능성에 영향을 미칩니다. 그러한 평가는 의학적 학생에게 피드백을 촉진하기 위해 고안된 평가보다 더 큰 evidence of consequences 가 될 수 있습니다 (예 : 예상되는 이익 실현, 합격 / 불합격 기준 설정 방법, 유능한 의사의 실패 횟수).

For example, a licensure exam that claims to enhance patient safety (anticipated benefit) will impact the employability of physicians who fail. Such an assessment likely merits greater evidence of consequences (e.g., Are anticipated benefits realized? How was the pass/fail cut point established? How often do competent physicians fail?) than an assessment designed to promote feedback to medical students.



그러나 일부 "저부담"시험은 잠재적으로 중대한 결과를 가져올 수 있습니다. 특히 대규모로 구현되거나 장시간 반복되는 경우에 특히 그렇습니다. 예를 들어, 피드백을 촉진하기위한 평가는 1 년 내내 매일 실시 될 경우 역량, 전문적 정체성, 자기 주도적 학습 및 자기 효능감의 여러 영역에서 상당한 누적 효과를 나타낼 수 있습니다.

However, some supposedly “low-stakes” exams could have potentially significant consequences, especially if implemented on a large scale or repeated over an extended period of time. For example, an assessment intended to promote feedback could have significant cumulative effects across multiple domains of competence, professional identity, self-directed learning, and self-efficacy if administered daily over an entire year of training.


바람직하지 않은 validity evidence 는 종종 평가 과정의 다른 문제를 지적해내기도 합니다. Negative consequences네 가지 근본적인 문제 중 하나로 추적 할 수 있습니다. .
Unfavorable validity evidence often points to problems elsewhere in the assessment process. Negative consequences can usually be traced back to one of four underlying problems3:

  • the measurement or scoring procedure (e.g., irrelevant, unreliable, or omitted test items);

  • the specific interpretation (e.g., an inappropriate pass/fail cut point);

  • the attribute being measured (i.e., the wrong construct); or

  • the response (e.g., the actions that follow the decision).




Concluding Remarks


결론적으로, 우리는 다음을 강조한다.

  • 첫째, 평가는 실제로 진단용 검사이며, 의학 및 교육 분야에서 모두 중재로 간주 될 수 있습니다.

  • 둘째, 타당도 증거는 impact of assessments (as interventions) on examinees and other stakeholdersthe defensibility of score classifications (“preconsequences” evidence)를 조사합니다. 이러한 결과는 점수 사용이나 평가 활동 자체에서 비롯 될 수 있으며 의도적이거나 의도하지 않고 유익하거나 유해 할 수 있습니다.

  • 셋째, 타당도 증거가 결과의 가장 중요한 원천이다. 왜냐하면 평가가 원하는 영향을 미치지 않으면 사용해서는 안되기 때문이다.

  • 마지막으로, 결과의 유형, 수량 및 엄격 성은 평가 및 사용 목적에 따라 달라질 것입니다.
     

In conclusion, we emphasize the following. First, assessments are really diagnostic tests, and both in medicine and in education they can be viewed as interventions. Second, consequences validity evidence looks at the impact of assessments (as interventions) on examinees and other stakeholders, and the defensibility of score classifications (“preconsequences” evidence). Such consequences can arise from score use or the assessment activity itself, and can be intentional or unintended and beneficial or harmful. Third, consequences validity evidence is the most important source of evidence because if the assessment does not have the desired impact, it should not be used. Finally, the type, quantity, and rigor of consequences evidence will vary depending on the assessment and the claims for its use.



 

 

 




 2016 Jun;91(6):785-95. doi: 10.1097/ACM.0000000000001114.

Consequences Validity EvidenceEvaluating the Impact of Educational Assessments.

Author information

  • 1D.A. Cook is professor of medicine and medical education, associate director, Mayo Clinic Online Learning, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine, Rochester, Minnesota. M. Lineberry is assistant professor of medical education, Department of Medical Education, and assistant director for research, Graham Clinical Performance Center, University of Illinois at Chicago, Chicago, Illinois.

Abstract

Because tests that do not alter management (i.e., influence decisions and actions) should not be performed, data on the consequences of assessment constitute a critical source of validity evidenceConsequences validity evidence is challenging for many educators to understand, perhaps because it has no counterpart in the older framework of content, criterion, and construct validity. The authors' purpose is to explain consequences validity evidence and propose a framework for organizing its collection and interpretation.Both clinical and educational assessments can be viewed as interventions. The act of administering or taking a test, the interpretation of scores, and the ensuing decisions and actions influence those being assessed (e.g., patients or students) and other people and systems (e.g., physicians, teachers, hospitals, schools). Consequences validity evidence examines such impacts of assessments. Despite its importance, consequences evidence is reported infrequently in health professions education (range 5%-20% of studies in recent systematic reviews) and is typically limited in scope and rigor.Consequences validity evidence can derive from evaluations of the impact on examinees, educators, schools, or the end target of practice (e.g., patients or health care systems); and the downstream impact of classifications (e.g., different score cut points and labels). Impact can result from the uses of scores or from the assessment activity itself, and can be intended or unintended and beneficial or harmful. Both quantitative and qualitative research methods are useful. The type, quantity, and rigor of consequences evidence required will vary depending on the assessment and the claims for its use.

PMID:
 
26839945
 
DOI:
 
10.1097/ACM.0000000000001114
[PubMed - in process]


Blurprinting을 위한 12가지 팁(Med Teach, 2009)

Twelve tips for blueprinting

SYLVAIN CODERRE, WAYNE WOLOSCHUK & KEVIN MCLAUGHLIN

Office of Undergraduate Medical Education, University of Calgary, Canada








도입

Introduction


타당도는 모든 평가에서 필요한 것이고, 지원자가 학습목표에서 설정한 역량의 수준에 맞는 최소한의 퍼포먼스를 달성했음을 의미한다. 전형적으로 학업성취의 측정과 관련된 타당도의 유형은 '내용타당도'이다. 내용타당도를 갖추었다는 것은 목표와 학습경험이 서로 부합하는 것이며, 이 pillars of education들 간의 '합치'는 평가 blueprint를 사용하여 향상될 수 있다.

Validity is a requirement of every evaluation and implies that candidates achieving the minimum performance level have acquired the level of competence set out in the learning objectives. Typically, the type of validity that relates to measurements of academic achievement is content validity (Hopkins 1998). Evaluation content is valid when it is congruent with the objectives and learning experiences, and congruence between these pillars of education can be facilitated by using an evaluation blueprint (Bordage et al. 1995; Bridge et al. 2003).



교육내용을 표로 만들라

Tip 1. Tabulate curricular content


 

열과 행으로 되어있다.

A blueprint template consists of a series of rows and columns. At the University of Calgary, teaching of the undergraduate curriculum is organized according to clinical presentations, so the rows in our blueprints contain the clinical presentations relevant to the course being blueprinted (Mandin et al. 1995). Column 1 in Table 1 shows the eighteen clinical presentations for the Renal Course at the University of Calgary. 



 

상대적 가중치를 준다

Tip 2. Provide relative weighting of curricular content


평가 문항의 수는 제한적이다.

Evaluations have a finite number of items,



그러나 어떤 내용이 중요한지를 정의하는 것은 어렵다. 오진시에 환자에게 영향impact가 큰 것 또는 질병예방이 중요한 것, 빈도 등을 기준으로 정의할 수 있다.

Content importance, however, is difficult to define. Attributes such as the potential harm to the patient from misdiagnosing a presentation (a measure of presentation ‘impact’), the potential for significant disease prevention (also a measure of presentation ‘impact’), and how frequently a presentation is encountered in clinical practice should be considered.


University of Calgary 에서는 다음의 세 가지를 가지고 판단한다.

At the University of Calgary we rate the impact and frequency of clinical presentations based on the criteria shown in Table 2.



모든 관련 그룹으로부터 의견을 모은다.

Tip 3. Sample opinion on weighting from all relevant groups


신뢰도는 표본의 size and breadth에 의해서 향상된다. 과목 책임자와 평가 담당자 외에도 교사, 학습자 등의 input을 얻어야 한다. 합의를 통해 가중치를 결정하는 것이다.

Reliability is improved by increasing sample size and breadth (Hopkins 1998). In addition to involving course chairs and evaluation coordinators, we solicit input from teachers and, if relevant, previous learners (McLaughlin et al. 2005a). That is, weighting of a content area is established through consensus.



각 내용영역에서의 문항 수 결정.

Tip 4. Decide on the number of items for each content area 


신뢰도는 변별도와 문항 숫자에 의해 영향을 받는다. 변별도가 0.3일 경우 0.8의 신뢰도를 위해서 50~60개 문항이 필요하고, 변별도가 0.2라면 100개가 필요하다. 100개를 넘어서는 신뢰도가 거의 향상되지 않는다.

Reliability of an evaluation is affected by both the number and discrimination of items. As a rough guide, if the average discrimination index of the items is 0.3, then approximately 50–60 items are needed to achieve reliability of 0.8. This number increases to 100 if the average item discrimination is 0.2. Reliability appears to plateau beyond 100 items (Hopkins 1998). 


각 내용영역에서 수행해야 할 task 정하기

Tip 5. Decide on the tasks for each content area


각 임상표현에 대해서 평가할 수 있는 다양한 task가 있다.

There are a variety of tasks that can be evaluated within any clinical cause presentation, such as

  • diagnosing the underlying(including specific points of history and physical examination),

  • interpreting or selecting investigations,

  • decid-ing on management and/or prevention,

  • demonstrating basic science knowledge, etc.

 

이들 task는 학습목표와 일관되어야 한다.

These tasks should be consistent with the learning objectives of the relevant course


 

 

이제 blueprint는 완성되었다. 다음은 valid content를 만드는 것이다.

The blueprint for content validity is now complete; the next challenge is to create the valid content. 



 

 

Blueprint 기반으로 평가 만들기

Tip 6. Create evaluations based on the blueprint


모든 평가는 blueprint와 부합해야 한다.

All evaluations used in the course – formative, summative and retake – should conform to the blueprint. 




문제은행 사용하기(또는 만들기)

Tip 7. Use (or create) an item bank



문제은행을 사용하는 것은 평가의 부담을 줄여준다. 문제은행이 존재하지 않으면, 장기적으로는 시간과 노력을 좀 들여서 만드는 편이 나으며, 과목이나 의과대학 간 공유할 수도 있다.

Using an item bank to match existing items to the blueprint reduces the burden of creating evaluations. If an item bank does not exist, the short-term investment of time and effort to create this pays off in the long run as items can then be shared between courses and even between medical schools. 



학습목표를 Revise

Tip 8. Revise learning objectives


 

blueprint는 과목의 모든 측면에 걸쳐서 가중치를 준다. 이 Weighting은 과목담당자가 과목의 학습목표를 생각해볼 수 있는 기회가 된다. 학습목표를 blueprint 기반으로 수정하는 것이 직관에 반할지는 모르나, 내용타당도를 달성하기 위해서는 목표의 숫자/교육 시수/평가 문항 수 등이 각 임상표현과 비례해야 한다.

 blueprint provides weighting for all aspects of a course. This weighting provides an opportunity for the course chair to reflect on the learning objectives. While it may appear counterintuitive to revise learning objectives based upon a blueprint weighting, to achieve content validity the number of objectives, hours our instruction, and number of evaluation items for each clinical presentation should be proportional.




학습경험을 revise

Tip 9. Revise learning experiences


 

Blueprint는 학습경험에 대해서 성찰해 볼 기회도 준다. 그러나 이것이 가중치와 교육시수 사이에 완벽한 선형관계가 있음을 의미하는 것은 아니다.

The weighting provided by the blueprint also offers an opportunity for reflection on learning experiences But this does not imply a perfect linear relationship between weighting and hours of instruction;


Blueprint를 교수들에게 배포하라

Tip 10. Distribute the blueprint to teachers


Blueprint는 과목책임자가 적절히 내용을 선태하는 것에 도움을 줄 뿐만 아니라, 교수들이 내용이 학습목표와 평가 두 가지 모두와 잘 부합하는 학습경험을 계획하는데도 도움이 된다.

The detail contained within a blueprint not only helps the course chair to select appropriate content area, but also helps teachers plan the learning experiences so that the content delivered is congruent with both the objectives and the evaluations.





내용 타당도를 모니터링하라

Tip 11. Monitor content validity


그러나 Blueprint를 발행하는 것 만으로 adoption되진 않는다. 내용타당도는 꾸준히 평가되고 모니터링 되어야 한다.

It cannot be assumed however, that publishing a blueprint inevitably leads to its adoption – content validity still needs to be evaluated and monitored.



Blueprint를 학습자에게 배포하라

Tip 12. Distribute the blueprint to learners


이상적으로, blueprint를 만들고 학습자들에게 배포하는 것은 course leader가 '운전대를 잡게' 해주며, 핵심 course material을 향해 학습이 이뤄지게 해준다.

Ideally, creating and providing a blueprint to learners ensures that course leaders are ‘grabbing hold of the steering wheel’ and driving learning towards what is felt to be core course material.


blueprint 는 학생들의 시험준비에도 중요한데, 학습목표를 reinforce시키고, 의도한 교육과정을 전달하게 해준다. 이전 연구에서 blueprint를 출판하는 것이 학생의 퍼포먼스를 향상시키지는 않았지만, 평가 프로세스의 공정함에 대한 인식을 크게 향상시켜주었다.

blueprint shown to be important in student examination preparation, reinforces the learning objectives and delivery of the intended curriculum (McLaughlin et al. 2005b). In a previous study, we found that blueprint publication did not improve student performance, but significantly increased the perception of fairness of the evaluation process (McLaughlin et al. 2005c).




 




 2009 Apr;31(4):322-4. doi: 10.1080/01421590802225770.

Twelve tips for blueprinting.

Author information

  • 1Office of Undergraduate Medical Education, University of Calgary, Calgary, Alberta, Canada.

Abstract

BACKGROUND:

Content validity is a requirement of every evaluation and is achieved when the evaluation content is congruent with the learning objectives and the learning experiences. Congruence between these three pillars of education can be facilitated by blueprinting.

AIMS:

Here we describe an efficient process for creating a blueprint and explain how to use this tool to guide all aspects of course creation and evaluation.

CONCLUSIONS:

A well constructed blueprint is a valuable tool for medical educators. In addition to validating evaluation content, a blueprint can also be used to guide selection of curricular content and learning experiences.

PMID:
 
18937095
 
DOI:
 
10.1080/01421590802225770
[PubMed - indexed for MEDLINE]


차이에 관하여: 왜 전문가-초심자 비교가 타당도주장에 기여하는 바가 별로 없는가(Adv in Health Sci Educ, 2015)

Much ado about differences: why expert-novice comparisons add little to the validity argument


David A. Cook





도입

Introduction


CBME와 성과를 강조하며 근거-기반 교육이 필수적이 됨.

The growing emphasis on competency-based education (Albanese et al. 2008; Weinberger et al. 2010) and educational outcomes (Prystowsky and Bordage 2001; Cook and West 2013) creates an imperative for evidence-based educational metrics.


'known-groups comparison'식의 연구는 (타당도근거 중) "relationships with other variables"에 해당되는 것으며, 이 때 'other variable'은 보통 training status에 대한 것이다.

Such known-groups comparison studies provide evidence of ‘‘relationships with other variables’’ (American Educational Research Association 1999; Downing 2003; Cook and Beckman 2006), with the other variable usually being the training status (or rather, the presumably higher proficiency that comes with advanced training).


전형적인 방법은 staff physician과 PG trainee 또는 4학년과 2학년 의과대학생을 비교하는 식인데, 이 때의 가정은 더 advance한 training status에 있을 때 덜 advance한 status에 있는 경우보다 점수가 높을 것이라는 것이다.

The typical study might enroll and compare scores between staff physicians and postgraduate trainees, or senior medical students and junior medical students, with the hypothesis that those with more advanced training status (the ‘‘experts’’) will have higher scores than those less advanced (the ‘‘novices’’).


이러한 known-groups comparisons 방식은 validity argument에 기여하는 바가 거의 없다. 평가에서 between group의 discrimination을 확실하게 해주지 못하는 것이 문제이긴 하나, 그러한 차이를 확인해주는 것 그 자체가 validity에 충분한 것은 아니다.

The problem is that such known-groups comparisons actually contribute little to the validity argument. While failure to confirm discrimination between groups suggests a serious potential problem for the assessment [as has been shown for checklists as measures of clinical reasoning (Neufeld et al. 1981; Hodges et al. 1999)], confirmation of such differences is by itself insufficient to establish score validity.


 

주된 문제: 상관관계가 인과관계는 아니다.

The main problem: association does not imply causality


expert-novice study 에서 가장 중요한 문제는 confounding에 대한 것이다. 차이가 발생했을 때 그것을 설명할 수 있는 방식은 다양하나 "상관관계가 인과관계는 아니다".  

Arguably the most important flaw in the expert-novice study is the problem of con- founding: there are multiple plausible explanations for any observed differences. ‘‘association does not imply causation.’’ However, these analyses actually provide no evidence to confirm that score differences reflect the target characteristic or any other specific underlying characteristic.


 

물론, 우리가 의도적으로 '흰머리 개수'와 같이 '완전히 무관한 특성'을 가져오지는 않는다. 그러나 새로운 도구를 개발하는 연구자들은 그 도구의 숫자가 측정하는 (혹은 측정하지 않는) 것이 무엇인지 알려주지 않는다. Fig 1.에서 점수로만 봤을 때 이 도구가 측정하는 것이 셋 중에 어떤 것인지 알 수 없다 (cardiology능력 vs pulmonology 능력 vs 흰머리) 

Of course, we would never intentionally use a completely irrele- vant characteristic such as grey hair to measure clinical proficiency. Yet researchers evaluating a new instrument don’t really know what the instrument’s scores do (or do not)measure; they only know the pattern of the numbers. In Fig. 1 there is no way to know (judging from the numbers alone, without the benefit of labels) whether the instrument is measuring proficiency in cardiology, proficiency in pulmonology, or simply grey hair. 

 

 


 

 

외삽에는 주의가 필요하다.

Cautions in extrapolating results to educational practice


몇몇 다른 방법론적 문제도 있다.

several other methodological problems


첫째, expert-novice studies 에 참여하는 참가자들은 그 결과가 적용될 집단을 대표하지 않는 경우가 많다. 1학년 학생과 4학년 학생 모두에게 동시에 사용되는 instrument는 거의 없으며, 1년차 수련생과 experienced physician에게 동시에 사용하는 instrument도 거의 없다. 또한, 궁극적으로 그 평가를 사용할 할습자그룹은 일반적으로 expert-novice studies 에 참여한 사람들보다 더 homogenous하며, 이로 인해 변별력이 감소하고, training level외에도 다른 측면에서 유의하게 다른 특성이 있다. 이러한 spectrum bias는 임상에서 진단용 검사의 measurement properties에도 유의한 영향을 주며, 같은 문제가 educational assessment에서도 동일하게 발생한다. Lijmer 등은 "이미 질병을 가지고 있다고 알려진 환자집단, 그리고 이와 별개의 정상 환자집단을 대상으로 검증된 검사"란 사실상 case-control study와 같은 것이며, 이러한 연구가 accuracy를 세 배 이상 과대추정한다고 지적했다.

First, the participants enrolled in expert-novice studies are rarely representative of the population to whom the results will be applied. Few instruments are intended for use with both first- year and final-year medical students at the same time, or first-year postgraduate trainees and experienced physicians. Also, the learner groups that will ultimately use the assess- ment are typically more homogenous than those enrolled in the expert-novice study, which decreases discriminatory power, and may differ in important ways other than the level of training (e.g., degree of interest in the study topic). Such spectrum bias has been shown to significantly influence the measurement properties of diagnostic tests in clinical medicine (Lijmer et al. 1999; Whiting et al. 2011), and the same problem holds true for educational assessments. Lijmer et al. (1999, page 1,062) noted that studies in which ‘‘the test is evaluated in a group of patients already known to have the disease and a separate group of normal patients’’ (i.e., known-groups comparisons) are actually case–control studies, and found that such study designs overestimated accuracy by a factor of three.


둘째, known-group design은 도구의 전형적인 활용사례를 대표하지 않는다. 실제 발생하는 상황은 각자의 능력을 모르는 비슷한 training status의 학습자들을 대상으로 이뤄지게 되며, 도구를 사용해서 각 개인의 능력을 추정하고 분류하는 목적으로 사용한다. 반대로 expert-novice comparision은 서로 다른 training status에 있는 집단에서 시작해서, 평균적인 점수가 다르다는 것을 확인해준다. known-group analysis에서 평균점수가 다른 것이 개개인의 점수가 정확히 전향적prospectively으로 classify해줄 수 있음을 보장하진 않는다.

Second, the known-groups design does not mirror a typical application of the instru- ment. In real-life applications the educator starts with a group of learners of similar training status but with unknown abilities, and uses the assessment to estimate and classify the ability of each individual. By contrast, the expert-novice comparison starts with groups at different training statuses and presumably known ability, and confirms that the average assessment scores vary. Showing that the average group scores differ in the known-groups analysis does not guarantee that individual scores will accurately classify learners prospectively.


마지막으로, 많은 연구가 expert-novice differences 를 통해서 신뢰도계수를 추정하다. 여기에는 심각한 개념적 오류가 있는데, 왜냐하면 known-group comparison은 between group의 variability를 가정하나, 신뢰도 분석은 within group의 variability에 초점을 두기 때문이다. 이미 차이가 알려진 집단을 포함시키는 것은 신뢰도 계수를 부적절하게 inflate한다.

Finally, many studies that evaluate expert-novice differences also attempt to estimate the reliability of scores. This is a serious conceptual flaw, because known-groups com- parisons hypothesize variability between groups while reliability analyses focus on vari- ability within groups. Including groups with known differences in a reliability analysis will erroneously inflate the reliability coefficient, as shown in Fig. 2.

 

 

 


 

What should researchers do?


known-groups comparisons의 문제에 대해서, 어떻게 해야 할까? 첫째, 이러한 분석을 'relations with other variables' 유형의 validity evidence를 위해 사용하는것이 잘못된 것은 아니다.

Given the problems with known-groups comparisons, how should researchers proceed? First, it is not wrong to perform such analyses in search of validity evidence of relations with other variables (Cook and Beckman 2006),


이러한 장점이 있다.

 advantages including simplicity, convenience, low cost, high power, and short duration.

 

이러한 비교가 training level에 따라 차이가 나지 않아야 하는 특성을 examine할 수도 있다. 또는 training이외의 것에 의해서 결정되는 특성을 조사할 수도 있다.

Such comparisons can also examine attributes that should not vary across training level (e.g., professionalism), or examine groups determined by characteristics other than training.

 

'필요하지만 충분하지 않음'의 관점에서, 이들 분석은 '차이가 있어야 하는데 차이가 없다고 나타나는' 경우에 가장 흥미로울 것이다. 또는 차이가 없어야 하는데 차이가 있는 경우도 흥미로울 것이다. 이미 가정된 difference를 재확인하는 것은 validity argument에 추가적인 가치가 별로 없다.

In light of the ‘‘necessary but not sufficient’’ guideline, these analyses will bemost interesting if they fail to discriminate groups that should be different, or find dif-ferences where none should exist. Confirmation of hypothesized differences or similarities adds little to the validity argument. 


둘째, 연구자들은 다른 study design을 활용하여 'relations with other variables'에 대한 stronger evidence를 찾을 수도 있다. 예컨대 실제 상황하고 비슷하게 trainee를 구성하고, 동일하거나 유사한 특성을 독립적으로 측정하여 비교하는 것이다. 이러한 설계는 educator가 실제로 하는 것과 비슷하다.

Second, researchers might use other study designs to identify stronger evidence of relations with other variables (Cook et al. 2014). Such studies might assemble a group of trainees similar in composition to that expected in real-life applications, and then examine the correlation with an independent measure of the same or a similar characteristic mea- sured concurrently or at a later date. These designs closely mimic what educators do in real life,


마지막으로, validity evidence에서 single source에 의존하지 않는 것이 중요하다.

Finally, it is important not to rely on any single source of validity evidence (whether from a known-groups comparison, or from any other source).


 

 




 2015 Aug;20(3):829-34. doi: 10.1007/s10459-014-9551-3. Epub 2014 Sep 27.

Much ado about differenceswhy expert-novice comparisons add little to the validity argument.

Author information

  • 1Mayo Clinic Online Learning, Mayo Clinic College of Medicine, Rochester, MN, USA, cook.david33@mayo.edu.

Abstract

One approach to validating assessment scores involves evaluating the ability of scores to discriminate among groups who differ in a specific characteristic, such as training status (in education) or disease state (in clinical applications). Such known-groups comparison studies provide validity evidence of "relationships with other variables." The typical education research study might compare scores between staff physicians and postgraduate trainees with the hypothesis that those with more advanced training (the "experts") will have higher scores than those less advanced (the "novices"). However, such comparisons are too nonspecific to support clear conclusions, and expert-novice comparisons (and known-groups comparisons in general) thus contribute little to the validity argument. The major flaw is the problem of confounding: there are multiple plausible explanations for any observed between-group differences. The absence of hypothesized differences would suggest a serious flaw in the validity argument, but the confirmation of such differences adds little. As such, accurate known-groups discrimination may be necessary, but will never be sufficient, to support the validity of scores. This article elaborates on this and other problems with the known-groups comparison that limit its utility as a source of validity evidence.

PMID:
 
25260974
 
DOI:
 
10.1007/s10459-014-9551-3
[PubMed - in process]


MCQ에서 CIV와 IWF: 원칙이 차이를 만드는가?(Acad Med, 2002)

Construct-irrelevant Variance and Flawed Test Questions: Do Multiple-choice Item-writing Principles Make Any Difference?

STEVEN M. DOWNING

EVALUATION METHODS: WHAT DO WE KNOW? 

Moderator: Reed G. Williams, PhD




Messick 은 CIV를 다음과 같이 정의하였다.

Messick defines construct-irrelevant variance (CIV) as

‘‘. . . excess reliable variance that is irrelevant to the interpreted construct.’’2


Testwiseness, teaching to the test, and test irregularities (cheat- ing) 등이 모두 CIV이다.

Testwiseness, teaching to the test, and test irregularities (cheat- ing) are all examples of CIV that tend to inflate test scores by adding measurement error to scores.



문헌 고찰

Review of the Literature


NBME 연구에서 기본적인 문항작성원칙에 violation이 있음을 보여주었다.

Yet, a recent study from the National Board of Medical Examiners (NBME)6 shows that viola- tions of the most basic item-writing principles are very common in achievement tests used in medical education.


개별 IWF는 연구되었으나 cumulative effect는 연구된 바가 없다.

While several individual item flaws have been studied (negative stems,6 multiple true–false items,7 none of the above option8), the cumulative effect of grouping flawed items together as scales mea- suring the same ability has not been investigated.


방법

Method



Three independent raters, blinded to item-performance data, classified the items using the standard principles of effective item writing as the universe of item-writing principles.4


Absolute passing standards were established for this test by the faculty responsible for teaching this instructional unit using a mod- ified Nedelsky method.9


다음을 계산함

Typical item-analysis data were computed for each scale:

  • means,
  • standard deviations,
  • mean item difficulty,
  • mean biserial discrimi- nation indices, and
  • Kuder-Richardson 20 reliability coefficients,
  • to- gether with the absolute passing score and the passing rate (pro- portion of students passing).


Results


22개의 표준문항과 11개의 오류문항을 비교했을 때, KR20은 0.62 vs 0.44였다.

Comparing the standard (22 items) and the flawed (11 items) scales,

  • the observed K-R 20 reliability was .62 versus .44.
  • The standard-scale mean p value was .70; the flawed-scale mean p value was .63 (t197 = 6.274, p < .0001).
  • The standard-scale items were slightly more discriminating than the flawed items, rbis = .34 versus.30 (using the total test score as criterion).
  • The flawed and the standard scales were correlated r = 0.52 (p < .0001). 



고찰

Discussion and Conclusions


1/3에서 1개 이상의 IWF 발견

One third of the questions in this test have at least one item flaw.


오류문항에서 난이도가 상승하였다. 문항이 제대로 안 만들어질 경우 인위적인 난이도 추가가 발생하는 것. 이 CIV는 시험점수의 정확하고 meaningful한 해석에 방해가 되고 passing rate에도 부정적으로 작용함.

The increased test and item difficulty associated with the use of flawed item forms is an example of CIV, because poorly crafted test questions add artificial difficulty to the test scores. This CIV inter- feres with the accurate and meaningful interpretation of test scores and negatively impacts students’ passing rates, particularly for pass- ing scores at or just above the mean of the test score distribution.









 2002 Oct;77(10 Suppl):S103-4.

Construct-irrelevant variance and flawed test questions: Do multiple-choice item-writing principles make any difference?

Author information

  • 1Visiting Professor, University of Illinois at Chicago, College of Medicine, Department of Medical Education, 808 South Wood Street, Chicago, IL 60612-7309, USA.
PMID:
 
12377719
[PubMed - indexed for MEDLINE]


MSPE 랭킹의 학교별 차이: 매우 나쁜 학생이지만 "Good" (Acad Med, 2016)

Ranking Practice Variability in the Medical Student Performance Evaluation: So Bad, It’s “Good”

Megan Boysen Osborn, MD, MHPE, James Mattson, Justin Yanuck, MS, Craig Anderson, PhD, MPH, Ara Tekian, PhD, MHPE, John Christian Fox, MD, and Ilene B. Harris, PhD




The medical student performance evaluation (MSPE), formerly called the “dean’s letter,” is an important component in a medical student’s application for residency training.


The Association of American Medical Colleges (AAMC) guidelines for preparing the document were revised in 2002, In a review of MSPEs submitted three years later, however, Shea and colleagues2 found that there was still great variability from institution to institution.


The 2002 MSPE guidelines state that the summary section should include

“a summative assessment …

of the student’s comparative performance in medical school,

relative to his/her peers, including information about any school- specific categories

used in differentiating among levels of student performance.”1


Notwithstanding this recommendation, analyses of MSPEs have demonstrated that ranking systems vary among schools.2–5

  • Some medical schools provide numerical ranks for their students,

  • while others group their students into quartiles or quintiles.

  • Many medical schools group their students into categories, with descriptors such as “outstanding” or “very good.”

  • Some schools do not use any type of ranking system or do not clearly define one.



Schools’ categorical ranking systems vary widely in the terminology used and in the size of the category groups.

  • For example, many schools use the term “excellent” to describe high-achieving students, while other schools use the same term to describe average students.5

  • On the other hand, schools typically use the term “good” to describe students in the bottom 50% of their graduating class.3


no authors have quantified the variability in ranking practices among U.S. medical schools.






Method


자료수집1

We extracted the MSPE from each appli- cation to the University of California, Irvine (UC Irvine) emergency medicine (EM) residency program during the 2012–2013 and 2014–2015 application cycles. We included any applicant from a U.S. MD-granting medical school.


자료수집2

For any schools still missing from our sample, we contacted the school’s associate dean of student affairs and requested a deidentified MSPE.


연구질문

We answered the following questions for each school’s MSPE:

  • 1. Does the school use a defined ranking system?

  • 2. What type of ranking system is used?

  • 3. Into how many categories are the students divided? What are the most common category descriptors for each group? What percentage of students is in each category?

  • 4. Where is the student’s rank provided in the MSPE? Where is the legend for the ranking system?
  • 5. Do nonranking schools (i.e., schools that do not rank students) use similar language to schools that rank students?



Results


In 2015, there were 136 U.S. MD-granting medical schools that had graduating classes, while in 2013 there were 132.6


 

we had at least one MSPE from 134 (99%) of the 136 U.S. MD-granting medical schools with graduates in 2015. We had data for both 2013 and 2015 for 114 (85%) of these 134 medical schools.


Of the 134 schools, 101 (75%) provided ranks for their medical students in the MSPE, and 33 (25%) did not.


  • Sixty-three (62%) of the ranking schools used named category groups, such as “outstanding” for their top group and “good” for their lowest group.

  • Twenty-four (24%) of the ranking schools broke the class into segments such as tertiles (thirds), quartiles (fourths), or quintiles (fifths), without other category descriptors.


Students were most commonly divided into four groups (Table 1).

 


그룹별 사이즈(학생 수)

  • Six (10%) schools did not provide the sizes for each of their groups, and

  • another 6 (10%) provided size distribution for onlytheir top group(s).

  • When the negative terms “marginal,” “below  average,”  or “recommended with reservation” were used for the lowest-ranked students, these groups included on average 1% of students (range: 0%–2%). 

 

흔하게 사용되는 용어

The most common terms used by the 63 schools with named category groups to describe student performance, regardless of class position, were

  • “excellent” (n = 53; 84%),

  • “outstanding” (n = 52; 83%),

  • “very good” (n = 51; 81%), and

  • “good” (n = 42; 67%) (Table 2).

 

Among these schools,

  • “excellent” was used to describe students ranging from the 1st to the 95th percentiles;

  • “outstanding” was used to describe students who were in the 33rd to 99th percentiles;

  • “very good” was used to describe students who were in the 1st to 80th percentiles; and

  • “good” was used to describe students who were in the 1st to 57th percentiles.

 



MSPE내에서 학생의 rank관련 정보

Among the 101 schools with formal ranking systems, there was variability in where the reader could locate the student’s rank in the MSPE.

  • The majority (n = 79; 78%) of the schools identified the individual student’s rank in the summary section.

  • Other locations included the appendices (n = 14; 14%) or another section within the MSPE (n = 8; 8%).

  • Many schools (n = 51; 50%) made an effort to highlight the rank by bolding, capitalizing, or underlining it. 


Ranking system legend의 위치

The location for the ranking system legend also varied.

  • Thirty-six (36%) of the 101 ranking schools described their system in Appendix D, as suggested by the AAMC guidelines.1

  • Forty-one (41%) described their ranking system in another appendix, including the medical school information page.

  • Some included the legend in a cover letter (n = 6; 6%) or

  • within the body of the MSPE (n = 5; 5%).

  • Thirteen (13%) did not fully describe their ranking system anywhere, but the use of a ranking system was inferred by their giving a numerical or quantile rank to the student at some location in the MSPE.


nonranking school들의 특성

Of the 33 schools that did not rank their students,

  • 21 (64%) included a statement somewhere in the MSPE that they “do not rank” their students.

 

33개의 nonranking school에서 330개의 MSPE분석결과

We examined the summary sections of 330 additional MSPEs from the 33 nonranking schools (average = 10 MSPEs/school; range: 1–25, IQR: 5–14).

  • We did not find any language suggestive of rank for 9 (27%).

  • We found that 15 (45%) of the schools included statements in their summary paragraphs that were suggestive of rank.
    “We recommend him/her as a [descriptor] candidate for graduate medical education.” The descriptors this school used were “outstanding,” “excellent,” and “very good.”



Descriptor와 Academic performance의 관계 비교

When we compared students’ academic performance against the “descriptors” used by these 15 schools (independently ranked by our reviewers), we found that 8 of the schools had strong correlations between the descriptors and students’ academic performance, as measured by clinical clerkship grades (Spearman rank coefficient: r = 0.71–1.0 for 8 schools, s P < .05 for 6 of these schools).


Nonranking school 중 2015 U.S. News and World Report top 20 medical schools의 비율이 높음

We found that a higher percentage of nonranking schools (n = 9 of 33 [27%]; 95% confidence interval [CI], 12%–42%) were among the 2015 U.S. News and World Report top 20 medical schools7 compared with the ranking schools (n = 11 of 101 [11%]; 95% CI, 5%–17%; chi-square test for independence: P = .02).


랭킹 사용여부의 변화, 카테고리 그룹의 숫자 혹은 descriptor의 변화 등

  • Seven (6%) of the 114 schools for which we had two years of data changed from nonranking schools in 2013 to ranking schools in 2015.

  • None of the schools changed from ranking to nonranking.

  • Five (4%) schools decreased the number of category groups they used.

  • Two (2%) schools changed their descriptor terms.

  • Many schools changed the size of their category groups (n = 36; 32%).

A Wilcoxon signed rank test detected no statistical difference in the percentage of students in the first, second, third, or last category between 2013 and 2015 in these 36 schools.



Discussion


 

Our study clearly demonstrates inconsistency in the student ranking systems used in MSPEs among U.S. MD-granting medical schools.

 

Variability로 인해서 해석이 어려워짐. 평균적으로 레지던트 프로그램은 856개의 지원서를 받음. MSPE의 권장 길이는 2~3페이지이나 보통 그거보다 긴 경우가 많음.

Variability in the format of MSPEs may contribute to difficulty in interpreting them. On average, residency programs receive 856 applications per year.8 Although the recommended length of the MSPE is two to three pages, it is usually longer.1,2


그러나 학생의 class rank를 locate하는 것은 귀찮은cumbersome과정이다. program director는 먼저 학생의 MSPE에서 rank category를 찾고, legend를 확인하여 ranking system을 설명하는 부분을 보아야 한다. 이러한 귀찮음을고려하면 program director들이 MSPE를 rank-order decision을 내릴 때 사용하지 않는 것이나 MSPE가 대부분의 전공과목에서 top factor가 아닌 사실이 놀랍지 않다.

Locating a student’s class rank can be a particularly cumbersome process, however. The program director must first identify the sentence in the MSPE that contains the student’s rank category and then locate the legend that describes the ranking system—both items with variable locations and presence. Therefore, it is not surprising that one-third of program directors do not use the MSPE to make rank-order decisions and that the MSPE is not a top factor in making selection decisions for most specialties.10,11


 

MSPE의 가치가 평가절하되는 상황은 우려스럽다. 왜냐하면...

The lower value placed on the MSPE by program directors is concerning because...

  • the MSPE is the only comprehensive assessment of a student’s medical school performance.

  • Medical schools put significant time and resources into the production of MSPEs each year.12,13

  • Issues in the readability and usability of the MSPE undermine the efforts and resources invested by all parties involved and

  • may ultimately take emphasis away from assessment of global medical school performance in a student’s application.


같은 용어도 학교마다 다른 식으로 사용된다.

  • For example, “good” was usually used to refer to students in the bottom half of their graduating class, but its use ranged above the median in at least one school. Such variability may lead to errors of interpretation.

  • A program director may assume, for example, that an “outstanding” student is ranked in the school’s top category, when in reality the student is ranked in the bottom half of the class or the school has no ranking system.


가장 손해를 보는 학생은 high-achieving student가 된다.

High-achieving students have the most to lose from the variability in ranking systems. First, they are indirectly affected if a program director incorrectly assigns their lower-achieving counterparts to a higher quartile than is deserved


권고 10년이 지났지만, 여전히 다수의 학교가 transparent, comparative performance information 를 제공하지 않는다. top student에 대해서만 rank를 제공하기도 한다.

Our study also demonstrates that, more than 10 years after the AAMC recommendations on the MSPE were released,1 one-quarter of medical schools do not provide transparent, comparative performance information for their students. Other nonranking schools provided rank information for their top students only, despite explicitly stating that they “do not rank.”


왜 rank를 제공하지 않는지 이유는 불분명하다. 그러나 U.S. News and World Report top 20 medical schools 에서 NONRANKING비율이 높은 점에서, 이들 학교가 '우리 학생은 특별하다'라는 생각을 가지고 학생들을 CATEGORY로 나누고 싶지 않은 것을 유추해볼 수 있다. 본질적으로 학생의 입장을 대변하려는 MSPE작성자와, MSPE로 학생을 선발하려는 MSPE사용자 사이에는 conflict가 있다.

It is not clear why some schools choose not to rank their students. A larger proportion of nonranking schools than ranking schools were among the U.S. News and World Report top 20 medical schools in 2015,7 which suggests that top medical schools may be of the mind-set that all of their students are exceptional and may not want to place them into categories. Inherently, there is a conflict between the needs of the MSPE writer and the MSPE reader.15 The writer may feel compelled to act as an advocate for each student,13 whereas the reader is attempting to select the best candidates for his or her residency program.


Best ranking practice는...

It is our opinion that the best ranking practice is a consistent ranking practice that

  • 고성과 학생을 강조하면서 highlights high achievers and

  • 문제 학생을 발견하게 해주나 identifies problematic students but does

  • 저성과 학생을 벌하지 않는 not punish lower achievers.

 

저자의 권고

We believe that the following categorical ranking system would achieve these goals:

  • “outstanding” (80th–99th percentiles),

  • “excellent” (50th–79th percentiles),

  • “very good” (4th–49th percentiles), and

    • A large third group avoids punishing lower-ranking students,

  • “satisfactory” (3rd percentile and below),

    • with the “satisfactory” group size adjusted to include only students with serious academic performance issues (e.g., course failures).

    •  while a small lowest group provides an opportunity for schools to identify very-low-achieving students. 


한계점

Limitations

 

There were a few notable limitations to this study.
  • For ranking schools, we examined only one MSPE per application cycle and assumed that other MSPEs from the same school would have the same format; however, we minimized this potential issue by analyzing documents from two different years when available. Our data abstractors were not blinded to the study purpose. We excluded schools that did not give sizes for their category groups from the group size calculations.

  • For our analysis of nonranking schools, we reviewed 1 to 25 MSPEs from each school. The nonranking schools for which we had fewer MSPEs may have had a “hidden” rank system that we did not discover secondary to insufficient variability in student performance distribution.


 

 


161107_AAMC_MSPE_Journal_Club.pdf



 2016 Nov;91(11):1540-1545.

Ranking Practice Variability in the Medical Student Performance Evaluation: So BadIt's "Good".

Author information

  • 1M. Boysen Osborn is assistant professor and residency program director, Department of Emergency Medicine, University of California, Irvine, Orange, California. J. Mattson is a fourth-year medical student, University of California, Irvine, School of Medicine, Irvine, California. J. Yanuck is a fourth-year medical student, University of California, Irvine, School of Medicine, Irvine, California. C. Anderson is research specialist, Department of Emergency Medicine, University of California, Irvine, Orange, California. A. Tekian is professor, Department of Medical Education, University of Illinois, Chicago, Chicago, Illinois. J.C. Fox is professor and assistant dean of student affairs, Department of Emergency Medicine, University of California, Irvine, Orange, California. I.B. Harris is professor and head and director of graduate studies, Department of MedicalEducation, University of Illinois, Chicago, Chicago, Illinois.

Abstract

PURPOSE:

To examine the variability among medical schools in ranking systems used in medical student performance evaluations (MSPEs).

METHOD:

The authors reviewed MSPEs from U.S. MD-granting medical schools received by the University of California, Irvine emergency medicine and internal medicine residency programs during 2012-2013 and 2014-2015. They recorded whether the school used a ranking system, the type of ranking system used, the size and description of student categories, the location of the rankingstatement and category legend, and whether nonranking schools used language suggestive of rank.

RESULTS:

Of the 134 medical schools in the study sample, the majority (n = 101; 75%) provided ranks for students in the MSPE. Most of the ranking schools (n = 63; 62%) placed students into named category groups, but the number and size of groups varied. The most common descriptors used for these 63 schools' top, second, third, and lowest groups were "outstanding," "excellent," "very good," and "good," respectively, but each of these terms was used across a broad range of percentile ranks. Student ranks and school category legends were found in various locations. Many of the 33 schools that did not rank students included language suggestive of rank.

CONCLUSIONS:

There is extensive variation in ranking systems used in MSPEs. Program directors may find it difficult to use MSPEs to compare applicants, which may diminish the MSPE's value in the residency application process and negatively affect high-achieving students. A consistent approach to ranking students would benefit program directors, students, and student affairs officers.

PMID:
 
27075499
 
DOI:
 
10.1097/ACM.0000000000001180
[PubMed - in process]


+ Recent posts