평가프로그램과 케인의 타당도 관점(Med Educ, 2012)

Programmatic assessment and Kane’s validity perspective

Lambert W T Schuwirth1,2 & Cees P M van der Vleuten2





도입 INTRODUCTION


의학 교육 평가 문헌은 의료 [역량을 구성하는 각각의 개별 구조construct]에 대해 ['성배'라는 것이 존재할 것이라는 가정] 하에 (다른 모든 것에 비해) [하나의 평가 기구의 본질적인 우월성을 입증하려는 연구]에 의해 오랫동안 지배되어 왔다. 이 담론의 대표적인 예로는 의학 문제해결의 평가에서 [객관식 문항]보다 [개방형 문항]의 선천적 우월성을 입증하려고 시도한 많은 연구가 있다.1-4 그러나 점점 더 평가의 내용이 그 형식보다 훨씬 더 중요한 역할을 한다는 것이 분명해졌다.2-5 더 중요한 것은 이러한 성배가 존재할 가능성이 매우 낮으며, 심지어 다른 맥락까지 적용될 가능성이 낮다는 인식이 증가하고 있다는 점이다. 대신, 각 평가 방법의 효용성은 항상 품질의 다양한 측면 사이의 절충이라는 관념이 자리를 잡게 되었다.

The medical education assessment literature has long been dominated by studies that try to demonstrate the intrinsic superiority of one assessment instrument over all others on the assumption that such a ‘holy grail’ for each of the separate constructs that make up medical competence will exist. Typical examples of this discourse include the many studies that have attempted to prove the innate superiority of open-ended questions over multiple-choice questions in the assessment of medical problem-solving.1–4 Increasingly, however, it has become clear that the content of an assessment plays a far more important role than its format.2–5 More importantly, there is increasing awareness that it is highly improbable that such a holy grail exists and even less likely that it will be applicable across different contexts. Instead, the notion that the utility of each assessment method is always a compromise between various aspects of quality has gained ground.


[평가의 질]을 더 높은 수준에서 평가해야 한다는 것이 더 일반적으로 받아들여졌을 때 한 단계 더 나아갔다. 따라서 개별 평가 방법의 수준에서 평가를 평가하기보다는 방법에 따라 평가의 품질을 결정해야 한다.8.9 이 관점의 두 가지 결과가 중요하다. 

  • 첫째로, 어떤 상황에서든 하나의 도구가 완벽하지 않을 수 있다는 것을 깨닫게 한다(실제로 거의 모든 악기는 완벽하지 않다). 

  • 째로, 평가 도구의 강점은 평가 프로그램 구축을 통한 유연하고 맞춤화된 접근방식에서 비롯된다는 것을 암시한다. [(거의) 완벽한 도구의 조합]보다 아마도 [덜 완벽한 구성요소를 세심하게 결합한 세트]가 더 강력한 평가 프로그램을 만들 수 있다.

A further step was taken when it became more generally accepted that the quality of assessment should be evaluated at a higher level. Thus, rather than evaluating an assessment at the level of the individual assessment method, the quality of the assessment should be determined across methods.8,9 Two outcomes of this view are important. 

  • Firstly, it makes us realise that in any situation a single instrument may not be perfect (in reality almost all instruments are less than perfect). 

  • Secondly, it implies that strength derives from a more flexible and tailor-made approach to building a programme. A combination of (near-) perfect instruments may result in a weaker programme than a carefully combined set of perhaps less perfect components.


예를 들어, 역량 영역(예: 미국 대학원 의학 교육 인증 위원회[ACGME] 또는 캐나다 CanMEDS 도메인의 왕립 의사 및 외과의사 대학(Royal College of Occessors and Occessors of CanMEDS domains10,11)의 개발의 맥락에서, 전통적인 접근방식은 각 역량 영역에 대해 하나의 우수한 기기가 개발되어야 하는 평가 프로그램을 지시할 것이다. 그러한 프로그램은 [1개의 도구 대 1의 역량 영역 설계]를 따를 것이다. 프로그램적 접근방식에서 하나의 기구는 학생과 교사 모두에게 다양한 역량 영역을 알릴 수 있으며, 역량 영역은 다양한 출처의 정보를 사용하여 평가된다. 따라서 1 : 1 관계보다는 소위 n : n 관계를 얻는다.12

For example, in the context of the development of competency domains (such as those defined by the US Accreditation Council for Graduate Medical Education [ACGME] or the Royal College of Physicians and Surgeons of Canada’s CanMEDS domains10,11), the traditional approach would dictate an assessment programme in which one superior instrument would require to be developed for each of the competency domains. Such a programme would follow a one-instrument-to-one-competency-domain design. In a programmatic approach one instrument can inform both students and teachers on various competency domains and a competency domain is assessed using information from various sources. Thus, rather than a 1 : 1 relationship, a so-called n : n relationship is obtained.12


완벽한 단일 도구가 없고 각 도구가 장단점(또는 표시, 부작용 및 금지)을 가진 것으로 간주되는 경우, 이것은 신뢰도나 건설 타당성 부족으로 인해 기각된 방법의 필요한 재평가로 이어져야 한다 (바이바, 긴 케이스, 구술 시험 등). 전통적으로 평가 도구의 가치가 다소 이분법적인 방법(좋음 대 나쁘음)으로 판단되었던 반면에, 이제는 [평가 프로그램의 장단점] 또는 [빌딩 블록으로서의 부가가치added value 측면]에서 재평가되고 있다.

If there is no single perfect instrument and each instrument is considered to have its advantages and disadvantages (or indications, side-effects and contraindications), this leads to a necessary reappraisal of methods that had been dismissed because of lack of reliability or construct validity, such as the viva, the long case, the oral examination, and so forth. Whereas the value of an instrument was traditionally judged in a more or less dichotomous manner (as good versus bad), it is now reappraised in terms of its strengths and weaknesses or its added value as a building block in an assessment programme.


타당도에 대한 Kane의 관점

KANE ON VALIDITY


본질적으로 타당성은 [문제의 평가가 평가하고자 하는 역량이나 성과 측면을 실제로 포착하는지]의 문제와 관련된다. 따라서 의료교육의 경우 평가 프로그램은 기업의 '의료 역량'을 포착하는 것을 목표로 한다. 역량이라는 entity는 [존재한다고 가정하지만, 직접 관측할 수 없다는 점에서 construct]이다. 따라서 관찰된 행동에서 유추해야 한다.

In essence, validity pertains to the question of whether the assessment in question actually captures the aspect of competence or performance it purports to assess. Thus, in the case of medical education, the assessment programme aims to capture the entity ‘medical competence’. Such an entity is a construct in that it is assumed to exist yet it cannot be observed directly. Therefore, it must be inferred from observed behaviour.


Kane은 특정 구조에 대한 평가의 타당성을 유추하는 것은 주장을 구축하고 검증하는 (그리고 반증하려는) 지속적인 과정이라고 말한다.13–15

Kane states that inferring the validity of an assessment for a certain construct is an ongoing process of building and verifying (and trying to falsify) arguments.13–15


관찰에서 점수까지

From observation to score


문제해결 능력 평가에서 전형적인 접근방식은 학생들이 다양한 의학적 사례에서 어떻게 수행하는지 관찰하는 것이다. 점수는 학생들이 질문에 대한 '원raw' 대답에서 도출되어야 한다. 물론 우리는 병력청취에서 질문한 관련 질문의 수, 수행된 관련 신체 검사의 수, 그리고 주문된 관련 실험실 시험의 수를 세어 모두 합쳐서 총점을 줄 수 있다.

A typical approach in the assessment of problem solving skills is to observe how students perform on various medical cases. A score must be derived from the ‘raw’ answers students give to questions. We could, of course, just count the number of relevant questions asked in history taking, the number of relevant physical examinations performed and the number of pertinent laboratory tests ordered, and add them all up to give a total score.


그러나 의학문제해결 및 전문지식에 관한 이론은 [전문가는 결론을 내리기 전에 반드시 더 많은 정보를 수집하지 않으며, 그보다는 '효율적'으로 정보를 수집한다]고 기술하고 있다.16–18 또한, 어떤 정보를 수집하는가에 관한 전문가들 사이에 개별적인 차이가 있다(사람에 따라 고유하다). 따라서, 위에서 설명한 방식으로 점수를 매기는 것은 관찰 결과를 점수로 적절하게 변환하는 데 도움이 되지 않을 것이다.

However, theories on medical problem solving and expertise state that experts do not necessarily collect more information before they come to a conclusion, but that they collect information more efficiently.16–18 In addition, there are individual differences between experts with respect to which information they collect (idiosyncrasy).17–19 Therefore, scoring in the manner described above would not serve to properly translate observations to scores.


관측 점수에서 우주 점수까지

From observed score to universe score


일반적으로 한두 건의 케이스는 후보자의 문제해결 전문지식에 대한 일반적인 결론을 도출하는 데 충분한 증거를 제공하지 않는다고 알려져 있다. 인지심리학 연구는 문제해결 전문지식의 영역별 특수성domain specificity 현상을 반복적으로 보여 주었다.23,24 따라서 긴 사례의 작은 표본은 일반적인 문제해결 능력에 대한 추론을 지원하지 않는다.

It is generally known that one or two cases never provide evidence sufficient to support the drawing of general conclusions about a candidate’s problem solving expertise. Research in cognitive psychology has repeatedly demonstrated the phenomenon of the domain specificity of problem-solving expertise.23,24 Therefore, small samples of long cases do not support inferences on general problem-solving ability.


그 결과, key-feature(KF) approach  접근법이나 의료 의사 결정에 초점을 맞춘 확장 매칭 항목과 같이 더 많은 수의 더 짧은 사례에 기초한 방법이 설계되었다.25–27

As a result, methods based on larger numbers of shorter cases, such as in the key-feature approach or in extended-matching items focused on medical decision making, have been designed.25–27


우주 점수에서 대상 도메인까지

From universe score to target domain


간단한 점수 체계와 좋은(넓지만 더 피상적인) 표본 추출 접근법을 통해 관찰된 점수에서 우주universe 점수까지의 좋은 추론을 이끌어내지만, 그 점수가 [의료에서 의사결정 능력]을 포착하고 있는가? 일련의 연구는 그러한 시험의 점수가 예상에 따라 작용한다는 것을 입증하기 위해 사용될 수 있다.

Key-feature approaches with simple scoring schemes and good (broad but more superficial) sampling approaches lead to a good inference from observed score to universe score, but do they capture medical decision-making ability? A series of studies may be used to demonstrate that scores on such tests behave according to expectations.


따라서 [우주 점수에서 목표 영역(의료 의사결정 기술)까지]의 추론을 뒷받침하기 위해서는 [질문에서 확인한 결정이 정말로 필수적이거나 핵심 기능의 결정을 대표한다는 가정]을 뒷받침하는 정보를 수집해야 한다.28,30

Thus, in order to support an inference from universe score to target domain (medical decision-making skills), information in support of the assumption that the decisions for which the questions ask are really essential or represent key-feature decisions must be collected.28,30


대상 도메인에서 구성으로

From target domain to construct


마지막으로, 의료 문제 해결은 단순히 서류 기반 또는 컴퓨터화된 사례에 대해 올바른 결정을 내리는 것 이상의 것을 수반한다. 실제 생활에서는 환자로부터 정보를 유도하는 능력(예: 의사소통 능력)과 정보를 선별하고 관련 없는 정보와 관련성을 구별하는 능력과 같은 많은 다른 요소들이 역할을 할 수 있다.

Finally, medical problem solving entails much more than simply making the right decisions on paperbased or computerised cases. In real life many other factors may play a role, such as ability to elicit information from a patient (e.g. communication ability), and ability to sift through information and distinguish relevant from non-relevant information.


즉, [키-기능 접근방식을 이용한 문제해결능력의 평가]가 [의료역량이라는 construct에 어떤 것을 더하는지]를 판단하는 것이 중요하다. 그 방법의 장단점은 무엇인가? 추가 방법을 사용하여 약점을 해결하거나 보완할 수 있는 방법은 무엇인가? 예를 들어, [키-기능 접근 점수]와 [미니-임상시험(미니-CEX)] 점수 사이의 시너지는 무엇인가? 전자는 높은 양의 낮은 충실도 평가를 기반으로 하고 후자는 더 적은 수의 충실도 시험 표본에 기초하고 있다.

In other words, it is important to determine what the assessment of problem-solving ability, using key-feature approaches, adds to the construct of medical competence. What are the strengths or weaknesses of the method? How can the weaknesses be addressed or compensated for by using additional methods? What, for example, is the synergy between key-feature approach scores and scores on mini-clinical examinations (mini-CEXs), where the former is based on a high quantity of low-fidelity assessment and the latter on fewer samples of high-fidelity testing?


케인의 타당성 관점을 보여주는 의학적 예

A medical example of Kane’s validity perspective


의학에서 BP는 직접 관찰할 수 없는 구조의 좋은 예다. 혈압은 일반적으로 환자의 건강 평가에 도움이 되도록 복용한다.

In medicine, BP is a good example of a construct that cannot be observed directly. Blood pressure is normally taken to aid in the evaluation of a patient’s health.


관찰에서 점수까지

From observation to score


환자의 BP를 확인할 때 의사는 음향(코롯코우 소리) 신호와 스피모노마노미터의 시각적 판독값을 수치값으로 전환해야 한다. 추론은 의사가 언제 판독을 해야 할지 알고, 스피모노미터가 너무 빨리 또는 너무 느리게 흘러내리지 않게 하고, 오른쪽 커프를 사용하는 등의 가정에 근거한다. 절차의 모든 측면이 올바르게 수행되어야만 관찰부터 점수까지의 유효한 추론이 이루어질 수 있다.

When taking a patient’s BP, the doctor must convert acoustic (Korotkow sounds) signals and a visual reading of the sphygmomanometer to a numerical value. The inferences are based on the assumption that the doctor knows when to take the reading, does not let the sphygmomanometer run down too quickly or too slowly, and uses the right cuff, and so forth. Only when every aspect of the procedure is performed correctly can a valid inference from observation to score be made.


관측 점수에서 우주 점수까지

From observed score to universe score


다음 추론은 관측치가 가능한 모든 관측치를 충분히 대표하는지 여부를 가리킨다. 이 예에서 이것은 하나의 측정치가 진단을 기초로 할 충분한 데이터를 제공하는지 여부를 가리킨다. 예를 들어 네덜란드 가이드라인은 고혈압은 BP를 한 번의 상담에서 두 번 측정하고 두 번째 상담에서 반복 측정해야 진단할 수 있다고 규정하고 있다.32

The next inference refers to whether the observations are sufficiently representative of all possible observations. In our example, this refers to whether one measurement provides sufficient data on which to base a diagnosis. The Dutch guideline, for example, stipulates that hypertension can only be diagnosed if BP is taken twice during one consultation and is repeated during a second consultation.32


우주 점수에서 대상 도메인까지

From universe score to target domain


이제 BP 측정 결과는 [환자의 심혈관 상태]에 대한 결론을 도출하는 데 사용된다. 이를 위해서는 심장의 배양, 맥박 증식 및 기타 결과를 통합하고 결론이 유효하기 위해 결과를 삼각측량해야 한다.

Now the results of the BP measurements are used to draw conclusions about the cardiovascular status of the patient. This requires heart auscultation, pulse palpation and other results to be incorporated and the results triangulated in order for the conclusions to be valid.


대상 도메인에서 구성으로

From target domain to construct


환자의 심혈관 상태는 이제 [환자의 건강 상태]를 확립하는 데 사용될 수 있지만, 보다 일반적인 결론을 뒷받침하기 위해 다른 출처로부터 추가 정보를 얻고 삼각측량을 해야 한다.

The patient’s cardiovascular status can now be used to establish his or her health status, but further information must be obtained from other sources and triangulated to support a more general conclusion.


추론하기

MAKING INFERENCES


케인의 견해로는 추론은 [논거argument]에 근거한다. 이것들은 양적인 것일 수도 있고 질적인 것일 수도 있지만, 그것들은 항상 이론에 근거하고 해석적인 것이어야 하기 때문에 [고립된 논거]로 존재할 수는 없다. 물론, 어떤 논쟁도 괜찮지는 않을 것이다. 검증 과정의 논쟁은 명확하고 구체적이며 일관성이 있어야 하며 완전해야 하며 타당해야 하며 검증가능해야 하며 반증가능해야 한다.14

In Kane’s view, inferences are based on arguments. These may be quantitative or qualitative, but they must always be theory-based and interpretive and thus cannot serve as arguments in isolation. Of course, not just any argument will do. Arguments in the validation process must be clear, specific, coherent, complete, plausible, verifiable and falsifiable.14


모든 이해관계자나 연구자가 자신의 논리를 따를 수 있도록 하기 위해서는 논거argument가 명확해야 한다. 따라서 argument에는 충분한 구체적인 내용이 포함되어야 한다. 일관성은 관련 추론 네트워크가 최종 결론과 결정이 관찰된 성과로부터 타당하게 뒤따를 수 있도록 요구한다. 이를 위해서는 논거가 완전해야 한다. 

Arguments are required to be clear in order to ensure that every stakeholder or researcher is able to follow their logic. Therefore, the argument must include sufficient specific details. Coherence requires that the network of related inferences is such that the final conclusions and decisions follow plausibly from the observed performance. This requires the argument to be complete. 


어떤 주장의 타당성plausibility은 종종 주장 그 자체로 자명할 수 있지만, 일부 주장의 경우 경험적 기초에만 의존하기도 하며, 반면 다른 어떤 주장의 경우 신중한 문서화 및 절차 정밀도에 의존할 수도 있다. 이것은 연역적 추론이나 귀납적 추론뿐만 아니라 확률적 추론과 같은 다른 형태의 방어적 추론도 포함할 수 있다. 

The plausibility of the argument may often be self-evident, but some arguments will rely on empirical underpinning (preferably by not only verification, but also by multiple failed attempts at falsification) and others will rely on careful documentation and scrutiny of procedures. This may involve the employment of not only deductive reasoning or inductive inferences, but also of other forms of defeasible reasoning, such as probabilistic reasoning. 


방어가능한 주장은 어떤 전제presupposition를 담고 있지만 반론counterargument이 강할 경우 이것이 전복될 수도 있다는 것을 수용하는 주장이다. 확률에 근거한 주장은 무효로 할 수 있지만defeasible, 순전히 연역적 논리에 근거한 주장은 그렇지 않다. 비록 이것이 평가 개발자나 연구자가 자신이 필요로 하는 어떤 논쟁이든 사용할 수 있는 대단한 관용도를 가지고 있다는 인상을 줄 수 있지만, 이것은 사실이 아니다: 모든 논쟁은 그것이 타당성을 위한 최적의 증거를 제공하기 위해 전략적이고 프로그램적인 방법으로 신중하게 선택되어야 한다.

Defeasible arguments are arguments that contain a presupposition but accept that this may be overthrown if counterarguments are strong. Probability-based arguments are defeasible, whereas those based on sheer deductive logic are not. Although this may give the impression that the assessment developer or researcher has great latitude to use whatever arguments he or she needs, this is not the case: every argument must be carefully chosen in a strategic and programmatic way to ensure that it provides the optimal evidence for validity.


프로그램 평가 및 추론

PROGRAMMATIC ASSESSMENT AND INFERENCES


평가 프로그램은 다양한 평가 구성요소(도구)를 사용할 것이다. 우리는 각 평가도구의 품질은 동일한 (심리측정적) 접근법을 사용하여 결정할 수 없다고 믿는다. 대신에, 우리는 프로그램의 특정 구성요소에 따라 평가에 다양한 방법과 절차가 사용되어야 한다고 생각한다. 이들 각각의 선택은 [평가도구의 구성 요소와 평가 프로그램이 포착하고자 하는 구인construct]의 특성에 대한 명확한 개념에 기초해야 한다.

A programme of assessment will use various assessment components (instruments). We believe that the quality of each of these cannot be determined using the same (psychometric) approaches. Instead, we think that a variety of methods and procedures should be used in assessment depending on the specific component of the programme. The choice of each of these must be based on a clear notion of the nature of the construct the component and the assessment programme are trying to capture.


우리는 이 방법들 중 어떤 것도 그 자체로 좋거나 나쁘다는 것을 보여주고 싶지 않다. 반대로, 특정 방법의 가치와 유용성은 추론을 얼마나 서포트하는지로부터만 도출될 수 있으며, 따라서 [특정 구인에 대한 평가의 타당성]에 도달할 수 있다.

We do not wish to illustrate that any of these methods are either good or bad in themselves. On the contrary, the value and usefulness of a particular method can only be derived from the support it lends to an inference and thus to the validity of the assessment for a certain construct.


추론 1. 관찰에서 점수까지

Inference 1. From observation to score


문항 작성 규칙 

Item construction rules


이는 주제를 숙지한 학생이 항목에 정확하게 답하고 숙달하지 않은 학생이 오답할 확률을 최적화하기 위한 것이다.33,34 다시 말해 학생이 거짓 부정 또는 거짓 긍정 응답을 할 가능성을 최소화하는 역할을 한다.

These are designed to optimise the probability that a student who has mastered the subject matter will answer the item correctly and those without sufficient mastery will answer incorrectly.33,34 In other words, they serve to minimise the chance that a student will give a false negative or false positive response.


예를 들어, 학생이 가장 긴 옵션을 선택했기 때문에 객관식 질문에 정확하게 답하거나, 또는 소위 '블런더부스' 기법을 성공적으로 적용했기 때문에 개방형 질문에 정확하게 답하는 경우, 이 학생이 획득한 점수는 [주제 숙달이 아니라] '시험-숙련성'에 기초하였기 때문에 무효다.

If, for example, a student answers a multiple-choice question correctly because he or she has chosen the longest option, or answers an open-ended question correctly because he or she has successfully applied a so-called blunderbuss technique, the scores this student obtains are invalid as they are based on ‘test-wiseness’ and not on subject matter mastery.


구술 시험에서의 시험 전략과도 관련이 있다(예: 시험관의 취미를 알아내고 그것을 활용한다).

it also pertains to test-taking strategies in oral examinations (e.g. find out the hobby horses of the examiner and capitalise on them).


평가의 구조화

Structuring of the assessment


모든 응시자가 평가에서 요구하는 과제와 유사하게 대응해야 하는 ATLS(고급 외상 수명 지원) 절차적 능력의 평가와 같이 관심대상 구조construct가 균일하다면, 평가를 구조화하면 관측치에서 점수로의 변환이 개선된다. 그러나 후보자와 당면한 문제(예: 직장에 의한 평가와 같이)의 [상호작용의 질]이 문제라면, 구조화는 잘 작동하지 않는다.

If the construct of interest is uniformity, such as in the assessment of advanced trauma life support (ATLS) procedural skills, in which all candidates should respond similarly to the tasks demanded by the assessment, structuring the assessment improves the conversion of observations to scores. However, if the quality of the interaction between the candidate and the problem at hand (e.g. as in workplace-based assessment) is an issue, structuring does not work well.


한 가지 예는 고도로 구조화된 초기 객관적 구조 임상 검사(OSCE)이다. 많은 심사관들은 개별 항목에 대한 모든 점수를 합산하는 것이 OSCE가 평가하고자 하는 역량의 능력을 실제로 나타내지 않는다고 불평했다. 구인의 구체적인 정의에 따라 평가의 구조화는 경우에 따라 타당성 주장을 강화하지만 다른 경우에는 약화시킬 수 있다.

This is exemplified by early objective structured clinical examinations (OSCEs), which were highly structured. Many examiners complained that adding up all the scores on the individual items did not really indicate ability in the competence the OSCE was intended to assess. Depending on the specific definition of the construct, structuring the assessment may strengthen the validity argument in some cases, but weaken it in others.


채점 규칙 

Scoring rules


물론 채점 규칙의 결정이 중요한 역할을 한다. 추측guessing에 대한 벌점 적용 여부에 대한 광범위한 논쟁이 이를 잘 보여주는 예다.35

Of course, the determination of scoring rules plays an important role. The extensive debates about whether or not to apply a penalty for guessing are a good example of this.35


[학생의 지식을 하나의 구성]으로 담아내려고 한다면, [willingness to guess]는 [관찰부터 점수까지의 추론]에서 오류의 원인이 된다. 대조적으로, [학생이 실제로 어떤 지식을 사용하려고 하는지]를 평가하는 데 관심이 있다면, educated guess를 하려는 의지는 구조 관련 분산(CRV)의 원천으로 보여질 수 있다.

If one tries to capture the student’s knowledge as a construct in his or her head, willingness to guess is a source of error in the inference from observation to score. If, by contrast, one is interested in assessing which knowledge the student is willing to actually use, willingness to make an educated guess may well be seen as a source of construct-relevant variance.


또한, [더 복잡한 채점 방법]이 일반적으로 더 많은 분산을 도입하지만 (구인 관련 분산인 경우가 드물기 때문에) [단순한 1-0 접근법]보다 본질적으로 더 나은 것은 아니다. 이것은 'Granularity'와 관련된 문제다. 지나치게 상세한 채점은 구성과 관련된 분산을 증가시킬 수 있다. 논문의 경우 10점 만점에 7.35점이 있으면 단순히 존재하지 않는 정확도를 나타낸다.

Further, more complicated scoring methods are not inherently better than simple 1-0 approaches19 because although they generally do introduce more variance, this is seldom construct-relevant variance. This is an issue related to ‘granularity’. Overly detailed scoring can increase the construct-irrelevant variance: a mark of 7.35 out of 10 for a thesis suggests an accuracy that is simply not there.


문항 분석 

Item analyses


[문항 분석]은 유효성에 부정적인 영향을 미칠 수 있는 항목을 식별할 수 있기 때문에 관찰에서 점수로 추론을 개선하는 데 사용될 수 있다. 그러나 이 능력은 평가에서 시험하고자 하는 구성에 따라 달라진다.

Item analyses can be used to improve the inference from observation to score because they can identify items that might have a negative influence on validity. However, this ability depends on the construct the assessment aims to test.


만약 구조물이 균질하고 안정적이라고 가정한다면, 문항 분석은 종종 항목들의 제거로 이어진다. 이것은 구성 무관련 분산(CIR)을 제거함으로써 시험의 측정적 특성을 개선한다.

If the construct is assumed to be homogeneous and stable, item analyses often lead to the elimination of items. This improves the measurement properties of the test by weeding out construct-irrelevant variance.


그러나 시험이 [본질적으로 의미 있고 관련성이 있는 항목의 집합]으로 보여지는 경우(ATLS 교육에서 사례 상황처럼) 문항분석 결과는 어떤 항목을 주의 깊게 검토해야 할 필요성을 보여주기 위한 것이다. 이를 통해서 그 문항이 실제로 구인과 관련이 있고, 모호하지 않으며, 의미있는지를 확인하게 된다.

If, however, the test is seen as a collection of intrinsically meaningful and relevant items (as in the case situations in ATLS training), item analysis results can only serve to flag up the need to carefully review an item and check whether it is actually as relevant, unambiguous and meaningful as it was thought to be on construction.


관련성 평가

Relevancy evaluations


항목이나 평가 부분이 관련되어야 한다는 완전한 합의가 있을 수 있지만, [관련성]이 정의되는 방법 역시 구인에 대한 이론적 개념에 달려 있다.

There is probably complete agreement that items or assessment parts need to be relevant, but how relevance is defined is again dependent on theoretical conceptions about the construct.


      • 관련성은 대부분의 사람들이 알고 있는 것으로 정의될 수 있다. 그 경우에 높은 p-값(정답률)은 타당성 주장을 구성한다. 

      • 관련성을 역량 있는 사람알아야 할 것으로 정의된다면, 높은 항목-총 상관관계(Rit)와 함께 낮은 p-값이 타당성에 대한 더 나은 주장이 될 것이다. 

      • 관련성을 모든 사람들이 알아야 할 것으로 정의된다면, p-값(정답률)과 총점-문항 상관관계(Rit)는 관련성에 유용한 매개변수가 아니다. 이 경우, 어떤 항목의 관련성에 대한 질적 논거가 필요하다. 예를 들어, 학생이 갑상선의 생물피드백 메커니즘과 그 호르몬을 이해하지 못한다면, 실험실 결과를 잘 해석하지 못할 것이다.

      • Relevance can be defined as what most people know. In that case high p-values would constitute an argument for validity. 

      • If relevance is defined as what competent people need to know, low p-values in conjunction with high item–total correlations (Rit) would be a better argument for validity. 

      • By contrast, if relevance is defined as what all people should know, p-values and Rit are not useful parameters for relevancy. In this case, qualitative arguments for the relevancy of an item need to be made: for example, if a student doesn’t understand the biofeedback mechanism of the thyroid gland and its hormones, he or she will not interpret laboratory results well.


보고 및 요약

Reporting and summarising


구두 평가, 포트폴리오 및 직장 기반 평가에서 [보고 및 요약]하는 것은 정보를 '점수'로 변환하는 한 방법이다. 평균, 표준 편차 등은 정량적 방법에서 많은 양의 데이터를 점수로 변환하는 표준 방법을 나타내는 반면, 정성적 평가에서 전문가 요약은 이러한 역할을 한다.

Reporting and summarising in oral assessments, portfolios and workplace-based assessments is one way of converting information to ‘scores’. Whereas means, standard deviations and so forth represent standard ways of converting large amounts of data into scores in quantitative methods, in qualitative assessment an expert summary plays this role.


정량적 평가에서 뒷받침되는 증거는 정확한 (통계적) 기술 기법과 정확한 계산의 적용에 기초한다. 정량적 평가에서 supporting evidence는 평가자의 전문지식과 그것의 발전(교사 훈련)에 기초한다.

In quantitative assessment methods the supporting evidence is based on the application of the correct (statistical) descriptive techniques and correct calculations. In the qualitative context it is based on examiner expertise and its development (teacher training).


평가도구의 사용가능성 

Feasibility of the instrument


사용자는 평가 도구를 사용하는 데 완전히 익숙해야 한다. 그렇지 않고서야 어떻게 자신의 관측을 정확하게 점수로 환산할 수 있을까? 사용자가 평가 도구를 사용하여 관찰을 채점하는 방법이나 특정 관찰을 채점하는 위치에 대해 확신할 수 없는 경우 관찰에서 점수까지의 추론 강도는 심각하게 제한된다. 또 다른 상황은 평가 도구가 사용하기에 너무 복잡하여(예: 60항목 OSCE 양식) 관측자의 '인지 부하'가 [수행능력을 관찰하고 판단]하기보다는 [평가도구를 관리하는 방법을 알아내는 데 이용되는 경우]에 존재한다. 따라서 [관찰에서 점수까지의 타당한 추론은 평가도구가 충분히 사용자 친화적이거나 시험관이 훈련을 통해 도구에 세심하게 숙지된 경우]에만 할 수 있다.

The user must be fully comfortable with using the assessment instrument. How else can he or she correctly translate his or her observations into scores? If the user is unsure about how to score an observation using the instrument or where to score certain observations, the strength of the inference from observation to score is seriously limited. Another such situation exists if the instrument is so complicated to use (e.g. a 60-item OSCE form) that the observer’s ‘cognitive load’ is occupied by finding out how to manage the instrument rather than by observing and judging the performance. A valid inference from observation to score can therefore only be made if the instrument is sufficiently user-friendly or the examiner has been carefully familiarised with the instrument through training.


요약하면, 관찰에서 점수까지의 모든 추론에 대해 타당성 인수는 다음을 기반으로 한다. 

      • 측정 도구 제작에 사용되는 품질 절차, 

      • 사용자 및 사용자의 전문성 

      • 양 요인 간의 상호 작용 

In summary, for all inferences from observation to score, validity arguments are based on 

      • the quality procedures used to construct the measurement instrument, 

      • the expertise of the user and 

      • the interplay between both factors. 


우리는 각 (타당도) 주장의 강도가 [주장이 구인의 이론적 개념을 지지하는 정도]에 의해 결정된다는 것을 충분히 강조하고자 한다.

We cannot stress enough that the strength of each argument is determined by the extent to which it supports the theoretical notions of the construct.


추론 2. 점수에서 우주 점수까지

Inference 2. From scores to universe scores


이 두 번째 추론은 종종 '신뢰성'이라고 불린다. 이 개념은 [신뢰할 수 없는 시험은 절대 타당할 수 없다]는 격언의 기초가 된다. 그러나 그 관계는 그것보다 더 미묘한 뜻이 있다. 관측된 점수로부터 우주 점수로의 추론은 [관측된 점수의 집합이 가능한 모든 점수의 우주를 충분히 대표한다는 주장]에 근거한다.

This second inference is often referred to as ‘reliability’; this notion is the basis for the adage that unreliable tests can never be valid. However, the relationship is more nuanced than that. The inference from observed scores to universe scores is based on the argument that the observed set of scores is sufficiently representative of the universe of all possible scores.


그러므로 이 '유니버스'의 본질에 대한 생각은 필수불가결한 것이다

    • 예를 들어, 테스트-재테스트 상관관계는 유니버스(대상 영역 또는 구성물)가 [내부적으로 일관성이 있거나 동질적이라는 가정] 하에 우주 표현에 대해서만 유효한 추론이다. 

    • 만약 ['유니버스'가 이질적인 것으로 가정]한다면, 높은 시험-재고 상관관계를 찾는 것은 논리적이지도 않고 그럴듯하지도 않을 것이다. 이 경우 시험-보정 신뢰성은 양호한 우주 일반화보다는 불량함을 나타낼 수 있다.36

An idea of the nature of this ‘universe’ is therefore indispensible. 

    • For example, test–retest correlations are only valid inferences for universe representation under the assumption that the universe – the target domain or the construct – is internally consistent or homogeneous. 

    • If the ‘universe’ is assumed to be heterogeneous, it will be neither logical nor plausible to find high test–retest correlations. In this case test–retest reliability would indicate poor rather than good universe generalisation.36


고전 시험 이론

Classical test theory


크론바흐의 알파 공식과 쿠더-리처드슨 공식과 같은 고전적 시험 이론(CTT)에 기초한 절차는 시험-재시험 상관관계의 개념을 참조한다. 실제로 그들은 시험 결과의 내부 일관성을 결정한다. 물론 우리가 [유니버스 자체가 너무 동질적이어서, 독립적으로 채취한 두 표본이 동일한 결과를 초래할 것으로 예상할 수 있다고 가정]한다면, 시험-재시험 상관관계는 우주의 일반화에 유용한 접근법일 것이다. 이러한 가정에서는, 관측치 사이의 모든 변동이 일반적으로 구성 관련 분산(CIR)으로 처리된다는 결론을 얻는다.

Procedures based on classical test theory (CTT), such as Cronbach’s alpha and Kuder–Richardson formulas, refer to the notion of a test–retest correlation. In fact, they determine the internal consistency of the test results. Of course a test–retest correlation is only a useful approach to universe generalisation if we assume that the universe itself is so homogeneous that two independently taken samples can be expected to lead to the same results. A consequence of this assumption is that all variation between observations is generally treated as construct-irrelevant variance.


또 다른 가정은 관측 중에 측정 개체가 변하지 않는다는 것이다. 우리가 이전에 사용한 BP와 지능의 예에서 우리는 전자가 시시각각으로 변하고 후자가 안정감을 유지할 것으로 기대한다. 만약 우리가 낮 동안 두 가지 측정을 반복하고 대상 내에서 완벽한 일치와 대상들 간의 체계적 차이를 찾는다면, 우리는 이것을 지능 테스트의 타당성과 BP 측정의 타당성을 지지하는 주장으로 간주할 것이다.

Another assumption is that the object of measurement does not change during the observations. In the examples we used before, of BP and intelligence, we expect the former to change from moment to moment and the latter to remain stable. If we were to take repeated measurements of both during the day and were to find perfect agreement within subjects and systematic differences between subjects, we would regard this as an argument in favour of the validity of the intelligence test and against that of the BP measurement.


단수성이나 동질성이 구조에 관한 이론의 일부가 아니거나 질적 데이터가 수집되는 경우 CTT는 잘 작동하지 않는다.

In cases in which unidimensionality or homogeneity are not part of the theory about the construct or where qualitative data are collected, CTT does not work well.


일반성 이론

Generalisability theory


일반화가능도 이론(GT)은 훨씬 유연하다. 사용자가 어떤 분산 요소를 구성 관련 요소로 간주하고 구성 관련 요소로 간주해야 하는지 정확하게 정의해야 한다. 그러나, 그것은 여전히 하나의 우주 점수가 있고 이것은 함축성을 가지고 있다는 개념에서 출발한다. 예를 들어 OSCE에 있는 관측소의 총 점수에 대해 일반적 타당성 분석을 수행하는 경우, [기본적인 가정은 '스킬'의 특성이 [소생 스테이션의 점수]와 [복부 검사 스테이션의 점수]를 결합하는 행위를 방어할 수 있으며, 이 두 가지를 서로 교환할 수 있다는 것이다]. 또 다른 예로는 미니 CEX가 있는데, 여기서 일반 가능성 분석은 역사 학습 기술이 인문학적 특성과 완전히 상호 호환된다는 자동 가정을 해야 한다. 이런 가정하에, [어리석은 질문을 하지만 숙련된 의사소통 방식으로 그렇게 하는 사람]은 [불쾌한 방식으로 올바른 질문을 하는 사람]과 동일한 정도로 유능하다.

Generalisability theory (GT) is much more flexible. It requires the user to define exactly which elements of variance are to be seen as construct-relevant and which as construct-irrelevant. It still, however, starts from the notion that there is one universe score and this has implications. If, for example, a generalisability analysis is performed on the total scores of the stations on an OSCE, the underlying assumption is that the trait ‘skills’ is such that it is defensible to combine the scores on a resuscitation station with those on an abdominal examination station, and that both are interchangeable. Another example is the mini-CEX, where a generalisability analysis must make the automatic assumption that history-taking skills are completely interchangeable with humanistic qualities. On this assumption, someone who asks stupid questions but does so in a skilled communicative manner is as competent as someone who asks the right questions in an unpleasant manner.


누가 옳다는 말은 없지만, 구성 요소인 '기술'의 성격에 대해 크게 다른 견해가 있는 것은 분명하다.

There is no saying who is right, but it is clear that there are hugely different views on the nature of the construct ‘skills’.


확률론적 접근법

Probabilistic approaches


또 다른 이슈는 모든 상황이 동일한 양의 샘플링을 필요로 하는지에 관한 것이다. 7개의 미니 CEX 관측에서 매우 형편없거나 매우 잘한 후보자는 정말로 여덟 번째가 필요한가?

Another issue concerns whether every situation requires the same amount of sampling. Does the candidate who has performed very poorly or extremely well on seven mini-CEX observations really require an eighth?


하나의 이론은 [지식이 하나의 특성의 구인]이라는 가정으로부터 출발할 수 있는데, 이 가정은 [학습자의 능력이 높을수록 정답을 맞출 확률이 균일하게 증가할 것]이라는 것을 암시한다(예를 들어, 학생이 좌심장 장애에 대해 좋은 지식을 가지고 있다면, Frank-Starling 메커니즘과 심장 생리학에 대해서도 알고 있다고 가정해도 무방할 것이다). 그러한 이론적 맥락에서 [문항 반응 이론(IRT) 모델은 일반화의 유용한 수단]이다. 

One theory may start from the assumption that knowledge is a construct of a single trait which implies that there will be a uniform increase in the probability that a candidate will give a correct answer with increasing ability (e.g. if a student has good knowledge about left-sided heart failure, it will be safe to assume that he or she knows about heart failure, about Frank–Starling mechanisms and about heart physiology). In such a theoretical context, item response theory (IRT) models are useful means of generalisation. 


그러나 지식의 소유가 [서로 관련 없는 일련의 항목]으로 보이는 상황에서(예를 들어, 학생이 계면활성제가 제2형 폐렴구에 의해 생산된다는 것을 안다면, 이것은 그가 발광기 테레스 근육의 종이와 삽입이 무엇인지 자동적으로 안다는 것을 의미하지는 않는다), IRT는 덜 유용하고 이항 모델과 같은 다른 모델들은 덜 유용할 수 있다. 좀 더 적용이 되다37

In a situation in which the possession of knowledge is seen as an unrelated set of items (e.g. if a student knows that surfactant is produced by type II pneumocytes, this does not automatically mean that he or she knows what the origo and insertion of the pronator teres muscle are), IRT is less useful and other models, such as binomial models, may be more applicable.37 


정보의 포화도

Saturation of information


정보 접근법의 포화상태는 정성적 연구 방법론에서 온 것이다. 만약 우리가 [구인이 이질적이고 비차원적]이라고 가정하거나 이론화한다면, [내부 일관성 측정은 일반화를 위한 최선의 방법이 아니다]. 정보의 포화상태는 기본적으로 새로운 관찰이 이미 획득한 정보에 중요한 새로운 정보를 추가하지 않는다는 것을 의미한다. 이는 추가 진단이 진단이나 치료 작용을 바꾸지 않으면 명령해서는 안 된다는 진단 격언과 견줄 만하지만, 하나의 진단만 할 수 있다고 규정하지는 않는다.

Saturation of information approaches originate from qualitative research methodologies. If we assume or theorise the construct to be heterogeneous and non-dimensional, internal consistency measures are not the best way to generalise. Saturation of information basically means that new observations do not add important new information to that already obtained. This is comparable with the diagnostic adage that if additional diagnostics do not change the diagnosis or the therapeutic actions, they should not be ordered, but it does not stipulate that only one diagnosis can be made.


특히 학습을 위한 평가 접근방식에서 침상 예절을 목표로 하는 평가 구성요소를 설계하고자 한다면, 모든 관측치를 점수로 변환하고 일반적 타당성 계수를 계산하는 것은 실제로 그러한 복잡한 현상의 평가에 대한 정의가 되지 않을 것이다. [새로운 관찰]이 [후보가 어떻게 하고 있는지]에 대한 [정보의 만화경]에 어떤 것을 더해줄 것인지에 대해 추측하는 것은 훨씬 더 유용하고 정보가 풍부하다.

If one wants to design an assessment component aimed at bedside manners, especially from an assessment-for-learning approach, converting all observations to a score and calculating the generalisability coefficient would not really do justice to the assessment of such a complex phenomenon. Making assumptions about whether a new observation would add anything to the kaleidoscope of information about how a candidate is doing is much more useful and information-rich.


신뢰도

Credibility


비록 권위에 기반한 주장이 현재 유행하고 있지는 않지만, 물론 [신뢰성]의 문제는 유니버스의 일반화에 역할을 한다. 진단 전문지식에 대한 연구는 경험 많은 전문가들이 진단과 치료에 대한 유효한 결정에 도달하기 위해 정보가 덜 필요하다는 것을 보여준다. 이것은 평가 분야에도 쉽게 적용될 수 있다. 관찰에서 유니버스 점수에 이르는 추론을 함에 있어서, 많은 맥락에서 [전문가가 초보 평가자보다 더 적은 수의 관찰을 필요로 하는 것]이 일반적일 가능성이 높다. 따라서 관찰된 대 우주 점수 추론 주장은 초보자가 추론을 하는 것보다 [전문가 평가자가 추론을 하는 경우]에 더 강력하다.

Although authority-based arguments are not in vogue at present, the issue of credibility does, of course, play a role in universe generalisation. Research in diagnostic expertise shows that experienced experts need less information to reach valid decisions about diagnosis and treatment. This can be easily translated to the assessment field. It is highly likely – and, in many contexts, normal – that an expert requires fewer observations than a novice assessor to make the inferences from observation to universe score. Therefore, the observed-to-universe-score inference argument is stronger if the inference is made by an expert assessor than by a novice.


샘플링 스키마

Sampling schemas


샘플링 스키마(예: 청사진)는 샘플링할 도메인과 우주에 대한 관찰 샘플(항목, 미니-CEX 등)의 [대표성]을 바탕으로 한 인수에 의한 우주 일반화 추론을 지원한다.

Sampling schemas – such as blueprinting – support the universe generalisation inference by arguments based on the domain to be sampled and the representativeness of the sample of observations (items, mini-CEXs, etc.) for the universe.


      • 우주를 동질적으로 보더라도, 표본 추출은 모든 원치 않는 분산원을 평균화할 수 있을 만큼 충분히 넓어야 한다. 

      • 이와는 대조적으로 우주를 이질적인 것으로 보는 경우, 표본 추출은 우주의 모든 측면이 표본에 포함되도록 해야 한다.

      • Even if the universe is seen as homogeneous, sampling must be broad enough to average out all unwanted sources of variance. 

      • By contrast, if the universe is seen as heterogeneous, sampling must be such that all aspects of the universe are included in the sample.


추론 3. 우주 점수에서 대상 도메인까지

Inference 3. From universe score to target domain


프로세스 중 어느 시점에서 [대표 결과]는 [대상 영역에 대한 결론]을 도출할 수 있는 방식으로 [결합]되어야 한다. 평가 프로그램에서 이것은 다양한 계측기의 결과를 조합할 것을 요구한다.

At some point during the process the representative results must be combined in such a way that conclusions about the target domain can be drawn. In a programme of assessment this requires that the results of various instruments be combined.


이는 표준이 무엇인지뿐만 아니라 다양한 도구로부터 얻은 결과(특히 양적 정보와 질적 정보를 결합한 경우)를 어떻게 결합할지에 대해서도 의사결정을 내릴 것을 요구한다.

This demands that decisions be made not only about what the standards are, but also on how to combine the results of various instruments (especially if they combine quantitative and qualitative information).


표준설정

Standard setting


표준 설정은 평가에서 크게 논의되는 사안이다. 이는 타겟 영역에 대한 [이분법적 yes/no 결정에 도달하기 위해 많은 측정 정보를 줄이는 최적의 방법]에 관한 것이기 때문이다. 다시 한번 추론의 유형과 주장의 강도는 대상 영역의 이론적 개념에 따라 달라진다.

Standard setting is a heavily debated issue in assessment. This is logical because it concerns the optimal way to reduce much of the measurement information to arrive at a dichotomous yes ⁄ no decision about the target domain. Again, the type of inferences and the strength of the argument depend on the theoretical notion of the target domain.


      • [특정 시점에서 숙달되어야 하는 모듈형 대상 영역](예: 무릎 검사 수행 능력)의 경우, 일반적으로 표준 설정은 [최소 허용 수준의 숙달성]을 정의하기 위해 사용된다. 

      • [종단적 구성 요소](예: 진행률 테스트)는 전체 기간life 동안 지속적으로 개선되는 특성을 평가한다. 이 경우 상대적 또는 투입적ipsative 표준(훈련 단계나 또래 집단 또는 후보자의 과거 성과에 상대적)이 더 적용된다.

      • For modular target domains (e.g. ability to perform an examination of the knee), which should be mastered by a certain time-point, standard setting is typically used to define the minimally acceptable level of mastery. 

      • Longitudinal components (e.g. progress testing) assess characteristics that constantly improve during life. In these cases, relative or ipsative standards (relative to the phase of the training or a peer group or relative to the candidate’s past performance) are more applicable.


역학 또는 기준 기반 접근 방식

Epidemiological or criterion-based approaches


[수치적 결과]가 대상 영역의 기준으로 정의될 수 있는 경우, 이 세 번째 추론의 주장은 양성 또는 음성 예측 값과 승산비에 기초할 수 있다. 이러한 경우, 수신기 작동 특성(ROC) 곡선을 사용하여 추론 주장을 뒷받침할 수 있다.

In cases in which a numerical outcome can be defined as a criterion for the target domain, the arguments in this third inference can be based on positive and negative predictive values and odds ratios. In such cases, receiver operating characteristic (ROC) curves can be used to support the inference argumentation.


그러나 수치적 접근만이 역학 논쟁의 혜택을 볼 수 있는 것은 아니다. 몇몇 더 [이론적인 역학 개념]도 유용하다. 긍정적인 예측가치에 대한 아이디어는, 논리적으로, 고학년 학생들은 저학년 학생들과는 다른 유급률failure rate을 보여야 한다. 왜냐하면 간단히 말해서, 지속적으로 이뤄진 선발 과정으로 인해 역량이 부족한 학생이 수업에 남아있을 가능성이 감소하였기 때문이다. 따라서 1년차 코호트에서 25%의 failure rate가 허용된다고 간주되는 경우, 이는 최종 학년 그룹에서 동일한 failure rate가 허용된다는 것을 의미해서는 안 된다.

However, not only numerical approaches can benefit from epidemiological arguments. Some more theoretical epidemiological concepts are also useful. The idea of the positive predictive value gives us to understand that, logically, senior year classes should show dissimilar failure rates to more junior classes, simply because the ongoing selection process has decreased the a priori probability that an incompetent student will remain in the class. Thus, if a failure rate of 25% is considered acceptable in a first-year cohort, this should not mean that the same failure rate is acceptable in a final-year group.


보정, 연결 및 데이터 정렬

Compensation, conjunction and collation


대상 영역에 대한 좋은 추론을 도출하기 위해서는 서로 다른 평가 요소들을 결합해야 한다. 그러나 정보를 결합하는 특정 방법을 무작위로 선택하는 것은 논쟁의 강력한 근거를 제공하지 못한다.

In order to arrive at a good inference about the target domain, separate assessment elements must be combined. However, randomly choosing a certain method of combining information does not provide a strong basis for argumentation.


내용이 같을 경우 형식이 다르더라도 사물things이 잘 일반화된다는 견실한 연구에도 불구하고 2,3,5 우리는 의미 있는 내용보다는 형식이 비슷한 경우(예: 복부 검사와 무릎 검사의 OSCE 스테이션)에 요소들을 결합하는 경우가 많다.

Despite the robust finding that things generalise well across formats if the content is the same and vice versa,2,3,5 we often combine elements because they are of the same format (e.g. OSCE stations on abdominal examination and knee examination) rather than because they have similar meaningful content.


이것은 본질적으로 스킬이란 것을 [관련성이 있는 관찰된 능력의 선별된 집합]이 아니라 [단차원적 특성]으로 보는 암묵적 개념에 기초한다. 후자(단차원적 특성)에서는 보상compensation이 대상 영역에 추론을 하는 가장 좋은 방법이며, 전자(본질적으로 관련있는 관찰된 능력의 집합) 에서는 결합conjunction이 가장 좋은 방법이다.

This is based on the implicit notion of skills as a unidimensional trait, rather than as a selected set of intrinsically relevant observed abilities. In the former, compensation is the best way of making an inference to the target domain; in the latter conjunction is.


다양한 출처 또는 평가 요소의 정보가 결합되어야 하는 경우(예: 무릎 검사에 관한 OSCE 스테이션과 무릎 해부학에 초점을 맞춘 서면 검사의 부분), 결합collation과 삼각 측정이 논쟁에 더 적합한 기초가 된다. 여기서 [삼각측량을 행하고 해석하는 사람의 인간의 판단과 전문지식]은 추론의 완전성과 타당성의 기초를 형성한다 (이는 마치, 거의 같은 방식으로, 나트륨 수치와 갈증 불만사항의 조합에 의미를 부여하기 위해서는 의사의 전문지식과 필요한 것과 같다). 9,38,39

If information from various sources or assessment elements needs to be combined (e.g. an OSCE station on knee examination and the part of a written examination that focuses on knee anatomy), collation and triangulation are more suitable bases for argument. Here, human judgement and the expertise of the person doing and interpreting the triangulation formthe basis for the completeness and plausibility of the inference (in much the same way as the expertise of the doctor is needed to make meaning of the combination of information on sodium level and a thirst complaint).9,38,39

(Collate: to bring together different pieces of written information so that the similarities and differences can be seen:)


회원조회

Member checking


멤버 체크는 평가 과정에 대한 다양한 기여자의 견해만 포함하는 평가 프로그램의 모든 프로세스를 의미하지만(예: 360도 접근 방식), 또한 다음의 것들을 지속적으로 평가할 수 있도록 설계된 내부 단계도 포함한다. 

      • 대상 영역에 관한 중간 및 최종 결론이 이러한 기여자contributor의 견해와 일치하는지 여부 

      • 이러한 관점에 기초하여 작성된 추론이 유효한지 여부. 

Member checking refers to all processes in an assessment programme that not only includes the views of various contributors to the assessment process (such as in a 360-degree approach), but also includes in-built steps designed to continually evaluate 

      • whether the intermediate and final conclusions with respect to the target domain accord with the views of these contributors and 

      • whether inferences made on the basis of these views are valid. 


따라서, 멤버 체크는 대상 영역에 관한 최종 결정과 결론에 대한 [모든 행위자actor의 소유권ownership을 지지]하고, 따라서 추론의 타당성을 지지한다.

As such, member checking supports the ownership of all actors of the final decisions and conclusion with respect to the target domain and thus to the plausibility of the inference.


이러한 추론을 위해 양적 방법과 질적 방법 모두 이용할 수 있다. 

      • 순수하게 양적인 결과를 조합할 필요가 있을 때에는, 보상compensation과 연계conjunction, 예측 가치predictive value 등의 문제가 더 설득력을 갖는다. 

      • 질적 결과(질적 결과만 또는 양적 결과와 연계하여)를 사용할 때에는, 인간의 판단력이 역할을 하므로, [판단을 내리는 사람들의 전문성(교사 훈련)과 신뢰성]이 주장argument의 필수 요소다.

For this inference, both quantitative and qualitative methods are available. 

      • Whenever purely quantitative results need to be combined, issues such as compensation and conjunction, and predictive values, are more convincing. 

      • Whenever qualitative results are used (either in isolation or in conjunction with quantitative results), human judgement plays a role, and thus the expertise (teacher training) and credibility of the people making the judgements are necessary elements of the arguments.


추론 4. 대상 도메인에서 구성으로

Inference 4. From target domain to construct


기본적으로 앞의 두 가지 추론에 사용된 것과 동일한 방법과 절차를 사용하여 [대상 도메인에서 구성으로] 추론한다. 의료 역량competence의 구성을 위해, 특히 이 construct을 일련의 역량competency 영역으로 보는 현재 통용되는 관점에 비추어 볼 때, 이러한 [역량 영역competency domains이 최종 구인final construct을 구성하는 방법]에 대한 이론적이고 실질적인 개념을 갖는 것이 중요하다.

Basically the same methods and procedures used in the previous two inferences are used to make inferences from target domain to construct. For the construct of medical competence, especially in the light of the currently popular view of this construct as a set of competency domains, it is important to have a theoretical and practical notion of how these competency domains make up the final construct.


최종적인 비유로서의 건강은 세계보건기구 40에 의해 '... 육체적, 정신적, 사회적 복지가 완전한 상태일 뿐 질병이나 병약함의 부재는 아니다.'40 건강에 대한 이러한 정의는 이론적으로 유용한 구인이지만, 어떤 실제 환자에서도 거의 달성되지 않을 것이기 때문에 의료실무에서는 무용지물이다. 실제 현장에서는, [건강]은 [환자와 의사 모두 그 과정의 결과에 만족하고 있으며, 더 이상의 행동이 필요하지도, 바라지도 않는다고 결정했다는 의미]로 더 자주 이용된다.

Health as a final analogy is defined by the World Health Organization40 as: ‘...a state of complete physical, mental and social well-being and not merely the absence of disease or infirmity.’40 This is a useful theoretical construct, but it is useless in medical practice because it will almost never be attained in any real patient. In practice, health is more often used in the sense that both the patient and doctor are satisfied about the outcome of the process and have decided that further actions are neither needed nor wanted.


[CanMEDS 및 ACME 역량에 정의된 것과 같은] 역량 영역은 이론상 유용하지만, 현재로서는 평가 목적으로 무언가를 해결해주기보다는 더 많은 문제를 일으키는 구인construct을 형성한다

    • 어떤 정보를 어떤 역량에 매핑해야 하는가? 

    • 서로 다른 역량에 매핑되는 정보를 어떻게 처리해야 하는가? 

    • 한 가지 역량에 매핑되는 서로 다른 정보 소스를 어떻게 관리해야 하는가? 

    • 역량이 서로 보상할 수 있는가, 아니면 서로 결부적으로 다루어야 하는가?

Competency domains, such as those defined in the CanMEDS and ACGME competencies, are useful in theory, but, for assessment purposes, they form a construct that currently creates more problems than it solves. 

    • What information should be mapped onto which competency? 

    • How should we deal with information that maps onto different competencies? 

    • How should we manage different sources of information that map onto one competency? 

    • Can competencies compensate for one another or should they be treated conjunctively?


또 다른 논의의 쟁점이 훨씬 더 중심적일 수 있다. 의료 역량은 [모든 상황]에서 프로토콜에 부합하는 방식으로 행동할 수 있는 능력인가, 아니면 진단, 의사소통 및 치료 결정을 [각 상황에 최적으로 적용할 수 있도록 충분히 유연한 방식으로 행동]할 수 있는 능력인가? 전자에서는 추론에 대한 더 구조화된 접근법이 더 그럴듯하다. 후자에서는 좀더 해석적인 주장이 나와야 한다. 우리는 우리가 [평가하고자 하는 구인이 충분히 명확하고 그것에 대한 모든 이론적 개념이 충분히 구체적일 때에만 타당성확인의 주장이 만들어질 수 있다]는 것을 충분히 강조하고자 한다.

Another issue of discussion may be even more central. Is medical competence the ability to act in a manner that accords with protocol in every situation or is it the ability to be act in a manner that is sufficiently flexible to allow for the optimal adaptation of diagnostic, communicative and therapeutic decisions to each situation? In the former, more structured approaches to inferences are more plausible. In the latter, more interpretative arguments must be made. We cannot stress enough that the arguments of validation can only be made if the construct we want to assess is defined clearly enough and when all theoretical notions about it are sufficiently concrete.


결론 CONCLUSIONS


우리는 여기서 의료 역량의 평가의 타당성은, 특히 평가 프로그램에 기초하는 경우, 각각은 일관성이 있어야 하지만, 또한 일관되고 일관성 있는 하나의 주장 시리즈를 형성하는 데 최대 기여해야 하는 추론 프로그램에 기초해야 한다고 주장해왔다.

We have argued here that the validity of the assessment of medical competence – especially if it is based on a programme of assessment – is based on a programme of inferences, each of which must be coherent, but which must also contribute maximally to the forming of one consistent and coherent argumentation series.







. 2012 Jan;46(1):38-48.
 doi: 10.1111/j.1365-2923.2011.04098.x.

Programmatic assessment and Kane's validity perspective

Affiliations 

Affiliation

  • 1Flinders Innovation in Clinical Education, Flinders University, South Australia, Australia. Lambert.schuwirth@flinders.edu.au

Abstract

Context: Programmatic assessment is a notion that implies that the strength of the assessment process results from a careful combination of various assessment instruments. Accordingly, no single instrument is superior to another, but each has its own strengths, weaknesses and purpose in a programme. Yet, in terms of psychometric methods, a one-size-fits-all approach is often used. Kane's views on validity as represented by a series of arguments provide a useful framework from which to highlight the value of different widely used approaches to improve the quality and validity of assessment procedures.

Methods: In this paper we discuss four inferences which form part of Kane's validity theory: from observations to scores; from scores to universe scores; from universe scores to target domain, and from target domain to construct. For each of these inferences, we provide examples and descriptions of approaches and arguments that may help to support the validity inference.

Conclusions: As well as standard psychometric methods, a programme of assessment makes use of various other arguments, such as: item review and quality control, structuring and examiner training; probabilistic methods, saturation approaches and judgement processes, and epidemiological methods, collation, triangulation and member-checking procedures. In an assessment programme each of these can be used.

+ Recent posts