평가자료가 단어일 때: 질적교육평가의 타당도 근거 (Acad Med, 2016)

When Assessment Data Are Words: Validity Evidence for Qualitative Educational Assessments

David A. Cook, MD, MHPE, Ayelet Kuper, MD, DPhil, Rose Hatala, MD, MSc,

and Shiphra Ginsburg, MD, MEd




계산 할 수 있는 모든 것이 중요한 것은 아니며, 중요한 모든 것을 계산할 수도 없습니다. -W. B. 캐머론 1

Not everything that can be counted counts, and not everything that counts can be counted. —W. B. Cameron1



교육자들은 양적 점수가 연수생의 모든 중요한 특성을 포착하지 못함을 점점 더 인식하게됨에 따라, 그들은 정성적 데이터를 통합하고 받아들이 기 시작했습니다 .9-11 지난 30 년 동안 교육 연구에서 벌어진 학습자 평가에서의 르네상스는 질적 방법과 혼합 방법 접근의 증가 된 경향과 유사합니다 

As educators increasingly recognize that quantitative scores fail to capture all important features of a trainee’s performance,7,8 they have begun to incorporate and embrace qualitative data.9–11 This renaissance in learner assessment parallels the increased presence of qualitative and mixed- methods approaches in education research over the past 30 years.12



유효성 프레임 워크의 간략한 개요

A Brief Overview of Validity Frameworks


3 가지 유형의 타당도 -준거, 기준, (상관성, 동시성 또는 예측 성이라고도 함) 및 구조 - 에 대한 "고전적"모델은 평가의 해석 및 사용을 지원하기 위한 보완적인 접근 방식을 제공하는 두 개의 현대 프레임 워크로 대체되었습니다. Messick's22 프레임 워크에서 모든 타당성은 다섯 가지 다른 출처 (아래 정의 됨)에서 파생 된 증거에 의해 뒷받침되는 구조 타당성의 포괄적 인 우산 아래 통합됩니다.

The “classical” model of three types of validity—content, criterion (also referred to as correlational, concurrent, or predictive), and construct—has been replaced by two contemporary frameworks that offer complementary approaches to support the interpretations and uses of assessments. In Messick’s22 framework all validity is unified under the overarching umbrella of construct validity, which is supported by evidence derived from five different sources (defined below).


그러나 Messick의 프레임 워크는 여러 증거 출처 중 우선 순위를 지정하지 않으며, 평가마다 우선순위가 다를 수 있다. 이 문제를 해결하기 위해 Kane23은 타당성 근거 프로세스(타당화), 특히 평가의 점수에 대한 타당성 주장의 계획과 평가에서 네 가지 주요 단계 또는 추론을 강조하는 프레임 워크를 개발했습니다. 실제로 스코어와 결정의 타당성을 뒷받침하기 위해 데이터를 수집하고 해석 할 때 교육자는 일반적으로 이 두 현대 프레임 워크 중 하나를 선택하여 사용한다.

However, Messick’s framework does not prioritize among the different evidence sources or indicate how such prioritizing might vary for different assessments. To address this problem, Kane23 developed a framework focusing on the process of collecting validity evidence (validation), specifically highlighting four key phases or inferences in planning and evaluating a validity argument for an assessment’s scores. In practice, an educator would typically choose to use one of these two contemporary frameworks when collecting and interpreting data to support the validity of scores and decisions.


우리가 아래에서 자세히 설명 할 때, 이러한 틀은 실증주의 패러다임 (즉, 객관적인 현실이 특정하고 발견 가능한 자연 법칙으로 존재한다는 것)으로 제한되지 않는다. 오히려 둘 다 적절하게 해석주의적 입장(즉, 현실은 언어와 공유 된 의미를 통해 사회적으로 구성되며 여러 해석에 개방되어있다)을 취한다.

As we elaborate below, neither of these frameworks is restricted to a positivist paradigm (i.e., that an objective reality exists with specific, discoverable natural laws); rather, both lend themselves to an appropriately interpretivist stance (i.e., that reality is socially constructed through language and shared meaning and is open to multiple interpretations).



방어가능한 결정을 내리기 위한 질적 평가의 역할

The Role of Qualitative Assessment in Making Defensible Decisions


모든 평가의 궁극적 인 목적은 평가 대상자에 대한 타당한(즉, 방어 가능한) 결정 또는 판단에 도달하는 것입니다. 이러한 결정은 단독 또는 조합으로 학습자의 삶과 의학의 세계, 그들이 일하는 환자, 동료 및 시스템에 중요한 영향을 미칩니다.

The ultimate purpose of any assessment method is to come to a valid (i.e., defensible) decision or judgment about the person being assessed. These decisions, alone or in combination, have important consequences for the lives of learners and, in the world of medicine, for the patients, peers, and systems with which they work.24


수치 점수의 결함에는 평가자 편견 (관용, 엄격함 및 특이성), 범위 제한, 시험에 대한 가르침 (또는 무엇을 가르쳤는지에 대한 시험), 그리고 "객관성"의 거짓 안전을 포함합니다. 11,25

Other deficiencies in numeric scores include 

  • rater biases (leniency, strictness, and idiosyncrasies), 

  • restriction of range, 

  • teaching to the test (or testing to what was taught), and 

  • the false security of “objectivity.”11,25 


물론, 질적인 평가도 한계가 있다. 평가자와 분석가의 개인적인 편견과 특이성에 대한 감수성, 맥락 전반에 걸친 일반화 가능성의 부재, 그리고 종종 많은 양의 질적 데이터 인 것을 수집하고 분석하는 데 필요한 시간과 훈련에 대한 실질적인 우려를 포함하는 자체적 인 관심사를 가지고있다.

Of course, qualitative assessment has its own share of concerns, including 

  • susceptibility to the personal biases and idiosyncrasies of assessors and analysts, 

  • lack of generalizability across contexts, and 

  • practical concerns about the time and training required to collect and analyze what is often a large volume of qualitative data.


무엇이 정성적 평가입니까?

What Counts as Qualitative Assessment?


내러티브를 숫자 점수 (예 : 10 점 척도로 트레이닝 평가 내러티브 평가)로 변환하는 것은 연구 및 평가 모두에서 일반적인 관행이나, 이 점수의 유용성과 나름의 역할과 별개로 (우리의 정의에 따라) 이것은 정성 평가가 아니다. 오히려 실제 질적 평가에서 교육자는 학습자의 성과에 관한 공통 주제, 패턴, 불일치, 예 및 불확실한 사례를 식별하기 위해 생생한 서사 데이터를 분석하고 이를 해석하여 서술하고 요약하여 판단으로 종합합니다. 적절하게만 이뤄진다면 내러티브 합성은 내러티브를 단순한 숫자로 줄이는데 잃어버린 의미의 깊이, 폭, 뉘앙스 및 풍부함을 유지합니다. It is common practice in both research and assessment to convert such narratives to numeric scores (e.g., rating an in-trainingevaluation narrative on a 10-point scale), but while such scores are useful and have a role in assessment, they do not (by our definition) count as qualitative assessment. Rather, in true qualitative assessment educators analyze the raw narrative data to identify common themes, patterns, disagreements, examples, and disconfirming examples regarding learner performance, and synthesize these into an interpreted narrative and summary judgment. When properly done, such narrative syntheses retain a depth, breadth, nuance, and richness of meaning that would be lost in reducing the narratives to mere numbers. 

Hodges16이 지적했듯이, "행동을 숫자로 변환 한 다음 다시 문장으로 변환하는 것은 불필요한 우회입니다."
As Hodges16  noted, “Perhaps the translation of behaviours into numbers and then numbers back into statements is an unnecessary detour.” 

용어에 대한 간단한 설명이 필요하다. 질적 평가에 관해 논의 할 때 우리는 학습자의 성과를 관찰하고 문서화하는 사람을 assessor 또는 observer 와 같은 중립적인 용어로 부르기를 선호한다. Rater와 같은 단어는 숫자 등급의 생성을 암시하기 때문에 가급적 피한다. 우리는 마찬가지로 등급 및 점수라는 단어를 피하고 대신에 서술 (관측에서 생성 된 단어 또는 원시 데이터)합성 또는 해석 (다른 데이터로 분석, 해석 및 삼각화된 내러티브)라는 단어를 사용할 것이다. 질적 인 연구에서 합성과 해석 기능은 전형적으로 질적 인 방법에서 특정한 훈련과 경험을 가진 분석가를 필요로한다.

We wish to make a brief note regarding terminology. When discussing qualitative assessment, we eschew the word rater when referring to the person observing and documenting the learner’s performance, since it connotes the creating of a numeric rating, preferring instead a neutral term such as assessor or observer. We likewise avoid the words rating and score, and use instead the words narrative (to refer to the words or raw data generated from the observation) and synthesis or interpretation (to refer to narratives that have been analyzed, interpreted, and triangulated with other data). in qualitative research the synthesis and interpretation function typically require analysts with specific training and experience in qualitative methods.



우리는 질적 평가에서 "유효성"에 대해 말할 수 있습니까?

Can We Talk About “Validity” in Qualitative Assessment?


결정은 그것이 기반하고 있는 데이터만큼만 우수합니다.

A decision is only as good as the data on which it was founded.


양적 평가에서 증거는 타당도의 렌즈를 통해 그룹화되고 해석되며, 타당도는 "제안 된 시험 용도에 대한 시험 점수의 해석을 증거 및 이론이 뒷받침하는 정도"로 정의된다.

In quantitative assessment, evidence is grouped and interpreted through the lens of validity, which is defined as “the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests.”31(p11)


질적 연구자들은 연구의 타당성에 대한 개념을 피하고 credibility나 trustworthiness와 같은 용어를 사용하여 rigor함을 해석합니다 .18-21

Qualitative researchers eschew the concept of study validity, and instead interpret rigor using terms such as credibility and trustworthiness.18–21


그러나 양적연구의 타당도 개념은 그것의 핵심 가치와 질적연구의 본질적으로 다른 패러다임을 희생하지 않고도 질적 평가에 적절하게 적용될 수 있다. 이 주장에서 우리는 구체적으로 평가 타당도에 대해서만 이야기하고자 한다. 연구 타당도의 판단은 이 논문의 범위를 벗어나는 완전히 다른 방법과 표준을 구성한다.

Yet we believe that the concept of validity can, in fact, be appropriately applied to qualitative assessment without sacrificing the core values and inherently different paradigms that define this field and approach. In asserting this, we specifically restrict our claim to the evaluation of assessment validity; judgments of research validity constitute an entirely different set of methods and standards,32 and fall outside the scope of this article.



질적 평가를 언급 할 때 타당도와 타당화의 개념을 가져와야하는 이유는 적어도 세 가지입니다.

We see at least three reasons to invoke the concepts of validity and validation when referring to qualitative assessments.



첫째, 타당도 확인은 주어진 결정의 방어력을 뒷받침하는 증거 수집을 의미한다. 타당도의 포괄적 정의는 증거의 본질에 아무런 제한을 두지, 않으며 실제로 정량적인 점수를 뒷받침하기 위해 수집 된 많은 증거는 본질적으로 정성적인특성을 갖는다 (예 : 내용 타당도 근거에는 종종 테스트 개발에 대한 서술이 포함되어 있습니다 34). 의사 결정에 중점을 둠으로써, 우리는 평가를 단지 숫자와 동일한 것으로 보는 관점을 넘어서, 정성적 분석에서 나오는 판단과 서사의 합성을 비롯하여 더 광범위하고 미묘한 범위의 평가 데이터를 수용한다는 일반 관념에 다다를 수 있다. 좋은 결정은 (숫자 정보든 단어 정보든) 무엇이든 기반으로 할 수 있으며, 아마도 이상적으로는 함께하는 것이 좋다.

First, validation refers to the collection of evidence to support the defensibility of a given decision.23,33 This broad definition makes no restriction on the nature of the evidence used, and in fact much of the evidence collected to support quantitative scores is qualitative in nature (e.g., content evidence often includes a narrative description of test development34). The focus on decisions also enables us to move beyond the lay notion that assessment is synonymous with numeric scores, and accept a broader and more nuanced range of assessment data including judgments and narrative syntheses emerging from qualitative analyses. Good decisions can be based on information presented as either numbers or words—and, perhaps ideally, both in concert.


둘째, 교육 평가 분야가 발전하고, 더욱 다양해진 데이터 유형을 수용하기 위해서는 언어와 어휘의 공통점을 찾아야합니다. 우리는 질적 평가에서 엄격함을 정의하기 위해 선택된 어휘는 사소한 문제가 아니라는 것을 인정합니다. 언어는 신념을 형성하고, 패러다임을 정의하고, 다른 사람들에 대한 어떤 담론에 권력을 부여합니다. 실제로 질적 분석의 모든 단계에서 단어가 중심적으로 설명됩니다. 어떤 사람들은 두 가지 독립적인 어휘 (별개의 언어)를 유지하기를 바랄 수도 있고, 아니면 질적 연구의 언어를 채택하고 그것을 정량적 평가 용도로 조작화하자고 주장할 수도 있다. 그러나 양적 평가 문헌의 타당도 확인 개념은 이미 상당히 잘 발달되어 있으며 많은 교육자들이 수용 할 수있는 견고한 체계를 갖추고 있다. 따라서 우리 중 두 명 (AK, SG)이 주로 질적 / 해석 주의적 연구 패러다임에서 일하는 경우 연구원과 교육자가 양적 평가 문헌에서 일반적으로 사용되는 용어를 질적 연구의 언어와 패러다임에 맞게 다시 조작하고 확장함으로써 이익을 얻을 수 있다는 실용적인 합의에 이르렀다. 

Second, for the field of educational assessment to move forward and embrace a greater diversity of data types we need to find common ground in language and vocabulary. We acknowledge that the vocabulary chosen to define rigor in qualitative assessment is no trivial matter. Language shapes beliefs, defines paradigms, and affords power to some discourses over others. Indeed, words figure centrally in all phases of qualitative analysis. Some might argue to retain two independent vocabularies—distinct languages—or to adopt the language of qualitative research and operationalize it for quantitative assessments. However, the concept of validation in the quantitative assessment literature is already quite well developed and reflects a robust framework that is accepted by many educators. Thus, even though two of us (A.K., S.G.) work primarily in a qualitative/ interpretivist research paradigm, we came to a pragmatic consensus that researchers and educators might benefit from reoperationalizing and broadening terms typically used in the quantitative assessment literature such that they align with both the language and paradigms of qualitative research.


셋째, 가장 중요한 것은 질적 연구에서 엄격함을 확립하기 위해 전통적으로 사용된 증거와 패러다임은 질적 평가의 엄격 성을 뒷받침하기 위해 현대 타당도 프레임워크의 렌즈를 통해 쉽게 재해석 될 수 있다는 것이다 .17,35 고전적 타당도 모델은 심리측정 전통에 크게 의존하지만 이제 시대에 뒤 떨어진 것으로 간주됩니다. 대조적으로, Messick과 Kane의 프레임 워크는 질적 평가에 근거한 결정의 방어력을 뒷받침하는 증거의 수집과 해석을 용이하게 한다.

Third, and most important, the evidence and paradigms traditionally used to establish rigor in qualitative research can be readily reinterpreted through the lens of contemporary validity frameworks to support the rigor of qualitative assessments.17,35 The classical validity model drew heavily on psychometric traditions but is now considered out of date. By contrast, Messick’s and Kane’s frameworks readily guide the collection and interpretation of evidence that supports the defensibility of decisions founded on qualitative assessments.



질적 평가에 Messick의 프레임 워크 적용 : 증거의 다섯 가지 출처

Applying Messick’s Framework to Qualitative Assessment: Five Sources of Evidence


중요하게는, 이러한 증거의 출처들은 서로 다른 유형의 타당성이 아니라 오히려 타당성에 대한 판단에 정보를 제공하는 다양한 범주의 증거입니다. 주어진 해석을 뒷받침 할 수있는 여러 출처에서 증거를 찾아야합니다. 표 2에는 이 다섯 가지 출처에 대한 정의가 들어 있는데,

Importantly, these sources of evidence are not different types of validity but, rather, different categories of evidence that inform judgments about validity. Evidence should be sought from several sources to support any given interpretation. Table 2 contains definitions for these five sources,


간략하게 요약하면 다음과 같습니다.

To summarize briefly:



• 내용 증거는 "시험 내용과 측정하려는 구인과의 관계"를 평가한다. 31 (p14) 질적 평가를 위해 내용 증거는 특정 프롬프트 (질문)를 선택하는 방법, 프롬프트의 표현 지침, 샘플링 전략 (특정 관점을 탐구하기 위해 종종 의도적으로 또는 의도적으로, 반복적으로 데이터 수집의 기간 및 초점을 조정)을 포함한다. 

• Content evidence evaluates the “relationship between the content of a test and the construct it is intended to measure.”31(p14) For a qualitative assessment, content evidence might include 

  • the method for selecting specific prompts (questions), 

  • the wording of prompts and instructions, and 

  • the sampling strategy (often deliberate or purposeful, to explore specific perspectives; and iterative, to tailor the duration and focus of data collection). 

추가적인 관찰이 새로운 주제를 제시하지 않을 때까지 포화 36- 목적적이고 반복적인 데이터 수집 및 분석 - 에 대한 질적 연구 개념은 실제로 완전한 포화가 아니라 "충분 함"이 일반적으로 목표 일지라도 유용한 이론적 샘플링 종점을 제공합니다.

The qualitative research concept of saturation36—continuing purposeful, iterative data collection and analysis until additional observations do not suggest new themes—provides a useful theoretical sampling end point, although in practice “sufficient” rather than complete saturation will usually be the goal.



• 응답 프로세스 증거는 공식적으로 "구인와 실제로 발생하는 성능의 세부 특성 사이의 적합성"으로 정의됩니다. 31 (p15)보다 실질적인 관점에서는 관찰 자체과 그것의 문서화 기록을 연결시키는 프로세스를 반영합니다 (답변, 평가 , 내러티브) 

  • 자신의 내러티브 설명의 기초가 되는 사건에 대한 평가자의 해석 (즉, 정신 프로세스), 또는 

  • 그 주석이 기록되는 시스템 (예 : 사무 또는 컴퓨터 프로세스). 

• Response process evidence is formally defined as “the fit between the construct and the detailed nature of performance … actually engaged in.”31(p15) In more practical terms it reflects the processes that link the observation itself to the record (answer, rating, narrative) documenting that observation, such as 

  • the assessor’s interpretations of events (i.e., mental processes) that underlie his or her narrative comments or 

  • the system by which such comments are recorded (e.g., clerical or computer processes). 

이에 해당하는 근거로는...

Evidence might show 

  • 평가자가 지침을 따르고 있다.that assessors follow instructions, 

  • 내러티브가 풍부한 자료를 제공하고 있으며, 같은 평가자라도 학습자마다 다른 다료를 만들고 있다.that narratives offer rich data and differ between learners for the same assessor, 

  • 평가자의 reflexivity가 고려되었다. that assessors’ reflexivity (such as their relationships with learners and context) has been considered, or 

  • 컴퓨터 인터페이스가 확장된 내러티브를 지원한다. that the computer interface allows extended narratives.




• 내적 구조는 동일한 평가에서 데이터 요소 간의 일관성 (또는 그 결여)과 이러한 요소를 의미있는 메시지로 합성하는 근거 및 방법을 반영합니다. 질적 평가를 뒷받침하는 증거는 

  • 서로 다른 데이터 요소의 삼각측량 (예 : 다른 평가자 또는 다른 상황에서 수집 한 내러티브), 

  • 분석 자체의 특성 (예 : 반복해서 포화가 될 때까지 추가 데이터 수집) 또는 

  • 분석가의 reflexivity

• Internal structure reflects the relationship among data elements in the same assessment— their coherence (or lack thereof), and the rationale and method for synthesizing these elements into a meaningful message. Evidence to support qualitative assessment might explore 

  • the triangulation among different data elements (e.g., narratives collected from different assessors or different contexts), 

  • the nature of the analysis itself (e.g., iteration, and often additional data collection, until saturation), or 

  • the reflexivity of the analysts. 


예를 들어, 교육자는 불일치하는 내러티브를 강조하고 이러한 불일치를 설명하는 추가 데이터 또는보다 미묘한 해석을 추구 할 수 있습니다.

For example, educators might highlight discordant narratives and seek additional data or a more nuanced interpretation that accounts for this seeming inconsistency.37



내부 구조는 평가 내 요소 간의 연관성과 합성 접근법을 바라 보는 반면, 다른 변수와의 관계는 최종 합성과 연구중인 평가 외부의 다른 정보 소스 간의 연관성을 조사합니다. 삼각 측량 (여기서는 외부 데이터 소스와 함께)과 이전 가능성 (예 : 다른 상황 또는 미래 또는 과거 공연)에 대한 질적 연구 개념의 적용은 이러한 관계의 증거를 제공 할 수 있습니다.

• Whereas internal structure looks at associations among elements within the assessment and the approach to synthesis, relationships with other variables examines the associations between the final synthesis and other information sources outside the assessment under study. Application of the qualitative research concepts of triangulation (here, with external data sources) and transferability (e.g., to other contexts or future or past performances) can supply evidence of these relationships.


• 마지막으로, 결과의 증거는 평가의 실질적인 영향과 관련된 결정 및 행동을 조사합니다. 24 그러한 증거의 수집은 평가의 학습자 및 강사의 인상과 그것이 그들의 삶에 어떻게 영향을 미치는지를 탐구하기 위해 질적 또는 양적 연구 방법을 사용할 수 있습니다. 또한 의도되거나 의도하지 않은 결과에 대한 객관적인 증거, 결정이 다른 이해 관계자와 공존하는 정도도 여기에 포함된다.

• Finally, evidence of consequences looks at the actual impact of the assessment and the associated decisions and actions.24 The collection of such evidence might use qualitative or quantitative research methods to explore learner and instructor impressions of the assessment and how it influenced their lives, objective evidence of intended and unintended consequences, or the degree to which decisions resonate with other stakeholders.




정량적 평가에 Kane의 프레임 워크 적용 : 4 가지 검증 추론

Applying Kane’s Framework to Qualitative Assessment: Four Validation Inferences



케인의 틀은 타당성 주장에서 핵심 추론에 초점을 맞추고있다 (표 3 참조). 최근 우리 중 일부가 다른 곳에서 요약 한 바와 같이 17 :

Kane’s framework focuses on key inferences in the validity argument (see Table 3). As some of us recently summarized elsewhere17:


본질적으로 Kane은 단일 관찰 (예 : 객관식 시험 문제, 기술 역, 임상 관찰 또는 포트폴리오 항목)의 점수에서 관찰 점수를 사용하여 성능을 나타내는 전반적인 테스트 점수를 생성하는 관찰을 추적합니다. 테스트 설정 (일반화), 테스트 점수가 실제 성능 (외삽)을 암시 할 수 있는지에 대한 추론을 작성한 다음이 정보를 해석하고 결정을 내리기 (함의). 이 과정의 각 단계는 몇 가지 가정과 함께 추론을 나타냅니다.

essentially, Kane traces an assessment from the Scoring of a single observation (e.g., multiple-choice exam question, skill station, clinical observation, or portfolio item), to using the observation score(s) to generate an overall test score representing performance in the test setting (Generalization), to drawing an inference regarding what the test score might imply for real-life performance (Extrapolation), and then to interpreting this information and making a decision (Implications). Each phase in this process represents an inference laden with several assumptions.


Kane의 접근법은 증거의 출처가 아닌 논쟁 자체에 초점을 맞춤으로써 정량적으로 선정 된 평가, 질적 평가 및 평가 프로그램에 똑같이 적용됩니다 .35 Kane은 연구자가 연구 질문을 전향적으로 식별하고 그 질문에 답하는 데 필요한 연구 데이터의 개요를 설명하는 것처럼, 평가에서도 의도된 용도와 결정 및 증거를 선불로up front 드러내고, 그러한 결정을 뒷받침하는 데 필요한 근거를 강조했다.

By focusing on the argument itself rather than sources of evidence, Kane’s approach applies equally well to quantitative selected)assessments, qualitative assessments, and programs of assessment.35 Kane emphasizes the imperative to articulate up front both the intended uses and decisions and also the evidence needed to support such decisions (the “interpretation/use argument”),38 just as a researcher would prospectively identify the research question and outline the research data required to answer the question.


첫 번째 추론인 scoring은 하나 이상의 실적 관측을 기반으로 통찰력 있고 정확한 response (예 : 이야기 설명)을 생성하는 것과 관련이 있습니다. Scoring inference을 뒷받침하는 데이터에는 다음이 포함될 수 있습니다.
  • 서술 응답을 이끌어내는 질문 또는 프롬프트의 워딩
  • 원시 서사의 풍부함, 
  • 관찰자의 신뢰도 
  • 최종 보고서의 "두꺼운 설명"으로 인용구문 이미지의 사용

The first inference—scoring—concerns the generation of an insightful and accurate response (e.g., narrative comment) based on one or more observations of performance. Data to support the scoring inference might include 

  • the wording of questions or prompts inviting a narrative response, 

  • the richness of the raw narrative, 

  • the credibility of the observers, and 

  • the use of “thick description” quotes or images in the final report.


다음 추론은 일반화generalization으로, 개개의 데이터 요소 (예를 들어, 코멘트)가 테스트 설정에서의 성능에 관한 일관되고 통찰력 있고 정확한 판단으로 합성되는 것이다. 정 성적 평가는 통상적 인 의미에서 일반화 될 수 없다. 오히려 질적 평가 교육자들은...

The next inference is generalization, in which individual data elements (e.g., comments) are synthesized into a coherent, insightful, and accurate judgment regarding performance in the test setting. Qualitative assessments are not intended to be generalizable in the usual sense19; rather, in qualitative assessment educators



일반화 추론은 샘플링 및 데이터 분석을위한 엄격한 방법에 의해 지지된다. 
  • 목적적 샘플링, 
  • 반복적이고 반응적인 데이터 수집 (이상적으로 포화까지 계속), 
  • 삼각 측량 (보완 소스로부터의 의도적 인 데이터 선택 및 합성)
  • 분석가의 훈련 및 경험.

The generalization inference would be supported by rigorous methods for sampling and data analysis, including 

  • purposeful sampling, 

  • iterative and responsive data collection (ideally continuing until saturation), and 

  • triangulation (deliberate selection and synthesis of data from complementary sources). 

  • The training and experience of analysts would also inform this inference.


외삽은 해석을 테스트 설정 이상으로 확장하고 실제 상황과 향후 성과에 대한 관련성을 주장합니다. 외삽 증거는 주로 두 가지 출처로부터 온다. 
  • 테스트 또는 평가가 실제 퍼포먼스의 가장 중요한 측면을 반영하도록하는 단계 
  • 테스트 퍼포먼스와 실제 퍼포먼스와의 관계를 (양적으로 또는 질적으로) 평가하는 경험적 분석
Extrapolation extends the interpretations beyond the test setting and claims relevance to real-life situations and future performance. Extrapolation evidence comes primarily from two sources: 
  • steps taken to ensure that the test or assessment reflects the most important aspects of real- life performance, and 

  • empiric analyses that evaluate (quantitatively or qualitatively) the relationship between test performance and real-world performance. 


테스트 설정 평가 데이터와 해당 실제 데이터 모두 양적, 질적 또는 둘 다일 수 있습니다.

Note that both the test-setting assessment data and the corresponding real-world data could be quantitative, qualitative, or both.



마지막으로, 함축 추론implication inference은 실제 성과에 대한 주장과 그에 기반한 결정 및 행동 사이의 연관성을 탐구한다. 이 단계에서는 평가에 기반한 의사 결정에 따른 의도하거나 의도하지 않은 결과를 평가하고, 대부분의 측면에서, 위에 논의 된 결과 증거를 병행합니다.

Finally, the implications inference explores the link between claims for real- world performance and the decisions and actions based thereon. This step evaluates the intended or unintended consequences of assessment-informed decisions and, in most respects, parallels the consequences evidence discussed above.





기존 평가 접근법에 적용

Application to an Existing Assessment Approach


정의와 목적

Definition and purpose


학습 포트폴리오 (이하 "포트폴리오")는 일반적으로 학습자가 자신의 평가자 (즉, 유물 중 많은 부분을 선택하고 논평한다)이며 학습자가 (하나 이상의 교수들과 함께) 흔하게  분석(성찰 요소의 합성)에 기여한다는 점에서 비정형 적이다. . 

Learning portfolios (hereafter, “portfolios”) are atypical among assessments in that learners are usually their own assessors (i.e., they select and comment on many, if not all, of the artifacts), and learners also frequently contribute to the analysis (i.e., synthesis during the reflective component) along with one or more faculty members.42,56



Applying Messick’s framework


As detailed in Table 2, we find supportive evidence from all five of Messick’s sources. 

    • Two areas of concern are that residents, in the assessor (data collector) role, could bias the assessment by selectively including only favorable data,13,42,44,53 and that the use of excessive structure might impede reflection.57 

    • Both of these issues could be addressed through portfolio redesign (e.g., involving others in artifact selection). 

    • Evidence of consequences is quite extensive for portfolios, likely because they have been explicitly viewed as training interventions as well as assessment instruments.39–41 

    • While generally favorable, fairness and overall value have been questioned.43–45,47,52,55


Applying Kane’s framework

    • Kane의 접근법에서는 근거를 수집하기 전에 '의도한 사용'과 '해석/사용 주장'을 먼저 밝혀야 한다. 
      Applying Kane’s approach requires that we not only identify the intended use (i.e., to provide formative feedback, as noted above) but that we also articulate the interpretation/use argument38 (i.e., the evidence and interpretations that would support such use) before embarking on a search for evidence.17 

    • To support the proposed use, for the scoring inference we would hope to find evidence that those collecting information (typically the residents) had proper training and/ or instructions, that they were allowed sufficient time to collect their artifacts, and that the artifacts accurately reflect the original activity being assessed and contain sufficient information to allow insightful interpretations. 

    • To support generalization, we would hope to find evidence that the artifacts represent a variety of meaningful activities and collectively form a coherent, accurate, and complete picture of the resident across multiple clinical situations. Ideally, artifacts suggesting conflicting or incomplete interpretations would prompt additional data collection or a narrative explanation from the resident. We would further expect that those conducting the interpretive analysis (e.g., mentors or program directors) have appropriate training or experience, that the interpretation integrates but does not rely exclusively on the learner’s reflections, and that the analysis process is transparent and rigorous. This might include explicit consideration of personal idiosyncrasies when providing feedback (analyst reflexivity). 

    • To support extrapolation, we would hope that the final synthesis is coherent with other information (e.g., qualitative or quantitative assessments) about the resident (triangulation) and that those involved in the original activities would agree with this final synthesis (member check). 

    • Finally, to support the proposed implications, we would hope to find evidence that relevant stakeholders (e.g., the resident and program director) agree with the decision (in this case, specific feedback) based on these narratives, and that actions based on this feedback have the desired effect without unanticipated negative impact.


Further evidence and summary



과제, 불확실성, 다음 스텝

Challenges, Uncertainties, and Next Steps


Limitations of this work


질적 평가에서의 실질적 이슈

Practical issues in qualitative assessment



연구에서처럼, 평가에서 양적 및 질적 방법은 서로 다른 목적을 제공하고, 서로 다른 필요를 충족 시키며, 서로 다른 강점과 약점을 실증하기 때문에 상호 보완 적입니다. 혼합 방식 연구와 마찬가지로, 견고한 혼합 방식 평가는 각 접근 방식 (즉, 양적 및 질적)에 개별적으로 초점을 맞춰 최적의 방법, 데이터 및 인적 자원을 각각 확보 한 다음 결과를 삼각화합니다.

Just as they do in research, quantitative and qualitative methods in assessment complement one another as they serve different purposes, address different needs, and exemplify different strengths and weaknesses. As with mixed- methods research,59 robust mixed- methods assessment will ideally focus on each approach (i.e., quantitative and qualitative) separately—ensuring optimal methods, data, and human resources for each—and then triangulate the results.



질적 데이터의 수집과 일단 수집 된 데이터 분석은 정량적 평가보다 더 많은 시간, 더 많은 에너지 및 매우 다른 기술을 요구하는 경향이 있습니다. 

  • 통찰력있는 서사를 제작하고 기록하는 데 일반적으로 체크리스트 또는 평가 척도를 표시하는 것보다 시간이 오래 걸리며 여러 가지 다른 질문에 이어 프롬프트가 나오면 서술의 품질이 저하 될 수 있습니다(예 : 평가자 피로)

  • 의미있는 서술 (정확한 양적 평가와 마찬가지로)은 상황에 따른 성과를 충분히 관찰 할 필요가 있으며, 시간의 압박을 느껴 평가자는 대충 하려는 유혹을 받을 수 있습니다. 

  • 대량의 원시 서사를 의미있는, 실행 가능한 통찰력으로 합성하려면 정성 분석 기술, 상황 및 내용 별 지식 및 적절한 시간이 필요합니다. 

  • 질적 평가의 통합을 고려하는 프로그램은 평가자와 분석가를 위한 기술 개발과 같은 요구 사항을 고려해야 할 것입니다.

Both the collection of qualitative data and the analysis of data once collected tend to demand more time, more energy, and vastly different skills than do quantitative assessments. Crafting and recording an insightful narrative typically takes longer than marking a checklist or rating scale, and narrative quality may suffer if prompts are preceded by numerous other questions (i.e., assessor fatigue). Meaningful narratives (just like accurate quantitative ratings) also require sufficient observation of performance- in-context, which time-pressed assessors may be tempted to shortchange. a large volume of raw narratives that must then be distilled and synthesizedinto meaningful, actionable insights requires people with qualitative analysis skills, context- and content-specific knowledge, and adequate time. Programs considering theincorporation of qualitative assessments will need to take into account such resource requirements, which might include skill development for assessors and analysts.



모든 평가는 데이터 및 해석의 품질만큼만 견고하며, 질적 평가는 양적 측정과 다른 품질 문제의 영향을 받기 쉽습니다. 

  • 첫째, 데이터의 양과 내용에 큰 variability이 있습니다. 풍부한 내러티브 설명은 통찰력으로 포화 될 수 있지만 얕은 의견은 해석하기가 어렵고 내러티브 길이가 반드시 풍부함 또는 유용성을 반영하지는 않습니다. 평가사 훈련, 동기 부여, 시간 압박 및 피로와 같은 요소는 의견의 질에 영향을 미칠 수 있습니다. 

  • 둘째, 원시 내러티브와 그 해석에는 필연적으로 모두 평가자와 분석가의 특이성이 반영된다. 예를 들어, 평가사는 자신의 정체성을 가려 내기 위해 의견을 베일을 씌울 수 있고, 판단을 피하기 위해 강하게 indictment하지 않을 수 있습니다 .60,61 

  • 마지막으로, 질적인 데이터는 퀄리티 문제를 식별하는 것이 더 어려울 수 있습니다 신뢰성, 후광 효과, 누락 된 데이터 및 차별과 같은 조치를 쉽게 계산할 수있는 정량적 평가와는 달리 부정적인 인상을 기록합니다 60).

All assessments are only as robust as the quality of the data and interpretations, and qualitative assessments are susceptible to quality issues that are different from those of quantitative measures. 

  • First, there is inherently greater variability in the amount and content of data; rich narrative comments may be saturated with insights, whereas shallow comments are harder to interpret, and narrative length does not necessarily reflect richness or utility. Factors such as assessor training, motivation, time pressure, and fatigue can influence the quality of comments. 

  • Second, both raw narratives and synthesized interpretations will inevitably reflect the idiosyncrasies of assessors and analysts, respectively. For example, assessors may veil their comments to mask their identity or may defer strong indictments to avoid passing judgment.60,61 

  • Finally, it may be more difficult to identify problems in the quality of qualitative data (such as shallow comments, or failure to record negative impressions60) in contrast with quantitative assessment, for which measures such as reliability, halo effect, missing data, and discrimination can be readily calculated.


질적 분석은 일반적인 의미에서 일반화 될 수있는 것이 아니라, 오히려 (새로운 상황으로 이전 될 수도 있는) context-bound 인상을 정확히 반영하기위한 것이다. 따라서 샘플링은 무작위보다는 의도적으로 목적이 있으며, 일반적으로 주제별 만족을 목표로하며 반드시 큰 샘플을 필요로하지는 않습니다. 그러나 샘플링은 축적 된 증거에 반응하여 관련 이론에 따라 가이드되어야 하며 대부분의 경우 데이터의 variability을 극대화하는 데 주의를 기울여야합니다.

Qualitative analyses are not intended to be generalizable in the usual sense19,62 but, rather, to accurately reflect context-bound impressions that may transfer to new situations. Sampling is thus intentionally purposive rather than random, typically aims for thematic sufficiency, and does not necessarily require large samples. However, sampling must be guided by relevant theories, responsive to accumulating evidence, and in most cases attentive to maximizing the variability in data.



아마 단기적으로 가장 큰 도전은 교육에서의 양적 / 정신 측정 모델의 압도적 인 지배력과 비교하여 질적 평가의 적절성에 의문을 제기하는 편견과 선입견을 극복하는 것일 것입니다 .63

Perhaps the greatest challenge—at least in the short term—will be to overcome the biases and preconceptions that question the relevance of qualitative assessment in comparison with the overwhelming dominance of the quantitative/ psychometric model of assessment in education.63




Conclusions and next steps


우리는 양적 및 질적 평가 방법의 분리에 적극적으로 반대합니다 .71 오히려, 우리는 명확하게 진술 된 목적이 데이터 수집 및 분석의 성격과 접근 방식을 결정하는 "방법 중립적"접근법을지지합니다. Patton72가 말한 것처럼,

We vigorously oppose the segregation of quantitative and qualitative assessment methods.71 Rather, we advocate a “methods-neutral” approach, in which a clearly stated purpose determines the nature of and approach to data collection and analysis. As Patton72 stated,


중요한 도전은 목적과 질문에 대한 방법을 적절하게 일치시키는 것이지, 모든 탐구 상황에 대해 단일 한 방법 론적 접근을 보편적으로 그리고 무조건적으로 지지하는 것이 아니다.

a consensus has gradually emerged that the important challenge is to appropriately match methods to purposes and inquiry questions, not to universally and unconditionally advocate any single methodological approach for all inquiry situations.


양적 또는 질적 인 평가를 평가할 때 현대의 유효성 틀을 사용하도록 촉구하지만, 우리는 Messick이나 Kane을 강력하게 선호하지 않습니다. 검증에서 가장 중요한 것은 의도 된 결정의 방어 가능성을 평가하는 일관된 주장을 전략적으로 증거하고자하는 증거입니다.

Although we urge the use of a contemporary validity framework when evaluating any assessment, quantitative or qualitative, we do not strongly favor either Messick or Kane. What matters most in validation is that evidence is strategically sought to inform a coherent argument that evaluates the defensibility of intended decisions.





6 Cook DA, Brydges R, Zendejas B, Hamstra SJ, Hatala R. Mastery learning for health professionals using technology-enhanced simulation: A systematic review and meta- analysis. Acad Med. 2013;88:1178–1186.



7 Ginsburg S, McIlroy J, Oulanova O, Eva K, Regehr G. Toward authentic clinical evaluation: Pitfalls in the pursuit of competency. Acad Med. 2010;85:780–786.


8 Schuwirth LW, van der Vleuten CP. A plea for new psychometric models in educational assessment. Med Educ. 2006;40:296–300.



9 Kuper A, Reeves S, Albert M, Hodges BD. Assessment: Do we need to broaden our methodological horizons? Med Educ. 2007;41:1121–1123.


10 Govaerts MJ, Van de Wiel MW, Schuwirth LW, Van der Vleuten CP, Muijtjens AM. Workplace- based assessment: Raters’ performance theories and constructs. Adv Health Sci Educ Theory Pract. 2013;18:375–396.




 2016 Oct;91(10):1359-1369.

When Assessment Data Are WordsValidity Evidence for Qualitative Educational Assessments.

Author information

1
D.A. Cook is professor of medicine and medical education, associate director, Mayo Clinic Online Learning, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine, Rochester, Minnesota.A. Kuper is assistant professor, Department of Medicine, Faculty of Medicine, University of Toronto, scientist, Wilson Centre for Research in Education, University Health Network/University of Toronto, and staff physician, Division of General Internal Medicine, Sunnybrook Health Sciences Centre, Toronto, Ontario, Canada.R. Hatala is associate professor of medicine and director, Clinical Educator Fellowship, University of British Columbia, Vancouver, British Columbia, Canada.S. Ginsburg is professor, Department of Medicine, Faculty of Medicine, University of Toronto, scientist, Wilson Centre for Research in Education, University Health Network/University of Toronto, and staff physician, Mount Sinai Hospital, Toronto, Ontario, Canada.

Abstract

Quantitative scores fail to capture all important features of learner performance. This awareness has led to increased use of qualitative data when assessing health professionals. Yet the use of qualitative assessments is hampered by incomplete understanding of their role in forming judgments, and lack of consensus in how to appraise the rigor of judgments therein derived. The authors articulate the role of qualitative assessment as part of a comprehensive program of assessment, and translate the concept of validity to apply to judgments arising from qualitative assessments. They first identify standards for rigor in qualitative research, and then use two contemporary assessment validity frameworks to reorganize these standards for application to qualitativeassessment.Standards for rigor in qualitative research include responsiveness, reflexivity, purposive sampling, thick description, triangulation, transparency, and transferability. These standards can be reframed using Messick's five sources of validity evidence (content, response process, internal structure, relationships with other variables, and consequences) and Kane's four inferences in validation (scoring, generalization, extrapolation, and implications). Evidence can be collected and evaluated for each evidence source or inference. The authors illustrate this approach using published research on learning portfolios.The authors advocate a "methods-neutral" approach to assessment, in which a clearly stated purpose determines the nature of and approach to data collection and analysis. Increased use of qualitative assessments will necessitate more rigorous judgments of the defensibility (validity) of inferences and decisions. Evidence should be strategically sought to inform a coherent validity argument.

PMID:
 
27049538
 
DOI:
 
10.1097/ACM.0000000000001175


+ Recent posts