When I say…응답 프로세스 타당도 근거(Med Educ, 2022)
When I say…response process validity evidence
Sneha Shankar1 | Christina St-Onge2 | Meredith E. Young1

 

[성과 기반 평가]는 평가자의 판단에 따라 크게 달라지며, 학습자가 평가 과제 중 무엇이 필요한지 이해하는 방법과 평가자가 무엇이 필요한지 이해하는 방법을 포함한 다양한 요인에 의해 형성된다. 역량 구성 요소에 대한 평가자의 관점이 점수를 어떻게 바꿀 수 있는지 또는 학습자의 행동이나 동기가 평가 순간을 어떻게 형성할 수 있는지와 같은 일부 요소는 의도하지 않은 방식으로 평가를 형성할 수 있다. [평가자와 학습자가 평가와 상호 작용하는 방법]을 더 잘 이해하면 평가가 의도한 대로 기능하는지 여부에 대한 중요한 정보를 얻을 수 있습니다. 여기에는 평가가 설계된 맥락에서 공정하게 사용되고 있는지 또는 공평하게 사용되고 있는지도 포함됩니다. [평가자나 학습자가 평가 과제와 상호 작용하는 방법(즉, 이해, 평가, 해석, 수행)]을 탐구하는 것은 응답 프로세스 타당성 증거, 즉 타당성 주장을 구축하는 데 중요한 증거이지만 만성적으로 조사 및 보고가 부족한 증거이다.

Performance-based assessments depend heavily on assessor judgement,1, 2 and are shaped by a variety of factors including how a learner understands what is required during an assessment task and how a rater understands what is required of them. Some factors may shape assessments in a way that is not intended, such as how an assessor's view of what constitutes competency might shift scoring1 or how learner behaviour or motivation may shape an assessment moment.2 Better understanding of how assessors and learners interact with assessments provide critical information about whether an assessment is functioning as intended, including whether it is being used fairly or equitably in a context for which it was designed. Exploring how an assessor or learner interacts with an assessment task (i.e. understands, rates, interprets, performs) is the focus of response process validity evidence, evidence that is critical to building a validity argument but evidence that is chronically underinvestigated and underreported.3, 4

점수 해석을 지원하기 위해 타당성 증거를 수집하는 것이 보건 전문가 교육(HPE)의 표준 관행이 되었다. [응답 프로세스]는 개인(예: 평가자 또는 학습자)이 [평가 및 평가 도구의 특정 문항과 상호 작용할 때 어떤 일이 발생하는지]를 검토하는 특정 유효성 근거의 출처입니다.5 본 원고에서 응답 프로세스 타당성 증거를 설명함에 있어, 우리는 [교육 및 심리 테스트 표준]과 교육 측정 분야에서 새롭게 부상하는 연구의 통일된 관점에서 크게 도출한다.

It has become standard practice within Health Professions Education (HPE) to collect validity evidence in support of score interpretation. Response process is a specific source of validity evidence that examines what happens when an individual (e.g. an assessor or learner) is interacting with an assessment and/or specific items in an assessment tool.5 In describing response process validity evidence in this manuscript, we draw heavily from the unified view of validity in the Standards for Educational and Psychological testing,5 and emerging research from the discipline of educational measurement.6 

이 기사에서는 HPE에 적용하기 위해 익은 교육 측정의 새로운 증거를 통합하기 위해 크라이터와 다우닝의 대응 프로세스에 대한 설명을 확장한다. 이 설명에서, 우리는 인지 프로세스를 넘어 감정, 행동 및 동기에 대한 고려를 대응 프로세스로 포함하도록 확장하고, 대응 프로세스 타당성 증거가 평가 공정성과 공정성을 평가하는 데 어떻게 중요한 역할을 할 수 있는지 설명한다.5 응답 프로세스 증거는 평가, 항목 또는 점수의 의미 또는 해석의 차이를 밝히는 데 도움이 될 수 있으며 평가자가 평가 사용 및 성과 모두에서 응답 패턴을 형성할 수 있는 요소를 더 잘 이해하는 데 도움이 될 수 있다.

In this article, we expand on Kreiter's,7 and Downing's8 description of response processes to integrate emerging evidence from educational measurement6 ripe for application in HPE. In this description, we expand beyond cognitive processes to include consideration for emotions, actions and motivations as response processes69 and describe how response process validity evidence can play an important role in evaluating assessment equity and fairness.5 Response process evidence can help shed light on differences in the meaning or interpretation of assessments, items or scores and can help assessors to better understand factors that may shape patterns of responses in both assessment use and performance.5

1957년, 로빙거는 평가가 의도된 현상을 얼마나 효과적으로 측정하는지를 이해하기 위해서는 [평가 또는 테스트 중의 행동 및 그에 반응한 행동]을 의미하는 "측정 상황context of measurement"을 고려할 필요가 있다고 처음으로 언급했다. 이는 특히 [수행-기반 평가]와 관련이 있다. 왜냐하면 평가는 역동적 컨텍스트 내에서 이루어지기 때문에, 평가자가 학습자를 평가할 때 [상황 정보]가 [수행 판단]에 통합되어 [평가 점수]로 변환되기 때문이다. 따라서, 응답 프로세스 타당성 증거에는 다음 두 가지 행동에 대한 검토를 포함한다.

  • 평가자(예: 특정 성과에 대해 '기대 수준' 또는 '기대 이상'으로 평가하는지 여부) 
  • 평가 대상자(예: 학습자가 평가 항목에 대한 해석 또는 '좋은' 성과에 기대되는 내용을 해석하고 제정) 

In 1957, Loevinger10 first noted that in order to understand how effectively an assessment measures the intended phenomenon, one needs to consider the “context of measurement,”(p.665) referring to behaviour during, and in response to, the act of assessing or testing. This is particularly relevant for performance-based assessments, as assessment happens within a dynamic context—when assessors rate learners, contextual information is integrated into judgements of performance that are then transformed into an assessment score.1 Therefore, response process validity evidence includes examining the behaviour of

  • an assessor (e.g. whether a particular performance is scored as ‘meets’ or ‘exceeds expectations’) and
  • the assessment taker5 (e.g. learner interpretation of an assessment item, or interpreting and enacting what they believe is expected in a ‘good’ performance).

타당성은 고도로 맥락적이기 때문에, 평가자와 학습자의 관점 모두에서 반응 과정을 조사하면 평가에 어떻게 respond in, respond to 하는지에 대한 통찰력을 얻을 수 있다. 응답 프로세스를 검토하여 수집된 데이터는 [평가가 의도한 대로 사용되고 이해되고 있는지]를 막후에서behind the scenes 확인할 수 있습니다. 또한 [평가가 공평하게 사용되고 있는지]도 살펴볼 수 있습니다. 다시 말해, 평가가 여러 학습자 간 동등한 방식으로 이해되고 있는지, 모든 학습자에게 공정하고 공평하게 성과를 판단하는 방식으로 평가자가 사용하고 있는지 탐구한다.

Since “validity is highly contextual,”2(p.297) investigating response processes from both assessor and learner perspectives provides a glimpse as to how both respond in, and respond to, assessment. Data collected through examining response processes provide a behind the scenes look at whether an assessment is being used and understood as intended. It also offers a look at whether an assessment is being used equitably. In other words, it explores whether an assessment is understood by learners in a comparable way and whether it is being used by assessors in a way that judges performance fairly and equitably for all learners.

응답 프로세스 타당성 증거를 고려할 때 [개인이 평가에 참여하는 방식에 대한 가정]에 의문을 제기할 수 있다. 그것이 예상대로든, 예상 밖이든 말이다. 예를 들어, 우리가 가지고 있는 한 가지 가정은 평가 개발 및 구현 프로세스의 일부로서 [평가자 교육의 가치]입니다. [평가자 훈련]은 평가의 일관성을 위한 노력이다. 충분한 교육을 받으면 학습자를 일관성있게 판단할 것이고, 평가자가 평가 점수에 영향을 주는 상황적 요소(예: 컨텍스트 또는 학습자 특성) 에 대해 면역력을 가질것이라고 가정한다. [평가자가 학습자를 균일하게 판단할 것이라는 가정]은 다음과 같은 현상 사이에 완벽한 일관성이 존재할 수 있고, 그것이 모든 학습자에게 복제될 수 있다고 가정한다.

  • 평가하려는 현상(즉, 특정 기술 성과)
  • 평가자의 반응(즉, 인지적 또는 감정적 처리) 
  • 최종 판단(즉, 평가 점수), 

Considering response process validity evidence encourages us to question our assumptions about how individuals engage with an assessment—whether in expected or unexpected ways.11 For example, one assumption we hold is the value of assessor training as part of our assessment development and implementation process.1 Assessor training strives for consistency in ratings, which rests on the notion that with enough training; assessors will judge learners consistently and therefore become immune to contextual factors that may otherwise shape assessment scores (e.g. whether context or learner characteristics). The assumption that an assessor will judge learners uniformly suggests that there can be perfect consistency between

  • the phenomenon that one intends to assess (i.e. specific skill performance),
  • an assessor's response (i.e. cognitive or emotional processing), and
  • eventual judgement (i.e. assessment score),
    ...that can be replicated for all learners.

[평가자 교육에 대한 우리의 믿음]은 개인이 평가와 상호 작용하는 방식과 이러한 상호 작용이 상황적 요인에 의해 형성되는 방식에 대한 중요한 고려사항을 못 보게 만들 수 있으며, 따라서 의도치 않게 응답 프로세스에 대해 우리가 놓치게 만들 수 있다. 이는 평가의 공정성과 형평성을 고려하는 것과 특히 관련이 있다. 또한 응답 프로세스가 상황 또는 학습자 특성(성별이든, 영어능력이든, 인종이든)에 따라 어떻게 변화하는지와 관련이 있다. 따라서 응답 프로세스를 고려하는 것은 점수 해석의 공정성과 형평성, 그리고 평가자와 학습자의 상호의존성에 대한 중요한 정보를 제공할 수 있으며, 건전한 타당성 주장을 구축하는 데 중요하다.
Our faith in assessor training may overshadow important considerations for how individuals interact with assessments and how these interactions are shaped by contextual factors and therefore unintentionally minimise our attention to response processes. This is particularly relevant when considering equity and fairness in assessment and how response processes may shift across contexts or learner characteristics—whether gender, English language competency or race. Therefore, consideration of response processes can provide important information about the fairness and equity of score interpretations and the interdependency of an assessor and learner11 and are critical for building a sound validity argument.

[응답 프로세스 타당성 증거]는 평가자와 학습자 모두에 초점을 맞추며, 평가의 맥락에서 인식, 감정, 행동 및 동기에 대한 고려도 포함한다. 이러한 다면적인 관점은 [인지, 감정 및 동기 부여 수준에서 개개인이 평가에 어떻게 상호작용하고 참여하는지]에 초점을 맞추고, [평가자와 평가 순간에 걸쳐 점수의 의미에 잠재적인 차이]를 허용한다. 평가자, 학습자 및 환경 간의 이러한 상호 작용은 [상호의존적 효과interdependent effects]로 분류되었으며 HPE의 성과 기반 평가 상호 작용을 형성할 수 있다. HPE의 연구는, 평가자의 인지 과정에 대한 연구와 성과 평가 중 학습자가 임상 팀과 상호 작용하는 방법을 설명하는 상호의존적 효과에 대한 연구를 포함하여, [평가 순간의 복잡성]을 더 잘 이해하는 데 기여했다. [응답 프로세스 증거]는 다음의 것들 사이의 정렬을 조사한다.

  • 평가자와 학습자가 [평가의 목표를 이해]하는 방법,
  • [평가 내 항목에 관여]하는 방법,
  • [평가 대상에 대한 공유된 이해] 여부(예: 기술, 역량 또는 관심 행동)

이 타당성 증거는 평가 데이터 해석을 지원하고 점수 해석과 이러한 점수에 기초한 결정이 정당화되는지 여부를 검증하는 데 도움이 된다. 

Response process validity evidence includes a focus on both the assessor and learner and includes consideration for their cognitions, emotions, actions and motivations in the context of assessment.6, 9 This multifaceted perspective places focus on how individuals interact and engage with an assessment at a cognitive, emotional and motivational level, as well allowing for potential differences in the meaning of scores across assessors and across assessment moments.5 These interactions between assessor, learner and environment have been labelled interdependent effects and can shape performance-based assessment interactions in HPE.11 Research in HPE has contributed to better understanding the complexity of an assessment moment, including work on the cognitive processes of assessors1 and interdependent effects that describe how a learner interacts with the clinical team during assessments of performance.11 Response process evidence examines the alignment between

  • how an assessor and learner understand the goals of an assessment,
  • how they engage with items within an assessment and
  • whether there is a shared understanding of the assessment target (i.e. skill, competency or behaviour of interest).

This validity evidence helps to build a validity argument to support assessment data interpretation and verify whether score interpretations, and decisions based on these scores, are justified.12

HPE의 [수행-기반 평가]를 위한 [응답 프로세스 타당성 증거]를 수집하는 것은 다양한 형태를 취할 수 있으며, 어려울 수도 있다.

  • 평가를 통해 수집된 데이터는 [문항 반응item response]을 조사하고, 하위 그룹 간에 통계적으로 반응을 비교하여, 문항이 다양한 하위 그룹(예: differential item functioning)에 걸쳐 다르게 기능하는지 여부를 판단함으로써 공정성을 검사할 수 있다. 
  • 개인(평가자 또는 학습자)이 [평가와 상호 작용할 때 인지 과정]을 탐구하기 위해, 예를 들어, think-aloud 프로토콜을 사용하여 질적 데이터로 수집될 수 있다. 생각을 크게 하는 인터뷰는 주로 개인이 평가와 상호 작용할 때 어떤 생각을 하는지, 그리고 그 생각이 학습자의 기대(또는 예상하지 못한) 성과 또는 평가자의 점수와 어떻게 관련될 수 있는지를 이해하는 데 초점을 맞춘다. 
  • 반응 프로세스가 인지 범위를 넘어 [감정, 행동, 동기]를 포함하도록 확장된다는 인식이 커짐에 따라, 이러한 프로세스가 어떻게 평가 모멘트를 형성하고 그것이 생성하는 점수를 보다 완전하게 이해하도록 다양한 방법론을 도입할 수 있다.

Collecting response process validity evidence for performance-based assessment in HPE can take a variety of forms and can be challenging.

  • Data collected through assessments can be examined for fairness, by examining item responses and comparing responses statistically across subgroups to determine whether items function differently across various subgroups (e.g. differential item functioning).
  • Data can also be gathered qualitatively, for example, using think-aloud protocols, to explore the cognitive processes of individuals (assessors or learners) as they interact with an assessment. Think-aloud interviews primarily focus on understanding what individuals are thinking as they interact with an assessment and how that thinking may relate to anticipated (or unanticipated) performances from a learner or scores from an assessor.
  • With greater recognition that response processes expand beyond cognition to include emotions, actions, and motivation,69 a multitude of methodologies can be brought to bear to more fully understand how these processes shape assessment moments and the scores they generate.

전반적으로, [응답 프로세스]는 평가 데이터를 기반으로 한 주요 의사결정에 대한 지원을 제공하는 타당성 증거의 귀중한 원천입니다. 쿡이 상기시키듯이, 어떤 해석이 타당성에 대한 의도적인 검증을 버텨낸다면, 그 해석은 평가의 사용제안과 평가 데이터의 이해에 대한 정당성을 제공할 것이다. [응답 프로세스 타당성 증거]는 예상되는 평가자와 학습자의 행동을 고려할 때, 제안된 평가 데이터의 해석이 정당하다는 것을 확인하는 데 도움이 된다. 평가는 다양한 형태를 취하며, 본 문서는 주로 수행-기반 평가에 초점을 맞추고 있지만, 응답 프로세스는 (서면 평가에서 포트폴리오까지) 모든 평가 형식에 대한 핵심 품질 지표입니다. HPE의 복잡성과 상황에 따라 동원되는 다양한 평가를 고려할 때, 대응 프로세스는 방어 가능한 평가 시스템을 구축하는 핵심 수단이다.

Overall, response processes are a valuable source of validity evidence that provides support for key decisions made based on assessment data. As Cook12 reminds us, if interpretations hold during deliberate tests of validity, these interpretations provide justification for the proposed use and understanding of assessment data. Response process validity evidence helps verify that our proposed interpretation of assessment data is justifiable given expected assessor and learner behaviour. Assessments take a variety of forms, and although this article has focused primarily on performance-based assessments, response processes are key quality markers for all assessment formats—from written assessments to portfolios. Given the complexity of HPE and the variety of assessments mobilised across contexts, reponse processes are a key means through which we build defensible assessment systems.


Med Educ. 2022 Sep;56(9):878-880.

 doi: 10.1111/medu.14853. Epub 2022 Jun 15.

When I say…response process validity evidence

Affiliations collapse

Affiliations

1Institute of Health Sciences Education, Faculty of Medicine and Health Sciences, McGill University, Montreal, Québec, Canada.

2Department of Medicine, Faculty of Medicine and Health Sciences, Université de Sherbrooke, Sherbrooke, Québec, Canada.

PMID: 35688144

DOI: 10.1111/medu.14853

+ Recent posts