상호 불일치로서 평가자간 변동: 평가자의 발산적 관점 식별(Adv in Health Sci Educ, 2017)
Inter-rater variability as mutual disagreement: identifying raters’ divergent points of view
Andrea Gingerich1 • Susan E. Ramlo2 • Cees P. M. van der Vleuten3 • Kevin W. Eva4 • Glenn Regehr4

 

 

도입
Introduction

인간의 판단은 의학 교육에서 필수적인 것으로 여겨져 왔다(Schuwirth and Van der Vleuten 2011). 그러나 여러 관측자는 (동일한 수행능력에 대해서도) 평정을 제공할 때마다 평가자 간 변동이 만연합니다(Crossley 및 Jolly 2012). 평가자 간 변동은 종종 평가자가 실수를 저지르거나 누락되거나 편향된 결과로 해석된다(Albanese 2000; Downing 2005; Williams et al. 2003). 그 결과로 나타난 '평가자 특이적 분산idiosyncratic rater variance'은 사이코메트리 모델에서 사용할 수 없는 측정 오차(O'Neill et al. 2015)로 간주되며, 평가 결정의 방어성을 위협하기에 충분한 규모일 수 있다(Crossley et al. 2002; Downing 2004). 따라서, 평가자 인식을 탐구하는 연구의 대다수는 [가변성의 기저에 있는 무의식적 인지 편향] 뿐만 아니라 [통제 가능한 판단 과정]을 탐색했다  
Human judgment has been considered indispensable to programs of assessment in medical education (Schuwirth and Van der Vleuten 2011). However, whenever multiple observers provide ratings, even of the same performance, inter-rater variation is prevalent (Crossley and Jolly 2012). This inter-rater variation is often interpreted as the result of raters committing mistakes, making omissions or being biased (Albanese 2000; Downing 2005; Williams et al. 2003). The resulting ‘idiosyncratic rater variance’ is considered to be unusable error of measurement in psychometric models (O’Neill et al. 2015) and can be of sufficient magnitude to threaten the defensibility of our assessment decisions (Crossley et al. 2002; Downing 2004). Thus, the majority of research exploring rater cognition has searched for the controllable judgment processes as well as the unconscious cognitive biases that may underlie rating variability (Gauthier et al. 2016; Gingerich et al. 2014a; Kogan et al. 2011; Tavares and Eva 2013; Williams et al. 2003; Wood 2014).  

최근 평가자 간 가변성을 조사하는 의학교육 연구자들은 평가자에 대해 다음을 발견했다.

  • 때로는 [성과에 대해 서로 다른 측면을 강조]하고(즉, 서로 다른 측면을 가장 중요하게 보고),
  • 때로는 동일한 수행 측면에 대해서도 완전히 동의하지 않으며(즉, 동일한 측면을 다르게 보고),
  • 때로는 확인되지 않은 사회적 추론을 내린다.(예: 성격 특성 및 동기에 관한 추론)

Recently, medical education researchers investigating inter-rater variability have found that raters

  • sometimes emphasize different aspects of the performance (i.e. seeing different aspects as most important),
  • sometimes outright disagree on the same aspects of the performance (i.e. seeing the same aspect differently) and
  • sometimes make unchecked social inferences (e.g. inferences regarding personality traits and motives) (Gauthier et al. 2016; Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; Yeates et al. 2013).

이러한 발견과 해석은 특이적인 '평가자 오차rater error'로서 평가자 변동성rater variability의 개념화와 확실히 일치한다. 그러나 Gingerich 외 연구진(2014b)은 평가자 간 변동을 탐구하는 연구에서 평가자 응답에서 [판단이 특이하다고 이야기되는 것만큼 특이하지는 않다]는 것을 시사할 수 있는 패턴을 발견했다. 더 구체적으로, 각 임상 성과에 대해 다수의 [동의 클러스터]를 식별했으며, 각 동의 클러스터에는 주어진 임상 성과에 대한 유사한 인상이나 해석을 보고한 여러 의사 평가자가 포함되어 있었다. 기술된 인상의 내용과 가치는 종종 클러스터 간에 크게 달랐으며, 이는 합의의 여러 클러스터가 성능에 대한 서로 다르지만 완전히 독특한 관점은 아님을 시사한다. 이러한 발견은 사회적 상호작용에서 사람들이 수행자에 대해 하는 사회적 추론을 바탕으로 관찰하는 사람들을 다르게 분류하는 경향이 있지만 [완전히 특이하지는 않다]는 사회 심리학 문헌의 연구와 일치했다(Fiske et al. 2007; Macrae와 Bodenhausen 2000; Mohrand). Kenny 2006; Park et al. 1994). 중요한 것은, [주어진 임상 수행능력]에 대한 [합의의 클러스터(즉, 각 평가자가 속한 클러스터를 설명함)]는 종종 성과에 대한 평가자의 점수의 유의한 분산 비율을 설명한다는 것이다.  

These findings and interpretations are certainly consistent with the conceptualization of rater variability as idiosyncratic ‘rater error’. In a study exploring inter-rater variation, however, Gingerich et al. (2014b) discovered patterns in raters’ responses that might suggest their judgments are not as idiosyncratic as they have been characterized. More specifically, multiple clusters of consensus were identified for each clinical performance with each cluster of consensus containing several physician raters who reported similar impressions or interpretations of the given clinical performance. The content and valence of the impressions described often varied widely between clusters, suggesting that the multiple clusters of consensus represented different, but not entirely idiosyncratic, perspectives on the performance. These findings were consistent with research from the social psychology literature which suggests that in social interactions people will tend to differently (but not entirely idiosyncratically) categorize those they are observing based on the social inferences they make about the performer (Fiske et al. 2007; Macrae and Bodenhausen 2000; Mohr and Kenny 2006; Park et al. 1994). Importantly, these clusters of consensus for a given clinical performance (i.e. accounting for the cluster to which each rater belonged) often explained a significant proportion of variance in raters’ scores of the performance. 

지금까지의 연구는 등급 인지에 대한 중요한 통찰력을 제공했지만, 이전의 모든 조사는 등급에 대한 평가자의 의견과 정당성을 수집하는 도구로 인터뷰나 텍스트 상자와 같은 [개방형 응답 형식]을 사용했다. 이는 초기 연구에서 중요한 설계 요소였습니다. 평가자들은 연구자들의 선입견에 구애받지 않고 자신의 아이디어를 자유롭게 표현할 수 있었습니다. 그러나 참가자가 [개방형 텍스트 형식]을 사용할 때 더 많은 구조화된 응답을 제공하도록 요청되었을 때보다 상세한 응답을 제공하지 못하는 것으로 확인되었기 때문에 잠재적으로 제한된 설계 요소이기도 하다(Herbers et al. 1989). 
While the research to date has offered important insights into rater cognition, all of the previous investigations have used open response formats, such as interviews or text boxes, as tools for collecting raters’ comments and justifications for their ratings (Chahine et al. 2016; Gauthier et al. 2016; Gingerich et al. 2014b Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; St-Onge et al. 2016; Tavares et al. 2016; Tweed and Ingham 2010; Yeates et al. 2013, 2015). This has been an important design element in these early studies–allowing raters the freedom to articulate their own ideas without being limited by the researchers’ preconceived notions. However, it is also a potentially limiting design element because participants have been found to provide less detailed responses when using an open text format than when they were prompted to provide more structured responses (Herbers et al. 1989). 

따라서 [개방형 응답]의 유연성은 평가자가 일부 특성만을 [불균형적으로 강조]할 수 있도록 하는 동시에, 평가 판단에 중요하고 잠재적으로 영향력이 있는 다른 특징들은 생략할 수 있다. 그렇다면, 결과적으로 개방형 텍스트 응답은 기본 평가자 인지에 대한 왜곡된 표현을 제공할 것이고, 후속 분석은 평가자의 인식의 유의한 차이에 기인하는 것보다 연구 설계의 아티팩트로 더 잘 설명되는 평가자 인지에 대한 변동성을 식별할 것이다.

Therefore, the flexibility of the open response format may allow raters to disproportionately emphasize some features, while omitting other features that were nonetheless salient and potentially influential in their assessment judgments. If so, the resulting open text responses would provide a distorted representation of the underlying rater cognition and their subsequent analysis would identify variability in rater cognitions that is better explained as an artifact of the study design than it is attributable to meaningful differences in raters’ cognitions.

[Q 방법론]에서 모든 참가자는 동일한 진술 세트를 제시받으며 다른 모든 진술(Stephenson 1953; Watts and Stenner 2012)과 관련하여 어떤 진술이 가장 두드러지는지를 (조사 주제에 대한 개인적 관점에 따라) 표시하도록 지시받습니다. [Q 방법론]을 선택한 이유는 참여자들이 (평가하는 순간만이 아니라) 임상적 encounter의 잠재적으로 중요한 각각의 특징을 명시적으로 반영해야 하고, 단순히 개방형 응답 형식으로 말하지 않은 것에 대한 의견을 보다 명확하게 나타내는 상대적 순위를 만들 것을 요구하기 때문이다(Brown 1980). 그런 다음 참가자가 보유한 다양한 관점을 식별하기 위해 특정 분석 절차를 사용할 수 있습니다(Stephenson 1953; Watts and Stenner 2012). 
In Q methodology every participant is presented with the same set of statements and is instructed to indicate which statements are most salient (according to their personal viewpoint on the topic of investigation) by sorting them in relation to all of the other statements (Stephenson 1953; Watts and Stenner 2012). Q methodology was chosen because it requires that participants explicitly reflect on each of the potentially salient features of the clinical encounter (after, not during their ratings) and requires them to create a relative ranking that more clearly indicates their opinions about things that might simply be left unsaid in a free response format (Brown 1980). A specified set of analytic procedures can then be used to identify the different points of view held by the participants (Stephenson 1953; Watts and Stenner 2012).

따라서 Q 방법론은 다른 방법을 사용하여 이전의 연구 결과를 복제하고 방법론이 제공하는 분석에서 발생하는 새로운 통찰력을 제공함으로써 평가자 인식 문헌을 확장할 수 있는 기회를 제공한다. (Q-요인에 기초한) 유사한 관점의 평가자 집단이 존재하고 등급의 상당한 변동을 설명한다면, 그 집단에 대한 근거의 검토는 평가자 간 변동성이 단순히 측정오차를 나타내는 것이라는 일반적인 관점을 유지할 수 있는지 여부를 결정하는 데 도움이 될 것이다. 즉, Q 방법론은 발생 상황에 대한 의견 불일치 또는 발생한 일의 중요성에 대한 의견 불일치로부터 연결실체의 관점의 차이가 어느 정도 발생하는지를 탐구할 수 있도록 한다.

Q methodology, therefore, offers the opportunity to extend the rater cognition literature both by replicating previous findings using a different method and by providing novel insights that arise from the analyses that the methodology affords. If groupings of raters with similar viewpoints (based on Q-factors) exist and explain substantial variability in ratings, then examination of the basis for the groupings would help determine if the commonly held view that inter-rater variability is simply representative of measurement error can be maintained. That is, Q methodology allows us to explore the extent to which the differences in the groups’ perspectives arise from disagreements about what happened in the encounter, or disagreements about the importance of what happened.

방법 Methods

Q-정렬 절차 및 분석
Q-sort procedure and analysis


1단계: 임상 성과 내에서 중요한 측면 식별
Step 1: Identifying salient aspects within the clinical performances

Q-연구 설계의 첫 번째 단계는 참가자에 의해 [정렬될 일련의 문장을 식별]하는 것입니다. 이 토론회는 관심 주제를 폭넓게 대표하는 다양한 성명서(McKown and Thomas 1988, Watts and Stenner 2012)를 모으는 것으로 시작됩니다. 우리의 합의는 가능한 한 평가 판단에 영향을 미치는 임상적 만남의 많은 중요한 측면을 포함할 필요가 있었다. 따라서 앞서 연구한 임상 성과에서 수집된 데이터를 활용하여 성과에 대한 모든 주요 측면을 포함하는 일련의 진술을 생성하는 것이 필수적이었다. 2단계에서 설명하는 최종 과제를 참가자들이 실현 가능하도록 하기 위해(즉, 소요 시간을 약 1시간으로 제한하기 위해), 이전 연구에서 사용한 7개 중에서 비디오 녹화 임상 성과 4개 세트(비디오 1, 2, 6, 7)를 선택했다(Gingerich et al. 2014b). 
The first step in the design of a Q-study is identifying a set of statements that will be sorted by participants. It begins with gathering a large array of statements that are broadly representative of the topic of interest, known as the concourse (McKeown and Thomas 1988; Watts and Stenner 2012). Our concourse needed to include as many salient aspects of the clinical encounters that influence assessment judgments as possible. Therefore, it was essential to utilize data collected from previously studied clinical performances to generate a set of statements that contained all salient aspects of the performances. To make the eventual task described in Step 2 feasible for participants (i.e. to limit the amount of time required to approximately 1 h), we selected a set of four video-recorded clinical performances (videos 1, 2, 6, 7) from seven used in an earlier study (Gingerich et al. 2014b). 

전체 협점이 확인되면 일부 문장이 선택되어 Q-샘플을 형성합니다. Q-샘플은 참가자들이 협력할 수 있는 합리적인 크기여야 하지만 콩코스의 대표성을 유지하고 분석 중에 발견될 수 있는 가능한 관점에 걸쳐 균형을 이루어야 합니다. 우리는 피셔의 실험 설계 접근법(Brown 1980; Stephenson 1953; Watts and Stenner 2012)으로 알려진 [구조화된 Q-샘플]을 개발하기 위해 가장 공식적인 접근법을 사용했다. 우리는 한 명의 저자(AG)가 각 비디오에 대한 가장 독특한 응답으로 초점을 줄였습니다. 이로써 전체 공개 텍스트 응답 수는 195개로 줄어들었습니다. 그런 다음 이를 Q-sort에 사용할 적절한 길이의 짧은 문장으로 구문 분석했습니다. 중복을 제거하고 의미상 유사한 문장을 결합했다(예: ''호감 가는 사람'' ''매우 호감 가는 사람'' ''동료와 환자들에게 존경받는 사람'' ''동료 레지던트들에게 호감 가는 사람'' 등을 [동료 및 환자가 좋아한다]로 통합) 그런 다음 두 명의 저자(AG 및 SER)는 Mini-CEX의 하위척도 각각과 다양한 유형의 사회적 판단(예: 이름 지정, 심리 상태 추론 등)을 균형 있게 설명하는 방식으로 가장 상징적인 문장을 선정하도록 했습니다. 그 결과 60개의 문장이 작성되었습니다. 
Once the full concourse is identified, a subset of statements is selected to form the Q-sample. The Q-sample should be a reasonable size for participants to work with but remain representative of the concourse and be balanced across the possible points of view that might be found during analysis (McKeown and Thomas 1988; Watts and Stenner 2012). We used the most formal approach to developing a structured Q-sample, known as Fisher’s Design of Experiments approach (Brown 1980; Stephenson 1953; Watts and Stenner 2012). We began with one author (AG) reducing the concourse to the most distinctive responses for each video. This reduced the number to 195 complete open text responses. These were then parsed into shorter statements of suitable length to be used in a Q-sort. Duplicates were removed and semantically similar statements were combined (e.g. statements such as ‘‘a likeable person’’, ‘‘very likeable, very personable’’, ‘‘well respected by peers and patients’’, ‘‘well-liked by fellow residents’’ were combined to form a single statement: Is liked by peers and patients). Two authors (AG and SER) then conferred to select the most iconic statements in a way that balanced the number of statements referring to each of the subscales on the Mini-CEX and different types of social judgments (e.g. naming personality traits, inferring state of mind etc.) for each video. This resulted in a set of 60 statements. 

Q-sort 프로세스를 통해 반대 의견을 전달하기 위해 하나의 문을 서로 다른 그리드 위치에 배치할 수 있기 때문에(아래 그림 1과 더 자세한 내용 참조) 반대 설명자를 포함할 필요가 없었다(예: '효율적' 또는 '비효율적'을 포함할 수 있지만 둘 다 필요하지 않았다). 표본의 각 ''반대편'' 쌍에서 항목을 하나씩 제거하면 문장의 수가 44개로 줄어들었다. 두 차례에 걸친 시범 테스트를 통해 참가자들이 불확실성을 표출하는 것에 대응해 진술 문구를 다듬었지만, 이전 연구 참여자들의 원래 문구는 최대한 유지됐다. 44개 문장의 최종 리스트(표 1에 표시됨)는 다음을 포함합니다.

  • 상담 및 인문학적 자질/전문직업성의 Mini-CEX 하위 척도를 나타내는 11개의 진술(교제-구축 능력의 제목으로 묶음)
  • Mini-CEX의 의료 인터뷰 스킬, 임상 판단 및 조직/효율성 스킬(의료 전문 스킬의 제목에 따라 분류됨) 서브세일즈를 대표하는 18개 문구
  • 관계 구축 또는 의료 전문지식과 관련이 없는 사회적 추론을 포함하는 15개의 진술.

Because the Q-sort process enables one statement to be placed in different grid positions to convey opposing opinions (see Fig. 1 and more details below) there was no need for opposing descriptors to be included (e.g. we could include ‘efficient’ or ‘inefficient’ but did not need both). Removal of one item from each pair of ‘‘opposites’’ in the sample reduced the number of statements to 44. Through two rounds of pilot testing, the phrasing of the statements was refined in response to participants’ expressions of uncertainty, but the original phrasing from participants in the previous study was maintained as much as possible. The final list of 44 statements (displayed in Table 1) contained

  • 11 statements representing the Mini-CEX subscales of counseling and humanistic qualities/professionalism (grouped under the heading of rapport-building skills);
  • 18 statements representing the Mini-CEX subscales of medical interviewing skills, clinical judgment and organization/efficiency skills (grouped under the heading of medical expertise skills); and
  • 15 statements containing social inferences not related to rapport-building or medical expertise. 


2단계: Q-sort의 구조화된 응답 형식을 사용한 데이터 수집
Step 2: Data collection using the structured response format of a Q-sort


Q 방법론의 두 번째 단계는 [참가자에 의한 Q-sort 완료]입니다. Q-sort 동안 특정 주제(이 경우 전공의의 성과)에 대한 각 참가자의 관점은 "내 관점과 가장 일치"부터 "가장 상반되는 관점"까지에 이르는 강요된 준정규 분포를 사용하여 Q-sample의 문장을 정렬하도록 함으로써 수집된다(브라운 1980, 와트 및 스텐너 2012). 따라서 이 기법을 통해 연구자들은 제공된 Q-표본과 분포를 사용하여 의사의 평가 인상의 주관성을 Q-sort 형태로 포착할 수 있었습니다. 따라서 이러한 Q 분류는 다양한 평가자가 [잠재적으로 관련성이 있는 많은 진술 집합]에서 선택한 [임상 성과 중 가장 두드러진 측면]을 나타내기 위한 [구조화된 응답 형식]을 제공한다. 
The second step in Q methodology is the completion of a Q-sort by participants. During a Q-sort each participant’s point of view on the specified topic (in this case, the performance of the resident) is collected by having them sort the statements in the Q-sample using a forced quasi-normal distribution ranging from ‘‘most consistent with my perspective’’ to ‘‘most contrary to my perspective’’ (Brown 1980; Watts and Stenner 2012). This technique, therefore, allowed the researchers to capture the subjectivity of physicians’ assessment impressions in the form of their Q-sorts using the Q-sample and distribution provided. These Q sorts, therefore, offer a structured response format to indicate the most salient aspects of the clinical performance selected from a large set of potentially relevant statements by a diverse set of raters. 

이 프로세스를 작동하기 위해 참가자들에게 초대 이메일이 발송되었으며, 여기에는 QSortOnline 웹 사이트에 대한 링크가 포함되어 있습니다. 참가자들은 참가 동의를 한 뒤 무작위로 제시된 동영상을 보고 Mini-CEX 평정을 완성했다. 
To operationalize this process, an invitation email was sent to participants that included a link to the website QSortOnline. After giving consent to participate, participants viewed a randomly presented video and completed Mini-CEX ratings. 

Mini-CEX 등급을 완료하는 즉시, 참가자들은 다음 지침에 따라 Q-sort를 완료하도록 요청받았다. 
Upon completing the Mini-CEX rating, participants were asked to complete a Q-sort using the following instructions:

이 레지던트에 대한 솔직하고 여과되지 않은 소감을 공유하고 '이 레지던트에 대한 나의 인상과 그들의 성과에 가장 부합한다'부터 '이 레지던트 및 그들의 성과에 대한 나의 인상과 가장 상반되는 것'까지 평가해 주시기 바랍니다.
We would like you to share your honest and unfiltered impressions of this resident and ask that you rank the statements from ‘MOST consistent with my impressions of this resident and their performance’ to ‘MOST contrary to my impressions of this resident and their performance’. 


FlashQ 소프트웨어는 Q-sort를 용이하게 하기 위해 사용되었으며, Q-sort 작업에 권장되는 여러 단계(자세한 내용은 그림 1 참조)로 완료되었습니다(Newman 및 Ramlo 2010, Watts 및 Stenner 2012). Q-Sort를 완료한 후, 참가자들은 다음을 설명하기를 요청받았다.

  • (a) "-4" 그리드 위치의 두 문장을 자신의 인상과 가장 상반되는 것으로 선택한 이유, 
  • (b) '+4" 그리드 위치의 두 문장을 자신의 인상과 가장 일치하는 것으로 선택한 이유,
  • (c) 분류 작업을 하면서 직면한 문제

FlashQ software was used to facilitate the Q-sort, which was completed in multiple steps (see Fig. 1 for more details) as is recommended for Q-sorting tasks (Newman and Ramlo 2010; Watts and Stenner 2012). After completing the Q-Sort, participants were prompted to explain

  • (a) why they selected the two statements in the ‘‘-4’’ grid positions as being most contrary to their impression,
  • (b) why they selected the two statements in the ‘‘?4’’ grid positions as being most consistent with their impression, and
  • (c) any problems they encountered with performing the sorting task. 




3단계: Qsort 분석을 통해 평가 인상에 대한 공감대 파악
Step 3: Identifying consensus in assessment impressions through analysis of the Qsorts

Q 방법론의 세 번째 단계는 [Q 분류 분석]으로, 주어진 임상 성과에 대해 얼마나 많은 관점이 있는지, 그리고 얼마나 많은 의사가 각각의 관점을 공유하는지 파악할 수 있습니다. 이는 비슷한 관점을 가진 참여자들이 비슷한 방식으로 보고서를 분류할 것으로 예상되기 때문에 가능하다.
The third step in Q methodology is the analysis of the Q sorts which enables us to identify how many points of view there are for a given clinical performance along with how many physicians share each of those points of view. This is possible because participants with similar points of view are expected to sort the statements in a similar way.

유사한 Q-sort는 높은 상관관계가 있으므로 참여자와 참여자의 Q-sort는 인자 분석을 통해 Q-factor로 함께 그룹화할 수 있습니다(Stephenson 1953; Watts and Stenner 2012). 이는 기존의 요인 분석이 '항목별by-item' 매트릭스를 사용하여 상관 관계가 높은 항목을 인자로 그룹화하는 것처럼(Stephenson 1953; Watts and Stenner 2012) 높은 Q-sort를 가진 참가자를 인자로 그룹화하기 때문에 '개인별by-person' 인자 분석이라고 불린다. 
Similar Q-sorts are highly correlated and, therefore, participants and their Q-sorts can be grouped together into Q-factors via factor analysis (Stephenson 1953; Watts and Stenner 2012). This is called a ‘by-person’ factor analysis because it groups together participants with highly correlated Q-sorts into a factor, just as a conventional factor analysis uses a ‘by-item’ matrix to group together highly correlated items into a factor (Stephenson 1953; Watts and Stenner 2012). 

무료 사용자 정의 소프트웨어 PQMethod 2.35(Schmolk 2014)를 사용하여 Q-sort 데이터를 분석했습니다. 우리는 인자 추출을 위해 전통적인 중심 기법을 사용했고 인자의 바리맥스 회전을 사용했습니다. 얼마나 많은 요소를 추출해야 하는지를 고려하면서, 우리는 특별히 주의를 기울였다.

  • 고유값이 1인 경우(와트 및 스테너 2012),
  • 험프리의 규칙을 초과하는 규칙(즉, 회전하지 않은 행렬에서 인자에 대한 두 개의 최고 하중의 교차곱이 표준 오차의 두 배를 초과한 규칙)과
  • 두 개 이상의 측정기가 상당히 로드된 측정기(p\.01)(Brown 1980, Watts 및 Stenner 2012).

We analyzed the Q-sort data using free custom software PQMethod 2.35 (Schmolck 2014). We used the classic centroid technique for factor extraction followed by varimax rotation of the factors. In considering how many factors to extract, we paid special attention to 

  • those with eigenvalues > 1 (Watts and Stenner 2012);
  • those exceeding Humphrey’s rule (i.e. those for which the cross-product of the two highest loadings for a factor in the unrotated matrix exceeded twice the standard error) (Watts and Stenner 2012); and
  • those on which at least two raters loaded significantly (p\.01) (Brown 1980; Watts and Stenner 2012).

그러나 Q 방법론(McKown 및 Thomas 1988)에서 이론적 유의성이 통계적 유의성보다 더 중요하다는 점에 유의해야 한다. 그 결과 각 요인 솔루션의 적합성 및 해석 가능성을 검사하여 최적의 솔루션을 선택했습니다. 
It is important to note, however, that theoretical significance is more important than statistical significance in Q methodology (McKeown and Thomas 1988). As a result, each factor solution was examined for fit and interpretability with the best solution selected. 

4단계: Q-요인 해석을 통해 각 관점 특성화
Step 4: Characterizing each point of view through Q-factor interpretation


Q 방법론의 네 번째 단계는 [Q-요인을 해석]하여 각 요인에 반영되는 관점을 밝히는 것입니다. [주어진 요인으로 그룹화된 모든 Q-sort]는 statement와 비슷한 정렬 또는 '구성configuration'을 가집니다. 그러나 이러한 구성은 동일하지 않습니다. 따라서 PQMethod 소프트웨어가 수행한 분석 중 하나는 '인자 배열factor array'(McKown and Thomas 1988; Newman and Ramlo 2010)로 알려진 각 Q-factor(표 1의 각 열)에 대한 대표적인 Q-sort의 식별이다. 이 인자 배열은 Watts 및 Stenner(2012)에서 설명한 절차를 사용하여 각 인자와 관련된 관점을 해석하는 데 사용됩니다.  

The fourth step of Q methodology is interpretation of the Q-factors to reveal the points of view reflected by each. All Q-sorts that are grouped into a given factor have similar sorts or ‘configurations’ of the statements. However, those configurations are not identical. Thus, one of the analyses performed by the PQMethod software is the identification of a representative Q-sort for each Q-factor (each column of Table 1), known as the ‘factor array’ (McKeown and Thomas 1988; Newman and Ramlo 2010). This factor array is used to interpret the point of view associated with each factor using procedures described by Watts and Stenner (2012). 

 



5단계: Q-요인 간 차이점 식별
Step 5: Identifying points of divergence between Q-factors


'요인 행렬'은 모든 요인 배열을 나란히 표시하여 각 Q-요인에 대한 모든 statement과 해당 격자 위치를 표시합니다. 이를 통해 여러 요인 간에 각 문을 비교할 수 있습니다. 예를 들어, 행렬은 특정 statement이 인자 1의 '''3''' 그리드 위치와 인자 2의 '''-4''' 위치에 배치되었음을 나타낼 수 있다. 이러한 비교는 동일한 성능 특성이 어떻게 다르게 해석될 수 있는지를 나타내는 두 가지 정보를 제공한다. 
The ‘factor matrix’ displays all the factor arrays side by side, showing every statement and its grid position for each Q-factor. This enables comparisons of each statement across factors. For example, the matrix could indicate that a particular statement was placed in the ‘‘ +3’’ grid position in Factor 1 and the ‘‘-4’’ position in Factor 2. This comparison provides two pieces of information that can be used as indications of how the same performance features may have been differently interpreted. 

첫째, 한 요소와 높은 상관관계를 갖는 Q-sort 참가자가 특정 문장을 원위부 그리드 위치(예: ''-4', '?4', '-3', '?'3)에 배치하고 다른 요소와 높은 상관관계를 갖는 Q-sort 참가자가 동일한 문장을 중앙 그리드 위치(예: '' -1', '0', '1)에 배치하는 경우? 첫 번째 참가자 집합이 다른 참가자에 비해 더 두드러지거나 두드러집니다. 
First, if participants with Q-sorts that highly correlate with one Factor place a particular statement in a distal grid position (e.g. ‘‘-4’’, ‘‘+4’’, ‘‘-3’’ or ‘‘+3’’) and participants with Q-sorts that highly correlate with another Factor place the same statement in a central grid position (e.g. ‘‘ -1’’, ‘‘0’’, ‘‘?1’’) it can be inferred that the performance feature is more prominent or salient for the first set of participants compared to the other. 

둘째, 한 요인에서 그리드의 '내 인상과 반대되는' 쪽(예: ''-4', ''-3', ''-2')에 문구가 배치되고 다른 요인에서 그리드의 '내 인상과 일치하는 쪽(예: '+4', '+3', '+2')에 문구가 배치되면 이는 [performance feature의 해석에 대한 불일치 표시]일 수 있습니다. 항목 간에 이러한 패턴을 해석하면 두 요인이 서로 다른 관점을 나타내는 방법(즉, 평가자 인식의 체계적 차이)을 결정할 수 있습니다. 

Second, if a statement is placed on the ‘contrary to my impression’ side of the grid (e.g. ‘‘-4’’, ‘‘-3’’, ‘‘-2’’) in one Factor and on the ‘consistent with my impression’ side of the grid (e.g. ‘‘?4’’, ‘‘?3’’, ‘‘ ?2’’) in another Factor, this could be an indication of disagreement in the interpretation of the performance feature. Interpreting these patterns across items allows us to determine how the two factors represent different points of view (i.e. systematic differences in rater cognition). 


Q-요인과 Mini-CEX 등급 간의 관계 파악
Identifying the relationship between Q-factors and Mini-CEX ratings


서로 다른 관점이 의사가 할당한 등급과 관련이 있는지 확인하기 위해, 참가자들은 Q-정렬이 가장 높은 상관 관계를 갖는 Q-요인에 할당되었고, Q-요인 할당을 일원 분산 분석에서 독립 변수로 사용하여 설명할 수 있는 분산 비율을 결정했습니다(부분 에타 제곱) '전체 임상 역량' Mini-CEX 등급에 포함됩니다. 
To determine if differing points of view were related to the ratings physicians assigned, participants were assigned to the Q-factor with which their Q-sort was most highly correlated and then Q-factor assignment was used as the independent variable in a one-way ANOVA to determine the proportion of variance that could be explained (partial eta squared) in the ‘overall clinical competence’ Mini-CEX ratings. 

참여자
Participants


Q 방법론은 각 참가자가 개인별 요인 분석(McKown 및 Thomas 1988, Newman 및 Ramlo 2010, Watts 및 Stenner 2012)에서 변수로 간주되기 때문에 주제에 대한 가능한 모든 관점을 다루기 위해 참가자를 의도적으로 모집해야 한다. 따라서 실제 전공의의 역량 판단을 담당하는 다양한 임상 평가자를 포함하는 것이 목표였다. 우리는 그들의 진정한 평가 인상과 평점을 파악하기 위해 노력했기 때문에 추후 교육은 제공되지 않았습니다. 따라서 본 연구의 참가자를 모집하기 위해, 우리는 동료들에게 (우리를 대신하여) 우수하고 존경받고 경험이 풍부한 전공의의 평가자에게 접근해 줄 것을 요청했다.  
Q methodology requires purposeful recruitment of participants to cover all possible viewpoints on the topic because each participant is considered a variable in the by-person factor analysis (McKeown and Thomas 1988; Newman and Ramlo 2010; Watts and Stenner 2012). The goal was, therefore, to include a diverse range of clinical assessors who were responsible for judging the competence of medical residents in real-life. Because we strove to capture their authentic assessment impressions and ratings no rater training was provided. Thus, to recruit participants for this study, we asked colleagues to approach, on our behalf, physicians who they considered to be good, well-respected and experienced assessors of residents. 

결과
Results


참여자 Participants

2014년 11월부터 2015년 2월까지 46명의 고유 참가자가 1~4편의 동영상에 대해 동일한 44개의 문장을 정렬하여 총 128개의 Q-sort를 제출했습니다. 참가자들은 캐나다 5개 주와 미국 5개 주의 19개 도시에서 왔다. 

Between November 2014 and February 2015, 46 unique participants submitted a total of 128 Q-sorts by sorting the same 44 statements in response to 1–4 videos. The participants were from 19 different cities in 5 provinces in Canada and 5 states in the USA. 

Q-요인 분석을 통한 공감대 클러스터 식별
Identifying clusters of consensus through Q-Factor Analysis


모든 참가자가 임상 성과에 대한 단일 관점을 공유했다면, 우리는 그들이 유사한 구성으로 문장을 분류하고 단일 Q-factor를 식별할 것으로 예상할 것이다. 이런 일은 일어나지 않았다. 대신, 2-요인 솔루션이 4개의 비디오 각각에 가장 적합하다고 판단되었습니다(요인 추출 및 회전에 관한 자세한 내용은 표 2 참조). 즉, 유사한 Q-sorts의 하위 집합을 바탕으로 분석 결과 각 임상 성과에 대한 참가자의 인상 중 두 가지 주요 공감대가 나타났다. 

If all participants had shared a single point of view on the clinical performance, we would expect them to sort the statements in a similar configuration and a single Q-factor to be identified. This did not occur. Instead, a 2-factor solution was determined to be the best fit for each of the four videos (see Table 2 for details regarding factor extraction and rotation). In other words, based on subsets of similar Q-sorts the analysis revealed two major clusters of consensus among participants’ impressions for each of the clinical performances. 



Q-요인 해석을 통한 각 관점 특성화
Characterizing each perspective through Q-factor interpretation


네 가지 임상 성과 각각과 관련된 관점의 수를 파악한 후, 인자 배열의 문장 구성을 조사했습니다. 각 관점 내에서 다르게 해석되었던 임상적 특징을 확인하면서 흥미로운 패턴이 나타났다. 표 1에서 회색 음영을 사용하여 강조된 바와 같이, 모든 비디오에 대한 한 관점(먼저 열거된 요소)은 거의 전적으로 [관계 구축] 진술을 나타내기 위해 그리드의 원위부 위치(±3 및 ±4)를 사용했다. [의료 전문지식]과 [사회적 판단] 문장은 덜 극단적인 위치(0 ~ ±2)에 놓였다. 반대로, 다른 관점에서는 원위적 입장을 거의 독점적으로 사용하여 [의료 전문지식]을 언급하고, [관계 구축] 및 [사회적 판단] 진술에 대한 극단적 입장을 덜 제시하였다. 이러한 정렬 구성을 바탕으로 대부분의 비디오에서 한 그룹의 의사는 평가 인상에서 가장 두드러지게 공감대를 형성하는 기술을 강조한 반면, 다른 그룹은 의료 전문 기술을 가장 두드러지게 강조했습니다
After identifying the number of points of view associated with each of the four clinical performances, we examined the configuration of the statements in the factor arrays. An interesting pattern emerged as we identified the clinical features that had been differently interpreted within each point of view. As highlighted using grey shading in Table 1, one point of view for every video (the factor listed first) used the distal position on the grid (±3 and ±4) almost exclusively to represent rapport-building statements; with the medical expertise and social judgment statements being placed in less extreme positions (0 to ±2). Conversely, the other point of viewused the distal positions almost exclusively to represent statements referring to medical expertise leaving the less extreme positions to represent the rapport building and social judgment statements. Based on these sorting configurations, it appears that for most videos, one group of physician raters emphasized rapport-building skills most prominently in their assessment impressions whereas the other group emphasized medical expertise skills as most salient. 

표 2의 각 비디오에 대한 다양한 관점에 대해서도 유사한 해석을 찾을 수 있습니다. 일부 비디오(예: 비디오 2와 7)에서는 두 가지 관점의 차이가 더 두드러졌고, 다른 비디오(예: 비디오 1과 비디오 6에 대해서는 긍정적으로 상관된 관점)에서는 덜 두드러졌다. 예를 들어, 비디오 1은 부족한 관계 구축을 강조하는 데 있어 관점이 훨씬 더 일치합니다. 그러나 네 가지 임상 성과 모두에 대해 평가 판단의 내용은 일부 합의 사례에도 불구하고 구별되는 관점으로 식별될 수 있을 만큼 충분히 달랐다. 이러한 관점에서 의사 구성원 자격membership을 검사한 결과, 구성원 자격이 네 가지 성과에 걸쳐 [안정적이지 못했으며] (즉, [의료 전문지식]보다 [관계 구축] 기술을 강조하는 의사 그룹이 매번 동일하지 않았음), 구성원 자격을 인구 통계적 요인(표 2 참조)에 기인할 수 없었다.  

Similar interpretations can be found for each of the various perspectives on each video in Table 2. The distinction between the two perspectives was more striking for some videos (e.g. video 2 and 7) and less so for others (e.g. video 1 and positively correlated points of view for video 6). For example, there is much more agreement across the points of view for Video 1 in emphasizing deficient rapport building. However, for all four clinical performances the content of the assessment judgments was sufficiently different as to be identifiable as distinct points of view despite some instances of agreement between them. Examination of physician membership within these points of view revealed that membership was not stable across the four performances (i.e. it was not the same group of physicians emphasizing rapport-building skills over medical expertise every time) and membership could not be attributed to demographic factors (as shown in Table 2). 

Q-요인 간 비교를 통해 의견 일치 클러스터 간 차이 식별
Identifying divergences between clusters of consensus by comparison across Q-factors


전반적으로, 주어진 임상적 만남에 대한 다른 평가 인상이 많은 성과 특성의 유사한 해석을 포함할 수 있지만, 의사가 [다르게 가중치를 부여]하고, 때로는 일부 [수행능력 특성의 해석에 동의하지 않기] 때문에 수집된 평가 판단이 달라질 수 있다. 그 결과 발생하는 일련의 관점은 단일 수행능력에 대한 [관계 구축] 또는 [의료 전문성] 에 상반된 평가자 판단을 나타내는 것으로 이해될 수 있습니다. 
Overall, it appears that different assessment impressions of a given clinical encounter can include similar interpretations of many of the performance features and yet the collated assessment judgments can diverge due to physicians differently weighting and sometimes disagreeing on the interpretation of a few performance features. The resulting set of points of view can then be understood to represent conflicting rater judgments of rapport-building and/or medical expertise skills for a single performance. 

Q-요인과 Mini-CEX 등급 간의 관계 파악
Identifying the relationship between Q-factors and Mini-CEX ratings


표 3에서 볼 수 있듯이, 4개의 비디오 모두에 대해 [서로 다른 관점에 속하는 의사]들은 [상당히 다른 Mini-CEX 평정]과 연관되었습니다. 각 비디오의 시점별 평균 등급은 시점의 내용과 일치하는 방향으로 차이가 있었습니다. 예를 들어, 임상 수행능력의 많은 결함을 강조하는 관점(예: 비디오 1과 7의 요인 1, 비디오 2의 요인 2)은 더 낮은 평균 등급과 관련이 있었다. 
As shown in Table 3, physicians belonging to different points of view were associated with significantly different Mini-CEX ratings for all four videos. The mean ratings for the points of view for each video differed in a direction consistent with the content of the point of view. For example, the points of view emphasizing a greater number of deficiencies in the clinical performance (such as factor 1 for videos 1 and 7 and factor 2 for video 2) were associated with lower mean ratings. 



고찰
Discussion


Q 방법론을 사용하여 참가자들이 수행능력에 대한 중요한 특징을 설명하는 동일한 44개의 문장을 정렬하도록 선택했습니다. 44개 문장은 이전에 (Gingerich et al. 2014b)에서 수집된 세 가지 개방형 질문 형식을 사용하여 수집한 것이다.
이러한 설계는 [모든 평가자가 하나의 관점]에서 각 성과를 쉽게 해석하거나, [각 참가자에게 고유한 완전히 독특한 관점]을 가질 것이라고 해석할 수 있었습니다. 그러나 이 두 가지 가능성 모두 나타나지 않았다. 대신 각 임상 성과에 대해 [두세 가지 뚜렷한 관점]이 식별되었다. 각 성과에 대한 두세 가지 다른 관점에 대한 의사의 가입은 다양한 인구통계학적 배경을 가진 참가자를 포함함에도 불구하고 의료 전문성, 성별, 지리 또는 거주자 평가 경험에 기인할 수 없다.
We used Q methodology, choosing to have participants sort the same 44 statements describing salient features of performances (previously collected in (Gingerich et al. 2014b) using three different open question formats) for each of the four performances. This design could have easily resulted in each performance being interpreted froma single point of view by all raters, or in a set of completely idiosyncratic points of view unique to each participant. However, neither of these two possibilities emerged. Instead, two or three distinct points of view were identified for each clinical performance. Physicians’ membership in the two or three different points of view for each performance could not be attributed to their medical specialty, gender, geography or experience with assessing residents despite the inclusion of participants with varied demographic backgrounds. 

여러 관점의 일치 및 다양성
Consensus and divergence of multiple points of view

주어진 임상 성과에 대해 둘 이상의 관점을 식별한 것은 [여러 의사들이 임상 수행능력에 대해서 제한된 일련의 뚜렷한 인상 중 하나를 공유]하는 것으로 확인된 Gingerich et al.(2014b) 발견을 반복한다. 서로 다른 관점을 검토한 결과, 의사들은 자신의 평가 인상 내에서 성과에 대한 몇 가지 측면을 다르게 강조했으며 특정 측면에 대해 완전히 동의하지 않는 경우는 거의 없었다. 이는 단일 임상 만남에 대한 차별적 유의성differential salience 및 평가자 불일치rater disagreement에 대한 이전의 의학교육 연구 결과에 대한 지원을 추가한다(Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; Yates et al. 2013). 의사의 Q-인자 멤버십 자격을 설명할 때 MiniCEX 평정에서 21-53% 변동이 설명될 수 있기 때문에, 정렬 구성sorting configuration의 변동은 거짓일 것 같지 않다. 주어진 임상 수행능력에 대한 평가자의 응답 내에서 합의의 다중 클러스터의 일관성은, 이것을  참가자 표본에서 찾고, 두 가지 다른 방법론을 사용했기에, 평가자 간 변동성이 단순히 측정 오류라는 가정에 도전한다. 
Identifying more than one point of view for a given clinical performance replicates the Gingerich et al. (2014b) finding of multiple physicians sharing one of a limited set of distinct impressions for a clinical performance. Examination of the different points of view indicates that physicians differently emphasized a few aspects of the performance within their assessment impression and rarely outright disagreed on a given aspect. This adds support to previous medical education research findings of differential salience and rater disagreement regarding a single clinical encounter (Govaerts et al. 2013; Herbers et al. 1989; Kogan et al. 2011; Mazor et al. 2007; Yeates et al. 2013). The variations in the sorting configurations are unlikely to be spurious since 21–53 % of variance in the MiniCEXratings could be explained when physician’s membership in a Q-factor was accounted for. The consistency of finding multiple clusters of consensus within raters’ responses for a given clinical performance across two samples of participants and using two different methodologies challenges the assumption that inter-rater variability is simply measurement error. 

또한 우리의 원래 이론화(Gingerich et al. 2011, 2014b)와 달리, 이러한 데이터는 의사 평가자가 [사회적 판단(지능, 게으름 또는 오만성에 대한 추론 등)]을 성과에 대한 인상에서 특히 두드러진 측면으로 보지 않는다는 것을 시사한다. 그러한 사회적 판단을 포함하는 진술이 임상 기술에 대한 추론과 판단을 포함하는 진술과 정면 충돌했을 때, 의사들은 그러한 진술이 설득력이 없다고 생각했고 일반적으로 채점표에서 0 또는 ±1의 위치로 강등시켰다. 참가자들은 평가 판단을 하면서 사회적 판단의 형성이나 영향을 받지 않을 수 있었다. 그러나 이러한 진술은 기존 연구에서, 의사 평가자가 비디오를 시청하면서 생성된 것임을 알 수 있습니다. 더욱이, 우리는 이러한 사회적 추론의 할인이 어느 정도 사회적으로 바람직한 반응을 반영하는지 또는 무의식적인 편견이 반응에 영향을 미치는지 판단하지 못한다. 따라서, 평가자 간 변동성의 유의한 원천으로서 사회적 판단을 배제하기 위해 추가적인 삼각측량 방법을 사용한 추가 연구가 필요할 것이다. 

It is also worth noting that contrary to our original theorizing (Gingerich et al. 2011, 2014b) these data suggest that physician raters do not see social judgments (such as inferences about intelligence, laziness, or arrogance) as particularly salient aspects of their impressions of the performance. When statements containing such social judgments were put head-to-head with statements containing inferences and judgments regarding clinical skills, physicians did not appear to find them compelling and generally relegated them to positions of 0 or ±1 on the scoring sheet. It could be that participants were able to avoid forming or being influenced by social judgments while making assessment judgments. However, it is noteworthy that these statements were generated by a previous cohort of physician raters watching these videos. Moreover, due to our use of a self-report design feature we cannot determine the extent to which this discounting of social inferences reflects socially desirable responses or if any unconscious biases influenced the responses. Thus, further research using additional triangulating methods will be needed to rule-out social judgments as a significant source of inter-rater variability. 

평가자 간 변동성 및 평가자 인식의 재개념화
Re-conceptualizing inter-rater variability and rater cognition


각 성과에 대해 식별된 관점은 [관계 구축] 및 [의료 전문지식]에 대한 서로 다른 평가 판단을 반영합니다. 성과 평가 등급의 기초가 되는 두 가지 요인의 식별은 이전의 의학 교육 연구(Chahine et al. 2016; Nasca et al. 2002; Ramsey and Wenrich 1993; Silber et al. 2004; Verhulst et al. 1986). 또한 사회적 판단은 [사회성/도덕성] 대 [역량/능력] 판단에 기초하여 이루어진다는 [사회적 범주화의 2차원 이론]과도 잘 일치한다(Bauvois 및 Dubois 2009; Fiske et al. 2007; Wojciske 2005).  
The identified points of view for each performance reflect differing assessment judgments of skill in rapport-building and medical expertise. The identification of two factors underlying performance assessment ratings is consistent with prior medical education research (Chahine et al. 2016; Nasca et al. 2002; Ramsey and Wenrich 1993; Silber et al. 2004; Verhulst et al. 1986). It also aligns well with the two-dimensional theories of social categorization which posit social judgments are made based on judgments of sociability/morality versus competence/ability (Beauvois and Dubois 2009; Fiske et al. 2007; Wojciszke 2005).  


의사에게 평가 척도가 아닌 Q-sort를 사용하여 평가 인상을 제공하도록 요청했지만, 그 결과 관점은 이 [두 가지 기본 차원]에 대한 [차등적 판단]을 나타내는 것으로 보인다. 그렇다면 [평가자간 변동성]은 평가자 특이적인 변동성보다는, [관계 구축] 및 [의료 전문지식] 중 [어떤 것을 차등적으로 강조하는지]로 개념화할 수 있다. 마찬가지로, 보다 중요한 인식은 두 가지 판단의 [형성formation]과 [결합combination]으로 개념화될 수 있습니다. 즉, 충분한 조치가 필요한 것이며 환자와 동맹을 맺는 동안 이루어져야 하는 것입니다. 

Although physicians were asked to provide their assessment impressions using Q-sorts and not rating scales, the resulting points of view seem to represent differential judgments on these two underlying dimensions. If so, inter-rater variability could be conceptualized as differential emphasis on rapport-building and/or medical expertise rather than idiosyncratic rater variations. Likewise, rater cognition could be conceptualized as the formation and combination of two judgments: was what needed to be done sufficiently done and was it done while building an alliance with the patient. 

한계 및 추가 조사가 필요한 영역
Limitations and areas requiring further investigation


연구 함의
Implications of this research


[동일한 임상 만남에 대해 서로 다른 관점을 형성]할 때, 수반되는 관점의 상대적 정확성이나, 실제 인지 과정과 무관하게, [하나의 판단으로 쉽게 조정될 수 없는 복수의 해석]이라는 결과는 평정 분석에 문제가 된다. 가장 비판적으로, 이 연구는 [평정이 상호 호환되지 않는다]는 예비 증거를 제공한다. 이는 [동질성 가정]을 위반하고, 과도한 분산이 심리측정모형의 평가자에 귀속되는 결과를 초래할 것이다(Kane 2002). 평가자가 복수의 알려지지 않은 관점에 속했기 때문에, 다른 평가 판단을 보고하거나 다른 등급을 지정할 것으로 예상될 수 있다면, 현재 우리의 측정 모델은 관련 평가 정보를 추출하고 요약하는 데 비효율적일 것이다.
Regardless of the relative accuracy of the points of views or the actual cognitive processes involved with forming differing points of view for the same clinical encounter, the finding of multiple interpretations that cannot be easily reconciled into a single judgment is problematic for the analysis of ratings. Most critically, this study provides preliminary evidence that raters are not interchangeable. This would violate the homogeneity assumption and result in excess variance being attributed to the raters in psychometric measurement models (Kane 2002). If raters could be expected to report different assessment judgments or assign different ratings because they belonged to one of multiple unknown points of view, our current measurement models would be inefficient in extracting and summarizing the relevant assessment information.  

 


Adv Health Sci Educ Theory Pract. 2017 Oct;22(4):819-838.

 doi: 10.1007/s10459-016-9711-8. Epub 2016 Sep 20.

Inter-rater variability as mutual disagreement: identifying raters' divergent points of view

Andrea Gingerich 1Susan E Ramlo 2Cees P M van der Vleuten 3Kevin W Eva 4Glenn Regehr 4

Affiliations collapse

Affiliations

  • 1Northern Medical Program, University of Northern British Columbia, 3333 University Way, Prince George, BC, V2N 4Z9, Canada. andrea.gingerich@unbc.ca.
  • 2Department of Engineering and Science Technology, University of Akron, Akron, OH, USA.
  • 3School of Health Professions Education, Maastricht University, Maastricht, Netherlands.
  • 4Centre for Health Education Scholarship, University of British Columbia, Vancouver, BC, Canada.
  • PMID: 27651046
  • DOI: 10.1007/s10459-016-9711-8AbstractKeywords: Inter-rater variability; Mini-CEX; Q methodology; Rater cognition; Rater-based assessment; Workplace-based assessment.
  • Whenever multiple observers provide ratings, even of the same performance, inter-rater variation is prevalent. The resulting 'idiosyncratic rater variance' is considered to be unusable error of measurement in psychometric models and is a threat to the defensibility of our assessments. Prior studies of inter-rater variation in clinical assessments have used open response formats to gather raters' comments and justifications. This design choice allows participants to use idiosyncratic response styles that could result in a distorted representation of the underlying rater cognition and skew subsequent analyses. In this study we explored rater variability using the structured response format of Q methodology. Physician raters viewed video-recorded clinical performances and provided Mini Clinical Evaluation Exercise (Mini-CEX) assessment ratings through a web-based system. They then shared their assessment impressions by sorting statements that described the most salient aspects of the clinical performance onto a forced quasi-normal distribution ranging from "most consistent with my impression" to "most contrary to my impression". Analysis of the resulting Q-sorts revealed distinct points of view for each performance shared by multiple physicians. The points of view corresponded with the ratings physicians assigned to the performance. Each point of view emphasized different aspects of the performance with either rapport-building and/or medical expertise skills being most salient. It was rare for the points of view to diverge based on disagreements regarding the interpretation of a specific aspect of the performance. As a result, physicians' divergent points of view on a given clinical performance cannot be easily reconciled into a single coherent assessment judgment that is impacted by measurement error. If inter-rater variability does not wholly reflect error of measurement, it is problematic for our current measurement models and poses challenges for how we are to adequately analyze performance assessment ratings.

+ Recent posts