사회적 판단으로서 평가자의 평가: 평가 오차의 원인에 대한 생각(Acad Med, 2011)

Rater-Based Assessments as Social Judgments: Rethinking the Etiology of Rater Errors

Andrea Gingerich, Glenn Regehr, and Kevin W. Eva






평가자기반 평가는 학생들이 복잡한 과제를 수행하는 것을 직접 볼 수 있기 때문에 역량의 높은 레벨에 해당하는 능력을 확인할 수 있는 장점이 있다. 그러나 안타깝게도 평가자기반평가(RBA)는 일반적으로 psychometric하게 약점이 있다.

Rater-based assessments are used because they allow students to be observed performing complex tasks corresponding to higher levels of competency.1,2 Unfortunately, rater-based assessments generally demonstrate psychometric weaknesses6–9 including

  • measurement errors of leniency,10
  • undifferentiation,11
  • range restriction,12
  • bias,13 and
  • unreliability.14

 

심지어 여러 평가자가 동일한 수행을 보고도 reproducibility나 평가자간 신뢰도 등에 문제가 발견된 바 있다.

One of the biggest threats to the reproducibility of clinical ratings, low interrater reliability,15,16 has been found to occur even when different raters view the same performance.17–20



극단적으로는 20개 OSCE스테이션 중 스테이션에서 특정 관찰가능한 행동의 수행 여부를 체크할 때 누구는 수행했다고 체크한 반면 다른 사람은 하지 않았다고 체크하는 것과 같은 사례가 19/20개 스테이션에서 발생하였으며 그 차이는 1개에서 8개에 이르렀다.

In a dramatic example, 19 of 20 OSCE stations each had one to eight discrepancies where at least one rater made a positive evaluative comment about the presence or absence of a specific observable behavior, while another rater made a negative evaluative comment regarding the exact same behavior.21



피평가자의 실제 수행능력이 맥락이나 사례 특이적으로 달라질 수 있다는 것이 RBA가 복잡한 주된 이유로 인정된 바 있지만, 그것의 효과에 대해서는 우리가 이미 잘 이해하고 있으며, 현재 평가 시스템에서는 잘 다뤄지고 있다. 그러나 다양한 평가자가 동일한 수행환경에서 나타나는 동일한 수행능력에 대해서도 서로 다르게 평가하는 것의 이유에 대해서는 우리가 알고있는 바가 더 적으며, 그러한 차이가 극복될 수 있는 것인가에 대한 상당한 논쟁이 있다. Marshall과 Ludbrook은 "관례적인 임상술기 평가에 있어서 평가자가 피평가자에 대해서 내리는 판단은 전적으로 개인 수준의 것이다"라고 했다.

While actual ratee performance differences attributable to context or case specificity are acknowledged to play a critical role in the complexities of rater- based assessment,22 its effects are well understood and accounted for in current assessment systems. Causes of variability in ratings, given by multiple raters for the same performance within the same context, are more uncertain, with considerable debate currently taking place about whether or not such variability can be overcome.23–25 The challenge is illustrated well by Marshall and Ludbrook,26(p215) who stated that “the judgment that an examiner makes of a candidate in the setting of the conventional test of clinical skills is an entirely personal one.”



평가자가 문제라면, 평가자 훈련이 가장 지속적으로 이뤄진 해결책이다. 그러나 평가자 훈련은 평가 결과에 미미한 향상만을 가져왔으며, 일부 연구자들은 의학에서 평가자들이란 훈련으로 바뀌지 않는 사람들은 아닌지 의구심을 표했다. "일부 평가자들은 본질적으로 일관된 면이 있고, 어떤 사람들은 좀 덜 하다. 이들 중 전자에 해당하는 사람들은 훈련으로 나아지지 않는다."

With raters identified as the problem, rater training has been the most persistently proposed solution.31 Rater training’s meager improvement of measurement outcomes, however, has provoked some researchers to suspect that medical raters are impervious to training,7,32 by suggesting that “some examiners are inherently consistent raters and others less so. The former do not need training and the latter are not improved by training.”33(p349)




표준화된 프레임워크를 사용하는 것으로는 이 문제를 해결하기 어렵다면, 여러 의학교육연구에서는 평가자의 사회-인지 프로세스의 중요성에 관심을 가질 것을 요구하며, 그것이 수행능력 평가에 가지는 함의를 다룬 바 있다. 이 저자들에게 평가자는 '능동적 정보 처리자'이며, 판단/추론/의사결정 전략을 활용하여 피평가자를 판단한다. 그들은 또한 평가점수를 결정하는 데 있어서 인상(impression)형성/해석/회상/판단 등의 복잡한 상호작용을 강조하였다. 일부 연구자는 평가절차와 psychometric 측정 원칙과 인간평가자의 능력의 잠재적 불일치를 지적했다.

Given the apparent intractability of this problem using our standard frameworks, a handful of medical education researchers have called attention to the importance of considering raters’ social cognitive processes and corresponding implications concerning measurement of performance assessments. These authors have stressed the need to see raters as active information processors using judgment, reasoning, and decision- making strategies to assess ratees.34 They have also highlighted a complex interaction of impression formation, interpretation, memory recall, and judgment in assigning ratings.21 And several have described potential incongruence between assessment procedures, psychometric measurement principles, and human rater capabilities.2,35,36


이들 연구자들이 문제에 접근한 방식은 '인상형성(impression formation)' 연구를 떠올리게 하는데, 사회적 상황에서 어떻게 한 개인이 다른 개인에 대한 판단을 내리는지에 대한 이해에 초점을 둔 사회인지에 관한 큰 연구영역 중 하나이다. 인상이란 다른 사람을 아는 일부분으로서 형성된다. 인상은 상대방에 대한 사실적 정보, 추론, 평가반응으로 구성된다. 인상이란 어떤 사람과 상호작용하기 위해서 그 사람에 대한 기존의 지식구조에 정보를 조직화하는데 사용된다. 사회인지 연구자들은 어떻게 사람들이 사회세계(social world)에 대해서 생각하는가에 대한 구체적인 인지 프로세스에 관심을 가졌다. 그들은 어떻게 사회적 정보가 encode, store, retrieve, structured, represented 되는지를 연구했으며, 어떻게 판단을 가지고 의사결정을 내리는지에 대한 프로세스를 연구하였다.

The approach being explored by these authors is highly reminiscent of the impression formation literature, a large research domain within social cognition focused on understanding how individuals make judgments of others in social settings.37 Impressions are formed as part of knowing another person. They are constructed from factual information,inferences, and evaluative reactions regarding the target person.37 It has been suggested that impressions are used to organize information into a structure of knowledge about the person38 in order to interact with himor her.39 Social cognition researchers are interested in thespecific cognitive processes used by people to think about the social world. They investigate how social information is encoded, stored and retrieved from memory, and structured and represented as knowledge; they also study the processes used to form judgments and make decisions.40 


 

흥미롭게도 평가자 나름의 독특한 방식(idiosyncrasy)도 인상형성 연구자들의 연구대상이 되었다. 이 연구에서 평가자들은 심지어 완전히 동일한 정보가 주어졌을 때 조차 피평가자에 대해서 상이한 인상을 가진다는 것이 확인되었다. 실제로, 한 평가자가 다수의 피평가자에 대해서 가지는 인상(들)이 다수의 평가자가 하나의 피평가자에게 가지는 인상(들)보다 더 유사하다. 전형적으로 인성특성 평가의 variance를 차지하는 가장 큰 부분은 피평가자 간의 차이가 아니라 피평가자와 평가자의 관계에서 독특하게 나타나는 차이이다.

Interestingly, the idiosyncrasy of raters has also been of interest to impression formation researchers.41 In that literature, it is well established that different raters will often form different impressions of the same ratee even when given the exact same information.42,43 In fact, the descriptions made by a single rater about multiple others have been found to be more similar than the descriptions made by multiple raters about a single ratee.44 Typically, the largest portion of variance in personality trait ratings is not attributable to differences perceived between the ratees but to differences uniquely contained within the relationship between each rater and ratee.42,45





결과

Results


심리학 연구에서 다른 사람을 인식하는 행위(인상형성)은 흔히 카테고리화 작업으로 묘사되는데, 이 카테고리화 작업에 진행되는 인지적 프로세스들 간에는 차이가 있을 수 있다.

Within psychology literatures, the act of perceiving other people (i.e., forming impressions) is commonly described as a categorization task, though differences exist in the way in which these cognitive processes are thought to be enacted.46,47

 


 

idiosyncratic 하지만 convergent 한 인간모델(Person Models)로서의 인상형성

Impression formation as idiosyncratic yet convergent Person Models


사회적 판단은 특정 조건에서는 idiosyncratic하고 실수의 가능성이 높다. 예를 들면 평가자의 감정이나 기분이 영향을 줄 수 있다. 만약 피평가자가 평가자로 하여금 평가자에게 중요한 다른 누군가를 떠올리게 하면, 피평가자는 유사한 특성을 공유하는 것으로 인식될 수 있다. 먄약 평가자가 근래에 피평가자를 묘사하는 말을 들었다면 모호한 행동도 그 전에 들었던 묘사와 일관된 것으로 해석될 수 있다. 이들은 인상이 피평가자 자체보다 다양한 변인과 맥락적 요인에 영향을 받기 쉽다는 것을 보여준다.

Social judgments have been found to be idiosyncratic and fallible under certain conditions.48 For example, raters’ mood and emotions at the time of the judgment can have an influence.49 If the ratee reminds the rater of a significant other, the ratee can be perceived to share similar characteristics.50 If the rater has recently been exposed to a description of the ratee, ambiguous behavior can be interpreted as being consistent with that description.51,52 Thus, there exists an implicit understanding that impressions are subject to variables and contextual factors beyond the ratee himself or herself.


인상형성에 있어 평가자의 idiosyncrasy 에도 불구하고 인상형성이 평가자간 상당히 일치한다는 근거도 있다. 한 연구에서는 평가자들이 피평가자에 대한 인상을 묘사할 때, 모든 표사방식이 세 가지 대표적 스토리(인간모델)로서 그룹지어질 수 있었다. 이 모델은 평가자가 접근가능한 정보로부터 받은 인상에 대한 즉석 묘사이다. 중요한 것은 비록 많은 이야기가 만들어졌지만, 비록 이 세 가지 모델 모두를 모든 개인에게 적용가능하지는 않았라도, 한 개인에 대한 이야기는 아래의 세 가지 모델 중 하나로 분류가능했다는 점이다.

Despite this expectation of rater idiosyncrasy in impression formation, however, there exists evidence that impressions will often be quite consistent across raters. One line of research, for example, has demonstrated that when raters were asked to write descriptions of a ratee based on their impressions, all descriptions for that ratee could be grouped into three representative stories (or “Person Models”) about that individual.42,45 The models are ad hoc descriptions of the ratee based on the rater’s impressions formed fromthe information available. Importantly, although many stories can be generated, stories pertaining to any one individual tend to fall into one of three models, though the same three models are not relevant to every individual.
 

    • Model 1 (67.6%of descriptions): [Ratee E] is energetic, friendly, and expressive, although she is more outgoing with her friend than her mother. She seems to be a kind and considerate person who enjoys talking to others. She laughs a lot and has many ideas.
    • Model 2 (15.5%of descriptions): [Ratee E] is insecure and nervous. She seems distracted at times, and she has trouble making decisions. She plays with her pen a lot and keeps bringing up a trip she was supposed to go on last year.
    • Model 3 (16.9%of descriptions): [Ratee E] has to dominate the conversation. She is rude and obnoxious and seems insensitive to other people. She doesn’t even say bless you when her friend sneezes. She seems self-centred and barely lets her friend talk.


비록 판단이 idiosyncratic하지만, 그것이 무한정 그렇지는 않다. 정보의 조각을 조합하고 정보의 우선순위를 결정함으로서 다양한 이야기를 만들어낼 수 있다. 후속 연구에서 인간모델은 긍정적 혹은 부정적 평가와 연결되는데 모델1에 해당하는 경우 긍정적인 평가를, 모델 2나 3에 해당하는 경우 부정적 평가를 받는 것으로 나온다. 따라서 인간모델은 평가자와 피평가자 사이에 독특한 관계에 의해서 나타나는 variance의 상당부분을 설명해준다.

Thus, although judgments are idiosyncratic, they are not infinitely so. It has been suggested that different combinations and prioritization of the pieces of information resulted in the different explanatory stories.42 In a follow-up study,45 the Person Models corresponded with ratings of liking and positive– negative evaluation such that raters usingModel 1 viewed the ratee positively and liked her, whereas raters using Models 2 or 3 viewed her negatively and disliked her. The Person Models, therefore, were found to account for a substantial portion of the variance in impressions attributed to the unique relationship between the rater and the ratee



만약 평가자가 그들이 피평가자에 관해 받은 정보를 바탕으로 피평가자에 대한 coherent한 인상을 구성해나갈 때 그 한 부분으로 인간모델을 만드는 것이라면, 그리고 모든 피평가자에 대해서 일반적으로 사용되는 세 가지 인간모델이 있다면, 이는 평가자들 사이에 cohesion과 coherence가 존재함에도 평가자간 신뢰도가 RBA에서 왜 감소하는지 설명해줄 수 있을지도 모른다.

If raters are forming Person Models as part of constructing a coherent impression about a ratee fromthe information they are receiving, and if there generally exist about three Person Models that are used for every ratee, this could help explain decreased interrater reliability in rater- based assessments while still yielding a sense of relative cohesion and coherence for each rater.



명목 카테고리화 작업으로서의 인상형성

Impression formation as a nominal categorization process


여기서는 피평가자의 행동에 대해서 '즉석에서' 네러티브를 구성하는 것이 아니라, 기존에 존재하던 스키마에 피평가자를 묶어내는 경향에 초첨을 둔다.

Here, the focus is not on the ad hoc construction of narratives around a ratee’s behavior; rather, the focus is on raters’ tendencies to lump ratees into preexisting schemas.



비록  과도한 일반화가 가지는 명확한 위험성도 있으나, 카테고리화의 뚜렷한 장점도 있다. 카테고리를 사용함으로써 평가자는 평가자의 카테고리-일치 행동을 관찰할 때에는 인지적 리소스를 사용할 필요가 없다. 실제로 평가자는 카테고리-비일치 행동만 관찰하면 된다. 피평가자의 카테고리화는 평가자로 하여금 주어진 정보를 넘어서서 기존의 카테고리 구성원과 일치하는 디테일까지 예상(추론)할 수 있다. 이는 개별 피평가자를 이해하는데 유용하며, 이들이 어떻게 행동할지 예측하게 해준다. 또한 그들과 상호작용할 때에 어떻게 하는 것이 가장 좋은지 결정을 도와준다. 인상형성의 인간모델 이론과 마찬가지로, 카테고리-기반 지식은 왜 피평가자가 특정 행동을 특정 상황에서 하는가에 대한 가능한 설명을 제공해주는 프레임워크가 된다.

Although there are clear and readily recognized dangers in overgeneralization (such as stereotypes), there are apparent benefits to categorization as well.46 With the use of categories, cognitive resources do not need to be used to monitor a ratee’s category-consistent behavior. Instead, the rater only needs to note any category- inconsistent behaviors.55 Categorization of the ratee also allows the rater to go beyond the given information to infer other expected details consistent with typical category members.56 This can be useful to better understand the individual ratees, to make predictions about how they will behave, and to decide how best to behave when interacting with them.47 Consistent with the Person Model theories of impression formation, category-based knowledge is thought to act as a framework to provide possible explanations for why a ratee might display particular behaviors in a given situation.



사회적 카테고리화에 대한 연구를 보면 이 카테고리가 장기기억에 존재할 수 있으나, 한 사람에 대한 사회적 카테고리화는 한 사람이 다양한 카테고리에 속할 수 있기 때문이 flexible한 측면도 있다. 위에서 묘사한 바와 같이, 이 연구에서는 한 사람에게 적용할 다양한 잠재적 카테고리 중 하나를 결정하는 데에는 맥락이 중요함을 찾아내었다. 예컨대, 아이를 안고 있는 남자는 마트에서는 아빠일 수 있지만, 병원에서는 간호사일 수 있다.

Although the social categorization literature suggests that these categories can exist preformed in long-term memory,46 social categorizations of a person are thought to be flexible because any individual can be categorized in multiple ways.58 Consistent with the findings described above, this literature has found context to be important in determining which category of the many possibilities will be applied to the person.51,59 For example, a man carrying a baby in a grocery store may be categorized as a dad but in a hospital as a nurse.



이 분야의 연구를 보면, 어떻게 카테고리 활성화를 조절할 수 있는가에 대한 것도 있다. 흥미롭게도, 의도적으로 카테고리-기반 가정에  반하여 사회적 판단을 조정하려고 하는 시도, 또는 카테고리적 사고를 억제하려는 시도는 오히려 카테고리화를 유발하여 더 안 좋은 영향을 미칠 수 있다. 이는 예를 들어 평가자가 고정관념을 회피하고자 하는 노력을 했을 때 오히려 더 고정관념에 빠졌다거나, 피평가자에 대한 더 고정관념적 기억을 잘 했다는 연구에서 나타난다. 이는 카테고리화를 극복하고자 하는 좋은 의도와 동기가 어쩌면 완전히 불가능하거나 적어도 결과의 향상을 가져오지 못할 수 있다는 것을 보여준다.

Researchers in this area have been particularly concerned with the question of how controllable category activation is. Interestingly, there is evidence to suggest that intentionally trying to adjust social judgments to counteract categorization-based assumptions or trying to suppress categorical thinking can cause the categorizations to have more adverse influence on impressions.64 This has been repeatedly demonstrated, for example, with studies where raters who were trying to avoid the use of stereotypes ended up demonstrating more stereotypic thinking in subsequent trials65 and more stereotyped memories of the ratee.66 This suggests that good intentions and the motivation to avoid categorizing people may not be completely possible and, when attempted, may not result in improved judgments.



만약 우리가 평가자가 피평가자에 대한 인상을 형성하고 피평가자를 인식하는 데 있어서 카테고리화할 수 있다는 것을 인정한다면, 이것은 RBA에 중요한 함의를 갖는다. 아마 가장 흥미로운 것은 카테고리가 순위/간격 자료가 아니라 명목자료라는 사실일 것이다. 명목변수는 본질적으로 논리적 위계나, 0점이 없고, 카테고리 간 간격이 균일하지 않다. 그러나 평가 서식은 순위를 매기는 답변을 요구한다(Behaviorally anchored scale 등). 혹은 리커트 척도 등의 숫자값을 선택하게 한다. 만약 평가자가 피평가자를 특정 카테고리에 속하는 것으로 인식한다면, 이 카테고리를 scale로 변환하는 것은 어떻게 이루어질까?

If we were to accept that raters may be categorizing ratees as part of perceiving and forming an impression of them, this could have important implications for rater-based assessment. Perhaps the most intriguing implication is the resemblance of categories to nominal rather than ordinal or interval data. Nominal variables have categories but do not have an inherent, logical order, a true zero, or an equal interval between the categories. Assessment forms often require ordinal responses such as the selection of an ordered descriptive value on a behaviorally anchored scale, or interval responses such as the selection of a numerical value on a Likert-type rating scale. If raters are judging ratees by perceiving themas belonging to a particular category, then how do they translate that categorical judgment into a rating scale value?




다차원적 카테고리화로서의 인상형성

Impression formation as dimensionally based categorizations



사람들은 두 개의 차원에 있어서 이분법적 판단에 따라 카테고리화 될 수 있다. 광범위한 연구에서 사회적 판단에 있어서 두 개의 직교하는 차원 인상형성에 있어서 variance의 상당부분을 설명할 수 있음을 보여준 바 있다.

As is described more thoroughly in the following, people can appear to be placed into categories based on dichotomized judgments on two underlying dimensions. An extensive literature consistently identifies two orthogonal dimensions underlying social judgments that can account for the majority of variance in impression formation.



모든 연구에서 한 차원은 사회적으로 바람직하거나 그렇지 않은 것에 대한 것이다.(정직-부정직 등)

In all studies, one of the dimensions refers to socially desirable or undesirable traits that directly impact on others. It includes positive traits such as friendly or honest and negative traits such as cold or deceitful.



두 번째 차원은 연구에 따라서 보다 다양한데, 개인의 성공에 영향을 미치는 특질에 대한 것이다. 지능/야망과 같은 긍정적 특질과 우유부단함/비효율적 과 같은 부정적 특질을 포함한다.

The second dimension has more variability across studies and refers to traits that tend to more directly influence the individual’s success.68,69 It tends to include positive traits such as intelligent or ambitious and negative traits such as indecisive or inefficient.

 

이 차원들은 다양한 이름으로 연구된 바 있다.

These dimensions have been given various labels, likely attributable, in part, to differing domains having been studied:

  • warmth/competence,69,70
  • communion/ agency,68,71
  • social/intellectual,72
  • other- profitability/self-profitability,73
  • morality/ competence,74 and
  • social desirability/ social utility.75

 

어떤 명명을 선택하느냐가 서로 다른 영역으로부터 온 연구자들이 매우 다른 차원을 찾아내었음을 보여주나, 연구자들은 대체로 이들 특질/행동에 겹치는 부분이 있음을 인정한다.

Although the choice of labels for each of the dimensions may imply that researchers fromdifferent domains have identified very different dimensions, the researchers agree there is a common overlap of traits and behaviors.68–70,75,76 


흥미롭게도, 두 개의 연속적, scaled 차원이 있다는 추측에도 불구하고 사회적판단에 관한 문헌을 보면 두 개의 이분된 직교하는 차원으로 구분한다. 각각 이분화된 나눠진 두 차원은 네 개의 조합을 만들어내고, 개인은 이 네 영역 중 하나로 카테고리화된다.

Interestingly, despite the speculation that there are two continuous, scaled dimensions underlying the process of social judgment, many researchers in the social judgment literature suggest that these two orthogonal dimensions are dichotomized into high- versus low-value judgments. When the two dimensions are crossed, therefore, the result is four potential combinations, and it has been proposed that individuals and groups are categorized in one of these four clusters.77



Warmth/Competence dimension의 사례 

Researchers have shown that the stereotyped groups described in the preceding section can be categorized into each cluster based on rater judgments of warmth/competence dimensions and that each cluster is associated with emotional and behavioral responses in the rater.78 More specifically, in North America,

  • groups judged high on warmth and competence, such as the middle class, invoke the emotions of pride and admiration and lead to behaviors of wanting to help and associate with them.
  • Groups judged low on warmth and high on competence, such as the stereotypically gluttonous rich, elicit envy and willingness to associate but also to attack under certain conditions.
  • Groups judged high on warmth and low on competence, including stereotypes for the elderly and disabled, elicit pity and willingness to help but also to avoid.
  • Low judgments of both warmth and competence, including stereotypes for the homeless and drug-addicted, invoke the emotions of disgust and contempt and lead to behaviors of wanting to attack and to avoid.


사회적 판단의 두 차원에 깔린 근본적 특징은  진화론적 관점에서 설명되곤 하는데, 이것이 낯선 사람을 친구인지 적인지 판단하는데 사용된다고 하면서, 상대방의 의도가 무엇인가를 인지하고, 상대방이 그 의도를 달성할 능력이 있는가를 판닪하는 것이 생존에 도움이 된다고 하였다. 이렇듯, 차갑거나 비도덕적 의도를 가진 사람이 그 의도를 달성할 능력까지 갖춘 것으로 분류될 경우 의도는 마찬가지로 비도덕적이나 능력이 없는 사람도다 더 위험하게 인식된다. 즉 두 개의 negative보다 한 개의 positive와 한 개의 negative가 더 위험하다는 것으로, 다차원적 판단으로서의 카테고리화든 단순 연산의 결과가 아님을 보여준다.

The fundamental nature of two dimensions underlying social judgments has been explained using an evolutionary perspective. It has been proposed that successfully determining whether strangers are potential friends or enemies, based on their perceived intentions and also on whether they are capable of achieving those intentions, would provide a survival advantage.79 As such, persons categorized as having cold or immoral intentions and high competence receive more strongly negative impression ratings than those categorized as having immoral intentions and low competence.80 This occurs despite the immoral–incompetent categorization resulting from two negative dimensional judgments and the immoral–competent categorization resulting from the combination of a positive and a negative dimensional judgment. Categorizations based on dimensional judgments, therefore, do not purely reflect an algebraic combination of values judged on two orthogonal dimensions.




임상역량을 평가하기 위해 만들어진 서시의 요인분석을 통해서 두 개의 내재된 요인을 발견하였다. 평가의 variance 대부분을 차지하는 두 요인으로서 지식과 대인관계기술을 언급하였다. 이 때 '지식'은 사회적판단에서 '역량'에 해당하며, 대인관계기술은 'warmth'에 해당한다. 따라서 의학에서 평가자들은 위에서 언급된 북미에서의 stereotype을 활용하여 피평가자를 네 가지 부류 중 하나로 분류할 것이다.

Factor analysis of rating forms designed to assess clinical competence often identifies two underlying factors regardless of the number of items or the number of dimensions included on the form. Of the two factors that explain the majority of variance in ratings, one tends to refer to knowledge and the other to interpersonal skills. The knowledge dimension seems analogous to the competence dimension in social judgments, and the interpersonal skills dimension seems comparable to the warmth dimension. As such, medical raters could be using the cognitive processes, previously described using the example of stereotyped groups in North America, to classify ratees into one of the four clusters with consequent emotions and reactions.



결론

Discussion


비록 사례특이성이 중요한 역할을 하는 것으로 밝혀졌지만, 평가자 variability 또한 construct-irrelevant error의 원인으로 지적되고 있으며, 이것을 어떻게 극복할지는 보다 불분명하다. 평가자의 객관성이나 평가자의 능력을 강화하기 위한 해결책은 효과가 미미했으며, 이제는 평가자 '에러'에 대한 다른 개념을 고려할 때일 수 있다.

Although case specificity has been shown to play a very important role, rater variability (based on idiosyncrasies of opinion, defiance, or ineptitude) has also been seen as a source of construct- irrelevant error16,25 with less clear understanding of how to overcome the challenge it creates. Solutions targeted at bolstering rater objectivity and ability have had little impact on reducing these measurement errors,7 and hence, perhaps the time has come to consider an alternate conception of rater “error.”


만약 우리가 RBA에서의 평가자가 사회적판단에서의 평가자와 동일한 인지 프로세스를 사용한다고 전제하고 시작했다면, 여기에서 함의는 무엇이고 어떻게 바꿀 수 있을까?

If we were to start with the premise that raters in rater-based assessments use the same cognitive processes as raters in social judgments, then what would the implications be for assessment and how would it change the way we talk about assessment?



 

심리학자들은 사회적판단을 내리는 데 있어서 사람들은 다른 사람을 카테고리화하는 경향이 있음을 밝혔다. 인상형성에 관한 연구에 따르면 카테고리화 프로세스에는 세 가지 다른 개념이 있다.

Psychologists have shown that, in making social judgments, people have a propensity to categorize other people. In the impression formation literature, there seem to be at least three different conceptualizations of this categorization process.

 

  • The Person Model literature presents an adaptable type of categorization based on the construction of stories, as needed, to describe specific individuals.42,45
  • In contrast, the categorization literature suggests that categories can be preformed constructs that exist in the long-term memory and are applied when activated.46
  • And a third conceptualization is the concept of cluster-based categorization that results from dichotomous judgments on two dimensions.77,78

이들 개념 간 차이와 무관하게, 인상형성 연구결과는 이러한 카테고리화가 전형적인 카테고리 구성원에 대한 정보를 새로운 사람에게 적용하게 해주는 것이라고 공통적으로 말하고 있으며, 그 결과 인지적 자원을 아낄 수 있게 해주고, 어떻게 행동할지 예상하게 해주며, 어떻게 상호작용할지 최적의 선택지를 제공한다.

Regardless of these differences in conceptualization, there is general agreement in the impression formation literature that such categorizations allow information about a typical category member to be applied to the new person, thereby reducing the cognitive resources needed to monitor the person’s behavior, allowing for predictions of how he or she will behave, and providing options for how best to interact with him or her.46



첫째, 카테고리화는 무의식중에, 그리고 자발적으로 일어날 수 있으며, 어떤 식으로든 이 프로세스를 통제하는 것은 매우 어렵다. 그렇기 때문에 평가자 훈련을 통해서 카테고리화의 영향을 변화시키려는 직접적 노력을 impede한다. 더 나아가 이들 카테고리화가 여러 평가자들 간에 놀라울 정도로 비슷하다는 연구결과가 있으나, 평가자 특이성(rater idiosyncrasy)은 여전히 존재하고 있으며, 최소한 서로 다른 인간모델의 서브그룹 수준에서는 차이가 있다.

First, the categorization of the person can happen spontaneously and without awareness,60 and there may be poor control over these processes even when they are made explicit.64 This could directly impede efforts to modify the influence of categorization on assessments through rater training. Further, although there is evidence of these categorizations being surprisingly consistent across raters, there is nonetheless room for rater idiosyncrasy, or at least subgroups that consistently use a different Person Model in understanding a particular individual’s behavior.45


평가자들은 피평가자를 서로 다른 스케일에 두는 것이 아니라, 애초에 서로 다른 명목 카테고리로 분류하는 것이다.

It is not that raters are scaling the behaviors differently but, rather, that they are placing ratees in different nominal categories.


둘째로, 대부분의 의학교육에서의 RBA는 표준화된 형식을 가지고 사전에 결정된 수행능력 영역/역할/역량을 평가한다. 이렇게 이론적으로 구성되어있는 평가 영역들은 우리에게 내재된 인지프로세스의 카테고리화와 잘 맞지 않을 수 있으며, 어떤 피평가자를 카테고리화하는데는 적용가능하지 않을 수 있다. 따라서 평가자 에러는 사람이 판단을 내릴 때 사용하는 인지 프로세스와 잘 맞지 않는 평가체계를 사용하게 하는 것에서 유발되는 것일 수도 있다.

Second, in the vast majority of rater- based assessments in medical education, the standard forms require ratings on a predetermined list of performance domains, roles, and/or competencies. These theoretically constructed assessment dimensions may not correspond with the categorizations that result from our innate cognitive processes, and they may not be universally applicable to all ratee categorizations. It is possible, therefore, that rater error might stem from an assessment system that asks raters to carry out judgment tasks that are incongruent with the cognitive processes used by humans to perform judgments. 


만약 평가자가 nominal한 판단을 내리는데, 평가서식은 ordinal/interval 평가를 내리도록 만들어져 있다면, 어떻게 이 카테고리적 판단을 rating scale로 변환할 것인가? 서로 다른 변환체계를 사용하는 평가자가 평가자 에러의 한 부분이 아닐까?

If raters are forming nominal judgments but assessment forms require ordinal or interval ratings, how do they translate that categorical judgment into a rating scale value? Could raters using different conversion systems explain a portion of rater error?






6 Lurie SJ, Mooney CJ, Lyness JM. Measurement of the general competencies of the Accreditation Council for Graduate Medical Education: A systematic review. Acad Med. 2009;84:301–309.


30 Kogan JR, Holmboe ES, Hauer KE. Tools for direct observation and assessment of clinical skills of medical trainees: A systematic review. JAMA. 2009;302:1316–1326.








 2011 Oct;86(10 Suppl):S1-7. doi: 10.1097/ACM.0b013e31822a6cf8.

Rater-based assessments as social judgmentsrethinking the etiology of rater errors.

Author information

  • 1Northern Medical Program, University of Northern British Columbia, 3333 University Way, Prince George, British Columbia V2N 4Z9. gingeri@unbc.ca

Abstract

BACKGROUND:

Measurement errors are a limitation of using rater-based assessments that are commonly attributed to rater errors. Solutions targeting rater subjectivity have been largely unsuccessful.

METHOD:

This critical review examines investigations of rater idiosyncrasy from impression formation literatures to ask new questions for the parallel problem in rater-based assessments.

RESULTS:

Raters may form categorical judgments about ratees as part of impression formation. Although categorization can be idiosyncratic, raters tend to consistently construct one of a few possible interpretations of each ratee. If raters naturally form categorical judgments, an assessment system requiring ordinal or interval ratings may inadvertently introduce conversion errors due to translation techniques unique to each rater.

CONCLUSIONS:

Potential implications of raters forming differing categorizations of ratees combined with the use of rating scales to collect categorical judgments on measurement outcomes in rater-based assessments are explored.

PMID:
 
21955759
 
[PubMed - indexed for MEDLINE]


+ Recent posts