표준화 환자를 이용한 진료수행시험에서 교수와 표준화 환자의 채점 정확도

경희대학교 의학전문대학원 의학교육학교실

박재현, 고진경, 김선미, 유효빈



(http://www.redorbit.com/education/reference_library/health_1/medical_procedures/1112733763/auscultation/)


서론


수행평가에서 채점자의 신뢰도에 관한 문제는 오래된 논쟁거리이다.


중요한 시험에 적합한, 신뢰할 만한 채점관은 누구일까? 첫 번째 후보는 임상교수들이다. 음 후보는 진료수행시험에 참여하는 표준화 환자이다. 이들은 현실적 어려움이 많은 임상교수를 대신해서 ‘표준화된’ 채점을 하기에 적합한 대상들이다. 

그러나 자격시험과 같이 중요한 시험에서 채점관 역할을 하기에 충분한 역량을 갖추고 있는지, 혹시 시험의 신뢰도나 타당도를 떨어뜨리게 되지는 않을지 우려하는 목소리도 적지 않다.


진료수행시험을 먼저 도입한 북미와 유럽에서도 유사한 논란이 있었다. 

임상교수와 표준화 환자 간의 진료수행평가의 채점 결과를 비교하는 연구논문이 여러 편 발표되었다. 

Martin et al. [2]은 의사와 표준화 환자의 채점 결과를 정답기준(golden standard)과 비교한 연구에서 의사채점자의 정확성이 더 높다는 결론을 내렸다. McLaughlin et al. [3]은 학생들은 표준화 환자 채점자에 대해 긍정적인 태도를 가지고 있으나 표준화 환자의 점수는 의사보다 전반적으로 높았고, 다른 측정(MCQ) 결과와의 관련성이 낮았다고 보고하였다.


반면, Kopp & Johnson [4]의 연구에 의하면 의사와 표준화 환자의 채점 결과의 일치도가 81~92% 사이였으며, 시험의 후반부로 갈수록 일치도가 높아졌다. 이들은 표준화 환자가 신뢰할만한 채점자의 역할을 할 수 있다는 결론을 내렸다. MacRae et al. [5]은 병력청취와 신체진찰에서 표준화 환자의 채점표 점수가 의사의 평가결과와 높은 상관관계를 나타냈음을 보고하였다. Kwon et al. [6]도 표준화 환자와 임상교수의 채점결과가 병력과 신체진찰 영역에서의 일치도가 높아 표준화 환자의 채점 결과를 임상교수의 것을 대신해 사용할 수 있다고 논의하였다. 그러나 환자-의사관계에서는 일치율이 크게 떨어졌음을 함께 보고하였다.


상교수와 비교하는 방법을 택하지 않고 표준화 환자의 채점 결과의 신뢰성만 집중적으로 조사한 연구들도 있다. 

Vu et al. [7]에 의하면 표준화 환자의 채점정확도는 ‘좋음’에서 ‘매우 좋음’ 수준을 보였다. 또한 이들의 채점정확도는 채점표의 길이와 문항의 유형 및 명료함에 영향 받았으나 하루 중의 시기나 시험기간 중 날짜에는 영향 받지 않았다고 보고하였다. De Champlain et al. [8]은 표준화 환자와 관찰자의 채점 결과를 정답기준과 비교하고, 표준화 환자와 정답기준과의 높은 일치율을 제시하였다. Heine et al. [9]은 정답기준을 작성하여 비교함으로써 표준화 환자의 채점오류의 유형(누락오류[omission]/첨가오류[commission])과 빈도를 분석하였다. 표준화 환자들은 신체진찰보다는 병력청취에서 더 많은 오류를 범했고, 누락오류보다는 첨가오류를 더 자주 범하였. 전반적으로 표준화 환자의 채점 정확성은 높은 수준이었고, 발생된 오류는 대부분 학생들에게 호의적인 결과로 나타났다.


위에서 제시한 선행연구들의 연구방법과 결과를 비교분석해 보면 임상교수와 표준화 환자의 채점 정확성을 분석하기 위한 최선의 방법을 선택할 수 있다. 

먼저 정확성 판정을 위한 기준을 살펴보면, 먼저 임상교수와 표준화 환자의 채점 결과를 비교하여 일치도를 구하는 방법이 있다.


또는 따로 개발한 정답기준과 비교하여 채점 결과의 정확성을 파악하는 방법도 있다[2,8,9,10]. 방법적인 측면에서 볼 때 오류가능성을 안고 있는 임상교수의 결과를 기준으로 하여 일치도나 상관을 구해 표준화 환자의 채점 정확성을 판정하는 방법보다는 정답기준을 작성하여 이를 근거로 채점 정확성을 판단하는 것이 더 명확한 연구방법으로 판단된다


분석의 수준도 결정해야 한다. 각 문항점수를 분석하는 방법과 사례별로 합산하여 분석하는 방법이 있다. 

분석의 수준이 높아질수록 연구자가 원하는 결과를 얻기 쉽다. 즉, 문항점수보다는 사례점수를, 사례점수보다는 여러 사례의 총점을 비교할 때 신뢰도는 높아지고, 동시에 다면적인 정보를 얻을 수도 있다[11]. 그러나 문항수준의 분석은 점수의 합산을 통해 조정되지 않은 실제 채점 결과의 정확성을 알려준다. 그러므로 번거로울 뿐 아니라 이미 시행된 시험에 대해 낮은 신뢰도를 보고하게 될 수도 있지만 문항수준의 분석은 확인해 볼만한 가치가 있다.


만약 표준화 환자의 채점 정확성이 충분히 높게 나타난다면 이 연구는 국가고시와 같은 대규모 진료수행시험에서 표준화 환자를 채점관으로 선정하는 것에 대한 근거를 제공할 수 있을 것이다.



대상 및 방법

1. 표본과 연구도구

학생들의 진료수행능력 평가는 임상교수와 표준화 환자에 의해 이원적으로 이루어졌다. 임상교수는 시험이 진행되는 동안 시험장 내에 머물면서 학생들의 진료과정을 직접 관찰하고 평가하였다. 채점표는 병력청취, 신체진찰, 임상예절, 환자-의사관계를 평가하는 문항으로 구성되었으며, 사례에 따라 환자교육이나 진단계획 등에 관한 문항이 추가되었다


병력청취와 임상예절은 ‘했음/하지 않았음’의 2단계로, 

체진찰이나 환자교육은 ‘했음/제대로 하지 않았음/하지 않았음’의 3단계로 표시하도록 하였다. 한편 

환자-의사관계는 ‘매우 동의함’부터 ‘전혀 동의하지 않음’ 사이의 5점 척도 내에서 학생의 수준을 평정하도록 하였다


2. 정답기준(answer key)

임상교수와 표준화 환자가 기록한 점수의 정확성을 판정하정답기준은 두 명(SK, HY)의 표준화 환자 트레이너가 개하였다. 이들은 학생 60명이 표준화 환자를 대면하는 장면을 보고 각각 60개의 평가기록표를 작성하였다. 두 사람의 채점자는 각기 다른 장소에서 녹화장면을 보면서 독립적으로 평가기록표를 작성하였으며, 평가를 마친 후 평가기록표의 각 문항을 비교하여 일치하지 않은 결과에 대해서는 대면장면을 다시 확인하고 토의를 통해 합일된 의견을 구하였다. 판정이 모호한 몇 개의 문항에 대해서는 제3의 채점자(JK)가 확인하여 최종판정을 내렸다. 이러한 과정을 통해 개발된 정답기준은 각 학생이 표준화 환자 대면과정에서 보인 행동에 대한 가장 적절한 판정을 담고 있다.


3. 문항수준의 분석

문항수준의 일치도는 일치도 통계(agreement statistics)와 Kappa 계수를 구하여 분석하였다. 

일치도 통계는 채점자가 피험자의 수행을 어떤 유목이나 범주로 분류할 때 사용하는 방법으로, 두 채점자가 일치하게 채점한 피험자의 비율을 산출한다. 

Kappa 계수는 일치도 통계가 우연에 의해서 일치하게 평정된 경우를 포함하고 있어 두 채점자 간의 일치도가 과대 추정되는 문제점을 해결하기 위하여 제안된 방법이다. Kappa 계수는 일치도 통계에서 우연에 의하여 두 채점자의 평정결과가 일치하는 확률을 제거한 수치이므로 일치도 통계보다 항상 낮게 추정된다[12,13].


채점표 영역 중 환자-의사관계는 다른 영역과 달리 5점 척도상에서 문항에 동의하는 정도를 평정하도록 되어있어 위와 같은 일치도(agreement) 분석이 적합하지 않다. 그래서 환자-의사관계 문항들은 서열척도로 평가된 자료에서 채점자 간 신뢰도를 측정하는 대표적인 방법인 급내상관계수(intraclass correlation coefficient, ICC)를 구하여 분석하였다[14]. 

ICC는 자료의 분포가 분산이 아주 적은 경우 결과가 무의미하게 나타나므로 비교하는 두 집단의 분산분석을 선행한 후 해석하였으며, 이차원변량모형(two-way random effects)과 절대동의서(absolute agreement) 방식으로 계산하였다[15].



4. 사례수준의 분석

각 사례에서 학생들이 획득한 점수를 비교하여 임상교수와 표준화 환자, 그리고 정답기준의 사례별 총점이 어떻게 다른지 분석하기 위하여 사례(4개)와 채점자(3수준: 임상교수, 표준화 환자, 정답기준)를 요인으로 하여 반복측정에 의한 이원분산분석을 시행하였다



결과

1. 문항수준의 일치도 분석

Table 4는 임상교수와 정답기준을 비교한 결과와 표준화 환자와 정답기준을 비교한 결과이다. 분석한 문항은 환자-의사 관계를 제외한 문항들이며, 일치율Kappa 계수를 제시하였다. 

일치율의 경우 0.85 이상이면 높은 것으로 해석하고[12], Kappa 계수의 경우 0.41~0.60이면 보통 수준(moderate agreement), 0.61~0.80이면 높은 수준(substantial agreement), 그리고 0.81~1.0이면 거의 완벽하게 일치(almost perfect agreement)하는 것으로 해석한다[16].
분석
결과에 따르면, 표준화 환자와 임상교수는 정답기준과 유사한 일치율을 보였다. 그러나 Kappa 계수를 참조하면 두 평가 그룹은 정답기준과 일치도가 달랐다. 표준화 환자는 모든 사례에서 정답기준과 보통 수준의 일치도를 보였다. 즉, 표준화 환자는 보통 수준의 채점 정확성에 도달하였다. 반면, 임상교수는 사례 2에서 정답과의 일치도가 크게 떨어졌다. 전반적으로 표준화 환자의 채점정확도가 임상교수보다 높은 편이다.


채점표에서 비교적 비중이 큰 병력청취와 신체진찰 영역의 정확도를 Kappa 계수로 비교한 결과를 Table 5에 제시하였다.


Table 6은 환자-의사관계 문항에서 임상교수, 표준화 환자의 평가결과와 정답기준 간의 ICC를 분석한 결과이다. ICC는 일반적으로 0.75 이상이면 높은 것으로 해석한다[17]. 구결과를 살펴보면 임상교수가 채점한 첫 번째 문항의 F 통계량이 유의하지 않은 것을 제외하고 모든 문항이 정답기준과 분산에 차이가 있으므로 ICC의 해석이 가능하다. 그러나 임상교수와 표준화 환자 모두 모든 문항의 ICC가 0.75에 근접하지 않았다. 문항수준의 분석에서 환자-의사관계의 채점 정확성은 채점자를 막론하고 매우 낮았다


2. 사례수준의 일치도 분석

사례와 평가자를 요인으로 사례점수를 반복측정 분산분석한 결과를 Table 7에 제시하였다. 먼저, Mauchly 구형성검정(test of sphericity) 결과를 살펴보면 자료의 구형성을 만족하지 못하므로(chi-square estimate=15.30, df=2, p<0.001)일변량분석결과를 참조하였다. 일반적인 반복측정 분산분석에서는 개체 간 효과가 연구자의 주요 관심사이나 이 연구는 채점자 간 신뢰도를 검정하고자 하기 때문에 동일한 피험자에 대한 채점자 간 차이를 분석한 개체 내 효과에 주목해야 한다. Table 7에 따르면 채점자 간에는 통계적으로 유의미한 차이가 없으며(F=3.28, p>0.05), 채점자와 사례 사이에 상호작용도 없었다(F=1.76, p>0.05). 즉, 임상교수와 표준화 환자의 사례점수(percent-correct scores)는 정답기준의 사례점수와 차이가 없으므로 두 채점자 그룹 모두 정확하게 채점한 것이다.


즉, 교수와 표준화 환자 모두 엄격하게 채점하는 경향(error of harshness)이 있고, 표준화 환자는 교수보다는 더 호의적으로 채점하였다.


단, 위에서 보고한 결과는 환자-의사관계 문항을 제외한 사례점수이다. 환자-의사관계 문항을 포함한 점수로 같은 분석을 해보면 위와는 매우 다른 결과가 나타난다. 채점자 간 차이가 통계적으로 인정되어(F=8.59, p=0.001) 임상교수(60.39±13.02)와 표준화 환자(60.37±14.56)의 채점 결과는 정답기준(65.08±10.18)과 다르므로 두 그룹 모두 채점 정확성을 담보할 수 없다는 결론에 이르게 된다. 그러나 앞서 문항수준의 분석에서 나타난 환자-의사관계 문항과 평정척도의 차별성과 잠재적 문제점을 인정하여 본 연구에서는 환자-의사관계 문항을 제외하고 분석한 결과를 최종결과로 보고하였다.



고찰

이 연구에서도 선행연구와 마찬가지로 사례수준의 분석은 문항수준의 분석보다 신뢰도 판정이 후하게 내려졌다[8].가의 신뢰도를 분석할 때에는 분석자료가 더 많은 정보를 포함할수록, 예를 들어 더 많은 문항을 가진 시험지이거나, 더 많은 피험자를 가진 시험일수록 신뢰도가 높게 평가된다. 같은 원리로 진료수행시험에서 스테이션의 수를 늘리거나 다수의 채점자를 배정하면 시험의 신뢰도가 높아진다[18].


문항수준의 분석결과를 살펴보면 교수 채점자들의 정확성이 표준화 환자들보다 떨어진다(Table 4 Kappa 계수 참조).


그런데 임상교수들에게 익숙한 검사일수록 오히려 검사를 ‘제대로’ 한 경우와 그렇지 않은 경우를 판단하는 기준의 일관성이 떨어지기 쉽다. 왜냐하면 임상교수들은 각자의 필요나 습관에 따른 검사방법에 익숙하기 때문이다.


이러한 현상에 대해De Champlain et al. [8]은 일반적으로 신체진찰의 채점 정확성이 병력청취보다 높게 나타나나 ‘수행을 제대로 한 경우’와 ‘수행을 하긴 했으나 정확히 하지 못한 경우’를 구분해서 평정하도록 되어 있는 채점표를 쓰는 경우 사례에 따라 신체진찰의 채점 정확성이 크게 떨어질 수도 있다고 논의한 바 있다.


문항수준의 분석결과에 따르면 표준화 환자의 채점 정확성이 임상교수보다 더 높다. 이는 정답기준과 비교해서 임상교수의 채점 정확성이 표준화 환자보다 더 높았다고 보고한 Martin et al.[2]의 연구와 상반된 결과이다.


그러나 선행연구를 이 연구와 면밀히 비교한 결과, 연구팀은 중요한 차이점을 발견할 수 있었다. Martin et al.의 연구에서는 정답기준이 임상교수들에 의해 개발된 반면, 이 연구에서는 표준화 환자 트레이너들에 의해 개발되었다. 임상교수가 만든 기준에 임상교수의 채점 결과는 더 잘 들어맞았고, 표준화 환자 트레이너가 만든 기준에는 표준화 환자의 채점 결과가 더 일치하였다.


환자-의사관계 문항은 채점자에 상관없이 매우 낮은 채점 정확도를 보였다. 이는 Kwon et al. [6]이 환자-의사관계 문항에서 채점자 간 낮은 일치도를 보고한 것과 동일한 결과이다. 환자-의사관계 문항의 낮은 신뢰도는 선행연구뿐 아니라 이 연구 내에서 정답기준을 개발한 두 트레이너 간 일치도 분석에서도 재확인할 수 있다. 다른 영역의 문항에서는 매우 높은 수준의 일치도를 보인 트레이너들은 환자-의사관계 문항에서는 매우 낮은 상관을 보였다(Table 3).


한편, 임상교수와 표준화 환자의 환자-의사관계 채점 정확성을 비교해 보면 다른 영역과는 상반된 경향성이 나타난다. 즉, 임상교수와 정답기준의 일치도가 표준화 환자와 정답기준의 일치도보다 더 높은 것이다. 여기에서 연구팀은 또 하나의 중요한 채점자 특성을 발견하였다. 임상교수들과 정답기준을 개발한 트레이너들은 학생들의 진료장면을 직접, 혹은 화면을 통해 관찰한 반면, 표준화 환자들은 진료의 대상자로 학생과의 상호작용에 직접 관여하였다. 즉, 이들은 관찰자와 참여자로서 시험장면을 보는 시점이 달랐다.


사례점수를 가지고 정답기준, 임상교수 채점, 표준화 환자 채점을 개체 내 요인으로 두고, 4개 사례를 개체 간 요인으로 두어 반복측정 분산분석을 한 결과, 정답기준, 임상교수 채점, 표준화 환자 채점 간에는 점수의 차이가 없었다. 즉, 오류로 점수를 더하거나 뺀 문항을 모두 합산한 결과(net score)에 따르면 임상교수와 표준화 환자가 채점한 점수는 정답기준과 점수가 같았다. 이는 표준화 환자 채점과 임상교수 채점의 일치도에 대해서 긍정적인 결론을 내린 많은 선행연구를 지지하는 결과이다[4,5,6,7,8,9].


위의 논의를 종합하면 표준화 환자와 임상교수의 채점 정확성이 확보되었다는 결론을 내릴 수 있다. 이러한 결론을 통해 대규모 진료수행시험에서 표준화 환자가 임상교수를 대신해 학생들의 진료수행능력을 신뢰성 있게 평가할 수 있으리라는 실제적 판단을 내릴 수 있다. 철저한 훈련이 주어진다면 표준화 환자들은 사례개발자가 평가하고자 의도한 행동이나 지식을 일관성 있게 평가할 수 있는, 신뢰할 만한 채점관의 역할을 수행할 수 있을 것이다. 그러나 이러한 주장은 충분한 훈련과 명료한 채점표가 제공된다는 전제 하에 설득력이 있음을 기억해야 한다. 채점자의 오류를 줄이기 위한 채점표와 훈련의 조건에 대해서 Williams et al. [19]은 채점표를 간결하게 구성하고, 평정단계도 가능한 줄여야 하며, 채점자가 사례와 채점문항을 이해하는 것뿐 아니라 수행평가가 가지는 한계점까지도 이해하도록 충분히 훈련할 것을 제안하였다. 또한 채점자에게 시험이 진행되는 과정에서 적절한 피드백을 줄 것도 함께 권고하였다. 실제로 Wallace et al. [10]의 연구에 의하면 표준화 환자에게 무작위(random) 피드백을 주었을 경우에 피드백을 주지 않거나 계획된 피드백을 주었을 때보다 높은 채점 정확성을 보였다.































Faculty Observer and Standardized Patient Accuracy in Recording Examinees' Behaviors Using Checklists in the Clinical Performance Examination
Jaehyun Park, Jinkyung Ko, Sunmi Kim and Hyobin Yoo
Department of Medical Education, Kyung Hee University School of Medicine, Seoul, Korea.

Corresponding Author: Jinkyung Ko. Department of Medical Education, Kyung Hee University School of Medicine, 1 Hoegi-dong, Dongdaemun-gu, Seoul 130-701, Korea. TEL) 02-961-9102, FAX) 02-969-0792,Email: michkay@khu.ac.kr 
Received April 13, 2009; Accepted June 25, 2009.


Abstract

Purpose

The purpose of the study was to examine the recording accuracy of faculty observers and standardized patients (SPs) on a clinical performance examination (CPX).

Methods

This was a cross-sectional study of a fourth-year medical students' CPX that was held at a medical school in Seoul, Korea. The CPX consisted of 4 cases and was administered to 118 examinees, with the participation of 52 SP and 45 faculty observers. For the study we chose 15 examinees per case, and analyzed 60 student-SP encounters in total. To determine the recording accuracy level, 2 SP trainers developed an answer key for each encounter. First, we computed agreement rates (P) and kappa coefficient (K) values between the answer key-SPs and the answer key-faculty observers. Secondly, we analyzed variance (ANOVA) with repeated measures to determine whether the mean percentage of the correct checklist score differed as a function of the rater, the case, or the interaction between both factors.

Results

Mean P rates ranged from 0.72 to 0.86, while mean K values varied from 0.39 to 0.59. The SP checklist accuracy was higher than that of faculty observersat the level of item comparison. Results from ANOVA showed that there was no significant difference between the percentage of correct scores by the answer key, faculty observers and SPs. There was no significant interaction between rater and case factors.

Conclusion

Acceptable levels of recording accuracy were obtained in both rater groups. SP raters can replace faculty raters in a large-scale CPX with thorough preparation.

Keywords: Clinical competenceUndergraduate medical educationObserver variationEducational measurement.


+ Recent posts