OSCE의 퀄리티 측정하기: 계량적 방법 검토 (AMEE Guide no. 49) (Med Teach)
How to measure the quality of the OSCE: A review of metrics – AMEE guide no. 49
GODFREY PELL, RICHARD FULLER, MATTHEW HOMER & TRUDIE ROBERTS
University of Leeds, UK

 

도입
Introduction

학문 분야에서 높은 수준의 의사결정을 지원하기 위해 사용되는 테크닉의 정밀 조사가 증가함에 따라, 준거 기반 평가(CBA)는 신뢰할 수 있고 구조화된 방법론적 접근방식을 제공한다. 역량 기반 방법론으로서, CBA는 '고부담' 종합 평가(예: 자격 수준 또는 학위 수준 검사)를 제공하고 신뢰성과 타당성을 모두 높은 수준으로 입증할 수 있도록 한다. 이러한 평가 방법론은 [절대평가적이고, 모든 지원자에 대해 신중하게 표준화되었으며, 평가가 성과 목표와 명확하게 설계되고 밀접하게 연관되어 있다는 점]에서 '전통적인' 비정형 평가(예: viva voce)에 비해 많은 주요 편익이 있다는 점에서 매력적이다. 이러한 목표는 커리큘럼 결과 및 적절한 경우 학생과 교사 모두가 이용할 수 있는 규제 및 면허 기관이 정한 표준에 대해 명확하게 매핑할 수 있다. 
With increasing scrutiny of the techniques used to support high-level decision-making in academic disciplines, criterion-based assessment (CBA) delivers a reliable and structured methodological approach. As a competency-based methodology, CBA allows the delivery of ‘high stakes’ summative assessment (e.g. qualifying level or degree level examinations), and the demonstration of high levels of both reliability and validity. This assessment methodology is attractive, with a number of key benefits over more ‘traditional’ unstructured forms of assessment (e.g. viva voce) in that it is absolutist, carefully standardised for all candidates, and assessments are clearly designed and closely linked with performance objectives. These objectives can be clearly mapped against curricular outcomes, and where appropriate, standards laid down by regulatory and licensing bodies that are available to students and teachers alike. 

OSCE(Objective Structured Clinical Examination)는 [사전 정의된 목표에 대한 '청사진' 과정 내용으로 시작]하는 복잡한 프로세스 내에서 CBA 원칙을 사용합니다(Newble 2004). 여기서의 목적은 '올바른' 표준이 평가되고 OSCE의 내용이 커리큘럼 결과에 객관적으로 매핑되도록 하는 것이다. 수행능력은

  • 스테이션 수준에서
  • 항목 체크리스트를 사용하여 개별(행위의 순서와 함께)적으로 평가되고,
  • 전반적 등급으로 평가되는데, 이 때는 평가자에 의해 덜 결정론적 전체 평가에 의존한다(Cohen et al. 1997; Regehr et al. 1998). 

The Objective Structured Clinical Examination (OSCE) uses CBA principles within a complex process that begins with ‘blueprinting’ course content against pre-defined objectives (Newble 2004). The aim here is to ensure both that the ‘correct’ standard is assessed and that the content of the OSCE is objectively mapped to curricular outcomes. Performance is scored,

  • at the station level,
  • using an item checklist, detailing individual (sequences of) behaviours, and
  • by a global grade, reliant on a less deterministic overall assessment by examiners (Cohen et al. 1997; Regehr et al. 1998). 


성공적인 CBA을 제공하려면 충분한 품질견고한 표준 설정이 보장되어야 하며, 단순히 후보 성과candidate outcome에 대한 좁은 초점이 아닌, [평가되는 수행능력을 전체적]으로 신중히 고려할 수 있는 [광범위한 메트릭]에 의해 뒷받침된다(Roberts et al. 2006). OSCE는 복잡하고 자원 집약적이며, 대개 많은 수의 검사자, 후보자, 시뮬레이터 및 환자가 참여하며, 종종 병렬 사이트에서 이루어지기 때문에 '평가에 대한 평가assessing the assessment'는 필수적입니다. 
Central to the delivery of any successful CBA is the assurance of sufficient quality and robust standard setting, supported by a range of metrics that allow thoughtful consideration of the performance of the assessment as a whole, rather than just a narrow focus on candidate outcomes (Roberts et al. 2006). ‘Assessing the assessment’ is vital, as the delivery of OSCEs are complex and resource intensive, usually involving large numbers of examiners, candidates, simulators and patients, and often taking place across parallel sites. 

학부생들의 임상 역량을 판단하는 데 있어 [어떤 하나의 평가]도 충분하지 않은 것처럼, [어떤 하나의 계량]도 그 자체로도 평가 과정의 질을 의미 있게 판단하기에 충분하지 않다.
No single metric is sufficient in itself to meaningfully judge the quality of the assessment process, just as no single assessment is sufficient in judging, for example, the clinical competence ofan undergraduate student

OSCE 평가 품질 이해: 통칙, 일반원칙
Understanding quality in OSCE assessments: General principles

OSCE 지표에 대한 검토는 OSCE 품질을 검토하는 전체 프로세스의 일부일 뿐이며, 이는 광범위한 평가 프로세스에서 모든 관계를 수용해야 한다는 것을 인식하는 것이 중요합니다(그림 1). 
It is important to recognise that a review of theOSCE metrics is only part of the overall process of reviewing OSCE quality, which needs to embrace all relationships in the wider assessment process (Figure 1). 

 



국가단위 시험에서 OSCE가 구조의 일부로 사용되는 경우 스테이션은 공통 표준에 따라 중앙에서 설계되고 일반적으로 중앙 관리부에서 제공합니다. 그러나, 특정 의과대학 내에서 설계된 평가와 같이 지역적 수준에서, 예를 들어, 일부 변동은 시험을 설정하는 기관의 중요성과 복잡성에 따라 달라질 것이다.
Where OSCEs are used as part of a national examination structure, stations are designed centrally to a common standard, and typically delivered froma central administration. However, at the local level with the assessment designed within specific medical schools, some variation, for example instation maxima will result dependant upon the importance andcomplexity of the station to those setting the exam

이 가이드는 주로 개별 의과대학 내 지역 수준에서 임상 평가에 참여하는 사람들을 대상으로 하며, 평가가 여러 분야에 걸쳐 이루어질 수 있지만 단일 투여이다. 국가 임상평가와 관련된 사람들은 다른 관점을 가질 가능성이 높다. 

This guide is aimed primarily at those involved with clinical assessment at the local level within individual medical schools, where, although the assessment may take place across multiple sights, it is a single administration. Those involved with national clinical assessments are likely to have a different perspective. 

합격선 설정 방법은 무엇입니까?
Which method of standard setting?

합격선 설정 방법에 따라 품질 평가에 사용할 수 있는 메트릭이 결정됩니다(Cizek & Bunch 2007;Strainer & Norman 2008). 
The method of standard setting will determine the metrics available for use in assessing quality (Cizek & Bunch 2007;Streiner & Norman 2008)

[합격선]이 방어가능하고 입증가능하며 수용가능해야 한다는 요구사항(Norcini 2003)이 있어서, 일반적으로 절대평가기준을 사용한다. 합격선 설정의 모든 방법은 많은 사후 측정 지표(예: 스테이션 통과율, 고정 효과(현장 간 평가 및 비교 시간) 또는 표시 분포 빈도)를 생성하지만, 추가 품질 측정치를 생성하는 합격선 설정 방법을 선택하는 것이 중요하다. 현재 많은 기관들이 경계선borderline을 선호하고 있지만, 회귀 방법regression만이 글로벌 성적과 체크리스트 점수 사이의 관계와 약자와 강자의 변별 수준을 어느 정도 알려줄 것이다.
With the requirement for standards to be defensible, evidenced and acceptable (Norcini 2003), absolute standards are generally used. Whilst all methods of standard setting will generate a number of post hoc metrics (e.g. station pass rates, fixed effects (time of assessment and comparison across sites)or frequency of mark distribution), it is important to choose a method of standard setting that generates additional quality measures. At present, a large number of institutions favour borderline, but only the regression method will give someindication of the relationship between global grade and checklist score and also the level of discrimination between weaker and stronger students.

Table 1 

 

저자들은 BLR 방법이 평가자와 후보자 간의 모든 평가 상호작용을 사용하기 때문에 선호하고, 이러한 상호작용은 '실제real'이다. 이는 많은 수의 평가자를 사용하여 사전 결정된 기준에 객관적으로 기반하며 광범위한 메트릭스를 생성합니다.  
The authors favour the BLR method because it uses all theassessment interactions between assessors and candidates, and these interactions are ‘real’. It is objectively based on pre-determined criteria, using a large number of assessors and generates a wide range of metrics.  

BLR 방법에서 평준화된 비판 중 하나는 이상치outliers에 민감하다는 것이다. 이러한 이상치는 세 가지 주요 그룹에서 발생합니다.  
One of the criticisms sometimes levelled at the BLR method is its possible sensitivity to outliers. These outliers occur in three main groups:  

. 성적이 매우 나쁘고 체크리스트 점수가 0에 가까운 학생. 
. Students who perform very badly and obtain a near zero checklist score. 

. 우수한 체크리스트 점수를 획득했지만 평가자에게 전체적으로 깊은 인상을 주지 못한 학생
. Students who achieve a creditable checklist score but whofail to impress the assessor overall. 

. 전반적 점수overall grade를 잘못 매기는 평가자.
. The assessor who gives the wrong overall grade.


스테이션 레벨 품질 메트릭을 생성하는 방법
How to generate station level quality metrics? 

표 2는 일반적인 OSCE의 측정 지표에 대한 '표준' 보고서를 자세히 설명합니다(2일 동안 20개 스테이션, 총 시험 시간 3시간, 4개 검사 센터에 분산). 
Table 2 details a ‘standard’ report of metrics from a typicalOSCE (20 stations over 2 days, total testing time  3 h, spreadover four examination centres). 




응시자는 다음으로 구성된 합격 프로필을 충족해야 합니다.

  • 전체 합격 점수
  • 통과된 스테이션의 최소 수(보상을 방지하고, 유능한 '올라운드' 의사 요건에 충실함)
  • 수용가능한 환자 평가의 최소 수

Candidates are required to meet apassing profile comprising of

  • an overall pass score,
  • minimum number of stations passed (preventing compensation, and adding the fidelity to the requirement for a competent ‘all round’ doctor) and
  • a minimum number of acceptable patient ratings.

평가자는 항목 체크리스트를 완료하고 전체 글로벌 등급(OSCE의 글로벌 등급은 0 = 클리어 실패, 1 경계선, 2단계 클리어 패스, 3단계 매우 우수한 합격 및 4단계 합격으로 숫자로 기록됨)  

Assessors complete and item checklist, and then an overall global grade (The global grades in our OSCEs arerecorded numerically as 0 = clear fail, 1¼borderline, 2¼clearpass, 3¼very good pass and 4 ¼excellent pass).  

합격선 설정에 BLR 방법이 사용되었습니다(Pell & Roberts 2006). 일반적으로 이러한 OSCE는 약 60,000개의 데이터 항목을 생성합니다. 
The BLR method was used for standard setting (Pell &Roberts 2006). Typically such an OSCE will generate roughly 60,000 data items 

체크리스트 점수와 더불어 글로벌 등급이 부여되는 합격선 설정의 경계선 방법에서는 함께 제공되는 메트릭이 평가의 품질을 측정하는 데 유용합니다. 에벨과 앙고프 처럼 전역 등급global grade이 합격선 설정 절차의 일부를 형성하지 않는 다른 유형의 합격선 설정의 경우, 등급 간 변별 및 결정 계수(R2)는 적용되지 않는다(Cusimano 1996). 

Under any of the borderline methods of standard setting, where a global grade is awarded in addition to the checklist score, accompanying metrics are useful in measuring the quality of the assessments. For other types of standard setting, where such a global grade does not form part of the standard setting procedure, e.g. Ebel and Angoff, inter-grade discrimination and coefficient of determination (R2) will not apply (Cusimano 1996). 

계량 1: 크론바흐의 알파
Metric 1: Cronbach’s alpha


이것은 내적 일관성(일반적으로 완전히 정확한 것은 아니지만 '신뢰성'으로 생각됨)의 척도이며, 좋은 평가에서는 전반적으로(즉, 각 스테이션의 체크리스트 점수에 대해) 우수한 학생이 대체로 비교적 잘 해야 한다. 두 가지 형태의 알파(비표준화 또는 표준화)를 계산할 수 있으며, 이 가이드에서는 [비표준화 양식](SPSS의 기본 설정)을 참조합니다. 이 값은 [분산에 의해 가중치가 부여된 평균 상호 상관 관계]에 대한 측도로, 후보와 교차하는 단순 항목의 G-계수와 동일한 값을 산출합니다. 표준화된 환자와 실제 환자가 사용되고 개별 스테이션 지표가 표준화되지 않은 경우, 일반적으로 이러한 유형의 고부담 평가에서 허용 가능한 것으로 간주되는 알파의 (전체) 값은 0.7 이상이다. 
This is a measure of internal consistency (commonly, though not entirely accurately, thought of as ‘reliability’), whereby in a good assessment the better students should do relatively well across the board (i.e. on the checklist scores at each station). Two forms of alpha can be calculated – non-standardised or standardised – and in this guide we refer to the nonstandardised form (this is the default setting for SPSS). This is a measure of the mean intercorrelation weighted by variances, and it yields the same value as the G-coefficient for a simple model of items crossed with candidates. The (overall) value for alpha that is usually regarded as acceptable in this type of high stakes assessments, where standardised and real patients are used, and the individual station metrics are not standardised, is 0.7 or above. 

스테이션 메트릭이 [표준화된 경우] 더 높은 알파가 예상됩니다. 이 스테이션 집합에 대한 알파는 0.754였으며, (표 2의 두 번째 열에서) 비록 스테이션 17과 20이 이 점에서 거의 기여하지 못했지만, 전체적인 '신뢰성'에서 벗어난 스테이션은 없음을 알 수 있다. 
Where station metrics are standardised, a higher alpha would be expected. Alpha for this set of stations was 0.754, and it can be seen (fromthe second column of Table 2) that no station detracted from the overall ‘reliability’, although stations 17 and 20 contributed little in this regard. 

알파는 평가 항목 수에 따라 증가하는 경향이 있으므로, 항목/스테이션이 잘 수행되었다면, 특정 항목이 삭제된 경우, 알파는 전체 알파 점수보다 모두 낮아야 합니다. 그렇지 않은 경우에는 다음과 같은 이유로 인해 발생할 수 있습니다. 
Since alpha tends to increase with the number of items in the assessment, the resulting alpha if item deleted scores should all be lower than the overall alpha score if the item/ station has performed well. Where this is not the case, this may be caused by any of the following reasons: 

. [(삭제한) 아이템]이 나머지 항목 집합과 다른 구조를 측정하는 경우
. The item is measuring a different construct to the rest of the set of items.

. [(삭제한) 아이템]의 디자인이 불량한 경우
. The item is poorly designed. 

. [교육]에 문제가 있는 경우. 시험 주제가 제대로 학습되지 않았거나 응시자 그룹 간에 다른 기준에 따라 학습한 경우
. There are teaching issues – either the topic being tested has not been well taught, or has been taught to a different standard across different groups of candidates.  

. [평가자]들이 공통의 기준에 따라 평가하지 않은 경우
. The assessors are not assessing to a common standard.

그러나 평가 품질의 척도로 알파에만 의존할 수는 없습니다. 우리가 표시했듯이, 아이템 수가 증가하면 알파도 증가하게 되고, 따라서 단순히 아이템 수에서 충분한 길이를 갖는 것만으로 실제보다 균질해 보이는 척도를 만들 수 있습니다. 즉, 구별되는 구조를 측정하는 두 척도를 결합하여 하나의 긴 척도를 형성하면 잘못된 알파가 발생할 수 있습니다. 또한 항목 집합은 높은 알파를 가질 수 있지만 다차원적일 수 있습니다. 이러한 현상은 [클러스터 자체]가 딱히 서로 상관관계가 높지 않더라도, 서로 상관관계가 높은 [항목 클러스터(즉, 개별 차원 측정)]가 있을 때 발생합니다.
However, one cannot rely on alpha alone as a measure of the quality of an assessment. As we have indicated, if the number of items increases, so will alpha, and therefore a scale can be made to look more homogenous than it really is merely by being of sufficient length in terms of the number of items it contains. This means that if two scales measuring distinct constructs are combined, to form a single long scale, this can result in a misleadingly high alpha. Furthermore, a set of items can have a high alpha and still be multidimensional. This happens when there are separate clusters of items (i.e. measuring separate dimensions) which intercorrelate highly, even though the clusters themselves particularly do not correlate with each other highly.

알파가 너무 높아(예: >0.9) 평가에서 중복성을 나타낼 수 있는 반면, 낮은 알파 점수는 때로는 잘못 설계된 스테이션의 결과라기 보다는 스테이션 평균 점수의 큰 차이로 인한 것일 수 있다.
It is also possible for alpha to be too high (e.g. 40.9), possibly indicating redundancy in the assessment, whilst low alpha scores can sometimes be attributed to large differences in station mean scores rather than being the result of poorly designed stations.

우리의 철학은 알파를 포함한 하나의 메트릭만으로는 품질을 판단하는 데 항상 불충분하며, 알파는 높지만 다른 메트릭은 낮은 OSCE의 경우에는 이것이 고품질 평가를 나타내지 않는다는 것입니다.

Our philosophy is that one metric alone, including alpha, is always insufficient in judging quality, and that in the case of an OSCE with a high alpha but other poor metrics, this would not indicate a high quality assessment.

계량 2: 결정 계수 R2
Metric 2: Coefficient of determination R2

R2 계수는 독립 변수(글로벌 등급)의 변경으로 인한 종속 변수(체크리스트 점수)의 비례적 변화입니다. 이를 통해 우리는 체크리스트 점수와 각 스테이션의 전체 글로벌 등급 사이의 (선형) 상관 관계의 정도를 결정할 수 있으며, 전반적으로 전체 등급이 높을수록 일반적으로 더 높은 체크리스트 점수와 일치할 것으로 예상합니다. 결정 계수의 제곱근은 단순 Pearsonian 상관 계수입니다. SPSS 및 기타 통계 소프트웨어 패키지는 또한 R2의 조정 값을 제공하며, R2는 표본 크기와 모델의 예측 변수 수를 고려합니다(이 경우 1개). 이상적으로 조정된 값은 조정되지 않은 값에 가까워야 합니다.  

The R2 coefficient is the proportional change in the dependent variable (checklist score) due to change in the independent variable (global grade). This allows us to determine the degree of (linear) correlation between the checklist score and the overall global rating at each station, with the expectation that higher overall global ratings should generally correspond with higher checklist scores. The square root of the coefficient of determination is the simple Pearsonian correlation coefficient. SPSS and other statistical software packages also give the adjusted value of R2, which takes into account the sample size and the number of predictors in the model (one in this case); ideally, this value should be close to the unadjusted value. 

좋은 상관관계(R2 > 0.5)는 체크리스트 점수와 전역 성적 사이의 합리적인 관계를 나타내지만, 지나치게 상세한 global description가 단순히 해당 체크리스트 점수로 자동 변환되어 R2가 인위적으로 부풀어 오르지 않도록 주의해야 한다. 표 2에서, 스테이션 14(실용 및 의료-법률적 기술 스테이션)의 R2 값은 0.697로 양호하며, 이는 학생들의 글로벌 등급 변동 중 69.7%가 체크리스트 점수의 변동에 의해 설명됨을 의미한다. 반대로 스테이션 19는 R2 값이 0.404로 만족도가 낮습니다. 환자의 안전과 바늘 부상 관리에 초점을 맞춘 새로운 스테이션이었다. R2가 낮았던 이유를 이해하려면 (예: SPSS 원곡선 추정을 사용하여) 관계를 그래픽으로 검토하여 체크리스트와 전역 등급 간 연관성의 정확한 특성을 조사하는 것이 도움이 됩니다(그림 2). 
A good correlation (R240.5) will indicate a reasonable relationship between checklist scores and global grades, but care is needed to ensure that overly detailed global descriptors are not simply translated automatically by assessors into a corresponding checklist score, thereby artificially inflating R2. In Table 2, station 14 (a practical and medico-legal skills station) has a good R2 value of 0.697, implying that 69.7% of variation in the students’ global ratings are accounted for by variation in their check list scores. In contrast, station 19 is less satisfactory with an R2 value of 0.404. This was a new station focusing on patient safety and the management of a needlestick injury. To understand why R2 was low, it is helpful to examine the relationship graphically (e.g. using SPSS Curve estimation) to investigate the precise nature of the association between checklist and global grade (Figure 2). 

 



스테이션 지표에 관계없이 항상 글로벌 등급에 대한 체크리스트 점수의 산포 그래프scatter plot를 일상적으로 표시할 것을 권장합니다. 
We would recommend always plotting a scatter graph of checklist marks against global ratings as routine good practice, regardless of station metrics. 

스테이션 19에서 우리는 두 가지 주요 문제가 있음을 알 수 있습니다. 즉, 각 글로벌 등급에 대한 광범위한 점수분포와 불합격 등급(X축에 0)이 부여된 매우 광범위한 점수분포입니다. 이는 일부 학생이 항목 체크리스트에서 많은 점수를 획득했지만, 전반적인 성과로 인해 평가자의 글로벌 낙제점수로 이어질 수 있다는 것을 나타냅니다. 
In station 19, we can see that there are two main problems – a widespread of marks for each global grade, and a very widespread of marks for which the fail grade (0 on the x-axis) has been awarded. This indicates that some students have acquired many of the marks from the item checklist, but their overall performance has raised concerns in the assessor leading to a global fail grade. 

'소개' 부분에서는 특이치outlier가 회귀법에 미치는 영향을 설명했습니다. 좋지 않은 체크리스트 점수의 예는 그림 3에서 확인할 수 있다. 다른 스테이션에서는 어떤 응시자가 체크리스트 점수에서 아주 낮은 경우를 것을 볼 수 있습니다. 이렇게 하면 [y축 회귀 절편 값을 줄이고 회귀선의 기울기를 늘리는 효과]가 있습니다. 표 2에 표시된 데이터의 경우, 특이치를 제거하고 통과 점수와 개별 스테이션 통과 점수를 재계산하면 차이가 거의 없어져 통과 점수가 0.2% 미만으로 증가합니다.
In ‘Introduction’ section, we raised the impact of outliers on the regression method. Examples of poor checklist scores but with reasonable grades can be observed in Figure 3. In other stations, we sometimes see candidates scoring very few marks on the checklist score. This has the effect of reducing the value of the regression intercept with the y-axis, and increasing the slope of the regression line. For the data indicated in Table 2, the removal of outliers and re-computation of the passing score and individual station pass marks makes very little difference, increasing the passing score by less than 0.2%.



이러한 체크리스트 점수와 전역global 등급 간의 만족스럽지 못한 관계는 첨부 표 3(SPSS에서 제작)에서 알 수 있듯이 어느 정도 비선형성을 유발하며, 여기서 최상의 적합이 분명히 cubic이라는 것이 그래픽적으로 명백하다. 수학적으로 말하면 cubit이 항상 더 나은 적합치를 생성하지만, parsimony를 중시한다면, 고차 모형을 선호하기 위해서는 두 적합치 사이의 차이가 통계적으로 유의해야 한다.
This unsatisfactory relationship between checklist marks and global ratings causes some degree of non-linearity, as demonstrated in the accompanying Table 3 (produced by SPSS), where it is clear graphically that the best fit is clearly cubic. Note that mathematically speaking, a cubic will always produce a better fit, but parsimony dictates that the difference between the two fits has to be statistically significant for a higher order model to be preferred.



중요한 점은 cubic이 기본적인 관계의 결과인지, 아니면 비정상적인 결과인지 여부이며, 이 결과가 부적절한 체크리스트 설계 또는 허용할 수 없는 평가자 채점 행동으로 인한 결과인지 여부이다. 이러한 판단을 할 때, 산란도scattergraph에 표시된 표시의 분포를 검토해야 한다. 우리 자신의 경험에 따르면 스테이션 지표가 일반적으로 품질이 양호한 경우 엄격한 선형성으로부터의 이탈은 우려의 원인이 되지 않습니다. 
The key point to note is whether the cubic expression is the result of an underlying relationship or as a result of outliers, resulting from inappropriate checklist design or unacceptable assessor behaviour in marking. In making this judgement, readers should review the distribution of marks seen on the scattergraph. Our own experience suggests that where stations metrics are generally of good quality, a departure from strict linearity is not a cause for concern. 

특정 스테이션에 [낮은 R2 값]이 존재하거나 특정 등급에 대한 점수분포가 광범위하다면, 항목 점검표 및 스테이션 설계를 검토하는 데 도움이 될 것이다. 이 특별한 경우, 스테이션에서는 안전하고 효과적인 관리에 대한 핵심적 강조가 의도되었지만, 이러한 지표에 비추어 체크리스트를 재평가한 결과 이러한 강조가 잘 표현되지 않았다. 점수가 낮은 응시자들은 '과정process'에서 많은 점수를 획득할 수 있었지만, 스테이션의 더 고차원적 기대(의사 결정의 초점)를 충족하지 못한 것이 분명하다. 이는 본 스테이션의 재작성 및 점검표를 통해 해결되었으며, 본 스테이션의 재이용 계획 및 향후 OSE 내 성과에 대한 후속 분석을 통해 해결되었습니다. 
The existence of low R2 values at certain stations and/or a widespread of marks for a given grade should prompt a review of the item checklist and station design. In this particular case, although there was intended to be a key emphasis on safe, effective management in the station, re-assessment of the checklist in light of these metrics showed that this emphasis was not well represented. It is clear that weaker candidates were able to acquire many marks for ‘process’ but did not fulfil the higher level expectations of the station (the focus on decision making). This has been resolved through a re-write of the station and the checklist, with plans for re-use of this station and subsequent analysis of performance within a future OSCE. 


계량 3: 등급 간 변별
Metric 3: Inter-grade discrimination

이 통계량은 회귀선의 기울기를 나타내며 [전역global 등급 척도에서 한 등급 상승에 해당하는 체크리스트 점수]의 평균 증가를 나타냅니다. '이상적' 값에 대한 명확한 지침은 없지만,변별지수는 이용 가능한 최대 체크리스트 마크(데이터에서 일반적으로 30–35)의 10분의 1이 되어야 한다고 권고한다. 
This statistic gives the slope of the regression line and indicates the average increase in checklist mark corresponding to an increase of one grade on the global rating scale. Although there is no clear guidance on ‘ideal’ values, we would recommend that this discrimination index should be of the order of a tenth of the maximum available checklist mark (which is typically 30–35 in our data). 

낮은 등급 간 변별은 종종 다음과 같은 관측소에 대한 다른 좋지 않은 지표와 함께 동반된다.

  • 낮은 R2 값(등급과 체크리스트 점수 사이의 전반적인 관계가 좋지 않음을 나타냄) 또는
  • 높은 수준의 평가자 오차 분산(섹션 '측정지표 5: 그룹 간 변동'): 평가자가 공통 표준을 사용하지 못한 경우 

A low value of inter-grade discrimination is often accompanied by other poor metrics for the station such as

  • low values of R2 (indicating a poor overall relationship between grade and checklist score), or
  • high levels of assessor error variance (Section ‘Metric 5: Between-group variation’) where assessors have failed to use a common standard.

[성적 간 변별intergrade discrimination 수준이 너무 높으면] 합격점이 매우 낮거나 회귀선을 가파르게 만드는 소수의 불량 학생으로 인해 선형성이 부족하다는 의미일 수 있다. 체크리스트 점수의 측면에서 매우 낮은 학생 성적이 발생할 경우, 하향으로 전체 합격 점수에 과도한 영향을 미치지 않도록 매우 낮은very low 점수를 합격선 설정에서 제외해야 하는지 고려할 필요가 있습니다

Too high levels of intergrade discrimination may indicate either a very low pass mark, or a lack of linearity caused by a small number of badly failing students who tend to steepen the regression line. Where very poor student performance in terms of the checklist score occurs, consideration needs to be given to whether these very low scores should be excluded from standard setting to avoid excessive impact on overall passing scores in a downward direction. 

표 2에 대한 변별로 돌아가면, 비록 변별 값이 5를 초과하는 세 개의 스테이션이 있지만(예: 스테이션 14) 등급 간 값은 스테이션 전체에 걸쳐 일반적으로 허용될 수 있음은 분명하다. 
Returning discrimination to Table 2, it is clear that the inter-gradevalues are generally acceptable across thestations (station maxima being in the region of 30–35 marks), although there are three stations with discrimination values inexcess of 5 (e.g. station 14 

변별도 메트릭에 기반해서 스테이션의 퍼포먼스가 의심스러운 경우, [분산 및 곡선 추정의 R2 척도]로 복귀하는 것이 유용한 경우가 많습니다. 표 2에서, 스테이션 14는 등급 간 변별이 가장 높으며, 그림 3에서 대부분의 글로벌 등급이 다시 광범위한 표시, 특히 명확한 통과 등급 값 2를 포함하지만, 이 값 중 낮은 것은 분명히 특이치임을 알 수 있습니다. 나머지 스테이션 지표가 허용 가능하기 때문에, 이 스테이션은 변경되지 않을 수 있지만 후속 평가에 사용될 때 주의 깊게 모니터링되어야 합니다. 

Where there is doubt about a station in terms of its performance based on the discrimination metric, returning to the R2 measure of variance and curve estimation is often instructive. In Table 2, station 14 has the highest inter-grade discrimination, and it can be seen in Figure 3 that most global grades again encompass a wide range of marks, especially the clear pass grade – value 2 on the x-axis, ranging from 4 to 27, but that the lower of these values are clearly outliers. As the rest of the station metrics are acceptable, this station can remain unchanged but should be monitored carefully when used in subsequent assessments. 

 

메트릭 4: 실패 횟수
Metric 4: Number of failures

[비정상적으로 높은 Failure 횟수]만을 가지고 스테이션이 너무 어렵다는 것을 나타내는 것이라고 자동으로 가정하는 것은 실수입니다. 경계선 방식의 필수 요소인 '현실 점검reality check'이 스테이션 난이도 상당 부분을 보완할 것으로 보인다. 이는(reality check은) 최소의 역량을 갖춘 학생의 예상 성과에 대한 글로벌 등급을 결정하기 위해 [훈련된 평가자가 내린 전문가의 판단]을 나타냅니다.
It would be a mistake to automatically assume that an unusually high number of failures indicate a station that is somehow too difficult. The ‘reality check’, which is an essential part of borderline methods, will to a large extent compensate for station difficulty. This represents the expert judgement made by trained assessors in determining the global rating against the expected performance of the minimally competent student. 

앞에서 설명한 것처럼, 다른 심리측정 데이터가 문제를 식별하기 위해 스테이션 설계 및 성능을 조사하는 데 사용될 수 있습니다. 불합격률은 특정 주제에 대한 teaching이 바뀐 영향을 검토하는 데 사용될 수 있으며, 그러한 비율의 높은 값은 내용 및 교수 방법에 대한 검토가 과정 설계에 도움이 될 수 있는 위치를 나타낸다. 

As previously described, other psychometric data can be used to investigate station design and performance in order to identify problems. Failure rates may be used to review the impact of a change in teaching on a particular topic, with higher values of such rates indicating where a review of content and methods of teaching can help course design. 

메트릭 5: 그룹 간 변동(평가자 효과 포함)
Metric 5: Between-group variation (including assessor effects)

OSCE와 같은 복잡한 평가 준비에서 비롯된 데이터에 대한 분석을 수행할 때, 학생들은 필요에 따라 실용적인 목적을 위해 여러 그룹으로 세분화되며, 설계가 완전히 무작위화되는 것이 필수적입니다. 그러나 (시간이 더 많이 필요하고 별도의 주기 내에 독점적으로 관리해야 하는 특수한 요구 사항 학생들을 처리하는 등) 물류 문제의 관리가 항상 가능하지 않을 때도 있다. 모든 [비랜덤 부분군non-random subgroups]은 주요 가정으로 데이터의 랜덤성에 의존하는 통계 기반 분석 유형에서 제외해야 합니다. 
When performing analysis on data resulting from complex assessment arrangements such as OSCEs, where, by necessity, the students are subdivided into groups for practical purposes, it is vital that the design is fully randomised. Sometimes, however, this is not always possible, with logistical issues including dealing with special needs students who may require more time and have to be managed exclusively within a separate cycle. Any non-random subgroups must be excluded from statistically-based types of analysis that rely on randomness in the data as a key assumption. 

[이상적인 평가 프로세스]에서 모든 점수 변동은 [학생의 수행능력 차이]로 인해 생겨야 하며, 아래와 같은 것이 원인이 되어서는 안 된다.

  • 환경(예: 배치 또는 장비의 국부적 변화),
  • 위치(예: 임상 조건 관리를 위한 지역 정책이 서로 다른 병원 기반 현장) 또는
  • 평가자 태도의 차이(즉, 매와 비둘기)

In the ideal assessment process, all the variation in marks will be due to differences in student performance, and not due to differences in

  • environment (e.g. local variations in layout or equipment),
  • location (e.g. hospital-based sites having different local policies for management of clinical conditions) or
  • differences of assessor attitude (i.e. hawks and doves).

이러한 효과를 측정하는 방법에는 측점에 대해 일원 분산 분석(예: 평가자를 고정 효과로 사용)을 수행하거나 그룹별 총 분산 비율을 계산하는 두 가지가 있습니다. 일반적으로 회로에 특정한circuit-specific 분산의 비율로 제공되지만, 후자에서는 위에서 언급한 다른 가능 요인들과 구별되는 학생 성과로 인한 체크리스트 점수의 변동 비율을 추정할 수 있습니다.

There are two ways of measuring such effects, either by performing a one-way analysis of variance (ANOVA) on the station (e.g. with the assessor as a fixed effect) or by computing the proportion of total variance which is group specific. The latter allows an estimation of the proportion of variation in checklist scores that is due to student performance as distinct from other possible factors mentioned above, although this is usually given as the proportion of variance which is circuit specific. 

분산 성분을 계산하면 그룹(즉, 회로)을 랜덤 효과로 사용하여 그룹에 특정된 분산 비율을 계산할 수 있습니다. 이는 그룹 간 평가 프로세스의 균일성을 매우 잘 나타내므로 매우 강력한 메트릭입니다. 계산도 비교적 간단하다. 이상적으로는 그룹 간 분산이 30% 미만이어야 하며 40%를 초과하는 값이 나오면 검토가 필요하다. 40% 이상의 값은 학생 성과보다는 평가자 행동 및 기타 회로 특정 특성으로 인해 발생하는 스테이션 수준에서의 잠재적인 문제를 나타냅니다.
If the variance components are computed, using group (i.e. circuit) as a random effect, then the percentage of variance specific to group can be computed. This is a very powerful metric as it gives a very good indication of the uniformity of the assessment process between groups. It is also relatively straightforward to calculate. Ideally between-group variance should be under 30%, and values over 40% should give cause for concern, indicating potential problems at the station level due to inconsistent assessor behaviour and/or other circuit specific characteristics, rather than student performance.



표 2에서 스테이션 6, 17 및 19는 그룹 간 분산 수준이 가장 높은 이 메트릭과 관련된 원인을 제공합니다. 또한 스테이션 6는 R2도 불량이며, 이 스테이션의 불량 메트릭스의 전체적인 조합은 불량 R2가 아마도 불량한 체크리스트 설계 때문일 것이라는 것을 말해줍니다. 
From Table 2, stations 6, 17 and 19 give cause for concern with regard to this metric, with the highest levels of betweengroup variance. In addition, station 6 has a poor R2, and the overall combination of poor metrics at this station tells us that the poor R2 was probably due to poor checklist design. 

(6번 스테이션의) 체크리스트는 약한 응시자들이 '과정'을 통해서만 높은 점수를 얻을 수 있는 낮은 수준의 기준들로 구성된 것으로 밝혀졌다. 따라서 스테이션을 재설계할 때 당초 의도한 대로 높은 수준의 프로세스를 쉽게 평가하기 위해 낮은 수준의 기준을 여러 개 청크 처리(즉, 상위 수준의 기준을 형성하기 위해 함께 묶음)하였다.

the checklist was found to consist of a large number of lowlevel criteria where weaker candidates could attain high scores through ‘process’ only. Hence, in redesigning the station, a number of the low-level criteria were chunked (i.e. grouped together to form a higher level criterion) in order to facilitate the assessment of higher level processes as originally intended. 

스테이션 17은 이야기가 조금 다르다. (높은) 그룹 간 변동을 양호한 R2와 결합해서 판단했을 때, 평가자들이 그룹 내에서 일관되게 표시하고 있지만 그룹 간에 뚜렷한 매와 비둘기 효과가 있음을 나타내기 때문이다. 이러한 경우에는 일원 분산 분석 분석을 통해 이것이 개별 평가자인지 또는 현장 현상인지를 파악하여 이 문제를 추가로 조사해야 합니다. 서로 다른 부지에 귀속되는 분산의 양은 위에서 설명한 것처럼 스테이션 간 분산의 간단한 계산에 포함된다. 
Station 17 tells a different story, as the good R2 coupled with the high between-group variation indicates that assessors are marking consistently within groups, but that there is a distinct hawks and doves effect between groups. In such a case, this ought to be further investigated by undertaking a one-way ANOVA analysis to determine whether this is an individual assessor or a site phenomenon. The amount of variance attributable to different sites is subsumed in the simple computation of within-station between-group variance as describe above. 

그러나 모집단이 상당히 많은 경우 분산 분석을 개별 관측소에 적용하면 많은 그룹에 걸친 다중 유의성 검정으로 인한 유형 I 오차의 결과로 인해 적어도 하나의 유의한 결과가 나타날 수 있으므로 단일 측정 기준에 근거하여 판단할 때 주의를 기울여야 합니다. 
However, care needs to be exercised in making judgements based on a single metric, since, with quite large populations, applying ANOVA to individual stations is likely to reveal at least one significant result, as a result of a type I error due to multiple significance tests across a large number of groups 

메트릭 6: 군간 분산(기타 효과)
Metric 6: Between group variance (other effects)

일원 분산 분석은 또한 [다중 사이트 평가]가 발생할 수 있는 [대규모 코호트]가 있는 일부 의과대학 및 관련 교습병원에서처럼 평가자 또는 학생 중 한 명이 랜덤하게 할당되지 않은 경우에도 사용할 수 있습니다. 이러한 복잡한 배치로 인해 임상 직원이 작업 장소를 떠나기가 종종 어렵기 때문에 평가자가 회로circuit에 무작위로 할당되지 않을 수 있습니다. 따라서 결과 분석에서 취한 적절한 조치를 통해 식별할 수 있는 '현장 효과site effects'로 인해 상당한 차이가 발생할 수 있다. 
ANOVA analysis can also be of use when there are nonrandom allocations of either assessors or students, as is the case in some medical schools with large cohorts and associated teaching hospitals where multi-site assessment may occur. Such complex arrangements can result in the nonrandom assignment of assessors to circuits since it is often difficult for clinical staff to leave their places of work. This may then lead to significant differences due to ‘site effects’ which can be identified with appropriate action taken in the analysis of results. 

다른 중요한 고정 효과도 분산 분석을 통해 확인할 수 있습니다. 예를 들어, 평가자 교육 효과, 직원/학생 성별 효과 및 관련 상호작용, 
Other important fixed effects can also be identified through use of ANOVA. For example,

  • assessor training effects,
  • staff/ student gender effects, and
  • associated interactions, 




계량 7: 표준화된 환자 등급
Metric 7: Standardised patient ratings


시뮬레이션/표준화된 환자(SP)를 사용하는 대부분의 센터는 후보자를 평가하도록 요구하며, 이는 일반적으로 집중적인 훈련 프로그램을 따른다. 우리 기관 내에서 SP는 "이 의사와 다시 상담하시겠습니까?"와 같은 질문을 받을 것입니다. 다양한 반응(동의함, 동의함, 동의함, 동의하지 않음, 동의하지 않음 또는 강하게 동의하지 않음)에서 후자의 두 반응은 불리한 것으로 간주한다. 메트릭 4(스테이션 Failure 횟수)와 마찬가지로 SP 등급에 불리한 점수를 받는 후보자의 정상 비율보다 비율(예: >10%)이 높다면, 문제라고 볼 수 있습니다. 스테이션 레벨에서 SP 등급의 '허용 가능한' 범위에 대한 사용 가능한 문헌이 없으므로 임의적으로 컷오프 수치 10%를 선택했습니다. 
Most centres that use simulated/standardised patients (SPs) require them to rate candidates, and this typically follows an intensive training programme. Within our own institution, SPs would be asked a question such as Would you like to consult again with this doctor? with a range of responses (strongly agree, agree, neither agree nor disagree, disagree or strongly disagree), the two latter responses being regarded as adverse. Akin to Metric 4 (Number of station failures), a higher than normal proportion of candidates (e.g. 410%) receiving adverse SP ratings may indicate problems. There is no available literature on what constitutes an ‘acceptable’ range of SP ratings at station level, so we have chosen an arbitrary cut off figure of 10%. 


정상보다 높은 Failure률과 결합할 경우 (스테이션에서 다루는) 주제를 제대로 가르치지 못한 결과일 수 있습니다. 
If this is coupled with a higher than normal failure rate, it could be the result of inadequate teaching of the topic. 


평가의 전반적인 신뢰성은 점검표 점수에 SP 등급을 추가하면 높아질 수 있습니다. 일반적으로 SP 등급은 총 스테이션 점수의 10-20%를 기여해야 합니다(Homer & Pell 2009). 
The overall reliability of the assessment may be increased by adding the SP rating to the checklist score; typically the SP rating should contribute 10–20% of the total station score (Homer & Pell 2009). 

OSCE 품질의 360도 그림
The 360 degree picture of OSCE quality


스테이션 8의 측정 지표(상담, 진단 및 의사결정에 초점을 맞춘)의 검토는 전체 평가 신뢰도에 긍정적인 기여를 한다(항목 삭제 시 알파 0.749). 그림 4의 곡선 추정치에서 볼 수 있듯이, R2계수는 0.4로 저조하며, 등급 내 항목 체크리스트 점수가 광범위하며, 상위 등급(통과, 신용, 구별)에 걸쳐 상당히 중복된다. 
Review of the metrics of station 8 (focusing on consultation, diagnosis and decision making) shows a positive contribution to overall assessment reliability (alpha if item deleted 0.749). As can be seen below in the curve estimation in Figure 4, the R2 coefficient is poor at 0.4 with a widespread of itemchecklist scores within grades, and significant overlap across the higher grades (pass, credit and distinction). 

 



스테이션 9는 아래 그림 5의 곡선 추정으로 표시됩니다. 여기서는 신뢰성에 대한 보다 긍정적인 기여(항목 삭제 시 알파 0.74)와 더 나은 스테이션 수준 메트릭을 확인할 수 있습니다. R2 계수는 0.5에서 허용되지만 군간 분산은 36%로 여전히 높습니다.

Station 9 is represented by the curve estimation seen below in Figure 5. Here we see a more strongly positive contribution to reliability (alpha if item deleted 0.74) and better station-level metrics. The R2 coefficient is acceptable at 0.5, but between group variance is still high at 36%.  

 

관측치에 의한 품질 관리: OSCE까지 실행 중인 문제 및 당일 탐지 
Quality control by observation: Detecting problems in the run up to OSCEs and on the day 


OSCE에 앞서, 오류 분산에 기여하는 많은 요소들을 예측하고 아래 사항들을 적용하여 수정할 수 있습니다. 
In advance of the OSCE, many of the contributing factors toerror variance can be anticipated and corrected by applying some of the points below 

. 설계가 일치도congruence를 확인하기 위해 여러 스테이션에 걸쳐across stations 검사

. 체크리스트 설계, 가중치 및 고정점 측면에서 신규(그리고 기존) 스테이션이 최신 요구 사항을 준수하는지 확인  

. 여러 병렬적 OSCE circuit의 세팅이 동일한지 검토: 예를 들어 스테이션 외부에 소독제를 배치하게 되면, 평가자는 응시자가 손 위생을 제대로 하는지 평가할 수 없다.

. 스테이션이 동일한 장비 제공(또는 학생들이 [서로 다른 장비]로 [서로 다른 접근 방식]을 배웠다면 유연성을 허용).  

. Checking across stations to ensure congruence in design.

. Ensuring that new (and older, established) stations follow up to date requirements in terms of checklist design,weighting and anchor points.  

. Reviewing the set up of parallel OSCE circuits – for example, differences in the placing of gel disinfectant outside a station may mean that the assessor may not beable to score hand hygiene approaches.  

. Ensuring that stations carry the same provision of equipment (or permit flexibility if students are taught different approaches with different equipment).  


OSCE를 전달하는 동안 오류 분산의 다른 원인이 발생할 수 있습니다.
Other sources of error variance can occur during the delivery of the OSCE:

. 평가 전 브리핑에 늦게 도착하여 지정된 방법론을 제대로 준수하지 못한 평가자.  

평가자의 무단 요청prompting(교육 및 사전 시험 브리핑에도 불구하고). 

. 평가자에 의한 부적절한 행동(예: 과도한 상호작용을 통해 스테이션의 '톤'을 바꿈). 

. 질문이 학생들에게 프롬프트 역할을 하는 지나치게 적극/유도자극적인 시뮬레이션 환자. 

. 편향된 실제 환자(예: 성별 또는 인종 편견). 시뮬레이션 환자는 후보자와 상호작용하는 방법에 대한 교육을 받지만, 실제 환자 대다수가 시뮬레이터와 동일한 수준으로 수행하는 것은 가능하지 않을 수 있다.  

. 응시자가 교대할 때, (평가자(또는 보조자)가) 장비를 출발 또는 중립 위치로 되돌리지 않는 것


. Assessors who arrive late and miss the pre-assessment briefing and who therefore fail to adhere adequately to the prescribed methodology.  

. Unauthorised prompting by assessors (despite training andpre-exam briefings). 

. Inappropriate behaviour by assessors (e.g. changing the‘tone’ of a station through excessive interaction). 

. Excessively proactive simulated patients whose questionsact as prompts to the students. 

. Biased real patients (e.g. gender or race bias). Simulated patients receive training on how to interact with the candidates, but this may not be possible with the majorityof real patients to the same level undertaken with simulators.  

. Assessors (or assistants) not returning equipment to the startor neutral position as candidates change over.

사후 교정 조치
Post hoc remedial action


장소 효과에 대한 총 점수 조정
Adjustment of total marks for site effects


가장 쉬운 방법은 모든 사이트에서 공통의 평균으로 조정하는 것입니다. 이러한 조정 후에는 예를 들어 모든 falure가 단일 사이트에 국한되지 않도록 불합격 학생의 사이트 프로파일을 확인해야 합니다. 조정 수준을 계산할 때 단일 특정 사이트 내에 위치한 특수 요구 그룹(예: 후보자에게 건강 요구의 결과로 추가 시간을 제공)의 효과를 할인해야 합니다.
The easiest method is to adjust to a common mean across allsites. After any such adjustment, the site profile of failing students should be checked to ensure that, for example, allfailures are not confined to a single site. The effect of any special needs group (e.g. candidates receiving extra time as aresult of health needs) located within a single specific site needs to be discounted when computing the adjustment level.

측점 레벨 조정
Adjustment at the station level

어떤 부작용도 서로를 취소시키는 경향이 있기 때문에 이것은 거의 필요하지 않습니다. 드문 경우지만 위의 스테이션 레벨 절차를 수행할 수 있습니다. 
This is seldom necessary because any adverse effects will tend to cancel each other out. In the rare cases where this does not happen, a station level procedure as above can be carried out. 

스테이션 제거
Removal of a station


다시 말하지만, 이는 드문 사건이며 그 기준은 일반적으로 복수의 불리한 측정 기준이며, 그 결과는 평가 결정이 항소에 대해 변명의 여지가 없을 정도로 학생들에게 불리하게 작용할 것이다. 
Again, this is a rare event and the criteria for this is usually multiple adverse metrics, the result of which would disadvantage students to such an extent that the assessment decisions are indefensible against appeal. 

결론
Conclusion


저자의 기관에서는 데이터를 분석하는 사람과 임상 평가를 설계 및 관리하고 교육을 개발/제공하는 사람이 서로 밀접하게 관계를 가지고 있다. 스테이션 레벨 메트릭에 대한 일상적이고 자세한 검토에서 체크리스트와 글로벌 등급 간의 불일치가 발견되었습니다. 분석 결과를 바탕으로 특정 OSCE 스테이션을 재설계하고 이후 측정 기준을 개선했습니다. 이러한 재설계에는 다음이 포함됩니다.
In the authors’ institution, there is a close relationship between those who analyse the data, and those who design and administer the clinical assessments and develop/deliver teaching. Routine and detailed review of station level metrics has revealed mismatches between checklists and global ratings. This has lead to the redesign of certain OSCE stations with a subsequent improvement of metrics. Some of these redesigns include: 

. 다수의 단순한 기준을 더 높은 수준의 더 적은 기준으로 청킹(묶음).

. 더 높은 수준의 기준을 허용하기 위해 청킹(Chunking)을 수행함으로써, 더 높은 수준의 프로세스 중심 성과를 평가할 수 있습니다.

. 평가자 체크리스트에 [중간 등급 기술자]를 포함.

. 체크리스트 기준에 해당하는 경우 두 개의 anchor 대신 세 개의 anchor을 두도록 보장함으로써 평가자에 의한 차별이 더 커지도록 한다.

. 서로 다른 회로의 물리적 배열arrangement 간의 획일성uniformity이 높아집니다.

. Chunking of a number of simple criteria into fewer criteria of higher level.

. Chunking to allow for higher level criteria commensurate with the stage of student progression, allowing assessment of higher level, less process-driven performance.

. The inclusion of intermediate grade descriptors on the assessor checklists.

. Ensuring that checklist criteria have three instead of two anchors where appropriate, thereby allowing greater discrimination by assessors.

. A greater degree of uniformity between the physical arrangements of the different circuits.



[평가자 간의 일치도가 좋지 않다는 징후]는 때때로 평가의 품질에 도움이 되는 여러 가지 변화로 이어집니다.
Indications of poor agreement between assessors has, on occasion, lead to a number of changes all of which have been beneficial to the quality of assessment:

. 평가자 훈련 방법 업그레이드.

. 오래전에 교육을 받은 평가자 업데이트('새로 고침')

. 평가자를 위한 보다 상세한 서포트 자료 제공.

. 평가 전 평가자 브리핑 개선

. 평가 전에 SP 브리핑 개선

. 더미는 평가자와 SP 모두에 대한 공식적인 평가 전에 실행됩니다(예: 학생 수가 상대적으로 적은 경우, 그리고 학생 수가 적은 치과 OSCE에서만 실제로 실행 가능합니다).

. Upgrading of assessor training methods.

. Updating (‘refreshing’) assessors who were trained some time ago.

. The provision of more detailed support material for assessors.

. Improved assessor briefings prior to the assessment.

. Improved SP briefings prior to the assessment.

. Dummy runs before the formal assessment for both assessors and SPs (this is only really practicable where students numbers are relatively small, e.g. resits, and in dental OSCEs with smaller cohorts of students).

 

 

 

 


Med Teach. 2010;32(10):802-11.

 doi: 10.3109/0142159X.2010.507716.

How to measure the quality of the OSCE: A review of metrics - AMEE guide no. 49

Godfrey Pell 1Richard FullerMatthew HomerTrudie RobertsInternational Association for Medical Education

Affiliations collapse

Affiliation

  • 1Leeds Institute of Medical Education, University of Leeds, Level 7, Room 7.20, Worsley Building, Clarendon Way, Leeds LS2 9NL, UK. g.pell@leeds.ac.uk

Free article

Abstract

With an increasing use of criterion-based assessment techniques in both undergraduate and postgraduate healthcare programmes, there is a consequent need to ensure the quality and rigour of these assessments. The obvious question for those responsible for delivering assessment is how is this 'quality' measured, and what mechanisms might there be that allow improvements in assessment quality over time to be demonstrated? Whilst a small base of literature exists, few papers give more than one or two metrics as measures of quality in Objective Structured Clinical Examinations (OSCEs). In this guide, aimed at assessment practitioners, the authors aim to review the metrics that are available for measuring quality and indicate how a rounded picture of OSCE assessment quality may be constructed by using a variety of such measures, and also to consider which characteristics of the OSCE are appropriately judged by which measure(s). The authors will discuss the quality issues both at the individual station level and across the complete clinical assessment as a whole, using a series of 'worked examples' drawn from OSCE data sets from the authors' institution.

 

 

 

+ Recent posts