OSCE에서 경계선 집단 방법과 경계선 회귀 방법을 기준-기반 합격선 설정과 비교(J Educ Eval Health Prof. 2021)
Comparing the cut score for the borderline group method and borderline regression method with norm-referenced standard setting in an objective structured clinical examination in medical school in Korea 
Song Yi Park1,2, Sang-Hwa Lee2*, Min-Jeong Kim3, Ki-Hwan Ji4, Ji Ho Ryu5




합격선 설정은 인간의 판단을 합리적이고 방어 가능한 방식으로 종합하여 점수 척도를 카테고리로 분류하는 과정입니다[1]. 실제 시험에서 커트라인 점수를 설정하는 것과 관련하여 '골드 스탠다드'는 없지만, 이 활동은 보건 전문직에서 매우 중요합니다[2]. 이는 의료 행위의 허용 여부를 평가하기 위해 의료 행위의 성과에 대한 최소한의 판단입니다. 
Standard setting is a process by which human judgment can be synthesized in a rational and defensible way to classify score scales into categories [1]. Although there is no ‘gold standard’ in regard to setting the cut score in real examinations, this activity is critical in health professions [2]. This is the minimum judgment on the performance of medical practice to assess whether it is acceptable or unacceptable.

합격선에는 규범 참조형(상대적)과 기준 참조형(절대적)의 두 가지 유형이 있습니다. 의학교육 시험의 경우 일반적으로 기준 참조형 표준이 선호됩니다. 기준 참조 표준은 개별 수험생에 대한 정보가 거의 없기 때문에 수험생 그룹의 역량 수준에 따라 커트라인 점수가 달라집니다. 기준 참조 표준 설정 방법에는 시험 중심과 수험자 중심의 두 가지 유형이 있습니다. 전자는 객관식 시험과 같은 지식 평가에서 커트라인 점수를 설정하는 데 적합하고, 후자는 객관적 구조화 임상시험(OSCE)과 같은 수행 평가에 적합합니다[3]. 수험자 중심의 표준 설정으로 잘 알려진 것은 대조군 방법과 경계선 그룹 방법(BGM)입니다. 
There are 2 types of standards: norm-referenced (relative) and criterion-referenced (absolute). For medical education examinations, a criterion-referenced standard is generally preferred. Because the norm-referenced standard tells little about the individual examinee, the cut score varies according to the competency level of the examinee group. Criterion-referenced standard setting methods are of 2 types: test-centered and examinee-centered. The former is appealing for setting a cut score on knowledge assessment, such as multiple-choice examination, and the latter is well suited for performance assessment, such as objective structured clinical examination (OSCE) [3]. Well-known examinee-centered standard settings are the contrasting groups method and the borderline group method (BGM).

BGM에서는 시험관이 양호, 경계선, 불합격과 같은 글로벌 등급 척도로 수험생의 성적을 평가합니다. 컷 점수는 경계선 등급을 받은 수험생의 중간 점수입니다. BGM은 시간 효율적이고 구현이 간단합니다. 하지만 경계선 그룹에 대한 합의 도출이 어렵고, 경계선 수험생 수가 적을 경우 컷 점수의 타당도가 낮을 수 있다는 점에서 한계가 있습니다[4]. 이러한 BGM의 한계를 인식하여 모든 OSCE 체크리스트 점수를 사용하여 선형 회귀를 통해 컷 점수를 개발하는 경계선 회귀법(BRM)이 개발되었습니다. 글로벌 등급 점수를 OSCE 총점으로 회귀하면 선형 방정식이 산출됩니다. 경계선 그룹의 예상 커트라인 점수는 경계선 등급 값을 회귀 방정식에 대입하여 결정됩니다. 
In the BGM, examiners evaluate students’ performance on a global rating scale such as good, borderline, and fail. The cut scores are the median scores of examinees with borderline ratings. The BGM is time efficient and straightforward to implement. However, it has some limitations in that achieving consensus on the borderline group is difficult, and when the number of borderline examinees is small, the cut score may have low validity [4]. Recognizing the limitations of the BGM, the borderline regression method (BRM) was developed, which uses all OSCE checklist scores to develop a cut score using linear regression. Regression of global rating scores to OSCE total scores yields a linear equation. The predicted cut score of the borderline group is determined by substituting the borderline rating values into the regression equation.

그러나 수험생 중심의 기준 설정 방법이 수행 평가의 커트라인 점수 설정에 항상 적용되는 것은 아닌 것으로 보입니다. 어떤 경우에는 의료 전문가 교육자들이 의사의 역량을 평가하기 위해 적절한 방법이 아니더라도 사용 가능한 평가 방법을 사용하기도 합니다[5]. 규범 참조 기준 설정에 따른 컷 점수(보통 60 백분위수)도 성과 평가에 사용됩니다[6]. 이 표준 설정은 이해하고 적용하기 쉽습니다. 그러나 규범 참조 표준 설정은 스테이션의 난이도를 고려하지 않기 때문에 정당화하기 어렵습니다 [4]. 
However, it seems that examinee-centered standard-setting methods do not always apply to the setting of cut scores in performance assessments. In some instances, health care professional educators have used available assessment methods to assess a physician’s competencies even if the methods were not appropriate [5]. The cut score (usually 60 percentile) based on the norm-referenced standard setting is also used in the performance assessment [6]. This standard setting is easy to understand and apply. However, norm-referenced standard setting is difficult to justify because it does not consider the difficulty of the stations [4].

부적절한 표준 설정 방법은 바람직하지 않은 결과를 초래할 수 있습니다. 실력이 있는데도 불합격하는 수험생과 실력이 없는데도 합격하는 수험생이 있을 수 있습니다. 이는 의학교육자뿐만 아니라 교육 행정가에게도 중요한 문제입니다. 그러나 표준 설정에 대한 연구는 거의 없으며, 국내 의학교육 및 간호교육에서 Angoff, Ebel과 같은 시험 중심의 표준 설정 방법을 비교한 연구가 대부분이었다[7-9]. 의료계에서 수행 평가는 매우 중요한 부분입니다. 따라서 수험자 중심의 기준 설정 방법도 중요하게 고려되어야 하지만, 국내에서는 이에 대한 연구가 전무한 실정이다. 
Inappropriate standard setting method can lead to undesirable result. There may be examinees who fail even though they are competent and examinees who pass even though they are not competent. This is an important issue for educational administrators as well as medical educators. However, there are few studies on standard setting and most of the studies have been about comparison of test-centered standard setting method such as Angoff, Ebel in medical and nursing educations in Korea [7-9]. Performance assessment is an important part of the medical profession. Therefore, examinee-centered standard setting method should also be considered as important, but there has been no research on this in Korea.

연구 목적

본 연구의 연구문제는 의과대학입문자격시험에서 표준설정방식을 규준참조방식에서 BGM과 BRM으로 변경하였을 때 커트라인 점수가 어떻게 변화하는지에 대한 것이다. 본 연구의 목적은 의과대학 4학년 학생을 대상으로 한 OSCE에서 표준점수 설정 방식을 규범 참조 방식에서 BGM과 BRM으로 변경했을 때 커트라인 점수가 어떻게 달라지는지 비교하는 것이었습니다. 이 연구 결과는 수행평가를 담당하는 교육 관리자 및 의학교육자에게 실질적인 도움이 될 수 있습니다. 
The research question of this study was how the cut scores changed when the standard setting method was changed from a norm-referenced method to the BGM and BRM in an OSCE for medical students. The aim of this study was to compare the cut score when the standard setting is changed from the norm-referenced method to the BGM and BRM in an OSCE of fourth-year medical students. The results of this study can be of practical help to educational administrators and medical educators who are in charge of the performance assessment.


윤리 선언문
Ethics statement

본 연구는 동아대학교 기관생명윤리심의위원회의 승인을 받았습니다(IRB 승인번호, 2-1040709-AB-N-01-202106-HR-047-02). 본 연구는 인간 대상 또는 인간 유래 물질을 대상으로 하지 않았으므로 피험자의 사전 동의를 받지 않았습니다. 
This study was approved by the Institutional Review Board of Dong-A University (IRB approval no., 2-1040709-AB-N-01-202106-HR-047-02). This study was not on human subjects or human-originated materials; thus, informed consent from subjects was not indicated.

연구 설계
Study design

이 연구는 컷 점수를 파악하고 분석하여 표준을 설정하기 위한 BGM 및 BRM의 구현을 모델링하기 위한 탐색적 연구였습니다[10]. 
This was an explorative study to model the implementation of BGM and BRM for setting the standard by identifying and analyzing the cut score [10].


본 연구는 지난 7월 12일부터 15일까지 부산-경남 임상술기시험(BGCSE) 컨소시엄에서 시행한 부산-경남 임상술기시험 최종일 시험 결과에 적용되었습니다. 부산-경남 임상술기시험 컨소시엄은 부산-경남 지역 5개 의과대학 연합으로, 2014년부터 매년 3, 4학년 의대생을 대상으로 의사국가고시 공동 임상술기시험을 실시해 왔다[11]. 
This study was applied to the final day’s examination results of the Busan-Gyeongnam Clinical Skill Examination (BGCSE) conducted by the BGCSE consortium from July 12th to 15th, 2021. The consortium is an association of 5 medical schools in Busan-Gyeongnam region of South Korea that have annually conducted joint clinical skill examinations for the OSCE for third- and fourth-year medical students since 2014 [11].

시험은 학생들이 표준화 환자(SP)를 접하는 7개의 스테이션과 마네킹을 대상으로 시술 술기를 수행하는 1개의 스테이션으로 구성되었습니다. 각 스테이션의 주제는 다음과 같습니다:

  • 스테이션 1, 지난 한 달 동안 기침과 호흡곤란을 호소하는 60세 여성,
  • 스테이션 2, 오른쪽 눈이 붓고 멍이 든 41세 여성,
  • 스테이션 3, 일주일 전부터 오른쪽 무릎 통증이 있는 44세 남성,
  • 스테이션 4, 2개월 동안 가끔씩 질 출혈이 있는 40세 여성;
  • 스테이션 5, 오늘 아침 발작을 일으킨 26세 남성,
  • 스테이션 6 , 오늘 아침 기상 후 갑자기 어지럼증이 시작된 46세 여성,
  • 스테이션 7, 오른쪽 하복부 통증이 있는 21세 여성,
  • 스테이션 8, 병동 복도에서 갑자기 의식을 잃은 57세 남성이었습니다.

이 연구를 위해 새로 추가되거나 개발된 스테이션은 없었습니다. 
The examination was comprised of 7 stations where students encountered standardized patients (SPs) and 1 station where students performed procedural skills on a manikin. The topic of each station was as follows: station 1, a 60-year-old woman presented with cough and shortness of breath for the past month; station 2, a 41-year-old woman presented with swelling and bruising of her right eye; station 3, a 44-year-old man with a right knee pain from a week ago; station 4, a 40-year-old woman with occasional vaginal bleeding for 2 months; station 5, a 26-year-old man with seizure this morning; station 6, a 46-year-old woman with sudden onset of dizziness after waking up this morning; station 7, a 21-year-old woman with right lower abdominal pain; and station 8, a 57-year-old man suddenly lost consciousness in a ward hallway. There were no newly added or developed stations for this study.

검사관 교육은 평소와 동일한 방식으로 진행되었습니다. 총 32명의 의사 시험관이 4개 의과대학의 각 스테이션에서 체크리스트와 글로벌 평가 척도를 작성하여 수험자의 수행 능력을 평가했습니다. 글로벌 평가에서 기존 4점 숫자 척도의 숙련도 평가가 불합격, 경계선, 양호, 우수의 범주형 척도로 변경된 것이 유일한 변경 사항입니다. 각 스테이션의 컷 점수는 다음과 같이 결정되었습니다: (1) 평균과 표준편차(SD)를 계산하고, (2) 평균에서 1 SD를 뺀 다음, (3) 이 점수를 커트라인 점수로 설정합니다.
The examiners’ training proceeded in the same way as usual. A total of 32 physician examiners evaluated examinee performance at each station in 4 medical schools by completing the checklist and global rating scales. The only change was that the existing 4-point numeric scale for proficiency in global rating was changed to a categorical scale of fail, borderline, good, and excellent. The cut score of each station was determined as follows: (1) calculate the mean and standard deviation (SD); (2) subtract 1 SD from the mean; and (3) set this score as the cut score.


5개 의과대학에서 총 107명의 4학년 의대생이 4개 의과대학 술기 센터에서 열린 BGCSE 마지막 날에 참석했습니다. 
A total of 107 fourth-year medical students from 5 medical schools attended the last day of the BGCSE at 4 medical school skill centers.


주요 결과는 각 스테이션의 규범 참조 방식, BGM, BRM에 의한 컷 점수로 정의했습니다.

  • 표준참조법의 컷 점수는 각 스테이션의 평균에서 1 SD를 빼는 방식으로 결정되었으며, 이는 BGCSE의 기존 방식입니다.
  • BGM의 컷 점수는 다음과 같은 단계로 수행되었습니다: (1) 경계선 그룹 수험자를 식별하고, (2) 체크리스트 점수를 수집하고, (3) 이 그룹의 중앙값을 컷 점수로 설정했습니다.
  • BRM의 컷 점수는 다음 단계에 따라 결정되었습니다: (1) 모든 수검자의 체크리스트 점수와 전체 평가 점수를 수집하고, (2) Microsoft Excel(Microsoft Corp., 미국 워싱턴주 레드몬드)을 사용하여 회귀 방정식(y=a+bx)을 만들고, (3) 경계선 그룹의 척도(본 연구에서는 x=2)를 방정식에 삽입하고, (4) 방정식에서 계산된 y를 컷 점수로 설정했습니다. 

The primary outcomes were defined as a cut score by the norm-referenced method, BGM, and BRM of each station.

  • The cut score of norm-referenced method was determined by subtracting 1 SD from the mean of each station, which is the conventional method in BGCSE.
  • The cut score of the BGM was performed by the following steps: (1) borderline group examinees were identified, (2) their checklist scores were collected, and (3) the median score for this group was set as the cut score.
  • The cut score of the BRM was determined as following steps: (1) checklist and global rating scores of all examinees at the station were collected, (2) a regression equation (y=a+bx) was produced using Microsoft Excel (Microsoft Corp., Redmond, WA, USA), (3) the scale of borderline group (in this study, x=2) was inserted into the equation, and (4) the calculated y of the equation was set as the cut score.

2차 결과는 각 표준 설정 방법에 따라 각 스테이션에서 불합격 학생의 수로 정의했습니다. 
The secondary outcome was defined as the number of failed students at each station according to each standard setting method.

데이터 소스/측정
Data sources/measurement

시험관들은 컴퓨터 프로그램을 사용하여 학생들의 성적을 채점했으며, 결과는 자동으로 처리되었습니다. 모든 변수는 엑셀 스프레드시트(Microsoft Corp.)에 기록했습니다.편향성연구 계획에서 편향성은 발견되지 않았습니다. 
The examiners scored the students’ performance using a computer program, and the results were automatically processed. All variables were recorded in an Excel spreadsheet (Microsoft Corp.).BiasNo bias was found in the study scheme.

연구 규모
Study size

이 연구는 효과를 결정하기 위한 것이 아니므로 표본 크기를 계산하지 않았습니다. 
This study was not intended to determine effect and was therefore not indicated to calculate sample size.

통계적 방법
Statistical methods

각 스테이션과 경계선 그룹의 평균과 SD를 포함한 기술적 통계가 사용되었습니다. 회귀 분석은 Microsoft Excel ver. 2105(Microsoft Corp.)를 사용하여 회귀 방정식을 생성했습니다. 회귀 방정식에 경계선 그룹의 척도(x=2)를 삽입하여 BRM의 컷 점수를 계산했습니다. 표준 참조 방식과 BGM, 그리고 표준 참조 방식과 BRM 간의 컷 점수 비교를 위해 쌍으로 된 t-검정을 실시했습니다. P-값이 0.05 미만이면 유의미한 것으로 간주했습니다. 
Descriptive statistics were used, including the mean and SD of each station and borderline group. Regression analysis was conducted to produce a regression equation using Microsoft Excel ver. 2105 (Microsoft Corp.). The scale of the borderline group (x=2) was inserted into the regression equation to calculate the cut score of the BRM. A paired t-test for the cut score comparison between the norm-referenced method and BGM, and between the norm-referenced method and BRM were conducted. The P-value <0.05 was considered significant.



총 107명의 학생이 시험을 완료했으며, 32명의 교수가 시험관으로 참여했습니다. 
A total of 107 students completed the examination, and 32 professors participated as examiners.

주요 결과
Main results

7개 SP 접점 스테이션과 1개 스킬 스테이션의 G-계수를 사용한 신뢰도는 각각 0.76, 0.73이었습니다(표 1, 2).
The reliability using the G-coefficient in 7 SP encounter stations and 1 skill station was 0.76 and 0.73, respectively (Tables 1, 2).


규범 참조 표준 설정 방법, BGM, BRM에 따른 각 스테이션의 예측 컷 점수
Predicted cut score of each station by the norm-referenced standard setting method, BGM, and BRM

표준 참조 방식과 각 스테이션의 BGM 및 BRM에 따른 평균, SD, 예측 컷 점수는 표 3과 데이터 세트 1에 나와 있습니다. 수험생들의 점수 히스토그램은 그림 1에 나와 있습니다. 각 스테이션에서 "경계선"으로 평가된 수험생의 비율은 그림 2에 나와 있습니다. 회귀 방정식, 결정 상관관계(R2), BRM에 의한 각 스테이션의 플롯은 표 4, 데이터 세트 1 및 그림 3에 나와 있습니다. 

The mean, SD, and predicted cut score by the norm-referenced method and the BGM and BRM of each station are shown in Table 3 and Dataset 1. The histogram of the examinees’ scores is shown in Fig. 1. The proportion of examinees rated as “borderline” at each station is shown in Fig. 2. The regression equation, correlation of determination (R2), and plot of each station by the BRM are shown in Table 4, Dataset 1, and Fig. 3.

표준 참조 방식의 컷 점수는 각 스테이션에서 BGM(P<0.01)과 BRM(P<0.02)보다 각각 낮았습니다. BGM과 BRM 간의 컷 점수는 유의미한 차이가 없었습니다(P=0.99)(표 3). SD가 가장 높은 스테이션 5와 '경계선' 판정을 받은 수검자 비율이 가장 높은 스테이션 6이 표준 설정 방법에 따른 컷 점수 차이가 가장 크게 나타났습니다(표 3). 각 스테이션의 판정 상관관계(R2)는 0.28~0.64 범위였습니다(표 4).  
The cut score of the norm-referenced method was lower than that of the BGM in each station (P<0.01) and BRM (P<0.02), respectively. There was no significant difference in the cut score between the BGM and BRM (P=0.99) (Table 3). Station 5, with the highest SD, and station 6, with the highest proportion of examinees rated as “borderline”, showed the largest cut score difference by standard setting methods (Table 3). The correlation of determination (R2) of each station ranged from 0.28 to 0.64 (Table 4).

표준점수 기준 설정 방식별 표준점수 미달 수험자 수, BGM 및 BRM
Number of examinees below standard by norm-referenced standard setting, BGM, and BRM

모든 스테이션에서 규범 참조 기준 설정 방식에 의한 불합격자 수보다 BGM과 BRM에 의한 불합격자 수가 더 많았습니다. 특히 3번, 5번, 6번 스테이션의 불합격자 수가 2배 가까이 증가했습니다(표 1). 
At all stations, there were more failed examinees by the BGM and BRM than by the norm-referenced standard setting method. In particular, the number of failed examinees at stations 3, 5, and 6 almost doubled (Table 1).


주요 결과
Key results

본 연구는 의과대학 4학년 학생을 대상으로 한 OSCE에서 표준 설정을 규범 참조 방식에서 BGM과 BRM으로 변경했을 때의 커트라인 점수를 비교하는 것을 목표로 했습니다. BGM과 BRM의 전체 커트라인 점수는 규범 참조 방식과 비슷하거나 더 높았기 때문에 불합격자 수가 더 많았습니다. 그러나 3번, 5번, 6번 문항은 표준점수 설정 방식에 따른 커트라인 점수 차이가 가장 크게 나타났습니다. 
This study aimed to compare the cut score when the standard setting was changed from the norm-referenced method to the BGM and BRM in an OSCE of fourth-year medical students. The overall cut scores of the BGM and BRM were similar or higher than those of the norm-referenced method; thus, the number of failed examinees was higher. However, stations 3, 5, and 6 showed the largest differences in the cut score according to each standard setting method.


의사국가고시에서 표준점수 설정은 중요하지만, 실제 의대생들의 데이터를 다루고 다양한 표준점수 설정 방법의 결과를 비교한 실제 가이드라인은 거의 없습니다. 이러한 표준 설정 방법의 특성을 비교하는 것은 의과대학의 시험 관리자에게 유용할 것입니다. 이 연구에서는 두 가지 표준 설정 방법의 실제 시행 사례를 보고하고 제공했습니다. 
The standard setting for OSCEs is important; however, there are few practical guidelines that handle real medical students’ data and compare the outcomes of using different standard setting methods. Comparing the characteristics of these standard setting methods would be useful for examination administrators of medical schools. This study reported and provided a real example of the implementation of 2 standard setting methods for OSCEs.

스테이션 3과 스테이션 6은 히스토그램을 고려할 때 케이스 난이도가 높은 것으로 보입니다(그림 1). 스테이션이 어려우면 점수가 낮은 수험생이 많을 수 있습니다. 실제 수험생 성적을 기준으로 하는 BGM과 BRM에서는 불합격 수험생이 증가할 수 있습니다. 하지만 표준점수 기준 방식(보통 1등급 또는 백분위 60점 이하로 설정)은 문항의 난이도를 고려하지 않고, 단순히 1등급 이하를 불합격으로 정의합니다. 스테이션 3과 6의 표준 설정에 따른 컷 점수의 차이는 규범 참조 방식이 어려운 스테이션에서 잘 작동하지 않는다는 것을 보여줍니다. 
Stations 3 and 6 seemed to have a high level of case difficulty considering their histograms (Fig. 1). If the station is difficult, there may be many examinees with low scores. Under the BGM and BRM, which are based on actual examinee performance, failed examinees would increase. However, the norm-referenced method (usually set below 1 SD or 60 percentile) does not consider the difficulty of the station; it simply defines failed examinations as below 1 SD. The difference in cut scores according to standard settings at stations 3 and 6 shows that the norm-referenced method does not function well in difficult stations.

스테이션 5는 경계선(15.89%)으로 평가된 수험생의 비율이 가장 낮고 SD가 가장 높았습니다(14.27). 경계선으로 평가된 코호트가 충분하지 않은 경우, 상대적으로 적은 수의 수험자를 기준으로 컷 점수가 산출되어 컷 점수와 관련된 통계적 오차가 증가할 수 있습니다[12]. 점수 분포가 왼쪽으로 치우쳐 있고 경계선 그룹이 전체 점수 분포의 아래쪽 얇은 꼬리에 위치하기 때문에 평균 또는 중앙값이 높은 쪽으로 편향될 수 있습니다[13]. 이러한 편향성은 본 연구 결과에서도 확인할 수 있습니다. 경계선 그룹이 가장 큰 스테이션 6의 경우 BGM과 BRM의 컷 점수 차이는 0.20으로 스테이션 간 차이가 가장 작았지만, 경계선 그룹이 가장 작은 스테이션 5의 경우 2.86으로 스테이션 간 차이가 가장 컸습니다. 스테이션 5에서 BGM과 BRM의 컷 점수 차이가 큰 것은 이러한 편향 때문인 것으로 생각됩니다. 경계선 그룹의 코호트가 더 작으면 이 차이는 더 커질 것입니다. 그러나 선형 회귀는 그룹 내의 모든 점수를 사용하므로 이러한 편향을 피할 수 있습니다. 
Station 5 had the lowest proportion of examinees rated as borderline (15.89%) and the highest SD (14.27). If there are insufficient cohorts evaluated as borderline, cut scores may be calculated based on a relatively small number of examinees, which may increase the statistical error associated with the cut score [12]. As the score distribution is left-skewed and the borderline group is at the lower thin tail of the overall score distribution, the mean or median will be biased toward the high side [13]. This bias can also be confirmed in the results of this study. In station 6 with the largest borderline group, the difference in cut score between BGM and BRM was 0.20 (the smallest difference among stations), but at station 5 with the smallest borderline group, it was 2.86 (the largest difference among stations). At station 5, the difference in cut scores between the BGM and BRM is thought to be due to this bias. If the cohort of borderline group is smaller, this difference will be larger. However, linear regression uses all the scores within the group and therefore avoids this bias.

이전 연구와의 비교
Comparison with previous studies

본 연구 결과에서 알 수 있듯이, 규범 참조 방식은 시험관이 수험생이 수행 능력이 부족하다고 평가했음에도 불구하고 합격할 위험이 있었습니다. 이러한 유형의 표준 설정은 일반적으로 채용 지원자를 선발하거나 채용 가능한 자리가 제한되어 있는 교육 프로그램에서 사용됩니다[14]. 표준 설정은 시험의 목표에 따라 적용되어야 합니다. 의과대학에서 지원자 선발에 OSCE를 사용하는 경우가 아니라면, 규범 참조 방법은 적절하지 않습니다. 
As the results of this study show, the norm-referenced method had a risk of examinees passing the station even though the examiner evaluated the examinee as not competent on the performance. This type of standard setting is typically used when selecting applicants for employment or for educational programs where available positions are limited [14]. The setting of standards should be applied according to the goal of the examination. If the OSCE is not used for applicant selection in medical school, the norm-referenced method is not appropriate.

BGM의 장점은 통계적 절차가 필요하지 않고 컷 점수 계산이 쉽다는 것입니다. 그러나 본 연구의 5번 스테이션에서와 같이 경계선 그룹이 충분하지 않은 경우 BGM은 잠재적인 문제가 발생할 수 있습니다. Wood 등[13]의 연구에서도 동일한 문제가 발견되었습니다. 이 연구에서 경계선 그룹은 20%(수험생 12/59명)였으며, 합격률의 차이는 BGM에서 69%, BRM에서 92%였습니다. 세부적으로 살펴보면 12명의 수험생 모두 경계선 만족(열등, 미흡, 경계선 불만족, 경계선 만족, 양호, 우수의 6점 척도 사용)으로 BRM의 커트라인 점수가 수험생의 성적을 더 적절히 반영하고 있음을 알 수 있습니다. 
The advantages of the BGM are that no statistical procedure is required and the cut score calculation is easy. However, the BGM can have a potential problem when the borderline group is not sufficient, such as in station 5 of this study. The same problem was also found in the study of Wood et al. [13]. In their study, the borderline group was 20% (12/59 examinees), and the difference in the pass rate was 69% in the BGM and 92% in the BRM. When the station was reviewed in detail, all 12 examinees had borderline satisfactory scale (they used 6-point scales with inferior, poor, borderline unsatisfactory, borderline satisfactory, good, and excellent), indicating that the cut score of the BRM was a more appropriate reflection of the examinees’ performance.

BRM을 활용한 대부분의 연구는 졸업후의학교육 지원자와 같이 수험생 집단의 성적이 높은 비교적 큰 규모의 코호트(n>50)를 평가하는 데서 진행되었습니다. 이 연구 역시 107명의 수험생으로 구성된 대규모 코호트를 대상으로 진행되었습니다. 그러나 많은 의과대학의 OSCE는 1년 단위와 같은 소규모 코호트를 가지고 있을 수 있습니다. Homer 등[12]은 소규모 코호트에서 BRM을 사용하는 것이 일반적으로 성공적일 수 있음을 보여주었습니다. 그들은 다양한 고부담 평가 맥락에서 BRM의 사용을 조사한 결과 대부분의 스테이션에서 BRM이 효과적으로 작동한다는 것을 발견했습니다. 이들은 실용적인 관점에서 현존 컷 점수를 제안했습니다. 이전 스테이션 성과에 기반한 기존 컷 점수는 소규모 코호트에서 이상적으로 사용할 수 있습니다[12]. 
Most studies using the BRM have been conducted in the evaluation of relatively large cohorts (n>50) in which the examinee group is high performing, such as postgraduate candidates. This study was also conducted in a large cohort of 107 examinees. However, OSCEs in many medical schools may have small cohorts, such as a single-year group. Homer et al. [12] have shown that the use of the BRM in the context of small cohorts can be generally successful. They investigated the use of the BRM in different high stakes assessment contexts and found that the BRM functions effectively at most stations. They proposed an extant cut score from a practical point of view. Extant cut scores based on previous station performance would ideally be available in a small cohort [12].

BRM에서는 모델이 OSCE의 컷 점수를 얼마나 잘 예측하는지에 대한 회귀 모델의 적합성을 평가하기 위해 R2를 조사합니다. R2는 일반적으로 시험에서 획득한 점수의 백분율로 해석되며, 이는 시험 응시자의 임상 성과에 대한 글로벌 평가의 벤치마크 점수로 설명할 수 있습니다.

  • R2가 1.0이면 체크리스트의 모든 점수가 독립 변수인 시험자의 글로벌 등급 척도로 완전히 설명된다는 것을 의미합니다.
  • R2가 0.85에서 1.0 사이로 높으면 수험자의 임상 수행 체크리스트가 글로벌 등급 점수에 반영된 시험관의 평가와 일치한다는 것을 의미합니다.
  • R2가 0.5 이하로 낮으면 체크리스트 점수가 글로벌 등급 점수와 일치하지 않음을 나타냅니다[15].

그러나 많은 연구에서 R2의 값은 약 0.5로 본 연구와 크게 다르지 않은 합리적인 것으로 간주되었습니다 [16,17]. 
In the BRM, to assess the fitness of the regression model in terms of how well the model predicts the cut score of the OSCE, the R2 is examined. R2 is generally interpreted as a percentage of the score achieved in an examination that can be explained by a benchmark score of global rating on examinees’ clinical performance.

  • An R2 of 1.0 means that all scores of the checklist are completely explained by the global rating scale of the examiner as an independent variable.
  • A high R2, between 0.85 and 1.0, indicates that the checklist of examinees’ clinical performance is aligned with the examiner’s evaluation reflected in the global rating score.
  • A low R2 of 0.5 or less indicates that the checklist score is not aligned with the global rating score [15].

However, in many studies, the value of R2 was approximately 0.5 and was considered reasonable, which was not significantly different from this study [16,17].



시험관들이 경계선 그룹의 학생을 평가하는 데 있어 합의는 BGM과 BRM에 중요합니다. 그러나 본 연구에서는 이 점을 다루지 않았습니다. 본 연구에서는 BGCSE에 참여한 시험관들이 다년간의 채점 경험을 바탕으로 충분한 합의가 이루어졌다고 가정했습니다. 이러한 합의를 유지하기 위해 시험관들이 수년 동안 익숙하게 사용해 온 4가지 범주형 척도를 수정하지 않고 글로벌 등급 척도로 사용했습니다. 그러나 이 가정이 항상 유효한 것은 아닙니다. 의과대학에 경험이 풍부한 시험관이 충분하지 않은 경우 경계선 학생 그룹을 식별하는 모델을 개발하는 것이 도움이 될 수 있습니다[18]. 
The consensus for rating borderline groups of students by examiners is important for the BGM and BRM. However, this study did not address this point. We assumed that the examiners who participated in the BGCSE had sufficient consensus based on their many years of scoring experience. In order to maintain this consensus, the 4 categorical scale, which examiners have been accustomed to using for many years, was used without modification as global rating scale. However, this assumption will not always be valid. If the medical school does not have enough experienced examiners, it may be helpful to develop a model to identify borderline groups of students [18].

일반화 가능성

본 연구의 결과를 고려할 때, BRM은 소규모 코호트에 적용할 수 있으며, 통계적 방법은 마이크로소프트사의 엑셀을 이용하여 수행할 수 있는 수준입니다. 
Considering the results of this study, the BRM can be applied to a small cohort, and its statistical methods are at a level that can be performed using Microsoft Excel (Microsoft Corp.).


본 연구에서 사용된 글로벌 평가 척도는 실패, 경계선, 양호, 우수를 포함한 범주형 척도입니다. 그러나 이 척도가 5점 또는 6점으로 변경될 때 커트라인 점수가 어떻게 변하는지에 대해서는 추가 연구가 필요합니다. 본 연구의 OSCE에는 7개의 SP 만남 스테이션과 1개의 스킬 스테이션이 있었습니다. 또한 스테이션의 내용과 조합에 따라 컷 점수가 어떻게 변하는지에 대한 연구도 필요합니다. 
The global rating scale used in this study was a categorical scale including fail, borderline, good, and excellent. However, further study is needed to determine how the cut score changes when this scale changes to 5 or 6. In the OSCE of this study, there were 7 SP encounter stations and 1 skill station. It is also necessary to study how the cut score changes depending on the content and combination of the stations.


규범 참조 방식의 컷 점수는 BGM과 BRM보다 낮았으며, BGM과 BRM 간 컷 점수에는 큰 차이가 없었습니다. 기존에 사용하던 기준 설정 방식을 변경하는 것은 쉽지 않을 것입니다. 그러나 문항 내용이나 수험생의 실력이 고려되지 않은 채 규범 참조 방식에 의한 컷 점수는 문항 난이도 및 내용에 따라 달라질 수 있어 기준 설정 결정의 적절성에 영향을 미칠 수 있습니다. OSCE의 커트라인 점수가 의료행위의 수행이 허용 가능한지 여부를 평가하는 최소한의 판단 기준이라면, 수험자 중심의 기준 설정 방식이 그 목적에 더 적합하다. 또한, 본 연구에서 제시된 바와 같이 BGM과 BRM 방식은 실무에 적용하기 어렵지 않다. 경계집단 기준에 대한 충분한 합의가 이루어진다면, BRM을 이용한 기준 설정은 보다 방어적인 방법으로 수검자의 커트라인 점수를 결정하는 데 적용될 수 있을 것입니다. 

The cut score of the norm-referenced method was lower than that of the BGM and BRM, and there was no significant difference in the cut score between the BGM and BRM. It will not be easy to change the previously used standard setting method. However, prefixed cut scores by the norm-referenced method, without considering station contents or examinee performance, can vary due to station difficulty and content, affecting the appropriateness of the standard setting decision. If the cut score of OSCE is the minimum judgement assessing whether the performance of medical practice is acceptable or not, examinee-centered standard setting method are more appropriate for that purpose. Moreover, as presented in this study, BGM and BRM methods are not difficult to apply in practice. If there is an adequate consensus on the borderline group criteria, standard setting with the BRM could be applied as more defensible method to determine the cut score of the OSCE stations.




J Educ Eval Health Prof. 2021;18:25. doi: 10.3352/jeehp.2021.18.25. Epub 2021 Sep 27.

Comparing the cut score for the borderline group method and borderline regression method with norm-referenced standard setting in an objective structured clinical examination in medical school in Korea

Affiliations collapse


1Department of Emergency Medicine, Dong-A University, College of Medicine, Busan, Korea.

2Department of Medical Education, Dong-A University, College of Medicine, Busan, Korea.

3Department of Medical Education and Neurology, Kosin University, College of Medicine, Busan, Korea.

4Department of Neurology, Busan Paik Hospital, Inje University, College of Medicine, Busan, Korea.

5Department of Emergency Medicine, Pusan National University, School of Medicine, Busan, Korea.

PMID: 34565121

PMCID: PMC8543078

DOI: 10.3352/jeehp.2021.18.25

Free PMC article


Purpose: Setting standards is critical in health professions. However, appropriate standard setting methods do not always apply to the set cut score in performance assessment. The aim of this study was to compare the cut score when the standard setting is changed from the norm-referenced method to the borderline group method (BGM) and borderline regression method (BRM) in an objective structured clinical examination (OSCE) in medical school.

Methods: This was an explorative study to model of the BGM and BRM. A total of 107 fourth-year medical students attended the OSCE at seven stations with encountering standardized patients (SPs) and one station with performing skills on a manikin on 15 July 2021. Thirty-two physician examiners evaluated the performance by completing a checklist and global rating scales.

Results: The cut score of the norm-referenced method was lower than that of the BGM (p<0.01) and BRM (p<0.02). There was no significant difference in the cut score between the BGM and BRM (p=0.40). The station with the highest standard deviation and the highest proportion of the borderline group showed the largest cut score difference in standard setting methods.

Conclusion: Prefixed cut scores by the norm-referenced method without considering station contents or examinee performance can vary due to station difficulty and content, affecting the appropriateness of standard setting decisions. If there is an adequate consensus on the criteria for the borderline group, standard setting with the BRM could be applied as a practical and defensible method to determine the cut score for OSCE.

Keywords: Checklist; Educational measurement; Medical students; Objective structured clinical examination; Standard setting.

