의학교육 학생평가의 객관성에 대한 쟁점

Issues Related to the Objectivity of Student Assessment in Medical Education

민경석1ㆍ양길석2

1세종대학교 인문과학대학 교육학과, 2가톨릭대학교 교직과

Kyung-Seok Min1 · Kil-Seok Yang2

1Department of Education, College of Liberal Arts, Sejong University; 2Department of Education, The Catholic University of Korea, Seoul, Korea





서 론

교육 및 심리검사에서 객관성(objectivity)이란 동일한 능력 혹은특성을 갖는 피험자가 동일한 검사결과(예, 점수)를 획득함을 의미한다(Miller et al., 2009). 대학수학능력시험 혹은 전국단위 자격증시험(예, 의사자격시험)과 같은 대규모 평가(large scale assessments)에서 활용되는 표준화 검사(standardized tests)는 주로 선다형 문항(multiple choice items) 혹은 단답형 문항(short answeritems)으로 구성되며, 이에 따라 상대적으로 높은 객관성을 유지하고 있다. 특히, 선택형 문항은 점수를 할당하는 채점과정에서 채점자의 판단적 의사결정이 개입할 여지가 없다는 점에서 객관식 문항(objective type items)이라 불린다.


한편 강의자가 직접 제작한 학교평가(classroom assessment) 혹은 학생의 실기능력에 대한 수행평가(performance assessment)는선택형 문항 중심의 표준화 검사와 비교하여 객관성이 상대적으로낮은 것으로 취급된다(Miller et al., 2009). 예를 들어, 일반대학 학생평가에서 주로 활용되는 논술시험(혹은 보고서)은 채점자의 판단적 논리에 의해서 점수가 결정되며, 이에 따라 동일한 학생의 논술문에 대하여 서로 다른 채점자의 점수는 동일하지 않으며, 한 사람의 채점자 또한 여러 학생의 논술문을 채점하면서 일관된 채점기준을 적용하는 데 어려움을 겪는 경향을 보인다. 의학교육에서 학생의 임상실기능력을 평가하는 전통적 방법인 관찰평가, 임상증례보고 등은 논술시험과 유사한 특성을 보이며(Kogan et al., 2009), 채점자 내 혹은 채점자 간 점수의 차이는 평가점수의 비일관성을 의미하고, 이는 검사점수의 낮은 신뢰도로 이어진다.


또 다른 측면에서, 검사점수의 신뢰성을 높이고자 학생평가에서선택형 문항 중심의 객관식 문항만을 활용하는 것은 검사가 측정하고자 하는 바를 측정하고 있는가를 의미하는 타당도에 문제점을 드러낸다. 의학교육에서 추구하는 교육목표에는 객관식 문항으로 측정될 수 있는 지식의 획득 여부뿐만 아니라 실제상황에서 지식내용을 적용하고 처치결과를 판단하는 임상능력이 중요한 요소로 포함될 때, 학생평가 또한 임상상황의 문제해결력, 의사소통능력, 비판적 사고력을 평가해야만 타당한 것이라고 할 수 있다.


의과대학과 의학전문대학원의 교육목표는 의학적 지식의 획득과 임상능력의 배양으로 의료현장에서 문제해결능력과 전인적 치료자로서 의사의 태도를 강조한다(Miller, 1990). 이러한 교육목표에 근거하여 의과대학의 학생평가는 저학년의 지식 중심 교육과정과 고학년의 임상실기 중심의 교육과정으로 구분되며, 지식과 임상능력을 평가할 수 있는 다양한 학생평가 방식(선다형 문항, 구술, 임상사례, 관찰평가, 업무일지, 표준화 환자 등)이 활용된다. Mavis etal. (2001)은 126개 미국 의과대학 설문조사결과를 통하여 객관구조화진료시험(objective structured clinical examination, OSCE)과같이 표준화 환자(standardized patients)를 활용한 학생평가방법이지속적으로 확대되고 있음에도 불구하고, 이러한 모의 임상능력 평가결과는 진급, 졸업과 같은 중요한 의사결정에는 상대적으로 적게활용되며, 전체적으로 선다형 문항과 관찰평가(preceptor rating)와같은 전통적 평가방식이 보다 광범위하게 이용되고 있음을 밝힌다.


현대 교육평가이론은 학생특성과 학업성취에 대한 정보를 수집하여 교육과정 개선을 위하여 활용하며, 이에 따른 교육성과를 높인다는 학생평가의 본원적 목적을 달성하기 위하여, 성취기준 기반평가(standards-based assessment, Stecher, 2010), 증거기반평가(evidence-centered design, Mislevy et al., 2003), 성과기반평가(outcome-based assessment, Dent &Harden, 2009) 등을 강조한다. 이러한 경향은 일부 강조점에서 차이를 보임에도 불구하고, 학생평가의 목적은 교육과정을 통한 교육목표의 달성 정도를 명확히제시하는 것에 있으며, 이를 위하여 전통적인 선택형 문항 중심의평가를 포함한 다양한 평가방식의 개발 및 활용을 제안한다. 특히,1980년대를 전후로 미국을 중심으로 평가의 타당도를 중시하는 수행평가에 대한 논의가 활성화되었고, 나아가 수행평가의 객관성즉, 학생평가결과의 타당도를 전제하면서도 그 신뢰성을 함께 높일수 있는 방법이 다양하게 제안되어 왔다(Lane, 2010; Lane &Stone,2006; Stecher, 2010).


학생평가를 포함한 교육평가는 측정의 양호도 판단기준으로 신뢰도와 타당도를 강조한다. 

  • 대규모의 평가 체제에서 평가시행 및 결과가 민감하게 작용하는 경우에는 무엇보다도 점수의 일관성을 의미하는 신뢰도를 우선시할 수밖에 없으며 그에 따른 타당도의 결여 측면을 검사의 설계, 문항내용의 충실성으로 보완하고자 노력한다. 
  • 반면에 실제적인 능력, 즉 수행능력을 제대로 측정하고자 하는 경우에는 다양한 수행과제를 활용하여 타당도를 먼저 확보하고자 하며, 그 방법들의 특성상 인간에 의한 판단이 개입될 수밖에 없기 때문에 보완적으로 신뢰도를 강화하려고 하는 노력을 수반한다. 

즉, 학생평가의 객관성은 측정이론적 측면에서 신뢰도와 타당도의 문제를 의미하는 것으로서, 이는 평가계획, 실시, 결과보고 및활용 등 평가의 전 과정과 관련된다. 이 논문에서는 학생평가과정에서 중요하게 고려해야 할 문항형식, 평가내용, 시행절차, 채점, 결과산출에 관하여 전통적인 지필시험과 수행평가를 대비하여 학생평가의 신뢰도와 타당도에 대하여 논의하고자 한다.




평가 문항형식의 객관성


학생평가에 활용되는 평가도구는 문항의 모둠으로 구성되며, 문항특성을 나타내는 문항형식은 평가상황에서 학생에게 요구하는바가 무엇이며, 이에 따른 응답방식을 결정한다. 또한 문항형식은학생 반응뿐만 아니라 평가내용, 시행환경과 절차, 채점방식 및 결과보고와 직접적으로 연관된 것으로(Allen &Yen, 1979), 평가의목적에 근거하여 적절한 평가 문항형식을 결정하는 것은 학생평가의 객관성을 위한 가장 중요한 의사결정과정이라 할 수 있다.


학생평가에서 중요하게 대비되는 문항형식은 선택형(selectedresponse items)과 구성형(constructed response items)이라 할 수있다. 

  • 선택형 문항은 진위형(true-false form), 선다형(multiplechoice form), 연결형(matching form) 등을 포함하며, 학생평가의모든 분야에서 가장 자주 활용되고 객관적인 평가 문항형식으로취급된다. 대표적인 선택형 문항인 선다형은 지문(stem)과 선택지(alternatives)로 구성되며, 선택지 중에서 지문이 요구하는 정답(key) 선택 여부에 따라 학생의 능력을 평가한다. 선다형 문항의 선택지에서 사전에 정답이 결정되어 있으며, 학생 응답과 정답의 일치여부를 통하여 문항점수가 결정되기 때문에 채점자의 주관적 판단이 필요가 없다. 이에 따라 선다형 문항은 optical mark reader(OMR) 용지를 이용한 전산처리를 통하여 기계가 채점할 수 있다는 점에서 합리성, 공정성, 투명성을 강조하는 현대사회에 가장 대중화된 학생평가방법이라 할 수 있다.
  • 구성형 문항은 단답형(short answer type), 완성형(completiontype), 논술형(essay type)으로 구분되며, 지문에 대하여 간단한 단어나 문구를 제시하는 단답형이나 완성형에 비하여 논술형은 비교적 제한 없이 여러 개의 문장으로 학생이 응답하는 문항형태를 의미한다. 단답형과 완성형 문항은 선다형 문항과 유사하게 사전에정답이 결정되어 선택형 문항수준에 가까운 채점의 일관성을 담보한다. 반면에 논술형은 피험자의 분석력, 비판력, 조직력, 종합력, 문제해결력, 창의력 등 고차원적 사고능력을 측정한다는 긍정적 특성에도 불구하고, 채점자의 판단에 의해 점수가 부여되며, 이에 따라 채점자 간 혹은 채점자 내 점수의 일관성이 선택형 문항에 비하여 낮아지는 특성을 보인다.


구성형 문항을 대표하는 논술은 주로 언어적 사고와 표현능력을평가하는 것으로 수행평가의 한 방식이라 할 수 있다. 1980년대 이후 미국의 학생평가는 학생의 지식수준에서 수행능력을 강조함에따라 전통적인 학생평가에서 수행과제 중심의 평가로 전환되었다.즉, 학생 앎보다는 학생행동을 직접 측정하는 수행평가는 실제상황과 근접한 평가환경에서 시연되는 학생의 결과물과 성취과정에중점을 두며, 이에 따라 단순한 지식에 대한 평가가 아닌, 수행과정에 중심을 두며 부가적으로 의사소통, 태도, 성실성 등의 정의적 특성을 평가한다(Lane, 2010; Lane &Stone, 2006).


학생행동을 직접 평가하는 수행평가는 교육내용에 대한 실제적적용능력이라는 교육목표에 부합한다는 원론적 의미뿐만 아니라,학생평가를 통한 교수-학습과정의 개선을 강조한다. 즉, 교육목표로 인지적 영역을 포함한 다양한 수행목표를 설정했음에도 불구하고, 학교 교육과정은 학생참여, 체험, 실기가 아닌 지식전달을 위한강의자 중심의 수업이 이루어지며, 학생평가 또한 절차적 객관성을강조하는 지식정보수준의 선다형 문항이 주로 활용되어지는 바, 수행평가를 통하여 교육과정과 성취결과에 대한 개선을 이루고자 하는 교육정책적 지향성을 내포하고 있다. 특히, 의학교육은 전문가양성 및 직업교육의 성격을 포함하며, 학교교육을 통하여 양성된신입 의사의 실제적인 임상능력검증에 대한 사회적 요구가 지속적으로 높아짐에 따라, 임상실기 중심의 수행평가를 통한 교육과정의 개선이 지속적으로 주장되어 왔다. 의학교육에서 학생평가의 수준을 구분한 Miller (1990)의 피라미드에 대응하는 평가 문항형식은 다음과 같다(Amin et al., 2006). 

  • 1) 지식과 방법(knows &knowhow): 구술시험(oral examination), 긴 논술(long essay question),짧은 논술(short essay question), 선다형 문항(multiple choice question),확장연결형문항(extended matching items, EMI), 핵심요소시험(key features examination);
  • 2) 행동시연(show how): OSCE, 긴사례(long case), 짧은 사례(short case); 
  • 3) 행동(does): 간편임상실습(mini clinical evaluation exercise), 진료과정관찰(direct observationof procedural skills), 점검표(checklist), 다면평가(360-degreeevaluation), 진료일지(logbook), 포트폴리오(portfolio).


Miller (1990)의 4가지 평가목적에 대응하는 다양한 평가방식은앞서 논의된 선택형, 구성형, 수행평가의 다양한 적용과 변형사례라고 할 수 있다. 예를 들어, EMI는 채점의 객관성을 유지한 채, 복잡한 지식 및 다양한 주제의 연계성을 평가할 수 있도록 선다형 문항의 확장된 형태라고 할 수 있다. 간편 논술은 비판적 사고능력을측정하면서 채점의 객관성을 높이기 위한 구성형 문항의 변형이며, OSCE는 실제적 상황의 학생행동을 평가하면서 채점의 일관성을 높이는 수행평가의 한 형태라고 할 수 있다. 즉, 모든 문항형식은객관성을 의미하는 신뢰도와 타당도라는 측면에서 강점과 약점을가지며, 평가의 목적에 따라 문항형식의 변형과 개선을 통하여 지속적으로 새로운 문항형식을 활용하는 것이 필요할 것이다. 특히,현대 컴퓨터기술(시뮬레이션, 네트워킹, 인공지능 등)의 발달에 따라(Drasgow et al., 2006) 기존 문항형식의 제한점을 극복하여 객관성과 현실 적용력이 높은 새로운 문항형식이 지속적으로 개발될것이다.




평가내용의 객관성


학생평가 문항은 학생특성을 측정하기 위하여, 교육내용 혹은교육목표를 대표하는 표본과제(sampled tasks)이며 평가도구(시험)는 이러한 문항의 모둠으로 정의된다(Allen &Yen, 1979). 즉, 학생평가는 한 학기 강의 혹은 학과목 내용을 모두 측정하는 것이 아니라 교육목표를 대표하는 내용을 반영한 평가 문항을 통하여, 학생의 이해, 적용능력을 추정(inference)하는 과정이라고 할 수 있다.교육과정의 표본으로서 평가 문항이라는 논리는, 사회여론을 알기위하여 모든 사람에게 의견을 묻는 것이 아니라 모집단을 대표할수 있는 표본(일반적으로 1,000명 내외)을 조사하는 사회조사방법과 비유적으로 비교될 수 있다(Allen &Yen, 1979; Lohr, 1999). 즉,공정하고 타당한 사회조사를 위하여 지역, 성별, 연령, 소득 등 다양한 요인을 복합적으로 고려하여 표집된 표본이 전체 모집단을 대표할 수 있으며, 모집단을 적절히 대표하는 표본의 조사결과가 모집단의 의견으로 추정된다. 유사하게, 학생평가에서 제한적으로 구성되는 평가 문항이 교육내용과 교육목표를 얼마나 적절히 대표하는가는 평가의 내용타당도(content validity)를 의미한다. 검사이론에서 학생평가의 내용적 대표성을 위하여 평가 문항의 구성을 위한 설계도(blueprints)로서 검사명세표(test specification)의 세밀한설정을 중요하게 강조한다(Allen &Yen, 1979; Kane, 2006). 일반적으로 검사명세표는 내용영역과 행동영역이 교차하는 이원분류표로서 각 교차영역의 문항분포뿐만 아니라 문항형식, 난이도, 배점등에 대한 상세한 정보를 포함한다.


구체적인 평가계획으로서 검사명세표가 명확히 작성되었음에도불구하고, 앞서 논의된 문항형식에 따라 검사의 내용 대표성은 이질적인 양태를 보인다. 문항당 풀이시간이 상대적으로 적은 선다형문항의 경우, 제한된 평가시간 동안 많은 수의 문항이 시행될 수 있으며, 많은 수의 문항은 정해진 교육과정의 범위를 포괄하고 대표하는 데 강점으로 작용한다. 이에 반하여 수행평가에 포함되는 실기, 논술, 구술의 경우, 평가시행과 채점과정에서 많은 시간과 비용이 소요된다. 이에 따라 제한된 시험시간 동안 상대적으로 적은 문항이 출제되고, 결국 내용적 대표성을 확보하기 어려운 문제로 이어진다. 예를 들어, 동일한 임상능력을 측정하기 위하여 3시간 동안500개의 선다형 문항을 출제하는 것과 5가지 임상사례에 기반한표준화 환자를 활용한 평가를 비교할 때, 어느 방법이 보다 객관적인가의 문제는 문항 수에 따른 평가내용 대표성과 포괄성과 관련된것이라 할 수 있다.


또한 문항 수는 내용 타당도뿐만 아니라 점수신뢰도와 관련되며, 일반적으로 문항 수가 많을수록 높은 신뢰도를 보인다(Allen &Yen, 1979). 표준화 검사의 신뢰도는 통상 0.9 이상이며 학교평가의경우 0.7-0.8 수준임을 고려하여, 0.8 수준의 신뢰도를 위하여 약 10개 내외의 수행과제가 요구된다(Lane, 2010). 결국, 학생평가에서내용적 대표성뿐만 아니라 평가결과점수의 일관성을 높이기 위해서는 수행과제를 분할하여, 여러 측면에서 학생 특성을 측정하는것이 바람직하다고 할 수 있다.


평가내용의 대표성과 평가방식의 연관성, 이에 따른 평가결과의신뢰도는 평가시행을 위한 현실적 조건(예, 시간, 비용, 장소 등)에제약을 받는다. 고등교육의 목표가 단순 지식에서부터 문제해결력,비판적 사고 등의 폭넓은 영역을 포괄하고 있음을 고려할 때, 학생평가는 어느 한 가지 평가방법을 선택하는 문제가 아니라 다양한수준의 평가방법을 활용하여 학생의 특성에 대한 종합적 정보를확보해 나갈 필요가 있다. 즉 임상의 기초가 되는 지식수준의 평가에는 선택형 문항이 강점을 가지며, 실제적 행위를 평가하기 위해서는 수행평가가 유용하게 적용될 수 있다. 이러한 다양한 방법을포괄하여 전체적 학생특성을 평가할 수 있는 학생평가 체제를 구축하는 것이, 교육목표 달성 정도를 확인하고 교육과정을 개선하기위한 학생평가 객관성에 중요하게 작용한다.




평가시행절차의 객관성


평가시행절차의 객관성은 검사가 모든 피험자에게 동일하게 시행되며, 채점되는 것을 의미한다. 즉, 표준화된 시행절차에 따라 검사결과는 시행시기, 검사유형(test forms)과 관계없이 모든 피험자에게 동일한 의미를 제공한다(Cohen &Wollack, 2006). 종종 표준화가 객관식 문항 혹은 표준점수로 산출되는 검사결과와 혼동되기도 하며, 검사의 표준화 절차가 규준참조검사에서만 필요한 것으로오인되기도 한다(Kane, 2006).


측정이론적으로 검사의 표준화는 검사가 측정하고자 하는 바 이외에 검사점수에 영향을 미치는 외재요인(nuisance factors)을 최소화하고, 평가상황에서 모든 피험자에게 자신 능력 혹은 특성을 발휘할 수 있는 동등한, 공정한 기회를 제공하는 것을 의미한다. 이를위하여 전통적인 지필검사에서는 모든 피험자에게 동일한 문항을제시하고, 검사시간을 포함한 검사환경을 엄격히 통제한다. 또한 검사에서 측정하는 특성 이외의 요소에 의한 차별성을 배제하기 위하여 평가과목의 구성, 문항형태, 평가범위, 채점요소 및 절차에 대한 정보를 사전에 피험자에게 제공한다. 이러한 절차적 요소의 명확성을 위하여 표준화 검사의 경우, 과거 기출 문항을 공개하고, 모의시험과 같은 사전 연습 기회를 제공하여 검사가 측정하는 바가무엇이며 검사상황에서 피험자가 해야 할 것과 하지 말아야 할 것에 대한 세부적 지침을 모든 피험자에게 공개적으로 제공한다.


학교 현장에서 오랫동안 실시되어 왔으며, 많은 선행연구가 이루어진 선택형 문항으로 구성된 지필평가는 이러한 시행절차의 표준화에 많은 장점을 갖는다. 즉, 검사내용과 형식에 대한 명확한 전달이 용이하며, 검사환경을 모든 피험자에게 동일하게 하는 절차가비용과 시간적 측면에서 상대적으로 간편하다. 무엇보다 오랜 시행경험을 통하여 시행자와 피험자 모두에게 익숙한 평가절차라는 것은 지필검사의 큰 강점으로 작용한다.


그러나 실기능력평가는 수행평가의 경우 상대적으로 시행절차의 표준화에 어려움을 보이며, 이러한 점 때문에, 학생 간 점수의 차이가 평가하고자 하는 능력의 차이에서 나타난 것인지 시행절차의비표준화로 인한 외재요인에 따른 것인지에 대한 명확한 확인과 통제가 필요하다. 예를 들어, 임상능력을 평가하기 위하여 표준화 환자를 이용한 경우에서, 모든 피험자에게 동일한 표준화 환자가 활용될 수 있는가, 모든 피험자에게 동일한 환자가 제시될지라도 표준화 환자는 매번 동일한 양호도 수준에서 평가상황을 재현하는가,만약 현실적 어려움으로 여러 명의 표준화 환자가 피험자 집단에활용된다면, 서로 다른 표준화 환자의 수행은 학생 평가결과에 영향을 미치지 않는가, 또한 평가장소와 시기가 피험자마다 다른 경우 이러한 조건은 학생 평가점수에 영향을 미치지는 않는가 등의문제는 평가결과의 신뢰성과 타당성에 대한 쟁점 사항이다(Epstein,2007; Miller, 1990).


검사시행의 표준화는 또한 검사의 보안(test security)과 관련된다. 일반적으로 피험자가 검사문항을 사전에 입수하여 연습하거나검사시행과정에서 부정한 방법으로 정답을 표기한다면, 검사점수는 피험자의 능력을 정확히 표시할 수 없을 것이다(Cohen &Wollack,2006). 예를 들어, 표준화 환자에 대한 정보수집, 검사, 진단 등다양한 절차를 통하여 피험자의 임상능력을 평가하는 수행평가에서, 피험자가 구체적 평가내용을 사전에 인지하였다면, 이는 임상능력을 평가하는 것이 아니라 단순 암기능력을 평가하게 된다(Epstein,2007).


학생평가에서 표준화의 목적은 모든 피험자에게 동일한 평가조건과 기회를 부여하여 평가결과를 객관적으로 비교 가능하게 하는 것에 있다. 의학교육에서 임상실기능력평가를 위하여 전통적으로 활용된 직접관찰, 증례, 실습평가는 실기능력배양이라는 교육목적에 부합하는 평가임에도 불구하고 내용 대표성 및 절차의 표준화에 어려움을 갖는다. 이러한 점에서 표준화 환자를 이용한 임상평가는 실제와 유사한 상황에서 임상능력을 평가하고 평가의 객관성을 위한 수행평가 표준화의 선도적 방안이라고 할 수 있다. 특히, 국내외 의사자격시험에 포함된 OSCE는 임상사례 수, 단계(stations)의 할당시간, 표준화 환자의 훈련수준, 채점기준 등에 대한 다양한 개선을 통하여 수행평가 또한 선택형 문항수준의 객관성을확보할 수 있음을 현실적으로 보여 준 사례라고 할 수 있다. 반면,수행평가결과의 신뢰성에 영향을 미치는 요소인 채점자, 과제, 환경에 대한 선행연구에서 밝혀진 바와 같이(Cronbach et al., 1997),평가 환경(occasions, 예, 표준화 환자 특성, 장소, 시간 등)이 중요한요인 임에도 다른 두 요소에 비하여 상대적으로 소홀히 다루어져왔기에, 이에 대한 지속적인 개선 노력이 필요할 것이다.



평가점수 산출의 객관성


학생평가의 객관성에서 가장 직접적인 단계로 논의되는 것이 평가점수를 산출하는 채점의 공정성, 투명성, 일관성이다. 선다형 문항은 선택지 중에서 사전에 정답이 결정되어 있으며, 학생 응답과정답을 비교하여 문항점수를 결정한다는 측면에서 채점자의 판단이 개입될 여지가 없다. 이에 반하여 학생이 응답/수행을 스스로 구성하는 수행평가에서는 상대적으로 자유로운 응답양식과 포괄적인 채점기준으로 인하여 채점자의 판단적 의사결정이 개입되며, 채점의 일관성과 타당성을 위하여 앞서 논의된 문항형식과 시행절차의 표준화와 함께 채점절차의 객관화가 요구된다. 의학교육에서 임상능력 측정을 위하여 표준화 환자를 이용한 평가의 필요성에 대한 대체적 동의가 이루어져 왔음에도 불구하고, 피험자의 어떤 행위/태도가 중요한 것이며, 동일한 피험자 행위에 대하여 복수의 채점자는 동일한 점수를 부여하는가, 채점자로서 표준화 환자가 포함되어야 하는가 등은 이러한 채점의 객관성과 관련된 사항이라 할수 있다.


수행평가 채점의 객관성을 위한 절차로서 두 가지 단계가 제안된다. 첫째는 두 사람 이상의 채점자가 채점하며 채점자에 대한 사전훈련이 진행되어야 한다. 둘째, 사전에 채점기준을 명확히 제시한채점기준표(scoring rubrics)를 활용해야 한다. 이때 수행평가의 채점방법은 크게 분석채점(analytic scoring)과 총괄채점(holisticscoring)으로 구분된다.


복수의 채점자를 활용하며, 채점자에 대한 사전훈련을 통하여채점자 간, 채점자 내 점수의 일관성을 확보하여 학생평가 점수의객관성을 높이는 절차는 대규모 학생평가 혹은 고부담평가(highstakeassessments)에서 엄격하게 적용되며, 많은 시간과 비용이 소요된다. 그러나 수행평가에서 평가자의 가치판단이 개입할 수 있음을 인정하는 전제에서 학생 응답에 의한 가치 판단이 아니라 채점자의 주관적 편견이 개입하는 것을 방지하기 위하여 두 사람 이상이 채점에 참여하고 또한 이러한 차이를 사전에 조정하는 채점자훈련절차는 반드시 필요한 과정이라 할 수 있다. 복수채점의 수준은 시간과 비용이라는 현실적 여건을 고려하여, 일상적인 수업의학생평가에서는 모든 피험자에 대한 복수채점보다는 일부 피험자표본에 대한 복수채점을 통하여 평가의 객관성을 확인할 수 있다.또한 채점자 훈련의 가장 중요한 과정은 채점기준표를 이해하고 실제 채점에서 이를 일관되게 적용하는 것이다. 즉, 채점에 임하기 이전에 채점기준표와 일치하는 혹은 일치하지 않는 학생 응답/수행을 명확히 확인하고, 각 점수수준을 대표하는 수행에 대한 명확한설정이 이루어져야 한다(Lane &Stone, 2006).


의학교육에서 임상평가의 채점은 주로 교수자 한 사람에 의하여실행된다는 점을 고려할 때, 채점 공정성을 위하여 무엇보다 중요한 과정은 채점기준표를 명확히 작성하는 것이라 할 수 있다. 즉, 검사가 측정하고자 하는 바를 실제 측정하기 위하여 검사를 제작하기 이전에 검사명세표를 세밀하게 작성하여 기준으로 활용하는 것과 동일하게, 채점기준표는 채점의 일관성과 주관적 요소를 배제하기 위하여 필수 과정이다. 채점기준표 설정의 근거는 교육목표에서달성하고자 하는 성취기준이며, 평가도구를 통하여 측정하고자 하는 학생의 지식, 기술수준을 세밀하게 나열하고, 이러한 평가내용에 대한 수행수준에 따라 점수를 할당하는 것이라 할 수 있다. 그러므로 채점기준표는 채점을 위한 수행요소를 구체적으로 설정함에따라, 학생이 수행해야 할 핵심내용을 보다 명확하게 하여, 수행과제 자체의 타당도를 높이는 데 기여한다. 또한, 채점기준표는 평가자의 채점 일관성뿐만 아니라 피험자에게 자신의 점수가 무엇에 근거한 것인가를 확인하는 기회를 제공하여 평가를 통한 학생 성취에 대한 피드백을 제공할 수 있다는 점에서 평가의 객관성을 높이는 데 중요한 역할을 한다.


마지막으로, 채점의 객관성에 영향을 미치는 중요한 요인은 채점방식이다. 수행평가에서는 분석채점(analytic scoring)과 총괄채점(holistic scoring) 등 크게 두 가지 방식이 활용된다. 

분석채점은 수행과제를 구성하는 여러 요소(예, 문진, 검사, 진단, 처치 등)를 구분하여 각 영역에 대한 점수를 부여하고, 이를 합산하여 전체 수행점수를 산출한다. 반면에, 총괄채점은 피험자의 수행에 대한 전체적수준에 대하여 하나의 종합점수를 부여하는 방식이다. 주로 논술시험의 채점방법에 관한 선행연구는 분석채점이 높은 채점자 신뢰도를 보이며, 전체 점수뿐만 아니라 세부 영역에 대한 학생수행정보를 제공하는 장점을 갖는 반면, 총괄채점은 개별요소보다는 이들이 모여 종합된 성취수준을 평가하는 장점을 보인다. 음악회에서공연되는 오케스트라 연주의 질은 관악기, 타악기, 현악기 등 각 파트 연주의 탁월함으로 평가될 수 없다는 Mullis (1984)의 비유처럼,진단, 검사, 처치로 이어지는 임상과정은 세부 영역의 정확성과 함께 전체 과정의 효율성, 효과성 등이 동시에 중요하게 평가될 수 있다. 즉, 임상능력평가를 위한 채점방법은 평가의 목적과 채점기준표의 구성, 평가결과의 활용에 따라 분석채점과 총괄채점이 선택적, 종합적으로 활용되어야 할 것이다. 또 다른 측면에서는, 현대 컴퓨터기술의 발달에 따라 다양한 문항형식의 조합, 개선이 이루어지는 것과 유사하게, 인공지능을 활용한 정보탐색기능을 활용하여수행평가의 채점에서 사람을 대신한 기계 채점의 도입은(Lane,2010) 객관성 향상을 위한 지속적 노력의 과제라고 할 수 있다.


평가결과보고의 객관성


학생평가의 최종 단계는 평가결과를 학생, 학부모, 및 교육기관에 보고하는 것이다. 앞서 논의된 문항형식과 내용, 시행절차, 채점등의 과정이 평가의 목적에 부합하도록 적절히 설정되어야 하는 것과 동일하게 평가결과의 보고 또한 평가의 목적과 활용에 의하여결정된다. 예를 들어, 학과목 내용에 기반하여 평가가 실시되었다면, 평가결과는 교수학습과정을 개선하기 위한 중요한 정보로 적절한 시간에 제시되어야 하며, 평가의 목적이 모든 학생의 능력수준을 구분하는 서열화에 있다면, 학생 전체의 능력수준과 개인의 위치정보를 제공할 수 있는 점수 척도(예, Z점수, T점수)가 활용되어야 할 것이다.


일반적으로 학생평가에서 강의자는 다양한 평가방법을 활용한다. 예를 들어, 객관식 시험, 퀴즈, 임상실습, 출석 등과 같이 네 가지방법으로 평가를 실시하였다면, 최종 학생평가결과를 산출하기 위하여 네 가지 점수를 어떤 식으로 종합할 것이다. 가장 간단한 방법으로, 각 시험의 만점을 25점으로 설정하여 합산하면 100만점의 최종점수가 결정될 것이다. 이때 만약 출석과 퀴즈에서 모든 학생이동일한 점수를 받았다면, 실제적으로 최종점수는 객관식 시험과임상실습에 의해서 결정되는 것이라 할 수 있다. 즉 이 경우, 형식적으로 네 가지 평가요소가 각 25%로 동일한 비중을 가짐에도 불구하고 학생 변별을 위한 실제적 요소는 객관식 시험과 임상사례 토의에만 해당되며, 출석과 퀴즈의 실제적 평가 가중치는 0%가 된다.의학교육은 매우 복잡한 교육과정을 포함하며, 이에 따라 다양한평가방법을 활용하여 학생정보를 수합한다. 그러므로 교육적 의사결정의 객관성을 위하여, 각 평가요소에 대한 명목 가중치와 실제가중치에 대한 계획이 명확히 설정될 필요가 있다.


두 번째 고려할 사항으로는, 학생평가가 학생들을 서열화하여세부적으로 변별하는 것에 목적이 있는가, 혹은 준거(criterion)에의하여 기본필수능력을 성취했는가를 중시하는가에 따라 평가 결과의 산출과 보고방식이 다르게 설정된다. 규준참조평가(normreferenced tests)의 경우 상위, 중위, 하위 모든 능력수준을 세부적으로 구분할 수 있는 평가의 구성과 점수산출이 요구되는 반면, 준거참조평가(criterion referenced test)는 비/통과를 결정하는 기준선의 객관성이 주요한 관심 대상이 된다. 의학교육이 전문가 및 직업교육의 특성을 갖는다는 점에서, 기본필수능력의 습득 여부가서열적 정보보다 학생평가에서 중요하게 다루어질 필요가 있다. 이러한 점에서 준거참조검사의 기준점수를 결정하는 준거설정(standardsetting)은 합격과 불합격이라는 의사결정의 객관성을 확보하기 위한 중요한 절차로 다루어져야 한다. 구체적인 준거설정에는 매우 다양한 방법(예, Bookmark 방법, 수정된 Angoff 방법 등)이 있음에도 불구하고, 가장 중요한 것은 준거점수가 의미하는 피험자의지식, 능력수준이 명확히 정의되어야 한다는 것이다(Kane, 2006).즉, 준거점수에 해당하는 지식과 능력수준이 구체적으로 정의되고, 이에 대하여 전문가, 교육자들의 합의가 이루어질 때, 준거점수를 기준으로 한 교육적, 행정적 의사결정은 객관성을 담보한다.


마지막으로 평가정보의 내용과 명세화 수준은 교육과정에서 평가결과를 활용하는 목적에 따라 형성평가(formative assessment)와 총괄평가(summative assessment)로 구분된다. 형성평가는 교수학습 과정에서 학생 및 강의자에게 수시로 피드백(feedback)을 제공하여 교육과정 및 수업을 개선시키는 평가를 의미한다. 또한, 형성평가의 평가결과는 학생에게 학업동기를 유발하고, 자기주도적학습능력을 함양하게 하고, 사고능력을 배양하는 피드백의 역할을 한다. 교수자와 학습자의 의사소통이라는 피드백으로서 평가결과는 학생의 서열뿐만 아니라, 시간 흐름에 따른 발전 정도, 또한 학업에 대한 정의적 태도 등의 정보를 포함할 수 있다. 즉, 매번의 학생평가가 졸업과 진급과 같이 합격/불합격의 결정에 제한된 것이 아니라면, 평가의 교육적 활용(교수학습의 개선, 학생 학업동기 배양등)이 결과 보고에 고려될 때 결과타당도(consequential validity,Kane, 2006)라는 측면에서 평가의 객관성이 확보된다.


요약하면, 평가의 마지막 단계인 결과보고에서는 

  • 다양한 평가요소의 합산을 위한 실제 가중치 수준, 
  • 준거참조검사에서 준거기준에 해당하는 학생수행의 수준에 대한 명확한 설정,
  •  형성평가와 총괄평가와 같은 평가 목적의 구분이 

필요하다.



결 론


이 논문에서는 의학교육 학생평가의 문항형식, 문항내용, 시행절차, 채점, 결과산출에 관하여 전통적인 지필시험과 수행평가를 대비하여, 신뢰도와 타당도를 중심으로 학생평가의 객관성에 대하여논의하였다.


문항형식이라는 측면에서 전통적으로 수행능력을 강조하는 의학교육은 수행평가를 선도하고 있다. 특히, OSCE는 전국 규모의자격시험에 활용될 정도의 표준화가 마련된 대표적 사례라고 할 수있다. 또한, 현대 컴퓨터기술(시뮬레이션, 네트워킹, 인공지능 등)의발달은 표준화 환자의 수행 일관성을 높이기 위한 방안으로 활용될 수 있을 것이다. 문항내용은 평가의 교육과정 대표성과 관련된것으로, 임상평가의 과제 수, 시행시간, 내용적 포괄성과 관련된 문항형식의 고려를 통하여 지속적 개선이 필요할 것이다. 평가 실시절차 표준화의 목적은 모든 피험자에게 동일한 평가 조건과 기회를부여하여 평가결과를 객관적으로 비교 가능하게 하는 것에 있다.수행평가결과의 신뢰성에 중요하게 영향을 미치는 요소로 채점자,과제의 일관성을 위하여 많은 노력이 투입된 반면, 평가환경의 영향은 상대적으로 소홀히 다루어져 왔다. 평가결과 산출을 위한 채점기준표는 학생수행요소를 명시함에 따라, 학생이 수행해야 할핵심내용을 보다 명확하게 하여, 수행과제 자체의 타당도를 높이는데 기여한다. 또한, 채점기준표는 평가자의 채점 일관성뿐만 아니라피험자에게 자신의 점수가 무엇에 근거한 것인가를 확인하는 기회를 제공하여 평가를 통한 학생성취에 대한 피드백을 제공할 수 있다는 점에서 평가의 객관성을 높이는 데 중요한 역할을 한다. 평가의 마지막 단계인 결과보고에서는 다양한 평가요소의 합산을 위한실제 가중치 수준, 형성평가와 총괄평가와 같은 평가목적의 구분,준거참조검사에서 준거기준에 해당하는 학생수행의 수준에 대한명확한 설정이 필요하다.


교육 분야에서 평가의 역할과 기능에 대한 논의는 평가주도 교육과정(test driven curriculum)과 교육과정주도 평가(curriculumdriven test)로 대별된다. 평가주도 교육과정은 학생평가내용이 학생들이 이수해야 할 교육과정을 규정하고, 이에 따라 교육개혁을위한 효율적 정책방향으로 지지되어 왔다. 물론 평가주도 교육과정으로 인한 교육과정의 협소화, 평가 만능화 등에 대한 다양한 비판이 있어 왔음에도 불구하고, 현대 증거기반 교육연구, 성과기반 교육정책과 같은 객관주의적 관점에서 학생평가의 결과는 교육의 성과를 판단하고 교육개혁을 위한 주도적인 역할을 한다. 이에 따라학생평가의 객관성은 학생 개인뿐만 아니라 교육기관의 책무성, 국가 교육정책의 효과성을 판단하기 위하여 매우 중요하게 다루어지고 있다. 특히 의학교육은 일반 교육의 공공성뿐만 아니라 의료 인력양성이라는 사회적 책무성을 포함함에 따라 학생평가의 객관성이 더욱 강조된다. 학생평가의 객관성은 평가계획의 수립에서 결과보고에 이르는 전 과정의 내용적, 절차적 타당성에 근거한 것으로,Shepard (2000)는 학생평가에 대하여 다음과 같이 제안한다.


바람직한 학생평가를 위해서는

    • 첫째, 학생의 사고능력 및 실제수행능력을 향상시킬 수 있는 과제가 주어져야 하며, 
    • 둘째, 학습결과뿐만 아니라 학습 과정을 다루어야 하며, 
    • 셋째, 수업과 통합된 지속적 활동이어야 하며,
    • 넷째, 학생학습을 지원할 수 있도록 형성적평가가 이루어져야 하며, 
    • 다섯째, 학생들에게 무엇이 기대되는지 명확히 확인시킬 수 있어야 하며, 
    • 여섯째, 학생들이 자신의 수행을 평가하는 데 능동적으로 참여하게 하며, 
    • 일곱째, 학생학습뿐만 아니라 수업개선을 위하여 평가결과가 활용되어야 한다.


Shepard의 제안은 전통적 지필평가와 수행평가 모두에 적용되는 것으로, 학생평가의 교육적 활용을 강조한다. 평가상황에서 제한적으로 수집된 학생의 말, 행동, 반응 등은 그 학생이 보다 넓은범위에서 무엇을 알고, 할 수 있으며, 어떤 능력을 갖는지에 대한 추정의 근거가 된다. 이러한 추정의 정확성이 학생평가의 객관성을 의미하며, 이는 학생평가를 구성하는 문항형식, 문항내용, 시행절차,채점, 결과산출 과정이 논리적, 실천적으로 평가목적에 부합하였는가로 귀결된다.






This paper addressed various issues related to the objectivity of student assessment in medical education. The

objectivity of assessment was related to all the steps of test development, administration, and results reporting

in terms of reliability and validity. Specifically, the objectivity of item formats, representativeness of test content,

standardization of test administration, consistency of scoring procedures, and appropriateness of reporting test

results were discussed by comparing performance assessment with traditional paper-and-pencil tests. The conclusions

were derived from current measurement theories such as standards-based assessment, evidencebased

design, and outcome-based assessment. Further, based on Shepard’s propositions (2006), the objectivity

of student assessment could be achieved by improving the concordance between educational objectives and

assessment components such as item types, test contents, and test administration, scoring, and reporting.

Keywords: Objectivity, Reliability, Student assessment, Validity

의사면허 실기시험 제도의 성과와 과제

The Effects and Challenges of Clinical Skills Assessment in the Korean Medical License Examination

김종훈

인하대학교 의학전문대학원 의학교육실

Jong Hoon Kim

Office of Medical Education, Inha University School of Medicine, Incheon, Korea





서 론

우리나라 의사면허 국가시험에 실기시험이 도입된 지도 4년이 지나고, 2013년 올해로 5년째를 맞이하고 있다. 그동안 많은 사람들이노력한 결과 실기시험은 큰 문제없이 안정적으로 시행되고 있으며의학교육에도 많은 영향을 미치고 있다. 이 시점에서 그동안의 시행과정과 그 성과를 살펴보고 앞으로 개선방향을 정리할 필요성이제기되었다. 이에 본 논문에서는 기존의 연구보고서와 논문 등을바탕으로 실기시험 도입의 취지와 그 준비과정, 그동안의 실제 시험의 시행 경과, 실기시험 도입에 따른 영향과 성과 등을 간략하게 기술하고, 저자 나름의 실기시험의 개선과 발전을 위한 방안을 제시해 보고자 한다.


의사면허 국가시험에 실기시험 도입의 취지


의사면허 시험에 실기시험을 도입할 필요가 있다는 주장은 실제로 실기시험을 시작하기 오래전부터 제기되어 왔다. 저자가 판단하기에 이러한 필요성이 대두된 근본적인 원인은 1970년대부터 미주에서 제기되기 시작한 의학교육 패러다임의 변화에서 찾아야 한다고 생각한다(Caraccio et al., 2002). 20세기 초 의학교육은 Flexner의 연구보고에 따라 혁명적인 변화를 가져온다. 이는 기존의 비체계적인 도제식 교육과정을 체계적인 구조와 과정에 기반을 둔 교육과정으로 변화시키는 계기가 되었다. 그런데 그로부터 몇 십 년이흐른 1970년대부터 새로운 의학교육의 흐름이 태동하기 시작했다.이는 대중과 사회로부터 의사 스스로가 사회가 원하는 의사로서적격(competent)한지 책임(accountability and responsibility) 있게담보하라는 요구가 커졌기 때문이다. 그래서 의사의 적격성(competency)을 정의하고 적격성을 구성하는 속성(attributes)을 파악하며 각 속성마다 일정 기간(의학대학 재학기간 혹은 전공의 수련기간) 안에 달성해야 할 수준을 설정하여 이를 달성하기 위한 교육과정을 만들어야 할 필요성이 제기되었다. 더하여 이러한 교육과정을 마친 결과 실제로 그 수준에 도달했는지를 각 속성별로 검증하기 위한 평가(measurement of outcomes) 전략을 모색하게 되었다.의학교육의 적격성을 구성하는 속성은 흔히 Miller가 제안한 pyramid로(Figure 1) 설명되고 있다(Miller, 1990). 그러나 1990년대 초까지만 해도 이러한 속성들을 제대로 평가할 수 있는 전략이 마련되지 않아 평가가 필기시험을 통한 ‘know’와 ‘know how’ 영역의속성에 국한되어 왔다. 그런데 미국과 캐나다에서 연구와 임상경험을 통하여 몇 의사들의 경우 지식은 풍부하나 환자로부터 의학적인 정보를 획득하는 능력이나 환자와의 의사소통능력에 문제가 있음이 밝혀졌다(Ramsey et al., 1998; Stillman et al., 1986, 1990;Suchman et al., 1997). 그리고 이러한 능력의 부재가 의료과오나 실수에 관련되어 있음이 밝혀졌다(Beckman et al., 1995; Moore etal., 2000; Vincent et al., 1994).



이러한 상황을 개선하기 위해 Figure 1에서도 나타난 바와 같이4가지 영역의 속성 중에서 더 높은 직업적 신뢰성(professional authenticity)을 담보하기 위해서는 pyramid의 상위 속성인 ‘showshow’와 ‘does’ 영역의 속성을 평가할 필요가 제기되었다. 직업적 신뢰성이란 어떤 평가의 내용과 형식이 평가를 받는 사람의 일(work)과 관련된 능력과 얼마나 밀접한 관계를 가지고 있는가를 나타내는 척도를 말한다. 그런 의미에서 ‘knows how’의 영역보다는‘shows how’의 영역이 평가를 받는 사람의 직업적 신뢰성에 더 밀접한 관련이 있다고 말할 수 있다. 

  • 여기서 ‘shows how’의 영역은 실제와 유사한 상황에서 적절하게 행동할 수 있는 개인의 능력을 보여주는 것을 말하는데 이러한 능력을 측정하기 위해 가장 많이 사용되는 방법이 표준화 환자나 기계적 simulator를 이용한 실기평가로 1990년대부터 objective structured clinical examination(OSCE)나 임상수행평가(clinical performance examination, CPX)같은 방법이 널리 전파되면서 이 ‘shows how’의 영역에 속하는 속성들이 실제로 평가의 대상이 되기 시작했다. 
  • ‘Does’는 습관적인 실행에 있어 실제 수행(actual performance in habitual practice)을 의미하는데 이 영역이 ‘shows how’에 비하여 직업적 신뢰도가 더 높다고 할 수 있으나 ‘does’ 영역은 실제로 업무를 수행하면서 현장에서 받는 평가이므로 의사면허가 없는 학생을 대상으로 일정한 체계를 갖추어 정확한 평가를 하는 것은 매우 어려운 일이다.


우리나라에도 이러한 의학교육 패러다임의 변화가 알려지면서‘shows how’ 영역 평가의 필요성이 대두되고 OSCE, CPX와 같은평가방법이 실행할 수 있게 됨에 따라 1990년대 후반부터 각 학교별로 혹은 여러 학교가 컨소시엄을 형성하여 실기시험을 시행하게되었다. 이에 따라 국가적 차원에서도 기본의학과정을 수료한 사람이 실제 상황에서도 의사로서 적절한 수준의 임상적 능력을 발휘할 수 있는지 검증함으로써 의사의 직업적 신뢰성을 담보하고자 의사면허시험에 실기시험을 도입하게 된 것이다.




실기시험 도입을 위한 준비과정


국가면허시험으로 실기시험을 시행하기 위해서는 학교나 컨소시엄 차원의 준비보다 더 많은 노력과 투자가 필요했다. 그 기술적인 내용은 한국보건의료인국가시험원(이하 국시원)에서 발간한 백서에 자세하게 서술되어 있다(Kim KS, 2011). 본 논문에서는 준비과정을 몇 개의 범주로 나누어 각 과정의 필요성과 그 의미를 간략하게 기술하였다.


1. 연구사업


1999년부터 실기시험을 시행하기 위한 준비과정으로 여러 연구가 수행되었다. 먼저 의사국가시험에서 임상수기 수행능력을 측정하기 위한 방안을 모색하는 연구를 시작으로 의사시험을 당시의필기시험 일단계 평가에서 다단계 평가로 이행하면서 여기에 필기이외의 단계로 실기시험을 시행하는 방안의 타당성과 구체적인 실행방법에 대한 연구가 시행되어 다단계 시험을 시행할 경우 실기시험이 우선적으로 시행되어야 한다는 결론이 내려졌으며 시험을 시행하기 위해 필요한 준비사항과 다양한 시험의 시행방법들이 제시되었다. 이후에 모든 진료문항에 공통적으로 사용될 환자의사관계를 평가하기 위한 항목개발연구와 실기시험의 합격기준 설정방법을 고안하기 위한 연구가 시행되었고 그 결과물이 현재 실기시험에적용되고 있다. 그 외에도 실기시험을 실제로 실행하기 위한 구체적인 사항에 대한 연구가 진행되었다.



2. 시험문항 선정


2006년 당시 한국의과대학장협회에서 발간한 학습목표집과 실행방안연구를 바탕으로 1차 의사 수준의 환자진료능력을 평가할수 있는 항목을 추출하고 환자가 호소하는 임상표현으로 분류하여 진료문항(초기에는 CPX문항이라고 명명함)의 제목(예를 들어,복통, 발열 등)을 결정하였으며, 1차 의사 수준에서 시행할 수 있어야 하는 단순임상술기와 진찰방법을 추출하여 수기문항(초기에는OSCE문항이라고 명명함)의 제목(예를 들어, 기관 내 삽관, 복부진찰 등)을 결정하였다. 1차로 선정된 문항들을 대상으로 빈도와 위험도 같은 임상적인 중요도, 시험에서의 실현 가능성, 의과대학의교육상황 등을 감안하여 최종적으로 실제 시험에 사용될 문항을결정하였다.



3. 시험문항 개발


진료문항은 일차적으로 각 임상표현의 환자를 주로 진료할 것으로 예상되는 전문가에게 환자 연기를 위한 시나리오와 수험생의 진료행위를 평가하기 위한 채점표를 의뢰하여 초고를 받은 후에 문항심의위원회의 집중 심의작업을 통하여 문항의 완성도를 높였으며문항들 간의 구조와 내용에 있어 통일성을 기하였다. 수기문항도각 문항의 전문가에게 수험생이 특정 술기나 진찰을 완수하기 위해 시행해야 하는 세부 항목으로 구성된 채점표를 의뢰하여 초고를 받은 후에 문항심의위원회 심의를 통하여 1차 의사가 수행할 수있는 수준으로 완성하였다.



4. 평가체계 개발


일정 기일 내에 많은 수의 수험생을 평가하면서도 진료와 수기로여러 영역의 문항을 고루 평가하면서 일정 수준 이상의 평가 신뢰도를 담보하기 위하여 최대한 많은 문항을 사용하기 위한 평가체계를 개발하였다. 그 결과 진료문항과 수기문항을 각 6개의 범주로 나누고, 각 범주에서 1개 문항을 무작위로 추출하여 총 12개 문항으로 이루어진 문항 set를 상당수 만든 후에 진료와 수기문항에서 같은 내용을 평가하는 문항이 있는지 검토(예를 들어, 진료 영역의 복통문항과 수기 영역의 복부진찰문항이 한 set에 있는 경우)하여 평가내용이 겹치는 문항이 없도록 조정하였다.



5. 예행연습


실제 평가를 시행하기에 앞서 준비상태를 점검하기 위하여 3차례 예행연습을 시행하였다. 첫 예행연습은 소수의 학생을 대상으로 개발된 평가체계가 실제 시험에 적용하기에 무리가 없는지를 집중 점검하여 문제가 없음을 확인하였다. 두 번째, 세 번째 예행연습은 점차 많은 학생을 대상으로 실제 실기시험이 시행될 국시원 실기시험센터에서 시행되어 센터의 준비사항을 점검하고 교수 채점위원과 표준화 환자의 채점을 비교 검토하여 진료문항은 표준화 환자가, 수기문항은 교수 채점위원이 채점표를 완성하기로 결정되었다.또한 예행연습을 통하여 수집한 평가결과자료를 이용하여 연구사업을 통하여 제안된 합격선 결정방법을 실제로 적용하여 실제 시험에 사용이 가능함을 검증하였다.


이 외에 실기시험의 시행을 홍보하기 위해 의학교육학회에서 실기시험 시행에 대한 토론회를 하였고 각 대학에는 국시원에서 정식으로 공문을 발송하였으며, 예행연습을 위해 각 대학에 참가학생을 모집하는 과정과, 그리고 준비과정에서 한국의과대학 . 의전원협회와 긴밀하게 의사소통을 하였다. 시험의 시행시기는 법률상 4학년 학생에게 졸업예정자의 자격이 주어지는 졸업예정일 전년도 9월부터 시행하기로 결정하였다.



실기시험의 시행 경과


2009년 9월에 처음으로 약 50일간에 걸쳐 3,500여 명의 수험생을 대상으로 실기시험이 시행되었으며 작년까지 4년간 시행되었다.실기시험의 시행하기 위해서 새로운 문항의 개발, 시험에 사용될문항의 선정과 수정, 표준화 환자 훈련과 수기문항을 위한 기구 준비, 시험의 시행, 합격선 설정, 시험에 사용된 문항의 정리 등의 작업이 매년 시행되고 있다. 새로운 문항의 개발과정은 위에서 ‘시험문항 개발’과 거의 동일하므로 여기서는 다른 작업에 대하여 간략하게 기술하였다.



1. 문항 선정과 수정


진료문항의 경우 기출문항과 새로 개발된 문항을 대상으로 당해 연도에 사용될 문항을 6개의 범주에서 골고루 선정한다. 선정된문항을 문항 심의위원들에게 전문성과 경험을 기준으로 분배하여1차로 점검을 한 후에 시연(1차 점검본으로 표준화 환자를 훈련시켜 심사위원 중 한 명이 수험생 역할을 하고 다른 심의위원이 채점자 역할을 하며 문항을 점검하는 과정)을 통하여 문항의 문제점을발견하고 2차로 다시 수정을 한 후에 심의위원 전원이 참석하는 토론을 거쳐 실제 시험에 사용될 최종문항을 완성한다. 시연 후에 수정해야 하는 부분이 많거나 중요한 수정이 있다고 판단되면 다시시연을 시행하기도 한다. 이때 새로 개발된 문항은 기존문항과의비교 검토를 통하여 채점표의 내용이나 난이도 등의 측면에서 기존문항과 차이가 나는 부분이 있는지 점검한다.


수기문항의 경우 기존 시험에 사용되었던 문항은 다음에 기술할‘시험 후 문항정리’ 작업에서 수정을 마치고 다음 해에 다시 문항심의를 거쳐 재사용 여부가 결정되는데, 필요할 경우 시연을 하여 문제점이 있는지 다시 점검한다. 새로 선정된 문항은 진료문항과 같은 경로로 1차 점검을 마치고 시연을 통하여 문항의 문제점을 점검한 후에 2차로 수정을 한다. 이후 기존과 신규 수기문항 모두 심의위원 전원이 참석하는 토론을 통하여 최종문항을 확정한다. 앞서‘평가체계 개발’에서 기술한 것처럼 이들 진료와 수기문항을 조합하여 각 수험생이 수행할 시험 set를 완성한다.



2. 표준화 환자 훈련


위에서 기술한 문항심의작업을 거쳐 당해 연도에 사용될 진료문항이 확정되면 이에 따라 표준화 환자의 모집이 이루어진다. 모집된표준화 환자들은 국시원의 표준화 환자 교육자와 대학교수로 이루어진 교육위원들로부터 표준화 환자가 되기 위한 훈련을 받는다. 훈련은 배당받은 진료문항의 환자로서 행동하기, 채점표 완성하기로이루어져 있다. 몇 차례 훈련을 마친 후에 교육위원으로부터 합격판정(문항의 환자를 올바르게 표현하고 채점표를 정확하게 완성)을 받은 표준화 환자를 대상으로 실제 시험을 시행하기 전에 여러교육위원이 최종 예행연습을 시행하여 여기서 최종 합격을 받은 표준화 환자가 실제 시험에 투입된다. 훈련과정이나 최종 예행연습에서 불합격 판정을 받은 표준화 환자는 재훈련을 실시하여 다시 판정을 받는다. 여기서 합격 판정을 받으면 시험에 투입되지만 불합격판정을 받으면 표준화 환자를 교체하여 다시 훈련을 시행한다.



3. 시험의 시행


대개 9월 초부터 11월 말까지 50여 일간 하루에 최대 3회(한 회에24명씩, 2개 center에서 각 12명씩) 72명의 학생이 시험을 보게 된다.수험생은 진료문항과 수기문항 중에서 각기 6개가 추출된 모두 12개 문항으로 이루어진 시험 set를 진료문항과 수기문항을 번갈아가며 수행하게 된다. 진료문항에서 표준화 환자를 진료한 수험생은 바로 이어 사이시험(대개 진료한 표준화 환자에서 감별해야 할 질환과 필요한 진단이나 치료계획을 기술하는 시험)을 완성하고 이어서 수기문항을 수행하고 수기문항을 마치면 바로 다음 진료문항을수행하는 형태로 시험이 이루어진다.

  • 진료문항은 표준화 환자가 짝을 이루어 연기와 채점표 완성을 담당하게 되는데 한 표준화 환자가 환자 연기를 하며 수험생의 진료를 받을 때, 동시에 한 표준화 환자는 시험장 외부에서 그 모습을 관찰하며 실시간으로 채점표를완성하게 된다. 
  • 수기문항의 경우에는 각 대학에서 추천된 교수채점위원이 시험방 내에서 학생의 수기 수행을 관찰하며 실시간으로 채점표를 완성하는데, 이 과정에서 채점위원의 문항에 대한 개선 의견도 취합하고 있다.


매 시험일 각 시험 center마다 1명의 책임채점위원이 전체적인 시험의 진행을 감시하며 돌발사항이나 채점 시 의문사항 등에 대하여대처하고 있다. 책임채점위원은 사이시험의 채점도 담당하고 있다.



4. 합격선 설정


모든 수험생이 시험을 마치고 모든 자료가 정리되면 매년 시험에사용된 모든 문항에 대하여 각 문항마다 그 문항의 합격점수를 결정하게 되며 이를 토대로 각 수험생의 합격 여부를 결정하게 된다.상세한 합격점수 결정방법은 보건복지부장관의 고시(제2009-106호)로 공표되어 있다. 각 문항의 합격선을 결정한 후에는 각 시험set에 따른 점수와 합격률 등을 분석하여 특정 시험 set에 따른 편차가 있는지를 재차 검증한다.



5. 시험 후 문항정리


시험에 사용된 문항에 대하여 시험결과 채점표 항목에 대한 학생의 반응도와 표준화 환자나 채점위원의 의견 등을 분석하여 시나리오나 채점표가 표준화 환자의 연기나 평가의 신뢰도를 향상시키는 방향으로 수정 보완이 가능한지를 논의하여 문항정리를 하고문제은행에 입고한다.



6. 문항 풀 관리


수기문항의 경우 새로운 시험항목이 추가될 때마다 새로운 문항을 만들고 있으며 몇 개의 특수한 문항의 경우 동일항목에 여러 형태의 문항을 추가하는 방법으로 문항을 관리하고 있다. 진료문항의 경우 새로운 시험항목과 기존문항에 대하여 일정 수의 신규문항을 만들고 있으며 차후 충분한 수의 문항이 확보되면 오래된 문항의 도태를 고려하고 있다.




실기시험 도입에 따른 영향과 성과


지난 2011년에 저자도 참여한 설문조사와 전문가 토론을 통하여실기시험의 성과를 분석하는 연구가 시행되어 그 결과가 보고서와논문으로 발표된 바 있다(Park, 2012). 여기서는 그 내용을 간략하게 기술하였다.


설문조사결과 실기시험의 도입은 각 학교의 교육에 상당한 영향을 미친 것으로 나타났다. 임상술기를 실습하기 위한 공간을 갖춘대학이 크게 늘어났으며 임상실습 준비과정, 임상술기평가 등을교과과정에 도입한 대학도 많아졌다. 그리고 임상술기 시험을 시행하기 위한 각 지역별 컨소시엄에 거의 모든 대학이 가입하면서 컨소시엄이 활성화되는 계기가 되었다. 또한 졸업자격을 검증하는 평가에 실기시험이 포함되게 되었다. 임상실습에 있어서도 학생이 환자를 접할 수 있는 기회가 증대되었으며 교수들이 실습에 참여하는 시간도 늘었다고 답하였다. 교수와 간호사, 환자를 대상으로 실기시험을 도입한 후에 배출된 수련의나 전공의에 대한 평가를 물은결과 기본 임상술기, 환자에 대한 태도, 자신감, 의사소통의 측면에서 전에 비해 향상이 되었다는 응답이 있었다. 반면에 의료과오나의무기록 작성능력에는 의사실기시험의 도입이 큰 영향을 주지 않은 것으로 나타났다. 실기시험에 합격하여 의사가 된 수련의나 전공의들은 실기시험을 위한 준비과정이 자신의 일차의료 능력 배양,환자와의 대화능력 향상, 전반적인 임상능력 배양에 도움이 되었다고 스스로를 평가하였다.


전문가 집중 토의모임에서는 의사실기시험의 도입이 의학교육의긍정적인 변화를 가져온 측면이 많이 있지만 아직까지 임상실습의내실화 등 변화의 정도와 방향에 대해서는 더 많은 발전과 정립이필요하다는 것이 공통적인 의견이었다. 또한 새로이 수련과정을 시작하는 의사가 과거에 비해 임상 수행에 대한 자신감이 향상되었고 실제 수행능력도 좋아졌다는 의견이 지배적이었다. 하지만 이러한 능력을 더욱 계발하고 발전시켜야 할 교육체계의 미비로 향상되었던 능력이 시간이 지남에 따라 오히려 퇴보하는 문제가 지적되었다. 이를 개선하기 위해 졸업 후 교육을 더욱 체계화시킬 필요가 있으며 이러한 교육의 성과를 평가하는 체계도 마련될 필요가 있다는 의견이 있었다.


미국의 경우 2004년도에 의사면허시험에 실기시험을 도입한 바있는데 Hauer et al. (2006)은 미국 내 25개 의과대학의 학생교육 지도자와 반구조화된 대담을 하여 이를 분석한 결과 면허 실기시험의 도입이 각 학교가 임상능력 평가와 교육과정의 변화에 대한 토론을 할 수 있는 기회와 이를 실행할 수 있는 동기를 제공하는 역할을했다고 결론지었다. 또한 몇 년 후에 발표된 설문조사연구에서 많은대학에서 실기시험이 도입됨에 따라서 표준화 환자의 이용, 각종 수기교육, 임상실습, 교수개발 프로그램이 증가하거나 새로 도입되었다고 답하였다(Gilliland et al., 2008). 대만에서는 의사면허시험에실기시험을 도입한다는 발표가 교육병원의 OSCE 시행에 미친 영향을 설문조사한 연구에서 교육병원의 OSCE가 확대되었으며OSCE를 시행하기 위한 시설도 확충되었다고 보고하였다(Lin et al.,2013). 양국의 예에서도 우리나라와 유사하게 실기시험의 도입이 교육기관의 실기교육을 강화하는 효과가 있었음을 보여주고 있다.



실기시험의 개선과 발전을 위한 방안


앞서 언급했듯이 지난 4년간 우리나라 의사면허시험에서 실기시험이 시행되어 왔다. 모든 평가가 그 목적한 바에 100% 충실하게 시행되는 것은 불가능한 일이나 제도의 발전을 위해서는 그 제도 시행의 근본 취지를 다시 한 번 생각하며 그 취지를 달성하기 위하여어떤 가치가 중요하고 그 가치를 실현하기 위한 대책을 강구하는 것이 필요하다고 생각된다. 물론 이러한 과정에서 실제로 그 대책의실현이 가능한지를 면밀히 따져서 추진의 우선순위를 결정하여야할 것이다.


우리나라가 의사국가고시에 실기시험을 시행하는 목적은 개인에 따라 생각하는 바에 차이가 있을 수 있지만 지난 실기시험 평가목표 개발연구과정에서 결론을 내린 내용은 다음과 같다. ‘의사실기시험은 의과대학/의학전문대학원 졸업생 혹은 졸업예정자가 일차의료에 필요한 기본적인 지식, 술기, 태도를 적용하여 환자중심으로 안전하고 효과적인 진료를 수행하는지 평가하는 데 있다(Park et al., 2012).’ 그러므로 수험생이 그렇게 수행하는지를 정확하게 판별하는 것이 무엇보다도 중요하다고 본다(평가의 정확성).실기시험의 특성상 수험생이 어떤 시기와 센터에서 평가를 받느냐에 따라 평가에 사용되는 내용이 상당 부분 다를 수 있으나 그럼에도 불구하고 모든 학생이 평등한 기준으로 평가를 받을 수 있어야한다(평가의 공정성). 현재 국가시험을 개선하기 위해 어떤 제도나시설이 필요한가에 대한 논의가 여러 연구와 회의상에서 이루어지고 있다. 여기서는 각각의 과제를 정확성과 공정성의 개선 측면에서그 필요성을 기술하고 실제로 시행하기 위해서는 무엇이 필요한지저자의 의견을 기술하였다.


먼저 제도의 개선으로 실기시험의 시행을 상시화하는 방안이 논의될 필요가 있다. 현재 시행되는 의사국가시험은 필기시험이든 실기시험이든 졸업예정자(최종학년 학생으로 6개월 이내에 졸업이가능한 자)나 졸업생에게 1년에 단 1차례의 응시 기회만을 부여하고 있다. 그리고 이 1회의 시험에서 불합격의 판정을 받으면 정식 졸업 후 교육과정(여기서는 수련과정을 말함)에 들어가지 못하고 그다음 시험까지 1년을 기다려야 하는 교육의 공백기간이 생긴다. 그런데 미국은 수험생이 첫 응시에 불합격하더라도 1년 이내의 기간에 다시 응시할 기회가 두 차례 더 부여되고 있으며(United StatesMedical Licensing Examination, 2012) 캐나다의 경우에는 졸업 후1년 이상의 수련을 받은 후에 응시할 수 있으며 1년에 응시 기회는봄, 가을로 2회만 부여되지만 이 시험에 불합격하더라도 수련이 중지되는 것이 아니므로 수련을 마치고 독자진료를 하는 시점까지 수련의 중단 없이 여러 차례의 응시 기회가 부여된다(Medical Councilof Canada, 2013). 우리나라도 단 1회가 아니라 수험생이 첫 응시에 불합격하더라도 졸업하기 전에(이미 졸업생이라면 다시 1년을더 기다리기 전에) 다시 응시 기회를 주기 위해 미국과 같은 상시시험 제도의 도입이 연구된 바 있다(Han et al., 2010). 상시시험의 취지는 학생이 자신의 의사로서의 실력 이외에 다른 조건에 의하여이익이나 불이익을 받지 않도록 하겠다는 것이라고 말할 수 있다.예를 들어 원래 실력은 부족하지 않으나 시험 당일의 수험생의 신체적, 정신적 상황으로 자기 실력을 발휘하지 못하는 경우, 당일의시험문항이 수험생의 실력 중에서 제일 취약한 분야에서만 출제되는 경우, 당일의 시험문항이 다른 날에 비해 난이도가 높은 경우 등은 수험생이 불이익을 받을 수 있다. 반대로 수험생의 실력이 부족한데 당일의 시험이 다른 날에 비해서 난이도가 낮으면 운이 좋아서 시험에 합격하는 상황이 벌어질 수 있다. 이와 같이 서로 다른 문항을 사용하여 수험생을 평가해야 하는 경우 1회의 시험만으로는학생의 실력이 정확하게 합격할 수준을 상회하는지 모든 학생에게공정한 평가가 이루어지는지 보장하기 어렵다. 이러한 문제를 완전히 해결하는 것은 불가능하지만 상시시험을 도입한다면 ‘운’보다는‘실력’이 평가에 더 큰 영향을 미칠 수 있도록 시험제도를 수정할 수있는 길이 있다고 생각한다. 예를 들어 현행 합격선 결정방법에 의하면 각 문항의 합격선을 결정할 때 위원들이 제시한 합격선을 평균하여 그 값에서 표준오차를 빼도록 규정하고 있다(MinistryHealth and Welfare, 2009). 이는 합격선 설정과정에서의 오류가 수험생에게 미칠 부정적 영향을 우려한 결과라고 할 수 있다. 캐나다의 경우에는 오히려 평균에서 측정오차를 더하여 합격선을 설정하고 있다(Smee &Blackmore, 2001). 이는 기준을 엄격하게 하여 수험생이 ‘운’이 좋아서 시험에 합격할 가능성을 줄이기 위한 것이다.단 수험생이 엄격한 기준에 의해 ‘실력’이 있는데 ‘운’이 없어서 불합격한 경우라도 정식 교육의 단절 없이 다시 시험에 응시할 수 있으므로 정식교육이 단절되어야 하는 우리나라의 상황에 비해서는 큰문제가 아니다. 그러므로 우리나라에서도 상시시험을 도입하고 합격선을 현재보다 엄격하게 관리한다면 ‘운’이 좋아서 합격하는 경우를 줄이면서도, 학생이 ‘운’이 없어서 불합격하여도 정식교육의단절이라는 엄청난 불이익을 줄일 수 있어 도입을 검토할 필요가있다고 생각한다. 다만 이 제도를 시행하기 위해서는 준비해야 할사항이 많이 있다

    • 우선 법적인 조치가 취해져야 하는데 현행 의료법에 의하면 졸업 예정 6개월 전부터 국가시험에 응시할 수 있도록되어 있는데 상시시험이므로 최소한 이 기간을 1년 이상으로 늘릴필요가 있다(Korea Ministry of Government Legislation, 2011). 
    • 다음으로 이런 상시시험제도를 감당할 수 있는 국시원의 시설과 특히인력의 보강이 필요하다. 
    • 또한 시험센터의 운영, 합격선 결정방법등 세부제도의 정비가 필요하다. 

상시시험제도가 도입되면 학생 1인당 시험시간을 현재보다 더 연장(시험문항 수 확대와 문항당 소요시간 연장, 모의시험[pilot test] 문항 도입)하고 시험의 형태도 더평가에 적합한 형태(진료수기 결합형 문항, 진료 후 구두시험 등)로개선하는 데 필요한 여건을 제공할 수 있을 것이다.



저자가 상시시험의 도입이 필요하다고 생각하는 이유가 하나 더있다. 앞에서 언급했지만 현행 제도하에서도 먼저 시험을 본 수험생들이 시험을 앞둔 수험생들에게 시험에 대한 정보를 제공하고 있을 것으로 예상되고 있다. 이런 상황에 대하여 법적으로 도덕적으로 문제가 제기된 적이 있고(Baek &An, 2011) 앞으로 제기될 소지도 다분하다. 수험생이 시험에 합격하기 위해 불법적이고 비도덕적인 수단을 동원하는 것에 결코 찬성할 수는 없지만 수험생의 입장에서 생각해 볼 때 저자는 그들이 그렇게까지 필사적으로 정보를공유하는 연유에 다음과 같은 측면이 있다고 생각한다. 앞서 언급했듯이 미국이나 캐나다의 수험생은 한 번의 시험에서 불합격하더라도 경력의 공백 기간 없이 다시 응시가 가능하지만 우리나라에서는 한 번의 시험 실패가 수험생에게 1년의 공백기를 가져온다. 다시말해 시험을 앞둔 우리나라의 수험생이 느끼는 합격에 대한 절박함이 미국이나 캐나다 수험생보다 매우 클 것은 자명할 것이다. 특히시험의 실패가 병역 처분과 관계가 있다면 그 절박함의 강도는 훨씬 강할 것이다. 이런 상황이라면 아무리 높은 도덕적 관념을 가지고 있다고 해도 합격의 가능성을 높일 수 있다고 생각되는 수단이있으면 그 수단이 비도덕적이라고 하여도 은밀히 시행할 수 있다면수험생이 이를 이용하고 싶은 유혹을 떨치기 어려울 것이다. 물론상시시험을 시행한다고 해서 정보의 공유가 근절될 것이라고 보기는 어렵다. 아마 미국이나 캐나다 같은 외국에서도 시험에 대한 정보의 공유가 없지는 않을 것이다. 일례로 미국의 의사국가시험을관장하는 the national board of medical examiners (NBME)의 소식지에 학생을 대상으로 한 ‘Sharing isn’t always caring’이라는 글이 실려 있는데 그 내용은 의사로서의 직업정신을 생각하여 정보공유를 자제하고 공유를 발견하면 신고해 달라는 내용이다(NationalBoard of Medical Examiners, 2010). 이런 호소가 얼마나 수험생의 공감을 얻었는지 알 길은 없지만 우리나라에서도 시험을 상시화하여 단번에 합격해야만 경력과 교육의 단절을 피할 수 있다는학생의 부담을 덜어준다면 저자의 생각으로는 학생이 비도덕적 수단에 의존하고자 하는 절박함도 줄어들 것이고 무엇보다도 시험을주관하는 입장에서 더욱 떳떳하게 수험생에게 의사로서의 도덕성과 직업정신을 요구할 수 있는 명분도 세울 수 있을 것으로 보인다.


다음으로 진료수기 결합형 문항과 같은 새로운 형식의 문항을 도입할 필요가 있다. 이러한 형식의 문항이 필요한 이유는 정확성의측면, 즉 실제 의사가 진료현장에서 발휘해야 할 능력을 보다 현실과 가까운 환경을 만들어서 평가하기 위해서이다. 현행 수기문항의경우 많은 문항에서 실제 환자에게 어떤 수기를 시행할 때 수기를시행하기 전에, 수기를 시행하는 중에 그리고 수기를 끝낸 후에 반드시 동반될 수밖에 없는 환자의사 사이의 의사소통에 대한 평가가 충분히 이루어지지 않고 있다. 이는 시험의 운영상 수기문항에 5분이라는 짧은 시간이 배정되어 있어 그 시간에 학생의 술기 테크닉과 환자와의 의사소통을 모두 평가하기가 어렵기 때문이다. 물론환자의사관계는 대개 진료문항을 통하여 평가되고 있으므로 현 시험에서도 평가가 이루어지지 않고 있는 것은 아니지만 환자에게 보다 침습적인 시술을 해야 하는 술기를 시행함에 있어 의사소통은진료 시 의사소통과는 다른 측면이 있으므로 별도로 평가할 필요가 있다. 그러므로 앞으로 시험운영체계의 개선을 모색할 때 현재의 수기문항은 가능한 수기 자체의 수행과 그 수기를 시행받는 모의환자와 의사소통을 결합하는 형식의 평가가 가능해지는 방향으로 논의를 할 필요가 있다. 진료수기 결합형 이외에도 진료문항과환자상태보고나 구두시험 결합형 문항의 도입도 고려할 수 있다.또 진료문항에 있어 표준화 환자의 특성상 표현 가능한 신체진찰소견이 제한적일 수밖에 없는데 표준화 환자로는 표현 불가능한 소견(예를 들어, 심 잡음이나 비정상 폐음, 직장수지검사나 골반내진검사의 이상소견 등)도 현재 개발되고 있는 기술을 이용한다면 보다 풍부하게 문항을 만들 수 있다(Cardionics, 2012; Verma et al.,2011).



현행 시험제도에서는 새로 개발된 문항을 실제 시험에 사용하기전에 모의시험을 시행할 기회가 제한적이다. 물론 문항심의와 표준화 환자 훈련, 최종 예행연습을 통하여 시험에 사용하는 데 문제가없는지 철저히 검증을 하고 있지만 보다 자세하고 정확하게 문항을분석하기 위해 실제 수험생을 대상으로 문항을 점검하는 모의시험을 시행할 방법이 없다. 미국이나 캐나다의 경우 새로 출제되는 문항을 평가에 사용되는 문항과 섞어서 실제 국가시험에서 수험생이이 새 문항에 대하여 어떤 반응을 보이는지 자료를 축적하여 실제시험에 사용이 가능한지 여부를 마지막으로 점검하고 있다(Han etal., 2012). 이는 새로운 문항이 정확하게 수험생의 능력을 측정할수 있는지 판단하기 위해 필요한 과정이라고 생각된다. 그러므로 우리나라에서도 장차 시험의 운영방식에 변화를 주고자 할 때 새로운 형식의 문항도입과 수험생을 상대로 새로운 문항에 대한 모의시험이 가능할 수 있도록 논의를 할 필요가 있다.



마지막으로 채점체계의 개선을 고려할 필요가 있다. 현 시험운영방식에 의하면 수험생이 표준화 환자를 진료하고 나서 사이시험에감별진단과 앞으로의 진단이나 치료계획을 5분 내에 기술하도록되어 있다. USMLE step 2 clinical skills (CS)의 경우 표준화 환자를진료한 후 10분 내에 중요한 병력과 신체진찰소견, 감별진단과 앞으로의 계획을 기술하도록 되어 있다. 더하여 감별진단에는 반드시수험생이 이런 감별진단을 해야 한다고 판단한 병력과 신체진찰소견상의 근거를 3개 이내로 기술하도록 되어 있다. 우리나라에서 한대학의 학생을 대상으로 사이시험에 병력과 신체진찰소견을 기술하도록 하고 그 점수와 병력, 신체진찰 점수 간의 관련성을 조사한연구결과 관련성이 높지 않은 것으로 나타났다(Kim JH, 2010,2011). 이는 학생이 병력을 통하여 환자에게서 어떤 질문을 했는지,그리고 어떤 신체진찰을 했는지와 병력이나 신체진찰을 통하여 얻은 정보의 중요성에 대하여 어떻게 판단하는지가 큰 관련성이 없다고 해석할 수 있다. 그러므로 학생의 임상적 능력을 보다 정확하게측정하려면 사이시험에 병력과 신체진찰을 주요 소견을 기술하도록 하는 것이 필요하다고 본다. 또한 실기시험에서는 학생의 정보획득 능력을 측정하기 위해 학생이 표준화 환자에게 특정 정보를 얻기 위한 질문을 했는지(혹은 표준화 환자에게서 어떤 정보를 들었는지) 여부를 파악하기 위해 checklist 형태의 채점표를 사용하고있다. 그런데 작년부터 USMLE step 2 CS에서는 이 병력 checklist를 폐지하고 병력청취에 관한 부분은 사이시험을 통해서만 평가하고 있다. 이런 변화를 시행한 이유를 정확하게 알 수는 없으나 지난2011년 NBME의 assessment scientist인 Ann King이 강의에서 그이유의 하나로 표준화 환자가 다양한 수험생의 다양한 질문에 답을 할 수 있는 여지를 주어 보다 실제 환자에 가까운 역할을 수행할수 있도록 하기 위해서라고 발표하였다(Lewis, 2011). 우리나라에서도 표준화 환자가 병력채점표를 정확하게 완성하기 위해 수험생이 특정 질문을 했는지에 과도하게 집중하게 되면 표준화 환자의태도가 실제 환자와 괴리되는 현상이 벌어질 수 있다. 물론 이러한현행 실기시험의 채점체계가 평가의 정확성과 공정성을 크게 저해한다고 말할 수는 없지만 보다 시험의 완성도를 높이기 위해서는채점표와 사이시험체계의 변화를 고려해야 하며 특히 시험운영체계를 개선하여 모의시험이 가능해진다면 반드시 그 시행 가능성과효과를 검증해 볼 필요가 있다.


결 론


이상에서 현행 우리나라의 의사국가시험 실기시험의 앞으로의개선 과제를 열거하였다. 결국 현행 제도의 문제를 개선하기 위해서는 국가시험 자체를 통하여 개선책(새로운 형태의 문항도입, 채점체계의 개선 등)의 효용을 검증하는 체계를 도입할 필요가 있다고 판단된다. 그리고 이런 체계를 도입하기 위해서는 현행 시험운영체계의 개선(실기시험 상시화, 실기시험 중에 모의시험 도입 등)이필수적이다. 이를 통하여 보다 정확하고 공정한 수험생의 실기능력평가가 이루어질 수 있을 것이라고 기대된다.





Clinical skills assessment was recently introduced to the Korean Medical License Examination to test medical

school graduates’ competencies in clinical skills. Various measures, including research and rehearsals, had been

undertaken to prepare for the assessment for several years before the clinical skills assessment was first implemented.

The assessment has been repeated annually for about 3,500 examinees over the course of 50 days per

year for the past 4 years. The introduction of the assessment had significant effects on education in Korea’s

medical schools. Many schools have established clinical skills labs and the teaching of clinical skills has also

been strengthened. The residents who have taken the clinical skills exam now express more confidence in caring

for patients. To improve the quality of the assessment, it should be performed on a year-round schedule and

a pilot test and various forms of the items should be introduced.

Keywords: Clinical competence, Assessment, Licensure, Medical


의사면허 필기시험 제도의 성과와 과제

Major Reforms and Issues of the Medical Licensing Examination Systems in Korea

백상호

가천대학교 의학전문대학원 해부학과

Sang-Ho Baik

Department of Anatomy, Gachon University Medical School, Incheon, Korea



서 론

우리나라에 의사시험(공식 이름은 의사국가시험)제도가 처음도입된 것은 반세기 전인 1952년이다. 그 뒤 62년이 지난 지금에 이르기까지 의사시험에는 많은 변화가 있었으며 이에 따르는 시련과갈등도 있었다. 결과적으로 의사시험은 많이 개선되었으며 그 주된내용은 예전에 비하여 시험제도와 시험문항의 질 및 수준이 보다높아졌다는 점이다. 이러한 의사시험의 변화는 대학의 의학교육내용, 방법과 학생들의 시험 준비태도에도 상당 부분 영향을 주었다.당시의 변화 과정 속에 나타났던 모든 어려움과 고통, 갈등의 요소가 지금은 너무나도 당연한 것으로 받아들여질 만큼 평가체계 자체의 발전과 이에 관련된 사람들의 의식변화도 많이 달라졌다. 그중에서도 몇 가지 큰 변화를 지적하자면 시험을 주관하는 기관이정부 부서에서 공익 중심의 민간 전문 평가기관으로 옮겨진 것을시작으로 시험목표 설정, 시험과목 수의 감소, 과목별 시험문항 수의 증가, 문항의 질 및 형태개선, 시험장소의 분산, 시험기관의 조직보강 및 업무확장, 시험업무의 전산화, 국제기구와의 협력체계 구축, 실기시험의 도입 등이다.


의사국가시험

의사시험의 기능은 의과대학 교육을 마친 졸업생을 대상으로 기본(1차)진료의사로서 적절한 능력을 가졌는지 여부를 평가하여 이기준을 통과한 사람에게 의사자격을 주고 의료업에 종사할 수 있는 면허를 부여하는 데 있다. 능력평가는 곧 전문지식, 임상수기, 태도, 윤리성과 도덕성 등의 측정을 통해 법 규정에 따른 정답 총계가합격선을 통과하면 이 능력을 갖추고 있다고 인정되는 제도이다. 그러나 초기 시험의 질과 수준, 측정 범위는 만족스럽지 못하여 이것을 개선하는 데 오랜 기간 동안 의학계의 많은 노력이 기울여졌다.우선 시험과목 수가 너무 많았고 상대적으로 시험문항 수는 적었으며 문항의 형태는 출제 교수의 의도에 따라 여러 가지가 섞여 있었고 과목 간의 중복사항을 검증할 만한 장치도 없었다. 그리고 이모든 것을 하루에 서울에서 시행하였다. 이러한 시험의 문제점을개선하려면 법(시행령, 규칙)을 고쳐야 할 부분도 있었고 문항이 얼마나 좋고 나쁜지 분석(문항분석)을 하는 전문가와 조직도 따라야했다. 그때의 의사시험이 전체적으로 내용수준은 높았지만 문항구성수준이 낮은 상태였던 것으로 판단되었지만 사회가 이것을 곧의사의 질과 수준으로 연관시키는 일은 거의 없었고 의학계 자체적으로 자발적이고 자율적인 개선활동으로 이어져 왔다. 과거에 시행한 시험이 내면적으로 의사의 역할 검증을 얼마나 수행했는지는판단할 명확한 증거가 없었기 때문에 단언하기가 어렵다. 그러나 사람의 능력을 시험할 때 갖추어야 할 평가의 기본적인 측정원칙, 평가범위, 절차와 과정 등에는 원리와 논리에 어긋남이 많은 채 수십년을 유지해 왔다는 것은 과거의 의사시험이 걸어온 길을 돌이켜보면 쉽게 납득이 간다(Baik, 1988; Cha, 1993).



시험기관의 신설 및 업무 이관


의사시험은 1952년 제1회 의사시험제도 도입 이후 약 40년 동안은 당시 정부의 한 부서였던 보건사회부 보건원 고시과에서 주관하여 왔었다. 고시과는 소수의 사무직 인원과 시험시행만을 겨우충당할 수 있는 예산을 가지고 부서의 몇몇 인원이 꾸려 왔었기 때문에 당시의 정부가 의사시험의 가치를 어떻게 인식하고 시험의 비중을 어디에 두고 다루어 왔는지 짐작할 수 있었다. 의학계에서는특히 의과대학 학장과 의학교육 전문가들의 모임에서는 의견을 집약하여 정부에 대하여 많은 청원과 건의를 하면서 국민의 의료를담당하는 의사의 질을 국가가 보장하려면 시험의 질과 수준을 높여야 한다는 것을 오랜 기간을 두고 주장하여 왔다. 그러나 그 결정권이 주무부서 행정요원 손에 있는 동안은 개선이 부분적이고 일시적인 입막음에 지나지 않아 큰 틀에서 볼 때 의사시험은 조리가안 맞는 상태로 변화해 왔다. 그러다가 천신만고 끝에 의학교육 평가 전문 교수를 중심으로 한 재단법인 성격의 의사국가시험원이1988년 창립되었다(Korean Health Personnel Licensing ExaminationBoard, 1999a). 그러나 정부는 매우 미온적인 태도로 그 단체의 인가를 약 4년간 끌어오다가 1992년에 들어서야 한국의사국가시험원이라는 이름으로 인가를 하였고 시험위탁기관으로까지 공고를 내기에 이르러 시험개선의 물꼬가 트이게 되었다. 신설된 의사국가시험원에서는 시험업무를 위탁 받을 준비(전문 인력 확보, 과거 시험문항 인수 등)를 마침으로써 실제로 첫 시험을 치른 것은 기존의 문항을 가지고 1993년에야 이루어졌다. 1994년 본격적인 민간평가기관체제에서 새로 개발된 문항으로 시험을 시행하였다. 그 뒤정부는 의사국가시험원을 한국보건의료인국가시험원이라는 기관으로 확대 개편하면서 보건원에서 관장하던 나머지 모든 보건의료인 관련 시험(18개 직종의 23개 시험)마저도 이 기관으로 이관하여현재에 이르렀다(Figure 1).





과거 의사시험의 제도와 질


국가기관에서 시행하던 당시의 의사시험은 연속성 없이 매번 위촉하는 의과대학 교수들의 자문에 의하여 나온 의견이 담당자의손에 의해 그대로 결정되던 상황이었기 때문에 시험의 제도 및 시험문항의 질과 수준은 일관성도 없었고 개선의 의지도 없었으며 형식적인 문제은행의 보안에만 신경을 쓰고 있었다. 무엇보다 의사시험의 가장 첫 단계 핵심은 시험이 왜 존재하는지 무엇을 평가(측정)하려는지 그 의도와 방향이 확고해야 하는데 그런 면이 명확하지않은 채 약 40년 동안 불합리한 제도를 가지고 시험을 치러 왔다. 그중에서도 시험과목, 과목당 문항 수와 배점, 시험시간은 가장 개선이 시급하였고 특히 문제은행 속의 문항의 질과 수준을 높이는 일이 시급하였었다. 당시의 내용을 항목별로 좀 더 깊이 돌이켜보고자 한다.



1. 시험과목


의사국가시험이 시작되면서부터 시험과목은 매우 변화가 많은 길을 걸어왔다. 

  • 1952년 첫 시험을 시작할 때부터 1958년까지는 5개 과목으로 유지해 왔는데 하루 한 과목씩 닷새 동안 시험을 보았다. 그당시에는 기본 핵심과목 4개(내과학, 외과학, 소아과학, 산부인과학)에다 해마다 당해 연도에 공고하는 안과학, 이비인후과학, 피부비뇨기과학이 교대로 선정되었다. 
  • 이것이 1959년도부터는 3개 과목으로줄고(수험자 부담을 줄이기 위해서였던 것으로 추측된다) 그 과목의선정도 6개월 전에 공고하는 임의의 3개 과목을 치르도록 하였다. 그당시의 시험과목은 목표 없는 시험처럼 보였다. 어떤 해에는 내과학,정신과학, 이비인후과학이었다가(1959년) 심지어는 외과학, 소아과학, 이비인후과학(1961년) 등 의사로서 가장 기본적인 지식으로 알고있어야 할 비중이 큰 내과학이 온통 빠진 적도 있었다. 
  • 1962년에서1963년까지는 임상 10개 과목으로 늘어났고, 그 후 12개 과목(1964-1970년), 13개 과목(1971-1983년)으로 늘었다가 드디어는 15개 과목으로 늘어났다(1984-1993년). 이러한 갑작스런 과목 증가는 당시 학문의 전문화와 세분화로 인하여 독립된 새 과목(피부과학과 비뇨기과학 분리, 신경과학과 정신과학 분리, 임상병리과학과 마취과학의신설, 예방의학과 의료법규의 분리 등)의 주장에 따른 것이 대부분이었다. 의사시험과목에서 빠지면 정체성이 낮아진다는 이상한 위축감, 열등의식이 작용하였다. 이것은 의사시험이 무엇을 측정해야 하는지에 대한 원대하고 큰 목표에 따라 결정해야 할 부분이지만 보건부 차관이 주관하는 의사시험위원회에서 위원 교수들의 일방적 주장에 따라 결정해 버렸던 현상의 결과이며 의학계가 자업자득한 것이었다(Figure 2).





시험시간은 일정한데도 과목은 자꾸 늘어나면서 문항 수와 배점에도 불균형이 생겼고 바로 불합리한 상태로 굳어져 갔다. 가령 보기를 들어 1964년에 치러졌던 17회 시험은 과목이 12개로 총점이 250점이었는데 문제 수는 각 과목마다 꼭 더 많이 내야 한다고 주장하였지만 시간(하루)에 제약이 있어 250문제로 결말이 났다. 이것을 각과가 한 문제라도 더 가져가려고 치열한 논쟁 끝에 문제당 0.5점씩이라도 좋으니 꼭 그 수를 채워야 한다는 요구에 이상한 배점계획이 되어버렸다. 그리고 문제형태도 전 해(1963년)까지 모두 주관식 형태였으나 객관식 문제를 섞어서 내야 한다는 주장도 있어 주관식과 객관식문제를 일정 비율 섞어서 출제하게 되었다(Table 1).





2. 시험기간 및 장소


초창기에는 주관식 3-5문제를 서술하는 형태로 냈기 때문에 제1회의 경우 시험기간도 하루 한 과목씩 5일간(분량은 무제한)이었고그 다음 회부터는 2-3일이었다가 1966년 제19회 때부터는 여러 과목이 하루에 치러졌다. 시험장소도 1990년까지는 서울에서만 시행되었다. 지방대학의 학생들이 낯선 서울에 올라와 시험을 보기 위해서는 숙소 확보, 많은 학생들의 안전하고 빠른 이송문제, 익숙하지 않은 분위기 등 수험생에게 부담도 컸고 경비지출도 많았다. 그러나 관리하는 입장에서는 서울 한 곳이 편리하고 지방에 맡기면보안이 불안하다는 이유로 그 제도를 지속해 왔다. 대한의사협회,전국의과대학장협의회의 간곡한 요청과 함께 집행할 예산이 모자라면 의학계가 경제적 부담도 하고 교수들의 자율적 교차 감독을하겠다는 내용을 제시하면서 분산 시행 안을 내놓았고 이것이 받아들여져 1991년부터 서울, 부산, 광주 3곳에서 분산 실시하였다.그러나 시행 장소를 확장하는 것은 더는 받아들이지 않았다. 그 때까지만 해도 소위 필경사라는 직업을 가진 사람이 시험출제 장에들어와 기름종이에 쓰거나 수정하고 등판인쇄로 시험지를 만들어냈었다. 그러나 이미 그 때는 초기지만 컴퓨터를 쓸 수가 있어 의학계 관계 기관에서 컴퓨터를 동원하여 문제지를 작성하였고 프린터로 찍어내는 서비스까지 했었다.


3. 합격률과 합격기준


1952년 제1회 시험부터 1994년까지의 합격률은 평균 89.4% (그중 1983-1994의 합격률은 90-98%)이었으며 최고 98.6%에서 최저57.2%까지 변동의 폭이 매우 컸다(Figure 3). 그리고 합격률이 너무낮았던 해에는 한 해에 두 번 시험을 치른 적도 있었다. 합격기준은처음이나 지금이나 변함없이 총점의 60% 이상으로 되어 있고 과목도 40% 이하가 되면 불합격에 해당하는 과락(과목낙제)으로 법규에는 정해져 있다. 

  • 그러나 시험과목 수가 늘어나면서(1965-1983) 핵심과목에 해당되는 내과학, 외과학, 산부인과학, 소아과학, 예방 및법규에 대해서만 과락을 적용하고 나머지는 과락에서 제외시켰던적이 있다. 
  • 그러나 이에 대한 반발로 1984년부터 1987년까지는 다시 전 과목 과락제로 바뀌었다. 
  • 그러나 여기에도 문제점이 생겨1988년부터 1993년까지는 핵심과목은 40% 이상을 기준으로 하고나머지 과목(특과과목 또는 지원계열 과목)은 내과계열, 외과계열,지원계열로 세 그룹을 지어 ‘그룹과락제’라는 이상한 제도를 만들어낸 적도 있다.





의사시험의 제도 변화


1. 의사국가시험원의 설립


의학교육 분야의 숙원이던 민간평가기관(의사국가시험원)의 신설이 드디어 1992년에 이루어졌다(Korean Health Personnel LicensingExamination Board, 1999b). 이 기관은 의사시험을 평가원칙에 입각하여 불합리하던 제도를 개선하고 시험문항의 질적 수준을 높이려는 데 있었다. 시험의 제도와 질을 높임으로써 교육기관(의과대학)으로서는 교육에 대한 방향 설정이 의사시험과 일치하게 되는 긍정적인 변화의 흐름을 감지하게 되고 의사시험에 합격한 의사에게는 우수한 시험에 통과했다는 전문인으로서의 자긍심을 가지게 하고 사회적으로는 우수한 의료 인력을 배출함으로써국민(환자)의 안전을 도모하기 위한 큰 명분 등 여러 목적을 담고 있었다. 그런 가운데서도 민간평가기관이 설립되면서 시험의 질에는눈에 띄게 다른 점이 나타나기 시작하여 이런 내용을 외국에도 널리 알리게 되었다(Baik, 2001, 2003, 2005). 그 후 의사시험의 타당성과 신뢰성이 인정됨에 따라 정부가 주도하여 시행하던 모든 보건의료인국가시험을 의사국가시험원에 이관하면서 보건의료인국가시험원으로 확대 발전되어 현재는 24개 직종 27개 종목의 국가시험을 시행하는 전문평가기관으로 발전되었다(Figure 1).



2. 시험제도의 개선작


설립 이후 처음 3년 동안 가장 시급한 문제는 시험의 수준 향상에 있었다. 의사국가시험의 수준과 질은 전적으로 측정도구인 시험문제의 질에 달려 있었으며 법과 규칙이 이것을 움직이기 어렵도록만들고 있었으므로 첫 번째로 한 일은 주무 부서인 복지부와의 법령, 규정의 개정을 두고 일어났던 갈등이었다. 의사국가시험원이 생겨 업무 이관은 되었으나 시험에 관련된 모든 내용이 법에 묶여 있어 이것을 개선하기 위해서는 우선 이러한 법적 규제를 고쳐달라고요청하는 길밖에 없었고 이 절차에서 주무 부서에서는 수 없이 되풀이 되는 설명과 논리만으로는 여전히 해결이 안 되었기 때문에많은 시간을 허비하였다. 그런 가운데서도 몇 가지 항목은 기어이개선을 하도록 허락을 받아 모순된 내용을 하나 둘 고쳐나가게 되었다(Korean Health Personnel Licensing Examination Board,1999a). 중요한 개선 부분은 시험이 지향해야 할 목표설정, 시험과목 수의 축소, 출제기준표 작성, 문항 수의 증가와 시간연장, 문항형태와 자료형식 교체, 난이도와 분별도의 안정화, 문항 지식수준의조정, 그리고 앞으로 다가올 실기시험에 대한 준비 등이었다(Hwang et al., 2001; Lee et al., 2004).



3. 의사시험의 변화 내용


1) 시험업무 개선 목표설정


의사시험을 수십 년 동안 실행하면서도 시험의 목표를 별도로설정하지 않았었다. 그래서 시험은 바람 부는 대로 흔들려 왔기 때문에 시험업무의 개선목표 즉, 지향해야 할 목표를 우선 설정했다.그것은 어디까지나 좋은 시험, 좋은 시험의 잣대인 좋은 문항개발에 역점을 두겠다는 의지의 표현이었다(Baik, 1989, 2002a). 

  • 1) 의사‘기본 임무’에 ‘평가내용’을 맞춘다. 
  • 2) 의사국시원의 해당 분야 ‘문항개발기준’을 따른다. 
  • 3) 시험의 주제는 전체 영역 범위 안에서 고르게 정한다. 
  • 4) 실제 의사 임무에서 필요로 하는 영역을 모두 포함시킨다. 
  • 5) 시험형식은 실제상황에 가깝도록 구성한다. 
  • 6) 주제와 내용에 따라 적절한 시험문항의 형태를 선택한다. 
  • 7) 전체 시험문항이 고른 난이도를 가지게 한다.


이 원대한 목표 성취를 위해 기준을 만들 때나 문항개발을 하는교수에게도 이와 같은 개선사항을 당부했다. 이것은 과목에도 통하도록 했고 문항 수, 문항의 내용에도 통하도록 했다. 목표는 평가의 참된 뜻을 반영시킬 두 가지 대표적 개념 즉, 관련성(내용타당성)과 신뢰성을 높이는 데에 맞춘 항목들이다.


2) 시험과목


  • 1994년까지 15개 과목이었던 시험과목을 드디어 
  • 1995년 7과목으로 줄였고 다시 
  • 2002년에는 3개 과목으로 줄였다(Figure 4). 

이 3개 과목은 이미 교과목이나 진료과목이 아닌 통합형태의 영역이었다. 이것은 과거 시험과목이 곧 의학의 진료과목과 동일하게 생각하는 교수들에게 기본 핵심과목과 특과과목의 개념 그리고 기본의사와 전문의사의 개념 및 임무 차이에 새로운 암시를 주기 위한것이었다. 당시 의과대학에서 가르치는 과목별 교육도 서서히 통합교육으로 옮겨가는 트렌드 및 시기와 맞물리고 있어서 몇 해를 두고 시험과목 축소를 진행시킨 결과였다

  • 그 개정된 첫 번째 내용(1995년 7과목)은 내과학, 외과학, 산부인과학, 소아과학, 정신과학,예방의학, 그리고 보건의약관계법규였다. 
  • 그리고 과목의 개념과 벽을 좀 더 헐기 위해 2002년에는 의학총론, 의학각론 그리고 의약법규의 큰 세 영역으로 축소시켰다. 모든 질병의 진료와 예방은 실제로 기관계통을 중심으로 한 의학교육의 통합된 내용에 따라 이루어지고 있었으므로 1차적으로 그런 개념에서 출발한 것이며 그 내용 속에 중요도에 따라 시험문항 수를 조정하는 절차를 밟게 했던것이다. 그리고 총론은 그러한 기관계통을 벗어나서 각론에서 다룰내용의 기초의학적인 영역과 계통의 내용 및 특정 계통에 해당되지 않는 개념의 영역을 한데 묶었던 것이지만 총론은 문항개발자의이해가 거기까지 미치지 못해 임상 각 과목의 개념적인 내용으로대체하여 시작되었다.





3) 출제기준


출제할 때 출제자의 개인적인 의향, 선호보다는 처음부터 정한근거에 따라 출제도 고루 하고 중요성은 강조하고 문항의 성격도 정하는 그런 출제기준표(content outline)가 만들어졌다(Figures 5,6). 시험과목(영역)은 새로 개정된 의학총론, 의학각론, 법규의 큰세 개로 되어 있었고 각 과목 속에 출제할 구성 내용은 대항목(30),중항목 영역(202), 중항목(1,522), 소항목(출제단위)으로 되어 있었으며 소항목은 공개되지 않았고 소항목 속의 출제는 기능, 원인, 기전, 진단, 빈도, 예방, 치료 등이 들어 있게 하였다. 시험출제 항목 속에는 의사로서 기본으로 반드시 알아야 할 내용을 ‘기본항목’으로별도로 분류하였다. 이 기본항목은 중항목에 속하면서 매해 되풀이하여 출제되는 의학의 가장 중요한 내용의 문항으로서 출제문항의 약 30%를 차지하도록 되어 있었다. 그리고 문제은행도 별도로관리하였다. 이것은 전 해에 출제되었다는 이유로 제외시킴으로써사소한 문제는 출제되고 중요한 문제는 빠뜨리는 일이 없도록 꼭알아야 할 사항은 해마다 내어 수험자가 풀이하는 능력을 확인하자는 데 있었다.






4) 문항 수와 시험시간


시험과목이 15개였던 1994년까지는 문항 수가 440개였고 시험시간은 330분이었다. 이것을 과목 수를 7개로 줄였던 1996년에는문항 수는 340개로 정해졌고 시험시간도 400분으로 늘었다. 그 후계속 문항 수를 늘려가면서 시간도 비례해서 늘려 나갔다. 그러나2002년에는 550문항이 되면서 시험시간은 715분이 소요됨으로써시험기간이 겨울철이어서 어두울 때까지 시험을 시행하는 데 현실적으로 제약을 많이 받아 2005년 이후는 더 이상 문항 수와 시험시간을 늘릴 수 없었다(Figure 7). 시험문항 수(length)와 시험시간(duration)은 신뢰성을 결정짓는 중요 변수의 하나인 효율성(efficiency)을 좌우하는 세부 요인이므로 매우 중요한 항목으로 간주하였다.






5) 시험 문항형태


의사국시원이 설립되면서 시험과목의 개선 외에 집중적으로 개선을 하려고 했던 것 중 한 가지는 문항형태 즉, 신뢰성 있는 객관식문항으로의 탈바꿈이고, 다른 하나는 문항내용을 실물에 가까운상태의 자료로 만드는 일이었다. 주관식 문항에서 완전히 객관식으로 바뀐 것은 오래되지 않았다. 1962년까지는 논술형의 주관식이었고 1962년부터 1970년대 중반까지는 단답형의 주관식 문제를 냈었다. 그에 이어 1985년까지는 주관식(단답형 30%)과 객관식(70%)을혼합하여 출제해 왔다. 그러다가 1985년부터 완전히 객관식 문항을 채택해 왔다(Figure 8). 객관식 문항형태는 대학에서 오래 전부터 흔히 써 오던 A형, K형 문항이 섞여서 출제되어 왔는데 그 중 K형 문항(complex true/false items)은 수험생의 능력을 측정하는 도구로서의 가치가 매우 낮게 평가되면서 2010년 1월에 시행했던 74회 의사시험부터 완전히 배제하였다. A형(단일정답형 multiplechoice question [MCQ], one-best-answer item formats)은 가장 보편적으로 써 오던 문항형태였으며 그것과 함께 K형 문항 대신 새로이 미국국시원(United States Medical Licensing Examination,USMLE)에서 개발한 R형 문항(확장결합형 문항, extended matchingtype items)을 채택하기 시작했다(Figure 9). 그동안의 시험에는앞에서 기술하였듯이 객관식 문항도 A형과 K형이 섞여서 출제되었다. 그것은 문제 은행 속에 K형이 많았었기 때문에 일어난 현상이었고 A형 문항조차도 종전에 가졌던 5개의 답가지 중 하나를 선택함에 있어서 답가지에 너무나 명백한 오답가지가 1-2개, 많게는3-4개 있어 정답을 쉽게 고를 수 있는 문항작성의 오류가 심각하였다. 그래서 각 대학의 교수들을 대상으로 문항작성 연수를 여러 차례 시행하여 같은 A형이라도 옳은 정도에 차이가 있는 가운데 가장 올바른 답 하나를 골라내는 one-best answer의 작성능력을 많이 보급시켰다. 그와 동시에 새로운 문항형태인 확장형 객관식 문항으로 각광을 받기 시작했던 R형 문항의 작성법 연수를 거쳐 서서히문제은행 속의 내용을 바꾸어 나갔다. 이 R형 문항은 임상 영역의시험문제뿐만 아니라 기초의학 영역의 문제작성에도 적합한 풍부한 소재를 가지고 있다. R형 문항은 임상상황에 매우 가까운 형식이어서 의사시험에 실용적인 것으로 판단되어 2002년부터 쓰기 시작하였다. 이 문항형식은 동질성이 있는 내용을 여러 측면에서 평가할 수 있다는 장점과 우연에 의한 득점 기회를 줄일 수 있다는 점,아는 만큼 점수를 인정받을 수 있다는 점, 높은 지식수준의 문항개발이 가능하다는 등의 장점이 있어 그 이후로 점차 채택 수를 늘려2010년에는 완전히 A, R형으로 대체되었다.







6) 문항 구성형식


문항 출제자료 내용의 다양화의 일환으로 글로 표현(텍스트 중심)하는 대신 임상자료를 제시하고 묻는 형식을 보강하였다. 시험문항이 아무리 객관식 선택형이라고 해도 글로 된 내용만을 중심으로 공부하던 경향에서 방사선사진, 심정도, 피부사진, 검사결과표, 내시경사진 등을 제시함으로써 임상상황에 좀 더 가까운 자료를 확실하게 판독, 이해, 판단하는 형태로 바뀌었다(Figures 10, 11).







7) 지식수준


지식에는 가장 낮은 암기수준에서부터 이해, 응용, 분석, 합성, 평가에 이르기까지 여러 수준의 등급이 있다. 의사시험에서 오랫동안지적되어 온 또 하나의 문제점은 객관식 형태의 시험문제에 암기형과 이해수준의 문제가 가장 많았다는 분석보고가 있었다. 그동안의사시험위원회에서는 어떤 과목에 얼마를 배점하느냐에 많은 관심을 기울였지만 내용에서 실제 임상과 거의 비슷한 상황을 설정해 놓고 풀어나가는 문제해결형 문항은 거의 찾아볼 수 없었다. 의사에게는 실제로 모든 수준의 지식이 다 필요하지만 궁극적으로는환자의 문제해결을 할 수 있는 능력이 있어야 하고 그것을 위해서는 지식 중 상위의 분석, 합성, 평가능력을 필요로 한다는 점에서문제해결형 문항을 높이도록 함에 따라 많은 문항의 개선 또는 새로운 작성이 필요했다. 아무리 신뢰성을 높이기 위해 객관식 형태,문항 수, 시간 등을 조정한다고 해도 문제내용이 암기형, 이해형의문제만으로는 의사시험의 질, 특히 관련성(내용타당성)을 나타내는 시험의 종합적인 타당성이 낮아짐을 피할 수 없었다. 그래서 이것은 새로운 문항을 개발할 때, 기존의 문항을 폐기할 때, 매우 중요한 지침으로 인식하고 정리하도록 하였다. 실제로 1990년부터 2000년 시험까지의 분석결과를 그림으로 보면 전에 비하여 암기수준의문제는 많이 줄고 문제해결형 문제의 비율이 많이 늘었음을 알 수있다(Figure 12).




8) 시험기간 및 장소


의사국시원이 생기면서 1992년부터는 시험장소를 대폭 확장하여 서울, 부산, 대구, 광주, 대전, 전주 등 6개 도시로 분산하여 2일간그 도시 안의 교육시설을 이용하여 분산 시행한 바 있다. 이것은 수험생의 편의 및 부담 경감을 위한 것이 주된 이유지만 시험시행에는의사국시원의 부담과 인력, 경비 등이 많이 소요되었다. 시험 감독은 그 대신 의과대학이 소재하는 도시 간에 교차하여 파견했기 때문에 교수 인력의 적극적인 협조 없이는 시행할 수 없는 일이었다.


9) 문항 난이도와 합격률


시험형태와 질을 대폭 개선하는 가운데 1995년 제58회 의사국가시험부터 새로운 노력의 변화가 나타나기 시작했다. 그동안의 단순 암기형 중심에서 해석판단 및 문제해결 위주의 문항 비율 증가,텍스트 중심의 문항에서 임상자료 제시형 문항의 증가, 문항 수 자체의 증가 및 시간의 증가 등 여러 변화가 동시에 적용됨으로써 문항의 난이도와 분별도 변화가 나타나기 시작하였다. 문항의 난이도와 분별도의 지수는 시험문항의 질적 검증의 한 방법이다. 말하자면 측정도구인 문항이 공부를 잘한 사람과 잘하지 못한 사람을 예민하게 판별해내는 중요 지수이다. 한편 이 난이도와 분별도는 합격률에도 예리하게 영향이 미쳤다. 그래서 1995년 제58회 의사국가시험은 근래의 의사국가시험 중 가장 낮은 합격률(64.3%)을 보였다(Figure 13). 이러한 출제 경향의 변화는 몇 해 전부터 학장협의회나 학회, 때로는 대학별로 공지하여 왔고 그것이 현실화될 것이라고 예고하였음에도 불구하고 안이한 예상 합격률을 생각했던 수험생이 대량 낙방을 하게 되어 소동이 벌어졌다. 이때의 평균 난이도가 62.7, 분별도가 0.195를 보임으로써 1994년 제57회 의사국가시험(합격률 97.5%, 난이도 76.8, 분별도 0.105)보다 문제수준은 어려웠지만 시험 후 문항분석결과 소위 ‘좋은 문제’가 출제된 것으로 분석되었다(Figure 14). 







난이도와 분별도를 그 이후의 평균과 비교해 보면 매우 대조적이다. 그 이후(1997-2003년)의 평균 성적과 합격률은 큰 변화가 없이 안정되었다(Figure 15). 새로 설립된 의사국시원의 해야 할 일은 시험목적에 알맞도록 개선하는 일이었다. 그것의하나는 시험내용을 되도록 현실 상황과 비슷하게 적용시키는 일(관련성 강조)과 그 시험문제가 측정도구로 되도록 높은 믿음성을가지도록 하는 일(신뢰성 강조)이었기 때문에 문항내용에 많은 변화가 있을 것임을 누차 강조한 바 있었다. 시험의 질 향상 노력에도불구하고 갑작스런 합격률의 저하로 예상했던 의료 인력의 공백이나타났기 때문에 학장협의회의 요청에 따라 그리고 복지부의 승인에 따라 반년 후 시험을 다시 치르는 상황이 나타났다. 그것이 1995년에 두 번의 시험이 있었던 사연이다. 시험 경향과 문항의 질적 강화가 있었던 첫해인 1995년 1월 10일 시행한 58회 시험에서는 대량탈락현상이 나타났지만 그래도 응시자 2,971명 중 1,909명이 합격하여 64.3%가 합격한 것을 보면 많은 대학이 새로운 경향을 적극수용하여 교육시키고 응시한 학생 전체의 2/3가량이 합격하였다는것은 앞날의 변화에 희망적인 예고였다. 그해 추가로 본 시험은1995년 7월 24일에 시행되었는데 1,048명이 응시하고 898명이 합격됨으로써(85.7%) 수험자가 같은 대상이었지만 하면 된다는 것을 보여주었다. 그 뒤로는 대학도 수험생도 예전 같은 시험으로 대충 넘어가는 일은 일어나지 않았고 모든 개선상황은 더욱 강화되었지만비교적 적응이 잘 되어 시험은 전반적으로 수준과 질의 향상을 가져오게 되었다. 의사시험은 치기만 하면 붙는 시험이라는 인식에서시험이 쉽지만은 않다는 인식을 하게 되었다. 그런 시련을 전후한합격률을 비교해 보면 이해가 간다(Figure 16). 이러한 고충과 갈등을 겪으면서 의사시험은 성장한 것이다 그 이후 의사국가시험은 초기의 정책과 마찬가지로 “진료중심의 평가”라는 의사능력 검증방향으로 나아가게 하는 원동력이 되었음은 부정할 수 없다. 결과적으로 볼 때 의사국시원 개원 이후 그때의 시험은 가장 어려웠던 시험으로 국가시험 시행에 있어 시험의 질과 수준뿐만 아니라 문제의난이도 조정과 전문 인력 유지가 중요하다는 점을 단적으로 보여주고 있다(Korean Health Personnel Licensing Examination Board,2013). 그러나 이 목표를 위하여 의사국시원은 문항의 질은 좋게 하고 난이도에 덜 영향을 받으면서 합격선을 적절하게 유지하는 새로운 합격기준의 설정이 절실하게 되었고 이것이 법적인 문구의 개정으로까지 바뀔 것을 기대하고 있다.







10) 합격통지 및 면허 발급


합격 여부의 통지는 전에는 정부의 전통적인 제도와 규칙에 따라 특정한 한 신문에의 공지와 관할 기관 현관에 내걸리는 공고(방)를 통해 알려주었고 의사면허증 발급은 합격한 뒤 면허교부신청서를 내면 4월에야 복지부에서 발급하여 많은 불편을 주었던 것을 정보화시대에 알맞은 빠른 제도로 개선하였다. 채점(전산실), 합격사정(당일 위원회 소집)을 거쳐 확정이 된 합격자는 합격 통지는 핸드폰을 통해 바로 통지해 주는 시스템을 만들었고 면허증은 온라인등록을 할 때 미리 면허교부 신청서를 함께 받아두었다가 두 달 단축시켜 인턴 수련 시작 전인 2월 하순에 교부를 해 줌으로써 인턴수련을 시작하는 의료인 자격에 지장이 없도록 개선하였다. 이제는한국의 의사시험이 외국에서도 좋은 시험을 선도하는 모범적인 시험으로 발돋움을 하게 되었다.




앞으로의 과제


의사시험이 앞으로 개선할 과제는 많다. 더욱이 이 시험결과가인턴 선발에 연동 활용되고 있어 일부에서 의학교육의 변형을 초래했다는 지적이 있기 때문에 시험제도와 문항의 질 향상 그리고 합격사정 등에 더욱 개선 향상시켜야 할 많은 과제를 안고 있다. 그 중우선순위가 급한 두어 가지만 집중적으로 기술하고자 한다.


1. 시험 출제기준


의사시험은 그 내용이 의대교육과 연동이 되어야 한다. 4년에 걸친 교육의 내용은 방대하고 이틀에 걸쳐 보는 시험은 한정적이고 선택적이다. 그러므로 의사시험은 의과대학 교육에서 공부한 내용 범위 중에서 항목이 선정되어야 하고 그 항목 속에서 문항개발이 되어야 한다. 그러나 의과대학 교육이 20세기 형식과 내용을 그대로유지하며 남아 있으면 그리고 교육과정 개발이 지지부진하면 의사시험이 그것을 마냥 따라갈 수는 없다. 의대교육이 좀 더 앞서가야한다. 지금 세계 의학교육의 변화 추세는 성과바탕교육(outcomebasededucation)이 대세이다. 그것은 곧 임무바탕 배움(competence-based learning)으로 이어져야 한다. 그러므로 의과대학에서이것(성과)이 먼저 만들어져야 하고 그것을 의사시험이 따라가도록분발해야 된다. 다만 졸업할 무렵의 기본적이고 필수적인 능력을 갖추기 위해서는 그 원천이 되는 지식은 1학년 시절부터 심어져야 하고 거기서 흐르는 원류는 작더라도 점점 과정이 진행하면서 여러 개가 모여 큰 강의 줄기를 이루게 되도록 치밀하게 잘 구성해야 한다.졸업할 무렵 의과대학 학생에게는 대학과 사회가 협동하여 만들어낸 임무가 계열별로 열거되어야 하며 거기에는 의과대학 교육의 필수인 지식, 수기, 태도의 3가지가 다 녹아 있는 상태의 수행능력(competence)이 갖추어져 있어야 하며 대학에서는 이 마지막 단계인 수행능력을 행동(behavior)과 실천(doing)으로 나타낼 수 있는지 여부를 테스트해서 내보내야 할 것이다. 대학마다의 추가적인 특징을 나타내는 내용은 다를 수가 있지만 우리나라 의과대학의 기본교육성과(outcome)는 모든 대학이 같아야 하고 의사시험은 공통적인 그 부분에서 선별해야 한다. 과거 시험과목은 많은 변화를 거쳐왔다. 즉 진료 과목에서 시작하여 통합된 의학(총론, 각론)으로 나누어져 있는 시험은 되도록 빨리 개인의 임무능력으로 바뀌어야 한다. 의사시험의 출제기준(content outline)이 의과대학의 교육성과(outcome)에서 탄생해야 하고 거기에서 문항이 만들어져야 논리적으로 맞는 것이다. 이미 의사시험에서는 실기시험을 도입한 지 몇 해가 지났다. 새로운 출제기준을 검토할 때 필기시험과 실기시험 사이에 출제항목이 중복되어 있는 것은 없는지 또 어느 한쪽으로 옮겨야 할 것은 없는지에 대해서도 고려를 해야 한다. 즉 두 시험 사이에연계를 가지고 정리를 할 필요가 있다. 필기시험은 지적(cognitive)영역의 테스트가 주이지만 실기시험도 내용적으로는 어느 한 수기사항이 지적인 것(cognitive skill)도 있고 지식을 바탕으로 하는 기계적 수기(mechanical skill)도 있기 때문이다.



2. 합격판정


지금까지의 합격판정은 총점의 60%를 넘어야 되는 것으로 규정하고 있다. 그리고 과목이라는 것이 있었기 때문에 전체 점수가 아무리 좋아도 과락이라는 탈락 함정도 있다. 이 두 가지는 근원적으로는 바로 출제한 문항마다의 난이도와 분별도에 달려 있다. 모든수험생이 모두 합격하도록 하려면 난이도를 낮추면 되고 대부분 탈락시키게 하려면 난이도를 올리면 된다. 그러나 시험은 이처럼 인위적으로 올리고 내리고를 할 수 없고 또 해서도 안 된다. 그러면서도공부를 잘한 사람과 못한 사람과의 구별은 예리하게 할 수 있도록분별도가 높을수록 좋다. 그러나 문항개발을 하는 사람이나 문제은행에서 선택하는 사람이 선택하는 어떤 문항 하나만을 가지고시험 치기 이전에 예측하여 난이도를 알기는 매우 어렵다. 오로지경험에 의존하여 판정하게 되거나 선행시험제도(pre-test system)를 가져야만 되는데 우리나라 교수들의 판정수준은 매우 높은 쪽으로 치중하는 편이다. 말하자면 기본의사와 전문의사를 구별하지않는(못하는) 개인적 식별태도와 안목을 가지고 있다. 이것은 의대교육에서도 마찬가지다. “이 정도는 당연히 알아야 된다”고 하지만실은 전공의 과정에서 공부해야 할 수준일 수 있는 것이 많다는 것이 선정위원들의 견해이다. 그러므로 의과대학 교수가 출제, 문항작성을 하는 과정에서 자칫 잘못 판정하면 다른 제동장치가 있지 않은 한 시험연도에 따라 전체적으로 어렵게 또는 전체적으로 쉽게나올 가능성은 언제든지 있다. 의료 인력의 수급문제는 시험의 난이도와 분별도와는 별개로 생각해야 할 큰 과제이기 때문이다. 시험의 질과 수준이 아무리 좋아도 박자와 장단이 서로가 잘 안 맞으면 1995년의 대량 불합격 같은 현상은 언제고 나타날 수 있다. 이것이 법으로 되어 있기 때문에 적절한 인원을 합격시키려면 쉬운 문제만을 낼 수밖에 없고 그것은 의사시험의 신뢰성과 타당성을 하루아침에 떨어뜨리는 일밖에 안 된다. 출제자, 문항 작성자의 이러한 고민을 덜어주고 적절한 인원 수급도 마련하려면 합격기준을 법으로 바꾸도록(appropriate setting of pass) 해야 한다(KoreanHealth Personnel Licensing Examination Board, 2013). 시험 선진국인 미국의 USMLE도 이러한 경험을 다 거쳤으므로 지금은 소신있게 좋은 문항을 작성한다. 우리나라도 이러한 체제로 바뀔 준비는 다 되어 있다. 문제는 바로 이 법을 고치는 문제이다. 이것은 정부가 결단을 내려줘야 하지만 국장까지 다 결재를 받더라도 장관이정치적인 판단으로 안 된다고 하면 백지화가 되고 만다. 우수한 의사 인력을 길러내어 국민에게 안전한 의료를 서비스하도록 하는 것이 국가의 소임이라는 것보다 내가 모르는 문제는 시끄럽지 않게하는 것이 여러 모로 좋다는 생각을 가지는 한 이것은 난관 중의 난관이다. 전문적인 문제는 전문가에게 판단을 맡기는 것이 가장 정도라고 판단하는 것이 합리적이기 때문이다.



3. 문항개발 인력


모든 문항작성은 교수의 손에 의하여 만들어진다. 다시 말해서많은 좋은 문항을 작성하려면 몇 10배수의 교수가 참여해야 한다.특히 객관식 MCQ를 유형별로 참뜻에 맞게 작성하려면 많은 지식이 있어야 한다. 문항개발에 관한 지식과 수기는 몇몇 교수의 훈련만으로 해결되는 것이 아니기 때문에 대학마다 끊임없는 워크숍을 통하여 훈련과 실전 출제를 하도록 해야 한다. 분야별로 숙달된문항개발능력을 가진 인력이 더 많이 필요하다. 즉 기본 문항은 말할 것도 없고 자료제시형 문항, 문제해결형 문항을 적절히 구성할인력이 더 많이 훈련되고 실제 업무에 투입되어야 한다. 시험문항에 대하여 많은 질적 개선이 있어 왔지만 아직도 문항 타당성을 높이기 위한 길은 멀다. 그것은 시험문항의 질적 수준을 높이는 데관여하는 요인이 많기 때문이기도 하지만 그러한 요인을 개선시키는 데 필요한 조건이나 환경이 성숙되지 못하였기 때문이다. 시험문항 구성단계에서는 전문 분야별 자문 인력의 자문 및 활용이 거의 안 되고 있다. 즉 전문성 내용에 대하여는 관련 분야의 교수 인력으로 충분하지만 문장 구성수준을 높이기 위해서는 평가 전문가, 한글 학자, 용어 전문가 등이 동시에 동원되어 모든 문항을 검토하는 절차를 가져야 한다. 지금 현재로는 극히 한정된 분야만이관여하고 있다.



4. 정보화시대에 맞는 컴퓨터 시험


이미 국가시험에서 많이 도입된 부분이기는 하지만 시험 시행 자체가 컴퓨터를 통해 실시될 날이 멀지 않았다. 이것은 일단 개발되어 실행에 옮기면 많은 인력, 시간, 예산, 수함자의 간접경비 등이 감소된다. 1단계는 종이에 인쇄되는 시험지를 컴퓨터 모니터로 바꾸고 키보드를 눌러 답을 선택하게 하는 방법이지만(computerbasedtest) 이 방법만으로도 시험지 운반, 회수, 채점, 합격사정 등을 순식간의 짧은 시간으로 바꾸어 줄 수 있다. 컴퓨터 화면에서 시험문항을 제시하게 되면 지금까지 자료제시형 문항으로 보던 시험을 그림, 사진, 도표, 소리까지도 직접 보고 듣고 판단할 수 있는 현장중심의 임상상황을 그려낼 수 있다. 그리고 다음 단계로는 수험자마다 다른 문항이 제시되면서도 그러나 평균 난이도는 비슷한다른 문항을 본인이 선택할 수 있게 하는 좀 더 선진화된 전산화시험(computer-assisted test)으로 옮겨갈 수도 있다. 이것은 채점, 합격판정 등이 동시에 이루어지고 이러한 체제로 바뀌면 시험이 끝난뒤 어디를 가 있든 지금처럼 스마트폰의 메시지를 통해 합격 여부가 알려질 수 있는 날이 올 것이다.


결 론


이처럼 많은 시련을 겪으면서 한국의 의사시험은 예전에 비하여많은 변화를 가져왔고 이제는 한국의 의사시험이 외국에서도 좋은시험을 선도하는 모범적인 시험으로 발돋움을 하게 되었다(Baik,2001, 2003, 2005). 과거의 의사시험과는 많이 달라졌다. 그동안 바뀐 점을 요약하면 

  • 1) 의사국시원 설립,
  • 2) 시험의 목표설정, 
  • 3) 시험과목(영역)을 3개로 감소, 
  • 4) 출제기준표 작성, 
  • 5) 문항 수와 시험시간 확대, 
  • 6) 적용할 MCQ (A, R) 형태 도입,
  • 7) 임상자료제시형 문항도입,
  • 8) 문제해결형 문항 증가, 
  • 9) 합격통지와 면허발급을 전산화,
  • 10) 시험장소를 전국으로 확대시킨 내용 등이다. 

서서히 바뀌지만달라지는 평가시스템에 맞추어 대학에서도 미리미리 이렇게 교육시키고 훈련시키는 의지를 가지고 있어 매우 바람직하다. 그리고 각의과대학의 학장들이 모여 평가를 포함한 의학교육의 여러 정책이의사국시원을 선도할 수 있도록 연구하고 실행하고 보급시켜야 할막중한 임무도 의식하게 되었다. 그런 점에서는 2년 또는 3년마다바뀌는 연속성이 없는 학장의 교체 제도는 이제 새로운 시대의 임용 절차로 바뀌어야 될 큰 과제로 남는다.




Since the establishment of the national medical licensing examination board in 1992, the medical licensing examination

system has changed enormously and this has had a number of impacts on examination services. All

those reforms were aimed at improving the relevance and reliability of the test. Several attempts of the testing

system have appeared in the new examination service, and which have also brought about the changes in the

medical school curriculum such as introducing integrated courses instead of traditional subjects, using test

scores as a reference to the post-graduation selection test. Some examples of changes in the examination system

are as follows: 1) choosing three integrated test subjects and outlines of their reference content instead of

15 academic subjects, 2) adjusting the ratio of multiple choice question items to focus more on the problem

solving level, 3) introduction of ‘one-best answer’ single set and ‘extended matching type items, 4) item construction

based on real clinical cases and real clinical materials. Recently, a clinical skill test system has been introduced

to measure examinees’ basic clinical skills competencies. Despite continuing efforts, the examination

system still has many issues remaining to be solved. These problems include the differential weighting of test

items, appropriate threshold for passing, and practicality of pre-testing to stabilize the passing rate and avoid

the hazards of newness and undesirably difficult test items.

Keywords: Medical licensing examination, Integrated subjects, Problem solving focused, Multiple choice questions

외과 실습중인 의대생들에 대한 교수와 레지던트의 평가는 표준화시험 점수와 상관관계가 거의 없다.

Faculty and resident evaluations of medical students on a surgery clerkship correlate poorly with standardized exam scores

Seth D. Goldstein, M.D.a,*, Brenessa Lindeman, M.D.a, Jorie Colbert-Getz, Ph.D.b, Trisha Arbella, B.S.a, Robert Dudas, M.D.c, Anne Lidor, M.D.a, Bethany Sacks, M.D.a


aDepartment of Surgery, Johns Hopkins School of Medicine, 1800 Orleans Street, Bloomberg Children’s Center 7310,

Baltimore, MD 21287, USA; 

bOffice of Medical Education Services, Johns Hopkins School of Medicine, Baltimore, MD,

USA; 

cDepartment of Pediatrics, Johns Hopkins School of Medicine, Baltimore, MD, USA


Abstract


BACKGROUND: The clinical knowledge of medical students on a surgery clerkship is routinely assessed via subjective evaluations from faculty members and residents. Interpretation of these ratings should ideally be valid and reliable. However, prior literature has questioned the correlation between subjective and objective components when assessing students’ clinical knowledge.

METHODS: Retrospective cross-sectional data were collected from medical student records at The Johns Hopkins University School of Medicine from July 2009 through June 2011. Surgical faculty members and residents rated students’ clinical knowledge on a 5-point, Likert-type scale. Interrater reliability was assessed using intraclass correlation coefficients for students with R4 attending surgeon evaluations (n 5 216) and R4 resident evaluations (n 5 207). Convergent validity was assessed by correlating average evaluation ratings with scores on the National Board of Medical Examiners (NBME) clinical subject examination for surgery. Average resident and attending surgeon ratings were also compared by NBME quartile using analysis of variance.

RESULTS: There were high degrees of reliability for resident ratings (intraclass correlation coefficient, .81) and attending surgeon ratings (intraclass correlation coefficient, .76). Resident and attending surgeon ratings shared a moderate degree of variance (19%). However, average resident ratings and average attending surgeon ratings shared a small degree of variance with NBME surgery examination scores (r2 % .09). When ratings were compared among NBME quartile groups, the only significant difference was for residents’ ratings of students with the lower 25th percentile of scores compared with the top 25th percentile of scores (P 5 .007).

CONCLUSIONS: Although high interrater reliability suggests that attending surgeons and residents rate students with consistency, the lack of convergent validity suggests that these ratings may not be reflective of actual clinical knowledge. Both faculty members and residents may benefit from training in knowledge assessment, which will likely increase opportunities to recognize deficiencies and make student evaluation a more valuable tool.


2014 Elsevier Inc. All rights reserved.










임상지식을 쌓는 것이 의대생들이 임상실습을 하는 주된 목적이지만 이 중요한 분야에 대한 평가 측면에 있어선 'gold standard'가 없다. 임상실습에서 지식을 평가하기 위해서 대부분의 학교에서는 흔히 교수/레지던트의 주관적 평가와 국가 표준화 시험 점수를 혼합한 형태를 활용하고 있다.

Fostering the development of clinical knowledge is among the primary goals of medical student clerkships,1 but no gold standard for assessment has emerged in this key area. Common approaches to knowledge assessment on clinical clerkships at most medical schools remain a mixture of subjective evaluations from faculty members and residents with objective scores on national standardized examinations. 


학생에 대한 평가는 타당성과 신뢰성을 갖추어야 한다. 그러나 기존 연구는 학생의 임상지식에 대한 주관적 평가와 객관적 평가의 상관관계에 대해서 상반된 주장을 하고 있다. 

Student assessment should ideally be valid and reliable; however, prior literature has demonstrated mixed conclusions when examining correlations between subjective and objective components of student clinical knowledge. 

    • Literature from radiology and pediatrics has demonstrated moderate correlations between grades from subjective and objective components of medical knowledge. 2,3 
    • However, other studies in emergency medicine and internal medicine have shown lower levels of correlation between medical knowledge assessment by faculty members and discipline-specific standardized exam performance.4–6 
    • Only 1 prior study has also examined evaluations of surgical students,7 demonstrating low predictive value of resident ratings that was only marginally better than the predictive value of surgical faculty member ratings. 


이러한 측면은 학생에게 무슨 학점을 줄 것인가와 같은 행정적인 결정뿐만 아니라, 학생의 부족한 측면을 초기에 발견하여 적절한 전략을 설정하는 점에서도 중요하다. '자기평가'가 성인학습자의 핵심 요소기인 하지만, 의과대학생의 자기평가와 객관적 평가, 그리고 최종 임상실습 성정의 상관관계가 낮다는 것이 반복적으로 보고되고 있다.

These points are of key importance not only regarding the administrative decision of what grades to assign students but also because early recognition of deficits in student performance is crucial in offering constructive strategies to overcome them. Although self-assessment is a key component of adult learning, research has repeatedly demonstrated poor correlations between medical students’ self-assessments with objective measures of knowledge8,9 and their final clerkship grades.10


임상실습중인 학생에 대한 주관적인 평가의 타당도에 대해서 많은 연구가 이루어지지 않았음에도 미국의 모든 의과대학에서는 이 방법을 사용하고 있다. 

Rigorous validation of scores from subjective assessments on student clerkships has not been conducted, although all medical schools in the United States use these in the clinical years.11 

    • One study showed that a student’s overall assigned clerkship grade can be predicted by faculty ratings in only a single performance area,12 despite these ratings’ not correlating with standardized, objective measures. 

교수의 주관적 평가가 predictive ability가 있기 때문에, 학생 수행능력에서 어디가 부족한지 감지할 수 있는 평가자라면 적절한 시기에 피드백을 줄 수 있을 것이다.

Because of the potential predictive ability of subjective ratings, instructors who sense deficiencies in students’ performance are able to provide timely feedback and work with learners to adapt learning plans earlier during the clerkship.


이 연구는 주관적평가와 NBME점수 사이의 타당성을 보고자 했으며, 교수의 평가와 레지던트의 평가자간 신뢰도를 보고자 했다. 우리는 외과 레지던트의 평가와 교수의 평가가 표준화시험점수와 상관관계가 낮을 것으로 예측했다.

This study was designed to investigate the convergent validity between subjective ratings of clinical knowledge and scores on the National Board of Medical Examiners (NBME) subject examination, as well as interrater reliability of faculty members’ and residents’ evaluations of global clinical knowledge among students on the surgery clerkship. We hypothesized that surgical residents’ and faculty members’ ratings of clinical knowledge would correlate poorly with the students’ standardized exam scores.



Methods


Retrospective cross-sectional data were collected from medical student records at The Johns Hopkins University School of Medicine from July 2009 through June 2011 (n 5 219 students ranging from the 2nd to the 4th year). 


The medical student basic clerkship was just under 9 weeks in duration and was divided into a 4.5-week general surgery experience and 2 separate 2-week surgical subspecialty rotations, though not necessarily in that order. 


Students were instructed to approach potential evaluators at the conclusion of their time on a given service to request evaluations, which were then sent by e-mail and completed within 4 weeks. Minimums of 4 faculty member and 4 resident evaluations were desired. Surgical faculty members and residents rated students’ clinical knowledge as part of a 17-item summative evaluation. All items were rated on a 5-point, Likert-type scale. The clinical knowledge 1-to-5 rating descriptors are provided in Table 1


Data analysis was performed using SPSS version 20 (IBM, Armonk, NY). The clinical knowledge rating was extracted from the full evaluation, and the interrater reliabilityor consensus between evaluators, of those scores was assessed. The proportion of variance due to variability of scores between raters, known as the intraclass correlation coefficient (ICC), was calculated separately for both faculty member and resident ratings.

An ICC R 

.75 indicates good agreement among raters and thus good reliability. Values of 

.50 to .74 indicate moderate reliability, and values ,

.49 indicate poor reliability.13



Convergent validity of clinical knowledge ratings was assessed by correlating average ratings with scores on the NBME clinical subject examination for surgery using Spearman’s r. The r2 value was also calculated to determine the shared variance between ratings and examination scores. 

A r2 value R .25 indicates a high degree of variance shared between 2 variables, values of .09 to .24 indicate a moderate degree of variance, and values ,.09 indicate a small degree of variance.14 


Additionally, students were assigned to 1 of 3 groups on the basis of their examination scores relative to their peers’ scores: top 25%, middle 50%, and bottom 25%. Average clinical knowledge ratings from residents and attending surgeons were analyzed for differences on the basis of NBME score quartile using analyses of variance.



Comments

미국 의과대학에서 레지던트와 의대생의 평가는 모델을 따라가고 있다. 의학지식은 fundamental domain중 하나이고, 측정하기 가장 쉬운 것이라는 점에 대해서는 논쟁이 있지만 gold standard는 없는 상황이다. 의대생의 임상실습을 평가하는 grading schema에 학교별로 차이가 크며, 의과대학들은 나름의 기준들을 적용해왔다.

Assessment of residents and medical students in the United States has become increasingly aligned with the model of 6 core competencies developed by the Accreditation Council for Graduate Medical Education.15 Medical knowledge is 1 of the fundamental domains in which practicing physicians are called to exhibit competence. Although it is debatably the easiest to measure, there is no present consensus on which assessment methods should constitute a gold standard. As such, multiple studies have shown that wide variability exists in grading schema for medical student clerkships,16–18 as medical schools have each applied their own standards on an ad hoc basis.


여전히 의대생의 수행능력을 평가하는 확실한 magic bullet이 있는 것은 아니지만, 본 연구에서는 예측 가능한 패턴을 찾을 수 있었다. 교수의 평가나 레지던트의 평가 모두 NBME surgery 과목시험점수와의 convergent validity는 낮았지만 한 학생에 대해서 여러 교수들과 레지던트들 사이의 평가자간 신뢰도는 높았다.

Our findings suggest that although the magic bullet of medical student performance assessment continues to remain elusive, there may be predictable patterns. Although the convergent validity of subjective assessments from both faculty members and residents with NBME surgery subject examination scores was low, the interrater reliability between multiple faculty member and resident ratings for each student was high. 


이러한 측면에서 학생 수행능력의 다른 어떤 측면이 지식을 평가하는 대리지표로서 사용된다고 판단하게 되었다. 교수들이 의과대학생을 평가하는데 영향을 주는 것에 대한 이전 연구의 자료를 보면, 교수들은 학점을 줄 때 다양한 평가준거를 활용하기보다는 학생 수행능력의 한 단면만을 보는 것으로 나타난다. 우리의 연구에서 외과교수들은 평가시에 generalized global assessment이라는 개념을 가지고 있는 것으로 보이며, 구어체로 하면 "후광효과"라 할 수 있다.

On that basis, we posit that other aspects of student performance are perhaps being considered as proxies for knowledge. Data from a prior study that examined factors contributing to faculty members’ evaluation of medical students’ performance on a surgery clerkship indicated that faculty members form 1-dimensional views of students’ performance when assigning grades, rather than nuanced cognitive models that account for differentiation among multiple grading criteria.19 Our data further imply that faculty evaluators in surgery may be conceptualizing a generalized global assessment of student performance on which they base all of their ratings. This is colloquially known as the halo effect.


흥미로운 사실은, 레지던트의 평가가 교수들의 평가보다 NBME와 더 높은 상관관계를 보인다는 것이다. 여러 연구에서 교수들이 학생을 관찰하는 시간은 드물며, 학생들은 대부분의 시간을 레지던트와 보내는 것으로 보고되고 있다. 교수가 학생을 평가한 결과에 편차가 있다는 점에 대한 문헌은 있으나, 레지던트의 평가에 대해서는 유사한 연구결과가 없다. Dudas가 "학생의 분절된 임상경험은 평가의 적이다"라고 말한 것에 동의하며, 이것이 longitudinal clerkship이 넓은 영역에 걸쳐서 학생의 역량을 정확히 평가할 수 있다는 주장의 근거일 것이다.

Interestingly, we found that residents’ evaluations of students’ knowledge correlated better with NBME examination scores than did faculty members’ evaluations. Studies have shown that students are observed infrequently by faculty members in clinical encounters20,21 and spend a majority of their contact time with residents. 22 There is documentation of variation in faculty members’ evaluations of students by clinical service, with increasing length of rotation (4 vs 2 weeks) correlating with lower overall scores,23 although no similar data exist for residents’ evaluations. We agree with Dudas et al3 that ‘‘fragmentation of student clinical experiences is a threat to assessment,’’ and it can be reasonably argued that longitudinal clerkship experiences provide the maximal opportunities for accurate student assessment across all domains of competency.


Conclusions

의과대학생의 평가에 대한 관심이 높고, 이는 타당성과 신뢰성을 갖춰야 한다. 의과대학은 주관적과 객관적 평가를 사용하지만 의사들이 학생이 잘 하는 것과 못 하는 것을 어느 정도로 파악할 수 있는지에 대해서는 알려진 바가 없다. 

Assessment of medical students is of broad interest and should ideally be valid and reliable. Medical schools use both subjective and objective assessments of performance on student clerkships, as each contributes differently to insight regarding students’ abilities. However, it is unknown to what extent clinicians can detect excellence or deficiencies while working with medical students. 



Our data suggest that there are contextual and discipline-specific trends at work regarding the ways in which faculty members and residents perceive and subsequently rate students’ performance. Specifically, compared with medical specialties, the surgical routines and culture may not easily lend themselves to accurate student assessment without focused training in such. We have yet to explore if and how the importance given to technical skills in surgery skews our ability to assess other domains compared with nonprocedural disciplines. Within the confines of the existing student clerkship structure, it seems evident that both faculty members and residents would benefit from dedicated training in rating students’ knowledge. Such an intervention could decrease the ‘‘halo effect’’ that has been demonstrated to plague the subjective evaluation of medical students26 and would also provide increased opportunities to recognize deficiencies within the context of the time-limited settings so common in surgical practice.






 2014 Feb;207(2):231-5. doi: 10.1016/j.amjsurg.2013.10.008. Epub 2013 Oct 24.

Faculty and resident evaluations of medical students on a surgery clerkship correlate poorly with standardizedexam scores.

Abstract

BACKGROUND:

The clinical knowledge of medical students on a surgery clerkship is routinely assessed via subjective evaluations from facultymembers and residents. Interpretation of these ratings should ideally be valid and reliable. However, prior literature has questioned the correlation between subjective and objective components when assessing students' clinical knowledge.

METHODS:

Retrospective cross-sectional data were collected from medical student records at The Johns Hopkins University School of Medicine from July 2009 through June 2011. Surgical faculty members and residents rated students' clinical knowledge on a 5-point, Likert-type scale. Interrater reliability was assessed using intraclass correlation coefficients for students with ≥4 attending surgeon evaluations (n = 216) and ≥4 residentevaluations (n = 207). Convergent validity was assessed by correlating average evaluation ratings with scores on the National Board of MedicalExaminers (NBME) clinical subject examination for surgery. Average resident and attending surgeon ratings were also compared by NBME quartile using analysis of variance.

RESULTS:

There were high degrees of reliability for resident ratings (intraclass correlation coefficient, .81) and attending surgeon ratings (intraclass correlation coefficient, .76). Resident and attending surgeon ratings shared a moderate degree of variance (19%). However, average resident ratings and average attending surgeon ratings shared a small degree of variance with NBME surgery examination scores (ρ(2) ≤ .09). When ratings were compared among NBME quartile groups, the only significant difference was for residents' ratings of students with the lower 25th percentile of scorescompared with the top 25th percentile of scores (P = .007).

CONCLUSIONS:

Although high interrater reliability suggests that attending surgeons and residents rate students with consistency, the lack of convergent validity suggests that these ratings may not be reflective of actual clinical knowledge. Both faculty members and residents may benefit from training in knowledge assessment, which will likely increase opportunities to recognize deficiencies and make student evaluation a more valuable tool.

Copyright © 2014 Elsevier Inc. All rights reserved.






The use of portfolio learning in medical education

DAVID SNADDEN & MARY THOMAS

Tayside Centre for General Practice, University of Dundee, Scotland, UK







포트폴리오 학습이란 무엇인가? What is portfolio learning?


포트폴리오에는 '학습과 관련된 문서'들, 그리고 '그로부터 무엇을 배웠는가'에 대한 설명이 포함된다. '학습과 관련된 문서'는 다음의 것들을 포함한다.

In practice portfolios include documentation of learning, and an articulation of what has been learned. The documentation can include:


· records of events or experiences;

· lists of critical reviews of articles read;

· projects carried out;

· teaching sessions attended;

· videoclips, educational events and patients seen.


'그로부터 무엇을 배웠는가' 에는 다음의 것들이 포함된다.

The articulation of what has been learned may include: 


· written reflective accounts of the events documented;

· personal reflections kept in the form of a journal or diary.


문제가 무엇인지, 무엇을 배웠는지, 앞으로 무엇을 더 배워야 하며 그 계획은 어떻게 되는지에 대한 성찰이 포함된다.

These would include reflections on problem areas, what has been learned, what has still to be learned and plans for how new learning will be tackled.



배경 The background to portfolio learning in medical education


포트폴리오가 새로운 것은 아니다.

Portfolios are not new,


평가도구로서도 매력적인데, 일정 기간에 걸쳐 임상 수행능력을 평가할 수 있을 뿐만 아니라, authentic assessment의 한 방법이기도 한다.

They are also attractive as assessment tools in that they have a potential to assess clinical performance over a period of time, constituting one form of authentic assessment


학습에 따라서 학습자의 행동, 직관, 수행능력이 달라진다. 성인학습자적, 자기주도적, 성찰적 학습은 수동적 학습을 장려하는 환경에서는 일어나기 힘들다.

In other words learning which impacts on the behaviour, intuition and performance of the learner. Adult, self-directed and reflective learning are deemed less likely to occur in environments where passive learning is encouraged,


Brookfield와 Boud는 교육 프로그램 자체가 성찰적인 요소(reflective component)를 포함함으로써 상호작용을 촉진시켜야 한다고 주장했다.

Brookfield (1986) and Boud (Boud & Walker, 1993) suggest that educational programmes should be interactive, include reflective components and be related to experience.



포트폴리오 학습 : 미국 교육 시스템에서의 발전 
Portfolio learning: its development in the American school system.


비록 포트폴리오가 그래픽아트 분야에서 오랜기간 사용되어오긴 했지만, 북미 교육 시스템 내에서 포트폴리오는 성찰을 촉진시키기 위한 기제였다.

Portfolios as mechanisms to enhance reflection were developed within the North American school system - though it could be argued that portfolios in terms of the graphic arts have been in existence for many years.


포트폴리오 학습은 빠르게 도입되었으나, 평가 측면에서 포트폴리오의 활용과 개발에 대한 평가는 제대로 이루어지지 않은 채 도입된 것이었다.

The rapid adoption of portfolio learning, including its use in assessment, seems, however, to have been implemented with little true evaluation of the use and development of portfolios


평가자들간의 컨센서스는 쉽게 달성되지 않았고, 준거, 효과적 수련, Rubric, 상식(Common values), 학생 수행능력에 대한 이해 등에 따라서 많이 달라졌다. 

Consensus amongst raters was not achieved easily and depended on clearly articulated criteria, effective training, and rubrics that reflected shared experience, common values and a deep understanding of student performance.


그럼에도 불구하고 포트폴리오 평가의 도입은 교사들의 활동에 영향을 주었다.

Nevertheless the implementation of portfolio assessment seems to have influenced the activity of classroom teachers.


이들 초등학교 프로젝트는 포트폴리오 기반 학습이 학교에서 이루어지는 것이 교사와 학생 모두에게 쉽지 않은 일이지만, 교실의 분위기를 드라마틱하게 바꾸고, 교사-학생간 상호작용의 특성을 변화시켰으며, 학생과 교사 모두가 활발하게 평가를 위한 준거를 개발하고 적용시키는 모습으로 바꾸어놓았다. 

These elementary school projects lead to the conclusion that portfolio-based learning, in the school context, is challenging for teachers and students, can dramatically alter the climate of the classroom and the nature of teacher/student interactions and has brought assessment into the classroom with students and teachers actively engaged as they generate and apply criteria to each other’s work.



간호학과 의학에서의 포트폴리오 Portfolios in nursing and medicine

영국에서 포트폴리오는 간호학 교수들에 의해서 전격적으로 도입되었으며, 지금은 간호사와 조산사 수련 기관에서의 형성평가와 총괄평가를 위해서 사용되고 있다. 

In the UK portfolios have been adopted with enthusiasm by the nursing profession and are now used for both formative and summative assessment in several nurse and midwifery training institutions (Jasper, 1995a) and have also been supported by the UK Central Council for Nursing and Midwifery to track professional development (Jasper, 1995b).



하지만 다음과 같은 문제가 드러났다.

· 개별적 평가와 대규모 평가에서 활용시 갈등 There may be conflict for portfolios serving both the purposes of individual learning/assessment and large-scale assessment.

· 업무가 표준화되지 않은 상태에서 포트폴리오 평가가 가능한가? Can portfolios be assessed if the work is not standardized?

· 학생의 태도, 감정, 행동을 평가하는 준거는 무엇이 되어야 하는가? What criteria should be involved in making judgements about students’ attitudes, feelings and behaviour?

· 프라이버시와 기밀과 같은 개인적인 내용은 어떻게 해야 하는가? What about issues of privacy and confidentiality as some portfolios contain highly personal material?


교사들은 포트폴리오가 좋은 학습 도구라고 생각했다.

the tutors felt that a portfolio was a valuable learning tool from their point of view and that of their students.


학생측에서 가장 큰 문제는 무엇을 해야하는가에 대한 불확실성에 대한 걱정과 개인적 감정을 기록하는 것에 대한 불안감이었다.

The main problems for students were uncertainty regarding what was expected of them and anxiety about recording personal feelings..


Glen과 Hight는 영국 간호사와 조산사 교육에서 포트폴리오를 논하면서, 포트폴리오의 주요 기능은 교육 변화의 촉매재라고 하였다. 즉, 포트폴리오를 만드는 과정이 그 결과보다 중요하다는 것이다.

Glen & Hight (1992), writing on the place of portfolios in nursing and midwifery education in the UK, also raised the question of whether the main function of portfolios was that of a catalyst for educational change, in other words was the process of developing portfolios more important than the product.


포트폴리오 기반 학습은 이제 영국의 일반진료에도 적용되고 있다.

Portfolio-based learning has now been actively promoted in general practice in the UK.


Practitioner와 Mentor가 함께 일하는 방식으로 GP에 대한 보수교육의 목적으로 활용되었다.

Portfolio development in general practice has continued with descriptions of portfolios being used to support continuing education for established general practitioners in which practitioner and mentor work together, the practitioner then submitting a portfolio which is assessed against a number of criteria to allow the award of postgraduate education credits (Treasure, 1996; Challis et al., 1997).


이 시점에서 포트폴리오와 로그북의 차이를 강조하는 것이 필요할 것이다. 로그북은 수행한 업무의 모음으로서 비판적 성찰을 담고 있지 않으며, 학습을 촉진한다기보다는 정기적으로 하는 업무(chores)에 가깝다.

It is perhaps important, at this point, to emphasize the difference between portfolios and the log-books that have been introduced into some higher specialist training programmes. Such log-books are collections of tasks carried out, they do not contain critical reflections and may be seen as chores rather than as a way of stimulating learning


포트폴리오는 자신의 수행에 대한 비판적 성찰을 담고 있으며, 로그북에서는 이루어지지 않는 새로운 방식의 학습이 이뤄진다.

Portfolios contain critical reflection on practice and as such challenge the learners’ performance and learning in a way that log-books do not.


교육자들 사이에서는 포트폴리오 기반 학습이 유명해졌지만, 여전히 이론가들이나 교육과정을 조직하는 사람들은 여전히 몇 가지 의문을 갖는다.

Despite the popularity of portfolio-based learning amongst educationalists, theorists and course organizers there still seem to be a number of outstanding questions:


· What do learners think of portfolio learning?

· What is the effect of portfolio learning on their education?

· Is there a valid assessment component?

· Is there a place for these ideas in general medical education?


이 질문들은 Scottish General Practice Training Regions에서 두 연구에 의해서 설명되었다. 

These questions were addressed in an action research project carried out in two Scottish General Practice Training Regions (Tayside and Highland) which has helped develop a number of principles concerning how portfolio learning can be developed in general practice and whether it has a place.



의학교육에서 포트폴리오 개발 Developing a portfolio in medical education


포트폴리오는 어떻게 생겼는가? What does a portfolio look like?


사용자가 만족한다면 어떻게 생겼는지는 중요하지 않다.

It really does not matter as long as the user is happy with it.


포트폴리오란 무엇인가? What is in a portfolio?


포트폴리오의 구성요소들은 성인학습자 그리고 성찰적 학습(reflective learning)의 개념에 기반하고 있다. 학습과정에 걸쳐서 스스로의 요구와 아젠다를 설정해야 하며, 자신의 임상수행, 그 기간동안 어떤 경험을 했는지도 설명할 수 있어야 한다. 

The components of a portfolio described here are based on the concepts of adult and reflective learning. Throughout learners are asked to identify their own needs and agendas, often through reflection on their own clinical practice and experiences they have in their learning period.


다음은 포트폴리오에 들어갈 수 있는 것들이다.

The following are examples of what a portfolio can contain:

· critical incidents of events with patients;

· a reflective journal or diary;

· tutorials and learning plans, and re¯ection on them;

· routine clinical experiences;

· exam preparation material;

· video recordings of consultations and other relevant material;

· audits and project work;

· critical reviews of articles;

· feedback material;

· management material.



    • Critical incidents of events with patients. Critical incidents are those incidents in a working day that are memorable for going well or going badly. (특별히 기억에 남거나 잘 하지 못했던 것들)

    • A reflective journal or diary. Again this does not need to be extensive, but does require some discipline in committing thoughts to paper. The benefit of this is that it encourages learners to reflect on what they are doing, what they are finding difficult and what they are trying to plan for. 

    • Tutorials and learning plans. Descriptions of tutorials that have happened and the follow up of learning needs that have resulted from them can be useful, but more important are some brief reflective notes on which areas within the tutorial were identified as strengths, and which as problem areas for the particular leaner.

    • Routine clinical experiences. There is a lot of routine work in medicine, therefore it is important to focus occasionally on routine incidents in the same way that critical incidents are described above.

    • Exam preparation material. Exams and assessments are an inevitable part of education. Most students and young doctors prepare for examinations through course work and material collected from this and reflection on these can help in their preparation.

    • Video recordings of consultations and associated material. Communication training is now commonplace in medicine and videos of simulated and genuine clinical consultations are used more and more to teach and assess progress in this area.

    • Audits or other project work carried out. Similarly, audits and other project work can form part of a portfolio, again giving evidence of work carried out.

    • Articles and texts reviewed critically. Current emphasis on critical appraisal suggests that all students and doctors should be able to review articles and books critically.

    • Anything else. The important thing is to give learners freedom in what they collect and how, so anything else they wish to include can become part of a portfolio.



포트폴리오는 어떻게 활용할 수 있는가? How can the material in a portfolio be used?


몇 가지로 활용될 수 있다.

- 개인적 발전을 추척하는 방법

- 토론을 촉진하고 미래 학습의 계획을 세우는 Formative Learning

- 공식적(총괄)평가 도구

Portfolios can be used in a number of ways:

· as a method of personal development and a way of tracking progress;

· formatively as a learning tool to stimulate discussion and to plan future learning;

· as a formal (summative) assessment tool.



개인적 발전을 추척하는 방법으로서의 포트폴리오
As a method of personal development and a way of tracking 
progress. 


포트폴리오는 튜터나 멘토의 지원 없이도 자기주도학습의 목적으로 사용될 수 있다.

Portfolios can be used for self-learning as a personal activity without support and input from a tutor or mentor.


그러나 튜터의 지원이 없는 상태에서 포트폴리오를 만드는 사람은 거의 없을 것이다. 포트폴리오와 그 주변 시스템을 세팅할 때 효과적인 튜터와 멘토의 네트워크는 그 시스템의 성공에 있어 매우 중요하다.

Lack of tutor support, however, will mean that few will create a portfolio. In setting up any system based around portfolios an effective network of tutors and mentors will be important in determining the effectiveness and success of the system.



토론을 촉진하고 미래 학습 계획을 세우는 도구로서의 포트폴리오

Formatively as a learning tool to stimulate discussion and to plan future learning. 


어떤 포트폴리오든지 그것이 활용되는 과정에 따라 그 유용성이 달라진다. 비록 스스로 성찰하는 것이 종종 도움이 되지만, 진정한 의미의 성찰은 다른 사람(튜터)의 도움이 필요하다.

The content of any portfolio is only as useful as the process by which the materials is used. Although reflecting to oneself through a reflective journal is therapeutic for some, real and challenging reflection requires another person, the trainer or tutor.


다음의 스텝을 따르게 된다.



Step 1

The learner:

· identifies an experience-this may be from an entry in the portfolio,

· describes it.

The trainer:

· listens actively-this means using verbal and non-verbal encouragement;

· is not judgmental;

· avoids interpretations;

· only challenges statements that are at odds with behaviour


Step 2

The learner:

· reflects on the experience trying to identify what has been learned.

The trainer:

· clarifies;

· summarizes;

· reflects what the learner has said;

· does not interpret.


Step 3

The learner:

· identifies new learning needs;

· devises a plan to met these.

The trainer:

· facilitates this process;

· may now suggest answers or offer advice, but must make it clear that there may be other answers.



이 과정에서 도움이 될 만한 질문은 다음과 같은 것들이 있다.

Here are some examples of the sorts of questions that can be helpful in this process:

· What happened?

· What did you notice/find intriguing/exciting/worrying?

· What could you learn from this?

· How would you go about learning it?

· How would you know you have learned it?



이러한 과정이 끝나면, 포트폴리오를 이용한 학습 계획을 세워야 한다. 학습의 다음 단계가 무엇인지 적어보는 것은 나중에 진짜로 그것을 달성했는지, 혹은 어떤 행동이 이뤄졌는지 확인하는데 중요하다. 또한 포트폴리오는 피드백 기회를 제공하기도 한다.

At the end of all this it is important to commit to the portfolio some sort of learning plan. Writing down the next steps in a learning process is an important way of checking up later to see what has happened or what action has been taken. In addition to this the portfolio can give a valuable opportunity to stimulate feedback.



공식적(총괄) 평가도구로서의 포트폴리오

As a formal (summative) assessment tool. 


포트폴리오는 어느 기간에 걸친 수행능력을 평가하는 한 방법으로서 매력적인 평가도구이다. 즉, 이론을 잘 적용하는지, 수행능력이 어떠한지를 평가할 수 있다. 이것을 Authentic assessment라 부른다. 그러나 공식적 평가 목적으로서 포트폴리오를 활용할 경우 순수하게 학습적 목적으로 활용할 경우와 전혀 다른 내용이 들어갈 수 있다는 것이 강조될 필요가 있다.

Portfolios are attractive as assessment tools as they appear to be one way of assessing performance in practice over a period of time, in other words they assess the application of theory and the performance of the student or doctor. This is now called an authentic assessment. It must be stressed, however, that if portfolios are to be used for formal assessment purposes learners may keep quite different material than if the portfolio is to be used for purely learning purposes.


공식적 평가는 어떤 자료가 수집되는가에 있어서 부정적 영향을 주기 쉽다.

negative impact formal assessment would have on the material collected


포트폴리오를 평가하기 어려운 한 가지 이유는, 그것이 개인적 내용을 담고 있기에 객관성이 거의 없으며, 학생간 의사간 비교가 어렵게 된다는 점이다. 평가는 또한 노동집약적인데, 평가자는 학습자의 목표와 그에 따라 어떤 근거를 수집하였는지를 꼼꼼히 살펴보아야만 한다.

One of the reasons that portfolios are difficult to assess is that they contain personalized material with few points of objectivity that allow comparisons to be made between students or doctors. Assessment is also labour intensive and requires careful reading and response to a learner’s objectives and evidence of whether they have been met. 


개인적 학습과 성장을 촉진하는 기전으로서는 효과적이나 비교를 위한 평가에는 어려움이 있다.

This means they are effective as mechanisms to support and facilitate personal learning and growth, but cumbersome in comparative assessments.


대규모 포트폴리오 평가의 질에 대한 연구는 거의 없으며, 지금까지 이뤄진 것도 대부분 미국 학교 시스템 내에서 이루어져왔다.

There is little research available in the literature on the technical quality of large-scale portfolio assessments, and what has been done is largely within the American school system.


새로운 평가 방법이 학습에 대한 새로운 아이디어로부터 만들어져야 하는 어려움과 포트폴리오 평가의 어려움을 말해준다.

This illustrates the difficulties in assessing portfolios and how new methods of assessment will need to be developed in the context of new ideas on learning.


평가에 대한 전통적인 관점에 사로잡혀 있다면 포트폴리오의 효과적 평가는 어렵다. 다른 말로 하면, 학생간 서로 비교하여 학점을 주고, 점수를 주는 것은 본질적으로 비-표준화된 방법인 포트폴리오에 적합하지 않은 것이다. 포트폴리오는 비-비교적 평가 방법이 개발되기 전까지는 평가가 어려울 수 밖에 없다. 

This in essence means that the effective assessment of portfolios will continue to be difficult if we remain trapped within our traditional view of assessment. In other words, assessment based on comparing students with each other and with issuing grades or marks does not fit easily with portfolios which are essentially non-standardized. Portfolios will remain difficult to assess until new non-comparative assessment methods are developed. While the emphasis on grading, excellence and comparison between students and doctors remains in assessment and medicine, it is likely that portfolios will have a greater place as a learning tool than as a summative assessment tool,



포트폴리오의 개념을 어떻게 도입할 것인가? How do you introduce the concept of portfolios?


포트폴리오는 다양한 방법으로 사용가능하며, 학생과 의사 모두에게 포트폴리오가 무엇을 위해 사용되고, 어떻게 사용할 것이 기대되는지를 명확히 해줘야 한다. 몇 개의 ground rule 이 매우 중요하다.

Also, as portfolios can be used in a number of ways it has to be absolutely clear for students and doctors what the portfolios will be used for and how they are expected to use it. For this reason the early establishment of some ground rules is very important


Ground rules.

· 포트폴리오에 쓰인 것은 누가 보는가? Who sees what is written in the portfolio?

· 누가 포트폴리오를 쓸 수 있는가? Who can write in a portfolio?

· 쓰여진 내용에 대해서 어떤 일을 하게 되는가? What will happen to the written material?

· 평가는 어떻게 되는가? Where does assessment ®t in?

· 언제 포트폴리오가 사용되며, 시간은 얼마나 할당되는가? When will the portfolio be used and how much time will be set aside for it?

· 어디에 보관될 것인가? Where it will be kept?


아래는 위에 대한 몇 가지 아이디어들이다. 

Here are some ideas on these topics that have come from our research. These may seem a bit restrictive, but they help give learners a feeling of control and confidence at the start of using a new learning system. In practice they become quite open with their portfolios as they represent a record of their development; the ground rules, however, are essential in allowing this openness to develop


누가 보는가? Who gets to see the portfolio?


의무기록과 비슷한 수준의 보안이 유지되는 것이 중요하다.

it is important that they are treated with the same degree of confidentiality as any medical record

가장 효과적인 성찰 코멘트는 교사와 학습자가 정기적으로 볼 때 가능하다.

The most effective reflective comments seem to be those that both trainer and learner regularly see.


누가 쓰는가? Who writes in it? 


어떤 부분은 교사와 학습자의 기여가 모두 포함될 수 있다.

Some portfolios may contain contributions from trainer and learner. 


어디에 사용되며 얼마나 시간이 배정되는가?

When will the portfolio be used and how much time will be set aside for it? 


학습자의 요구에 맞는 교육과정 개발에 사용될 수 있음. 

Used imaginatively a portfolio will help develop a curriculum for a student or doctor that is relevant to a learner’s needs.


쓰여진 내용에 대해서 어떤 일을 하게 되는가? 

What happens to the written material in the portfolio?


학습자의 포트폴리오는 자기자신의 것이며, 훈련에 관한 자기만의 기록이다. 무엇이 될 것인가는 학습자에 달렸다.

Learners’ portfolios are theirs, they are their own personal record of their training, it is up to them what happens to them.




시작하기 

Getting started


가장 중요한 것은 교수와 학생에게 어떻게 사용할 것인지 정보를 주는 것이다.

More important is the information that is given to faculty and students on how to use portfolios


교수와 학생에게 포트폴리오와 친해지게 하기

Workshops to familiarize faculty and students 


대부분의 의사와 학생은 포트폴리오 학습에 대한 우려가 해소될 때 까지 사용하려고 하지 않을 것이다. 교사와 학습자를 모두 모아놓고 이 장애물을 해결하기 위해서는 토론과 도전을 통해서 아이디어를 모아야 한다.

Most doctors and students will not consider portfolio learning unless some of their concerns and apprehensions are dealt with. Bringing groups of learners and teachers together to explore ideas through discussion and challenge is fundamental in dealing with some of these barriers.


워크숍을 통해서 우려를 해소하고, ground rule을 개발하고, 앞서 언급된 세 개의 튜토리얼 스텝을 연습할 수 있다.

Workshops can deal with concerns, develop ground rules, refine written notes and help staff practice the three tutorial steps described earlier.


워크숍에서 중요한 부분은 포트폴리오를 사용한 사람과 사용하지 않은 사람이 서로 만나는 것이다.

An important part of any workshop is to meet others who have and have not used portfolios


또한 다른 전공의 사람을 만나는 것도 마찬가지로 중요하다.

Equally important is exposure to people from other disciplines


FAQ

Some frequently asked questions


시간이 많이 드나요? Does keeping a portfolio take a lot of time?


Portfolios do take a little time, but not as much as first imagined. In many ways portfolios are a parallel to medical records. Few doctors see patients without writing something down about them to help them next time they or their colleagues see a patient.


A few minutes at the end of each day is all that is needed


상호 관계에 영향을 미치나요? Does a portfolio influence relationships?

This is a difficult question to answer.


Where the relationship is good portfolios seem to work well, but they are less likely to do so where the relationship has some problems.


모든 사람이 만족하나요? Is everyone happy to use a portfolio?


No. Some learners have great difficulty seeing the relevance of intense reflective learning. Young doctors have a variety of learning styles and some who have very active styles of learning in terms of their desire to acquire knowledge do not wish to use such a system, often perceiving it as time wasting or not fitting their needs.



얼마나 오래 사용하나요? How long do people use portfolios for?

One of the most interesting phenomena of portfolio use amongst GP registrars is the bridging phenomenon (Snadden & Thomas, 1998). The transition from working in the fairly sheltered environment of hospital to the culture of uncertainty and isolation that is general practice is not easy. Portfolios assist in the transition by capturing and supporting the young doctor’s difficulties in adapting to a complex and changing environment.


포트폴리오를 쓰면 도움이 된다고 느끼나요? Do people feel they have benefited from keeping a portfolio?

For those that keep portfolios there are several benefits. They help focus teaching sessions on material that is

relevant to them.


In addition to this they help track learning by keeping a record of what the learner has achieved. More importantly the learner can examine areas in which he/she is not confident and plan new learning based on these.


Portfolios explore performance in practice and as such they are a challenging, and confidence building, learning mechanism for both learner and teacher.



Conclusion


A well-completed portfolio will give a young doctor or student and his/her teacher a written record of what has been accomplished in a training period.






Research Article

The use of portfolio learning in medical education

1998, Vol. 20, No. 3 , Pages 192-199 (doi:10.1080/01421599880904)

SUMMARY Portfolio learning is a method of encouraging adult and reflective learning for professionals. Derived from the graphic arts it is based on developing a collection of evidence that learning has taken place. Portfolios are being used more in nursing and medical education. They are excellent tools for assisting formative assessment and professional development. They are also being developed for formal assessment processes, being seen as one form of authentic assessment particularly suited to evaluating the application of theory in practice. There are, however, difficulties associated with the lack of standardization of the content of portfolios in terms of developing assessment instruments. As long as formal assessment is based on the philosophy of measurement, portfolios will be difficult to assess and will require the development of noncomparative methods of assessment. This article describes some of the history of portfolios, how to develop a portfolio to assist learning or for professional development purposes and discusses some of the current thinking about the use of portfolios for formal assessment.




Read More: http://informahealthcare.com/doi/abs/10.1080/01421599880904

포트폴리오 평가와 의학교육에의 적용

가톨릭대학교 의과대학 의학교육학과

김 선






서 론

교육평가란 교육의 목표가 얼마나 잘 달성되었는지를 검토하는 작업으로서 교육과정에서 필요로 하는 학생에 관한 정보를 수집하고, 교육과정의 효율성을 판단하며, 이에 대한 달성도를 밝히는 과정이기 때문에 전체 교육과정 중 빼어놓을 수 없는 부분 중의 하나이다.


성태제 (2002)는 교육평가를 교육과 관련된 모든 것을 체계적이고 과학적으로 측정하고 관찰하여 가치와 질 등을 판단하는 주관적 행위라 하였다.


채선희 (1998)는 우리가 ‘어떻게 평가할 것인가’라는 기술적인 문제에만 치중해 온 경향이 있다고 하면서, ‘무엇을 그리고 왜 평가하는가’라는 문제를 간과해왔다고 지적하였다. 따라서 교육을 평가함에 있어서는 평가의 목적, 평가의 주체, 평가의 대상, 평가의 기준, 평가의 방법의 다섯 가지 영역을 구분하고, 이들 각각의 특성과 관계를 명확히 이해해야 한다는 것이다.


그러나 최근 교육패러다임이 변하면서 학습결과 뿐만이 아니라 학습과정에도 관심을 기울이고 있으며, 학습과정에서 학습자들의 능동적인 참여를 강조하고, 통합된 지식과 기술을 평가하며 평가 형태 또한 일회적이 아닌 메타인지적인 관점에서 학습을 보는 지속적인 평가가 요구되고 있다.


포트폴리오는 수업과의 연계선상에서 학생의 성취수행을 평가하며, 특정 학습내용 범위를 초월하여 학생의 학업성취를 광범위하게 기술 묘사할 수 있는 방법이다. 뿐만 아니라 학생들이 무엇을 할 수 있는지, 무엇을 할 수 없는지에 대한 정보를 제공하여 학생들의 강점과 약점을 정확하게 파악할 수 있고 (김동일, 2001), 생들로 하여금 학습활동에 참여하게 하고 자신의 학습활동에 대하여 책임을 질 수 있도록 격려하는 방법이다.



본 론

가. 포트폴리오의 이해

1) 개념 및 목적


포트폴리오 (Portfolio)는 이탈리아어의 ‘나르다’라는 의미의 ‘포르타레 (portare)’와 ‘종이’라는 의미의 ‘폴리오 (folio)’의 합성어로 ‘종이를 나르는 것’이라는 의미를 지니고 있다. 흔히 종이 끼우개, 서류 가방의 의미로 사용되는데, 포트폴리오의 기원은 건축가나 예술가, 사진 작가들이 그들의 능력과 활동을 설명하기 위해서, 또는 은행가가 고객을 유치하기 위한 목적으로 사용해 왔다 (김명선, 김석우, 2001).


이러한 객관식 평가는 단편적인 사실의 기억과 회상에 초점을 두고, 학생들이 수동적으로 주어진 답지 중에 하나를 고르게 하는 것이기 때문에 정보화시대에 필요한 고차원적 사고기능을 측정하기 부적합하다는 지적이다.


포트폴리오를 한 마디로 학습자가 지속적으로 모아둔 학습과제물의 모음집이라고 정의하기도 한다.


포트폴리오란 자신이 쓰거나 만든 작품을 지속적이면서도 체계적으로 모아 둔 개인별 작품집이나 서류철을 이용하여 평가하는 방법이다


석문주 외(1998)는 Taylor가 기술한 포트폴리오 평가의 목적을 정리하였는데, 크게 학생과 교사의 두 측면에서 기술하였다. 

학생을 위한 포트폴리오의 목적은 

코스 내용과 기술에 관한 학습의 평가, 

②창의적 과정에 대한 통찰 증가, 

학습과정에서 주체성 획득, 

④시간의 경과에 따른 자신의 성장 인식, 

⑤작업에 반영되는 평가 기술의 증진, 

⑥수동적 학습자에서 능동적 학습자로 변화, 

⑦자신감의 획득, 

성공적 학습자로서의 개인적 이미지 개선이다. 


포트폴리오 평가의 교사를 위한 목적은 

① 개개 학생의 성장과 진전 영역에 대한 증거 제공, 

② 각 활동에 대한 가장 좋은 것에 대한 준거 식별, 

③ 작업 과정에 대한 학생들의 사고 제공, 

④ 완성된 작업에 대한 반응을 통한 상호 의사 전달과 협동의 개선, 

코스 내용과 학생 목표의 개발, 평가 및 수정, 

⑥ 학생의 요구충족을 위한 수업전략 개발, 

⑦ 학생의 성장에 대한 부모, 다른 교사, 행정가의 이해를 촉진하기 수단을 제공하는 것이다.



2) 포트폴리오의 특징


포트폴리오의 특성과 장점에 대해서 배호순(2000)은 여섯가지를 제시하고 있다. 

① 수업과 연계시킨 학생의 성취수행 평가, 

② 학생의 학업성취를 광범위하게 기술 묘사하며 특성 학습내용의 범위 초월 가능, 

③ 특정 내용영역에서의 학생의 성장을 정확히 기록, 

④ 학생들 스스로 자신의 강점과 약점 파악, 

⑤ 학생들을 학습활동에 참여하게 하고 책임을 지도록 격려, 

⑥ 학부모나 교육행정가의 가치로운 정보의 원천.


Oosterhof (1994)는 포트폴리오의 특성을 종합적인 관점에서 다음과 같이 7가지 항목으로 정리하고 있다. 

① 개별화된 교수목표에 용이하게 적용할 수 있다, 

② 산출물의 평가에 초점을 둔다, 

③ 전형적으로 학생의 약점보다는 장점을 파악할 수 있게 해 준다, 

④ 평가과정에 학생을 적극 참여시킨다, 

⑤ 학생의 성취에 관하여 타인들과 의사소통하는 것을 촉진할 수 있다, 

⑥ 시간을 집중적으로 활용할 수 있다, 

⑦ 포트폴리오 평가의 신뢰도에 관해서는 별로 알려진 것이 없다


Marswh와 Willis (1999)는 

① 학생들로 하여금 자신의 지식을 구성하는 데 능동적으로 참여할 수 있게 해 준다, 

 학생들 자신을 평가할 수 있도록 격려해 준다, 

③ 학생들이 평가를 위하여 광범위하고 다양한 항목을 활용할 수 있도록 허용해 준다, 

④ 학생들로 하여금 사고능력과 표현능력을 과시하도록 요구한다, 

⑤ 학생들이 알고 있고 할 수 있는 바를 공평하고 민감하게 묘사할 기회를 제공해 준다, 

⑥ 믿을 만한 학생의 성취근거를 학부모 및 지역사회에 제공할 수 있다는 점을 포트폴리오의 장점으로 꼽았다.


3) 평가 절차와 도구

현재까지의 포트폴리오 평가 절차는 표준화되어 있다거나 정해진 방법이 있는 것은 아니다


Worthen (1993)은 포트폴리오의 계획 및 준비단계를 다음과 같은 5단계로 정리하고 있다. 

① 원하는 포트폴리오의 모습을 결정한다. 

② 포트폴리오에 포함시킬 내용을 결정한다. 

③ 포트폴리오 견본을 선정하는 시기와 방법을 결정한다. 

④ 포트폴리오를 평가하는 방법을 결정한다. 

⑤ 포트폴리오 활용하는 방법을 결정한다.


McMillan (1997)은 평가설계 및 준비단계에서 중시할 사항을 다음과 같은 질문형식으로 정리하였다.

◦ 학습목표는 명료한가?

◦ 포트폴리오 사용목적이 분명하게 설정되었는가?

◦ 적절한 포트폴리오의 수집함이 준비되었고 그를 용이하게 활용할 수 있는가?

◦ 수집할 포트폴리오 내용물을 선정하는 절차가 분명하게 정해져 있는가? 

◦ 포트폴리오 내용이 학습목표에 부합되는가?

◦ 자기 반성적 평가내용과 그 절차를 학생이 숙지하고 있는가?

◦ 점수체제가 설정되었는가?



Knight와 Gallaro (1994)는 포트폴리오의 절차를 목표와 목적, 도구개발, 자료수집, 자료분석, 자료활용 단계로 구분하고 각 단계별 주의해야할 사항을 다음의 질문형태로 정리하였다.

◦ 목표 및 목적의 개발에서 목적이 과정 중에 포함되어야 하는가?

◦ 도구의 개발 : 적절한 작품 견본을 어떻게 확인할 것인가, 개인별 작품 견본에 필요한 평정체제를 어떻게 개발하고 타당화할 것인가?

◦ 자료의 수집: 누가 포트폴리오를 수집하고 관리할 것인가?

◦ 자료의 분석: 프로그램 수준에서 개인별 작품(성취수행)의 기대수준이나 기준을 어떻게 설정할 것인가, 근거의 비중을 어떻게 정할 것인가, 그 과정을 어떻게 타당화할 것인가?

◦ 자료의 활용: 수집된 근거에 입각하여 행동할 것인가, 자료 분석 결과에 근거하여 행동할 것인가?


4) 포트폴리오 평가의 문제점


평가부분과 관련하여서는 당도신뢰도로 나누어 살펴볼 수 있다


포트폴리오는 학습주제나 학습에 대한 반응의 수준을 잘 표준화, 일반화 할 수 없다는 점이 문제이다. 평가의 영역이 넓은 포괄성을 지니기 때문에 점수화에 큰 어려움이 있는 것이다. 또한 평가시 평정자의 지각과 편견이 들어가서는 안되기 때문에 평가자의 훈련이 고도로 필요한 것도 하나의 지적 사항이다.


따라서 포트폴리오 검사를 제작할 때 

① 특정한 사용을 위한 타당화의 논쟁, 

② 적용 가능한 기술적, 윤리적 기준의 근원과 적용될 구체적 기준, 

③ 검사의 해석과 사용에 대한 지지에서 각기 적용할 만한 기준에 상응하는 증거의 특성을 고려, 

④ 사용과 관련된 결과의 의미 등을 강조해야 한다. 


따라서 신뢰도의 문제를 극복하기 위한 노력으로는 표준화된 수행평가, 평가자들의 훈련과 재훈련이 있다(석문주 외, 1998).


포트폴리오 프로그램은 특히 교수자에게 부담이 많다.

포트폴리오의 점수화, 시간제약, 교수자의 저항, 비용 등이다


우선 포트폴리오 평가의 타당성과 신뢰성을 확립하기 위해서는...

현장실험을 거친 문서화된 채점안내서의 준비하고 명료하고 구체적인 준거를 제시할 필요가 있다. 

또한 모든 점수에 대하여 해석이 딸린 실제 예를 제시하고, 

충분한 연습과 피드백 제공, 

채점하기 전에 여러 채점자들간의 일치도를 과시하기, 

정기적인 신뢰도 점검 실시, 

필요한 경우의 재훈련, 

적절하고 신뢰로운 자료수집 활동의 기록 정리도 많은 도움이 될 수 있다.


Herman, Aschbacher와 Winters(1992)가 제시한 포트폴리오 평가의 기본적인 구비 조건을 시사해주는 다음의 준거 항목들을 눈여겨 볼 필요가 있다. 

① 좋은 포트폴리오 평가란 무엇을 의미하는가? 왜 필요하며, 어떤 목적으로 활용하려는가? 

② 포트폴리오에 어떤 과제가 포함되는가? 

③ 어떤 준거와 기준을 적용해야 하는가?  

④ 채점 및 평정과 판단에서 어떻게 일관성을 유지하려는가? 

⑤ 평가 결과는 의도한 목적에 타당한 것인가? 

⑥ 평가 결과를 어떻게 활용하려는가?



결국 포트폴리의 문제점을 극복하기 위한 방안을 정리하면, 

첫째, 평가 과정에서 어떻게, 무엇이 평가되어 지는지에 대해 학생들의 의견을 반영하여 관심을 갖게 한다. 

둘째, 학생들의 수행에 대해 제공되는 정보의 종류를 학생들로 하여금 세밀히 조사하도록 한다. 이를 통해 학생들이 평가 과정 자체로부터 학습할 기회를 갖게 하고, 숫자에 의존하는 것이 아닌 상세한 개인적 피드백을 제공한다. 

셋째, 평가준거를 명확히 하여 학생들 스스로가 학습을 할 수 있도록 유도해야 한다



나. 포트폴리오의 의학교육에의 적용


앞에서 언급한 바와 같이 실제 상황에서의 수행정도를 평가하는 참평가 (authentic assessment)의 대안평가로 포트폴리오가 많은 관심을 받고 있다고 하였다.


“Tomorrow's Doctors”를 발표한 Genenral Medical Council (1993)에서도 학습자중심 교육을 강조하면서 의대생들에게는 전문적 발달이 중요하므로 기존의 전통적인 학습평가방법과 함께 문제중심학습 방법과 포트폴리오 평가의 중요성을 역설하였다.


영국의 Royal College 의과대학은 일반의들의 훈련과 지속적인 전문성 발달 과정에 변화를 주었는데, 1993년 “Porfolio-based learning in General Practice”라는 저서를 펴내면서 본격적으로 포트폴리오 기법을 활용하였다.


Chief Medical Officer는 1997년 GMC가 “The New Doctor”라는 책을 발간하자, 운영위원회를 조직하여 “Portfolio for pre-registration house officers(PRHOs)”라는 포트폴리오 접근방법을 제시했다.


Sheffield 의과대학에서는 준거지향적인, 프로파일 중심 평가를 사용해 왔다. 이 대학에서는 공식적인 기말 시험을 면제받을 수 있는 방법을 학생들에게 제시했는데 바로 개인의 포트폴리오 기록들을 제출하는 것이다.


정보화시대에 걸맞는 포트폴리오의 형태도 시도되었다. 영국의 WISDOM 프로젝트라고 하는 것인데, 앞으로의 의료행위에는 컴퓨터의 상용이 필수적인 것이 될 것이므로 일차진료의들을 훈련시키기 위한 목적으로 컴퓨터를 통한 의사소통 기술을 높이고, 인터넷을 이용하여 가상 교실을 만드는 것이다.


문제중심학습을 이용한 교육과정을 중심으로 학생들을 교육하는 네델란드의 Maastricht 의과대학서는 최근 학생평가에서 포트폴리오 기법을 도입하였다.



결 론

교육평가는 교육의 패러다임의 변화에 따라 함께 변한다. 최근 교육평가 변화의 동향은 행동주의적 관점에서 인지적 관점으로 변한다는 것이다. 즉, 학습결과에 대한 관심뿐만이 아닌 학습과정에 대한 관심이 높아져 가는 것이다. 단편적이고 분절된 기능평가가 아닌 통합적이고 간학문적인 평가가 요구되고 있다 (김경자 역, 2000). 따라서 안다는 것과 할 수 있다는 것의 의미에 대한 변화가 생기면서 기능의 재생이 아닌 지식의 적용과 활용을 강조하고 있다. 또한 지필 평가에서 참평가 (authentic assessment)로의 변화가 일고 있다.


또한 하나의 속성을 평가하는 것이 아니라 학생들의 다양한 능력과 재능을 개발하고 보여줄 수 있는 다차원적인 평가고 변화하고 있으며, 개인만 강조하던 평가에서 협동을 중시하는 그룹 활동을 강조하는 평가를 요구하고 있다.


그러나 교육평가에서의 ‘제3의 물결’이라고 칭하고 있는 포트폴리오 방법이 도입단계에서는 교수자들의 많은 시간과 노력을 요구하고 평가문화가 제대로 정립되지 않은 현재 한국 교육적 상황에서는 교사들의 자발적인 참여가 저조할 가능성이 있다.








Korean J Med Educ. 2003 Aug;15(2):73-81. Korean.
Published online 2003 August 31.  http://dx.doi.org/10.3946/kjme.2003.15.2.73 
Copyright © 2003 The Korean Society of Medical Education
Portfolio Assessment and its Application in Medical Education
Sun Kim, PhD
Department of Medical Education, Catholic University College of Medicine, Seoul, Korea.


Portfolios for assessment and learning: AMEE Guide no. 45

JAN VAN TARTWIJK1 & ERIK W. DRIESSEN2

1Leiden University, 2University of Maastricht, The Netherlands








오늘날의 의사들은 지식이 많아지고 주장도 강해진 환자들을 대해야 하며, 새로운 것이 발견되거나 새로운 근거가 쌓이면 이를 매일매일의 진료에 적용시켜야 하는 압박도 받고 있다. 

Today’s doctors find themselves confronted not only with patients who are increasingly knowledgeable and assertive, but also with pressure to apply new findings and evidence in day-to-day practice, and with the necessity to collaborate with other health professionals in ever larger teams and communities.


이 복잡한 상황에서 의사들은 의사소통, 조직화, 팀워크, 프로페셔널리즘을 효과적으로 향상시킬 필요가 있고, 이러한 'Generic Competencies'는 종종 'Hard clinical skills'와 대비되어 'Soft skills'로 불리곤 한다.

To deal with these complexities, doctors need generic competencies to enhance effective communication, organisation, teamwork and professionalism. These generic competencies are sometimes labelled as doctors’ ‘soft skills’ in contrast to ‘hard clinical skills’.


그 결과 각종 협회와 정부는 이 Generic competencies를 교육과 평가에 도입할 것을 요구하고 있다.

As a result, professional associations and governments began to voice increasingly urgent demands to include these generic competencies in education and assessment (General Medical Council 2000).


그러나 이들 역량을 개발하는 것과 그 결과를 평가하는 것은 단순하지 않다.

However, stimulating the development of competencies (Box 1) and the assessment of its result is complicated







이미 1990년에 밀러는 임상역량과 관련된 과제가 무엇인지 기술한 바 있다.

Already in 1990, Miller described the challenges involved in assessing clinical competence.


Knows how단계는 시험으로 평가할 수 있다.

The Knows how level can also be assessed by written tests.


한 단계 올라가면, 관심은 가상의 상황에서 학습자가 지식을 활용할 수 있는가를 보는 것으로 옮겨간다.

One level up, at level 3, the issue of interest is that learners demonstrate their ability to use their knowledge to take appropriate action in a simulated environment


피라미드의 가장 윗 레벨은 복잡한 일상 진료환경에서의 독립적인 수행능력과 관계되어 있다.

The top of the pyramid is concerned with independent performance within the complex environment of day-to-day practice.


일반적으로, 이 단계를 적절히 수행하기 위해서는 다양한 역할을 통합적으루 수행할 수 있어야 한다. (의료전문가, 상담가, 의사-환자 관계의 참여자, 리더십 등등)

Typically, adequate performance at this level requires integrated performance of different roles; not only the role of medical expert but also that of counsellor, participant in the doctor–patient relationship, a leadership role in relation to nursing staff, etc. Good performance at the Does level implies competence.


1990년 밀러는 가장 윗 단계를 평가하기 위한 도구가 없다는 것을 발견하였고, 동시에 Teacher education분야의 학자들은 비슷한 문제를 겪고 있었다. 여기서도 문제는 실제 상황에서 어떻게 수행능력을 평가하는가였다. Shulman은 Teacher Assessment Project에서 일차, 이차 교육에서 교사를 평가하는 새로운 접근법을 제안하였다.

In 1990, Miller observed that there were no instruments to evaluate performance consistent with the top of the pyramid (Miller 1990). At the same time, scholars in the field of teacher education and teacher assessment were struggling with the same problem (Bird 1990). Here too, the key challenge was how to assess performance in real life settings. Shulman (1998) describes the Teacher Assessment Project that was set up with the purpose of exploring and developing new approaches to the evaluation of teaching in primary and secondary education.


예술과 건축학 분야에서의 포트폴리오라는 개념이 도입되기에 이르렀다.

As part of efforts to achieve fair judgement of teacher performance in a broad array of settings and situations, the portfolio concept was borrowed from the arts and architecture (Box 2).


의학교육분야에 포트폴리오는 1990년대에 도입되었고, 평가와 전문성 함양을 촉진하는 도구로서 사용되었다.

Since portfolios were introduced in medical education in the early 1990s (Royal College of General Practitioners 1993), their use as an instrument for both assessment and encouraging professional growth has increased enormously (Snadden et al. 1999; Friedman Ben David et al. 2001).



Portfolio goals, content and organisation

Portfolios as a multipurpose instrument


평가도구로서 포트폴리오 Portfolios for assessment. 


포트폴리오가 처음 교육분야에 도입되었을 때에는 건축학이나 예술 분야의 그것과 무척 흡사했다.

When portfolios were originally introduced in education as instruments for authentic assessment, they closely resembled the portfolios of architects and artists,


삼각측량의 원칙에 근거하여 역량에 대한 타당한 결론을 이끌어 내는데 필요한 모든 종류의 근거를 모으는 것이었다.

Building on the principle of triangulation (Denzin 1978; Denzin & Lincoln 2000) all kinds of evidence can be brought together in those portfolios that, in combination, give the possibility to draw valid conclusions about competence (Box 3).


그러나 교사 평가의 목적을 위한 포트폴리오에서 Bird가 발견한 것은 포트폴리오의 과정이 단순히 종이를 모으는 작업에 그치게 되기가 쉽다는 점이었다.

However, in one of the first explorations of portfolios for teacher assessment, Bird (1990) wrote that the portfolio procedures for assessment might easily degenerate into exercises in amassing paper.


"~한 것을 했다는 것을 보이시오"라는 것과 같은 지시사항은 수행능력에 대한 특정한 근거를 낼 것을 요구했다.

Instructions starting with ‘Show how you . . .’ might clarify for portfolio owners that they are asked to provide specific evidence about their performance.


Collins는 포트폴리오의 각 근거에 캡션(caption)을 달 것을 제안했다.

Collins (1991) suggested that captions should be attached to the evidence in the portfolio:


포트폴리오의 중요한 요소 중 하나는 캡션이다. 캡션이란, 각 서류에 그 서류가 무엇인지, 왜 근거로서 가치가 있는지를 설명해주기 위해 붙이는 작은 종이이다. 캡션은 포트폴리오 개발 과정에 필수적이며, 캡션이 없는 서류는 평가자에게 의미가 없다.

One essential component of the portfolio was the document caption. The caption is a little sheet attached to each document stating what the document is (. . .) and why it is valuable evidence. (. . .) Captions proved to be essential to the portfolio development process. Documents without captions were meaningless to the raters. p. 153)




학습을 위한 포트폴리오 Portfolios for learning


포트폴리오는 성인학습자의 학습을 촉진하고 반성적 학습을 하게 하는 수단이다. 그래픽아트 부분으로부터 도입된 포트폴리오는, 학습자의 학습이 '발생한' 근거를 수집하는 것에 기반한다.

Portfolio learning is a method of encouraging adult and reflective learning for professionals. Derived from the graphic arts it is based on developing a collection of evidence that learning has taken place. (p. 192)


연구자들은 포트폴리오 학습에 있어서 감독과 비판적 성찰의 중요성을 강조한다.

They emphasise the importance of supervision and critical reflection for portfolio learning:


학습자와 멘토의 상호작용을 통해 학습을 더욱 나아가게 하는 촉매제로서 작용할 때 가장 좋다. 포트폴리오가 단순한 보거나 경험한 사건의 모음집이어서는 안되며, 그 학습으로부터의 비판적 성찰을 한 내용을 담고 있어야 한다.

The system works well when it operates through the interaction of a learner and mentor using the material as a catalyst to guide further learning. It is essential that the portfolio does not become a mere collection of events seen or experienced, but contains critical reflections on these and the learning that has been made from them. p. 192)



성찰을 촉진하는 도구로서의 포트폴리오 A portfolio can also stimulate reflection


많은 경우에 포트폴리오는 긴 시간동안 축적된다.

In many cases, portfolios are assembled over a longer period of time.


한 가지 방법은 포트폴리오에 학습활동과 성취내역 뿐만 아니라 학습목표를 포함시키는 것이다.

One way to do so is to include learning objectives in the portfolio as well as a document trail of related learning activities and accomplishments (Mathers et al. 1999; Oermann 2002).


학습자로 하여금 성찰을 유도하고 발전에 대해 논하게 하려는 목적을 가진 포트폴리오는 학습자의 성찰을 중심으로 작성되어야 한다.

Portfolios whose primary objective is to foster learning by stimulating learners to reflect on and discuss their development will be organised around learners’ reflections.




다양한 목적의 도구 A multipurpose instrument 1. 


포트폴리오의 활용 범위와 적용 범위가 넓어졌다.

Inevitably, these developments have widened the applicability of the label portfolio to a broad range of instruments.


이제 중요한 질문은 특정 포트폴리오가 처음 의도한 목적에 맞는가이다.

The question to be answered is whether a certain portfolio is fit for its intended purpose


특정한 교육적 세팅에 맞춰져서 제작된 포트폴리오는 다른 교육 설정에서는 잘 들어맞지 않을 수 있다. 그리고 잘 맞지 않는 포트폴리오는 언젠가는 반드시 버려지게 된다.

portfolios tailored to particular one educational setting may not fit into the educational configuration(s) of other settings (Spandel 1997). An ill-fitting portfolio will inevitably be discarded sooner or later


명백히, 포트폴리오는 한 가지 이상의 목표를 달성하기 위해 사용될 수 있다.

Obviously, a portfolio can be used to achieve more than one goal.


현실에서는 대부분의 포트폴리오는 삼각형의 어느 한 꼭지점에만 위치해있지 않다. 교육 포트폴리오에서 논쟁이 되는 한 가지 이슈는 하나의 포트폴리오와 평가와 성찰이라는 두 가지 목적을 모두 달성할 수 있느냐이다. 이 Dual Function에 반대하는 논리로는, 평가가 효과적인 멘토링에 꼭 필요한 성찰의 질을 저하시킨다는 점이다. 

In practice, the majority of portfolios are not situated in one of the corners of the triangle (Buckley et al. 2009). A controversial issue in the literature on educational portfolios is whether it is acceptable to have one portfolio for both assessment and reflection (Snyder et al. 1998). An argument against this dual function is that assessment may jeopardise the quality of reflection thereby detracting from the portfolio’s effectiveness for mentoring purposes.


반면, 포트폴리오를 평가하지 않을 경우 학습자가 거기에 투자한 시간과 에너지에 대한 보상을 하지 않는 꼴이 된다.

Portfolios that are not assessed, on the other hand, do not ‘reward’ learners for the time and energy they invest in them.


효과적인 포트폴리오는 확실하면서도 유연한 구조를 가지고 있으면서, 개개의 학습자에게 각자만의 발달을 묘사할 기회를 주는 것이어야 한다. 명확한 지침은 중요하지만, 포트폴리오의 내용을 세부적으로 다룰 때에 포트폴리오는 매우 관료적인 도구가 된다. 포트폴리오는 학습자가 포트폴리오의 내용에 대하여 일정한 자유가 있을 때 더욱 강력하다.

An effective portfolio has a clear but flexible structure, giving individual learners’ opportunities to describe their own unique development (Pearson & Heywood 2004; Driessen et al. 2005b; Grant et al. 2007). Clear instructions are important, but when the content of a portfolio is prescribed in detail, portfolios are often experienced as highly bureaucratic instruments (Davis et al. 2001; O’Sullivan et al. 2004; Pearson & Heywood 2004; Kjaer et al. 2006). Portfolios meet with stronger appreciation when learners have a certain amount of freedom to determine the content of their own portfolios (Snadden & Thomas 1998a; Driessen et al. 2005b).



전자 포트폴리오 Electronic portfolios


하이퍼링크.

In e-portfolios, hyperlinks can be inserted to make connections between evidence, overviews and reflections.


종이 포트폴리오는 부피가 크다. 또한 단 한 부밖에 없다는 단점도 있다.

A paper-based portfolio can be cumbersome because of its bulk. Imagine an assessor who needs to take 15 paper portfolios home! Furthermore, there is generally only one copy of a paper portfolio.


스크린으로 보고 읽는데 익숙하지 않은 멘토는 결국 인쇄하게 된다.

Mentors who do not like to read a portfolio on screen will still have to print it. In most systems it is not possible to make notes on the portfolio itself


관련 소프트웨어와 하드웨어 사용에 익숙한 사람에게만 쓸 수 있다.

E-portfolios can only be used by learners and teachers who are sufficiently skilled in using the relevant software and hardware


안정적이고 높은 수준의 정보기술이 필요하다.

An e-portfolio requires a stable and high quality information technology infrastructure that is not always available


여러가지의 사용자 친화적인 포트폴리오 시스템이 있다.

Nowadays, many dedicated portfolio systems are available, which are usually user-friendly (Dornan et al. 2002; www.eportfolioservice.nl).


워드프로세서나 HTML에디터를 사용할 수도 있다.

Apart from dedicated systems, learners can produce an e-portfolio using standard word-processors or HTML editors, preferably ones that they and their teachers are familiar with(Gibson & Barrett 2003).


많은 포트폴리오 시스템이 갖는 한계는 한 가지 또는 두 가지의 포트폴리오 타입만 제공한다는 것이다.

Another reason is that many portfolio systems are limited because they are built to accommodate no more than one or two portfolio types.


종합하면, 표준 소프트웨어 툴은 인터넷으로 접속하기 한계가 있고, 직무기반 평가도구로서 한계가 있으나 학습자가 만들고자 하는 포트폴리오를 만들 수 있게 해주며 보기에 좋다.

In summary, standard software tools have disadvantages from the perspective of managing access to the portfolio using the internet or to include work based assessment instruments, but they usually provide all the options learners need to produce a portfolio that works well and looks great.


많은 멘토들은 웹기반 포트폴리오의 사용이 편해서 더 좋아한다.

but mentors were also unanimous in their appreciation of the greater ease of use of web-based portfolios compared to the more familiar paper-based ones.




포트폴리오와 경험으로부터의 학습 Portfolios and learning from experience


경험으로부터 학습하는데 있어서 멘토의 역할은 중요하다.

Research shows that the role of the mentor is crucial to the successful use of portfolios aimed at learning from experience (Finlay et al. 1998; Snadden & Thomas 1998a; Mathers et al. 1999; Pearson & Heywood 2004; Driessen et al. 2005b; Grant et al. 2007).



이론적 근거 Theoretical background


구성주의에 기반한 최근의 학습에 대한 관점에서, 사람들은 기존에 알고 있는 것, 믿고 있는 것으로부터 새로운 지식과 이해를 '구성'해낸다.

The contemporary view of learning, based on constructivism, is that people ‘construct’ new knowledge and understanding based on what they already know and believe (Bransford et al. 2000).


한 사람의 행동을 바꾸는 것은 그 사람의 현실에 대한 인식이다.

It is this personal perception of reality that guides a person’s actions.


성찰은 '인식 구조를 바꾸는 것'과 관련해서 이러한 프레임워크에서 중요한 개념이다. 성찰과 같은 메타인지(meta-cognitive)기술이 새로운 세팅이나 사건으로부터 배운 것을 전이(transfer)하는데 도움이 된다는 것을 밝혔다.

Reflection is an important concept in this framework, which relates to changing cognitive structures. Research has shown that meta-cognitive skills, such as reflection, increase the degree to which learners transfer what they have learned to new settings and events (Bransford et al. 2000).


성찰에 대해서 연구한 사람들은, 구성주의적 관점을 공유하는데, 그것은 진화하고, 변하고, 경험에 반응하는 정신구조(mental structure)에 의해서 행동이 변한다는 것이다.

all authors writing about reflection share the constructivist view that human behaviour is guided by mental structures that are not static but flexible, evolving and changing in response to experiences.


짧게 줄이면, 성찰이란 것은 자신의 경험에 대한 이해를 더 살피고 더 면밀히 검토하는 것이다. 성찰에는 세 가지 종류가 있는데 

한 가지는 특정 목적을 달성하기 위한 means에 대한 것이고, 

두 번째는 means뿐만 아니라 goals에 대한 것이며, 

세 번째는 critical reflection이다. 

In short, reflection means exploring and elaborating one’s understanding of an experience (Eva & Regehr 2008). Building on van Manen’s work (1977), Hatton and Smith (1995) distinguish three types or levels of reflection. The first type is concerned with the means to achieve certain ends. The second type is not only about means, but also about goals, the assumptions upon which they are based, and the actual outcomes. The third typeof refection is referred to as critical reflection


이 세 가지의 성찰은 위계가 있는 것이 아니며, 다양한 맥락과 상황에서 한 종류에서 다른 종류로 옮겨가는 것이다.

Hatton and Smith (1995) emphasise that these three types of reflection should not be viewed as hierarchical. Different (educational) contexts and situations may lend themselves more to one kind of reflection than to another.










성찰과 전문가적 성장Reflection and professional development


경험함으로써 학습하고자 하는 사람을 돕고자 할 때, medical teacher에게 중요한 것은 '어떻게 학습자들로 하여금 경험을 성찰하고 그것으로부터 배울 수 있게 할 수 있을까?'이다. 이 guide에서는 한 가지를 더하려고 하는데, 바로 '어떻게 포트폴리오를 통해 성찰의 질을 높일 수 있을까?'이다. 

For medical teachers who want to help learners learn from practice, the key question to answer is: ‘How can I stimulate my learners to reflect on their experiences and learn from them?’ For this AMEE guide the additional question is ‘. . . and how can a portfolio help to improve the quality of reflection?’


ALACT 모델을 제시했다.

Korthagen designed the Action, Looking back, Awareness, Creating alternative methods and Trial (ALACT) model (Figure 3) to describe the spiralling process that effective learners go through when faced with a situation for which no routine solution is available (Korthagen et al. 2001).


  • Action. The cycle starts with action undertaken for a specific purpose
  • Looking back on action: Self directed assessment seeking
    • ALACT 사이클은 학습자가 지난 행동, 특히 그것이 성공적이지 못했거나 기대하지 않은 일이 일어날 경우 그 단계에 초점을 둔다. 
      The ALACT cycle then moves to the stage where learners look back on a previous action, usually when that action was not successful or something unexpected happened
    • 자기평가는 일반적으로 좋지 못하며(poor), 그 대신 self-directed assessment seeking을 대안으로 제시한다.
      Eva and Regehr (2008) write that most 
      of the time self-assessment is conceptualised according to a guess your grade’ model of which the quality is generally poor (Davis et al. 2006). As an alternative they propose self-directed assessment seeking, which they describe as a process by which a learner takes personal responsibility for looking outward, explicitly seeking feedback and information from external sources of assessment data, to direct performance improvements that can help them to validate their self-assessment.
    • In Box 4, we give suggestions for a number of strategies to be used by medical teachers in this phase, derived from the work by Korthagen et al. (2002).
  • Awareness of essential aspects: Reflection. 
    • 수행의 질과 상황의 특징에 대한 결론을 이끌어내었다면, 그 다음은 필수적 측면에 대한 awareness를 높이는 것이다. 이 단계에서 학습자들은 벌어진 일에 대한 새롭고 더 나은 이해를 발전시키게 된다.
      After conclusions 
      have been drawn about the quality of performance and the characteristics of the situation, the next step in the ALACT model is to foster awareness of essential aspects. In this phase, learners try to develop a new and better understanding of what has happened, i.e. they reflect on their performance.
    • 멘토는 반드시 모든 정답을 알 필요는 없다. 중요한 것은 옳은 질문을 던지는 것이다.
      Teaching strategies – To stimulate learners to reflect and learn 
      from their experiences, mentors do not need to have all the right answers. The most important thing for them is to ask the right questions


  • Creating or identifying alternative methods of action: Change
    • 새로운 목표와 다른 전략을 해석해내는 것이 중요하다.
      It is 
      important to explicate (new) goals and alternative strategies.
    • 구체적인 목표를 정해주는 멘토와 학습한 경우 멘토와 같이 하지 않은 경우에 비해서 더 많이 향상된다.
      Learners who work with a mentor set more 
      specific goals and improve more than those who do not work with a mentor (Smither et al. 2003).
  • Trial. The last step in the ALACT cycle is trial. This is also the start of a new cycle in the spiral of professional development in this model.










Using portfolios as tools for assessment


Snadden과 같은 저자나 Webb 등과 같은 저자들은 standardized psychometric assessment criteria에 non-standardized portfolio를 끼워맞춰서는 안된다고 주장한다. 그들은 포트폴리오평가는 기본적으로 다양한 질적 정보를 해석하는 일이므로, 평가 단계가 질적 연구 기법에 기반하여 이뤄져야 한다고 지적한다.

Authors like Snadden (1999) and Webb et al. (2003) all come to the conclusion that we should not try to fit non-standardised portfolios to standardised psychometric assessment criteria. They point out that portfolio assessment is primarily concerned with interpreting various forms of qualitative information and suggest that assessment procedures should be developed that are based on methods used in qualitative research.


. What is assessed?

. Why is this assessed?

. How is this assessed?

. Who assesses?

. When is this assessed?



What?


포트폴리오는 직무기반 평가에 적합하다. 다른 말로 하면, 밀러의 피라미드에서 Does 단계를 평가하는데 도움이 된다.

portfolios are particularly suited to work-based assessment. In other words, they have added value at the Does level of Miller’s pyramid (Miller 1990).


평가 단계에서 역량을 평가할 때 매우 세세하고 '~을 할 수 있다'로 점철된 긴 리스트와 overview를 제공하지만 평가를 하기에는 기반이 부족한 global description 사이의 균형을 잡는 것은 무척 중요하다.

In aligning competency descriptions with assessment procedures it is of the essence to strike the right balance between very concrete but also very detailed and long lists of ‘is able to’ statements, on the one hand, and very global descriptions providing an overview but too little to support assessment, on the other hand


두 가지를 복합한 좋은 방법은 scoring rubric을 사용하는 것이다.

A way to combine the best of both approaches is to use scoring rubrics. A scoring rubric is a global performance descriptor that lists the criteria for a competency and articulates a limited number of gradations of quality for each criterion.


각각의 학습자와 멘토에게 있어서 scoring rubric은 역량 개발을 위한 로드맵과 같은 것이며, 학습자의 현재 역량 수준을 진단해주고 향후 발전을 위한 방향을 제시해준다.

For learners and their mentors, scoring rubrics can be a roadmap for competence development. It can help them diagnose a learner’s current level of competence and point the way to further development.


Why?


선발, 진단, 증명

Assessing competencies can be done for three reasons: selection, diagnosis and certification.



How?


평가의 질은 어떤 과정으로 평가하느냐에 달려있다.

The quality of the assessment of competencies is crucially determined by the procedure that is used.


의학교육에서 Webb은 포트폴리오 평가가 질적정보와 관련되어 있기 때문에 질적 연구를 위해서 개발된 아이디어를 도입하였다. Guba와 Lincoln은 credibility와 dependability를 달성하기 위한 연구를 하였다.

In medical education, Webb et al. (2003) pointed out that portfolio assessment is primarily concerned with qualitative information and they introduced the idea to use routines developed for qualitative research. Guba and Lincolns’ (1989) strategies to achieve credibility and dependability of assessment can be translated to portfolio assessment (Webb et al. 2003; Tigelaar et al. 2005).


포트폴리오 뿐만 아니라 질적 연구와 관련한 주요 문제는 시간이 많이 든다는 점이다.

The major problem with qualitative research methods as well as with portfolio assessment is the required substantial time investment.



Who?


포트폴리오에 대한 연구에서 주로 나오는 것은 멘토와 평가자가 한 사람이 되면서 생기는 feasibility와 acceptability의 문제이다.

A problem that is much debated in the portfolio literature is the feasibility and acceptability of combining the roles of mentor and assessor into one person


이러한 이유에서, 대부분의 전문가는 멘토가 총괄평가에는 관여하지 않거나 평가위원회에 제안을 해서는 안된다고 한다. 하지만 일부는 'Support를 위한 평가와 High-stakes 의사결정을 위한 평가 사이의 긴장은 사라지지 않을 것'이라고 하면서 '그러한 긴장이 교사와 교육자들에 의해서 잘 다뤄지고 있다'라고 주장하기도 한다.

For this reason, the majority of the experts were of the opinion that mentors should not be involved in summative assessment nor make recommendations to an assessment committee. However, there was a minority who agreed with Snyder et al. (1998, p. 59), who wrote that ‘The tension between assessment for support and assessment for high stakes decision making will never disappear. Still, that tension is constructively dealt with daily by teacher educators throughout the nation’.



When?


선발, 진단평가, 증명

Selection / Diagnostic assessment / Certification



성공적인 포트폴리오 도입을 위한 요소들 Factors influencing the success of the introduction of a portfolio2


교육 변화에 대한 문헌들을 보면, 리더십 뿐만 아니라 사람들(교수, 학습자)의 마음을 얻는 것에 대한 내용이 있다. 

In the literature on educational change, winning the hearts and minds of the people involved, both teachers and learners, as well as the quality of leadership are identified as key factors for lasting educational improvement (Martin et al. 2003; Hargreaves & Fink 2004).


People


교사는 새로운 접근법에 대한 교육적 가치를 인식하면 지지적이 되고, 교육적 변화에 투자를 마다하지 않는다. 

Teachers are more likely to support and invest in educational changes if they acknowledge and subscribe to the educational value of the new learning approach, internalise and support the innovation, and are empowered to assume ownership of it.



Academic leadership


교사를 자극하여 학생 중심의 접근법을 도입하도록 하는데 성공한 교육리더들이 있다. 이들 리더의 특징은 교사들과 토론하고 협상한다는 것이다. Bland의 연구를 보면 리더십이 아래로부터 올라오고 또 올라와서 결국 교육과정 변화에 중요한 요소가 된다.

A group of educational leaders was identified who were successful in stimulating teachers to adopt a student focused approach to teaching. A characteristic of these educational leaders is that they discuss and negotiate these changes with the teachers. Similar findings are reported by Bland et al. (2000), who reviewed the available literature with the aim to identify a set of characteristics that are associated with successful curricular change in medical education. They write that leadership comes up again and again as critical to the success of curricular change.


Infrastructure


An increasing number of Faculties of Medicine are choosing to work with electronic rather than paper portfolios. In the section ‘e-portfolios’, we described the reasons for this choice




Concluding remarks


포트폴리오를 성공적으로 도입하기 위해서는 않은 조건들이 달성되어야 한다. 그리고 설령 그렇다고 하더라도, 포트폴리오가 모든 문제를 해결해주지는 못한다.

The literature shows that many conditions need to be fulfilled to enable successful introduction of a portfolio (Driessen et al. 2007b), and even then a portfolio is not a cure for all pains.


포트폴리오를 도입하는 것은 신발을 사는 것과 같다. 가장 좋은 선택은 목적이 무엇인지에 달려 있으며, 신발이 잘 맞기까지는 많은 시간이 걸린다.

introducing portfolios is just like buying shoes: the best choice depends on purpose and a really good fit happens over time, with lots of use and the right give and take by the user ’. (p. 573)





 2009 Sep;31(9):790-801.

Portfolios for assessment and learning: AMEE Guide no. 45.

Abstract

In 1990, Miller wrote that no tools were available for assessment of what a learner does when functioning independently at the clinical workplace (Miller 1990 ). Since then portfolios have filled this gap and found their way into medical education, not only as tools for assessment of performance in the workplace, but also as tools to stimulate learning from experience. We give an overview of the content and structure of various types of portfolios, describe the potential of electronic portfolios, present techniques and strategies for using portfolios as tools for stimulating learning and for assessment, and discuss factors that influence the success of the introduction. We conclude that portfolios have a lot of potential but that their introduction also often leads to disappointment, because they require a new perspective on education from mentors and learners and a significant investment of time and energy.



성격 유형이 임상수행능력시험 결과에 미치는 영향

동국대학교의료원 1내과학교실, 2소아청소년과학교실

신성준1, 김경수1, 이동석2




서론


Myers-Briggs Type Indicator (MBTI)는 전세계적으로 잘 알려져 있으며, 또한 흔히 이용되는 성격유형검사 방법으로 교육, 심리 치료 및 조직 계발 등 다양한 분야에서 이를 사용하고 있다[1].


내향형과 외향형의 구분은 정신적 방향성, 즉 에너지의 근본적 원천이 외부에서 또는 내부에서 비롯되는지에 따른 것으로 내향적인 사람은 내적 세계 및 관념적 사고를 지향하여 내면세계에서 에너지를 얻는 반면, 외향적인 사람은 행동지향적으로 외적 세계에서 에너지를 얻는다. 정신과정(mental processes) 관점에서 보면, 어떻게 인식하는지에 따라 직관형과 감각형으로 나눌 수 있으며, 어떻게 판단을 내리는 지에 따라서는 감각형 및 사고형으로 나눌 수 있다


표적인 방법으로 객관구조화진료시험(objective structured clinical examination, OSCE)임상수행시험(clinical performance examination, CPX)을 들 수 있다. OSCE는 병력 청취, 신체진찰, 정보통합이나 의사소통능력 등에 대한 평가 등을 통해 학습자의 지식, 태도 수기 등을 동시에 측정한다[2]. 이에 반해 CPX는 OSCE와 비슷한 측면이 많지만, OSCE가 술기를 강조하는 데에 반해, CPX는 표준화 환자를 대상으로 실제와 유사한 임상상황에서 이루어진다는 특징이 있으며, 학생들의 진료 능력에 대한 다양한 평가가 이루어진다.


성격유형은 학생들이 자신의 학습과정에 있어 직접 선택하고 자율성을 부여함과 같은 동기 부여[5] 및 면접기술[6] 등과 같은 부분에도 영향을 미친다.


특히 국내에서 발표된 고학년 의과대학생을 대상으로 한 연구에서 학업만족도에 있어 외향형인 경우가 내향형보다 높은 만족도를 나타냈고, 이해 양식 및 생활 양식에 있어 판단형인 경우 학업만족도가 인식형에 비해 유의하게 높았다. 학업성취도에 있어서는 판단과 결정에 있어 사고형 학생이 감정형 학생보다 높았다[7].


이 외에도 성격유형은 의과대학생의 의학관련 전문분야에 대한 관심 정도와도 관련이 있다[9,10].


개개인의 특성 차이는 학생들의 술기에 영향을 줄 수 있다는 연구 결과도 발표된 바 있다[11]. 이 외에도 대학생을 대상으로 시행된 MBTI에서 각 유형에 따라 삶에 대한 만족도, 자신감 및 정신적 안녕감에 있어 차이가 있다는 연구도 있다[12].


결과

2. 성격유형에 따른 임상수행술기시험 결과


임상수행술기시험과 성격유형과의 관계에 있어, 첫 OSCE 시험에서는 외향형, 판단형 및 감각-판단형에서 상대 유형에 비해 유의하게 높은 점수를 보였다(Table 3).러나, 이러한 차이는 2차 시험에서는 나타나지 않았다. 1차와 2차 OSCE 시험 성적을 비교하였을 때, 각각의 모든 성격유형에 있어 모두 2차 시험에서 유의한 향상을 보였다.


CPX에 있어서는 시험 평가자에 따라, 즉 평가가 교수에 의한 경우와 모의환자가 한 경우에 있어 성격유형이 미치는 영향이 다르게 나타났다. 평가자가 교수인 경우 특정 성격유형에 따른 시험점수의 차이는 보이지 않았다. 그러나, 모의환자에 의한 평가에서는 외향형, 감각형, 그리고 판단형인 학생의 점수가 상대 유형에 비해 유의하게 높았다















The Effect of Personal Character on the Results of Clinical Performance Skill Tests
Sung Joon Shin,1 Kyung Soo Kim,1 and Dong Seok Lee2
1Department of Internal Medicine, Dongguk University Ilsan Hospital, Dongguk University College of Medicine, Goyang, Korea.
2Department of Pediatrics, Dongguk University Gyeongju Hospital, Dongguk University College of Medicine, Gyeongju, Korea.

Corresponding Author: Sung Joon Shin. Department of Internal Medicine, Dongguk University Ilsan Hospital, Dongguk University College of Medicine, 814 Siksa-dong, Ilsandong-gu, Goyang 410-773, Korea Tel: +82.31.961.7145 Fax: +82.31.961.7141, Email: shine@duih.org ,Email: shine5010@yahoo.co.kr 
Received October 25, 2010; Revised January 10, 2011; Accepted March 03, 2011.


Abstract

Purpose

Even though many studies have indicated that the personality of medical students affects learning style and academic achievement, the effect of personality types on the performance skill tests has not been well known in the medical field due to the rarity of published papers. Thus, the aim of this study was to reveal the effect of personal traits on clinical skill performance tests.

Methods

Fifty-seven fourth-grade medical students were enrolled in this study. They had all completed clinical performance tests. To assess personality types, we used the Korean version of the Myers-Briggs Type Indicator (MBTI).

Results

Fifty-five of 57 senior medical students responded completely to the MBTI questionnaire. The proportion of four paired MBTI dimensions was Introversion (I)-Extroversion (E) (67.3% vs. 32.7%), Sensing (S)-Intuition (I) (76.4% vs. 23.6%), Thinking (T)-Feeling (F) (61.8% vs. 38.2%), and Judging (J)-Perception (P) (56.4% vs. 43.6%). The dominant personality types were ISTJ (23.6%), ESTJ (14.5%), and ISTP (10.9%). The first objective structured clinical examination (OSCE) test showed higher scores in Extraversion, Judging, and Sensing-Judging types compared to the counterparts (p<0.05), but this effect was not observed in the second OSCE test. On the clinical performance examination, Extraversion, Sensing, and Judging types had a higher score, as measured by standardized patients.

Conclusion

Specific personal traits affect the test scores of the clinical performance skill examinations. So, personality measurement might be a useful tool for understanding a student who has difficulty in performance tests. We hope this study will give valuable information to examiners when they instruct and counsel students about clinical performance tests.

Keywords: PersonalityClinical competenceMedical students.













Practical Guide for Medical Teachers

(http://books.google.co.kr/books/about/A_Practical_Guide_for_Medical_Teachers.html?id=aHtak7JzTAQC&redir_esc=y)

A Practical Guide for Medical Teachers

앞표지
Elsevier Health Sciences2009. 6. 23. - 452페이지
This Third Edition of the highly-praised Practical Guide for Medical Teachers continues to provide a bridge between theoretical aspects of medical education and the practical delivery of enthusiastic teaching. As in its previous editions it will act as an invaluable aid to clinicians as well as other healthcare teachers in their understanding of contemporary educational principles, providing practical help in the delivery of the variety of teaching situations which characterise present day curricula. Key concepts and tips are presented in a digestible form and in a way which indicates both their immediate relevance and practical implications.
  • The textbook covers a topical subject in a concise format
  • A highly practical text including useful "Tips" throughout
  • Highly referenced with questions to interest the reader and back-up advice given
  • Contributed by an international team of authors, including many of the leading names in medical educational development worldwide.
  • A new text design, continuing to use an attractive two colour presentation throughout.
  • New chapters on clinical learning in the early years; the early years of postgraduate training; preparation for general practice and the educational environment.
  • Other new chapters discuss learning in rural and remote locations; learning with simulated patients; the role of mentoring; giving feedback; and the new concept of mobile learning (M-learning).
  • A final new chapter on professionalism
  • Up to fifteen new contributors from a wide range of countries and health professions thus providing an international perspective and presenting a multi-professional approach to all topics of interest to medical teachers.

목차





자동화 과정으로 제작된 의학 다지선다형 문항의 질 평가

Evaluating the quality of medical multiple-choice items created with automated processes

Mark J Gierl1 & Hollis Lai2



목적 : 평가의 컴퓨터화로 인해 엄청난 수의 평가 문항들이 필요해졌다. 자동 문제 제작(Automatic item generation, AIG)은 새로운 문제를 빠르고 효과적으로 만들어 낼 수 있기 때문에 문항 개발에 도움을 줄 수 있다. 그러나 지금까지 자동화된 방법으로 만들어진 문항의 질에 대한 평가는 이루어지지 않았다. 


이 연구의 목적은 자동화 과정으로 만들어진 문항들이 의학분야 시험에 적절한 평가의 질을 담보해주는지를 알아보기 위한 것이다. 문제의 질에 대한 평가는 (1)AIG와 전통적 과정으로 만들어진 문항을 네 명의 의학 전문가 패널에 의해서 주관적으로 평가하게 하는 방법 (2)패널들에게 어떤 문제가 자동화 과정으로 만들어졌는지를 블라인드 테스트로 맞추게 하는 방법으로 이루어졌다. 


방법 : 세 가지 방법으로 각각 15개의 문항을 만들었다. 첫 번째로는 컨텐츠 전문가 그룹이 전통적인 방법(Traditional)으로, 두 번째로는 동일한 컨텐츠 전문가 그룹이 AIG 방식을 활용하여, 세 번째로는 새로운 컨텐츠 전문가 그룹이 전통적 방식으로 만들었다. 4명으로 이뤄진 의학전문가 패널은 이 45개의 문제를 평가하여, Traditional 또는 AIG 문제로 분류하였다.


결과 : 크게 세 개의 결과를 얻었다. 

(1)전통적 방식으로 만든 문항과 AIG방식으로 만들어진 문항 모두 다지선다형 문항의 질을 평가하는 8개의 지표 중에서 7개에서 대등한 점수를 받았다.

(2)AIG문항은 전통적 방식과 비교하여 보기의 질을 통해서 구분할 수 있다.

(3)네 명의 의학전문가들의 전반적인 예측정확도(predictive accuracy)는 42%였다.


결론 : 의학전문가들의 관점에서 AIG방법으로 제작된 문항들은, 대부분 전통적인 방법으로 만들어진 문항과 비교해서 거의 동등하였다. AIG방법으로 만들어진 문항에서 보기(distractor)들이 좀 덜 그럴듯하긴 했지만, 의학전문가들은 블라인드 테스트에서 AIG문항을 일관성 있게 가려내지 못했다.















 2013 Jul;47(7):726-33. doi: 10.1111/medu.12202.

Evaluating the quality of medical multiple-choice items created with automated processes.

Source

Centre for Research in Applied Measurement and Evaluation, Faculty of Education, University of Alberta, Edmonton, Alberta, Canada.

Abstract

OBJECTIVES:

Computerised assessment raises formidable challenges because it requires large numbers of test items. Automatic item generation (AIG) can help address this test development problem because it yields large numbers of new items both quickly and efficiently. To date, however, thequality of the items produced using a generative approach has not been evaluated. The purpose of this study was to determine whether automaticprocesses yield items that meet standards of quality that are appropriate for medical testing. Quality was evaluated firstly by subjecting items createdusing both AIG and traditional processes to rating by a four-member expert medical panel using indicators of multiple-choice item quality, and secondly by asking the panellists to identify which items were developed using AIG in a blind review.

METHODS:

Fifteen items from the domain of therapeutics were created in three different experimental test development conditions. The first 15 itemswere created by content specialists using traditional test development methods (Group 1 Traditional). The second 15 items were created by the same content specialists using AIG methods (Group 1 AIG). The third 15 items were created by a new group of content specialists using traditional methods (Group 2 Traditional). These 45 items were then evaluated for quality by a four-member panel of medical experts and were subsequently categorised as either Traditional or AIG items.

RESULTS:

Three outcomes were reported: (i) the items produced using traditional and AIG processes were comparable on seven of eight indicators of multiple-choice item quality; (ii) AIG items can be differentiated from Traditional items by the quality of their distractors, and (iii) the overall predictive accuracy of the four expert medical panellists was 42%.

CONCLUSIONS:

Items generated by AIG methods are, for the most part, equivalent to traditionally developed items from the perspective of expertmedical reviewers. While the AIG method produced comparatively fewer plausible distractors than the traditional method, medical experts cannot consistently distinguish AIG items from traditionally developed items in a blind review.

© 2013 John Wiley & Sons Ltd.





USMLE Step 1 시험에 한 번에 합격하지 못한 졸업생의 학업적,직업적 특성

Academic and professional career outcomes of medical school graduates who failed USMLE Step 1 on the first attempt

Leon McDougle • Brian E. Mavis • Donna B. Jeffe • Nicole K. Roberts • Kimberly Ephgrave • Heather L. Hageman • Monica L. Lypson • Lauree Thomas • Dorothy A. Andriole


이 연구는 USMLE Step 1을 한 번에 합격하지 못한 졸업생들의 학업적, 직업적 결과를 알아보기 위하여 수행되었다. 이 후향적 코호트 연구는 여섯개의 중서부 의과대학에서 1997~2002년 사이에 졸업한 2003명의 졸업생으로부터 데이터를 수집하였다. Step 1 시험을 한 번에 통과하지 못한 졸업생의 인구학적, 학접적, 직업적 특성을 한 번에 통과한 학생들과 비교하였다.


50명의 졸업생(2.5%)이 Step 1을 한 번에 통과하지 못했고, 한 번에 통과하지 못한 졸업생들이 더 높은 비율로 일차의료의가 되었으며, 덜 발전된 지역에서 의사를 하고 있었고, 졸업까지 5년 혹은 그 이상의 시간이 걸렸다. 


상대위험도(relative risk) 측면에서 African Americans는 13.4, Latino는 7.4, 22살 이상의 지원자(Matriculant)는 3.6, 여성은 3.2, College graduate의 first generation은 2.3이었다. Step 1시험에 한번에 통과하지 못한 사람들이 전문의를 따지 못할 relative risk는 2.2였다. 


이러한 연구결과는 Step 1에서 떨어진 학생들을 찾아서 더 지원을 해 줄 필요가 있음을 보여준다.









 2013 May;18(2):279-89. doi: 10.1007/s10459-012-9371-2. Epub 2012 Apr 7.

Academic and professional career outcomes of medical school graduates who failed USMLE Step 1 on the firstattempt.

Source

The Ohio State University College of Medicine, Meiling Hall, Room 066, 370 West 9th Avenue, Columbus, OH 43210, USA. Leon.McDougle@osumc.edu

Abstract

This study sought to determine the academic and professional outcomes of medical school graduates who failed the United States Licensing Examination Step 1 on the first attempt. This retrospective cohort study was based on pooled data from 2,003 graduates of six Midwestern medicalschools in the classes of 1997-2002. Demographic, academic, and career characteristics of graduates who failed Step 1 on the first attempt were compared to graduates who initially passed. Fifty medical school graduates (2.5 %) initially failed Step 1. Compared to graduates who initially passedStep 1, a higher proportion of graduates who initially failed Step 1 became primary care physicians (26/49 [53 %] vs. 766/1,870 [40.9 %]), were more likely at graduation to report intent to practice in underserved areas (28/50 [56 %] vs. 419/1,939 [ 21.6 %]), and more likely to take 5 or more years to graduate (11/50 [22.0 %] vs. 79/1,953 [4.0 %]). The relative risk of first attempt Step 1 failure for medical school graduates was 13.4 for African Americans, 7.4 for Latinos, 3.6 for matriculants >22 years of age, 3.2 for women, and 2.3 for first generation college graduates. The relative risk of not being specialty board certified for those graduates who initially failed Step 1 was 2.2. Our observations regarding characteristics of graduates in our study cohort who initially failed Step 1 can inform efforts by medical schools to identify and assist students who are at particular risk of failing Step 1


USMLE 시험의 점수화 평가 vs Pass/Fail평가 : 의과대학 학생들과 레지던트는 무엇을, 왜 원하는가?

Numerical Versus Pass/Fail Scoring on the USMLE: What Do Medical Students and Residents Want and Why?


Catherine E. Lewis, MD, Jonathan R. Hiatt, MD, LuAnn Wilkerson, EdD, Areti Tillou, MD, Neil H. Parker, MD, O. Joe Hines, MD


배경 

USMLE시험의 일차 목적은 면허발급을 위한 평가이지만, USMLE점수는 종종 다른 목적으로도 사용되며, 그 중 하나가 레지던트 선발이다. USMLE프로그램 평가를 위한 위원회는 현재 몇 가지 큰 변화를 고려중에 있고, 그 중 하나가 Pass/Fail system으로의 변화이다.


모델

3학년과 4학년 의과대학 학생과 레지던트를 대상으로 USMLE의 Pass/Fail system에 대하여 설문하였다.


결과

응답률은 59%였다. 26%의 응답자만이 Step 1 시험이 Pass/Fail로 바뀌는 것에 동의하였고, Step 2 시험에 대해서는 38%가 동의하였다. Step1 시험을 Pass/Fail이 아닌 점수화하여 평가하는 것에 대해 동의하는 응답자들은 (1)시험을 통해 지식 수준을 정확히 측정할 수 있다고 생각했으며 (2) 점수가 240점 이상이었고 (3) Pass/Fail로 바뀔 경우 지식 습득이 줄어들 것이라 생각하였다.

Step 2 CK에 대해서 점수화 평가를 선호하는 사람들은 (1) 시험을 준비하며 얻은 지식이 많다고 생각했고 (2) 240점 이상 받았으며 (3) Pass/Fail로 바뀌면 지식 습득이 줄어들 것이라 생각하였고 (4) 레지던트 지원시에 Step 2 CK점수가 중요하게 작용한다고 생각했다.


결론

학생과 레지던트들은 점수화 평가(numerical scoring)을 계속 하는 것을 더 선호했고, 그 이유로 그것이 레지던트 선발에 중요하고, 레지던트 지원시에 점수에 따라 advantage가 있으며, 의학지식을 복습하고 강화하는데 시험점수가 크게 작용하기 때문이라 생각하는 것으로 나타났다.









 2011 Mar;3(1):59-66. doi: 10.4300/JGME-D-10-00121.1.

Numerical Versus Pass/Fail Scoring on the USMLE: What Do Medical Students and Residents Want and Why?

Abstract

BACKGROUND:

Although the primary purpose of the US Medical Licensing Examination (USMLE) is assessment for licensure, USMLE scores often are used for other purposes, more prominently resident selection. The Committee to Evaluate the USMLE Program currently is considering a number of substantial changes, including conversion to pass/fail scoring.

METHODS:

A survey was administered to third-year (MS3) and fourth-year (MS4) medical students and residents at a single institution to evaluate opinions regarding pass/fail scoring on the USMLE.

RESULTS:

Response rate was 59% (n  =  732 of 1249). Reported score distribution for Step 1 was 30% for <220, 38% for 220-240, and 32% for >240, with no difference between MS3s, MS4s, and residents (P  =  .89). Score distribution for Step 2 Clinical Knowledge (CK) was similar. Only 26% of respondents agreed that Step 1 should be pass/fail; 38% agreed with pass/fail scoring for Step 2 CK. Numerical scoring on Step 1 was preferred by respondents who: (1) agreed that the examination gave an accurate estimate of knowledge (odds ratio [OR], 4.23; confidence interval [CI], 2.41-7.43; P < .001); (2) scored >240 (OR, 4.0; CI, 1.92-8.33; P < .001); and (3) felt that acquisition of knowledge might decrease if the examination werepass/fail (OR, 10.15; CI, 3.32-31.02; P < .001). For Step 2 CK, numerical scoring was preferred by respondents who: (1) believed they gained a large amount of knowledge preparing for the examination (OR, 2.63; CI, 1.52-4.76; P < .001); (2) scored >240 (OR, 4.76; CI, 2.86-8.33; P < .001); (3) felt that the amount of knowledge acquired might decrease if it were pass/fail (OR, 28.16; CI, 7.31-108.43; P < .001); and (4) believed their Step 2 CK score was important when applying for residency (OR, 2.37; CI, 1.47-3.84; P < .001).

CONCLUSIONS:

Students and residents prefer the ongoing use of numerical scoring because they believe that scores are important in residency selection, that residency applicants are advantaged by examination scores, and that scores provide an important impetus to review and solidifymedical knowledge.






NBME점수와 USMLE Step 1, Step2 점수와의 상관관계

Correlation of National Board of Medical Examiners Scores with United States Medical Licensing Examination Step 1 and Step 2 Scores


Christopher M. Zahn, MD, Aaron Saguil MD, MPH, Anthony R. Artino Jr, PhD, Ting Dong, PhD, Gerald Ming, Jessica T. Servey, MD, Erin Balog, MD, Matthew Goldenberg, MD, and Steven J. Durning, MD, PhD


목적 : 여섯 개의 Clerkship에 대한 NBME Subject Examination에서 성적이 USMLE Steps1 과 2 CK 시험 점수와 상관관계가 있는지를 살펴보았다. 또한 의과대학 학생들의 전임상(preclinical), 임상(clinical) 성적, subject exam, USMLE performance와 상관관계가 있는가도 살펴보았다.


방법 : 2008년부터 2010년에 졸업한 507명의 학생을 대상으로 하였다. Stepwise linear regression에 이은 Pearson correlation을 통해 USMLE Steps 1과 2CK 점수의 분산이 subject exam점수과 GPA에 의해서 설명이 되는가를 보았다.


결과 : 484명의 데이터가 분석에 사용되었다. USMLE Steps1 과 2CK 점수는 모든 subject exam점수와 GPA 점수에 대해 중등도~고도의 양의 상관관계를 보였다. subject exam score와 Step1, Step2CK의 상관계수는 각각 0.69와 0.77이었다. 회귀분석을 통해서 GPA가 Step1과 Step2 CK 점수 분산의 62%와 61%를 설명할 수 있음이 나타났다. 


결론 :  중등도~고도 상관관계는 subject exam 점수가 USMLE performance와 관련이 있음을 보여준다. 또한 USMLE점수의 분산의 상당부분이 primary care NBME점수에 대해서 설명가능한데, 이는 primary care와 관련된 주제들이 모든 임상실습(clerkship)에 걸쳐서 강조되고 있으며, USMLE, 특히 Step 2 CK 시험 내용의 상당부분을 차지하기 때문인 것으로 생각된다.








 2012 Oct;87(10):1348-54.

Correlation of National Board of Medical Examiners scores with United States Medical Licensing ExaminationStep 1 And Step 2 scores.

Source

Department of Obstetrics and Gynecology, Uniformed Services University of the Health Sciences, F. Edward Hébert School of Medicine, Bethesda, Maryland 20814-4799, USA. czahn@usuhs.mil

Abstract

PURPOSE:

Determine whether the National Board of Medical Examiners (NBME) Subject Examination performance from six clerkships correlated with United States Medical Licensing Examination (USMLE) Steps 1 and 2 Clinical Knowledge (CK) Examination scores. Also, examine correlations between medical students' preclinical and clinical year mean cumulative grade point average (GPA), subject exam, and USMLE performance.

METHOD:

The sample consisted of 507 students from the 2008-2010 graduating classes from the authors' medical school. Pearson correlations followed by stepwise linear regressions were used to investigate variance in USMLE Steps 1 and 2 CK scores explained by subject exam scores and GPA.

RESULTS:

Data from 484 (95.5%) students were included. USMLE Steps 1 and 2 CK scores had moderate-to-large positive correlations with all subject exam scores and with both GPA variables. Correlations between composite subject exam scores and USMLE Steps 1 and 2 CK exams were 0.69 and 0.77, respectively. Regression analysis demonstrated that subject exams and GPA accounted for substantial variance in Steps 1 and 2 CK exam scores (62% and 61%); when entered into the regression model first, primary care clerkship subject examination scores accounted for most of this variance.

CONCLUSIONS:

The moderate-to-large correlations between subject exam performance and USMLE scores provide reassurance that subject exam scores are associated with USMLE performance. Furthermore, the considerable variance in USMLE scores accounted for by primary care NBME scores may be due to primary care topics being reinforced through all clerkships and comprising a significant portion of the USMLE examinations, particularly Step 2 CK.




원인일까 결과일까? 의과대학 학생들의 학습환경에 대한 인식과 USMLE Step 1 성적과의 관계

Cause or effect? The relationship between student perception of the medical school learning environment and academic performance on USMLE Step 1


SHARON J. WAYNE, SALLY A. FORTNER, JUDITH A. KITZES, CRAIG TIMM & SUMMERS KALISHMAN University of New Mexico School of Medicine, USA


배경 : 학교의 학습환경이 학업 수행능력에 영향을 주는 것으로 알려져 있지만, 이러한 관계를 이전 학업능력(prior academic ability)을 통제하고서 확인한 연구는 별로 없다. 이전 학업능력이 좋았던 학생은 그렇지 못한 학생보다 학교의 환경에 대해서 더 우호적으로 평가하는 경향이 있기 때문에 중요하다.

목적 : Prior academic ability를 통제한 상태에서 학생의 학습환경에 대한 인식이 표준화된 면허시험에서의 수행능력에 미치는 영향을 평가하고자 했다.

방법 : 1학년의 267명 학생에 대해 학습 환경에대한 인식을 조사하고, 그 뒤로 약 6개월 뒤에 치뤄진 USMLE step 1 시험의 결과와 비교하였다. Prior academic performance는 선형회귀분석 모델에서 MCAT시험 점수와 학부 성적으로 통제하였다.

결과 : 학습환경에 대한 subscale 다섯 개 중 세 개가 Step 1 성적과 관련이 있었다. subscale의 점수가 한 단위 상승할수록 Step 1 시험에서 각각 6.8, 6.6, 4.8점 상승하였다

결론 : 학습 환경을 우호적으로 평가할수록 학업 성취가 좋아진다는 가정을 뒷받침한다.










 2013 May;35(5):376-80. doi: 10.3109/0142159X.2013.769678. Epub 2013 Feb 27.

Cause or effect? The relationship between student perception of the medical school learning environment andacademic performance on USMLE Step 1.

Source

Office of Program Evaluation, Education and Research, University of New Mexico School of Medicine, Albuquerque, NM 87131, USA. swayne@salud.unm.edu

Abstract

BACKGROUND:

school's learning environment is believed to influence academic performance yet few studies have evaluated this association controlling for prior academic ability, an important factor since students who do well in school tend to rate their school's environment more highly than students who are less academically strong.

AIM:

To evaluate the effect of student perception of the learning environment on their performance on a standardized licensing test while controlling for prior academic ability.

METHODS:

We measured perception of the learning environment after the first year of medical school in 267 students from five consecutive classes and related that measure to performance on United States Medical Licensing Examination (USMLEStep 1, taken approximately six months later. We controlled for prior academic performance by including Medical College Admission Test score and undergraduate grade point average in linear regression models.

RESULTS:

Three of the five learning environment subscales were statistically associated with Step 1 performance (p < 0.05): meaningful learningenvironment, emotional climate, and student-student interaction. A one-point increase in the rating of the subscales (scale of 1-4) was associated with increases of 6.8, 6.6, and 4.8 points on the Step 1 exam.

CONCLUSION:

Our findings provide some evidence for the widely held assumption that a positively perceived learning environment contributes to better academic performance.





(출처 : http://www.daveswhiteboard.com/archives/4398)




Barrows와 Abrahamson은 이미 1960년대부터 SP를 임상교육과 평가에 활용할 것을 제안했다. SP는 특정 환자의 사례를 묘사하는 동시에 학생의 수행능력을 정확하고 일관되게 평가하도록 훈련된 비의사(non-physician)연기자이다.

Barrows and Abrahamson (1964) proposed the standardized patient (SP) in the early 1960s as a tool for clinical skill instruction and assessment. The SP is a non-physician who has been trained not only to portray a specific patient case but also to accurately and consistently record student performance. 


SP의 활용은 지난 십년간 계속 증가하여, 최근의 보고를 보면 미국 의과대학의 75%가 SP를 술기 평가에 활용하고 있으며, 63%는 OSCE나 CPX시험에 활용하고 있다.

The use of SPs has increased, particularly over the past decade. A recent annual survey reported that 75% of U.S. medical schools are using SPs for evaluations in introductory skills courses, and 63% are using SPs in an objective structured clinical examination or the clinical performance examination (CPX) (Barzansky & Etzel 2003). 


SP가 일관되게 연기를 하고 평가를 하는 것은 굉장히 중요하다. 여기서는 반복적으로 일관되게 응시자의 역할을 하도록 훈련된 모의학생(simulated student)을 활용하여 서로 다른 SP들의 신뢰도(reliability)를 평가하고자 하였다.

The consistency of SP performance and rating is very important in SP assessments, particularly when several SPs have been trained to simulate a given case. We designed the concept of ‘simulated students’ who repeatedly and consistently performed the role of examinee to evaluate the utility of simulated students as a means to check the reliability of the rating of different SPs in a CPX.



Result

학생간 차이가 가장 큰 열 쌍의 SP-학생 pair에서 중앙값은 30점(26~38)이었으며,

같은 SP-학생 pair를 교수가 평가한 점수는 중앙값이 3점(0~7)이었다.







 2007 Nov;29(9):978-80.

Evaluation using simulated students for reliability of multiple standardized-patients scoring in clinical performance examinations.

Source

Office of Medical Education, Seoul National University College of Medicine, Republic of Korea.

Abstract

BACKGROUND:

The consistency of rating among different standardized patients (SPs) is very important in clinical performance examinations (CPX). Aims: We evaluated the usefulness of simulated students to assess the reliability of a group of standardized patients in a CPX.

METHODS:

Five SPs in each case were trained to simulate the same patient in a CPX. Ten fourth-year medical student volunteers were selected to act as simulated students. After the simulated students encountered the first SP, they reviewed a video of their performance and sequentially repeated the performance with the other 4 SPs.

RESULTS:

The average maximum difference (Deltamax +/- SD) of multiple SPs' percent scores on a simulated student was 18 +/- 7. In 10 pairs of SPs who gave largest Deltamax on a given student, the median Deltamax was 30 (range, 26-38) while median difference of percent score in the faculty scoring on the same simulated student was 3 (range, 0-7). Five problematic SPs whose ratings were significantly different from 3 or more other SPs' ratings in each case were identified.

CONCLUSIONS:

Simulated students may be a useful means to check the consistency of rating among different SPs in a CPX.




(출처 : http://www.temple.edu/ics/about/standardized.html)





지난 십년간 의료에 있어 가장 변화는 입원(inpatient) 중심에서 외래(ambulatory care) 중심으로 옮겨갔다는 것이다. 입원환자는 질병의 중증도가 더 심하고 특정 분과에 관련된 사례를 대표하는 경우가 많아 학생 교육에 있어서도 적절하지 않은 측면이 있다. 또한 환자들도 좀 더 외래 중심으로 진료를 받고 싶어한다. 

One of the most dramatic changes in healthcare during the past decade has been the shift of care from the inpatient to the ambulatory care setting. The changes in healthcare delivery mean that the inpatient setting is less than ideal for teaching undergraduate students (Irby 1995; Levinsky 1998). Since inpatients tend to be more representative of subspecialty conditions or be more critically ill, they become less representative of routine medical practice. Patients in hospital are more likely to be under acute active management than convalescing. As contemporary practice and patient expectations are in favor of a shorter hospital stay, more patients with common conditions are being treated as outpatients than as inpatients. These changes place the emphasis of clinical teaching on ambulatory care rather than the traditional inpatient setting (Fincher et al. 1997; Cardarelli & Sanders 2005; Dent 2005).


학부의학교육에서 환자와의 상호작용을 가르치는 것은 매우 중요하다. 그러기 위해서는 교육에 도움을 줄 환자가 필요한데, 가장 적합한 환자를 선택하는 것은 어려움이 많다.

Patient interactions have always been an integral part of undergraduate medical education. Patient interactions help students build integrated skills for history taking and communication, physical examinations, and clinical reasoning (Dammers et al. 2001; Littlewood et al. 2005; Dornan et al. 2006) However, to maximize educational efficiency, appropriate patient selection is essential. As described in a previous qualitative study, several key factors, such as, educational value, the doctor-patient relationship, and time efficiency should be considered to find ‘‘the best’’ patients for medical teaching (Simon et al. 2003). However, despite the importance of appropriate patient selection, this can be a difficult and time-consuming process in the ambulatory care setting. 


표준화환자를 활용할 경우 여러 이점이 많다. 표준화환자를 활용하여 외래 상황을 시뮬레이션하는 방식으로의 교육을 디자인하고 시도해보았다.

Barrows described several advantages of using standardized patients (SPs) as compared with real patients, including their availability, flexibility, and standardization (Barrows 1993). Other studies demonstrated that students regarded the standardization of the learning experience, a safe learning environment and the feedback offered by SP as important advantages (Bokken et al. 2008, 2009). Given that increasing proportion of care is delivered in ambulatory settings and access to real patients with educational value are limited, we describe the design, implementation, and evaluation of a simulated outpatient clinic using SPs.









 2010;32(11):e467-70. doi: 10.3109/0142159X.2010.507713.

The use of standardized patients to teach medical students clinical skills in ambulatory care settings.

Source

Seoul National University College of Medicine, Republic of Korea.

Abstract

BACKGROUND:

Ambulatory medicine is being increasingly emphasized in undergraduate medical education. Because of the limited availability of real patients, we introduced a standardized patient (SP) encounter program in an ambulatory care setting.

AIMS:

This study was undertaken to assess the usefulness of SPs for teaching undergraduate students clinical skills in ambulatory settings.

METHOD:

Third-year medical students met two different SPs, who presented common authentic problems, during internal medicine clerkship. Each SP encounter of 30 min was followed by SP and a tutor's feedback, using a video recording of the SP encounter. We surveyed students for program evaluation purposes at the end of their three-year internal medicine clerkships (from 2006 to 2008).

RESULTS:

Most students found that the consecutive SP sessions were instructive and helpful. Video recordings of clinical encounters allowedstudents to reflect on their behavior and receive feedback from tutors. However, students identified several weaknesses of these SP encounters. For example, pre-exposure to the SP scenario reduced tension of the experience and inconsistent feedback from tutors caused confusion.

CONCLUSIONS:

SP encounters in an ambulatory care setting, followed by tutor's feedback based on a video recording, can be used for teachingbasic clinical ambulatory care skills.












(site : http://chicagomedicaltrainingcenter.org/usmle/usmle-step-2-cs/)



시험에 드는 비용과 그 투자 수익률(ROI)을 고려하면 USMLE step 2 CS는 그 존재 가치가 낮고, 

따라서 없애는 것이 나을 수도 있다.


98%의 미국과 캐나다 응시자가 USMLE step 2 clinical skills (CS) 시험을 첫 번째 응시에 통과한다. 

또한 한 번 떨어진 사람들 중에서도 91%는 두 번째 응시에 합격한다. 

따라서 두 번 이상 떨어지는 사람은 1000명중 1.8명에 불과하다.


한 해에 17852명의 응시자가 있다고 할 때, 

두 번째 시험에서도 떨어지는 응시자는 그 중 단 32명 뿐이다. 

응시자 중 아무도 응시료를 내기 위한 대출을 받지 않는다고 하더라도, 

한 명의 '재수 실패자(double failure)'를 골라내기 위해서 드는 비용은 635,977달러에 달한다.



비슷한 논리로, "그러면 모든 USMLE 시험이 다 필요없는 것 아니냐" 하는 사람도 있지만, 

USMLE Step 2 CS만이 Pass/Fail로 결정된다. 나머지 시험은 정량적 결과를 제공한다.


또한 "모든 사람이 응시료를 내기 위해 대출을 받는 것은 아니지 않느냐" 라고 할 수도 있지만, 

여전히 이 시험을 보기 위해 돈을 내는 것에 대한 '기회비용'이 존재한다. 

돈이 자기 주머니에서 나가든, 대출을 해서 내든 근본적 차이는 없다.


미국이나 캐나다 의과대학을 졸업한 학생은 98%가 첫 번째 응시에서 이 시험을 통과하나, 

그 외의 외국 의과대학을 졸업한 학생은 79%만이 통과한다. 

따라서 이 시험이 미국이나 캐나다 외의 외국 대학 졸업 학생을 대상으로 해서는 의미가 있을 수 있다.






Efforts to minimize the regulatory and administrative burden in U.S. health care have never been greater.


One regulatory domain that deserves greater scrutiny in this context is medical licensure


For example, the National Board of Medical Examiners (NBME) and the Federation of State Medical Boards (FSMB) mandate the purchase of four licensing products by medical students and resident physicians over the course of their training.


This three-step series of examinations is known as the United States Medical Licensing Examination (USMLE) and is jointly administered by the NBME and FSMB.


Given the pass rates among examinees and the exam’s cost, we believe that Step 2 CS provides a poor return on investment and little appreciable value to the U.S. health care system — and should therefore be eliminated.




Under the assumption that the average physician takes 15 years to pay off medical student debt, compounded interest would increase the aggregate annual cost of the Step 2 CS to $56.4 million.


If that were the case, given a standard inflation discount rate of 3%, the 15-year cost of the exam would be $36.2 million annually in 2012 dollars.

 

Ninety-eight percent of U.S. and Canadian examinees pass Step 2 CS on their first attempt.Examinees who must repeat the exam have a 91% pass rate, so the fraction of test takers who fail more than once is 1.8 in 1000.


Of 17,852 examinees taking the exam in a given year, we predict that only 32 per year would not pass the exam on a repeat attempt. Even if no examinee had to use a loan to pay for the exam, the cost of identifying a single “double failure” would be $635,977;


Some might interpret this analysis as suggesting that all written licensing exams should be eliminated, since all USMLE exams have relatively high initial pass rates (94% or higher for all M.D. candidates from U.S. or Canadian medical schools).1 However, in contrast with Step 2 CS — which is ultimately graded on a pass or fail basis — the remaining USMLE examinations externally report quantitative data on examinees’ performance relative to their peers.


Others may question the assumptions behind our calculations, noting that not every examinee borrows money to pay for

the test. Although this is a fair critique, the fact remains that money spent on the exam is no longer available to the examinee and so represents an opportunity cost of taking the Step 2 CS exam. This opportunity cost exists whether the exam is paid for out of pocket or with loans and serves as the rationale for compounding of interest.


One purpose of licensing exams is to identify insufficiently trained examinees in order to prevent them from practicing medicine, at least until appropriate remediation is undertaken. Step 2 CS has the potential to achieve this objective by identifying examinees who have difficulty communicating with patients, because English-language proficiency is one of the three skills tested.3 Indeed, the pass rates of examinees from North American medical schools are markedly different from those of examinees from international medical schools: 98% of U.S. and Canadian examinees have passed on their first attempt, whereas only 79% of those who attended medical schools outside the United States or Canada have done

so.1 


To paraphrase a quip often attributed to Everett Dirksen: a million here, a million there — pretty soon, you’re talking real money.




 2013 Mar 7;368(10):889-91. doi: 10.1056/NEJMp1213760.

The Step 2 Clinical Skills exam--a poor value proposition.

Source

Department of Internal Medicine, Duke University School of Medicine, Durham, NC, USA.




(출처 : http://visual.ly/self-assessment-2011)








자기평가(self assessment)와 자기주도학습은 의료 전문직의 핵심이라고 할 수 있으며, 이는 환자에게 행해지는 의료의 질과 곧바로 연결된다. 미국의 의사들은 대부분의 전공과별 위원회에서 지침(rubric)으로 정해놓은 것에 따라 CME에 참여함하여 평생학습을 해야 하고, CME학점을 이수해야 한다. 

SELF-ASSESSMENT AND SELF-directed, lifelong learning have long been mainstays of the medical profession—they are activities presumed to be linked closely to the quality of care provided to patients.1 Physicians in the United States must demonstrate their engagement in lifelong learning by choosing and participating in continuing medical education (CME) activities2 and acquiring CME credit, which is mandated by the majority of state medical boards under the rubric of states’ medical practice acts.3


American Board of Medical Specialties에서는 자기평가와 평생학습(lifelong learning)을 자격증을 유지하기 위한 4가지 요소 중 하나로서 명시하고 있다. 더 나아가 미국 내과 위원회(American Board of Internal Medicine)에서는 자격의 갱신(recertify)를 위해서 의사 스스로 자기자신에 대한 평가를 할 수 있는 능력을 필요로 하는 지속적 전문성 개발(continuous professional development)를 요구하고 있다. 또한 미국, 캐나다, 그리고 다른 여러 나라에서 졸업후교육(GME)의 기본은 진료기반학습(practice based learning)과 자기평가를 기반으로 한 향상이다.

Self-assessment and lifelong learning were adopted by the American Board of Medical Specialties explicitly as 1 of 4 elements in its Maintenance of Certification program.5 Furthermore, diplomates of the American Board of Internal Medicine who choose to recertify recertification, a process focused on continuous professional development that requires the capacity of physicians to self-assess.6 In graduate medical education, the issue of practice-based learning and improvement based on self-assessment is a central tenet of professional development in Canada,7 the United States,8 and in other countries. 9


이 과정에 들어있는 요소들은 의사들이 스스로의 학습에 대한 필요를 판단하고 그에 맞는 학습자료를 찾가알 수 있는 능력에 달려 있다. 

Each of the elements in this chain—the emphasis on self-assessment, self-directed lifelong learning, the acquisition of CME credits and their use for medical relicensure, accreditation, and ongoing certification—is heavily dependent on the ability of physicians to determine their own learning needs and find resources to meet them

the emphasis on self-assessment, 

=> self-directed lifelong learning, 

=> the acquisition of CME credits and their use for medical relicensure, 

=> accreditation, 

=> and ongoing certification


자기평가라는 단어가 여러가지 종류의 활동을 포함하고 있지만, 이 논문에서는 자가 관리 시험보다는, 자기측정(self-rating, self-audit)과 임상 수행 능력에 대해 보고자 한다.

While the term self-assessment is used to describe many types of activities, we were interested in considering the aspects of “self-rating” or “self-audit” in contrast to the use of self-administered examination of knowledge or clinical

performance.


방법

Data Selection

Studies that focused on a comparison between physicians’ self-assessments as determined by self-ratings and 1 or more external measures of related competencies were included.


Data Extraction

The following information was extracted from each article: study population; content area and self-assessment domain of the study; methods used to measure the self- assessment of study participants; methods used to observe or measure participants’ competence or performance; existence and use of quantifiable measures; and study outcomes.




결과


Domains of Self-assessment

Methods of Self-assessment

Methods of External Assessment

Methods of Comparing Self- and External Assessments


Accuracy of Self-assessment


20개 논문의 자기평가와 외부평가를 비교한 결과, 13개의 논문에서 관련이 없거나, 오히려 음의 상관관계를 가지는 것으로 나타났다.

Of the 20 comparisons between self and external assessment, 13 demonstrated little, no, or an inverse relationship between self-assessment measures and other indicators.12-18,20,21,23,26,27


전반적으로 연구 결과는 아주 작거나, 없거나, 심지어 음의 상관관계를 보였으며 이러한 경향은 훈련의 수준, 경험의 차이, 연구의 연도에 관계없었다. 반대로 7개의 논문에서는 양의 상관관계를 보였다.

Overall, the proportion of studies reporting little, no, or inverse relationships did not appear to vary by level of training or experience or by year of study. In contrast, 7 comparisons12,15,19,22,24,25,28 demonstrated positive associations between self-assessment and most external observations







COMMENT

Relationship Between Self-rated Assessment and External Assessments


이 systematic review에서 살펴본 대부분의 연구에서, 의사들은 자기에 대한 평가를 그다지 정확하게 하지 못하는 것으로 나타났다. 

This systematic review found that in a majority of the relevant studies, physicians do not appear to accurately self assess. Weak or no associations between physicians’ self-rated assessments and external assessments were observed.


이러한 결과는 훈련의 수준, 전공, 자기평가 영역, 비교 방법에 상관없이 나타났다. 하지만 이들 결과는 전혀 새로운 것이 아닌데 Sibley 등은 비슷한 결과를 20년 전에 발표한 바 있고, Gordon과 Dunning도 비슷한 결과를 발표한 바 있다. 이러한 연구결과는 다른 분야에서의 연구결과와도 일치한다. 예컨대 법학, 공학, 행동과학, 심리학 등의 학문에서 Falchikov와 Boud는 자기 평가와 외부 평가의 연관성은 평균적으로 0.39 정도라고 밝혔다.

In the studies indicating poor or limited accuracy of selfassessment, this finding was independent of level of training, specialty, the domain of self-assessment, or manner of comparison. These findings are not new. Sibley et al29 reported similar findings more than 2 decades ago, as did subsequent studies by Gordon30 and Dunning et al.31 The findings are consistent with studies in other disciplines. For example, in a meta-analysis of quantitative self-assessment studies in law, engineering, guidance counseling, behavioral science, psychology, and medicine, Falchikov and Boud32 noted correlations between self- and external assessments of student performance ranging from 0.05 to 0.82, with a mean of 0.39. 


보건의료직으로 한정지으면, Gordon은 그 상관성이 0.02~0.65 정도라고 밝혔다. 

Within the health profession, Gordon30 found that correlations for self-assessments of knowledge ranged from 0.02 to 0.65. Furthermore, despite our finding in 2 studies24,28 that specific selfassessment may be reliable predictors of performance, Eva et al33 found that poor correlations persist even when domains are well-defined. 


마지막으로, 이러한 결과들로부터 가장 눈에 띄는 것은, 외부 평가에서 부정적 평가를 받은 사람이 자기 평가도 부정적으로 내렸다는 것이다.

Finally, perhaps of greatest concern are the findings that those who perform the least well by external assessment also self-assess less well.



Construct and Study of Self-rated Assessment


첫째로, 자기측정평가는 연구가 용이한 분야가 아닌데, 이는 주로 그 특성이 완전히 개발되거나 테스트되지 않았기 때문이다.

First, the construct of self-rated assessment itself is not easily studied, in large part because its nature is neither fully developed nor tested.10


두 번째로 자기 평가 연구를 수행할 경우, 연구자들은 다음의 과정을 통해서 연구의 rigor와 reportability를 높여야 한다.

Second, if such studies of self-assessment are undertaken, researchers should augment study rigor and reportability by

better describing their populations, sampling frame, and methods; 

more clearly differentiating between types of self-assessments; 

attempting to resolve questions of volunteer bias; 

and articulating best practice templates for studying and reporting self-assessment compared with external assessment



Limitations


문헌조사를 저자 중 한 사람과 외부의 전문가가 같이 수행했음에도 의학 관련 문헌에 대한 제목 정보의 부족으로 일부 연구들은 누락되었을 수 잇다.

First, while literature searches were conducted by one of the authors and an independent information specialist to provide an exhaustive coverage of the literature, the lack of extensive Medical Subject Headings in the literature databases could have contributed to not retrieving some studies


일부 연구는 방법, 결과, 통계법을 잘 밝히지 않아서 이를 통해서 가설에 대한 근거를 세우고, 일반화하기에 한계가 있었다.

Second, some studies lacked full descriptions of methods, outcomes, and use of statistical tests, limiting our ability to describe the studies more fully, to develop explanatory hypotheses, or to generalize. Third, the domains of competence or performance in these studies, the tools used to measure them, and the assumptions (such as predictions of future performance on a test, or self-ratings in past performances as a teacher) were variable, precluding a meta-analytic approach.


리뷰한 논문의 숫자가 많지 않다고 할 수 있다.

Finally, it can be argued that the relatively small number of studies found in this review


Assessment Formats and Content


만약 의사들이 이러한 분야에서 잘 해내지 못하고 있다면, 자기 평가에 있어서 새로운 initiative와 형식이 도입될 필요가 있다.

If it is true that physicians perform poorly in this domain, new initiatives and formats are needed to assist the self-assessment process and to more accurately promote and assess broader domains of competence such as professionalism and lifelong learning.38


첫번째로, 더 포괄적인, 지속적 전문성 향상 과정에 대한 향상을 측정할 수 있어야 한다.

First, such measures might include the development of a more holistic continuing professional development process involving learning portfolios, documenting practice-based learning and improvement activities, creating less general and more detailed learning and practice objectives, and addressing the general competencies espoused by the Accreditation Council for Graduate Medical Education.8 


두 번째로 훈련을 통해서 자기평가와 외부 평가의 차이가 줄어들 수 있다.

Second, training may reduce the variation between self- and external assessments by encouraging the internalization of objective measurements or benchmarks of performance.10


세 번째로 자기평가 방식의 향상이 근본적으로 어렵다고 하면, 다른 피드백 방법이 필요할 수 있다.

Third, given that some improvement needs (eg, those in the psychosocial realm)13,45,46 may be more difficult to self-assess, methods such as multisource feedback (360°) evaluations may be a necessary next step, particularly when interpersonal skills, communication skills, or professionalism needs to be evaluated.47 


넷째로, 면허나, 면허갱신, 환자안전 등의 이슈를 고려할 때 객관적인 측정기준을 위한 많은 고려가 필요하다.

Fourth, objective measures of competence and performance deserve serious consideration, especially when issues of medical licensure, recertification, quality, and patient safety are paramount.


마지막으로, 각 전공과에서는 정기적으로 구성원들에게 근거중심의 학습목표를 제공하는 역할을 할 수 있어야 한다.

Finally, specialty societies and others can increase their role in providing current evidence-based learning objectives on a regular basis to members of their discipline, giving external markers of competence.




 2006 Sep 6;296(9):1094-102.

Accuracy of physician self-assessment compared with observed measures of competence: a systematic review.

Source

Knowledge Translation Program of the Li Ka Shing Knowledge Institute at St Michael's Hospital, University of Toronto, Toronto, Ontario, Canada.

Abstract

CONTEXT:

Core physician activities of lifelong learning, continuing medical education credit, relicensure, specialty recertification, and clinical competence are linked to the abilities of physicians to assess their own learning needs and choose educational activities that meet these needs.

OBJECTIVE:

To determine how accurately physicians self-assess compared with external observations of their competence.

DATA SOURCES:

The electronic databases MEDLINE (1966-July 2006), EMBASE (1980-July 2006), CINAHL (1982-July 2006), PsycINFO (1967-July 2006), the Research and Development Resource Base in CME (1978-July 2006), and proprietary search engines were searched using terms related to self-directed learning, self-assessment, and self-reflection.

STUDY SELECTION:

Studies were included if they compared physicians' self-rated assessments with external observations, used quantifiable and replicable measures, included a study population of at least 50% practicing physicians, residents, or similar health professionals, and were conducted in the United Kingdom, Canada, United States, Australia, or New Zealand. Studies were excluded if they were comparisons of self-reports, studies of medical students, assessed physician beliefs about patient status, described the development of self-assessment measures, or were self-assessment programs of specialty societies. Studies conducted in the context of an educational or quality improvement intervention were included only if comparative data were obtained before the intervention.

DATA EXTRACTION:

Study population, content area and self-assessment domain of the study, methods used to measure the self-assessment of study participants and those used to measure their competence or performance, existence and use of statistical tests, study outcomes, and explanatory comparative data were extracted.

DATA SYNTHESIS:

The search yielded 725 articles, of which 17 met all inclusion criteria. The studies included a wide range of domains, comparisons, measures, and methodological rigor. Of the 20 comparisons between self- and external assessment, 13 demonstrated little, no, or an inverse relationship and 7 demonstrated positive associations. A number of studies found the worst accuracy in self-assessment among physicians who were the least skilled and those who were the most confident. These results are consistent with those found in other professions.

CONCLUSIONS:

While suboptimal in quality, the preponderance of evidence suggests that physicians have a limited ability to accurately self-assess. The processes currently used to undertake professional development and evaluate competence may need to focus more on external assessment.
















(출처 : http://promobiledj.com/2012/12/why-having-confidence-is-critical/)


다지선다형 문항은 학생이 무엇을 아는지를 측정하는데 도움을 주며, 이는 곧 '무엇을 아는지'를 제함으로서 '무엇을 모르는지'를 확인할 수 있다. 기본적인 생의학적 지식 측정 뿐만 아니라, 조금의 노력을 더 들이면 적용(application)이나 종합(synthesis)같은 더 높은 수준의 지적 능력도 측정할 수 있다. 이런 장점 때문에 다지선다형 문항은 의학교육의 여러 방면에서 높은 신뢰도로 사용되고 있다.

Multiple-choice questions (MCQs) are helpful in providing a measure of what a student knows and, by subtraction, inferring what he or she does not know.1,2 They are routinely used to assess knowledge of basic biomedical facts and, with additional effort, adapted to assess higher levels of learning, such as application and synthesis.3,4 This has made MCQ assessments a versatile and reliable assessment strategy in medical education.4–7


(1)학생에게 더 의미있는 피드백을 주고, (2)교육자들과 시험출제기관이 더 합리적인 추론을 할 수 있게 하며, 이를 통해서 (3)시험을 통한 학습이 더 잘 이뤄지기 위한 목적 등 때문에 다지선다형 문항을 개선하기 위한 노력은 다방면으로 이루어져 왔다. 학생들에게 스스로의 답에 대한 자신감의 정도(level of confidence)를 물어보는 것이 그 한 가지 방법이다. 또한 유사하게 학생들에게 자기가 선택한 답가지의 임상적 영향력을 평가하게 하는 것도 학생들이 스스로의 실수에 대해 다시 한 번 돌아보게 함으로써 학습의 기회를 한번 더 제공하는 방안으로 제시되고 있다.

There are continuing efforts to improve MCQs to provide more meaningful feedback to students, educators and testing agencies so that more valid inferences of competence can be determined and more learning can occur from the assessment process. 8–10 Asking students to consider their level of confidence in their answers has been recommended as a way to improve self-monitoring.11,12 Similarly, asking students to reflect on the clinical impact of their decisions has been proposed as a way to make students more aware of the influence of their errors,11–14 thereby improving the opportunity for learning.9


자신감의 정도와 오답/정답 여부를 둘다 확인하는 것의 주요한 장점은 '잘 못 알고 있는 학생(misinformed, 이하 MI)'과 '안 배운 학생(uninformed, 이하 UI)'을 구분할 수 있게 해준다는 것이다.

The primary advantage of recording both confidence levels and correctness on MCQ assessments is that it affords an ability to distinguish between students who are uninformed and those who are misinformed. 12,15


[많이 틀리고], [답에 대한 자신감도 떨어지는] 문항을 보면 '어떤 것을 가르쳐야 하는지'를 알 수 있다. 이러한 내용에 대해서 피드백을 해줄 때 학생들은 반응이 좋고, 더 학습하고자 한다. 

[답은 맞췄는데], [자신감은 없는] 문항을 알게 되면, 더 빠른 피드백을 통해 메타인지적 모니터링을 향상시키도록 해줄 수 있다.

[틀린 답을 고르고서] [자신감은 높은] 문항도 있는데, 이런 경우 틀린 답에 대한 강력한 믿음은 대개 잘 바뀌지 않고, 학습에 오히려 방해가 될 수 있고, 결국 임상 상황에서 잘못된 의사결정을 내리게 된다.

This combination of being incorrect and unsure is considered to provide a very appropriate ‘teaching moment’, in which the student is especially responsive to faculty feedback and to learning.16 Similarly, a context in which a student has low confidence in a correct answer also represents an opportunity in which early feedback increases retention and improves metacognitive monitoring.16,17 By contrast, students are misinformed when they select an incorrect answer, but state that they are sure or very sure of their response, which is qualitatively different from being uninformed. Strongly held incorrect beliefs are often resistant to change,13,15–19 can interfere with student learning,18,20 and may lead to inappropriate clinical decisions.21


학생들에게 고른 답에 대한 자신감의 정도를 물어보는 것은 교육적인 측면에 있어서 (1)스스로의 한계를 알 수 있게 해주고 (2)단순 찍기에 의한 답 선택은 하지 말아야 한다는 것을 알려주고 (3)학생이 스스로 자신을 돌아볼 수 있게 해준다. 또한 (4)그 문항에 대해서 다시 한번 돌아보게 함으로서 의도하지 않은 실수를 방지해준다.


시험에 이러한 방법을 도입하면, 평가를 수행하는 과정에서의 학습을 촉진할 수 있고, 이를 test-enhanced learning(시험 강화 학습)이라고 할 수 있다. 

The educational benefits to be derived from asking students to consider the level of confidence they have in their answers includes helping them identify limits of their knowledge,15 reinforcement of the notion that guessing should be discouraged,15 and the provision of an environment for active student self-monitoring.9 Asking students to indicate their level of confidence in their answer to an MCQ can also cause them to spend more time on reviewing that item, especially if the error was unanticipated.9 In this way, an examination can result in learning during an assessment, which is an example of test-enhanced learning.8–10,22,23 


Agrawal 등은 시험은 학생이 얼마나 정확하게 알았느냐를 알려주기도 하지만, 자기 평가(self-monitoring)에 있어서의 실수가 무엇인지도 알 수 있게 해준다. 자기평가에 대한 피드백은 대단히 중요한데, 왜냐하면 이 피드백을 통해서 메타인지 과정에 도움이 되기 때문이다. 메타인지는 성취수준이 낮은 학생들이 특히 힘들어하는 과정이다. 


자신감의 정도는 피훈련자가 얼마나 피드백을 잘 받아들이는지에도 연관이 있고, 일반적으로 복잡한 과정을 다루는 문제(complex process type problem)에 있어서 더 낮게 나오며, 성별에 따라서도 차이가 있다. 임상 판단에 있어 얼마나 정확하게 판단을 내렸는가에 대한 자신감은 전문가가 된 임상가의 특징이기도 하고, 따라서 피훈련자의 자신감을 모니터링해서 적절하게 발달시키는데 중요하다.

Agrawal et al.9 make the argument that testing identifies mistakes in accuracy, but also mistakes in self-monitoring, which is a valuable skill to develop and for which feedback is important. Feedback on self-monitoring may be helpful in metacognitive processing,24 an issue especially problematic in underachieving students.25 Confidence also influences how receptive a trainee is to feedback,26 is generally lower on more complex process-type problems,18 and may be influenced by gender.27 The calibration of confidence to correctness in clinical decisions is a defining characteristic of an expert clinician and thus it is important to monitor and develop appropriate confidence in a trainee.28


전통적으로 평가는 학생이 가진 '옳은 지식'의 양적 평가를 하기 위해서 사용되었지, 학생의 '잘못된 지식'을 평가하는 용도로 사용되지는 않았다. 아직 학생이 오답에 대해서 어느 정도나 확신을 가지는지, 그래서 언제 MI 나 UI 하게 되는지 알지 못한다. 

Traditionally, assessments have been used to provide a quantitative measure of student knowledge, rather than a measure of student misunderstanding. We generally have no idea how sure students have been of their incorrect answers and therefore do not know when students are uninformed as opposed to misinformed.


이 연구의 목적은 UI와 MI로 나눠서 오답의 비율을 알아보고, 학생들의 자신감 정도가 오답 답가지로 인한 잠재적 임상적 영향력에 따라서 차이가 있는지, 문제의 복잡성에 따라서 차이가 있는지, 성별에 따라 차이가 있는지를 보고자 한다.

Our purpose was to determine the percentage of incorrect answers in which the respondent had little confidence (uninformed) relative to that of incorrect answers in which the respondent was very confident (misinformed), and to establish whether student confidence was significantly impacted by the potential clinical consequences of answers, question complexity or gender




총 2080개의 응답(104명 X 20문항)의 정답/오답, 자신감 정도로 나눈 비율





오답을 

임상적으로 크게 문제가 되지 않는(benign) 답가지, 

임상적으로 부적절한(inappropriate) 답가지, 

임상적으로 환자에게 해가 되는(harmful) 답가지로 

나누어 보았다.


(1) 답가지의 종류에 관계없이 학생들은 정답에 대해서 더 높은 수준의 자신감을 나타냈으나 (각각 15.9배, 3.6배, 5.0배) 

(2) 임상적으로 문제가 되지 않는(benign)한 답가지에 대한 자신감이 더 낮고, 임상적으로 부적절하거나(inappropriate), 해가 되는(harmful) 답가지에 대한 자신감이 더 높은 양상을 보인 것은 주목할 만 하다.




 2013 Jun;47(6):578-84. doi: 10.1111/medu.12147.

Does student confidence on multiple-choice question assessments provide useful information?

Source

Department of Preventive and Restorative Dental Sciences, School of Dentistry, University of California San Francisco, San Francisco, California, USA.

Abstract

CONTEXT:

Feedback from multiple-choice question (MCQ) assessments is typically limited to a percentage correct score, from which estimates of student competence are inferred. The students' confidence in their answers and the potential impact of incorrect answers on clinical care are seldom recorded. Our purpose was to evaluate student confidence in incorrect responses and to establish how confidence was influenced by the potential clinical impact of answers, question type and gender.

METHODS:

This was an exploratory, cross-sectional study conducted using a convenience sample of 104 Year 3 dental students completing 20 MCQs on implant dentistry. Students were asked to select the most correct response and to indicate their confidence in it for each question. Identifying both correctness and confidence allowed the designation of uninformed (incorrect and not confident) or misinformed (incorrect but confident) responses. In addition to recording correct/incorrect responses and student confidence, faculty staff designated incorrect responses as benign, inappropriate or potentially harmful if applied to clinical care. Question type was identified as factual or complex. Logistic regression was used to evaluate relationships between student confidence, and question type and gender.

RESULTS:

Students were misinformed more often than uninformed (22% versus 8%), and misinformed responses were more common with complex than factual questions (p < 0.05). Students were significantly more likely to be confident of correct than incorrect benign, incorrect inappropriate or incorrect harmful answers (p < 0.001), but, contrary to expectations, confidence did not decrease as answers became more harmful.

CONCLUSIONS:

Recording student confidence was helpful in identifying uninformed versus misinformed responses, which may allow for targeted remediation strategies. Making errors of calibration (confidence and accuracy) more visible may be relevant in feedback for professional development.








(출처 : http://simonkneebone.com/2013/02/01/evaluation-tool/)





평가의 목적(Purpose of evaluation)

- To ensure teaching is meeting students’ learning needs

- To identify areas where teaching can be improved

- To inform the allocation of faculty resources

- To provide feedback and encouragement for teachers

- To support applications for promotion by teachers

- To identify and articulate what is valued by medical schools

- To facilitate development of the curriculum


평가 vs 연구


연구 

평가 

 - Usually aimed at producing generalisable results that can be published in peer reviewed literature, 

 - Requires ethical and other safeguards


 - Generally carried out for local use and 

 - Does not usually require ethics committee approval.



 - May not become continuous if the answer to the question is found

 - Continuous process



커크페트릭의 4단계(Kirkpatrick’s four levels on which to focus evaluation*)

- Level 1—Learner’s reactions

- Level 2a—Modification of attitudes and perceptions

- Level 2b—Acquisition of knowledge and skills

- Level 3—Change in behaviour

- Level 4a—Change in organisational practice

- Level 4b—Benefits to patients or clients


*Adapted by Barr et al (see “Further reading” box)


교과과정을 계획하는 것에 있어서의 평가 (Evaluation in curriculum planning)

- 교과과정을 개발하는 시작 단계에서부터 평가가 계획되어야 함.

Evaluation should be designed at the start of developing a curriculum, not added as an afterthought. 

- 교육적 니즈가 정해지면, 첫 단계는 학습 성과를 정의하는 것이다.

When an educational need has been identified, the first stage is to define the learning outcomes for the curriculum. 

- 평가의 목표는 그 학습 성과와 연관이 있어야 하며, 분명한 언어로 표현되어야 한다.

The goals of the evaluation should be clearly articulated and linked to the outcomes. 



평가를 계획할 때 해야 할 질문(Questions to ask when planning an evaluation)

- What are the goals of the evaluation?

- From whom and in what form will data be collected?

- Who will collect and analyse data?

- What type of analysis, interpretation, and decision rules will be used and by whom?

- Who will see the results of the evaluation?


이상적인 평가의 특징(Characteristics of an ideal evaluation)

- Reliability

Validity

- Acceptability—to evaluator and to person being evaluated

- Inexpensiveness


평가의 비뚤림을 줄이기 위해서는 둘 이상의 그룹으로부터 정보를 모으라.

To reduce possible bias in evaluation, collect views from more than one group of people—for example, students, teachers, other clinicians, and patients


평가에 있어서의 학생의 참여(Participation by students)

- 능력(Competence) : 학생은 신뢰성과 타당성을 갖춘 정보원이다.

—Students can be a reliable and valid source of information. They are uniquely aware of what they can consume, and they observe teaching daily. They are also an inexpensive resource. Daily contact, however, does not mean that students are skilled in evaluation. Evaluation by students should be limited to areas in which they are competent to judge. 

- 주인의식(Ownership) : 평가에 대해서 완전히 집중(committed)하지 않는 학생에게서는 좋은 정보를 얻을 수 없다. 대개 평가의 결과는 일부의 학생에게만 영향을 주는 경우가 흔한데, 학생들에게 정보를 제공하는 것이 의미가 있는 일임을 확신시켜 줄 수 있어야 한다.

—Students who are not committed to an evaluation may provide poor information. They need to feel ownership for an evaluation by participating in its development. The importance of obtaining the information and the type of information needed must be explicit. Usually the results of an evaluation will affect only subsequent cohorts of students, so current students must be convinced of the value of providing data.

- 정보수집(Sampling) : 학생들이 자기의 시간이 존중받는다는 느낌이 들도록 해야 한다. 100명에서 얻으면 충분할 데이터를 굳이 300명으로부터 얻을 필요는 없다. 또한 익명성이 보장되어야 한다. 

—Students need to feel that their time is respected. If they are asked to fill out endless forms they will resent the waste of their time. If they become bored by tedious repetition, the reliability of the data will deteriorate. One solution is to use different sampling strategies for evaluating different elements of a curriculum. If reliable information can be obtained from 100 students, why collect data from 300?

Anonymity is commonly advocated as a guard against bias when information is collected from students. However, those who support asking students to sign evaluation forms say that this helps to create a climate of responsible peer review. If students are identifiable from the information they provide, this must not affect their progress. Data should be collected centrally and students’ names removed so that they cannot be identified by teachers whom they have criticised.

- 피드백(Feedback) : 평가의 결과를 학생들에게 알려주고, 그로 인해 어떤 것이 달라질 것인지도 알려줘야 한다.

—Students need to know that their opinions are valued, so they should be told of the results of the evaluation and given details of the resulting action.




Key points

Evaluation should:

- Enable strategic development of a curriculum

- Be a positive process that contributes to the academic development of a medical school

The goals of an evaluation should:

- Be clearly articulated

- Be linked to the outcomes of the teaching

When carrying out an evaluation:

- More than one source and type of information should be sought

- The results should be fed back to participants and details of the resulting action given

Learners need:

- To be involved in developing an evaluation

- To feel their time is respected

- To know their opinions are valued and acted on

Evaluators must:

- Act on the results of the evaluation to correct deficiencies, improve methods, and update content

- Repeat the process



평가의 분류





평가에 있어서 교수자(선생님)의 참여






 2003 Feb 15;326(7385):385-7.

ABC of learning and teaching in medicine: Evaluation.

Source

National University of Ireland, Galway, Republic of Ireland.


+ Recent posts