의사국가시험, 그리고 딜레마 (Acad Med, 2015)

National licensing examinations, not without dilemmas

Lambert Schuwirth







의사국가시험(NLE)는 대중에게 의과대학 졸업생의 질에 대한 확신을 주는데 기여할 수는 있으나 제한적이다. 그렇다면 몇 가지 딜레마를 언급하고자 한다.

National licensing examinations can play an important role in reas- suring the public about the quality of medical graduates but only to a certain extent. At the risk, then, of kicking in the proverbial open door I want to highlight some of the dilemma’s I think national licensing is facing.



딜레마 1: NLE의 목적

Dilemma 1: the purpose of national licensing


본질적으로, NLE의 목적은 대중에게 면허를 받은 의사는 안전하고, 독립적인 진료가 가능하다는 확신을 주기 위함이다.

In essence the purpose of national licensing is to reassure the public that licensed doctors are safe, independent practitioners.


대중들이 표준화된 NLE가 안전한 독립적 의사를 만드는 최고의 방법이라고 인식한다면 모든 것이 문제없을지도 모르나, 이는 NLE의 신뢰도가 충분히 확실할 때 뿐이다. 그렇지 않은 경우 NLE 출제 기관은 NLE의 목적이 NLE를 출제하는 그 자체냐 아니면 대중에게 의학교육과 의사의 질에 대한 확신을 심어주기 위함이냐의 딜레마에 빠진다.

As long as there is a public perception that standard- ised testing with NLEs is the best way to ensure safe independent practitioners all is ok, but when that credibility of NLEs to be suffi- cient reassurance fades a dilemma will occur. Then, the dilemma national licensing agencies face, is whether their mission is to pro- duce NLEs or whether it is to reas- sure the public of the quality of medical education and the doc- tors.



현재 평가에 관한 문헌을 보면 단순히 고도로 구조화되고 표준화된 지식과 기술에 대한 시험만으로는 안된다고 말한다. 대신, 초점은 (틀린 명명이나) 소위 'softer' 능력에 초점을 두어야 한다고 한다. 여기에는 프로페셔널리즘, 커뮤니케이션, 성찰 등이 들어간다. 의학교육에서의 평가의 발전과 NLE에서의 평가의 발전 사이의 차이는 점점 더 벌어져가는 듯 하다.

Surveying the current assessment literature in medical education it does seem to show a movement away from solely relying on highly structured and standardised testing of knowledge and skills (cf2–5). Instead, the focus seems to shift towards what are often called with a misnomer ‘softer’ abilities; abili- ties like professionalism, communi- cation, reflection, etc. There appears to be a widening gap between assessment developments in medical education and those in national licensing examinations’





딜레마 2: 자료 수집과 측정의 질, 혹은 해석의 질

Dilemma 2: the quality of collecting and measuring data or quality of interpretation


네덜란드에는 meten is weten 이라는 속담이 있다. 즉 '측정하는 것은 아는 것을 뜻한다'라는 의미이며, 평가는 객관적 성과로 이끌어주는 프로세스여야 한다는 것을 시사한다. 비록 의사결정에 있어서 양적 정보의 유용성을 부정하고 싶지는 않으나, 그러한 정보가 의미를 가지려면 반드시 주관적 해석을 거쳐야 한다. 심지어 가장 양적인 연구를 수행한 것 조차 숫자보다 더 많은 단어가 들어가 잇으며, 최소한 도입/방법/고찰을 기술하여 숫자 자료의 의미를 만들어간다. 평가에서도 주관적 해석이 결여된 객관성 혹은 순수한 숫자정보의 가치에 대한 인식에 점차 이의를 제기하고 있다.

A Dutch saying (meten is weten) suggests that ‘to measure’ means ‘to know’, implying that assess- ment has to be a process that leads to an objective outcome. Although I do not want to invalidate the use- fulness of quantitative information to inform a decision, that informa- tion will have to be subjectively interpreted before it can start mak- ing sense6,7; even the most quanti- tative research paper in medical education still contains more words than numbers and it con- tains at least an introduction, methods section and discussion to make sense of the numerical data. In assessment, the notion of objec- tivity or the value of purely numer- ical data without subjective interpretations is increasingly being questioned.8,9


이러한 발전은 NLE에 또 다른 딜레마를 만드는데, 즉 자료 수집에 있어서의 향상에 투자하는 것이 옳은지, 아니면 그 자료로부터 양질의 의미를 찾기 위한 투자가 옳은가에 대한 것이다.

These developments seem to cre- ate another dilemma for national licensing, namely whether to invest in improving the quality of the data collection methods (like com- puter adaptive testing) or in improving the quality of sense- making of the data.


딜레마 3: 학습의 평가 혹은 학습을 위한 평가

Dilemma 3: assessment of learning or assessment for learning


세 번째 딜레마는 평가를 행동주의적 관점에서 활용할 것이냐 아니면 구성주의적 관점에서 사용할 것이냐에 대한 것이다. 즉, 행동(의 변화)을 추구할 것이냐 배움(그 자체)을 추구할 것이냐이다. 근본적으로 배움에 대한 구성주의적 관점과 시험에 대한 행동주의적 접근은 잘 맞지 않는다. 행동주의적 접근의 문제는 - 전혀 새로운 것이 아니며 - 바람직한 행동을 강화하는 요인을 제거하면 그러한 행동이 사라지므로, '강화'를 유지해야 한다는 것이다.

I think that this third dilemma boils down to whether you want to use assessment in a behaviourist or in a constructivist way; whether you seek to induce study behaviour or learning. There is a fundamental misalignment between construc- tivist views on learning and beha- viourists approaches to testing. The problem with a behaviourist approach – and these are not new insights – is that when you take away the reinforcement the desired behaviour generally fades, so you have to keep on reinforcing (cf.10).


이 시점에서 '학습을 위한 평가'에 대한 흔한  오해를 언급해야 할 것 같다. '학습을 위한 평가'가 형성평가와 동일한 것이어서 전혀 부담이 없으며(no stakes) 학습의 평가는 총괄평가와 같아서 고부담(high stakes)라는 오해이다. 평가는 언제나 evaluative activity로서 주관적인 판단을 통해서 결과에 의미를 부여하고, 이는 심지어 표준화 시험에서도 마찬가지이다.

At this point it is probably good to discuss the common misunder- standing that assessment for learn- ing would be the same as formative assessment with no stakes and assessment of learning would be the same as summative assessment with high stakes. Assess- ment is always an evaluative activity and therefore requires subjective human judgements to give mean- ing to the results, even with stan- dardised testing.


따라서 '학습을 위한 평가'라고 해서 부담이 없다는 의미가 아니다. 실제로, 그것이 제대로 작동하기 위해서는 (어떤 형태로든) 부담이 있어야 한다. 전통적으로 형성평가가 선택사항이고 학생들이 피드백으로 무엇을 하든 상관없다고 보았던 것과 달리, 학습을 위한 평가는 선택사항이 아니며 학생들은 어떻게 그 모든 평가 피드백을 실제 학습 활동에 활용하고 포함시켰는지 보여야 한다. 

So, assessment for learning does not mean that the stakes are low. Actually, in order for it to really work the stakes (in whatever form) have to be considerable. Whereas in the traditional notion of formative assessment the pro- cess is completely optional and stu-dents can do whatever they want with the feedback, in assessment for learning it is not optional and students will have to demonstrate how they have incorporated all the assessment feedback into their learning activities.5,12



 

딜레마 4: 단일 평가도구 혹은 평가 프로그램

Dilemma 4: single instruments or pro- grammatic assessment


평가 프로그램(programmatic assessment)는 단순히 다양한 평가도구를 사용하는 것이 아니다. 평가 프로그램의 필수적 특징은 한 학생의 역량과 발달에 관한 판단이 언제나 '가설-유도'에 기반하며, 다양한 평가 방법을 통한 정보의 통합을 거쳐 개별화된다는 점이다. 이는 임상에서의 진단과 마찬가지이다. 의사가 다양한 진단도구를 활용하여 환자를 진단하듯, 평가 프로그램의 평가자도 마찬가지이다. 다양한 평가도구의 다양한 요소를 활용하여 'dyscompetence'를 정확히 진단해내야 한다.

Program- matic assessment is more than merely using multiple instruments; an essential feature of program- matic assessment is that decisions about a student’s competence and progress are always based on a hypothesis-driven and individu- alised combination of information from a variety of assessment meth- ods. It is like clinical diagnostics: much like a clinician uses various diagnostics to diagnose ill health an assessor in programmatic assess- ment will use various elements of various assessment methods to diag- nose accurately ‘dyscompetence’.


 

평가 프로그램의 목적은 평가가 학생의 역량에 대한 판단을 내리기 위해서만 하는 것이 아니라, 각 학생에게 최적화된 그 다음 학습활동을 결정해주기 위한 것이다.

In programmatic assessment the purpose of the assessment is not only to come to a judgement of a student’s competence and pro- gress but also to decide about the optimal next learning activities for each student.



로지스틱한 문제는 극복되어야 할 대상임, NLE를 '학습을 위한 평가'적 접근으로 보는 것은 검토할 가치가 있는 대안이다. 따라서 면허기구의 딜레마는 단일한 평가도구에 집착할 것인가, 아니면 평가의 프로그램적 접근으로 옮겨갈 것인가에 대한 것이다.

If the logistical issues could be overcome program- matic approaches and assessment for learning approaches to licens- ing examinations would be alterna- tives worth exploring. So, the dilemma for licensing bodies will be whether to stick to single-instru- ment assessment or to move to programmatic approaches to assessment.


의료에 비유해보자면, 국가 질병 스크리닝 프로그램에 반대하는 것은 아니나, 진료에 있어서 그 스크리닝 프로그램의 위치를 면밀히 살펴보고, 문화적 차이를 고려해야 한다.

To use an analogy with health care: I would not argue against national disease screening programmes, but I would argue for careful consideration of their place in health care and to care- fully consider cultural differences.





 2016 Jan;50(1):15-7. doi: 10.1111/medu.12891.

National licensing examinations, not without dilemmas.

Author information

  • 1Adelaide, Australia.
PMID:
 
26695461
 
[PubMed - in process]


+ Recent posts