전문직 윤리로서의 의료윤리-의사다움이란

권복규

이화여자대학교 의학전문대학원 의학교육학교실

 



서 론

의사 사회가 위기이다. 교수는 교수대로, 봉직의는 봉직의 대로, 개원의는 개원의대로 팍팍한 의료 환경 속에서 생존을 위해 몸부림치지만 어느 하나 쉬운 일이 없다. 의사가 사회적 인 존경은 물론, 직업적 권위에다가 상당한 소득까지 올릴 수 있었던 과거가 불과 한 세대 이전의 일이지만, 지금은 그 중 어느 것도 바라기 어려운 시대가 되었다. 한 해 35백명 이상의 의사들이 새로이 배출되어 경쟁은 날로 치열해지지만 개별 의사의 소득은 오히려 예전보다 줄고 있으며, 환자들의 갖가지 요구가 늘어나면서 이들의 불만과 분쟁도 함께 증가하 고 있다. 고령화와 더불어 의료비는 매년 큰 폭으로 증가하고 있어서 국민건강보험공단과 정부는 어떻게든 이를 억제하기 위해 의사들의 의료행위를 계속 간섭하고 억압한다. 이렇듯 한국의 의사는 환자, 사회, 정부에 의해 사방으로 포위된 형국 에 있는데, 의사의 입장을 이해하고 편을 들어주는 사람이나 세력은 그 누구도 없다. 의사가 아닌 많은 이들에게, 의사는 병을 앓고 있으므로 약자인 환자에 대해 어떤 어려움에도 불구하고 모든 희생을 감수해내야 하는 존재이며, 여전히 사회지도층에 속하는 기득권층이고, 어느 누구보다도 높은 수 준의 도덕적 삶을 살아야 하는 사람들이다.

 

의사가 처해 있는 현실과 일반인의 이런 비현실적인 기대 는 첨예하게 부딪칠 수밖에 없는데, 때문에 이런 갈등 속에서 윤리는 의사들을 비난하고 옥죄는 하나의 구실에 불과하다 는 주장이 의사 사회 내부에서 힘을 얻고 있기도 하다. 의사 사회 내의 일부 강경 집단은 이제까지 의사들을 구속하기만 했던 윤리는 집어치우고, 정부와 사회에 대한 강고한 투쟁을 하는 것이 더욱 생산적이라는 주장을 하기도 한다. 이러한 주장에 일리가 없지는 않다. 적어도 한국 사회에서 윤리는 사 회적 소통을 촉진하고, 바람직한 사회적 선을 증진시키기 보 다는, 마음에 들지 않거나 적대시하는 개인, 혹은 집단들을 비난하고 이들을 몰락시키기 위한 정치적 수단으로 사용되어 왔기 때문이다. 사회적 모순과 정치적 갈등을 개인의 윤리 문제로 치환시키고, 누구누구는 이런저런 문제가 있으므로 정치적, 사회적 역할을 하지 말아야 한다는 주장은 과거로부 터 오늘날까지 익숙한 풍경이다. 최근에도 어떤 인사가 정치 적인 자리에 임명될라치면 그의 사생활로부터 논문 조작에 이르기까지 수많은 윤리적사안들을 검증받아야 하며, 그 과 정에서 그의 윤리적 흠결이 과연 그의 업무 수행과 무슨 관련 이 있는지에 대한 핵심적 쟁점은 아무도 모르는 새에 증발해 버리는 일도 왕왕 있다.


아마도 이러한 현상은 우리 사회의 뿌리 깊은 전통 유가적 생활태도와 깊은 관련이 있는 것 같은데, 유가적 세계관에서 는 예컨대 자기 몸을 잘 닦고 처신하며(修身), 집안을 바르게 운영하는(齊家) 능력이 국가와 사회에서 공직을 맡기에 적합 한 자질이라는 생각이 널리 퍼져있기 때문이다. 한국 사회에 서 윤리를 논할 때는 무의식적으로 어릴 때부터 몸에 익히고 배운 사람답게 사는 길의 측면에서 이를 이해하게 된다

  • 예 컨대 효성이 지극하며, 물질적 이익에 초연하고, 성적 욕망을 잘 통제하며, 인간관계가 좋은(인정이 많은) 사람을 우리는 윤리적 인간으로 이해한다

  • 반면, 안팎과 신념이 일치하고, 정직하며, 사적 인간관계를 좀 훼손하더라도(인정머리가 없더 라도) 공적 직무에 충실하며, 합당한 범위 내에서 자신의 이익 을 추구하는 인간형을 우리는 그다지 윤리적이라고 여기지 않는다

사실 후자는 서양 계몽주의에서 비롯된 근대인의 윤 리적 이상인데도 불구하고 말이다. 때문에 의사 사회에서 윤 리를 논하면, 시대에 뒤떨어진 고리타분한 자, 심지어 가뜩이 나 어려움에 처한 의사들의 현실에 무지하며 오히려 의사들을 억압하는 세력과 한 편이 되어 동료를 음해하는 자로 여겨질 수도 있다. 2002년 의약분업 사태 시에 의사들의 파업 투쟁에 반대한 측이 그러한 행동은 의사의 윤리에 반한다고 주 장했던 것이 그 한 예이다. 그러나 의사의 전문직 윤리(professional ethics)를 논할 때 우리는 윤리라는 단어에 덧씌워 진 이러한 전통적인 윤리관에 물든 아우라를 탈피해야만 하 며, 그래야만 전문직 윤리에 대한 합리적인 논의가 가능하다. 앞으로 드러나겠지만 현대적인 의미에서 전문직 윤리는 의사 를 옥죄거나 구속하는 것이 아닌, 의사가 전문직으로서 직업 적 존엄성을 지니고 바로 서기 위해 꼭 필요한 역량이다. 이 글에서는 전문직 윤리의 개념을 살펴보고, 그것이 의사의 의 사다움과 어떤 관련이 있는지를 검토해 보고자 한다. 이는 오 늘날 우리나라의 의사 집단이 겪는 위기를 타개하기 위해서라 도 반드시 필요한 작업이다.

 

전문직 윤리와 의사의 직업적 존엄

 

이미 언급한 여러 오해들과는 달리 기본적으로 전문직 윤 리란 특정인 A씨가 삶을 어떻게 영위해야 하는가, 그가 도덕 적인 사람인가 그렇지 않은가 하는 전통적인 윤리와는 별로 관련이 없다. 오히려 그 특정인 A씨가 의사라고 하면 그가 의사로서 지켜야 할 규범은 무엇인가에 관심이 있다. 이 규범 은 그가 의사로서 기능할 때 적용되지만, 가장으로서, 남편/아 내로서, 사회인으로서, 자녀로서 기능할 때는 별로 관련이 없 다. 전문직 윤리는 의사의 의사다움(professional integrity)이 나 전문직업성(professionalism)을 얼마나 잘 준수하고 있는 지를 알려주는 규범이다. 극단적으로 말해서 특정 의사 A씨 가 부모님에게 불효하고 부모님과 의절하고 산다 해도, 성적 파트너를 계속 갈아치우는 난봉꾼이라 해도, 도박에 빠져 가 산을 탕진했다 해도, 혹은 부동산 투기를 해서 엄청난 재산을 모았다 해도 그가 의사로서 환자에게 적절하게 행위하고 있는 한 전문직 윤리의 입장에서는 그를 비난할 어떠한 이유도 찾 을 수 없다. 여전히 전근대적 문화를 벗어나지 못하고 있는 한국 사회에서는 개인윤리(personal ethics)와 직무윤리를 혼 동하고 있기 때문에 이것이 문제가 되는 것이다.


그렇다면 새삼스럽게 왜 지금 전문직 윤리가 문제가 되는 가? 그것은 위기에 처한 한국 의료 상황에서 의사 집단의 전 문직 존엄(professional dignity)의 회복을 위해 전문직 윤리 가 그 어느 때보다도 필요한 상황이 되었기 때문이다. 돌이켜 보면 1970-1990년의 대략 20년 동안 한국의 의사들은 역사상 가장 큰 호황기를 맞았었다

  • 일제 강점기 이래 서양의학을 공 부한 의사 집단은 한국 사회에서 가장 공부를 많이 하고 첨단 과학지식을 습득하였으며, 인명을 구한다는 직업의 속성에 대 한 인정도 받았고, 사회적 지위 또한 높았다. 때문에 이들은 크게 무리하지 않아도 전문가로서의 자존심을 지키며 자신의 직무에 종사할 수 있었다

  • 특히 경제 성장이 어느 정도 제 궤 도에 오른 1970년대 이후로는 인구의 증가와 함께 의료 구매 력이 있는 인구도 크게 늘어난 반면 의사의 숫자는 그리 많이 늘지 않아서 의사들은 조금만 열심히 노력하면 매우 여유있는 생활을 할 수 있었다. 오히려 이때는 전문직 윤리에 대한 요청 도 그리 높지 않았는데, 전통적인 윤리규범 만으로도 의사의 행위에 대한 통제가 가능했고, 생존을 위해 무리할 필요가 없 었으며, 좁은 의료계 사회 내에서 선후배로 이어지는 무형의 질서가 그럭저럭 작동할 수 있었기 때문이다

  • 그러나 모두에 서 언급한 오늘날의 의료 상황, 1988년 이후 전국민 건강 보험제도의 수립과 만성화된 저수가 정책, 그리고 의과대학 신증설에 따른 신규 배출 의사의 증가로 인해 생존 경쟁이 치열해지면서 정통 의료가 아닌 의료 상품의 영역으로 수많은 의사들이 몰려갔으며, 의료가 일종의 서비스 상품으로 여겨지_게 되었고, 이에 따라 의사 집단 내의 직역 간, 혹은 의사 간 갈등도 심화되었다. 의료 서비스에 대한 환자들의 기대가 커 짐에 따라서 불만도 커졌고, 의사의 사회적 지위가 추락함에 따라 존경심도 더불어 떨어지고 있으며, 근본적으로 모순적인 보건의료 정책에서 기인한 각종 부정적 사례들-허위/부당 청 구, 리베이트, 보험 사기 등등-이 전체 의사의 위상을 흔들고 있는 것이다. 때문에 오늘날의 의사들은 과거보다 더욱 심한 윤리적 갈등 및 스트레스 상황에 처하게 되었고 의사 집단 전체로서도 깊은 위기의식을 안게 되었다. 전문직 윤리는 이 러한 상황을 타개하고자 하는 필사적인 노력이다.

 

전문직 윤리와 의사의 정체성

 

한국 의사들이 겪고 있는 이 위기를 극복하려면 우선 한국 의사의 정체성을 찾는 데서 출발해야 할 것이다. 의사의 정체 성이란 결국 의사의 의사다움을 의미한다. 의사다움이란 허 구적인 허준’, 또는 장기려 선생이나 이태석 신부와 같은 이 상적인 의사(ideal doctor)’가 아니라, 현실적으로 존재하고 기능하는 바람직한 의사의 모델을 말한다. 한국 사회에서는 이상(ideal)’과 모델(model)을 늘 혼동하는데, 장기려 선생이 나 이태석 신부는 도덕적 이상 내지 도덕적 영웅은 될 수 있겠 지만, 모든 의사가 그렇게 살 수도 없고, 또 그럴 필요도 없는 것이다. 모든 의사에게 이렇게 살아야 한다고 주장하면 그것 은 비현실적일 뿐 아니라 결과적으로 수많은 위선자(hypocrite) 만을 낳을 뿐이다. 조선시대는 성리학의 도덕적 이상을 국가적으로 추구한 사회였지만, 그 결과는 소수의 진실한 영 웅을 제외하고 선비를 자처한 수많은 무위도식하는 위선자를 낳았을 뿐이었다. 어쨌든 21세기라는 글로벌화된 현대 사회 에서 우리는 적어도 현실에 적합한 의사의 모델을 구성할 수 있으며, 또 그렇게 해야 한다. 이 모델을 구성하는 것은 의사 집단, 특히 의사 단체의 역할이다. 그리고 이 의사의 모델이 추구하는 규범이 바로 의사의 전문직 윤리가 된다.

 

히포크라테스 선서는 의사의 전문직 윤리의 고전적인 모델 이다. 이 규범 안에는 스승과 동료에 대한 예의, 특정 시술(낙 태약, 방광결석 제거술)에 대한 금지, 환자에 대한 태도(환자 의 바람과 이득을 우선시하고, 성적 접촉을 피하는 것)이 들어 있다. 그 어디에도 선한혹은 이상적인의사가 되어야 한 다는 주장은 없다.1 

  • 이 고전적인 규범은 18세기 이후 근대 의 료가 성립하면서 다시 태어나는데, 수많은 돌팔이들과 각종 의료분파와의 격렬한 투쟁 과정을 통해 자연과학에 입각한 근 대의학이 절대적인 우위를 점하게 되면서 이를 담당한 잘 교 육받은 의사들이 사회에 대해 이러저러한 규범을 지키겠다고 선언하였고, 그 반대급부로 직업적 독립성과 자율성, 그리고 직업적 존엄성을 획득하게 되었다.2 이것이 선진국 의사들이 겪어 온 역사적 경험이다

  • 우리는 이런 역사적인 체험 없이 그저 외세에 의해 기존의 서양근대의학을 받아들였고, 또 일 제 강점기와 군사정권을 거치면서 전문가 집단으로서의 자율 적인 성장을 도모할 수 없었다는 아쉬움을 가지고 있다.3 그 결과 정부의 보건의료정책에 종속되거나 심지어 부역해야 하 는 의료 공급자로서의 위상 밖에 가지고 있지 못한 것이 오 늘날 의료계가 처한 위기의 근본인 것이다

, 우리가 이상적 으로 생각하는 선진국 의사들의 높은 위상은 그저 주어진 것 이 아니다. 그들은 자체적인 규범을 준수하지 않는 동료들을 계속 솎아내고, 후속 세대들을 규범에 맞도록 교육하면서 자 기들의 위상을 정립한 것이다. 최근 자본과 각종 의료산업의 팽창, 보험회사와 건강관리기관(health maintenance organization) 등의 성장으로 인해 의사의 전문적 자율성과 독립성 이 크게 위협을 받고 있는 것은 이들도 마찬가지지만, 적어도 선진국의 의사 사회는 그러한 흐름에 대해 자신의 독립성과 존엄성을 지키기 위해 능동적인 노력을 하고 있다.4 그러나 애초에 프로페셔널리즘이 발달하지 못했던 우리 의사들은 이 흐름에서 살아남기 위해 개별적으로는 온갖 애를 쓰고 있지 만, 전체적인 조망에 입각한 집단적인 노력은 크게 부족하다.

 

전문직 윤리의 개요

 

의사의 전문직 윤리는 의사가 단순한 자영업자가 아니라 는 인식으로부터 출발한다. 의업은 도덕적 전문직(moral profession)’ 인데, 사람의 생명과 건강을 구하고 보호하는 일이기 때문이다. 그러므로 의사에게는 특정한 도덕적 의무가 부여된 다. 그러나 이 의무는 사회가 그에 합당한 처우를 보장할 때 정당화될 수 있다. , 사회는 의사들이 품위있게 생활할 수 있도록 적절한 처우를 해야 하며, 의사의 독립성과 자율성을 보장해야 한다. 의사에 대한 적절한 처우의 보장은, 그것이 보장되지 않을 경우에 개별 의사가 의료로 보기 어려운 의료 상품 판매에 종사하거나 의료자원을 낭비하는 일을 막을 수 없기 때문이다. 덧붙여 의사는 한 사람의 양성에 매우 큰 비용 이 들어가는 사회적 자원이기 때문에 이런 식으로 의사의 역 량을 소비하는 것은 사회 전체적으로 보아 큰 손해가 된다. 어떤 의료제도를 택하였든 간에 이런 인식을 가지고 개별 의-의사 단체-사회(또는 정부)가 유기적으로 피드백을 주고받 는 것이 선진국의 모습이다. 반면, 이러한 경험이 부재한 개발 도상국 등에서는 질 낮은 의학교육을 통해 의사를 마구잡이로 양산하고, 이들은 개별적으로 마치 일반 자영업자처럼 행동하 며, 결과적으로 의사에 대한 사회적 평판이나 처우도 낮아진 다. 사회적 평판이 형편없는 질 낮은 의사는 결국은 그 사회에 이득이 아닌 해악이 될 뿐이다


또한 독립성과 자율성 역시 의사만을 위한 것이 아니다. 의업은 고도의 전문직이기 때문에 의사 아닌 누구도 이 영역을 정확히 이해하고 평가하기 어려우므로, 사회(환자)의 최선의 이득을 위해 그러한 독립성 과 자율성을 보장하는 것이다. 그러한 독립성과 자율성은 개 별 의사의 수준은 물론 의사 집단의 수준에서 드러난다. 즉 의사 단체(의사협회 또는 각종 학회)는 개별 의사의 진료의 질을 보장하고, 증진시켜야 하며, 상급 의사, 또는 적절한 권 한을 가진 동료 의사들을 통해 개별 의사의 진료를 판단, 평가 할 수 있다. 예컨대 어떤 진료가 비과학적 진료혹은 과잉 진료인지, 혹은 어떤 상황에서 해당 진료가 성추행의 소지 를 안고 있는지 등의 문제는 일반인이 상식적으로 판단할 수 있는 것이 아니라 오로지 동료 의사들만이 판정할 수 있는 것이다. 따라서 진료 행위에 필연적으로 따르는 도덕적 규범 성역시 의학지식과 술기뿐 아니라 의료를 형성하는 핵심 요 소로서 의사들 모두가 알아야만 하는 것이다.5


그러나 전문직업성, 또는 전문직 윤리에 대해 우리나라에 서 가장 빈번하게 일어나는 오류 중 하나가 이를 의사의 인성 (人性)’과 혼동하는 것이다. 개별 의사의 인성은 좋을 수도 있고, 나쁠 수도 있다. 실제로 인성이 전통적인 의미의 어떤 도덕성을 의미한다면 대다수 의사들의 인성은 일반적인 수 준과 같거나 약간 높은 정도일 것이다. 그리고 인성은 어릴 때부터 타고난 성품 및 여러 개인적 체험과 가정교육 등에 의해 형성되는 것이기 때문에 어른이 되어 새삼스럽게 바뀔 것도 아니다. 그러나 의사의 전문직 윤리는 진료(practice)의 핵심 요소로서 개별 의사의 인성이 어떻든 간에 모든 의사가 습득하고 알아야 할 것이다

  • 수술을 하기 전에 환자에게 동의 (informed consent)’를 받을 때 어떤 요소들을 반드시 설명해 야 하는가, 어떤 방식으로 설명해야 환자가 겁먹거나 위축되 지 않으면서 올바른 판단을 하게 될 것인가 등의 문제는 의사 의 인성과 무관하게 모든 의사가 배워야 할 내용들이다

이런 무형의 요소는 의료의 소프트웨어를 형성한다. 이제까지 우리 의료는 첨단 의료기기, 첨단 시술법 등 유형적인 하드웨어에 만 집중하였고, 상대적으로 이러한 무형의 소프트웨어에는 소 홀했으며, 그 결과 환자 및 사회의 의료와 의료인에 대한 불 신, 자율적/윤리적으로 해결해야 할 사안들에 대한 행정기관 과 법률의 개입 등이 생겨났다. 의료와 같이 복잡한 영역을 의사 자신들이 아닌 법률의 형태로 해결하고자 하면 필연적으 로 무리와 부작용이 생겨난다. 그런데, 의사들 자신이 이러한 소프트웨어에 별 관심이 없으니 정부와 입법부가 자꾸 끼어들 려고 하는 것이다. 하지만 의료 현장을 모르는 이들이 오로지 상식적인 법의 잣대만을 가지고 들이댈 때 현실에서는 오히려 심각한 부작용이 생긴다는 것을 우리는 이미 1997년의 소위 보라매병원 사건에서 목격한 바 있다. 이는 작년의 아동 및 청소년의 성보호에 관한 법률 일부 개정안에서도 그대로 이 어져 수많은 의사들을 잠재적 성범죄자의 목록에 올려놓은 바 있다.


최근에는 의학이 급속도로 발달하면서 의사의 바른 판단과 결정을 요하는 어려운 윤리적 문제가 자꾸만 증가하고 있다. 낙태와 배아줄기세포 연구와 같은 생명의 시작과 관련된 문 제, 유전자검사와 같이 인간에 대한 차별과 우생학적 태도를 초래할 수 있는 기술, 희소한 인간 장기의 배분, 가망 없는 환자에 대한 연명치료 중단과 같은 문제들이다. 이러한 문제 들은 그 자체로 매우 흥미롭고 전 세계의 수많은 철학자, 법학 자, 의사들이 도전하고 있는 쟁점들이지만 그보다는 먼저 의 사 집단이 이러한 문제들에 대해 관심을 가지고 현재 시점에 서 적절하고 타당한 실용적인 규범들을 만들어 내는 것이 필 요하다. 최근의 의료윤리는 의사의 전문직 윤리와 함께 이러 한 생명윤리(bioethics)적 쟁점들을 함께 다루고 있다. 그러나 의사들의 입장에서는 어디까지나 전문직 윤리가 그 근간이 된 다.

 

결 론

 

우리나라 의사들의 의학지식과 술기는 세계 최고 수준이지 만, 전문직으로서 자신의 위상을 정립하고 자율성과 존엄성을 지키는 전문직업성과 그 기반이 되는 전문직 윤리에서는 아직 초보적인 수준에 머물러 있다. 우리가 살아온 역사적 배경이 그러한 역량의 성장을 허용하지 않았던 탓이다. 게다가 지식 과 술기는 선진국에서 배워 오면 되지만, 전문직업성과 전문 직 윤리는 우리나라의 문화와 사회에 맞게끔 자체적으로 정립 해 나갈 수 밖에 없다. 전근대와 근대, 탈근대가 마구 혼합된 현대 한국 사회에서 이는 무척이나 어려운 일이 아닐 수 없다. 그러나 의사가 의사답게 살아가기 위해서, 치열한 경쟁 속에 서 일개 자영업자처럼 악다구니를 쓰며 살지 않기 위해서, 정 부나 국가의 거칠고 미숙한 개입을 막고 보건의료의 주체로 떳떳하게 서기 위해서 이는 어렵다고 피해가서는 안 될 일이 다


전문직업성과 전문직 정신의 핵심에는 조직화된 의료 (organized medicine)’가 있다. 어떤 의사도 개인으로서는 전 문직업성의 규정과 실천을 감당하기 어렵다. 조직화된, 책임 감을 가진 의사 단체만이 전체로서 지켜야 할 규범을 제시하 고, 이를 회원들에게 교육하며, 문제가 있는 회원들은 교정을 하고, 사회에 대해서 떳떳하게 요구사항을 제시할 수 있다. 때로는 그러한 요구가 받아들여지게끔 사회를 설득, 또는 압 박할 수 있다. 1877년 미국 최초의 주 면허법은 주 정부가 원해서 만든 것이 아니라, 당시 미국 앨러배마 주의 주 의사회 에서 정부를 설득하여 돌팔이들을 의료에서 배제하기 위해 만 든 것이다.6 그러한 단체를 조직하고, 규칙(rule)을 만들며, 이 를 준수하는 것이 책임있는 전문직의 태도이며, 또 그러한 태 도가 바로 성숙한 민주주의를 실현하는 길이기도 하다. 의사가 전문직임은 그저 많이 배웠고, 많은 지식을 알고 있다는 사실에 기인하는 것은 아니다. 오히려 그만큼 책임있는 태도 로 행위할 수 있는 능력을 갖추었다고 인정받기 때문인 것이 다. 그러므로 각 전문 학회들은 단지 회원들의 친목을 도모하 고 최신 의학지식을 전파하는 기구를 넘어서서, 해당 전문분 야에서 책임있는 전문의의 모습을 규정하고, 수시로 이를 교 육하며, 기대에 미치지 못하는 회원들에게는 책임을 묻는 성 숙한 단체로 거듭나야 한다. 회원들 역시 회비 납부, 임원의 선거권과 피선거권 등을 포함한 학회의 활동에 적극적으로 동 참해야 한다. 의사의 전문적 자율성은 무엇보다 소중한 덕목 이지만, 이는 하고 싶은 것은 무엇이든 마음대로 할 수 있음을 의미하는 것이 아니며 동료들과 함께 만든 전문직 표준 (professional standard)과 전문직 윤리의 틀 내에서 이루어 진다는 전제가 있음을 알아야만 한다. 그러지 못할 때 정부나 사회가 들이대는 의사들에 대한 통제와 억압은 더욱 심해질 수밖에 없을 것이다.

 

 

 


Korean J Gastroenterol Vol. 60 No. 3, 135-139

http://dx.doi.org/10.4166/kjg.2012.60.3.135


Medical Ethics as Professional Ethics

Ivo Kwon

Department of Medical Education, Ewha Womans University School of Medicine, Seoul, Korea

Contemporary medical ethics is far from the traditional concept of "In-Sul (仁術, benevolent art)" or "Yul-Li (倫理, ethics), which emphasizes so much the personality or the character of a doctor. Nowadays, medical ethics should be considered as "professional ethics" which regulates the acts and medical practices of ordinary doctors in their daily practice. The key concepts of the professional ethics are "autonomy", "integrity", and "professional standard" established by medical organizations such as medical societies or associations. Most of Korean doctors have not been familiar with the concept of professional ethics or professionalism, which is due to the modern history of Korea. However, the concept of professional ethics is really critical to Korean doctors from the perspective of professional dignity and social respect to this profession. The current healthcare system of Korea is suffering from many problems of both private and public sector. Nonetheless, the professional ethics is urgently demanded for that very reason. (Korean J Gastroenterol 2012;60:135-139)



Key Words: Medical ethics; Professional ethics; Professionalism; Korean doctor

 

전문직 윤리의 규명과 교육에서 덕윤리의 역할: 의료 전문직 윤리를 중심으로

유호종*

 



I. 서론


어떤 직종이 전문직(profession)으로 분류되 려면 적어도 다음의 특징을 갖추고 있어야 한다

  • 첫째, 복잡한 지식을 습득하고 체계적인 훈련 과정을 거쳐야 그 직종의 종사자가 될 수 있다

  • , 그 직종이 제공하는 서비스가 사회적으로 중 요한 것이다. 전통적으로는 의료직, 법률직, 성 직, 교육직 정도를 전문직으로 분류하는데 특히 의료직을 전문직의 가장 전형적인 형태로 보고 있다.


전문직은 생명건강, ‘정의, ‘구원, ‘지식등 인간에게 매우 중요한 가치들에 대한 서비스 를 제공할 뿐만 아니라 대개의 경우 이 서비스 제공을 독점하고 있다. 그만큼 전문인(profes­sional)이라고도 불리는 전문직 종사자들이 어 떻게 행동하는가에 따라 사회 구성원들은 큰 영 향을 받게 된다. 그래서 전문인의 윤리성 여부는 전 사회 구성원이 주의 깊게 살펴보아야 할 문제 가 된다.


우리나라의 경우 전문직 윤리가 제대로 정립 되어 있다고 보기 힘들다. 한국의 전문인들의 활동은 불합리한 기존제도의 틀 속에서 전문독 점에 의한 집단 이기주의적 경향을 띠고 있음[1]을 부인하기 어렵다고 평하는 사람도 있다. 그래서 전문직 윤리가 바로서야 한다는 요구가 계속 있어왔다. 다행인 것은 이런 요구가 예전에 는 주로 전문직 밖의 사람들로부터 나왔던 데 비 해 지금은 전문직 내부에서 스스로의 전문직 윤 리에 대해 문제 제기를 하고, 이를 바로 세우려 는 노력을 시작하였다는 점이다. 의료 전문직의 경우 1980년 가톨릭대학교 의과대학을 필두로 1990년에는 31개 의과대학 중 7개 대학, 1996년 에는 37개 의과대학 중 20개 대학, 2003년에는 41개 전 의과대학에서 의료윤리나 관련 교과목 을 개설운영하고 있으며[2] 그에 발맞추어 의료 윤리와 그 교육에 대한 학문적 논의도 활발히 일 어나고 있다.


중요한 것은 이런 노력들이 실제 전문인들의 윤리적 행동으로 결실을 맺어야 한다는 것이다. 그렇게 되려면 전문직 윤리에 대한 교육 내용이 윤리 지식이나 지침을 단순히 전달해 주는 정도 에 머물러서는 안 된다. 이런 차원에 머무는 윤 리 교육은 피교육자의 내면적 변화를 불러일으 키기 힘들다. 한 사람에 있어 윤리에 대한 태도 는 그 인격의 근저에 자리잡고 있다. 따라서 윤 리에 대한 논의와 교육 역시 근본적인 차원에서 철저하게 이루어져야 성과를 거둘 수 있다.


이 논문에서는 의료 전문직을 중심으로 전문 직 윤리 교육의 두 과제를 밝힌 다음(II), 윤리 학에서 제시된 대표적인 윤리설인 의무윤리와 덕윤리가 전문직 윤리 교육에서 왜 모두 필요한 지 밝힐 것이다(III). 다음으로 논의를 덕윤리 로 좁혀서, 전문직의 도덕적 의무는 막중하다는 것과(IV) 이런 점이 초래할 수 있는 부정적인 면과 살핀 다음(V) 이런 부정적인 면을 극복 하게 해 주는 교육의 길을 덕윤리가 제시해 준다 는 점을 밝힐 것이다(VI).

 

II. 전문직 윤리 교육의 두 과제


전문직 종사자가 윤리적으로 올바르게 업무를 수행하려면 크게 두 가지를 갖추고 있어야 한다. 그 중 하나는 높은 수준의 도덕적 판단능력이다. 왜냐하면 전문인은 업무수행 과정에서 어떤 행 동이 도덕적으로 옳고 그른지 쉽게 판단할 수 없 는 복잡한 상황에 처할 때가 많기 때문이다.


<사례 1> K(52, 남자)는 약물에 반응 이 없는 중증 근무력증으로 5년째 중환자실에 서 인공호흡기 치료를 받고 있다. 병든 후에 부인도 떠나버리고 결혼한 아들은 미국으로 이민을 가서 연락도 되질 않는다. 환자는 전신 의 욕창 등으로 고통이 심하고 더 이상 삶의 의미를 찾을 수 없다며 인공호흡기 치료를 중 단하고 편하게 죽게 도와달라고 지속적으로 요구하고 있다……. 환자 치료 중 검사결과에 서 혈중 칼륨이 8.5 mEg/L로 나타나고 심전 도에서도 이상을 보여 치료하지 않으면 심장 마비가 초래될 가능성이 크다는 것을 알게 되 었다[3].  

 

이 사례에서 환자는 혈중 칼륨이 정상치보다 많아 심장마비의 위험이 큰 상태다. 따라서 의사 가 환자의 이 상태를 치료하지 않으면 환자는 그 의 소원대로 빨리 죽음에 이를 수 있다. 이때 과 연 의사는 치료를 하는 것이 옳은 일인가 치료를 하지 않는 것이 옳은 일인가.


이 환자를 치료하면 환자가 원하지 않은 고통 스러운 삶을 늘리게 되고 치료하지 않으면 환자 의 생명이 단축된다. 어느 쪽으로 선택하든 도덕 적으로 바람직하지 않은 점이 남는다. 이런 도덕 적 딜레마 상황에서 의사는 빠른 시간 내에 올바 른 판단을 내려야 한다. 그러려면 의사는 상당히 높은 수준의 윤리적 판단능력을 갖추고 있어야 한다. 따라서 의료윤리 교육은 이런 판단능력을 의사가 갖출 수 있게 해 주어야 한다[4].


하지만 의사 등의 전문인이 이런 높은 수준의 윤리적 판단능력을 갖추었다 해도 이것만으로 는 그가 윤리적으로 옳은 행위를 할 것이라고 확 신할 수 없다. 때로 전문인들은 누가 보아도 잘 못되었다는 것을 알 수 있는 행동을 하기도 하기 때문이다.


<사례 2> 당신은 의과대학의 내분비 내과 교수이다. 내과학회에서도 중요한 직책을 맡 고 있다. 외국에서 개최되는 국제학술대회에 참석할 계획을 가지고 있으며 더욱이 그 학회 에서 논문도 한 편 발표할 계획이다. 그런데 당뇨병 치료제를 생산 판매하는 한 제약회사 로부터 이 학회 참가에 드는 항공료 및 숙박비 를 제공받았다. 학회참가 기간 중에는 이 회사 의 영업담당 이사와 저녁식사 및 골프의 접대 를 받았다[5].


위의 사례는 가공된 것이지만 이와 유사한 경 우들이 현실에서 실제로 발생하곤 한다. 이 사례 에서 의사가 제약회사로부터 항공료와 숙박비, 식사와 골프 접대를 제안받았을 때 어떻게 행동 했어야 올바른지는 분명하다. 제약회사가 제시 한 것들은 의사가 진료 시 자기 회사 약을 처방 해 달라고 부탁하는 리베이트이다. 이 리베이트 를 받게 되면 의사는 환자에게 가장 도움이 되는 약 대신 이 회사의 약을 처방하게 되기 쉽다. 그 래서 결국 환자가 피해를 입게 된다.

이런 리베이트를 받지 말아야 한다는 것은 누 구나 쉽게 알 수 있다. 그럼에도 그 의사가 자신 의 앎과는 다르게 이 리베이트를 받은 것은 자기 에게 돌아오는 이익 때문이다. 이렇게 자기 이익 과 도덕적 행위가 충돌할 때 자기 이익을 포기하 고 도덕적 행위를 하게 해 주는 것을 도덕적 의 지라고 한다. 이 의사에게는 이런 도덕적 의지가 없었기 때문에 옳지 않은 행동인 줄 알면서도 그 행동을 한 것이다.


여기서 우리는 전문직 종사자에 대한 윤리 교 육은 그들이 높은 수준의 도덕적 판단능력과 함 께 강한 도덕적 의지를 갖추도록 해야 한다는 것 을 알 수 있다. 그런 전문인만이 올바른 행동을 할 수 있기 때문이다. 물론 올바른 행동을 위해 도덕적 판단능력과 도덕적 태도가 필요하다는 것은 어느 직종에서든 마찬가지이다. 하지만 전 문직의 경우 그것이 요구되는 수준이 훨씬 높다. 먼저, 앞에서 본대로 전문직에서 발생하는 윤리 적 문제는 아주 복잡하고 근본적인 것이 많기 때 문에 그만큼 윤리적 판단능력이 고도로 요구된 다. 예를 들어 종합병원의 의사는 다른 사람들이 일생에 한두 차례 맞닥트릴 정도의 심각한 딜레 마 상황을 하루에도 몇 번씩 겪는 경우가 있다.


다음으로 전문직은 비도덕적 행위의 유혹을 더 강하게 받는 직종이므로 이것을 이겨내려면 더 강한 도덕적 의지가 필요하다. 예를 들어 의 료 상황에 대해 의사가 아는 정도는 환자가 아는 정도보다 훨씬 많기 때문에 의사는 마음만 먹으 면 쉽게 과잉진료 등을 받도록 환자를 속여 이득 을 취할 수 있다.


그렇다면 전문직 윤리 교육은 어떻게 피교육 자가 고도의 윤리적 판단능력과 강한 도덕적 의 지를 갖도록 할 수 있는가? 이 과제 해결에 기존 의 윤리이론에서 어떤 도움을 받을 수 있는지 살 펴 보자.



III. 의무윤리와 덕윤리의 필요성


지금까지 윤리학에서 나온 여러 이론들을 크게 의무윤리(ethics of duty)와 덕윤리(virtue eth­ics)라는 두 종류로 묶어 볼 수 있다

  • 의무윤리여러 행위나 행위 규범 중에서 어떤 것이 도덕적 으로 옳은가에 대해 주로 논의한다. 이렇게 행위자의 행위에 초점을 맞추어서 윤리를 규명하려 하였으므로 의무윤리는 행위 중심 도덕이라고 할 수 있다. 근대 이후 윤리학의 두 축이었던 칸트 윤리학이나 공리주의로 대표되는 결과주의 윤리설이 모두 여기에 속한다.

  • 이에 대해 동서양을 막론하고 전통사회의 윤리설이었던[6] 덕윤리행위자가 도덕적으로 올바른 행동을 하려면 갖추어야 할 태도나 덕목 을 밝히고자 하였다. 이렇게 덕윤리는 행위자의 행위보다 행위자 자체에 우선 초점을 맞추었다. 그래서 덕윤리는 행위자 중심 도덕이라고 할 수 있다.


그런데 이 두 윤리설은 각자를 완결적인 윤리 이론으로 간주하는 경향이 있다

  • 먼저 의무윤리 는 행위의 도덕성을 규명함으로써 행위자의 도 덕성도 밝힐 수 있다고 있다고 본다. 반대로 

  • 윤리는 행위자의 도덕성을 규명하면 행위의 도 덕성도 알 수 있다고 생각한다

그래서 이 두 윤 리설은 서로 상대편을 자신과 보완적 위치에 있 는 것이 아니라 자신에 의해 극복되는 불완전한 이론으로 간주한다.


이런 경향은 전문직 윤리에 대한 논의에서도 그대로 나타나고 있다

  • 많은 의무윤리론자들은 전문직 행위의 도덕성 규명으로부터 전문인이 갖 추어야 할 자질이나 태도, 덕목 등을 도출할 수 있다고 본다. 가령 칸트주의자와 결과주의자들은 자신들의 이론적 체계에서 우정이란 덕목을 형 성할 수 있으며 이 덕목이 전문직 역할을 해명할 수 있는 이론적 토대를 제공할 것[7]이라고 주장 한다

  • 반면 덕윤리학자들은 전문인이 갖추어야 할 역할과 덕목이 분명해지면 그로부터 전문직 의 어떤 행위가 옳고 그른지는 어렵지 않게 판단 할 수 있다고 생각한다. 그래서 이론적으로 잘 전개된 덕윤리는 전문직의 역할을 이해하고 평가 하는 데 있어서 공리주의와 칸트의 접근에 대한 차이나고 설득력 있는 대안을 제공[8]한다고 본 다.


하지만 윤리 일반에서도 그렇듯이 전문직 윤리 에서도 의무윤리나 덕윤리는 그 자체만으로 완결 적이기 힘들다. 물론 두 윤리설의 관심은 포괄적 일 수 있다. “아리스토텔레스나 공맹의 덕윤리에 도 지성적인 도덕적 추론의 문제가 결코 소홀히 되지 않고 있으며 칸트주의나 공리주의적 의무의 윤리가 행위의 동기 문제에 관해서도 깊이 고심하고 있음 또한 사실[6]일 수 있는 것이다. 하지만 각 윤리설의 출발점이 된 행위와 행위자는 그 존재론적 특성 자체가 다르다. 따라서 그 하나에 초점이 맞추어진 윤리이론이 다른 하나도 똑같이 잘 해명해 주기는 어렵다. 이 점은 전문직에서 전문인의 행위와 전문인 그 자신의 도덕성 규명에서도 마찬가지이다. 이 점을 앞에서 본 사례 1과 사례 2의 경우를 통해 살펴보자.


사례 1에서 의사가 죽음을 바라는 환자의 고칼륨 증상을 치료하는 것과 치료하지 않는 것 중 어떤 행동이 옳은가라는 문제에 대해 의무윤리에서는 일정한 규범과 도덕적 추리 과정을 거쳐 결론을 내릴 수 있다. 물론 사례 1과 같은 딜레마 상황이라면 이 판단의 과정이 쉬운 것만은 아니며 또한 같은 의무윤리 내에서도 이론에 따라 결론이 달라질 수 있다. 하지만 적어도 그 결론에 이르는 과정이 논리적이고 엄밀한 추론의 과정을 거치므로 어떻게 해서 그런 결론에 이르렀는지 명확히 이해할 수 있다가령 행위 공리주의자라면 이 환자를 치료했을 때의 전체적인 결과와 치료하지 않았을 때의 전체적인 결과를 모두 계산하여 비교했을 것이므로 이 계산 과정이 올바른지 살펴볼 수 있다.


반면 덕윤리의 경우 의사가 갖추어야 할 덕목에 근거해서 사례 1에서 올바른 의사의 행동이 무엇인지 판단하려고 한다. 덕스러운 성품의 행위자가 그 상황에서 할 행동이, 그리고 그 행동만이 옳다[9]고 보는 것이다. 하지만 의사가 갖추어야 할 덕목을 가령 이타주의, 존중, 성실, 정직, 연민[10]이라고 밝혔다고 해도 이런 덕목으로부터 사례 1에서 의사가 어떻게 행동해야 올바른지 논리적으로 추론해 낼 수는 없다. 그래서 덕윤리에서는 결국 직관에 의존해 이 문제를 해결한다. 즉 덕목을 잘 갖춘 의사가 직관에 의해 도달한 판단이 옳다는 것이다. 하지만 아무리 덕목을 잘 갖춘 의사라고 하더라도 사례 1과 같은 딜레마 상황에서는 직관에 의존해서 쉽게 결론을 내리지 못한다. 오히려 덕을 잘 갖춘 의사일수록 이런 딜레마 상황에서는 당황하고 주저할 수도 있다. 그리고 판단을 내렸다고 하더라도 그 과정이 논리적인 추론의 과정이 아니어서 다른 사람들이 이성에 근거해서 그 과정에 대해 검토하거나 그 과정을 반복해 볼 수 없다.


이상을 볼 때 사례 1과 같이 전문인의 행위 중에서 도덕적으로 올바른 것은 무엇인가를 판단해야 하는 경우에는 의무윤리가 덕윤리보다 더 적합하다는 것을 알 수 있다. 따라서 의무윤리를 배제한 채 덕윤리만으로 전문직의 윤리를 규명하려는 태도는 잘못되었다는 것을 알 수 있다.


사례 2에서는 의사가 제약회사의 리베이트를 거부해야 도덕적으로 옳은 줄 알면서도 그렇게 행동하지 않는 것이 문제되었다. 이렇게 도덕과 자기 이익이 충돌하는 상황에서 의사가 도덕적으로 올바른 행위를 선택하도록 해 주는 도덕적 의지에 대해 덕윤리에서는 행위자가 어떤 덕목을 갖추어야 그런 의지를 갖게 되는지 구체적으로 제시해 줄 수 있다. 그리고 그런 덕목이 의사의 전 인격 속에서 어떤 위상을 차지하고, 다른 덕목들과는 어떤 관계에 있는지도 알게 해 준다. 더 나아가 그런 덕목이 어떻게 자기 이익이라는 인간의 강력한 본능적 욕구를 통제할 수 있는지와 그런 덕목을 어떻게 갖출 수 있는지에 대해서도 알려 준다.


반면 의무윤리에서는 도덕적 의지에 대해서 별 해명을 못하거나, 칸트가 선의지에 대해 말한 것처럼 추상적이고 형식인 설명만 제시하는 경향이 있다. 가령 도덕적 의지가 어떻게 자기 이익에의 강력한 욕구를 극복할 수 있게 해 주는가에 대해서 도덕적 의지는 자기 이익을 넘어서서 올바른 행위를 하려는 의지이므로와 같은 동어반복적인 설명만을 한다. 그리고 이런 도덕적 의지를 어떻게 갖출 수 있는지에 대해서도 충분한 설명을 해 주지 않는다.


이상을 볼 때 사례 2에서 제기되는 전문인이 자기 이익을 넘어서서 올바른 행위를 하려면 어떤 마음이나 태도를 갖추어야 하고 그것을 어떻게 갖출 수 있는가라는 문제 해결에는 의무윤리보다 덕윤리가 낫다는 것을 알 수 있다. 따라서 덕윤리를 배제한 채 의무윤리만으로 전문직의 윤리를 규명하려는 태도 역시 잘못되었다는 것을 알 수 있다.


의무윤리와 덕윤리는 모두 오랜 시간 동안 수많은 탐구와 논쟁을 거듭하며 축적되고 발전되어 왔다. 이런 역사적 사실만 보아도 이 중 하나로 충분하고 다른 하나는 불필요하다는 관점이 타당하지 않을 것이라는 점을 짐작할 수 있다. 실제로 오늘날 많은 윤리학자들은 의무윤리나 덕윤리는 어느 하나도 자립적이거나 자족적인 것일 수 없고 양자가 상보적인 지지를 통해 온전한 윤리체계를 구성할 수 있다는 결론에 이른다[6].


전문직 윤리의 교육에서도 이 점은 마찬가지이다. 사례 1에 대한 논의에서 짐작할 수 있듯이 

  • 전문직 윤리 교육 중 높은 수준의 도덕적 판단능력을 키우는 데는 의무윤리가 더 도움이 된다

  • 반면 강한 도덕적 의지를 갖게 만드는 데에는 덕윤리로부터 더 큰 도움을 받을 수 있다.



IV. 의료 전문직의 높은 도덕적 의무


전문직 윤리는 고도의 도덕적 판단능력과 강한 도덕적 의지를 요구하는데 이중 전자의 규명과 교육에는 의무윤리가, 후자의 규명과 교육에는 덕윤리가 도움이 된다는 것을 앞에서 밝혔다. 이제부터는 이 중 후자로 논의의 범위를 좁혀 덕윤리가 구체적으로 어떻게 전문인이 강한 도덕적 의지를 갖도록 하는 데 도움을 줄 수 있는지 살펴보고자 한다.

도덕적 의지는 도덕적 의무와 자기 이익이 갈등할 때 자기 이익을 포기하고 도덕적 의무를 수행하려는 마음자세이다. 전문직 종사자에게는 이 도덕적 의지가 더 확고해야 한다. 그 이유는 앞에서도 말했지만 전문직의 경우 도덕적 의무를 지키지 않고도 이것을 감추기 쉽기 때문이다. 다른 직종에서는 도덕적 의무 위반 시 이것이 다른 사람들에게 발각되어 비난과 불이익을 받기 쉬운데 전문직은 그렇지 않다. 전문직이 이렇게 외부의 시선을 피할 수 있는데도 의무를 위반하지 않으려면 도덕적 의지가 더 강해야 하는 것이다.


여기에 더해 전문인의 도덕적 의지가 더 확고해야 하는 또 다른 이유가 있다. 이것은 전문직에 요구되는 도덕적 의무의 수준이 상대적으로 더 높기 때문이다. 왜 그런지 의료 전문직의 경우를 들어 살펴보자


첫째, 의료 전문직은 인간의 생명과 건강이라는 아주 중요한 가치를 취급하는 직종이기 때문이다. 중요한 가치를 취급하는 만큼 그 행동이 다른 사람에게 미치는 영향도 크다. 그리고 영향을 크게 미칠수록 그에 따라 의무도 더 크게 된다. 비유한다면 같은 경비원이라고 해도 건축 자재를 지키는 경비원과 보물 상자를 지키는 경비원에게 요구되는 주의 정도는 같을 수 없는 것과 같다. 뒤의 경비원에게 훨씬 더 철저하게 경비 업무를 수행할 의무가 생긴다.


시간 지키기는 대부분의 직종에서 중요하다. 하지만 업무 시간에 늦었을 때 다른 사람에게 피해를 줄 수 있는 정도는 의사의 경우와 비교하면 대체로 작다.

 

다한증 환자에게 교감신경 절제수술을 하기로 하였다. 집도의의 사전 요청에 의해 다른 의사들이 먼저 환자의 피부 및 근육을 절개해 놓았다. 집도의는 예정 시간보다 늦게 수술실에 도착하였다. 환자는 수술 도중 뇌경색을 일으켜 사망하였다[11].


이 사례에서 보듯이 의사가 시간에 늦는 것은 다른 사람에게 생명 박탈이라는 치명적인 해악까지 미칠 수 있다. 그만큼 의사에게는 시간을 지켜야 할 의무가 강해진다. 이런 점은 다른 도덕적 의무들에서도 대개 마찬가지이다.


둘째, 의료 전문직은 사회로부터 상대적으로 많은 자율성과 권한을 보장받기 때문이다. 대표적인 것이 면허 제도이다. 이 제도로, 의사 면허를 가진 전문인은 환자 진료와 그에 대한 대가를 독점하게 된다. 여기서 더 나아가 의료 전문직은 의료시술 방법, 다음 세대 교육, 지침 위반자 처벌, 가격 책정 등의 면에서도 자율성을 부여받을 수 있다. 이런 큰 자율성과 권한은 의료 전문직에게 대신 높은 도덕적 의무를 부과하는 것을 정당화시킬 수 있다.



그런데 의료 전문직의 도덕적 의무를 크게 만드는 이 두 가지 조건은 최근에는 상대적으로 약화되었다고 볼 수 있다

  • 첫째, 의사는 여전히 환자의 생명과 건강을 다루지만 그것들에 미치는 영향력은 과거보다 줄어들었다. 과거에는 환자가 의사에 전적으로 의지하고 의사가 지시하고 결정하는 대로 따랐다. 그만큼 의사는 마치 부모가 그 자식에 대해 큰 책임을 갖듯이 환자에 대해 무거운 책임을 갖게 되었다. 하지만 오늘날에는 의사가 아니라 환자가 자기에게 가해질 의료행위에 대한 최종 결정권자로 간주된다. 즉 환자는 더 이상 의사의 지시를 수동적으로 따르는 존재가 아니라 의사로부터 충분한 설명을 들은 다음, 자신의 가치관이나 관심, 목표들에 비추어 무엇이 자기에게 최선인지 스스로 판단하여 최종적으로 선택을 행한다[12]. 그래서 이제 의사와 환자는 대등한 입장에서 함께 환자의 병을 치료해 나가는 동료의 관계로 묘사된다. 동료에 대해 갖는 책임의 정도는 부모가 자식에게 지는 책임보다는 작다. 그만큼 오늘날 의사의 환자에 대한 책임도 줄어들게 된다.

  • 둘째, 의사의 자율성과 권한 역시 예전에 비해 축소되는 경향이 있다. 물론 의사가 면허 제도를 통해 진료를 독점하고 있다는 점은 변함이 없다. 하지만 다른 자율성이나 권한에서는 그렇지 않다. 의료에서 소비자주의, 그리고 정부와 기업의 통제 강화로 의사의 전문적 권위가 쇠퇴하고 의료 문제에 대한 의사의 절대 권리가 줄어들고 있는 것이다[13]. 예를 들어 미국의 경우 1950년대 즈음을 의사의 황금기로 보고 있는데 황금기에 의사는 사실상 자신들의 노동에 대한 요금, 조건, 내용을 거의 완전하게 통제했다. 그들은 환자가 감당할 수 있을 만큼 자유롭게 청구했고, 얼마만큼 자선을 베풀지 혹은 누구에게 무료혜택을 줄지를 결정했다고 한다[14]. 하지만 지금은 민간 보험사 등과의 협상을 통해 가격이 정해지는 등 제약이 커졌다. 그리고 우리나라에서도 비슷한 변화가 있었다. 국민건강보험 제도 시행 이전에는 의사끼리 정한 관행 수가에 따라 환자에게 치료비로 받아왔으나 지금은 건강보험공단과의 협상을 통해 수가가 정해진다. 그런데 의사들의 주장대로라면 이 수가는 원가의 70%대에 머무르는 낮은 수준이다.


이렇게 최근 들어 의사와 환자 관계가 환자의 자율성 강화 쪽으로 변화하고 의사의 자율성과 권한은 축소되고 있다는 점은 의사의 도덕적 의무를 약화시킬 수 있다. 하지만 동시에 최근의 의료상황에서는 의사의 도덕적 의무를 강화시키 는 변화들도 나타나고 있다.

  • 첫째, 환자 치료에 필요한 지식과 기술의 양이 예전보다 방대해졌으며 그 증가 속도 역시 빠르다. 따라서 의사가 자기 환자에게 현재의 의학 수준에 뒤떨어진 치료를 하지 않으려면 과거보다 훨씬 많은 지식과 기술을 수련 과정 중에 습득해야 하며 수련 과정이 끝난 후에도 새로 등장하는 의학 지식과 기술을 뒤쫓아 배우는 것을 계속해야 한다.

  • 둘째, 의료를 둘러싼 환경이 예전보다 훨씬 복잡해졌다. 과거에는 의료 환경이 단순하여 의사는 주로 환자에게만 주의를 집중하면 되었다. 하지만 지금은 환자와의 관계 외에 환자 가족, 간호사, 의료기사, 병원관리자 등과의 관계도 적절하게 이끌어 나갈 수 있어야 한다. 그리고 질병의 양상에서도 가령 만성병의 급증 등으로 무엇이 환자에게 이득인지 판단하기 어려운 상황이 늘어났다. 이렇게 복잡해진 의료 상황은 의사의 합리적 의사결정 능력을 크게 요구하고 있다.

의사가 최선의 진료를 할 수 있는 지식과 기술을 습득하고, 의료 상황에서 만나는 문제들에 대처하는 합리적 의사결정 능력을 갖추는 것은 당연히 감당해야 할 의무이다. 이런 점에서 보면 의사의 의무는 오늘날 더 커져야 하며 그 정도는 의사의 권한 및 자율성 축소에 따른 의무 축소를 충분히 상쇄시키는 것으로 보인다. 다시 말해, 최근 들어 의사의 자율성과 권한은 약화되었지만 도덕적 의무의 크기는 그대로이거나 오히려 더 커졌다고 볼 수 있다.



V. 높은 도덕성 요구에 대한 전문직의 반발


의료 전문직이 가져야 할 도덕적 의무의 수준이 높은 만큼 의료계 밖의 사람들은 의사에게 이 높은 도덕적 의무를 감당할 것을 요구한다. 그런데 의사의 도덕적 의무가 크다는 것은 의사 사회 내부에서도 인정해 온 것이다. 이것은 의사단체들에서 공표한 각종 선언이나 강령, 지침 등에서 확인할 수 있다.


역사적으로 의사 단체들은 그들이 지고 있는 도덕적 의무를 스스로 분명하게 인식하고, 사회의 다른 구성원들에게 이를 준수하겠다는 점을 약속하기 위해 선언이나 강령, 지침 등을 공표해 왔다. 그런데 그 지침 등에 담긴 도덕적 의무의 수준은 대체로 상당히 높다. 가령 히포크라테스 선서를 변형한 제네바 선언에서는 나의 생애를 인류봉사에 바칠 것을 엄숙히 서약하고 있다. 또한 미국의학회에서는 의사가 갖추어야 할 요건을 이타주의, 신의, 성실, 돌봄과 연민, 존중, 책임감, 책무감, 수월성과 학문, 리더십으로 들고 있다. 우리나라의 경우 2006년에 의사윤리강령이 개정되었는데 그 개정 전 강령의 일부를 보면 다음과 같다.


의사는 세상에서 가장 고귀한 사람의 생명과 건강을 보전하고 증진하는 숭고한 사명 수행을 삶의 본분으로 삼는다.

의사는 그러한 숭고하고 명예로운 사명을 인류와 국민으로부터 부여 받았음을 명심하여 모든 의학 지식과 기술을 오직 인류와 국민의 복리 증진을 위하여 사용한다…….


하지만 선언 등에 표명된 이런 높은 수준의 도덕적 의무에 대해 현재 우리나라 의사들의 상당수는 냉소적 태도를 보이거나 반발하고 있다. 가령 수련의나 의대 학생들은 나의 이익을 남의 이익에 종속시키는 것을 이해하기 어렵다. 민주주의 사회에서 개인의 자기보호 권리를 박탈하는 것, 자기희생적 봉사(selfless service)라는 것은 결국 의사만 지쳐 빠지게 만드는 것, 교묘한 환자로부터 의사만 착취당할 빌미를 제공하는 것이라는 등 반발하고 있다고 한다[15].


도덕적 의무가 높다는 것은 그만큼 도덕적 완성을 향한 도덕적 추구를 많이 해야 한다는 것을 의미한다. 그리고 도덕적 추구를 많이 한다는 것은 그 자체만 보면 바람직한 일이다. 그런데도 왜 의사들은 높은 도덕적 의무에 대해 반발하는 것일까? 이 점을 알기 위해서는 자기 이익 추구와 도덕적 추구의 관계에 대해 생각해 볼 필요가 있다.


대부분의 사람들은 행동을 할 때 자기 이익도 추구하고 도덕적 추구도 한다. 예를 들어 음식점 주인이 음식을 팔면서 들어간 비용보다 더 많은 금액을 손님에게서 받는 것은 자기 이익을 추구하기 때문이다. 그러면서도 손님이 모를 때라도 가급적 손님 몸에 안 좋은 재료는 쓰려 하지 않은 것은 도덕적 추구도 하기 때문이다.


인간의 이 두 가지 추구는 모두 인정되어야 한다. 자기 이익 추구는 인간 본능 속에 자리 잡은 근본 동기이기 때문이고, 도덕적 추구는 행위를 정당화시켜주는 원천이기 때문이다. 하지만 도덕적 추구와 자기 이익 추구는 상반되는 경우가 적지 않으므로 다음과 같은 방식으로 통합시켜야 한다. 즉 자기 이익을 추구할 때는 도덕적 의무를 위반하지 않는 내에서 해야 하고, 도덕적 추구를 할 때는 도덕적 의무까지는 반드시 해야 하지만 그 이상은 각자의 선택에 맡기는 것이다[16]. 따라서 어떤 사람이 자기 이익을 희생해 가면서 도덕적 추구를 하는 경우 이것은 우러러볼 만한 일이지만 그렇게 하지 않는다고 비난해서는 안 된다.


물론 오직 도덕적 추구만을 해야 하는 사람들이 없는 것은 아니다. 자기를 버리고 평생 봉사하기로 서약한 특정한 수도회 같은 집단의 성원이 그러하다. 하지만 의사 집단을 그렇게 볼 수는 없다. 의사는 다른 대부분의 사람들과 마찬가지로 도덕적 추구와 자기 이익 추구를 모두 할 수 있는 직업인으로 보아야 한다.


그 이유는 

  • 첫째, 의사의 업무가 도덕적 추구만을 하는 사람만이 아니라 도덕적 추구와 자기 이익 추구를 통합적으로 하는 사람도 잘 수행할 수 있는 일이기 때문이다

  • 둘째, 도덕적 추구만을 행하는 사람이 의사를 해야 한다는 합의나 약속 같은 것이 의사 단체나 사회에서 이루어져 있다고 보기 힘들기 때문이다

  • 셋째, 도덕적 추구만을 하는 사람을 의사로서 자격이 있는 것으로 간주할 때 사회에서 필요한 의사보다 훨씬 적은 수의 의사만을 확보할 수 있기 때문이다.


그런데도 기존의 의사 선언이나 강령 중에는 마치 의사가 도덕적 추구만을 해야 하는 것처럼 표현된 것들이 있다. 제네바 선언의 나의 생애를 인류봉사에 바칠 것이라는 표현이나 개정되기 전 우리나라 의사 강령의 모든 의학 지식과 기술을 오직 인류와 국민의 복리 증진을 위하여 사용한다와 같은 표현들이다.


의사들이 의사선언이나 강령 등에 나타난 높은 도덕적 의무에 반발하는 것은 우선 이런 표현들 때문이다. 이런 표현은 의사의 도덕적 의무는 자기 이익 추구를 불가능하게 할 만큼 높아야 한다는 뜻으로 읽힐 수 있다. 이런 뜻일 때 그것은 도덕적 추구와 함께 자기 이익도 추구할 수 있는 의사의 권리를 부정하게 된다. 그리고 이런 권리 부정에 대해 의사들이 반발하는 것은 정당하다. 하지만 실제로는 의사의 도덕적 의무가 크긴 하지만 자기 이익을 포기하고 도덕적 추구만 하기를 요구하는 정도는 아니므로, 의사 선언이나 강령, 지침 등도 이런 점에 맞게 엄밀하게 표현되도록 할 필요가 있다.


그런데 의사 윤리 지침 등에 반발하는 의사 중에는 의사의 도덕적 의무가 상당히 크다는 그 점 자체를 인정하지 않는 사람도 있다. 그들이 보기에 의사는 여러 직업 중의 하나이다. 따라서 의사의 도덕적 의무 역시 다른 직업들의 도덕적 의무와 다를 바가 없어야 한다는 것이다.


하지만 앞에서 설명했듯이 의사직의 본질 등을 따져 볼 때 의사의 도덕적 의무가 보통의 다른 직업들보다 크다는 점은 부정하기 힘들다. 의사 역시 다른 직업과 마찬가지로 자기 이익 추구와 도덕적 추구를 모두 해나갈 수 있는 직업이지만 이때의 도덕적 추구의 정도는 다른 평균적인 직업들에 비해 커야 한다. 의사가 이 점까지 부정하려는 것은 정당화될 수 없다.



VI. 의료 전문직의 행복과 덕이론


의사의 도덕적 의무는 크다. 최근 들어 의사의 자율성과 권한은 약화되는 경향이 있는 반면 그 도덕적 의무의 크기는 줄지 않았다. 이런 오늘날의 상황은 의료 전문직이 도덕적 추구는 많이 요구받고 자기 이익 추구는 하기 힘든 직종으로 보이게 한다. 그래서 자기 행복을 중시하는 의사들 중에서는 의사직이 더 이상 그들이 원하는 만큼의 행복을 줄 수 없는 직업이 아닌지 회의하는 사람들이 적지 않다. 실제로 오늘날 우리나라 의사들의 직업 만족도는 크지 않다. 통계에 따라 차이가 크기는 하지만 의사의 직업 만족도가 170개 직업 중 뒤에서 두 번째로 낮게 조사된 통계도 있다. 교육인적자원부와 한국직업능력개발원이 발간한미래의 직업세계 2007이란 책자에 따르면 의사는 조사 직업 170개 중 모델에 이어 직업 만족도가 두 번째로 낮은 직업으로 조사되었다. 다른 나라 의사들과 비교해도 우리나라 의사들의 직업 만족도는 뚝 떨어진다. 지난 2008년 다국적 제약회사가 북미유럽아시아 등 13개국 의사 1,741명을 대상으로 조사한 결과 우리나라 의사들의 직업 만족도는 최하위인 12위를 기록했다. 그리고 의료정책연구소에 따르면 2011내 직업에 만족한다는 개원의들의 34.1%에 불과했다.


이런 상황에서 의사들이 자기 이익을 증진시키는 방안으로 생각할 수 있는 한 가지는 정부와 사회를 설득시키거나 때로는 저항해서 그들의 직업적 자율성과 권한을 예전처럼 회복하는 것이다. 하지만 이것은 시대의 흐름상 쉬운 일이 아니다. 앞으로 의료에서 의료 기기나 제약 산업이 차지하는 비중이 계속 늘어나고, 환자의 자율성은 더 커질 것이다. 또한 의료비 상승 등에 대처하려고 정부의 의료에 대한 개입은 강화될 것이다. 그에 따라 의료가 의사에 의해 좌우되는 정도는 늘기보다는 줄어들 것이다.


그렇다면 이제 의료 전문직은 도덕적 의무는 크고 자기 행복의 여지는 작은 그런 직업일 수밖에 없는가? 그래서 의사는 큰 도덕적 의무를 감당하기 위해 자기 행복을 희생할 각오가 되어 있어야 하는가? 이에 대해 덕윤리는 꼭 그럴 필요가 없다는 것을 보여준다. 덕윤리는 오늘날의 의사들이 높은 도덕적 추구를 감당하면서도 자기 행복도 잘 추구할 수 있는 길을 제시해 준다. 덕윤리에 따르면 덕은 도덕적으로 바람직한 것이면서 동시에 행복을 느끼게 해 주는 상태이기 때문이다. 유덕한 사람은…… 고귀한 것들을 행하면서 즐거움을 느끼고 그것을 하지 못할 때 고통을 느낀다.”[17] 고통이나 상실감을 느끼거나 주저하는 등 감정의 갈등을 겪으며 옳은 행동을 하는 사람이 있는 반면 흔쾌히 그리고 기쁜 마음으로 올바른 행동을 하는 사람이 있다. 이 중 후자가 덕을 갖춘 사람이다. “유덕한 인격이 된다는 것은 올바른 행위가 무엇인지 파악할 뿐 아니라 그 행위로 즐거움을 누리는 방식으로 성품이 발달한 것을 의미한다.”[6]

 

이렇게 덕윤리는 높은 도덕적 추구와 큰 행복이 통합될 수 있다는 것을 보여준다. 따라서 의사의 경우도 의사에게 요구되는 큰 도덕적 의무가 자기 행복 추구의 여지를 줄이기보다 오히려 늘릴 가능성이 없는지 따져 보아야 한다. 먼저 아픈 환자를 정성껏 잘 보살피고 치료해 줄 의무에 대해 생각해 보자. 이런 의무를 수행하는 것은 정신적, 육체적으로 큰 노력을 요하는 어려운 일이다. 하지만 환자와의 상호작용에서 기쁨을 얻고 환자의 회복에서 보람을 느낀다면 이런 의무 수행은 동시에 큰 행복이 될 수 있다. 특히 질병 치료는 어떤 다른 일보다 크게 다른 사람을 도울 수 있는 일이므로 다른 사람을 돕는 데서 행복을 느끼려 한다면 이런 행복을 가장 잘 느낄 수 있는 곳이 의료현장이다.


오늘날의 의사에게 특히 중요해진 새로운 의학지식과 기술을 평생 습득해야 할 의무에 대해서도 생각해 보자. 이런 의무는 지적 탐구를 싫어하는 사람에게는 엄청난 고역으로 다가올 것이다. 하지만 계속해서 새로운 것을 배워 나가는 것에서 깊은 만족을 느끼는 사람들도 있다. 학자들이 대개 그러하다. 따라서 의사 역시 학자와 같은 태도를 갖추게 된다면 이제 평생 학습은 무거운 도덕적 의무인 동시에 자기 행복의 원천이 될 것이다. 더군다나 의사는 이렇게 되기에 좋은 조건에 있다. 의사가 맞닥뜨리는 질병은 일종의 문제로서 의사의 탐구 정신을 자극할 수 있다. 또한 의사는 자신이 배운 것이나 생각한 낸 것을 바로 환자에게 적용시켜 봄으로써 그 타당성을 검증할 수 있다. 그리고 주로 정신만을 사용하는 이론적 학문에 비해 의사는 정신과 육체를 모두 사용함으로써 지치지 않고 활기차게 탐구를 해 나갈 수 있다.


물론 높은 도덕적 추구와 행복 추구를 이렇게 동시에 하는 것이 쉽게 되는 일은 아니다. 가치 중에는 재화나 지위 등과 같이 그로부터 쉽게 행복을 느낄 수 있는 것이 있다. 반면 처음에는 행복을 느끼기 쉽지 않지만 일단 느낄 수만 있다면 훨씬 깊은 행복을 느끼게 해 주는 질 높은 가치도 있다. 남을 돕는 데서 느끼는 행복이나 지적 탐구에서 느끼는 행복이 바로 여기에 속한다.


사람들은 질 높은 가치를 처음 접할 때는 힘듦이나 따분함만을 느끼기 쉽다. 그래서 많은 사람들은 질 높은 가치를 외면하고 손쉽게 행복을 느낄 수 있는 가치에만 주력하게 된다. 이것은 왜 많은 의사가 어떤 직종보다 질 높은 가치를 쉽게 획득할 수 있는 조건이면서도 이런 가치에서 행복을 느끼지 못하고 있는지의 이유이기도 하다.


그렇다면 어떻게 해야 질 높은 가치들에서 행복을 느낄 수 있을까? 여기서 다시 덕윤리의 도움을 받을 수 있다. 덕윤리는 질 높은 가치 추구인 덕이 행복도 느끼게 해 준다는 사실을 알려줄 뿐 아니라 이 덕을 습득할 수 있는 조건이나 방법도 제시해 준다. 예를 들어 아리스토텔레스는 덕은 실행해 봄으로써 배울 수 있는데 가장 좋은 실행은 덕스러운 사람을 모델로 삼아 따라하는 것이라고 제시한다[18]. 덕을 배우는 이런 조건과 방법은 바로 질 높은 가치로부터 행복을 이끌어 낼 수 있는 조건과 방법이기도 한 것이다.


의사가 질 높은 가치로부터 행복을 이끌어 낼 수 있게 되었을 때 의사는 막중한 도덕적 의무를 기꺼이 수행하려고 할 것이다. 왜냐하면 의사의 도덕적 의무에 해당하는 일들은 그 본질상 높은 가치를 추구할 수 있는 일들이어서, 질 높은 가치로부터 행복을 이끌어 낼 수 있는 의사는 도덕적 의무 수행에서 행복을 느낄 수 있기 때문이다. 이렇게 질 높은 가치로부터 행복을 이끌어내는 조건과 방법에 대한 덕윤리의 해명에서 의사가 높은 도덕적 의무를 감당하려는 의지를 갖게 되는 조건과 방법이 무엇인지 알 수 있다.

 


VII. 결론


의료 전문직의 경우에서 알 수 있었듯이 전문직 윤리 교육은 전문인에게 고도의 도덕적 판단능력과 강한 도덕적 의지를 모두 갖게 해야 한다. 이 중 도덕적 판단능력을 키우는 데는 의무윤리가, 강한 도덕적 의지를 갖게 하는 데는 덕윤리가 도움을 줄 수 있다. 그리고 전문직의 도덕적 의무가 크다는 점이 전문인의 자기행복추구를 위축시키는 것 아닌가라는 우려는 덕윤리가 해소시켜 줄 수 있다.


이렇게 이 논문에서는 전문직 윤리의 규명과 교육에서 의무윤리와 덕윤리가 어떤 역할을 할 수 있는지를 의료 전문직을 중심으로 개괄하였다. 의무윤리나 덕윤리에 속하는 수많은 이론들 중에서 가장 타당한 이론을 찾아내고, 그 이론을 이용하여 실제로 엄밀하게 전문직 윤리를 구축해 나가는 작업은 앞으로 이루어져야 할 것이다. 그런 과정 중에 높은 도덕적 판단력강한 도덕적 의지라는 전문직 윤리의 두 과제를 모두 잘 해결할 수 있는 완결된 이론이 의무윤리나 덕윤리의 한 진영에서 발견될 가능성도 배제할 수는 없다. 하지만 이 논문은 그럴 가능성보다는 의무윤리와 덕윤리를 통합해야 비로소 전문직 윤리가 완성될 가능성이 더 크다는 것과, 그러므로 이 둘 모두에서 지혜를 빌리려 하는 것이 현명하다는 것을 보여준다. 비유하자면 이 논문의 의의는 전문직 윤리의 정립을 위해 어떤 보물창고부터 뒤져야 할지 그 문 앞까지 연구자를 데려다 놓는 데 있다.



한국의료윤리학회지 제17권제1호(통권 제39호) : 72-84 ⓒ한국의료윤리학회, 2014년 4월

Korean J Med Ethics 17(1) : 72-84 ⓒ The Korean Society for Medical Ethics, April 2014


The Role of Virtue Ethics in the Study and

Teaching of Medical Professional Ethics

YOU Ho-Jong*


Abstract

This article examines the ethics of duty and virtue ethics in the teaching and study of professional ethics, with a focus on medical professional ethics. Because of the nature of the profession, medical practitioners should have expertise in moral decision-making and a strong moral will. This article argues that the former concept can be investigated and taught effectively in terms of the ethics of duty, whereas the latter concept is better understood in terms of virtue ethics. Additionally, this article describes in more detail the role of virtue ethics in professional ethics, claiming that medical practitioners should strive, not only to meet their moral duties, but also to flourish in their profession. Virtue ethics shows the method for achieving this.

Keywords

ethics of duty, virtue ethics, professional ethics, doctors, ethical judgment, moral will

의료 전문직의 자율성과 자율성 확보를 위한 실천 방안*

김도경**, 권복규***

 

 


 I. 서론


전문직은 오랜 기간 동안의 훈련을 받으며, 상당한 지적 요소를 갖추고 이를 이용하여 사회에 중요한 서비스를 제공하는 직업군이다.1) 대부분의 전문직들은 대상 집단과 사회에 대한 의무를 지니고 그에 대해 직업적 자율성과 재량권을 보장 받으며, 자신의 조직을 관리, 유지하기 위한 내부적 윤리강령을 가지고 스스로를 규제한다. 의사는 역사적으로 가장 대표적인 전문직의 하나이다. 전문직으로 의사들은 환자의 치료와 관련된 서비스를 사회에 제공하며, 이에 대해 사회는 환자 치료 영역에서 의사들의 자율성을 보장해 주었다. 사회의 신뢰와 자율성을 확보하고 유지하기 위해 의사들은 또한 내부적 윤리지침을 제정하여, 자체적으로 스스로를 통제하고 정화하려고 노력해 왔다. 이러한 모든 것, 의사의 역할, 책임, 자율성, 윤리지침 등을 아울러 우리는 의학전문직업성이라고 한다.

 

 의료가 환자-의사 중심으로 이루어졌을 때, 의학전문직업성에서 가장 강조되는 가치는 환자에게 이익이 되도록 하는 것과 관련이 있다. 사회는 의사들이 환자에게 선행을 베풀 것이라는 신뢰하에 의사들에게 환자 진료에 대한 자율성을 인정해 주었다. , 의료 전문직의 자율성 논의는 환자 진료에서 의사의 역할과 권위를 강화시키는 것이 아니라, 의사들의 재량권 보장이 환자에게, 그리고 더 나아가 사회에 이익이 되도록 하는 데에 있다.


의료사회가 환자-의사-3지불자 중심의 계약관계로 변하고, 환자와 제3지불자의 권한이 증대되면서 사회의 요구가 변화하고 있다. 의사들은 단순히 환자에게 이익을 주는 것뿐만 아니라 제한된 의료자원 내에서 가능한 한 많은 사람들의 보건 욕구를 충족시켜주어야 하는 역할을 해야 하는 것이다. 기존의 의료 전문직의 자율성 개념은 의사들의 새로운 역할을 모두 담아내지 못하며 때로 갈등을 야기하기도 한다. 이 논문에 서는 계약관계의 변화에 따라 달라진 의료 전문 직의 자율성을 제안하고, 이를 보장받기 위해 의 사들이 어떠한 노력을 해야 하는지 살펴보도록 할 것이다.



II. 본론


1. 의료사회 변화에 따른 의료 전문직 자율성의 변화


1) 의료 전문직의 고전적 자율성 개념


전문직의 자율성에 대해 다양한 해석이 있으 나, 전문가의 역할과 관련하여 의료 전문직의 자 율성은 주로 의사가 환자에게 최선의 이익이 되 는 치료를 제공하는 데 있어 외부의 압력에 자유 로워야 한다는 것으로 풀이된다.2,3) 의료 전문직 의 자율성은 환자 치료를 통해 의료 전문직이 공 동체의 선을 증진하는 데 기여할 것을 기대하며 사회가 의사들에게 보장해 주는 재량권이라고 할 수 있다.

 

의료 전문직의 자율성을 보장받기 위해 의사들 은 무엇보다도 환자의 신뢰를 얻어야 한다. 환자- 의사 관계는 일종의 계약관계이다. 계약관계는 계약 당사자 사이에 합의된 규칙으로 구성되어 있으며, 계약은 규칙을 잘 지킬 것이라는 신뢰하 에서 성립된다. 환자-의사 관계에서의 규칙은 환 자는 치료를 위해 정보를 제공하고, 치료 과정에 협조하며, 비용을 지불하며, 의사는 자신이 가진 의학적 지식과 기술을 이용하여 환자에게 이익이 되도록 의료를 제공하는 것이라 할 수 있다. 이 관계에서 신뢰를 지키기 위한 노력은 일반적인 계약관계에 비해 특히 중요하다. 그 이유는 계약 당사자인 환자-의사 관계가 비대칭적이기 때문 이다. 의사는 환자 치료와 관련된 전문적 지식과 기술을 가지고 있으며, 환자는 정도의 차이가 있 으나 의사의 도움이 필요한 취약한 상태에 있다. 때로 환자들은 자신이 받는 치료를 다 알지 못하 고, 치료가 잘되고 있는지 그렇지 않은지조차 판 단할 수 없는 상황에 처하기도 한다. 그들은 치료 를 시행한 의사들의 설명에 의존하여 치료 경과 를 이해한다. 만약 치료 과정 중에 의구심이 생기 고, 문제가 발생하였다 하더라도, 그 상황을 해결 하기 위해서는 환자는 다른 의사나 의사 집단을 찾아 자문을 구하는 수밖에 없다. 다시 말해 환자 들은 의사의 도움이 필요한 취약한 상태로 의사 와 계약을 맺으며, 계약에서 합의된 규칙이 이행 되고 있는지조차 판단하는 데 어려운 입장에 있 다. 이러한 상황에서 환자-의사 관계 유지를 위해 신뢰는 필수적이다. 환자들은 의사가 자신을 위 해 최선을 다할 것이라는 믿음이 있기 때문에 의 사를 찾아가고, 그들에게 자신을 맡긴다. 만약 환 자-의사 사이에 신뢰가 없다면, 환자들은 의사를 찾지 않을 것이며, 치료를 받더라도 자신이 해를 당하게 될 것을 걱정하여 의사들의 행동 하나하 나에 의심을 가지게 될 것이다.

 

의사 집단이 사회와의 관계에서 확보한 의료 전문직의 자율성은 실제 개별 의사의 환자 치료 과정에 적용되며, 환자-의사 계약관계에서의 규 칙과 신뢰를 유지하기 위해 제약받는다. 의사들은 개별 환자를 치료함에 있어 환자에게 이익 이 되는 의료 내용을 선택할 자유를 의료 전문직 의 자율성으로 여긴다. 따라서 의사들은 환자에 게 도움이 된다고 판단되는 진단과 치료를 제공 하기 위해 환자를 설득하고, 환자의 무리한 치료 요구를 거절하기도 한다. 실제 이것은 의사들의 권한과 동시에 책무이다. 의료 전문가의 자율성은 절대적이지 않으며, 법뿐만 아니라 환자의 권리, 의료전문직업성에서 제시하는 여러 가지 의사의 의무에 의해 제약을 받는다.4)


2) 의료사회 변화에 따른 의료 전문직의 위상


지금까지의 의학전문직업성이나 의사의 선행의무 이행에 대한 자율성 보장은 의료의 계약관계가 환자-의사 중심이었을 때에 이루어진 것이다. 하지만 3지불자의 등장과 환자의 권한 강화로 의료의 계약 관계가 변하면서 진료에 있어 의사들의 재량과 자율성의 위상이 크게 위축되었다.


의료 전문직의 역사를 계약의 성립과 변화의 역사라고 표현한 더핀(Duffin J)5)19세기에 경외와 존경의 대상이었던 의사가 20세기 이후 환자들의 신뢰를 잃고 자율성과 통제성을 상실하게 된 이유를 다음의 다섯 가지로 설명하였다

    • ① 의학 지식의 오류,
    • ② 지식보다는 정보 위주의 의학 내용의 증가
    • ③ 의사들에 대한 불신
    • ④ 권리로서의 치유
    • ⑤ 제3지불자의 개입

19세기 중반 이후, 임상의학이 발전하고, 유명한 내외과 의사들이 등장하며, 전문과목이 출현하면서 의사들이 사회적 권위와 신뢰는 의학 역사상 어느 때보다도 높아졌다. 하지만 의학의 발전으로 옳다고 여겼던 지식에 오류가 발견되고, 밝혀진 의학적 내용들이 상충하면서 의학에 대한 불신이 자라나기 시작하였다. 의학지식뿐만 아니라 의사들의 의료 행위에서도 오류와 실수가 드러나면서 신망의 대상이었던 의사에 대한 사람들의 믿음이 약해졌다. 여기에 의료혜택을 받는 것이 시민의 기본적 권리로 인식되고, 환자의 자율성이 가장 중요한 윤리적 원칙으로 강조되면서 환자-의사 사이의 계약관계는 급속도로 변화하였다.6) 기존의 의료진에 의한 온정적 간섭주의는 지양해야 할 것으로 여겨지게 되었으며 극단적으로 환자-의사 사이의 관계가 고객과 의료 제공자 사이의 계약관계로 그려지는 상황까지 벌어지게 된 것이다.


의료 전문직의 자율성이 가시적으로 위협받게 된 결정적 계기는 제3지불자의 등장이라고 할 수 있다. 최초의 강제적 국가 보험은 1883년 독일에서 노동자들의 건강불평등을 해소시켜 정권을 안정시키려는 목적으로 시작되었다. 이 당시 의료의 수준은 마취와 소독제를 사용한 수술이 시행되던 초창기로, 임상 진단에 체온계가 갓 이용되기 시작하였고, 수천 년 전부터 내려오던 사혈, 동종요법이 여전히 중요한 치료방법의 하나로 여겨지는 정도였다. 그 후 약 100년 사이 과학으로서의 의학이 임상에 적용되면서 의료에 획기적 변화가 일어났다. 고가의 치료제, 진단과 치료를 위한 최첨단의 의료 기술과 기기가 등장하였으며, 지금도 계속 개발되고 있다는 것이다. 날마다 달라지는 의료의 발전은 사람들에게 질병 퇴치의 희망을 주었고, 2차 세계 대전 이후 빠르게 경제적인 부를 획득한 많은 선진국들은 국가 차원에서 이러한 의료를 국민들에게 제공하고자 하였다. 하지만 환자의 권리의식 확대, 고가 의료 기기와 기술의 발전으로 의료비는 예상을 초월하여 증가하게 되었다. 질병은 없어지지 않고 급성에서 만성으로 양상이 변화하면서 사람들은 평생 동안 질병을 의식하며, 지속적인 의 료 서비스를 필요로 하게 되었다. 정권의 안정을 위해 도입된 국가 보험이 비용의 증가로 인해 국 가 재정에 심각한 부담으로 작용하게 된 것이다.


3지불자는 보건의료 관리자로서, 환자, 의사 사이에 발생한 의료에 대한 지불자의 의무를 지 닌다. 하지만 한정된 자원 내에서 기하급수적으 로 증가한 보건의료를 감당하기 위해 제3지불자 는 환자와 의사가 합의한 의료 내용을 평가하여 적당하다고 판단되는 경우 비용을 지불하며, 의 료를 통제하는 역할을 담당하게 되었다. 수년 전 부터 법정 공방이 끊이지 않는 임의 비급여 문제 는 표면적으로 환자 또는 환자 집단과 병원과의 갈등으로 보이나, 본질적으로 의료를 제공하는 의사와 의료비를 억제하려는 제3지불자의 갈등 이라고 할 수 있다.7) 의사들이 환자에게 이익이 될 것을 기대하고 시행한 보험급여 밖의 치료 행 위에 대해 제3지불자가 그 발생한 비용을 환자 에게 청구하는 것을 부당청구로 규정한 것이다. 캐나다의 경우 의사들은 의료보험이 적용되지 않는 치료에 대해 수가를 청구할 권리를 주장하 며 파업까지 강행하였으나 역시 부당청구로 매 도되었으며, 파업 사태는 오히려 포괄적인 수가 인하로 일단락되었다.8) 결국 의료 전문직의 자 율성은 환자의 이익을 위해 환자-의사 계약관계 에서 고려해야 했던 법, 환자의 권리, 치료에 대 한 의사의 의무 등의 요소 외에 제3지불자가 등 장하면서 보험의 제약을 받게 되었다. 의사들의 선행은 제3지불자가 정한 범위 내에서 합당한 것으로 인정받게 되었고 환자 치료를 위해 외압 에서 자유로워야 한다는 의료 전문직의 자율성 은 제3지불자의 간섭으로 퇴색되었다.


3) 변화된 계약 관계에서 요구되는 의료 전문직 의 자율성


의료가 환자, 의사, 3지불자의 계약관계로 구성되고, 환자와 제3지불자의 권한이 증가하면 서 의학적 의사결정에 새로운 갈등들이 나타나 고 있다

    • 대부분의 환자들은 최대한의 치료, 양 질의 치료를 받기 원한다
    • 반면 비용을 줄이려고 노력하는 제3지불자는 비용이 적게 나가는 치 료, 보험급여 내의 치료를 적당한 의료라고 생각 한다
    • 의사들은 치료의 양과 질을 떠나 환자에 게 이익이 되는 치료가 올바른 치료이며, 제공되 어야 하는 치료로 생각한다

각자의 입장에 따라 추구하는 의료의 내용이 달라지는 것이다. 같은 의료 자원을 가지고 다른 욕구를 충족시켜야 하 는 상황에서 갈등은 피할 수 없다. 특히 최선의 치료를 원하는 환자와 최소의 치료를 추구하는 제3지불자의 권한이 강화되면서 의료에서의 갈 등은 점점 심화되고 있다.


이러한 갈등 상황에서 의사의 역할은 중요하 다. 환자와 제3지불자가 의사와 직접적인 관계 를 맺기 때문이다. 상반된 입장에 있는 환자와 제3지불자는 서로 대면하지 않는다. 그들은 의 사를 만나며, 의사에게 각자의 입장을 표출할 뿐 이다. 두 당사자 사이의 불만은 의사를 향하며, 환자와 제3지불자의 갈등이 환자와 의사 사이의 갈등으로 전환되기도 한다. 의사들은 자신의 의 학적 소견에 환자와 제3지불자의 주장을 고려하 여 가장 바람직한 접점을 찾아야 한다. 의사가 이러한 조율의 역할을 하지 못한다면 의사를 포 함한 환자, 3지불자의 관계는 악화되며, 개선 될 여지를 찾을 수 없게 될 것이다.

 

<그림 1> 의료 계약관계 변화에 따른 의료 전문직 자율성 확보의 조건의 변화.

 


보험제도의 등장으로 환자 진료에 3지불자의 개입이 불가피한 상황에서 제3지불자를 외압으로 보는 시각은 환자-의사-3지불자 사이의 갈등을 더 어렵게 한다. 의사들은 환자-의사-3지불자 관계의 의료 구조에서 환자에게 이익이 될 것이라고 여겨지는 의료와 그 의료 행위를 둘러싼 삼자의 입장을 고려하여 의사결정을 내려야 한다. 변화된 계약관계에서 의료 전문직의 자율성이란 이러한 숙고된 판단을 이행할 자유를 의미한다고 할 수 있다.


의사의 숙고된 판단이 존중받기 위해서는 의사의 판단이 환자와 제3지불자 모두에게 이익을 줄 수 있어야 하며, 의료 전문직으로서의 신뢰를 얻기 위해서는 그 판단이 환자와 사회의 이익을 위한 것이라는 사회적 믿음을 확보해야 한다. 의사는 자신의 편견이나 이익이 아닌 환자와 제3지불자의 입장이 반영된 윤리적 원칙을 이용하여 갈등의 해결책을 찾아야 한다. , 환자 입장에서의 자율성 존중과 선행의 의무, 3지불자 입장의 분배 정의 원칙들이 의사결정에 잘 반영되도록 해야 한다는 것이다<그림 1>. 환자와 제3지불자는 이러한 원칙하에 합리적으로 내린 의료 전문직의 숙고된 판단을 존중해 주고, 자신의 입장을 수정하여 갈등이 해결될 수 있도록 도와야 한다. 환자와 제3지불자 사이에 내린 의사의 판단이 두 입장을 주장을 충분히 반영한 것이라면, 이 결정의 존중은 자신과 다른 당사자를 함께 존중하는 것이기 때문이다.


4) 의사의 이중 역할(치료자, 관리자) 이행과 의료 전문직 자율성


환자-의사-3지불자의 관계에서 발생하는 갈등은 의사의 치료자, 관리자 역할의 상충과 밀접하게 관련된다. 치료자와 관리자의 역할이 환자와 제3지불자를 대변한다고 할 수 있기 때문이다. 이것은 환자와 제3지불자 사이의 갈등에 대한 의사의 숙고된 판단이 단순히 타인의 갈등을 중재하는 것뿐만 아니라 자신의 내재적 문제를 해결하기 위한 방법임을 의미하기도 한다.


다니엘즈(Daniels N)9)는 의학전문직업성이 분배정의에 의해 제약을 받아야 한다고 주장하 면서 의료 전문직의 관리자 역할을 인정하였다

    • 과거에 의료의 생산과 제공의 주체는 의사였다. 의료는 의사의 진료 가방 속에 있었고, 의료의 제공은 환자-의사의 개인적 계약 관계 내에서 이루어졌다. 당시 의료의 접근성은 치료비를 지불할 수 있는 환자의 능력과 의사의 자선적 노동으로 결정되었고, 의사에게 요구되는 프로페셔널리즘은 주로 환자와 관련되어 있었다
    • 그러나 20세기 이후 환자에게 제공되는 의료의 상당부분이 제약회사와 의료기기를 만드는 회사 등 여러 산업과 관련되었고, 의사가 환자에게 재화를 전달하기 위해서는 생산수단과 지분을 소유한 다른 사람들의 도움이 필요하게 되었다. 아픈 환자가 있으면 진료 가방을 들고 찾아가던 의사는 이제 온갖 의료기기에 둘러싸여 환자에게 검사를 시행하거나 약을 처방하고, 여러 가지 시술을 시행한다. 환자들은 자신이 가입된 보험을 이용하여 의사를 찾아가 다양한 검사와 치료를 받는다
    • , 현재의 의료 시스템은 하나의 의료 행위를 제공하는 데 다양한 생산자가 관여하며, 3지불자가 이를 이용할 수 있도록 돕는 형태로 구성되어 있다. 이에 다니엘즈는 비록 의사들 단독으로 재화를 소유하고 통제하지는 않지만, 의사들이 필요한 재화를 결정하고, 재화에 대한 접근을 인준하는 데 중요한 역할을 가지고 있으며, 과거보다 복잡해진 역할을 수행하기 위해, 전문가적 규범들은 그런 복잡성을 반영해야 한다고 주장하였다.


의료에서 필요한 재화를 결정하고 재화에 대한 접근을 인준한다는 것은 치료라는 행위 이전에 누구에게, 무엇을, 누구에게, 얼마만큼 제공할 것인가에 관한 보건의료 분배의 관리 문제라 할 수 있다

    • 의료의 생산과 제공이 의사에 의해 이루어졌을 때 관리의 역할은 생산의 역할과 구분되지 않았다
    • 하지만 각각이 분리되어 산업화되고, 상업화되면서 의료자원의 관리는 의료 시스템 유지에 핵심적이고 중요한 일이 되었다

의사에게 관리자의 역할이 강조되는 것은 의사들이 의료자원 배분에 있어 중요한 의학적 기준을 제시할 수 있기 때문이다. 합리적 근거하에서 의사들은 관리자의 역할을 수행해야 하며, 3지불자와 협업할 수 있어야 한다.



하지만 보건의료 관리자의 역할은 종종 의사의 가장 중요한 역할인 치료자의 역할과 상충한다

    • 보건의료 관리자가 거시적인 관점에서 의료자원의 분배에 관여한다면
    • 료자는 개별 환자라는 미시적인 상황에서 의료자원을 환자에게 제공하는 역할을 한다

한정된 의료자원에 대해 공정한 의료분배를 시행하기 위해서는 합리적인 기준과 절차를 가지고 이를 분배에 적용해야 한다. 하지만 어떠한 기준과 절차도 모든 사람들의 의료욕구를 충족시킬 수 없다. 거시적 정책이 개별 환자의 치료에 작용하는 복잡한 사안들을 모두 고려할 수 없으며, 가능하다 하더라도 자원이 한정되어 치료에 제한선을 둘 수밖에 없기 때문이다.


의사에게 주어진 

    • 치료자 역할은 환자의 입장을 대변하고 환자의 이익을 위해 의료를 행하는 것이다. 또한 
    • 관리자의 역할은 정의로운 분배가 이루어지도록 의료자원의 배분을 담당하는 제3지불자의 입장을 대변하는 것이라고 할 수 있다

의사의 치료자와 관리자의 역할은 환자와 제3지불자의 관계와 연결되어 있으며, 두 역할의 상충은 의사가 환자와 제3지불자 사이에서 경험하는 갈등과 유사하다. 의사들은 환자에게 최대한의 이익을 주기 위해, 그리고 동시에 의미 있는 보건의료 분배가 이루어지도록 하기 위해 대립하는 치료자와 관리자의 역할을 조화롭게 수행하려고 노력해야 한다.


의사들은 종종 개별 환자의 치료에서 관리자 의 역할 수행에 어려움을 겪는다. 그 이유 중의 하나는 의사가 식별 가능한 환자를 치료한다는 것이다. 의사들은 치료를 위해 환자들을 만나 이야기하면서 환자들의 고통을 보고 환자들의 가치관을 알게 된다. 임상에서 의사들에게 환자는 의료 서비스를 기대하는 알지 못하는 무리가 아니라, 자신에게 믿음을 보이는 아는 개별 환자라는 것이다. 이러한 입장에 있기 때문에 실제 의사들은 제3지불자보다 환자의 입장을 중시하며, 관리자보다는 치료자 역할을 우선시하는 경향이 있다.


물론 의사의 첫 번째 의무는 환자 치료이며, 이것은 시간이 지나도 바뀌지 않을 것이다. 하지만 사람들의 의료욕구에 비해 의료자원이 한정된 상황에서 관리자의 역할은 매우 중요하다. 우리는 이미 의사들이 관리자의 역할을 소홀히 했을 때, 오히려 치료자의 역량이 제한당하는 것을 경험하였다. 강화된 제3지불자를 통제할 수 없기 때문이다. 환자 치료에서 의사의 역량을 잘 발휘하고, 환자에게 최선의 도움을 주기 위해서라도 의사는 관리자의 역할을 잘 담당해야 하며, 의료자원이 적절하게 이용될 수 있도록 도와야 한다.


<그림 2>는 지금까지의 이야기를 정리한 것이다. 의사는 치료자와 관리자의 역할을 가지고 있으며, 단적으로 

    • 치료자의 입장에서 환자를
    • 관리자의 입장에서 제3지불자를 대변한다고 할 수 있다


    • 치료자의 입장에서 의사는 환자에게 선행을 베풀며, 환자의 자율성을 존중해 주어야 한다. 또한 
    • 관리자의 입장에서는 제3지불자와 함께 한정된 자원과 의료필요를 고려하여 정의로운 보건의료 시스템을 갖출 수 있도록 노력해야 한다


의사의 역할은 이 모든 입장과 의료 원칙들이 조화롭고 합리적으로 환자의 의학적 의사결정에 반영되도록 하는 것이며, 의료 전문직의 자율성 존중이란 그러한 의사들의 노력이 받아들여지는 것이라 할 수 있다.

 

<그림 2> 의료 전문직의 숙고된 판단에 포함되어야 할 환자-의사-3지불자의 역할과 가치.

 



2. 개별 환자 치료에서 자율성 확보를 위한 실천 방안


그렇다면 환자와 제3지불자의 입장이 갈등하고 의사의 내부에서 치료자의 역할과 관리자의 역할이 상충할 때 의사들은 어떻게 숙고된 판단을 내릴 수 있을까? 개별 환자의 치료에 있어 

① 근거바탕의학

② 의료의 목적

③ 의료의 효율성

...의 세 가지 기준은 의사들이 갈등 상황을 평가하고 최선의 의사결정을 내리는 데 도움을 줄 수 있을 것이다.10,11) 


이 기준은 의사들이 지금껏 중요하다고 여긴 치료자로서의 가치와 환자의 입장을 대변해 주며, 관리자로서 역할과도 일맥상통한다. 이를 통해 식별 가능한 자신의 환자를 치료하면서 동시에 분배의 문제를 고려해야 하는 의사들의 어려움이 조금이나마 감소되기를 기대한다.


1) 근거바탕의학


거의 모든 치료는 환자와 의사 사이의 의사결정으로 시작되며, 의사결정에 어떤 요소가 포함되느냐에 따라 치료의 방향이 달라진다. 그레이(Gray M)12)는 환자에 관한 의사결정이 주로 근거(evidence), 가치(values), 이용 가능한 자원과 욕구(resources and needs)의 조합으로 이루어진다고 하면서 특히 근거의 중요성을 강조하였다. 근거가 부족하여 무엇이 환자에게 효과적인 치료인지 잘 알지 못하던 시절에 의사결정의 중요한 요소는 견해(opinion)였다. 하지만, 의학 지식이 증가하고 효과적인 치료 방법이 입증되면서 의사들은 견해의 오류와 위험성을 알게 되었고, 근거가 의사결정에 중요한 역할을 할 수 있도록 정보를 구축하고 있다. 의사들이 흔히 이야기하는 적응증에 따른 치료는 근거바탕의학의 핵심적 결과물이라고 할 수 있다.


근거바탕의학은 치료의 유용성을 객관적으로 평가하기 위한 노력의 결과물이라고 할 수 있다. 논란의 여지가 있지만 근거바탕의학의 정보는 지금 수준의 의료에서 환자에게 이익이 되는 치료가 무엇인지를 의료 전문가들에게 알려준다. 의사들은 환자의 치료에 도움이 될 것이라는 전제하에 근거바탕의학의 정보를 의료에 적용한다. 또한 근거바탕의학은 환자와 의사, 3지불자 사이에서 갈등이 빚어졌을 때, 문제 해결을 위한 객관적 자료로 이용할 수 있어 의료 전문직의 자율성 확보에 긍정적인 영향을 준다.


근거바탕의학은 이후에 이야기하는 의료의 목표, 의료의 효율성과도 밀접한 연관이 있다. 환자에게 달성할 수 있는 의료 목표의 수립은 치료의 효과, 안전성, 환자의 만족도 등의 근거바탕의학의 척도에서 얻은 결과물이다. 효율성에 관련하여 근거바탕의학을 평가하는 비용-편익분석(cost-benefit analysis), 비용-효과분석(cost-effectiveness analysis) 등의 도구들이 보건의료에서 이용되고 있으며, 또한 근거바탕의학이 개별 환자 치료의 효율성을 높인다는 보고가 있다.13)


근거바탕의학을 추구하는 데 있어 주의할 것은 근거가 있다고 하는 치료들의 상당수가 절대적이라기보다는 아직까지 확률적으로 입증된 자료라는 것이다. 어느 정도의 불확실성을 가지고 있기 때문에, 의사는 환자에게 적용할 때 주의해야 하며, 동반할 수 있는 해를 함께 고려하여 판단해야 한다. 의학의 불확실성과 함께 의사들이 고려해야 하는 중요한 또 하나의 사항은 무지 (ignorance, 잘 알지 못하는 것)’ 자체를 근거의 한 형태로 받아들여한 한다는 것이다.14) 아직까지도 많은 의사들이 잘 알지 못하는 영역을 자신의 견해로 해석하고 있다. 물론 다양한 가설이 제시되고, 그것이 입증되어 가는 과정에서 의학이 발달하고, 환자에게 도움이 되는 치료법이 개발될 수 있다. 하지만 동의된 연구가 아닌, 치료의 영역에서 견해에 바탕을 둔 치료는 환자에게 해를 줄 수 있으며, 전문가의 품위를 낮추는 결과를 야기한다.15)


근거바탕의학은 의사가 현재 보고되어 있는 최선의 증거를 양심적이며, 솔직하고, 신중하게 치료의 의사결정에 적용하는 것이다.16) 의사들은 의학이 가진 불확실성의 영역, 무지의 영역을 솔직하게 인정하고, 근거로 제시된 자료들을 보다 신중하고 양심적으로 분석하여 의사결정에 임해야 한다.



2) 의료의 목표


폐암의 뇌전이로 의식이 없는 환자 사례이다. 환자는 이미 심폐소생술이나 승압제 등의 연명치료를 하지 않겠다고 하였으며, 수일 이내에 사망이 예상되는 상태에 있었다. 그런데 갑자기 환자의 혈압이 올라 수축기 혈압이 200이상까지 보고되었다. 이때 주치의는 어떤 선택을 할까? 환자의 혈압을 조절하는 것이 환자의 치료 경과에 전혀 도움이 되지 않을 것을 알고 있음에도 불구하고, 상당수의 부지런한 의사들은 환자에게 혈압강하제를 투여할 것이다. 의사들은 수축기 혈압 200을 빨리 교정해야 하는 수치로 배웠고, 정상에서 벗어난 수치를 교정을 하지 않을 때 환자에 대한 역할을 다하지 못했다고 느끼기 때문이다. 또한 이 환자의 경우 혈압 조절이 적어도 환자 본인에게 해는 주지 않을 것이기 때문에, 의사들은 고민 없이 불편한 임상수치를 교정하려 든다.


이 사례는 의사들의 의료 행위가 어디에 초점이 맞추어져 있는지를 돌아보게 한다. 의료는 의학적 적응증에 맞게 이루어져야 한다. 의과대학과 전공의 기간 동안 의사들은 질병과 증상에 대한 치료의 적응증을 배우며, 그에 따라 치료 여부를 결정한다. 의학적 적응증에 따라 의사결정을 하는 것은 환자에게 이익을 주고 해를 예방하는 데 중요하다. 문제는 종종 적응증에 따른 치료와 환자 개인에게 혜택이 되는 돌봄에 차이가 있다는 것을 잊어버리는 데에 있다. 환자에게 도움이 되지 못하는 치료는 비록 의학적 적응증에 해당된다 하더라도 의미 없는 치료가 된다.


환자 치료에서 의료의 목표를 설정하고 재확인하는 것은 치료가 다른 외부 요인에 의해 원치 않는 방향으로 변질되는 것을 막아줄 수 있다. 의료의 목표 설정이 의학적 판단을 통해 개별 환자에게서 달성할 수 있는 건강 수준 내에서 이루어지기 때문에, 환자가 모자라거나 과도한 치료로 인해 해를 입는 것을 어느 정도 예방할 수 있다. 종종 의사들은 달성할 수 없는 목표를 요구하는 환자나 보호자를 만나며, 의료를 통해 환자가 얻을 수 있는 이익이 많음에도 치료를 거부하는 사례를 만나기도 한다. 이러한 경우 의사들은 환자와 의료 목표를 공유하고 지속적으로 의사소통함으로써 치료 과정 중에 발생할 수 있는 갈등을 최소화시킬 수 있다. 즉 의료 목표의 설정은 환자에게 이익을 주며, 치료 과정 중에서 발 생하는 갈등을 축소시켜 의료 전문직의 자율성을 확보하는 데 도움을 준다.


의사들은 환자 개인에게 줄 수 있는 혜택을 의료의 목표로 삼고, 이를 제공하는 데 필요한 의학적 처치를 점검해 보아야 한다. 상당수의 많은 의사들은 자신이 환자에게 줄 수 있는 이익이 질병을 낫게 하고, 증상을 개선시키며, 생명을 연장하는 것 정도로 생각한다. 그래서 이러한 결과가 기대되지 않는 환자에게 더 이상 할 치료가 없다라고 이야기하기도 한다. 하지만 의료를 통해 의사가 환자에게 제공할 수 있는 혜택은 그 이상이다. 의사들은 의료를 통해 환자의 삶의 질을 보존할 수 있고, 교육하고 상담해 주는 역할을 하며, 임종기를 평안히 보낼 수 있도록 도울 수 있다. 이러한 모든 것이 환자 치료의 목표가 된다<1>.


위의 사례에서 의사들이 제시할 수 있는 환자의 의료 목표는 환자가 편안한 죽음을 맞이할 수 있도록 돕는 것이다. 혈압조절은 이 환자의 의료 목표와 무관하다. 즉 환자에게 의미 없는 치료가 되는 것이다. 의사들이 해야 할 중요한 역할 중의 하나는 환자들이 목적에 맞는 적절한 치료를 받을 수 있도록 돕는 것이다. 의사들은 항암제 등에 효과가 없는 말기암환자에게 호스피스 치료를 권하고, 장기간의 요양이 필요한 노인환자나 만성질환 환자에게 그에 맞는 의료기관을 제시할 수 있어야 한다. 또한 호스피스 치료나 장기 요양 환자를 돌보는 의사는 환자의 의료 목표에 맞게 치료를 제공하도록 노력해야 한다.

 

<1> 의료의 일반적 목표*

 

 


3) 의료의 효율성


개별 환자의 치료에서 의료의 효율성을 고려하는 것은 쉽지 않다. 그럼에도 불구하고 갈등 상황을 다루는 판단 기준으로 의료의 효율성을 제시하는 이유는 의료자원이 불필요하게 사용되는 것을 막음으로써 제3지불자와의 갈등을 줄이고, 관리자로서의 역할을 이행할 수 있기 때문이다. 의료자원의 낭비를 막는 것은 자원의 효율성을 높이기 위해서 선행되어야 하는 작업이다. 필요한 검사와 치료는 의료자원의 효율적 이용을 방해할 뿐만 아니라 환자에게 해를 야기할 수 있다. 의사들은 무의미하며, 중복되거나 과도한 검사와 치료가 환자에게 시행되고 있지 않은지 점검하고, 이러한 치료가 이루어지지 않도록 해야 한다.


다음 단계로 의료의 효율성을 치료에 적용하려는 노력이 필요하다. 우리는 투자한 자원에 대한 결과의 양을 가지고 효율성을 평가한다. 의료 영역 역시 주로 비용에 대한 결과로 효율성을 평가한다. 무엇을 의료의 결과로 삼을 것이냐에 따라 의료의 효율성 평가는 달라지며, 결과를 얻기 위해서는 치료로 인한 이익과 해를 함께 고려해야 하기 때문에 의료에서의 효율성 평가는 쉽지 않다. 비록 효율성 산출이 어렵다 하더라도, 의료 자원이 필요한 곳에 제대로 사용되도록 하기 위해서 의료의 효율성 평가는 필수적인 작업이다. 다행히 효율성 평가에 이용할 수 있는 장애보정생년(disability adjusted life year), 활동장애가 없는 건강여명(disability free life ex­pectancy), 질보정생활년(quality adjusted life year) 등 사망 및 상병수준을 포괄하는 여러 가지 지표들이 개발되어 있다.18) 의료 전문가들은 이러한 지표들의 결과를 치료에 적용하며, 의료정책을 세우는 데에 이용할 수 있도록 자료를 제공해 줄 수 있어야 한다. 의료의 효율성을 산출하는 작업은 치료자의 역할이라기보다는 연구자의 역할에 가깝다. 하지만 이것을 치료자인 의사에게 요구하는 것은 치료자가 가장 정확히 의료의 결과를 평가할 수 있기 때문이다. 의학적 결과뿐만 아니라 그 결과에 대해 환자들이 생각하는 이익과 해의 정도를 알 수 있는 사람이 치료자이기 때문이다.


의료의 효율성에 대한 결과는 주로 보건의료 자원의 분배에 이용되며, 개별 환자의 치료에 적용하는 데에는 한계가 있다. 임상 사례마다 환자의 질병 정도가 다르며, 추구하는 의료의 방향과 결과가 다양하고, 그에 따라 이익과 해의 평가가 달라질 수 있기 때문이다. 개별 환자의 치료에서 의사가 의료의 효율성을 위해 행동할 수 있는 것은 최소한의 기본적인 돌봄을 제공하되 환자에게 무익한 치료가 시행되지 않도록 하는 것이다. 의사들은 같은 진단을 확인하기 위해 중복하여 시행하는 검사는 없는지, 불필요한 약이나 처치를 제공하고 있지는 않은지 점검해야 한다. 환자 질병의 중증도, 위급도, 회복 가능성 여부에 따라 환자가 적절한 의료 기관에서 치료를 받을 수 있도록 하는 것도 의사들이 임상에서 취할 수 있는 의료의 효율성을 높이는 행동이 될 수 있다.





다양한 자율성에 대한 이론들에서 행위자(agency)와 자유(liberty)는 공통적으로 지목되는 자율성의 핵심 요건이다.19) 

  • 행위자의도적으로 행동할 수 있는 역량을 갖춰야 하며, 자유외부의 영향으로부터 독립적일 수 있어야 한다는 것이다

  • 사람들은 행위자의 판단과 행동이 타인과 사회에 적어도 해를 끼치지 않을 것이라는 전제하에 행위자에게 자유를 허용한다

전문직에게 허용되는 자율성은 사회가 전문가에게 자신의 재량을 발휘할 수 있는 기회를 줄 때 발휘할 수 있는 것으로, 이는 그 직업의 결과가 공동체에 이익이 되어야 가능한 것이다. , 의료 전문직의 경우 자율성을 주장하기 위해서 의사의 행위는 환자에게 이익이 되고, 사회적 선에 보탬이 될 수 있어야 한다. 하지만 의료에 다양한 이해관계가 얽히면서 의사들은 선택의 어려 움을 겪으며, 선택한 결과에 대해 비난을 받기도 한다. 이러한 상황에서 앞서 제시한 세 가지 기준-근거바탕의학, 의료의 목적, 의료 효율성-은 복잡해진 의학적 의사결정에서 의사들의 판단을 정당화할 수 있는 근거로 작용할 수 있다.


근거바탕의학, 의료의 목적을 고려하는 행위는 무엇보다도 환자에게 가해질 수 있는 해를 최소화하며, 이익을 주고, 의사들이 치료자의 역할을 제대로 수행하는 데 중요한 기준으로 작용한다. 의료의 효율성 고려는 제한된 자원을 가장 의미 있게 사용할 수 있는 방법을 찾는 노력으로서 관리자의 역할을 대변하며, 중복된 검사나 치료가 행해지지 않도록 예방함으로써 의료행위에서 환자에게 가해지는 해를 줄일 수 있다. 또한 개별 환자를 치료하는 데 있어 근거바탕의학, 의료의 목적, 의료 효율성 고려를 통해 정당화된 판단은 자율성의 중요한 요건이 되는 행위자의 역량을 보장해 줄 수 있다.


하지만 행위자의 역량, 능력이 증명되었다 하더라도 공동체가 이를 인정해 주지 않는다면 자율성은 보장될 수 없다. 자율성의 중요한 요건인 자유는 외부의 영향으로부터 독립적일 수 있게 누군가가 행위자의 활동을 보장해 주어야 가능한 것이다. 마찬가지로 전문직의 자율성이 보장되기 위해서는 사회가 고유의 전문성을 존중해 주어야 한다. 전문성에 대한 사회적 존중은 전문직을 가진 사람을 높게 평가한다는 의미가 아니다. 이것은 전문직의 역할을 인정하고, 사회적으로 그 역할을 잘 감당할 수 있도록 환경을 조성해 주는 것이다. 의료의 영역에서 전문성 존중은 의사가 개별 환자를 치료하고, 보건 정책을 수립하는 데에 자신의 전문성을 잘 발휘하여 환자와 사회에 도움이 되도록 하는 데 있다. 의사들의 전문성이 환자와 사회에 도움을 주며, 사회가 그 전문성을 존중해 줄 때, 의료 전문직의 자율성은 확보될 수 있다.



의료 전문직의 자율성을 확보하기 위해서는 전문성에 대한 사회적 존중이 무엇보다도 중요하며, 이를 위해 의사들은 환자와 사회로부터 신뢰를 얻어야 한다. 환자 치료에 있어 근거바탕의학, 의료의 목표, 의료 효율성의 고려는 신뢰를 얻고 자율성을 보장받기 위해 의사들이 갖추어야 하는 중요한 기준이자 역량이다. 하지만 현실의 의료 환경에서 이 기준의 적용에 몇 가지 제약점이 있다.


  • 첫째는 근거중심의학, 의료의 목표를 추구하는 의사 결정이 제3지불자와의 갈등을 증폭시킬 수 있으며, 의료의 효율성 고려가 환자와의 갈등을 야기할 수 있다는 것이다. 하루가 다르게 새로운 기기, 기술이 등장하는 시점에서 제도의 개선은 의료 기술의 발전 속도를 따라갈 수 없으며, 상승하는 의료비용을 한정된 보건의료 자원으로 감당하기는 벅차다. 반면 의료 이용자는 가능하면 새롭고 효과적인 최첨단의 의료 기술의 혜택을 받기 원한다. 의사들은 이러한 충돌하는 욕구들 사이에서 접점을 찾고, 각 당사자를 설득할 수 있어야 한다.

  • 둘째로 제도적인 제약점이 있다. 3지불자의 등장뿐 아니라 의료 제도, 의료의 산업화, 상업화 등이 모두 의료 전문가의 역할과 역량에 큰 영향을 주고 있다. 우리나라 대부분의 병원은 민간 의료 기관으로 첨단 의료 기기와 최신의 의료 기술을 유지하여 경쟁적으로 환자를 유치하려한다. 반면, 정부는 의료비를 낮추기 위해 지나친 저수가 정책을 시행하고 있다. 이러한 모순적인 현실에서 근거중심의학, 의료의 목표, 의료 효율성을 고려한 의사들의 선택은 병원 정책과도, 정부 정책과도 상충하게 된다. 많은 환자를 보고, 많은 검사를 시행하며, 때로 고비용의 치료를 해야 만이 병원을 유지할 수 있는 상황에서 기준에 따른 치료를 고수하기는 쉽지 않다. 하지만 이면의 제도적 결함보다는 의사들의 과도한 의료 행위가 표면적으로 드러나면서 의사들은 사회적 신뢰를 잃고, 자율적인 행위자로서의 자격을 인정받지 못하게 되었다. 신뢰를 잃은 의사는 환자와 제3지불자 사이의 계약관계, 그리고 환자 치료라는 의료의 본질과 상업화된 의료 사이에서 중재자의 역할을 담당하지 못하며, 이는 다시 의사들의 신뢰를 악화시키는 요인이 된다. , 의사들이 과학적 근거를 가지고, 설정된 의료의 목표에 맞게 효율성을 고려하며 개별 환자를 치료하기 위해서는 전문성에 대한 사회적인 지지와 제도적인 뒷받침이 있어야 한다.

  • 셋째로 의료자원의 유한성을 인식하고, 공적자금의 이용에 대한 향상된 시민 의식이 필요하다. 단지 자신에게 경제적 부담이 되지 않는다는 이유로 같은 증상으로 여러 병원을 다니며, 필요 이상의 검사와 치료를 요구하는 환자들의 태도와 더 많은 이윤을 남기고 환자를 끌기 위해 고가의 검사와 치료를 제공하는 의사들의 태도는 모두 필요한 곳에 의료자원이 이용되는 것을 방해한다. 이것은 의료 전문직의 자율성을 확립하는 데 어려움을 줄 뿐만 아니라 치료 기준에 따라 환자를 치료하는 의사들을 도태시키는 결과를 낳는다. 전문직의 자율성의 확립은 그 직업에 종사하는 사람들의 노력과 함께 전문성을 인정하는 제도와 높은 시민 의식이 함께 뒷받침되어야 가능한 것이다.


III. 결론


환자-의사 계약관계에서 사회는 의사들이 환자에게 선행의 의무를 다할 것이라는 전제하에 외압에서 자유롭게 진료할 수 있도록 의사들에게 자율성을 보장해 주었다. 하지만 20세기 이후 자율성은 의사들의 신뢰도 상실, 환자의 권리 증대, 3지불자의 등장으로 위기를 겪게 되었다. 환자의 자율성이 의사의 자율성으로 표현되는 선행의 의무에 앞서게 되었고, 3지불자의 권한이 환자와 의사 사이에 협의된 의료를 통제하는 범위까지 확대된 것이다. 이러한 환자와 제3지불자의 권한 강화는 환자-의사-3지불자 사이에 다양한 갈등을 야기하였다. 환자는 최선의 치료를 원하며, 3지불자는 보험범위 내에서 최소의 치료를 제공하려 하기 때문이다.


의사는 환자와 제3지불자를 직접 대면하는 당사자로서 둘 사이의 갈등을 다루어야 하는 입장에 처해 있다. 의사는 갈등 상황에서 환자와 제3지불자의 입장을 충분히 고려하여 합리적인 판단을 내려야 하며, 환자와 제3지불자는 이러한 의사의 판단을 존중해 주어야 한다. , 환자-의사-3지불자 계약관계에서 의료 전문직의 자율성은 삼자 사이에 발생하는 갈등을 해결하기 위한 의사의 숙고된 판단을 존중해 주는 것이라 할 수 있다. 의사의 숙고된 판단은 환자와 제3지불자의 입장에서 환자의 자율성 존중, 선행의 의무, 분배정의의 원칙을 고려해야 하며, 의사의 이익이 아닌 환자와 제3지불자의 이익을 반영해야 한다.


환자-의사-3지불자 사이에 갈등 해결을 위한 의사의 숙고된 판단은 의사의 치료자와 관리자 역할의 실천과 밀접히 관련된다. 단적으로 치료자는 환자의 역할을, 관리자는 제3지불자의 역할을 반영한다고 할 수 있기 때문이다. , 환자 치료에서 의료윤리의 원칙하에 이 두 역할을 조화롭게 수행하는 것은 의사들의 자율성 확보에 중요하다. 하지만 식별 가능한 환자를 치료해야 하는 의사에게 제3지불자의 입장을 고려한 관리자의 역할을 적용하는 것은 쉽지 않다. 이 논문에서는 이러한 어려움에 처해있는 의사들 에게 근거바탕의학, 치료의 목적, 의료의 효율성을 기준으로 개별 환자를 치료할 것을 제안한다. 이러한 기준은 의사가 개별 환자를 치료할 때에 환자와 제3지불자의 주장을 조율하고, 치료자와 관리자 역할을 조화롭게 수행할 수 있도록 도움을 줄 것이다.


우리나라의 전 국민 의료보험은 약 30년이라는 단기간에 완성되었다. 덕분에 우리나라의 의료 접근성과 국민 전체의 건강수준은 짧은 기간 동안 놀랍게 향상되었다. 하지만 이렇게 빠른 전 국민 의료보험의 완성 이면에는 저부담-저급여-저수가의 구조적 불합리성이 자리하고 있다.20) 의사들이 자비를 투자하여 병원을 세우고, 의료행위를 한 것에 대해, 정부가 치료로 발생한 비용을 저수가, 저급여로 제한하고 간섭했던 것이다. 하지만 이러한 시스템의 불합리성은 의료자원의 효율적 사용을 유도하기보다는 오히려 박리다매식의 진료, 과잉진료, 부당진료 등의 의료의 왜곡을 조장하였다. 이러한 상황에서 의료 프로페셔널리즘의 강조는 때로 부당하게까지 느껴지며, 의료 전문가의 자율성 확보는 불가능한 것처럼 보인다.


의사들이 아무리 훌륭한 갈등의 해결책을 제시한다 하더라도 이를 환자나 제3지불자, 사회가 존중하지 않는다면 의료 전문직의 자율성은 보장받을 수 없다. , 의사 집단에 대한 사회의 신뢰와 전문가 집단에 대한 존중이 있어야만 자율성의 확보가 가능한 것이다. 지금까지 정부나 제3지불자는 시스템의 문제에서 야기된 의료의 왜곡을 의사의 전문직업성의 부재로 돌리며, 의료 전문직의 자율성을 제한해 왔다. 의료 전문직의 자율성이 궁극적으로 사회에 이익이 되는 것이라면, 의료에서 발생하는 문제를 의사들의 탓으로 돌리는 것은 적절한 문제 해결 방식이 되지 못한다. 실제 많은 문제들이 의료 제도의 불합리한 구조에서 비롯되었으며, 3지불자는 제도의 문제에서 발생된 결과에서 자유로울 수 없다. 3지불자는 시스템의 불합리성과 불완전성을 보완하는 차원에서라도 새롭게 제시된 의료 전문직의 자율성을 보장해 줄 수 있어야 한다. 의사는 환자와 제3자의 입장을 충분히 고려하여 합리적인 판단을 제시하도록 노력해야 하며, 사회에 이익이 되는 판단을 통해 사회의 신뢰를 얻을 수 있도록 노력해야 한다. 이러한 의사의 숙고된 판단이 의료제도에 반영된다면, 이는 환자와 사회 모두에 이익이 될 것이다.

 







한국의료윤리학회지 제16권제2호(통권 제37호) : 159-173 ⓒ한국의료윤리학회, 2013년 8월

Korean J Med Ethics 16(2) : 159-173 ⓒ The Korean Society for Medical Ethics, August 2013


Autonomy in the Medical Profession and the Practice

in Ensuring Respect for Their Professional Autonomy*

KIM Do-Kyong**, KWON Ivo***


Abstract

Physician autonomy and medical professionalism have been changing ever since the patient-physician medical relationship was changed to patient-physician-third-party payer medical relationships. Until now, physician autonomy has meant that physicians should have complete freedom to provide the best treatments for their patients, without external constraints, but ever since medical insurance was introduced, medical decisions have been controlled by the third-party payers, and many conflicts have emerged in the patient-physician-third-party payer medical relationships. The concept of physician autonomy thus has to be changed. That is, the society should respect the rational and deliberated decisions of the physicians to resolve the conflicts between their patients and the third-party payers beyond the obligation of beneficence towards the patients. To mediate between their patients and the third-party payers, the physicians should carry out two roles - as healer and as manager - and should adjust the different applicable principles, such as patient autonomy, beneficence, and justice. The physicians have to be well acquainted with such principles and should make the appropriate decisions so as to gain social trust. To help resolve the conflicts between the patients and the third-party payers, the physicians should effectively carry out their roles as healer and manager by considering evidence-based practice, the treatment goal, and cost-effectiveness in their clinical practice. These criteria can help the physicians make reasonable and well-deliberated decisions in relation to their just provision of medical care for their individual patients.

Keywords

professional autonomy, third party payer, manager, evidence-based practice, care goals, cost effectiveness

한국에서 의료전문직의 개념과 논의

강윤식*




I. 서 론


2005 10 10일 자로 대법관을 퇴임한 유지 담 판사의 퇴임사 중 몇 구절을 인용하면서 논의를 시작하려고 한다. 이 글에서 나오는 반성과 성찰이 의사들의 전문직 논의와 관련하여 시사하는 바가 있 다고 생각하기 때문이다.


“사건 당사자들의 입장을 깊이 헤아려서 그 들의 주장을 충분히 들어주며 신속하고 공정하 게 결론을 내려 주는 것은 국민에게 봉사하는 법관으로서 마땅히 해야 할 덕목(德目)임에도 불구하고 당사자가 주장하는 말을 자세히 듣거 나 써낸 글을 끝까지 읽는 것을 가지고도 마치 시혜적(施惠的)인 일을 하는 것으로 착각하기 도 했습니다.


“법관의 권위는 그 법대 아래에 내려가서 재 판을 받고 있는 사건 당사자의 발을 씻겨주는 심정으로 그들의 답답함을 풀어주려고 정성을 다함으로써 자연스럽게 따라오는 것임에도 불 구하고, 법관의 권위는 무조건 지켜져야 하고 법관은 국민으로부터 당연히 존경과 신뢰를 받 아야 한다고 강변하기도 했습니다.


“사법부에 대한 경청할 만한 비평을 겸허히 받아들여야 할 때 이를 외면한 채‘사법권 독 립’이라든지‘재판의 권위’라는 등의 명분으로 사법부의 집단이익을 꾀하려는 것으로 비쳐질 우려가 있는 움직임에도 냉정한 판단을 유보 (留保)한 채 그냥 동조하고 싶어 했다는 것입니 다.1)


한국 사회에서 국민들에게 비쳐지는 의사들의 이미지 중 대표적으로 부정적인 것은 권위적이라는 것과 자신들의 집단이익에만 관심을 갖는다는 것이 다. 이러한 평가는 법조인들에게도 예외가 아닌 듯 유지담 판사의 글에는 대중에 대한 봉사를 본분으로 하는 법관이 자신의 권위와 이익에만 집착하지는 않 았는가 하는 반성이 드러나고 있고, 역설적으로 전 문직에게 요구되는 가장 중요한 덕목은 대중에 대한 봉사와 공공의 이익 추구임을 잘 보여주고 있다.


많은 논란이 있지만, 아직도 한국 사회에서 의사 는 경제적 수준에서나 사회적 지위에서 여타의 직업 들에 비해 높은 위치에 있다. 직업 자율성이나 의료 영역에 대한 전문적 지배라는 측면에서 본다면 의사 는 대표적인 전문직으로 분류되기에 전혀 부족함이 없는 것도 사실이다. 의사들 스스로도 의사는 의료 에 대한 유일한 전문가이며 이에 걸맞은 수준의 사 회적인 대우를 받기에 합당하다고 여긴다. 그럼에도 불구하고, 의사들 사이에서는 의사라는 직업이 전문 직으로서의 위기에 봉착해 있다는 인식이 널리 퍼져 있고, 정부와 대중으로부터 자신의 직업에 걸맞는 대우를 받지 못하고 있다는 불만감이 팽배해 있다. 의약분업이 있었던 2000년 이후에 의사의 전문성 에 대한 논의가 활발히 이루어지고, 의학교육에서 프로페셔널리즘에 대한 강조가 두드러진 것도 뒤집 어 보면 전문직으로서 의사의 위상에 대한 위기의식 이 그만큼 널리 유포되었기 때문이라고 할 수 있다.


이 글에서는 전문직, 특히 의료전문직의 개념과 특성들을 살펴보고 오늘 그러한 내용이 어떤 의미가 있는지를 함께 모색해 보고자 한다.2)

 

II. 본론`-`의료전문직

 

어떤 직업이 일반적인 직업(Occupation)과 구 분되는 전문직(Profession)이냐에 대해서는 사람마 다 다양한 견해가 있겠지만 일반적으로는 이론적이 고 체계적 지식과 기술, 그 직업만의 직업결사와 직 업윤리, 봉사지향적 직무 특성, 그리고 높은 직업 자 율성 등을 가진 일련의 직업군을 전문직으로 지칭한 다고 할 수 있다. 서구 사회에서는 전통적으로 교사 와 법률가가 그러한 직업이었고 의사가 전문직으로 인정받기 시작한 것은 19세기 이후라고 볼 수 있다.


  • 의료사회학자인 Cockerham은 소명의식을 바탕 으로 하여 환자에게 고도의 수준을 갖는 의학 지식 과 기술을 제공하는 전문집단이 의료전문직이라고 정의하였고,3)

  • Goode는 추상적 지식에 대한 장기 간의 훈련, 서비스 제공을 목적으로 하는 노동을 전 문직의 두 가지 핵심적인 특징으로 제시하였다.4)


전문직으로서의 의사 지위에 대해서는 이론적으 로 몇 가지 다른 관점이 존재한다.


먼저 구조기능주의적인 관점에서는 의료전문직이 사회적인 요구에 의해서 발생하는 것으로 파악된 다

  • 질병이라고 하는 사회적 일탈(deviance)은 어떤 사회에서든 존재하며 사회가 발전함에 따라서 질병 도 필연적으로 다양하고 복잡하게 발생할 수밖에 없 는 만큼, 원활한 사회의 운영을 위해서는 이를 체계 적으로 관리해야 할 필요가 있다. 또한 이를 위해서 는 전문적인 지식과 기술이 필요하며, 질병의 관리 를 위해서 특별히 훈련받은 의료전문직은 사회적으 로 핵심적인 기능을 수행하게 되는 것이다. 따라서 이렇게 중요한 역할을 감당하는 의사는 이미 사회에 의해서 어느 정도 특권적인 지위를 부여받으며, 환 자의 통제에 있어서 일정한 정도의 지배력을 행사함 이 온당하다고 파악하는 것이다. 기능주의적 관점에 의한다면 의학 지식 자체가 이미 의료전문직의 정당 성을 담보하고 있다고 할 수 있다.

 

2) 엄밀히 말한다면 의료전문직에는 의사 이외의 다른 보건의료직종도 포함될 수 있으므로 의사와는 그 개념 범주를 달리하지만, 이 글이 의사들의 전문주의를 다루는 논의이니만큼 여기서는 두 가지를 구분하지 않고 사용하기로 하겠다.

3) Cockeram WC. Medical sociology(5th Ed). Prentice-Hall Inc, 1992 : 53-76.

4) Goode W. Encroachment, charlantalism and emerging profession: Psychiatry, sociology and medicine. American Sociological review ; Vol 25 : 1960; 정경균, 김영기, 문창진 등. 보건사회학. 서울대학교 출판부, 1995 : 209-219에서 재인용.

 

반면 갈등론적 관점에서는 의학 지식 자체보다 는 이러한 지식이 사회적으로 구성되는 방식에 의하 여 의료전문직의 사회적인 지위가 결정된다고 본다

  • 의학 지식과 그 수행자들이 사회적으로 어떻게 받아들여지며 자신의 역할에 대해서 어떤 사회적인 설득을 이루어내느냐가 전문직의 사회적인 지위 결 정에 더 중요하다. 이런 관점에서는 지식 자체의 소 유와 실행 여부보다는 그러한 지식을 가진 집단이 다른 사회적 집단과의 관계 속에서 자신의 지위를 인정받는 정치적인 과정이 더 중요시된다.5)


  • 기능론적인 관점에서 본다면 한국 의사의 프로 페셔널리즘에 대한 위기 논란은 사회 자체의 미성숙 에서 일정 부분 기인한다고 할 수 있다. 의료전문직 이 적절한 사회적인 지위를 유지하고 자신의 업무를 수행하기에는 한국 사회의 성숙 정도가 낮아서 이를 받아들일 수가 없다고 파악하는 것이다

  • 하지만, 갈 등론적 입장에서 본다면 한국 의사들이 자신의 직업 적 전문성을 충분히 인정받지 못하고 전문직으로서 의 지위에서 위기를 경험하는 것은 사회적 설득 과 정의 부족과 그에 따른 전문적 지배의 미흡함에 그 원인이 있다고 할 수 있다. 의사들이 자신의 의학 지 식과 그 지식을 사용하여 행하는 업무의 중요성을 대중들에게 충분히 설득해내지 못함으로써 이에 걸 맞은 사회적인 지위를 획득하지 못했다고 보는 것 이다.


저자는 이 두 가지 관점 모두가 현재 한국 의사 들의 위기의식과 의사 지위의 위기를 설명하는데 부 분적인 유용함을 가진다고 생각한다. 이에 대해서는 결론 부분에서 다시 이야기하기로 하고, 의료전문직 의 특성과 변화에 대한 논의를 좀 더 진행하고자 한다.


앞서 Goode가 이야기했던 전문직의 두 가지 핵 심적인 특성 즉, 전문적 지식의 소유를 위한 훈련과 서비스 지향적 업무로 인해 전문직은 다양한 파생적 인 특성을 지니게 된다. 자체적인 훈련기준의 설정, 심오한 성인사회화 과정, 면허제도의 성립, 전문직 성원 스스로에 의해 관리되는 면허와 자격부여, 사 회적 통제로부터의 자율성, 자체적인 직업결사체의 조직, 높은 직업윤리와 직업자부심 등이 그러한 특 성이다.6) 성숙한 전문직은 이러한 특성들을 모두 갖고 있으며, 대중들에게도 이를 인정받는다.


이러한 전문직의 특성은 다시 구조적 요건도적 요건으로 구분해 볼 수 있다.7) 

  • 교육제도, 자격 의 부여, 전문적인 조직과 윤리 강령 등은 구조적 요 건이라고 할 수 있는 것으로서 일정한 제도적인 형 태를 갖추고 있어서 객관적인 확인이 용이한 반면에 

  • 직업윤리나 소명감과 같은 태도적 요건은 내적이고 주관적인 것으로 직업 구성원들의 인식에 대한 조사 를 통해서만 알 수 있는 것들이다

  • 의과대학 졸업자 만이 응시할 수 있는 국가시험 제도에 의한 의사 면 허의 독점적인 부여, 의과대학을 통한 구성원의 공 식적인 충원구조, 전문직 결사이자 이익단체로서 의 사협회의 존재, 전문의 제도의 정착 등 구조적인 측 면에서 한국 의사들은 전문직의 특성을 비교적 확고 하게 가지고 있는 것으로 보인다

  • 하지만, 윤리의식, 직업 자부심과 만족도, 소명감과 봉사 정신 등 태도적인 요건에서는 그 구성이 구조적 요인만큼 정착되 었는지 단언하기 어렵다.8)


한국에서 의사들은 전문직으로서의 구조적인 요 건을 확립하고 있으며 높은 소득 수준 등에서 전형 적인 전문직으로 인식되지만, 사회적인 신뢰도나 직 업윤리의 측면에서는 국민들이 기대하는 바에 미치  지 못하는 측면이 많으며,9) 이러한 사회적인 인식 은 2000년 의약분업 사태 이후로 지난 10여년간 오 히려 심화되고 있는 것처럼 보인다. 다시 말하면 료전문직의 구조적 요인은 비교적 확고하게 정착되 었다고 할 수 있지만, 이를 뒷받침하는 태도적 요인 들은 그만큼 확고하지 못했고 의약분업 사태를 계기 로 의료전문직에 대한 사회적인 비난과 관심이 표면 화되면서 의사들 내부에서는 의료전문직의 위기에 대한 인식이 광범위하게 형성되어 있는 상황이라고 할 수 있다.


의료전문직의 위기와 관련해서는 여러 가지 설 명이 가능하다

  • 자연과학적 논리에 근거하여 이루어 진 생의학적 모델과, 이에 기반하는 의학 교육에 필 연적으로 따를 수밖에 없는 사회적, 인문적 인식의 미비는 의학 내부의 지식 논리에 의한 것이고,10) 

  • 회구조의 전반적인 탈전문화, 컴퓨터와 인터넷의 확산으로 인해 지식의 독점이 희석되는 점 등은 사회 구조 전반의 변화와 연결되며,11) 

  • 짧고 압축적인 근대화 과정에서 대사회적 설득과 타협을 통한 집단 자율성의 획득이 부재한 채 의료전문직 자체가 국가 에 의해 하향적으로 조직되어 온 것은 우리나라의 역사적 경험과 관련되는 원인이라고 할 수 있다.12)


일제 강점기 이후 근대국가가 형성되는 과정에 서 별다른 사회적인 설득이 필요없이 전문직으로 자 리잡는 데 필요한 여러 가지 요건들을 외부적으로 수여받아 온 한국 의료전문직의 특수한 경험, 자 체적인 직업윤리의 형성, 전문적인 교육과정의 성 립, 혹독하다고 할 정도의 내부 징계 과정 등을 통해 높은 전문가적 신뢰를 획득해 온 유럽이나 미국의 경험과 대비된다. 공과(功過)에 대한 많은 논란이 있 지만, 1901년에 발표된 플렉스너 보고서 이후 의과 대학의 자체 조정 과정이나 징계 사유가 존재하는 의사들에 대한 과감한 제재를 통해 전문가적 자율성 을 공고히 해 온 미국과는 달리, 한국 의사들의 경우 는 자기 집단의 이익을 주장해 온 경험 외에 스스로 자율 규제를 통해 국민들에게 의사집단의 전문가적 윤리수준을 증명해 본 경험이 거의 없다.13)


높은 직업 자부심과 낮은 윤리의식, 집단 이익에 대한 민감한 반응에 비해 부족한 대사회적 접촉면과 정치력의 미숙, 직업 정체성에 대한 혼란과 장래에 대한 불안감14)으로 대변되는 전문직 인식의 위기 상황이 지금까지의 논의를 기반으로 거칠게 규정한 현재 우리나라 의사들의 대체적인 현실이다.


한국 의사들은 안팎으로 위기에 처해 있는 것이 분명해 보인다. 사회적인 신뢰를 얻지 못한 채 언론 과 시민 사회의 거센 도전을 받고 있으며, 내부적으 로도 전문직 의식의 미비로 인한 정체성 확립의 혼 란 등을 겪고 있기 때문이다. 그러나 저자는 이것이 한국 의사들의 프로페셔널리즘에 대한 절대적인 위 기만은 아니라고 생각한다. 결론부터 이야기하자면 한국 사회는 이제 형식적, 절차적 수준의 민주주의 를 지나서 내용적, 실제적인 수준의 시장경제와 시 민 민주주의 사회로의 이행을 겪고 있으며, 그에 따 른 다양한 혼란과 논쟁을 경험하고 있다. 그 이전 시 대에는 당연한 특권으로 여겨지던 많은 사회적인 기 득권들이 지금은 공론(公論)의 장에서 정당성에 대 한 추궁을 당하고 있다. 의사들도 여기에서 예외가 될 수 없다. 이런 관점에서 본다면 현재의 의료전문 직 위기는 위기라기보다는 시대적 요구에 따른 재정 립에 더 가깝다는 것이 저자의 견해이다. 물론 이러 한 도전을 잘 넘기지 못하면 진정한 위기가 닥칠 수 도 있겠지만, 한국 사회의 여타 부문과 마찬가지로 의사들은 지금 질적으로 새로운 변화를 모색하지 않 으면 안 될 시기를 맞고 있다고 해석할 수도 있는 것 이다.

 

9) 박종연. 한국의사의 전문직업성 추이에 관한 연구. 박사학위논문. 연세대학교 대학원, 1992.

10) Mishler EG. 생의학적 모델에 대한 비판적 견해. 이종찬 편저. 서양의학의 두 얼굴. 서울 : 한울, 1992 : 81-112.

11) Light D., Levine S. The changing character of medical profession: A theoretical overview. The Milbank Quarterly 1988 ; 66(suppl 2)

: 10-32.

12) 조병희. 한국의 의료전문직의 구조분석. 현상과 인식 1989 ; 13(1,2) : 9-25.

13) 폴 스타 지음. 이종찬, 윤성원 공역. 의사, 국가 그리고 기업 - 미국의료의 사회사. 명경, 1994.

14) 저자의 2000년도 조사에 의하면, 조사에 참여한 의사의 88.6 %가 앞으로 의사의 사회적인 지위가 하락할 것이라고 답하였다. 강윤식. 앞의 논문. 2004 : 14.

 

III. 결어`-`한국의료전문직에 대한 활발한 논의를 기대하며


의사들은 의료에 대한 전문가라는 말들을 곧잘 한다. 맞는 말이다. 의료지식의 구성과 그 수행에 대 해서 의사보다 잘 아는 직업은 없다. 하지만, 생의학 적인 의료지식이 곧바로 사회적인 관계 속에서 의료 가 갖는 의미에 대한 이해나 의료의 사회적인 역할 과 책임에 대한 성찰로 이어지지는 않는다. 기능적 전문의료인이 곧바로 의료전문직으로 여겨져서는 안 된다는 뜻이다. 그럼에도 불구하고, 종종 의사들은 이 두 가지 차원을 혼동한다. 임상적 장면에서는 의사가 모든 결정의 권위자이며 전문가이지만, 사회 적인 관계망에서 의료와 의사의 역할과 의미에 대해 서는 생의학적인 지식만으로 이해하거나 해석하기 가 곤란하다. 어떻게 보면 의료의 사회적인 성격이 나 역할에 대한 의사들의 평균적인 이해는 일반인들 에 비해 더 나을 것이 없다고 할 수도 있다. 이 간격 을 어떻게 메울 것인가?


  • 기능론적인 관점에서 의료전문직의 위기는 사회 구조의 미성숙으로 파악할 수 있다고 했다. 권위적, 비민주적인 시대에 의료전문직에 대한 사회적인 비 판이 크지 않았던 것은 우리 사회가 그만큼 성숙하 지 못했던 때문이라고 생각한다. 다시 말하면 의료 전문직이 자신의 역할을 충실히 수행하여 국민적인 신뢰를 쌓았기 때문에 지금과 같은 비판이 없었던 것이 아니라, 모든 것이 획일적이고 중앙집중적으로 결정되던 시대, 다양성과 상반된 가치에 대한 자유 로운 발언이 차단당했던 시대에는 의료전문직에 대 해서도 대중적인 불만이나 요구가 공론화되기 어려 운 측면이 있었다. 이것은 비단 의료전문직에만 국 한된 것이 아니라 사회전체에 공통된 것으로, 지금 우리 사회에서 그토록 다양한 위기와 불만들이 표출 되고 있는 것은 역으로 한국 사회가 그만큼 성숙했 음을 증명하는 것이기도 하다.

  • 갈등론적 관점을 들어서 말하자면, 한국 사회는 이제 통제와 권위의 시대를 지나갔으므로 전문가 집 단들은 공적인 영역에서 사회적인 설득을 통해서 끊 임없이 전문가적 지배(professional dominance)와 전문가적 자율성에 대한 정당성의 근거를 획득해 나 가야 하며, 이것은 국가나 외부적인 세력에 의해서 전문가 집단에게 저절로 주어지지는 않는다는 것 이다.


따라서 의사라고 하는 자격증만으로 대중적인 권위가 획득되는 시대는 이미 아니며, 의사들은 성 숙한 사회에 적합한 존재 의의를 공론의 장에서 스 스로 증명해 보이면서 전문가적 입지를 쌓아 나가야 만 할 것이다.


전문직은 서비스 지향적 업무와 추상적 지식의 사용을 특성으로 한다고 하였다. 이를 위해서는 다 른 직업에 비해서 훨씬 혹독하고 장기적인 훈련을 거쳐야 하며, 그 결과로 그러한 노력에 상응하는 사 회적인 지위와 보수를 보장받게 된다.15) 저자는 의 사들이 그러한 훈련 과정을 거치는 집단이며, 그러 므로 그러한 노력에 합당한 사회적, 경제적인 대우  를 받아야 한다는데 동의한다. 문제는 의사들이 자 신 존재 의의를 스스로 성찰하고, 그것을 대중들에 게 설득해 냄으로써 의사의 정당한 이익 추구가 사 회 전체의 공적 이익에도 기여함을 보여주는데 성공 하고 있지 못하다는 것이다. 이 지점에서 저자는 왜 의료전문직에 대한 이해, 의료의 사회적 의미에 대 한 이해가 그토록 중요한가 하는 한 근거를 찾을 수 있다고 본다. 생의학에 대한 많은 지식이 의료가 갖 는 사회적 의미에 대한 성찰로 곧바로 이어지지는 않는 것이기에, 의사들에게는 자신의 전문성을 사회 적인 관계망 속에서 파악하고 반성할 수 있는 능력 이 필연적으로 요구된다. 이는 단순히 많은 지식을 익힌다고 해서 얻어지는 것이 아니며, 사회와 의료, 인간과 의학에 대한 성찰적인 교육과 인문학적 훈련 을 통해서만 습득될 수 있다.


위기는 언제나 변화를 의미한다. 지금의 한국 사 회가 근본적인 변화를 요청받는 시기라는 데 동의한 다면, 의료전문직만이 그 흐름에서 예외일 수는 없 다는 데도 동의해야 한다. 앞서 언급하였듯 우리는 지금의 상황을 위기라기보다는 의료전문직에 대한 재정립이 요구되는 시기라고 파악하는 것이 온당하 다. 그 동안의 의학교육과 훈련이 외부적으로 부여 된 권위와 기득권에 대한 보장에 기대어 기능적인 역할을 전달하는 데 중점을 두었다면, 앞으로의 의 학교육은 생의학적 지식만이 아니라 의학의 의미와 의사의 역할에 대해서도 비판적 성찰을 할 수 있으 며, 이를 바탕으로 사회적 접촉면을 확장해 나가는 성숙한 의식을 지닌 의사들을 양성할 수 있어야 한 다. 여기에는 합리적으로 자신의 입장을 설명하고 설득할 수 있는 능력과 더불어서, 엄격한 전문가적 직업윤리의식에 대한 요청이 포함될 것이다.


의료전문직에 대한 논의를 통해서 얻고자 하는 목적은 다양하겠지만, 의사들이 국민들에게 신뢰받 고 이를 통해 온당한 전문가적 지위를 확립하는 것 도 그 하나일 터이다. 이것은 단기적인 처방을 통해 서 얻어질 수 있는 성과가 아니며, 모두의 반성과 노 력을 통해서 이루어야 하는 장기적인 과제라고 할 수 있다. 그러므로 다시 의료에서 전문직의 문제를 고민하지 않을 수 없으며, 어떻게 그 내용과 형식을 채워나가는가가 미래 한국 의사들의 위상에 심대한 영향을 미치게 될 것이다.



한국의료윤리학회지 제13권 제3호(통권 제27호) : 255-261 ⓒ한국의료윤리학회, 2010년 9월

Korean J Med Ethics 13(3) : 255-261 ⓒ The Korean Society for Medical Ethics, September 2010

ISSN 2005-8284


The Concepts and Discussions about Medical Professionalism

in Korea

Yunesik Kang*


Abstract

Many Korean physicians are dissatisfied with their socioeconomic status. While they report

high levels of pride in their chosen profession, Korean physicians tend to have a poor

understanding of ethical issues, weak social skills, confusion about their job identity, and high

levels of anxiety toward the future. These problems are partly addressed by current medical

school curricula, most of which provide students with at least some basic training in medical

ethics. However, this article argues that in order to resolve the aforementioned problems fully,

greater awareness is needed of the concept of medical professionalism. Awareness of the

requirements of medical professionalism would not only assist physicians in their practice of

medicine, but would also help physicians gain greater levels public trust and thereby improve

their standing in society.

keywords

professionalism, structural functionalism, conflict theory, physicians


우리나라 의료윤리교육에 대한 비판적 고찰*

**




. 들어가는


우리나라 41 의과대학은 오늘날 어떤 형태로든 료윤리를 교육과정에 포함하고 있으며 37 대학 정규과목으로, 3 대학은 특강이나 통합강의 형식으 , 그리고 1 대학은 세미나 형식으로 교육을 실시 하고 있다.1) 그러나 의료윤리교육의 교육 목적과 방법, 효과에 대한 평가에 대해서는 기존의 연구가 별로 없다

  • 교육 목표에서 참고할 만한 자료로는 

    • 2006 의과대학 학장협의회에서 발행한 <의과대학 학습목표>정도가 뿐이며2), 

  • 교육방법에 대해서는

    • 역할극을 사용한 윤리 교육에 관한 권복규 등의 연구3)

    • 의예과 영어시간을 용한 교육에 관한 이정구 등의 연구

    • 딜레마토론을 활용 김익중 등의 연구4)

    • 토론회를 활용한 박은경 등의 5) 등이 있다

  • 의료윤리교육 평가에 대한 연구로는 

    • DIT 활용한 홍성훈의 박사학위 논문6) 이미 언급한 김익중 등의 논문이 있다


하지만 이들 연구로는 의과대 학이 어떤 교육 목적을 가지고 어떤 방식으로 학생들을 교육해야 하며 장기적으로 교육 효과를 어떻게 검증할지 대해서 뚜렷한 해답을 찾기 어렵다. 이미 출간된 대표 적인 교재 2, 한국의료윤리교육학회가 펴낸 <의과 대학 학습목표에 기초한 의료윤리학> 한국의학교육연 수원이 펴낸 <임상윤리학>역시 주제에 대한 일반적인 기술(description) 머물러 있고 구체적인 사례에 대한 접근방법은 드러나 있지 않다. 의료윤리 교육의 필요 성에 대해 모든 의과대학이 공감하면서도 효용성에 대해 서는 회의적인 이유 중의 하나가 의료윤리 교육의 이러 현실 때문이다. 논문에서는 현재 우리나라 의료윤 교육의 문제점을 필자의 교육 경험에 비추어 분석하 , 이를 극복하기 위해 <프로페셔널리즘에 입각한 임상 에서 겪게 되는 흔한 윤리적 갈등의 해결 능력(medical ethics competence) 배양> 기초의학교육과정(BME) 에서 의료윤리교육의 목적으로 제시하며 이를 위한 구체 적인 방법론을 제안하고자 한다


.


1. 교육 목적

< 1> 한국의과대학학습목표 <의료윤리와 환자의 권리>7)


표는 한국의과대학장협의회가 펴내는 <의과대학 학습목표> 의료윤리와 환자의 권리 대한 내용이 . 대부분의 내용이나열한다, 설명한다, 정의한 같은 이른바행동 기술(behavior description) 형태로 되어있는데 학생들이 이와 같은 내용을 나열 하고, 설명하고, 정의한다고 해서 실제 현장에서 접하는 의료윤리 문제들을 해결해 나갈 있을지는 매우 의심 스럽다. 학습목표는 의료윤리를 어디까지나지식 (knowledge) 차원에서 바라보고 있으며, 전통적으로 3 , (knowledge)-수기(skill)-태도(attitude) 차원 중에 오로지 지식만을 강조하고 있다. 하지만 알고 있다고 해서 반드시 아는 것은 아니라는 명제는 의료윤리 교육에도 역시 적용될 있다. 그리고 의료윤리교육에 항상 언급되는태도 문제는 학습목표에서는 그다지 다루어지고 있지 않다.8)


  • 실제로 대부분의 교육현장에서는 의료윤리교육의 분명하지 않다.9) 

  • 의료윤리 교육은 생명윤리 (bioethics) 교육, 혹은 윤리학 교육과 혼동되고 있으며때로는“인문사회의학”혹은“인성교육”과도 혼동된다. 

  • 생명윤리의 4원칙, 낙태, 안락사와 같은 주제들은 가장 흔히 다루어지는 학습 내용이지만 이러한 것들이 소위 윤리적인 의사 양성하는 어떤 관련이 있는지 대해서는 뚜렷한 근거가 없다

  • 인성교육 의사학, 료윤리, 대화술, 심리학, 행동과학, 철학 등의 과목, 기초의과학이나 임상의학, 혹은 전통적인 예방의학에 해당하지 않는 거의 모든 교과목을 포함하는 것으로 있는데10) 이러한 과목들이 학생의인성 함양 마나 도움이 되는지를 실제로 보여주는 연구는 거의 으며, 그러한 교육 효과를 측정하기가 쉬운 일은 아니

  • 그렇기 때문에 의과대학에서의 윤리교육, 혹은 성교육 효과가 없이 시간만 낭비하는 격이라는 회의 론이 생겨나고 있는 것이다.11)

 

그러나 엄밀히 말해서윤리교육인성교육 서로 분리될 필요가 있다.

  • 인성교육 의사로서 기본 적으로 갖추어야 인격과 품성, 그리고 프로페셔널리 12) 의미하는 것이며 이는 특정 교과목을 통해 양성 있는 것이 아니라 의과대학의 전체 프로그램, 리고 일종의학습 생태계(learning ecosystem)13) 통해 습득되는 것이다. 물론 특정 프로그램을 통해 러한 학습 과정을 촉진시킬 수는 있으나 오로지 특정 프로그램을 통해서 학생의인성 계도하기란 불가 능하다

  • 아울러 의사의 인성이란 의사의 프로페셔널리 즘과 분리될 없는 것으로, 일반인의 인성과는 조금 다른 면이 있다. 의사로서 지켜야 기본적인 위와 인격, 가치관과 자세를 심어주는 것이 프로페셔널 리즘 교육이다. 지금까지 의사의 프로페셔널리즘에 각한 교육은 우리나라에서 거의 이루어지지 않았는데 이는 프로페셔널리즘의 개념 자체가 발달하지 못한 의사 사회의 한계에서 비롯된 것으로 생각된다.14)

 


8) 동일한 학습목표집에서 윤리적“태도”와 가장 근접해 있는 것은 소위“프로페셔널리즘”에 대한 항목이다. 그러나 이 항목의 내용은 의료인의 권리와 의무, 의료자원 배분, 실습학생과 환자 및 다른 의료인 관계에 있어서 주의할 점, 그리고 자문과 의뢰의 차이를 설명하라는 것으로 되어 있다. 이 정도의 학습목표로는 우리가 원하는 자질을 갖춘 의사를 양성하기 어렵다.


9) 한국의료윤리교육학회. 전국의대 의료윤리교육 향상 워크숍 자료집. 2006. 5. 23. 이 자료집에 수록된 여러 의과대학의 의료윤리 과목 계획서에 나타난 교육목표는 학교에 따라 매우 다르다.


10) 한국의과대학장협의회, 한국의학교육학회. 제4차의학교육합동학술대회자료집 : 의과대학 인성교육, 어떻게 할 것인가. 1996. 12. 이 자료집 발간이후 10년이 지났지만 의과대학에서의 윤리교육, 혹은 인성교육에 관한 포괄적인 고민은 여기서 별로 진전된 바가 없다.


11) 이런 이유 때문에 임기영은“윤리교육, 인성교육 하지말자!”는 자극적인 표현을 쓰기도 한다. 그의 주장에 따르면 의료계의 모든 문제를“의사들의 도덕적 해이에서 기인되었다”는 식의“환원적 도덕주의”로 돌리는 식의 윤리교육이라면 하지 않는 편이 낫다. 그런데도 우리나라의 의학교육자들 많은 수가 윤리교육을 임기영이 말하는“환원적 도덕주의”에 입각하여 생각한다.

임기영. 의사와 사회·윤리적 측면. 제8차 의학교육 합동학술대회 결과보고서 : 의사와 사회 2001

한국의과대학장협의회·한국의학교육학회 : 41-42


12) 프로페셔널리즘에 대해서는 여러 분분한 논의들이 있고 정의도 다양하지만 이 논문에서는 의사로서의 사회적 책임감과 일반적으로 기대되는의사의 표상이라는 좁은 의미로 사용하며. 따라서 전문직업성이라는 번역어 대신 프로페셔널리즘이라는 영어 표현을 그대로 사용하였다. 프로페셔널리즘에 관한 국내의 논의에 대해서는 다음 논문을 참조.

김선,허예라. 의학전문직업성, 어떻게 평가할 것인가? 한국의학교육 2005 ; 17(1) : 1-14


13) 학습이 그 자체의 규칙에 따라 교수자의 계획을 넘어서서 자체의 역동성에 따라 진행되며 궁극적으로 질서를 찾아간다는 학습생태계의 개념은 최근 성인교육과 e-learning에서 많은 주목을 받고 있다. 이 논문에서는 의과대학의 모든 정규, 비정규 프로그램을 포괄하며 의과대학 자체가학습 환경으로 작용한다는 의미에서 이 용어를 사용하였다.


14) 강신익은 한국의 치과의사가 주체적 직업전문화과정을 경험하지 못했다고 주장하는데 이는 의사 집단에게도 그대로 적용될  있을 것이다. 일제 강점기와 해방 이후 사회 환경에 관한 강신익의 논의는 여전히 유효하다. 

강신익. 치과의사의 전문직업성과 윤리. 의료·윤리·교육

2002 ; 5(2)__

 

1999 한국의과대학장협의회가 발간한21세기 한국 의학교육 계획 : 21세기의 의사상 2003 영국의 General Medical Council 발간한Tomorrows Doctor : Recommendations on Undergraduate Medical Education 비교해보면 이러한 차이를 있다(2).

 

< 2> 한국의과대학장협의회21세기의 의사상 GMC Tomorrows Doctor

 


한국의과대학장협의회의 <21세기의 의사상> 의료 윤리와 관련된 제안에서 의료윤리교육을 크게 갈래로 파악하고 있다

  • 하나는 다음과 같은 제언의 본문에 타난 대로“…… 또한 의학의 발전은 인간 복제, 안락사 의학 윤리적인 문제를 가져왔다. 이런 문제는 윤리적 차원에서 끝나는 것이 아니라, 법적인 문제로까지 관된다. 따라서 의사는 생명윤리에 관한 윤리적·법적 문제를 이해하고 숙지해야 한다. 내용으로서 의료윤리를 첨단 의학의 발전에 따르는 소위 생명윤리 문제(bioethical issues) 파악하고 있다는 점이다

  • 두 번째는 의료윤리를 소위 “인성”의 영역에서 파악하고 있 는 것으로서 위 제언에 나타난 바와 같이“환자의 이익 과 생명을 보호하고, 일상생활에서도 높은 도덕관과 윤 리관을 유지해야 한다.”는 것이다. 환자의 이익과 생명 을 보호하는 것은 의사로서 마땅히 준수해야 할 기본적 인 프로페셔널리즘이지만 “일상생활에서도 높은 도덕관 과 윤리관을 유지해야 한다.”는 것은 지나친 요청이며 이와 같은 높은 도덕관과 윤리관을 의과대학 교육을 통 해 달성하기란 기대하기 힘든 일이라는 것이 이 제안의 한계이다. 하지만 이러한 인식은 오늘날 대부분의 의과 대학 의료윤리교육에 있어 지배적인 흐름으로 생각된다.



의료윤리 교육을생명윤리 교육인성 교육으로 생각한다면 크게 가지의 문제가 발생할 있다.

  • 하나는 생명윤리교육을 통해서 임상에서 접하는 여러 갈등사례에 대한 분석과 이해 능력은 증진시킬 있지 , 사례에 대해 의사로서 어떻게 접근하여 해결하는 가를 알려주기가 어렵다는 것이다. 그리고 가장 흔하고 일반적인 의료윤리 문제들, 예컨대 환자-의사 관계에서 발생하는 갈등이나 금전적 요인과 결부된 갈등에 대해서 보다는 낙태와 안락사 같은 매우 극한적인 상황에서의 갈등들에게만 초점을 맞추게 되어 자칫하면 교육이 비현 실적이라는 비판을 듣기 쉽다.15) 

  • 반면“인성 교육”을 통 해서라면 과연 어떻게 이미 성인이 된 의과대학생들의 “인성”을 높이는가 하는 문제가 발생하는데 성인에게서 시간, 혹은 학점의 교육으로인성 바꿀 프로그램을 만들기란 불가능하기 때문이다.16) 

  • 게다 가 의료윤리 문제를“인성”의 차원에서 바라보는 관점은 엉뚱한 결론으로 이어질 우려가 있다. 현재의 의료윤 문제는 기성 의사들의인성 문제 있어서라는 식의 논의와 함께 이상화된쉬바이처, 혹은 비현실적 으로 신비화된허준등이 의사가 지향해야 모델이라 결론과 연결되기 쉬운 것이다.17) 그러나 평범한 의대 생을 쉬바이처 박사와 같은 인격으로 변화시킬 수도 없 을뿐더러 그럴 필요도 없을 것이다. 게다가 의과대학생 의“인성 교육”을 논하기 시작한다면 그 교육자는 상당 히 높은 도덕성과 윤리성을 담보하고 있어야 한다는 주 장이 정당성을 갖게 된다. 이런 선입견으로 인해 의과대 학에서 실제 의료윤리를 교육할 담당자를 구하기 어려 운 문제가 발생하며, 전문성보다는 최연장자, 혹은“원 만한 인격자”라고 생각되는 교수들에게 윤리교육을 미 루는 모습이 나타난다. 이 모두가“프로페셔널리즘”과 개인의“인성”, 혹은“도덕성”을 혼동하는 데서 오는 문제들이다.

 

15) 우리나라 의사들이 가장 흔히 겪는 의료윤리 문제는 불법적인 환자유치, 과잉/과소진료와 같은 소위 직업윤리적인 문제로 뇌사, 장기이식, 유전자연구와 같은 생명윤리 문제들은 거의 관련이 없다고 느끼고 있었다. 사실 이런 의료윤리 문제는 의사의 인성과 관련된 것이기 보다는 열악한 의료환경과 더 큰 관련이 있다.

구영모,권복규,김옥주 등. 의료윤리 문제에 관한 우리나라 의사들의 의식 조사. 의료·윤리·교육 1999 ; 2(1) : 59-60


16) Rest는 대학생활을 통해 도덕판단력지수인 DIT 점수가 크게 변화하며 대학 생활의 경험이 DIT변량의 40%까지를 설명할 수 있다는 연구결과를 내놓았지만 DIT는 인지적 수준에서의 도덕판단력을 측정하는 지수로서 이것이 우리가 말하는“인성”, 혹은“도덕성”을 바로 의미하지는 않는다. “인 .혹 .“도 .성”에는 항상 개인의 결단과 실천(practice)이 포함되어야 하나 DIT는 그렇지 않다. 역설적으로 우리는 교육을 통해서무엇이 도덕적으로 잘못인지를 학습시킬 수는 있지만 그것이 올바른 행동을 하게 하는 결과를 낳는 게 아니라 도덕적 비난을 피해가는 방법으로 사용될 수도 있는 것이다.


17) 일반 국민들의 한국 의사들에 대한 누적된 감정적인 불만, 특히 2001년 의사 파업 사태 이후의 의사 집단에 대한 불신과 불만으로 인해 의사들의 인성과 도덕성에 대한 비난이 터져나왔지만 1999년 한국 형사정책연구원의 직업별 부정부패 정도에 대한 조사에서 의사들의 부정부패지수는 평균 2.66으로 법조삼륜은 물론 교수나 교사보다도 낮게 나타났다. 임기영. 제8차 의학교육합동학술대회 결과보고서 2000 : 43

 


따라서 의과대학의 의료윤리교육, 기본의학교육 (BME)과정에서 의료윤리교육의 교육 목표는 일반적인 의학교육 목표와 마찬가지로 일차진료의사(primary physician)으로서 갖추어야 프로페셔널리즘을 바탕 으로 하여 흔히 접할 있는 임상 환경에서의 윤리적 사례를 해결할 있는 능력(medical ethics competence) 양성하는 것이 되어야 한다. 이는 졸업후 교육, 혹은 평생교육을 통해 보다 심화된 의료 윤리에 관한 교육을 받을 있는 능력과 연계되어야 것이다.

 


2. 효과적인 교육 방법론


의료윤리교육을 어떻게 하느냐에 대해서는 많은 논의 있었으며 아직까지 뚜렷한 해답은 나와 있지 않다. 러나 교육 목표를 앞에서 논한 대로 의사로서의 프로페 셔널리즘에 입각한 흔히 접하는 의료 윤리적 문제의 국한한다면 이는 오히려 교육 방법론의 차원에서 쉽게 풀어갈 있는 면이 있을 것이다. 현재 우리나라 의료윤리교육 방법론의 혼선은 이렇듯 의료윤리 교육의 목표가 분명하지 못한 상당 부분 기인한다. 하지만 목표를 명료하게 제시한다 해도 이를 달성할 있는 가장 효과적인 방법론이 무엇인가에 대해서는 논의를 속할 수밖에 없다.


  • 현재 우리나라에서 일반적으로 사용되는 의료윤리교 방법론은 강의, 소그룹토론, 역할극 등의 학생 활동, 봉사학습 등의 체험 활동, 그리고 일부에서 시도되고 PBL TBL18) 이용한 윤리교육 등이다.19) 

  • 일부 학에서는 문학과 예술 등을의학인문학,또는 의료인 문학 개념으로 인성교육 광의의 의료윤리교육과 연결시키기도 한다.20) 

  • 미국의 의과대학들에서도 의료윤 교육을 위해 토론/논의(84%), 자료 읽기(83%), 에세 (64%), 강의(64%) 같은 방법론을 주로 사용하고 어서 우리와 차이가 없다.21) 


미국 의과대학의 의료윤 리교육 목적이의료윤리 문제들과 익숙해지기(77.5% 채택), 혹은윤리적 판단력과 문제해결능력의 배양 (63.8%)22)이라고 하더라도 이와 같은 방법론으로 이러 교육목적을 달성할 있는지는 불분명하다. 물론 식으로든 교육을 하면 학생은 해당 주제들과는 친숙 해질 있겠으나 이는 마치 의학교육의 목적이질병 의료 행위와 익숙해지기 것처럼 받아들이기는 란한 것이다. 문제해결능력의 차원에서 본다 해도 , 에세이, 토론, 혹은 자료읽기나 시청각자료의 시청 문제해결 능력과 어떻게 연관된다는 것인지 자세 논의가 필요하다.

 

프로페셔널리즘에 입각한 의사가 흔히 접하는 윤리 문제의 해결 능력 배양으로 의료윤리 교육의 목표를 설정했을 경우 이를 교육하기 위해서는 실제로 의사가 윤리적 문제를 어떻게 해결하고 있는지를 생각해볼 필요 있다. 일반적으로 윤리적 사안(ethical issue) 접했 의사는 다음과 같이 반응할 것이다. 다음 그림은 의사가 윤리적 사안을 접하였을 이를 해결해가는 과정과 해결에 필요한 능력을 도식적으로 보여준다.23)

 

 

19) 설문에 응답한 총 37개 대학 중 34개 대학(91.9%)에서 강의’를 의료윤리교육 강좌의 수업방식으로 사용하고 있어서, 의료윤리교육 강좌에서교육방법으로‘강의’가 보편적임을 알 수 있었다. 두 번째로 많이 사용하고 있는 수업 방식은‘전체 토론’‘, 소규모 증례 토론’으로 각각 24개 대학(64.9%), 23개 대학(62.2%)에서 수업 방식으로 채택하고 있었다. 그 외‘비디오 상영’을 수업 방식으로 택한 대학이 15개 대학(40.5%)였으며, ‘병원내 실습,’‘지역사회실습’등 실습을 수업 방식으로 택한 대학도 각각 3개 대학(8.1%), 5개 대학(13.5%)이 있었다.

최은경,장기현,김수연 등. 우리나라 의료윤리 교육의 현황과 발전방향. 미발표 논문.

 

<도표 1> 윤리적 문제의 해결 과정

 


사례에서 윤리적인 문제 해결의 단계는 이러한 요청을 의학적인 것과 아울러 윤리적인 것으로 파악하는 것이다. 어떤 의사들은 이러한 요청에 윤리적인 문제가 내재하고 있음을 전혀 이해하지 못할 있으며 결고 환자가 원하는데 그냥 한번 찍어주지내가 문제 없다는데 말이 많은가 반응을 보일 있다. 이러 반응은 모두 바람직하지 못한 것이다. 윤리적으로 감한 의사라면 이러한 환자의 요청에 대해 자신이 해결 해야 문제로 받아들이며 해결 방법을 모색하여 것이다. 모든 문제해결의 첫걸음은윤리적 문제를  윤리적인 것으로 인식하는 있다.24) 따라서 의료윤리 교육 방법 역시 윤리적 민감성을 높이는 초점을 맞추 도록 해야 한다. 윤리적 민감성은 선천적으로 타고 나는 부분도 있지만 의사와 같은 전문직 영역에서는 교육과 모범, 그리고 지속적인 문제제기와 접촉 성찰에 의해 길러지는 부분이 크다고 생각된다. 윤리적 민감성은 인에 대한 공감(sympathy) 정서적 예민함, 그리고 리에 관한 지식에 의해 길러지는데 이를 위해서 역할극, 영화, 문학작품 등이 활용될 있다.25)

 

번째 단계에서 윤리적인 문제로 사태를 파악한 사는 이를 해결하기 위해 사태를 분석하려고 것이다. 단계에서 필요한 것이 윤리적 지식과 분석능력이다. 생명윤리 4원칙과 같은 원칙들이 도움이 되기도 한다. 사례를 가지고 생각해 본다면MRI 찍어달라고 환자의 요청을 들어주는 것이 자율성 존중의 원칙에 합당한가?, 의사는 환자의 요청에 모두 응하여야 도덕적 의무가 있는가?, MRI 이득/위험은 무엇인 ?, 급한 환자에게 MRI 사용하도록 하는 것이 희소하고 귀중한 자원의 정의로운 배분이 아닌가?하는 등의 물음을 물을 있고 여기에 대해서 나름대로의 석과 결론을 내릴 있다. 이러한 문제들을 명료화하여환자의 자율성 존중과 의사의 전문적 판단의 갈등으로 결론을 짓고 각각이 우세할 있는 조건들을 탐구하 것이 필요할 것이다. 단계에서 필요한 윤리적 지식 분석능력은 각종 사례 분석과 윤리학 강의를 통해서 증진될 있다. 현행 우리나라 윤리교육은 번째 단계에 주로 초점을 맞추고 있다.

 

번째로 문제를 어느 정도 정리하여 분석을 하였다 하더라도 실제 의사결정을 하는 데에는 다양한 판단 인이 개입될 수밖에 없다. 사례에서 본다면 자는 굳이 MRI 원하는가에 대해 의사의 관심이 집중 되어야 한다. 과정에서 좋은 의사소통능력이 필수적 이며, 환자의 불안, 기대, 관심사, 욕구에 대한 이해가 있어야 한다. 심지어 MRI 보험급여가 되지 않는다면 환자의 경제적 수준 역시 판단을 내리는 필요한 요인 수도 있다. 실제 의료 현장에서 이러한 판단 요인 매우 중층적이고 다차원적이며 의사의 경험과 지혜가 필요한 부분이다. 이런 이유 때문에 엄격하게 윤리학적 분석을 넘어서 시점에서 의사집단과 개별 의사의 행위를 규율하는 각종 <지침> 필요하며 핵심적 부분은 학생들에게 교육되어야 한다. <대한의사협회 의사윤리지침>외에 개별적인 사안에 대한 자세한 지침 없다는 것도 학생들에게 윤리교육을 하기 어려운 중의 하나이다.@

 

마지막으로 본인이 옳다고 생각하는 결정을 하였으면 이를 실천할 용기와 결단력, 도덕적 실천 의지가 필요 하다. 예컨대 어떤 의사가 전문직 정신에 입각하여 례와 같은 환자에 대해서는 설명해서 그냥 보내는 것이 바람직하다는 결론을 내려놓고, 실제로는 MRI 찍는 것이 병원 경영에 도움이 되니 환자의 원대로 하게 다면 이는 올바른 자세라고 보기 어렵다. 이러한 용기와 결단력은 정규 교육을 통해서라기보다는 의사 집단의 화와 정서, 그리고 의료행위를 둘러싼 사회 분위기의 영향 많이 받는다. 학생들의 올바른 의료윤리 실천을 위해서는 먼저 선배 의사들의 모범과 전문직 정신의 고양이 필요한 이유가 여기에 있다. 그러나 도덕적 실천 역시 세한 교육적 접근을 통해 어느 정도는 증진될 있으며 방법으로는부정적 사례(bad case) 대한 분석26), 자기 성찰27), 리더십 훈련, 모델 제시28), 선서, 혹은 , 우수 학생에 대한 표창 등이 있을 있다. 물론 러한 방법들은 학생에 따라 교육효과의 차이가 매우 크다.

 

 

 

24) 이와 같은 능력을 윤리적 민감성(ethical sensitivity)라고 한다. Rest의 고전적 정의에 의하면 도덕적 행동은 moral sensitivity, moral judgement, moral motivation & commitment, moral character & competence로 구성된다고 한다. 그가 파악하는 도덕적 민감성은“윤리적 문제를 윤리적인 것”으로 받아들이는 한편 자신의 행동이 타인에게 미칠 영향에 초점이 맞추어져 있다. 필자는 이 글에서“윤리적 민감성”과“도덕적 민감성”을 구분하지 않고 사용할 것이다.


Rest JR, Morality. Handbook of Child Psychology : Cognitive Development. vol 3. New York : John Wiley & Sons


25) 윤리적 민감성을 측정하려는 몇 가지 시도가 있었는데 이는 대부분 간단한 사례를 주고, 어떤 윤리적 문제가 얼마나 있는지를 서술하게끔 하는 것이었다. Hebert의 다음 논문 참조.

Hebert P, Meslin E, Dunn E. Measuring the Ethical Sensitivity of Medical Students: a Study at the University of Toronto.

Journal of Medical Ethics 1992 ; 18 : 142-147. 이와 같은 접근방식은 개인별 비교와 측정이 가능하다는 장점이 있는 반면 인지적이고지식 의존적이라는 한계가 있다. 즉 어떤 사례에서 사전의 경험이나 노출을 통해 몇 개의 문제를“인지(perceive)”한다 하여 그 문제를 정작 진지하게 취급할지는 알 수 없는 것이다.

 

3. 의료윤리 교육의 평가


의료윤리교육의 성과를 평가하기 위해서는 궁극적으 학생들이 졸업 임상에서 겪는 윤리적 갈등상황들 얼마나 효과적이고 전문직답게 대처하고 있는가를 아야 것이나 이는 현실적으로 쉽지 않다. 덧붙여 의료 윤리 교육이 인지적이고 행동적인 발달을 추구할 니라 정의적인 발달 역시 지향하고 있기 때문에 평가가 어려워진다. 의료윤리교육의 효과에 관한 포괄적이고 유효한 평가가 쉽지 않기 때문에 최근까지 우리나라 료윤리교육의 평가는 주로 교육 학생의 도덕적 추론 능력을 보는 DIT검사29), 프로그램에 대한 학생 만족 평가에 머물러 있었다. DIT검사와의료윤리민감성 검사(Medical Ethics Sensitivity Test, MEST) 사용 이와 같은 측정은 딜레마토론이라는 교육방법론과 물려 있고, 정량적인 평가가 가능하며, 평가가 비교적 이하다는 이유로 널리 사용되었다.30)

도덕적 판단력과 도덕적 민감성이 의료윤리교육이 루는 중요한 요인이지만 이것만 가지로 의사, 혹은 의대 생의 윤리성을 정량적으로 평가하거나 교육의 효과를 가하기란 불가능하다

  • 우선 지표들은의료윤리 개인의 도덕성 문제, 혹은 도덕 판단력의 수준으로 치환 시키는데 앞서 여러 차례 지적하였듯이 의료윤리의 실천 의사의 프로페셔널리즘이라는 사회적 맥락에서 접근 해야 하며, 범용한 의사라도 일반적인 의사집단의 판단 기준을 따라가면 오류를 저지르지 않을 있는 것이 . 예컨대충분한 정보에 근거한 동의(informed consent) 내용과 절차를 이해하고 이를 실무에 적용 있는 능력은 특정한 경우에 이를 받느냐 마느냐 도덕적 추론의 문제보다 의사에게 실질적으로 요할 있다

  • 번째 낙태, 안락사, 뇌사, 유전자 검사 같은 생명윤리적 사안들에 대해서 인지적 관점의   판단과 도덕추론은 어떤 결정도 내려주지 못한다. 러나 의사는 어떤 식으로든 의사결정을 내려야만 하며 이를 위해서는 생명윤리의 정치한 지식과 논의들, 그리 사회적인 합의가 필요하다

  • 번째 의료윤리교육을 통해 이와 같은 지표들이 긍정적인 방향으로 상승한다는 연구는 거의 찾아볼 없다. 대부분의 연구는 성인, 의과대학생이나 의사에게서 도덕판단력과 도덕민감 성이 교육, 혹은 학년에 따라 올라간다는 어떠한 증거도 없음을 시사한다.31) 의료윤리교육이 이러한 도덕판단력 추락을 일부나마저해하는 효과가 있다는 주장32) 의료윤리 교육의 목표로 삼기에는 빈약한 것으로 생각된 .

  • 마지막으로 이러한 지표들은 의료윤리 교육의 성과 개인의도덕성도덕판단력 관련된 것으로 주하나 이는 다양한 의료윤리의 영역과 문제들을 개인도덕성의 차원으로 치환하는 지나친 단순화의 오류 저지 르고 있는 것이다.33)


이상적인 의료윤리 교육의 효과에 대한 평가는 지식, 문제해결능력, 그리고 실천의지를 모두 포함하는 것이 되어야 한다. 지식은 지필시험 기존의 평가방법을 적용할 있으며 실천의지는 사실상 개인의 품성과 관련되는 부분이니만큼 이를 평가하는 타당하고 신뢰할 있는 방법을 찾기란 매우 어렵다.34) 그러므로 의료윤 교육의 평가의 핵심은 의료윤리문제의 해결 능력 (medical ethics competence) 두어야 한다. 

  • 이를 가하는 방법으로는 특정 의료윤리 사례(case-vignette) 주고 그에 대한 에세이 작성, 의료윤리 사례를 구술 평가하기, 표준화환자(standardized patient) (Objective Standardized Clinical Exam, OSCE), 표준화환자를 활용한 임상수행능력평가(Clinical Performance Exam)등이 있을 있다

어느 경우든 사례를 제공하고 그에 대한 학생의 반응과 의사결정 능력을 평가한다는 점에서 공통점을 가지나 평가 결과에 대한 통계적인 당도와 신뢰도를 보장하기 어렵다는 한계가 있다. Savulescu등은 이와 같은 의료윤리 문제해결능력 평가 도구의 개발에 대해서 다음과 같은 제안을 하고 있는데 

  • 첫째, 의료윤리 지식과 해결능력을 평가하는 도구는 관련이 있어야 하며 통계 타당도(statistical validity) 보다는 내용 타당도(content validity) 가져야 한다

  • 번째, 도구는 다른 평가자에 의해 신뢰성 있게 용되어야 하지만 아무 평가자나 적용할 있음을 의미 하지는 않는다

  • 번째, 평가 도구는 임상 의료 환경과 관련을 가져야만 하며 마지막으로 평가 도구는 공개 적인 검증과 평가가 가능해야 한다는 것이다.35) 

이와 원칙을 적용한다면 다양한 형태(format) 내용을 임상 의료윤리 문제 해결능력 평가도구를 개발할 있을 것이다. 다만 이러한 평가도구의 개발을 위해서는 임상의사와 전문 의료윤리학자가 함께 참여하여야 한다.

 

33) 개인도덕성이나 인성, 혹은 도덕판단력이 중요하지 않다는 뜻이 아니고 제한된 시간과 자원을 활용한 의료윤리 교육에 있어서 현실적이고 실현가능한 목표를 설정하자는 것이 필자의 주장이다. 프로페셔널리즘에 입각한 의료윤리교육을 통해 궁극적으로 학생의 인격과 인성이 고취된다면 이는 매우 바람직한 일이다.


34) 임상멘터(clinical mentor), 혹은 동료학생 평가(peer evaluation), 상벌기록 등을 통해 특정 학생에 대한 인격적인 평가가 가능할 수 있을 것이다. 그러나 이러한 평가는 매우 조심스럽게 사용되어야 한다. 사실 이러한 면에 대한 평가보다도 프로페셔널리즘을 준수할 때 자신은 물론 의사 집단에게도 유익하다는 인식이 확산되고, 심각한 위반 행위에 대해서는 집단으로서의 제재가 있을 때 실천의지가 고양될 수 있을 것이다.



. 논의 결론

 

우리나라 의료윤리교육이 겪고 있는 어려움은 전문인 력과 예산 등의 지원 부족, 교육 시간 부족36) 기인하 바도 크지만 이는 외국의 의과대학 역시 마찬가지로 겪고 있는 상황이다. 문제점은 의과대학 의료윤리 교육의 근본적인 목적과 이를 달성할 있는 방법론에 대해 진지한 논의가 거의 이루어지지 않았다는 있다. 우선 의과대학 교육, 기본의학교육 과정에서 의료윤 교육의 목적은임상에서 흔히 접하는 윤리적 문제의 해결능력(medical ethics competence) 배양이 되어 한다. 의료윤리 문제해결능력은 의료윤리에 대한 식과 함께 분석, 추론 의사결정능력(decision making ability)으로 구성된다. 중에서도 이해상충 (conflict of interest) 전문직 윤리(professional ethics) 관련된 사안들을 제대로 처리하기 위해서는 도덕적 실천의지와 아울러 의사소통 능력과 같은 자질을 길러주어야 한다. 그리고 임상시험이나 줄기세포 연구 같은 첨단의학과 관련된 윤리적 문제는 관련 지식을 알아야 해결이 가능하다. 편의적으로 의료윤리교육의 주제들을 각각 의료윤리(medical ethics)/생명윤리 (bioethics)/전문직 윤리(professional ethics) 영역 (domain)으로 나누어 있는데37) 이들 영역들은 겹치는 부분이 있는 한편 고유한 부분들도 가지고

  • (협의의)의료윤리 영역은 주로 환자의 비밀보장, 진 실을 말하기, 환자의 보호와 존중 등 전통적으로 의사가 지켜야 할 윤리적 문제를 다루며, 

  • 생명윤리 영역은 낙태, 안락사, 장기이식, 임상연구 등 의학의 발전에 따라 생겨 난 윤리적 문제를 다루고 

  • 전문직윤리 영역은 이해상충, 동료의료인 관계, 금전 문제 등을 다룬다. 


  • 의료윤리 영역 에서는 지식과 함께 사례 중심의 문제해결 능력이 중시 되어야 하며, 

  • 생명윤리 영역에서는 관련 분야에 대한 지 식이 중시되어야 한다. 

  • 전문직윤리 영역에서는 지식과 함께 인성 교육이 중요하다. 


강의, 토론, 사례연구, PBL, TBL, 봉사활동 등의 각종 교육방법은 원하는 결과가“지식 획득”,“ 문제해결능력 고취”, 혹은“인성 및 프로페셔널리즘의 함양”인지에 따라 각기 달리 사용되 어야 하며 학교의 전반적인 교육 목적과 교수전략에 따 라 적절하게 배치될 필요가 있다.38)

 

<도표 2> 의료윤리교육의 영역

 

37) 이 구분은 문제의 명료화를 위한 지극히 편의적인 구분이다. 실제로 이 세 영역은 함께 교육되어야 하며 실질적으로 겹친다. 다만 어느 영역에비중을 두는가는 개별 학교의 교육 전략에 따라 달라질 수 있을 것이다.

 

의료윤리교육의 목적이 의료윤리 문제의 해결능력 양이라고 전제한다면 평가 역시 부분에 초점이 맞추 어져야 한다. 불충분하기는 하지만 이와 같은 능력을 가할 평가 도구는 이미 언급하였듯이 가지가 개발되 었고 현재에도 개발 중에 있다. 그러나 의학 지식이나 기의 숙련 정도를 평가하는 의과대학의 일반적인 평가도 구와는 달리 의료윤리교육 결과에 대한 평가 도구는 한계를 인식하고 신중하게 사용되어야 하며, 지나치게 경직된 통계적인 타당도나 신뢰도 보다는 전문가의 판단 내용에 대한 전문가 집단(교수) 합의를 중시할 필요 있다. 이는 의료윤리의 본질상 불가피한 부분이다.


우리나라 의료윤리교육이 겪고 있는 가장 본질적인 어려움은 실질적인 교육 컨텐츠의 부족이며 이는 한국 의사사회의 프로페셔널로서의 미성숙함에 기인한다고 생각된다. 기성 의사집단이 프로페셔널리즘의 입장에서 민감한 의료윤리 문제들에 대해 구체적인 판단을 제대로 내려주지 못하고 있기 때문에 교육 내용과 의료 현실이 일치하고 있지 않은 것이다.39)


예컨대 보라매병원 사건의 예와 같이 경제적인 이유 보호자가 퇴원을 요구하는 경우에 한국 의사는 어떻 대처하는 것이 윤리적인가? 환자의 자율성 존중과 밀보호가 보호자의 요구와 대립될 어떻게 대응해야 하는가? 이런 경우의 문제해결능력(competence) 엇인가에 대해 의료윤리 전문가들조차도 어느 정도 일치 판단을 내리기 어려운 것이 우리나라의 현실이며 러한 부분들에 대해서는 구미의 논의들을 그대로 가져다 사용하기가 불가능하다.


의료윤리교육은 학교를 둘러싼 사회문화적 환경, 기성 의사집단의 판단과 의지, 생명의료윤리학의 원리와 법률 판단이라는 맥락 속에서 이루어질 수밖에 없다. 효과 적이고 의미 있는 의료윤리교육을 위해서는 자격 있는 교육자, 충분한 시간, 좋은 교육프로그램, 좋은 평가 측정도구 등이 필수적이나 전제로 프로페셔널리즘의 입장에서의료윤리 문제 해결능력 내용을 제공할 있도록 기성 의사집단의 노력이 있어야 한다.

 

 

 38)“의사의 윤리가 땅에 떨어졌어”와 같은 식의 개탄은 대개 의사들이 돈만 너무 밝힌다는“전문직 윤리”의 추락을 의미하고 있다. 그런데 이를해결하기 위해 안락사나 뇌사 등의 주제를 열심히 강의하고 토론시키는 식의 교육은 나무에서 물고기를 찾는 것과 다름없다. 더 큰 문제는 이와 같은 방식의 교육이 궁극적으로 의료윤리 교육 전반에 대한 회의와 불신을 불러일으킨다는 점이다.


39) 미국의사협회(AMA)가 매년 민감한 윤리적 사안에 대해 윤리법사위원회를 중심으로 각종 보고서와 의견, 강령 해석들을 제출하고 대의원회의결의에 따라 회원들에게 배포하는 것은 이런 맥락에서 중요한 참고가 되어야 한다.

@@ 대한의사협회 중앙윤리위원회. 각국 의사단체 윤리위원회 조직 및 기능 비교연구. 2005. 2. : 20-22










한국의료윤리교육학회지 제9권 1호(통권 제15호) : 60-72, 2006년 6월

ⓒ한국의료윤리교육학회

Korean J Med Ethics Educ 9(1):60-72, June 2006

ISSN 1229-0904


A Critical Review of the Current Medical Ethics Education in Korea

KWON Ivo*


There are numerous problems with the medical ethics education currently practiced in Korea. In

the first place, there is a lack of consensus regarding the goals of medical ethics education. Some

educators seek to promote morality or good character in medical students, while others focus on

advanced bioethical issues such as euthanasia or organ transplantation. Secondly, there is confusion

concerning teaching methods. Lectures, small group discussions, so called “dilemma discussions”,

PBL, TBL, and public service components are all used without any clear educational purpose and

strategy. Thirdly, there are problems with evaluation; few know how to evaluate students’

performance or measure the effects of medical ethics education.

In this article, I argue that the promotion of medical ethics competence based on the medical

professionalism should be recognized as the ultimate goal of basic medical ethics education.

Medical ethics competence is composed of knowledge, problem solving skills, and professionalism,

and it covers three different domains: medical ethics, bioethics, and professional ethics. Instructional

tools and methods should be constructed and implemented to achieve this goal of medical ethics

competence, which will in turn help to promote medical professionalism in Korea.


􄧏 key words : Medical ethics education, Professional ethics, Medical ethics competence


ME

 

 

 







전문직업적 정체성 형성(PIF)를 포함시킨 수정된 밀러의 피라미드 (Acad Med, 2016)

Amending Miller’s Pyramid to Include Professional Identity Formation

Richard L. Cruess, MD, Sylvia R. Cruess, MD, and Yvonne Steinert, PhD



1990 년 George Miller1은 "임상 기술 / 역량 / 성과 평가"라는 제목의 기사를 발표했습니다. 그 영향은 즉각적이었습니다. 1 년당 인용 횟수는 1990 년대 한 자릿수에서 증가하여 2010 년에는 100을 넘어 섰고 그 이후로 매년 100-140 회로 증가했습니다.

In 1990, George Miller1 published an article entitled “The Assessment of Clinical Skills / Competence / Performance.” Its impact was immediate. Citations per year grew from single digits in the 1990s, passing 100 in 2010, and remaining between 100 and 140 per year since then.


Miller1은 원 논문에서 "의사가 전문적인 서비스를 제대로 제공하는 것만큼 복잡한 것은 없고, 따라서 이렇게 복잡한 판단을 내리는 데 필요한 모든 데이터를 한 가지 평가만으로 얻을 수는 없다"라고 말하면서 4단계 피라미드 구조를 프레임 워크로 제안했습니다. 의학적 숙달의 여러 단계를 평가 할 수 있다. 밀러는 교육법과 평가법의 통합이 필요하다는 것을 인정하면서 "교수들은 이 피라미드의 상위에 맞는 교육 방법과 평가 절차를 찾아야한다"고 말했다.

In the original article, Miller1 stated that “no single assessment method can provide all the data required for judgment of anything so complex as the delivery of professional services by a successful physician.” He then proposed a four- part pyramidal structure as a framework within which the multiple levels of mastery over the art and science of medicine could be assessed. Recognizing the necessary integration of teaching and assessment, Miller stated that “faculties should seek both instructional methods and evaluation procedures that fall in the upper reaches of this triangle.”1


우리는 Miller의 기여에 찬사 보내며, 의학 교육에서 전문직 정체성 형성(PIF)의 중요성에 대한 이해가 높아짐에 따라 피라미드의 구성을 재검토해야한다고 제안합니다.

We have nothing but admiration for Miller’s contribution, however, we believe that the growing understanding of the importance of professional identity formation in medical education2–4 suggests that the composition of the pyramid should be reexamined.


잘 알려진 바와 같이 Miller의 피라미드 또는 삼각형 (그림 1)은 지식을 기반으로합니다. 

  • Miller는 전문가의 기능을 수행하는 데 필요한 지식을 개인이 "알고"있다는 지식의 기본 중요성을 인식했습니다. 더욱이, 그는 단순히 의학 지식을 습득하는 것만으로는 충분하지 않으며 지식을 평가하는 것이 상대적으로 쉽다는 것을 이해했습니다. 

  • 다음 단계는 졸업생들이 자신의 지식을 어떻게 역량의 지표로 사용할 것인지 "방법을 알아야"한다는 사실을 기반으로했으며 지식의 분석, 해석, 합성 및 적용을 평가하는 방법을 검토했습니다. 

  • 세 번째 수준 인 "shows how"는 "수행능력"와 관련이 있으며, 학습자가 감독하고 관찰하는 동안 자신의 지식을 사용할 수 있다는 것을 성과를 통해 입증해야하는 필요성을 나타냅니다. Miller는 이 성취도를 평가하기 위해 새로운 방법을 고안했습니다. 

  • 마지막으로, 피라미드의 꼭대기는 학습자가 임상 상황에서 독립적으로 기능 할 수 있는지 여부를 결정하려는 시도 인 동사 "Does"가 차지했습니다. Miller1은 "전문적인 행동에 대한 이 단계의 행동 요소는 정확하게 측정하기가 가장 어렵습니다."라고 했다.

As is well known, Miller’s pyramid, or triangle as he also called it (Figure 1), has knowledge as its base. 

  • Miller recognized the foundational importance of knowledge, that an individual “Knows” what is required to carry out the functions of a professional. Moreover, he understood that merely knowing was insufficient for the practice of medicine, and stated that assessing knowledge was relatively easy. 

  • The next layer was based on the fact that graduates must “Know How” to use their knowledge as an indicator of “competence,” and he reviewed methods of assessing the analysis, interpretation, synthesis, and application of knowledge. 

  • The third level, “Shows How” was related to “performance,” referring to the necessity for learners to demonstrate, through performance, that they are capable of using their knowledge while being supervised and observed. Miller described the then emerging methods designed to assess this level of accomplishment. 

  • Finally, the apex of the pyramid was occupied by the verb “Does,” representing an attempt to determine whether learners are capable of functioning independently in clinical situations. Miller1 stated that “this action component of professional behavior is clearly the most difficult to measure accurately and reliably,” an observation that is still accurate.





CBME는 피라미드의 유용성을 강조했습니다. "Know"에서 "Does"까지의 시퀀스가 ​​여러 분야에서 이정표를 개발하기위한 기초 역할을하기 때문이다.

The move to competency-based education and milestones has emphasized the usefulness of the triangle, as the sequence of descriptors from “Knows” to “Does” serves as the basis for developing milestones in many disciplines.9


Miller가 처음 피라미드를 개념화했을 때, 의사가 지속적으로 지식과 기술을 효과적으로 사용하고, 전문가가 기대하는 행동을 보여줄 수 있다면 충분하고 만족스럽다고 생각했을 것입니다. 이론적으로 의사가 의식적으로, 정해진 방식으로 행동한다면 도달할 수 있다.

When Miller conceptualized his pyramid, it seems likely that most observers would have considered it sufficient and satisfactory if they could ensure that those entering practice would consistently use their knowledge and skills effectively and demonstrate the behaviors expected of a professional. Theoretically, this could be accomplished by practitioners consciously acting in the prescribed ways expected of them.


그러나 Hafferty 등은 과연 이것으로 충분한지 궁금해했다. 필요할 때만 전문적으로 행동하면 되는가? Hafferty2는 "임상 의사 결정을 강조하는 근본적인 불확실성과 의학 실습에 스며드는 모호성은 전문적인 존재를 필요로한다고 말하면서 자신의 질문에 대답했습니다. 어떤 사람이하는 것보다 하나에 최선의 근거가있다. "2) 

Hafferty2 and others3,4 wondered whether this is sufficient. Is professional behavior something that is only used when necessary? After asking, “Does it really matter what one believes as long as one acts professionally?” Hafferty2 answered his own question by stating that 


"임상적 의사결정의 근본인 불확실성은 그 사람이 '무슨 행동을 하는가'를 넘어서  그 사람이 '어떠한 사람인가'에 기반을 둔 전문가적 정체성을 필요로 한다"

“the fundamental uncertainties that underscore clinical decision making and the ambiguities that permeate medical practice, require a professional presence that is best grounded in what one is rather than what one does.”2 


전문직정체성professional identity의 중요성을 믿는 다른 사람들은 "무엇을 하는가"보다 "누구인가"가 전문적인 행동의 일관된 존재를 보여주는 더 확실한 근거임에 동의했다. 따라서 우리는 Miller의 피라미드의 꼭대기가 "Is"(그림 2)라는 추가 레벨로 점령되어야한다고 제안 할 것입니다 (그림 2).

Others, believing in the importance of a professional identity, have agreed, stating that “being” is a sounder basis for the consistent presence of professional behaviors than is “doing.”3,4,12 We would therefore propose that above “Does,” the apex of Miller’s pyramid should be occupied by an added level: “Is” (Figure 2).










전문 직업 성에서 직업적 정체성 형성에 이르기까지

From Professionalism to Professional Identity Formation



"직업"이라는 단어는 헬레닉 그리스 (Helellic Greece)에 처음으로 나타나는데, 처음에는 스크리보니우스(Scribonius)의 연구에서 나타난다. 세월이 흐르면서 사회와 의사들은 "프로페셔널"라는 단어를 사용하여 의료 종사자를 묘사했다. 의사들이 전문적으로 행동하리라 기대했지만, 전문직업성을 교육하지는 않았다. 지난 수십 년 동안의 "프로페셔널리즘 운동"14는 의학과 사회가 의학의 프로페셔널리즘이 그 자체로 실패했고, 현대적 의료시스템의 진화에 의한 위협을 받고 있다고 느꼈기 때문이다.15,16 그 결과로 의학의 프로페셔널리즘을 분석하게 되었고, 존재의 이유, 정의가 개발되었고, 교수법과 전문성 평가 방법이 고안되었다. 정의에 따라서는 실제로 관찰 가능한 행동을 강조하였고, 마찬가지로 많은 평가 방법도 그러하였다. 비록 프로페셔널리즘이 일관되게 의학의 도덕적 성격과 미래의사에 대한 가치 전수에 중점을 두어 왔지만, 늘 강조했던 것은 "Does"였다.

The word “profession” can be traced to Hellenic Greece, first appearing in the work of Scribonius.13 Through the ages, society and physicians have used the word “professional” to describe medical practitioners. Professional behaviors were expected of physicians, but professionalism was not taught. The “professionalism movement”14 of the past few decades arose because medicine and society believed that medicine’s professionalism was threatened by its own failures and by the evolution of modern health care.15,16 As a result, medicine’s professionalism was analyzed, including its origins and the reasons for its continued existence. Definitions were developed,17 and methods of teaching18 and assessing professionalism6,19 were devised. Some definitions actually emphasize observable behaviors,11,18 as do many methods of assessment. Even though there has been a consistent emphasis on the moral nature of medicine and on the transmission of its values to future practitioners, the emphasis has been on “Does.”


개념으로서의 직업적 정체성 또한 의학에서 오랫동안 존재 해왔다. 아리스토텔레스의 "phronesis"라는 용어는 직업적 정체성을 주로 기술하고 있으며, 시대에 따라 수정 된 형태로 우리에게 내려왔다. 20,21 1957 년 Merton (22)은 의학 교육의 사회학에 대한 고전적 연구를 소개하면서, 전문직 정체성의 발달이 의학 교육의 기능이라고 하였다.

Professional identity as a concept has also had a long existence in medicine. The Aristotelian term “phronesis” is largely descriptive of a professional identity and has come down to us in modified form through the ages.20,21 In 1957, Merton,22 in the introduction to a classic study of the sociology of medical education, stated that it is the function of medical education to


(의학교육이란) 초보자를 의학의 효과적인 의사로 만들어주고, 가능한 최선의 지식과 기술을 제공하고, 전문적인 정체성을 제공하여 그가 생각하고 행동하고 의사처럼 느껴지도록 하는 것이다.

transmit the culture of medicine and … to shape the novice into an effective practitioner of medicine, to give him the best available knowledge and skills, and to provide him with a professional identity so that he comes to think, act, and feel like a physician.



그 다음에 베커 (Becker)와 그의 동료들에 의한 두 개의 다른 고전적 연구들 23)과 보스 (Bosk, 24)는 의사의 "자아"에 대한 정체성의 중심성을 강조했다. 이러한 공헌들의 상당한 영향에도 불구하고, 그 용어는 aspirational goal이었지만, 교육 목표로서의 전문직 정체성은 거의 관심을 받지 못했다. 

This was followed by two other classic studies by Becker and his colleagues23 and Bosk,24 both of which emphasized the centrality of identity to a physician’s “self.” In spite of the considerable impact of these contributions, professional identity as an educational objective received little attention, although the term was frequently invoked as an aspirational goal.


이러한 관심 부족은 최근 몇 년간 개선되었습니다. 카네기 재단 (Carnegie Foundation)이 의학 교육의 미래에 관한 보고서는 이 문제를 가장 앞서 제기했습니다. 여기서는 "전문직 정체성 형성 - 전문적인 가치, 행동 및 열망의 개발 -은 의학 교육의 중추가되어야 함"이라고 명시했습니다.

This lack of attention has been remedied in recent years. The Carnegie Foundation report on the future of medical education brought the issue to the forefront. Its authors stated that “professional identity formation—the development of professional values, actions, and aspirations—should be the backbone of medical education.”25 


의학에서의 전문직 정체성 서사의 본질은 이제 분명합니다. 
  • 학생들은 유아기부터 개발 된 기존 정체성을 가지고 의대에 입학합니다. 
  • 그들은 의학의 실천 공동체에 참여하기를 원하고 43), 자신의 전문 분야에 대한 최종적인 강한 감각을 지닌 의대생, 레지던트, 의사의 정체성을 연속적으로 습득합니다 .44 
  • 그들의 전문직 정체성은 의식적 의사 결정과 임상적 및 비임상적 경험에 총체적으로 영향을 받는다45 
  • 프로세스 전반에 걸쳐 "완전히 통합 된 도덕적 자아 (개인적 및 전문적 가치가 완전히 통합되고 일관되게 적용되는 것)를 나타내는 정체성을 구축하는 것"이 목표가 된다3 
  • 바람직한 정체성의 본질은 단일하지도, 정적이지도 않다. 모든 개인은 자신의 삶 전체에서 계속 변화하는 다양한 개인 및 전문직 정체성을 습득합니다. 
  • 자비로운 의사에 대한 열망과 같은 사회적 기대가 있지만, 사회와 의료 전달 시스템이 발전함에 따라 전문직 정체성의 어떤 측면들은 변화할 것이다. 지난 수십 년간 환자의 자율성에 대한 존중을 점차 강조해 온 것은 그러한 변화를 대표한다.

The nature of the professional identity narrative in medicine is now clear. 

  • Individuals enter medical school with existing identities developed since infancy. 

  • They desire to join the community of practice that is medicine43 and successively acquire the identity of medical student, resident, and practitioner, with a final strong sense of belonging to their chosen specialty.44 

  • Their professional identity is developed gradually in stages as a result of both conscious decisions taken and the impact of the totality of their clinical and nonclinical experiences.45 

  • The aim throughout the process is to construct an identity that represents a “fully integrated moral self (one whose personal and professional values are fully integrated and consistently applied).”3 

  • The nature of the desired identity is neither monolithic nor static. Every individual acquires multiple personal and professional identities that continue to change throughout their lives. 

  • Although there are some societal expectations, such as the desire for a caring and compassionate physician who will listen, that seem to be relatively timeless, other aspects of a professional identity will change as both society and health care delivery systems evolve.3,12  The emergence over past decades of the importance of respect for patient autonomy represents such a change.46


전문직 정체성 형성에 대한 이해의 진화하며 Carnegie Foundation 보고서는 큰 영향을 미쳤고, 많은 사람들이 전문성 교육에 대한 접근 방식을 재검토하게되었습니다. 이제 전문직 정체성 형성은 "전문직업성을 위한 필수 기반"이 되었습니다.

The impact of the literature on this evolving understanding of professional identity formation, with the Carnegie Foundation report being of great consequence,25 has been significant, causing many individuals to reexamine their approach to teaching professionalism. Professional identity formation has been identified as “a necessary foundation for professionalism.”31


전문직업성을 가르치는 진정한 목적은 항상 학생들이 자신의 전문적 정체성을 개발할 때 학생들을 돕는 것이었고 전문적 정체성 형성PIF은 의학 교육의 주요 목표가되어야 합니다 .46) 따라서 밀러의 피라미드의 원래 공식은 불완전한 것처럼 보입니다. 의학교육의 목적이 학습자가 자신의 직업적 정체성을 개발하도록 도와줌으로써 자신의 행동이 자신의 정체성에서 비롯할 수 있도록 만드는 것이라면, "Does"만으로는 충분하지 않습니다.

the real objective of teaching professionalism has always been to assist students as they develop their own professional identities and that professional identity formation should therefore become a principal objective of medical education.46,47 It thus appears that the original formulation of Miller’s pyramid is incomplete. If the objective of medical education is assisting learners to develop their own professional identities so that their behaviors spring from who they are, then “Does” is not sufficient.





"Does"에서 "Is"로 : 전문가 아이덴티티 평가

From “Does” to “Is”: Assessing Professional Identity



밀러의 의도는 평가 이슈를 다루는 것이었고, 그의 피라미드를 변경해야하는 경우,이 문맥 적 틀을 무시할 수 없었습니다. 수정 된 피라미드 버전이 도움이된다면, "Is."를 포함하여 각 단계에 대하여 평가 방법이 있어야합니다.

Miller’s intent was to address the issue of assessment, and if his pyramid is to be altered, this contextual framework cannot be ignored. If the revised version of the pyramid is to be of assistance, methods of assessment must be available for each level of achievement, including “Is.”


전문직업성의 평가와 PIF에 대한 평가의 목적은 서로 다르며, 서로 다른 방법이 필요합니다. "Does"는 "Is"와 다릅니다.

The assessment of professionalism and of professional identity formation have different objectives and will require different methods. “Does” is different from “Is.”


호킨스와 그의 동료들은 밀러의 피라미드를 효과적으로 사용하여 전문성을 평가하는 "누가, 무엇을, 언제, 어디서, 어떻게 그리고 ... 왜"논의하는 데 효과적으로 사용했습니다. 피라미드의 기초를 놓고 

  • "Knows"은 지식 기반에 "전문성의 핵심 원칙을 알고 이해해야한다"고 기술했다. 

  • "Knows how"의 예로는 "특정한 도덕적 갈등을 다루는 과정을 설명한다. 

  • "Shows how"는 "인터뷰에서 문화적 민감성을 보여 주겠다 "고 제안했고

  • "Does"는 사람들은"복잡한 의료 시스템에있는 환자를 지지하는 것"을 제안했습니다. 

각각에 대해 평가 방법에 대한 개요를 제공합니다. 

Hawkins and his colleagues5 used Miller’s pyramid effectively in discussing “who, what, when, where, how, and … why” to assess professionalism. 

  • For the foundation of the pyramid, “Knows,” they stated that the knowledge base should include “Knows/understands core principles of professionalism.” 

  • For “Knows How,” they gave as an example “Describes a process for addressing a specific moral conflict.” 

  • As a representative of “Shows How,” they suggested “Demonstrates cultural sensitivity in interviewing,” and 

  • for “Does” they proposed “Advocates for patients in complex healthcare systems.”

 For each, they provide an overview of the methods available at the time for assessment.


그림 2에서 우리는 비슷한 템플릿을 제공하려고 시도했습니다. 

  • "Knows"의 경우 학습자는 "의사가 기대하는 행동 규범을 알게 될 것"이라고 예상 할 수 있습니다. 의학 공동체의 행동 규범은 모든 학습자에게 명시 적으로 전달되어야합니다. 

  • "Knows how"수준에서, "개인 행동이 언제 적절한 것인지를 아는 것"이 ​​필요합니다.이 과정은 커리큘럼에서 명시 적으로 전달되어야합니다. 

  • "Shows how"는 학습자가 감독하에 있는 동안 의사가 기대하는 행동을 보여주는 것이다 

  • "Does"레벨에서, 학습자는 의사가 기대하는 행동을 의식적으로 보여줄 것으로 기대합니다. 

  • 마지막으로, 삼각형의 꼭대기에서 개인은 "의사처럼 생각하고 행동하고 느끼기" 때문에 "is"단계에서의 행동이 자연스럽게 일어납니다. 22 이것은 개인의 태도, 가치 및 신념을 포괄합니다.

In Figure 2 we have attempted to provide a similar template . 

  • For “Knows,” learners wouldbe expected to “Know the behavioral norms expected of a physician.” For this to occur, the behavioral norms of medicine’s community of practice must be communicated explicitly to every learner. 

  • At the “Knows How” level, it would be necessary to “Know when individual behaviors are appropriate”—again, something that must be communicated explicitly in the curriculum. 

  • As learners progress up the pyramid, they would model “Shows How” by demonstrating the behaviors expected of a physician while under supervision. 

  • At the “Does” level, the expectation would be that a learner consciously demonstrates the behaviors expected of a physician. 

  • Finally, at the apex of the triangle, behaviors at the “Is” stage would occur naturally because the individual has come to “think, act, and feel like a physician.”22 This would encompass the individual’s attitudes, values, and beliefs. 


직업적 정체성을 발전시키고 견고하게하는 결정적 사건 (예 : 죽음과의 최초 접촉)이 있을 수 있고, 따라서 피라미드의 각 단계가 선형적으로 진행되지는 않습니다. 학습 환경이 개인에 대해 서포트해주지 못하면, 발달 과정이 지연될 수 있습니다 .2,32,38

The process does not proceed linearly as there are sentinel occurrences (as an example, the first contact with death) that advance and solidify a professional identity.3,29,30 A learning environment that fails to support individuals during their journey can retard the process.2,32,38


Miller1이 지적한 것처럼 피라미드가 올라감에 따라 평가가 더 복잡해지고 "Is"에 대한 평가가 "Does"평가보다 더 어려울 것입니다. 기본 지식에 대한 평가는 가장 덜 어렵다. 밀러 (Miller)가 지적한 바와 같이, 지식의 존재 유무는 전통적인 방법으로 쉽게 평가할 수 있습니다.

As Miller1 pointed out, assessment becomes more complex as one ascends the pyramid, and the assessment of “Is” will undoubtedly prove to be more difficult than the assessment of “Does.” The base—knowledge—continues to offer the fewest difficulties for assessment. The presence or absence of knowledge can be assessed easily by traditional methods, as noted by Miller.


피라미드를 진행함에 따라 전문성 평가는 '전문적 정체성 형성'이라는 렌즈를 통해 재검토되고 재구성 될 수 있습니다. 기대되는 정체성의 태도, 가치 및 특성이 본질적으로 주관적이어서 직접적으로 평가하기가 어렵기 때문에, '정체성 평가'는 태도, 가치관 및 태도를 보여주는 행동의 관찰에 계속 의존할 것이다.  또한 문제행동과 비전문가 행동은 계속 주의를 요한다.

As one progresses up the pyramid, the assessment of professionalism can be reexamined and reformulated through the lens of professional identity formation. As the attitudes, values, and characteristics of the desired identity are largely subjective in nature, and therefore difficult to assess directly,48 it is probable that there will continue to be a reliance on the observation of behaviors representative of those attitudes, values, and characteristics as a surrogate for the assessment of identity.46 In addition, professional lapses and unprofessional behaviors will continue to require attention.


그러나 관찰 가능한 행동에만 의존한다면, 전문성의 중요한 측면을 놓칠 수 있다.

However, it is recognized that reliance on observable behaviors alone misses important aspects of professionalism,49


지금까지 자신의 발달 상황을 평가하는 도구는 당사자의 해석에 크게 의존하고 있으며, 미래를 긍정적으로 보여주려는 경향이 있다.

The tools that have been developed thus far to have relied heavily onthe interpretation of individuals assessing their own progress, and it seems likely that this will represent a rewarding direction in the future. 


각 개별 학습자는 유니크하며, 한 사람도 다수의 전문직 정체성을 보유하기 때문에 평가는 더욱 어렵다. 따라서 교육 목표로서의 단일 표준은 불가능할 뿐만 아니라 바람직하지도 않습니다. Frost와 Regehr39는 의학 교육의 목표는 의학에 입문한 모든 사람들의 정체성을 표준화, 균질화하는 것이 아니라고 지적했다. 그들은 개인적 정체성과 의료계에서의 정체성의 다양성을 유지하는 것이 중요하다는 점을 강조합니다. 정체성에 대한 변화 없이 의사가 되는 것은 불가능하지만, 의대에 입학했을 때의 "자아"가 가진 성격은 지속되어야 합니다.

Assessment is further complicated by the fact that it is axiomatic that each individual learner is unique and each will possess multiple personal and professional identities.3,4,46 Thus, a single standard as an educational objective is not only impossible, it is undesirable. Frost and Regehr39 have pointed out that the objective of medical education is not the homogenization of all individual identities into a standardized medical persona imposed on those entering medicine. They stress the importance of both maintaining an individual’s personal identity and a diversity of identities within the medical profession. Although it is not possible to acquire the identity of a physician without changing one’s identity, the nature of the “self ” that enters medical school must be allowed to persist.




Methods Currently Available to Assess Professional Identity Formation


의학 분야에서 개발된 방법

Methods developed in medicine


자기 인식의 중요성을 강조한 마샤 (Marcia)는 Erikson에 의해 제안 된 신원 개발 단계에 대한 운영상의 정의를 제공하는 "정체성 상태 패러다임"을 개발했다 .52이 구조를 기초로 Niemi26은 질적 방법을 사용하여 "학습 일지"를 분석하고 "정체성 상태 인터뷰". 둘 다 유도 반사에 크게 의존합니다.

Marcia,51 who stressedthe importance of self-perception developed an “identity status paradigm” which provided operational definitions for the stages of identity development proposed by Erikson.52 On the basis of this framework, Niemi26 used qualitative methods to analyze “learning logs” and “identity status interviews,” both of which depend heavily on guided reflection.


그들의 전임상 훈련의 끝에서, 학생들은 네 가지 범주로 균등하게 배분되었다. 여전히 특정 대안을 적극적으로 탐구하는 사람들; 그들의 정체성에 관한 모호한 환상과 잠정적 인 생각을 다루는 사람들; 매우 분산 된 신분 상태를 유지하고있는 사람들.

At the end of their preclinical training, students were evenly distributed between four categories: 

    1. those who had achieved a stage-appropriate professional identity; 

    2. those still actively exploring specific alternatives; 

    3. those dealing with vague fantasies and tentative ideas about their identities; and 

    4. those who remained with a very diffuse identity status.


또 다른 관련 도구는 Crossley와 Vivekananda-Schmidt가 개발 한 직업적 정체성 개발에 기여하는 커리큘럼 특징을 조사하기 위해 개발 한 "Professional Self Identity Questionnaire"입니다.

Another relevant tool is the “Professional Self Identity Questionnaire” developed by Crossley and Vivekananda-Schmidt31 to examine the curricular features that contribute to the development of a professional identity.


Madill과 Latchford53은 인간 해부 전후의 1 학년 의대생의 직업적 정체성을 추적하기 위해 2 개의 "레퍼토리 그리드"를 개발했다.

Madill and Latchford53 developed two “repertory grids” to trace the development of professional identity of first-year medical students before and after human dissection.



다른 분야에서 개발된 방법

Methods developed in other professions


치과학 3과 미국 육군 54의 장교들도 다른 분야에서 "Is"를 평가할 가능성을 확인하는 확실한 연구가있었습니다.

There have also been solid studies in dentistry3 and in the officer corps of the U.S. Army54 that confirm the possibility of assessing “Is” in other professions.



Bebeau와 동료들은 치과 학생들에게 전문적인 정체성 개발을 평가했다. Bebeau는 Kegan57에 의해 제안 된 정체성 개발의 6 단계 이론적 틀에 크게 의지합니다.

Bebeau and colleagues55,56 have assessed professional identity development in dental students. Bebeau leans heavily on the six-stage theoretical framework of identity development proposed by Kegan57 that she has adapted for use in dental education.



교육에 대한 함의

The Implications for Teaching



새로운 성취 수준을 평가하려면, 교육에도 변화가 있어야 함은 자명하다. 전문적 정체성 형성은 의학 교육의 목표가되어야하며 전문성의 기초로서의 중요성을 인정해야합니다.

It is self-evident that introducing the assessment of a new level of accomplishment in medical education must be linked to changes in what is taught. Professional identity formation should become a goal of medical education, thus acknowledging its importance as the foundation of professionalism.



전문성의 본질, 그것이 존재하는 이유, 약의 사회 계약과의 연관성, 의학의 전문적 지위를 유지하는 데 필요한 행동에 대한 분명한 가르침은 여전히 ​​중요합니다. 여기에 추가로 전문직 정체성 형성과 사회화 과정을 명시되어야 한다. 이런 식으로 학습자는 자신의 정체성을 개발하고 롤모델과 멘토와 협력하여이 목표를 향한 자신의 발달과정을 추적 할 수 있습니다. 10,47,56 "Is"에 대한 평가는 주로 학생들은 의학의 공동체 실천에 동참합니다. 의사가 실제로 "의사처럼 생각하고 행동하고 느끼는 것"을 보장하기 위해서는, 의학에 대한 사회의 의무를 충족시키기 위해 총괄평가가 필요합니다.

The explicit teaching of the nature of professionalism, the reasons for its existence, its link to medicine’s social contract, and the actions necessary to sustain medicine’s professional status will remain important. To this should be added explicitly outlining the process of professional identity formation and socialization. In this way, learners can become engaged in the development of their own identity, tracing their own progress toward this goal in collaboration with role models and mentors.10,47,56 The assessing of “Is” should be primarily formative in order to guide students as they join medicine’s community of practice. Summative assessment will remain necessary to meet medicine’s obligation to society to ensure that practicing physicians have come to “think, act, and feel like a physician.”22




결론

Conclusion


조지 밀러 (George Miller) 1의 견해를 마무리하는 것이 적절합니다. "임상 실적의 적정성을 증명하기 위해 사회가 제기 한 혐의에 충실해야한다면 ... 더 이상 가능한 방법을 찾을 책임을 피할 수 없습니다. 


It is appropriate to close with a quote from George Miller1: 


“If we are to be faithful to the charge placed upon us by society to certify the adequacy of clinical performance … then we can no longer evade the responsibility for finding a method that will allow us to do so.” 


전문직 정체성 형성은 교육의 목표가 되었고, 이 목표 달성도를 명시적으로 평가하는 것은 우리의 책임이 되었다.

As professional identity formation becomes an educational goal, explicitly assessing progress toward the achievement of this goal becomes a responsibility,







2 Hafferty FW. Professionalism and the socialization of medical students. In: Cruess RL, Cruess SR, Steinert Y, eds. Teaching Medical Professionalism. New York, NY: Cambridge University Press; 2009:53–73.


5 Hawkins RE, Katsufrakis PJ, Holtman MC, Clauser BE. Assessment of medical professionalism: Who, what, when, where, how, and … why? Med Teach. 2009;31:348–361.


12 Jarvis-Selinger S, Pratt DD, Regehr G. Competency is not enough: Integrating identity formation into the medical education discourse. Acad Med. 2012;87:1185–1190.


17 Birden H, Glass N, Wilson I, Harrison M, Usherwood T, Nass D. Defining professionalism in medical education: A systematic review. Med Teach. 2014;36:47–61.


19 Wilkinson TJ, Wade WB, Knock LD. A blueprint to assess professionalism: Results of a systematic review. Acad Med. 2009;84:551–558.


20 Kinghorn WA. Medical education as moral formation: An Aristotelian account of medical professionalism. Perspect Biol Med. 2010;53:87–105.


21 Kumagai AK, Wear D. “Making strange”: A role for the humanities in medical education. Acad Med. 2014;89:973–977.


32 MacLeod A. Caring, competence and professional identities in medical education. Adv Health Sci Educ Theory Pract. 2011;16:375–394.


33 Monrouxe LV, Rees CE, Hu W. Differences in medical students’ explicit discourses of professionalism: Acting, representing, becoming. Med Educ. 2011;45:585–602.


34 Weaver R, Peters K, Koch J, Wilson I. “Part of the team”: Professional identity and social exclusivity in medical students. Med Educ. 2011;45:1220–1229.


36 Burford B. Group processes in medical education: Learning from social identity theory. Med Educ. 2012;46:143–152.


37 Goldie J. The formation of professional identity in medical students: Considerations for educators. Med Teach. 2012;34:e641–e648.


39 Frost HD, Regehr G. “I am a doctor”: Negotiating the discourses of standardization and diversity in professional identity construction. Acad Med. 2013;88:1570–1577.


41 Wilson I, Cowin LS, Johnson M, Young H. Professional identity in medical students: Pedagogical challenges to medical education. Teach Learn Med. 2013;25:369–373.


46 Cruess RL, Cruess SR, Boudreau JD, Snell L, Steinert Y. Reframing medical education to support professional identity formation. Acad Med. 2014;89:1446–1451.


47 Cruess RL, Cruess SR, Boudreau JD, Snell L, Steinert Y. A schematic representation of the professional identity formation and socialization of medical students and residents: A guide for medical educators. Acad Med. 2015;90:718–725.






 2016 Feb;91(2):180-5. doi: 10.1097/ACM.0000000000000913.

Amending Miller's Pyramid to Include Professional Identity Formation.

Author information

1
R.L. Cruess is professor of surgery and core faculty member, Centre for Medical Education of McGill University, Montreal, Quebec, Canada. S.R. Cruess is professor of medicine and core faculty member, Centre for Medical Education of McGill University, Montreal, Quebec, Canada. Y. Steinert is professor of family medicine and director, Centre for Medical Education of McGill University, Montreal, Quebec, Canada.

Abstract

In 1990, George Miller published an article entitled "The Assessment of Clinical Skills/Competence/Performance" that had an immediate and lasting impact on medical education. In his classic article, he stated that no single method of assessment could encompass the intricacies and complexities of medical practice. To provide a structured approach to the assessment of medical competence, he proposed a pyramidal structure with four levels, each of which required specific methods of assessment. As is well known, the layers are "Knows," "Knows How," "Shows How," and "Does." Miller's pyramid has guided assessment since its introduction; it has also been used to assist in the assessment of professionalism.The recent emphasis on professional identityformation has raised questions about the appropriateness of "Does" as the highest level of aspiration. It is believed that a more reliable indicator of professional behavior is the incorporation of the values and attitudes of the professional into the identity of the aspiring physician. It is therefore proposed that a fifth level be added at the apex of the pyramid. This level, reflecting the presence of a professional identity, should be "Is," and methods of assessing progress toward a professional identity and the nature of the identity in formation should be guided by currently available methods.

PMID:
 
26332429
 
DOI:
 
10.1097/ACM.0000000000000913


"갑옷"이 아닌 "내재적 역할": CanMEDS 프레임워크의 '비-의전문가 역할' 재명명하기 (Adv in Health Sci Educ, 2011)

‘‘Intrinsic Roles’’ rather than ‘‘armour’’: renaming the ‘‘non-medical expert roles’’ of the CanMEDS framework to match their intent

Jonathan Sherbino • Jason R. Frank • Leslie Flynn • Linda Snell




우리는 화이트 헤드 (Whitehead)에 의한 e- 출판물에 관심을 가지고 읽었다. (Communicator, Collaborator, Manager, Health Advocate, Scholar, and Professional)에 의해 핵심적 의료 전문가 역할이 "방어"된 상태에서 CanMEDS 프레임 워크가 방어적인 방식으로 구성되어 있다고 주장한 (2011). 우리는 이것이 세계에서 가장 널리 사용되는 역량 프레임 워크 중 하나 인 특히 BH가 개발에 기여한 (Frank et al. 1996) 기본 구조의 중대한 오해라고 생각합니다. CanMEDS는 많은 높은 역량 적 역량 프레임 워크와 마찬가지로 정치적인 방식이 아니라 의사가 필요로하는 것에 대한 대중의 시각을 포함하는 체계적인 요구 사정으로부터 도출되었습니다(Frank 등, 1996).

We read with interest the e-publication by Whitehead et al. (2011) that argues that the CanMEDS framework is organized in a defensive fashion with the central Medical Expert Role ‘‘armoured’’ by the other Roles (Communicator, Collaborator, Manager, Health Advocate, Scholar, and Professional). We believe this is a significant misinterpretation of the constructs underlying one of the world’s most widely used competency frameworks, particularly as one of the authors (BH) contributed to its development (Frank et al. 1996). CanMEDS, like many high-utility competency frameworks, was derived not from political machinations, but from a systematic needs assessment that included the perspectives of the public on what they needed from physicians (Frank et al. 1996).


저자들은 의사의 역량을 일련의 하위 영역으로 간단하게 "해부하는"것이 글로벌 역량의 충실도를 손상시킬 수 있다고 우려하지만(즉, 전체는 단순히 부분의 합이 아니다) 학습과학의 증거는 이를 반박하는데, 역량을 세부 요소로 나누는 것은 교육적 가치가 있기 때문이다. (Frank et al., 2010, Swing and International CBME Collaborators 2010).

While the authors share our concern that simply ‘‘anatomizing’’ physician competence into a series of sub-domains may impair the fidelity of global competence (i.e. the sum is more than the parts), evidence from the learning sciences suggests that dividing com- petence into its component parts has educational value, thus refuting such concerns (Frank et al. 2010; Swing and International CBME Collaborators 2010).


저자가 사용하는 비판적이고 상황에 맞는 담론 분석은 유익하고 신선한 관점을 제공한다.

The critical, context-focused discourse analysis used by the authors provides an informative and fresh perspective, we question the assertion that,


비-의학전문가 역할은 종종 중심에 있는 의학전문가에 대한 '부가 기능'으로 논의되곤 한다. 혹은, 이러한 역할이 전문성에 대한 부속물이 아니라, 폭 넓은 전문 지식을 보호하고 방어하는 방어구라고 주장하기도 한다. 

non-medical expert roles are frequently discussed as add-ons to the centrality of medical expert teaching. Or, perhaps, these roles are not simply appendages to expertise, but rather armour that protects and defends battered expertise, while claiming medical ownership of a broad arena of medical practice.


CanMEDS 프레임 워크는 의사 역량을 총체적으로 정의하기 위하여, 다른 역할들을 통합하는 역할로서 의료 전문가 역할을 중앙에 위치시켰다. 이러한 역할은 의사와의 협의를 통해 반복되고 강화 된 의사의 능력에 대한 전통적인 암묵적 이해의 명백한 재조정에서 시작되었다 (Frank et al. 1996; Frank 2005).

The CanMEDS framework situates the Medical Expert Role centrally as the Role that integrates the other Roles to provide a collective definition of physician competence. These Roles originated from an explicit re-framing of traditional implicit understandings of phy- sician competence, which was reiterated and reinforced via public consultations (Frank et al. 1996; Frank 2005).


우리는 '내재적 역할'이라는 용어가 '비-의학전문가 역할'이라는 부적절한 용어를 대신 할 수 있다고 제안한다. 흥미롭게도 "비-의학전문가 역할"이라는 용어는 CanMEDS 프레임 워크를 개발하고 구현 한 많은 실무 그룹에서 전혀 사용된 바 없는 단어이다 (Frank et al., 1996; Frank 2005). 오히려이 구는 교육자와 임상가에 의해 개발되고 채택되었습니다. 불행하게도,이 문구의 영구화는 이러한 역할의 해체와 의사 역량의 정의에 대한 혼동에 기여합니다.

Recognizing the relation between power and language we suggest that the term ‘‘Intrinsic Roles’’ replace the pejorative ‘‘non-medical expert roles.’’ Interestingly, the term ‘‘non-medical expert roles’’ was never identified or used in the numerous working groups that developed and implemented the CanMEDS framework (Frank et al. 1996; Frank 2005). Rather, the phrase developed and was adopted by educators and clinicians outside of this initiative. Unfortunately, the perpetuation of this phrase contributes to the deval- uation of these Roles and to confusion over the definition of physician competence.


'내재적 역할'이라는 명명은, 이것을 의사 역량의 부속품이나 부가기능이나, 정치적 방어구가 아니라, 의학전문가 역할과 통합 된 본질적 (즉, 내재적, 근본적, 본질적) 인 것으로 간주합니다.

The proposed change in nomenclature will situate the Intrinsic Roles not as appendages, add-ons or politically-defensive armour, but as intrinsic (i.e. inherent, fundamental, essential) to the practice of medicine, integrated with each other and the Medical Expert Role.




Whitehead, C.R., Austin, Z., Hodges, B.D (2011) Flower power: the armoured expert in the CanMEDS competency framework? Advances in Health Sciences Education : Theory and Practice. Feb 1 [Epub ahead of print].



 2011 Dec;16(5):695-7. doi: 10.1007/s10459-011-9318-z. Epub 2011 Aug 18.

"Intrinsic Roles" rather than "armour": renaming the "non-medical expert roles" of the CanMEDSframework to match their intent.

Author information

1
The Royal College of Physicians and Surgeons, Ottawa, Canada. sherbino@mcmaster.ca

Comment on

PMID:
 
21850502
 
DOI:
 
10.1007/s10459-011-9318-z
[Indexed for MEDLINE]


의학교육과 '무역량'의 유지 (Med Teach, 2006)

Medical education and the maintenance of incompetence

BRIAN HODGES

Wilson Centre for Research in Education, University of Toronto, Canada




도입

Introduction


환자 치료의 질을 저하시키고, 전문직에게 특권을 부여한 사회에 대한 공헌을 해하는 무능력이 끊임없이 지속되고 있으며, 이제는 너무 일상화되어있다. 이러한 형태의 무능력은 특징을 밝히기가 어렵고, 숨겨져 있으며, 가장 중요한 것은 끊임없이 flux한다는 점이다.

I am focusing on the more grinding and mundane incompetence that harms the quality of patient care and diminishes the contribution of the profession as a whole to societies that have conferred on it so much privilege. These forms of incompetence are harder to characterize, are often hidden, and most importantly are in constant flux.


이 논문에서, 나는 이러한 유형의 무능력이 의학 교육의 '부작용'이며, 보다 구체적으로는 특정 교육 모델을 지나치게 강조한 결과라고 주장한다. 우리는 모두 이 모델을 고수하고 있으며, 사회학자들은 이를 '담론'이라 부르는데, 왜냐하면 담론은 세계의 질서를 유지하고 우리가 다른사람과 의소소통할 수 있도록 의미를 부여해주기 때문이다. 담론은 세상을 보는 방법입니다.

In this paper, I argue that this type of incompetence is largely a ‘side-effect’ of medical education and more specifically is the result of overemphasizing particular models of education. We all adhere to these models, which sociologists call ‘discourses’ because we believe in them, because they help order our world and because they give meaning to our work in such a way that we can communicate it to others. Discourses are ways of seeing the world.


미셸 푸코 (Michel Foucault)는 지난 4 세기에 걸친 광기의 담론에 관해 썼습니다. 이 서로 다른 담론의 가장 중요한 의미는 사람들과 기관을위한 매우 다른 가능성을 창조한다는 것입니다. 

  • 따라서 'spiritual possession으로서의 광기'에 대한 담론은 가시적 인 'possessed individual'을 만들고 영적 치료자와 종교 기관을위한 역할을 창출합니다. 

  • 다른 한편으로, 'deviancy로서의 광기'에 대한 담론은 눈에 띄는 'deviant individuals'을 만들어 법원과 교도소에서 일하는 재판관과 간수들을위한 역할을한다. 

  • 마침내 '의학적 질병으로서의 광기'에 대한 담론은 '정신질환자자'를 가시적으로 보이게하고 클리닉과 병원에서 일하는 정신과 의사와 심리학자에게 역할을 창출한다.

Michel Foucault wrote about the discourses of madness over the last four centuries. The most important implication of these different discourses is that they create very different possibilities for people and for institutions. Thus, a discourse of ‘madness as spiritual possession’ makes visible ‘possessed individuals’ and creates a role for spiritual healers and religious institutions. On the other hand, a discourse of ‘madness as deviancy’ makes visible ‘deviant individuals’ and creates a role for judges and jailors working in courts and prisons. Finally, a discourse of ‘madness as medical illness’ makes visible ‘mentally ill individuals’ and creates a role for psychiatrists and psychologists who work in clinics and hospitals.


푸코 (Foucault, 1969)는 "우리는 미친 사람들을 모두 똑같게 다루지 않는다"고 말했다. 분명히 '소유'는 '정신병'과도, '비정상'과도 같지 않다.

As Foucault said, ‘...we are not dealing with the same madmen’ (Foucault, 1969). Clearly, ‘possessed’ is not the same as ‘deviant’ which is not the same as ‘mentally ill’.



'무능한 의사'에 대해서도 비슷한 분석이 수행 될 수 있습니다. 왜냐하면 무능함은 광기와 같이 다른 시간에 다른 방식으로 정의되기 때문입니다. 먼저 이전에 '무능함'이 어떻게 다양했는지를 살펴보겠습니다. 

  • 1700 년대에 유능한 의사는 몸의 유액을 균형 잡기위한 목적으로 피를 뽑고 날카로운 물건을 날리는 길드의 일원이었습니다 (Shorter, 1985). 

  • 대조적으로 1850 년에 유능한 의사는 환자가 혀를보고 냄새를 맡을 수있는 걷는 막대기로 신사였습니다 (Cathell, 1890; Shorter, 1985). 

  • 1950 년에는 여전히 남자가 될 가능성이있는 의사가 남편과의 건강에 대해 이야기하고, 걱정거리를 유발하지 않도록 죽어가는 환자의 진실 된 진단을 보류했다. 

  • 2006 년에 피를 흘리고, 냄새가 나는 소변과 원천 징수 진단은 모두 무능한 것으로 간주됩니다. 

따라서 푸코의 말을 빌리자면, 유능한 (또는 무능한) 의사는 늘 동일하지 않다. 광기의 담화와 마찬가지로 의학에서 '유능함'을 구성하는 담론도 바뀌었기 때문이다.

A similar analysis can be undertaken with regard to incompetent doctors, because incompetence, like madness, has also been defined in different ways at different times. I will examine some of the older variations first. In the 1700s a competent doctor was a member of a guild who carried a blade for blood letting and emetics for purging with the goal of balancing the humours of the body (Shorter, 1985). In 1850 by contrast, a competent doctor was a gentleman (there were almost no women doctors) with a walking stick who diagnosed patients by looking at their tongue, and smelling their urine (Cathell, 1890; Shorter, 1985). By 1950 a competent doctor, still most likely to be a man, wore not a suit but a white coat, discussed a woman’s health with her husband, and withheld the true diagnosis from a dying patient so as not to provoke worry. In 2006 blood letting, smelling urine and withholding diagnoses are all considered incompetent. Thus, to paraphrase Foucault, we are not dealing with the same competent (or incompetent) doctors. Just as with discourses of madness, these changes occurred because the discourses constructing what is competent practice of medicine also changed.


나는 현재 사용중인 능력-무능력에 관한 담론을 4 가지로 나누었다.

I have characterized four discourses of competence/incompetence that are in current use. I have called these:


(1) 해리슨의 교과서와 지식으로서의 능력;

(1) Harrison’s Textbook and competence-as-knowledge;


(2) 밀러의 피라미드와 수행능력으로서의 능력;

(2) Miller’s Pyramid and competence-as-performance;


(3) Cronbach 's Alpha와 신뢰성있는 시험점수로서의 능력;

(3) Cronbach’s Alpha and competence-as-reliable test score;


(4) Scho'n 's Reflective Practitioner와 성찰로서의 능력.

(4) Scho¨ n’s Reflective Practitioner and competence-as-reflection.





(1) 해리슨의 교과서와 지식으로서의 능력;

(1) Harrison’s Textbook and competence-as-knowledge


'지식으로서의 능력' 담론은 다음 단어들로 특징지어진다: '사실, 기초 지식, 기초 과학, 첫 번째 원칙, 지식 기금, 고전 교과서, 고전이 기사 및 객관식 테스트'. 여기서 교사의 역할은 지혜의 원천이며, 학생들에게 지식을 전수하고, 통합 할 수 있도록 돕는 것이 역할이다. 핵심 교육 활동은 지식을 전달하고 통합하는 것을 목적으로 한 교훈적인 강의 및 세미나입니다. '지식으로서의 역량'을 측정하는 가장 일반적인 척도는 필기 시험이며 대개 선다형 문제로 구성됩니다.

The discourse of ‘competence-as-knowledge’ is characterized by use of words such as: ‘facts, foundational knowledge, basic science, first principles, fund of knowledge, classic text books, classic this articles and multiple-choice tests’. In discourse, the role of teacher is to be the source of wisdom, and the main activity revolves around helping students to receive or integrate knowledge. Core teaching activities are didactic lectures and seminars that aim to transmit and integrate knowledge. The most common measure of compe- tence-as-knowledge is a written test, usually consisting of multiple-choice questions.


'지식으로서의 역량'에 관한 담론은 많은 양의 사실적인 데이터를 암기하거나 암기하거나 재생산하거나 통합 할 수없는 사람을 '무능력하다'고 본다.

a discourse of competence-as-knowledge construct an incom-petent individual as one who does not or cannot memorize,reproduce and integrate large amounts of factual data.


1960 년대 이후 조지 밀러 (George Miller) 등은 지식을 너무 강조하면 대인 관계 및 임상기술은 떨어지는데 지식만 많은 의사를 만들 위험이 있다고 주장했다. (Miller, 1990).

After the 1960s George Miller and others argued that too much emphasis on knowledge risked creating knowledge- smart doctors who had poor interpersonal and technical skills (Miller, 1990).


Jacques Barzun은 1988 년 New York Times에서 지식 암기 시험에 대한 집착이 미국 젊은이들의 사고 방식이 "패턴을 만들거나 생각하는 것보다 무작위의 사실을 암기하는 능력"의 발달 쪽으로 유도되었다고 주장했다. 체계적으로 '(Barzun, 1988, p.A31).

Jacques Barzun argued in the New York Times in 1988 that a preoccupation with doing well on recall tests has ‘conditioned the way young people in America think’ and that they have ‘better-developed cognitive abilities to recognized random facts than to construct patterns or think systematically’ (Barzun, 1988, p. A31).


'지식으로서의 능력'에 대한 과도한 강조는 지식과 수행능력의 부적절한 통합, 적절한 개인간 행동의 부족 및 열악한 기술 능력과 같은 '숨겨진 무능력'을 초래할 수 있습니다.

An overemphasis on competence-as-knowledge may lead to ‘hidden incompetence’ such as poor integration of knowledge with performance, a lack of appropriate inter- personal behaviours and poor technical abilities.




(2) 밀러의 피라미드와 수행능력으로서의 능력;

(2) Miller’s Pyramid and competence-as-performance


지식에 대한 과도한 강조에 대한 반응으로 1960 년대에 역량에 대한 새로운 담론이 나타났습니다. 이 담론의 본질은 Ronald Harden의 말에 요약되어 있습니다. 

'학생들은 신발 끈이라는 단어의 기원에 관한 에세이를 작성하거나 신발 끈 디자인에 대한 객관식 질문을하거나, 아니면 신발 끈 매는 단계를 설명할 것을 요구받습니다. 그러나 신발끈을 맬 줄 안다는 것을 보여주는 유일한 방법은 신발 끈을 묶는 것을 보여주는 것입니다'(Harden, 2005).

As a reaction to a perceived over-emphasis on knowledge, a new discourse of competence-as-performance emerged in the 1960s. The essence of this discourse is summarized by a quote from Ronald Harden, ‘In many places they would ask students to write an essay on the origin of the word shoelace, or give them a multiple choice question on the design of shoelaces or even ask them to describe the steps in tying a shoelace. Whereas really the only way of doing it is showing you know how to tie a shoelace’ (Harden, 2005).



'수행능력으로서의 능력'의 담론은 '시뮬레이트 된 환자, 프로그램 된 환자, 환자 강사, 피드백, 수행 능력, 기술, OSCE, 다중 관찰 및 방송국'과 같은 매우 다양한 단어들과 관련되어 있습니다. 이 담론에서 교사의 역할은 기술의 시범보이고 학생의 스킬을 관찰하는 것입니다. 능력은 성과 기반 평가로 측정하며, 여기서 학생들은 자신의 기술을 보여줘야 합니다.

The discourse of ‘competence-as-performance’ is associated with a very different set of words including: ‘simulated patient, programmed patient, patient instructors, feedback, performance, skills, OSCE, multiple observations and stations’. In this discourse, the role of the teacher shifts to the demonstration and observation of skills. Competence is measured with performance-based assessments that require students to demonstrate their skills.



Miller 's Pyramid는 피라미드의 1층에 지식을 배치하는 개념 분류법이며, 그 뒤로 knows how, shows, how, does가 따라온다. 이 담론에서는 구조화된 환경에서 의사소통능력, 대인관계, 신체검진을 보여주지 못하는 사람이  '무능력'한 사람이다.

Miller’s Pyramid is a conceptual taxonomy that places knowledge at the bottom of a pyramid, and a sequence of performance verbs ‘knows how, shows and does’ at increas- ingly higher levels on the pyramid. This set of ideas, roles and activities constructs incompetence as an individual who is unable to demonstrate communication, interpersonal,physical examination, or other skills for observers in structured, often simulated environments. 


1990 년대부터인지 심리학자들과 사회학자들은 수행능력에 지나치게 중점을 둔 것에 대해 걱정하기 시작했다. Norman은 '지식이 그렇게 하찮은 것이 아니며, 스킬이 그렇게 대단한 것도 아니다'(Norman, 2005, 2면)라며 '피라미드에 균열이 생기기 시작했다고 주장했다. Schuwirth and van der Vleuten (2006)과 Eva (2003)는 '실생활의 문제를 풀기 위해서는 관련 지식이 필수적이며, 이 지식은 영역-특이적이다'라고 주장했다 (Schuwirth & van der Vleuten, 2006) . 기술과 지식의 강력한 상호의존성, 즉 지식의 내용-특이성은, 모든 내용에 해당될 수 있는 일반화가능한 기술을 가르치는 것은 비현실적이라는 것을 의미합니다.

beginning in the 1990s cognitive psychologists and sociologists began to have worries about too much emphasis on performance. Norman for example argued that ‘cracks started to appear in the pyramid’ as research emerged illustrating that ‘knowledge wasn’t quite so low down and skills quite so high up as one might have thought’ (Norman, 2005, p. 2). Schuwirth and van der Vleuten (2006) and Eva (2003) argued that ‘relevant solving...knowledge is essential for real-life problem knowledge is highly domain-specific, so is problem solving’(Schuwirth & van der Vleuten, 2006). The strong inter-dependence of skills and knowledge – so-called ‘contents pecificity’ of knowledge – means that teaching of content-free, generalizable performance skills is probably an unrealistic undertaking. 


다른 각도에서이 문제에 접근하면서 사회학자들은 시뮬레이션 교육에 대한 교육적 접근에만 의존함으로써 학생들이 환자와 좋은 관계를 형성하지만, 진정한 관계는 결여된 '시뮬레이션 의사'가 될 수 있다고 주장하기 시작했다 (Hanna & Fins, 2006).

Approaching the issue from a different angle, sociologists have begun to argue that exclusive reliance on a pedagogical approach of simulation training might encourage students to become ‘simulation doctors’ who act out a good relationship with their patients but have no authentic connection with them (Hanna & Fins, 2006). 


따라서 수행능력을 과도하게 강조하는 것은 잘 통합되지 않은 지식 또는 가짜 연기와 같은 '숨겨진 무능력자'들을 유발할 수 있습니다. 의사 소통 프로그램에서 수 주 동안 훈련을 받은 한 학생은 병동의 실제 환자에게 이렇게 말했습니다. '아 정말 힘들겠군요. 와, 정말 힘들거에요. 네, 당신에게는 정말 힘들겠군요' 라는 말을 환자가 지칠때까지 반복하였다.

Thus an over-emphasis on competence-as-performance may lead to ‘hidden incompetence’ such as poorly integrated knowledge or fake performances. This phenomena became clear to me during a teaching session when I observed a student, who had trained for many weeks in a communication programme say to a real patient on the ward, ‘Oh that must be hard for you...wow that must be hard for you...oh,yes that must be really hard for you’, until the patient,frustrated by the shower of ‘empathic comments’ that were obscuring a discussion of her symptoms 



(3) Cronbach 's Alpha와 신뢰성있는 시험점수로서의 능력;

(3) Cronbach’s Alpha and competence-as-reliable test score


1980 년대에는 심리측정의 신뢰성에 초점을 맞춘 새로운 담론의 등장으로 이어졌습니다. 이 담론의 본질은 표준화 된 성과 기반 테스트를 주창하고, 'Simulated patient'를 발명했다는 신경학자 하워드 배로우 (Howard Barrows)의 견해로 설명됩니다 (Wallace, 1997). 그는 


"표준화 환자를 사용한 평가의 장점은, 이것이 객관식 질문과 동일한 장점을 가진 성과를 평가할 수있는 유효한 임상 테스트 항목이라는 점이다. 그것은 표준화되었고, 다수의 케이스를 평가할 수 있고, 신뢰할 수 있고 타당한 방식으로 채점할 수 있다. '(Barrows, 1993).

During the 1980s a series of shifts, led to the rise of a new discourse that focused on the psychometric reliability of tests. The essence of this discourse is illustrated by a quote from Howard Barrows, a neurologist who is credited with inventing ‘simulated patients’ as well as propelling standardized performance-based testing (Wallace, 1997). He said 


‘The significance of the standardized-patient technique in assessment is that it can produce a valid clinical test item to assess performance that has many of the same advantages of the multiple-choice question. It is a standardized item, can be given in multiples, and can be scored in reliable and valid ways’ (Barrows, 1993).


'신뢰성있는 점수로서의 능력' 의 담론은 '신뢰성, 타당성, 일반화 가능성, 데이터, 심리 측정법, 후보자, 체크리스트, 항목 뱅킹, 컷 포인트, 표준화'와 같은 단어로 특징 지어집니다. 이 담론에서 테스트의 '엄격함rigour'에 중점을 둡니다.

The discourse of competence-as-reliable test score is characterized by words such as: ‘reliability, validity, generalizability, data, psychometrician, candidate, checklist, item-banking, cut-point, standardization’. In this discourse, there is a major emphasis on the ‘rigour’ of testing. 



이러한 담론이 모든 서구 국가에서 동일하게 강조되었던 것은 아니며, 미국과 캐나다에서는 유럽 국가보다 고부담 총괄평가의 역할이 더 컸다 (Segouin & Hodges, 2005)

This is not evenly experienced in all western countries, and there has been a much greater role for summative, high stakes examinations in the United States and Canada than in European countries(Segouin & Hodges, 2005)



심리측정학적으로 신뢰할 수 있는 총괄평가가 교육적 효과를 가진다는 것은 교사의 역할이 시험을 준비하는 것과 동일해 짐을 의미합니다.

The powerful driving effect of psychometrically reliable, summative examinations means the role of teachers often falls in line with examination preparation


심리측정적 신뢰도를 지향하게 되면서, 신뢰도에 기여하지 않는 테스트 항목을 제거하게 되었다. 즉 변별도가 낮은 객관식 질문을 제거하거나, 시험관이나 환자의 성과 및 인구 통계 학적 특성을 표준화하여 성과 기반 평가의 '편차'를 줄이는 것을 의미합니다.

A drive toward psychometric reliability has also meant removing test items that do not contribute to the overall reliability of a test. This means removing multiple choice questions that ‘do not discriminate between test takers’ or reducing the ‘variance’ of performance-based assessments by standardizing the examiners or the performances and demographic characteristics of patients. 



이 담론에서 학생들은 자신의 점수를 최대화하기 위한 활동을 하도록 유도된다. 흥미롭게도, 이 담론에서 고부담 시험의 '보안'을 우려한다는 것은, 피드백이 제한적이거나 불가능하다는 것을 의미합니다.

For students, the discourse of competence-as-reliable test score drives them to activities that they perceive will maximize their scores. Interestingly, concerns about‘security’ of high stakes testing has meant that where this discourse is dominant, feedback is often very ideas, limited or impossible.


이 담론은 현재 매우 강조되고 있지만, 비판도 있다. Schuwirth와 van der Vleuten은 최근에 다음과 같이 썼다. "우리는 우주가 균질하다는 가정에서 출발했기 때문에 관측자들 간의 차이를 오류로 무시하였다. 그러나 사실 우주가 heterogeneous하다는 것이 더 논리적이었다."(Schuwirth & van der Vleuten, 2006). 표준화된 체크리스트를 지나치게 강조할 때, 패턴 인식을 사용하여 정보를 수집하고 문제를 해결하는 높은 수준의 전문 지식을 가진 개인에게 오히려 역차별을 가한다는 것입니다. 이들은 세부적인 디테일을 다루는 체크리스트에서 점수가 낮아집니다.

While this discourse is currently very prominent, critiques are emerging. Schuwirth and van der Vleuten have recently written, ‘We dismiss variance between observers as error because we start from the assumption that the universe is homogeneous, where in fact the more logical conclusion would have been that the universe is more variant’(Schuwirth & van der Vleuten, 2006). One of the side-effects of stringent adherence to standardized checklists is an apparent discriminatory effect on individuals at higher levels of expertise, who use pattern recognition and synthesis and who simultaneously gather information and manage problems. This results in low scores on inclusive, detail-oriented checklists.


또한, 체크리스트에서 모든 칸에 '체크'를 받을 수 있는 환자면담 스킬을 익히는 것은 부적절하다. Norman은 최근에 '나는 이 전략의 옹호자들에게 증거의 부담을 전가시키기 위해 산탄총 방식으로 행동하는 학생에 대한 일화를 충분히 들었다'(Norman, 2005)라고 썼다.

Further, the effect of learning to interview patients in away that will maximize ‘hits’ on checklists may be inappropriate. Norman recently wrote, ‘I have heard enough anecdotes about the shotgun behaviour induced by checklists to shift the burden of proof onto the advocates of this strategy’ (Norman, 2005). 


따라서 신뢰성있는 테스트 능력에 대한 과도한 강조는 '산탄총 인터뷰'를 포함한 '숨겨진 무능력'을 초래할 수 있으며 패턴 인식, 통합 및 합성의 사용을 저해 할 수 있습니다. 이 현상은 OSCE를 준비중인 학생이 '교수들은 오랜 시간을 들여, 친절하고, 환자의 말에 귀를 기울이고, 문제를 종합하라고 말하지만, 우리는 가능한 한 많은 질문을 던지지 않으면 불합격할 것입니다. '

Thus an over-emphasis on competence-as-reliable test score may result in ‘hidden incompetence’ including ‘shot-gun interviews’ and discourages the use of pattern recogni-tion, integration and synthesis. This phenomenon was made clear to me when a student preparing for an OSCE said, ‘You keep saying to take time, to be nice, to listen to the patient and to make a synthesis of the problem, but if we don’t ask as many questions as possible we will not pass this examination’.






(4) Scho'n 's Reflective Practitioner와 성찰로서의 능력.

(4) Scho¨n’s Reflective Practitioner and the discourse ofcompetence-as-reflection 


1990 년대 중반 이래로 Donald Schon (1987)의 연구는 표준화 된 테스트에 대한 과도한 강조에 대한 인기있는 해독제가되었으며 '자기성찰'과 '자기주도'로 초점을 옮겼습니다.

Since the mid 1990s, the work of Donald Schon (1987) has become a popular antidote to a perceived over-emphasis on standardized testing, and has shifted the focus to internal reflection and self-direction.


'성찰로서의 능력' 담론은 '성찰, 자기 주도적 학습, 통찰력, 학습 계약, 포트폴리오 및 성인 학습자'와 같은 단어로 대표될 수 있다. 이 담론에서 선생님은 가이드나 멘토의 역할을 하거나 "confessor"라고 불릴 수도 있습니다. 일반적인 평가 측정은 포트폴리오와 일기, 성찰에세이 및 학습 계약과 같은 성찰적 방법을 사용한다. 국가 차원에서 캐나다와 같은 일부 국가에서는 역량 유지의 증거로 자기 주도적 학습 포트폴리오를 제출해야합니다 (RCPSC, 2006). 이러한 일련의 아이디어를 종함하면, "자기 성찰, 자기 평가, 자기 규제의 세 가지를 잘 못하는 개인은 '무능력'하다고 볼 수 있다 (Hodges, 2004)

The discourse of ‘competence-as-reflection’ is character-ized by words such as: ‘reflection, self-directed learning,insight, learning contracts, portfolios and adult learner’. In this discourse, the teacher takes on a role of guide or mentor,or what might even be called ‘confessor’. Common measures of assessment are portfolios and the use of reflective exercises such as diaries, reflective essays and learning contracts. At a national level, some countries such as Canada now require the submission of a self-directed learning portfolio as evidence of maintenance of competence (RCPSC, 2006).Taken together this set of ideas, roles and measures constructs an incompetent individual as one who cannot engage in what I have called elsewhere the ‘trinity’ of this discourse: self-reflection, self-assessment, self-regulation(Hodges, 2004). 


다른 담화와 마찬가지로, 역량에 대한 비판이 제기되고있다. 한 가지 추론은 제레미 테일러 (17 세기 성직자)의 말로 요약 할 수있다. '사람들이 자신의 무지를 이해하는 것은 불가능하다. 무지를 이해하려면, 그것을 인지할 지식이 필요한데, 따라서 그것을 인지한다는 것은 이미 무지하지 않다는 것을 뜻하기 때문이다'

As with other discourses, there are emerging critiques of competence-as-reflection. One thrust can be summarized by the words of Jeremy Taylor, the seventeenth-century cleric who is said to have commented, ‘It is impossible to make people understand their ignorance, for it requires knowledge to perceive it; and therefore, he that can perceive it, hath it not’.


크루거 (Kruger)와 더닝 (Dunning)의 연구는 대부분의 역량 영역(문제 해결, 논리적 추론, 유머)에서 상당수의 사람들이 자신평가와 다른사람의 평가 사이에 차이가 크다는 것을 보여주었습니다. 이러한 차이는 다른 사람의 수행능력을 본 이후에 스스로를 재평가를 할 기회가 주어 지더라도 마찬가지였다.

the studies of Kruger and Dunning  showed that in a whole host of areas of competence (problem solving, logical reasoning, humour) a significant proportion of individuals demonstrated a wide gap between their own assessments and those of others. This gap persists even when they are given the opportunity to observe other performances and to reassess their own


다양한 다른 사람들이 똑같은 상황을 본 이후에, 자신의 수행능력을 다시 평가하더라도 자기평가의 인플레이션이 지속되었다 (Hodgeset al., 2001).

When given an opportunity to watch a variety of others handle the same situation and then rescore their own performances, the inflation of self-ratings persisted (Hodgeset al., 2001). 


따라서 역량에 대한 지나친 강조는 다음과 같은 '숨겨진 무능력'을 야기한다.

Thus an overemphasis on competence-as-reflection may result in ‘hidden incompetence’ such as 

  • 자신이 무엇이 부족한지 모르는 
    those who can produce portfolios but nevertheless cannot identify signifi-cant deficits; 

  • 부족함을 알면서도 학습하지 않는
    those who despite identifying deficits cannot or will not direct own learning; and 

  • 지식과 술기의 습득이 아니라 성찰 자체만을 목표로 삼는
    those for whom the goal becomes reflection itself at the expense of attaining actual knowledge and skills. 


이러한 현상은 퍼포먼스 리뷰 및 인터뷰와 같은 다른 성찰적인 과정을 괴롭히고, 내가 어떤 일을해야 하는가를 물어 본 레지던트가 잘 설명해준다. 그는 '때때로 나는 너무 헌신적이다'고 말했다.

These phenomena bedevil other reflective processes such as performance reviews and inter-views and are illustrated by the resident whom I asked to identify an area in which he needed to do some work.He said, ‘Sometimes I am too dedicated’.  






결론

Conclusions


네 가지 모두 고려할 가치가있는 강점과 약점을 가지고 있습니다. 이 백서에서 검토 된 문헌에서 얻을 수있는 결론은 다음과 같습니다.

All have strengths and weaknesses worth considering carefully. Conclusions that can be drawn from the literature reviewed in this paper include:  


(1) '순수히' 지식만을 가르치고 시험하는 것을 피하십시오. 지식과 기술은 조기에 통합되어야하며, 임상적, 사회적, 문화적 및 기타 맥락에 따라 달라진다

(1) Avoid teaching and testing ‘pure’ knowledge.Knowledge and skills should be integrated early and often, and both should be anchored to clinical, social,cultural and other contexts.  


(2) '일반적인 기술'을 가르치고 테스트하지 마십시오. 기술은 영역별 지식에 따라 달라지며, 학습은 기술 개발과 통합되어야합니다.

 (2) Avoid teaching and testing ‘general skills’. Skills arebound to domain-specific knowledge, the learning ofwhich should be integrated with skills development. 


(3) 고도로 표준화 된 시나리오와 방법은 제한적으로만 사용하라. 전문가가 사용하는 사고 방식을 장려하고, 상황과 사례의 variance를 포용합니다.

(3) Limit use of highly standardized scenarios and measures. Foster expert forms of thinking and embrace variance in the presentation of situations and cases. 


(4) 성찰은 신중하게 도입하라. 자기평가를 위한 능력이 부족한 사람에게 자기 주도적 학습 방법을 사용하지 마십시오. 역량은 자기평가만 평가하지 말고, 지식과 기술 습득의 발달 및 시험과 연결되어야 합니다.

(4) Implement reflection carefully. Don’t use self-directed learning methods without establishing the capacity for self-assessment. Further, don’t let competence assessment rest on reflection alone, it should remain tied to the development and demonstration of the acquisition of knowledge and skills. 





 







 2006 Dec;28(8):690-6.

Medical education and the maintenance of incompetence.

Author information

1
Wilson Centre for Research in Education, University of Toronto, Canada. brian.hodges@utoronto.ca

Abstract

We think of medical education as a process that moves novices from a state of incompetence to one of competence. This paper explores the idea that education may, at times, actually lead to incompetence as a result of over-emphasizing particular discourses that construct what competence is. This paper explores four discourses each with its own terminology and core conceptualizations of competence; each of which creates different roles for students and teachers. No one discourse is ideal and all drive teaching and assessment in particular ways. Sometimes these forms of teaching or assessment may inadvertently foster incompetence. In this paper I argue that, as with medical treatments, medical educators must pay more attention to the side-effects of the discourses that shape medical education.

PMID:
 
17594579
 
DOI:
 
10.1080/01421590601102964


의학교육에서 평가(N Engl J Med 2007)

Assessment in Medical Education

Ronald M. Epstein, M.D.

N Engl J Med 2007; 356:387-396January 25, 2007DOI: 10.1056/NEJMra054784





어떤 식으로든, 대부분의 의사들은 연수생, 동료 및 기타 보건 전문가의 능력을 평가한다. 그러나 위의 예에서 알 수 있듯이, 임상에서 진단 테스트를 사용하는 것에 비해서, 교육 평가 도구를 사용하는 것은 편안하지 않을 수 있습니다. 이 논문는 일반적으로 사용되는 것과 새롭게 등장한 평가 방법에 대한 개념적 프레임워크를 설명하고, 간략한 업데이트를 제공하고 의사의 전문 역량 및 성과를 평가할 때 각 방법이 가진 장단점을 논의할 것이다.

In one way or another, most practicing physicians are involved in assessing the competence of trainees, peers, and other health professionals. As the example above suggests, however, they may not be as comfortable using educational assessment tools as they are using more clinically focused diagnostic tests. This article provides a conceptual framework for and a brief update on commonly used and emerging methods of assessment, discusses the strengths and limitations of each method, and identifies several challenges in the assessment of physicians' professional competence and performance.




역량과 수행능력

COMPETENCE AND PERFORMANCE



다른 문헌에서, Hundert와 저는 "의사소통능력, 지식, 기술 능력, 임상 추론, 감정, 가치, 성찰을 일상적으로 신중하게 사용하여 자신이 모시는(serve) 개인과 지역사회에 이득이 되도록 일상적 실천에 반영하는 능력"을 "의학적 역량"이라고 정의했습니다. 미국의 경우, 레지던트 및 의대생의 평가는 주로 ACGME에서 개발 한 모델을 기반으로합니다. 이 모델은 의학 지식, 환자 간호, 전문성, 의사 소통 및 대인 관계 기술, 실습 기반 학습 및 개선, 시스템 기반 실습이라는 6 가지 상호 연관된 역량 영역을 사용합니다 .2

Elsewhere, Hundert and I have defined competence in medicine as “the habitual and judicious use of communication, knowledge, technical skills, clinical reasoning, emotions, values, and reflection in daily practice for the benefit of the individuals and communities being served.”1 In the United States, the assessment of medical residents, and increasingly of medical students, is largely based on a model that was developed by the Accreditation Council for Graduate Medical Education (ACGME). This model uses six interrelated domains of competence: medical knowledge, patient care, professionalism, communication and interpersonal skills, practice-based learning and improvement, and systems-based practice.2


역량은 일시적 성취가 아니라 평생에 걸쳐 학습하는 습관입니다 3. 평가는 자신의 학습 요구를 파악하고 이에 대응할 수 있도록 도움을 주는 데 중요한 역할을합니다. 이상적으로, 역량(학생이나 의사가 할 수있는 것)에 대한 평가는 실제 수행능력 (관찰/감독이 없는 상황에서의 습관적 행동)에 대한 통찰력을 제공해야합니다. 또한 평가는 변화에 대한 적응력을 향상시키고, 새로운 지식을 발견 및 생성하고, 전반적인 수행능력을 향상시킬 수 있는 힘이 있다 .4

Competence is not an achievement but rather a habit of lifelong learning3; assessment plays an integral role in helping physicians identify and respond to their own learning needs. Ideally, the assessment of competence (what the student or physician is able to do) should provide insight into actual performance (what he or she does habitually when not observed), as well as the capacity to adapt to change, find and generate new knowledge, and improve overall performance.4


역량은 맥락-의존적contextual이어서, 실재 세계의 특정 상황에서 수행해야하는 과제와 사람의 능력 사이의 관계를 반영합니다 .5 여기에 포함되는 맥락적 변수에는 실무 환경, 질병의 지역 유병률, 환자의 성격 증상, 환자의 교육 수준, 환자 및 의사의 기타 인구 통계적 특성 등이 있다. 병력청취 또는 임상추론과 다양한 역량의 측면도 내용에 따라 달라지며, 모든 상황에 대하여 일반화 될 수 있지 않다. 7 다만 몇 가지 중요한 기술(예 : 치료적 관계 형성 능력)은 내용에 덜 의존적 일 수 있습니다 .8

Competence is contextual, reflecting the relationship between a person's abilities and the tasks he or she is required to perform in a particular situation in the real world.5 Common contextual factors include the practice setting, the local prevalence of disease, the nature of the patient's presenting symptoms, the patient's educational level, and other demographic characteristics of the patient and of the physician. Many aspects of competence, such as history taking and clinical reasoning, are also content-specific and not necessarily generalizable to all situations. A student's clinical reasoning may appear to be competent in areas in which his or her base of knowledge is well organized and accessible6 but may appear to be much less competent in unfamiliar territory.7 However, some important skills (e.g., the ability to form therapeutic relationships) may be less dependent on content.8


또한 역량 발달적입니다. 마음과 행동의 습관, 실용적 지혜는 의도적인 연습 9과 경험의 성찰을 통해 얻게됩니다 .10-14 

Competence is also developmental. Habits of mind and behavior and practical wisdom are gained through deliberate practice9 and reflection on experience.10-14 

  • 학생은 실제에서 제거된 추상적, 규칙 기반의 공식을 초심자 수준에서 시작하여
    Students begin their training at a novice level, using abstract, rule-based formulas that are removed from actual practice. 

  • 더 높은 수준에서 이러한 규칙이 구체적 상황에 따라 분화되고
    At higher levels, students apply these rules differentially to specific situations. 

  • 레지던트 기간에는 상황에 대한 전체적인 관점을 가지고 판단을 내리며, 기저 원칙을 심층적으로 이해하여 진단적 지름길을 만든다
    During residency, trainees make judgments that reflect a holistic view of a situation and eventually take diagnostic shortcuts based on a deeper understanding of underlying principles. 

  • 전문가는 모호한 현실세계에서 빠른, 맥락 기반의 판단을 내릴 수 있다. 자신의 인지과정에 대해 충분히 인식하고 있으며, 어떻게 그 상황을 인식하는지를 설명할 수 있다.
    Experts are able to make rapid, context-based judgments in ambiguous real-life situations and have sufficient awareness of their own cognitive processes to articulate and explain how they recognize situations in which deliberation is essential. 


상황과 내용에 따라 역량 개발의 속도가 다를 수 있습니다. 발달은 맥락과의 상호작용이기도 하다. 피곤하거나 혼란 스럽거나 짜증이 났을 때 임상의의 수행능력은 낮아지며, 경험이 부족한 임상의의 능력은 특히 스트레스의 영향을 받기 쉽습니다 15,16.

Development of competence in different contexts and content areas may proceed at different rates. Context and developmental level also interact. Although all clinicians may perform at a lower level of competence when they are tired, distracted, or annoyed, the competence of less experienced clinicians may be particularly susceptible to the influence of stress.15,16



평가의 목적

GOALS OF ASSESSMENT


지난 10 년 동안 의과 대학, 대학원 교육 프로그램 및 라이센싱 기관은 연수생과 실습 의사의 능력에 대한 정확하고 신뢰할 수있는시의 적절한 평가를 제공하기 위해 새로운 노력을 기울였습니다 .1,2,17 이러한 평가에는 세 가지 주요 목표가 있습니다. 

  • 모든 학습자와 실무자에게 동기를 부여하고 미래 학습의 방향성을 제시하여 역량을 최적화

  • 무능한 의사를 찾아서 대중을 보호

  • 고급 교육을 받기 위해 지원자를 선택할 수있는 기반을 제공함


Over the past decade, medical schools, postgraduate training programs, and licensing bodies have made new efforts to provide accurate, reliable, and timely assessments of the competence of trainees and practicing physicians.1,2,17 Such assessments have three main goals: 

  • to optimize the capabilities of all learners and practitioners by providing motivation and direction for future learning, 

  • to protect the public by identifying incompetent physicians, and 

  • to provide a basis for choosing applicants for advanced training.


평가는 형성 (미래 학습 지도, 재보장 제공, 성찰 촉진 및 가치 형성) 또는 총괄 (능력 또는 의료행위 수행 적합성에 대한 전반적인 판단, 고등 수준이 책임에 대한 자격 부여)이 될 수 있습니다. 

  • 형성평가는 상대적으로 구조화되지 않은 지식 체계에 접근하는 학습자를위한 벤치 마크를 제공합니다. 학생들은 본래의 학습 동기를 강화하고 학생들에게 더 높은 기준을 정하도록 고무 할 수 있습니다 .18 

  • 총괄평가는 전문적인 자기 규제와 책임 성을 제공하기 위한 것이지만, 이후에 추가 연습이나 훈련에는 장벽으로 작용할 수도 있습니다 .19 

Assessment can be formative (guiding future learning, providing reassurance, promoting reflection, and shaping values) or summative (making an overall judgment about competence, fitness to practice, or qualification for advancement to higher levels of responsibility). 

  • Formative assessments provide benchmarks to orient the learner who is approaching a relatively unstructured body of knowledge. They can reinforce students' intrinsic motivation to learn and inspire them to set higher standards for themselves.18 

  • Although summative assessments are intended to provide professional self-regulation and accountability, they may also act as a barrier to further practice or training.19 

형성적 용도로만 사용할 수있는 평가와 총괄적 사용에 충분한 심리측정적 강건함을 갖춘 평가 사이에 구분이 필요하다. 이러한 구분은 고부담 평가 (예 : 면허 및 인증 시험) 방법을 선택할 때 특히 중요합니다. 총괄평가는 학습을 유도하는데 필요한 충분한 피드백을 제공하지 못할 수도 있습니다 .20 그러나 학생들은 시험에 나올 내용을 공부하는 경향이 있으므로 총괄평가는 피드백이 없어도 학습에 영향을 줄 수 있습니다.

A distinction should be made between assessments that are suitable only for formative use and those that have sufficient psychometric rigor for summative use. This distinction is especially important in selecting a method of evaluating competence for high-stakes assessments (i.e., licensing and certification examinations). Correspondingly, summative assessments may not provide sufficient feedback to drive learning.20 However, because students tend to study that which they expect to be tested on, summative assessment may influence learning even in the absence of feedback.



평가 방법

ASSESSMENT METHODS


모든 평가 방법에는 내재된 강점과 약점이 있습니다. 시간에 따라 관측 수를 늘리고 다수의 평가 방법의 사용하여 방법적 결함을 부분적으로 보완 할 수있다 .1,21 Van der Vleuten22는 평가 방법의 유용성을 판단하기 위한 5 가지 기준을 제시하였다

  • 신뢰도 (측정의 정도 정확성과 재현성), 

  • 타당도 (평가가 요구하는 것을 측정하는지 여부), 

  • 미래의 학습과 실습에 미치는 영향, 

  • 학습자와 교수진의 수용 가능성, 

  • 비용 (개별 연수생, 기관 및 사회 전반)

All methods of assessment have strengths and intrinsic flaws. The use of multiple observations and several different assessment methods over time can partially compensate for flaws in any one method.1,21 Van der Vleuten22 describes five criteria for determining the usefulness of a particular method of assessment: 

  • reliability (the degree to which the measurement is accurate and reproducible), 

  • validity (whether the assessment measures what it claims to measure), 

  • impact on future learning and practice, 

  • acceptability to learners and faculty, and 

  • costs (to the individual trainee, the institution, and society at large).


필기 시험

Written Examinations


필기 시험 문제는 일반적으로 개방형인지 객관형인지에 따라 분류됩니다. 또한, 맥락은 "맥락이 풍부"하거나 "맥락이 빈곤"한 것으로 구분 될 수있다. 

    • 임상적 맥락이 풍부한 질문은 임상의 특징인 복잡한 인지 과정을 유도한다. 

    • 반대로 맥락이 부족한 질문은 기본적인 사실적 지식만 확인할 뿐, 실제 임상 문제에 대한 transferability는 없다.

Written examination questions are typically classified according to whether they are open-ended or multiple choice. In addition, questions can be “context rich” or “context poor.”23 Questions with rich descriptions of the clinical context invite the more complex cognitive processes that are characteristic of clinical practice.24 Conversely, context-poor questions can test basic factual knowledge but not its transferability to real clinical problems.


선다형 문제는 많은 콘텐츠 영역을 포괄하고 비교적 짧은 기간에 관리 할 수 ​​있고 컴퓨터로 점수를 매길 수있는 많은 수의 시험 항목을 제공 할 수 있기 때문에 일반적으로 평가에 많이 사용됩니다. 따라서 많은 수의 연수생들에 대한 시험 관리를 간단하고 표준화시킨다. 25 가장 일반적인 형식은 학생에게 가능한 답의 목록에서 가장 좋은 답을 선택하도록 요청하는 형태이다. 임상추론 프로세스를 더 잘 평가할 수 있는 최신 형식도 있다.  

Multiple-choice questions are commonly used for assessment because they can provide a large number of examination items that encompass many content areas, can be administered in a relatively short period, and can be graded by computer. These factors make the administration of the examination to large numbers of trainees straightforward and standardized.25 Formats that ask the student to choose the best answer from a list of possible answers are most commonly used. However, newer formats may better assess processes of diagnostic reasoning. 

    • Key-feature items focus on critical decisions in particular clinical cases.26 

    • Script-concordance items present a situation (e.g., vaginal discharge in a patient), add a piece of information (dysuria), and ask the examinee to assess the degree to which this new information increases or decreases the probability of a particular outcome (acute salpingitis due to Chlamydia trachomatis).27 


묘사 된 상황이 모호하기 때문에 SCT의 문항은 실제 세계에서 임상적 판단력을 필요로 한다. SCT점수는 수험자의 교육 수준과 상관 관계가 있으며, 임상추론의 구두시험점수를 예측하는 것으로 나타났습니다.

Because the situations portrayed are ambiguous, script-concordance items may provide insight into clinical judgment in the real world. Answers to such items have been shown to correlate with the examinee's level of training and to predict future performance on oral examinations of clinical reasoning.28


맥락을 풍부하게 제시하는 선다형 문제를 작성하는 것은 어려운 일이며, 문항출제시 쉽게 물어볼 수없는 윤리적 딜레마 나 문화적 모호성과 같은 주제를 피하는 경향이있다 .29 또한 학생은 정답을 아는 경우에 질문에 답할 수 있지만, 정답을 몰라도 답할 수 있다.13,30 이 효과는 큐잉(찍기)이라고 하며, 진단추론을 평가할 때 특히 문제가됩니다. Premature closure는 정확한 진단이 고려되기 전에 의사 결정을 내려버리는 것인데, 이것은 흔한 진단오류의 원인이다. 31,32 R-type 문항, 개방형 단답형 문항은 '찍기'를 최소화 할 수 있습니다. 구조화 된 에세이는 또한 '찍을 수 있는 힌트'를 배제합니다. 또한, 구조화 에세이는 더 복잡한 인지 프로세스를 필요로하며 객관식 질문보다 맥락화 된 답을 가능하게 한다. 분명한 채점 가이드 라인만 있으면, 구조화 에세이도 심리측정상 강건할 수 있습니다.

Multiple-choice questions that are rich in context are difficult to write, and those who write them tend to avoid topics — such as ethical dilemmas or cultural ambiguities — that cannot be asked about easily.29 Multiple-choice questions may also create situations in which an examinee can answer a question by recognizing the correct option, but could not have answered it in the absence of options.23,30 This effect, called cueing, is especially problematic when diagnostic reasoning is being assessed, because premature closure — arriving at a decision before the correct diagnosis has been considered — is a common reason for diagnostic errors in clinical practice.31,32 Extended matching items (several questions, all with the same long list of possible answers), as well as open-ended short-answer questions, can minimize cueing.23 Structured essays also preclude cueing. In addition, they involve more complex cognitive processes and allow for more contextualized answers than do multiple-choice questions. When clear grading guidelines are in place, structured essays can be psychometrically robust.




감독의사에 의한 평가

Assessments by Supervising Clinicians


임상의가 특정 기간동안 학생을 관찰하고 받은 인상은 환자들과의 성과를 평가하는 가장 일반적인 도구로 남아 있습니다. 학생과 레지던트는 일반적으로 로테이션이 끝날 때, 글로벌 평가를 받으며, 다양한 주치의의 의견을 듣습니다. 명확한 표준이 없다면 주관성이 문제가 될 수 있지만, 더 중요한 문제는 환자와 상호 작용하는 동안 연수생을 직접 관찰하는 것이 너무 드물다는 것이다.

Supervising clinicians' observations and impressions of students over a specific period remain the most common tool used to evaluate performance with patients. Students and residents most commonly receive global ratings at the end of a rotation, with comments from a variety of supervising physicians. Although subjectivity can be a problem in the absence of clearly articulated standards, a more important issue is that direct observation of trainees while they are interacting with patients is too infrequent.33



직접 관찰 또는 비디오 리뷰

Direct Observation or Video Review


"long case"34와 "mini-clinical-evaluation exercise"(mini-CEX) 35는 학습자를 직접 더 자주 관찰할 수 있도록 개발되었습니다. 이 평가에서 감독의사는 학생이 10-20 분의 기간 동안 병력 검사 및 신체 검사를 수행하는 동안 학생을 관찰합니다. 학생은 진단 및 치료 계획을 제시하며, 교수진은 이에 대해서 평가를 하고 교육적 피드백을 제공 할 수 있다. 감독의사의 관찰하에 실제 환자와 구조화된 연습을 하는 것은, 표준화 된 환자를 사용하여 구조화 시험을 보는 것과 동일한 수준의 신뢰성을 가질 수 있다. 그러나 신체 소견 및 임상 설정등의 광범위한 문제가 있다. 

The “long case”34 and the “mini–clinical-evaluation exercise” (mini-CEX)35 have been developed so that learners will be directly observed more frequently. In these assessments, a supervising physician observes while a trainee performs a focused history taking and physical examination over a period of 10 to 20 minutes. The trainee then presents a diagnosis and a treatment plan, and the faculty member rates the resident and may provide educational feedback. Structured exercises with actual patients under the observation of the supervising physician can have the same level of reliability as structured examinations using standardized patients34,36 yet encompass a wider range of problems, physical findings, and clinical settings. 


임상 현장에서 연수생을 직접 관찰하는 것은 구두사례 발표, 임상 추론을 평가하는 서면 연습, 문헌 검색과 같이 환자와 만난 후에 수행하는 연습과 결합될 수 있습니다 .8,37 또한 환자와의 접촉을 녹화한 비디오 리뷰는 임상적 상호 작용에서 연수생의 기술에 대한 피드백을 평가하고 제공하는 강력한 수단이 된다8,38

Direct observation of trainees in clinical settings can be coupled with exercises that trainees perform after their encounters with patients, such as oral case presentations, written exercises that assess clinical reasoning, and literature searches.8,37 In addition, review of videos of encounters with patients offers a powerful means of evaluating and providing feedback on trainees' skills in clinical interactions.8,38



임상 시뮬레이션

Clinical Simulations


표준화 된 환자 - 반복적으로 환자를 꾸준히 묘사하도록 훈련된 배우 - 는 OSCE에 활용되는 경우가 많으며, 각기 다른 과제에 중점을 둔 일련의 '스테이션'으로 구성됩니다. 2004년 이래로 이 시험은 모든 의대생이 보는 미국의 의학 면허 시험으로 진행되고 있다.39 관찰 교원observing faculty이나 SP는 학생의 성적을 평가하기 위해 구체적 행동에 대한 체크리스트 또는 글로벌 평가 양식을 사용합니다 .40 

    • 체크리스트에는 "환자가 훈제 받았는지 물어 본다"와 "발목 반사를 체크 한 것"과 같은 항목이 포함될 수 있습니다. 

    • 글로벌 평가에서는 환자진찰이 얼마나 잘 조직되었는지, 그리고 학생이 적절하게 공감을 느꼈는지에 대한 등급을 묻습니다. 

보통 3~4시간 동안 진행되는, 최소 10 개의 스테이션이 0.85에서 0.90의 신뢰도를 달성하는 데 필요합니다. 이러한 조건 하에서, SP를 사용한 구조화 평가는 실제 환자와의 만남을 직접 관찰하고 평가하는 것과 거의 동일한 신뢰도를 갖는다.

Standardized patients — actors who are trained to portray patients consistently on repeated occasions — are often incorporated into objective structured clinical examinations (OSCEs), which consist of a series of timed “stations,” each one focused on a different task. Since 2004, these examinations have been part of the U.S. Medical Licensing Examination that all senior medical students take.39 The observing faculty member or the standardized patient uses either a checklist of specific behaviors or a global rating form to evaluate the student's performance.40 The checklist might include items such as “asked if the patient smoked” and “checked ankle reflexes.” The global rating form might ask for a rating of how well the visit was organized and whether the student was appropriately empathetic. A minimum of 10 stations, which the student usually visits over the course of 3 to 4 hours, is necessary to achieve a reliability of 0.85 to 0.90.41 Under these conditions, structured assessments with the use of standardized patients are as reliable as ratings of directly observed encounters with real patients and take about the same amount of time.42


SP와의 상호 작용은 특정 교육 목표에 맞춰 조정될 수 있으며, SP는 자신이 연기하는 병력 및 신체 검사와 관련하여 학생의 성과를 신뢰성있게 평가할 수 있습니다. SP와의 만남을 관찰하는 교수진은 연수생의 임상적 판단과 병력 청취 또는 신체 검사의 전반적인 일관성에 대한 추가적인 통찰력을 제공 할 수 있습니다. 

Interactions with standardized patients can be tailored to meet specific educational goals, and the actors who portray the patients can reliably rate students' performance with respect to history taking and physical examinations. Faculty members who observe encounters with standardized patients can offer additional insights on trainees' clinical judgment and the overall coherence of the history taking or physical examination. 


실제 임상 환경에서 예고없이 SP를 활용하여 학생의 진단적 추론, 치료 결정 및 의사 소통 기술을 평가하는 연구가 이뤄진 바 있다. 43-46 예고되지 않은 표준화 된 환자의 사용은 특히 실무 경험이있는 상급 수준의 의사나 피훈련자를 평가하는데 특히 중요하게 사용될 수 있다.

Unannounced standardized patients, who with the examinees' prior approval present incognito in actual clinical settings, have been used in health services research to evaluate examinees' diagnostic reasoning, treatment decisions, and communication skills.43-46 The use of unannounced standardized patients may prove to be particularly valuable in the assessment of higher-level trainees and physicians in practice.


중환자실 및 수술 환경에서 연수생의 임상 기술을 평가하기 위한 시뮬레이션의 사용이 증가하고 있습니다 .48 다양한 인터벤션에 심장 소리, 호흡, 산소 농도, 맥박 등이 반응하는 정교한 마네킹과 관련된 시뮬레이션을 사용하여 어떻게 활력징후가 불안정한 환자를 관리하는지 평가할 수 있다. 외과 시뮬레이션 센터는 이제 고감도 컴퓨터 그래픽을 사용하고 수술 센서를 직접 조작하여 multisensory 환경을 만듭니다. 하이테크 시뮬레이션은 중요한 학습 지원으로 점점 더 많이 사용되고 있으며 지식, 임상 추론 및 팀웍 평가에 유용 할 수 있습니다.

The use of simulation to assess trainees' clinical skills in intensive care and surgical settings is on the rise.47 Simulations involving sophisticated mannequins with heart sounds, respirations, oximeter readings, and pulses that respond to a variety of interventions can be used to assess how individuals or teams manage unstable vital signs. Surgical simulation centers now routinely use high-fidelity computer graphics and hands-on manipulation of surgical instruments to create a multisensory environment. High-technology simulation is seen increasingly as an important learning aid and may prove to be useful in the assessment of knowledge, clinical reasoning, and teamwork.





다면평가

Multisource (“360-Degree”) Assessments


동료, 다른 임상 팀 구성원, 환자 등에 의한 평가는 연수생의 업무 습관, 팀웍 능력 및 대인 관계 민감도에 대한 통찰력을 제공 할 수 있습니다 .48-50 의료 환경에서 다면피드백의 결과에 대한 연구결과는 거의 없지만, 영국의 모든 1년차와 2년차 의사를 위한 프로그램과 미국의 내과에서 재인증을 받는 모든 의사를위한 프로그램 등의 프로그램이 개발되고 있습니다. 다면피드백은 

    • 통계적 데이터와 내러티브 코멘트를 함께 사용하고, 

    • 소스가 신뢰할 수있고, 

    • 피드백이 건설적으로 프레임 되고, 

    • 전체 프로세스가 좋은 멘토링 및 후속 조치를 수반 할 때 

가장 효과적이다.

Assessments by peers, other members of the clinical team, and patients can provide insight into trainees' work habits, capacity for teamwork, and interpersonal sensitivity.48-50 Although there are few published data on outcomes of multisource feedback in medical settings, several large programs are being developed, including one for all first- and second-year house officers in the United Kingdom and another for all physicians undergoing recertification in internal medicine in the United States. Multisource feedback is most effective when it includes narrative comments as well as statistical data, when the sources are recognized as credible, when the feedback is framed constructively, and when the entire process is accompanied by good mentoring and follow-up.51


동료평가에 대한 최근의 연구는 연수생이 적시에timely 익명으로confidential 동료들에 의한 사려깊은 평가와 논평을 제공하면서, 이 리포트를 기반으로 성찰을 도와줄 수 있는 어드바이저가 있다면, 동료평가도 강력하고 통찰력있고 유익하다는 것을 보여준다. 동료평가는 평가자가 어떻게 선택되느냐와 관계없이 일관성이 있는 것으로 나타났습니다. 그러한 평가는 안정적이고, 상급자에 의한 평가 뿐만 아니라 교실class 내 랭킹을 예측합니다 .54 동료 평가는 신뢰에 달려 있으며, 기밀성을 철저히 해야 한다. 그렇지 않으면 파멸적이고 파괴적이며 분열적일 수 있습니다.

Recent studies of peer assessments suggest that when trainees receive thoughtful ratings and comments by peers in a timely and confidential manner, along with support from advisers to help them reflect on the reports, they find the process powerful, insightful, and instructive.51,52 Peer assessments have been shown to be consistent regardless of the way the raters are selected. Such assessments are stable from year to year53 and predict subsequent class rankings as well as subsequent ratings by supervisors.54 Peer assessments depend on trust and require scrupulous attention to confidentiality. Otherwise they can be undermining, destructive, and divisive.


환자에 의한 평가는 원칙적으로는 가치가 있지만 몇 가지 문제가 있습니다. 만족할만한 신뢰성을 얻기 위해서는 50회 가량의 환자 설문 조사가 필요할 수 있습니다 .5 중증 환자는 종종 설문 조사를 완료하지 않습니다. 중증 환자는 컨디션이 나은 환자보다 의사에 대한 평가가 더 박하다.56) 또한 환자들이 언제나 임상 진료의 요소들 사이의 구분 할 수 있는 것은 아니며, 환자에 의한 평가는 일반적으로 후한 편이다. 이러한 한계로 인해 임상 성적을 평가할 수있는 유일한 도구로 환자 평가를 사용하기가 어렵습니다. 그러나 간호사에 의한 평가는 중요 할 수 있습니다. 간호사의 평가는 6~10개로도 신뢰성있는 결과를 얻을 수 있으며, 교수가 평가한 대인 관계 등급과 상관 관계가 있습니다 .59

Although patients' ratings of clinical performance are valuable in principle, they pose several problems. As many as 50 patient surveys may be necessary to achieve satisfactory reliability.55 Patients who are seriously ill often do not complete surveys; those who do tend to rate physicians less favorably than do patients who have milder conditions.56 Furthermore, patients are not always able to discriminate among the elements of clinical practice,57 and their ratings are typically high. These limitations make it difficult to use patient reports as the only tool for assessing clinical performance. However, ratings by nurses can be valuable. Such ratings have been found to be reliable with as few as 6 to 10 reports,58 and they correlate with both patients' and faculty members' ratings of the interpersonal aspects of trainees' performance.59


다른 사람이 자신을 보는 것 만큼 스스로를 보지 못한다는 인간의 근본적인 인지능력 한계 때문에 자기평가는 그다지 유용하지 않다. 또한 이전의 임상실적에 대한 자신의 평가가 달성하지 못하는 또 하나의 목적은 임상행위의 매 순간에 스스로를 모니터링 하는 능력입니다. 환자의 변화하는 요구를 충족시키기 위해서, 자신의 능력의 한계를 인식하기 위해서, 예기치 않은 상황을 관리하기 위해서 의사는 이러한 능력을 가져야 한다. 

Fundamental cognitive limitations in the ability of humans to know themselves as others see them restrict the usefulness of self-assessment. Furthermore, rating oneself on prior clinical performance may not achieve another important goal of self-assessment: the ability to monitor oneself from moment to moment during clinical practice.10,60 A physician must possess this ability in order to meet patients' changing needs, to recognize the limits of his or her own competence, and to manage unexpected situations.



포트폴리오

Portfolios


포트폴리오에는 연수생의 특정 영역에 대한 문서화와 성찰이 포함됩니다. 여기에는 자기성찰이 결합됩니다 .61 의학 분야에서와 마찬가지로 포트폴리오는 연수생의 발전과 기술적 역량을 보여줍니다. 차트 노트, 추천서, 절차 기록, 비디오 테이프 협의, 동료 평가, 환자 설문 조사, 문학 검색, 품질 향상 프로젝트 및 기타 학습 자료를 포함 할 수 있습니다. 또한 포트폴리오에는 종종 자체 평가, 학습 계획 및 성찰 에세이가 포함됩니다. 포트폴리오가 최대한 효과적이기 위해서는 다양한 내용을 모으고 해석하는 과정에서 긴밀한 멘토링이 제공되어야 한다. 여기에는 상당한 시간이 필요할 수 있다. 포트폴리오는 가장 일반적으로 형성 평가에 사용되지만, 총괄평가와 고부담결정에서도 사용이 증가하고 있습니다.

Portfolios include documentation of and reflection about specific areas of a trainee's competence. This evidence is combined with self-reflection.61 In medicine, just as in the visual arts, portfolios demonstrate a trainee's development and technical capacity. They can include chart notes, referral letters, procedure logs, videotaped consultations, peer assessments, patient surveys, literature searches, quality-improvement projects, and any other type of learning material. Portfolios also frequently include self-assessments, learning plans, and reflective essays. For portfolios to be maximally effective, close mentoring is required in the assembly and interpretation of the contents; considerable time can be expended in this effort. Portfolios are most commonly used in formative assessments, but their use for summative evaluations and high-stakes decisions about advancement is increasing.20







평가의 과제

CHALLENGES IN ASSESSMENT


새롭게 등장한 평가영역

New Domains of Assessment


아직 초기 단계여서 문제가 있는 여러 영역이 있습니다. 치료의 질과 환자의 안전은 효과적인 팀워크에 달려 있으며 ACGME에 명시된 몇 가지 역량의 핵심 요소로 팀워크 교육이 강조되고 있지만 팀워크를 평가할 수있는 검증 된 방법은 없습니다. 전문직업성에 대한 정의는 물론 그것을 측정하는 최선의 방법이 무엇인지에 대한 합의가 부족하다. 의사소통을 평가하는 수십 개의 척도가 의학 교육 및 연구에 사용되지만, 어느 한 척도가 다른 척도보다 우수하다는 증거는 거의 없다. 또한 환자가보고하는 경험은 종종 전문가가 부여한 평가와 상당히 다릅니다 .65

There are several domains in which assessment is in its infancy and remains problematic. Quality of care and patient safety depend on effective teamwork,62 and teamwork training is emphasized as an essential element of several areas of competence specified by the ACGME, yet there is no validated method of assessing teamwork. Experts do not agree on how to define professionalism — let alone how best to measure it.63 Dozens of scales that rate communication are used in medical education and research,64 yet there is little evidence that any one scale is better than another; furthermore, the experiences that patients report often differ considerably from ratings given by experts.65


다양한 방법의 활용과 장기적 평가

Multimethod and Longitudinal Assessment


다양한 평가 방법을 사용하면 개별 평가 형식의 많은 한계점을 극복 할 수 있습니다. 8,22,36,66 임상 상황의 다양성으로 인해 역량에 대한 더 많은 통찰력을 얻을 수 있으며, 여러 형식을 사용하면 콘텐츠를 다양하게 할 수 있다. 여러 관찰자를 포함시켜서 연수생의 수행능력의 여러 측면에 대한 정보를 얻을 수 있다. 종단적 평가는 어느 한 시점에서 과도한 테스트를 피하고 지속적인 전문 개발 모니터링을위한 토대가됩니다.

The use of multiple methods of assessment can overcome many of the limitations of individual assessment formats.8,22,36,66 Variation of the clinical context allows for broader insights into competence, the use of multiple formats provides greater variety in the areas of content that are evaluated, and input from multiple observers provides information on distinct aspects of a trainee's performance. Longitudinal assessment avoids excessive testing at any one point in time and serves as the foundation for monitoring ongoing professional development.


다양한 평가방법에는 다음이 있다.

In the example at the beginning of this article, a multimethod assessment might include 

    • direct observation of the student interacting with several patients at different points during the rotation, 

    • a multiple-choice examination with both “key features” and “script-concordance” items to assess clinical reasoning, 

    • an encounter with a standardized patient followed by an oral examination to assess clinical skills in a standardized setting, 

    • written essays that would require literature searches and synthesis of the medical literature on the basic science or clinical aspects of one or more of the diseases the student encountered, and 

    • peer assessments to provide insights into interpersonal skills and work habits.


이러한 모든 결과를 포트폴리오로 결합하는 것은 임상의 진단과 유사합니다. 학생에 대한 전반적인 그림을 알기 위해서는 다양한 정보 유형을 종합해야한다. 일부 의과 대학에서는 여러 방법을 사용하는 종단 적 평가를 시작했지만, 그 양과 질적으로 다른 유형의 데이터를 처리하는 가장 좋은 방법은 아직까지는 밝혀지지 않았습니다. 포트폴리오 평가가 광범위하게 적용되고 시간 테스트에 견딜 수 있도록하려면 질적 및 양적 데이터를 결합하는 새로운 방법이 필요합니다.

The combination of all these results into a portfolio resembles the art of diagnosis; it demands that the student synthesize various bits and types of information in order to come up with an overall picture. Although a few medical schools have begun to institute longitudinal assessments that use multiple methods,8 the best way to deal with the quantity and the qualitatively different types of data that the process generates is not yet clear. New ways of combining qualitative and quantitative data will be required if portfolio assessments are to find widespread application and withstand the test of time.



평가의 표준화

Standardization of Assessment


인정 기관은 커리큘럼이 다루고 평가해야하는 광범위한 영역을 지정하지만 대부분의 경우 개별 의과 대학은 평가 방법 및 표준을 자체적으로 결정한다. 이 모델은 커리큘럼과 평가 간의 일관성을 유지할 수있는 장점이 있지만 여러 의과대학 사이의 비교는 어렵다. 67 국가적 표준화와 학교의 자율적 평가 사이에 이상적인 균형이 필요하다. 또한, 의과 대학 내에서는 모든 학생들이 동일한 평가 패키지를 요구하지 않을 수 있습니다. 예를 들어 초기 선별 검사 후에 어려움을 겪고있는 사람들을 대상으로보다 광범위한 테스트를 수행 할 수 있습니다.

Although accrediting organizations specify broad areas that the curriculum should cover and assess, for the most part individual medical schools make their own decisions about methods and standards of assessment. This model may have the advantage of ensuring consistency between the curriculum and assessment, but it also makes it difficult to compare students across medical schools for the purpose of subsequent training.67 The ideal balance between nationally standardized and school-specific assessment remains to be determined. Furthermore, within a given medical school, all students may not require the same package of assessments — for example, initial screening examinations may be followed by more extensive testing for those who have difficulties.



학습과 평가

Assessment and Learning


일반적으로 평가는 학습을 유도한다고 인정한다. 평가는 의도한 결과와 의도하지 않은 결과를 모두 가져올 수 있습니다 .22 학생들은 특정 시험 형식을 예상 할 때보다 신중하게 학습하며, 형식이 달라지면 학생들은 이론적인 문제보다 임상적인 문제로 초점을 옮길 수 있습니다 .69 동료에 의한 평가는 전문성, 팀워크, 의사 소통 등을 향상시킨다. 의도하지 않은 평가의 결과로는 학생들이 시험을 위해 벼락치기를 한다거나, 성찰적 학습보다는 표면적 학습만을 하려는 경향 등이 있다.

It is generally acknowledged that assessment drives learning; however, assessment can have both intended and unintended consequences.22 Students study more thoughtfully when they anticipate certain examination formats,68 and changes in the format can shift their focus to clinical rather than theoretical issues.69 Assessment by peers seems to promote professionalism, teamwork, and communication.52 The unintended effects of assessment include the tendency for students to cram for examinations and to substitute superficial knowledge for reflective learning.


전문성의 평가

Assessment of Expertise


전문 지식 수준이 높은 연수생 및 의사의 평가에는 특별한 어려움이 있다. 전문 지식은 독특하고 정교하며 조직화 된 지식으로 특징지어지며, 특정 임상 패턴에 의해 촉발되는 경우에만 종종 나타납니다 .70,71 따라서 일상적으로는 타당한 판단을 내리는 전문가라도, 의사소통기술, 지식, 추론기술을 평가하기 위한 일부 시험에서는 성적이 좋지 않을 수 있다.  

The assessment of trainees and physicians who have higher levels of expertise presents particular challenges. Expertise is characterized by unique, elaborated, and well-organized bodies of knowledge that are often revealed only when they are triggered by characteristic clinical patterns.70,71 Thus, experts who are unable to access their knowledge in artificial testing situations but who make sound judgments in practice may do poorly on some tests that are designed to assess communication skills, knowledge, or reasoning. 


또한 임상 전문 지식은...

Furthermore, clinical expertise implies the practical wisdom to...

    • manage ambiguous and unstructured problems, 

    • balance competing explanations, 

    • avoid premature closure, 

    • note exceptions to rules and principles, and 

    • — even when under stress — choose one of the several courses of action that are acceptable but imperfect. 

하나의 정답에 대해 합의가 이루어지지 않는 상황에서 귀납적 사고 (가능한 해석을 생성하기위한 데이터의 구성) 또는 연역적 사고 (가능성들 사이의 분별을위한 데이터 분석)를 테스트하는 것은 상당한 심리측정적 문제를 야기합니다.

Testing either inductive thinking (the organization of data to generate possible interpretations) or deductive thinking (the analysis of data to discern among possibilities) in situations in which there is no consensus on a single correct answer presents formidable psychometric challenges.


평가와 미래 수행능력

Assessment and Future Performance


평가가 대중을 저질의 의료로부터 보호한다는 증거는 간접적이고, 부족하다. 여기에는 여러 방법을 사용하는 평가 프로그램과 진단 테스트, 처방 및 추천 패턴과 같은 상대적으로 조잡한 추정치 간의 상관 관계를 보여주는 몇 가지 연구로 뿐이다. 72 평가를 미래 성과와 상관시키는 것은 어려운데, 왜냐하면 평가 프로세스의 부적합성뿐만 아니라 훈련 효과에 직접적으로 기여할 수있는 관련 성과 강건한 측정 결과가 정의되지 않았기 때문이다. 진료의 전반적인 수준을 측정하기 위하여 환자의 설문 조사와 기관 및 진료 데이터베이스의 분석이 등을 사용하고 있다. 이러한 새로운 도구들이 더 다듬어지면 교육 성과연구를 위한 더 견고한 기반이 될 수 있습니다.

The evidence that assessment protects the public from poor-quality care is both indirect and scarce; it consists of a few studies that show correlations between assessment programs that use multiple methods and relatively crude estimates of quality such as diagnostic testing, prescribing, and referral patterns.72 Correlating assessment with future performance is difficult not only because of inadequacies in the assessment process itself but also because relevant, robust measures of outcome that can be directly attributed to the effects of training have not been defined. Current efforts to measure the overall quality of care include patient surveys and analyses of institutional and practice databases. When these new tools are refined, they may provide a more solid foundation for research on educational outcomes.



결론

CONCLUSIONS


이러한 모든 문제를 고려할 때 표 2에 요약 된 원칙을 명심한다면 현재의 평가 방법이 향상 될 것입니다. 평가의 내용, 형식 및 빈도뿐만 아니라 피드백의 시기 및 형식은 커리큘럼의 특정 목표에 따라야합니다. 다양한 역량영역은 다양한 방법으로, 빈번하고 건설적인 피드백과 함께, 일관되고 종단적인 방식으로 평가되어야 합니다. 교육자는 학습에 대한 평가의 영향, 평가의 의도하지 않은 잠재적 영향, 각 방법의 한계 (비용 포함) 및 평가가 진행되는 프로그램이나 기관의 일반적인 문화를 염두에 두어야합니다.

Considering all these challenges, current assessment practices would be enhanced if the principles summarized in Table 2 were kept clearly in mind. The content, format, and frequency of assessment, as well as the timing and format of feedback, should follow from the specific goals of the medical education program. The various domains of competence should be assessed in an integrated, coherent, and longitudinal fashion with the use of multiple methods and provision of frequent and constructive feedback. Educators should be mindful of the impact of assessment on learning, the potential unintended effects of assessment, the limitations of each method (including cost), and the prevailing culture of the program or institution in which the assessment is occurring.


평가는 전문성 개발의 모든 단계에 접어 들고 있습니다. 이것은 현재 의과 대학 입학 과정에서, 수련 연수 시작과 동시에, 그리고 여러 의료위원회가 채택한 "인증 유지"요구 사항의 일부로 사용됩니다 .75 여러 가지 방법으로 종단 간 평가를 실시하면, 연수생의 학습 필요를 평가하고 임상의에 의해 차선책을 식별하고 교정하는 데 필요합니다. 형식적 또는 포괄적 인 평가 형식을 사용할지, 평가를 자주 수행해야하는지, 그리고 어떤 표준을 마련해야하는지에 대한 결정은 여전히 ​​어려운 과제입니다. 교육자는 또한 정의하고 정량화하기 어려운 전문성, 팀웍 및 전문 지식과 같은 자질 평가 도구를 개발해야하는 어려움에 직면합니다.

Assessment is entering every phase of professional development. It is now used during the medical school application process,73 at the start of residency training,74 and as part of the “maintenance of certification” requirements that several medical boards have adopted.75 Multiple methods of assessment implemented longitudinally can provide the data that are needed to assess trainees' learning needs and to identify and remediate suboptimal performance by clinicians. Decisions about whether to use formative or summative assessment formats, how frequently assessments should be made, and what standards should be in place remain challenging. Educators also face the challenge of developing tools for the assessment of qualities such as professionalism, teamwork, and expertise that have been difficult to define and quantify.







 2007 Jan 25;356(4):387-96.

Assessment in medical education.

PMID:

 

17251535

 

DOI:

 

10.1056/NEJMra054784


의학교육에서 총괄평가의 전-시험 학습효과 (Adv in Health Sci Educ, 2012)

A model of the pre-assessment learning effects of summative assessment in medical education

Francois J. Cilliers • Lambert W. T. Schuwirth • Nicoline Herman • Hanelie J. Adendorff • Cees P. M. van der Vleuten



Abbreviations 

CPA Cognitive processing activities 

MRA Metacognitive regulation activities 

HE Higher education 

HSE Health sciences education 

LESA Learning effects of summative assessment 

SA Summative assessment


Introduction


Summative assessment (SA) carries inescapable consequences for students and defines a major component of the learning environment’s impact on student learning (Becker et al. 1968; Snyder 1971). Consequently, better utilization of assessment to influence learning has long been a goal in higher education (HE), though not one that has been met with great success (Gijbels et al. 2009; Heijne-Penninga et al. 2008; Nijhuis et al. 2005).


Dochy et al. (2007) distinguish pre-, post- and pure learning effects of assessment. 

  • Pre- assessment effects impact learning before assessment takes place and are addressed in literature on exam preparation (e.g., van Etten et al. 1997) and test expectancy (e.g., Hakstian 1971). 

  • Post-assessment effects impact after assessment and are addressed in literature referring to feedback (e.g., Gibbs and Simpson 2004) and the relationship of assessment with student achievement (e.g., Sundre and Kitsantas 2004). 

  • Pure assessment effects impact during assessment and are reported more rarely (Tillema 2001). The testing effect (e.g., Roediger and Butler 2011) could be classified as a pure or a post assessment effect depending on whether the effect on the learning process or subsequent achievement is considered.


Two major sets of effects can be distinguished: those related to perceived demands of the assessment task and those related to the design of the assessment system.




1. Perceived task demands


Learning is influenced by students’ perceptions of the demands of an assessment task which may accrue from explicit and implicit information from lecturers, from fellow students, past papers and students’ own experience of assessment (Entwistle and Entwistle 1991; Frederiksen 1984; van Etten et al. 1997).


Two types of demands may be distinguished: content demands and processing demands.


Content demands


Content demands relate to the knowledge required to respond to an assessment task (Broekkamp and van Hout-Wolters 2007). These influence what resources students utilize to prepare for assessment by way of cues inferred from the assessor and the assessment task (Entwistle and Entwistle 1991; Frederiksen 1984; Newble and Jaeger 1983;Sa¨ljo¨ 1979). They also influence the selection of what content to learn from selected resources. Students cover more content for selected response items than for constructed response items (Sambell and McDowell 1998) and tend to focus on smaller units of information for selected response assessments than for essays (Hakstian 1971, quoting various studies).


Processing demands


Processing demands relate to ‘‘skills required for processing … knowledge in order to generate the requested response’’ (Broekkamp and van Hout-Wolters 2007). These influence students’ approach to learning by way of cues inferred from the assessor (Ramsden 1979) and from the assessment task. 

      • Constructed response items and open-ended assessments are more likely to engender a transformative or deep approach to learning; selected response items and closed assessments, a reproductive or surface approach (Laurillard 1984; Ramsden 1979; Sambell and McDowell 1998; Sambell et al. 1997; Scouller 1998; Tang 1994; Thomas and Bain 1984; van Etten et al. 1997; Watkins 1982). 

      • Surprisingly, however, closed-book tests promoted a deep approach to learning more than open-book tests (Heijne-Penninga et al. 2008).


Tang (1994) speculated that students’ degree of familiarity with an assessment method influenced their approach to learning, 

Watkins and Hattie (cited by Scouller 1998) that past success with surface strategies may encourage a perception that ‘‘deep level learning strategies are not required to satisfy examination requirements’’ (p. 454).



2. System design


The mere fact of assessment motivates students to learn and influences the amount of effort expended on learning (van Etten et al. 1997). The amount of time students spend studying increases, up to a point, as the volume of material and, independent of that, the degree of difficulty of the material, to be studied, increases (van Etten et al. 1997). High workloads also drive students to be more selective about what content to study and to adopt low-level cognitive processing tactics (Entwistle and Entwistle 1991; Ramsden 1984; van Etten et al. 1997). The scheduling of assessment in a course and across courses impacts the distribution of learning effort, as do competing interests e.g., family, friends and extracurricular activities (Becker et al. 1968; Miller and Parlett 1974; Snyder 1971; van Etten et al. 1997).



Theoretical underpinnings


Little previous work on LESA has invoked theory, nor are there many models offering insight into why assessment has the impact it does.



Methods


This study was conducted at a South African medical school with a six-year, modular curriculum. Phases One and Two comprised three semesters of preclinical theoretical modules; Phase Three, semesters four to nine, alternating clinical theory and clinical practice modules; Phase Four, semesters 10–12, clinical practice modules only.


A process theory approach (Maxwell 2004) informed this study. We adopted grounded theory as our research strategy, making a deliberate decision to start with a clean slate and thus utilized in-depth interviews (Charmaz 2006; DiCicco-Bloom and Crabtree 2006; Kvale 1996). This approach offers the advantage of potentially discovering constructs and relationships not previously described. Interviews were not structured beyond exploring three broad themes i.e., how respondents learned, what assessment they had experienced and how they adapted their learning to assessment, all across the entire period of their studies up to that point. Detailed information about the facets of assessment to which respondents adapted their learning and the facets of learning that they adapted in response to assessment were sought throughout, using probing questions where appropriate. When new themes emerged in an interview, these were explored in depth. Evidence was sought in subsequent interviews both to confirm and disconfirm the existence and nature of emerging constructs and relationships. In keeping with the grounded theory strategy used, data analysis commenced even as interviews proceeded, with later interviews being informed by preliminary analysis of earlier interviews.


All interviews were audio recorded, transcribed verbatim and reviewed as a whole, along with field notes. Data analysis was inductive and iterative. Emerging constructs and relationships were constantly compared within and across interviews and refined (Charmaz 2006; Dey 1993; Miles and Huberman 1994). Initial open coding was undertaken by one investigator, subsequent development, revision and refinement of categories and linkages through discussions between the team members. Once the codebook was finalized, focused coding of the entire dataset was undertaken. No new constructs emerged from the analysis of interviews 13–18.



Results


Analysis revealed two sources of impact and two LESA in this setting (Fig. 1). Combining this data with a previously proposed mechanism of impact (Cilliers et al. 2010) allows the construction of the model proposed in the figure.


평가는 이러한 특성이 있고.

As assessment becomes more 

  • 즉각적 imminent (‘‘when it comes to the last week, last week and a half of a block’’), 

  • 영향력 가능성 impact likelihood (‘‘it’s unavoidable’’) and 

  • 영향력 심각도 impact severity (‘‘just that you can pass the exam’’) are considered, along with 

  • 대응값 response value (success in assessment increasing, patient care decreasing in value as assessment looms). 


평가의 특성은 다음과 합해져서 

These factors, together with 

  • 과제 유형 task type (‘‘they’re not testing your understanding of the concept. They’re testing ‘can you recall ten facts in this way?’’’) and 

  • 응답 효율성 response efficacy (‘‘You just try and cram—try and get as many of those facts into your head just that you can pass the exam’’) considerations, 


다음에 영향을 미친다

generate an impact on the 

  • 인지프로세스 활동의 특성 nature of cognitive processing activities (CPA) (‘‘So then you just learn five facts rather than trying to understand the core concepts’’).




스케쥴링과 즉각성의 패턴

Pattern of scheduling and imminence (row SF2a, Table 2)


인지 프로세스 CPA Respondents adopted higher-order CPA when assessment was more distant, lower- order CPA as assessment became more imminent (cf. Quote 1).


노력 Effort While the pattern of scheduling of assessment had the beneficial effect of ensuring that respondents regularly allocated effort to learning, they adopted a periodic rather than a continuous pattern of study. In an effort to devote attention to other aspects of their lives, respondents devoted little or no effort to learning at the start of each module. Interests and imperatives other than learning were relegated to a back seat as assessment loomed, however, and learning effort escalated dramatically.


자원 Resources Concurrently, though, as assessment became more imminent, the range of resources respondents utilized shrank.


내용 Content Cue-seeking behavior and responsiveness to cues both typically intensified as assessment grew more imminent.


지속성 Persistence While regular, periodic assessment lead to exhaustion, imminent assessment helped motivate respondents to persist in allocating time and effort to learning despite growing fatigue.


학습량 

Prevailing workload (row SF2b, Table 2)


인지 프로세스 CPA Where workload was manageable, higher-order were adopted. Where work- CPA load was unmanageable, even respondents who preferred adopting higher-order CPA would utilize lower-order CPA.


노력 Effort The higher the prevailing workload, the greater the likelihood that effort would be allocated to studies rather than other aspects of respondents’ lives. More effort was also expended, distributed more evenly across the duration of the module.


자원 Resources A high workload inhibited the sourcing and utilization of resources other than those provided by lecturers. Only where resources provided by lecturers were considered inadequate did respondents source and utilize other resources, workload notwithstanding.


내용 Content Where workload was manageable, respondents studied content they considered relevant and material promoting understanding and clinical reasoning. Where workload was unmanageable, respondents focused on material more likely to ensure success in assessment, even if this selection conflicted with what they would have learned to satisfy longer-term clinical practice goals.


모니터링 Monitoring and adjustment While it ensured that respondents devoted appropriate amounts of effort to studying, a high workload could be accompanied by a disorganized rather than systematic approach to MRA.


CPA의 특성

Nature of CPA (column EF1, Table 2)


과제 유형 Task type Respondents inferred processing demands directly from the item type to be used or indirectly based on the complexity of the cognitive challenge posed (cf. Quotes 1, 11) and adjusted their CPA accordingly.


평가 기준 Assessment criteria Where respondents perceived marking to be inflexibly done according to a predetermined memorandum, they responded with rote memorization to try and ensure exact reproduction of responses.


접근가능한 학습자료 Nature of assessable material Where material was perceived to be understandable and logical, respondents adopted higher-order CPA. Where material was less understandable or where the level of detail required to understand the logic was too deep, respondents adopted superficial CPA.


교수자 Lecturers Lecturing using PowerPoint to present lists of facts rather than in a manner that helped respondents develop their understanding of a topic cued memorization as a learning response.


비밀 정보망 Student grapevine Peers identified certain modules as making higher-order cognitive demands, others as requiring only extensive memorization of material. Respondents geared their CPA accordingly.


자원의 선택

Choice of resources (column EF2b, Table 2)


시험 유형 Task type Assessment incorporating small projects resulted in respondents sourcing and utilizing resources they would not otherwise have used e.g., textbooks in the library, the internet generally and literature databases more specifically. However, apart from pro- moting the use of past papers as a resource, most other assessment tasks cued the utili- zation of less, rather than more, diverse resources.


기출 문제 Past papers The more any given lecturer utilized a particular question type or repeated questions from one assessment event to another, the more respondents utilized past papers to plan their learning and select material to learn.


교수자 Lecturers The resources lecturers provided or utilized were perceived to delineate what content was more likely to feature in assessment. Much planning effort was devoted to obtaining copies of PowerPoint slides used, or handouts provided, by lecturers. Some lecturers were perceived as being tied to a particular resource e.g., a prescribed textbook, which respondents then focused on. Equally, use was often not made of textbooks as other resources were perceived to be more appropriate for assessment purposes.


비밀 정보망 Student grapevine Cues obtained ahead of or early in the course of a module about the likely content of assessment influenced the resources respondents opted to use in prepa- ration for assessment (cf. Quote 13).



내용의 선택

Choice of content (column EF2c, Table 2)


시험 유형 Task type Respondents sought out material they perceived could be asked using any given task type and omitted information they perceived could not (cf. also Quotes 1, 11). Information about the overall extent of assessment, the number of marks devoted to each section of the work and the magnitude of questions also influenced choice of content. For example, if respondents knew there would be no question longer than 10 marks in an assessment, they omitted tracts of work they perceived could only be part of a longer question.


기출문제 Past papers were used to determine not only what topics but also what kind of material to study or omit (cf. also Quote 13).


강의 Lecturers Direct cues from lecturers included general comments in class like ‘‘this will (or won’t) be in the exam’’ and specific ‘‘spots’’ provided to students. Respondents attended to such cues even if they perceived the content identified as important to be irrelevant to later clinical practice.


비밀 정보망 Student grapevine Guidance about assessment from senior students and peers influenced respondents’ choice of content, even if they considered the material covered by the cues to be irrelevant to their longer-term goal of becoming a good clinician.


힌트가 없는 경우 Lack of cues Where respondents could not discern cues about what to expect in assessment, they typically tried to learn their work more comprehensively, but at the cost of increased anxiety.



Discussion


다른 결과 (Cilliers et al. 2010)와 함께 사전 평가 LESA가 무엇인지 설명 할뿐만 아니라 학생들이 평가와 함께하는 방식으로 상호 작용하는 이유를 설명하는 이론 모델을 제안하는 것이 가능 해졌다 (그림 1) . 이전에 평가와 학습의 연관성을 논의 할 때 자기조절이론이 시작되었다 (Ross 외 2006, 2003, Sundre and Kitsantas 2004, van Etten 외 1997). 자기조절이 실제로 역할을 수행하지만 더 넓은 틀의 일부임을 시사한다. 우리의 연구 결과는 Broekkamp and van Hout-Wolters (2007)가 제안한 모델의 일부 측면에 대한 경험적 지원을 제공한다.

Together with other findings (Cilliers et al. 2010) it has been possible to propose a theoretical model not only describing what the pre-assessment LESA are, but also explaining why students interact in the way that they do with assessment (Fig. 1). Self- regulation theory has previously been invoked when discussing the link between assess- ment and learning (Ross et al. 2006, 2003; Sundre and Kitsantas 2004; van Etten et al. 1997). Our findings suggest that self-regulation does indeed play a role, but that it is part of a broader framework. Our findings also lend empirical support to some aspects of the model proposed by Broekkamp and van Hout-Wolters (2007).


우리의 모델은 학습 행동의 결정 요인으로서 SA가 유일한 역할을 한다고 주장하지 않습니다. 대신 SA가 평가 이벤트 이전에 학습 행동에 어떻게 영향을 미치는지를 강조하고 다른 모델 (예 : Biggs 1978 그림 1, 267 쪽, Ramsden 2003 그림 5.1, 82 쪽)에서 평가와 학습을 연결하는 선을 채우는 방법을 강조합니다. 그러나 SA와 관련된 중대한 결과를 감안할 때 이 보고서에서 설명한 요소들이 전반적인 그림에서 중요한 역할을한다는 것은 거의 의심 할 여지가 없습니다.

Our model makes no claim for a solo role for SA as a determinant of learning behavior. Instead, it emphasizes how SA influences learning behavior prior to an assessment event and fleshes out the line linking assessment and learning in other models (e.g., Biggs 1978 fig. 1, p. 267; Ramsden 2003 fig. 5.1, p. 82). However, given the profound consequences associated with SA, there can be little doubt that the factors described in this report play a significant role in the overall picture.


평가를 사용하여 학습에 영향을 미치는 다른 시도들 (예, Gijbels et al. 2009, Heijne-Penninga et al. 2008)과 함께, 우리는 학습에 영향을 미치기 위해 평가를 수행하려는 사람들에게 우리의 연구를 주의적인 이야기로 본다. 이 보고서의 기초가되는 커리큘럼에서 학생들은 여러 이론 모듈을 동시에 연구하고 해당 연도의 네 가지 사전 결정된 시간에 여러 모듈에 대한 테스트를 작성했습니다. 이로 인해 바람직하지 않은 학습 패턴, 즉 2 또는 3 개월 동안 학습 노력이 거의 없었으며, 시험 전 2 주 동안 벼락치기 학습이 진행되었습니다. 현재 커리큘럼의 모듈 식 디자인은 부분적으로보다 지속적이고 효과적인 학습을 유도하기위한 시도였습니다. 그러나 학생들이 과거보다 더 자주 학습에 시간을 할당하는 동안 그 충격은 단순히 이전 교과 과정을 특징 짓는 것보다 짧은 binge-learning의 주기를 유도 한 것으로 보입니다.

Along with other reports of attempts to influence learning using assessment (e.g., Gijbels et al. 2009; Heijne-Penninga et al. 2008), we see our study as a cautionary tale to those who would wield assessment to influence learning. In the curriculum that preceded the one upon which this report is based, students studied multiple theoretical modules concurrently and wrote tests on multiple modules at four pre-determined times during the year. This resulted in what was considered an undesirable pattern of learning i.e., little learning effort for 2 or 3 months, followed by binge-learning for a couple of weeks prior to the tests. The modular design of the present curriculum was in part an attempt to induce more continuous and effective learning. However, while students do allocate time to learning more frequently than in the past, the impact appears to have been simply the induction of shorter cycles of binge-learning than had characterized the previous curriculum.











 2012 Mar;17(1):39-53. doi: 10.1007/s10459-011-9292-5. Epub 2011 Apr 3.

model of the pre-assessment learning effects of summative assessment in medical education.

Author information

1
Centre for Teaching and Learning, Stellenbosch University, Private Bag X1, Matieland, 7602, South Africa. fjc@sun.ac.za

Abstract

It has become axiomatic that assessment impacts powerfully on student learning. However, surprisingly little research has been published emanating from authentic higher education settings about the nature and mechanism of the pre-assessment learning effects of summative assessment. Less still emanates from health sciences education settings. This study explored the pre-assessmentlearning effects of summative assessment in theoretical modules by exploring the variables at play in a multifaceted assessment system and the relationships between them. Using a grounded theory strategy, in-depth interviews were conducted with individual medical students and analyzed qualitatively. Respondents' learning was influenced by task demands and system design. Assessment impacted on respondents' cognitive processing activities and metacognitive regulation activities. Individually, our findings confirm findings from other studies in disparate non-medical settings and identify some new factors at play in this setting. Taken together, findings from this study provide, for the first time, some insight into how a whole assessment system influences student learning over time in a medical education setting. The findings from this authentic and complex setting paint a nuanced picture of how intricate and multifaceted interactions between various factors in an assessment system interact to influence student learning. A model linking the sources, mechanism and consequences of the pre-assessment learning effects of summative assessment is proposed that could help enhance the use of summative assessment as a tool to augment learning.

PMID:
 
21461880
 
PMCID:
 
PMC3274672
 
DOI:
 
10.1007/s10459-011-9292-5


총괄평가가 학습에 영향을 미치는 메커니즘(Adv in Health Sci Educ, 2010)

The mechanism of impact of summative assessment on medical students’ learning (Adv in Health Sci Educ, 2010)

Francois J. Cilliers • Lambert W. Schuwirth • Hanelie J. Adendorff • Nicoline Herman • Cees P. van der Vleuten





Introduction


I think, as a result of assessment, I know much less than I otherwise would have. (6(V)F65)


It has become axiomatic to refer to the powerful impact of assessment on student learning. Terms like the ‘‘backwash effect’’ (Biggs 1996; Elton 1987, used in general educational literature) and the ‘‘washback effect’’ (Alderson and Wall 1993; Bailey 1996, used in language teaching and testing literature) of assessment, ‘‘consequential validity’’ (Boud 1995), ‘‘test-enhanced learning’’, the ‘‘testing effect’’ or the ‘‘testing phenomenon’’ (Glover 1989; Roediger and Karpicke 2006) and ‘‘test expectancy’’ (Lundeberg and Fox 1991) have been used in this regard.


The impact of assessment on student learning is generally held to be profound. Elton and Laurillard (1979) went so far as to state that ‘‘the quickest way to change student learning is to change the assessment system’’. Boud et al. (1999) state that ‘‘[a]ssessment is the single most powerful influence on learning in formal courses’’. If this is the case, then assessment may well be one of the most powerful tools we have at our disposal to influence student learning. However, even after a almost a century of research, efforts to positively influence learning through assessment do not always yield encouraging results (Gijbels et al. 2009).


Internal-to-programme summative assessment may well exert both a stronger and a more pervasive influence on learning than other assessment practices in higher education (HE), however. As Boud (1995) highlighted, students cannot escape the impact of summative assessment. Given the stakes, the design of such assessment is more typically informed by psychometric than learning considerations and so even if other aspects of assessment in a course have been designed to promote meaningful learning, the impact of summative assessment could trump beneficial effects achieved by other means. Furthermore, more students in HE probably encounter internal-to-programme summative assessment than external-to-programme standardised testing.


As for ‘‘learning’’, it is often not the only phenomenon that authors highlight when writing about the impact of assessment. In HE, the impact of assessment on not just learning but also on non-learning student behaviours intended to enhance marks e.g., ingratiating themselves with lecturers, on student stress and on students’ choice of courses has been highlighted by various authors (Becker et al. 1968; Miller and Parlett 1974; Snyder 1971). From the opposite perspective, assessment is typically identified as one of the contextual factors that impact on learning in models of learning (Biggs 1987; Ramsden 1984; Ross et al. 2003; Vermunt 1996).


There is some descriptive literature focussing on the ‘‘what’’ of the impact of internal-to-programme summative assessment on the process of student learning in HE as Maxwell (2004a: 4) puts it, ‘‘whether x caused y’’ (emphasis in original). In contrast, very little has been written explaining ‘‘how it did so’’ (Maxwell 2004a: 4, emphasis in original). As Bunge (2004: 199) noted, ‘‘any mechanism-free account must be taken to be shallow and therefore a challenge to uncover unknown mechanism(s)’’.


From a process theory perspective, this paper deals with ‘‘events and the processes that connect them’’ (Maxwell 2004b: 248) specifically in one distinctive, internal-to-programme, high-stakes assessment system; thus, the local mechanisms at play in a ‘‘complex network of events and processes in a situation’’ (Miles and Huberman 1994: 146; 147).


외적 동기부여

Extrinsic motivation


평가는 학생의 학습 노력의 양과 분포에 대한 외부의 동기와 영향을 제공합니다. 평가가 있다는 사실만으로도 학생들로 하여금 학습하도록 유도하고 따라서 학습에 소비되는 노력의 양에 영향을 미친다 (Miller and Parlett 1974; Snyder 1971; van Etten 외. 1997). 그러나 평가의 영향이 항상 긍정적 인 것은 아닙니다. 학생들이 점수를 얻기를 희망하지 않거나 뒤늦게 따라 잡을 수 없다고 생각해서 예를 들어 점수가 성공적으로 협상을 할 수 없다고 판단하면 학습을 중단 할 수 있습니다 (Becker 외 1968). 또한 외적 동기 부여에 대한 평가에 대한 반응이 모든 학생에게 균질하지도 않다.


Assessment provides extrinsic motivation and impacts on the amount and distribution of students’ learning efforts. The mere fact of assessment motivates students to learn and therefore influences the quantum of effort expended on learning (Miller and Parlett 1974; Snyder 1971; van Etten et al. 1997). The impact of assessment on effort is not necessarily always positive, however. If students perceive they are unable to successfully negotiate assessment, for example because their marks are so bad they cannot hope to achieve a pass or they are so far behind they believe they cannot catch up, this can result in them stopping learning (Becker et al. 1968). Nor is the response to assessment as extrinsic motivation uniform.


결과

Consequences


평가의 잠재적 결과는 또한 학생 학습에 영향을 미칩니다. 학생들은 배운 내용과 학습 된 내용을 이해하는 것보다 강사의 요구 사항을 충족시키기 위해 무엇을 어떻게 배우는지 적응합니다 (Becker et al., 1968; Ramsden 1984, 1992; Snyder 1971). 이것은 적어도 부분적으로는 그렇게하지 않는 위험이 크고, 자기 존중과 단기 및 장기간의 물질적 이익면에서 일치하는 상당한 보상 (Parlett 1969; Snyder 1971)이기 때문입니다. 주제가 평가에서 다루어질 가능성은 학생들이 학습할 내용을 선택하는데 영향을 미친다 (Becker 등 1968, Becker 등 1961, Miller and Parlett 1974, Snyder 1971, Vermunt 1996) Snyder (1971)가 언급 한 것 '선택적 무시'로 간주합니다. 또한 학생들이 학습 자료에 참여하는 데 철저하게 영향을 미칩니다 (Laurillard 1979, van Etten 외. 1997). 이것은 또한 학생이 선택하도록하는 과제 (Snyder 1971)와 학생들이 과제에 기울이는 노력의 양 (Becker 외 1968; Janssens 외 2002, Struyven et al 2005에 인용)에도 적용됩니다. 학생들이 학습 자료에 참여하는 철저한 방법은 주어진 과제에 대한 성과가 최종 성적을 계산하는 데 기여할 때 영향을받습니다 (Ramsden 1992, Snyder 1971). 구두 평가에서 무지하게 나타날 위험 같은 개인적인 결과 또한 학생들의 철저한 준비에 영향을주었습니다 (Joughin 2007).


The potential consequences of assessment also impact student learning. Students adapt both what and how they learn so as to meet the lecturers’ requirements as manifested in assessment rather than understand the material being learned (Becker et al. 1968; Ramsden 1984, 1992; Snyder 1971). This is at least in part because the risks of not doing so are great, the rewards for conforming, substantial, both in terms of self-esteem and in terms of short and longer term material benefits (Parlett 1969; Snyder 1971). The likelihood of subject matter featuring in assessment impacts on what content students select to learn (Becker et al. 1968; Becker et al. 1961; Miller and Parlett 1974; Snyder 1971; Vermunt 1996) or not—what Snyder (1971) referred to as ‘‘selective negligence’’. It also influences the thoroughness with which students engage with learning material (Laurillard 1979; van Etten et al. 1997). This also holds for assignments students choose to do or not (Snyder 1971) and the amount of effort students devote to tasks (Becker et al. 1968; Janssens et al. 2002, cited by Struyven et al. 2005). The thoroughness with which students engage with learning material is impacted by the contribution that performance on any given assign- ment will make towards the calculation of a final grade (Ramsden 1992; Snyder 1971). Personal consequences like the risk of appearing ignorant in an oral assessment also impacted how thoroughly students prepare (Joughin 2007).


바람직한 결과를 얻기 위하여

Achieving a desired outcome


주어진 학습 결과가 원하는 평가 결과를 가져올 가능성은 학생들의 행동에 영향을 미칩니다. 학생들이 공부하는 데 소비하는 시간은 학습자료의 양과 그것과는 독립적으로 학습자료의 난이도가 증가함에 따라 점차 증가한다 (van Etten et al. 1997). 학생들은 평가 과제의 요구에 가장 잘 대비 한 평가 준비를위한 자원과 활동을 선택합니다 (Frederiksen 1984; Newble and Jaeger 1983). 또한 학생들은 학습 결과를 평가 과제의 요구와 일치시켜 원하는 결과를 얻습니다 (Becker et al., 1968; Sambell and McDowell 1998).

The likelihood of any given learning behaviour bringing about a desired assessment outcome influences students’ actions. The amount of time students spend studying increases, up to a point, as the volume of material and, independent of that, the degree of difficulty of the material, to be studied, increases (van Etten et al. 1997). Students select resources and activities to prepare for assessment that best prepare themfor the demands of the assessment task (Frederiksen 1984; Newble and Jaeger 1983). Student also match the nature of their learning to the demands of the assessment task to achieve a desired outcome (Becker et al. 1968; Sambell and McDowell 1998).


학생들은 학습자가 원하는 결과를 평가 (Becker et al., 1968, 1961) 할 수 있도록 학습하기 위해 내용 선택을 안내하기 위해 신호기, 다른 학생 및 과거 논문을 찾고 심지어이를 끝내기 위해 속일 수 있습니다 (Becker et al., 1968). 많은 양의 작업으로 학생들은 원하는 결과를 얻으려는 목적으로 어떤 내용에 대해보다 선별 적으로 선택하고 낮은 수준의인지 처리 전술을 채택해야합니다 (Ramsden 1984; Snyder 1971; van Etten 외. 1997). 노력은 주어진 시간에 혜택이나 보상이 가장 유용하다고 여겨지는 곳을 기초로 코스에 할당됩니다 (Becker 외 1968)

Students seek cues from lecturers, other students and past papers to guide their selection of content to learn, in the interests of achieving their desired outcome with assessment (Becker et al. 1968, 1961), and may even cheat to achieve this end (Becker et al. 1968). High volumes of work drive students to be more selective about what content to engage with and to adopt low level cognitive processing tactics in the interests of achieving a desired outcome (Ramsden 1984; Snyder 1971; van Etten et al. 1997). Effort is allocated across courses based on where generating benefit or reward is deemed most useful at any given time (Becker et al. 1968).



목표

Goals


학생들의 목표는 평가에 대한 그들의 반응에 영향을 미칩니다. 학생들은 자신이 원하는 수준의 학업 성취도를 측정합니다 (Becker et al., 1968; Miller and Parlett 1974; van Etten 외. 1997). 학생들이 주제를 향상시킬 필요가 있는지 여부, 자료가 흥미로운 지 여부, 자료가 다루기가 쉽지 않은지 (예 : 이해하기가 불가능하지 않은지 여부) 및 과제가 주요 연구 영역에 있는지 여부 (van Etten et al., 1997). 흥미롭게도, 학생들이 인식하는 평가 요구를 충족시키기 위해 채택하는 학습 유형은 장기 목표에 따라 달라질 수 있습니다.

Students’ goals influence their response to assessment. Students gauge the magnitude oftheir efforts by what grade they aimto achieve (Becker et al. 1968; Miller and Parlett 1974;van Etten et al. 1997). Various factors influence the priority students accord reading assignments, including 

    • whether they need to improve in the subject, 

    • whether the material is interesting, whether the material is manageable (e.g., not impossible to understand) and 

    • whether the assignment is in their major area of study (van Etten et al. 1997). 

Interestingly,the type of learning students adopt to meet the perceived demands of assessment may be discordant with their long-term goals.


규범

Norms


평가에 대한 개별 반응은 동료 집단 내에서 사회적으로 구성되고 공유 된 기준 틀에 의해 조절 될 수있다 (Becker et al., 1968). 피어 그룹 내의 규범은 학생이 학습을 시작할 때 조절할 수 있으며, 그렇지 않으면 나중에 선택하기 시작합니다 (Thomson and Falchikov 1998).

Individual responses to assessment can be modulated by a socially constructed and shared frame of reference within a peer group (Becker et al. 1968). The norms within a peer group can modulate when a student starts learning, resulting in them starting later than they would otherwise have chosen to (Thomson and Falchikov 1998).


에이전시

Agency


학습에 대한 평가가 학습 성과에 영향을 미칠지에 대한 학생들의 신념은 학습 동기에 영향을 미칩니다 (van etten 외. 1997). 학생들이 학습을 시작할 때, 주어진 작업량을 고려할 때, 주어진 지각과 복잡성에 대한 대처 능력에 대한 그들의 인식에 영향을 받는다 (Snyder, 1971).

Students’ beliefs as to whether studying would influence their performance on assessments affects their motivation to learn (van Etten et al. 1997). When students start learning is influenced by their perception their ability to cope with a task of given magnitude and complexity, given the prevailing workload (Snyder 1971).


감정

Emotion


Fransson (1977)은 또한 학습에 대한 학생들의 접근 방식은 평가와 관련된 두 가지 요소 인 위협과 불안의 정도에 영향을 받음을 보고했습니다. 평가에 대한 걱정은 학습 노력 배분에 영향을 미치는 것으로보고되었다 (Miller and Parlett 1974).

Fransson (1977) also reported students’ approach to learning is impacted by the degree of threat and anxiety they experience, both factors associated with assessment. Worry about assessment has also been reported to influence allocation of effort to learning (Miller and Parlett 1974).


기존 문헌에서 두 가지 사실이 두드러진다. 첫 번째는 대부분이 연구가 학습에 대한 평가의 영향을 체계적으로 조사하도록 고안되지 않았기 때문입니다. 학습에 대한 평가의 영향에 대한 증거를 제공하는 것으로 종종 인용되는 다양한 연구가 있습니다. 그러나 이들 중 많은 것들이 생태 학적 타당성이 제한된 통제 된 환경에서 수행 된 실험적 작업이었다 (Lundeberg and Fox 1991). 또한, 이러한 많은 연구는 초등 학교를 포함한 학교 환경에서 실시되었으므로 HE 환경에서의 유용성을 더욱 제한하고 있습니다.

Two things about this literature are striking. The first is that, for the most part, these studies were not designed to systematically investigate the impact of assessment on learning. There are various studies that are often cited as providing evidence of the impact of assessment on learning. However, many of these were experi- mental work conducted in controlled settings with limited ecological validity (Lundeberg and Fox 1991). Furthermore, many of these studies were conducted in school settings, including elementary schools, further limiting their usefulness in HE settings.


이 문헌에 두드러진 두 번째 점은 이론적 틀 내에서 평가의 영향을 설명하기위한 제한된 시도 만이 이루어 졌다는 점입니다.

The second thing that is striking about this literature is that only limited attempts have been made to explain the impact of assessment within a theoretical framework.





방법

Methods


맥락

Context


This study was conducted at the Faculty of Health Sciences of Stellenbosch University in South Africa. Medical students there follow a 6 year, modular program.


대상 및 윤리

Subjects and ethics


Thirty-two students volunteered for interviews.


Some characteristics of respondents are summarized in Table 1.


자료 수집 및 분석

Data collection and analysis


In-depth, unstructured interviews (Charmaz 2006; DiCicco-Bloom and Crabtree 2006; Kvale 1996) were conducted with individual students, each lasting approximately 90 min. In keeping with the inductive nature of the study, no formal interview schedule was used. Interviews were loosely constructed around exploring three issues: how respondents learned, what assessment they had experienced and how assessment had impacted on their learning. Open-ended questions were used and statements respondents made were probed to clarify meaning, obtain additional detail and ascertain what assumptions underlie them. For example, vague statements like ‘‘I learn differently for long questions and multiple choice questions’’ were probed for detail about what respondents did differently in the two situations and why they did so.


Although the interviews were conducted at one point in time, students’ experience of different assessment methods and how they learned in varying contexts across all of their years of study were explored, compared and contrasted during interviews, though typically not chronologically. This revealed qualitative and quantitative differences and changes in respondents’ learning across varying assessment contexts and time. Each interview was


allowed to develop its own direction within the broad three-topic framework, so as to allow in-depth exploration of each respondent’s experiences and conceptions of the relationships being studied. Given that data collection proceeded in tandemwith, and was later informed by, data analysis, as analysis proceeded, emerging constructs were also discussed with respondents to confirminterpretation and explored in greater depth in subsequent interviews.


All interviews were conducted by the same investigator, an educational adviser involved in curriculum development in the faculty with little direct student interaction, but much interaction with lecturers. All interviews were conducted in a setting suggested by respondents. Interviews were conducted in either English or Afrikaans, according to respondents’ preference. Care was taken to alert respondents to the fact that their personal accounts were of interest, so that they recounted their own experiences and views rather than what they may have perceived the interviewer to want to hear. Several respondents had to be encouraged to relate their personal experiences and approaches ‘‘warts and all’’, rather than their sanitized impressions of how they thought they should be learning or of how they perceived the nebulous ‘‘they’’ (i.e., other students) to approach learning and assessment. Despite being given an undertaking regarding the confidentiality of data at the start of each interview, several respondents also had to be reassured during their interview about the confidentiality of their comments, before they proceeded to share information they perceived could elicit unfavourable responses from the lecturers concerned. That said, almost all interviews ‘‘caught fire’’ and had to be carefully kept on track as respondents enthusiastically discussed the topic at hand.


All interviews were audio recorded and transcribed verbatim, to ultimately generate almost 1,000 pages of transcripts. Data analysis commenced even as data collection pro- ceeded. Before progressing to more detailed analysis, field notes were reviewed and each transcript was read to obtain a global impression of how assessment impacts on student learning. Initial open coding was then undertaken by one of us (FC). As data collection and analysis progressed, codes were developed, refined and revised in an iterative process (Charmaz 2006; Dey 1993; Miles and Huberman 1994). Ongoing data collection, com- parisons of codes within and between interviews and discussions between team members served to confirm and clarify codes. Clustering and partitioning of codes led to the emergence of categories as data analysis progressed, which categories were also iteratively refined, revised, discussed and ultimately related to one another.


As analysis progressed and relationships between constructs became more established, it became evident that various dimensions of motivation and emotion featured prominently when exploring the link between assessment and learning. Focussed coding of the existing dataset at that point was undertaken. However, while confirming a role for motivation and emotion, this proved to be an inadequate explanatory framework. In many instances, it was simply not possible to label a mechanism by which assessment exerted an influence on learning using this framework. Despite extensive efforts re-appraising existing data and exploring constructs in subsequent interviews, no further useful constructs could be dis- cerned. In fact, nothing new emerged during data collection subsequent to interview fourteen, despite the individualized nature of each interview and adaptations that were made on the basis of preliminary data analysis. Analysis stalled at this point, it being apparent that a framework was needed that transcended motivation and emotion.


결과

Results


Respondents’ learning behaviour was influenced by appraising the impact of assessment, appraising their learning response, by their perceptions of agency and by contextual factors (Fig. 1).


영향력에 대한 판단

Appraisal of impact


응답자는 평가의 영향과 관련하여 두 가지 요인, 즉 발생할 가능성이 얼마나 될지와 결과의 크기가 어느 정도인지를 고려했습니다.

Respondents considered two factors relating to the impact of assessment: how likely consequences were to accrue and what the magnitude of consequences was likely to be.


Likelihood of impact


Magnitude of impact


반응에 대한 판단

Appraisal of response


평가를 심사숙고 할 때 응답자는 특정 결과, 응답의 비용 및 응답자의 개인 목표 및 성공과 건강에 대한 개념에 대해 측정 한 응답의 가치를 달성 할 때 주어진 학습 반응의 효용성을 다양하게 고려했습니다. 평가에 대한 학습 반응은 일반적으로 고립되어 고려되지 않았으며 응답자의 삶의 다른 차원에 대한 요구와 관심과 균형을 이루었습니다.

When contemplating assessment, respondents variously considered the efficacy of any given learning response in achieving a particular outcome, the costs of that response and the value of that response as measured against the respondent’s personal goals and their conceptions of success and wellness. The learning response to assessment was typically not considered in isolation, but rather balanced against demands from and interests in other dimensions of respondents’ lives.


Response efficacy


Response costs


Value attached to expected outcome


자기효능감에 대한 인식

Perceived self-efficacy


자기 효능감은 역경에도 불구하고 상황에 대해 어느 정도 통제력을 발휘할 수 있다는 인식과 관련이 있습니다. 응답자들은 주어진 시간대에 학업 적으로 성취 할 수있는 것을 시간이 지남에 따라 개발하고 평가 될 때 미리 정해진 목표를 달성하기위한 학습 노력의 규모, 분포 및 성격을 조정할 수 있다고보고했습니다 (인용 4, 6).

A sense of self-efficacy has to do with the perception of being able to exert some control over a situation, even in the face of adversity. Respondents reported developing a sense over time of what they were able to achieve academically in any given time frame, and being able to calibrate the magnitude, distribution and nature of their learning efforts to achieve their predetermined goals when being assessed (cf. Quotes 4, 6).


맥락적 요인

Contextual factors


응답자의 맥락에서 가장 중요한 맥락 적 요인은 다양한 referent이었다. Referent은 개인의 가치관이 의도와 행동에 영향을 미치는 데 중요한 역할을하는 사람들입니다. 그들은 동기 부여가된다면 개인이 자신의 행동을 조정할 수있는 규범 적 신념을 제공합니다. 응답자의 경우 주요 referent 그룹은 강사 및 기타 학생들이었습니다. 강사는 직접적으로나 간접적으로 referent이되었다. 학생들은 응답자의 동료와 이전에 특정 학습 연도를 성공적으로 협상 한 학생을 모두 포함시킬 수 있습니다. 일부 응답자는 밀러와 파렛 (Miller and Parlett, 1974)이 기술 한 것과 같이 큐 레이서 (cue seeker)라는 범주에 속하게되었습니다. 다른 사람들은 큐 의식이 있었고 더 많이 그들이 자신이 있다고 느끼는 문제의 정도가 커졌습니다.


The most important contextual factors in respondents’ context were various referents. Referents, people whose opinion an individual values, play an important role in influencing intent and behaviour. They provide normative beliefs against which an individual can calibrate their behaviour, if so motivated. For respondents, two key groups of referents were lecturers and other students. Lecturers served as referents both directly and indirectly. Students could include both peers of the respondent and students who previously success- fully negotiated the particular year of study. Some respondents clearly fell in the category of cue seekers as described by Miller and Parlett (1974). Others were cue conscious and became more so the greater the degree of trouble they perceived themselves to be in.


Normative beliefs


Motivation to comply with normative beliefs


Negative cases




고찰

Discussion


이 연구에서 설명한 요인들이 개입의 단순한 목표가 되지 못합니다. 주어진 시간에 주어진 모든 학생에 대해 이러한 요인들이 모두 작용하는 것은 아니며, 시간 및 상황에 따라 주어진 학생의 일정한 요소에 대한 요인도 아닙니다. 두 학생의 동일한 요소가 작용한다고하더라도, 그 영향의 강도는 개인적 또는 다른 상황에 따라 달라질 수 있습니다. 이것은 "현상의 사회적 및 문화적 맥락이 인과 적 메커니즘의 작동을 이해하는데 결정적이다"(Maxwell 2004a : 6)는 것을 강조한다. Gebhardt와 Maes (2001)가 건강 행동의 맥락에서주의하는 것처럼, 모든 행동이 행동을 유도하는 요인들에 대한 고려 된 반응의 결과 인 것은 아니다. 따라서 학습에 영향을 미치기 위해 평가가 조작되면 학생은 처음에는 고의적 인 변화를 고려하기 위한 노력을하기보다는 확립 된 행동 패턴을 취할 수 있습니다. 이것은 신중하게 설계된 평가 개입의 바람직한 영향력 부족을 설명하는 부분적 방법이 될 수 있습니다.

The factors described in this study do not form a simple target for intervention. Not all of these factors are in play for any given student at any given time, nor are the factors in play for any given student constant across time and context. Even if the same factors are in play for two students, the intensity of that impact may vary based on personal or other contextual influences individual to each. This serves to underline that ‘‘the social and cultural contexts of the phenomenon studied are crucial for understanding the operation of causal mechanisms’’ (Maxwell 2004a: 6). To complicate matters even further, as Gebhardt and Maes (2001) caution in the context of health behaviour, not all behaviour is the result of a considered response to the factors inducing the behaviour. Hence, when assessment is manipulated to influence learning, students may initially act out established patterns of behaviour rather than making the effort to make considered, deliberate changes. This might go part way to explaining the lack of desirable impact of thoughtfully designed assessment interventions.


또한 평가는 전형적으로 학생들이 반응하는 단일한 동질적 존재가 아니라는 점을 강조합니다. 각 모듈 또는 코스는 종종 다른 학생들과 동기화 된 방식보다는 독립적으로 학생들의 요구를합니다. 궁극적으로 가능한 한 많은 학생들을 대상으로 여러 차원의 학습에 영향을 미치기 위해서는 개별 평가 이벤트를 조정하는 것보다 평가 시스템 즉, 평가 시스템을 다룰 필요가 있습니다. 그러나 이러한 복잡성을 고려하지 않으면 평가를 통한 학습에 긍정적 인 영향을 미치는 노력이 실패하게됩니다.

It also bears emphasising that assessment is typically not a single, homogeneous entity to which students respond. Each module or course makes its own demands of students, often independently of rather than in synchronised fashion with others. Ultimately, to have an impact on as many dimensions of learning of as many students as possible, it will be necessary to manipulate multiple dimensions of assessment i.e., assessment systems, rather than tweak individual assessment events. Yet not taking this complexity into account will result in failed efforts to positively influence learning using assessment.


학습에 영향을 미치기 위한 평가는 결과를 보여야하며, 학생들의 표식과 진행에 대한 결과 또는 다른 요인들, 예를 들면 프로젝트 발표 나 동료 평가 또는 대행 감각의 경우 동료 학생의 눈에 띄는 존중 피드백의 경우처럼

Assessment that is intended to impact learning should have consequences, be those consequences on students’ marks and progression or on other factors e.g., their esteem in the eyes of fellow students as may be the case with project presentations or peer assessment or their sense of agency as may be the case with feedback.


어떤 평가 활동의 영향도는 아마도 그것과 관련된 결과의 심각성의 정도와 강하게 상관 될 것이다. 학생의 학년 중 10 %를 기여하는 독창적 인 과제에 대한 피드백을 도입하면인지 적 과제의 수준을 리콜에서 문제 해결로 변경하는 것보다 덜 성공적인 개입이 될 가능성이 높습니다. 객관식 평가에서 50 % 학생의 학년 중.

The degree of impact of any assessment activity will probably be strongly correlated with the magnitude of the severity of consequences associated with it. Introducing feed- back on a one-of-a-kind assignment contributing 10% of a student’s grade is likely to be a less successful intervention than changing the level of cognitive challenge from recall to problem-solving in a multiple choice assessment contributing 50% of a student’s grade.


평가는 학생들이 학습 반응의 효능을 평가할 때 평가가 학계에서 그들이 배워야한다고 생각하는 방식으로 학습하도록 유도해야합니다. 분명히 Newble and Jaeger (1983)와 Frederiksen (1984)은 이러한 변화를 가져올 수있었습니다. 이론 모듈에서는 길고 짧은 질문 유형의 혼합 백을 사용하면 학생들이 학습 내용과 학습 방법 측면에서 학습 자료와 다르게 참여해야합니다. 그들은 물어볼 질문의 길이 나 유형에 따라 단순히 일을 생략 할 수 없습니다. 평가 당 한 번 더 긴 질문 (예 : 20 점)을 짧은 질문과 섞으면 학생들의 학습에서 질적 인 차이가 발생합니다. 분명히, 그런 디자인은 심리 측정 적 및 정치적 고려 사항을 포함하여 다양한 다른 것에 대해서 또한 무게를 달아야 할 것이다 (van der Vleuten 1996).

Assessment should be designed in such a way that when students make their appraisal of the efficacy of their learning response, that appraisal leads them to learn in ways we as academics believe they should be learning. Evidently, Newble and Jaeger (1983) and Frederiksen (1984) were able to bring about just such changes. In theory modules, using a mixed bag of longer and shorter questions types would force students to engage differently with learning material, both in terms of what they learn and in terms of how they learn. They would be unable to simply leave out work based on the length or type of questions to be asked. Having one longer (e.g., 20 mark) question per assessment mixed with shorter questions should lead to qualitative differences in students learning. Clearly, such a design would also have to be weighed against various other, including psychometric and prag- matic, considerations (van der Vleuten 1996).


주어진 학습 반응에 대한 학생들의 비용은 너무 높아서는 안됩니다. 평가 시스템의 요구가 너무 부담 스럽기 때문에 비용 편익 분석을 통해 학생들은 지름길을 찾을 수 있습니다. 여기서 평가를위한 포트폴리오의 도입을 생각합니다. 이것은 건전한 교육 근거를 기반으로하지만 학습에 항상 유익한 영향을 미치지는 않습니다 (Driessen 외. 2007).

The costs to students of any given learning response should not be too high. Where the demands of an assessment system become too onerous, the cost-benefit analysis will lead students to find short cuts. One thinks here of the introduction of portfolios for assessment. This is based on sound educational grounds, but does not always lead to a salubrious impact on learning (Driessen et al. 2007).


마찬가지로, 학생들이 알 수 없거나 복잡하거나, 너무 복잡한 자료 (van Etten 외 1997)에 기반하거나, 학술 모듈 내에서 제한된 시간 내에 의미있게 참여하기에는 너무 방대하다면, 학생 학습에 긍정적 인 영향을 미치지 않을 것입니다.

Equally, assessment tasks that challenge students’ sense of agency by virtue of being unknown or complex, or based on material too complex (van Etten et al. 1997) or too voluminous to engage with meaningfully in the limited time available within an academic module, will be unlikely to have a positive impact on student learning.


마지막으로, 모듈 및 / 또는 강사 주위에 소용돌이 치는 평가에 대한 '신화 및 전설'의 영향은 시야에서 사라져서는 안됩니다. 과거 세대의 학생들에게서 다음 세대의 학생들에게 과거의 시험 서류가 전달되지 않는 대학은 실제로는 드물다. 이들은 많은 학생의 학습을 알리는 내용 및 스타일 분석의 기초를 형성합니다. 따라서, 그들은 그림자에서 벗어나 평가 시스템에 공개적으로 통합되어야합니다.

Finally, the impact of the ‘‘myths and legends’’ about assessment that swirl around a module and/or a lecturer should not be lost from sight. The university where no volumes of past examination papers are passed from one generation of students to the next is likely a rare place indeed. These form the basis of analyses of content and style that inform the learning of many a student. As such, they should be brought out of the shadows and incorporated openly into the assessment system.


또한이 모델은 총괄평가의 맥락을 넘어서는 유용 할 것으로 기대된다. 피드백을 사용하는 수수께끼 중 하나는 잠재적으로 학생 학습에 강력한 영향을 미치는 것으로 밝혀졌지만 (Black and Wiliam1998), 종종 학생들이 놓치거나 잘못 이해하게됩니다 (예를 들어 Gibbs and Simpson 2004 참조). 피드백에 대한 연구 결과의 일부에 영향 평가 및 반응 평가 렌즈를 적용하면 이러한 현상을 밝힐 수 있다고 추측하는 것은 유혹스러운 일입니다. 이 연구에서 강사의 피드백이 학습에 영향을 미치는 요인으로 작용하지 않았다는 점은 흥미 롭습니다.

It is also anticipated that this model might be useful beyond the context of summative assessment. One of the conundrums with using feedback is that whilst it has been found to potentially have a powerful impact on student learning (Black and Wiliam1998), it is often missed or misunderstood by students (see Gibbs and Simpson 2004 for examples). It is tempting to speculate that applying the lens of impact appraisal and response appraisal to some of the findings of research on feedback could shed some light on these phenomena. It is interesting to note that feedback from lecturers did not feature as a factor influencing learning in this study.


램스 덴 (Ramsden, 1992)은 다음과 같이 지적했다. "부적절한 평가 방법은 학생들에게 잘못된 학습 접근법을 강요하는 불가항력적인 압력을 부과한다." 평가가 학생 학습에 미치는 영향에 대해 더 잘 이해하면 의미있는 학생 학습을 유도하고 이러한 상황을 개선하기 위해 평가를 더 잘 활용하는 방법을 모색하는 것이 가능할 것으로 기대됩니다. 평가가보다 효과적으로 활용되도록하는 중요한 링크에는 학생들을 평가하는 학계와 학계가 책임 져야하는 요구 - 평가 - 관련 및 기타 사항의 혼합을 점점 더 결정하는 관리자가 포함됩니다. 더 큰 학문적 기계에서 이러한 톱니 바퀴를 이해하면 앞으로 수십 년 동안 학습에 대한 평가의 비통 한 영향을 아직도 애도하지 않고 있음을 확인할 수 있습니다.

As Ramsden (1992) pointed out: ‘‘Unsuitable assessment methods impose irresistible pressures on a student to take the wrong approaches to learning tasks’’. With a better understanding of how assessment impacts on student learning, it will hopefully be possible to start exploring how assessment can be better utilized to bring about meaningful student learning and remedy this situation. Crucial links in ensuring that assessment is utilized more effectively will include the academics who assess students, and administrators who increasingly decide on the mix of demands—assessment-related and otherwise—to which academics should be answerable. Understanding these cogs in the greater academic machine will hopefully ensure that we are not still lamenting the deplorable impact of assessment on learning some decades hence.









 2010 Dec;15(5):695-715. doi: 10.1007/s10459-010-9232-9. Epub 2010 May 9.

The mechanism of impact of summative assessment on medical students' learning.

Author information

1
Stellenbosch University, Stellenbosch, Western Cape, South Africa. fjc@sun.ac.za

Abstract

It has become axiomatic that assessment impacts powerfully on student learning, but there is a surprising dearth of research on how. This study explored the mechanism of impact of summative assessment on the process of learning of theory in higher education. Individual, in-depth interviews were conducted with medical students and analyzed qualitatively. The impact of assessment on learning was mediated through various determinants of action. Respondents' learning behaviour was influenced by: appraising the impact of assessment; appraising their learning response; their perceptions of agency; and contextual factors. This study adds to scant extant evidence and proposes a mechanism to explain this impact. It should help enhance the use of assessment as a tool to augment learning.

PMID:
 
20455078
 
PMCID:
 
PMC2995206
 
DOI:
 
10.1007/s10459-010-9232-9


교육평가에서 새로운 심리측정 모델을 위한 항변(Med Educ, 2006)

A plea for new psychometric models in educational assessment

Lambert W T Schuwirth & Cees P M van der Vleuten




도입

INTRODUCTION


특히 평가에서의 현재의 발전에 비추어 볼 때, 우리는 엄격한 심리측정 모델이 더 이상 지속 가능하지 않다고 생각하며 통계 개념 및 평가 접근법의 주요 개정에 대한 항변을 하고 싶습니다.

Particularly in the light of current developments in assessment, we think that the strict psychometric model is no longer sustaina- ble and we would like to make a plea for a major revision of the statistical concepts and approaches to assessment.


오랫동안 의학적 역량에 대한 지배적인 이론에서는 역량을 잠재된 형질이나 구인으로 접근하였다. 이 모델에서 구인은 서로 "독립적으로 측정 할 수있는 일반적이고 안정적이며 균질한 특성"이다.

For a long time, the dominant theoretical approach to medical competence has been that of latent traits or constructs. In this model, constructs are used as generic, stable and homogenous characteristics, which can be measured independently of each other.


의료역량에서 가장 유명한 모델은 지식, 기술, 문제 해결 능력 및 태도였다. 이 모델은 1980 년대 초에 폐기되었지만 여전히 일상적으로 일상 언어로 사용되고 있다1

In medical com- petence the most popular model was that of know- ledge, skills, problem-solving ability and attitudes. Although this model was abandoned in the early 1980s, it is still used in our everyday language.1


위에서 언급했듯이, 모델은 기본적으로 최소한 측정 기간 동안에는 측정 대상 (구조물)이 안정하다는 것을 전제로 한다. 따라서 central trait로부터의 모든 관찰의 deviation은 자동으로 오류로 간주된다. 


예컨대, 자녀 2 명과 함께 소아과 의사를 방문한다고 가정 해보십시오. 첫 번째 자녀는 잘 치료하지 못해 사망하였지만, 두 번째 자녀는 완전히 잘 치료받아 회복됩니다. 이 때 이 성적을 평균적으로 수용가능하다고 말할 수 있습니까? 그렇지 않을 것이다. 그러나 현재의 통계 모델은 우리에게 그렇다라는 대답을 강요한다. 통계 모델은  이소아과 의사가 평균적으로는 합리적인 의료를 수행했으며, 이 평균치에서 벗어난 편차는 측정 오류라고 제안한다.


As we stated above, innate to the model isthe premise that the object of measurement (the construct) is stable, at least during the time of measurement. A corollary of this is that any deviationin observations from this hypothesised central trait must automatically be treated as error. 


An illustrationmay clarify what we mean here. Suppose you visit a paediatrician with your 2 children. He performs poorly in 1 case, leading to the death of your first child, and extremely well in the other, leading to thecomplete recovery of your second child. Would you  then say that on average his performance was acceptable? We would not. Yet the statistical model to describe, measure and predict this performance forces us to do so. The statistical model in fact suggests that on average the paediatrician performed reasonably and that the deviation fromthis average is measurement error.


실제 세계를 기술하고 예측하는 데 사용되는 모델은 종종 우리가 관찰 된 분산의 대부분을 오차 분산으로 버리도록 강요합니다.

the model used to describe and predict the real world often forces us to throw away most of the observed variance as error variance.


또 다른 희생은 정보의 낭비이다. 100 개 항목의 객관식 테스트에도 상당한 정보가 포함되어 있습니다. 그것은 학생들에게 어떤 대답을했는지 그리고 어떤 대답을하지 않았는지를 알려주지 만, 어떤 비틀 거리기가 선택되었고 어떤 오해가있을 수 있는지 알려줍니다. 그러나 단일 점수를 얻기 위해서는 이 모든 측정 정보가 버려져야합니다. 심지어 이것은 0 %와 100 % 사이에서 학생이 득점 한 위치를 알려주는 점에서 다소 유익합니다. 심지어 더 많은 측정 정보를 폐기함으로써 합격 / 불합격 결정을 내린다.

Another sacrifice concerns the waste of information. Even a 100-item, multiple-choice test contains con- siderable information. It tells you not only which answers the student knew and which he or she did not, but it tells you also which distractors were chosen and which possible misconceptions may exist. In our model, all this measurement informa- tion has to be thrown away to arrive at a single (percentage) score. Even this is still somewhat informative, in that it does tell us whereabout between 0% and 100% the student scored. But this is then dichotomised into a pass ⁄ fail decision by the throwing away of even more measurement information.


신뢰성의 본래적 의미는 테스트 점수가 우주 점수를 나타내는 정도이다

Reliability according to its original meaning indicates the extent to which the test score is a representation of the universe score


신뢰도 추정에는 흔히 항목 간 상관관계와 같은 내적 일관성이 사용된다. 사실, 이 때 시험(테스트)는 가능한 한 많은 부분으로 분할된다. 그리고 테스트의 모든 항목은 테스트의 다른 항목과 더 잘 연관 될수록 우리는 우주 점수의 표현이 더 낫다고 가정합니다.

Popular estimates of reliability are based on internal consistency, such as the use of inter-item correlations. In fact, this involves splitting up the test into as many parts as possible. This means that the better every item correlates with any other given item in the test, the better we assume the representation of the universe score is.


지금까지 접근법은 (논리적으로 보일지 모르지만) 우주의 동질성을 전제로하고있다.

Thus far the approach may appear logical, but it is firmly based on the assumption of homogeneity of the universe.


그러나 우리는 우주가 동질적이지 않다는 것을 이미 알고 있습니다. 영역 특이성은 1970 년대 후반에 처음 언급되었다 .2 그래서 신뢰성은 우리가 내용의 타당성보다 우주에 대해 다른 가정을하도록 강요한다. 서로 반대되는 가정이 동시에 발생할 수 있다는 것은 논리적 인 것처럼 보이지 않습니다. 이 문제는 새로운 것이 아니며 타당성과 신뢰성 사이의 고전적 역설로 이미 알려져 있습니다. 그러나 이것은 이론의 진정한 모순이자 근본적인 약점입니다.

Yet, we already know that the universe is not homogenous; domain specificity was first mentioned in the late 1970s.2 So reliability forces us to make other assumptions about the universe than content validity. It does not seem logical to us that both opposing assumptions can betrue at the same time. This problemis not new and itis already known as the classical paradox between validity and reliability. But in our opinion it is a true contradiction and an essential weakness of the theory.


이러한 모순은 종종 테스트 설계 및 품질 보증에있어서 특이한 행동을 하게 만든다. 한 가지 예는 문항분석을 사용하여 테스트의 품질을 최적화하는 것입니다. 많은 기관에서는 문항통계에 따라 테스트에서 불량한 통계를 보여주는 문항을 자동으로 제거합니다. 그러나 이 문항들이 relevant하고, 정확하게 표현되고, 코스 목표의 일부로 올바르게 교육되고 있으며, 적절한 내용을 포함한다면 어떻게 될까요? 이렇게 문항을 제거하면 의심 할 여지없이 문항통계와 Cronbach's 알파는 나아질 것이지만, 표본에서 타당한 요소가 삭제되고, 샘플 크기가 줄어들고, 유니버스 표현이 불량 해집니다. 오히려 이 경우에 올바른 결론은 이 항목을 시험에 포함시키는 것이며, 그 이유는 우주가 원래 가정 된 것보다 더 변종 적이기 때문이다..

This contradiction often leads to peculiar actions in test design and quality assurance. One example is in using item analyses to optimise the quality of a test. Many institutes automatically eliminate items that have poor item statistics from a test, according to the itemstatistics. But what if, after careful scrutiny, these items were found to be relevant, correctly phrased, part of the objectives of the course, taught correctly and had content beyond doubt? In such cases eliminating the items would undoubtedly lead to better item statistics and even a better Cronbach’s alpha, but valid elements of the sample would be deleted, the sample size decreased and the universe representation would become poorer. In our opinion the correct conclusion in such a case must be that more of such items must be included in the test rather than fewer, simply because the universe was found to be more variant than originally assumed.


Outlier를 제거하거나 합의를 위한 전문가 패널의 회의(예 : 표준 설정 절차)에서도 유사한 문제가 발생할 수 있습니다. 이것은 아마도 새로운 것은 아니지만 사실 마이크로 수준에서 도메인 특이성을 가지고하는 것입니다. 우리는 우주가 동질성이라는 가정에서 출발하기 때문에 관측자 들간의 차이를 오류로 기각합니다. 그러나 사실 더 논리적인 결론은 우주가 더 변종적이라는 것입니다. 우리는 포트폴리오 및 다중 소스 피드백과 같은 현재 널리 사용되고있는 평가 방법에 동일한 원칙을 적용하는 경향이 있습니다. 우리는 모든 평가자를 동일하게 만들기 위해 평가자 훈련을 연장하는 경향이 있습니다. 우리는 심사관 역할에서 이상치를 제거 할 수도 있습니다. 즉, 우리는 피평가자가 완전히 훈련되지 않은 다양하고 혼란스러운 상황에서 일할 준비가되었는지를 평가하기 위해, 동질성을 확립하는 것을 목표로하는 수렴적 전략을 사용합니다.

A similar problem may arise in expert panels – for example in standard-setting procedures – in the process of eliminating outliers or holding consensus meetings. This is probably not new, but it is in fact what we do with domain-specificity at the micro level. We dismiss variance between observers as error because we start from the assumption that the universe is homogenous, where in fact the more logical conclusion would have been that the universe is more variant. We have a tendency to apply the same principle to currently popular assessment methods, such as portfolios and multi-source feedback. We tend to extend the training of examiners to make sure all examiners are the same. We may even eliminate outliers from the examiner role. Thus, we use a convergent strategy aimed at establishing homogeneity to assess whether a candidate is ready to work in a completely untrained, diverse and some- what chaotic context.




학생과 평가자 모두가 동일한 제약상황에서 구체적인 처방을 받아 수행하는 것보다, 더 중요한 것은 다양한 평가자에게 적응할 수있는 유연성이다. 따라서 테스트에서 항목의 분산 및 상호 작용의 분산을 없애고 최적화하는 데 노력해야합니다.

It is the flexibility to adapt to different examiners that is more important than the ability to perform in a certain prescribed strat- egy, to which both students and examiners are trained to the same confinement. In tests we should therefore not strive to eliminate item variance and interaction variance but to optimise it.



통계적 접근법을 적용하기 위해 충족되어야하는 또 다른 기본 가정은 해당 항목의 국소적 독립성local independency입니다. 지역 독립성은 2 개 문항간에 자연적 상관 관계가 없어야 함을 의미합니다. 체크리스트의 항목이 유사한 기술에 속하거나, 이전 항목의 결과로 평가 대상이 변경된 경우가 여기에 해당 될 수 있습니다.

Another basic assumption that must be met to apply our statistical approaches is local independency of the items. Local independency means that there should be no natural correlation between 2 items. This could be the case if items in a checklist belong to a similar skill or when the object of the assessment changes as a result of the previous item.



심장 질환 2 개, 심근 경색 2 개, 흉통 2 개는 어떨까요? 영역 특이성은 일반적으로 예측할 수 없지만 개인 수준에서는 국소적 독립성의 존재 또는 부재를 가정 할 수 없다는 것이 너무 불확실합니다. 그러나 우리는 일상적으로 어떤 것들을 객관적으로 독립적으로 취급하기도 하고(객관식 검사의 항목), 다른 것들(객관적 구조화 임상 검사 체크리스트의 항목)은 그렇지 않기도 한다. 또한 국소적 독립성은 포트폴리오, 진행 테스트 및 작업장 평가와 같은 종단 적 평가 접근법에서 어려운 가정입니다. 이러한 접근법에서 이미 관측의 국소적 의존성은 그 방법에 자체에 내재되어있다. 그것은 피할 수 없으며 피할 수도 없습니다. 그것은 실제로 극대화되어야하는 의도 된 교육 효과입니다.

But what about 2 items on cardiac disease, 2 items on myocardial infarction or 2 items about chest pain? Domain specificity is very unpredictable in general, but at the individual level it is so uncertain that we cannot assume the presence or absence of local independ- ency. Yet we routinely treat certain things as locally independent (items in a multiple-choice test) and others not (items in an objective structured clinical examination checklist). In addition, local independ- ency is a difficult assumption in longitudinal assess- ment approaches, such as portfolio, progress testing and workplace assessment. In these approaches local dependency of observation is inherent to the method. It cannot and should not be avoided. It is the intended educational effect, which should actually be maximised.3


특성 접근법trait approach는 무언가를 측정한다는 것은 일정한 안정된 특성을 지칭한다는 개념에 기초한다. 특정 테스트가 의미를 갖기 위해서는 많은 항목에 대해 점수를 합산해야합니다. 이것은 거의 항상 문항 간의 무한한 상호보완가능성을 의미합니다. 성격검사에서는 이러한 접근법이 수용가능할 것이다.

The trait approach is based on the notion that the measurement refers to a certain stable trait. in order for a certain test to make sense, we need to sum the scores on the many items. This nearly always implies an unlimited compensation between items. In the personality inventories from which our test statistics are derived, this is acceptable.


예를 들어 MMPI (Minnesota Multiphasic Personality Inventory)와 같은 no로 채점 된 항목은 MMPI의 동일한 차원에있는 다른 항목으로 대체 될 수 있습니다.

Any item scored with a  no , such as, for example, on the Minnesota Multiphasic Personality Inventory (MMPI), can be replaced by any other item loading on the same dimension of the MMPI.


그러나 이 원칙이 성취도 평가에서도 마찬가지일 것인가? 폐렴에 대한 지식이 풍부하면 심근 경색에 대한 부족한 지식을 보상 할 수 있습니까? 또는 좋은 복부 검사 기술로 가난한 소생술에 대한 보상을 할 수 있습니까?

One might wonder, though, whether this principle is also true in achievement tests. Can you compensate for poor knowledge about myocardial infarction by good knowledge about pneumonia? Or can you compensate for poor resuscitation skills with good abdominal examination skills?


1983 년 에벨(Ebel)은 시험에서의 문항의 타당성은 문항의 본질적인 의미에서 비롯한다고 제안했습니다 .4 예컨대, 소생술을 수행 평가에서, 테스트중인 유일한 것은 소생술을 수행 할 수 있는지 여부이며, generic trait를 테스트하는 것이 아니다.

In 1983 Ebel suggested that the validity of items in study tests comes from the intrinsic meaning of the item.4 So if you are asked to perform resuscitation, the only thing that is being tested is whether you are able to perform resuscitation, not some sort of generic trait.


개별 항목을 항상 결합해야한다는 생각은 현재 평가 도구에서 이상한 접근 방식을 초래합니다. 환자를 진단하는 능력과 질병의 심리 사회적 측면에 대처능력이 합산되어 평균될 수 있는가? 이는 결과를 단일 숫자로 표현하고 싶거나 둘 다 단일 공통 요소에서 기반한다고 생각하는 경우에만 가능합니다. 그러나 피드백을 주려고 할 경우, 두 항목은 다른 항목으로 보완 할 수 없으며 보완해서는 안되는 본질적인 의미를 가지고 있습니다.

The idea that individual items should always be combined leads to strange approaches in current assessment instruments. Does the ability to diagnose patients and the ability to respond to psychosocial aspects of illness really need to be averaged? Only if you want to express the results in a single number or if you think they both load on a single common factor. However, in feedback both items have an intrinsic meaning that cannot and should not be compensated for with other items.


만약 의사가 이러한 치료한다고 가정 해보십시오. 예를 들어 혈압, 나트륨 수준 및 적혈구 침강 속도 (ESR)의 곱으로 환자의 건강 상태를보고합니다. "이 환자의 건강 상태는 1 260 000입니다." 임상의료행위에서는 완전히 다른 방식으로 정보를 처리합니다. 

  • 병력 복용, 신체 검사 및 추가 진단 절차를 통해 각 환자에 대한 데이터를 기록합니다. 

  • 이러한 데이터는 환자 차트에 기록되며 합격 / 불합격 결정에서 백분율 점수로 변환되거나 이분법 화되지 않으므로 정보가 풍부한 것으로 취급됩니다. 

  • 치료 중 차트의 정보는 추가 진단 방법을 결정하고 확실하지 않은 것을 재검사하고 치료 계획을 수립하고 진행 상황을 지속적으로 평가할 수있는 기반이됩니다. 

  • 결국 퇴원이나 추가 관리에 관한 이분법적인 결정이 내려 지지만, 정보가 풍부한 전체 론적 평가에 기반하고 숫자 정보가 부족한 환원 주의자 평가는 아닙니다.

Suppose we were to treat medicine in the same way. Then, for example, we would report the health status of a patient as the product of blood pressure, sodium level and erythrocytes sedimentation rate (ESR):  The health status of this patient is 1 260 000.  Medical evaluation deals with information in a completely different way. 

  • It records data for each individual patient through history taking, physical examination and additional diagnostic procedures. 

  • These data are recorded in a patient chart and are treated as information-rich, in that they are not converted into a percentage score nor dichotomised in a pass ⁄ fail decision. 

  • During the treatment the information in the chart serves as a basis to determine further diagnostic approaches, to retest what you are not sure of, to set out a treatment scheme and to evaluate the progress continuously.

  • In the end the dichotomous decision concerning discharge or further manage- ment is made, but based on an information-rich holistic appraisal and not on a numerical informa- tion-poor reductionist assessment.



따라서 우리는 평가의 초점을 "교육 활동의 결과를 측정하는 것"에서 "교육의 필수적인 부분으로서의 평가"로 전환 할 필요가 있다. 이 역시 의료행위에 대응될 수 있다. 현재 우리는 스크리닝 검사와 같은 방식으로 평가하고 있으며, 일반적으로 개별적으로 환자를 개별적으로 검사하지 않고 일반적으로 고안된 검사로서 검사에 대한 예 / 아니오 응답 만 요구합니다 (위험도가 높거나 질병의 초기 단계). 이를 위해서는 검사를 표준화해야합니다. 감수성과 특이성 사이의 최적을 결정하기 위해 cut-off 점수를 결정할 필요가있다. 긍정적이고 부정적인 예측 값은 우리의 기준 타당도 접근법과 유사한 방식으로 수립되어야합니다. 

Thus, in our opinion, we need to shift the focus of assessment from measurement of the outcome of an educational activity to assessment as an integral part of education. There is – again – a parallel in medicine. At the moment we often treat assessment the way medicine treats screening programmes, as tests that are designed generically, largely independ- ently of the individual patient to be tested, and require only yes ⁄ no answers to the questions (con- cerning elevated risk or early stage of disease). Tests therefore need to be standardised; cut-off points need to be determined to establish an optimum between sensitivity and specificity. Positive and neg- ative predictive values need to be established in a way that is comparable with our criterion validity approach. 


그러나 이것은 의학의 작은 부분 일뿐입니다. 

  • 대부분은 환자 차트가 양적 및 질적 정보를 결합하는 평가 및 평가 도구로 사용되는 의료 환경에서 발생합니다. 

  • 여기 신뢰성은 절차적 접근법에서 비롯됩니다. : 의사가 확신이 없으면 특정 측면에 대한 추가 정보를 얻습니다. 모든 정보는 다른 정보와 관련하여 평가됩니다. 

  • 이것은 완전히 보상적이거나 완전한 결합적인 방식으로 수행되는 것이 아니라 신중하게 균형 잡힌 전문가 판단으로 수행됩니다. 

  • 의사가 환자의 상태가 불만족 스럽다고 느끼면 환자는 동료 또는 다른 전문가에게 문의합니다. 

  • 환자를 종단적으로 모니터링하여 어떤 조치의 영향을 확인하고 변화하는 상황에 맞게 진단을 최적화하고 조정합니다. 

  • 이러한 맥락에서는 신뢰성을 위해 generic stability를 가정할 필요가 없다.

But this is only a small part of medicine. 

  • Most of it takes place in care settings where a patient chart is used as an assessment and evaluation instru- ment to combine quantitative and qualitative infor- mation. 

  • Reliability here comes from a procedural approach: if the doctor is unsure, he or she seeks further information about the specific aspect. 

  • All information is evaluated in relation to other infor- mation. 

  • This is not carried out in a fully compensa- tory nor a fully conjunctive way, but as a carefully balanced expert judgement. 

  • If the doctor encoun- ters aspects of a patient’s condition about which he or she does not feel sufficiently qualified, he or she confers with a colleague or other expert. 

  • The patient is followed longitudinally to monitor the effects of any action and to optimise and tailor the diagnostics to the changing situation. 

  • In this context the assumption of generic stability is not needed for reliability.


우리가 벗어나고 싶지 않은 안정적인 평균에 대한 통계를 목표로하는 대신, 새로운 정보의 비중이 이미 존재하는 정보에 따라 확률론적으로 결정되는 베이지안 방식을 채택하기를 원할 수 있습니다. 이 질문에 대한 대답은 이 후보자의 안정적이거나 평균적인 능력이란 무엇입니까? 그 학생의 역사와 새로 수집 된 정보를 감안할 때, 미래의 사례에서이 학생이 표준보다 심각하게 수행 할 위험이 얼마나 큽니까?

Instead of aiming statistics on the stable average from which we do not want to deviate, we may want to adopt a more probabilistic or Bayesian approach, in which the value of new information is weighed against already existing information. In this the question to answer is not  What is the stable or average competence of this candidate?  but  How big is the risk of this student performing seriously below the standard in a future case, given his or her history and the newly collected information? 





1 Schmidt HG, Norman GR, Boshuizen HPA. A cognitive perspective on medical expertise: theory and implica- tions. Acad Med 1990;65(10):611–22.




 2006 Apr;40(4):296-300.

plea for new psychometric models in educational assessment.

Author information

1
Department of Educational Research and Development, Maastricht University, Maastricht, The Netherlands. l.schuwirth@educ.unimaas.nl

Abstract

OBJECTIVE:

To describe the weaknesses of the current psychometric approach to assessment as a scientific model.

DISCUSSION:

The current psychometric model has played a major role in improving the quality of assessment of medical competence. It is becoming increasingly difficult, however, to apply this model to modern assessment methods. The central assumption in the current model is that medical competence can be subdivided into separate measurable stable and generic traits. This assumption has several far-reaching implications. Perhaps the most important is that it requires a numerical and reductionist approach, and that aspects such as fairness, defensibility and credibility are by necessity mainly translated into reliability and construct validity. These approaches are more and more difficult to align with modern assessment approaches such as mini-CEX, 360-degree feedback and portfolios. This paper describes some of the weaknesses of the psychometric model and aims to open a discussion on a conceptually different statistical approach to quality of assessment.

FUTURE DIRECTIONS:

We hope that the discussion opened by this paper will lead to the development of a conceptually different statistical approach to quality of assessment. A probabilistic or Bayesian approach would be worth exploring.

PMID:
 
16573664
 
DOI:
 
10.1111/j.1365-2929.2006.02405.x


임상역량의 Authentic 평가: 역량 추구의 함정 (Acad Med, 2010)

Toward Authentic Clinical Evaluation: Pitfalls in the Pursuit of Competency

Shiphra Ginsburg, MD, MEd, Jodi McIlroy, PhD, Olga Oulanova, MA, Kevin Eva, PhD, and Glenn Regehr, PhD




의학 교육자들은 수십 년 동안 레지던트의 임상적 능력을 평가하는 최선의 방법에 대해 고심하고있다. 흥미롭게도, 임상 수행에 대한 대부분의 평가는 여전히 연수생의 행동에 대한 판단을 내리는 평가자에게 크게 의존합니다. 이 수수께끼에 대한 지배적 인 해결책은 표준화를 통해 이러한 주관적인 효과를 완화하려는 시도이며, 이를 위해

  • 무엇이 평가되어야 하는지(예 : 의사 소통과 같은 영역에서 특정 지식, 태도 또는 기술이 평가되고 있음), 

  • 어떻게 다양한 성과 수준으로 구성되는지(예 : "뛰어난 성과", "기대치 초과"및 "개선 필요"와 같은 용어가 의미하는 것)

...에 대한 합의가 이루어졌습니다 

Medical educators have struggled for decades with the question of how best to evaluate the clinical competence of residents. Interestingly, most evaluations of clinical performance, still rely extensively on evaluators making judgments about trainees’ behaviors. The dominant solution to this conundrum has been to try to mitigate these subjective effects through standardization, so that there is some consensus about 

  • what is being evaluated (e.g., what specific knowledge, attitudes, or skills are being assessed in a domain such as communication) and 

  • what constitutes various levels of performance (e.g., what is meant by such terms as “outstanding performance,” “exceeds expectations,” and “needs improvement”).


동시에 의학 교육자 (및 사회)는 "훌륭한 의사"가된다는 것을 더 확실하게 표현하는 방향으로 나아갔습니다.

At the same time, medical educators (and society) have moved toward the development of a more authentic representation of what it means to be a “good doctor.”


(CanMEDS)

(ACGME)


이러한 프로젝트는 "역량 획득여부를 평가하기 위한 유용하고 신뢰할 수있는 유효한 방법"을 개발하는 데 도움을주기위한 것입니다.

The project was also meant to assist programs to develop “useful, reliable, and valid methods for assessing attainment of the competencies.”


이러한 목표에도 불구하고, 최근 문헌을 체계적으로 검토 한 결과, 하나의 역량을 다른 역량과 구분되는 독립적 구인으로서 신뢰성있게 측정 할 수있는 평가 방법이 없음을 발견했습니다.5 저자는 역량 자체가 "틀린 것"은 아니지만 평가 방법은 그렇지 않음을 결론지었습니다 프레임 워크와 깔끔하게 대응합니다. 또한 일부 역량 (시스템 기반 실습과 같은)은 다른 개인 및 외력에 크게 의존하므로 레지던트가 속해있는 시스템에서 레지던트만을 분리하여 평가할 수 없습니다.

Despite these goals, a recent systematic review of the literature found no assessment methods that can reliably measure the competencies separately from one another as independent constructs.5 The authors concluded that it is not that the competencies themselves are “wrong” but that assessment measures do not correspond neatly with the framework. In addition, some of the competencies (like systems-based practice) are so dependent on other individuals and external forces that it may not be possible to evaluate a resident separate fromthe systemin which the resident is functioning.


의학 교육자들이 학습 체계를 구성하고 안내하는 학습 도구로서의 역량을 평가 도구로서의 역량으로 직접 번역하려고 시도하는 것이 이 둘 사이의 구분을 모호하게했을 수도 있습니다. 우리는 역량 프레임 워크와 교수의 일상 생활 평가에 대한 경험 사이에 존재하는 명백한 긴장을 더 잘 이해하려고 노력했습니다.

It may be that medical educators have blurred the distinction between using competencies as an educational framework to organize and guide learning, and attempting to translate themdirectly into evaluation tools. With this in mind, we sought to better understand the apparent tensions that exist between competency frameworks and faculty’s experience in the day-to-day evaluation of residents.



방법

Method


Participants and interviews


Potential participants included all clinical faculty at two Canadian universities (University of Toronto and McMaster University) who had at least two years of experience in teaching and evaluating residents in internal medicine. Sampling was purposive, in that we initially targeted faculty in general internal medicine who attended on the general medical wards at any of our five main teaching hospitals, as they would likely have the most experience in the areas we were exploring.


Faculty attendings were invited to participate by e-mail. Each attending was interviewed for 30 to 60 minutes by the same trained research assistant according to a script developed by the research group. One pilot interview was conducted to test the script; some refinements were made, and that interview was not used in our analysis. During the interviews, attendings were asked to describe (without mentioning names) first a specific outstanding resident they had supervised, then a problematic resident, and finally an average resident. These descriptions could be about any aspect of performance, and there was no attempt to encourage discussion of any particular area. However, descriptions had to be of actual residents rather than generalized opinions. Probes were used where necessary to promote specific descriptions of behaviors (e.g., if the attending stated that the resident was “very professional,” the research assistant would ask, “How was that displayed?” or “What did you observe that led to that opinion?”). Probes were also used where necessary to identify areas in which excellent residents revealed deficiencies and problematic residents showed strength. The interviews were audiotaped and transcribed verbatim, with any potentially identifying features removed.



Analysis


Analysis of the interviews began alongside data collection...

    • to ensure the interviews were effectively eliciting the types of descriptions we had anticipated and 

    • to determine when theoretical saturation had been reached.6 

This occurred after 15 interviews were done at the first university and 4 at the second, resulting in a final sample of 19 interviews that were analyzed using grounded theory. We chose grounded theory for this analysis because we were attempting to develop a theoretical framework to describe how faculty actually thought—and talked—about their residents.7 Each researcher read the initial transcripts during the open coding process. We then met repeatedly as a group and refined the coding using constant comparison, where categories were further defined, merged, or deleted. Agreement was achieved through consensus, and discussions proceeded until the coding structure was deemed stable. It was then entered into NVivo software, which was used by the research assistant to code all 19 transcripts.8




결과

Results


녹취록을 분석 한 결과, 지식, 전문성, 환자 상호 작용, 팀 상호 작용, 체계, 처분, 신뢰 및 직원에 대한 영향 등 거주자에 대한 의견을 표명 할 때 참석자가 고려한 사항을 모두 반영하는 8 개의 주요 영역 또는 주제가 파악되었습니다. 이 영역의 정의와 예는 표 1에서 볼 수 있으며 각 빈도는 그림 1에서 그래픽으로 표시됩니다.

Analysis of the transcripts resulted in the identification of eight major domains, or themes, that together reflect what faculty attendings consider when forming opinions about their residents: knowledge, professionalism, patient interactions, team interactions, systems, disposition, trust, and impact on staff. Definitions and examples of these domains can be seen in Table 1, and the frequencies with which each was mentioned are presented graphically in Figure 1.




성과 영역과 그것이 다뤄진 방법

Domains of performance and how they were discussed


첫 번째 중요한 발견은 역량 영역의 본질, 그리고 그것이 레지던트에 대한 전반적인 인식에 어떻게 통합되었는지이다. 그러나 개별 설명에서 참석자는 모든 레지던트에 대해 모든 도메인을 논의하지는 않았다.

Our first major finding related to the nature of the domains of competence discussed and how they were incorporated into the overall impression of the resident. However, in their individual descriptions, attendings did not discuss every domain for every resident,


더 흥미롭게도 도메인은 해당 레지던트의 다른 퍼포먼스 영역에 따라 중요성이 달라졌다. 각 테마는 긍정적이거나 부정적인 용어로 논의 될 수 있지만 토론 된 레지던트의 유형에 반드시 의존하지는 않습니다.

More interestingly, a domain could take on variable importance, depending on other areas of performance for that resident. Each of the themes could be discussed in either positive or negative terms, but this was not necessarily dependent on the type of resident being discussed.



흥미롭게도 "탁월한 레지던트가 되려면 탁월한 지식 기반을 보유해야합니다. 다른 모든면에서 뛰어나더라도, 내과적 지식이 부족하다면 뛰어나다고 말할 수 없다. "이러한 상대적인 결함은 지식 기반이나 지식 번역 (n = 9) 분야에서 가장 빈번하게 발생했습니다.

Interestingly, despite such comments as “To be outstanding you have to have outstanding knowledge base, I think. You can be outstanding in everything else but if you don’t know enough internal medicine you can’t,” these relative deficiencies were most often in the area of knowledge base or knowledge translation (n = 9).


또한 지식 자체에 대한 접근성이 높다고 여겼기 때문에 ( "모르는 것은 누구나 바로 구글에서 찾아볼 수 있다"), 대부분은 지식을 수월성의 진정한 표식으로 고려하지 않았습니다.

Furthermore, because knowledge itself was seen as being easily accessible (“You don’t know what it is, you Google it, you go on any of the online resources—most people have themon a handheld”), it was not considered by most to be a true marker of who is excellent.



흥미롭게도, 세 명의 주치의는 자신의 일에 "너무 투자"하거나 번아웃 위험에 처한 우수한 레지던트에 대한 우려를 제기했습니다.

Interestingly, three attendings brought up concerns about excellent residents who seemed “too invested” in their work and at risk of burning out.


요약하면, 참석자들은 자신들이 뛰어난 것으로 생각하는 레지던트의 결점을 간과하거나 변명하는 것처럼 보였던 반면, 일부 '문제있는 레지던트'에 대해서는 일부 도메인에서 우수성을 보여주더라도, 이것이 그들을 '구해save'주지 못했다. 주치의가 가진 인상은 레지던트에게 노출된 수의 선형적 합산 결과가 아니며, 더욱이, 무엇이 가장 중요하거나 덜 중요한지는 가변적이며 idiosyncratic하였다.

In sum, attendings seemed to overlook, or excuse, deficiencies in residents they thought of as being outstanding, whereas competence or even excellence in some domains did not “save” other residents from being thought of as problematic. Attendings’ impressions did not result from a linear sum of dimensions; further, what was weighted most or least heavily in any one description seemed to be variable and idiosyncratic.


테마의 상대적 중요성

Relative prominence of themes


우리의 두 번째 발견은 그림 1에서 묘사 된 바와 같이 주제의 상대적 빈도와 관련이 있습니다. 직업윤리는 전체 데이터 세트에서 가장 자주 사용되는 코드였으며 참석자들이 우수한 레지던트에 대해 토론했을 때 특히 두드러졌습니다. 

Our second finding relates to the relative frequencies of the themes, as depicted in Figure 1. Work ethic was by far the most frequently used code in the entire data set and was especially prominent when attendings discussed excellent residents.


또 다른 사람은 "그는 항상 자리에 있었고, 민감하게 반응했다. 그는 능동적으로 문제를 예측했다. 그는 그들에게 일어날 일을 기다리지 않았다. 그는 그것이 발생할 것으로 미리 예상했다. "

 Another stated, “He was available, he would always respond. He was proactive in anticipating problems. He did not wait for them to happen; he expected them to develop.”


"역량이라고 분류할 수 없는 것들"

“Noncompetency” constructs


우리의 세 번째 주요 결과는, 참석자들이 사실상 전혀 역량이라고 할 수 없는 것들에 대해서 자세히 설명했다는 점이다. 예를 들어 '성향'이 있다. 참석자가 레지던트가 문제가 있다고 생각하는 이유에 대한 설명으로, 태도 및 성격 특성에 대해 자주 언급하였다.

Our third major finding was that attendings elaborated several constructs that affected their opinions of residents that were not in fact competencies at all. Consider, for example, the theme of disposition. Attendings frequently commented on residents’ attitudes and personality characteristics, as typified by this explanation of why one attending thought a resident was problematic:


마찬가지로, 'Staff에 대한 영향'이라는 주제는, 레지던트가 교수 구성원의 삶에 어떻게 영향을 주었는지에 따라 레지던트에 대한 의견이 달라짐을 보여준다. 다시 말하지만, 이러한 의견은 특정 분야의 역량이나 역량을 설명하지는 않았으며, 오히려 참석자의 명시된 의견에 대한 설명으로 제공되었습니다.

Similarly, the theme of impact on staff evolved to capture comments attendings made in which their opinion of a resident was shaped by how that resident affected the faculty member’s life. Again, these comments did not describe a particular area of performance or competency but, rather, were offered as support or as explanation for attendings’ stated opinions.




고찰

Discussion


"핵심 역량"을 평가하기 위한 평가 도구를 개발하는 것은 어려웠습니다. 각각의 역량이 다른 역량과 별도로 평가 될 수 없는 것처럼 보이며, 대부분의 평가는 하나의 구인만을 측정한다 (또는 다수의 구인을 측정하나 프레임 워크에 깔끔하게 매핑되지 않는다.).

Developing assessment instruments to evaluate these “core competencies” has been difficult, as recently reported by Lurie et al.5 It seems the individual competencies cannot be evaluated separately fromone another, and most assessments probably measure a single construct (or several that do not map neatly onto the framework, as supported by our findings).


이러한 어려움에 대한 한 가지 가능한 이유는 원하는 역량 중 상당 부분이 어떤 식으로든 사회적으로 결정된다고 인식하기 때문이다. 예를 들어, ACGME 역량 중 Practice-BL이나 SBP와 관련된 개인의 성과는 다른 사람들 및 환경과의 상호 작용에 의존합니다. 따라서 개인의 기여를 구분해내기가 어렵다. 5 그러나 무엇보다도, 올바른 도구만 있다면, 개인의 "진정한 점수"를 정확하게 측정 할 수 있다는 근본적인 전제가 여전히 존재하는 것 같습니다.

One possible reason for these difficulties relates to a growing recognition that many of the desired competencies are in some ways socially determined. For example, an individual’s performance related to the ACGME competencies of practice-based learning or systems-based practice is dependent on interactions with other people and the environment. An individual’s contribution cannot be easily teased out.5 Perhaps more important, however, an underlying presupposition still seems to exist that there is a “true score” within an individual that can be measured accurately once the right tools are found.



특정 상황 (필기 시험과 같은 지식을 시험하는 시험)에는 이것이 적용가능할지도 모르지만, 평가 방법의 선택은 객관성이나 표준화에 대한 맹목적인 욕구가 아니라 교육적 맥락이나 시험 상황의 목적에 따라 결정되어야합니다. 아마도 임상 환경에서 역량 평가의 어려움은, 평가의 출발점이 역량이 관찰되는 맥락이 아니라, 역량 그 자체라는 사실에서 비롯됩니다.

That may be true for certain situations (like written exams to test knowledge), but the choice of assessment method should be determined by the educational context or by the purpose of the testing situation, not by a blind desire to be as objective or standardized as possible. Perhaps some of the difficulties in evaluating competencies in a clinical setting arise fromthe fact that the starting point is usually the competency one wants to assess, rather than the context in which it is being observed.



둘째, 감독관은 개인의 성과를 고려하는 메타-역량의 집합에 따라 연수생의 성과를 개념화한다고 제안했다. 예를 들어, Bogo 등 10)은 감독자가 뛰어나거나 문제가 있는 사회 복지 연수생을 논의할 때, 해당 연수생에 대한 전반적인 의견에 따라 특정 도메인의 상대적 중요성이 높아지거나 낮아지는 것으로 드러났다.

Second, others have suggested that faculty supervisors conceptualize trainees’ performance according to a set of meta-competencies, within which they consider an individual’s performance. For example, Bogo et al10 found that, as supervisors discussed their outstanding and problematic social work trainees, they would elevate—or discount—the relative importance of a particular domain, depending on their overall opinion of a given trainee.


Bogo와 동료 연구에서, 이러한 설명은 "그러나 진술but statements"로 구성되었다. 예를 들어, 모범적인 학생이 특정 스킬에서 개선이 필요할 경우, 감독관은 이것이 공식적인 훈련이 부족한 결과라고 믿으며, 이를 감싸주었다. 이것은 귀인 이론attribution theory에 의해 설명 될 수 있습니다.이 예에서 관리자는 피교육자의 부족을 교육 부족으로 인한 것이라고 귀인한 것이다

In Bogo and colleagues’ study,10 these descriptions were framed as “but statements”; for instance, an exemplary student’s skills in a particular area needed work but the supervisor excused it, believing it was simply the result of a lack of formal training in that area. This can be explained by attribution theory, as the supervisor in this example attributed the deficiency to a lack of training


따라서 어떤 학습자에게 약점이 있다고, 그 학습자가 뛰어난 학생으로 평가받지 못하는 것이 아니었다. 유사하게, 참석자들은 문제 학습자가 적절한 (또는 잘 발달 된) 영역의 성과를 보일 때 거부감을 느꼈습니다. 따라서 레지던트에 대한 전반적인 인상은 다양한 차원의 단순한 선형 합산이 아니며, 이들 차원에 가중치를 주더라도 레지던트를 평가하는 감독자의 감각을 적절하게 포착해내지 못한다. 

 Thus, as supported by our data, a weakness does not necessarily preclude a learner frombeing considered outstanding. As a corollary to this process, attendings were often dismissive of adequate (or even well- developed) areas of performance in learners they think of as problematic. Thus, consistent with research comparing scores fromchecklists versus global ratings,12 the overall impression of the resident is far froma simple linear addition of the various dimensions being assessed, and even a weighting of these dimensions would be unlikely to adequately capture the supervisor’s sense of the resident as a clinician-in-training.


우리는 사람들에게 자신의 언어로, 예를 들어 동료들과 이야기하는 방식으로, 레지던트의 수행능력을 이야기해달라고 권고했습니다. 이에 참여자들은 모든 레지던트에 대해 모든 구인(역량)을 다루지 않았다. 그러나 일반적으로 평가 도구는 역량이 설정된 순서대로 제시되도록 설계되어 있기 때문에, 각 역량에 대해 거의 동일한 시각적 공간을 제공합니다. 이 순서는 각 역량의 상대적 중요성에 대한 레지던트 프로그램의 암묵적인 믿음을 나타낼 수 있으며, 동등한 간격은 각 역량이 동등하게 고려되어야 함을 의미합니다. 그러나 우리의 연구 결과에 따르면이 시각적 레토릭은 교수진이 레지던트의 성과를 개념화하는 방식이나 이에 대한 의견을 표현하는 방식과 일치하지 않습니다.

We explicitly encouraged them to discuss residents’ performance in their own language, the way they would speak, for example, with their colleagues. They did not, therefore, address every construct for every resident. In contrast, evaluation instruments are usually designed so that the competencies are presented in a set order, giving approximately equal visual space to each. This order may reveal the residency program’s implicit beliefs about the relative importance of each competency, and the equal spacing implies that each should be considered equally for each resident. Our findings suggest that this visual rhetoric is inconsistent with the way faculty actually conceptualize and express their opinions about the performance of their residents. 


우리가 분석 한 또 다른 중요한 주제는 레지던트가 교수들에게 미치는 영향이었습니다.

Another critical theme that arose in our analysis was a resident’s impact on the attending.


객관성을 추구 할 때 함정에 대한 van der Vleuten 등의 우려에서 보자면, 임상 교육에서는 주관적인 접근이 실제로 바람직 할 수 있습니다. 이 상황을 객관화하려는 노력이 오히려 authenticity를 상실하게 한다. 따라서 우리는 역량 프레임 워크가 "평가 영역 바깥"에 존재할 때 가장 적합하다고 생각할 수 있습니다. 역량 프레임워크는 분명히 교육지도에 매우 유용하지만, 평가 목적에 있어서는 최고의 장소가 아닐 수도 있습니다. 역량 프레임 워크는 평가에서 중요하지 않지만 평가는 단순히 다양한 차원의 합이 아니다.

Returning to the concerns of van der Vleuten et al about pitfalls in the pursuit of objectivity, in the setting of clinical teaching units, a more subjective approach to evaluation may actually be desirable. In an effort to objectify in this setting, we risk the loss of authenticity. We agree, therefore, that competency frameworks may best be thought of as “outside the realm of evaluation”; they are certainly very useful in guiding education, but they may not be the best place to start from for evaluation purposes. It is not that the competency frameworks are unimportant in assessment, but evaluation is more subtle than a sum of the various dimensions.


또한 Hodges14에서 제시 한 바와 같이 교육 및 평가 모델은 숨겨진 "부작용"을 초래할 수 있습니다. 역량의 측정과 계산을 명시적으로 지나치게 강조함으로써 우리는 오히려 역량을 인식하지 못하거나, 심지어 경우에 따라서는 incompetence를 유발할 수 있습니다.

Further, as Hodges14 has suggested, any model of education and evaluation may result in hidden “side effects.” By overemphasizing what we explicitly choose to measure and count, we may fail to recognize—or in some cases may even create—incompetence.



앞 단락에서 설명한 문제는 평가 양식을 간단하게 수정하여 해결할 수 없습니다. 한 가지 역량이 항상 다른 것보다 중요하지 않은 경우가 아니기 때문에 종종 차별화 된 가중치를 지정하는 것이 좋습니다. 도메인의 상대적인 중요성은 평가 대상이 되는 특정 개인뿐만 아니라 교수 개인의 특이성이 존재하기 때문에 평가를 내리는 특정 평가자에게도 의존한다.

The issues described in the preceding paragraphs cannot be resolved with simple tweaks to the evaluation forms. Differentially weighting the scales, for example, which is often suggested, will not work because it is not the case that one competency is always more important than another. The relative importance of a domain depends not only on the particular individual being described, but also on the particular evaluator, as it has also been shown that idiosyncrasies exist in terms of what individual faculty attendings value.15


또한, 관측에서 해석에 이르기까지 추상화 한 다음 스케일상의 숫자를 변환하는 것은 문제가되는 것으로 나타 났으며 결과적으로 신뢰성이 떨어졌습니다 .16 레지던트의 성과에 대한 표준화 된 내러티브 설명을 사용하여 평가 한 결과, 임상 수퍼바이저가 실제로 사용하는 언어로 쓰여진 문장이 기존의 구조화 된 평가 양식보다 borderline 성능을 향상시키는 데 더 좋을 수 있습니다 .17

Further, the act of abstracting from observations to interpretations and then translating into numbers on scales has been shown to be problematic, with a resulting loss of authenticity.16 Promising research in social work has found that evaluations using standardized narrative descriptions of residents’ performance, written in the language that clinical supervisors actually use, may be better at picking up borderline performance than traditional, structured evaluation forms.17





결론

Conclusions



 임상 환경에서 레지던트의 성과를 평가하는 것은 표준화 된 역량 프레임 워크를 증진하려는 노력에도 불구하고 여전히 주관적인 요인에 크게 영향을 받고 있다. 그러나 이것은 실패로 간주되어서는 안됩니다. 우리는 감독자로서의 역할을 인간으로서의 자신과 분리 할 수 ​​없다는 것을 보여주었습니다. 인간적 요소에 대한 과도한 의존, 상황에 대한 과소 평가, 우리가 학습자에 대해 갖는 주관적인 의견과 감정적 반응 등등, 인간으로서 우리에게 영향을 미치는 것은 평가자로서 우리에게도 영향을 미칩니다. 

 assessment of residents’ performancein the clinical setting is still, despite concerted efforts to promote standardized competency frameworks, heavily influenced by the subjective. But this should not be considered a failure. Along with others, we have shown that, as faculty attendings, we cannot separate ourselves as human beings from the role we play as supervisors. Whether it is our demonstrated overreliance on person factors and underappreciation of the situation19,20 or the subjective opinions and emotional reactions we have about our learners,13,21 what affects us as human beings affects us as evaluators. 


나아가 Leach가 제안한 것처럼 "평가의 relevance는 역량의 통합적 버전에 의존하는 반면, 측정은 역량의 세분화적 버전에 의존한다. 이 역설은 쉽게 해결 될 수 없습니다. 역량이 구체화될수록 전체 역량과의 관련성은 낮아진다. "

Further, as suggested by Leach,22 the relevance of evaluation is “dependent on an integrated version of the competencies, whereas measurement relies on a speciated version of the competencies. The paradox cannot be resolved easily. The more the competencies are specified, the less relevant to the whole they become.









14 Hodges B. Medical education and the maintenance of incompetence. Med Teach. 2006;28:690–696.





 2010 May;85(5):780-6. doi: 10.1097/ACM.0b013e3181d73fb6.

Toward authentic clinical evaluationpitfalls in the pursuit of competency.

Author information

1
Wilson Centre for Research in Education, University Health Network, Faculty of Medicine, University of Toronto, Toronto, Ontario, Canada. shiphra.ginsburg@utoronto.ca

Abstract

PURPOSE:

The drive toward competency-based education frameworks has created a tension between competing desires-for quantified, standardized measures on one hand, and for an authentic representation of what it means to be a good doctor on the other. The purpose of this study was to better understand the tensions that exist between competency frameworks and faculty's real-life experiences in evaluating residents.

METHOD:

Interviews were conducted with 19 experienced internal medicine attendings at two Canadian universities in 2007. Attendings each discussed a specific outstanding, average, and problematic resident they had supervised. Interviews were analyzed using grounded theory.

RESULTS:

Eight major themes emerged reflecting how faculty conceptualize residents' performance: knowledge, professionalism, patient interactions, team interactions, systems, disposition, trust, and impact on staff. Attendings' impressions of residents did not seem to result from a linear sum of dimensions; rather, domains idiosyncratically took on variable degrees of importance depending on the resident. Relative deficiencies in outstanding residents could be overlooked, whereas strengths in problematic residents could be discounted. Some constructs (e.g., impact on staff) were not competencies at all; rather, they seem to act as explanations or evidence of attendings' opinions. Standardized evaluation forms might constrain authentic depictions of residents' performance.

CONCLUSIONS:

Despite concerted efforts to create standardized, objective, competency-based evaluations, the assessment of residents' clinical performance still has a strong subjective influence. Attendings' holistic impressions should not be considered invalid simply because they are subjective. Instead, assessment methods should consider novel ways of accommodating these impressions to improve evaluation.

PMID:
 
20520025
 
DOI:
 
10.1097/ACM.0b013e3181d73fb6


미래 의사 교육훈련: 왜 코치는 심판이 될 수 없는가? (JAMA, 2011)

The Education and Training of Future Physicians: Why Coaches Can’t Be Judges

Rodrigo B. Cavalcanti, MD, MSc

Allan S. Detsky, MD, PhD




의사는 환자를 진단하고 치료할 수 있어야합니다. 필요한 임상 기술에는 데이터 수집, 중요하지 않은 사실과 중요한 차이점 조사, 추가 조사 및 치료에 대한 결정, 치료법 구현, 후속 조치, 교육 및 상담 제공이 포함됩니다. 임상기술들은 독서 또는 교실에서만 배울 수 없습니다. 실무적인 경험이 필요합니다. 현재 의사가 실무 경험에 노출되는 방법은 위계에 따른 책임 수준을 팀의 최하위 구성원으로 참여하여, 자신의 의사 결정을 더 경험이 많은 의사에게 검토받는 것입니다.

A PHYSICIAN MUST BE ABLE TO DIAGNOSE AND TREAT patients. The clinical skills required to be successful include gathering data, differentiat- ing important from unimportant facts, making de- cisions about further investigations and treatments, imple- menting therapy, and providing follow-up, education, and counseling. These skills cannot be learned through read- ing or in classrooms alone; practical experience is re- quired. The present method of exposing physicians-in- training to practical experience involves a hierarchical team approach with graded levels of responsibility whereby the decisions of the most junior members of the team are re- viewed by physicians with more experience and seniority.


견습 경험에서는 상급 계층의 구성원이 하위 계층의 구성원을 평가하게 된다. 따라서, Supervisor는 코치 (임상 기술 향상에있어서 연수생을 지시하고 보조하는)이면서 동시에 심사위원 (동일한 연수생의 성과 평가 책임자)이다 .1

Part of the apprenticeship experience also includes hav- ing members at higher levels of the hierarchy evaluate those at lower levels. As such, the supervising individuals are both coaches (instructing and assisting trainees in improving their clinical skills) and judges (responsible for performance as- sessment of the same trainees).1


연수생을 평가하는 목적은 경쟁에 대한 평가뿐만 아니라 학습에 동기를 부여하고 직접 지시하는 것입니다. 대부분의 설정에서 훈련 중 평가보고 (ITER)가 표준적 평가 방법이다 .2-4

The purpose of assessing trainees is to motivate and direct learning, as well as to provide an evaluation of compe- tence. Inmost settings, in-training evaluation reports (ITERs) form the standard method of evaluation.2-4



수련중평가(ITE)의 과제

Challenges of In-Training Evaluations


기존 연구에서 ITER은 다른 평가 척도의 상관관계가 낮다는 것을 보여 주었다 .5) 재생산성이 낮은 것은 평가자의 관대함, 점수의 범위 제한 ), 후광 효과 (1 가지 특성에 기반하여 성과의 모든 측면을 평가하는 경향), 평가받지 못한 평가자 교육, 임상 기술을 수행하는 동안 연수생의 직접적인 관찰의 부족 등이 포함됩니다 .3,4 또한 감독자는 연수생을 유급시키기를 꺼려한다 .7

Studies of the validity of ITERs have shown that they cor- relate poorly with other assessment measures.5,6 Poor re- producibility has been widely documented and explained by many factors including leniency of raters, restriction of range of scores (toward the top end), the halo effect (the tendency to rate all aspects of performance based on 1 trait), inadequate rater training, and lack of direct observation of trainees while performing clinical skills.1,3,4 In addition, su- pervisors are reluctant to fail trainees.7


피교육자는 교육자에게 압박을 느끼지만, 반대로 교육자는 건설적인 피드백조차 그것이 부정적인 내용일 경우 피드백 주기를 꺼려한다.4 주어진 이유는 연수생의 수용력이 부족하고, 추가적인 일이나 스트레스와 같은 부정적 결과, 그리고 피훈련자도 교육자을 평가한다는 사실 등이 포함됩니다. 특히 피훈련자에게 불합격 점수를주는 것은 피훈련자(교대 재 소집)와 교육자 모두에게 심각한 결과를 초래합니다 (교육자에 대한 항소가 있을 수 있고, 많은 서류작업을 해야 할 수 있음).

Despite the perception that trainees are intimidated by their medical supervisors, these same supervisors find it es- pecially difficult to provide negative feedback, even if that feedback may be presented constructively.4 The reasons given include a lack of receptivity by trainees, adverse conse- quences to the faculty such as extra work and stress, and the knowledge that trainees in turn evaluate faculty mem- bers. In particular, giving a trainee a failing grade has im- portant consequences for both the trainee (having to re- peat the rotation) and supervisor (there may be appeals and need for extensive documentation).


또한, 몇 가지 인지적 편향이 ITER의 측정 오류에 영향을 줄 수있다 .1 

  • 확증 편향은 모순 된 관찰을 할인하고 확인적인 평가를 과대 평가하는 등의 초기 노출을 확인하기 위해 평가자가 정보를 찾고 해석하는 현상을 말한다. 

  • 앵커링 편향는 단일 주제에 대한 탁월한 프리젠 테이션이나 훌륭한 진단과 같은 전반적인 인상을 유도하기 위해 하나의 사례에 대한 과도 의존성으로 인해 발생합니다.

In addition, several cognitive biases may contribute to measurement error in ITERs.1 

  • Confirmation bias refers to the phenomenon by which evaluators seek and interpret information to con- firm initial impressions, both discounting contradictory observations and overvaluing confirmatory ones. 

  • Anchoring bias results from overreliance on 1 piece of informa- tion to guide overall impression, for example, relying solely on an excellent presentation on a single topic or a brilliant diagnosis in 1 case.


연수생은 자신의 환자에 대한 토론에서, 다소 모호한 주제로 돌리는 기술을 써서 평가에 영향을 미칠 수 있습니다. 특히 감독자가 해당 분야의 전문 지식이 부족하다는 것을 알고있는 경우에는 더욱 그렇습니다.

Trainees are able to affect their evaluations by techniques such as turning a discussion about their patients toward a moderately obscure topic of which they have de- tailed knowledge, especially if they know their supervisor lacks expertise in that area.9




코치 겸 재판관 역할은 무엇이 문제인가

Why the Coach/Judge Role Is Problematic



코치와 재판관의 이중 역할에는 크게 두 가지 문제가 있습니다. 

  • 첫째, 이중 역할은 연수생이 결핍을 인지하는 분야의 기술 습득에 이상적인 세팅이 아니다. 어떤 연수생도 ​​평가자에게 자신의 약점을 보여주고 싶지 않아 한다. 그러므로 교사는 이전 연수생과의 경험을 통해 연수생이 배우고 추측해야 할 것을 폭로해야합니다. 

  • 두 번째로, supervisor는 코치로서 연수생의 성공에 관심을 가지게 되므로, 평가자로서 이해관계 상충이 생긴다.

There are 2 main problems with the dual role of coach and judge. 

  • First, the dual role provides a suboptimal setting for trainees to seek help in gaining skills in areas in which they perceive deficiency. No trainee would want to show an evalu- ator his or her weaknesses. Therefore, the teacher has to try to expose what the trainee needs to learn or guess from ex- perience with previous trainees. 

  • Second, the dual role creates a conflict of interest for the evaluator because, as coach, he or she will also have a vested interest in the trainee’s success.



이 문제에 대한 간단한 해결책은 연수생의 지식과 수행에 대한 모든 평가가 후보자의 성공에 기득권이없는 개인에 의해 수행되도록 보장하는 것입니다. 그러나 이 방법은 비현실적입니다. 

The simple solution to this problem would be to ensure that all assessments of trainees’ knowledge and performance are conducted by individuals who have no vested interest in the success of the candidate. However, this approach is unrealistic. 


  • 첫째, 코치는 연수생이 기술을 얼마나 잘 배웠는지에 대한 직접적인 직접적인 정보를 얻을 것입니다. 사실, 현재의 의학교육은 평생 학습자를 육성하기위한 것이므로 특정 시점의 특정 영역에서의 역량 수준은, 미래에 다른 영역에 대한 학습능력보다 덜 중요 할 수 있습니다. 코치는 시간이 지남에 따라 성과를 평가할 수있게되어 연수생이 새로운 지식을 습득하고 기술을 개발할 수있는 능력을 평가할 수 있게 됩니다. 고정 된 시점의 외부 평가자는 역량을 한 번만 평가할 수 있습니다.

First, the coach will have firsthand direct information about how well the trainee learns skills. In fact, since the current approach to medi- cal education is to develop lifelong learners, the level of competency in any specific area at one point in time may be less important than a physician’s ability to acquire competence in other areas in the future. The coach will be able to evaluate performance over time and thereby assess a trainee’s ability to acquire new knowledge and develop skills. An external evaluator at a fixed point in time can only assess competency once.


  • 둘째, 교육 위계에서 상위에 있는 의사가 전문성이 더 많기 때문에 하위 계층의 구성원은 항상 자신의 지위에 따라 어떤 식 으로든 위협을 받게됩니다. 예를 들어, 임상 감독관은 단순히 공식 ITER에 대한 평가를 제공하는 것이 아니라 공식 서한이나 비공식적 인 추천서를 참고 서적으로 작성하거나 레지던트 선발위원회 위원으로 참여한다. 그럼에도 불구하고, 높은 이해 관계에 초점을 맞추고, 임상 기술을 가르치는 동일한 개인의 합격 실패 유형 평가, 의료 훈련의 현재 구조

Second, because members at the top of an educational hi- erarchy have more seniority and expertise, members at the lower levels will always be threatened in some way by their position. For example, clinical supervisors do not simply provide assessments on formal ITERs but also make both formal and informal recommendations in reference letters or by serving as members of residency selection commit- tees. This phenomenon cannot be counteracted. Neverthe- less, by focusing on high stakes, pass-fail type assessment from the same individuals who teach clinical skills, the cur- rent structure of medical training


결론

Conclusion


임상 강습의 초점을 피드백 및 코칭 (전문 지식 습득을 위해)으로 이동시킴으로써, 교사는 연수생이 가장 도움이 필요한 분야를 개선하도록 도울 것입니다. 현재 임상 감독자의 이중 역할은 의사가 최대한의 잠재력을 발휘할 수 있도록 지원하지 못하므로, 수련중인 의사의 요구를 충족시켜주지 못한다.

By shifting the focus of clinical train- ing to feedback and coaching (for the acquisition of expertise10), tutors will help trainees improve the areas in which they need the most help. Until this change occurs, the current dual role of clinical supervisors will continue to fail the needs of physicians-in-training by not helping them to reach their full potential.


현재의 프로그램은 자신의 약점은 숨기고 강점을 드러내는 피훈련자에게 보상을 주고 있다.

programs rewards trainees for showcasing their strengths without properly addressing their weaknesses.






 2011 Sep 7;306(9):993-4. doi: 10.1001/jama.2011.1232.

The education and training of future physicianswhy coaches can't be judges.

Author information

1
Department of Medicine, University of Toronto, Toronto, Ontario, Canada.
PMID:
 
21900141
 
DOI:
 
10.1001/jama.2011.1232


합목적적 평가 프로그램 설계를 위한 전문가 가이드라인 (BMC Med Educ, 2012)

Expert validation of fit-for-purpose guidelines for designing programmes of assessment

Joost Dijkstra1*†, Robert Galbraith2, Brian D Hodges3, Pauline A McAvoy4, Peter McCrorie5, Lesley J Southgate5, Cees PM Van der Vleuten1, Val Wass6 and Lambert WT Schuwirth1,7




배경

Background


퀄리티에 대한 서로 다른 목표와 관점,

different aims and adopting diverse view- points on quality,


  • 심리측정 관점에서의 퀄리티는 종합적 결정의 신뢰성과 "타당성에 대한 통일된 관점"으로 정의된다 [9-13]. 

  • 교육적 관점에서 초점은 목표, 교육, 그리고 바람직한 학습행동을 ​​자극하기 위한 평가의 사용에 관한 것이 었습니다

From a psychometric per- spective quality has been almost exclusively defined as the reliability of combinations of decisions and a “unified view of validity” [9-13]. 

From an educational perspective the focus has been on the alignment of objectives, instruction, and on using assessment to stimulate desirable learning behaviour [14-16]


  • Baartman [17]은 역량 기반 교육을 퀄리티의 기반으로 삼았고, authenticity와 유의미성과 같은 교육 기반 기준을 추가 할 것을 제안했다.

. In another study Baartman [17] took competency-based education as a basis for quality, and proposed adding education-based criteria, such as authenticity and meaningfulness, to the established psy- chometric criteria.


대부분의 연구들은 이미 평가가 수행 된 이후에 평가 품질을 결정합니다. 불행하게도, 이것은 양질의 평가프로그램을 개발하려는 디자이너에게는 크게 도움이 되지 않습니다.

Most of this research determines as- sessment quality afterwards, when assessment has already taken place. Unfortunately, this does not provide assess- ment designers with much support when they intend to construct a high-quality programme.


반면에 보다 광범위한 교육 수준의 지침이 있는데, 예를 들어 g., the Standards for educational and psychological testing 가 있다[18]. 그러나 이러한 표준은 주로 평가 프로그램 대신 단일 테스트 (즉, 측정 도구)에 집중됩니다. 그리고 표준이 전문가 판단에 개방되어 문맥상의 차이 (예 : 규정)를 인정하고 있음에도 불구하고 그들은 특정 시험 틀과 학습 평가의 관점에서 여전히 공식화되어있다.

On the other hand guidance is available at a broader educational level, e.g., the Standards for educational and psychological testing [18]. But these standards focus predominantly on single tests (i.e. the measuring instrument) instead of on programmes of as- sessment. And, despite the standards being open to expert judgement and acknowledging contextual differences (e.g. in regulations), they are still formulated from a specific testing framework and from the perspective of assessment of learning [19].


프레임 워크는 여러 계층으로 나누어지며 이해 관계자 및 인프라 (외부 계층)의 컨텍스트에 배치됩니다. 시작점은 프로그램의 목적 (프레임 워크의 핵심 요소)입니다. 이 목적을 위해 5 개의 층 (차원)이 구별되었습니다. 

  • (1) 실행중인 프로그램은 프로그램의 핵심 활동, 즉 정보 수집, 정보 결합 및 평가, 후속 조치를 설명합니다. 

  • (2) 프로그램 지원은 테스트 건설 및 교수진 개발 개선, 이해 관계자의 수용 가능성 및 호소 가능성 확보와 같은 현재 평가 프로그램을 최적화하기위한 활동을 설명합니다. 

  • (3) 프로그램을 문서화하면 방어 가능한 프로그램을 달성하고 조직 학습을 포착하는 데 필요한 활동이 설명됩니다. 여기에는 규칙 및 규정, 학습 환경 및 도메인 매핑이 포함됩니다. 

  • (4) 프로그램 개선은 프로그램이 승인 된 후에 평가 프로그램의 재 설계를 목표로하는 차원을 포함합니다. 활동은 R & D 및 변경 관리입니다. 

  • (5) 프로그램을 정당화하는 최종 계층은 효과 성, 효율성 및 수용 가능성을 고려하여 프로그램의 목적이 달성되었다는 증거를 제공하기위한 활동을 설명합니다.

The framework is divided into several layers and is placed in the context of stakeholders and infrastructure (outer layer). The starting point is the purpose of the programme (key element in the framework). Around the purpose, 5 layers (dimensions) were distinguished. 

  • (1) Programme in action describes the core activities of a programme, i.e. collecting information, combining and valuing the information, and taking subsequent action. 

  • (2) Supporting the programme describes activities that are aimed at optimizing the current programme of assess- ment, such as improving test construction and faculty de- velopment, as well as gaining stakeholder acceptability and possibilities for appeal. 

  • (3) Documenting the programme describes the activities necessary to achieve a defensible programme and to capture organizational learning. Ele- ments of this are: rules and regulations, learning environ- ment, and domain mapping. 

  • (4) Improving the programme includes dimensions aimed at the re-design of the programme of assessment, after the programme is admi- nistered. Activities are R&D and change management. 

  • (5) The final layer justifying the programme describes activities that are aimed at providing evidence that the purpose of the programme is achieved taking account of effectiveness, efficiency, and acceptability.





Method


Study design


The development and validation of design guidelines was divided into four phases, 

    • starting with a brainstorm phase to generate ideas using a core group of experts (JD, CvdV and LWTS), 

    • followed by a series of discussions with a wider group of international experts to elaborate on this brainstorm. 

    • Next in a refinement phase, the design guidelines were fine-tuned based on the analysis of the discussions. 

    • Finally a member check phase was initiated to validate the guidelines based on expert consensus.


Participants


Procedure and data analysis


The brainstorm was done by the research team (JD, CvdV,LWTS) based on their experience and data from the preceding study [5]. This resulted in a first draft of the set of guidelines, which served as a starting point for the discus-sion phase. The discussion took place in multiple (Skype®)interviews with the participants. Individual interviews were held with each participant and led by one researcher (JD)with the support of a second member of the research team(either CvdV or LWTS). The interview addressed the first draft of guidelines and was structured around three open questions: 

    • 1. Is the formulation of the guidelines clear, con-cise,correct?

    • 2. Do you agree with the guidelines? 

    • 3. Are any specific guidelines missing? 

The interviews were recorded and analysed by the research team to distil a con-sensus from the various opinions, suggestion, and recom-mendations. One researcher (JD) reformulated the guidelines and to avoid overly adherence to initial formulations the interview data (expert suggestions) were taken as starting point. The goal of the new formulation was to rep- resent the opinions and ideas expressed by the experts as accurately as possible. Peer debriefing was done to check the reformulation by the research team (JD, CvdV, & LWTS) to reach initial consensus. After formulating a complete and comprehensive set of guidelines, a member- check procedure was conducted by e-mail. All participants were sent the complete set for final review and all responded. No content-related issues had to be resolved and some wording issues were resolved as a final consensus document was generated.


Results



일반사항

General



I). 결정 (및 그 결과)은 그것이 근거하고 있는 정보의 품질에 비례해야 합니다.

I). Decisions (and their consequences) should be proportionate to the quality of the information on which they are based.


II) 설계 프로세스의 모든 결정은 과학적 증거 또는 모범 사례의 증거에 의해 뒷받침되는 것이 바람직하다. 평가 프로그램을 설계 할 때 내린 선택을 뒷받침하는 증거가 없다면, 그 결정은 연구를 위해 우선 순위가 높은 것으로 식별되어야합니다.

II) Every decision in the design process should be underpinned preferably supported by scientific evidence or evidence of best practice. If evidence is unavailable to support the choices made when designing the programme of assessment, the decisions should be identified as high priority for research.


III) 평가 프로그램에서 활동을 수행하기 위해서는 특정 전문 지식을 이용할 수 있어야한다.

III) Specific expertise should be available (or sought) to perform the activities in the programme of assessment.




영역별 핵심 가이드라인 

Salient guidelines per dimensions in the framework



목적, 이해관계자, 구조

Purpose, stakeholders, and infrastructure


A1 평가 프로그램의 하나의 핵심 목적이 공식화되어야한다.

A1 One principal purpose of the assessment programme should be formulated.


A4 평가 프로그램에 대한 기회뿐만 아니라 제한 사항은 초기 단계에서 확인되어 설계 과정에서 고려되어야합니다.

A4 Opportunities as well as restrictions for the assessment programme should be identified at an early stage and taken into account in the design process.


A7 다양한 이해 관계자가 설계 프로세스에 참여하는 수준은 프로그램의 목적과 이해 관계자 자신의 필요에 따라 결정되어야합니다.

A7 The level at which various stakeholders participate in the design process should be based on the purpose of the programme as well as the needs of the stakeholders themselves.




프로그램 실행 

Programme in action


B1 프로그램의 평가 요소를 선택할 때 평가 프로그램의 목적에 기여하는 정도가 지침 원칙이어야합니다.

B1 When selecting an assessment component for the programme, the extent to which it contributes to the purpose(s) of the assessment programme should be the guiding principle.


B14 서로 다른 평가 요소에 의해 얻어진 정보의 결합은 목적, 내용 또는 데이터 패턴에 의해 정의된 유의미한 실체에 기초하여 정당화되어야한다.

B14 Combination of the information obtained by different assessment components should be justified based on meaningful entities either defined by purpose, content, or data patterns.


B21 정보는 평가의 목적과 관련하여 이해 관계자에게 최적으로 제공되어야한다.

B21 Information should be provided optimally in relation to the purpose of the assessment to the relevant stakeholders.



프로그램 지원

Supporting the programme



C4 평가 구성 요소 구축을 지원하려면 도메인 전문 지식 및 평가 전문성이 필요합니다.

C4 Support for constructing the assessment components requires domain expertise and assessment expertise.


C6 고부담 평가일수록 절차가 더 강력해야 한다.

C6 The higher the stakes, the more robust the procedures should be.


C8 프로그램의 acceptance가 광범위하게 모색되어야한다.

C8 Acceptance of the programme should be widely sought.




프로그램 문서화

Documenting the programme


D9 도메인 맵은 평가 프로그램에서 도메인을 적합하게 보여주어야한다.

D9 A domain map should be the optimal representation of the domain in the programme of assessment.


프로그램 개선

Improving the programme


E1 정기적 인 반복적 인 평가 및 개선 프로세스가 마련되어 피드백 루프를 마감해야합니다.

E1 A regular and recurrent process of evaluation and improvement should be in place, closing the feedback loop.


E4 변화를위한 모멘텀은 필요한 우선 순위 또는 외부 압력으로부터 생성되어야한다.

E4 Momentum for change has to be seized or has to be created by providing the necessary priority or external pressure.



프로그램 합리화

Justifying the programme


F2 새로운 시도 (개발)에는 평가, 바람직하게는 과학 연구가 수반되어야합니다.

F2 New initiatives (developments) should be accompanied by evaluation, preferably scientific research.


F6 비용 편익 분석은 프로그램의 목적에 비추어 정기적으로 이루어져야한다. 장기적으로보다 자원 효율적인 대안을 모색하는 적극적인 접근 방식을 채택해야합니다.

F6 A cost-benefit analysis should be made regularly in light of the purposes of the programme. In the long term, a proactive approach to search for more resource-efficient alternatives should be adopted.


F10 기밀성 및 정보 보안은 적절한 수준에서 보장되어야합니다.

F10 Confidentiality and security of information should be guaranteed at an appropriate level.




고찰 및 결론 

Discussion and conclusion


최대한 포괄적이되도록 노력하면서 우리는 과잉 포용의 위험에 대해 인정합니다. 우리는 평가 프로그램을 설계 할 때 이러한 지침을 신중하게 적용해야한다는 점을 강조하고자합니다. 인식한 상황과 실제 상황이 다르다는 것을 강조하며, 모든 지침이 모든 상황에서 적절하지 않을 수도 있습니다. 따라서 평가 프로그램을 설계하는 것은 어떤 지침을 다른 지침보다 우선해야 하는지를 선택하는 등 선택의 폭이 넓고 타협하는 것을 의미합니다. 그럼에도 불구하고 우리는이 프로그램이 평가 프로그램의 프레임 워크와 결합되어 설계자가 평가 프로그램의 복잡한 역 동성에 대한 개요를 유지할 수 있다고 생각합니다. 상호 연관된 일련의 가이드 라인은 설계자가 문제가있는 영역을 예측하는 데 도움을 주며 그렇지 않은 경우 실제 문제가 발생할 때까지 암시 적으로 유지됩니다.

In trying to be as comprehensive as possible we acknow- ledge the risk of being over-inclusive. We would like to stress that when designing a programme of assessment, these guidelines should be applied with caution. We recog- nise and indeed stress that contexts differ and not all guidelines may be relevant in all circumstances. Hence, designing an assessment programme implies making delib- erate choices and compromises, including the choice of which guidelines should take precedence over others. Nevertheless, we feel this set combined with the frame- work of programmes of assessment enables designers to keep an overview of the complex dynamics of a programme of assessment. An interrelated set of guide- lines aids designers in foreseeing problematic areas, which otherwise would remain implicit until real problems arise.



Additional file 1 Addendum complete set of guidelines - BMC Med Educ - final.doc. This addendum contains the set of 72 guidelines developed and validated in this study.



12909_2012_589_MOESM1_ESM.docx





Introduction

GENERAL GUIDELINES

I           Decisions (and their consequences) should be proportionate to the quality of the information on which they are based.

II         Every decision in the design process should be underpinned preferably supported by scientific evidence or evidence of best practice. If evidence is unavailable to support the choices made when designing the programme of assessment, the decisions should be identified as high priority for research.

III        Specific expertise should be available (or sought) to perform the activities in the programme of assessment.

PURPOSE OF THE PROGRAMME

A1       One principal purpose of the assessment programme should be formulated.

A2       Long-term and short-term purposes should be formulated. But the number of purposes should be limited.

A3       An overarching structure which projects the domain onto the assessment programme should be constructed.

INFRASTRUCTURE

A4       Opportunities as well as restrictions for the assessment programme should be identified at an early stage and taken into account in the design process.

A5       Design decisions should be checked against consequences for the infrastructure. If necessary compromises should be made, either adjusting the purpose(s) of the assessment programme or adapting the infrastructure.

STAKEHOLDERS

A6       Stakeholders of the assessment programme should be identified and a rationale provided for including the expertise of different stakeholders (or not) and the specific role(s) which they should fulfil.

A7       The level at which various stakeholders participate in the design process should be based on the purpose of the programme as well as the needs of the stakeholders themselves.

PROGRAMME IN ACTION

Collecting Information

B1       When selecting an assessment component for the programme, the extent to which it contributes to the purpose(s) of the assessment programme should be the guiding principle.

B2       When selecting an assessment (component or combination), consideration of the content (stimulus) should take precedence over the response format.

B3       The assessment should sample the intended cognitive, behavioural or affective processes at the intended level.

B4       The information collected should be sufficiently informative (enough detail) to contribute to the purpose of the assessment programme.

B5       The assessment should be able to provide sufficient information to reach the desired level of certainty about the contingent action.

B6       The effect of the instruments on assessee behaviour should be taken into account.

B7       The relation between different assessment components should be taken into account

B8       The overt and covert costs of the assessment components should be taken into account and compared to alternatives.

B9       Assessment approaches that work well in a specific context (setting) should first be re-evaluated before use in another context (setting) before implementation.

B10     A programme of assessment should deal with error and bias in the collection of information. Error (random) is unpredictable and should be reduced by sampling (strategies). Bias (Systematic) should be analysed and its influence should be reduced by appropriate measures.

B11     Any performance categorisation system should be as simple as possible.

B12     When administering an assessment (component), the conditions (time, place, etc.) and the tasks (difficulty, complexity, authenticity, etc) should support the purpose of the specific assessment component.

B13     When scheduling assessment, the planning should support instruction and provide sufficient opportunity for learning.

Combining Information

B14     Combination of the information obtained by different assessment components should be justified based on meaningful entities either defined by purpose, content, or data patterns.

B15     The measurement level of the information should not be changed.

B16     The consequences of combining information obtained by different assessment components, for all stakeholders, should be checked.

Valuing Information

B17     The amount and quality of information on which a decision is based should be in proportion to the stakes.

B18     A rationale should be provided for the standard setting procedures.

Taking Action

B19     Consequences should be proportionally and conceptually related to the purpose of the assessment and justification for the consequences should be provided.

B20     The accessibility of information (feedback) to stakeholders involved should be defined.

B21     Information should be provided optimally in relation to the purpose of the assessment to the relevant stakeholders.

SUPPORTING THE PROGRAMME

Construction Support

C1       Appropriate central governance of the programme of assessment should be in place to align different assessment components and activities.

C2       Assessment development should be supported by quality review to optimise the current situation (Programme in Action), appropriate to the importance of the assessment.

C3       The current assessment (Programme in Action) should be routinely monitored on quality criteria.

C4       Support for constructing the assessment components requires domain expertise and assessment expertise.

C5       Support tasks should be well-defined and responsibilities should lie with the right persons.

Political and Legal Support

C6       The higher the stakes, the more robust the procedures should be.

C7       Procedures should be made transparent to all stakeholders.

C8       Acceptance of the programme should be widely sought.

C9       Protocols and procedures should be in place to support appeal and second opinion.

C10     A body of appeal should be in place

C11     Safety net procedures should be in place to protect both assessor and assessee.

C12     Protocols should be in place to check (the programme in action) on proportionality of actions taken and carefulness of assessment activities.

DOCUMENTING THE PROGRAMME

Rules and Regulations (R&R)

D1       Rules and regulations should be documented.

D2       Rules and regulations should support the purposes of the programme of assessment.

D3       The impact of rules and regulations should be checked against managerial, educational, and legal consequences.

D4 In drawing up rules and regulations one should be pragmatic and concise, to keep them manageable and avoid complexity.

D5       R&R should be based on routine practices and not on incidents or occasional problems.

D6       There should be an organisational body in place to uphold the rules and regulations and take decisions in unforeseen circumstances.

Learning Environment

D7       The environment or context in which the assessment programme has to function should be described.

D8       The relation between educational system and assessment programme should be specified.

Domain Mapping

D9       A domain map should be the optimal representation of the domain in the programme of assessment.

D10     A domain map should not be too detailed.

D11     Starting point for a domain map should be the domain or content and not the assessment component.

D12     A domain map should be a dynamic tool, and as a result should be revised periodically.

IMPROVING THE PROGRAMME

R&D

E1        A regular and recurrent process of evaluation and improvement should be in place, closing the feedback loop.

E2        If there is uncertainty about the evaluation, more information about the programme should be collected.

E3        In developing the programme (re-design) again improvements should be supported by scientific evidence or evidence of best practice.

Change Management

E4        Momentum for change has to be seized or has to be created by providing the necessary priority or external pressure.

E5        Underlying needs of stakeholders should be made explicit.

E6        Sufficient expertise about change management and about the local context should be sought.

E7        Faculty should be supported to cope with the change by providing adequate training

JUSTIFYING THE PROGRAMME

Effectiveness

Scientific Research

F1        Before the programme of assessment is designed, evidence should to be reviewed.

F2        New initiatives (developments) should be accompanied by evaluation, preferably scientific research.

External Review

F3        The programme of assessment should be reviewed periodically by a panel of experts.

F4        Benchmarking against similar assessment programmes (or institutes with similar purposes) should be conducted to judge the quality of the programme.

Efficiency: cost-effectiveness

F5        In order to be able to justify the resources used for the assessment programme, all costs (in terms of resources) should be made explicit.

F6        A cost-benefit analysis should be made regularly in light of the purposes of the programme. In the long term, a proactive approach to search for more resource-efficient alternatives should be adopted.

Acceptability: political-legal justification

F7        Open and transparent governance of the assessment programme should be in place and can be held accountable

F8        In order to establish a defensible programme of assessment there should be one vision (on assessment) communicated to external parties.

F9        The assessment programme should take into account superseding legal frameworks.

F10      Confidentiality and security of information should be guaranteed at an appropriate level.




 2012 Apr 17;12:20. doi: 10.1186/1472-6920-12-20.

Expert validation of fit-for-purpose guidelines for designing programmes of assessment.

Author information

1
Department of Educational Development and Research, Maastricht University, Maastricht, The Netherlands. Joost.dijkstra@maastrichtuniversity.nl

Abstract

BACKGROUND:

An assessment programme, a purposeful mix of assessment activities, is necessary to achieve a complete picture of assessee competence. High quality assessment programmes exist, however, design requirements for such programmes are still unclear. We developed guidelines for design based on an earlier developed framework which identified areas to be covered. A fitness-for-purpose approach defining quality was adopted to develop and validate guidelines.

METHODS:

First, in a brainstorm, ideas were generated, followed by structured interviews with 9 international assessment experts. Then, guidelines were fine-tuned through analysis of the interviews. Finally, validation was based on expert consensus via member checking.

RESULTS:

In total 72 guidelines were developed and in this paper the most salient guidelines are discussed. The guidelines are related and grouped per layer of the framework. Some guidelines were so generic that these are applicable in any design consideration. These are: the principle of proportionality, rationales should underpin each decisions, and requirement of expertise. Logically, many guidelines focus on practical aspects of assessment. Some guidelines were found to be clear and concrete, others were less straightforward and were phrased more as issues for contemplation.

CONCLUSIONS:

The set of guidelines is comprehensive and not bound to a specific context or educational approach. From the fitness-for-purpose principle, guidelines are eclectic, requiring expertise judgement to use them appropriately in different contexts. Further validation studies to test practicality are required.

PMID:
 
22510502
 
PMCID:
 
PMC3676146
 
DOI:
 
10.1186/1472-6920-12-20


전문역량 평가: 이론 개발을 위한 구성 요소 (Best Pract Res Clin Obstet Gynaecol, 2010)

The assessment of professional competence: building blocks for theory development

C.P.M. van der Vleuten, PhD, Professor of Education a,*, L.W.T. Schuwirth, MD, PhD, Professor for Innovative Assessment a,d, F. Scheele, MD, PhD, Gynaecologist and Professor of Medical Education b,e, E.W. Driessen, PhD, Senior Lecturer in Education a,d, B. Hodges, PhD, Psychiatrist, Richard and Elizabeth Currie Chair in Health Professions Education Research c, f

a Department of Educational Development and Research, Maastricht University, P.O. Box 616, 6200 MD, Maastricht, The Netherlands

b Department of Obstetrics and Gynaecology, Saint Lucas Andreas Hospital, Jan Tooropstraat 164, 1016 AE Amsterdam, The Netherlands

c The Wilson Centre for Research in Education, 200 Elizabeth Street, 1ES 565, Toronto, Ontario, Canada, M5G 2C4






Miller의 피라미드는 이 평가 검토를 구성하는 편리한 프레임 워크 3로 사용됩니다 (그림 1).

Miller’s pyramid is used by the authors as a convenient framework3 to organise this review of assessment (Fig. 1).


처음 세 개의 레이어 : 'Knows', 'Knows how', 'Shows how'

The first three layers: ‘Knows’, ‘Knows how’ and ‘Shows how’


역량은 구체적이지 제네릭이 아닙니다.

Competence is specific, not generic


이것은 평가 문헌에서 가장 잘 입증 된 경험적 연구 결과 중 하나입니다 .4 의학 교육에서는 소위 환자 관리 문제 (PMP)에 대한 연구에서 처음 설명되었습니다 .5,6 PMP는 정교하고 작성된 환자 시뮬레이션 및 후보자의 경로와 문제 해결에서의 선택은 점수를 매겨 임상 적 추론의 적격성을 나타냅니다. 반직관적이지만, 한 케이스에 대한 성과가, 심지어 동일한 영역 내의 다른 케이스에 대해서좌, 성과를 예측하는 지표로 좋지 않다는 결과가 나왔다. 이 현상은 후에 (무엇을 측정하는가와 무관하게) 기본적으로 모든 평가 방법에서 입증되었습니다. 이것을 (임상) 능력의 '내용-특이성'문제로 부른다.

This is one of the best-documented empirical findings in the assessment literature.4 In medical education, it was first described in the research on so-called patient management problems (PMPs).5,6 PMPs are elaborate, written patient simulations, and candidates’ pathways and choices in resolving a problem are scored and taken as indications of competence in clinical reasoning. A quite discon- certing and counterintuitive finding was that candidates’ performance on one case was a poor predictor of performance on any other given case, even within the same domain. This phenomenon was later demonstrated in basically all assessment methods, regardless of what was being measured. It was termed the ‘content specificity’ problem of (clinical) competence.


역량 및 기술에 관한 많은 아이디어는 성격 특성에 대한 연구에서 나온 개념에 기반을 두었습니다. 성격 특성은 관측불가능하여, (행동에서) '유추'되고, 안정된 형질이며, 다른 형질과 구별되며 단조로운 선형 성장을 특징으로 한다. 전형적인 예는 지능입니다. 직접 관찰 할 수는 없으므로 행동에서 유추해야합니다. 다른 개성과는 무관합니다.

much of the thinking about competencies and skills was based on notions from research on personality traits. Personality traits are unobservable, ‘inferred’, stable traits, distinct from other traits and characterised by monotonous linear growth. Atypical example of a trait is intelligence. It cannot be observed directly, so it has to be inferred from behaviour; it is independent of other personality traits, etc.


내용특이성은 인지 심리학에서도 발견되었는데, 오래전부터 학습에서 transfer가 중요한 문제로 확인되었기 때문이다. 9 이것은 인지 심리학에 대한 많은 연구를 촉발하여 학습자가 문제를 어떻게 추론하는지, 현저하게 중요한 지식이 어떻게 존재하는지, 어떻게 개인적 경험의 결과로  정보가 청크되고 자동화되고 개인화되는지, 사람들이 고의적이고 지속적인 연습을 통해 전문가가 되는지 10,11

Content specificity resonated with findings from cognitive psychology, where much earlier transfer was identified as a fundamental problem in learning.9 This sparked a great deal of research in cognitive psychology, providing insights on 

    • how learners reason through problems, 

    • how eminently important knowledge is therein, 

    • how information is chunked, automated and personalised as a result of personal experience and 

    • how people become experts through deliberate and sustained practice.10,11 


인지심리학의 관점에서 볼 때 내용특이서 현상은 매우 논리적 이고 자연스러운 현상이다.

Viewed from the perspective of cognitive psychology, the phenomenon of content specificity thus becomes understandable as a quite logical natural phenomenon.


간단히 말해, 하나의 측정 값은 측정 값이 아니며, single-point 평가는 신뢰할 수 없습니다. 가장 현명한 전략은 오랜 시간에 걸쳐 다양한 평가 소스에서 정보를 결합하는 것입니다.

In short, one measure is no measure, and single-point assessments are not to be trusted. The wisest strategy is to combine information across content, across time and across different assessment sources.



객관성은 신뢰성과 동일하지 않습니다.

Objectivity does not equal reliability


신뢰도는 방법의 객관성에 따라 달라지는 것이 아니다. 즉, 주관적 테스트도 높은 신뢰성을 가질 수 있으며, 객관적 테스트도 샘플링에 따라 신뢰도가 낮을 수 있다12. 폭넓은 표본추출을 해야 하는 이유가 내용특이성만 있는 것은 아니다.

reliability does not co-vary with the objectivity of methods; so-called subjective tests can be reliable and objective tests can be unreliable, all depending on the sampling within the method.12 It became clear that content specificity was not the only reason to sample widely across content.


OSCE의 개념은 기존의 임상 평가 절차의 주관성을 극복하기 위해 창안되었습니다. 객관성과 표준화가 그 해결책이었고, 따라서 머리 글자에서 'O'와 'S'를 사용했습니다. 그러나 연구가 축적됨에 따라 OSCE의 신뢰도는 다른 방법들과 마찬가지로 표본 추출에 달려있음이 확인되었다.15) 신뢰도는 객관성과 표준화에 달려있는 것이 아니었으며, 오히려 스테이션과 평가자 샘플링에 영향을 받았다. 

The concept of the OSCE arose to combat the subjectivity of the then-existing clinical assessment procedures. The solution was sought in objectivity and in standardisation, hence the ‘O’ and ‘S’ in the acronym. However, as research accumulated, the OSCE turned out to be as (un)reliable as any method, all depending on the sampling within the OSCE.15 Apparently, reliability depended less on objectivity and standardisation than on sampling of stations and assessors. 


또 하나의 퍼즐은 글로벌 등급 척도와 체크리스트 등급 사이의 강한 상관 관계이다. 16,17 분명히 글로벌 평가에서 평가자간 신뢰도가 약간 감소하지만, 스테이션 간 신뢰도는 증가하여 이러한 손해를 보상한다. 더 분석적인 체크리스트 점수와 비교할 때 글로벌 평가는 수행능력의 특정 요소만을 집중하게 만들기도 하지만, 오히려 이것이 여러 스테이션에 걸쳐 더 일반화가능하였다. 또한 글로벌 평가 척도가 보다 타당한 것으로 판명되었다. 즉, 글로벌 평가에서 전문성 수준을 더 잘 구분할 수 있었으며, 이는 전문가의 판단이 '잡음'만 측정하는 대신 의미있는 '신호'를 잡아낼 수 있음을 보여준다.

Further research around the OSCE revealed yet another piece of the puzzle: a strong correlation between global rating scales and checklist ratings.16,17 Admittedly, global ratings were associated with a slight decrease in inter-rater reliability, but this was offset by a larger gain in inter- station reliability. Apparently, compared with the more analytical checklist scores, global, holistic judgements tended to pick up on elements in candidates’ performance, which were more generalisable across stations. In addition, global rating scales proved to be more valid: they were better able to discriminate between levels of expertise.18,19 This was a clear and intriguing first indication that human expert judgement could add (perhaps even incrementally) meaningful ‘signal’ to measurements instead of only ‘noise’.


객관성이 신뢰성과 동의어가 아니라는 개념은 광범위한 실제적 결과를 가져옵니다. 가장 중요한 것은 인간(전문가)의 판단에 대한 의존을 정당화해준다.

The notion that objectivity is not synonymous with reliability has far-reaching practical conse- quences. Most importantly, it justifies reliance on (expert) human judgement.


우리의 샘플링이 적절하다면, 우리는 우리의 평가 레퍼토리에서 주관적이고 전체론적인 판단을 금지 할 이유가 없다. 우리의 견해로 이것은 OSCE가 도입되었을 때 포기한 임상 환경에서의 평가의 재도입을 정당화한다. 다만 차이는, 이제는 이러한 움직임이 평가 이론에 의해 과학적으로 뒷받침된다는 점이다.

It is reassuring to know that, provided our sampling is adequate, we have no reason to ban subjective and holistic judgements from our assessment repertoire. In our view, this justifies the return of assessment to the clinical environ- ment, which it had abandoned when the OSCE was introduced. Only this time, the move is scientifically underpinned by assessment theory.





무엇이 측정되느냐는 응답 형식보다는 자극 형식에 의해 결정됩니다

What is being measured is determined more by the format of the stimulus than by the format of the response



모든 평가 방법은 자극 형식 응답 형식으로 이루어져있다. 자극은 응시자에게 제공되는 작업이며 응답은 어떻게 응답이 캡처되는지 결정합니다. 

    • 자극 형식은 사실을 이끌어내는 서면 과제, 진단 선택을 촉구하는 서면 환자 시나리오 일 수 있습니다. 

    • 응답은 짧은 객관식 질문 (MCQ) 또는 긴 메뉴 응답, 글쓰기, 에세이, 구두 상황, 체크리스트에보고 된 직접 관찰 등으로 파악할 수 있습니다. 

Any assessment method is characterised by its stimulus and response formats.20 The stimulus is the task presented to the candidate, and the response determines how the answer is captured. 

    • A stimulus format may be a written task eliciting a fact, a written patient scenario prompting a diag- nostic choice . 

    • Responses can be captured by short multiple-choice questions (MCQ) orlong menu answers, a write-in, an essay, an oral situation, direct observation reported in a checklist,etc. 


하나의 평가방법이 다양한 응답 형식을 사용할 수 있지만, 평가 방법은 대개 응답 형식 (즉, MCQ, 에세이, 구강 등)을 기준으로 구분된다.

Although different response formats can be used with one method, assessment methods are typically characterised by their response formats (i.e., MCQs, essays, orals, and so on). 


경험적 연구에서 놀랍게도, 무엇이 측정되는가, 즉 타당도는 응답 형식에 의해 크게 결정되지는 않는다는 것이 밝혀졌습니다 .20 사례의 특수성과 마찬가지로,이 발견은 처음에는 반 직관적인 것처럼 보였습니다. 실제로 테스트 개발자들 사이에서는 에세이는 이해를 평가하고, 객관식 질문은 지식을 평가한다고 널리 받아들여져 왔다. 무엇을 측정하는지를 결정하는 것이 응답 형식이 아니라 자극 형식임을 부정 할 수는 없습니다. 예를 들어, 인지심리학에 대한 연구는 케이스 형태로 주어진 자극에서 유발된 사고 과정은 사실적 지식으로부터 유발된 사고 과정과 다르다는 것을 보여 주었다 .23,24 또한, 지필고사 형식의 평가가이 OSCE 성과를 상당 부분 예측한다는 증거가있다 .25

What empirical research revealed, surprisingly, was that validity – what is being measured – was not so much determined by the response format as by the stimulus format.20 Like case specificity, this finding seemed highly counterintuitive at first sight. In fact, among test developers, it remains a widely accepted notion that essays tap into understanding and multiple-choice questions into factual knowledge. Although there are certain trade-offs (as we pointed out in relation to checklists and rating scales), there is no denying that it is the stimulus format and not the response format that dictates what is being measured. Studies in cognitive psychology, for example, have shown that the thought processes elicited by the case format differ from those triggered by a factual recall stim- ulus.23,24 Moreover, there is evidence that written assessment formats predict OSCE performance to a large extent.25


타당성을 결정할 때 자극 형식이 무엇보다 중요하다는 것은 실제적인 함의를 가지고 있습니다. 적절한 응답 형식보다 적절한 자극 형식을 고안해야합니다. 자극 형식에는 authenticity가 필수적이며, 이를 위해서는 적절한 수준의 복잡성complexity가 필요하다. 짧은 시나리오는 비교적 쉽게 개발할 수 있을 뿐만 아니라 매우 효율적이었습니다 (넓은 샘플링에 적합). 미국과 캐나다의 인증 시험은 짧은 시나리오에 기반한 자극형식을 활용함으로써 'Knows'측정에서 'Knows how'측정으로 완전히 바뀌 었습니다. 26,27 적절한 authenticity를 갖춘 자극형식은 OSCE에도 필요하다. 고전적인 OSCE는 단편화된 임상 기술을 평가하는 짧은 스테이션으로 구성됩니다 (예 : 스테이션 1 : 복부 검사, 스테이션 2 : 의사소통). 비록 기술을 분절화하여 평가하는 것이 훈련 초기 단계에서는 타당할지 몰라도(이조차도 의문은 있지만), 상위 훈련 단계에서는 기술을 통합적으로 평가하는 것이 실제 임상상황과 더 근접한 자극 형식이다 .

The insight that the stimulus format is paramount in determining validity has first of all a practical implication: we should worry much more about designing appropriate stimulus formats than about appropriate response formats. An additional, related, insight concerns the stimulus format: authenticity is essential, provided the stimulus is pitched at the appropriate level of complexity. Thus, short scenarios turned out to be not only relatively easy to develop, but they were quite efficient as well (good for wide sampling). It is no coincidence that written certifying examinations in the US and Canada have completely moved from measuring ‘Knows’ to measuring ‘Knows how’, using short scenario-based stimulus formats.26,27 Pitching formats at the appropriate level of authenticity is relevant for OSCEs too. The classic OSCE consists of short stations assessing clinical skills in fragmentation (e.g., station 1: abdominal examination, station 2: communi- cation). Although fragmented skills assessment may be defensible at early stages of training (although one might question that too), at more advanced stages of training, integrated skills assessment is obviously a more appropriate stimulus format, since it provides a closer approximation of the real clinical encounter.


자극 형식의 중요성에 대한 두 번째 의미는보다 이론적이다.

A second implication of the significance of the stimulus format is more theoretical,


평가를 통해 정보를 수집 할 때 우리는 의미있는 실체meaningful entity를 사용해야하며, 이는 주로 자극형식의 내용에 따라 결정된다. 이것은 single method-to-trait match로부터의 이탈을 의미합니다

When we aggregate information across assessments, we should use meaningful entities, probably largely determined by or related to the content of the stimulus format. This signifies a departure from the single-method-to-trait match


이는 특성 접근법과 일치하지만 많은 평가 방법의 특징입니다. 하나의 방법으로 집합하는 것이 쉽습니다.

which is in line with the trait approach and still characteristic of many assessment practices: it is easy to aggregate within one method.


예를 들어, 병력청취 스테이션의 점수를 인공 호흡 스테이션 점수와 합산하는 것이 이치에 맞습니까? 분명히, 두 스테이션은 매우 다른 기술을 측정합니다. 방법의 유사성이 점수 합산의 합리성을 보장합니까? 우리는 정당성이 없다고 봅니다. 유사한 의미의 정보 출처에 대한 정보들만이 서로 합산되어야 함을 의미합니다.

For example, does it make sense to add the score on a history-taking station to the score on the next station on resuscitation? Clearly, these stations measure very different skills. Why does similarity of method warrant aggregation? We see no legitimacy. Nonetheless, inour view, the prominence of the stimulus implies that we should aggregate information across sources of information that are meaningfully similar and make sense.



타당성은 '내장'될 수 있습니다.

Validity can be ‘built-in’


평가는 개발하기 쉽지 않고, 평가에 투입되는 시간과 에너지만큼만 좋다는 것입니다. 우수한 평가는 테스트 개발과 테스트 관리 둘 다에 대한 품질을 보증해야 한다. 

    • 개발 단계의 시험에 대한 품질 평가는 필수적입니다. 피어 리뷰는 평가의 품질을 향상시키기위한 필수 요소입니다 .29 불행히도, 의대에서 시험자료가 시험관리 전후에 잘 검토되지 않는다. 당연히 학교 내의 테스트 자료의 질이 좋지 않은 경우가 종종 있습니다 .30 

    • 테스트 관리의 경우에도 마찬가지입니다. 예를 들어, OSCE에 대해 SP 및 평가자를 훈련시키는 것은 중요합니다. 왜냐하면 측정에서 노이즈를 방지하는 측면에서 차이가 있기 때문입니다.

The general notion here is that assessment is not easy to develop and is only as good as the time and energy put into it. Good assessment crucially depends on quality assurance measures around both test development and test administration. 

    • Quality appraisal of tests during the developmental stage is imperative. Peer review is an essential ingredient of efforts to improve the quality of test materials significantly.29 Unfortunately, it is not uncommon for test materials in medical schools to go unreviewed both before and after test administration. Not surprisingly, the quality of test materials within schools is often poor.30 

    • The same holds for test administration. For example, it is important to train SPs and assessors for an OSCE, because it makes a difference in terms of preventing noise in the measurement.


교육 성과 테스트에 관한 초기 이론가 중 한 명인 에벨 (Ebel)은 타당성이 평가 방법의 '내장'될 수 있다고 주장했다. 밀러 피라미드의 아래 세 층에서는 모든 평가가 통제되고 최적화 될 수 있다. 평가자료를 검토하고, 이해 관계자를 준비하고, 관리 절차를 표준화하고, 심리 검사 절차를 마련하는 등의 조치를 취할 수 있다. 이러한 과정을 얼마나 잘 했느냐가 궁극적으로 평가에 의해 뒷받침되는 추론의 타당성을 결정한다.

Ebel, one of the early theorists on educational achievement testing, argued that validity can be a ‘built-in’ feature of an assessment method. We take the view that all assessment at the three bottom layers of Miller’s pyramid can be controlled and optimised: materials can be scrutinised, stakeholders prepared, administration procedures standardised, psychometric procedures put in place, etc. The extent to which this is actually done will ultimately determine the validity of the inferences supported by the assess-ment. 


이것의 실용적인 의미는, 리소스가 허용하는 한 테스트 구축 및 관리 프로세스에 많은 시간과 노력을 투자해야 한다는 것입니다. 또 다른 의미는 자원 공유에 대해 고려해야한다는 것입니다. 훌륭한 평가 자료는 비용이 많이 들기 때문에 학교와 교육 기관에서 공유하지 말아야 할 이유는 무엇입니까?

The logical practical implication is to invest as much time and effort in test construction and administration processes as resources will allow. Another implication is that we should consider about sharing resources. Good assessment material is costly, so why not share it across schools and insti- tutions?


평가는 학습을 유도한다

Assessment drives learning


"평가는 학습을 유도한다"는 말은 이제 거의 진부 해졌습니다. 좋든 나쁘든 평가가 학습에 영향을 미친다는 것을 "결과적 타당성"이라고도 부른다. [33] 그것은 내재적 동기 부여를 부정한다고 주장하는 사람들에 의해 비판 받았다. 의심 할 여지없이, 학습자는 스스로 동기를 부여하지만, 영향력지수가 연구자들의 출판행위를 유도하듯, 학습자도 성공의 기회를 극대화하려고 노력할 것입니다.

By now, it has almost become a cliché in assessment that assessment drives learning. The idea that assessment affects learning, for better or for worse, is also termed ‘consequential validity’.33 It has been criticised by some who argue that it negates intrinsic motivation.34 Without any doubt, learners are also intrinsically motivated but at the same time, learners will try to optimise their chances of success, much as researchers allow impact factors to drive their publication behaviour.


이러한 전략에 참여한 학습자를 비난 할 수는 없습니다. 그럼에도 불구하고이 관계는 제대로 이해되지 않고 있습니다.

one cannot blame learners for engaging in these strategies. Nevertheless, the relationship remains poorly understood (what happens, to whom and why?)


이것의 즉각적인 함의는 평가를 모니터하고 학습자에게 미치는 영향을 평가해야한다는 것입니다. 평가는 종종 의도한 것과 반대 효과를 얻는 것으로 알려져 있습니다. 예를 들어, 우리 학교에 OSCE를 도입했을 때, 학생들은 즉시 체크리스트를 암기하기 시작했고, OSCE에서의 퍼포먼스도 보통 수준이었다.35 이것은 우리가 품질 관리에 대해 강조한 점을 강화하고 테스트 관리를 넘어서서 확장합니다.

The immediate implication is that we should monitor assessment and evaluate its effect on learners. Assessment has been known to achieve the opposite effect to that intended. For example, when we introduced OSCEs within our school, students immediately started memorising checklists, and their performance in the OSCE was trivialised.35 This reinforces the point we made about quality control, and extends it beyond test administration.



완벽한 단 하나의 방법은 없다.

No single method can do it all


이러한 현실화는 '평가프로그램 (Assessment of Assessment)'를 옹호하는 데 영감을주었습니다 .2,36 각 단일 평가는 일종의 생검biopsy이며, 일련의 생검이 보다 완전하고 정확한 그림을 보여줄 것이다.

This realisation has inspiredus to advocate ‘Programmes of Assessment’.2,36 Each single assessment is a biopsy, and a series of biopsies will provide a more complete, more accurate picture.


평가 프로그램은 커리큘럼에 비유될 수 있다. 커리큘럼은 계획, 준비, 구현, 조정, 평가 및 개선 단계를 밟는다. 평가 프로그램에도 동일한 프로세스가 있어야 한다. 그러한 프로그램은 학생들이 한 지점에서 반성하고, 다른 장소에서 글을 쓰거나, 특정 상황을 발표하거나, 다른 배치 된 지점에서의 행동 수행을 시연하는 등의 자극을주기 위해 계획되고 의도적으로 준비되어야합니다. 

We see an analogy here with a curriculum and how it is governed. A modern curriculum is planned, prepared, implemented, co-ordinated, evaluated and improved. We believe the same processes should be in place for an assessment programme. 

Such a programme needs to be planned and purposefully arranged to stimulate students 

    • to reflect at one point, 

    • to write at another, 

    • to present on certain occasions, 

    • to demonstrate behavioural performance at other arranged points, etc. 


평가 프로그램에서 모든 방법의 효용성은 합목적성에 달려있다. 주의 깊은 유틸리티 타협에 찬성하여, 예를 들어, 학습에 유익한 효과를 사용하기에 덜 신뢰할만한 평가 방법을 포함시킬 수 있다고 주장했다.

In a programme of assessment, any method can have utility, depending on its fitness for purpose. In our earlier reviews, we argued in favour of mindful utility compromises, allowing, for example, inclusion of a less reliable assessment method to make use of its beneficial effect on learning.1


지금까지 논의한 평가에 대한 교훈과 통찰력으로 무장 한 우리는 이제 Miller 's 피라미드의 최첨단을 다룰 준비가되었습니다.

Armed with the lessons and insights on assessment, which we have discussed so far, we are now ready to tackle the top end of Miller’s pyramid.




'Does' 수준의 평가

Assessing ‘Does’


'Does'수준의 평가 방법의 특징은 지식을 가진 사람들의 정보에 의존하여 성과를 판단하는 방식이다. 본질적으로 자연 환경에서의 모든 평가는 지식이있는 다른 사람knowledgeable others 또는 '전문가'판단에 의존합니다. 때로는 간접적으로 의존할 때도 있고, 예컨대 평가가 주로 인공물 (예 : 처방전 기록, 차트 검토, 절차 완료)에 의존 할 때이다.

Any assessment method at the ‘does’ level is characterised one way or another by reliance on information from knowledgeable people to judge performance. Essentially, all assessment in natural settings relies on knowledgeable others or on ‘expert’ judgements. Sometimes reliance is indirect, as when assessment primarily relies on artefacts (e.g., prescription records, chart review, procedures done),


'전문가'라는 용어는 동료, 상사, 동료, 교사, 상사 및 평가자의 업무 또는 교육 성과에 대해 잘 아는 사람을 포함하도록 광범위하게 해석되어야합니다. 평가는 이러한 판단을 정량적 또는 정성적 형태로 수집하는 것으로 구성됩니다. OSCE와는 달리, 본질적으로 Does 평가의 자극 형식은 표준화되지 않고 덜 구조화된 authentic context입니다. 응답 형식은 일반적으로 다소 일반적이며, 특정 평가 맥락에 맞추어 tailored되지 않다.

The term ‘expert’ should be interpreted broadly to include peers, superiors, co-workers, teachers, supervisors, and anyone knowledgeable about the work or educational performance of the assessee. The assessment consists of gathering these judgements in some quantitative or qualitative form. Unlike the OSCE, however, the stimulus format is the authentic context, which is essentially unstandardised and relatively unstructured. The response format is usually more or less generic and is not tailored to a specific assessment context.


미국 대학원 의학 교육 협의회 (Canadian Acceleration Council of Graduate Medical Education)와 캐나다의 'CanMEDS (CanMEDS)'역량에서 잘 알려진 일반적인 역량은 공통적으로 의료 영역에만 국한되지 않고 다른 전문 영역과 동등한 역량에 중점을두고 있습니다. 한 예로 CanMEDS Competency 'Collaborator'또는 'Communicator'가 있습니다. 이러한 역량은 어느 정도 generic하지만, 평가를 할 때는 다른 기술이나 역량과 마찬가지로 맥락-특이적이 된다. 이러한 프레임 워크가보다 일반적인 역량을 집중적으로 강조해야한다는 것은 흥미 롭습니다. 일반적으로 임상에서 문제상황이 발생하면, 이러한 역량이 시험대에 놓인다. 연구에 따르면 노동 시장에서의 성공은 특정 영역의 스킬보다는 일반generic 스킬에 의해 더욱 강력하게 결정됩니다.

the well-known general competencies from the US Accreditation Council of Graduate Medical Education37and the Canadian ‘CanMEDS’ competencies.38 have in common is their emphasis on competencies that are not unique to the medical domain but have equal relevance to other professional domains. An example is the CanMEDS competency ‘Collaborator’ or ‘Communicator’, which has wide applicability. Although these competencies are generic to some extent, we immediately acknowledge that, for assessment purposes, they are just as context-specificas any other skill or competency. It is interesting that these frameworks should heavily emphasise more generic competencies, and they probably do so for all the right reasons. Typically, when things turn bad in clinicians’ performance, it is these competencies that are at stake. Research shows that success in the labour market is more strongly determined by generic skills than by specific domain-specific skills.39


따라서 일반적인 기술을 평가하는 것이 필수적입니다. 그러나 불행히도 이러한 능력은 정의하기가 어렵습니다. 예를 들어 professionalism의 정의는 무척 다양하.3) 상세한 정의와 조작은 체크리스트에 통합 될 수 있지만 사소한 부분은 커진다.

Therefore, it is imperative that generic skills are assessed.Unfortunately, these competencies are as difficult to define as their assessment is indispensable. An illustration in point is professionalism, a competency that has given rise to a plethora of definitions.43 Detailed definitions and operationalisations can be incorporated in a checklist, but the spectre of trivialisation looms large.44 


영역-비특이적 역량을 평가하기 위해서는, 어떤 형태로든 전문가 판단을 활용한 피라미드 상단의 평가에 의존 할 수밖에 없다. 'does'수준에서 효과적인 평가의 핵심은 전문가 판단이다.

We would argue that, to evaluate domain-independent competencies, we have no choice but to rely on assessment at the top of the pyramid, using some form of expert judgement. It follows that expert judgement is the key to effective assessment at the ‘does’ level.


(대학원) 교수 역할을 담당하는 임상 전문가들은 전통적으로 임상 책임을지고 직접 감독없이 임상 작업을 안전하게 수행 할 수있는 능력으로 인해 연수생의 전문성을 측정합니다. '(does)'수준의 포괄적 인 평가 프로그램은 statements of awarded responsibility (STAR)를 달성해야한다.

Clinical professionals in a (postgraduate) teaching role traditionally gauge the professional maturity of trainees by their ability to bear clinical responsibility and to safely perform clinical tasks without direct supervision. It has been advocated that a summative assessment programme at the ‘does’ level should result in statements of awarded responsibility (STARs).45


'Does'수준의 모든 현대적 평가 방법은 교육적 또는 임상적 맥락과 평가자에 대한 빈번한 표본 추출을 동반한다. 내용특이성을 처리하기 위해서는, 일정한 범위의 컨텍스트에 걸쳐 샘플링하는 것이 항상 중요하다. 동시에 전문가 판단의 주관성 역시 전문가 / 평가자를 통한 추가 표본 추출에 의해 균형을 이루어야 한다. 이론적으로는 합산된 정보가 개별 평가의 주관성을 극복하기에 충분해야합니다.

All modern methods of assessment at the ‘does’ level allow for or apply frequent sampling across educational or clinical contexts and across assessors. The need to deal with content specificity means that sampling across a range of contexts remains invariantly important. At the same time, the subjectivity of expert judgements needs to be counterbalanced by additional sampling across experts/ assessors. The aggregate information must theoretically suffice to overcome the subjectivity of indi- vidual assessments.




직접 수행능력 측정

Direct performance measures


직접수행능력측정에서 기간의 길이에 따라 평가가 이루어지는 두 가지 평가 방법이 있다. 

    • 'Individual Encounter'방법에서 성과 평가는 환자의 만남 (부분)과 같은 단일 구체적인 상황에 국한됩니다. 여기에는 Mini-Clinical Evaluation Exercise (Mini-CEX48), Practical Skills의 직접 관찰 (DOPS49), Professionalism Mini-evaluation (P-Mex50) 및 임상 만남의 비디오 관찰이 포함됩니다 .51 구체적인, 시간이 정해진, 짧은 (따라서 '미니'별칭), authentic encounter를 통해서, 평가자는 여러 역량을 반영하는 일반 등급 형식에 따라 평가한다.

      개별 연수생의 경우,이 평가 절차는 여러 번의 만남과 평가자에 걸쳐 반복됩니다.

Within direct performance measures, we make another distinction between two classes of assessment methods, characterised by the length of the period over which the assessment takes place. In ‘Individual Encounter’ methods, performance assessment is confined to a single concrete situation, such as one (part of a) patient encounter. Instruments that are found here include the Mini-Clinical Evaluation Exercise (Mini-CEX48), Direct Observation of Practical Skills (DOPS49), the Professionalism Mini-evaluation (P-Mex50) and video observation of clinical encounters.51 In a concrete, time-bound, usually short (hence the ‘mini’ epithet), authentic encounter, performance is appraised by an assessor using a generic rating form often reflecting multiple competencies,


For individual trainees, this assessment procedure is repeated across a number of encounters and assessors.


    • 두 번째 종류의 방법은 장기간의 방법longer-term methods으로, 성능은 몇 주에서 몇 달 또는 심지어 수 년의 장기간에 걸쳐 평가됩니다. 개별적인 만남을 판단하는 대신 평가자는 오랜 시간 동안 학습자의 업무에 노출된다. 이 예로는 동료 평가 52와 다중 소스 피드백이 있습니다. Multisource 또는 360, feedback (MSF)은 피어 피드백의 연장입니다.

      MSF의 구체적인 절차는 다를 수 있습니다. 경우에 따라서는 학습자가 평가자를 선택합니다. 어떤 경우에는 학습자가는 선택권이 없습니다. 때로 평가자는 익명으로 유지되며 때로는 그들의 신분이 학습자에게 공개됩니다.

The second class of methods we propose are longer-term methods, in which performance is assessed over a longer period of time, ranging from several weeks to months or even years. Instead of judging individual encounters, assessors here rely on their exposure to the learner’s work for an extended period of time. Examples of these methods include peer assessment52 and multisource feedback.53 Multisource,   or 360 , feedback (MSF) is an extension of peer feedback.


Concrete procedures around MSF may vary. In some implementations, the learner selects the assessors; in others, the learner has no say in this. Sometimes the assessors remain anonymous and sometimes their identity is disclosed to the learner.



다른 모든 성과 평가 방법과 달리 수련중평가in-training evaluation (ITE) 는 단일 평가자를 기반으로합니다. 그러나 이것이 이 평가법의 유용성을 낮추는 것이 아니며, 단지 그에 합당하게 취급되어야 함을 의미합니다. ITE는 당연히 더 큰 평가 프로그램의 일부가 될 수 있습니다 (어떤 방법도 프로그램 내의 기능에 따라 유용성을 가질 수 있다). 충분한 표본 추출이 이루어지면 이러한 글로벌 성과 평가를 신뢰하지 못할 이유가 없다.

Unlike all other performance-appraisal methods, in-training evaluation is based on a single assessor. This does not mean that it is less useful, it only means that it should be treated as such. Naturally, it can be part of a larger assessment programme (remember any method can have utility depending on its function within a programme). It should also be noted that, with sufficient sampling across assessors, there is no reason why these global performance evaluations cannot be reliable.54






점수 합산법

Aggregation methods


두 번째는 점수 합산법이며, 이 경우 장기간 또는 지속적으로 성능을 샘플링합니다. 로그북과 포트폴리오는 많이 사용되는 두 가지 도구입니다. 포트폴리오는 집계 도구로서 특히 유명 해졌다. 'OSCE'와 마찬가지로 포트폴리오라는 용어는 많은 표현, 사용 목적 및이를 둘러싼 절차를 포괄하는 포괄적인 용어입니다. 반 타트와 스크 (Van Tartwijk)와 드라이서 센 (Driessen)은 기능에 따라 포트폴리오를 분류한다 : 모니터링계획, 코칭성찰, 평가


실제로 로그북은 모니터링과 계획에 초점을 맞춘 특별한 종류의 포트폴리오로 분류 할 수있다.

The second class of methods comprises aggregation methods, sampling performance across a longer period of time or even continuously. Two much-used instruments are the logbook and the portfolio. Portfolios have become particularly popular as an aggregation instrument. Just like ‘OSCE’, the term portfolio is an umbrella term that covers many manifestations, purposes of use and proce- dures surrounding it. Van Tartwijk and Driessen classify portfolios in terms of the functions they can serve: monitoring and planning, coaching and reflection, and assessment.55 In fact, one might classify a logbook as a particular kind of portfolio with an exclusive focus on monitoring and planning.


포트폴리오는 여러 기능이 결합되었을 때 가장 잘 작동한다. 즉, 포트폴리오가 계획, 코칭, 그리고 평가에 사용될 때를 말한다. 포트폴리오는 또한 학습지도, 코칭 및 종단 역량 개발 모니터링에있어 중심 기능을 수행하는 경우에 더 효과적work best인 경향이 있습니다.

it is important to be aware that portfolios tend to work best if functions are combined,55 in other words, when the portfolio is used for planning, coaching ‘and’ assessment. Portfolios also tend to work best if they perform a very central function (rather than peripheral) in guiding learning, in coaching and in monitoring longitudinal competency development.





신뢰할 수있는 추론을 위해서는 어느 정도 표본이 필요합니다.

A feasible sample is required to achieve reliable inferences


연구 간 차이는 있으나, 현실적인 숫자의 표본very feasible sample만을 가지고 신뢰할 수 있는 추론을 이끌어낼 수 있다. 이 숫자는 평가도구의 유형과 측정 대상과 관계없이 8 ~ 10 사이의 어딘가에 있는 것 같 (환자 등급을 사용할 때를 제외하고 더 많은 것이 필요합니다). 이것은 신뢰성이 표준화 또는 평가 구조화가 아니라 표본 추출의 문제임을 다시 한번 확인시켜준다. 다른 방법과 비교했을 때, 신뢰성은 실제로 표준화 된 평가보다 다소 나은 것으로 나타났습니다 2.

Despite variation between studies, we conclude that reliable inferences can be made with very feasible samples. The magical number seems to be somewhere between 8 and 10, irrespective of the type of instrument and of what is being measured (except when patient ratings are used; then many more are needed). This is a very clear confirmation that reliability is a matter of sampling, not of standardisation or structuring of assessment. Compared with other methods, the reliabilities actually appear to be somewhat better than those of standardised assessments.2



편견은 전문가 판단의 본질적인 특성입니다.

Bias is an inherent characteristic of expert judgement


신뢰성이 일정 수준이라고 해서, 글로벌 평가 판단에서 편견이 배제되는 것은 아니다. 사실, 글로벌 평가 판단은 보다 구조화되고 분석적인 방법보다 훨씬 편향적인 경향이있다 .68 직접 관찰 방법을 사용했을 때 점수의 인플레이션이 지적되었다. 다중 소스 피드백에서 평가자 선택이나 평가자의 배경이 편향의 원인이 될 수 있다. 71 편향의 또 다른 원인은 평가 맥락이다. 평가자에 따라서는 학습자와의 관계를 손상시키지 않기 위해서, 그리고 부정적인 평가로 인한 귀찮은 작업(및 문제)를 피하기 위해서 점수표에서 (긍정적인) 부분 만 사용하는 경향이 있.

Adequate reliability does not preclude bias in global judgements. Indeed, global judgements are prone to bias, probably much more so than more structured, analytical methods.68 With direct observation methods, inflation of scores has been noted.69,70 In multisource feedback, selection of assessors or the background of assessors can introduce worrisome biases.71 Another potentially important source of bias is the assessment context. Assessors’ propensity to use only (the positive) part of the scale is heavily influenced by their desire not to compromise the relationship with the learner or to avoid more work (and trouble) consequent to negative evaluations.


평가자의 임무는 학습자가 훌륭한 의사인지 판단하는 것이 아니라, 특정 사건에서 어떤 일이 발생했는지 판단하고, 학습자가 성과를 향상시키는 데 도움이되는 방식으로 피드백을 주고, 차후에 그 자료를 가지고 의미있는 검토를 할 수 있도록 적절한 방법으로 이를 문서화하는 것이다. 이것은 정보가 어떤 식 으로든 어딘가에, 나중에 프로세스에서 합리적으로 사용될 수 없다는 것을 의미하지는 않습니다.

The assessor’s task is not to judge if the learner is a good doctor, but to judge what happens in a specific encounter, to feed this back in a way that helps the learner to improve performance and, finally, to document this in an appropriate way for later meaningful review by the learner and by others. This is not to imply that the information cannot be used summatively somewhere somehow, later in the process,


고부담 결정은 개별 평가방법 또는 평가 전반에 걸친 여러 원천을 기반으로 해야하며, 모든 풍부한 정보를 종합했을 때 견고robust해진다. 가능하다면 잠재적으로 타협 할 수있는 복수의 역할에 대한 평가자의 해소를 장려 할 것입니다.

A high-stakes decision should be based on multiple sources of assessment within or across methods, and robustness lies in the aggregation of all that rich information. Wherever possible, we would encourage relieving the assessor of potentially compromising, multiple roles. 


또 다른 중요한 편향은 자기평가에서 기인합니다. 연구 결과는 명백합니다. 우리는 자기평가를 매우 못하며73-77 자신을 과대 평가하는 것 만큼이나 과소 평가하는 경향이 있습니다 .78 샘플링의 관점에서 볼 때 이것은 놀라운 것이 아닙니다. 자체 평가는 본질적으로 단일 평가이다. 당연히, 자기평가의 타당성은 다른 단일 평가와 비교할 때 그리 좋지 않을 수 있습니다. 그러나 자기평가에서 표본 크기는 증가 될 수 없습니다. 따라서, 자기평가는 결코 독자적으로 의미를 지닐 수stand 없고, 항상 다른 정보와 triangulation 되어야한다. CPD에서도 자기평가는 항상 다른 평가, 즉 '감독 된 자기 평가directed self-assessment'라고 불리는 접근법에 의해 보완되어야한다고 제안한다.

Another important bias stems from self-assessment. The literature is crystal clear: we are very poor self-assessors,73–77 equally likely to underestimate as to overestimate ourselves.78 From a sampling perspective, this is not surprising. Self-assessment is inherently confined to a single assessment. In fact, the validity of a single self-assessment may not be so bad when it is compared with other single assessments. Nevertheless, sample size in self-assessment cannot be increased. The implication is that self-assessment can never stand on its own and should always be triangulated with other information. even in continuous professional development, it is sug- gested that self-assessment should always be complemented by other assessments, an approach sometimes referred to as ‘directed self-assessment’.79



타당성은 어떤 도구를 사용하였느냐보다 누가 그 도구를 사용하느냐에 달려있다.

Validity resides more in the users of the instruments than in the instruments that are used


Miller 's 피라미드의 하위 층위에서 우리는 가능한 한 평가도구를 '날카롭게'할 수 있지만, 'does'수준에서는 평가자가 얼마나 평가를 잘 수행하였느냐가 평가의 질을 결정한다.

In the lower layers of Miller’s pyramid, We can ‘sharpen’ the instrument as much as we can, but at the ‘does’ level, assessment can only be as good as the job done by the assessors using the instrument.


표준화, 구조화 및 객관화를 통해 시끄러운 현실 세계를보다 효과적으로 제어 할 수 있습니다. 그러나, 이는 평가를 해칠뿐 아니라 보잘것 없는 것으로 만들어버린다. 이것을 개선하기 위해서는 평가도구보다 평가자를 '날카롭게'해야합니다. 따라서 구현의 품질은 성공의 열쇠가 될 것입니다 .80 피드백을 받고 제공하려면 훈련을 받고, 연마하고, 최신 상태로 유지해야하는 기술이 필요합니다. 평가에 필요한 기술은 의사와 환자의 만남을 위한 기술과 매우 유사하다. 그럼에도 불구하고, 의사 소통 기술과 마찬가지로, 모든 교사가 이를 갈고닦는 것make up은 아니다. 그렇지만, 이러한 기술은 향상 될 수 있고 육성되어야합니다.

Increased control of the noisy real world by standardising, structuring and objectifying is not the answer. On the contrary, it will only harm and trivialise the assessment. To improve we must ‘sharpen’ the people rather than the instruments. Therefore, the quality of the implementation will be the key to success.80 Receiving and giving feedback requires skills that need to be trained, honed and kept up-to-date. we knowthat the skills required are very similar to the skills for the doctor–patient encounter. Nevertheless, like communication skills, they are not part of every teacher’s make-up: they can and must be fostered.



평가의 형성적 및 총괄적 기능은 일반적으로 결합됩니다

Formative and summative functions are typically combined


학습자가 평가에서 학습적 가치를 얻지 못하는 한 평가는 사소한 것이 됩니다. 

    • 목적이 8개의 Mini-CEXs로 좁혀지면, 학습자는 게임을 시작하고 관찰자와 평가자 선정에 관한 자신의 전략적 선택을 할 것입니다 .81 평가자가 게임에 참여하면 적절한 판단없이 정보를 수집하고 루틴으로 돌아갑니다. 

    • 포트폴리오에서 '성찰'의 주요 목적이 평가위원회를 기쁘게하는 것이 되어버리면, 포트폴리오는 학습자에게 모든 중요성을 잃게됩니다. 우리는 일지와 비슷한 일이 일어나는 것을 보았습니다 .82

As soon as the learner sees no learning value in an assessment, it becomes trivial. If the purpose is narrowed to doing eight summative Mini-CEXs, learners will start to play the game and make their own strategic choices regarding moments of observation and selection of assessors.81 If the assessors join in the game, they will provide judgement without adequate information and return to their routines. If the main objective of the reflections in the portfolio is to please the assessment committee, the portfolio will lose all significance to the learner. We have seen similar things happen with logbooks.82


평가가 유용하려면, 학습을 성공적으로 유도하여, 궁극적으로 학습에 없어서는 안 될 것으로 간주되어야 한다. 평가가 효과적이기 위해서는 특정 조건을 충족시켜야합니다. 우리는 피드백이 종종 무시되고 수신자에게 도달하지 못한다는 것을 알고 있습니다. 83 긍정적인 피드백은 부정적인 피드백보다 더 많은 영향을 미칩니다. 84 (부정적인 피드백은 가치가 없음을 의미하지 않습니다.) 개인에 대한 피드백은 피하고, 작업에 대한 피드백을 주어야 하며, 긍정적 학습 환경이 필수적이라는 것을 알고있다 .87 성공적인 피드백은 사회적 상호 작용, 코칭, 멘토링, 멀티 소스 피드백에 관한 포트폴리오 및 중재 토론, 이 원칙은 심지어 '할아버지'수준의 모든 평가까지 확대 될 수 있습니다.

Assessment has utility insofar as it succeeds in driving learning, and ultimately comes to be regarded as indispensable to the learning practice. For assessment to be effective, certain conditions need to be met. We know that feedback is often ignored and fails to reach the intended recipient,83 positive feedback has more impact than negative feedback,84 (not implying that negative feedback has no value) feedback directed at the individual should be avoided and task-oriented feedback is to be preferred.85 We know the rules of feedback86 and we know that a positive learning climate is essential.87 The literature suggests that successful feedback is conditional on social interaction,58 such as coaching, mentoring, discussing portfolios and mediation around multisource feedback,88 and this principle may even extend to all assessment at the ‘does’ level.


질적, 서사적 정보가 중요하다.

Qualitative, narrative information carries a lot of weight


피드백이 평가의 중심이고, 사회적 상호 작용이 효과적인 피드백에 중요하다면, 숫자와 양적 정보만으로는 분명한 한계가 있으며, 학습자는 풍부한 내러티브, 서술적 언어 및 언어 정보를 더 높이 평가할 것이다.

If feedback is central to assessment and if social interaction mediates effective feedback, numerical and quantitative information has obvious limitations, while narrative, descriptive and linguistic information is often much richer and more appreciated by learners.89,81


환자의 만남에서 상담 기술에서 5점 중 2점을 받았다는 것 자체로는, 학습자에 대해 우려를 자아냄에도, 이 단순한 수치 평점은 학습자가 실제로 무엇을했는지, 그리고 개선을 위해 무엇을해야 하는지를 알려주지 못한다. 평가에 대한 풍부함을 더 많이 제공할 수 있는 우수한 도구인 언어가 있습니다. 효과적인 형성 평가는 질적으로 풍부한 정보를 전제로 한다. 평가도구의 개발자는 모든 평가도구에 정성적 정보 (예 : 주관식 코멘트 기입 공간)를 포함시킬  수 기능이 있는지 확인하고, 평가자가 이러한 정보를 정기적으로 제공하고 문서화하도록 자극해야합니다.

It is quite clear that a rating of 2 out of 5 on counselling skills in a patient encounter should raise some concern with the learner, but a mere numerical rating fails to disclose what the learner actually did and what she should do to improve. To provide richness to the assessment to a greater extent, we have an excellent tool: language. We would argue that effective formative assessment is predicated on qualitatively rich information. We should encourage instrument developers to ensure that all their instruments have built-in facilities to elicit qualitative information (e.g., space for narrative comments) and we should stimulate assessors to routinely provide and document such information.



총괄적인 결정은 비 psychometric 질적 연구 절차로 더욱 rigorous해질 수 있습니다.

Summative decisions can be rigorous with non-psychometric qualitative research procedures


심리측정 담론에서 우리는 일반적으로 점수와 성적을 계산하고 평균화하여 수치를 정한다.

Within the conventional psychometric discourse, we typically quantify: we calculate and average scores and grades,


더 이상의 판단 전략이 필요하지 않은, 순전히 정량적인 전략만으로 충분한 상황은 거의 없습니다.

There are few situations in which purely quantitative strategies suffice, requiring no further judgement strategies.


Rigor는 내적 타당도에 대한 기존 개념을 신뢰성, 외부 유효성, 전달 가능성, 의존성에 의한 신뢰성 및 순응성에 의한 객관성으로 대체하는 'trustworthiness'전략에 의존합니다. 각 개념에 대해, 장기간 참여, 삼각 측량, 동료 심사, 구성원 점검, 구조적 일관성, 시간 샘플링, 단계별 복제, 감사 및 두꺼운 설명과 같은 연구 방법을 엄격하게 적용하는 방법 론적 전략이 제안됩니다.

Rigour depends on ‘trustworthiness’ strategies replacing conventional notions of internal validity by credibility, external validity by transferability, reliability by dependability and objectivity by conformability. For each of these notions, methodological strategies are proposed that bring rigour to the research: prolonged engagement, triangulation, peer examina- tion, member checking, structural coherence, time sampling, stepwise replication, audit and thick description.


예를 들면 질적 인 엄격함에 대한 우리의 생각을 더 잘 설명 할 수 있습니다. 평가 실례의 예시는 Driessen et al. (1994)에 의해 제시된다. 작업 기반 환경에서 학습자의 포트폴리오를 판단하기 위해 엄격한 판단을 내리기 위해서는위원회가 포트폴리오를 판단하는 것이 바람직하다 (구조적 일관성 및 동료 심사). 위원회는 학습자와 포트폴리오에 익숙한 멘토 (장기간의 참여)로부터 의견을받습니다. 학습자 - 멘토 관계를 얼마나 보호하기 원하는지에 따라,이 입력은 포트폴리오가 학습자의 진도에 대한 확실한 증거를 제공한다는 멘토 선언과 같이 제한 될 수 있습니다. 위원회는 사전 정의 된 기준을 사용하여 예를 들어 결정 범주 (감사)를 설명하는 루 브릭의 형태로 판단을보다 투명하게 만듭니다. 위원회는 서면 동의 (감사)로 의사 결정을 심의하고 정당화합니다. 결정을 내리기가 어렵다면,위원회는 더 심의하고 더 많은 정당성을 표명하고 추가 위원을 초대하거나 관련 당사자와 협의한다 (삼각 관계). 제출 포트폴리오를 준비 할 때, 학습자는 기준을 알고 있고, 어떤 형태의 사회적 상호 작용 (즉, 동료 또는 멘토와 함께)의 초기 초안에 대한 피드백을 갖게 될 것이므로위원회의 판단은 학습자 (그리고 멘토) (회원 확인)에 대한 놀랄만 한 사실. 학습자와 스승은 모두 자신의 임무를 위해 훈련을 받았습니다. 위원회 위원들은 (재) (주기적으로) 훈련을 받고 벤치 마크 포트폴리오를 사용하여 의사 결정 (장기 계약 및 구성원 점검)을 조정합니다. 위원회 결정은 문서화되고 (감사), 학습자를위한 항소 절차가 마련되어있다 (감사). 절차와 조치가 많을수록 결과 결정은 더욱 신뢰할 수 있습니다.

An example may serve to further explain our ideas about qualitative rigour. An illustration from assessment practice is given by Driessen et al.94 

  • To achieve rigour in the judgement of a learner’s portfolio in a work-based setting, it is wise to have a committee judge the portfolio (structural coherence and peer examination)

  • The committee receives input froma mentor who is familiar with the learner and his or her portfolio (prolonged engagement)

  • Depending on how much one wants to protect the learner–mentor relationship this input may be limited, for example, to a declaration of the mentor that the portfolio provides authentic evidence of the learner’s progress. 

  • The committee uses predefined criteria to make their judgement more transparent, for example, in the form of rubrics describing decision categories (audit).

  • The committee deliberates and justifies its decisions in a written motivation (audit). 

  • If the decision is difficult to make, the committee deliberates more and justifies more and perhaps even invites additional committee members or consults relevant parties (triangulation)

  • In preparing the portfolio for submission, the learner is aware of the criteria and will have had feedback on earlier drafts of the portfolio with some form of social interaction (i.e., with peers or a mentor) so that the committee’s judgement will only rarely come as a complete surprise to the learner (and mentor) (member checking). 

  • Both learner and mentor are trained for their tasks; committee members are (re)trained (periodically) and use benchmark portfolios to calibrate their decision making (prolonged engagement and member checking).

  • Committee decisions are documented (audit), and appeal procedures for learners are in place (audit). 

  • The more procedures and measures, the more trustworthy the resulting decision will be.


평가에서 합격선 설정을 둘러싼 타당도에 대한 토론과 비슷하게, 황금률이 없는 상황에서는, 모든 기준과 그에 따른 결정에는 어느 정도 추상성이 있을 수 밖에 없다. 표준은 얼마나 절차에 충실함했느냐에 따라 신뢰성이 달라질 수 있습니다 .95

To some extent, this resonates with the validity discussion around standard setting procedures in assessment, where, in the absence of a gold standard, arbitrariness is always part of any standard and the resulting decisions. A standard is more or less credible, depending on due diligence of the procedures.95




고찰

Discussion


우리가 제시하고 다른 사람들과 일치하는 논거를 토대로, 우리는 평가 방법 내에서 그리고 평가 프로그램에서 정보의 집합 내에서 필수적인 정보 원천으로서 평가 목적을 위한 전문가 판단의 사용을 앞당긴다. 전문가 판단은 임상 실습에서 우리의 일상 업무이기 때문에 어느 정도까지는 수용되어야 한다. 그럼에도 불구하고 (임상) 전문가 판단이 틀릴 수 있고 비판받을 수 있다는 것을 인식해야합니다. 전문가가 보험 통계 또는 통계 모델보다 가난한 판단을한다는 것을 보여주는 많은 다양한 전문 분야에 대한 풍부한 연구가 있습니다

Based on the arguments we have presented and in line with others,97 we advance the use of expert judgement for assessment purposes as an indispensable source of information both within methods of assessment and in the aggregation of information in a programme of assessment. To some extent, this should be comforting, since expert judgement is our daily business in clinical practice. Nevertheless, we must also realise that (clinical) expert judgement is fallible and open to criticism. There is a wealth of research in many diverse professional areas showing that experts make poorer judgements than actuarial or statistical models


이 연구는 확률 적 및 경험적 정보를 활용해서 판단을 'scaffolding'할 것을 강력히지지합니다. 이것은 임상 적 의사 결정, 지침의 개발과 사용에 공감합니다 .100 당연히 임상 실습에서와 마찬가지로 평가에서는 개별적인 학습자에게 지침을 해석하고 맞춤화해야합니다. 우리는 판단과 의사 결정의 심리, 인식과 의학 전문 지식 개발, 자연 주의적 의사 결정과 같은 다양한 연구 전통으로부터 화해하고 이익을 얻을 필요가있다.

This research strongly advocates the ‘scaffolding’ of judgement with probabilistic and empirical information. This resonates with clinical decision making and the devel- opment and use of guidelines.100 Naturally, in assessment, as in clinical practice, guidelines must be interpreted and tailored to individual learners. We need to reconcile and benefit from various research traditions such as psychology of judgement and decision making,98 cognition and medical expertise development10 and naturalistic decision making.101


우리는 평가 자료에 대해 의미있는 정보 aggregation를 권고했다. 그러나 '충분하다'는 것은 어떻게 알 것인가? 102 질적 연구는 '포화 상태에 이르렀을 때'라고 말합니다. 이는 일정부분 심리측정연구의 신뢰성 또는 일반화 가능성에 상응합니다.

We recommended meaningful aggregation of information across assessment sources . However, when is ‘enough’ enough?102  Qualitative research would say, ‘when saturation is reached’.To some extent, this is the counterpart of reliability or generalisability in psychometric research.


전문가의 판단에 의존할 경우, 개별 평가자의 독특하고 고유판단에 의존합니다. 따라서 여러 심사 위원은 여러 가지 현실감을 가지고 있으며, 일부 또는 전부가 일치하지 않을 수 있습니다. 그렇다면 이것이 도움이 되지 않습니까? 아닙니다. 실제로 개별적인 학습자가 다른 관점에 노출되는 것이 관련성이 높고 유익 할 수 있습니다. 따라서 우리는 총체적 의사 결정을 유도하는 개념으로서 삼각 측량과 정보 포화를 선호합니다. 새로운 정보를 발견 할 확률이 낮 으면 포화 상태가되며 이는 추가 증거 검색의 중단을 정당화합니다.

If we have to rely on expert judgement, we rely on judgements that are idiosyncratically constructed realities unique to individual judges. Multiple judges therefore have multiple constructed realities, which may not or only partly coincide. Does this make them less useful?We think not. It may actually be highly relevant and beneficial to individual learners to be exposed to different perspectives. We therefore prefer triangulation and saturation of information as concepts to guide aggregate decision making. When the probability of finding new information is low, saturation is achieved and this justifies discontinuation of the search for further evidence.


그럼에도 불구하고이 과정을 더 공식화 할 수 있습니까? 이 결정을 내릴 수있는 확률 론적 규칙을 생각해 낼 수 있을까요? 베이 즈의 정리는 적어도 이론적으로는 매력적인 모델로 보인다. 왜냐하면 이전 정보에 비추어 새로운 정보의 가치를 해석하기 때문이다. 그러나 평가 결정에 적용하려는 시도는 적어도 우리 지식에 있어서는 존재하지 않습니다.

Nevertheless, can this process be further formalised? Can we think of certain probabilistic rules to guide this decision making? Bayes’ theorem seems an attractive model, at least in theory, because it interprets the value of new information in the light of prior information. However, attempts to apply it to assessment deci- sions are non-existent, at least to our knowledge.


학습의 효과는 평가 프로그램에 대한 학습자의 인식을 통해 이루어지며, 학습자의 인식과 학습 전략은 변화에 매우 저항적일 수 있다 .109 또한 학습자와 교사의 인식은 사실상 정반대이고 서로 상반 될 수있다. 107 , 전통적 평가 프로그램은 학습에 부정적인 영향을 미친다. 그러면 문제는 어떻게 변하는 것입니까? 피드백 연구에 대한 리뷰에서 grade 그 자체로는 poor한 피드백이며, 학습자에게 거의 영향을 미치지 못한다는 사실을 알게됩니다 .85 심지어 일부 데이터는 grade가 학습을 저해한다고 제안하기도합니다 .10 집중적인 형성적 피드백 시스템을 세심하게 도입하여, 학습행동이 근본적으로 형성평가를 통해 영향을 받도록 해야 한다80

The effect of learning is mediated by the learner’s perceptions of the assessment programme,108 and these perceptions and the resulting learning strategies can be very resistant to change.109 Perceptions of learners and teachers may actually be quite opposite and con- flicting.107 In all, traditional summative programmes of assessment appear to have quite a negative effect on learning. The question then is how to change? From reviews on feedback studies, we learn that grades provide poor feedback and hardly influence learners.85 Some data even suggests that grades impair learning.110 Solutions need to be sought in integral programmatic systems of intensive formative feedback57 with careful implementation strategies to ensure that learning behaviour is fundamentally influenced through the formative assessment.80









 2010 Dec;24(6):703-19. doi: 10.1016/j.bpobgyn.2010.04.001. Epub 2010 May 26.

The assessment of professional competencebuilding blocks for theory development.

Author information

1
Department of Educational Development and Research, Maastricht University, The Netherlands. c.vandervleuten@educ.unimaas.nl

Abstract

This article presents lessons learnt from experiences with assessment of professional competence. Based on Miller's pyramid, a distinction is made between established assessment technology for assessing 'knows', 'knowing how' and 'showing how' and more recent developments in the assessment of (clinical) performance at the 'does' level. Some general lessons are derived from research of and experiences with the established assessment technology. Here, many paradoxes are revealed and empirical outcomes are often counterintuitive. Instruments for assessing the 'does' level are classified and described, and additional general lessons for this area of performance assessment are derived. These lessons can also be read as general principles of assessment (programmes) and may provide theoretical building blocks to underpin appropriate and state-of-the-art assessment practices.

PMID:
 
20510653
 
DOI:
 
10.1016/j.bpobgyn.2010.04.001


프로그램적 평가: 학습의 평가에서 학습을 위한 평가로(Med Teach, 2011)

Programmatic assessment: From assessment of learning to assessment for learning

LAMBERT W. T. SCHUWIRTH & CEES P. M. VAN DER VLEUTEN

Maastricht University, The Netherlands




도입

Introduction


최근 수십 년 동안 교육에서 평가의 역할에 대한 사고의 변화가 발생했습니다. 이러한 변화는 평가 학습에서 학습을 위한 평가로의 이행으로 가장 잘 특징 지어진다 (Martinez & Lipson 1989).

In the recent decades, a change in thinking about the role of assessment in education has occurred. This change is best characterised as a shift from assessment learning to of assessment for learning (Martinez & Lipson 1989).


학습을 위한 평가라는 아이디어는 새로운 것이 아닙니다. Martinez & Lipson (1989)은 1989 년에 이미 그것을 제안했다. 학습 평가의 초기 해석은 발달 단계에 있었고, 단지 분산 된 시험 행정과 더 많은 피드백의 개념을 능가하지는 않았지만, 평가라는 것이 교육에 필수적이고 관련성이 높다는 인식을 보여주었고, 또한 평가가 단순히 학생을 분류하고 순위를 매기는 시험만으로는 충분하지 않다는 인식을 보여주었다.

The idea of assessment for learning is not new; Martinez & Lipson (1989) already proposed it in 1989. Though their early interpretation of assessment for learning is in its developmental phase and does not surpass the notion of more dispersed test administrations and the use of more feedback, it is an early demonstration of a growing awareness that for assessment to be an integral and more relevant aspect of education, tests that merely try to classify and rank order students do not suffice anymore.


한편, 학습 프로그램 평가에 대한 이론적 관점은 상당히 진화했다. '학습의 평가'라는 개념이 20 세기 시절의 교육과 능력에 대한 확고한 뿌리를 가지고 있었다는 점에서, 이러한 진화가 비논리적이지 않다. Shepard (2009)는 교육에 대한 이전의 견해를 개념적으로 공장 생산 프로세스와 동일하게 설명합니다. 이러한 견해의 중심은 학습에 대한 행동 주의적 개념으로, 한 영역에서 유능해진다는 것은 많은 수의 작은 단계 나 모듈을 수행 한 결과이며, 각 모듈은 마지막 지점에서 평가받는다. 모듈을 성공적으로 완료 한 후에 학생은 다음 단계로 진행할 수 있습니다. 논리적으로 평가는 환원 주의적 접근법을 취해야하며, 전체를 구성 요소의 합으로 간주해야합니다.

In the mean time, the theoretical perspective of assessment for learning programmes has evolved considerably. This is not illogical because originally the concept of assessment of learning the had firm roots in 20th century discourse of education and ability. Shepard (2009) describes the previously prevailing views on education as conceptually equivalent to a factory production process. Central in these views is a behaviouristic concept of learning, implying that becoming competent in a domain is the result of following a large number of small steps or modules, each of which has to be assessed at the end. Only after successful completion of a module can the student progress to the next. It follows then logically that assessment has to take a reductionist approach as well, viewing the total only as the sum of its constituent parts.



학습 이론에서 사회적 구성주의가 새롭게 출현하고, 성과로서 역량의 개념이 등장하면서, 우리가 설정하고 사용했던 교육 과정의 지표에 급진적 변화가 요구되었다.  (Boud 1990; Brown 2004; van der Vleuten & Schuwirth 2005, Shute 2008). 이것은 전통적인 접근법에 대항하여 고도로 요구되는 반항 운동이었습니다.

With the emergence of new– social constructivist – theories on learning and the notion of competencies as outcome the indicators of educational process the call for radical changes in the way we set up and use assessment is heard in the literature (Boud 1990; Brown 2004; van der Vleuten & Schuwirth 2005; Shute 2008). This was a highly needed antithetic movement against the traditional approaches.


'학습을 위한 평가'에 대한 문헌은 이미 다양한 그림을 얻기 위해 다양한 도구가 필요할 것이라고 이미 인정했지만 (Ram 1998; Prescott et al., Epstein & Hundert 2002; Davies et al. 2005; Carr 2006), 프로그래밍 방식 평가에 대한 아이디어는 더 나아갑니다. 프로그램적 평가에서 현대의 접근법은 반드시 기존의 것을 대체하지 않고 오히려 보완한다 (Prescott et al., 2002; van der Vleuten & Schuwirth 2005, Dannefer & Henson 2007, Fishleder et al.) 프로그램적 평가의 핵심은 평가 방법의 신중한 선택, 규칙 및 규정의 수립 및 조직 시스템의 설계를 통해 학생들의 능력에 대한 전체적인 그림을 얻을 수 있도록 평가 프로그램을 설정한다는 것입니다.

And although the literature on assessment for learning already acknowledged that a variety of instruments would be needed to obtain a more complete picture (Ram 1998; Prescott et al. 2001; Epstein & Hundert 2002; Davies et al. 2005; Carr 2006), the idea of programmatic assessment goes further. In pro- grammatic assessment, modern approaches do not necessarily replace but rather supplement traditional ones (Prescott et al. 2002; van der Vleuten & Schuwirth 2005; Dannefer & Henson 2007; Fishleder et al. 2007). 


The central key is that the programme of assessment is set up to allow the whole picture of a student’s competence to be obtained by a careful selection of assessment methods, formulation of rules and regulations and design of organisational systems.








우리는 지금 어디에 있는가?

Where are we now?


많은 전통적 시험 프로그램은 의료 능력을 네 가지 별도의 구성으로 세분화했습니다 : 지식, 기술, 문제 해결 기술 및 태도 또는 전문성. 이 관점에서 훌륭한 평가 프로그램은 이러한 각각의 구성 요소에 대한 도구의 조합으로 구성됩니다. 20 세기의 의학 평가 논문은 이전의 방법보다 구인 중 하나를 더 잘 측정한다거나, 복수의 방법을 비교하여 그 중 하나의 우월성을 증명한다고 제안하는 논문이 지배합니다. 그러나 이 견해는 다음의 것들을 가정하고 있다.

Many traditional examination programmes subdivided medical competence into four separate constructs: knowledge, skills, problem-solving skills and attitudes or professionalism. A good assessment programme in this view is composed of a combination of instruments for each of these constructs. The medical assessment literature in the 20th century is dominated either by papers presenting new instruments suggesting they measure one of the constructs better than previous methods or comparing different methods to prove the superiority of one of them. This view, however, has important underlying assumptions which we will discuss here.



각 구인은 안정되고 일반적인 특성이다. (X)

Each construct is treated as a stable and generic trait


여기서 특성은 안정적이고 일반적인 것으로 가정합니다. 예를 들어 지능과 외향성과 비슷합니다. 사람의 지능은 적어도 단기간에 측정을 통해 안정적이라고 가정합니다.

Traits, here, are assumed to be both stable and generic. Much like, for example intelligence and extraversion. The intelli- gence of a person is assumed to be stable – at least in the short run – across measurements.


형질은 또한 일반적인 것으로 가정되며, 지능형 및 내향 형 또는 지능형 및 특이 형이거나 그 반대 일 수 있습니다. 유사하게, 네 가지 구조 사이에는 고유 한 관계가 없다. 지식, 기술, 문제 해결 기술 및 태도.

The traits are also assumed to be generic, one can be intelligent and introverted or intelligent and extraverted and vice versa. Similarly, there is no inherent relationship assumed between the four constructs; knowledge, skills, problem- solving skills and attitudes.


따라서 시험 점수의 재현성이 신뢰성 (또는 우주 점수 표현)을 가장 잘 결정한다는 것은 당연한 것입니다.

From this it follows naturally that reliability (or universe score representation) can best be determined by reproducibil- ity of the test scores.


물론 이것은 결코 사실이 아닙니다. 행렬은 표 3에 표시된 것과 유사합니다.

Of course this is never the case; matrices look more like as shown in Table 3.



개별 항목 또는 테스트 요소는 원칙적으로 의미가 없습니다.(X)

Individual items or elements of a test are in principle meaningless


만약 개별 문항에 대한 퍼포먼스가 다양할 때, 이 변동성이 오류로 간주되는 경우 개별 항목 자체는 의미가없는 것으로 간주 될 수 있습니다. 개별 항목의 유일한 가치는 그들이 총 점수에 기여하는 정도이며, 총 점수는 평가에 의미와 타당성을 줄 수있는 것입니다.

If performance on individual items can vary and this variability is seen as error, it is only logical that individual items in themselves can be treated as meaningless; their only value is the extent to which they contribute to the total score, and the total score is what can give meaning and validity to the assessment.


두 가지 항목이 직관적으로 더 의미가있는 경우, 예를 들어 인공 호흡과 OSCE의 의사 소통 스테이션과 같이 더 문제가됩니다. 대부분의 사람들은 좋은 의사 소통 기술이 열악한 소생술 기술을 보상make up할 수 있는가에 의문을 제기합니다.

It becomes more problematic if the two items are intuitively more meaningful, for example resuscitation and a communi- cation station in an OSCE. Most people would question whether good communication skills can make up for poor resuscitation skills


통계는 정보의 제거를 기반으로합니다. (X)

Statistics are based on elimination of information


학생이 객관식 테스트에 대한 답을 가져옵니다. 답변에서 어떤 정답이 주어 졌을뿐만 아니라 오답이 주어 졌는지를 도출 할 수 있습니다. 그런 다음 해답을 해답 키와 비교하여 1-0 점수로 변환합니다. 이제 부정확 한 답이 무엇인지에 대해 더 이상 알지 못하지만 주어진 질문에만 잘못된 답이 해당됩니다. 그런 다음 항목 점수가 합산됩니다. Nowit은 어느 항목에 대해 정확하고 올바르지 않은 답이 주어졌지만 얼마나 많은 항목에 대해 정확하지 않거나 정답이 주어 졌는지를 가려냅니다. 총 점수는 pass-fail 커트라인과 비교되며, 단지 정확한 답 수가 충분했는지 여부만을 알려준다. 루브릭 작성 및 표준 설정 방법에 관한 문헌은 기본적으로 평가 정보를 어떻게 버리는 것이 가장 좋은가에 관한 문헌입니다 (Cusimano 1996).

Take the answers a student gives to a multiple-choice test. From the answers, it can be derived not only which correct answers were given but also which incorrect answers were given. But then the answers are compared to an answer key and converted to 1–0 scores. Now it is not known anymore what the incorrect answers were but only to which question an incorrect answer was given. Then the item scores are totalled. Now it is obscured to which items an incorrect and correct answer was given but only to how many items an incorrect or correct answer was given. This total score is then compared to a pass–fail score and now it is only known whether the number of correct answers was sufficient or not. The literature on scoring rubrics and standard setting methods is basically literature on how best to throw away assessment information (Cusimano 1996).



각 특성에 맞는 단일한 최상의 도구가 있다(X)

One single best instrument for each trait


그 결과는 - 이전에 말했듯이 전통적 시험 프로그램은 각자의 특성에 맞는 단일 모델에 따라 구축된다는 것입니다.

The consequence of this is – as said before – that traditional examination programmes are built according to the one-best- instrument-for-each-trait model.





우리는 어디로 가고자 하는가?

Where do we want to go?


많은 공식 기관에서 자체 역량 도메인 또는 전문 역량을 발급했습니다. 

  • CanMeds (1996)에는 의료 전문가, Communicator, 공동 작업자, 관리자, 보건 옹호론자, 학자 및 전문가 영역이 포함되어 있습니다. 

  • ACGME (2007)은 환자 치료, 의학 지식, 실습 기반 학습 및 개선, 대인 및 의사 소통 기술, 전문성 및 시스템 기반 실천 영역을 정의했습니다. 

  • 네덜란드 의학 교육 청사진은 네 가지 역할을 수행했다. (Metz et al. 1994) : 의료 전문가, 과학자, 건강 관리 시스템의 근로자, 인간.

Many official institutes issued their own set of competency domains or professional roles. The CanMeds (1996) contain the domains: Medical expert, Communicator, Collaborator, Manager, Health advocate, Scholar and Professional. The ACGME (2007) defined the domains: Patient care, Medical Knowledge, Practice-based Learning and improvements, Interpersonal and Communication skills, Professionalism and Systems-based practice. The first Dutch blueprint for medical education used four roles (Metz et al. 1994): Medical Expert, Scientist, Worker in the health care system and Person.



교육자들이 당면한 위험은, 우리는 각 영억마다, 하나의 최상의 도구만을 사용하여 평가 프로그램을 만드는 경향이 있다는 것입니다. 이 방법으로 전통적인 평가 프로그램에서와 마찬가지로 동일한 실수를 범하게됩니다. 즉, 도메인을 일차원적이고 안정적이며 일반적인generic entity로 취급하는 것이다. 그러나 이러한 방식으로는 새로운 평가 프로그램을 구축하는 것이 아니라, 단순히 단어 ('특성' 대신 '역량')만을 대체 할 것입니다. 혁신적인 평가 프로그램에서 중요한 것은 n : n 관계의 개념에 기반한다는 것입니다. 즉, 모든 평가 역량 출처에 대한 정보를 사용하여 모든 기존 도메인 및 다양한 정보 소스를 통해 제공되는 모든 역량 도메인에 대해 알릴 수 있습니다.

The risk we as educators run now is that we would now be inclined to build an assessment programme in which one single best instrument is used for each of the domains. This way we would be making the same mistake as with the traditional assessment programmes,namely treating the domains as unidimensional, stable and generic entities. But then we would simply be replacing words(‘traits’ by ‘competencies’) instead of building a really new assessment programme. An important thing in innovative assessment programmes is that they are based on the notion of an n:n relationship. In other words, information of all assessment competency sources can be used to inform about all the are domains, and all competency domains informed by various information sources. 



임상의는 이력 수집, 신체 검사, 검사 결과, 병리학 보고서 등 관련 정보를 필요로하는지 여부, 더 나아가 진단이나 치료법, 환자의 건강 여부 등을 결정합니다. 이것은 우리가 평가 프로그램에서 사용하기를 제안하는 n : n 관계입니다.

clinician takes the relevant information from history taking, physical exam- ination, lab results, pathology reports, etc. to determine whether needed, further diagnostics are what therapy or management to start and whether the patient is healthy or not. This is exactly the n:n relationship we suggest to use in assessment programmes.



대부분의 평가 프로그램에서 전통적 접근 방식은 OSCE의 의사소통기술 스테이션에서의 결과를 소생술 결과와 합해서 결과를 낸다. 그렇게 하는 이유는 이 두 가지가 합리적으로 결합 될 수 있기 때문이 아니라 단순히 동일한 형식 사용하기 때문이다. (다시 비유하자면 나트륨과 칼륨 레벨을 합하는 것과 같다). 시험이 무엇을 평가하는가를 결정하는 것은 형식이 아니라 내용이라는 여러 연구 결과가 있다. (Ward 1982; Norman et al., 1985; Schuwirth et al.) 이론적으로는 형식이 유사하기 때문이 아니라, 내용이 유사할 때 정보를 결합하는 것이 더 논리적입니다. 그림 1과 2는 이러한 차이점을 보여줍니다.

The traditional approach in most assessment programmes relies on adding the results on the communication skills station of an OSCE to the resuscitation skills, not because they can be combined rationally but simply because they have the same format (to use the analogy again: so do the sodium and potassium level). This is strange especially because a plethora of research has shown that it is not the format which determines what a test or an item assesses but the content (Ward 1982; Norman et al. 1985; Schuwirth et al. 1996). Theoretically, it is more logical to combine information that is similar in content and not because it is similar in format. Figures 1 and 2 demonstrate this difference.


그러한 평가 프로그램에서, 구인은 안정적이고 일반적인 특성으로 정의 될 필요가 없으며, 일부는 가변적이고 일부는 안정적으로 정의되어야한다. 다시 한 번, 임상 작업과의 유추를 사용하여 : 일부 매개 변수는 너무 안정되어있어 한 번의 측정만으로도 그 값을 결정하기에 충분하고(나트륨 수준, 헤모글로빈 수준), 다른 일부는 반복적으로 여러 번 측정하더라도 상당히 달라지게 되어있어서(혈압, 혈당 수준). 다수의 측정 또는 일간 변동 커브가 도움이 된다.

In such an assessment programme, the constructs do not have to be defined in stable and generic traits, some will have to be defined as variable and some as stable. Again, using the analogy with clinical work:some parameters are supposed to be so stable that one measurement suffices to determine them (sodium level,haemoglobin level) and some others are supposed to vary considerably (blood pressure, blood glucose level) that only repeated enough. measurements or daily curves are informative


따라서 평가의 개별 요소는 그 자체로 의미가있을 수 있습니다. mini-CEX에서 '역사 기록'항목의 점수가 낮 으면 그 의미는 그 자체로 의미가 있으며 교정 작업으로 이어질 수 있습니다. 한편, 개별 항목이나 요소는 다른 테스트 요소와 조합하여 의미를 얻을 수 있습니다. OSCE의 복부 검사 스테이션에서 fail한 학생이 복부 해부학 테스트 항목에서도 fail하였다면, 환자 의사 소통 스테이션에서 열악한 학생과는 다른 판단이 적용됩니다.

So, individual elements of the assessment can be mean- ingful in themselves. The low score on the item‘history taking’ in a mini-CEX is meaningful in itself and can lead to remedial actions. On the other hand, individual items or elements can acquire meaning in a combination with elements of other tests. A failed abdominal examination station in an OSCE will have different repercus- sions for the student if s/he has also performed poorly on test items on abdominal anatomy than for the student whose patient communication is poor.


'객관적인'테스트 만 신뢰할 수 있고 '주관적인'테스트는 신뢰할 수 없다는 오해가 널리 퍼져 있습니다. 불행히도 이러한 사고 방식은 평가의 질을 개선하는 데별로 도움이되지 않습니다. 내과에 대한 단일 항목 객관식 테스트는 소위 객관적인 테스트이지만, 한 항목이 너무 작아서 신뢰할 수있는 테스트가 될 수 없습니다. 반면에 특정 퍼포먼스 (예 : 음악적 예술)에 대한 전문가 의견 모음은 매우 신뢰할 만하다.

There is a widespread misconception that only ‘objective’ tests can be reliable and that ‘subjective’ tests are unreliable. Unfortunately, this kind of thinking is not very helpful in improving the quality of the assessment. A single-item multiple choice test on internal medicine would be a so-called objective test, but it can hardly be a reliable test as one item is simply too small a sample. On the other hand, a collection of expert opinions on a certain performance (e.g. musical artistry) can be highly reliable,


객관성을 지나치게 추구하다보면, 많은 경우 평가가 trivialize될 수 있다. 예를 들어 포트폴리오에 대한 점수 루 브릭을 설계하는 것 (Koretz 1998) 등이 있습니다. 평가 프로그램에서 주관적인 요소가 trivialize되지 않아야 하며, 샘플링 절차를 최적화하여 평가해야한다 (Schuwirth et al., 2002; Driessen et al. 2005).

There are many cases in which assessment designers in their pursuit of objectivity have unnecessarily trivialised the assess- ment, for example by designing scoring rubrics for portfolios (Koretz 1998). In programmes of assessment, subjective elements should not be trivialised but should be assessed by optimising the sampling procedure (Schuwirth et al. 2002; Driessen et al. 2005).


물론 이것이 전체 평가 과정을 더 쉽게 만들지는 않습니다. 평가 과정에서 인간의 판단이 핵심적인 경우, 판단을 내리는 사람의 품질과 전문성이 평가의 질에 결정적인 요인이 될 수 있습니다.

Of course this does not make the whole assessment process easier, quite the contrary. When human judgement is central in the assessment process, it may be clear that the quality and expertise of the person who is making the judgement is decisive for the quality of the assessment.



평가의 품질을 보장하기 위해 구인타당도과 재현성에만 관심을 두는 것은 더 이상 충분하지 않습니다. 공정성, 신뢰성 및 알 필요성과 같은 개념. 의존성도 포함될 수있다 (Driessen et 2005).

To ensure the quality of the assessment then, the exclusive focus on construct validity and reproducibility do not suffice anymore. Concepts such as fairness, trustworthiness and need to al. dependability also be included (Driessen et 2005). sions for


이 방법으로, 평가 프로그램은 각 학생의 개별적인 필요에 맞게 맞춤화 될 수 있습니다. 

  • 첫째, 교사 / 멘토는 개별 학생이 자신의 능력에 대한 완전한 그림을 확보 할 수 있도록 특정 평가 정보를 수집하도록 조언 할 수 있습니다. 모든 기준에 대해 7 가지 우수한 독립적 인 미니 CEX 판단을받은 학생의 경우, 데이터의 추가 수집은 아마도 유용하지 않지만, 7 가지 매우 가변적 인 판단의 경우 더 많은 정보가 필요할 수 있습니다. 이것은 학습 평가를위한 '진단 적'결정이라고 할 수 있습니다. 

  • 또한 위에 설명 된대로 치료에 대한 맞춤 조언을 각 학생에게 줄 수 있는데, 이는 '치료 적'결정이라고 할 수 있습니다. 

  • 마지막으로, 충분한 능력에 이르는 올바른 길을 걷고있는 학생이 각 학생에 대해 결정될 수 있다는 예후 결정이 내려집니다.

This way, the assessment programme can be tailored specifically to the individual needs of each student. First, this enables the teacher/mentor to advise that specific assessment information be collected for an individual student to ensure a complete picture of his/her competence. For a student who has had seven excellent independent mini-CEX judgements onall criteria, further collection of data is probably not useful,whereas in the case of seven highly variable judgements more information may be necessary. This could be called the as ‘diagnostic’ decisions in assessment for learning. Also, described above, a tailored advice for remediation can be given for each student, which could be called the ‘therapeutic’decision. Finally, a prognostic decision – is the student on the right track to sufficient competency – can be made about each student.




연구에 대한 함의

Implications for research


무엇이 양질의 평가프로그램을 만드는가?

What constitutes high-quality assessment programmes?


1996 년에 van der Vleuten (1996)은 개별 평가 도구의 퀄리티를 다양한 기준 간의 trade-off로 평가하도록 주장하였다. 이러한 기준은 개별 평가도구에는 유용하다고 보이지만, 평가 프로그램 전체에 대한 적용 가능성은 제한적입니다.


In 1996, van der Vleuten (1996) published a paper in which he advocated to evaluate the quality of individual assessment instruments as a trade-off between various criteria. Although these criteria have been shown to be useful for individual instruments their applicability to an assessment programme as a whole is limited.


Program in action에 관한 설계 기준을 포함하는 모델이 등장했습니다. 

    • 평가 정보 수집, 

    • 다양한 도구의 평가 정보 결합, 

    • 최종 정보를 평가하여 결정

    • 결정에 대한 조치를 취함

그러나 이에 더하여 일련의 서로 다른 계층들도이 정의되었습니다. 

    • 프로그램의 지원 측면에 관한 기준, 

    • 평가 프로그램에 대한 정보의 문서화 및 보급, 

    • 프로그램의 지속적인 개선을위한 척도 

    • 프로그램의 책임을 지탱하는 모든 procedure의 품질

a model emerged which incorporated of course the most obvious design criteria, namely those concerning the programme in action (

    • collecting assessment information, 

    • combining assessment information from various instruments, 

    • valuing the resultant information to come to decisions, and 

    • taking action upon these decisions). 

In addition, however, a series of different layers were defined: 

    • criteria concerning the supporting aspects for a programme, 

    • criteria for documenta- tion and dissemination of information about the assessment programme, 

    • measures for continuous improvement of the programme and the quality of all procedures supporting the accountability of the programme.


어떻게 평가가 학습에 영향을 주는가?

How does assessment influence learning?



Cilliers et al. (2010) : 세 가지 주요 요소가 확인되었습니다 : 영향의 원천, 이러한 근원이 학생들의 학습에 영향을 미치는 메커니즘 및 영향의 결과.

Cilliers et al. (2010): Three main elements were identified: sources of impact, mechanisms by which these sources impact on student learning and the consequences of the impact.


영향 메커니즘은 학생들이 평가 프로그램의 영향, 학습 응답, 기관 및 문맥 적 요인에 대한 자신의 인식을 평가하는 방법을 구성합니다. 출처로는 주요 요구 사항은 작업 요구, 평가의 임박, 평가 시스템의 설계 및 단서 (Cilliers et al. 2010)였다.

Mechanisms of impact constituted the ways students appraised...

    • the impact of the assessment programme, 

    • their own learning response, 

    • their own perceptions of agency and contextual factors. 


As sources, main factors were 

    • task demands, 

    • imminence of assessment, 

    • the design of the assessment system and the cues (Cilliers et al. 2010).





심리측정모델의 확장

Extension of psychometric models


2006 년에는 mini-CEX, 360 피드백 및 포트폴리오와 같은 관측-기반 평가도구를 더 잘 충족시키는 새로운 방법이 개발 될 것이라고 주장했습니다. 1960 년대와 1970 년대에는 기준 참조 시험 (Berk 1980; Rickets 2009)과 관련하여 이미 이 분야에서 발전이 있었다. 그 이후로, 심리 측정 이론과 결과 통찰력이 크게 바뀌 었습니다.

In 2006, we advocated that new methods would be developed that cater better to more observation-based instruments, such as mini- CEX, 360  feedback and portfolios. It turns out that there have already been developments in this area in the 1960s and 1970s with respect to criterion-referenced tests (Berk 1980; Rickets 2009). Since then, psychometric theory and resulting insights have changed dramatically.


Kane은 관측 결과에서 target domain에 대한 결론에 이르는 주장-기반 추론의 필요성을 강조합니다. 이 접근법에서 연구자 또는 평가자는 target domain의 본질에 대한 명시적인 가정을 해야 하며, stable trait을 간주하지 않기 때문에 절충적입니다.

Kane highlights the need for an argument based set of inferences from observations eventually to conclusions about the target domain. This approach is eclectic because it requires the researcher and/or assessors to make explicit assumptions about the nature of the target domain, and it does not automatically subsume a stable trait.


중요한 추론 중 하나는 관찰 된 스코어에서 universe score(신뢰성의 일종)에 이르는 것입니다. 이를 위해 우주 점수의 개념화가 필요하며 이 개념화는 다른 형태를 취할 수 있습니다. 우리의 생각의 대부분은 Guttman 척도의 개념에 어느 정도 기초합니다. 그림 3은 이러한 Guttman 스케일의 예를 보여줍니다.

One of the important inferences to make is the one from observed score to universe score (as a sort of reliability). For this, a conceptualisation of the universe score is needed and this conceptualisation can take different forms. Most of our thinking is more or less based on the notion of the Guttman scale. Figure 3 shows an example of such a Guttman scale.



Guttman scale에서, 기본 가정은 일부 문항은 본질적으로 다른 문항보다 쉽다는 것입니다. 예를 들어, 나의 장녀는 보조바퀴 없이 않고 자전거를 탈 수 있습니다. 따라서 그녀는 보조바퀴를 달고 자전거를 탈 수 있다고 가정할 수 있으며, 삼륜차를 탈 수 있고, 똑바로 앉을 수 있다고 가정할 수도 있다. 이런식의 문항 세트는 Guttman 척도에 잘 부합하며, 컴퓨터 적응형 테스트와 같은 특정 평가 방법에 매우 적합합니다. Guttman scale에서는 assumed scale에 따르지 않는 모든 분산은 측정 오차로 보는 것이 논리적이다. 따라서 딸이 한 번은 보조바퀴없이 탈 수 있었다가, 그 다음에는 보조바퀴를 달고 타지 못한다면, 유일한 합리적 가정은 이것을 측정 오류로 보는 것이다. 샘플은 homogeneous universe에서 추출된다. 

In such a scale, the underlying assumption is that some items are inherently easier than others. For example, my eldest daughter can ride her bike without training wheels. Therefore, it is safe to assume that she is also able to ride a bike with training wheels, and following from this that she can ride a tricycle, and that she is able sit straight, etc. Sets of items that behave well according to such a Guttman scale are very well suited for certain assessment approaches, such as computer adaptive testing. The logical consequence is that any variance not in accordance with the assumed scale is measurement error. So if at one day my daughter is observed being able to ride without training wheels and subsequently fail to ride the bike with trainers, the only logical assumption is this to be measurement error. It subsumes a homogeneous universe from which the sample is drawn.


평가의 모든 측면이 이러한 방식으로 가장 잘 모델링될수 있는지 궁금해 할 수 있습니다. 우리가 계면 활성제가 II 형 폐구균에 의해 생성된다는 것을 알고 있다고 해서, 자동적으로 어떤 세포가 칼시토닌을 생성하는지, 또는 II 형 폐구균이 어디 있는지까지 알 수는 없다. 그러한 경우 우주 표현의 측정은 우주의 대표에 대한 새로운 정보를 제공하는 새로운 관찰의 가능성을 설명 할 필요가 있지만 우주의 동질성을 규정하지는 않는다.

One can of course wonder whether all aspects of assess- ment in a programme of assessment are best modelled this way. If we knowthat surfactant is produced by type II pneumocytes, this does not automatically imply that we know which cells produce calcitonin, or even where the type II pneumocytes are located. In such cases measures of universe representation need to describe the probability of a new observation providing new information about the repre- sentation of the universe, but it does not prescribe homogeneity of the universe.









How to scaffold human judgement?


전통적으로 시험 시스템에서는 정성적 정보를 정량화한다.

Traditionally in examination systems, information from qualitative sources is quantified


피드백과 정보가 풍부한 절차가 요구되는 학습을 위한 평가프로그램에서, 정보는 질적 인 방식으로 결합되어야합니다. 이것은 필연적으로 인간의 판단을 포함합니다. 불행히도, 인간의 판단은 종종 실수로 간주되며, 특히 actuarial 방법과 비교했을 때 그러하다(Dawes et al., 1989). 이것은 당연한 결과인데, 왜냐하면 (결론에 도달하기 위해 모든 개별 데이터를 평가하는 것부터 시작하는) 의식적인 bottom-up 처리가 필요하며, 이를 통해 hard data conclusion을 이끌어 낼 뿐만 아니라 수치적 모델링을 가능하게 해주기 때문이다.  그러나 이것은 인간의 제한된 단기 메모리 처리 용량으로 인해서 취약한 부분이다. 이러한 경우에는 반드시 전체 데이터 세트 중 일부만 처리하는 것으로 되돌려 야합니다.

In assessment for learning programmes, in which feedback and information-rich procedures are required,information needs to be combined in a qualitative way. This involves inevitably human judgement. Unfortunately though,human judgement is often considered fallible, especially whenc ompared to actuarial methods (Dawes et al. 1989). This is of course logical, because in such comparisons conscious bottom-up processing (starting with evaluating all the individ-ual data to arrive at a conclusion) is required, which isintended to lead to hard data conclusions and which can be numerically modelled. It is obvious that this is exactly what humans with their limited short-term memory processing capacities are not good at (Van Merrienboer & Sweller 2010).In such cases they necessarily have to revert to processing only a limited part of the whole data set.


그러나 우리는 엄청난 양의 정보를 처리 할 수 ​​있기도 하다. 특히 시각 시스템의 정보는 대략 초당 10 ~ 2,000 만 비트 범위입니다. 자연주의적 의사 결정에 대한 연구에서, 인간의 결정은 hard 하거나 numerical하지 않고 judgemental하다(Klein 2008). 지나치게 정확한 데이터 모델링은 오히려 표면적인 모델링보다 부정확한 예측을 내놓는다(Marewski et al. 2009). 다시 말해, 정보의 과부하 상태에서 처리된, 막연한 인간 판단의 결과는 왜 여전히 그렇게 좋은가? 그러한 판단 과정에서 더 많은 하향식 처리 활동이 필요하다는 것은 분명합니다. 그러나, 인지 부하의 감소를위한 방법이 여전히 필요하다. 이 관점에서 필수적인 중요한 요소가 표현에 포함된다면, 정보를 불완전하게 대표하는 것이 반드시 나쁜 대표성이라고 볼 필요는 없습니다. 이것은 전문가의 이론에서 스크립트와 굉장히 흡사합니다. (Schmidt & Boshuizen 1993)

However, we are also capable of processing enormous amounts of information. Estimates, especially those including information from the visual system, are in the range of between 10 and 20 million bits per second. The research into naturalistic decision making focuses on human decisions in areas where the outcomes are not hard or numerical, but judgemental (Klein 2008), where too precise modelling of the data often leads to more inaccurate prediction than more superficial modelling (Marewski et al. 2009). In other words, why is human judgement with such an overload of information to process and vague outcomes still so good? It is clear that for such judgements processes more top-down processing activities are needed. Still, however, methods for reduction of cognitive load are required. In this view, an incomplete representation of the information is not necessarily a bad representation, provided the essential important elements are in the representation. This bears a striking resemblance with scripts in the theory on expertise. (Schmidt & Boshuizen 1993)


Govaerts et al. (2007)에 따르면 복잡한 케이스에서는 초보자보다 전문가가 더 많은 시간을 필요로 하지만, 단순한 케이스에서는 전문가가 더 빠르다.  퍼포먼스를 관측하면서 전문가들은 초보자에 비해서 추론/해석을 더 많이하며, 초보자는 프로세스에 대한 문자적 묘사를 더 많이 한다. 또한 전문가는 맥락적 단서를 더 많이 사용하고, 더 많은 평가를 내린다. 이것은 모두 진단 전문 지식에 대한 결과와 매우 일치합니다 (Schmidt & Boshuizen 1993; Eva 2004).

Govaerts et al. (2007) found that in complex case experts needed more time than novices, but in the simple case they were faster. Experts make more inferences/interpretation whilst observing the performance, while novice provides more literal descriptions of the process, experts use more contextual cues and considerations and make more evaluations. This is all highly in concordance with the findings about diagnostic expertise (Schmidt & Boshuizen 1993; Eva 2004).






Conclusion










 2011;33(6):478-85. doi: 10.3109/0142159X.2011.565828.

Programmatic assessment: From assessment of learning to assessment for learning.

Author information

1
Department of Educational Development and Research, Maastricht University, The Netherlands. l.schuwirth@maastrichtuniversity.nl

Abstract

In assessment a considerable shift in thinking has occurred from assessment of learning to assessment for learning. This has important implications for the conceptual framework from which to approach the issue of assessment, but also with respect to the research agenda. The main conceptual changes pertain to programmes of assessment. This has led to a broadened perspective on the types of construct assessment tries to capture, the way information from various sources is collected and collated, the role of human judgement and the variety of psychometric methods to determine the quality of the assessment. Research into the quality of assessment programmes, how assessment influences learning and teaching, new psychometric models and the role of human judgement is much needed.

PMID:
 
21609177
 
DOI:
 
10.3109/0142159X.2011.565828


평가자료가 단어일 때: 질적교육평가의 타당도 근거 (Acad Med, 2016)

When Assessment Data Are Words: Validity Evidence for Qualitative Educational Assessments

David A. Cook, MD, MHPE, Ayelet Kuper, MD, DPhil, Rose Hatala, MD, MSc,

and Shiphra Ginsburg, MD, MEd




계산 할 수 있는 모든 것이 중요한 것은 아니며, 중요한 모든 것을 계산할 수도 없습니다. -W. B. 캐머론 1

Not everything that can be counted counts, and not everything that counts can be counted. —W. B. Cameron1



교육자들은 양적 점수가 연수생의 모든 중요한 특성을 포착하지 못함을 점점 더 인식하게됨에 따라, 그들은 정성적 데이터를 통합하고 받아들이 기 시작했습니다 .9-11 지난 30 년 동안 교육 연구에서 벌어진 학습자 평가에서의 르네상스는 질적 방법과 혼합 방법 접근의 증가 된 경향과 유사합니다 

As educators increasingly recognize that quantitative scores fail to capture all important features of a trainee’s performance,7,8 they have begun to incorporate and embrace qualitative data.9–11 This renaissance in learner assessment parallels the increased presence of qualitative and mixed- methods approaches in education research over the past 30 years.12



유효성 프레임 워크의 간략한 개요

A Brief Overview of Validity Frameworks


3 가지 유형의 타당도 -준거, 기준, (상관성, 동시성 또는 예측 성이라고도 함) 및 구조 - 에 대한 "고전적"모델은 평가의 해석 및 사용을 지원하기 위한 보완적인 접근 방식을 제공하는 두 개의 현대 프레임 워크로 대체되었습니다. Messick's22 프레임 워크에서 모든 타당성은 다섯 가지 다른 출처 (아래 정의 됨)에서 파생 된 증거에 의해 뒷받침되는 구조 타당성의 포괄적 인 우산 아래 통합됩니다.

The “classical” model of three types of validity—content, criterion (also referred to as correlational, concurrent, or predictive), and construct—has been replaced by two contemporary frameworks that offer complementary approaches to support the interpretations and uses of assessments. In Messick’s22 framework all validity is unified under the overarching umbrella of construct validity, which is supported by evidence derived from five different sources (defined below).


그러나 Messick의 프레임 워크는 여러 증거 출처 중 우선 순위를 지정하지 않으며, 평가마다 우선순위가 다를 수 있다. 이 문제를 해결하기 위해 Kane23은 타당성 근거 프로세스(타당화), 특히 평가의 점수에 대한 타당성 주장의 계획과 평가에서 네 가지 주요 단계 또는 추론을 강조하는 프레임 워크를 개발했습니다. 실제로 스코어와 결정의 타당성을 뒷받침하기 위해 데이터를 수집하고 해석 할 때 교육자는 일반적으로 이 두 현대 프레임 워크 중 하나를 선택하여 사용한다.

However, Messick’s framework does not prioritize among the different evidence sources or indicate how such prioritizing might vary for different assessments. To address this problem, Kane23 developed a framework focusing on the process of collecting validity evidence (validation), specifically highlighting four key phases or inferences in planning and evaluating a validity argument for an assessment’s scores. In practice, an educator would typically choose to use one of these two contemporary frameworks when collecting and interpreting data to support the validity of scores and decisions.


우리가 아래에서 자세히 설명 할 때, 이러한 틀은 실증주의 패러다임 (즉, 객관적인 현실이 특정하고 발견 가능한 자연 법칙으로 존재한다는 것)으로 제한되지 않는다. 오히려 둘 다 적절하게 해석주의적 입장(즉, 현실은 언어와 공유 된 의미를 통해 사회적으로 구성되며 여러 해석에 개방되어있다)을 취한다.

As we elaborate below, neither of these frameworks is restricted to a positivist paradigm (i.e., that an objective reality exists with specific, discoverable natural laws); rather, both lend themselves to an appropriately interpretivist stance (i.e., that reality is socially constructed through language and shared meaning and is open to multiple interpretations).



방어가능한 결정을 내리기 위한 질적 평가의 역할

The Role of Qualitative Assessment in Making Defensible Decisions


모든 평가의 궁극적 인 목적은 평가 대상자에 대한 타당한(즉, 방어 가능한) 결정 또는 판단에 도달하는 것입니다. 이러한 결정은 단독 또는 조합으로 학습자의 삶과 의학의 세계, 그들이 일하는 환자, 동료 및 시스템에 중요한 영향을 미칩니다.

The ultimate purpose of any assessment method is to come to a valid (i.e., defensible) decision or judgment about the person being assessed. These decisions, alone or in combination, have important consequences for the lives of learners and, in the world of medicine, for the patients, peers, and systems with which they work.24


수치 점수의 결함에는 평가자 편견 (관용, 엄격함 및 특이성), 범위 제한, 시험에 대한 가르침 (또는 무엇을 가르쳤는지에 대한 시험), 그리고 "객관성"의 거짓 안전을 포함합니다. 11,25

Other deficiencies in numeric scores include 

  • rater biases (leniency, strictness, and idiosyncrasies), 

  • restriction of range, 

  • teaching to the test (or testing to what was taught), and 

  • the false security of “objectivity.”11,25 


물론, 질적인 평가도 한계가 있다. 평가자와 분석가의 개인적인 편견과 특이성에 대한 감수성, 맥락 전반에 걸친 일반화 가능성의 부재, 그리고 종종 많은 양의 질적 데이터 인 것을 수집하고 분석하는 데 필요한 시간과 훈련에 대한 실질적인 우려를 포함하는 자체적 인 관심사를 가지고있다.

Of course, qualitative assessment has its own share of concerns, including 

  • susceptibility to the personal biases and idiosyncrasies of assessors and analysts, 

  • lack of generalizability across contexts, and 

  • practical concerns about the time and training required to collect and analyze what is often a large volume of qualitative data.


무엇이 정성적 평가입니까?

What Counts as Qualitative Assessment?


내러티브를 숫자 점수 (예 : 10 점 척도로 트레이닝 평가 내러티브 평가)로 변환하는 것은 연구 및 평가 모두에서 일반적인 관행이나, 이 점수의 유용성과 나름의 역할과 별개로 (우리의 정의에 따라) 이것은 정성 평가가 아니다. 오히려 실제 질적 평가에서 교육자는 학습자의 성과에 관한 공통 주제, 패턴, 불일치, 예 및 불확실한 사례를 식별하기 위해 생생한 서사 데이터를 분석하고 이를 해석하여 서술하고 요약하여 판단으로 종합합니다. 적절하게만 이뤄진다면 내러티브 합성은 내러티브를 단순한 숫자로 줄이는데 잃어버린 의미의 깊이, 폭, 뉘앙스 및 풍부함을 유지합니다. It is common practice in both research and assessment to convert such narratives to numeric scores (e.g., rating an in-trainingevaluation narrative on a 10-point scale), but while such scores are useful and have a role in assessment, they do not (by our definition) count as qualitative assessment. Rather, in true qualitative assessment educators analyze the raw narrative data to identify common themes, patterns, disagreements, examples, and disconfirming examples regarding learner performance, and synthesize these into an interpreted narrative and summary judgment. When properly done, such narrative syntheses retain a depth, breadth, nuance, and richness of meaning that would be lost in reducing the narratives to mere numbers. 

Hodges16이 지적했듯이, "행동을 숫자로 변환 한 다음 다시 문장으로 변환하는 것은 불필요한 우회입니다."
As Hodges16  noted, “Perhaps the translation of behaviours into numbers and then numbers back into statements is an unnecessary detour.” 

용어에 대한 간단한 설명이 필요하다. 질적 평가에 관해 논의 할 때 우리는 학습자의 성과를 관찰하고 문서화하는 사람을 assessor 또는 observer 와 같은 중립적인 용어로 부르기를 선호한다. Rater와 같은 단어는 숫자 등급의 생성을 암시하기 때문에 가급적 피한다. 우리는 마찬가지로 등급 및 점수라는 단어를 피하고 대신에 서술 (관측에서 생성 된 단어 또는 원시 데이터)합성 또는 해석 (다른 데이터로 분석, 해석 및 삼각화된 내러티브)라는 단어를 사용할 것이다. 질적 인 연구에서 합성과 해석 기능은 전형적으로 질적 인 방법에서 특정한 훈련과 경험을 가진 분석가를 필요로한다.

We wish to make a brief note regarding terminology. When discussing qualitative assessment, we eschew the word rater when referring to the person observing and documenting the learner’s performance, since it connotes the creating of a numeric rating, preferring instead a neutral term such as assessor or observer. We likewise avoid the words rating and score, and use instead the words narrative (to refer to the words or raw data generated from the observation) and synthesis or interpretation (to refer to narratives that have been analyzed, interpreted, and triangulated with other data). in qualitative research the synthesis and interpretation function typically require analysts with specific training and experience in qualitative methods.



우리는 질적 평가에서 "유효성"에 대해 말할 수 있습니까?

Can We Talk About “Validity” in Qualitative Assessment?


결정은 그것이 기반하고 있는 데이터만큼만 우수합니다.

A decision is only as good as the data on which it was founded.


양적 평가에서 증거는 타당도의 렌즈를 통해 그룹화되고 해석되며, 타당도는 "제안 된 시험 용도에 대한 시험 점수의 해석을 증거 및 이론이 뒷받침하는 정도"로 정의된다.

In quantitative assessment, evidence is grouped and interpreted through the lens of validity, which is defined as “the degree to which evidence and theory support the interpretations of test scores for proposed uses of tests.”31(p11)


질적 연구자들은 연구의 타당성에 대한 개념을 피하고 credibility나 trustworthiness와 같은 용어를 사용하여 rigor함을 해석합니다 .18-21

Qualitative researchers eschew the concept of study validity, and instead interpret rigor using terms such as credibility and trustworthiness.18–21


그러나 양적연구의 타당도 개념은 그것의 핵심 가치와 질적연구의 본질적으로 다른 패러다임을 희생하지 않고도 질적 평가에 적절하게 적용될 수 있다. 이 주장에서 우리는 구체적으로 평가 타당도에 대해서만 이야기하고자 한다. 연구 타당도의 판단은 이 논문의 범위를 벗어나는 완전히 다른 방법과 표준을 구성한다.

Yet we believe that the concept of validity can, in fact, be appropriately applied to qualitative assessment without sacrificing the core values and inherently different paradigms that define this field and approach. In asserting this, we specifically restrict our claim to the evaluation of assessment validity; judgments of research validity constitute an entirely different set of methods and standards,32 and fall outside the scope of this article.



질적 평가를 언급 할 때 타당도와 타당화의 개념을 가져와야하는 이유는 적어도 세 가지입니다.

We see at least three reasons to invoke the concepts of validity and validation when referring to qualitative assessments.



첫째, 타당도 확인은 주어진 결정의 방어력을 뒷받침하는 증거 수집을 의미한다. 타당도의 포괄적 정의는 증거의 본질에 아무런 제한을 두지, 않으며 실제로 정량적인 점수를 뒷받침하기 위해 수집 된 많은 증거는 본질적으로 정성적인특성을 갖는다 (예 : 내용 타당도 근거에는 종종 테스트 개발에 대한 서술이 포함되어 있습니다 34). 의사 결정에 중점을 둠으로써, 우리는 평가를 단지 숫자와 동일한 것으로 보는 관점을 넘어서, 정성적 분석에서 나오는 판단과 서사의 합성을 비롯하여 더 광범위하고 미묘한 범위의 평가 데이터를 수용한다는 일반 관념에 다다를 수 있다. 좋은 결정은 (숫자 정보든 단어 정보든) 무엇이든 기반으로 할 수 있으며, 아마도 이상적으로는 함께하는 것이 좋다.

First, validation refers to the collection of evidence to support the defensibility of a given decision.23,33 This broad definition makes no restriction on the nature of the evidence used, and in fact much of the evidence collected to support quantitative scores is qualitative in nature (e.g., content evidence often includes a narrative description of test development34). The focus on decisions also enables us to move beyond the lay notion that assessment is synonymous with numeric scores, and accept a broader and more nuanced range of assessment data including judgments and narrative syntheses emerging from qualitative analyses. Good decisions can be based on information presented as either numbers or words—and, perhaps ideally, both in concert.


둘째, 교육 평가 분야가 발전하고, 더욱 다양해진 데이터 유형을 수용하기 위해서는 언어와 어휘의 공통점을 찾아야합니다. 우리는 질적 평가에서 엄격함을 정의하기 위해 선택된 어휘는 사소한 문제가 아니라는 것을 인정합니다. 언어는 신념을 형성하고, 패러다임을 정의하고, 다른 사람들에 대한 어떤 담론에 권력을 부여합니다. 실제로 질적 분석의 모든 단계에서 단어가 중심적으로 설명됩니다. 어떤 사람들은 두 가지 독립적인 어휘 (별개의 언어)를 유지하기를 바랄 수도 있고, 아니면 질적 연구의 언어를 채택하고 그것을 정량적 평가 용도로 조작화하자고 주장할 수도 있다. 그러나 양적 평가 문헌의 타당도 확인 개념은 이미 상당히 잘 발달되어 있으며 많은 교육자들이 수용 할 수있는 견고한 체계를 갖추고 있다. 따라서 우리 중 두 명 (AK, SG)이 주로 질적 / 해석 주의적 연구 패러다임에서 일하는 경우 연구원과 교육자가 양적 평가 문헌에서 일반적으로 사용되는 용어를 질적 연구의 언어와 패러다임에 맞게 다시 조작하고 확장함으로써 이익을 얻을 수 있다는 실용적인 합의에 이르렀다. 

Second, for the field of educational assessment to move forward and embrace a greater diversity of data types we need to find common ground in language and vocabulary. We acknowledge that the vocabulary chosen to define rigor in qualitative assessment is no trivial matter. Language shapes beliefs, defines paradigms, and affords power to some discourses over others. Indeed, words figure centrally in all phases of qualitative analysis. Some might argue to retain two independent vocabularies—distinct languages—or to adopt the language of qualitative research and operationalize it for quantitative assessments. However, the concept of validation in the quantitative assessment literature is already quite well developed and reflects a robust framework that is accepted by many educators. Thus, even though two of us (A.K., S.G.) work primarily in a qualitative/ interpretivist research paradigm, we came to a pragmatic consensus that researchers and educators might benefit from reoperationalizing and broadening terms typically used in the quantitative assessment literature such that they align with both the language and paradigms of qualitative research.


셋째, 가장 중요한 것은 질적 연구에서 엄격함을 확립하기 위해 전통적으로 사용된 증거와 패러다임은 질적 평가의 엄격 성을 뒷받침하기 위해 현대 타당도 프레임워크의 렌즈를 통해 쉽게 재해석 될 수 있다는 것이다 .17,35 고전적 타당도 모델은 심리측정 전통에 크게 의존하지만 이제 시대에 뒤 떨어진 것으로 간주됩니다. 대조적으로, Messick과 Kane의 프레임 워크는 질적 평가에 근거한 결정의 방어력을 뒷받침하는 증거의 수집과 해석을 용이하게 한다.

Third, and most important, the evidence and paradigms traditionally used to establish rigor in qualitative research can be readily reinterpreted through the lens of contemporary validity frameworks to support the rigor of qualitative assessments.17,35 The classical validity model drew heavily on psychometric traditions but is now considered out of date. By contrast, Messick’s and Kane’s frameworks readily guide the collection and interpretation of evidence that supports the defensibility of decisions founded on qualitative assessments.



질적 평가에 Messick의 프레임 워크 적용 : 증거의 다섯 가지 출처

Applying Messick’s Framework to Qualitative Assessment: Five Sources of Evidence


중요하게는, 이러한 증거의 출처들은 서로 다른 유형의 타당성이 아니라 오히려 타당성에 대한 판단에 정보를 제공하는 다양한 범주의 증거입니다. 주어진 해석을 뒷받침 할 수있는 여러 출처에서 증거를 찾아야합니다. 표 2에는 이 다섯 가지 출처에 대한 정의가 들어 있는데,

Importantly, these sources of evidence are not different types of validity but, rather, different categories of evidence that inform judgments about validity. Evidence should be sought from several sources to support any given interpretation. Table 2 contains definitions for these five sources,


간략하게 요약하면 다음과 같습니다.

To summarize briefly:



• 내용 증거는 "시험 내용과 측정하려는 구인과의 관계"를 평가한다. 31 (p14) 질적 평가를 위해 내용 증거는 특정 프롬프트 (질문)를 선택하는 방법, 프롬프트의 표현 지침, 샘플링 전략 (특정 관점을 탐구하기 위해 종종 의도적으로 또는 의도적으로, 반복적으로 데이터 수집의 기간 및 초점을 조정)을 포함한다. 

• Content evidence evaluates the “relationship between the content of a test and the construct it is intended to measure.”31(p14) For a qualitative assessment, content evidence might include 

  • the method for selecting specific prompts (questions), 

  • the wording of prompts and instructions, and 

  • the sampling strategy (often deliberate or purposeful, to explore specific perspectives; and iterative, to tailor the duration and focus of data collection). 

추가적인 관찰이 새로운 주제를 제시하지 않을 때까지 포화 36- 목적적이고 반복적인 데이터 수집 및 분석 - 에 대한 질적 연구 개념은 실제로 완전한 포화가 아니라 "충분 함"이 일반적으로 목표 일지라도 유용한 이론적 샘플링 종점을 제공합니다.

The qualitative research concept of saturation36—continuing purposeful, iterative data collection and analysis until additional observations do not suggest new themes—provides a useful theoretical sampling end point, although in practice “sufficient” rather than complete saturation will usually be the goal.



• 응답 프로세스 증거는 공식적으로 "구인와 실제로 발생하는 성능의 세부 특성 사이의 적합성"으로 정의됩니다. 31 (p15)보다 실질적인 관점에서는 관찰 자체과 그것의 문서화 기록을 연결시키는 프로세스를 반영합니다 (답변, 평가 , 내러티브) 

  • 자신의 내러티브 설명의 기초가 되는 사건에 대한 평가자의 해석 (즉, 정신 프로세스), 또는 

  • 그 주석이 기록되는 시스템 (예 : 사무 또는 컴퓨터 프로세스). 

• Response process evidence is formally defined as “the fit between the construct and the detailed nature of performance … actually engaged in.”31(p15) In more practical terms it reflects the processes that link the observation itself to the record (answer, rating, narrative) documenting that observation, such as 

  • the assessor’s interpretations of events (i.e., mental processes) that underlie his or her narrative comments or 

  • the system by which such comments are recorded (e.g., clerical or computer processes). 

이에 해당하는 근거로는...

Evidence might show 

  • 평가자가 지침을 따르고 있다.that assessors follow instructions, 

  • 내러티브가 풍부한 자료를 제공하고 있으며, 같은 평가자라도 학습자마다 다른 다료를 만들고 있다.that narratives offer rich data and differ between learners for the same assessor, 

  • 평가자의 reflexivity가 고려되었다. that assessors’ reflexivity (such as their relationships with learners and context) has been considered, or 

  • 컴퓨터 인터페이스가 확장된 내러티브를 지원한다. that the computer interface allows extended narratives.




• 내적 구조는 동일한 평가에서 데이터 요소 간의 일관성 (또는 그 결여)과 이러한 요소를 의미있는 메시지로 합성하는 근거 및 방법을 반영합니다. 질적 평가를 뒷받침하는 증거는 

  • 서로 다른 데이터 요소의 삼각측량 (예 : 다른 평가자 또는 다른 상황에서 수집 한 내러티브), 

  • 분석 자체의 특성 (예 : 반복해서 포화가 될 때까지 추가 데이터 수집) 또는 

  • 분석가의 reflexivity

• Internal structure reflects the relationship among data elements in the same assessment— their coherence (or lack thereof), and the rationale and method for synthesizing these elements into a meaningful message. Evidence to support qualitative assessment might explore 

  • the triangulation among different data elements (e.g., narratives collected from different assessors or different contexts), 

  • the nature of the analysis itself (e.g., iteration, and often additional data collection, until saturation), or 

  • the reflexivity of the analysts. 


예를 들어, 교육자는 불일치하는 내러티브를 강조하고 이러한 불일치를 설명하는 추가 데이터 또는보다 미묘한 해석을 추구 할 수 있습니다.

For example, educators might highlight discordant narratives and seek additional data or a more nuanced interpretation that accounts for this seeming inconsistency.37



내부 구조는 평가 내 요소 간의 연관성과 합성 접근법을 바라 보는 반면, 다른 변수와의 관계는 최종 합성과 연구중인 평가 외부의 다른 정보 소스 간의 연관성을 조사합니다. 삼각 측량 (여기서는 외부 데이터 소스와 함께)과 이전 가능성 (예 : 다른 상황 또는 미래 또는 과거 공연)에 대한 질적 연구 개념의 적용은 이러한 관계의 증거를 제공 할 수 있습니다.

• Whereas internal structure looks at associations among elements within the assessment and the approach to synthesis, relationships with other variables examines the associations between the final synthesis and other information sources outside the assessment under study. Application of the qualitative research concepts of triangulation (here, with external data sources) and transferability (e.g., to other contexts or future or past performances) can supply evidence of these relationships.


• 마지막으로, 결과의 증거는 평가의 실질적인 영향과 관련된 결정 및 행동을 조사합니다. 24 그러한 증거의 수집은 평가의 학습자 및 강사의 인상과 그것이 그들의 삶에 어떻게 영향을 미치는지를 탐구하기 위해 질적 또는 양적 연구 방법을 사용할 수 있습니다. 또한 의도되거나 의도하지 않은 결과에 대한 객관적인 증거, 결정이 다른 이해 관계자와 공존하는 정도도 여기에 포함된다.

• Finally, evidence of consequences looks at the actual impact of the assessment and the associated decisions and actions.24 The collection of such evidence might use qualitative or quantitative research methods to explore learner and instructor impressions of the assessment and how it influenced their lives, objective evidence of intended and unintended consequences, or the degree to which decisions resonate with other stakeholders.




정량적 평가에 Kane의 프레임 워크 적용 : 4 가지 검증 추론

Applying Kane’s Framework to Qualitative Assessment: Four Validation Inferences



케인의 틀은 타당성 주장에서 핵심 추론에 초점을 맞추고있다 (표 3 참조). 최근 우리 중 일부가 다른 곳에서 요약 한 바와 같이 17 :

Kane’s framework focuses on key inferences in the validity argument (see Table 3). As some of us recently summarized elsewhere17:


본질적으로 Kane은 단일 관찰 (예 : 객관식 시험 문제, 기술 역, 임상 관찰 또는 포트폴리오 항목)의 점수에서 관찰 점수를 사용하여 성능을 나타내는 전반적인 테스트 점수를 생성하는 관찰을 추적합니다. 테스트 설정 (일반화), 테스트 점수가 실제 성능 (외삽)을 암시 할 수 있는지에 대한 추론을 작성한 다음이 정보를 해석하고 결정을 내리기 (함의). 이 과정의 각 단계는 몇 가지 가정과 함께 추론을 나타냅니다.

essentially, Kane traces an assessment from the Scoring of a single observation (e.g., multiple-choice exam question, skill station, clinical observation, or portfolio item), to using the observation score(s) to generate an overall test score representing performance in the test setting (Generalization), to drawing an inference regarding what the test score might imply for real-life performance (Extrapolation), and then to interpreting this information and making a decision (Implications). Each phase in this process represents an inference laden with several assumptions.


Kane의 접근법은 증거의 출처가 아닌 논쟁 자체에 초점을 맞춤으로써 정량적으로 선정 된 평가, 질적 평가 및 평가 프로그램에 똑같이 적용됩니다 .35 Kane은 연구자가 연구 질문을 전향적으로 식별하고 그 질문에 답하는 데 필요한 연구 데이터의 개요를 설명하는 것처럼, 평가에서도 의도된 용도와 결정 및 증거를 선불로up front 드러내고, 그러한 결정을 뒷받침하는 데 필요한 근거를 강조했다.

By focusing on the argument itself rather than sources of evidence, Kane’s approach applies equally well to quantitative selected)assessments, qualitative assessments, and programs of assessment.35 Kane emphasizes the imperative to articulate up front both the intended uses and decisions and also the evidence needed to support such decisions (the “interpretation/use argument”),38 just as a researcher would prospectively identify the research question and outline the research data required to answer the question.


첫 번째 추론인 scoring은 하나 이상의 실적 관측을 기반으로 통찰력 있고 정확한 response (예 : 이야기 설명)을 생성하는 것과 관련이 있습니다. Scoring inference을 뒷받침하는 데이터에는 다음이 포함될 수 있습니다.
  • 서술 응답을 이끌어내는 질문 또는 프롬프트의 워딩
  • 원시 서사의 풍부함, 
  • 관찰자의 신뢰도 
  • 최종 보고서의 "두꺼운 설명"으로 인용구문 이미지의 사용

The first inference—scoring—concerns the generation of an insightful and accurate response (e.g., narrative comment) based on one or more observations of performance. Data to support the scoring inference might include 

  • the wording of questions or prompts inviting a narrative response, 

  • the richness of the raw narrative, 

  • the credibility of the observers, and 

  • the use of “thick description” quotes or images in the final report.


다음 추론은 일반화generalization으로, 개개의 데이터 요소 (예를 들어, 코멘트)가 테스트 설정에서의 성능에 관한 일관되고 통찰력 있고 정확한 판단으로 합성되는 것이다. 정 성적 평가는 통상적 인 의미에서 일반화 될 수 없다. 오히려 질적 평가 교육자들은...

The next inference is generalization, in which individual data elements (e.g., comments) are synthesized into a coherent, insightful, and accurate judgment regarding performance in the test setting. Qualitative assessments are not intended to be generalizable in the usual sense19; rather, in qualitative assessment educators



일반화 추론은 샘플링 및 데이터 분석을위한 엄격한 방법에 의해 지지된다. 
  • 목적적 샘플링, 
  • 반복적이고 반응적인 데이터 수집 (이상적으로 포화까지 계속), 
  • 삼각 측량 (보완 소스로부터의 의도적 인 데이터 선택 및 합성)
  • 분석가의 훈련 및 경험.

The generalization inference would be supported by rigorous methods for sampling and data analysis, including 

  • purposeful sampling, 

  • iterative and responsive data collection (ideally continuing until saturation), and 

  • triangulation (deliberate selection and synthesis of data from complementary sources). 

  • The training and experience of analysts would also inform this inference.


외삽은 해석을 테스트 설정 이상으로 확장하고 실제 상황과 향후 성과에 대한 관련성을 주장합니다. 외삽 증거는 주로 두 가지 출처로부터 온다. 
  • 테스트 또는 평가가 실제 퍼포먼스의 가장 중요한 측면을 반영하도록하는 단계 
  • 테스트 퍼포먼스와 실제 퍼포먼스와의 관계를 (양적으로 또는 질적으로) 평가하는 경험적 분석
Extrapolation extends the interpretations beyond the test setting and claims relevance to real-life situations and future performance. Extrapolation evidence comes primarily from two sources: 
  • steps taken to ensure that the test or assessment reflects the most important aspects of real- life performance, and 

  • empiric analyses that evaluate (quantitatively or qualitatively) the relationship between test performance and real-world performance. 


테스트 설정 평가 데이터와 해당 실제 데이터 모두 양적, 질적 또는 둘 다일 수 있습니다.

Note that both the test-setting assessment data and the corresponding real-world data could be quantitative, qualitative, or both.



마지막으로, 함축 추론implication inference은 실제 성과에 대한 주장과 그에 기반한 결정 및 행동 사이의 연관성을 탐구한다. 이 단계에서는 평가에 기반한 의사 결정에 따른 의도하거나 의도하지 않은 결과를 평가하고, 대부분의 측면에서, 위에 논의 된 결과 증거를 병행합니다.

Finally, the implications inference explores the link between claims for real- world performance and the decisions and actions based thereon. This step evaluates the intended or unintended consequences of assessment-informed decisions and, in most respects, parallels the consequences evidence discussed above.





기존 평가 접근법에 적용

Application to an Existing Assessment Approach


정의와 목적

Definition and purpose


학습 포트폴리오 (이하 "포트폴리오")는 일반적으로 학습자가 자신의 평가자 (즉, 유물 중 많은 부분을 선택하고 논평한다)이며 학습자가 (하나 이상의 교수들과 함께) 흔하게  분석(성찰 요소의 합성)에 기여한다는 점에서 비정형 적이다. . 

Learning portfolios (hereafter, “portfolios”) are atypical among assessments in that learners are usually their own assessors (i.e., they select and comment on many, if not all, of the artifacts), and learners also frequently contribute to the analysis (i.e., synthesis during the reflective component) along with one or more faculty members.42,56



Applying Messick’s framework


As detailed in Table 2, we find supportive evidence from all five of Messick’s sources. 

    • Two areas of concern are that residents, in the assessor (data collector) role, could bias the assessment by selectively including only favorable data,13,42,44,53 and that the use of excessive structure might impede reflection.57 

    • Both of these issues could be addressed through portfolio redesign (e.g., involving others in artifact selection). 

    • Evidence of consequences is quite extensive for portfolios, likely because they have been explicitly viewed as training interventions as well as assessment instruments.39–41 

    • While generally favorable, fairness and overall value have been questioned.43–45,47,52,55


Applying Kane’s framework

    • Kane의 접근법에서는 근거를 수집하기 전에 '의도한 사용'과 '해석/사용 주장'을 먼저 밝혀야 한다. 
      Applying Kane’s approach requires that we not only identify the intended use (i.e., to provide formative feedback, as noted above) but that we also articulate the interpretation/use argument38 (i.e., the evidence and interpretations that would support such use) before embarking on a search for evidence.17 

    • To support the proposed use, for the scoring inference we would hope to find evidence that those collecting information (typically the residents) had proper training and/ or instructions, that they were allowed sufficient time to collect their artifacts, and that the artifacts accurately reflect the original activity being assessed and contain sufficient information to allow insightful interpretations. 

    • To support generalization, we would hope to find evidence that the artifacts represent a variety of meaningful activities and collectively form a coherent, accurate, and complete picture of the resident across multiple clinical situations. Ideally, artifacts suggesting conflicting or incomplete interpretations would prompt additional data collection or a narrative explanation from the resident. We would further expect that those conducting the interpretive analysis (e.g., mentors or program directors) have appropriate training or experience, that the interpretation integrates but does not rely exclusively on the learner’s reflections, and that the analysis process is transparent and rigorous. This might include explicit consideration of personal idiosyncrasies when providing feedback (analyst reflexivity). 

    • To support extrapolation, we would hope that the final synthesis is coherent with other information (e.g., qualitative or quantitative assessments) about the resident (triangulation) and that those involved in the original activities would agree with this final synthesis (member check). 

    • Finally, to support the proposed implications, we would hope to find evidence that relevant stakeholders (e.g., the resident and program director) agree with the decision (in this case, specific feedback) based on these narratives, and that actions based on this feedback have the desired effect without unanticipated negative impact.


Further evidence and summary



과제, 불확실성, 다음 스텝

Challenges, Uncertainties, and Next Steps


Limitations of this work


질적 평가에서의 실질적 이슈

Practical issues in qualitative assessment



연구에서처럼, 평가에서 양적 및 질적 방법은 서로 다른 목적을 제공하고, 서로 다른 필요를 충족 시키며, 서로 다른 강점과 약점을 실증하기 때문에 상호 보완 적입니다. 혼합 방식 연구와 마찬가지로, 견고한 혼합 방식 평가는 각 접근 방식 (즉, 양적 및 질적)에 개별적으로 초점을 맞춰 최적의 방법, 데이터 및 인적 자원을 각각 확보 한 다음 결과를 삼각화합니다.

Just as they do in research, quantitative and qualitative methods in assessment complement one another as they serve different purposes, address different needs, and exemplify different strengths and weaknesses. As with mixed- methods research,59 robust mixed- methods assessment will ideally focus on each approach (i.e., quantitative and qualitative) separately—ensuring optimal methods, data, and human resources for each—and then triangulate the results.



질적 데이터의 수집과 일단 수집 된 데이터 분석은 정량적 평가보다 더 많은 시간, 더 많은 에너지 및 매우 다른 기술을 요구하는 경향이 있습니다. 

  • 통찰력있는 서사를 제작하고 기록하는 데 일반적으로 체크리스트 또는 평가 척도를 표시하는 것보다 시간이 오래 걸리며 여러 가지 다른 질문에 이어 프롬프트가 나오면 서술의 품질이 저하 될 수 있습니다(예 : 평가자 피로)

  • 의미있는 서술 (정확한 양적 평가와 마찬가지로)은 상황에 따른 성과를 충분히 관찰 할 필요가 있으며, 시간의 압박을 느껴 평가자는 대충 하려는 유혹을 받을 수 있습니다. 

  • 대량의 원시 서사를 의미있는, 실행 가능한 통찰력으로 합성하려면 정성 분석 기술, 상황 및 내용 별 지식 및 적절한 시간이 필요합니다. 

  • 질적 평가의 통합을 고려하는 프로그램은 평가자와 분석가를 위한 기술 개발과 같은 요구 사항을 고려해야 할 것입니다.

Both the collection of qualitative data and the analysis of data once collected tend to demand more time, more energy, and vastly different skills than do quantitative assessments. Crafting and recording an insightful narrative typically takes longer than marking a checklist or rating scale, and narrative quality may suffer if prompts are preceded by numerous other questions (i.e., assessor fatigue). Meaningful narratives (just like accurate quantitative ratings) also require sufficient observation of performance- in-context, which time-pressed assessors may be tempted to shortchange. a large volume of raw narratives that must then be distilled and synthesizedinto meaningful, actionable insights requires people with qualitative analysis skills, context- and content-specific knowledge, and adequate time. Programs considering theincorporation of qualitative assessments will need to take into account such resource requirements, which might include skill development for assessors and analysts.



모든 평가는 데이터 및 해석의 품질만큼만 견고하며, 질적 평가는 양적 측정과 다른 품질 문제의 영향을 받기 쉽습니다. 

  • 첫째, 데이터의 양과 내용에 큰 variability이 있습니다. 풍부한 내러티브 설명은 통찰력으로 포화 될 수 있지만 얕은 의견은 해석하기가 어렵고 내러티브 길이가 반드시 풍부함 또는 유용성을 반영하지는 않습니다. 평가사 훈련, 동기 부여, 시간 압박 및 피로와 같은 요소는 의견의 질에 영향을 미칠 수 있습니다. 

  • 둘째, 원시 내러티브와 그 해석에는 필연적으로 모두 평가자와 분석가의 특이성이 반영된다. 예를 들어, 평가사는 자신의 정체성을 가려 내기 위해 의견을 베일을 씌울 수 있고, 판단을 피하기 위해 강하게 indictment하지 않을 수 있습니다 .60,61 

  • 마지막으로, 질적인 데이터는 퀄리티 문제를 식별하는 것이 더 어려울 수 있습니다 신뢰성, 후광 효과, 누락 된 데이터 및 차별과 같은 조치를 쉽게 계산할 수있는 정량적 평가와는 달리 부정적인 인상을 기록합니다 60).

All assessments are only as robust as the quality of the data and interpretations, and qualitative assessments are susceptible to quality issues that are different from those of quantitative measures. 

  • First, there is inherently greater variability in the amount and content of data; rich narrative comments may be saturated with insights, whereas shallow comments are harder to interpret, and narrative length does not necessarily reflect richness or utility. Factors such as assessor training, motivation, time pressure, and fatigue can influence the quality of comments. 

  • Second, both raw narratives and synthesized interpretations will inevitably reflect the idiosyncrasies of assessors and analysts, respectively. For example, assessors may veil their comments to mask their identity or may defer strong indictments to avoid passing judgment.60,61 

  • Finally, it may be more difficult to identify problems in the quality of qualitative data (such as shallow comments, or failure to record negative impressions60) in contrast with quantitative assessment, for which measures such as reliability, halo effect, missing data, and discrimination can be readily calculated.


질적 분석은 일반적인 의미에서 일반화 될 수있는 것이 아니라, 오히려 (새로운 상황으로 이전 될 수도 있는) context-bound 인상을 정확히 반영하기위한 것이다. 따라서 샘플링은 무작위보다는 의도적으로 목적이 있으며, 일반적으로 주제별 만족을 목표로하며 반드시 큰 샘플을 필요로하지는 않습니다. 그러나 샘플링은 축적 된 증거에 반응하여 관련 이론에 따라 가이드되어야 하며 대부분의 경우 데이터의 variability을 극대화하는 데 주의를 기울여야합니다.

Qualitative analyses are not intended to be generalizable in the usual sense19,62 but, rather, to accurately reflect context-bound impressions that may transfer to new situations. Sampling is thus intentionally purposive rather than random, typically aims for thematic sufficiency, and does not necessarily require large samples. However, sampling must be guided by relevant theories, responsive to accumulating evidence, and in most cases attentive to maximizing the variability in data.



아마 단기적으로 가장 큰 도전은 교육에서의 양적 / 정신 측정 모델의 압도적 인 지배력과 비교하여 질적 평가의 적절성에 의문을 제기하는 편견과 선입견을 극복하는 것일 것입니다 .63

Perhaps the greatest challenge—at least in the short term—will be to overcome the biases and preconceptions that question the relevance of qualitative assessment in comparison with the overwhelming dominance of the quantitative/ psychometric model of assessment in education.63




Conclusions and next steps


우리는 양적 및 질적 평가 방법의 분리에 적극적으로 반대합니다 .71 오히려, 우리는 명확하게 진술 된 목적이 데이터 수집 및 분석의 성격과 접근 방식을 결정하는 "방법 중립적"접근법을지지합니다. Patton72가 말한 것처럼,

We vigorously oppose the segregation of quantitative and qualitative assessment methods.71 Rather, we advocate a “methods-neutral” approach, in which a clearly stated purpose determines the nature of and approach to data collection and analysis. As Patton72 stated,


중요한 도전은 목적과 질문에 대한 방법을 적절하게 일치시키는 것이지, 모든 탐구 상황에 대해 단일 한 방법 론적 접근을 보편적으로 그리고 무조건적으로 지지하는 것이 아니다.

a consensus has gradually emerged that the important challenge is to appropriately match methods to purposes and inquiry questions, not to universally and unconditionally advocate any single methodological approach for all inquiry situations.


양적 또는 질적 인 평가를 평가할 때 현대의 유효성 틀을 사용하도록 촉구하지만, 우리는 Messick이나 Kane을 강력하게 선호하지 않습니다. 검증에서 가장 중요한 것은 의도 된 결정의 방어 가능성을 평가하는 일관된 주장을 전략적으로 증거하고자하는 증거입니다.

Although we urge the use of a contemporary validity framework when evaluating any assessment, quantitative or qualitative, we do not strongly favor either Messick or Kane. What matters most in validation is that evidence is strategically sought to inform a coherent argument that evaluates the defensibility of intended decisions.





6 Cook DA, Brydges R, Zendejas B, Hamstra SJ, Hatala R. Mastery learning for health professionals using technology-enhanced simulation: A systematic review and meta- analysis. Acad Med. 2013;88:1178–1186.



7 Ginsburg S, McIlroy J, Oulanova O, Eva K, Regehr G. Toward authentic clinical evaluation: Pitfalls in the pursuit of competency. Acad Med. 2010;85:780–786.


8 Schuwirth LW, van der Vleuten CP. A plea for new psychometric models in educational assessment. Med Educ. 2006;40:296–300.



9 Kuper A, Reeves S, Albert M, Hodges BD. Assessment: Do we need to broaden our methodological horizons? Med Educ. 2007;41:1121–1123.


10 Govaerts MJ, Van de Wiel MW, Schuwirth LW, Van der Vleuten CP, Muijtjens AM. Workplace- based assessment: Raters’ performance theories and constructs. Adv Health Sci Educ Theory Pract. 2013;18:375–396.




 2016 Oct;91(10):1359-1369.

When Assessment Data Are WordsValidity Evidence for Qualitative Educational Assessments.

Author information

1
D.A. Cook is professor of medicine and medical education, associate director, Mayo Clinic Online Learning, and consultant, Division of General Internal Medicine, Mayo Clinic College of Medicine, Rochester, Minnesota.A. Kuper is assistant professor, Department of Medicine, Faculty of Medicine, University of Toronto, scientist, Wilson Centre for Research in Education, University Health Network/University of Toronto, and staff physician, Division of General Internal Medicine, Sunnybrook Health Sciences Centre, Toronto, Ontario, Canada.R. Hatala is associate professor of medicine and director, Clinical Educator Fellowship, University of British Columbia, Vancouver, British Columbia, Canada.S. Ginsburg is professor, Department of Medicine, Faculty of Medicine, University of Toronto, scientist, Wilson Centre for Research in Education, University Health Network/University of Toronto, and staff physician, Mount Sinai Hospital, Toronto, Ontario, Canada.

Abstract

Quantitative scores fail to capture all important features of learner performance. This awareness has led to increased use of qualitative data when assessing health professionals. Yet the use of qualitative assessments is hampered by incomplete understanding of their role in forming judgments, and lack of consensus in how to appraise the rigor of judgments therein derived. The authors articulate the role of qualitative assessment as part of a comprehensive program of assessment, and translate the concept of validity to apply to judgments arising from qualitative assessments. They first identify standards for rigor in qualitative research, and then use two contemporary assessment validity frameworks to reorganize these standards for application to qualitativeassessment.Standards for rigor in qualitative research include responsiveness, reflexivity, purposive sampling, thick description, triangulation, transparency, and transferability. These standards can be reframed using Messick's five sources of validity evidence (content, response process, internal structure, relationships with other variables, and consequences) and Kane's four inferences in validation (scoring, generalization, extrapolation, and implications). Evidence can be collected and evaluated for each evidence source or inference. The authors illustrate this approach using published research on learning portfolios.The authors advocate a "methods-neutral" approach to assessment, in which a clearly stated purpose determines the nature of and approach to data collection and analysis. Increased use of qualitative assessments will necessitate more rigorous judgments of the defensibility (validity) of inferences and decisions. Evidence should be strategically sought to inform a coherent validity argument.

PMID:
 
27049538
 
DOI:
 
10.1097/ACM.0000000000001175


WBA의 타당도: 지평 넓히기 (Med Educ, 2013)

Validity in work-based assessment: expanding our horizons

Marjan Govaerts & Cees PM van der Vleuten




도입

INTRODUCTION


WBA에는 미니 임상 평가 운동, 실용 기술 직접 관찰, 전문성 미니 평가 운동, 다중 소스 피드백 및 연수생 개종자를 전형적으로 요구하는 연수 평가 보고서 등의 평가 도구가 포함됩니다 미리 정해진 규칙과 기준에 따라 수치로 점수를 매기고 훈련생의 능력에 대한 정확하고 쉽게 전할 수있는 설명을 얻는다.

Work-based assessments include assess- ment tools such as mini-clinical evaluation exercise, direct observation of practical skill, professionalism mini-evaluation exercise, multi-source feedback as well as in-training evaluation reports that typically require clinical assessors to convert trainee perfor- mance into a numerical score, according to prede- fined rules and criteria, to obtain accurate and easily communicable descriptions of a trainee’s abil- ity.


연구 결과는 총괄 평가 목적을 위한 WBA의 유용성에 심각한 우려를 제기합니다. 

  • 첫째, 현실 세계에서의 평가 작업은 예측할 수없고 본질적으로 표준화되지 않으며 여러 부서마다 동일하지 않습니다. 심리측정 관점에서 볼 때 이것은 평가의 신뢰성과 타당성에 심각한 위협을 제기합니다. 

  • 둘째, 전문가 판단이 WBA에 내재되어 있으므로 평가의 주관성에 대해 심각한 우려가 제기됩니다. 평가자는 일반적으로 측정 오류의 주요 원인으로 간주됩니다 .2.3 등급은 받아 들일 수 없도록 편향되어 있으며 후광 및 관대화 영향을받으며 성능 등급의 내부 및 내부 신뢰도는 종종 표준 이하임을 나타냅니다 .4-6

research findings raise serious concerns about utility of WBA for sum- mative assessment purposes. 

  • First, assessment tasks in the real world are unpredictable and inherently unstandardised and they will not be equivalent over different administrations. From a psychometric per- spective, this poses serious threats to reliability and validity of assessment. 

  • Second, as professional judge- ment is inherent in WBA, serious concerns are raised about the subjectivity of assessments. Raters are generally considered to be major sources of measurement error.2,3 Performance ratings are con- sidered to be unacceptably biased, suffering from halo and leniency effects, and intra- and inter-rater reliability of performance ratings are often found to be substandard.4–6


WBA에 대한 대부분의 비판은 심리측정의 정량적 틀과 일치하는 타당성과 타당화에 대한 접근에서 유래한다. 

  • 타당성은 증거 또는 이론적 근거에 의해 정당화되면서 의사 결정과 행동 측면에서 제안 된 해석과 평가 결과의 사용 (예 : 성과 등급 또는 시험 점수)이 적절하고 적절하다는 정도를 나타냅니다. 

  • 타당화는 다른 출처로부터 얻은 여러 종류의 증거를 축적하고 통합함으로써 시험 점수의 의도 된 해석과 제안 된 용도와의 관련성을 뒷받침하는 과학적으로 건전한 타당성 주장을 개발하는 것으로 정의 될 수있다.

  • 타당화는 코흐 (Koch)와 델 루카 (DeLuca) 11에 명시된 바와 같이 : '... 타당성 확인은 평가 실무에 대한 지속적인 조사를 촉진하는 생성 과정이어야한다.'

most criticisms of WBA stem from approaches to validity and validation con- sistent with the quantitative framework of psycho- metrics. 

  • In essence, validity refers to the degree to which the proposed interpretations and the uses of assessment outcomes (e.g. performance ratings or test scores) in terms of decisions and actions are adequate and appropriate, as justified by evidence or theoretical rationales.8,9 

  • Validation can then be defined as ‘developing a scientifically sound validity argument to support the intended interpretation of test scores and their relevance to the proposed use’10 through accumulation and integration of dif- ferent kinds of evidence from different sources. 

  • Or, as stated by Koch and DeLuca11: ‘..validation should be a generative process that promotes continuous inquiry into assessment practice’.


이 글은 WBA에서 타당성과 타당화에 대해 심리측정접근에만 초점을 맞춘 접근이 더 이상 적합하지 않을 수도 있다는 것을 보여주기 위함이다.

In this article, it is our intent to illus- trate that an exclusive focus on traditional psycho- metric approaches to validity and validation in WBA may no longer be appropriate


심리측정의 예측론적 틀 안에서, 평가는 일반적으로 일반화 가능한 설명이나 예측을 목표로한다. 9,12 현재 평가에서 심리측정적 담론의 중심은 진정한 성과true performance를 나타내는 진정한 점수true score의 추론에 거의 초점을 맞추고있다.

Within the predictive, deterministic framework of psychometrics, assessment typically aims for general- isable explanations or predictions.9,12 Central to the psychometric discourse in current assessment are its almost exclusive focus on the inference of a true score representing true performance;


WBA에 대한 현재의 접근법과 WBA의 타당성 확인에서 세 가지 가정이 특히 눈에 띈다

In current approaches to WBA and validation of WBA, three assumptions in particular seem to stand out:


1 학습 (전문성 개발)은 사전에 식별하고 지정할 수있는 결정적이고 선형적인 프로세스입니다. 과제 수행과 학습 (평가 점수로 표현됨)은 전형적으로 맥락과는 별도로 추상화되고 해석된다.

1 Learning (professional development) is a deter- ministic, linear process that can be identified and specified in advance; task performance and learning (as represented by assessment scores) are typically abstracted and interpreted indepen- dent of context;


2 능력으로부터 추론 된 능력은 고정적이고 영구적이며 탈맥락화된 속성, 즉피훈련자의 고유 한 특성 또는 능력이다,

2 Competence, as inferred from performance, is a fixed, permanent and decontextualised attri- bute, i.e. an inherent trait or ability of health care workers (or trainees), and


3 성과는 '객관화'될 수 있으며 평가자는 수행 할 수있는 경우 실제 수준의 성과를 관찰하고 관찰 할 수 있습니다.

3 Performance can be ‘objectified’ and assessors, if they were only capable to do so, would be able to rate and observe some true level of per- formance.



그러나 산업 및 조직 심리학의 연구 결과는 직무 수행능력은 복잡한 직무에서 특히 시간적 안정성이 결여되어 있음을 보여 주었다 .13,14 직무 수행의 실제 개인 내 편차는 개인의 변화로 인해 발생할 수있다. 동기, 피로, 능력 수준의 변화), 직업 환경의 변화 14) 이와 유사하게, 의학 교육에서의 연구 결과는 상황 (즉, 작업 환경 또는 작업 환경)이 의사의 진료행동에 결정적인 영향을 미친다는 것을 보여주었다. 예를 들면, 전문가(내과의사)의 임상추론능력은 상황에 따라 매우 specific했으며, 그 상황에서 누구를 만나느냐(환자와 의사) 또는 목표 및 설정이 어떠하느냐에 따라 달랐다.

however, findings from research in industrial and organisa- tional psychology show that job performance lacks temporal stability, especially in highly complex jobs.13,14 True intra-individual variation in job per- formance may result from changes in the individual (e.g. due to motivation, fatigue, changing levels of competence) as well as changes in the job environ- ment.14 Similarly, research findings in medical edu- cation indicate that context (i.e. task environment or work environment) critically influences behav- iours in practising doctors. Durning and col- leagues,15 for instance, reported that contextual factors affected clinical reasoning performance by experts (board certified internists) in ways that were very specific to the situation and were influenced by participants in the encounter (patient and doctor), their goals and the setting.


또한 WBA에서의 평가자의 영향은 단순히 bias가 아니며, 오히려 수행능력에 대한 대체적이고 보완적인 타당한 견해를 보여주는 것이다.

Similarly, increasing evidence from industrial and organisational psychology, as well as medical education, supports contentions that rater effects in WBA do not represent (mere) rater biases, but rather represent alternative and comple- mentary valid perspectives on trainee perfor- mance,16


최근의 연구 결과와 복잡한 사회 환경에서의 학습에 대한 이해의 증대는 WBA의 현재 타당도 증거의 중요성과 적합성이 의문시 될 수 있으며, psychometrics에 포함 된 일반적인 타당성 이론은 더 이상 유지할 수 없다고 제안합니다. 우리는 잘못된 가정하에 운영 될 수 있습니다.

Recent research findings and growing understand- ing of learning in complex social environments therefore suggest that meaningfulness and appropri- ateness of current validity evidence in WBA can be called into question, and common validity theory, which is framed in psychometrics, may no longer hold: we may be operating on faulty assumptions.




WBA와 학습의 예측가능성

WBA AND PREDICTABILITY OF LEARNING



의학 교육에서 행동 주의적,인지 주의적, 구성 주의적 학습 이론에서 기인 한 시각은 오랫동안 교육 및 평가의 발전을 주도 해왔다. 이러한 학습 이론은 공통적으로 개별 학습자에 초점을 두어 학습의 인지 적 측면 (즉, 사고와 반성)을 강조하고 학습이 학습자의 마음에 위치한 '물건'으로 간주된다는 점이 공통적이다. 이 이론들은 맥락이 학습 과정의 질과 학습이 얼마나 잘 이루어지는지에 영향을 미친다는 것을 인정하지만, 학습한 내용이나 배워야 할 내용은 맥락에 상대적으로 무관하다는 견해를 가지고있다.

In medical education, perspectives originating from behaviourist, cognitivist and constructivist learning theories have long dominated developments in instruction and assessment. These learning theories have in common that they focus on individual learners, that they stress cognitive aspects of perfor- mance (i.e. thinking and reflection) and that learn- ing is treated as a ‘thing’ or product located in the mind of the learner. Although these theories acknowledge that context influences quality of learning processes and thus how well learning occurs, their view is that the nature of what is learned or is to be learned, is relatively independent of context.17


그들은 일반적으로 직무 학습을 공식 학습과 유사한 선형 과정으로 취급하는데, 학습자가 무능력incompetent에서 유능함competent으로 발전하여 학습 및 성과 개발을 형성하는 데 사회, 문화 및 조직적 요인의 역할을 거의 무시합니다.

They generally treat workplace learn- ing as a linear process, akin to formal learning, through which a learner develops from incompetent to competent, largely neglecting the role of social, cultural and organisational factors in shaping learn- ing and performance development.


그러나 지난 수십 년 동안 직장에서의 학습에 대한보다 강력한 이론이 나타 났다.

During the past decades, however, more robust theories of work- place learning have emerged,



특히 직장 학습의 사회문화이론 그룹은 직장 환경에서 학습을 이해하는 데보다 강력한 틀을 제공하는 것으로 보인다. 사회 문화적 학습 이론학습은 공동체의 활동에 적극적으로 참여하고 작업 환경의 복잡하고 역동적 인 시스템과 상호 작용함으로써 출현한다고 주장한다 .18 따라서 이 이론에서는 학습과 전문성 개발이 학습이 일어나는 맥락의 특징들과 불가분의 관계로 본다. 즉, 맥락이 변화함에 따라 학습 과정은 물론 학습 결과가 변한다 .17,19 연수생이 무엇을, 어떻게, 왜 배우는지는 피훈련자와 공동 참여자 (예 : 감독자, 평가자, 동료 및 임상 적 맥락에서의 환자들)들의 경험, 의미, 결과에 따라 달라진다.

Especially the group of socio-cultural theories of workplace learning seem to offer more powerful frameworks for understanding learning in workplace settings . Socio-cultural learning theories claim that learning and learning outcomes emerge through active participation in activities of a community and interaction with the complex and dynamic systems of the work environment.18 Socio-cultural learning theories therefore consider learning and expertise development to be inextricably linked to features of the context in which the learning occurs; learning processes as well as learning outcomes change as contexts change.17,19 What, how and why trainees learn is shaped by unique experiences and the meaning or consequences that trainees and co-par- ticipants (e.g. supervisors, assessors, co-workers and patients in a clinical context) attach to these experi-ences.9 


사회적 상호 작용에 의해 생성 된 지식에 중점을 둔 사회 문화적 학습 이론은 특히 임상환경의 학습에서 유용하다. 임상환경의 학습은 다음과 같은 특징을 갖는다.

Socio-cultural learning theories, with their focus on knowledge produced by social interaction, are particularly useful for thinking about learning in clinical training and health care settings. 

  • In these settings, learning is produced by a trainee’s engagement in non-standardised and unpredictable tasks of authentic health care practices and the ongoing social interaction around authentic tasks, shaped by (unique) physical, social and organisational contexts.20 

  • Learning in clinical work settings then inevitably becomes a dynamic, non-linear and non-deterministic process. 

  • The increasing complexity of health care as well as its ever-changing context furthermore demand that we move beyond predictability of individual learning and competence towards conceptualisations of competence as a collective, sit-uated and dynamically produced through interac- tion and learning in functional clinical groups.20 


(개인 능력에서 팀 경쟁력으로 초점을 전환해야하는) 팀 기반 진료가 보건 의료 시스템에서 급속도로 표준화되고있을뿐만 아니라 헬스케어시스템의 복잡성과 역동성은 더 이상 역량을 "달성해야 하는 상태"로 볼 수 없다는 것을 의미합니다. 오히려 요즘 업무 기반 학습 및 역량의 개념에는 변화에 지속적으로 적응할 수있는 능력이 포함되어야합니다. 역량은 지식과 기술의 습득에 관한 것이 아니라 변화하는 업무 프로세스에 대한 응답으로 새로운 지식을 창출하는 능력에 관한 것입니다 .21 이러한 관점에서 학습은 지속적으로 진화하는 상황에 적응하는 사회적 네트워크 및 실천 공동체에서의 협력 적 프로세스를 통해 '아직 존재하지 않는 것'을 학습하는 것을 포함한다.22,23

Not only is team-based care rapidly becoming the norm in our health care systems (requiring a shift in focus from individual competence to team com- petence), the complex and dynamic nature of health care systems also implies that we can no longer see competence as ‘a state to be achieved’. Rather, nowadays, notions of work-based learning and competence should include the ability to con- tinuously adapt to change. Competence it is not just about acquisition of knowledge and skills, but about the ability to create new knowledge in response to changing work processes.21 From this perspective, learning involves learning things ‘that aren’t there yet’, through exchange and interactions in social networks and collaborative processes in communi- ties of practice that adapt to continuously evolving circumstances.22,23


학습자와 환경 사이의 복잡하고 역동적 인 상호 작용 프로세스에서 '학습자와 환경은 서로를 재구성합니다'. 학습은 '팽창적'이며 학습은 '끊임없이 변화하는 환경의 도전에 맞추어 유연하고 건설적이며 혁신적인 방식으로 행동하는 (집단적) 능력의 향상'이라는 개념으로 해석 될 수있다 .17 따라서 미래의 실천을위한 학습은 학습 분명한 종점이없는 진행중인 프로세스입니다. 학습은 결코 끝나지 않습니다. 이것은 학습이 잘 정의되고 안정된 학습 성과로 계획되고 공식적인 사건에 초점을 맞추는 의학 교육의 전통적인 접근 방식에 직접적으로 반대된다. 따라서 직장 학습의 최근 이론은 예측 가능하고 결정할 수있는 직장 학습 시스템이 설계 될 수 있는지에 대해 의문을 갖는다. 이론들 중 일부는 복잡성 이론에 기초를두고 있으며, 학습은 예측 불가능하고 예기치 않은 방식으로 그 맥락에서 창발적으로 발생하는 창조적 인 과정이라고 강조한다.

Complex and dynamic interactive processes between the learners and their environ- ment then ‘mutually reconstruct both the learner and the environment’. Learning is ‘expansive’22 and can be conceptualised as ‘an increasing (collective) capacity for acting in flexible, constructive and inno- vative ways appropriate to the challenges of ever changing circumstances’.17 Learning for future prac- tice thus implies that learning is an ongoing process without a clear endpoint; learning is never com- plete. This is directly opposed to traditional approaches in medical education where learning focuses on planned, formal events with well-defined and stable learning outcomes.24 Very recent theories of workplace learning therefore explicitly question whether predictable and decidable systems of work- place learning can be designed and implemented. These theories, some of which build on complexity theory, emphasise the view that learning is an ongo- ing creative process, emergent from its context in unpredictable and unanticipated ways.17


비록 사회 학습 이론이 의학 교육에서 점차적으로 사용되고 있지만, 현재의 이론의 상당 부분은 직장 학습을 이해하고 설명하려는 목적이 있어서, 양질의 학습을 지원하고 향상시킬 수 있는 균일한uniform 조건을 확인하고 실행하려고 한다. 실제로 직업 기반 학습 및 WBA를 향상시키기위한 많은 노력은 전문성 개발의 '올바른'이론 개발을 통해 훈련생의 학습을 예측 가능한 방식으로 조장하는 임상 교육의 설계를 목표로하는 것으로 보입니다. 또한 학습 환경 (예 : 주요 프로젝트)에서 사전에 정의 된 단계마다 달성해야하는 역량표준을 명시하려는 것도 한 방법이다25

Although social learning theory is increasingly beingused in medical education,19 much of current theo- rising still seeks to understand and explain work- place learning so that conditions that uniformly support and enhance quality learning can be identi- fied and implemented. In fact, a lot of current efforts to improve work-based learning and assess- ment seem to aim for the design of clinical training that steers trainees’ learning in predictable ways, through development of the ‘right’ theories of pro- fessional development, better analyses of task envi- ronments and the technology to model them,12 as well as specifying standards for competent perfor- mance that have to be achieved at predefined stagesin the learning process (e.g. milestones project).25 



이러한 (마치 법과 같은) 예측 가능성은 평가, 학습 및 성과 모델을 psychometric 프레임 워크와 호환 가능하게 만드는 데 필요합니다. 그러나 학습이 본질적으로 상황 의존적이고situated, 협동적이며, 변형적이고 팽창적인 (즉, 재생산보다는 지식 생산에 초점을 맞춘)것이라고 보는 개념은 학습 내용의 예측 가능성과 통일성에 대한 가정에 도전한다. 미리 정의 된 학습 성과에 초점을 맞춘 평가는 반드시 전문성 개발 과정의 arbitrary한 단계를 지나치게 단순화한다.

Such (law-like) predictability is neces- sary to make models of assessment, learning and performance compatible with the psychometric framework. However, conceptualisations of learning as inherently situated, collaborative, transforma- tional and expansive (i.e. focusing upon knowledge production rather than reproduction) challenge assumptions of predictability and uniformity in what is learned and what is to be learned. Assessment that focuses on predefined and specified learning outcomes then necessarily becomes an oversimplifi- cation of an arbitrary stage in the process of profes- sional development.26



WBA와 고정된 특성으로서의 역량

WBA AND COMPETENCE AS A FIXED ATTRIBUTE


과제나 상황에 따라 달라지는 맥락 특이성 또는 수행능력 변화가 의학 교육에서 잘 알려진 현상이지만, 평가 및 그 타당성 평가에 대한 접근 방식은 다음과 같은 가정을 기반으로합니다. "'측정'가능한 '진짜' 수행능력의 수준이 있고, 시간, 작업, 상황의 변화에 따라 발생하는 개개인의 수행능력의 차이variability는 측정오차로 간주한다' 역량은 전문 영역 내에서 성능 샘플링으로 추측 할 수있는 안정적인 특성으로 개념화되며, 일단 개발되고 확립 된 전문 지식은 한 상황에서 다른 상황으로 이전 할 수 있는 것으로 간주됩니다. 실제로, 대부분의 면허 및 인증 절차는 이 가정을 정확히 설명하는 듯 하다.

Although context specificity or performance variabil- ity from one case or task to the next is a well-known phenomenon in medical education,27 current approaches to assessment and its validation build on assumptions that there must be some level of true performance that can be ‘measured’: variability of an individual’s performance over time or across tasks and work settings is typically viewed as mea- surement error. Competence is conceptualised as a stable trait, to be inferred from performance sam- pling within the professional domain, and expertise, once developed and established is considered to be portable and transferable from one context to another. In fact, most licensure and certification procedures seem to build on exactly this assump- tion.



이러한 능력과 전문성의 개념화에 도전하는 연구가 점차 증가하고 있습니다. 개인 내의 편차는 상당하다. 개인 간 차이만큼 커질 수있다 .28-30 학습 과정에서 학습자의 수행능력은 전문적인 실습 참여를 통해 배우고 발전함에 따라 변화한다는 것은 자명하다. 실제로, 현재 WBA의 초점은 성과 및 전문성 개발을 향상시키기위한 지속적인 평가와 피드백이다.

There is an increasing body of research that chal- lenges these conceptualisations of competence and professional performance. Within-person variation in performance is substantial and can be as large as between-person differences.28–30 Obviously, perfor- mance of learners changes during training, as they learn and develop through participation in profes- sional practice. Indeed, the focus of current WBA is ongoing evaluation and provision of feedback to improve performance and expertise development.31



또한 우리는 학습자와 전문직 종사자가 항상 최선을 다하고있는 것은 아니며, 그 수행은 날마다 또는 심지어 같은 날안에서도 다양하다는 것을 쉽게 인정할 수 있다. 특히 복잡한 작업에서 성능은 시간적 안정성이 부족합니다 .13,14 이유는 동기 부여가 될 수 있습니다 (예 : 충돌하는 작업으로 인한 성과 목표 및 노력의 변화), 생리적 (예 : 피로) 또는 개인 성능에 영향을주는 기타 불안정한 원인 기분 또는 정서적 경험 .32

We also readily accept that learners and profession- als are not always performing at their best, and that performance varies from day to day or even within the same day. Especially in highly complex jobs, per- formance lacks temporal stability.13,14 Reasons may be motivational (e.g. changes in performance goals and effort due to conflicting tasks), physiological (e.g. fatigue) or any other unstable cause affecting individual performance, such as mood or emotional experiences.32


더 중요한 것은, 작업 환경에서의 성과의 역동적 특성이 환경 요인에 의해 유발된다는 것이다. 즉 전문가조차 작업 환경의 기회와 제약에 의해 영향을 받는다. 산업 및 조직 심리학 및 인적 자원 관리 분야의 연구 결과에 따르면 Talented performance란 한 회사에서 다른 회사로 직접 옮겨 갈 수 있는 것이 아니며, 이는 talent는 '구입가능하다'라는 조직의 인적자원의 근본 가정에 도전하는 것이다.

More importantly, however, there is an increasing body of research indicating that the dynamic nature of performance in work settings is caused by envi- ronmental factors, i.e. opportunities and constraints in the work setting, even in experts and talented performers. Research findings in industrial and or- ganisational psychology and human resource man- agement suggest that talented performance is not directly portable from one company to another, thereby challenging one of the foundational assumptions underlying human resource practices in organisations, namely that talent can be bought.


일반적으로 연구 결과에 따르면 성과는 상황에 따라 다르며 '새로운 환경에서 주어지는 과제에 맞지 않는 한 재능은 이전되지 않을 것'이라고 나타났습니다 .33 

  • 예를 들어, 월스트리트의 '스타'는 다른 회사로 옮긴 후 장기간의 실적 하락이 있었고 실적 저하가 최대 5 년간 지속되었습니다 .34 

  • 연구 결과에 따르면 새로운 역할과 업무 환경의 특정 기능이 성과 저하에 영향을 미쳤습니다. 작업 수행의 맥락적이고 상황적 성질은 동료 집단과 함께 움직인 스타가 단독으로 움직인 경우보다 수행능력이 뛰어났다는 사실에 의해 확인되었다. 

  • 리더쉽의 이식성에 관한 연구는 뛰어난 재능을 가진 최고 경영자가 다른 회사로 옮겼을 때 항상 능력이 발휘되지는 않는다는 것을 보여주었습니다. 기술과 경험이 새 직업에서 가치있게 증명되었는지 여부는 새로운 작업 환경의 특수한 특성에 달려있다 .33 

  • 마찬가지로 축구 선수의 개인별 성과 변화에 대한 연구에 따르면 변화의 상당 부분이 행동을 제한함으로써 설명 될 수 있었다 팀원을 포함한 다른 사람들의 더욱이 환경 적 제약에 대한 민감성은 플레이어와 작업의 복잡성에 따라 달라 지므로 성능은 사람, 작업 및 환경 간의 상호 작용에 의해 결정된다는 것을 암시합니다 .30 

이러한 결과는 문화적, 사회적 환경 및 특정 작업 환경에서 개인 및 그룹과의 지속적 상호작용의 산출물로서의 성과의 개념과 일치합니다. 

In general, research findings indicate that perfor- mance is contextual and that ‘talent won’t transfer unless it maps to the challenges of the new environ- ment’.33 

  • For instance, ‘star’ investment analysts on Wall Street showed significant short- and long-term performance decline after moving to another firm and the drop in performance persisted for up to 5 years.34 

  • Research findings suggested that specific features of the new role and work setting influenced the drop in performance. The contextual and situ- ated nature of job performance was affirmed by findings that stars who moved with a group of col- leagues performed better than those who moved solo. 

  • A study on the portability of leadership also showed that highly talented chief executive officers who were recruited by other firms did not always deliver; whether skills and experience proved valu- able in the new job depended on specific character- istics of their new work environment.33 

  • Similarly, research on intra-individual performance variation in football players showed that a significant portion of variance could be explained by constraining actions of others, including teammates. Moreover, susceptibility to environmental constraints varied across players and job complexity, suggesting that performance is determined by the interaction between person, task and environment.30 

These findings are consistent with the notion of perfor- mance and competence being the product of cul- tural and social circumstances and of ongoing interaction with individuals and groups (teams) in a specific work setting.



최근 의학 교육에 대한 연구는 지식의 안정과 숙달과 지식의 일반적인 이전 가능성에 대한 가정을 동등하게 다루지 않는다. 예를 들어, Wenghofer와 그의 연구진은 의사의 성과에 대한 연구에서, 의사의 작업 환경과 체계적 (지역 사회 관련) 요인이 성능에 크게 영향을 미치고 다수의 수행능력에 다양한 영향을 미친다는 사실을 발견했습니다. 이 연구는 의사 자체의 요인이 수행능력에 유의미한 영향을 주었지만, 기존에 가정한 것 만큼 중요하지는 않다는 것을 보여주었습니다. 의사 행동에 대한 상황의 비판적인 영향은 Ginsburg와 동료 연구에서도 설명되었는데, 의사의 수행능력은 '각 상황에 고유한 다중적인 상호의존적이고 특이한 힘'의 영향을 받는다고 결론 지었다.

Recent research in medical education equally chal- lenges na€ıve assumptions about performance stabil- ity and generic transferability of knowledge and skilful practice. In their study on family practitio- ners’ performance, Wenghofer and colleagues,35 for instance, found that the doctor’s work setting as well as systemic (community-related) factors signifi- cantly impacted performance, with varying effects across different performance dimensions. The study furthermore showed that, although doctor factors significantly influenced performance, they were not nearly as important as previously assumed. The criti- cal influence of context on doctor behaviour was also illustrated in a study by Ginsburg and col- leagues,36 con- cluded that a doctor’s performance was subject to ‘multiple interdependent, idiosyncratic forces unique to each situation’.


맥락적 요소와의 상호 작용으로 인한 성능 변화는 '측정 오류'로 기각되어서는 안되며 개인의 전문 역량을 평가할 때 잠재적으로 가치 있고 의미있는 정보로 간주되어야합니다 .37

perfor- mance variability resulting from interaction with con- textual factors should not be dismissed as ‘measurement error’, but considered as potentially valuable and meaningful information in the appreci- ation of an individual’s professional competence.37




WBA와 수행능력의 객관화

WBA AND OBJECTIFICATION OF PERFORMANCE


사회 문화적 관점에서 볼 때, 퍼포먼스는 사회적으로 구성되며 각 개인의 인식과 작업의 상황 별 특성과의 상호 작용에 의해 결정됩니다. 이 프레임 워크를 작업 환경에서의 성과 평가에 적용하면, 수행능력에 대한 '그림'은 결코 객관적 일 수 없으며, 항상 개별 평가자의 관점과 가치에 따라 개념화되고 구성됩니다. 평가는 평가자 자신의 독특한 경험, 평가 과제 및 그 맥락에서의 사회적 구조에 영향을 받았다.

From a socio-cultural perspective, performance is socially constructed and determined by each per- son’s perception of and interaction with situational characteristics of the task at hand. When this frame- work is applied to the assessment of performance in work settings, a picture emerges of performance that can never be ‘objective’, but is always concep- tualised and constructed according to the perspec- tives and values of an individual assessor, influenced by his or her unique experiences and the social structures in the assessment task and its context.38


실제로, 산업 및 조직 심리학에서의 연구 결과는 작업 환경에서의 성과에 대한 평가자의 판단이 현장에서만 이해 될 수 있음을 나타냅니다. 평가자의 행동은 평가가 이루어지는 맥락 내에서 이루어집니다. 

  • WBA에서 평가자는 복잡하고 예측할 수없는 업무에 종사하고 있으며, 시간 압박과 상충되는 목표, 정의가 불분명한 목표를 자주 직면합니다. 39,40 

  • 평가자의 행동과 평가 결과는 개인간의 관계 (학습자 및 동료와의 관계), 정치적, 정서적 및 문화적 요인과 같은 업무 환경에서의 다양한 다른 요소들에 의해서도 영향을 받는다.

In fact, research findings in industrial and organisa- tional psychology indicate that assessors’ judgements of performance in work settings can only be under- stood in situ: assessor behaviours are framed within the context in which assessment takes place. In WBA, assessors are engaged in complex and unpre- dictable tasks, more often than not in a context of time pressures and conflicting as well as ill-defined goals.39,40 Assessors’ behaviours and assessment out- comes are furthermore influenced by a broad range of other factors in the work context, such as inter- personal relationships (with the learner as well as with co-workers), political, emotional and cultural factors.41,42


구성 주의자, 사회 문화적 평가 방법에서 평가자는 더 이상 수동적 측정 도구가 아니고, 평가 컨텍스트의 자체적인 현실성을 해석하고 구성하는 능동적인 정보 처리자이다. Deres와 Petrosky가 말한 것처럼 43) : '재판관'의 가치관, 경험 및 관심사는 복잡한 수행능력을 해석 할 수있게 해주는 요소이지만, 광범위한 훈련과 보정을 하더라도 이들을 구분지어주는 특성이 절대 사라지지 않을 것이다.

Central to constructivist, socio-cultural approaches to assessment is the view that assessors can no longer be seen as passive measurement instruments, but as active information processors who interpret and construct their own personal real- ity of the assessment context. Or, as stated by De- landshere and Petrosky43: ‘Judges’ values, experiences, and interests are what makes them capable of interpreting complex performances, but it will never be possible to eliminate those attributes that make them different, even with extensive train- ing and “calibration”.’


이것은 실무 집단 내에서 그리고 그 사회 전반에 걸쳐 정직한 의견 차이가있을 수 있음을 의미한다. 예를 들어 환자와의 만남에서 적절한 감독자 평가자의 동의는 동료, 연수생 또는 환자. 평가자의 해석 및 성과 관련 행동의 점수 산정에서의 차이점은 '각각의 소스가 각기 다른 상황에서의 행동을 평가할 때, 공통된 개인의 직업 성과에 대한 별개의 견해'로 볼 수있다. 

This implies that there can be honest disagreement within and across communi- ties of practice: a specific supervisor–assessor’s con- ception of appropriate performance in, for instance, a patient encounter may be different from that of co-workers, the trainee or the patient. Differences in an assessor’s interpretation and scoring of perfor- mance-related behaviours may then be viewed as ‘distinct views of a common individual’s job perfor- mance that may be equally valid’44 or ‘meaningful differences in….. behavior across sources, especially when each source rates… behavior in different situ- ations’.16


최근 의학 교육에 관한 연구 45,46은 산업 및 조직의 정신병 학에서 발견 한 사실을 확인시켜 준다. Govaerts 등의 연구에 따르면 연수생의 성과를 관찰하고 평가할 때 평가자는 업무 효율성에 관한 판단과 결정에 도달하기 위해 작업 별 성과 이론 및 사람 스키마와 함께 일반적인 방법을 사용했습니다.

Recent research in medical education45,46 confirms findings from industrial and organisational psychol- ogy. A study by Govaerts et al.46 showed that, when observing and evaluating trainee performance, assessors interac- tively used general as well as task-specific perfor- mance theory and person schemas to arrive at judgements and decisions about performance effec- tiveness.


이러한 발견은 WBA에 대한 사회 문화적 접근을 지원하며, 평가자는 훈련, 사회화 및 업무 경험을 통해 자신의 성과 이론 및 역량 개념을 구성하고 재구성하는 '사회적 인식자'로 간주되어야합니다. 따라서 작업 환경의 평가자는 본질적으로 특이한 것idiosyncratic이므로 다수의 평가자는 다수의 현실을 구성하게됩니다.

These find- ings provide support for socio-cultural approaches to WBA, in which assessors are to be seen as ‘social perceivers’ who construct and reconstruct their own performance theories and conceptualisations of competence through training, socialisation and task experience. Consequently, assessors in work settings are inherently idiosyncratic, and multiple assessors will have multiple constructed realities.



WBA와 타당화에 대한 함의

IMPLICATIONS FOR WBA AND VALIDATION


이 논문에서 제시된 연구와 통찰력을 토대로, 우리는 WBA가 본질적으로 가치-의존적인, 사회적 해석적 행동이라고 주장하고 싶다. 평가 과정에 참여한 개인의 경험, 의미, 의도 및 해석을 반영한다 ( '해석 적 공동체'). 47 사회 문화적 이론에 근거한 학습과 수행의 개념은 학습 성과에만 중점을 두는 것이 아니라, 오히려 그보다도 역동적이고 복잡한 작업 환경 설정에서 벌어지는 학습, 퍼포먼스 및 퍼포먼스 해석의 기초가 되는 프로세스에 대해 초점을 두기를 바란다. 이는 평가의 목적이 학습이나 학습 결과를 '객관적으로' '정확하게'정량화하는 것이 아니라 피훈련자와 의사가 무엇을, 어떻게, 왜 배우고 있는지 이해하는 것임을 의미합니다. 이것은 학습자, 학습 환경 및 학습이 일어나고있는 더 큰 사회 시스템과의 관계 등의 상황을 이해하고 설명하는 것을 수반한다. 평가 질문Assessment question은 학습자의 경험, 그들이 참여한 활동 학습 성과, 학습 결과 및 성과 해석을 형성하는 사회적, 문화적, 윤리적 문제에 대한 것이어야 한다.

On the basis of the research and insights presented in this paper, we want to argue that assessment in work settings is a socially situated interpretive act, which is inherently value laden. It reflects the expe- riences, the meanings, intentions and interpreta- tions of individuals involved in the assessment process (‘the interpretive community’).47 Concep- tions of learning and performance based in socio- cultural theory call for assessment that does not just focus on learning outcomes, but also (and perhaps even more so) on the processes underlying learning, performance and performance interpretations in dynamic, complex workplace settings. This implies that the purpose of assessment is not to ‘objectively’ and ‘accurately’ quantify learning or learning out- comes, but to understand what, how and why train- ees and doctors are learning. This entails under- standing and explicating context, i.e. the relation- ship between learners, the learning environment and the larger social systems within which learning is occurring.9 Assessment questions need to address learners’ experiences, the activities that they are engaged in as well as the social, cultural and ethical issues that shape learning, learning outcomes and performance interpretations.12



질적 연구 패러다임 (예 : 구성 주의자 - 해석 적) 내에 위치하는 질의 시스템이 여기에 적합하다.

Inquiry systems that are situated within qualitative research paradigms (e.g. constructivist- interpretive) seem to be well suited for this task.


지난 수십 년 동안 사회 구성 론적, 사회 문화적 학습 이론과 이론에 입각하여 평가에 대한 '해석주의적 접근'이 제안되었다. 9,11,12,48,49 이러한 접근 방식의 중심적인 특징은 다음과 같다. 해석주의적 접근에서 성과 평가는 절대적이고 객관적인 진리가 아니라 사회적 구조 또는 그에 대한 해석으로 간주된다 49. 성과의 '진정한'점수 또는 '객관적인'점수는 없습니다. 오히려 '진실'은 특정 시점에서, 최대한 정보에 입각하여 성과에 대한 정교한 판단을 내려야 하는 평가사들 사이의 합의의 문제입니다.

During the past decades, ‘interpretivist approaches’ to assessment have been proposed, in line with social-constructivist and socio-cultural theories of learning and performance.9,11,12,48,49 A central fea- ture of these approaches is that performance assess- ments are seen as social constructions or interpret- ations, rather than absolute, objective truths49; there is no single ‘true’ score or ‘objective’ rating of per- formance. Rather, ‘truth’ is a matter of consensus among assessors who have to arrive at judgements on performance that are as informed and sophisti- cated as can be at a particular point in time.



각 접근법에는 고유 한 기원과 뉘앙스가 있지만 해석 주의적 평가 접근법의 주요 특징은 다음과 같이 요약 할 수있다 43,48,49,51 :

Although each approach has its own origin and nuances, key char- acteristics of interpretivist assessment approaches could be summarised as follows43,48,49,51:


1 WBA 평가에서 task은 상호교환가능한 것은 아니나, 학습 및 평가에 고유한 기여를 합니다. WBA는 평가자와 평가 대상자 사이에'사회적으로' 구성되므로, 학습자는 일반적으로 situated assessment process를 파악하기 위해 학습 및 평가 활동을 문서화 한 서류 또는 포트폴리오를 준비합니다. 평가는 학습자가 학습하고 경험하는 내용, 학습 목표 및 학습 계획, 평가 활동 (예를 들어 작업 샘플링) 및 성과 평가를 문서화하기 위해 학습자가 작업 (및 학습)하는 상황을 설명하도록 요구합니다. 학습자가 특정 평가 작업의 요구를 어떻게 인식하는지 아는 것은 퍼포먼스 해석에서 중요한 정보이다. 따라서 학습자의 관점은 일반적으로 평가 프로세스에 통합되며, 피드백 사이클과 학습 및 업무 성과에 대한 비판적인 분석 및 성찰이 포함됩니다.

1 In WBA assessment, tasks are not interchange- able, but make unique contributions to learning and assessment. As assessments in work settings are ‘socially constructed’ between assessors and the person who is being assessed, learners typi- cally prepare a paper or portfolio documenting their learning and assessment activities to cap- ture situated assessment processes. Assessment asks learners to describe the contexts in which they work (and learn), to document their learn- ing experiences, learning goals and learning plans as well as assessment activities (work sam- pling, for instance) and performance evalua- tions. Knowing how a learner perceives the demands of any particular assessment task is considered critical information in performance interpretations. Therefore, the learner’s point of view is typically incorporated in the assess- ment process, as are intermittent feedback cycles with critical analyses and reflection on learning and task performance;


2 평가는 수치 적 점수가 아닌 서술에 의존합니다. 전문가 판단 (평가가 이루어지는 맥락에 대해 가장 잘 알고있는 사람, 의도적으로 파악하고 설명하는 사람)을 통해서 성과에 대해 정교하고 서면으로 평가 된 의견을 형성함으로써, 의도적으로 성과의 맥락-특이적 측면을 잡아낸다. 점수 자체만으로는 의미가 없기 때문에, 평가 도구는 평가자가 학습자의 역량 개발을 이끌어 내고 역량 달성에 관한 의사 결정에 의미있는 서술문을 제공하는데 도움이 되어야 한다.

2 Assessments rely on narratives rather than numerical scores: assessments seek to purpose- fully generate elaborate, written evaluative state- ments about performance by expert judges – those who are most knowledgeable about the context in which assessment occurs, intention- ally capturing and accounting for context-spe- cific aspects of performance. As scores have little intrinsic meaning, assessment instruments challenge assessors to provide narrative com- ments that are useful in guiding the learner’s competence development as well as meaningful in decision making about competence achieve- ment;


3 평가 프로세스의 모든 이해 관계자는 지속적으로 도전을받으며 기본 해석과 가정 해석을 문서화해야합니다.

3 All stakeholders in the assessment process are thus continuously challenged and required to document their performance interpretations as well as to articulate underlying values and assumptions;


4 개인의 성과 레퍼토리를 심층적으로 이해하고, 다양한 업무 요구 사항에 대한 적응 능력을 알기 위해 광범위한 업무, 상황 및 평가자로부터 성과 평가가 수집됩니다.

4 Written performance evaluations are collected across a broad range of tasks, contexts and assessors, in order to gain in-depth understand- ing of a person’s performance repertoire and capability to adapt to various task requirements,


5 역량에 대한 추정은 평가과정에서 이해 관계자 간의 공개적인 심사숙고와 대화를 통해 사용 가능한 모든 성과 증거를 비판적으로 검토하는 것을 기반으로합니다. 해석적 접근에서 해석은 단일 시기의 성과 또는 단일 성과 문서에 한정되지 않는다. 의미있는 해석은 평가 및 성능 평가 전반에 걸쳐 구성 될 수 있고, 그래야 한다. 여러 출처로부터의 데이터는 작업 및 성격 전반에 걸친 성과 패턴뿐만 아니라 외향적 측면의 성과를 식별하기 위해 삼각측량, 검토 및 논의되어야한다. 전체적인 수준의 성과에 대한 일관된 해석이나 통합적 판단이 내려질 때까지 해석은 모든 가용 증거를 활용하여 반복적으로 검증된다. 필요하다면, 결정은 성과의 특정 측면에 관한 추가 정보 수집을위한 조사 전략을 포함한다. 이것은 '아무것이나 해도 된다anything goes'는 의미는 아닙니다. 

5 Inferences about professional competence are based on critical review of all available perfor- mance evidence, through open deliberative and critical dialogue among stakeholders in the assessment process. An interpretive approach does not imply that interpretations are bound to single assessment occasions or to single per- formance documentations. Meaningful interpre- tations can, and should be, constructed across assessment occasions and performance evalua- tions. Data from multiple sources are to be tri- angulated, reviewed and discussed to identify patterns of performance across tasks and con- texts as well as any outlying aspects of perfor- mance. Interpretations are repeatedly tested against all available evidence, until a coherent interpretation or an integrative judgement on an overall level of performance can be accounted for43,48. If necessary, decisions involve inquiry strategies for additional informa- tion gathering about specific aspects of perfor- mance. This does not mean that ‘anything goes’; 


본질적으로 최종 결정을 내릴 때는 전문적인 판단이 필요합니다. 전문적인 판단은 그 판단이 방어 가능하고 신뢰할 수있는 방식으로 증명되고, 동기 부여되고 구체화되어야합니다. 성과 평가를 안내하기 위해 가치 및 표준에 대한 집단 토론을 통해 상호주의적인 범주 또는 차원을 개발할 수 있습니다. 증거에 대한 비판적 검토, 의사 결정 과정의 문서화, 다른 해석 및 가정에 대한 의문 제기는 모두 필수적이며 최종 결정의 타당성과 공정성에 기여합니다. 평가의 해석적 접근의 강점 중 하나는 추적가능성이며, 이는 풍부하고 의미있는 정보와 가치와 표준에 대한 문서화에 의해 이뤄진다. 외부 평가자는 프로세스가 공정하고, 전문적인 표준을 반영하며, 무능한 전문가로부터 일반 대중을 보호하기에 충분히 엄격하다는 것을 보증하기 위해 감사 역할을 맡을 수 있습니다. 이러한 관점에서, 해석적 평가는 평가자의 생각을 숨기는 일련의 점수에 의존하는 평가보다 더 신뢰할 수있다.

essentially, final decision making requires professional judgements that should be corrobo- rated, motivated and substantiated in such a way that the judgement is defensible and credi- ble. To guide the performance evaluation, inter- pretive categories or dimensions can be developed through collective discussion of val- ues and standards. The critical review of the evi- dence, the questioning of the different interpretations and assumptions as well as the documentation of the decision-making process are all essential and contribute to the validity and fairness of the final decision. Part of the strength of interpretive approaches to assess- ment is its traceability, through documentation of rich, meaningful information and articulation of values and standards. External evaluators may then assume an auditing role to ensure that the process is equitable, reflects pro- fessional standards and is sufficiently rigorous to protect the public from incompetent profession- als. In this respect, interpretive assessment may be more trustworthy than assessments relying on a set of scores that mask assessors’ think- ing.51



평가에 대한 이러한 견해는 심리측정 기반의 환원주의적 (실증주의 중심의) 접근 방식과는 근본적으로 다르다. 그럼에도 심리측정적 기반과 구성주의- 상호주의적 평가 방법이 갖는 공통점은 신뢰할만한 증거에 근거하여 전문역량에 대한 신뢰성 있고 방어 가능한 추론을 해야 한다는 것이다. 두 가지 틀 내에서 평가 타당성 확인은 '관찰 된 성과에서 결론 및 결정으로 이어지는 일련의 추론 및 가정의 개발'과 '이러한 추론 및 가정의 타당성 평가 ... 적절한 증거의 사용'을 포함한다.

These views on assessment are fundamentally differ- ent from prevailing psychometric-based, reductionist (positivist-oriented) approaches to assessment. What both the psychometric-based and constructivist-inter- pretivist assessment approaches have in common, though, is that inferences about professional compe- tence need to be credible and defensible, based on trustworthy evidence. Within both frameworks, assessment validation comprises the ‘development of a series of inferences and assumptions leading from the observed performances to conclusions and decisions…’ and ‘evaluation of the plausibility of these inferences and assumptions ….. using appro- priate evidence’.52



분명히, 정량적 평가와 관련된 신뢰성과 타당성에 대한 전통적인 관념은 상황에 따른 성과 해석의 평가에서는 유용성이 제한적이다. 해석주의적 평가 접근법의 근본적인 가정은, 이론적인 틀로서의 타당성 이론과 질적 평가에서 타당화 과정에 사용될 개념적 도구를 요구한다. 해석주의자 평가 접근법에서 사용되는 질적탐구의 '타당성'을 결정하기 위하여 이러한 도구가 사용되어야 한다. 링컨 (Lincoln)과 구바 (Guba) 53,54의 평가에 대한 고전적 연구에서 구성주의자 - 해석주의자 평가의 적절성을 판단하는 데 사용할 수있는 기준이 제안되었습니다. 평가 품질을 평가하기위한 신뢰성 (즉, 신용, 이전 가능성, 의존성 및 확인 가능성) 및 진위성 (즉, 공평성, 개방성, 협상 및 공유 된 이해)과 같은 기준의 사용을 제안합니다.

Clearly, traditional notions of reliability and validity related to quantitative evalua- tion of assessment practices have limited usefulness in the evaluation of situated performance interpre- tations. The theoretical assumptions underlying interpretivist assessment approaches, call for validity theory that provides the theo-retical framework and the conceptual tools to guide the validation process in qualitative assessment inquiry , and we argue that they can and should be used to determine ‘validity’ (i.e., trustworthiness, credibility and defensibility) of the qualita- tive inquiry in interpretivist assessment approaches.  Criteria and standards that can be used to judge the adequacy of constructivist-interpretivist assessment have been suggested by Lincoln and Guba53,54 in their classical work on evaluation. They suggest the use of criteria such as trustworthiness (i.e. credibility, transferability, dependability and confirmability) and authenticity (i.e. fairness, openness, negotiation and shared understanding) to evaluate assessment quality.



그들은 또한 질적 탐구를 엄격하게하기 위해 다양한 기술이나 방법론적 전략의 사용을 제안한다. 이러한 기술에는 다음이 포함됩니다. 피어 브리핑; (신흥 해석에 도전하는 반박 표본을 적극적으로 추구하는) 불확실한 증거 분석, 신원 확인을위한 진보적 인 주관성, (양도 성 달성을위한) 두껍고 풍부한 설명, 감사 추적, 외부 감사 및 평가 결정 프로세스 (의존성 및 확인 가능성 확보).

They furthermore propose the use of vari- ous techniques or methodological strategies to bring rigour to the qualitative inquiry. These techniques include: 

  • prolonged engagement in the assessment process; 

  • peer debriefing; 

  • analysis of disconfirming evidence (i.e. actively seeking counterexamples that challenge emerging interpretations), 

  • member checks and progressive subjectivity (to achieve credibility) as well as 

  • thick, rich description (to achieve transferability) and 

  • the audit trail, external audit and documentation of the assessment decision pro- cesses (to achieve dependability and confirmability).




CONCLUDING REMARKS


우리의 주장은, 평가의 (평가)에서 특정 프레임워크를 구축 할 때, 그 사용을 뒷받침하는 가정에 대해 아주 명확해야한다는 것이다. 사회 - 문화 학습 이론에 기초하여 우리는 전문 역량의 중요한 측면에 대한 심층적 인 이해와 의미있는 정보를 생성하기 위해 질적 (구조적 - 해석 주의적) 연구 패러다임에 기반한 WBA 접근법을 제안한다. 학습 성과를 풍부하고 서술 적으로 평가하고 기본 성과 이론 및 가치를 명확히하는 것은 학습을 최대화하기위한 평가 시스템의 형성 기능을 향상시킬뿐 아니라 총괄 평가에서 신뢰할만한 의사 결정에 필수 불가결하다. WBA에 대한 구성주의자 - 해석 주의자 접근법에 대한 인식이 높아지며, 심리측점담론에만 초점을 둔 현대 보건의료교육의 평가에 더 이상 도움이되지 않을 수도 있다는 인식이 점차 커지고있는 것으로 보인다 .60,61

Our argument, is that when building on specific frameworks in (evaluation of) assessments, one has to be very clear about assump- tions underlying its use. On the basis of socio-cul- tural learning theories we propose approaches towards WBA that are grounded in qualitative (con- structivist-interpretivist) research paradigms, to gen- erate in-depth understanding of and meaningful information about critical aspects of professional competence. Rich, narrative evaluations of perfor- mance as well as articulation of underlying perfor- mance theories and values not only enhance the formative function of the assessment system to maximise learning,58 but are indispensible for trust- worthy decision making in summative assessments. Our constructivist-interpretivist approach to WBA seems to cater to the growing awareness in the liter-ature that an exclusive focus on the psychometric discourse may no longer be helpful in facing assess- ment challenges in modern health care practices and education.60,61 


오히려 우리는 평가 프로그램의 양적 접근 방식과 질적 접근 방식의 균형을 조심스럽게 유지하면서, 평가 목적뿐만 아니라 학습 및 성과 / 역량의 개념화에 근거하여 선택을 정당화하는 것을 목표로 삼아야합니다.

Rather, we should aim for careful balancing of quantitative and qualitative approaches in our assessment programmes, justify- ing our choices on the basis of assessment purposes as well as conceptualisations of learning and perfor- mance/competence.


WBA에 대한 해석주의적 접근의 함의는 '해석적인 공동체interpretive community'는 그것을 만들 수 있는 평가자뿐만 아니라 성과평가를 숫자에서 단어로 전환함을 의미한다. 이것은 평가자가 자신의 가치와 판단을 뒷받침하는 가정을 기꺼이 드러낼 수 있음을 의미합니다. 그들은 비판적 대화와 의미있는 협상에 기꺼이 참여하고, 다른 사람들을 건설적으로 비판하고, 변화에 개방적이어야한다. 가장 큰 과제는 평가 과정에서 신뢰를 확보하는 데 필요한 시간과 에너지를 쏟는 것이다.

Implications of interpretivist approaches to WBA include a shift from numbers to words in perfor- mance assessment as well as assessors who are will- ing and able to create an ‘interpretive community’. This means that assessors must be able to demon- strate commitment to articulation of their own val- ues and assumptions underlying judgements; they must be willing to engage in critical dialogue and meaningful negotiation, offer criticisms to others and be open for change in the light of the negotia- tion. The biggest challenge may very well be to make the necessary commitments of time and energy that are required to achieve trustworthiness in the assessment process.


마지막으로, 이 논문에서 설명서 평가 및 타당도의 개념화가 다양한 범위의 (학교 기반) 교육 환경에서 모든 종류의 비표준화 평가에 적용된다. 학습 평가에 대한 평가의 변화는 평가 및 평가 타당성에 대한 고전적 개념의 재검토를 요구합니다.

Finally, we think that conceptualisations of assess- ment and validity as described in this paper apply to all kinds of unstandardised assessments – in a range of (school-based) educational contexts. Changes in assessment towards assessment for learning, increas- ingly call for reconsideration of conventional notions of assessment and assessment validity.



GLOSSARY TABLE


Social/socio-cultural learning theories emphasise learning through active participation in social (authentic, profes- sional activities). Learners develop by actively engaging in ongoing processes of workplaces. The learning processes as well as learning outcomes (performance) are deter- mined by social, organisational, cultural and other contex- tual factors. However, socio-cultural learning theories also reject the idea that the individual learner should be the exclusive focus of analysis: learning can be either individ- ual or social (collective).17


Constructivist-interpretivist assessment approaches view assess- ment to be value laden and socially constructed. Assessors are social beings who construct the assessment according to their own values, beliefs and perceptions. Performance can therefore never be objective. The interpretive approach focuses on participants’ own perspectives in conceptualising and reconstructing their experiences, expectations, interpretations and assumptions.38


23 Mennin S. Self-organisation, integration and curriculum in the complex world of medical education. Med Educ 2010;44:20–30.


36 Ginsburg S, Bernabeo E, Ross KM, Holmboe ES. “It depends”: results of a qualitative study investigating how practicing internists approach professional dilemmas. Acad Med 2012;87 (12):1–9.


50 Kuper A, Reeves S, Albert M, Hodges BD. Assessment: do we need to broaden our methodological horizons? Med Educ 2007;41:1121–3.




 2013 Dec;47(12):1164-74. doi: 10.1111/medu.12289.

Validity in work-based assessmentexpanding our horizons.

Author information

1
Educational Development and Research, Maastricht University, Maastricht, the Netherlands.

Abstract

CONTEXT:

Although work-based assessments (WBA) may come closest to assessing habitual performance, their use for summative purposes is not undisputed. Most criticism of WBA stems from approaches to validity consistent with the quantitative psychometric framework. However, there is increasing research evidence that indicates that the assumptions underlying the predictive, deterministic framework of psychometrics may no longer hold. In this discussion paper we argue that meaningfulness and appropriateness of current validity evidence can be called into question and that we need alternative strategies to assessment and validity inquiry that build on current theories of learning and performance in complex and dynamic workplace settings.

METHODS:

Drawing from research in various professional fields we outline key issues within the mechanisms of learning, competence and performance in the context of complex social environments and illustrate their relevance to WBA. In reviewing recent socio-cultural learning theory and research on performance and performance interpretations in work settings, we demonstrate that learning, competence (as inferred from performance) as well as performance interpretations are to be seen as inherently contextualised, and can only be under-stood 'in situ'. Assessment in the context of work settings may, therefore, be more usefully viewed as a socially situated interpretive act.

DISCUSSION:

We propose constructivist-interpretivist approaches towards WBA in order to capture and understand contextualised learning and performance in work settings. Theoretical assumptions underlying interpretivist assessment approaches call for a validity theory that provides the theoretical framework and conceptual tools to guide the validation process in the qualitative assessment inquiry. Basic principles of rigour specific to qualitative research have been established, and they can and should be used to determine validity in interpretivist assessment approaches. If used properly, these strategies generate trustworthy evidence that is needed to develop the validity argument in WBA, allowing for in-depth and meaningful information about professional competence.

PMID:
 
24206150
 
DOI:
 
10.1111/medu.12289


"전문직 역량 평가: 방법에서 프로그램까지" 다시보기 (Med Educ, 2016)

Revisiting ‘Assessing professional competence: from methods to programmes’

Cees P M van der Vleuten




이전 논문은 모든 평가 방법의 5 가지 퀄리티특성을 확인했습니다 : 신뢰성; 효력; 교육적 영향; 수용 가능성 및 비용 2이 다섯 가지 기준은 평가 연구에서 자주 사용되었지만 이것은 논문의 주된 메시지가 아니 었습니다 .2 논문의 핵심 교리는 어떤 하나의 평가방법도 완벽할 수 없다는 것이 었습니다. 실제로 평가는 항상 타협을 수반합니다.

The earlier paper identi- fied five distinct quality characteristics of any assessment method: reliability; validity; educational impact; acceptability, and costs.2 Although these five criteria have been used frequently in research on assessment, this was not the main message of the paper.2 The central tenet of the paper2 was that any single assessment method can never be per- fect on all criteria and in reality assessment always involves a compromise.


2005 년 논문에서 우리는 어떤 단일 평가도 실제로는 측정이 아니라고 주장했다. 새로운 것이든 오래된 것이든, 객관적이든 주관적이든, 표준화든 비 표준화 된 모든 평가는 안정성을 최소화하기 위해 최소 3-4 시간의 테스트 시간이 필요합니다. 신뢰도 기준이 0.80 인 경우에도 합격 / 불합격 판정의 20 %는 오판 (긍정 판정)과 부정 판정 (합격 / 불합격 판정 점수와 관련된 점수 분포에 따라) 일 수 있습니다.

In the 2005 paper,1 we argued that any single assess- ment has such severe limitations that any single measurement is really no measurement. Any assessment, old or new, objective or subjective, standardised or unstandardised, requires at least 3–4 hours of testing time to achieve minimal reliability. Even with a reliability criterion of 0.80, we should realise that 20% of the pass/fail decisions we make may be false positives and nega- tives (depending on the distribution of scores in relation to the pass/fail cut-off score).


우리가 한 가지 방법으로 모든 것을 가질 수 없다면, 여러 가지 방법으로 사용하면 가능할까?

If we can’t have it all in a single measure, can we then have it all across measures?


예를 들어, 트레이닝 평가 프로그램의 여러 방법에서 평가 정보를 결합하면 개별 방법의 신뢰성과 교육적 영향에 대한 신뢰도가 떨어질 수 있습니다. 나는 개별 조치의 신뢰성에 대한 검사를 포함하는 인정 관행에 대해 알고 있습니다. 그 인증평가에서는 신뢰도가 충분히 높지 않으면 문제가 된다. 하나의 정신 측정 방법을 절대적으로 사용한다는 것을 듣고 나서 경악했다. 하나의 척도 (신뢰성 계수)는 아무것도 없는 것과 같다. 오히려 우리는 전체 프로그램의 교육적 맥락과 목적에 비추어 타협이 정당화될 수 있는 평가방법의 조합을 주의 깊게 선택해야합니다.

For example, if we combine assessment information across methods in an in-training assess- ment programme, we might compromise more on the reliability of individual methods and less on educational impact. I am aware of accreditation practices which involve inspection of the reliabilitiesof individual measures: if these are not high enough, the schools in question are in trouble. I shiver when I hear about such an absolute use of a single psychometric measure. Here, one measure (the reliability coefficient) is no measure. Rather,  we should make a mindful choice of a combination of methods in which compromises are justified in light of the educational context and the purpose of the whole programme.


나중에이 연구는 평가 프로그램을위한 교육 중립적 인 설계 가이드 라인을 개발했을 때 Joost Dijkstra의 연구 결과로 보완되었습니다 .6이 가이드 라인은 적어도 두 가지 이상의 평가 요소가있는 평가 환경에 적합합니다. 또한 인증 컨텍스트에 적합합니다. 그들은 진료 지침이 아니라 처방전입니다. 예를 들어, 매우 기본적인 가이드 라인은 다음과 같다 : '결정 (및 결과)은 그들이 기반으로하는 정보의 질에 비례해야한다.'6 더 구체적인 가이드 라인은 다음과 같다 : '표준 설정 절차에는 이론적 근거를 제공해야한다 .

Later this work was complemented by that of Joost Dijkstra when we developed a set of education-neutral design guide- lines for assessment programmes.6 These guidelines are appropriate for any assessment context that has at least two or more assessment elements. They are also appropriate for a certification context. They are truly guidelines, not prescriptions. As an example, a very basic guideline is: ‘Decisions (and the conse- quences) should be proportional to the quality of the information on which they are based.’6 A more specific guideline is: ‘A rationale should be pro- vided for the standard-setting procedures.’6


나는 2010 년에 이러한 일관성을 출판하여 '평가의 원칙'으로, 전문 역량 평가 이론의 발전을위한 'building block'로 지정했다. 이 원칙은 표준화 평가(밀러의 피라미드의 처음 세 층)과 비표준화 평가(피라미드의 꼭대기)로 나뉘어진다. 

  • 첫 번째 예는 품목 및 테스트 개발에 대한 품질 보증의 필요성을 나타내는 '타당도는 빌트인 될 수 있음'입니다. 

  • 후자의 예로 '평가 도구의 타당도는 도구보다 사용자에 달려있다'로서, 사용자를 신중하게 준비해야 할 필요성을 지적한다.

I published these consis- tencies in 2010, designating them as ‘principles of assessment’ and perhaps as ‘building blocks’ for the further development of theory in the assessment of professional competence.8 The principles were divided into two classes for, respectively, standar- dised (the first three layers of Miller’s pyramid) and unstandardised (the top of the pyramid) assessment. An example of the first is ‘Validity can be built in’, which points to the need for quality assurance around item and test development. An example of the latter is ‘Validity resides more in the users of the instruments than in the instruments that are used’, which points to the need to carefully prepare users of the instruments (e.g. assessors and learners) for their roles in the assessment.


'교육적 결과'는 2005 년 논문 1에 의도적으로 포함되었으며, '평가가 학습을 유도한다'는 원칙은 2010 년 논문에서 매우 두드러졌다. 여기서 assessment for learning이 언급되었다. 10 assessment of learning은 교육 시스템에 부정적인 영향을 미칩니다. 이러한 평가에서 실패한 경우, 우리는 아무 생각없이 테스트를 반복한다. 그리고는 문제가 무엇인지 보지 않고 단순히 다음과 같이 말합니다 : '최소한의(!) 표준을 갖추었는지 다시 한번 증명하라' 그러한 평가 시스템에는 학습자에 관한 정보가 거의 없습니다.

‘Educational con- sequences’ were deliberately included in the 2005 paper,1 and the principle of ‘assessment drives learning’ was very prominent in the 2010 paper.8 In the assessment literature, the notion of assessment for learning emerged.10 Assessment of learning often leads to negative effects on learning and the educa- tional system: In the event of a fail, we take a mindless deci- sion: repeat the test. We don’t look at what the problem is, we simply say: show us again whether you can surpass a minimum (!) standard. There is very little information in such an assessment system about the learner.


이것은 현대의 학습 견해와 일치하지 않습니다. 현대 교육은 본질적으로보다 구성주의적이거나 사회 문화적 학습 이론에 기초한다. 학습자는 지식을 구성하고 실제 지식을 적용, 경험 및 연습합니다. 피드백, metacognition, 성찰, 자기 모니터링 및 자기 주도는 평생 학습을위한 중요한 개념이다.

it does not accord with modern views on learning. Modern education is more con- structivist in nature or is based on socio-cultural learning theories. Learners construct knowledge, and apply, experience and practise knowledge in action. Feedback, metacognition, reflection, self- monitoring and self-directing are important con- cepts for lifelong learning.


내 생각에, 학습이 평가를 주도하기 시작했. 다시 한 번 매우 영향력있는 동료와 함께 2012 년에 평가 프로그램을위한 모델 또는 이론적 틀을 발표했습니다 .11 모든 평가는 하나의 데이터 요소로 간주됩니다. 합격 / 불합격 결정은 개별 데이터 포인트에서 분리됩니다. 각 데이터 포인트는 학습자에게 정보를 최대한 제공하고 정보가 풍부합니다. 결정은 많은 데이터 포인트를 기반으로합니다. 학습자는 스스로 분석해야하며, 멘토도 이 과정을 함께합니다. 필요한 데이터 요소의 수는 의사 결정의 중요성에 비례합니다. 고부담 결정은 많은 데이터 요소와 풍부한 정보를 기반으로 이뤄진다.

In my thinking, learning started to drive assessment. Again with very influential colleagues, I published a model or theoretical framework for assessment programmes in 2012.11 Any assessment is seen as but one data point. Pass/fail decisions are decoupled from individual data points. Each data point is maximally informative to the learner and is information-rich. Decisions are taken on the basis of many data points. Learners are required to self-analyse and are mentored as they do so. The number of data points required is proportional to the importance of the decision. High-stake decisions are taken on many data points and a lot of rich information.


평가 정보는 학습자에 대한 이야기를 들려주어야 한다

Assessment information should tell a story about the learner


프로그램적 평가를 위한 이 모델이 교육 실무에서 잘 받아 들여지고 있지만 구현하기가 어렵습니다. 평가를 둘러싼 사고의 문화적 변화가 필요합니다. 교사 또는 감독자는 기존 레퍼토리 내에 있지 않을 수도있는 평가에서 다른 역할을 부여받습니다. 이러한 변화는 실증주의적 관점의 평가에서 좀 더 구성주의-상호주의적 평가 방식으로의 전환을 필요로한다 .12 교육의 문화적 변화는 하룻밤 사이에 이루어지지 않는다. 비슷한 문화적 변화가 필요한 문제 중심 학습은 개발에 수년이 걸렸습니다. 혁신은 천천히 진행되고 프로그래적 평가도 그러할 것이다.


Although this model for programmatic assessment is well received in educational practice, it is diffi- cult to implement. It requires a cultural change in our thinking around assessment. Teachers or supervisors are given different roles in assessment that may not lie within their existing repertoire. Such a change requires a shift from a positivist view of assessment to a more constructivist–inter- pretivist approach to assessment.12 Cultural changes in education are not made overnight. Problem-based learning, which required a similar cultural change, has taken many years to develop. Innovations move slowly, and so will programmatic assessment.







4 Baartman LKJ, Bastiaens TJ, Kirschner PA, van der Vleuten CPM. The wheel of competency assessment. Presenting quality criteria for competency assessment (2):153–70. programmes. Stud Educ Eval 2006; 32


5 Baartman LKJ, Prins FJ, Kirschner PA, van der Vleuten CPM. Determining the quality of assessment programmes: a self-evaluation procedure. Stud Educ (3):258–81. Eval 2007;


6 Dijkstra J, Galbraith R, Hodges BD, McAvoy PA, McCrorie P, Southgate LJ, van der Vleuten CP, Wass V, Schuwirth LW. Expert validation of fit-for-purpose guidelines for designing programmes of assessment. BMC Med Educ 2012; :20.


8 van der Vleuten CP, Schuwirth LW, Scheele F, Driessen EW, Hodges B. The assessment of professional competence: building blocks for theory development. Best Pract Res Clin Obstet Gynaecol (6):703–19. 2010;


12 Govaerts M, van der Vleuten CPM. Validity in work- based assessment: expanding our horizons. Med Educ (12):1164–74. 2013; 47



 2016 Sep;50(9):885-8. doi: 10.1111/medu.12632.

Revisiting 'Assessing professional competence: from methods to programmes'.

Author information

1
Department of Educational Development and Research, Maastricht University, Maastricht, the Netherlands.
PMID:
 
27562885
 
DOI:
 
10.1111/medu.12632


합목적성을 위한 평가 프로그램 모델(Med Teach, 2012)

A model for programmatic assessment fit for purpose

C. P. M. VAN DER VLEUTEN1, L. W. T. SCHUWIRTH2, E. W. DRIESSEN1, J. DIJKSTRA1, D. TIGELAAR3, L. K. J. BAARTMAN4 & J. VAN TARTWIJK5

1Maastricht University, The Netherlands, 2Flinders Medical School, Australia, 3Leiden University Graduate School of Teaching, The Netherlands, 4Utrecht University of Applied Sciences, The Netherlands, 5Utrecht University, The Netherlands




도입

Introduction


목적 적합성은 퀄리티의 기능적 정의이며, 그 본질은 평가 프로그램의 목적 달성에 기여한다는 개념이다. 따라서 목적 적합성은 목적으로 해석되는 다른 퀄리티 정의 (예 : 제로 결함)를 포함하는 포괄적 퀄리티 개념이다 (Harvey & Green 1993).

Fitness for purpose is a functional definition of quality, the essence of which is the notion of contributing to the achievement of the purposes of the assessment programme. Fitness for purpose is thus an inclusive notion of quality, encompassing other quality defi- nitions (e.g. zero defects) which are interpreted as purpose (Harvey & Green 1993).


좋은 시험은 좋은 품질의 문항의 무작위 집합이라는 것 이상이라는 견해는 이제 일반적으로 받아들여지고 있으며, 훌륭한 평가 프로그램은 무작위의 훌륭한 도구 세트 (Schuwirth & Van der Vleuten 2011) 이상입니다. 프로그래밍 방식 평가의 문제는 이 분석을 넘어서서도 확장됩니다. 좋은 품질의 평가문항item은 얻을 수 있지만, 이상적인 도구instrument은 없습니다. 1996 년 초 우리는 어떠한 single assessment도 퀄리티 기준에 대한 타협을 의미한다고 주장했다 (Van der Vleuten 1996).

Analogous to the now generally accepted view that a good test is more than a random set of good quality items, a good programme of assessment is more than a random set of good instruments (Schuwirth & Van der Vleuten 2011). The problem of programmatic assessment extends even beyond this anal- ogy. For, whereas good quality items are achievable, there is no such thing as an ideal instrument. As early as 1996, we contended that any single assessment implies a compromise on quality criteria (Van der Vleuten 1996).


제안 된 모델은 교육적 측면에서 프로그램 적 평가에 국한되므로 라이센스 평가 프로그램은 고려하지 않습니다. 이 모델은 '학교 기반', 교실 수업 강조 또는 대학원 전문 교육 프로그램과 같은 '업무 기반'인 학습 프로그램 유형과 관련한 것이다.

The proposed model is limited to programmatic assessment in the educational context, and consequently licensing assess- ment programmes are not considered. The model is generic with respect to types of learning programmes, which may be ‘school based’, emphasising classroom teaching, or ‘work based’, such as postgraduate specialty training programmes.


우리는 모델에 맞는 평가 프로그램 내에서 통합되어야하는 세 가지 근본적인 목적을 정의한다, 즉 

  • 습을 최대한 촉진하는 프로그램 (학습을위한 평가)

  • 고부담 의사 결정의 견고성을 극대화하는 프로그램 (승진 / 학습자 선택); 

  • 육 및 커리큘럼 향상에 필요한 정보를 제공하는 프로그램. 

우리의 주안점은 처음 두 가지 목적을 최적화하기 위해 고안된 이론 기반 모델 (Schuwirth et al. 2011)입니다.

We define three fundamental purposes that should be united within an assessment programme that fits our model: 

  • a programme that maximally facilitates learning (assessment for learning); 

  • a programme that maximises the robustness of high- stake decisions (on promotion/selection of learners); 

  • a programme that provides information for improving instruction and the curriculum. 

Our main focus for now is a theory-based model (Schuwirth et al. 2011) designed to achieve optimisation of the first two purposes.



평가의 원칙

Principles of assessment


(1) 단 하나만으로도 완벽한 평가란 없다.

(1) Any single assessment data point is flawed


Miller 's (1990) 피라미드 중 어느 한 수준에서 평가 방법을 한 번 관리하는 것과 같은 단일 샷 평가, 즉 모든 포인트 측정은 본질적으로 제한되어 있습니다. 내용-특이성(Eva 2003)으로 인해, 개인의 수행은 맥락-의존적이어서 최소한의 신뢰할만한 결과를 얻기위해서는 큰 시험 항목의 표본 (용어의 가장 넓은 의미에서)과 긴 시험 시간이 필요하다 (Van der Vleuten & Schuwirth 2005) . 일회성 측정은 또한 변화 또는 성장을 확립하지 못할 것입니다.

Single-shot assessments, such as a single administration of an assessment method at any one level of Miller’s (1990) pyramid, in other words, all point measurements are intrinsi- cally limited. Due to content specificity (Eva 2003), the performance of individuals is highly context dependent, requiring large samples of test items (in the broadest sense of the term) and long testing times to produce minimally reliable results (Van der Vleuten & Schuwirth 2005). A one-off measure will also not be able to establish change or growth.


(2) 표준화된 평가는 타당도가 '빌트인' 될 수 있다.

(2) Standardised assessment can have validity ‘built-in’ the instrument



테스트 구축과 관련된 품질 관리 절차는 테스트 자료의 품질에 큰 영향을 줄 수 있습니다 (Verhoeven et al., 1999; Jozefowicz 외 2002). 평가자를 교육하고, 점수 목록을 객관화하고, SP를 교육 할 수 있습니다.

Quality control procedures around test construction can have a dramatic effect on the quality of the test material (Verhoeven et al. 1999; Jozefowicz et al. 2002). If applicable, assessors can be trained, scoring lists objectified, simulated patients standardised, etc.



(3) 비표준화된 평가의 타당도는 도구가 아니라 사용자에 달려 있다.

(3) Validity of non-standardised assessment resides in the users and not so much in the instruments


실세계는 표준화되지 않았으며, 위험스럽다. 더 중요한 것은 표준화에 대한 어떤 시도라도 평가를 단순화 할 뿐이라는 것이다 (Norman et al., 1991). 평가 문헌에서 우리는 현재 WBA분야와 같이 성과의 'does'수준을 평가하기 위한 '기술'개발을 목도하고 있습니다 (Norcini 2003; Norcini & Burch 2007). 그러나 정규 교육 환경 (예 : 강의실, 자습서 및 실험실)의 평가는 습관적 성과 평가와 동일한 범주에 속합니다.

The real world is non-standardised and haphazard, and, more impor- tantly, any attempt at standardisation will only trivialise the assessment (Norman et al. 1991). In the assessment literature, we are currently seeing the development of ‘technologies’ for assessing the ‘does’ level of performance, for example in the field of work-based assessment (Norcini 2003; Norcini & Burch 2007). However, assessment in regular educational settings (e.g. classroom, tutorials and laboratory) also comes under the same category of assessment of habitual performance.


이러한 상황(정규교육환경)에서 평가의 타당성을 결정하는 것은 전형적으로 '표준화 된 형식'이 아니다 (Hodges et al. 2011). 평가자, 학습자 및 환자와 같은 '사용자'가 '도구'보다 더 중요합니다. 평가도구 사용에 대한 전문성, 평가를 진지하게 받아들이는 정도 및 지출 할 수있는 시간과 함께 이러한 측면은 평가가 잘 수행되었는지 여부를 결정합니다. 객관식 테스트 시험지를 학생에게 배부하는데에는 교육이 필요하지는 않지만, 표준화되지 않은 관찰 평가를 통해 평가 과정에 참여한 모든 사람들은 광범위한 교육을 받아야합니다.

It is typically not ‘standardised forms’ that determine the validity of the assessment in such situations (Hodges et al. 2011). The users, i.e. the assessors, learners and patients, are more important than the instrument. Their expertise in using the instrument, the extent to which they take the assessment seriously and the time they can spend on it, these aspects together determine whether or not the assessment is performed well. While extensive training is not required for someone handing out multiple choice test booklets to students, with non-standardised observational assessment it is of crucial importance that all those involved in the assessment process should receive extensive training.



피드백을 주거나 양식에 서술을 기록하는 데 반영된 것처럼 사용자가 평가 작업을 진지하게 받아들이는 정도는 궁극적으로 이러한 방법의 유용성을 결정합니다. 사용자, 평가자 및 평가자가 평가의 의미와 목적을 완전히 이해하지 못하면 평가는 보잘것없어질trivialize 것입니다.

The extent to which the users take their assessment task seriously, as reflected in their taking time to give feedback or record a narrative on a form, ultimately determines the utility of these methods. If the users, assessors and assesses do not fully understand the meaning and purpose of the assessment, the assessment is doomed to be trivialised.


(4) 평가의 '부담'은 의사결정에 포함되는 데이터의 숫자와 '부담'간의 비례적 관계에 있는 연속체이다.

(4) The stakes of the assessment should be seen as a continuum with a proportional relationship between increases in stakes and number of data points involved


프로그램적 평가의 개념적 틀의 관점에서, formative-summative 구분은 유용하지 않은데, 왜냐하면 이 framework는 어떤 평가든 정도의 차이만 있을 뿐 형성적이면서 총괄적이어야 한다고 주장하기 때문이다. 따라서 낮은 부담부터 높은 부담까지의 연속체로서 평가의 부담을 개념화하는 것이 더 유용하게 보인다. 저부담 평가에서 결과는 승진, 선택 또는 인증 측면에서 학습자에게 미미한 영향을 주지만, 고부담 평가는 광범위하고 극적인 결과를 초래할 수 있습니다. 평가 프로그램에서 저부담 결정만이 single data point에 의존할 수 있으며, 고부담 결정에는 많은 사람들로부터의 입력이 필요합니다. 고부담 평가일수록 helper로서 교사의 역할은 더욱 쉽게 손상됩니다.

From the perspective of a conceptual framework of programmatic assessment, the formative–summative distinc-tion is not a very useful one, considering that the framework predicates that any assessment should be both formative and summative, only to varying degrees. Therefore, conceptualis-ing the stakes of the assessment as a continuum from low tohigh stakes seems more useful. In low-stake assessment the results have limited consequences for the learner in terms of promotion, selection or certification, whereas high-stake assessment can have far-reaching and dramatic consequences.In a programme of assessment, only low-stake decisions canbe based on single data points, whereas all high-stake decisions require input from many. With higher stake assess-ment, the role of the teacher as helper is more easily compromised.


그러나, 고부담 의사결정이 많은 데이터 포인트에 의해 정보가 제공 될 때, 단일 데이터 포인트로부터 도출 된 풍부한 정보를 무시하는 것은 어리석은 일이다. 따라서 저부담 평가를 결합한 정보는 고부담 정보로 feed되어야 한다. 그러나 아무리 개별 데이터포인트가 저부담이더라도, '무부담'은 아니다.

However, when high-stake decision making is informed by many data points, it would be foolish to ignore the information from the rich material derived from all the single data points. Information from combined low-stake assessments should therefore feed into high-stake information. However low stake an individual data pointmay be, it is never zero stake. 



(5) 평가가 학습을 유도한다.

(5) Assessment drives learning


이것은 평가 문헌에서 일반적으로 받아 들여지는 개념이지만, 동시에 제대로 된 이해는 부족하다. 대부분의 경우, 평가는 커리큘럼 목표에 부합하지 않거나 부적절하기 때문에 바람직하지 않은 학습 전략을 유도합니다. 이러한 상황은 정보가 부족하거나, 단순 합계 시스템에서 특히 그러하다. (Al Kadri et al.2009)

This is a generally accepted concept in the assessment literature, but at the same time it remains poorly understood. In all likelihood, many assessments drive undesirable learning strategies because the assessment is not at all or ill aligned with curriculum objectives. This situation is particularly common in poor information, purely summative systems (Al Kadri et al.2009)


형성 피드백은 학습을 향상시킬 수 있다는 증거가 풍부합니다 (Kluger & DeNisi 1996; Hattie & Timperley 2007; Shute 2008). 평가가 학습을 유도하는 것이라면, 학습자에게 의미있는 단어와 평가 정보를 가능한 풍부하게 만들어야한다. 정보는 양적으로나 질적으로나 다양한 방법으로 풍부해질 수 있습니다. 이 시점에서 우리는 평가가 종종 성적(하고만) 관련이 있으며 점수는 가장 초라한 형태의 피드백 (Shute 2008) 중 하나라는 점에 유의해야합니다. 프로파일 점수 및 참조 실적 정보와 같은 다른 유형의 정량적 정보가 필요합니다. 그러나 우리는 또한 질적 정보의 중요성에 주목한다.

There is a wealth of evidence that formative feedback can enhance learning (Kluger & DeNisi 1996; Hattie& Timperley 2007; Shute 2008). We note that, if assessment isto drive learning, it is imperative that it should produce words,meaningful assessment information information to the learner. In rich other should be as as possible.Information can be rich in many different ways, both quantitatively and qualitatively. At this point, we should note that assessment is often associated with grades (only), and that grades are one of the poorest forms of feedback (Shute 2008).Different types of quantitative information are needed, such asprofile scores and reference performance information.However, we also note the importance of qualitative informa-tion. 


무의미는 Trivialization으로 이어지고, 이것은 평가의 중대한 위협이다. 학습자가 객관적인 구조 임상 시험 (OSCE)을 통과 했음에도 불구하고 환자와 관련이 없는 체크리스트만을 암기한 경우, 그들이 한 행동은 무의미하다. 평가자가 체크리스트의 모든 항목을 한 줄로 그어서 끝내버리면 평가는 모든 의미를 잃어 버린다. 그러나 평가 정보가 의미있는 경우 학습은 의미있는 방식으로 향상됩니다. 저부담의 개별 데이터 포인트가 학습을 촉진하기 위해서는 가능한 한 의미가 있어야 하며, 고부담 결정은 많은 개별 데이터 포인트를 기반으로해야한다. 유의미한 데이터 포인트를 aggregation함으로써 의미있는 고부담 결정을 내릴 수 있다

Lack of meaningfulness leads to trivialisation, a serious and frequent hazard in assessment. If learners are required to memorise checklists for passing the objective structured clinical examination (OSCE) but have no connection with patients, their performance is trivial; if an assessor completes all items on a professional behaviour rating form by one strikeof the pen, the assessment loses all meaning and is trivialised. However, if the assessment information is meaningful, learning will be enhanced in a meaningful way. We argue that low-stake individual data points should be as meaningful as possible to foster learning, and we also argue that high-stakedecisions should be based on many individual data points.Aggregation of meaningful data points can result in a meaningful high-stake decision


개별 데이터 포인트가 높은 지위를 가질 수있는 한 가지 예외가 있습니다. 이것은 학습 과제가 숙달 과제 (즉, 어린이들을위한 곱셈 테이블, 의과대학 학생에게 소생술 교육)인 경우이다. 숙달 작업은 프로그램에서 발생할 때와 마찬가지로 인증을 받아야합니다. 그러나 이것은 숙달 작업에 피드백이 필요 없다는 것을 의미하지는 않습니다.

There is one exception where individual data points can be high stake. This is when the learning task is a mastery task (i.e.the tables of multiplication for children, resuscitation for medical students). Mastery tasks need to be certified as and when they occur in the programme. The proposed model should accommodate this exception. This does not imply,however, that mastery tasks do not require feedback. 



(6) 전문가 판단은 불가피하다.

(6) Expert judgement is imperative



역량은 복잡한 현상입니다. 특질이라 부르든, 역량이든, 역량 영역이든 평가 결과를 해석하기 위해서는 항상 인간의 판단이 필요하다. 평가표, 표준 수행 등을 제공해서 판단의 주관성을 줄일 수 있으나, 완전한 객관화를 달성하려는 시도는 평가 과정을 단순화 할뿐입니다 (원칙 5의 예 참조). 우리는 평가 과정의 다양한 시점에서 지식이 풍부한 개인의 전문가 판단에 의존 할 수밖에 없습니다. 또한 개별 데이터 요소에 대한 정보를 결합하려면 전문가의 판단이 필요합니다.

Competence is a complex phenomenon. Regardless of whether it is defined in terms of traits (knowledge, skills,problem-solving skills and attitudes) or competencies or competency domains (Frank and Danoff 2007; Accreditation Council for Graduate Medical Education [ACGME] 2009),interpreting assessment results always requires human judge-ment. By providing support, e.g. scoring rubrics, training and performance standards, we can reduce the subjectivity in judgements (Malini Reddy & Andrade 2010), but if we try to achieve complete objectification, we will only trivialise the assessment process (see the examples of principle 5). We have no choice but to rely on the expert judgements of knowl-edgeable individuals at various points in the assessment process. We also need expert judgement to combine informa-tion across individual data points




방대한 의사 결정에 관한 문헌에서 보험 통계적 의사 결정 (Shanteau 1992)에 비해 인간의 마음은 오류가 없다면 아무 것도 아님을 압니다. 그러나 스마트 샘플링 전략과 절차적 근거에 의한 체계적인 편향으로 판단의 무작위 편향을 극복 할 수 있다. 샘플링 관점은 많은 유형의 평가 상황에서 효과적임이 입증되었다 (Van der Vleuten et al., Williams et al., 2003; Eva et al. 2004). 우리는 많은 판단을 사용하여 신뢰할 수있는 정보를 생산할 수있다.

From a vast amount of literature on decision making, we know that the human mind is nothing if not fallible, compared to actuarial decision making (Shanteau 1992). We argue, how-ever, that random bias in judgement can be overcome by smart sampling strategies and systematic bias by procedural mea-sures. The sampling perspective has been proven to be effective in many types of assessment situations (Van der Vleuten et al. 1991; Williams et al. 2003; Eva et al. 2004):we can produce reliable information simply by using many judgements.


사실, 판단에 크게 의존하는 평가 방법은 대부분의 객관화되고 표준화 된 방법 (Van der Vleuten et al. 2010)보다 훨씬 작은 샘플을 필요로합니다.

In fact, assessment methods that rely heavily on judgement require considerably smaller samples than are required for most objectified and standardised methods (Van der Vleuten et al. 2010).



표 1은 그러한 절차 전략의 개요를 제공합니다. 이러한 절차를 작성하고 수행하는 과정에서 고려해야 할 사항에 따라 편향을 줄일 수 있으며 그 결과 결정을보다 신뢰할 수 있고 방어 할 수 있습니다.

Table 1 provides an overview of such procedural strategies. Depending on the care taken in creating and conducting these procedures, biases can be reduced and the resulting decisions will be more trustworthy and defensible.


이는 평가 프로그램의 모든 부분을 객관화 할 필요를 없애줍니다. 객관화(의 지나친 추구)는 평가와 학습 모두에서 환원주의와 평범함으로만 이어질 것입니다.

This obviates the need to objectify every part of the assessment programme, which, as we have noted earlier, will only lead us to reductionism and trivialisation of both assessment and learning.




평가 프로그램의 실행 모델

Model of programmatic assessment in action


Based on the above principles, we propose a model that is optimised for fitness of purpose. The purpose of an assessment programme is to maximise assessment for learning while at the same time arriving at robust decisions about learners’ progress. Figure 1 provides a graphical representation of the model.



학습 활동

Learning activities


우리는 4C-ID 모델 (Van Merrie¨nboer 1997) 이후에 작은 원으로 표시된 학습 과제로 구성된 첫 번째 교육 활동부터 시작합니다. 학습 과제는 강의, 실제, 환자와의 만남, 병원 운영 극장에서의 작업, 문제 기반 학습 (PBL) 자습서, 프로젝트, 학습 과제 또는 자체 학습 등 학습에 이르는 모든 것일 수 있습니다. 일부 학습 과제는 큰 원으로 표시된 것처럼 학습의 인공물을 산출 할 수 있습니다. 이러한 인공물은 프로젝트 보고서와 같이 결과와 관련되거나, 수술실에서 수행되는 수술 절차 목록과 같이 프로세스 지향적 일 수 있습니다.


We start with a first period of training activities consisting of learning tasks denoted by small circles (after the 4C-ID model (Van Merrie¨nboer 1997)). A learning task can be anything that leads to learning: a lecture, a practical, a patient encounter, an operation in the hospital operating theatre, a problem-based learning (PBL) tutorial, a project, a learning assignment or self- study. Some learning tasks may yield artefacts of learning, as denoted by the larger circles. These artefacts can be outcome related, such as a project report, or they can be process oriented, such as a list of surgical procedures performed in the operating theatre.



평가 활동

Assessment activities


1시기의 평가 활동은 작은 피라미드로 표시되며 각각은 단일 평가 포인트입니다. 각 단일 데이터 포인트는 밀러의 피라미드의 모든 계층에서 모든 방법과 관련 될 수 있기 때문에 의도적으로 선택됩니다. 필기 시험, OSCE, 임상 적 만남 (즉, Mini-CEX)의 관찰, 임상 시험 (예 : Mini-CEX)의 동료 평가에서 PBL 튜토리얼 평가 등

The assessment activities in period 1 are shown as small pyramids, each representing a single data point of assessment. This symbolic shape is deliberately chosen, because each single data point can relate to any method at any layer of Miller’s pyramid, be it a written test, an OSCE, an observation of a clinical encounter (i.e. Mini-CEX), a peer evaluation in a PBL tutorial assessment, etc.


모든 평가 활동은 원칙 3 (평가는 학습을 유도한다)를 보장하고자, 학습자의 지속적인 학습을 최대한 지원할 수 있도록 구성되어야합니다. 이 원칙은 모든 평가가 학습에 최대로 의미가 있어야하며 정량적으로든 질적으로든 풍부한 정보가 학습자의 수행에 대한 피드백을 제공해야합니다.

All assessment activities should be arranged so as to maximally support the learner’s ongoing learning to ensure adherence to principle 3 (assessment drives learning). This principle requires that all assessment be maximally meaningful to learning and provide feedback on the learner’s performance that is information-rich, whether quantitatively or qualitatively.


각 단일 데이터 포인트는 낮은 지분 (원칙 5)입니다. 성능 피드백은 분명히 어떤 종류의 성능 표준과 관련하여 정보를 제공하지만 마스터 테스트에서 수행 할 수있는 것처럼 하나의 평가 점을 기준으로 학습자를 통과 시키거나 실패하는 것에 대해 특히 주의해야합니다. 각 데이터 포인트는 데이터 포인트의 array에서 하나의 요소일 뿐이다다 (원칙 1). 단일 데이터 포인트가 낮은 지분이지만, 이것이 커리큘럼의 나중 시점에서 진도 결정을 위해 사용되는 것을 배제하지 않습니다.

Each single data point is low stake (principle 5). Although perfor- mance feedback obviously provides information in relation to some kind of performance standard, we strongly caution against passing or failing a learner based on one assessment point, as can be done in a mastery test. Each data point is but one element in a longitudinal array of data points (principle 1). Although single data points are low stake, this does not preclude their use for progress decisions at a later point in the curriculum.


단순히 특정 표준을 달성했는지 여부를 선언하는 것은 유용하지 않습니다. 평가사는 교사 또는 촉진자로서의 역할은 보호되지만 판사로서의 역할은 아닙니다 (원칙 5). 가능한 한 많은 두 가지 역할을 해소합니다. 물론 모든 평가자는 학습자가 잘했는지 여부를 판단 할 것입니다. 검은 피라미드로 표시되는 예외가 하나 있습니다. 일부 업무는 숙달 지향적이며 숙달의 시연이 필요합니다. 예를 들어, 인공 호흡은 숙달이 이루어질 때까지 뚫어야 할 숙련입니다.

It is not useful to simply declare whether or not someone has achieved a certain standard. Assessors are protected in their role as teacher or facilitator, but not in their role as judge (principle 5). Both roles are disentangled as much as possible, although, obviously, any assessor will judge whether or not the learner did well. There is one exception, which is represented by the black pyramid. Some tasks are mastery oriented and require demonstration of mastery. For example, resuscitation is a skill that needs to be drilled until mastery is achieved.



그럼에도 불구하고 대부분의 평가 과제는 (숙달 지향적이지 않고) 역량에 대한 숙련도 향상이라는 측면에서 발달 적입니다. '등급'이 주어진 유일한 피드백이 되는 것을 경고한다. 성적은 poor feedback이며 모든 종류의 불리한 교육적 부작용을 겪는 경향이 있습니다 (학습자는 성적을 사냥하지만, 자신이 무엇을 어떻게 배웠는지 무시하고, 교사는 성적 피드백을 제공하지 않는 이유로 학점의 객관성을 피드백을 주지 않는 구실로서 만족한다).

Nevertheless, most assessment tasks are not mastery oriented but developmental in terms of working towards proficiency in a competency. We similarly warn against grades as the only feedback that is given. Grades are poor feedback carriers and tend to have all kinds of adverse educational side effects (learners hunting for grades but ignoring what and how they have learned; teachers being content to use the supposed objectivity of grades as an excuse for not giving performance feedback).



모든 평가 방법은 프로그램 내의 기능에 따라 유용 할 수 있으므로 특정 평가 방법에 대한 선호도와 관련해서 알수 있는 것은 없다. 우리는 전문가로부터 주관적인 정보 나 판단을 명시 적으로 배제하지 않는다 (원칙 6). '전문가'라는 명칭은 유연하게 정의되며 지식이있는 모든 개인에게 적용될 수 있습니다. 맥락에 따라 '전문가'는 교사, 교사, 감독자, 동료, 환자, 그리고 학습자도 전문가가 될 수 있습니다.

We are agnostic with respect to any preference for specific assessment methods, since any assessment approach may have utility depending on its function within the programme. We explicitly do not exclude subjective information or judgements from experts (principle 6). The designation ‘expert’ is defined flexibly and can apply to any knowledgeable individual. Depending on the context, this may be the teacher, the tutor, the supervisor, the peer, the patient and, last but not least, the learner him or herself.




지원 활동

Supporting activities


같은 기간에 지원 활동은 두 가지입니다. 첫째, 학습자는 학습 및 평가 활동에서 얻은 정보로 성찰합니다 (원칙 4 및 6). 이것은 밑줄이 그어진 작은 원으로 표시됩니다. 시작과 끝에서 더 많은 반사 활동이있을 수 있지만 연속적입니다. 자기 주도적 학습 활동 피드백은 해석되어 새로운 학습 과제 또는 목표를 계획하는 데 사용됩니다 (Van Merrie¨nboer & Sluijsmans 2009).

The supporting activities in the same period are twofold. First, the learner reflects on the information obtained from the learning and assessment activities (principles 4 and 6 com- bined). This is shown as underscored connected small circles. There may be more reflective activity at the start and at the end, but is continuous. self-directed learning activity Feedback is interpreted and used to plan new learning tasks or goals (Van Merrie¨nboer & Sluijsmans 2009).


우리는 사람들이 반성하고 자기 주도하도록하는 것이 얼마나 힘든지를 압니다 (Korthagen 외 2001; Driessen 외 2007; Mansvelder-Longayroux 외 2007). 자기주도학습의 모순 중 하나는 외부 지침과 스캐폴딩을 필요로한다는 것입니다 (Sargeant 외 2008; Driessen 외. 2010). 그러므로 우리는 일종의 사회적 상호 작용을 통한 자기 주도적 학습의 스캐폴딩을 제안합니다.

we know how hard it mostly is to get people to reflect and self-direct (Korthagen et al. 2001; Driessen et al. 2007; Mansvelder-Longayroux et al. 2007). One of the paradoxes of self-directed learning is that it takes considerable external direction and scaffolding to make it useful (Sargeant et al. 2008; Driessen et al. 2010). We therefore propose scaffolding of self-directed learning with some sort of social interaction.


자기 주도 학습 지원의 주요 형태는 코칭 또는 멘토링 (감독 활동)이지만, 대안으로는 고위 학습자 또는 동료 ( '인터뷰'활동)가 지원을 제공 할 수 있습니다. 자기주도적 학습은 (시간, 내용 및 사회적 상호 작용과 관련하여) 성찰활동을 구조화하고 문서화하는 도구에 의해서도 촉진 될 수있다 (Embo 등, 2010). 일반적으로, 성찰과정의 문서화를 장려하지만 지나치게 사용하는 것은 경고합니다. 문서화 된 학습 활동은 'lean and mean'하고, 직접적인 의미있는 학습 가치가있는 경우에만 유효하다(Driessen 외. 2007). 그렇지 않으면 행정적 잡무이며, 쓰레기 용지만을 다량 생산합니다. 사회적 상호 작용이 성찰적 활동에 의미를 부여하기위한 전제 조건이라는 것을 확고히 명심한다면 이러한 유형의 trivialization은 피할 수 있습니다.

The principal form of support for self-directed learning is coaching or mentoring (supervision activities), but alternatively, support can be provided by more senior learners or peers (‘intervision’ activities). This process can also be facilitated by dedicated instruments in which reflective activity is structured (with respect to time, content and social interaction) and docu- mented (Embo et al. 2010). In general, we encourage documentation of the reflective process, but warn against overdoing it. Documented reflective activities will only work if they are ‘lean and mean’ and have direct meaningful learning value (Driessen et al. 2007). Otherwise, they are just bureau- cratic chores, producing reams of paper for the rubbish bin. This type of trivialisation can be avoided if we keep firmly in mind that social interaction is prerequisite to lend meaning- fulness to reflective activities.



중간 평가

Intermediate evaluation


이 기간의 끝에서 지원 활동의 모든 인공물, 평가 정보 및 (선택된) 정보는 중간 평가에서 평가됩니다. 모든 데이터 포인트에서 수집 된 정보는 독립적이고 권위있는 평가자 그룹, 즉 심사 위원으로 구성된 성과 기준에 부합합니다. 전문가의 판단이 모든 데이터 요소에 걸쳐 정보를 모으는 데 불가피하므로, 위원회가 적절하다(원칙 6). 그러나 정보의 수치적 aggregation의 미덕을 간과하려는 것이 아니며, 적절하고 가능한 모든 정보를 사용해야합니다.

At the end of the period, all artefacts, assessment information and (selected) information from the supporting activities are assessed in an intermediate evaluation of progress. The aggregate information across all data points is held against a performance standard by an independent and authoritative group of assessors, i.e. a committee of examiners. We think a committee is appropriate because expert judgement is imper- ative for aggregating information across all data points (principle 6). We do not wish to downplay the virtues of numerical aggregation of information and we should use it whenever appropriate and possible.


데이터 포인트는 바람직하게는 meaningful entity에 걸쳐 집계되어야합니다. 전통적으로 이 엔티티는 방법 (Miller 's pyramid의 계층) 이었지만 트레이닝 프로그램이나 역량 프레임 워크 (Schuwirth & Van der Vleuten 2011)와 같은 다른 의미있는 집계 범주는 생각할 수 있습니다.

Data points should preferably be aggregated across meaningful entities. Traditionally, these entities have been methods (or layers of Miller’s pyramid), but other, more meaningful aggregation categories are thinkable, such as the themes of the training programme or a competency framework (Schuwirth & Van der Vleuten 2011).



그러나 일부 학습자의 경우,위원회는 실질적인 토론, 심의 및 논증에 참여해야 할 것입니다. 그들의 결정은 수행 표준과 관련하여 유익하지만 진단 적, 치료 적 및 예후 적 가치에 유익합니다. 

    • 전문가는 강점과 개선 영역 (진단)에 대한 정보를 제공하며, 

    • 학습자가 바람직한 성능 목표 (치료)를 달성하고 

    • 훈련 프로그램의 후반부에 특정 성과 결과 (예후)를 예측하도록 

...돕기위한 개선을 제안 할 수 있습니다. 

For some learners, however, the committee will have to engage in substantial debate, deliber- ation and argumentation. Their decision is informative in relation to the performance standard, but also informative in its diagnostic, therapeutic and prognostic value. 

    • The experts provide information on areas of strength and improvement (diagnosis), and 

    • they may suggest remediation to help the learner achieve desirable performance objectives (therapy) and 

    • predict certain performance outcomes later in the training programme (prognosis). 

중간 평가는 remediation oriented이다.이것은 일반적으로 숙달 지향적 인 재래식 유형과는 매우 다릅니다. 우리의 접근 방식에서 가장 중요하게 생각하는 것은 'development'이다. 우리는 개별 학습자에게 맞춤화되고 진단 정보를 조건으로 추가 학습을위한 정보가 풍부한 권장 사항을 제안합니다. 위원회의 평가는 중간 지분으로 자격을 얻을 수 있습니다.

Very importantly, this intermediate assessment is remediation oriented. This is very different from conventional types of assessment, which are typically mastery- oriented: Our approach is first and foremost developmental: we propose an information-rich recommendation for further learning, tailored to the individual learner and contingent on the diagnostic information. The committee’s assessment can be qualified as intermediate stake.



중간 평가에는 방화벽 딜레마가 있는데, 여러 가지 방법으로 해결할 수 있다. 이 딜레마는 지원자 시스템이 지원 시스템에 입력함으로써 발생합니다. 장기간 참여의 기준 (표 1)에 따르면, 코치, 멘토 또는 학습자가 가장 풍부한 정보를 제공할 수 있지만, 동시에 support system의 actor들에게 의사 결정권을 부여함으로써 도우미와 학습자 간의 관계가 훼손 될 수 있습니다 (Cavalcanti & Detsky 2011). 이를 해결하기 위한 한 가지 엄격한 방법은 지원 활동과 의사 결정 활동간에 막을 수없는 방화벽을 세우는 것입니다. 그러나 이것 은위원회가 귀중한 정보를 모르고 있다는 것을 의미 할 것이며, examiner들이 해야 할 일이 더 늘어날 수 있고, 더 많은 편견과 더 높은 비용을 초래할 수 있습니다.

The intermediate evaluation poses a firewall dilemma, which can be resolved in multiple ways. The dilemma is posed by the actors’ input into the support system. According to the criterion of prolonged engagement (Table 1), a coach, mentor or learner provides the richest information. At the same time by vesting the power of decision making in the actors of the support system, the relationship between helper and learner can be compromised (Cavalcanti & Detsky 2011). One rigorous way of resolving this is to erect an impenetrable firewall between activities of support and activities of decision making. However, this would mean that the committee remains oblivious of valuable information, it would likely lead to more work for the examiners and potentially more bias and higher costs.



보호 방법 중 하나는 코치가 학습자의 정보를 인증하도록 요구하는 것입니다. 정보는 학습자의 유효한 그림을 제공한다는 선언입니다. 한 걸음 더 나아가 코치는 학습자가 수정할 수있는 성과 결정에 대한 추천을 요청받을 수 있습니다. 결론적으로, 방화벽 딜레마를 해결할 최선의 유일한 전략은 없습니다.

One protective approach is to require the coach to authenti- cate the information from the learner: a declaration that the information provides a valid picture of the learner. One step further: the coach may be asked to make a recommendation on the performance decision, which can be amended by the learner. To sum up, there is no single best strategy to resolve the firewall dilemma



학습 과제, 적절한 피드백 및 (지원되는) 자기 방향을 통한 학습자의 논리적인 종단적 발달은 매우 중요합니다. 이는 한 번 시험에 합격하면 평생을 유능하다고 선언하는 순전히 숙달 지향적 인 접근 방식과는 완전히 반대입니다.

The logical longitudinal development of the learner through learning tasks, appropriate feedback and (supported) self-direction is of key importance. This is entirely the opposite of a purely mastery-oriented approach where passing an exam means being declared competent for life.


최종 평가

Final evaluation



이것은 학습자에게 중대한 결과가 있는 고부담 결정입니다. 이 결정은 (장기간 참여) 중간 평가를 수행 한 동일한 심사 위원위원회가 결정하지만, 가능하다면 다음의 절차적 안전 조치도 취할 수 있습니다. 

    • 항소 절차, 

    • 학습자 및 코치 입력 절차 (방화벽 딜레마), 

    • 평가자의 훈련 및 벤치마킹,

    • 위원회 규모, 

    • 심의 및 문서화 정도, 

    • 성능 표준 및 / 또는 루 브릭, 

    • 평가 절차를위한 품질 개선 조치 전체적으로, 그리고 마지막으로 

    • 중간 평가를 포함하여 이전 기간의 모든 데이터 포인트를 포함하는 것 (원칙 5).

This is a high-stake decision with major conse- quences for the learner. The decision is taken by the same committee of examiners that conducted the intermediate evaluation with (prolonged engagement) but even more stringent procedural safeguards in so far as these are feasible. Examples are 

    • procedures of appeal

    • procedures of learner and coach input (firewall dilemma), 

    • training and benchmarking of examiners

    • committee size, 

    • extent of deliberation and docu- mentation, 

    • performance standards and/or rubrics, 

    • quality improvement measures for the evaluation procedure as a whole and, last but by no means least, 

    • the inclusion of all data points from the preceding period including the intermediate evaluations (principle 5).



성과 분류 (즉, 성적)가 판단의 미묘함을 증가시킬뿐만 아니라 분류 오류 및 판단력있는 두통의 위험도 증가한다는 것을 여기서 주목해야합니다. 시스템이 잘 작동하면 결과 결정은 학습자 (또는 코치)에게 놀랄 일이 아닙니다.

One should note here that more performance classifications (i.e. grades) do not only augment the subtlety of judgement but also the risk of classification error and judgemental headache. If the system works well, outcome decisions will come as no surprise to the learner (or coach).


진행 결정의 성격에 따라,위원회는 추후 훈련이나 개선을위한 권고안을 제시 할 수있다. 전반적으로 최종 결정은 튼튼하며 풍부한 정보와 수많은 데이터 포인트를 기반으로합니다 (원칙 6). 견고성은 결정의 신뢰성에 있습니다. 결정이 어려운 경우 법원 에서조차도 책임지고 방어 할 수 있어야합니다.

Depending on the nature of the progress decision, the committee may provide recommendations for further training or remediation. Overall, the final decision is robust and based on rich information and numerous data points (principle 6). The robustness lies in the trustworthiness of the decision. If the decision is challenged, it should be accountable and defensible, even in a court of law.





Discussion


도전

Challenges


제안 된 프로그래밍 방식의 명백한 

  • 첫 번째 과제는 이러한 프로그램을 실행하는 데 필요한 비용과 리소스입니다. 비용을 낮추려면, 많은 것들을 잘못하는 것보다 더 적은 일을하는 것이 현명하다( 'less is more'원칙입니다). 정보를 거의 주지 못하는 방대한 양의 데이터를 수집 할 필요는 없습니다. 그것은 단지 시간과 노력과 돈 낭비 일뿐입니다. 

  • 두 번째, 우리의 프로그램 방식에서 평가와 학습 활동 간의 경계가 흐려진다는 것입니다. 진행중인 평가 활동은 학습 프로그램의 상당 부분을 차지하고 있으며, 실제로 그것들은 불가분하게 그 안에 포함되어있다 (Wilson & Sloane 2000). 

  • 셋째, 경제적 타협이 이루어질 수 있고 그래야 한다. 평가 활동 중 일부는 특히 저부담 평가 활동을 저비용으로 잘 수행 할 수 있습니다. 예를 들어, 온라인 상품 은행을 통해 학생들은 특정 도메인에서 자신의 지식을 스스로 평가할 수 있습니다. 또한, 여러 학교가 시험 자료를 공유하는 것이 현명한 전략이며, 앞서 지적했듯이 (Van der Vleuten 등 2004). 전문성이나 의사 소통과 같은 전문적인 자질은 동료 평가 (Palchikov & Goldfinch 2000)에 매우 적합합니다. 또한 부담과 자원 간의 균형에 따라, 모델의 특정 요소 또는 커리큘럼의 특정 기간에 타협이 이루어질 수 있다고 생각할 수 있습니다. 

  • 마지막으로 McIntyre와 Bok에 기인 한 인용문은 여기에 적절하게 보입니다. '교육이 비싸다고 생각한다면, 무지를 시도하십시오.'

An obvious first challenge of the suggested programmatic approach is the cost and resources needed for running such a programme. 

  • Our first remark here is that, in keeping costs down, it is wiser to do fewer things well than to do many things badly (the ‘less is more’ principle). There is no point in gathering a vast amount of data that provides little information; it would only be a waste of time, effort and money. 

  • A second remark is that, in our programmatic approach, the boundaries between assessment and learning activities are blurred. The ongoing assessment activities are very much part and parcel of the learning programme, indeed they are inextricably embed- ded in it (Wilson & Sloane 2000). 

  • Third, economic compro- mises can and must be made. Some of the assessment activities, particularly low-stake ones, can be done well at low cost. For example, an online item bank would enable students to self-assess their knowledge in a certain domain. Furthermore, the sharing of test materials across schools is a smart strategy, as we have pointed out earlier (Van der Vleuten et al. 2004). Certain professional qualities, like professionalism or communication, lend themselves very well to peer assess- ment (Falchikov & Goldfinch 2000). It is also thinkable that compromises are made on certain elements of the model or in certain periods in the curriculum, depending on the balance between stakes and resources. 

  • And finally, a quote attributed to McIntyre and Bok seems appropriate here: ‘If you think education is expensive, try ignorance’.




정면으로 직면해야하는 두 번째 큰 도전은 관료주의, 평범함 및 환원주의입니다. trivialisation는 이 글에서 여러 번 나왔다. 이는 의도적인데, trivialization은 사방에 숨어 있기 때문입니다. 평가 도구, 평가 전략 또는 평가 절차가 원래 의도했던 것보다 더 중요해지면, 그것은 그 추악한 머리를 되 돌린다. 우리는 그것이 항상 일어나는 것을 봅니다. 학습자는 시험에 합격하기 위해 꾀를 부리며, 교사는 펜의 한 획으로 양식을 완성합니다 (단지 행정적 절차만 처리했을 뿐 의미가 없다). 

A second huge challenge that must be faced squarely is bureaucracy, trivialisation and reductionismThe word trivialisation has cropped up time and again in this article. Our frequent usage of it is intentional, for trivialisation lurks everywhere. As soon as an assessment instrument, an assess- ment strategy or an assessment procedure becomes more important than the original goal it was intended to accomplish, trivialisation rears its ugly head. We see it happening all the time. Learners perform tricks to pass exams, teachers complete forms with one stroke of the pen (administrative requirement completed but judgement meaningless), we stick to proce- dures for no other reason than that we have always done it this way (we want grades because they are objective and accountable to society) or because of institutional policy.


우리가 암시장에서 시험 자료가 교환되거나 인터넷에 자료들이 올라오는 것을 보자 마자 우리는 평가 과정을 평범한 것으로 확신 할 수 있습니다. 프로그램 평가의 모든 행위자는 자신이하는 일, 왜 그 일을하는 이유, 왜 그렇게하는지 이해해야합니다. 그렇지 않으면 그들은 평가의 진정한 목적을 잃을 위험에 처해 있으며 관료 주의적 절차와 무의미한 인공물로 돌아갈 것입니다. 우리가 여기서 옹호하는 바와 같이 프로그램 적 평가를 실현하려면 사소한 일을 피하십시오. 아마도 가장 힘든 일이지만 가장 시급한 과제입니다. 관료제를 방지하기 위해 우리는 전체 과정을 촉진하는 지원 시스템이 필요합니다. 컴퓨터 기술은 facilitator로서 중요한 역할을하는 명백한 후보자로 보인다 (Bird 1990; Dannefer & Henson 2007). 우리는 이러한 기술을 탐색하기 시작했을 뿐이지 만 작업 부하를 줄이고 일부 문제에 지능적인 솔루션을 제공 할 수 있다는 큰 가능성을 보여줍니다.

 As soon as we notice the exchange of test materials on the black market or new internet resources peddling rafts of ready-made reflections, we can be sure that we have trivialised the assessment process. All actors in programmatic assessment should understand what they are doing, why they are doing it and why they are doing it this way. Otherwise they are in danger of losing sight of the true purpose of assessment and will fall back on bureaucratic procedures and meaningless artefacts. Steering clear of trivialisation is probably the hardest yet most urgent task we have to tackle if we are to realise programmatic assessment as advocated here. To prevent bureaucracy, we need support systems to facilitate the entire process. Computer technology seems an obvious candidate for an important role as facilitator (Bird 1990; Dannefer & Henson 2007). We have only begun to explore these technologies, but they show great promise to reduce workload and provide intelligent solutions to some of the problems.




세 번째 도전은 법적 제한입니다. 커리큘럼은 대학 규정이나 국내 법규를 준수해야합니다. 이들은 대개 매우 보수적이며 코스, 성적 및 학점으로 학습하는 숙달 지향적 인 접근 방식을 선호하는 경향이 있습니다.


A third challenge is legal restrictions. Curricula have to comply with university regulations or national legislation. These are usually very conservative and tend to favour a mastery-oriented approach to learning with courses, grades and credits.


이것은 최종 도전에 우리를 데려옵니다 : 참신과 무지. 제안 된 프로그램 평가 모델은 우리에게 익숙한 고전적 총괄평가 프로그램과 크게 다릅니다. 우리의 새로운 모델에 직면했을 때, 많은 이해 관계자들은 우리가 소프트 온 (soft on)으로 평가했다고 말하기 쉽습니다. 주관적인 정보와 판단에 의존하는 것에 대해 많은 사람들이 부드러운soft 선택으로 생각합니다. 우리는 열렬히 반대하며, 우리가 제안하는 의사 결정 절차가 왜 실제로하고 있는지, 그리고 어떤 목적을 위해서인지를 이해하는 많은 수의 배우들에게 맡겨지면 실제로 매우 tough하다는 것을 보여주기를 희망합니다. 참으로 힘든 일이지만 우리가 전심으로 지원하는 것입니다.


This brings us to the final challenge: the novelty and the unknown. The proposed model of programmatic assessment is vastly different from the classical summative assessment programme familiar to most of us from personal experience as learner and teacher. When confronted with our new model, many stakeholders are likely to tell us we have turned soft on assessment. Our willingness to rely on subjective information and judgement, in particular, is seen by many as a soft option. We fervently disagree and we hope to have demonstrated that the decision-making procedures we propose can actually be extremely tough, provided they are put in the hands of a large body of actors who really understand why they are doing and for which purpose. A daunting task indeed, but the one we support wholeheartedly.



기회

Opportunities


우리는 또한이 모델을 통해 개인의 평가 도구에 대한 독창적 인 정신 측정 방식의 담론을 넘어서기를 희망합니다 (Hodges 2006).

We also hope that, with this model, we can move beyond the exclusively psychometrically driven discourse of individual assessment instruments (Hodges 2006).


Conclusion


우리는 일관된 구조와 요소의 시너지가 합목적성을 보장한다고 믿습니다. 학습 지향과 의사 결정의 견고 함을 목적으로합니다. 이 모델은 실제 프로그램의 경우 제한적이지만 프로그램 적 평가를위한 프레임 워크의 다른 요소 (프로그램 지원, 문서화, 개선 및 정관화)에는 적용되지 않는다는 점에 유의하십시오 (Dijkstra 외. 2010).


We believe its coherent structure and synergy of elements ensure its fitness for purpose. Fit for purpose in its learning orientation and in its robustness of decision making. We note that the model is limited for the programme in action, but not for the other elements (programme support, documentation, improvement and jus- tification) of the framework for programmatic assessment (Dijkstra et al. 2010).



Hodges B. 2006. Medical education and the maintenance of incompetence. Med Teach 28:690–696.


Cavalcanti RB, Detsky AS. 2011. The education and training of future physicians: Why coaches can’t be judges. JAMA 306:993–994.


Cilliers FJ, Schuwirth LW, Adendorff HJ, Herman N, van der Vleuten CP. 2010. The mechanism of impact of summative assessment on medical students’ learning. Adv Health Sci Educ Theory Pract 15:695–715.


Cilliers FJ, Schuwirth LW, Herman N, Adendorff HJ, van der Vleuten CP. 2011. A model of the pre-assessment learning effects of summative assessment in medical education. Adv Health Sci Educ Theory Pract, DOI: 10.1007/s10459-011-9292-5.


Schuwirth LW, Van der Vleuten CP. 2011. Programmatic assessment: From assessment of learning to assessment for learning. Med Teach 33:478–485.






 2012;34(3):205-14. doi: 10.3109/0142159X.2012.652239.

model for programmatic assessment fit for purpose.

Author information

1
Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, The Netherlands. c.vandervleuten@maastrichtuniversity.nl

Abstract

We propose a model for programmatic assessment in action, which simultaneously optimises assessment for learning and assessment for decision making about learner progress. This model is based on a set of assessment principles that are interpreted from empirical research. It specifies cycles of training, assessment and learner support activities that are complemented by intermediate and final moments of evaluation on aggregated assessment data points. A key principle is that individual data points are maximised for learning and feedback value, whereas high-stake decisions are based on the aggregation of many data points. Expert judgement plays an important role in the programme. Fundamental is the notion of sampling and bias reduction to deal with the inevitable subjectivity of this type of judgement. Bias reduction is further sought in procedural assessment strategies derived from criteria for qualitative research. We discuss a number of challenges and opportunities around the proposed model. One of its prime virtues is that it enables assessment to move, beyond the dominant psychometric discourse with its focus on individual instruments, towards a systems approach to assessment design underpinned by empirically grounded theory.

PMID:
 
22364452
 
DOI:
 
10.3109/0142159X.2012.652239
[Indexed for MEDLINE]


행간 읽기: 서술적 평가 코멘트에 대한 교수들의 해석(Med Educ, 2015)

Reading between the lines: faculty interpretations of narrative evaluation comments

Shiphra Ginsburg,1 Glenn Regehr,2 Lorelei Lingard3 & Kevin W Eva2





도입

INTRODUCTION


HPE에서 많은 일들이 일어나며, 이는 수습생의 이야기에 대한 네러티브 코멘트가 영향력있는 역할을한다. 예를 들어, 병동 기반 트레이닝 평가 보고서 (ITER)는 또한 승급 및 교정에 관한 결정을 내리는 프로그램 디렉터에게 평가 목적에 필요한 정보를 제공합니다.

There are many circumstances in health professions education in which narrative commentary on a trai- nee’s performance plays an influential role. For example, on ward-based in-training evaluation reports (ITERs) comments also serve more evaluative purposes such as communicating tothe programme director information that can sup- port decisions about promotion and remediation.2


전문가의 주관적이고 서술적인 의견 사용에 대해 Hodges는 평가에 대한 후기-심리측정적 접근법으로 묘사하였으며, '포괄적 인 평가에서 '신뢰할 수있는 의사 결정에 필수 불가결'로 제시되었다.

These uses of experts’ subjective, narrative comments regarding trainee performance – described by Hodges as ‘post-psychometric’ approaches to evaluation3 – have recently been put forward as ‘indispensable for trustworthy decision making in summative assess- ments’.4


네러티브 코멘트를 해석하는 복잡성은 의학 교육에서 잘 설명되어 있습니다. 연구원은 응급 의학 레지던시 프로그램에 지원하는 신청자의 학장의 편지에서 "good"이라는 단어가 실제로 '평균 이하'라는 단어라는 결론을 내 렸습니다. 방사능 재난에 대한 적용 패키지에 대한 또 다른 연구는 '우수'라는 단어가 의학 학교에서 가장 많이 사용 된 적이없는 것으로 밝혀졌으며, 절반 이상의 학교에서는 'excellent'한 학생이 하위 50%에 해당할 수 있습니다.6

The complexity of interpreting narrative comments is well documented in medical education. In one studyof deans’ letters for applicants applying to an emer-gency medicine residency programme, researchers  concluded that the word ‘good’ was actually a code word for ‘below average’. Another study of application packages to a radiologyresidency found the word ‘excellent’ was never usedby medical schools with reference to the top cate- gory of students and, for more than half the schools, an ‘excellent’ student could be in the  bottom half of the class.6


ITER 코멘트는 성과 예측이나 재교육 필요성을 판단하는데 가치가 있 .8,9 이러한 연구 결과는 평가 언어의 작성 및 해독과 관련하여 비교적 잘 이해 된 '숨겨진 코드'가 있음을 시사한다.

it appears that ITER comments may have value in predicting perfor- mance or need for remediation.8,9 In combination, such studies suggest that there may be a relatively well-understood ‘hidden code’ involved in writing and deciphering assessment language.


의사 소통 언어로 알려진 언어학의 이론은 의사 소통에 문자 적 ​​의미를 넘어서는 언어의 특징이 어떻게 사용되는지 이해하는 데 도움이 될 수 있습니다. 영어로 흔히 볼 수있는 비문 상적인 의사 소통의 잘 알려진 예에는 아이러니, 풍자 및 은유가 포함됩니다 .10 이러한 비-문자적 ​​의미를 정확하게 해석하는 능력은 누가, 누구에게, 무엇을 어떤 목소리로, 어떤 설정에서, 어떤 목적으로 말하는지 등등에 따라 달라진다..

Theory from the branch of linguistics known as prag- matics can help us understand how features of lan- guage beyond literal meaning are used for communication. Well-known examples of non-literal communication, which is common in English, include irony, sarcasmand metaphor.10 The ability to correctly interpret these non-literal meanings depends heavily on context, including awareness of who is speaking, to whom, in what tone of voice, in what setting, for what purpose, and so forth.



METHODS


The data collected for the analysis described here were generated during interviews of participants immediately after they had completed a ‘narrative ranking’ task which is described in full in Ginsburg et al.7



Materials


Each resident in our IM programme receives approximately eight or nine ITERs per year, each of which contains 19 items rated on a 5-point scale and a box for free-text comments that asks the per- son completing the ITER to: ‘Provide a general impression of the trainee’s development during this rotation, including general competence, motivation and consultant skills. Please emphasise strengths and areas that require improvement.’


The 63 PGY1 and 63 PGY2 documents were sepa- rately assigned to 12 packages of 15 or 16 docu- ments each so that no two packages were alike and each document appeared in three packages. The decision to include 15 or 16 documents for each rater was based on previous work indicating that this is a reasonable number of narratives to categorise and rank-order within a timeframe considered appropriate by participants.7 The decision to use three raters per resident document for each PGY set resulted in a required sample size of 24.




Participants and procedure


To be included in the study, physician participants were required to have attended an in-patient IM ser- vice at any of our university’s teaching hospitals and to have at least 2 years of experience in evaluating residents. This led to a list of approximately 60 eligi- ble faculty attendings, from which we recruited 24 attending physicians. The resulting sample con- tained 14 men and 10 women, with an average of 9.3 years of experience (range: 2–33 years).


In a one-to-one setting, participants were oriented to the four categories describing residents’ perfor- mance that were developed in a previous study: 

      • A = outstanding, excellent, exemplary; 

      • B = solid, safe, may need some fine tuning; 

      • C = borderline, bare minimum, remediable, and 

      • D = unsafe, unac- ceptable, multiple deficits.7,11 

Their first task was to categorise the 15 or 16 residents in their package by placing as many in each category as they wished. They were then asked to rank-order the residents within each category.


Subsequent to this process, each participant was interviewed by a single research assistant, who had qualitative research experience in education but was not involved in any way with our residency pro- gramme and was thus unknown to participants. One pilot interview was co-conducted with the lead author, but because no changes were made to the protocol afterwards, this interview was included in our dataset. During each semi-structured interview, participants were asked about the ranking process, how they had decided to place the residents in the four categories and rank-order them, how they had made cut-point decisions (i.e. how they had decided whether to place a resident at the bottom of one category or at the top of another), and what lan- guage in the comments had influenced their deci- sions. They were also asked to provide comments on the ITERs in general. The entire task took approximately 90 minutes per participant and the interview portion lasted 15–30 minutes. Interviews were audiotaped, transcribed and anonymised.



Analysis


The transcripts were analysed using principles of constructivist grounded theory.12 As sensitising con- cepts, we considered that participants may have been influenced by such factors as the strength of adjectives used, the mention of particular compe- tency domains, and the presence of ‘lukewarm’ lan- guage that may be interpreted negatively.13 SG conducted the primary analysis using a line-by-line approach to identify codes that were then grouped into themes. We used a constant comparative approach to coding in an iterative fashion, whereby each transcript was read numerous times to look for confirming or disconfirming examples in a process that continued until the coding structure appeared stable and sufficient (i.e. until no new codes emerged after multiple reads).14 The codebook (the coding framework with definitions and examples) was then presented to three other members of the research team along with several uncoded tran- scripts. Each team member read the transcripts before reviewing the codebook and provided critical feedback on the codes and their interpretation. No substantive changes to the coding were made during this process; rather, feedback was used to further clarify and define existing codes. NVivo Version 10.0 (QSR International Pty Ltd, Melbourne, Vic., Australia) was used to organise the data and facili- tate coding.




RESULTS


인터뷰 내역서 150 페이지를 분석 한 결과 참여자가 순위 결정 및 분류 판단에 어떻게 도달했는지 이해할 수있는 프레임 워크를 제공하는 몇 가지 주제가있었습니다. 참여자들이 ITER 코멘트를 읽고 해석하는 방법을 설명하는 가장 중요한 주제는 '회선 사이 읽기'라고했습니다.

Analysis of the 150 pages of interview transcripts resulted in several themes that provide a frame- work for understanding how participants came to their rank-ordering and categorisation judgements. The overarching theme, which explains how partic- ipants read and interpreted the ITER comments, we called ‘reading between the lines’.



행간 읽기

Reading between the lines


모든 참가자는 내러티브 코멘트를 이해하려면 행간을 읽어야 한다고 말했다.

All participants either directly or indirectly expressed a need to read between the lines when attempting to understand narrative comments:


'해석'이라는 단어는 공통적이었습니다.

The word ‘interpret’ or variations thereof were com- mon in participants’ responses:


참가자들은 완곡 어법 (euphemisms)

Participants also noted euphemisms,


일부는 '좋은'것으로 보이는 것이 실제로 '나쁘다'고 말했습니다.

Some commented that what appears to be ‘good’ is actually ‘bad’:


코멘트 언어가 액면 그대로 사용되어서는 안되며 실제 의미가 숨겨져 있는 descriptor가 많았다.

The data abounded with such descriptions of how language should not be taken at face value and that the real meaning was implicit:


요약하면, 이 예제들은 언어가 액면 그대로 사용되지 않았으며, 서로 암묵적으로 공유되는 코드가 있었고, 참가자들은 과거의 비슷한 경험을 토대로 단어를 지속적으로 '번역'하였다.

In sum, these examples demonstrate that language was not taken at face value and that there is an implicit code that was shared, with participants ‘translating’ words consistently based on their past experiences with similar comments.


다만 코멘트를 해독하는 것은 참가자가 특정 언어 단서를 찾았다고 나타내는 적극적인 과정임을 유의해야합니다. 이들은 자주 무수한 코멘트 속에서 부정적이거나 긍정적인 것을 나타내는 "red fleg"의 적절한 단서를 스캐닝한다고 말했다.
The specific factors that fed into this code will be explored below. Beforehand, however, it is impor- tant to note that the decoding of comments was an active process in which participants indicated that they sought particular language cues. They fre- quently mentioned scanning for ‘red flags’, both positive and negative, to help them find the relevant cues in a sea of comments.

수많은 'red flag'가 다수 참여자들로부터 일관되게 나타났으며, 여기에는 잠재적인 문제 (예 : '좋음', '괜찮음') 또는 수퍼 스타 ( '모범적 인', '치프 레지던트 수준') 등이 있다..

Numerous red flag words or phrases were consis- tently identified by participants, suggesting either potential problems (e.g. ‘good’, ‘solid’) or super- stars (‘exemplary’, ‘chief resident material’). Table 2 shows further examples.



판단에 영향을 주는 구체적 요인들

Specific factors influencing judgements


참가자들이 각 문장을 읽으면서 위에서 언급 한 언어 단서와 더불어 몇 가지 특정 요소가 그들의 판단에 영향을 미치는 것으로 보였다 (표 1).

As participants read between the lines of the com- ments, several specific factors in addition to the lan- guage cues described above appeared to influence their judgements (Table 1).



일관성

Consistency


참가자들은 정기적으로 의견의 일관성에 영향을받는 것으로보고했습니다. 모든 인터뷰에는 여러 로테이션 및 평가자 또는 도메인 전반에 걸쳐 일관성에 대한 여러 참조가 포함되었습니다.

Participants regularly reported being influenced by the consistency of the comments: every interview contained multiple references to consistencies over time, across different rotations and evaluators, or across domains.


'다중 평가자'와 '매 로테이션마다'는 일관된 성과를 나타냈다. 참가자들에게 도메인 간의 일관된 성능 유지 또한 중요했습니다.

the ‘multiple evaluators’ and ‘in every single rotation’ signalled consistent perfor- mance. Consistency of performance across domains was also important to participants,


로테이션과 영역에 걸쳐 일관되게 긍정적 인 의견이 있었음에도 불구하고 참가자들의 의견 모순에 대한 해석이 다양했다. 일부 참가자는 일관성이 낮을 경우 이것이 레지던트가 전반적으로 weak할 것을 우려했다.

Although the presence of consistently positive comments across rotations and domains was inter- preted favourably, participants’ interpretations of inconsistency in comments varied. Inconsistencies were a concern for some participants, to whom they suggested that the resident might be weaker overall.


정확히 어떻게 비일관된 코멘트를 조율해야하는지가 긴장의 원인이 될 수 있습니다. 예를 들어, 한 참가자는 부정적인 의견에도 불구하고 D 카테고리에 레지던트를 두지 않은 이유를 설명하기 위해 애를 썼다. 마침내 '누군가가 자신이 정말로 좋다고 생각하기 때문에'(I2)라고 이유를 설명했다.

Exactly how inconsis- tencies should be reconciled could be a source of tension. For example, one participant struggled to explain why he or she did not put a resident in category D despite negative comments, finally con- ceding ‘...because someone thinks they’re really good’ (I2).



역량 영역

Competency domains


코멘트에 등장한 역량 영역은 참가자의 해석 및 순위 판단에도 영향을 미쳤습니다. 지식에 관한 코멘트는 특히 수월성의 마커로 간주되었는데, '탁월한 지식없이 A등급을 줄 수는 없다'는 대표적인 것이다(I14). 반대로, 지식과 관련된 '눈에 띄는 결함'은 의심의 여지가 있습니다. 특히 레지던트가 자신이 얼마나 열심히 일했는지에 대한 의견을 받았지만 지식 기반에 대한 의견이없는 경우 특히 그렇습니다. 사실 직장 윤리 ( '열심히', '위대한 노력'등)의 '내재적 역량'15에 대한 의견은 '누구한테나 해주는 좋은 말'로 해석되어 (I21) 특히 도움이되지 않는다고 생각되었습니다 . 그러나 지식이 언제나 카테고리를 구분하는 주요 원인이되지는 않았습니다.

The domain of competency featured in a comment was also influential to participants’ interpretation and ranking judgements. Comments about knowl- edge were specifically viewed as markers of excel- lence, illustrated in the representative assertion that ‘...you can’t be an A without outstanding knowl- edge’ (I14). Conversely, ‘conspicuous absences’ related to knowledge raised suspicions, particularly if a resident had received comments about how hard he worked but none about his knowledge base. Indeed, sometimes comments about the ‘implicit competency’15 of work ethic (‘hardworking’, ‘great effort’, etc.) were interpreted as ‘those nice things you say about everyone’ (I21) and thus were thought to be particularly unhelpful. However, knowledge was not always the primary trigger for categorising;



코멘트의 구체성

Specificity of comments



보다 구체적이고 자세한 설명은 작가가 실제로 알고 거주자와 시간을 보냈던 표지로 해석되었다. 그러므로 이러한 주장은 더 믿을 만하고 더 많은 무게를 지녔다.

More specific and detailed comments were inter- preted as signs that the writer really knew and had spent time with the resident; therefore, these com- ments were seen as more credible and carried more weight:



대조적으로, 일반적인generic 코멘트는 신용 할 여지가 적고 의심스러운 것으로 인식되었습니다. 참여자들은 어떤 조직에 대해서도 글을 쓸 수 있었기 때문에 유용한 정보를 전달하지 못했다고 느꼈다.

By contrast, generic comments were seen as less credible and were perceived as suspect. Participants felt that they could have been written about any- body and thus did not convey any useful informa- tion.


일반적인 언어를 싫어하는 것은 적기에 대한 스캔 전략을 설명 할 수 있습니다. 일부에서는 일반적인 주석으로 인해 여러 줄 사이의 추가 읽기가 발생하여 부정적인 해석이 생길 수 있습니다.

The dislike of generic language may explain the strategy of scanning for red flags. For some, generic comments led to further reading between the lines, potentially resulting in a negative interpretation:


(코멘트의) 양

Quantity


인터뷰 대상자는 주어진 거주자에 대한 의견의 수량에 대해 종종 언급했지만, 훌륭한 레지던트와 문제가 많은 레지던트 모두에게 해당하는 것이기 때문에 레지던트의 품질보다는 의견의 신뢰성을 나타내는 것으로 간주하는 것처럼 보였다. 더 긴 코멘트는 더 많은 노력을 들여 글을 썼다는 인상을 주었다. 따라서 레지던트를  얼마나 잘 알고있는지 또는 작성자가 얼마나 기꺼이 노력을 들였는지를 나타내는 것으로 해석 할 수 있습니다.

Interviewees often remarked on the quantity of comments for a given resident, but seemed to regard this as an indication of the credibility of the comments rather than of resident quality as lengthy comments were seen for both outstanding and problematic residents. Longer comments gave the impression that greater effort had gone into writing them; therefore, they could be interpreted as indi- cating how well the resident was known by the wri- ter or how much effort the writer had been willing to expend.


맥락적 요인

Contextual factors


평가자 정체성, 로테이션 유형 및 타이밍과 같은 ITER 의견의 해석에 영향을 미치는 세 가지 중요한 상황 요인이 발생했다.

Three important contextual factors that influenced the interpretation of ITER comments arose: evalua- tor identity, rotation type, and timing.


평가자의 정체성과 주치의에 따라 글쓰기 스타일이 현저하게 다를 수 있다고 지적했다. 일부는 수식어가 많은 언어를 사용하고, 다른 언어는 더 간결합니다. 어떤 사람들은 최상위 형용사를 사용하지만 다른 사람들은 그렇지 않습니다. 평가자가 알려지지 않았고 동일한 사람이 주어진 거주자에 대해 하나 이상의 의견을 작성한 것 같지 않았기 때문에 참여자는 연구 과제의 좌절 한 측면을 발견했습니다.

Regarding evaluator identity, many participants noted that the style of writing might differ markedly between different attending doctors: some write more, others less; some use flowery language, others are more terse; some use superlative adjectives, oth- ers do not. As the evaluator was not known, and it was unlikely that the same person had written more than one comment for a given resident, participants found this a frustrating aspect of the research task:


많은 참가자들은 로테이션 유형을 아는 것이 해석에 필수적이라고 느꼈습니다. 일반적인 내과 (GIM) 순환에서 유래 한 의견은 하위 스페셜티에서 얻은 의견, 특히 짧은 로테이션 블록에서의 의견보다 중요했습니다.

Many participants also felt that knowing the rotation type was essential to their interpretation. Comments derived from a general internal medicine (GIM) rotation carried more weight than comments obtained from a subspecialty, especially those for which attending blocks are shorter:



세 번째 문맥 적 요소는 타이밍이었다. 예를 들어, 많은 참가자들은 특정 의견이 도출 된시기를 주목하는 것이 중요하다고 생각했습니다.

The third contextual factor was timing. For exam- ple, many participants thought it was important to note the time of year at which certain comments were derived:


시간이 지남에 따라 개선되지 않으면 주민의 부분에 대한 통찰력이 부족할 수 있습니다. 대조적으로, 참가자들은 상주 공연의 부정적인 특징을 암시하는 것으로 변화를 나타내는 동사 (예 : '발전', '발전', '계속', '진화')의 사용에 대해 반복적으로 논평했다.

Lack of improvement over time might suggest a lack of insight on the resident’s part. By contrast, partici- pants recurrently commented on the use of verbs indicating change (e.g. ‘improving’, ‘developing’, ‘continues’, ‘evolving’) as implying a negative char- acteristic of resident performance:



ITER에 대한 일반적 코멘트

General comments about ITERs


많은 사람들은 ITER가 레지던트들이 개선 될 수 있도록 형성 피드백을 제공하는 수단을 대표한다고 생각했다. ITER의 목적에 대한 논의에서 '피드백'이라는 단어가 반복적으로 등장했다. 다른 사람들은 실제로 의사들이 참석 한 의사 결정 과정에서 의사 결정 과정이나 의사 결정 과정에서 훨씬 더 건설적인 피드백을 제공한다고 말하면서 ITER를 순수 총합계로보고 레지던트의 '최종 판단'으로 간주해서, 모든 것을 문서화 할 필요는 없다고 지적했다.

Many considered the ITER to represent a means of providing formative feedback so that resi- dents could continue to improve. The word ‘feed- back’ arose repeatedly in discussions of the purpose of the ITER. Others noted that in practice, attend- ing physicians provide much more constructive feed- back during the rotation or in a discussion setting and do not necessarily document everything on the form, viewing the ITER as purely summative, a ‘final judgement’ of a resident’s performance.



고찰

DISCUSSION


공통의 디코딩 전략이 명백하게 존재 함에도 불구하고, 코딩 된 언어의 사용은 문제가 아니 었습니다. 우리 참가자들은 Lye등의 연구와 같이 모호하고 일반적인 의견을 해석하는 데 어려움을 겪었으며 종종 레지던트의 성향에 초점을 두었다. 저자는 소아과 실력 평가에서 가장 흔한 구절은 '쾌적한 / 일하기를 좋아하는 것'이었는데, 결과적으로 의대생으로서 성공하지 못한 것에 대해 경각심을 품은 결과였습니다. 이 연구에서 특정 임상 기술과 관련된 의견은 31 %에서만 발견되었다 .16 Ginsburg 등은 IM 레지던트들의 ITER에 대한 서면 의견의 내용 분석에서 레지던트의 '태도 또는 성향'은 흔히 있었으며, 이는 역량에 직접적으로 연결되지 않은 다른 해설들도 그러했다. 해석에 종속되는 모호하고 배열적인 논평의 문제는 의학에 고유하지 않으며 다른 고등교육영역에서도 발견 될 수있다. 17-19

Despite the apparent existence of shared decoding strategies, the use of coded language was not unpro- blematic. Our participants claimed to struggle with interpreting vague and generic comments, often focused on the resident’s disposition, thereby echo- ing a study by Lye et al., 16 in which the authors found that the single most common phrase in pae- diatric clerkship evaluations was ‘pleasant/a plea- sure to work with’, a result they considered alarming for its irrelevance to success as a medical student. In that study, comments related to specific clinical skills were found only 31% of the time.16 Similarly, Ginsburg et al., in a content analysis of written comments on IM residents’ ITERs, found that comments about a resident’s ‘attitude or dispo- sition’ were common, along with other commentary not linked directly to competencies.15 The problems associated with the writing of vague, dispositional comments that are subject to (mis)interpretation are not unique to medicine and can be found else- where in higher education.17–19


그러나 다른 사람들이 지적했듯이, 우리의 데이터가 보여주는 바와 같이, ITER는 여러 목적을 동시에 수행하고 있으며, 그 중 일부는 상당한 사회적 복잡성을 수반 할 수 있습니다. 잠재적 인 사회적 목적 중 하나는 레지던트의 '체면'(즉, 자신이 가진 긍정적 인 이미지)에 주의를 기울이는 것일 수 있습니다. 공손함에 대한 이론에 따르면, 팀에 큰 가치가 있다고 인식되는 긍정적 인 기술을 강조함으로써 교수들은 레지던트가 '체면을 차리'거나 자신의 긍정적 자아상을 유지 또는 향상키도록 도와줄 수 있다. 이렇게 할 수 있는 것은, 작성자 입장에서 독자가 자신의 의견을 정확하게 해석 할 수있는 코드를 공유하고 있다고 생각하기 때문에, 의도 한 메시지를 보내면서도 레지던트의 체면도 챙겨줄 수 있다고 생각하기 때문이다.

However, as others1 have noted, and as our data show, it is likely that the ITER is serving multiple purposes simultaneously, some of which may involve considerable social complexity. One potential social purpose may be to attend to residents’ ‘face’ (i.e. the positive image a person has of him or herself). According to theories of politeness,20 by emphasis- ing positive skills that are perceived to be of great value to the team – such as being hardworking, pleasant to work with and possessing ‘those other basic qualities that, if you’re a good person, you get’ – faculty attendings may be allowing residents to ‘save face’, or to maintain or enhance their positive self-image. It is possible that faculty members are able to do this because they believe readers share the code for interpreting their comments accurately, and thus they can attend to residents’ face while still sending their intended message.


여기에서 관련이있을 수있는 두 번째 공손 개념은 'conventional indirectness'으로 알려져 있으며, 의도적으로 '문자 적 의미와는 다르지만, 문맥상으로는 모호하지 않은' 표현을 사용한다. 이는 왜 '좋은', '단단한'및 '기대 충족'과 같은 단어가 실제로는 부정적인 의미를 나타내는 단어가 아님에도, 교수가 경계선 이하의 평균치 이하의 수행 능력을 전달하려는 의도로 이해되는지를 보여준다.5,6 독자에게는 의미가 명확하게 보이지만, 이 용어에 대한 레지던트의 해석이 알려지지 않았다는 점에 주목하는 것이 중요합니다. 레지던트가 그 용어를 액면 그대로 이해하면, 자신의 퍼포먼스가 얼마나 향상되어야 하는지를 깨닫지 못할 수도 있다. 만약 레지던트가 이 용어를 액면 그대로 사용하지 않는다면, 그 비용은 교수진이 보존해주려고 했던 '체면'의 손실 일 수 있습니다.

A second politeness concept that may be relevant here is known as ‘conventional indirectness’ and refers to the use of phrases that, by virtue of con- vention, ‘have contextually unambiguous meanings which are different from their literal meanings’.20 This can explain why words and phrases such as ‘good’, ‘solid’ and ‘meets expectations’ are under- stood as intending to convey performance that is borderline or below average without requiring the attending doctor to actually use those undesirable terms.5,6 Although these meanings seem clear to physician readers, it is important to note that resi- dents’ interpretations of these terms are unknown. If residents take the terms at face value, they may not appreciate the degree to which their perfor- mance could be improved. If they do not take the terms at face value, the cost of their understanding the code may be the loss of ‘face’ that faculty mem- bers seek to help them preserve.


두 경우 모두 ITER 코멘트는 유용하지만 코드가 보편적이지 않고 저자의 내용을 완전히 이해하지 않으면 해독하기 어렵다는 것을 분명하게 나타냅니다.

In either case, the data collected in this study clearly indicate that, although it is generally useful, the code is not universal and is difficult to decipher without a full understanding of the author’s con- text.


참가자들은 전반적인 퍼포먼스 저하를 반영하여 개선 할 부분 (또는 이전에 제정 된 변경 사항)을 나타내는 언어 큐를 포착했습니다. 물론 레지던트 교육에 대한 문제가 제기됩니다. 숨겨진 코드가 있지만 불완전하게 이해되고 적용되는 경우, 레지던트는 개선되지 않으면 나빠질 수 있지만, 설령 반대로 개선이 되더라도 마찬가지로 나쁘게 보일 수도 있습니다. 더 문제는, 그녀의 개선 내용이 문서화되어도 부정정 평가를 받을 수 있다는 것이다. 이것은 ITER의 의도 된 목적과 실제 (또는 인식 된) 용도 사이의 불일치 문제를 강조한다.

Our participants picked up on lan- guage cues indicating areas for improvement (or previously enacted change) as reflective of a weaker performance overall. This of course raises issues for resident education. If there is a hidden code but it is imperfectly understood and applied, a resident might look bad if she doesn’t improve, but equally bad if she does. More to the point, she could look bad if her improvement is documented. This high- lights the problem of a misalignment between the intended purpose of the ITER and its actual (or perceived) use.


어떤 평가 도구에 대해서도 이러한 정렬 불일치는 '임의적 판단'22의 위험을 증가시킬 수 있으며, 따라서 이 도구가 실제로 어떻게 사용되고 해석되는지 이해하는 것이 매우 중요합니다. 실제로 우리 참가자들은 감독자가 누구인지 (예를 들어, 모든 연수생을 위해 개선 영역을 문서화했는지 여부) 알지 못하면 이러한 '균형 잡힌'의견을 해석하는 방법이 확실하지 않다는 우려를 표명했습니다.


For any assessment instrument, such misalignment can increase the risk for ‘arbitrary judgement’22 and thus it is critically important to understand how the instrument is actually being used and interpreted. Indeed, our participants expressed concern that without knowing who the supervisor was (and whether, for example, he or she documents areas for improvement for all trainees), they were not certain how to interpret these ‘balanced’ comments.


이것은 언어학의 추가적인 개념을 고려한 것으로서, 의사가 논평의 문맥에 대한 완전한 지식을 갖지 못한 것에 대해 의사가 표현한 좌절감을 설명하는 데 도움이 될 수 있습니다. 언어 실용주의자들은 특정 단어 및 어구의 의미를 이해하는 데 필요한 문맥 정보를 deixis로 표시했습니다. 한 가지 유형의 묵시(deixis)는 이야기의 이해에 필수적인 사람, 장소 또는 시간에 대한 지식을 가리킨다 .23 우리 참가자들은 끊임없이 이러한 정보를 원했고 정보가 없을 때는 적절히 코멘트를 평가할 수 없었다. 그러나 이것은 교수들이 ITER코멘트를 기반으로 레지던트의 순위를 매기는 것에 대한 자신감이 그들의 실제 능력보다 더 과장되었음을 보여준다. 즉, 이 'deictic marker'는 실제의 필요보다 인식된 필요를 더 나타낸다.

This leads to consideration of an additional concept from linguistics that may help to explain the frustra- tion expressed by attending physicians over not hav- ing full knowledge of the context in which the comments arose. Linguistic pragmatists have labelled the idea that contextual information is necessary to understand the meaning of certain words and phrases as ‘deixis’. One type of deixis refers to knowl- edge of the person, place or time as essential for understanding a narrative.23 Our participants rou- tinely expressed a desire for more information along these lines and felt that, in its absence, they were unable to properly assess the comments. However, this may speak more of their confidence in rank- ordering the residents than of their actual abilities to do so (i.e. these ‘deictic markers’ may represent a perceived necessity rather than an actual need).



결론적으로, ITER 코멘트를 평가하는데 중요하다고 느껴지는 정보들이 부재했음에도 참여자들이 의견을 바탕으로 레지던트를 높은 신뢰도로 순위를 매길 수 있었던 이전 연구의 결과는 놀랍다.7 이는 행간을 의견을 디코딩하는 전략은 참여자간에 매우 일관된 것으로 보입니다.

In sum, the multiple apparent purposes expected of ITER comments, the idiosyncratic faculty writing styles, and the absence of what is felt to be key infor- mation in many ITER comments make it surprising that participants as demonstrated in previous work were able to reliably rank-order residents based on comments alone.7 Their strategy of reading between the lines and decoding the written comments appears to have been remarkably consistent across participants.



Limitations


CONCLUSIONS



참가자가 '행간을 읽는' 능력은 그들이 어떻게 서면 의견을 말하고 어떻게 효과적으로 레지던트들을 진단 할 수 있었는지를 설명합니다. 그러나 이 전략은 또한 상황 해석 정보가 누락되거나 유추되는 경우 특히 다양한 해석이 쉽게 발생할 수있는 메커니즘을 제안합니다.

Participants’ ability to ‘read between the lines’ explains how they made sense of written comments and how they were able to effectively cat- egorise residents. However, this strategy also sug- gests a mechanism whereby variable interpretations can easily arise, particularly when contextual infor- mation is missing and inferred.


4 Govaerts M, van der Vleuten CPM. Validity in work- based assessment: expanding our horizons. Med Educ 2013;47 :1164–74.


7 Ginsburg S, Eva KW, Regehr G. Do in-training evaluation reports deserve their bad reputations? A study of the reliability and predictive ability of ITER scores and narrative comments. Acad Med 2013; 88 :1539–44.


12 Charmaz K. Coding in grounded theory practice. Constructing Grounded Theory: A Practical Guide Through Qualitative Analysis. London: Sage Publications 2009;42–71.


13 Frohna A, Stern D. The nature of qualitative comments in evaluating professionalism. Med Educ 2005;39 :763–8.







 2015 Mar;49(3):296-306. doi: 10.1111/medu.12637.

Reading between the linesfaculty interpretations of narrative evaluationcomments.

Author information

1
Department of Medicine, University of Toronto, Toronto, Ontario, Canada.

Abstract

OBJECTIVES:

Narrative comments are used routinely in many forms of rater-based assessment. Interpretation can be difficult as a result of idiosyncratic writing styles and disconnects between literal and intended meanings. Our purpose was to explore how faculty attendings interpret and make sense of the narrative comments on residents' in-training evaluation reports (ITERs) and to determine the language cues that appear to be influential in generating and justifying their interpretations.

METHODS:

A group of 24 internal medicine (IM) faculty attendings each categorised a subgroup of postgraduate year 1 (PGY1) and PGY2 IM residents based solely on ITER comments. They were then interviewed to determine how they had made their judgements. Constant comparative techniques from constructivist grounded theory were used to analyse the interviews and develop a framework to help in understanding how ITER language was interpreted.

RESULTS:

The overarching theme of 'reading between the lines' explained how participants read and interpreted ITER comments. Scanning for 'flags' was part of this strategy. Participants also described specific factors that shaped their judgements, including: consistency of comments; competency domain; specificity; quantity, and context (evaluator identity, rotation type and timing). There were several perceived purposes of ITER comments, including feedback to the resident, summative assessment and other more socially complex objectives.

CONCLUSIONS:

Participants made inferences based on what they thought evaluators intended by their comments and seemed to share an understanding of a 'hidden code'. Participants' ability to 'read between the lines' explains how comments can be effectively used to categorise and rank-order residents. However, it also suggests a mechanism whereby variable interpretations can arise. Our findings suggest that current assumptions about the purpose, value and effectiveness of ITER comments may be incomplete. Linguistic pragmatics and politeness theories may shed light on why such an implicit code might evolve and be maintained in clinical evaluation.

PMID:
 
25693989
 
DOI:
 
10.1111/medu.12637


Chapter 6. 조직변화를 위한 교수개발

Chapter 6 Faculty Development for Organizational Change

Brian Jolly





도입

6.1 Introduction


대부분의 교수진 개발 이니셔티브의 장기 결과에는 일정 정도의 조직 변화가 포함될 것이라는 널리 알려진 가정이있는 것으로 보입니다.

There seems to be a widely held assumption that the long-term outcomes of most faculty development initiatives will include some degree of organizational change.


개인을 목표로하는 교수진 개발은 제한적 변화만 달성 할 수 있습니다. 제한의 정도는 개인이 조직 내에서 어디에 위치하는지, 그리고 그들이 어떻게 개발 프로세스에 참여하는지에 달려 있습니다.

Faculty development targeted at the individual can only achieve limited change. The degree of limitation depends on where that individual sits within the organiza- tion and how they engage with the development process.


조직변화를 위한 교수개발은?

6.2 What Would Faculty Development for Organizational Change Look Like?


'교수진 개발'이라는 용어는 두 가지 이유로 불분명 한 용어입니다. 

  • 첫째, 그것의 표현형manifestation이 다양하기 때문에 (Brew and The Society for Higher Education 1995). 

  • 둘째, 명확하게 식별 할 수 있는 것이 유용 함에도 (Steinert et al. 2012) 교수진 개발은 이론적 근거를 가지고 있지 않기 때문에 (Steinert 2010), 

The term ‘faculty development’ is an indistinct one for two reasons. First, because it is so varied in its manifestations ( Brew and The Society for Research into Higher Education 1995 ). Second, because faculty development does not have a theoretical underpinning all of its own (Steinert 2010 ), although to have one that is clearly identifi - able would be useful (Steinert et al. 2012 ).



교원 개발 (또는 이에 상응하는 영국 용어 '직원 개발')에 대해 일반적으로 12-15 개의 정의가 있습니다. 현재 대부분의 교수 개발은 공통된 학습 또는 개발 목표 (예 : 교수 또는 관리 기술을 업데이트해야하는 필요성)를 가진 개인 또는 소그룹의 개인을 대상으로합니다. 그러나 교수개발의 일부 정의는 조직적 과제가 있음을 강하게 암시한다 (Jolly 2002).


There are about 12–15 commonly used defi nitions of faculty development (or its equivalent UK term ‘staff development’). Most faculty development is currently targeted towards individuals or small groups of individuals who have common learning or development goals (e.g. the need to update teaching or management skills). However, some defi nitions of faculty development are couched in language that strongly implies that there are organizational imperatives (Jolly 2002 ).


  •   '학업 환경에서 개인의 전문적 성장을위한 기회가 제공되는 지속적인 프로세스'(Allen 1990 p. 266).

      ‘A continuous process in which opportunities are provided for professional growth of the individual within the academic environment’ (Allen 1990 p. 266).

  •   '개별 교사가 필요로하는 역량 및 학문적 우수성을 증진시키는 데 필요한 제도적 정책에주의를 기울임으로써 교육 기관의 교육 활력을 향상시키는 도구'(Wilkerson and Irby 1998 p388).

      ‘A tool for improving the educational vitality of our institutions through attention to competencies needed by individual teachers and to the institutional policies required to promote academic excellence’ (Wilkerson and Irby 1998 p. 388).

  •    '기관이 여러 역할을 담당하는 교수 구성원을 갱신하거나 지원하는 데 사용하는 광범위한 활동. 교수진 개발 활동에는 교수 및 교육 향상, 연구 및 학술 활동, 학업 리더십 및 관리, 교수진 채용, 승진, 유지 및 활력을 포함한 교수 업무가 포함됩니다. 이러한 활동의 ​​목적은 교사, 교사, 지도자, 행정가 및 연구자로서의 역할에서 교수진을 도우려는 것입니다 (2011 년 보건 전문직 제 1 차 국제 학술회의) 
     ‘The broad range of activities that institutions use to renew or assist faculty members in their multiple roles. Faculty development activities include programs to enhance teaching and education, research and scholarly activity, academic leadership and management, and faculty affairs, including faculty recruitment, advancement, reten- tion, and vitality. The intent of these activities is to assist faculty members in their roles as teachers, educators, leaders, administrators and researchers’ (1st International Conference on Faculty Development in the Health Professions 2011 ).

  •    '조직과 구성원의 현재와 미래의 요구 사항에 대한 체계적인 식별과, 이러한 요구를 충족시키기위한 프로그램 및 활동의 개발을 포괄하는 광범위한 개념. 그것은 [교수 발전]은 한 사람의 일의 모든 측면에 관련된다. '(Elton 1987, 55).
     ‘A broad concept which covers the systematic identifi cation of the present and anticipated needs of an organization and its members, and the development of programmes and activities to satisfy these needs. It [faculty development] is concerned with all aspects of a person’s work’ (Elton 1987 p. 55).


이 중 마지막 정의가 조직 변화에 가장 적합한 것으로 보인다 (세 번째가 가장 최근 임에도 불구하고). 엘튼 (Elton)의 1987 년 정의의 유용성은 개인과 조직의 이익을 목표로 하는 체계적인 프로세스에 초점을 맞추고 전문직의 모든 측면을 다루는 것이다.

The last of these seems to be the one most applicable to organizational change, (even though the third is the most recent). The utility of Elton’s 1987 defi nition is that it focuses on a systematic process that is aimed at both the individual’s and the organization’s benefi t and addresses ‘all aspects’ of professional life.


일반적으로 상업적 비즈니스 커뮤니티는 개인 성장이 중요하지는 않지만, 일반적으로 이러한 성장은 조직이 요구하기 때문에 촉진되며, 그로부터 어떤 식으로든 경쟁력을 갖게됩니다 (아이디어는 제 6.9 절에서 더 논의 됨). 이에 비해 대학에서는 조직의 합법적 인 목표로서의 경쟁 및 이익 창출의 개념이 강조되고 있긴하지만 (Wildavsky 2010), 대학은 (정부 기금의 범위연구 소득과 학생을 끌어들이는 투쟁의 강도 등을 포함하여) 지역 문화적 맥락에 크게 의존하고있고 이는 나라마다 현저하게 변할 수있는 맥락이다.


Typically, in commercial business communities, while personal growth is undeniably important, it is normally the case that this growth is encouraged primarily because the organi-zation requires it, and will profi t or become more competitive in some way from it(an idea which is further discussed in Sect.  6.9 ). However, by comparison, in uni-versities, the notions of competition and profit generation as legitimate goals of the institution, although increasing in strength (Wildavsky  2010 ), are highly depen-dent on the local cultural context, including the extent of government funding forinstitutions and the intensity of the struggle to attract research income and stu-dents, a context which is markedly variable across different countries.


현재의 교수개발에 포함된 것은?

6.3 What Does Faculty Development Currently Include?


교수 개발이 운영되는 맥락은 다양하며 일반적으로 

  • 개인 개발: 안식년이나 선택과 마찬가지로 개인 개발이 포함된다. 

  • 전문성 개발: 고급 학위 또는 전문 자격을위한 연구와 같은 전문성 개발; 그리고 

  • 력 조정 (tuning): 작업을보다 효과적이고 효율적으로 만들어 약간의 변경이나 재배치가 훨씬 더 많이 이루어질 수 있습니다. 

The context in which faculty devel- opment operates is also varied and has included, in general terms, 

  • personal development, as in the sabbatical or elective; 

  • professional development, such as study for a higher degree or specialist qualifi cation; and 

  • workforce ‘tuning’, where a slight change or redeployment can deliver a lot more by making work more effec- tive and/or more effi cient. 


때때로 교수진 개발은 '지속적인 전문성 개발'이라고 할 수있는 비슷한 활동에서 거의 식별 할 수없는 것처럼 보입니다. 물론 교수진 개발과 지속적인 전문성 개발은 사용 된 교육 전략과 방법에 공통점을 공유합니다. 그들은 또한 현재 두 가지 유형의 활동 모두에 초점을 맞추는 관점을 구현하고 영속화합니다.


Sometimes faculty development seems almost indistin- guishable from similar activities that could be called ‘continuing professional development’. Certainly both faculty development and continuing professional development share common ground in the educational strategies and methods used. They also both currently embody and perpetuate a perspective that puts the individual at the focus of both types of activities.


교수개발은 어떤 맥락에서 작동하고, 어떻게 작동하는가?

6.4 In What Context Does Faculty Development Operate and How Does It Work?


학계에서는 학문적 자유의 소중한 가치에 반하는 제도적 혜택에 대한 아이디어가 쏟아져 나옵니다. 대학이 경기 침체로 위협을 받으면서 이전에 확장 된 지역의 학생 등록을 줄이면 이러한 긴장이 종종 심해지 며 제도적 이점을 얻는 유일한 방법은 학술 직원 수를 줄이거나 부서를 축소하는 것입니다. (예 : Meyers 2012 참조). - 학생 수의 확대, 다소 강하게, 고등 교육학 교수진에 대한 과도한 관심). 그러나 종종 상반된 것으로 보이는 연구와 교육 사이의 긴장 속에서도, 두 가지는 상호보완적이다.

In academia, the idea of institutional benefi t is pitched against the cherished value of academic freedom. This tension often becomes intense when universities are threatened by economic downturns, resulting in reductions in student enrolments in previously expanded areas, and the only way to reap institutional benefi t is to reduce academic staff numbers or cut departments (e.g. see Meyers 2012 who cites over- expansion of student numbers and, somewhat forcefully, excessive interest in the pedagogy of higher education as contributors). However, it also comes to a head in the simmering tensions between research and teaching, the two major foci of aca- demic life that are supposed to be complementary, though frequently in opposition (Rust 2011 ).


이것은 주로 전통적으로 개인의 개인적, 직업적 자질 (예 : 지력과 권한 부여), 특히 연구 능력이 인본주의 적, 교육적 가치보다 조직에서 높게 평가되기 때문입니다 (Handy 1999). 예를 들어, 핸디 (Handy, 1999)는 의학 및 학술 기관에서 운영되는 문화를 카리스마와 전문성이 권력 계급을 지배하는 'person culture'로 묘사하고 있다. 기관 또는 사회적 필요와 개인의 자율성 간의 이러한 갈등은 여러 호주 대학에서 전형적으로 나타나고 지난 10 년 동안 영국에서 일반적으로 논의되었다. 당시, 신입 교원을 위한 교육 기술 개발에 대한 도입은 그것이 연구역량에 부정적 영향을 줄 수 있다는 이유로 시니어들에게 거부 당했다.

This is largely because traditionally, individual personal and professional qualities (e.g. intellect and empowerment), especially in research capacity, have often been valued above institutional ones and, more importantly, above humanistic and educa- tional ones (Handy 1999 ). For example, Handy ( 1999 ) describes the cultures operat- ing in medical and academic institutions as ‘person culture’, where charisma and expertise dominate the power hierarchy. This confl ict between institutional or soci- etal needs and personal autonomy has been epitomized in several Australian univer- sities, and discussed generically in the UK, over the last decade, when attempts to introduce compulsory faculty development on teaching skills for incoming staff were resisted by some senior academics because the time devoted to this was per- ceived to harbor potential detrimental effects on research capacity (Onsman 2009 ; UK Department for Education and Employment 1999 ).


기관과 개인이 교수개발을 어떻게 인식하는지가 교수개발의 사용방식을 결정할 것입니다. 위의 정의에서, Wilkerson과 Irby (1998)는 교수진 개발은 교사가 양질의 교수법과 학문적 우수성을 증진 할 수있는 일에 집중해야한다고 말하고있다. Elton (1987)은 고등 교육의 주요 연구자이며 교수 개발의 목표와 내용이 이보다 훨씬 더 넓어야 함을 시사한다.

How the institution and the individuals within it perceive faculty development will determine how it is used. In the defi nitions above, Wilkerson and Irby ( 1998 ) are saying that faculty development should concentrate on the things that teachers do that can promote quality teaching and academic excellence. But Elton ( 1987 ), a prolifi c and major researcher in higher education, suggests that the goal and content of faculty development should be much broader than this.


그러나 개인적 목표 (즉, 어떤 유형의 이익을 창출해야 하는가?)와 달리, 기관의 정확한 성격은 종종 명확하지 않다. 교수 개발이 개인의 이익을 위해서만, 어쩌면 학문적 인 삶의 필수적인 부수로서 또는 권리로 보일 수 있다면, 그 조직의 변화를위한 힘으로 여겨지지는 않을 것입니다.

However, the precise nature of the institutional, as opposed to the personal, goal (i.e. what type of benefi t should ensue?) is often not made explicit. If faculty development is seen in an institution to be only for the benefi t of an individual, maybe as a right, or at least as an essential concomitant of academic life, it is unlikely to be regarded as a force for change in that organization.


이는 교수개발이 조직의 변화의 도구가 되기 위해서는, 개인의 기술을 향상시키고 기관의 학문적 자본을 개발하는 수단으로서의 역할이 홍보promotion되어야 한다. 결과적으로, 현대적이고 관련성이 있고 조직적으로 수용가능하려면, 교수개발은 개인에 초점을 맞추는 것보다 더 광범위한 관점을 갖도록 재구성해야합니다.

This means that if faculty development is to be an instrument of change in an organization, it should encompass promotion of its role within the institution as a mechanism both to enhance the skills of individuals and as a means to develop the academic capital of the institution. Consequently, to be contemporary, relevant and organizationally acceptable, faculty development will need reframing so that it has a broader perspective than a focus on the individual.



따라서 조직 변화를 이루기 위해 교수 개발을 사용하는 첫 번째 전략은 다음과 같을 수있다. 조직 변화에 기여할 수있는 역량과 명확하게 연결되는 방식으로 교수개발이 조직구성원에게 정의되고 홍보되어야한다.

Thus, a fi rst strategy in using faculty development to achieve organizational change might be as follows: Faculty development must be defi ned for, and promoted to, an institution’s members in a manner that clearly connects with its capacity to contribute to organizational change.



예를 들어, 한 대학의 교수진 개발 활동을 홍보하기위한 자료는 '학생들은 대학이 자신의 업무를 향상시킬 수있는 충분한 피드백을 적시에 제공한다고 보지 않으며, 이로 인해 국가 등급 및 정부 기금 흐름에 해로운 영향을 미치고 있습니다. 문헌에서는 유용한 피드백 전략의 주요 특징, 교육 요구 사항을 결정하기 위한 요구사정, 교수들을 위한 프로그램 등이 피드백을 보다 민감하고, 체계적이고 효과적으로 만든다고 한다...'

For example, promo- tional material for a faculty development activity in a university might say, ‘This University is not seen by its students as offering suffi cient, or timely, feedback to enable students to improve their work and this is having a deleterious impact on national ratings and government funding streams. So that we can do better, a sys- tematic literature review has isolated the main features of a useful feedback strategy, a needs assessment conducted to determine training requirements, and a program devised for faculty that will promote a more sensitive, systematic and effectively delivered approach to feedback….’.


교수개발의 조직적 잠재력은 무엇인가?

6.5 What Is the Organizational Potential of Faculty Development Initiatives?


의료 기관 및 대학은 사람, 사람을 위해 운영됩니다. 그렇더라도 조직에서 사람들의 영향은 다양합니다. 예를 들어 의료 및 교육과 같은 서비스 산업은 회원들이 보유하고있는 기술 및 사회적 기술에 크게 의존합니다.

Healthcare organizations and universities are run by people, for people. Even so, the impact of people in organizations varies. For example, service industries such as healthcare and education, by and large, depend heavily on the technical and social skills that their members possess.


2025 년까지 의료 서비스 제공자가 더 나이들고 현명하고 복잡한 고객을 돌볼 것이며, 서구 세계에서 헬스케어는 다른 어떤 분야보다 가장 큰 인력을 보유 할 것으로 예측되고 있다 (예 : Buerhaus 외 2008). 따라서 헬스케어에있어 최소한 이러한 조직의 사람들을 개발하는 것은 변화를 촉진하는 합리적인 전략으로서의 장점을 가질뿐만 아니라 의료의 일반적인 사명에 절대적으로 중요 할 것으로 보입니다.

By 2025 it is predicted that healthcare providers will be caring for an older, wiser and more complex clientele and that healthcare will also have the largest workforce of any organization in the western world (e.g. Buerhaus et al. 2008 ). Thus, for healthcare at least, developing the people in these organizations would seem not only to have some merit as a rational strategy to promote change, but also to be absolutely vital to the general mission of healthcare.


교수개발 프로그램의 선택은 일반적으로 기관이 준비한 '메뉴'들 중에서 개인이 결정하게 된다. 그러나 조직의 관점에서 볼 때 이는 시스템에 '손실'이 되고, 결과적으로 조직변화의 가능성이 줄어 듭니다.

Another feature of faculty development is that the choice of the faculty develop- ment program is usually determined by the individual, typically from a smorgas- bord of offerings prepared by the institution. From the organization’s point of view, they will be ‘lost’ to the system and organizational change will be less likely as a result.


그러므로 성공을위한 두 번째 전략은 첫 번째 전략을 발전시키는 것입니다. 교수개발이 조직변화에 도움이 되기 위해서는 조직의 목표에 대해 미래 지향적이며 직접적으로 연관되거나 적어도 인식적cognizant이며 대응적responsive이어야합니다. 

Hence the second strategy for success, which takes the fi rst strategy a step forward, is that: Faculty development needs to be forward looking and directly linked to, or at least cognizant of and responsive to, organizational goals if it is to assist in promoting organizational change



조직 내 교수개발에는, 자금, 거버넌스, 구조와 직원이 매우 중요합니다. '대학'의 필요성이 바뀌면 교수이나 교실(예 : 의학교육 부서)에 초점을 맞춘 교수개발 부서가 이를 제공 할 수 없게됩니다. 이는 필수 프로그램을 달성 할 수 없기 때문에가 아니라 적합한 권력-브로커power broker에 의해 유도되고 주도되고 적절한 수준의 임무를 지원을 받기가 어려워지기 때문이다. 반면에서, 교수 또는 부서 단위에서 그러한 역할을 수행한다면 교수진의 필요에 충분히 초점을 맞추지 못하는 것으로 보일 수 있습니다. 실질적으로 조직 변화를 위해 부총장 또는 회장 (또는 조직의 가장 강력한 이해 관계자)은 프로그램 개발에 명확한 열정을 보여줄 필요가 있으며 이를 수행하는 사람들에게 격려와 지원을 제공해야합니다.

Where faculty development is placed in an organization, how it is funded and governed, its structures and its staffi ng are therefore vitally important. If ‘the University’ needs change, it is unlikely that a faculty development unit that is primar- ily focused on a faculty or department (e.g. the Medical Education Unit) will be able to deliver it. This is not because it could not achieve the required programs, but because it would not be guided and driven by the appropriate power-brokers and sup- ported in its mission at an appropriate level. From the counter perspective, if a faculty or divisional unit took on such a role, it would probably be seen as not being suffi - ciently focused on the needs of its faculty members. In practical terms, for organiza- tional change, the Vice Chancellor or President (or whoever is the most powerful stakeholder in the organization) needs to show visible enthusiasm for the develop- ment program, and offer encouragement and support to those who undertake it.


'개발'된 교수들에게는 무슨 일이 일어나나?

6.6 What Happens to Faculty Members Who Have Been ‘Developed’?


역설적이게도 교수개발에 투자 한 조직이 교수개발 활동으로 인해 발생할 수 있는 변화를 수용하지 못하거나 심지어는 이를 금지 할 수 있습니다.

Paradoxically, organizations that have invested in faculty development for their staff can be unreceptive to, or even inhibit, change that might otherwise result from the faculty development activities.


이 연구는 임상 감독이 효과가 있음을 보여줄뿐만 아니라, '직장에서 그러한 지원이 없다면 임상 간호사 전문가는 환자에게 최적의 지원을 제공하는 것이 사실상 불가능하고 새로운 학습의 통합을 매우 어렵게 만든다는 것'을 보여준다.(323 페이지). 거의 동일한 과정이 White and Winstanley (2010)의 정신과 간호에서 차트로 작성되었습니다. 이 연구들은 누군가를 복잡한 역할을 수행하도록 훈련시킨다고해도 (동료들에 의해서 받아들여지거나, 감독 과정에 의해 지지되거나, 지시받거나, 지원받지 않는 한) 그 역할이 근무지에서 보장되는 것이 아니라는사실을 강조합니다.

The study was groundbreaking in that it not only showed that clinical supervision had an effect; it also demonstrated that ‘without such support in the workplace, clinical nurse specialists fi nd it virtually impossible to provide optimal support for their patients and fi nd integration of new learning extremely diffi cult’ (p. 323). An almost identical process was charted in psychiatry nursing by White and Winstanley ( 2010 ). These studies underline the fact that just training someone to take on a more complex role will not guarantee that this role will be developed in the workplace, unless it is accepted by co-workers, and championed, directed and supported by a supervision process.


Shanley (2004)는 관리자, 감독자 및 동료가 새로운 학습의 구현을 지원하지 않는 작업장으로 돌아 가야하는 경우, 정교하고 학습자 중심의 직원 개발 프로그램이 거의 효과가 없다고 확인했다. " 84). 그녀는 또한 기존 시스템, 절차 및 프로토콜, 새로운 학습 간의 빈번한 긴장을 확인하는 여러 가지 문제를 제기합니다.

Shanley ( 2004 ) identifi es that a ‘sophisticated and learner-centered staff development program will have little effect if the learner has to return to a work-place where managers, supervisors, and peers do not support implementation of thenew learning…’ (p. 84). She also raises a number of other issues that confi rm the frequent tensions between existing systems, procedures and protocols, and new learning. 


Shanley는 또한 조직 내부의 근본적인 갈등이나 부족한 디렉션이 교수개발 프로그램의 결과에 부정적인 영향을 미칠 수 있음을 강조합니다.

Shanley also highlights the negative impact that underly- ing confl ict or lack of direction and cohesion within the organization can have on the outcomes of faculty development programs.


(Van Roermund et al. 2011). 저자는이 새로운 교육 체계의 구현에있어 두 가지 주요 요인이 가장 큰 영향을 미친 것으로 나타났습니다. 

  • 첫 번째는 '식별'이었다. 이 과정은 교수개발 이후에 발생하며, 교수진 개발 수혜자는 새로운 프레임 워크와 관련하여 스스로를 식별하거나 특성화했다. 그들은 '나는 어떤 유형의 전문직 / 교사 / 사람인가?'라고 효과적으로 물었다. 저자들은이 과정을 설명하기 위해 거울의 은유를 사용했다. 교사가 교수진 개발 경험에 의해 제공되는 새로운 거울을 들여다 보았을 때, 교사는 자신이 더 잘할 수 있고 능력을 향상시킬 수 있다고 믿었습니다. 그러나 그들은 그럼에도 불구하고 경험을 통해 배웠던 믿음과 방법을 고수했습니다. 이 상황에서 교수진 개발 활동은 새로운 교수 모델을 받아들이거나 원하는 결과를 표현하는 데 자동으로 연결되지는 않았습니다. 

  • 두 번째 요소는 조직 문화였습니다. 새로운 직원이 임명되자 마자 기존의 경험 많은 멘토들은 이들이 교사로서 발달할 수 있도록 하는 사회화 과정에 참여했습니다. 이러한 유형의 환경에서 새로운 교사는 (교수진 개발 프로세스가 무엇이었을 지에 관계없이) '가르치는 법'을 배울뿐만 아니라 그 지역의 문화에서 '해야 할 것'과 '하지 말아야 할 것'을 알게 되었다. '(Van Roermund et al. 2011 p.6). 즉, 직무기반학습의 고유한 '힘'과 문화가 다른 전통적인, 명제적, 절차적 형태의 학습을 넘어서는 것으로 인식되어왔다. 즉 '기교Craft'가 '개념Concept'을 압도하는 것이다.

(Van Roermund et al. 2011 ). The authors described how two major factors appeared to have had the greatest infl uence on implementation of this new educational framework. 

  • The fi rst was ‘identifi cation’. This process took place post- faculty development and involved the faculty development recipients identifying or characterizing themselves in relation to the new framework; they effectively asked ‘what type of professional/teacher/person am I?’ The authors used the metaphor of a mirror to describe this process. When teachers looked into the new mirror provided by the faculty development experience, they truly believed they could do better and engaged with enhancing their competencies. However, they nevertheless held on to the beliefs and methods they had learned through experience. In this situation, the faculty development activity did not automatically lead to acceptance of the new model of teaching or to expression of the desired outcomes. 

  • The second factor was the organizational culture. As soon as a new staff member was appointed, existing expe- rienced mentors engaged in a socialization process that shaped their new colleague’s professional development as a teacher. In this type of environment, the new teacher not only learnt ‘how to teach’ (irrespective of what the faculty development process might have been), but they were also ‘initiated into the do’s and don’ts of teaching in the local departmental culture’ (Van Roermund et al. 2011 p. 6). This phenomenon has been recognized by researchers such as Billet ( 1995 ), as the inherent ‘power’ of work-based learning and culture to trump other more traditional, propositional and procedural forms of learning: craft holding sway over concepts.


이는 조직에서보다 효과적으로 일할 수 있도록 개인을 개발할 때 조직의 특성에 주의를 기울일 필요가 있음을 말해줍니다. 교수개발은 인력 수요를 해결할 필요가 있지만 조직의 리더십 및 중간 경영진의 관점을 반영해야합니다. 종종 변화에 신속하게 대응해야하는 대학이나 학부에서는, 경쟁이나 변동이 심한 시장에서 생존하기 위해 정기적으로 변화해야만 하는 다른 조직에 비해 관성inertia가 매우 크다. (Ernst and Young 2012).

These analyses tell us a great deal about the need to pay attention to an organiza- tion’s characteristics when developing individuals to work more effectively in that organization. Faculty development needs to address the workforce needs, but also the leadership and middle management perspectives in an organization. In universities and faculties of health, which are often required to respond rapidly to change, there is huge inertia compared to organizations that exist in the competitive or volatile market place and have to change on a regular basis to survive (Ernst and Young 2012 ).


조직변화를 위한 교수개발 활동을 계획 할 때, 교수개발 프로세스에서 다뤄진 것이 근무지work에서 촉진 또는 억제되게 하는 조직의 요소를 고려해야 한다. 

This brings us to the third strategy for success: When designing development activities for organizational change, it is necessary to address the elements in the organization, or in the participants’ institutions, that can foster or impede the work of those that have undertaken the development process.


이를 수행하는 한 가지 방법은 참여자 또는 변화의 잠재적 장벽을 대표하는 사람들을 참여시켜 그들이 자신의 실천을 바꾸기 위해서는 누가 혹은 무엇이 도움이 될 것인가를 물어보는 것이다. 즉, 새로운 기술이 기존 조직에 어떻게 적용될 것이며, 어떤 지원이 필요한가를 물어볼 수 있다. 1980 년대 초 교수 개발에 일찍 참여한 동료 중 한 명은 동료와 저는 의료 기록원이 임상 적 맥락에서 사용하도록 가르치는 기술에 대해 2 ~ 3 일간의 프로그램을 설계했습니다. 우리는이 과정에서 등록 기관의 선배 인 컨설턴트를 고용하는 것이 중요하다고 생각했습니다. 따라서 우리는 컨설턴트에게 1 일간의 오리엔테이션 과정을 제공하여 그들의 등록자가하는 일을 보여주었습니다.


One way of doing this, of course, is to engage the participants, and those who may represent potent barriers to change in the development process, by asking them who or what will help them to change their practice or might hinder it; in other words, how will their new skills fi t into their existing organization and what support will they need or receive? In one of my early forays into faculty development in the early 1980s, colleagues and I designed a 2–3 day program on teaching skills for medical registrars to use in the clinical context. We reasoned that it would be impor- tant to engage the registrars’ seniors, the consultants, in this process. We therefore offered a 1-day orientation course to the consultants to show them what their regis- trars would be doing.


조직변화의 에이전트로서 지금까지 교수개발연구에서 밝혀진 것은?

6.7 What Does Research Tell Us About Faculty Development as an Organizational Change Agent?


교수법 개발은 또한 영향에 대한 대부분의 연구와 평가 (예 : 17 장 참조)는 교수 또는 개인 행동 변화 결과를 측정하기 위하여 자기보고식 도구를 사용했기 때문에 어려움을 겪었다.

Faculty development is also challenged because most research and evaluations of its impact (see Chap. 17 for examples) have used self-reports from faculty or individ- ual behavioral change as outcome measures,


최근 '교사로서의 레지던트'프로그램의 영향에 대한 체계적인 검토에서, 포함 기준에 부합하는 29 개 연구 중 2 개만 결과로서 조직 변화를 다루었으며 (Hill et al. 2009), 특히 이들 모두 1990 년대 초에 착수되었다.

In a recent systematic review of the impact of ‘resident-as-teacher’ programs, only 2 of the 29 studies that met the inclu- sion criteria addressed organizational change as an outcome (Hill et al. 2009 ), and notably both of these were undertaken in the early 1990s.


이는 효과적인 교수 개발이 조직변화 수준에서 얼마나 효과적 일 수 있는지에 대한 우리의 이해를 제한합니다. 게다가 교수개발의 조직적 이점은 동시 적 정치적, 사회적 및 경제적 변화에 의해 거의 완전히 사라질 수 있습니다. 이러한 모든 영향의 상대적인 영향을 설명하면 광범위하고, 사실상 도달할 수 없는 연구 프로그램을 만들었을 것입니다. 변화를위한 다양한 drivers들 사이의 긴밀한 상호 의존성이 연구에서 거대한 교란변수가 된다.

This limits our understanding of how effective faculty development can be at this level. Moreover, the organizational benefi ts of faculty development can be almost completely overshadowed by concurrent political, social and economic changes. Teasing out the relative impacts of all these infl uences would have taken an extensive and probably unachievable research program. Critical co-dependencies between the various drivers for change would have been huge confounders in the investigation.


역사적으로, 그러한 연구는 교수진 개발을 관리하기 위해 설립 된 단위의 임무 (O'Sullivan and Irby 2011, 18 장)에 포함되지 않았다. 따라서 전반적으로 교수진 개발 프로그램은 단기간에, 일반적으로 개인 차원에서 평가되었습니다. 많은 사람들은 연구 기술이 부족하거나 적절한 기금이 부족하기 때문에 장기적 관점을 가지지 못했습니다. 프로그램이 개강 된 후 5 ~ 10 년 후에 기관이 후속 결과 연구에 자금을 지원하도록 설득하는 것은 어렵습니다.

Historically, such research has not been within the remit of units set up to manage faculty development (O’Sullivan and Irby  2011 , Chap.  18    ). Consequently, as a whole, faculty development programs have been evaluated onlyover the short term and, commonly, at an individual level. Many have also not been in a position to scope their longer term impacts, either because of a dearth of research skills or a lack of appropriate funding; it is diffi cult to persuade institutions to fund follow-up outcome studies 5–10 years after the program has run its course. 


어떻게 교수개발이 조직에 도전하는가?

6.8 How Does Faculty Development Challenge the Organization?


HPE에서 적절하게 발생하는 교수개발의 많은 부분이 대학 직원 및 관리와 불편한 교육 및 사회 정의 문제에 직면하는 경우가 종종 있습니다.

A good deal of faculty development that occurs appropriately in health professions education is frequently also responsible for confronting university staff and admin- istrations with uncomfortable educational and social justice issues.


예를 들어, 문화적 역량을 목표로 하는 교수개발 프로그램은 종종 토착민 또는 이민자 학생들을 관례적으로 다루는 방식에 대한 도전을 불러 일으 킵니다. 학업 성취도가 낮은 학생 입학을 허용하는 프로그램은, 낮은 SES 그룹의 고등 교육 접근성을 높이는 것이고, 때로는 높은 학업 성취도 및 엘리트 모델 학업 성취도에 기반한 교육 기관의 사고 방식을 변화시키는 것과 연관된다. 이로 인해 더 큰 제도적 맥락에서 일부 학부가 정자로 밝혀졌다. 따라서 개인과 학부모 단체 간의 '교직원 요구 사항'과 '대학의 요구'는 일치하지 않을 수 있습니다.

For example, faculty development programs that target cultural competence often invoke challenges to the way in which indigenous or immigrant students are customarily dealt with. Achieving increased access by low socio-economic status groups to higher education through programs that allow less academically successful students entry (see Langlands 2005 ) sometimes involves changing the mindset of academic institutions wedded to high academic achievement and elitist models of academic progress. This has led to some faculties being identifi ed as mavericks within the larger institutional context. Thus, ‘faculty requirements’ and ‘university needs’ may not be aligned, let alone those between individuals and the parent organization.


이것은 긴장의 원인이 될 수 있으며 조직 변화를 이루기 위해 교수 개발을 악용하는 성공을위한 네 번째 전략으로 이어질 수 있습니다. 교수개발 프로그램은 그것을 사용하는 조직과 교수진이 공유하거나, 적어도 인내할 수 있는 가치를 지녀야합니다.

This can cause tension and leads to the fourth strategy for success in exploiting faculty development to accomplish organizational change: Faculty development programs must possess attributes and enshrine values that are shared, or at least tolerated, by the organizations and the faculty members that use them.


또한 이러한 가치들이 공유되지 않거나 실제로 충돌 할 때 발생하는 긴장을 관리하고 성공적으로 조정하거나 적어도 균형을 잡을 준비가되어 있어야합니다.

However they must also be prepared to manage and successfully reconcile, or at least balance, the tensions that arise when these values are not shared, or indeed clash.


어떻게 교수개발이 좆기변화를 촉진하는가?

6.9 How Does Faculty Development Promote Organizational Change?


그럼에도 불구하고, 기관이 제공하는 교수 개발 기회의 참여율uptake은 보편적으로 낮다. 결과적으로, 교수진 개발이 현재 조직 차원에서 큰 영향을 미치지 않는다는 사실이 전혀 놀랍지 않다.

Nonetheless, uptake rates of faculty development opportunities provided by institu- tions are universally low. Consequently, perhaps we should not be surprised to fi nd that faculty development does not currently have a huge demonstrable impact at an organizational level.


또한 조직이 배울 수있는 범위에 대한 광범위하고 지속적인 논쟁이있었습니다. Antonacopoulou (2006)는이 문헌의 여러 연구를 검토하여 몇 가지 중요한 점을 제시한다. 

첫째, 그녀는 '학습 조직'(Argyris and Schön, 1978)의 개념은 조직에 두뇌가 없다는 사실에 때문에 문제가 있는 개념이라고 말한다. 그러나 실천 공동체의 개념 (Lave and Wenger 1991)과 같은 최근의 개념은 조직적 통제 기능을 행사하는 지역적, 문화적으로 결정된 집단 내에서 조직 변화에 대한 책임을두고있다. 이것은 이전에 논의했던 것과 동일한 문제이다. 개인이 변화에이전트가 되더라도, 고립된 상태에서 그 사람은 조직의 비교적 작은 부분에서조차 실질적인 조직 개발에 반드시 영향을 주지 못한다.

There has also been an extensive and continued debate about the extent to which organizations can learn. Antonacopoulou ( 2006 ), in a review of several studies from this literature, makes some salient points. First, she suggests that the concept of the ‘learning organization’ (Argyris and Schön 1978 ) is fl awed by the fact that organi- zations do not have brains. However recent conceptions, such as the notion of a community of practice (Lave and Wenger 1991 ), position the responsibility for organizational change within a group, locally and culturally determined, exercising organizational control functions. This immediately reinforces the same issues we have previously discussed: isolated individuals having been successful in develop- ing themselves (or being developed) into change agents cannot necessarily effect substantial organizational development, even in a relatively small part of the organi- zation.


Antonacopoulou (2006)는 은행 부문에서, 자기 개발과 학습에 대한 조직의 접근 방식이 중간 관리자의 조직 개혁 능력에 큰 영향을 미칠 수 있다고 말한다. 그녀는 배움에 대한 배려와 격려가 존중받는 조직에서 관리자는 자립적 일 가능성이 높고 고용 가능성을 넓히는 목표를 달성 할 가능성이 높으며 각각의 개발을 더 추구 할 가능성이 더 높다는 것을 확인합니다. 대조적으로, 매우 흔하게 관리자는 조직의 요구 사항을 효과적으로 충족시키려는 과정에서 전혀 배우지 못하며, 단순히 정치 게임의 규칙에 따라 플레이합니다 (465 페이지).

Antonacopoulou ( 2006 ) further discusses how, in the banking sector, an organization’s approach to self-development and/or learning can have signifi cant effects on the middle managers’ capacity to change organizational practice. She identifi es that in organizations in which respect for learning and encouragement to learn is genuine, managers are more likely to be self-reliant, more likely to pur- sue goals that will widen their employability, and more likely to seek the respective development more often. By contrast, managers who learn in order to satisfy the organization’s requirements effectively do not learn at all, they ‘merely play by the rules of the political game’ (p. 465).


이런면에서 대학들은 역설적으로 거의 반대 방향을 취한 것으로 보인다. 학문 문화는 사고의 자유, 질 높은 연구 및 영향력있는 출판물의 학문적 가치를 반영하는 한, 대부분의 다른 것들보다 자기 개발을 중시합니다. 그래서 연구 방법의 질을 높이기위한 통계 방법에 관한 강좌는 수십 또는 수백 가지의 교수 및 학습 과정에 이릅니다. 또한 이 과정에서 개인은 특정 분야의 기술을 스스로 개발할 집단적 (실천 공동체) 결정보다는 특정한 개인의 이익을 제공하는 코스 중에서 선택을 한다. 이 접근 방식이 조직에 영향을 미칠 가능성은 적습니다. 예를 들어 리더십에 관한 연구를 시작합시다.

In this respect, universities paradoxically seem to have taken an almost opposite path. The academic culture values self- development above most other things, as long as it refl ects the academic values of freedom of thought, quality research and impactful publications. So, courses on statistical methods to improve research quality outnumber, by the tens or hundreds, courses on teaching and learning. Also, in this process, indi- viduals make choices from a menu of courses that is provided by other individuals with specifi c interests rather than as a collective (community of practice) decision to self- develop skills in certain areas. The chances of this approach having an impact on the organization are small. Let’s take work on leadership as an example.


 Steinert et al. (2012)는 지도력을 향상시키기 위해 고안된 능력 개발 중재의 효과를 다루는 기존의 증거를 종합하기위한 것이다. 35 건의 개입에 관한 41 건의 연구를 기술 한 48 건의 기사를 조사한 결과 조직 개혁에는 제한된 변화가 있었다.

 Steinert et al. ( 2012 ) aimed to synthesize existing evidence addressing the effects of faculty development interventions designed to improve leadership abili- ties . Scrutiny of 48 articles, describing 41 studies of 35 interventions,showed limited changes in organizational practice. 


대학에서 성공적인 교수개발이 조직 수준에서 갖는 효과를 가질 때는 교수개발 과정이 조직에 너무 잘 받아 들여지고, 참가자에 의해서 고평가를 받아 기관 활동의 일부가되는 경우인 것으로 보입니다. 그러나 인쇄물에 넣지 않고도 더 많은 '입양'이 성취되었을 가능성이 큽니다.

In universities, the major effects of successful faculty development at the organi- zational level seem to be when a faculty development course is so well received by an organization and evaluated highly by participants that it becomes part of the institution’s activities. However, it is likely that many more such ‘adoptions’ have been accomplished without making it into print.


그렇다면 그러한 활동을 받아들이는 것이 조직변화만큼 높게 평가될 것인가? 조직 변화의 다른 특징은 교수진의 지속적인 개발에 대한 언급이나 기관의 사명과 목표의 일부가되는 교수진 개발 프로그램에 포함 된 목표의 인식과 같은 '진정한'또는 변화적인 변화에서 기대 될 수 있습니다. 또는 다른 컨텍스트로 transfer된다면 더 높은 조직적 영향을 미친 것이다.

Yet, we might ask, does adoption into the activities rank highly as an organiza- tional change? Other hallmarks of organizational change might be expected in ‘true’ or transformational change, such as reference to continued development of faculty members or recognition of objectives contained in faculty development programs that become part of the mission and goals of the institution. Or perhaps transfer to another context would rank as even higher organizational impact.


일부 프로그램은 매우 효과적으로 에너지를 공급하는 것 같습니다. 국제 의학 교육 연구 진흥 재단 (FAIMER)은 국제 원정 프로그램이 리더십과 제도 변화에 각각 영향을 미치는지 질문했다 (Burdick et al. 2010 2012; Friedman 외 15 장).

But some programs seem to be energizing change quite effectively. The Foundation for Advancement of International Medical Education and Research (FAIMER) asked whether its International Fellowship Program was having an impact on leadership and institutional change respectively (Burdick et al. 2010 2012 ; Friedman et al. Chap. 15 ). 

  • 첫 번째 연구 결과 (Burdick et al., 2010)는 교육과 리더십 / 관리 도구의 통합을 제공하는 FAIMER 모델의 높은 참여 경험이 참가자들에게 국가적 맥락과 결과에 활용 될 수있는 기술과 역량을 주었으며, 상호 의존적 인 지도자들의 글로벌 네트워크를 형성했다.

    Findings from the fi rst study (Burdick et al. 2010 ) suggested that the high engage- ment experience of the FAIMER model offering integration of education and leader- ship/management tools gave participants skills and capabilities that could be utilized across national contexts and result in a global network of interdependent leaders. 

  • 두 번째 연구는 펠로우십  프로젝트의 영향력의 정도와 방식을 조사했습니다. 분석 된 435 개의 프로젝트 전체에서 막대한 대다수는 교육 방법, 교과 과정 변경, 프로그램 평가, 학생 평가 및 교육 내용과 지역 건강 관리 필요 사항 중 하나 이상을 해결했습니다.

    The second study of FAIMER fellows investigated the degree and mode of impact of the fellowship projects. Across the 435 projects analyzed, the vast major- ity addressed one or more of the following areas: educational methods, curriculum change, program evaluation, student assessment, and alignment of educational content with local healthcare needs


Burdick et al. (2012)는 FAIMER가 조직에 영향을 준 원인으로 효과적인 프로젝트 멘토링과 demanding한 선발 과정을 꼽는다. 이 과정에는 프로젝트가 시작되기 전에 펠로우가 소속된 기관의 리더가 프로젝트에 대해 지원해주는 것이 본질적인 요구 사항으로 포함됩니다. 이러한 요구 사항은 많은 변화 관리 이론의 주요 특징이며 (Grant and Gale 1989), 교수진 개발도 예외는 아닙니다.

Burdick et al. ( 2012 ) suggest that one explanation for the relatively high incidence of organizational impact may be effective project mentor- ing and their demanding fellow selection process. This process includes the essen- tial requirement of support for the project by the leadership of the fellow’s home institution before the project commences. Such a requirement is a key feature of many change management theories (Grant and Gale 1989 ), and faculty develop- ment may be no exception to this.


따라서 성공을위한 단계에서이를 다시 언급하면 ​​다음과 같은 전략이 필요하다는 것을 알 수 있습니다. 교수진 개발 촉진자 및 교수진 개발 참가자는 잠재적 기대성과의 범위에 대해서 협상하고, 지원과 투자를 얻어내기 위해서 교수진 개발이 진행되기 전에 각 기관의 리더와 engage with해야한다.

So, refl ecting this in the steps for success would suggest that the fi fth strategy should be as follows: Faculty development facilitators and faculty development partici- pants should engage with their respective institutional leadership before the faculty development takes place to negotiate the scope of potential desired out- comes and to gain institutional support and/or commitment.


이것은 촉진자와 참여자가 같은 조직에서 일할 때 가장 쉽습니다. 그러나 FAIMER 펠로우쉽 프로그램의 국제적 및 문화적 성공은 촉진자와 참여자가 서로 독립적으로 일할지라도 노력해볼 가치가 있으며, 오히려 외부적이고 보다 객관적인 관점을 갖는 것이 유익 할 수 있다고 제안합니다.

This might be easi- est when both facilitators and participants work in the same organization. But the international and cross-cultural success of the FAIMER fellowship program sug- gests that it is also worth the effort even if they work independently, and it may be benefi cial to have an external, and potentially more objective, perspective.


Lieff and Albert (2012)는 그들이하는 일, 그들이 어떻게 배우고 변화하는 방식에 대해 16 명의 의학 교육 지도자의 접근 방식을 연구했습니다. 그들은이 지도자들이 활동의 ​​네 가지 주요 영역에서 활동한다는 것을 발견했다. 개인간, 대인 관계, 조직 (예 : 공유 된 시야 확보), 시스템


조직적 맥락과 관련하여, 

Lieff and Albert ( 2012 ) studied 16 medical education leaders’ approaches to what they do and how they learn and infl uence change. They found that these lead- ers operated in four major ‘domains’ of activity; intrapersonal, interpersonal, organi- zational (e.g. creating a shared vision), and systemic. In relation to the organizational context it was salient to discover that, among many other activities:


그들의 (지도자들) 주목의 대부분은 변화의 촉진에서 개인과 문화의 역할을 이해하는 데 주어졌다. 그 결과 조직의 저항뿐만 아니라 태도와 문화가 달라지기까지 다양한 노력을 기울였습니다 (Lieff and Albert 2012 p. 315).


Much of their (leaders’) attention was given to understanding the role of individuals and the culture in the facilitation of change. This resulted in developing a diversity of efforts at dif- fusing organizational resistance as well as shifting attitudes and culture (Lieff and Albert 2012 p. 315).


이 저자들은 또한 연구에서 지도자들이 외부의 시스템적 관점을 취한 것을 발견했습니다.

These authors also found that the leaders in their study took an external systemic perspective and that:


학문적 맥락의 개인, 과정 및 구조의 정치적 탐색은 성공을 위해 필수적이었습니다. 그들은 정치, 권력, 문화 및 이슈 (Lieff and Albert 2012 p.315)에 관해 배우기 위해 고의적으로 특정 그룹에 참여함으로써 스스로를 지향했습니다.


Political navigation of individuals, processes and structures of their academic contexts was essential for their success. They oriented themselves by deliberately engaging with certain groups in order to learn about the politics, power, culture and issues (Lieff and Albert 2012 p. 315).


그러한 기술이 자연스럽게 일부 사람들에게 나타나거나 직업 경로의 결과로 개발 될 수는 있지만, (교육 및 평가 기술과 마찬가지로) 학문적 또는 직업적 경력이 필연적으로 그러한 기술로 연결될 것이라고 생각할 이유가 없습니다. 

Although such skills may come naturally to some people, or be developed as the result of their career paths, there is no reason to believe that occupying an academic or professional career would necessarily provide such skills, anymore than it would be to assume the same about teaching and assessment skills.


성공의 정도는 세 영역 사이에서 다양했습니다. 한 도메인과 다른 도메인 간의 인터페이스를 목표로 한 프로젝트는 거의 영향을 미치지 않았으며 모든 도메인의 참가자가 그러한 활동이 매우 중요하다는 사실이 확인되었지만 전문직 제휴 도메인 내에는 별다른 영향을 미치지 않았습니다.

The degree of success was variable between the three domains. Very few of the projects that were aimed at the interface between one domain and another made an impact, and little impact was made within the professional association domain, even though participants in all domains had identifi ed that such activity was highly important.


이는 대단히 많은 교수 개발 프로젝트가 이 마진에서 작동하기 때문에 큰 관심사입니다. 예를 들어, 대학은 보건 전문가를 교육하여 교수개발 접근법을 사용하여 학생을 가르치고 평가합니다. 의과 대학 및 대학원에서는 실제 사회적 참여없이 인증 기관이나 종이 기반 운동을 방문하는 등의 교육 적합성을 위해 작업장을 인증합니다. Greenfi eld (2011)의 연구에서 보건 및 학문 분야에서의 성공은 상대적으로 높았습니다. 50 % 이상의 프로젝트가 조직적인 영향을 미쳤습니다. 효과를 최대화하는 6 가지 결정 요인이 확인되었다.

This is of great concern because a very great many faculty development projects operate at these margins. For example, universities train registered health profes- sionals to teach and assess students using faculty development approaches. Medical schools and postgraduate colleges accredit work sites for training suitability often achieved through a briefl y visiting accreditation panel or paper based exercises, without real social engagement. In Greenfi eld’s ( 2011 ) study, success within health and academic domains was relatively high; more than 50 % of projects made an organizational impact. Six determinants of maximal impact were identifi ed:


  •  Site receptivity은 일찍이 커뮤니케이션 스킬 연구에서 확인 된 특징들을 되풀이한다. (2006) 

  •   각 프로젝트에 참여한 팀의 힘과 결단력과 관련된 팀 응집력.

  •   리더십 : 동료의 전문적 및 조직적 관심사와 공조하는 방식으로 구체적인 목표를 분명히 할 수있는 팀의 책임자를 감독하거나 감독합니다.

  •   팀 프로세스에 관한 의료 관계에 미치는 영향.

  •   품질 및 안전 문제에 대한 영향으로 환자의 안전을 목표로하는 이니셔티브의 의제가 가시화되었습니다.

  •   기관의 통합 정도 또는 기관의 합법화 정도.

  •   Site receptivity, which echoes the features identifi ed earlier in the Heaven et al. ( 2006 ) study on communications skills.

  •   Team cohesion, which related to the strength and determination of the team involved in each initiative.

  •   Leadership, which concerned the presence of a champion at the head of, or supervising, the team who could articulate concrete aims for initiatives in ways that resonated with the professional and organizational concerns of their colleagues.

  •   Impact on healthcare relations, which was about team processes.

  •   Impact on quality and safety issues, which highlighted the visibility of the initia- tive’s agenda toward the aim of patient safety.

  •   The degree of integration into or legitimization by the institution.


전통적으로 의사 (의사, 간호사)와 관리자 (행정관) 간 보건 의료 조직에 긴장이 있었다 (Davies 외 2003). 많은 국가, 특히 영국에서 주요한 교수개발 이니셔티브는 의료 관리에 더 많은 의사를 참여시키기위한 시도였습니다. 이 의사들은 자신의 역할에 대해 긍정적 이었지만 그럼에도 불구하고 숙련 된 경영 전문가가되기 위해서는 구조화 된 지원이 필요하다는 것을 "예민한 아마추어"라고 묘사했습니다.

There has traditionally been tension in health care organizations between provid- ers (doctors, nurses) and managers (administrators) (e.g. Davies et al. 2003 ). A major faculty development initiative in many countries, but particularly in the UK, has been the attempt to get more doctors involved in health care management. Although these doctors were positive about their roles, they nevertheless described themselves as ‘keen amateurs’ who identifi ed that they needed structured support to become skilled management professionals.


이를 통해 조직 변화를위한 교수 개발에서 두 가지 '성공 전략'을 확인할 수 있습니다. 그 중 첫 번째는 다음과 같다. 교수개발은 프로그램 참여자가 한 쪽을 편들지 않고 민감하게 동료를 관찰하고 참여하며 설득하는 데 필요한 복잡한 기술에 중점을 둡니다.

This allows us to identify two further ‘strategies for success’ in faculty development for organizational change. The fi rst of these is that: Faculty development must include a focus on those complex skills necessary for the participants in the program to impartially and sensitively observe, engage, and persuade their colleagues back in the workplace.



어떤 의미에서 이것은 자신의 조직이나 최고 경영자 자격을위한 견습생을 양성하는 상사를 잠그는 리얼리티 TV 시리즈와 유사하다. 이 쇼는, 진부하지만, 학문적으로 간주되지 않는 기술이 실제로 얼마나 중요한지를 명확하게 보여줍니다. 따라서 교수개발은 추가적인 맥락적 요소의 범위를 인식하고, 이러한 요인을 다루기 위해 개발 된 전문가의 능력을 확인하고 강화해야한다.

In a sense, this resonates with the reality television series that immerse under- cover bosses in their own organizations, or those that train up apprentices for chief executive status. These shows, while trite, clearly show how important those skills, not normally regarded as academic ones, really are; selling as opposed to explain- ing, promoting as opposed to evaluating, and engaging in menial as opposed to intellectual tasks. Hence, the fi nal strategy would be as follows: Faculty develop- ment must recognize the range of the additional contextual factors in the fi eld, and identify and enhance the capacity of the developed professionals to deal with these factors.


이 전략은 교수 개발 프로그램이 다른 조직을 대신하여 실행되는 경우에도 중요합니다. 또한 조직 변화에 관한 한 일반 과정은 조직의 요구, 구조 및 문화에 맞게 조정 된 것보다 덜 성공적 일 수 있음을 의미합니다.

This strategy is also crucial if the faculty development program is being run on behalf of another organization. It also implies that, as far as organizational change is concerned, generic courses are likely to be less successful than those tailored to an organization’s needs, structure and culture.


결론

6.10 Conclusion


이런 맥락에서 교수 개발 프로그램에서의 주요 비판은  장기적 기관혁신을 목표로하지 않았다는 것입니다. 예를 들어 보건 의료 조직에서 학습 문화를 제공하거나 학업 분야에서 일 준비를 가치있게 할 필요성 (Newton et al. 2009 2011). 조직 변화 에이전트로서 유용하려면 교수진 개발 프로그램은 최소한 조직의 가치와 목표를 반영하는 방식으로 설계, 지원 및 홍보되어야합니다. 프로그램이 개발되는 이유에 대한 설명은 프로그램의 이론적 근거에서 확인되어야하며 교육, 연구 또는 이 둘의 균형 잡힌 조합이든간에 기관의 주요 가치를 반영해야합니다.

The main criticism to be leveled at faculty development programs in this context is that they often are not, or at least are not seen to be, aimed at long term institutional transformation of the kind that might be required to engage with major challenges: the need, for example, to provide a learning culture in health care orga- nizations or value work-readiness in academic ones (Newton et al. 2009 2011 ). To be useful as organizational change agents, faculty development programs also need to be designed, supported and promoted in ways that, at a minimum, refl ect organi- zational values and goals. The explanation of why a program is being developed should be identifi ed in the program’s rationale and refl ect the institution’s main values, whether it is teaching, research, or a balanced combination of the two.


핵심 메시지

6.11 Key Messages


Faculty development for organizational change:


  •  조직 변화에 기여할 수있는 역량과 명확히 연결되는 방식으로 기관 회원들에게 정의되고 홍보되어야합니다.

  •   조직 변화를 촉진하는 데 도움이되는 경우 조직의 목표에 대해 미래 지향적이며 직접적으로 관련되거나 적어도 인식하고 대응해야합니다.

  •   조직의 요소 또는 참가자의 기관에서 개발 프로세스를 착수 한 사람들의 작업을 촉진하거나 방해 할 수 있는 요소를 관리해야 한다.

  •    반드시 그것을 사용하는 조직과 교수진이 공유하거나 적어도 용인되는 가치를 지니고 있어야합니다.
  •   잠재적 인 희망 결과의 범위를 협상하기 위해 교수진 개발이 진행되기 전에 facilitator와 참가자가 각자의 기관 리더십에 참여할 수 있어야합니다.

  •   프로그램 참여자가 공정하고 민감하게 관찰하고, 참여하고, 동료들에게 직장에서 다시 설득하는 데 필요한 복잡한 기술에 중점을 두어야합니다.

  •   현장에서 추가적으로 맥락 요인의 범위를 인식하고 이러한 요인을 다루기 위해 개발 된 전문가의 역량을 확인하고 강화해야합니다.

  •   Must be defi ned for, and promoted to, an institution’s members in a manner that clearly connects with its capacity to contribute to organizational change.

  •   Needs to be forward looking and directly linked to, or at least cognizant of and responsive to, organizational goals if it is to assist in promoting organizational change.

  •   Should address the elements in the organization, or in the participants’ institu- tions, that can foster or impede the work of those that have undertaken the devel- opment process.

  •   Must possess attributes and enshrine values that are shared, or at least tolerated, by the organizations and faculty members that use them.

  •   Should enable facilitators and participants to engage with their respective insti- tutional leadership before the faculty development takes place to negotiate the scope of potential desired outcomes.

  •   Must include a focus on those complex skills necessary for the participants in the program to impartially and sensitively observe, engage, and persuade their col- leagues back in the workplace.

  •   Must recognize the range of the additional contextual factors in the fi eld, and identify and enhance the capacity of the developed professionals to deal with these factors.


Lieff, S. & Albert, M. (2012). What do we do? Practices and learning strategies of medical educa- tion leaders. Medical Teacher 34 (4), 312–319.



Chapter

Faculty Development in the Health Professions

Volume 11 of the series Innovation and Change in Professional Education pp 119-137

Date: 

Faculty Development for Organizational Change

Brian Jolly 

Abstract

There seems to be a widely held assumption that the long-term outcomes of most faculty development initiatives will include some degree of organizational change. In many cases they do; most people engaged in faculty development have observed change at the institutional level after faculty development interventions. However, not all these interventions lead to change. Some organizational changes take place without much faculty development taking place at all. In this chapter, we will explore the mechanisms and strategies that can be used to promote or assist in organizational change, in the form of ‘strategies for success’, for faculty developers, organizational leaders, and those participating in development. Faculty development for organizational change requires attention to the educational and institutional milieu, the workforce, and the organization itself. Most of the time, change will be slow, and also affected by external factors. But faculty development, astutely deployed, can make a significant contribution to that change.


보건전문직교육에서 효과적인 피드백 (Med Educ, 2010)

State of the science in health professional education: effective feedback

Julian C Archer






도입

INTRODUCTION


피드백은 인지, 기술 및 전문성 개발을 지원하는 데있어 핵심입니다. 효과적인 피드백은 긍정적이고 바람직한 발전을 촉진하기 위해 이전 퍼포먼스에 대한 정보가 사용되는 것으로 정의 될 수 있습니다. 

  • 인지이론가들은 피드백을 의도한 성과 수준보다 실제 퍼포먼스에 초점을 맞추는 것으로 본다.1 Recipient가 가지고 있는 지식과 필요로 하는 지식 수준 간의 차이를 강조하면 학습 촉매가됩니다 .2 

  • 행동주의자는 행동을 강화하거나 수정하는 방법으로 피드백을 생각합니다 . 예를 들어, 불확실성은 즐겁지 않은 것이고, 원하는 목표에서 멀어지게 만들기 때문에 불확실성을 줄이면, recipient의 성취도가 높아진다 .4 [4]. 

그러나 건강 관리 교육 문헌에서 피드백은 종종 이론적 근거가 없다.

Feedback is central to supporting cognitive, technical and professional development. Effective feedback may be defined as feedback in which information about previous performance is used to promote positive and desirable development. Cognitive theorists see feedback as focusing on actual performance compared with the intended performance level.1 Highlighting the gap between a recipient’s knowledge and the level of knowledge he or she needs provides a learning catalyst.2 Behaviourists conceive feedback as a way to reinforce or modify behaviour.3 For example, reducing uncertainty supports recipients’ achieve- ment4 as uncertainty is unpleasant and distracts from desired goals.5 Yet in the health care education literature, feedback is often devoid of any theoretical basis.6


의학교육에서 피드백은 문제가된다. 피드백을 주는 것은 피드백이 정직하고 정확하다는 것을 보장하면서, 교육자가 수령인의 심리 사회적 필요를 인정해야하기 때문에 어렵다 .7,8 전문 표준, 학생의 자존심, 그리고 환자의 권리와 안전 모두가 보호되어야한다. 이러한 균형을 유지하는 데 필요한 미묘함은 왜 교사가 정기적으로 피드백을 한다고 믿는 반면 학생들은 항상 그것을 인식하지는 않습니다를 설명해준다.9 피드백은 '효과적인 임상 교육의 초석'으로 묘사되었습니다 .10

Health care education feedback is problematic, Feedback provision is challenging as educators must acknowledge the psychosocial needs of the recipient while ensuring that feedback is both honest and accurate.7,8 The protection of... 

  • professional standards, 

  • the self-esteem of the student and, 

  • in health care education, the rights and safety of the patient, 

...must all be safeguarded. 


The subtleties required to maintain this balance may explain why teachers believe that they give feedback regularly but students do not always recognise it.9 Despite these challenges, feedback has been described as ‘the cornerstone of effective clinical teaching’.10




피드백 제공

THE PROVISION OF FEEDBACK


피드백의 유형

Type of feedback


피드백은 지시 또는 촉진 기능을 가진 것으로 설명됩니다. 

    • 지시적 피드백은 학습자에게 교정이 필요한 것을 알립니다. 

    • 촉진적 피드백에는 수령자가 자체적으로 수정하도록하는 의견 및 제안이 포함됩니다.

Feedback is described as having either a directive or a facilitative function. Directive feedback informs the learner of what requires correction. Facilitative feedback involves the provision of comments and suggestions to facilitate recipients in their own revision.


피드백은 또한 그 구체성 측면에서 다양 할 수있다. 

    • 구체적인 피드백초기 퍼포먼스 변화에 도움이되는 것으로 보입니다. 그러나 수령자가 더 많은 탐사를하지 못하게되어 장기간에 걸친 학습과 독립적인 수행을 훼손 할 수있다 .11 구체적인 피드백은 피드백을 준 업무의 성과를 뒷받침하지만 그 지식의 다른 업무로 tranfer되는 것에는 도움이 되지 않을 수있다 .12 

    • 덜 구체적인 피드백은 불확실성을 초래할 수 있으며, 이는 학습의 감소로 이어진다.

feedback can also vary in its specificity. Specific feedback appears to be beneficial for initial performance change. However, it may discourage recipients from further exploration and therefore undermine subsequent learning and independent performance in the longer term.11 Specific feedback may support performance in that task but not the transfer of knowledge to other tasks.12 Less specific feedback may lead to uncertainty, which in turn leads to a reduction in learning.2



피드백은 단순히 답이 옳은지 또는 틀린지를  나타내거나 (검증수령인이 정답 에 도달하는 것을 용이하게 할 수 있습니다(정교화). 정교한 피드백은 다섯 가지 유형으로 묘사됩니다 .13 이 중 응답-특이적 피드백은 학습자의 성취를 향상시키는 것으로 보입니다.

Feedback may simply indicate whether the answer is right or wrong (verification) or it may facilitate the recipient to reach the correct answer (elaboration). Elaborative feedback is described as being of five types.13 Of these, response-specific feed- back appears to enhance learner achievement.


원칙은 피드백이 구체적이어야 한다는 점이며, 다만 검증 및 정교화 피드백 모두 효과적 일 수 있습니다 .14 촉진적인 피드백은 높은 성취자를위한 학습을 ​​향상 시키지만 초보자에게는 그렇지 않을 수 있습니다.

Guiding principles are that feedback should be specific, but both verifying and elaborative feedback may be effective.14 Facilita- tive feedback enhances learning for high achievers, but may not do so for novices.15


피드백의 구조

Structure of feedback


피드백은 다양한 출처에서 나올 수도 있습니다. MSF (multi-source feedback)라고 알려진 체계적인 접근의 일부로 상호 작용이 발생하여 동료가 피드백을 줄 수 있습니다 .16 의료 전문가에게 고유 한 피드백의 추가 소스는 환자이다. 환자의 피드백은 보건 전문가의 성과 변화에 더 큰 영향을 줄 수 있지만, 그 유효성은 확실하지 않다. 환자의 피드백은 다른 소스의 피드백과 거의 상관 관계가 없습니다 .18


Feedback can also come from a variety of sources. It may be generated from colleagues as and when interactions take place or as part of a systematic approach, known as multi-source feedback (MSF).16 An additional source of feedback unique to the health professions is represented by patients. Patient feedback may be more influential in changing health professionals’ performance,17 but its validity is far from assured. Patient feedback rarely correlates well with feedback from other sources.18


모든 피드백은 훈련 된 촉진자가 뒷받침하는 환경에서, 직접 대면하여 제공되는 것이 이상적입니다 .19 

    • 서면 피드백은 중요하지만 부정적인 의견은 이것을 다시 긍정적인 결과를 만들어내는 지원을 필요로합니다 .21 이러한 서면 피드백에는 도전적인 정보가 포함될 수 있으며 길이와 복잡성으로 인해 더욱 복잡해진다. 

    • 복잡한 피드은 무시되거나 주요 메시지가 손실 될 수 있습니다. 스캐폴딩은 직접적인 지시뿐만 아니라 단서, 프롬프트, 힌트 및 부분 해법을 제공함으로써 잠재적인 미로의 복잡한 피드백을 통해 학습자를 안내하는 데 도움이 될 수 있습니다.

All feedback is ideally discussed face-to-face in a context that is supported by a trained facilitator.19 

    • Written feedback is important, but negative comments again require support to produce positive outcomes.21 Such facilitated written feedback may contain challenging information and this may be further complicated by its length and complexity. 

    • Complex feedback is likely to be ignored or its main messages lost. Scaffolding may help to guide learners through the potential maze of complex feedback by providing cues, prompts, hints and partial solutions, as well as direct instruction.22


피드백의 타이밍

Timing of feedback


피드백의 타이밍은 그것의 효과성에 독립적으로 영향을 줄 수있다 .13 효능과 타이밍이 과제의 초점과 난이도와 관련이 있음을 보여준다 23 

    • 지연된 피드백은 지식 transfer을 지원하는 것에 더 좋을 수 있는 반면, 

    • 즉각적인 피드백은 단기적이며 절차 적 기술의 개발을 지원하기위한 것입니다 .23 복잡한 업무를 수행하는 높은 성취도의 수혜자는 지연된 피드백으로 이익을 얻을 수 있습니다. 

Bangert-Drowns 등 [14]은 피드백이 mindfully 받아 들여지면 학습을 촉진 할 수 있다고 결론 지었다. 무의식적 인Mindless 피드백은 수령자가 생각할 시간을 가지기 전에 제공되는 것이며, 이는 과제가 너무 쉽거나 너무 복잡할 때, 프로세스가 무작위적이거나 일관성이 없을 대 일어난다.


The timing of feedback may independently influence its effectiveness.13 Evidence appears to suggest that efficacy and timing are related to the focus and difficulty of the task.23 Delayed feedback may be better for supporting transfer of knowledge, whereas immediate feedback may be more effective in the short-term and for supporting the development of procedural skills.23 High-achiev- ing recipients undertaking complex tasks may benefit from delayed feedback. It is hypothesised that learn- ers are supported by reducing interruptions that occur during the task.24 Bangert-Drowns et al.14 con- cluded that ‘feedback can promote learning if it is received mindfully’. Mindless feedback might include the provision of answers before the recipient has had time to think, when the challenge is too easy or too complex, or when the process is random or inconsistent.


피드백은 그것을 받는 사람이 응답하든 말든 수동적으로 전해지는 정보가 되어서는 안 된다. 개인이 초점입니다. 피드백은 도구modality이다. 그러므로 피드백 교환의 맥락에서 개인을 이해하는 것이 효과의 핵심입니다.

Feedback must not be seen as passive information passed on to an individual who either does or does not respond. The individual is the focus; the feedback is a modality. Understanding the individual in the context of the feedback exchange is therefore central to its effect.



피드백을 받는 사람 입장에서의 효과

THE INFLUENCE OF THE RECIPIENT


자기자신

The self


보건 전문가의 대부분의 연구는 다른 사람들의 견해와 관련하여 자기 자신의 강점과 약점을 식별 할 수있는 능력으로서 개인 성과 평가를 탐구한다 .25 그러나 이 접근법을 통해 자기 평가는 열악한 것으로 묘사되며, 현실을 보여주기보다는 문화나 젠더에 의해 영향을 받는다.

Most studies in the health professions explore the personal assessment of performance as an ability to identify one’s own strengths and weak- nesses in relation to other peoples’ views.25 However, with this approach self-assessment is described as poor,26 and as shaped by culture27 and gender28 rather than as representative of a shared reality.


사회 심리학자들은 우리의 행동과 행동이 우리의 무의식에 의해 알려지기 때문에 자기 평가에 결함이있는 것으로 간주합니다 .30이 무의식적 자기unconscious self는 자기 보존에 초점을 맞추고 있습니다. 이는 자존감을 위협하거나 무조건적인 칭찬을 하지 않는 피드백이 왜 덜 효과적 일 수 있는지 설명하는 데 도움이됩니다 .2 마찬가지로, 부정적인 피드백을받는 사람은 외부 요인을 탓하고 개인적인 책임을 거부합니다. 이를 기본 귀인 오류fundamental attribution error라고합니다.

Social psychologists view self-assessment as flawed because our behaviour and performance are informed by our unconscious minds.30 This unconscious self is focused on self-preservation. It helps explain why feedback that threatens self-esteem or contains noth- ing more than unconditional praise may be less effective.2 Similarly, recipients of negative feedback blame external factors and reject personal responsi- bility; this is known as fundamental attribution error.31


따라서 '정확한'자기 평가를 계속 추구하는 것은 부적절합니다. 우리는 신뢰할 수 있고 타당한 외부 자료를 대표하는 다른 사람들의 견해를 찾아야합니다 .32 개별화되고 내면화된 자기평가를 벗어나서 "자기주도적 평가 탐색"로 옮겨 갈 수 있도록 외부 피드백을 찾도록 동기 부여해야합니다. 33이 과정에서 피드백은 교육적 활동이되며, 수동적이지 않고 능동적입니다. 우리 자신이 아닌 우리의 능력을 학습함으로써 외부 피드백을 통해보다 나은 자기 모니터링을 할 수 있습니다. 자기 모니터링이란 능력에 대한 전반적인 인식에 의해 통제되기보다는 자신의 능력으로 형성된 상황에 대응할 수있는 능력을 말한다. Eva와 Regehr33은 '건강 전문직 공동체는 일반적으로 능력의 포괄적이고 광범위한 자체 평가의 정확성을 염려하기보다는, 행동을 하는 순간순간에 자기 모니터링 행동에 영향을 미치는 맥락적 요인을 파악하는 데 집중해야 한다'고 주장한다.

It is therefore inappropriate to continue to pursue ‘accurate’ self-assessment. We should each seek the views of others who represent reliable and valid external sources.32 Many individuals will need to be supported in their motivation to seek external feedback as they move from individualised, interna- lised self-assessment to self-directed assessment seeking.33 In this process, feedback becomes a pedagogic activity, which is active, not passive. By learning about our abilities, not ourselves, through external feedback we are then able to better self-monitor. Self-monitoring is the ability to respond to situations shaped by one’s own capability at that moment in that set of circumstances, rather than being governed by an overall perception of ability. Eva and Regehr33 argue that the ‘health professional com- munity should predominantly be concerned with identifying contextual factors that influence self- monitoring behaviours in the moment of action rather than worrying about the accuracy of generic and broader self-assessments of ability’.


그러나 외부에서 오는 피드백에 응답하는 능력은 여전히 ​​학습자의 영향을 받습니다 .34 높은 정서적 안정성을 가진 수신자는 동기 부여가 높고, 책임감이 높은 사람은 피드백을 사용해야 한다고 느끼고, 사회성이 높은 사람은 추가 피드백을 구할 수 있습니다.

However, the ability to respond to external feedback is still influenced by the learner.34 Recipients who have high emotional stability are more likely to be motivated, those with high levels of responsibility feel obligated to use feedback, and those with high sociability are more likely to seek additional feedback.35


이 시점에서 '성찰reflection'이라는 용어가 종종 논문에서 '자기 평가'와 상호 교환 적으로 사용되기 때문에 성찰의 역할을 강조 할 가치가있다. Boud et al. 성찰은 '개인이 새로운 경험과 이해를 이끌어 내기 위해 자신의 경험을 탐구하기 위해 참여하는 지적이고 정서적인 활동을 총칭하는 용어'라고 설명한다. 그러므로 성찰는 사건을 이해하는 데 중점을 둔 의식적이고 신중한 과정이며, 이를 통해 자기 개선을 가져오고 초보자의 지위에서 전문가의 지위로 옮기는 과정이다.37 이것은 분명히 중요하며 자기 모니터링의 일부가 될 수 있다. 이것이 직관적이긴 하나, 그러한 우리가 성찰을 통해 자신을 더 잘 이해하게 된다는 생각을 지지하는 증거는 거의 없다. 

At this juncture it is worth highlighting the role of reflection as the term ‘reflection’ is often used interchangeably with ‘self-assessment’ in the litera- ture. Boud et al. describe reflection as ‘a generic term for those intellectual and affective activities in which individuals engage to explore their experiences in order to lead to a new understanding and apprecia- tion’.36 Reflection is therefore a conscious and deliberate process that focuses on understanding events and processes to bring about self-improvement and to move from the status of novice to that of expert.37 This is clearly important and may be part of self-monitoring,29 but although it is intuitive, there is little evidence to support the idea that by reflecting we come to understand ourselves better,37 as is the preoccupation of the self-assessment literature.




수용도

Acceptability


자신의 능력에 대해 새로운 것을 배우는 것이 없거나, 가치가 없는 출처에서 피드백을 받는 것처럼 보이면 피드백의 효과가 손상 될 수 있습니다. 피드백의 정확성이 입증 될 수 있다면 목표 설정에 따라 수용 가능성이 높아진다.

Appear- ing to learn nothing new about one’s abilities or receiving feedback from sources that one does not value undermines the effectiveness of the feedback. Inconsistent feedback may have a negative effect by making the feedback appear inaccurate.38 Accept- ability is increased if the relevance of the feedback can be demonstrated, namely by goal setting.



목표 설정

Goal setting


목표 설정은 수용 가능성을 뒷받침 할 수 있으므로 관련성을 보여줌으로써 피드백의 영향을받을 수 있습니다 .2 목표는 개인적으로 의미 있고 쉽게 생성되어야합니다. 통제 이론은 개인으로서 우리의 행동을 목표와 표준에 맞추려고 노력한다고 주장한다 .39 따라서 통제이론에 따르면 우리는 우리의 입지를 향상시키기 위해 행동을 수정하고 외부 피드백을 포함하여 훈련을 찾거나 시도하려고 노력한다 .39 목표는 학습 지향 또는 성과 지향적일 수있다. 

    • 학습 지향은 새로운 기술을 개발하고 정보가 전성이 있다는 믿음으로 새로운 상황을 마스터하고자하는 열망과 관련이 있습니다. 

    • 성과 지향은 다른 사람들에게 능력을 보여줘서 긍정적으로 평가받고 싶어하는 열망, 그리고 지성이 타고난 것이라고 믿는 열망을 반영합니다. 

Goal setting can support the acceptability and there- fore the impact of feedback by demonstrating its relevance.2 Goals should be personally meaningful and easily generated. Control theory argues that as individuals we try to match our behaviour to goals and standards.39 We therefore reflect and then try to modify behaviour or seek training, including external feedback, in order to improve our standing.39 Goals may be learning- or performance-orientated. 

    • Learn- ing orientation is associated with a desire to develop new skills and master new situations in the belief that intelligence is malleable. 

    • Performance orientation reflects a desire to demonstrate competence to others and to be positively evaluated by them in the belief that intelligence is innate. 


두 가지 유형의 목표 지향성은받는 사람이 작업의 어려움과 실패에 어떻게 반응하는지에 영향을줍니다. 

    • 학습 지향적 인 사람들은 실패에도 불구하고 계속해서 더 복잡한 학습 전략을 사용하고 도전을 추구합니다. 

    • 성과 지향적 인 사람들은 성공을 거의하지 않을 수있는 어렵고 도전적인 과제에 대해 더 쉽게 포기하고 덜 관심을 가지는 경향이 특징입니다. 

예상할 수 있듯이 학습 오리엔테이션이 긍정적인 결과와 관련이있다. 피드백은 수령자가 학습 지향적 인 자세를 취할 수 있도록 지원하는 한 가지 방법이다.


The two types of goal orientation influence how recipients respond to task difficulty and failure. 

    • Those who are learning-orien- tated continue despite failure, use more complex learning strategies and pursue challenges. 

    • Those who are performance-orientated are characterised by a tendency to give up more easily and have less interest in difficult, challenging tasks in which success is less likely. 

As might be expected, learning orientation is associated with more positive outcomes.13 Feedback is one way of supporting recipients to become more learning-orientated.




피드백의 효과

THE IMPACT OF FEEDBACK


개인

The individual


벨로 스키 (Veloski) 등 40)은 평가, 피드백 및 의사의 임상 성적을 조사한 Best Evidence Medical Education review를 출간했다. 그들은 피드백이 신뢰할 수있는 출처에서 체계적으로 전달 될 때 임상 적 성과를 바꿀 수 있다고 결론지었습니다. 이 연구에 포함되지 않은 다중 소스 피드백은 현재 실질적인 성능 변화를 지원할 수 있다는 확실한 증거가 부족하다.

Veloski et al.40 published a Best Evidence Medical Education review looking at assessment, feedback and doctors’ clinical performance. They concluded that feedback can change clinical performance when it is systematically delivered from credible sources. Multi-source feedback, which was not included in this study, currently lacks robust evidence that it can support substantive performance change.41


조직

The organisation


피드백은 일반적으로 개인에게만 초점을 맞추지 만, 피드백 제공이 조직 내의 문화적 변화의 일부인 경우 교육 프로그램에 대한 정보를 비롯한 기타 이점이있을 수 있습니다. 지지적 피드백은 직원의 사기와 유지에 도움이 될 수 있습니다.

Feedback is normally and understandably focused on the individual, but if the provision of feedback is part of a cultural change within an organisation, it may have other benefits, including the informing of training programmes. Overall sup- portive and supported feedback may be beneficial to staff morale and retention.43



부정적 효과

Negative impact


우리가 보았 듯이, 피드백 제공이 반드시 성과에 긍정적 인 변화를 가져 오는 것은 아닙니다 .2 실제로 부정적인 피드백을 받으면받는 사람이 여러 가지로 피드백을 쓸모없고, 부담스럽고, 비판적이거나 통제하는 것으로 믿을 수 있습니다. , Sargeant, 45)는 부정적인 피드백을받은 사람들은 종종 부정적인 반응을 보였고 그와 같은 상황에서는 피드백이 마비 상태임을 보여 주었다. 이러한 반응은 종종 강력하고 오래 지속되었습니다.

As we have seen, the provision of feedback does not necessarily result in a positive change in performance.2 Indeed, receiving negative feedback may lead the recipient to believe variously that the feedback is useless, burdensome, critical or con- trolling.44 For example, Sargeant,45 found that those who received negative feedback often responded negatively and in such away that demonstrated the feedback to be paralysing. The response was often strong and long-lasting. 



실용적 모델

THE PRACTICAL MODELS


  • '피드백 샌드위치'의 중심에 Personal preservation이 있습니다. 촉진자는 긍정적 인 것 사이에 더 중요한 피드백을 끼워 넣습니다. 이 모델은 인식 된 불의의 균형을 맞추거나 피함으로써 수령인과 공급자를 보호합니다. 그러나 이것은 정당한 비판에 대한 수령인의 잠재적 인 긍정적 반응을 감소시킬 가능성이있다. 촉진자는 피드백과 심리 사회적 요구 사이의 균형을 맞춤으로써 상호 정의를 보장합니다 .46 

  • 펜들턴의 규칙은 수령인이 피드백에 먼저 응답 할 수 있도록 더 양방향 프로세스를 포함하도록 피드백 샌드위치를 ​​만듭니다. 

  • 감정적 인 반응을 수용하는 것이 점점 중요 해지고 있습니다. ECO 모델은 결과Outcome를 확립하기 위해 내용Content을 탐색하기 전에 감정적인Emotional 반응을 조장합니다.

Personal preservation is at the centre of the ‘feedback sandwich’. Facilitators deliver the more critical feedback ‘sandwiched’ between the positive. This model shields both recipient and provider by balancing or avoiding perceived injustice. However, this is likely to reduce any potential positive response by the recipient to justifiable criticism. The facilitator balances feedback with the psychosocial needs of the recipient, ensuring interactional justice.46 Pendleton’s rules47 build on the feedback sandwich to include a more two-way process which allows the recipient to respond to feedback first. Accommodating an emotional response is increasingly recognised as important; the ECO model encourages an Emotional response prior to exploring Content in order to establish Outcomes.48



피드백의 새로운 모델: 문화와 연속체

A NEW MODEL FOR FEEDBACK: CULTURE AND CONTINUUM


모델의 문제점

  • 이러한 실용적인 모델은 환원주의적 접근 방식으로 제한됩니다. 그것들은 의료계의 실증주의적 패러다임의 위계적, '진단적'렌즈에 내장되어있다. 새로운 모델에는 양방향 상호 작용의 중요성을 인정하지만, 

  • 피드백은 교육자 중심의 단방향 프로세스로 남아 있어서, 전문가가 초보자를 지원한다는 고전적 위계 모델에 의해 제약을받습니다. 

  • 피드백은 또한 개인이 완치되기 위한 '문제'를 진단하는 것에 초점을 맞추었지만 치료법은 거의 제공되지 않습니다. 

  • 피드백을 제공하는 것은 종종 사후 고려 사항으로 간주되는데, 시간이 제약된 바쁜 임상상황에서 간과되는 경우가 많습니다.

These practical models are limited by their reduc- tionist approach. They remain embedded in the hierarchical, ‘diagnostic’ lens of the medical profession’s positivistic paradigm. There is an acknowledgement in later models of the impor- tance of two-way interactions, but feedback remains an educator-driven, one-way process. It is constrained by the classic medical hierarchical model, in which the expert supports the novice. Feedback has also focused on diagnosing ‘problems’ for individuals to have cured, yet rarely is a therapy offered. Feedback provision is often seen as an afterthought, which is then frequently overlooked in busy, time-constrained clinical settings.


피드백은 복잡하고 맥락적입니다. 대부분의 최신 모델은 복잡성을 제거 할뿐만 아니라 맥락을 제거합니다. 좋은 연습 프레임 워크는받는 사람의 컨텍스트, 포커스 및 형식에 따라 적용 할 수 있는 방식 일 수 있습니다.

Feedback is complex and contextual. As well as removing complexity, most current models remove context. A good practice framework, may be a more robust approach that can then be applied depending on the context of the recipient, focus and format.


피드백은 개인이 아닌 업무에 초점을 맞추어야합니다 .49 전반적인 피드백은 구체적이어야하며 15 높은 성취자는 단순한 검증verification 피드백 (정확하거나 그렇지 않은 것)만큼 이익을 얻을 수 있습니다. 그것은 개인 목표에 직접적으로 연결되어야합니다. 피드백은 자존심을 저해해서는 안되지만 단순히 칭찬으로 만 구성되어서는 안됩니다 .2 피드백 전달은 구체적인 사건에서 시간적으로 지연 될 수 있지만, 피드백이 근거하는 정보가 후향적으로 기록되어서는 안 된다. 동기부여된 수신자는 외부 소스로부터의 피드백을 쉽게 받아 들일 수 있습니다.

Feedback should focus on the task, not on the individual.49 Overall feedback should be specific15 and high achievers may benefit as much from simple verification feedback (correct or not). It should be directly linked to personal goals. Feedback should not undermine self-esteem, but should not simply consist of praise.2 Its delivery can be delayed from the event to which it refers but the information that informs the feedback should not be recorded retrospectively. Motivated recipients benefit from challenging facilitated feedback from external sources.



피드백의 문화

A CULTURE OF FEEDBACK


효과적인 피드백을 위해서는 수혜자의 reflection in action을 키워야한다 .50 이것은 외부 피드백에 의해 정보가 제공되는 자체 모니터링을 기반으로 구축되어야한다. 외부 피드백에 의해 정보가 제공되는 자가 모니터링에 대한 재 개념화는 pedagogical and external-looking.39이다.

To achieve effective feedback, the health professions must nurture recipient reflection-in-action.50 This needs to be built on self-monitoring informed by external feedback. A re-conceptualisation of self- monitoring informed by external feedback is pedagogical and outward-looking.33


이러한 통합된 방식을 달성하려면, 모든 활동에서 피드백이 암시적, 명시적으로 포함되고 학생들이 교사뿐만 아니라 학생에게 피드백을 피드백 문화로 발전시켜야 합니다. 조기 교육과 동료 피드백과 같은 경험은 시간이 지남에 따라 필요한 문화적 변화를 지원할 수 있습니다.

The way to achieve such an integrated approach must be to develop a feedback culture, in which feedback is embedded implicitly and explicitly in all activities and in which students feed back to teachers as well as teachers to students. Early training and experience such as with peer feedback may over time support the required cultural change.


이미 놓쳐서는 안되는 피드백을 제공 할 수있는 많은 기회가 있습니다. summative와 formative 피드백 사이의 인공적인 이분법은 모든 평가에서 잠재적으로 강력한 피드백을 생성하는 것을 방해합니다. 예를 들어, 우리는 대다수의 지분을 가진 시험에서, 특히 성공한 사람들에게 피드백을 거의주지 않습니다. 환자의 죽음이 항상 환자의 치료를 끝내는 것은 아닙니다. 사후 부검은 현대 서구 사회에서 인기가 없을 수도 있지만, 적절하다면 환자의 보살핌에서 중요한 마지막 단계로 항상 의료계에서 보아왔다. 졸업시험과 같은 고부담 시험에서도 학습자에게 피드백을 제공해야합니다. 사후 부검처럼 평가되는 평가는 학습자의 진전뿐만 아니라 교육에도 도움이되는 기회입니다. 그렇지 않으면 평가는 평생 학습의 연속에서 분리됩니다.

There are already many opportunities to provide feedback which should not be missed. The artificial dichotomy between summative and formative feedback often distracts from generating poten- tially powerful feedback from all assessment. For example, we often give little feedback from high- stakes written examinations, especially to those who are successful. The death of a patient does not always end his or her care. The post-mortem examination may be unpopular in modern western society, but, when appropriate, it has always been seen by the medical profession as an important last stage in the care of the patient. High-stakes assessment even for an exit examination should provide feedback to the learner. Assessment, viewed as if it were a post-mortem examination, represents an opportunity to benefit learners’ education, not only their progression. Assessment otherwise is disassociated from the continuum of lifelong learning.




피드백 연속체

THE FEEDBACK CONTINUUM


최근 Cochrane review51의 저자는 감사 및 성과 피드백가 전문적 행위을 개선하는 데 효과적 일 수 있지만 효과는 일반적으로 작다고 결론지었습니다. 따라서 촉진은 잠재적으로 피해를주는 부정적인 피드백을 얻을 수 있고 긍정적 인 결과를 창출하는 데 활용할 수 있다는 점에서 피드백 성공의 핵심이다. 피드백은 일련의 관련이 없는 사건이 아니라, 지원되는 순차적인 과정으로 개념화되어야한다. 이 지속적인 접근방식 만이 모든 효과를 극대화 할 것입니다.


The authors of a recent Cochrane review51 concluded that the impact on doctors of audit and performance feedback data could be effective in improving pro- fessional practice but that the effects were generally small. Facilitation is therefore central to feedback success in that it can take potentially damaging negative feedback2 and use it to create positive outcomes.21 Feedback must be con- ceptualised as a supported sequential process rather than a series of unrelated events. Only this sustained approach will maximise any effect.


이를 위해서는 확고하고 장기적인 전문직 관계가 필요합니다. Apprenticehip 모델은 더 이상 많은 임상 환경에서 지속 가능하지 않음에도, 대부분의 보건 전문 교육 프로그램은 개인을 지원하기위한 감독 형태를 점점 더 중요시하고있다. 관리자는 개인의 프로필을 제공하기 위해 피드백 소스를 대조하는 것이 좋습니다. 다양한 출처의 프로필은 발전과 의사 결정에 필요한 퍼포먼스에 대한 조직적 기억을 제공합니다. 개인에게는 도전적이지만 위협적이지 않은 퍼실리테이션에 의해 뒷받침되는 성찰에 필요한 자료이다.

This requires established, longer-term professional relationships. An appren- ticeship model is no longer sustainable in many clinical settings,52 but most health professional edu- cation programmes increasingly advocate forms of supervision for supporting individuals. Supervisors appear to be well placed to collate sources of feedback to provide a profile of and for an individual. This profile from many different sources provides an organisational memory of performance for development and, when required, decisions. More importantly for the individual, it becomes a resource to inform reflection supported by challenging but non-threat- ening facilitation.




37 Mann K, Gordon J, McLeod A. Reflection and reflective practice in health professions education: a systematic review. Adv Health Sci Educ 2009;14:595–621.



 2010 Jan;44(1):101-8. doi: 10.1111/j.1365-2923.2009.03546.x.

State of the science in health professional educationeffective feedback.

Author information

1
Institute of Clinical Education, Peninsula College of Medicine and Dentistry, University of Plymouth, Plymouth, UK. julian.archer@pms.ac.uk

Abstract

BACKGROUND:

Effective feedback may be defined as feedback in which information about previous performance is used to promote positive and desirable development. This can be challenging as educators must acknowledge the psychosocial needs of the recipient while ensuring that feedback is both honest and accurate. Current feedback models remain reductionist in their approach. They are embedded in the hierarchical, diagnostic endeavours of the health professions. Even when it acknowledges the importance of two-way interactions, feedback often remains an educator-driven, one-way process.

LESSONS FROM THE LITERATURE:

An understanding of the various types of feedback and an ability to actively seek an appropriate approach may support feedback effectiveness. Facilitative rather than directive feedback enhances learning for high achievers. High-achieving recipients undertaking complex tasks may benefit from delayed feedback. It is hypothesised that such learners are supported by reducing interruptions during the task. If we accept that medical students and doctors are high achievers, we can draw on some guiding principles from a complex and rarely conclusive literature. Feedback should focus on the task rather than the individual and should be specific. It should be directly linked to personal goals. Self-assessment as a means to identify personal learning requirements has no theoretical basis. Motivated recipients benefit from challenging facilitated feedback from external sources.

A NEW MODEL:

To achieve truly effective feedback, the health professions must nurture recipient reflection-in-action. This builds on self-monitoring informed by external feedback. An integrated approach must be developed to support a feedback culture. Early training and experience such as peer feedback may over time support the required cultural change. Opportunities to provide feedback must not be missed, including those to impart potentially powerful feedback from high-stakes assessments. Feedback must be conceptualised as a supported sequential process rather than a series of unrelated events. Only this sustained approach will maximise any effect.

Comment in

PMID:
 
20078761
 
DOI:
 
10.1111/j.1365-2923.2009.03546.x


개인주의를 넘어서: 전문직 문화가 피드백에 미치는 영향(Med Educ, 2013)

Beyond individualism: professional culture and its influence on feedback

Christopher Watling,1 Erik Driessen,2 Cees P M van der Vleuten,2 Meredith Vanstone3 & Lorelei Lingard4






도입

INTRODUCTION


교사로부터 받는 피드백은 교육 과정의 핵심 부분이어야합니다. Kluger와 DeNisi는 다양한 학습 환경에서 연구된 피드백에 대한 메타 분석에서 피드백이 전반적인 성과에 약간의 유익한 영향을 미쳤지만 1/3 정도에서는 실제로 해가된다는 것을 발견했습니다. 피드백은 특히 자존심을 위협하는 것으로 인식 될 때 해로울 수 있습니다.

Feedback from teachers to learners should be a vital part of any educational process. Kluger and DeNisi,1 in a meta-analysis of feedback interventions studied across a range of learning contexts, found that although feedback had a modestly beneficial effect on performance overall, it was actually harm- ful to performance about one third of the time. Feedback was especially likely to be harmful when it was perceived as threatening to self-esteem.


많은 저자들은 개인의 피드백에 대한 개인의 인식이 어떻게 그 피드백을 다루는 지, 그것이 행동이나 성과에 영향을 주는지 여부에 대해 조사했습니다. 직원 성과 평가에 대한 산업 심리학 연구는 프로세스의 공정성, 정확성 및 합법성에 대한 직원의 인식이 효과에 큰 영향을 미칠 수 있음을 보여주었습니다 .2-4 이 연구는 놀랍게도 수행이 부적절하여 피드백이 가장 필요한 직원이 가장 덜 수용적임을 보여주었다
A number of authors have explored how individu- als’ perceptions of the feedback they receive shape how they handle that feedback, and whether or not it influences behaviour or performance. Industrial psychology research on employee performance appraisals has shown that employees’ perceptions of the fairness, accuracy and legitimacy of the process can significantly influence its impact.2–4 Soberingly, this work concluded that the employees who most need feedback because of performance inadequa- cies may be least receptive to it.5 

의학 교육도 피드백에 대한 학습자 인식의 영향을 깨달았다. Sargeant 등은 다중 소스 피드백을 받으면 가정의를 연구하여, 피드백이 부정적이거나 자기 평가와 충돌하는 경우에 피드백을 잘 수용하지 않았으며, 오히려 그러한 피드백을 만들어낸 프로세스에 문제가 있다고 인식했습니다 .9 마찬가지로 의학 학습자는 피드백이 믿을만하지 않다고 판단하면 이를 무시합니다.8
Medical education, too, has recognised the impact of learners’ percep- tions of feedback processes.6–9 Sargeant et al., study- ing family doctors in receipt of multi-source feed- back, showed that those who received feedback that was negative and in conflict with their self-assess- ment tended to be unreceptive to it and, instead, perceived the process that generated the feedback as flawed.9 Similarly, our own work demonstrated that medical learners might discard feedback if they judge it to lack credibility.8

피드백에 대한 개인의 반응에 관한이 연구에서 아직 개인이 피드백을 다루는 방식에 영향을 미칠 수있는 학습 환경 내의 사회적 및 문화적 요인에 대한 조사를 부족하다. 학습과 피드백 교환은 진공상태에서 일어나지 않습니다. 오히려 그들은 특정 환경, 상황 및 전문 문화에서 발생합니다. Shulman은 전문직 종사자들이 자신의 지식을 교육하는 과정을 이해하기 위해 서명 교육학signature pedagogies의 개념을 제안했습니다 .10 이러한 서명 교육은 자신이 포함하는 규칙, 책임 및 구조와 함께 한 전문직에서 지식으로 간주되는 요소를 정의하고 효율성을 높일 수 있습니다. 그러나 이러한 학습의 취약점은 제한된 범위의 학습으로 광범위한 학습을 ​​강요하여 배운 것을 왜곡시킬 수 있다는 것입니다 .10 궁극적으로 signature pedagogies은 선택을 수반하며, 이러한 선택은 필연적으로 특정 결과는 전문가로서 준비과정의 다른 잠재적으로 중요한 측면을 다루지 못하게 된다.10 이러한 문화마다 독특한 교육적 선택이 피드백을 관리하는 방법에 미치는 영향은 조사되지 않았다.

Missing from this growing literature on individual responsiveness to feedback is an examination of the social and cultural factors within the learning envi- ronment that may influence how feedback is han- dled. Learning and the exchange of feedback do not occur in a vacuum of individualism. Rather, they occur in a specific setting, context and profes- sional culture. Shulman has proposed the notion of signature pedagogies to understand the processes by which professions educate their own.10 These signa- ture pedagogies, with the rules, responsibilities and structures they contain, define what counts as knowledge in a profession and can promote effi- cient learning.10 The vulnerability of signature pedagogies is that they may force a wide range of learning into a limited range of teaching, thus dis- torting what is learned.10 Ultimately, signature peda- gogies involve choices, and these choices inevitably support certain outcomes while failing to address other potentially important aspects of professional preparation.10 The impact of these culturally dis- tinct pedagogical choices on how feedback is han- dled has not been examined.


학습을 위한 피드백의 힘을 이용하려면 학습자가 어떻게 반응하고 왜 반응하는지 또는 왜 실패하는지 이해해야합니다. 개개인 학습자를 분석 단위로 삼는 학습에 대한 연구는 "학습은 순수한 내적인지 과정"이라고 가정하는데 문제가 있다. 개별 학습자의 심리학 내에서 존재하는 피드백 반응에 대한 영향은 중요하지만 그 자체로는 설명이 충분하지 않습니다. 이 연구에서는 의학, 교육 및 음악의 세 가지 고유 한 전문 문화에서 피드백을 탐구했습니다.

To harness feedback’s power to shape learning, we must understand how and why learners respond or fail to respond. Studies of learning that take the individual learner as the unit of analysis make an inherently problematic assumption that learning is a purely internal cognitive process.11 The influences on feedback responses that exist within the psychol- ogy of individual learners, although important, are only part of the puzzle and by themselves offer insufficient explanations. In this study, we explored feedback in the three distinct professional cultures of medicine, teaching and music.





방법

METHODS


For this exploratory study, we used a constructivist grounded theory approach, in which the vantage points of participants and researchers alike are accounted for as data are interpreted.12 In the constructivist paradigm, particular attention is paid to reflexivity.13 Researchers must not only reflect on their own backgrounds and how these influence their approach to the subject, but must also share these reflections with readers in order to provide a meaningful interpretation of the work. The lead author (CW) is a doctor; his collaborators represent a range of non-medical disciplines including educa- tion (ED), psychology and psychometrics (CvdV), qualitative health research (MV) and rhetoric (LL). Two of the researchers (CW and LL) have signifi- cant training in music. Although all of the research- ers would consider teaching to be part of their professional identities, none has undergone the type of teacher training that supports the culture we studied.


  • Focus groups were our primary vehicle for data col- lection as we anticipated that the interactions among participants might be usefully revealing of culture. 

  • In addition, we interviewed key informants within music and education in advance of focus groups to obtain necessary background information about how learning was structured in these fields and to understand the language of training. Background interviews were felt to be unnecessary in medicine, given the lead author’s first-hand experi- ence of this training culture and his co-authors’ experience in studying this culture. 

  • Finally, we conducted additional individual interviews later in the research process to elaborate early focus group findings.


Our sampling strategy for both focus groups and interviews was purposive, with all participants recruited from one Canadian university. 

  • For focus groups in medicine, we recruited both residents from a range of specialties and senior medical stu- dents, anticipating that the insights offered might vary depending on the level of training of the learners and the extent to which they had become part of the professional culture. 

  • For focus groups in the context of music, we recruited undergradu- ate students. Because music students need to have a significant background in music in order to be accepted into an undergraduate programme, we reasoned that undergraduate students would be suf- ficiently acquainted with the professional culture of music to inform our research. 

  • Teacher training at our university involves a 1-year programme, entry to which demands the completion of at least an undergraduate degree. Because we wanted to focus on the experience of the ‘practicum’ method of training, in which students go into schools to obtain real teaching experience, we recruited from students on this 1-year programme. 

Initial recruit- ment was by an e-mail invitation sent to all senior medical students, residents, undergraduate music students and teacher training students at this university.



In total, data were derived from 50 participants. 

  • A total of 41 learners (eight medical students, 12 res- idents, 13 music students and eight student teach- ers) participated in 12 focus groups (two with medical students, three with residents, four with music students and three with student teachers). 

  • We conducted three background key informant interviews, including one with a music professor and two with education professors with experience as both teachers and educators of teachers. 

  • We encountered unexpected challenges in recruiting student teachers to focus groups and felt that our data required enrichment beyond the three focus groups conducted; therefore, we conducted individual interviews with three recent graduates of the teacher training programme and one doctor who had completed teacher training and had worked as a teacher prior to medical training. 

  • Finally, we interviewed two doctors with extensive training and professional experience in music to provide additional perspectives. The study received approval from the university’s research ethics board and all participants provided informed consent.


Focus groups and interviews were semi-structured, eliciting discussion and elaboration of the experi- ence of learning and receiving feedback within each professional culture. 

  1. Focus group discussions and interviews were recorded and transcribed verbatim without identifying information. 

  2. Data were analysed using the constant comparative approach customary in grounded theory.13 Analysis occurred alongside and informed data collection: initial transcripts were read in detail by two researchers (CW and MV), who identified emerging themes, some of which were specifically explored in subsequent focus groups and interviews. 

  3. As new data were collected, the same two researchers read each new transcript and re-examined earlier transcripts, developing in the process coding schemes for organising and classifying data. 

  4. By comparing and discussing their cod- ing approaches, these two researchers reached consensus on a robust coding system that could be applied to the entire dataset. 

  5. Periodic discussion of emerging themes with the entire research team informed the coding process and refined the approach to data collection. 

  6. Consistent with a theo- retical sampling approach, data collection continued until thematic saturation was achieved.13,14 As saturation is based on theoretical rather than statisti- cal considerations, the resulting numbers of partici- pants varied modestly across the three fields studied. 

  7. Once the complete dataset had been classi- fied using the refined coding scheme, the level of analysis was raised from the categorical to the conceptual by the examination and elaboration of the relationships among the concepts. 

  8. Finally, we con- sidered our conceptual analysis in light of existing theories of learning, exploring how our findings aligned with, elaborated or challenged these constructs.








RESULTS


우리의 분석은 전문적인 문화를 통해 피드백이 관리되는 방식에 있어 변수와 상수를 모두 보여주었습니다. 각 전문문화는 세팅, 학습자 역할, 교사 역할을 통해서 독특한 학습 맥락을 만들었고, 이것은 피드백이 처리되는 방식에 영향을주는 주었다. 이러한 차이에도 불구하고 신뢰성과 구성성은 상수로 나타났으며, 이것들은 모든 문화에서 학습자들이 피드백을 의미있는 것으로 인식하기 위해서는 필요했다. 그러나 신뢰와 구성성의 정의는 각 직업 문화마다 뚜렷했으며, 피드백이 이러한 특성을 갖도록 하는 지원은 문화에 따라 상당히 다양했다.

Our analysis revealed both variations and constants in how feedback is managed across professional cul- tures. Each professional culture, through the set- tings and opportunities for feedback it provided, and the roles it expected teachers and learners to play, created a distinct context for learning that influ- enced how feedback was handled. Despite these dif- ferences, credibility and constructiveness emerged as constants, identified by learners across cultures as essential for feedback to be perceived as meaning- ful. The very definitions of credibility and construc- tiveness, however, were distinct to each professional culture, and support for the occurrence of feedback with these critical characteristics varied considerably across cultures.


맥락

Context


학습 세팅

Settings for learning


의학 및 교사 훈련은 직장 환경에서 확고하게 학습을 배웠습니다. 의료 학습자는 순간적 피드백이 산발적으로 발생하는 까다로운 임상 환경에 몰입하여 학습함으로써 독립적으로 기능 할 수있는 기회를 중요하게 생각했습니다. 언제 피드백을 줄 수 있을지 예측할 수 없었기에, 의학은 피드백이 정기적으로 제공되도록 순환 종료 평가와 같은 공식 기회를 제공했습니다. 그러나 많은 학습자들은 이 공식화 된 피드백이 실질적으로 도움이 되지 못한다고 하였는데, 왜냐하면 이벤트에서 (시간적으로) 너무 멀리 떨어져 의미가 없고, 너무 구체적이지 못하고, 감독관이 상요하는 피드백 양식이 충분한 정보조차 가지고 있지 않은 학습자의 수행능력 측면에 대해 의견을 제시하도록 강제했기 때문이다.

Medicine and teacher training placed learning firmly in the workplace setting. Medical learners valued opportunities to function independently, learning by immersion in unruly clinical environ- ments in which in-the-moment feedback occurred only sporadically. Perhaps in response to the unpredictable nature of in-the-moment feedback, medicine provided formal opportunities, such as end-of-rotation evaluations, to ensure that feedback was given regularly. Many learners complained, however, that this formalised feedback lacked substance, either because it was non-specific or too far removed from the event to be meaningful, or because the feedback forms supervisors were required to use forced them to comment on aspects of learner performance about which they had insufficient information.


의료 훈련에서 의무화 된 형식적 피드백으로 인해, 실질성substance이 부족했고, 이는 일반적으로 피드백에 대해 학습자가 느끼는 가치를 시간이 지남에 따라 감소시키기도 했다.

This lack of substance, characteristic of much of the mandatory formalised feedback in medical training, could, over time, diminish the value that learners placed on feedback in general,


음악 내에서 학습 설정에는 일주일에 1 : 1 레슨뿐만 아니라 오랜 시간 동안 연습실에서 혼자 일하는 것이 포함되었습니다. 수업은 반복되는 성과, 피드백 및 교정 과정을 포함했습니다.

Within music, learning settings included weekly one-to-one lessons as well as long hours working alone in the practice room. Lessons involved a repeating process of performance, feedback and correction:


"..."아니, 충분하지 않아. ""네가 충분히 좋게하기 위해해야 ​​할 일이야. "(음악 교수, 인터뷰 3)

‘…a combination of “No, that’s not good enough” [and] “This is what you need to do to make it good enough.”’ (Music professor, inter- view 3)




선생님의 역할

Role of the teacher


의학적 학습자는 감독자가 교사와 임상의로서의 이중 역할을 하고 있음을 인정했지만, 이러한 역할의 위계에 대해 거의 의문을 품지 않았다.

Medical learners acknowledged the dual roles of their supervisors as teachers and clinicians, leaving little doubt about the hierarchy of these roles:


학습자는 교육보다 진료에 우선을 두는 문화적 특권이 양질의 피드백의 availability에 영향을 미친다고 생각했다.

Learners recognised the impact of this cultural privi- leging of patient care over teaching on the availabil- ity of quality feedback:


세 문화권 중에서 유일하게 의학적 학습자는 때로는 그들의 존재가 교사들에게 부담이된다는 것을 느꼈습니다.

Uniquely among the three cultures, medical learn- ers sometimes even felt that their presence was a burden on their teachers:


교사 연수에서는 감독자가 보다 중심적 인 역할을 맡았는데, 여기에는 수업 할당 제어, 일관되게 학생의 성과 관찰 및 광범위한 피드백 제공이 포함되었습니다. 학생들은 자신이 받은 피드백을 이해하고 통합했음을 증명할 수있는 기회가 있다는 것을 중요하게 여겼다.

In teacher training, the supervisor assumed a more central role that included controlling lesson assign- ments, consistently observing the student’s perfor- mance and offering extensive feedback. Students, in turn, valued opportunities to demonstrate that they had understood and incorporated the feedback they received:


의학적 학습자처럼, 학생 선생님은 learned by doing했지만, 의학과는 달리, '하는 것'은 감독자의 지속적인 안내와 피드백에 의해 지원되었습니다.

Like medical learners, student teachers learned by doing, but, unlike in medicine, the ‘doing’ was sup- ported by continuous guidance and feedback from supervisors.

더 선명하고 대조적으로, 음악 학생의 학습은 교사 중심이었습니다. 숙련 된 교사의 지시없이 성취도를 향상시키는 것은 상상도 할 수없는 것이었다. 선생님의 의견 이외에 학습에 대한 유용한 영향을 파악하려는 한 학생의 노력은 전형적이었습니다.

In even sharper contrast, music students’ learning was very much teacher-focused; to improve in per- formance without instruction from a skilled teacher was reportedly unimaginable. One student’s struggle to identify useful influences on learning other than input from a teacher was typical:



'항상 선생님에게 의지 할 수 있습니다. 선생님께 무엇을해야할지 항상 물어볼 수 있습니다. 그들은 당신을 안내 할 수 있습니다. '(음악 학생, FG6)

‘You can always rely on your teacher, you can always ask your teacher what to do; they can guide you.’ (Music student, FG6)



(음악에서) 교사의 역할은 없어서는 안되는 것이었고, 피드백은 필수적이었다.

As the teacher’s role was so indispensable, feedback was considered vital:


학습자의 역할

Role of the learner


의료 학습자는 피드백을 (능동적으로) 찾는 데 대한 책임감을 인정했으며,

Medical learners accepted some responsibility for seeking feedback,



"의견이 충분하지 않다고 말할 수는 있지만, 나는 많은 어려움이 학습자에게 있다고 생각합니다 ... 나는 항상 그것이 내게 수작업으로 제공 될 것이라고 기대할 수는 없습니다."(Resident, FG2)

‘We can say that there’s not enough feedback, but I think a lot of times the onus is on the lear- ner… I can’t just always expect it to be hand-fed to me.’ (Resident, FG2)



이와는 대조적으로 학습자가 피드백을 이끌어낼 책임을 져야한다는 생각은 다른 전문 문화에서는 낯선 것이었다. 교사 훈련에서 학습자가 요구할 필요없이 일상적으로 피드백을 제공했기 때문에 피드백을 찾는 행동은 피드백이 수신되는지 확인하기보다는 설명을 얻거나 특정 질문에 응답하기위한 것이 었습니다. 음악에서 피드백 추구 행동은 완전히 불필요한 것처럼 보였습니다.

By contrast, the idea that learners should take responsibility for inviting feedback was more foreign to the other professional cultures. In teacher train- ing, feedback was provided routinely without the learner needing to ask for it, so feedback-seeking behaviour, when it occurred, was intended to obtain clarification or to respond to specific questions, rather than to ensure that feedback would be received at all. In music, feedback-seeking behaviour appeared to be entirely unnecessary.



'아니. (피드백은) 당신이 원하든 원치 않든간에 온다. '(음악 학생, FG9)

‘No. It comes whether you want it or not.’ (Music student, FG9)



신뢰도

Credibility


모든 문화에서 학습자들이 피드백을 얼마나 신뢰하는지가 그것이 의미있는 영향을 줄 수 있는 가능성에 강력한 영향을 미쳤다. 그러나 '신뢰성'이 모든 학습자에게 동일한 의미를 지니지는 않았다. 오히려 신뢰성에 대한 개념은 피드백이 제공된 전문 문화의 지울 수 없는 특성을 지니고 있었다. 예를 들어, 문화마다 피드백의 신뢰도에 영향을 주는 것이 달랐다. 의학 학습자들은 가르치는 능력이 중요하다는 것을 인정하면서도, 피드백의 신뢰성을 결정 짓는 강력한 요소로 감독자의 임상 기술을 꼽았다.

Learners across cultures identified the perceived credibility of the feedback they received as a power- ful influence on its likelihood of meaningfully impacting them. Credibility, however, did not have the same meaning for all learners; rather, notions of credibility bore the indelible stamp of the pro- fessional culture in which feedback was provided. For example, the culture shaped how teachers acquired credibility as sources of feedback. Medical learners, although they acknowledged teaching abil- ity as a desirable attribute, identified the clinical skills of their supervisors as a stronger determinant of the credibility of their feedback.



'교수가 환자와 상호 작용하는 것을 보았을 때 나는 그들의 행동이나 다른 사람들과 의사 소통하는 방식에 의구심을 표한다. 나는 그들의 피드백을 viable하다고 생각하지 않는다.'(Resident, FG2)

‘If I’ve seen them interacting with patients… and I’m questioning their performance or the way they communicate with other people, I don’t take their feedback as viably.’ (Resident, FG2)


'... 우리는 놀랍게도 실제로 교실에 오지 않은 교수진이 있습니다. 신뢰성은 그럴 때 떨어진다 '(교육 교수, 인터뷰 2)

‘…we have some faculty, surprisingly, who have never actually been in a classroom. I would say that’s where the credibility falls down.’ (Educa- tion professor, interview 2)


의학과 교수법과는 대조적으로, 음악 학생들은 훌륭한 연주 기술을 가진 학생들보다 교육용 기술이 잘 발달 된 교사를 선호했습니다. 음악 교사의 경우, 도움이되었지만 불충분 한 수행 능력; 교사는 또한 학생의 성과를 향상시키기위한 지침을 제공 할 수 있어야했습니다.

By sharp contrast with medicine and teaching, music students preferred teachers with well-developed instructional skills over those with virtuoso perfor- mance skills. For music teachers, the ability to per- formwas helpful but insufficient; a teacher also needed to be able to provide guidance to advance the student’s performance.


음악은 우리가 공부 한 세 가지 문화 중 유일하게 교사의 신뢰도가 부분적으로 교사의 학생의 수행능력에 의해 결정되었습니다. 열매를 맺는 학생들을 많이 보았던 선생님 (음악 학생, FG8)에 대한 음악 학생의 존경심은 강사 또는 멘토로서의 능력에 중점을두고 있으며, 자기자신의 능력에서 벗어났습니다. 한 사람.

Music was the only one of the three cultures we studied in which a teacher’s credibility was deter- mined, in part, by the performance of that teacher’s students. Music students’ respect for ‘the teachers you see who have had a lot of fruitful students’ (music student, FG8) signalled a shift in emphasis towards a teacher’s abilities as an instructor or men- tor, and away from his or her abilities as a per- former.


문화는 또한 신뢰가 위협받을 수있는 상황을 만들었습니다. 의학 학습자는 종종 관찰되지 않은 결과에 대한 피드백을 받았다.

Culture also created circumstances under which credibility might be threatened. Medical learners frequently received feedback on unobserved perfor- mances:


반대로 음악 학생은 자신의 공연을 보거나 들은 적이 없는 교사가 제공 한 피드백을 상상하지 못했으며, 그러한 것을 묻는 것 자체를 놀랍게 여겼다. 마찬가지로, 교육 문화에서, 직접 관찰없이 피드백을 창출 할 수 있다는 생각은 매우 낯선 것이었다.

Music students, by contrast, could not provide any examples of feedback being given by a teacher who had not seen or heard their performance; their sur- prise at even being asked this question suggested that this approach to feedback was alien to their cul- ture. Similarly, in the education culture, the very idea that feedback could be created without this level of observation was foreign:


의학에서는 관찰의 빈도가 적음에도 불구하고, 학습자는 여전히 관찰과 피드백의 신뢰성 사이의 강한 연관성을 확인했다.

Despite the infrequency of observation in medicine, learners still identified a strong link between obser- vation and the perceived credibility of subsequent feedback:


'나는 어떤 피드백이 정확하다고 생각한다면, 피드백에 매우 개방적이다. 특히 나를 관찰 한 사람이 지적할 경우에 그렇다.'(Resident, FG1)

‘I’m pretty open to [feedback], especially if I know it’s very accurate… and it’s being pointed out by a person who has observed me.’ (Resident, FG1)



구성성

Constructiveness


세 문화권 모두에서 학습자는 건설적인 것으로 인식되는 피드백을 선호했으나, '건설적'을 어떻게 정의하는가는 문화마다 다양했다. 음악에서 건설적인 것으로 여겨지는 피드백은 비판적이거나 교정적인쪽으로 기울어졌으며 학생들은 칭찬은 도움이되지 않는 것으로 평가 절하되었습니다.

Across all three cultures, learners preferred feed- back that they perceived as constructive, but again there were cultural variations in how constructive- ness was defined. Feedback that was considered to be constructive in music tended towards the critical or corrective, and students devalued praise as unhelpful:


음악 학생들은 교정적 피드백을 (부정적 피드백이 아닌) '긍정적 인 비판'(음악 학생, FG6)으로 개념화하였다. 대조적으로, 교사 훈련에서 건설적인 피드백은 긍정적인 측면에 확고하게 뿌리를 내리고, 좋은 성과를 강화하고 비평은 개선을 위한 제안으로 프레임하는 것이었다.

Music students appeared to readily appreciate the benefits of corrective feedback, conceptualising it as ‘positive criticism’ (music student, FG6) rather than as negative feedback. By contrast, feedback consid- ered to be constructive in teacher training was firmly rooted in positivity, reinforcing good perfor- mance and framing criticism as suggestions for improvement.



'그녀는 언제나 ' 가지 장점과 한 가지 고칠 점'을 말한다. 당신은 항상 두 가지 긍정적 인 말을하고 다음 단계를 수행합니다. 그래서 항상 건설적입니다. '(학생 교사, FG10)

‘She’d always do the “two stars and a wish”. You always say two positive things and then you do the next step. So, it’s always very constructive.’ (Student teacher, FG10)


의학에서 칭찬과 비판은 환경에 따라 건설적인 것으로 간주 될 수 있습니다. 긍정적 피드백은 특히 훈련 초기에 자신감을 확립하거나 구축 할 때 건설적인 것으로 간주되었습니다. 교정 피드백은 주의가 필요한 약점을 강조 할 때 건설적으로 여겨졌다.

In medicine, both praise and criticism could be considered constructive, depending on the circum- stances. Positive feedback was viewed as construc- tive when it established or built confidence, especially early in training. Corrective feedback was viewed as constructive when it highlighted weak- nesses requiring attention



모든 문화에서 공통적인 핵심 구성는 피드백을 행동 계획과 통합하는 것이었습니다. 개선을 위한 전략을 간략히 제시 한 실행 계획은 교정적 피드백조차도 건설적인 것으로 인식하게 해주었다. 그러나 행동계획의 퀄리티는 문화마다 달랐다. 음악 학생들은 상세하고 도움이되는 행동 계획을 빈번하게 언급했고,

A key element of constructiveness, common across cultures, was the incorporation of an action plan with feedback. An action plan, outlining a strategy for improvement, could permit even corrective feedback to be perceived as constructive. Cultures varied, however, in the typical quality of their action plans and thus in the extent to which the constructiveness of feedback was supported. Music students, in particular, spoke frequently of detailed and helpful action plans,


대조적으로 의학 학습자는 명시 적 행동 계획과 관련된 피드백의 사례를 떠올리기 위해 애를 썼다. 최악의 경우 실천 계획은 존재하지 않았으며, 기껏해봐야 디테일이 부족한 계획에 불과했다.

Medical learners, by contrast, struggled to provide examples of feedback linked to an explicit action plan. Action plans were non-existent at worst and under-detailed at best:




'의학에서 의사 소통은 매우 모호 할 수 있습니다. "더 많이 읽어야합니다."또는 "지식 기반이 부족합니다."(의사와 음악가, 인터뷰 8)

‘In medicine it can be very vague, like: “You need to read more” or “Your knowledge base is lack- ing.”’ (Doctor and musician, interview 8)



'그것이 부정적인 이유나 내가 그것을 어떻게 긍정적으로 만들 수 있는지에 대한 피드백이없는 부정적인 진술 일 뿐이라면, 그것은 나에게 와닿지 않을 것이며, 나는 그것을 수행하지 않을 것입니다.'(Resident, FG1)

‘If it’s just a negative statement without any feed- back on why it’s negative or how I can make it positive, then it wouldn’t stick with me, and I wouldn’t carry it on.’ (Resident, FG1)



고찰

DISCUSSION


피드백은 단순히 개인 간의 대화가 아닙니다. 그것은 복잡한 정보 교환이며, 사회 문화적 상황이 의미를 형성합니다. 지금까지 교육 문화가 피드백에 미치는 영향은 의학 교육 연구자들에게는별로 관심을받지 못했다. 이것은 아마도 학습에 대한 개인 수준의 이론에 특권을 부여하는 오랜 경향과 일치 할 것이다 .15,16 의학에서의 임상 교육은 주로 경험적이며 따라서 임상 학습의 성격을 탐구하는 연구의 대부분은 개인이 자신이 경험 한 것을 어떻게 해석하고 이해하는지에 초점을 맞추고있다. 반면에 사회 문화적 학습 이론은, 학습이 특정 상황에 놓여있는 것으로 학습을 본다. 학습에 대한 개인 이론 및 사회 문화적 이론은 서로 대립 할 필요가 없다 .20) 오히려, 개인의 학습과 경험에 대한 개인의 해석과 학습이 이루어지는 문화, 상황 및 환경은 학습 결과 형성에 기여한다.

Feedback is not merely a conversation between indi- viduals; it is a complex information exchange, the social and cultural contexts of which shape its meaning for learners. Until now, the effect of train- ing culture on feedback has received little attention by medical education researchers, which is perhaps consistent with the field’s longstanding tendency to privilege individual theories of learning.15,16 Although clinical education in medicine is primarily experiential and therefore heavily contextualised, most of the work exploring the nature of clinical learning has focused on how individuals interpret and make sense of the experiences they have.8,17 Socio-cultural learning theories, by contrast, view learning as situated within specific contexts and cul- tures.16,18,19 Individual and socio-cultural theories of learning need not be placed in opposition to one another.20 Rather, both the individual’s own inter- pretations of the events and experiences that com- prise his or her learning and the culture, context and environment in which the learning takes place contribute to shaping learning outcomes.21



의학교육에서 피드백은 개인의 피드백 전달 기술에 초점을 맞추는 경향이 있으나, 이는 피드백 개선에 문제가 된다. 사회 문화적 렌즈를 통해 볼 때 부적절한 개인을 타겟팅하는 접근법이 명확 해집니다. 피드백 전달은 확실히 강화 될 수 있지만, 교육자는 개별 학습자가 갖는 피드백에 대한 인식orientation에 영향을 줄 수있는 능력이 제한적입니다. 따라서 피드백의 영향력을 강화할 수있는 가장 좋은 기회는 이를 뒷받침 할 수 있는 문화적 발판을 마련하는 것입니다.

Our elaboration of feedback’s critical cultural dimension exposes as problematic many of our cur- rent approaches to improving feedback in medical education, which tend to focus on the feedback delivery skills of individuals.22,23 Viewed through a socio-cultural lens, the inadequacies of approaches targeting individuals become clear. Although feed- back delivery can certainly be strengthened, educa- tors have only a limited ability to influence the feedback orientation of individual learners. The richest opportunities to strengthen the impact of feedback may therefore involve creating the neces- sary cultural scaffolding to support it.



Shulman은 서명 교육에 관한 연구에서 다른 직업의 교수법에 대한 비교가 효과적 일 수 있으며, 기존에 고려되지 않았던 교육 향상에 대한 새로운 접근법을 제시 할 수 있다고 설명합니다. 교사 교육과 음악과 함께 의학의 학습 문화에 대한 우리의 비교 적 고려는 서명 교육이 다른 결과를지지하면서 다른 결과를지지하는 선택을 포함한다는 Shulman의 전제를 명백하게 보여줍니다.

In his work on signature peda- gogies, Shulman10 comments that comparisons of the pedagogies of different professions may be fruit- ful and may offer approaches to improving educa- tion that might not otherwise have been considered. Our comparative consideration of medi- cine’s learning culture alongside that of teacher education and music starkly demonstrates Shul- man’s premise that signature pedagogies involve choices that support certain outcomes while con- straining others.10


교사 교육 및 음악과 비교하여, 우리는 의학의 현재 훈련 문화가 사실상 피드백 문화가 아니라는 것을 발견했습니다. 이것은 새로운 발견이 아닙니다. 다른 연구자들은 다른 학습 문화와의 비교를 통해 개선 노력에 대한 명확한 시각을 제시한다 : 우리는 의학교육 문화에서 피드백의 신뢰성과 구성 성을 제한하는 특징을 교정 할 필요가있다. 교사 교육 및 음악 문화와 비교하면 의학의 피드백 문화에서 신뢰와 건설이 주요 취약성임을 알 수 있습니다. 또한, 이러한 취약점은 우리가 학습의 맥락을 어떻게 설정했느냐에 따라 존재합니다.

In comparison with teacher education and music, we found that medicine’s current training culture is not, in fact, a feedback culture. This is not a new finding; others have decried medicine’s failings in the feedback arena.24,27 What our study offers, through its comparison with other learning cultures, is a clear sightline for improvement efforts: we need to remedy the features of our culture that limit the credibility and constructiveness of feedback. By com- parison with the cultures of teacher education and music, we can see that credibility and constructive- ness, rather than representing strengths of medi- cine’s feedback culture, are its key vulnerabilities. Moreover, these vulnerabilities exist because of how we have set up the context of learning.


음악에있어 장기적인 교사-학습자 관계가 피드백의 중요성을 강조하면서도, 피드백 신뢰도와 구성성에 대한 인식을 용이하게 한다는 사실은 왜 우리가 그러한 관계(장기적 교사-학습자 관계)가 발전 할 수있는 상황을 만들어 내지 못하는지를 묻게됩니다. 선생님 교육 선생님이 학생들의 수업 시간에 앉아서 학습자가 가르치는 것을 지켜 볼 수 있도록 보호 해주기 때문에 행동 지침과 함께 상세한 학습 피드백을 제공한다는 것으로부터, 왜 우리의 임상 교육 문맥은 학습자의 수행을 관찰하고 논평하는 데 아주 적은 시간만을 기울였는지를 묻게 한다.

Knowing that the longstanding teacher–learner relationship in music facilitates a perception of feed- back credibility and constructiveness – even when feedback is pointedly critical – should lead us to ask why we aren’t creating contexts in which such rela- tionships can develop. Knowing that teacher educa- tion preceptors provide daily detailed feedback coupled with action plans to their learners – because their time is protected to enable them to sit at the back of the class and watch the learner teach – should lead us to ask why our clinical teaching con- text allots very little time and attention to observing and commenting on the learner’s performance.


우리는 시간 제약, 교수법에 대한 부적절한 보상, 개발력이 부족한 교원지도 기술과 같은 운영상의 어려움의 중요성을 기각하지 않습니다. 이러한 매우 실제적인 문제는 학습자의 직접적인 관찰이나 학습자의 피드백을 수반하는 상세한 행동 계획의 작성을 실제로 제한 할 수 있습니다. 그러나 이러한 운영 문제만으로는 피드백이 환자에게 어떻게 다루어 지는지에 대한 의미있는 변화를 이끌어 내기위한 노력이 불충분하다는 설명이 부족합니다.

We do not dismiss the importance of operational challenges such as time constraints, inadequate compensation for teaching, and underdeveloped faculty instructional skills; these very real issues may indeed limit the direct observation of learners or the creation of detailed action plans to accompany learners’ feedback. We believe, however, that these operational issues alone provide insufficient expla- nations for the inertia that plagues efforts to create meaningful change around how feedback is han- dled in medicine.


왜 의학의 문화가 피드백의 신뢰성과 건설성에 대한 취약성을 지속시키는지를 완전히 이해하려면, 직업의 근본적인 가치에 대한 신중한 검토가 필요합니다. 의학은 의사의 자율성과 독립성을 평가한다 .15,28 감독자가 학습자 성과를 일상적으로 관찰하는 것이, 교사와 학습자가 자율성을 존중하고 기대하는 문화에 편안하게 맞을 지 고려해 보아야 한다. 예컨대 학습자가 환자 진료에서 자율성을 갖고자 할 때, 교육받기를 거부하면서 caregiver와 manager로서의 역할을 위태롭게 만들 수 있다.

A fuller understanding of why medicine’s profes- sional culture allows vulnerabilities around the cred- ibility and constructiveness of feedback to persist requires a thoughtful examination of some of the fundamental values of the profession. Medicine val- ues doctor autonomy and independence.15,28 We might consider whether the routine observation of learner performance by supervisors will fit comfort- ably in a culture in which teachers and learners value and expect autonomy. One study, for exam- ple, identified learners’ desires for autonomy in patient care as a barrier to improving bedside teach- ing, noting that learners may avoid teaching situa- tions that they perceive might jeopardise their roles as caregivers and managers.29


점점 더 의학은 또한 자기주도적학습을 주요 가치로 삼고있다 .30 광범위하게 사용되는 역량 틀은 의학적 학습자가 지식 격차를 스스로 식별하고이를 치료할 계획을 세울 수있는 기술을 개발할 것이라는 기대를 강조한다 .31,32 우리는 교사가 의미있는 행동계획을 세우는데 만성적으로 실패하는 원인이 자기주도적 문화의 부산물이 아닐지 고민해봐야 한다. 

Increasingly, medicine also espouses self-directed learning as a professional value.30 Widely used competency frameworks high- light the expectation that medical learners will develop the skills to self-identify knowledge gaps and create plans to remedy them.31,32 We must con- sider whether the chronic failure of teachers to pro- duce the meaningful action plans that would make their feedback constructive might be a byproduct of this culture of self-directedness, which may view such detailed instruction as unnecessary, counter- productive or coddling.


마지막으로, 의학의 전문 문화는 탁월한 교육 기술을 가진 의사에게 주어지는 보상이 적다. 학습자가 교수 능력에 상관없이 피드백을 위해 가장 훌륭한 수행자를 바라는 한, 의료 교사는 가르침이 암시하는 역할 모델로 봉사 할 수 있습니다. 그러나 가장 강력한 역할 모델은 임상 적 역량뿐만 아니라 그들이하는 일을 어떻게, 왜하는지 설명 할 수있게 해주는 교육자로서의 기술을 갖추어 그 방향으로 학습자를 인도하는 것입니다 .33,34

Finally, medicine’s profes- sional culture may not reward doctors who develop exceptional instructional skills; as long as learners look to the best performers for feedback, regardless of their teaching ability, medical teachers may be con- tent to serve as role models whose teaching is impli- cit. The strongest role models, however, possess not only clinical competence, but also the teaching skills that enable them to explain how and why they do what they do and to guide learners towards the example they set.33,34


포커스 그룹과 인터뷰 데이터는 본질적으로 의미있는 피드백을 구성하는 요소에 대한 참가자의 시각 만 제공한다는 점에서 제한적입니다. 이러한 인식은 피드백이 실제로 효과적인지 여부를 반드시 나타내는 것은 아니다.

Focus group and interview data are inherently limited in that they provide only the participants’ perspectives about what constitutes meaningful feedback; these percep- tions do not necessarily indicate whether feedback is actually effective.


결론

CONCLUSIONS


피드백은 학습에 상당한 가치가 있지만 교사와 학습자 간의 직접적인 거래를 나타내지는 않습니다. 오히려 피드백은 복잡한 개인 및 대인 관계 및 문화적 및 맥락적 요소의 영향을받습니다. 학습을 향상시키기 위해 피드백 사용을 최적화하려면 개인이 프로세스를 인식하는 방법뿐만 아니라 해당 프로세스가 사용되는 문화에 따라 가치를 평가하는 방법에 대한 인식이 필요합니다.

Feedback has considerable value for learning, but it does not represent a straightforward transaction between teacher and learner. Rather, feedback is affected by complex individual and interpersonal dynamics and by cultural and contextual factors. Optimising the use of feedback to enhance learning requires an appreciation not only of how the pro- cess is perceived by individuals, but also of how it is valued by the culture in which its use is situated.








 2013 Jun;47(6):585-94. doi: 10.1111/medu.12150.

Beyond individualismprofessional culture and its influence on feedback.

Author information

1
Department of Clinical Neurological Sciences, Schulich School of Medicine and Dentistry, University of Western Ontario, London, Ontario, Canada. chris.watling@schulich.uwo.ca

Abstract

CONTEXT:

Although feedback is widely considered essential to learning, its actual influence on learners is variable. Research on responsivity to feedback has tended to focus on individual rather than social or cultural influences on learning. In this study, we explored how feedback is handled within different professional cultures, and how the characteristics and values of a profession shape learners' responses to feedback.

METHODS:

Using a constructivist grounded theory approach, we conducted 12 focus groups and nine individual interviews (with a total of 50 participants) across three cultures of professional training in, respectively, music, teacher training and medicine. Constant comparative analysis for recurring themes was conducted iteratively.

RESULTS:

Each of the three professional cultures created a distinct context for learning that influenced how feedback was handled. Despite these contextual differences, credibility and constructiveness emerged as critical constants, identified by learners across cultures as essential for feedback to be perceived as meaningful. However, the definitions of credibility and constructiveness were distinct to each professional culture and the cultures varied considerably in how effectively they supported the occurrence of feedback with these critical characteristics.

CONCLUSIONS:

Professions define credibility and constructiveness in culturally specific ways and create contexts for learning that may either facilitate or constrain the provision of meaningful feedback. Comparison with other professional cultures may offer strategies for creating a productive feedback culture within medical education.

PMID:
 
23662876
 
DOI:
 
10.1111/medu.12150


의학교육에서 행동과학과 사회과학 역량 평가를 위한 도구들: 체계적 종설 (Acad Med, 2016)

Tools to Assess Behavioral and Social Science Competencies in Medical Education: A Systematic Review

Patricia A. Carney, PhD, Ryan T. Palmer, EdD, Marissa Fuqua Miller, Erin K. Thayer, Sue E. Estroff, PhD, Debra K. Litzelman, MD, Frances E. Biagioli, MD, Cayla R. Teal, PhD, Ann Lambros, PhD, William J. Hatt, and Jason M. Satterfield, PhD




2004 년 보고서에서 IOM (Institute of Medicine)은 조기 사망률 및 사망률의 원인 중 50 %가 행동 및 사회적 요인과 관련되어 있지만 이러한 영역에서 의과 대학 교과 과정은 불충분하다고 결론지었습니다 .1-3 IOM이 강조한 행동 및 사회적 영역에는

  • (1)건강 및 질병에서의 심신 상호 작용, 

  • (2) 환자 행동, 

  • (3) 의사 역할 및 행동, 

  • (4) 의사 - 환자 상호 작용, 

  • (5) 헬스케어의 사회문화적 이슈

  • (6) 건강 정책과 경제 

...등이 있다. IOM은 26개의 우선 순위 주제를 확인했다. 

In a 2004 report, the Institute of Medicine (IOM) concluded that, although 50% of the causes of premature morbidity and mortality are related to behavioral and social factors, medical school curricula in these areas are insufficient.1–3 The behavioral and social science (BSS) domains that the IOM deemed critical in their report included (1) mind–body interactions in health and disease, (2) patient behavior, (3) physician role and behavior, (4) physician–patient interactions, (5) social and cultural issues in health care, and (6) health policy and economics.1 Within these six domains, the IOM identified 26 high-priority topics, such as health risk behaviors, principles of behavior change, ethics, physician well-being, communication skills, socioeconomic inequalities, and health care systems design.1


또한, LCME는 BSS 영역 5에서 의과대학 인정을 위한 요구 사항의 일부로서, BSS분야에서 전문직과 대중이 의사에게 기대하는 능력을 확인하도록 요구하고 있습니다. 의과 대학은 학습자의 이러한 역량에 대한 진전 및 성취를 입증하기 위해 내용 기반 평가와 결과 기반 평가를 사용해야합니다. 그렇게하기 위해 많은 학교에서는 전문 ACGME 핵심 역량 인 전문성, 의학 지식, 환자 간호, 대인 관계 기술 및 의사 소통, 시스템 기반 실습, 실습 기반 학습 및 개선을 사용합니다.

In addition, the Liaison Committee on Medical Education (LCME) incorporates, as part of its educational program requirements for accreditation, BSS domains5 and requires that schools identify the competencies in these areas that both the profession and the public can expect of a practicing physician. Medical schools must use both content and outcomes-based assessments to demonstrate their learners’ progress toward and achievement of these competencies. To do so, many schools use the broad ACGME core competencies—professionalism, medical knowledge, patient care, interpersonal skills and communication, systems-based practice, and practice-based learning and improvement.6



그러나 BSS 커리큘럼에 대한 다양한 교육 모델 또는 교육용 디자인의 효과를 평가하는 데 도움이 될 수 있는 평가 도구의 표준화가 결여되어 있어서 의과 대학에서 수집 한 평가 데이터를 모으는 것이 어렵다. 

This lack of standardization makes it difficult to pool evaluation data collected across medical schools, which could help evaluate the effectiveness of different training models or instructional designs for BSS curricula.


또한, 신뢰할 수있는 전문 활동이나 이정표 달성 수준을 결정하고 엄격한 교육 연구를 수행하는 경우 역량 개발 측정이 유효해야합니다. 그러나 종종이 중요한 단계를 완전히 건너 뛰거나 완전히 완료하지 않거나 신뢰할 수있는 결과를 산출하는 데 필요한 엄격함이 부족합니다.

Moreover, determining the levels of achievement of entrustable professional activities or milestones7 as well as conducting rigorous educational research require that measures of competency development are validated. However, often this important step is skipped entirely, not fully completed, or lacks the rigor needed to produce reliable results.




Method


Guiding principles


We used the Best Evidence Medical and Health Professional Education Guide8 in our systematic review.


To accomplish this step, we analyzed the LCME accreditation requirements,5 which are divided into five sections: 

    • (1) institutional setting (e.g., governance and organizational environment);

    • (2) educational program for the MD degree (e.g., objectives, learning environment and approach, structure in design and content); 

    • (3) medical students (e.g., student demography, admissions, student services); 

    • (4) faculty (e.g., qualifications, personnel, organization and governance); and 

    • (5) educational resources (e.g., faculty background and time, finances and facilities).


To focus our review, we selected components from the LCME’s Section II: Educational Program for the MD Degree (ED) and focused specifically on educational content. (The LCME standards provided more detail than the ACGME milestones, and thus we relied heavily on the LCME verbiage as we refined our review.)


Search terms



Inclusion/exclusion criteria


We sought to include articles reporting on some form of validity or reliability testing in more than one learning setting for BSS competency assessment measures.



Methods for data abstraction


Methods for assessing instrument quality and study design


For example, 

    • a high-quality article was one that applied a validated BSS instrument (either from the published literature or the included article) using a rigorous study design, such as a randomized controlled trial. 

    • A low-quality article was one that applied an unvalidated measure of BSS competency and used a weak study design to measure the impact of the educational intervention, such as a post-intervention survey of student satisfaction.


We categorized the level of evidence supporting each BSS competency assessment instrument and study design as weak, moderate, or strong. 

    • The weak evidence category included studies containing limited information on the validity and/or reliability of the evaluation instrument or a weak study design, such as a single-group pre–post design. 

    • The moderate evidence category included studies that provided some information about the reliability of the measures used but were not assessed rigorously, retested in the study sample, or had a moderately strong study design, such as a single-group historical cohort assessment. 

    • The strong evidence category included studies in which the evaluation instruments were tested rigorously in the study population and used a strong study design, such as a randomized controlled or crossover trial design.


Methods for article categorization, data entry, and analysis


Articles identified for data abstraction were classified into three categories: 

    • (1) 도구 개발 instrument development with psychometric assessment only, defined as articles devoted to the statistical validation of a new or existing competency tool, such as a measure of physician empathy; 

    • (2) 교육 연구 educational research, defined as articles that used a specific study design and BSS competency assessment tool to draw conclusions about a defined educational research question; and 

    • (3) 교육과정 평가 curriculum evaluation, defined as articles that assessed specific curriculum features.




결과

Results


Of these, we categorized 21 studies as instrument development with psychometric assessment only, 62 as educational research, and 87 as curriculum evaluation (see Supplemental Digital Appendix 2 at http://links.lww.com/ACADMED/ A328).


IRB리뷰

The majority of articles mentioned IRB review (13 of 20 instrument development studies, 35 of 48 educational research studies, and 36 of 46 curricular evaluation studies) with most getting approval or exemption (see Supplemental Digital Appendix 2). 


연구설계

  • Randomized study designs with or without controls were most common for educational research studies (23 of 48; 48%) compared with instrument development studies (1 of 20; 5%) and curricular evaluation studies (0 of 46; 0%), 

  • while prospective cohort pre–post designs were most common for curriculum evaluation studies (24 of 46; 52%) compared with educational research studies (6 of 48; 13%) and instrument development studies (1 of 20; 5%) (see Supplemental Digital Appendix 2). 


타당도

Validation using formal psychometric assessment was most common for instrument development (19 of 20; 95%) and educational research studies (25 of 48; 52%) compared with curriculum evaluation studies (17 of 46; 37%).


역량

  • The most common BSS learner competency assessed across all types of articles was communication skills (see Supplemental Digital Appendix 3 at http://links.lww.com/ACADMED/A328). Cultural competence and behavior change counseling (which included motivational interviewing) also were commonly assessed, especially in educational research and curriculum evaluation studies. 

  • Using the ACGME competency language, interpersonal skills and communication (in > 90% of included articles), patient care (> 62% of articles), and medical knowledge (> 43% of articles) were most commonly assessed, with practice-based learning and improvement (≤ 10% of articles) and systems-based practice (≤ 10% of articles) less commonly assessed (see Supplemental Digital Appendix 3).

  • Validated instruments that assessed knowledge, attitudes, and skills were most commonly used to evaluate BSS competencies (65%–85%), with standardized patients assessing learners’ performance being the second most common (30%–44%) (see Supplemental Digital Appendix 3).


강력한 근거를 보여주는 문헌

We ranked 33 articles (29%) as contrib- uting strong evidence to support BSS competency measures of communication skills, cultural competence, empathy/ compassion, behavioral health coun- seling, professionalism, and teamwork. Most of these were educational research studies (see Supplemental Digital Appendix 3).


기타

In Supplemental Digital Appendix 4, we provide additional details regarding the included articles. In Supplemental Digital Appendixes 5 and 6, we describe the 62 articles (54%) that yielded moderate evidence in support of a BSS assessment tool and the 19 articles (16.7%) that yielded weak evidence, respectively.


고찰

Discussion


우리는 의사 소통 기술을 평가하는 도구가 가장 엄격한 검증 및 연구 설계 접근법에 의해 뒷받침되었음을 알게되었습니다. 이 도구에는 표준화 된 환자와 함께 수행 된 평가뿐 아니라 지식, 태도 및 기술을 평가하는 필기 시험이 포함되었습니다. 전체적으로 실제 환자와 상호 작용하는 학습자의 직접적인 관찰을 사용한 평가가 부족했다. 이러한 접근 방식은 시간과 자원을 많이 필요로 하지만, 학습자 역량 평가에서 직접 관찰은 중요하다.123-126

We learned that tools assessing communication skills were supported by the most rigorous validation and study design approaches. These tools included both written tests assessing knowledge, attitudes, and skills as well as assessments conducted with standardized patients. Overall, we found a paucity of assessments that used the direct observation of learners interacting with actual patients. Although such approaches are time and resource intensive, several articles support the value of direct observation in assessing learner competencies.123–126


다른 우수한 평가는 문화적 능력, 공감 / 동정, 행동 변화 상담 (예 : 동기 부여 면담) 및 전문성을 평가합니다. 그러나 고품질 평가 도구 하나만이 팀워크를 평가했습니다.

Other high-quality assessments evalu- ated cultural competence, empathy/ compassion, behavior change counseling (e.g., motivational interviewing), and professionalism. However, only one high-quality assessment tool, described in a 2008 article, evaluated teamwork.


교육자 및 교육 연구가는 학습자의 BSS 역량 평가를 위해 reinventing the wheel하기보다는, 기존의 검증 된 도구에 대한 문헌을 검토하는 편이 낫다.

We recommend that educators and educational researchers review the literature for established, validated tools to assess BSS competencies in their learners rather than reinventing the wheel.


이 검토를 완료하는 데있어서 가장 중대한 과제 중 하나는 평가 도구의 강점과 연구 설계의 강점을 구별하는 것이 었습니다. 예를 들어, 사용 된 도구는 매우 강할 수 있지만 평가 설계가 너무 약해서 연구 결과에서 강한 결론을 이끌어 내기 위해 측정 강도가 설계의 약점을 극복 할 수 없었습니다.

One of the most significant challenges in completing this review was distinguishing between the strength of the assessment instruments and the strength of the study designs. For example, the tool used might be very strong but the evaluation design was so weak that the strength of the measure could not overcome the weakness in the design in terms of drawing strong conclusions from the study findings.


교육 연구에서도 엄격한 연구 설계를 적용 할 가능성이 있지만 타당화 방법은 항상 도구 개발연구에서 설명한 것만 큼 강하지는 않았습니다. 그러나 독자가 강력한 평가 설계를 채택한 교육 연구에서 결론을 도출하더라도, 현실에서는 디자인은 사용한 척도measures만큼만 우수합니다.

Although educational research articles were also likely to apply rigorous study designs, their validation approaches were not always as robust as those described in instrument development articles. This finding is worrisome as readers may draw conclusions from educational research that employs a strong evaluation design, when in reality the design is only as good as the measures used.


또한 커리큘럼 평가 연구는 타당도가 입증된 도구를 사용할 가능성이 낮고, 흔하게 약한 연구 방법을 포함하는 것으로 밝혀졌습니다. 연구자들 그들이 사용하는 평가 설계 또는 평가 방법이 차선책 인 경우 교육 과정 접근에 대한 강력한 증거를 생성 할 수 없습니다. 따라서 여기서 중요한 발견은 교육 연구 및 커리큘럼 평가를 대표할 수 있는, 양적 및 질적 연구에서의 잘 검증 된 도구를 사용해야한다는 것입니다.

Even more concerning is our finding that curriculum assessment studies were the least likely to include validated instruments and frequently used weak research methods. Researchers cannot generate strong evidence for curricular approaches if the evaluation designs or assessment measures they use are suboptimal. Thus, an important finding from our work is the need for the use of well-validated instruments in quantitative and qualitative studies that represent both educational research and curriculum evaluation.


1 Institute of Medicine. Improving Medical Education: Enhancing the Behavioral and Social Science Content of Medical School Curricula. Washington, DC: National Academies Press; 2004.






 2016 May;91(5):730-42. doi: 10.1097/ACM.0000000000001090.

Tools to Assess Behavioral and Social Science Competencies in Medical Education: A Systematic Review.

Author information

1
P.A. Carney is professor of family medicine and of public health and preventive medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. R.T. Palmer is assistant professor of family medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. M.F. Miller is senior research assistant, Department of Family Medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. E.K. Thayer is research assistant, Department of Family Medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. S.E. Estroff is professor, Department of Social Medicine, University of North Carolina at Chapel Hill School of Medicine, Chapel Hill, North Carolina. D.K. Litzelman is D. Craig Brater Professor of Medicine and senior director for research in health professions education and practice, Indiana University School of Medicine, Indianapolis, Indiana. F.E. Biagioli is professor of family medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. C.R. Teal is assistant professor, Department of Medicine, and director, Educational Evaluation and Research, Office of Undergraduate Medical Education, Baylor College of Medicine, Houston, Texas. A. Lambros is active emeritus associate professor, Social Sciences & Health Policy, Wake Forest School of Medicine, Winston-Salem, North Carolina. W.J. Hatt is programmer analyst, Department of Family Medicine, Oregon Health & Science University School of Medicine, Portland, Oregon. J.M. Satterfield is professor of clinical medicine, University of California, San Francisco, School of Medicine, San Francisco, California.

Abstract

PURPOSE:

Behavioral and social science (BSS) competencies are needed to provide quality health care, but psychometrically validated measures to assess these competencies are difficult to find. Moreover, they have not been mapped to existing frameworks, like those from the Liaison Committee on Medical Education (LCME) and Accreditation Council for Graduate Medical Education (ACGME). This systematic review aimed to identify and evaluate the quality of assessment tools used to measure BSS competencies.

METHOD:

The authors searched the literature published between January 2002 and March 2014 for articles reporting psychometric or other validity/reliability testing, using OVID, CINAHL, PubMed, ERIC, Research and Development Resource Base, SOCIOFILE, and PsycINFO. They reviewed 5,104 potentially relevant titles and abstracts. To guide their review, they mapped BSS competencies to existing LCME and ACGME frameworks. The final included articles fell into three categories: instrument development, which were of the highest quality; educational research, which were of the second highest quality; and curriculum evaluation, which were of lower quality.

RESULTS:

Of the 114 included articles, 33 (29%) yielded strong evidence supporting tools to assess communication skills, cultural competence, empathy/compassion, behavioral health counseling, professionalism, and teamwork. Sixty-two (54%) articles yielded moderate evidence and 19 (17%) weak evidence. Articles mapped to all LCME standards and ACGME core competencies; the most common was communication skills.

CONCLUSIONS:

These findings serve as a valuable resource for medical educators and researchers. More rigorous measurement validation and testing and more robust study designs are needed to understand how educational strategies contribute to BSS competency development.

PMID:
 
26796091
 
PMCID:
 
PMC4846480
 [Available on 2017-05-01]
 
DOI:
 
10.1097/ACM.0000000000001090


CBME에서 평가의 역할 (Med Teach, 2010)

The role of assessment in competency-based medical education

ERIC S. HOLMBOE1, JONATHAN SHERBINO2, DONLIN M. LONG3, SUSAN R. SWING4 & JASON R. FRANK5, FOR THE INTERNATIONAL CBME COLLABORATORS

1American Board of Internal Medicine, USA, 2McMaster University, Hamilton, Canada, 3Johns Hopkins University, Baltimore, USA, 4Accreditation Council for Graduate Medical Education, USA, 5Royal College of Physicians and Surgeons of Canada and University of Ottawa, Canada




도입

Introduction


역량 기반의 의학 교육 (CBME)은 강력하고 다면적 인 평가 시스템을 필요로한다 (Norcini 외. 2008).

Competency-based medical education (CBME), by definition, necessitates a robust and multifaceted assessment system (Norcini et al. 2008).


CBME에서는 학습자가 발달과 필요한 능력을 획득할 수 있도록, 고품질의 피드백을 자주 받을 수 있도록 형성 평가에관심을 둬야 한다. 또한 특정 지식 분야, 기술, 태도에 문제가 있는 학습자에 대해서는 remedial action를 안내하는 '조기 경보 시스템'을 제공 할 수 있습니다.

For trainees, CBME requires enhanced attention to formative assessment to ensure they receive frequent and high-quality feedback to guide their development and the acquisition of the necessary competen- cies (Carraccio et al. 2002; Bing-You & Trowbridge 2009). For those trainees with deficiencies in certain knowledge areas, skills, or attitudes, CBME can provide an ‘‘early warning system’’ to guide remedial action;


프로그램 수준에서 효과적인 평가는 학습자의 진급에 대한 프로그램 수준의 결정이 신뢰성 있고 공정하게 이루어 지도록하는 데 필요한 정보와 판단을 제공합니다 (Hawkins & Holmboe 2008). 효과적인 평가란, 현재와 같이 역량의 대리지표로서 'dwell time'에 대한 의존도를 감소시켜야 한다. (Carraccio 외. 2002).

At the program level, effective assessment provides the information and judgment necessary to enable program-level decisions about trainee advancement to be made reliably and fairly (Hawkins & Holmboe 2008). Effective assessment also potentially reduces dependence on educational ‘‘dwell time’’ as a proxy for competence – a characteristic that describes most current medical education programs (Carraccio et al. 2002).


미국에서 교육 프로그램에서의 역량에 대한 aggregated measurement는 프로세스와 구조를 덜 강조하되, 교육성과의 달성을 좀 더 강화하는 방식으로 인증 시스템을 발전시켜왔다. 그리고 이러한 시스템은 지속적인 품질 향상에 중점을 둘 것입니다 (Goroll 외 2004; Nasca 2008).

In the United States, aggregated measurement of competence in training programs has been proposed as a way to allow the accreditation system to evolve in a manner that places more emphasis on the attainment of educational outcomes and less on process and structure; such a systemwould thus be focused on continuous quality improvement (Goroll et al. 2004; Nasca 2008).


마지막으로 강력하고 정확한 평가는 의학 교육에 부여되는 특권이라고 볼 수 있는 "전문적인 자기 규제"에 필수적이지만, 전 세계적으로 회의와 냉소주의에 휩싸여있다. 예를 들어, 호주, 캐나다 및 영국 정부는 의학 교육 규제에보다 직접적으로 관여하고 있으며 유사한 흐름이 미국에서 시작되고 있습니다 (Chantler & Ashton 2009, Shaw 외 2009, Medicare 지불 자문위원회 2009). 거의 모든 국가에서 의사의 양성은 공공 자금으로 상당한 재정 지원이 이뤄지는 매우 값 비싼 business이다.

Finally, robust, accurate assessment is essential to profes- sional self-regulation, a privilege granted to medical education but increasingly viewed with skepticism and cynicism world- wide. For example, the governments in Australia, Canada, and the United Kingdom have become more directly involved in the regulation of medical education, and similar conversations are beginning to occur in the United States (Chantler & Ashton 2009; Shaw et al. 2009; Medicare Payment Advisory Commission 2009). Training a physician is a very expensive enterprise for which, in almost every country, substantial financial support is provided from the public purse.



훈련과 평가의 세팅

The setting of training and assessment


심리 측정의 필수요소에 기반한 전통적인 측정 방법은 WBA에 대해 의심스러운 시선을 보냈는데, 임상적 환경에 편견이 내재되어 있고, 진점수에 대한 결정을 어렵게 만드는 맥락적 요소를 '보정'하기가 어렵기 때문이다 (Rethans et al., 2002; Williams et al., 2003; Govaerts et al., 2007).


Traditional approaches to measurement, based in the psychometric imperative, have been leery of work-based assessment, given the biases inherent in the clinical setting and the challenges of ‘‘adjusting’’ for contextual factors that make it difficult to determine the ‘‘true’’ score, or rating, of competence (Rethans et al. 2002; Williams et al. 2003; Govaerts et al. 2007).




임상 마이크로시스템

Clinical microsystems


피훈련자가 일하고 배우는 주된 임상 단위 (예 : 외래 진료소, 병원 병실, 수술실 및 집중 치료실)가 마이크로 시스템입니다. 넬슨 (Nelson)과 동료들에 의해 정의 된 바와 같이, 임상 마이크로시스템은 환자의 특정 하위군에 대한 치료를 제공하기 위해 정기적으로 함께 일하는 소수의 사람들이다. 그것은 임상 및 사업 목표, 연계 된 프로세스 및 공유 된 정보 환경을 갖추고 성과를 산출합니다. "(Nelson et al., 2007).


The predominant clinical units where trainees work and learn – for example, ambulatory clinics, hospital wards, surgical suites, and intensive care units – are microsystems. As defined by Nelson and colleagues, a clinical microsystem is ‘‘a small group of people who work together on a regular basis to provide care to discrete subpopulations of patients. It has clinical and business aims, linked processes, and a shared information environment, and produces performance out- comes’’ (Nelson et al. 2007).


마이크로 시스템은 업무 중심의 교육 및 평가를위한 환경을 제공합니다. 논리적으로 CBME의 전제 조건은 훈련생이 경쟁력 확보를 위해 기능적인 마이크로 시스템에서 일하고 학습하는 것이지만 평가 시스템은 필연적으로 교육 시스템에 내장embed된다. 따라서 교육자는 다양한 마이크로시스템의 문화와 기능이 평가 프로세스에 어떻게 영향을 미치는지 신중하게 고려해야한다 (Rethans et al., 2002). 불행히도, 연수생은 종종 기능 장애가있는 마이크로 시스템에서 배우고 일한다는 실질적인 증거가 있습니다. 이러한 현실은 일반적으로 CBME의 주요한 장애물이며, 특히 평가에 큰 장애가 될 수있다 (Bowen et al., 2005; Reddy et al., Hafferty & Levinson 2008).


Microsystems provide the context for work-based training and assessment. Although it follows logically that a prerequi- site for CBME would be that trainees work and learn in functional microsystems to enhance the attainment of compe- tency, the assessment system is also inevitably embedded in the microsystems of the training program, making it important for educators to carefully consider how the culture and functionality of these multiple microsystems affect assessment processes (Rethans et al. 2002). Unfortunately, there is substantial evidence that trainees too often learn and work in dysfunctional microsystems. This reality may be a major impediment to CBME in general and to assessment in particular (Bowen et al. 2005; Reddy et al. in press; Hafferty & Levinson 2008).



효과적인 평가 시스템의 필수 구성 요소

Necessary components of an effective assessment system


평가는 복잡한 적응adaptive 시스템의 맥락에서 보아야한다 (McDaniel & Driebe 2001; Nelson et al., 2007). 복잡한 적응 시스템은 몇 가지 중요한 특성을 공유합니다. 첫째, 그들은 서로에게서 배우고, 적응하고, 따라서 변화 할 수있는 능력을 가진 개인을 포함하여 여러 상호연결된 요소로 구성됩니다 (Suchman 2006). 평가 시스템은 trainee와 협력적으로 여러 평가 방법 및 도구를 사용하는 여러 '에이전트agent'로 구성되어 있다.

Assessment should be viewed in the context of a complex adaptive system(McDaniel & Driebe 2001; Nelson et al. 2007). Complex adaptive systems share several important character- istics. First, they consist of multiple interconnected elements, including individuals who have the capacity to learn from one another, to adapt, and therefore to change (Suchman 2006). Assessment systems consist of multiple ‘‘agents’’ (e.g., faculty members, peers, patients, and other non-physician health care providers) using multiple assessment methods and tools (e.g., exams, mini-CEX, audit, multi-source feedback, simulation, etc.) in collaboration with the trainee in a competency-based training model.


1. 평가는 지속적이고 빈번해야합니다.

1. Assessment needs to be more continuous and frequent


CBME는 총괄평가보다 형성평가를 강조한다. 이것은 총평 평가가 중요하지 않다는 것을 말하는 것이 아닙니다. 사실상 의학교육 공동체는 연수생이 궁극적으로 감독받지 않은 상태에서 의료행위를 할 수 있는지를 대중에게 공개 할 의무가있다. 교육 이론 (McCowan 1998; Hodge 2007)도 뒷받침하듯, 형성평가에 대한 강조는 "deliberate practice"(Ericsson 2006, 2007)을 통한 전문성 개발 작업과도 일치합니다. Deliberate practice의 개념은 효과적인 코칭, 멘토링 및 피드백의 필요성을 강조합니다. 피드백은 피드백을 제공하기 위한 목적으로 시행되는 평가의 질을 뛰어넘지 못한다. 부정확평가는 비효율적 인 피드백과 발달 지연을 초래합니다. 그러나 효과적인 피드백은 전문성 개발을위한 강력한 도구가 될 수 있습니다 (Hattie & Timperley 2007).


As Carraccio and colleagues have outlined (2002), a compe- tency-based education program emphasizes formative over summative assessment. This is not to say that summative assessment is unimportant; indeed, the medical education community has a professional obligation to the public to ensure that its trainees are ultimately competent for unsuper- vised practice. A greater emphasis on formative assessment, while supported by educational theory (McCowan 1998; Hodge 2007), is also consistent with work on the development of expertise through ‘‘deliberate practice’’ (Ericsson 2006, 2007). The deliberate practice concept highlights the need for effective coaching, mentoring, and feedback. Feedback is only as good as the assessment that informs it: inaccurate potentially assessment leads to ineffective feedback and delayed development. However, effective feedback can be a powerful tool for professional development (Hattie & Timperley 2007).


Hattie와 Timperley가 교육의 연속체에 대한 광범위한 검토에서 언급했듯이 피드백은 학습자 진행을 돕기 위한 가장 강력한 '개입'일 수 있습니다 (Hattie & Timperley 2007). 임상 교육의 피드백은 평가 시스템에 단단히 통합된 특정 기술을 포함하는 복잡한 프로세스입니다 (van der Ridder 외. 2008). 고립적으로 수행한 자기평가는 효과가 없을뿐만 아니라 위험할 수 있다 (Davis 외 2006, Eva & Regehr 2008). 또한 피드백은 역량 기반 시스템에서 특히 중요한 "self-directed assessment seeking" (Eva & Regehr 2008)을 위해 연수생을 안내하는 핵심 구성 요소입니다. 효과적인 CBME 시스템은 견고한 평가와 견고한 피드백을 지속적으로 연결해야합니다.


As noted by Hattie and Timperley in their extensive review across the continuum of education, feedback may be the most potent ‘‘intervention’’ in helping learners progress (Hattie & Timperley 2007). Feedback in clinical education is a complex process involving specific skills that must be tightly integrated into the assessment system (van der Ridder et al. 2008). We now know that, when performed in isolation, self-assessment is not only ineffective but is potentially dangerous (Davis et al. 2006; Eva & Regehr 2008). Furthermore, feedback is a key component that guides trainees in more meaningful self- directed assessment-seeking behaviour that is critical in a competency-based system (Eva & Regehr 2008). An effective CBME system must continuously link robust assessment with equally robust feedback on a continuous basis.



2. 평가는 발달 적 관점을 사용한 준거기반 평가여야 한다.

2. Assessment must be criterion-based, using a developmental perspective


교육 기관 내에서 피훈련자 간 상대평가를 기반으로 한 규범적 접근은 진정한 결과를 달성하는 것을 매우 어렵게 만듭니다. 결과적으로 적절한 기대치 아래로 기준이 설정되는 상황이 빈번하게 발생한다.

A normative approach to assessment, based on comparable trainees within an institution, makes the attainment of true outcomes very difficult. As a result, standards are too often set below appropriate expectations.


(한 연구의) Baseline 평가에서 본질적으로 모든 레지던트들은 중심관 삽입을 독립적으로 수행 할 때 최소한의 안전 기준을 충족시키지 못했습니다. 즉, 단순히 올바른 혈관에 혈류를 옮기는 것만으로는 충분하지 않았습니다. 실제로, 레지던트들의 기본 성과는 현저하게 유사하여,이 상황에서의 평가에 대한 규범 적 접근이 그룹의 대부분의 구성원이 유능하다는 잘못된 판단을 이끌어 낼 수 있다는 사실을 보여주었다. 사실 모든 사람들이 중앙을 삽입 할 능력이 없었기 때문이다 라인 안전 (Barsuk 외. 2009).

At the baseline assessment, essen- tially all the residents failed to meet the criteria for minimal safety in independently performing central line insertion: in other words, simply getting the line into the right vessel was not enough. In fact, the baseline performance among the residents was remarkably similar, making the point that a normative approach to assessment in this situation could have led to a mistaken judgment that most members of the group were competent, when in fact everyone was incompetent to insert central lines safely (Barsuk et al. 2009).


적절한 기준은 발달적이어야한다. 일반적으로 마일스톤 또는 벤치 마크라고하는 발달 조건으로 기준을 정의하면 프로그램에서 연수생이 적절한 "궤적"에 있는지 여부를 결정할 수 있습니다 (Green et al. 2009). 실제로 이정표는 평가를위한 청사진이되고 평가 방법과 도구의 적절한 선택에 도움이 되며, 연수생이 발달적으로 있어야하는 곳의 전반적인 내러티브 또는 '이야기'를 만드는 데 도움이 될 수 있습니다 (Green et al. 2009) .

Criteria should also to be developmental in nature, where appropriate. Defining the criteria in developmental terms, commonly called milestones or benchmarks, allows programs to determine whether the trainee is on an appropriate ‘‘trajectory’’ (Green et al. 2009). Milestones, in effect, become the blueprint for assessment and help to guide the appropriate selection of assessment methods and tools, and can help to create the holistic narratives or ‘‘stories’’ of where trainees should be developmentally (Green et al. 2009).



3. 역량 기반의 의학 교육은 연수생이 궁극적으로 할 역할에 중점을 두고 있으며, 확고한 WBA가 필요합니다.

3. Competency-based medical education, with its emphasis on preparation for what the trainee will ultimately do, requires robust work-based assessment


특히 시뮬레이션은 학습 초기 단계에서 즉각적인 평가와 피드백을 비롯한 deliberate practice를 위한 장소를 제공하고 환자를 잠재적인 위험으로부터 보호합니다 (Issenberg 외. 2005). 그럼에도 불구하고 평가는 "authentic"한 환자 접촉와 빈번한 직접 관찰에 근거해야만한다. WBA가 전통적인 양식 (Norcini 2003)보다 우수하다는 강력한 증거가 없지만 WBA는 CBME의 필수 구성 요소이며 특히 형성 평가 및 피드백의 필요성이 커지면 더욱 그렇습니다.

Simulation, in particular, provides a venue for deliberate practice, including immediate assessment and feedback during the early stages of learning, while protecting patients from potential harm (Issenberg et al. 2005). Nonetheless, assess- ment must also be based on ‘‘authentic’’ encounters and frequent direct observation (Carraccio et al. 2002; Williams et al. 2003; Govaerts et al. 2007). Although some have noted the lack of strong evidence that work-based assessments are better than more traditional forms (Norcini 2003), we believe that work-based assessment is an essential component of CBME, especially given the greater need for formative assessment and feedback.


결과적으로, CBME 평가 시스템에서는 교수진에 대한 요구 사항은 전혀 적지 않다. 교수진은 매일 연수생과 나란히 work하므로 실시간 평가 및 피드백을 제공 할 수있는 훌륭한 위치에 있습니다. 그들은 연수생의 퍼포먼스를 정확하게 관측해야 한다.

As a result, a CBME assessment system places more, not fewer, demands on faculty. Faculty work side by side with trainees on a daily basis and are therefore in an excellent position to provide real-time evaluation and feedback. They need to be keen and accurate observers of trainee perfor- mance,


연구 결과에 따르면 교수들은 종종 연수생의 임상 기술의 결함을 확인하지 못하는 것으로 나타났습니다 (Herbers et al., 1989; Kalet et al 1992; Holmboe 2004).

studies have demonstrated that faculty frequently fail to identify deficiencies in trainees’ clinical skills (Herbers et al. 1989; Kalet et al 1992; Holmboe 2004).


주요 과제 중 하나는 교수들을 어떻게 더 정확한 관찰자로, 더 나은 수행능력 평가자로 훈련시키는 것이다. 또한 직접 관찰 할 수 없는 경우 다른 감독활동과 협력적으로 관찰 및 판단하는 것도 효과적인 평가에 중요한 요소입니다 (Kennedy et. 2007).

One of the major be more challenges will be how best to train faculty to and accurate observers better assessors of performance, In addition, faculty corroboration of trainee findings and judgments through other supervisory activities beyond direct observation are also important inputs into effective assessment (Kennedy et al. 2007).


4. 훈련 프로그램은 최소한의 퀄리티 기준을 충족하는 평가 도구를 사용해야합니다.

4. Training programs must use assessment tools that meet minimum standards of quality


지역 사회는 여러 가지 '자가 재배'평가 도구를 개발하지 않고 국가 또는 지역 내의 모든 프로그램에서 사용할 핵심 평가 도구 세트를 채택해야합니다. 의학교육은 평가도구의 선택과 사용에 있어서 너무 많은 변화를 겪었으며, 이는 의료 서비스에서의 가변성과 유사하다 (Fisher et al., 2003). 평가 도구의 품질 평가를 안내하기 위해 여러 프레임 워크를 사용할 수 있습니다. 이들 중 하나 인 유틸리티 지수 (van der Vleuten 1996)는 간단하지만 유용한 공식입니다.

The community needs to move away from developing multiple ‘‘home-grown’’ assessment tools and work instead toward the adoption of a core set of assessment tools that will be used across all programs within a country or region. Medical education has suffered from too much variability in the choice and use of assessment tools, akin to the variability seen in the delivery and quality of health care (Fisher et al., 2003). Several frameworks are available to guide the evalua- tion of the quality of assessment tools. One of these, the utility index (van der Vleuten 1996), is a simple but useful formula:


유용성 = 타당도 x 신뢰성 x 교육적 영향 x 수용력 x 비용 효과 성 :

Utility = validity x reliability x educational impact x acceptability x cost effectiveness:


우리는 "완벽한"평가 도구를 기다릴 수는 없다. 오히려 목적에 맞는 최상의 도구 조합을 사용해야합니다. "충분이 좋다"는 것은 도구가 만족할만한 정신측정학적 특징을 갖는지 여부에만 의존하지 않는다는 사실도 중요합니다.

However, a word of caution is in order: we cannot wait for the ‘‘perfect’’ assessment tools but, rather, must use the best combination of tools available for the purpose. It is also important to highlight the fact that being ‘‘good enough’’ does not depend only on whether a tool has satisfactory psychometric characteristics.


예를 들어 직접 관찰을 위해 가장 잘 연구 된 평가 도구는 mini-CEX이며, 이에 대한 적어도 20 개의 연구가 현재 인쇄되고 있지만, 우리는 여전히 mini-CEX을 최대한 활용하는 방법에 대한 완전한 이해가 부족합니다 (Kogan et al. 2009). 이는 어떤 WBA 도구도 그것을 사용하는 개인의 수준을 넘을 수 없다는 인식이 부족하기 때문이다 (Landy & Farr 1980; Murphy & Cleveland 1995). CBME가 궁극적으로 성공하기 위해서는 더 나은 평가 도구뿐만 아니라 도구를 사용할 숙련된 평가자가 필요합니다.

For example, the best- studied assessment tool for direct observation is the mini-CEX; although at least 20 studies of this tool are nowin print, we still lack a full understanding of how best to utilize it (Kogan et al. 2009). The primary reason for this state of affairs is the lack of recognition that any work-based assessment tool is only as good as the individual using it (Landy & Farr 1980; Murphy & Cleveland 1995). For CBME to be ultimately successful, we need not only a combination of better assessment tools but also more skilled faculty and other assessors who will use them.



5. 우리는 평가에 대한보다 "질적 인"접근법을 기꺼이 받아 들여야한다.
5. We must be willing to incorporate more ‘‘qualitative’’ approaches to assessment


평가에 대한 질적 접근에는 서술적 자료와 평가 세션 중 발생하는 대화 등이 포함될 수 있습니다. 특히 전문성 (Hemmer et al., 2000; Battistone et al. 2001)과 같은 어려운 역량과 관련하여 평가 세션에서 가치 있고 방어 가능한 정보를 얻을 수 있으며, 포트폴리오를 평가에도 reliable하게 사용될 수 있음을 보여 주었다 Driessen et al., 2005).

Qualitative approaches to assessment could include written narrative and the synthesis of conversations that occur during evaluation sessions. Research has shown that valuable and defensible information can be obtained during evaluation sessions, especially with respect to difficult competencies such as professionalism(Hemmer et al. 2000; Battistone et al. 2001), and that qualitative methods can be used reliably to judge portfolios (Driessen et al. 2005).


어떤 사람들은, 숫자 대신 Words로 효과적인 판단이 가능함에도, 평가의 객관화에 너무 많은 강조가 있다고 주장했다 (Govaerts et al., 2007). 예를 들어, 교수진의 DOA 결과는 평가 척도에서의 숫자 또는 판단적 언어 또는 서술적 묘사가 될 수 있다. 이 세 가지 모두가 판단력을 발휘할 수있는 능력을 가지고 있지만, 서술적 묘사만이 연수생의 개선과 학습 계획 수립에 필요한 구체적 정보를 제공합니다.

Some have argued that there is too much emphasis on the ‘‘objectification’’ of assessment when judgment can just as effectively be expressed in words instead of numbers (Govaerts et al. 2007). For example, the results of a direct observation assessment by faculty could be synthesized into 

    • a number on a rating scale, 

    • a categorization using words of judgment (e.g., ‘‘satisfactory’’), or 

    • a narrative description (e.g., ‘‘the trainee appropriately began the patient interview with an open-ended question and effectively gathered key information for diagnosis’’). 

All three have the capacity to provide a judgment, but the narrative example provides the level of specificity needed by the trainee to make improvements and develop learning plans.


6. 평가는 그룹의 지혜를 이끌어 내고 연수생의 적극적인 참여를 필요로합니다.

6. Assessment needs to draw upon the wisdom of a group and to involve active engagement by the trainee


어떤 개인도 고립된 상태에서 연수생의 역량에 대해서 판단을 내리면 안 되며, 특히 총괄 결정에 대해서는 더욱 그러하다(Swing 외. 2010). CBME 시스템의 평가는 레지던트를 평가 프로세스에 적극적으로 참여시켜야합니다. 의사에게와 마찬가지로 "자기 주도적 평가 탐색"의 개념은 피훈련자에게도 똑같이 중요한 개념이다 (Eva & Regehr 2008). CBME는 피훈련자의 적극적인 참여를 요구하며, 평가에서 피훈련자를 empower시켜야 한다.

No single individual should make judgments about the competence of a trainee in isolation, especially for summative decisions (Swing et al. 2010). Assessment in a CBME system must actively engage the resident in the assessment process. The concept of ‘‘self-directed assessment seeking’’ for practis- ing physicians is an equally important concept for trainees (Eva & Regehr 2008). CBME demands active involvement by the trainee, and programs must empower trainees in assess- ment.


자신의 의료행위에 대한 신뢰할 수 있고 유효한 평가를 찾고, 스스로 수행하는 능력을 갖추 었는지 확인하는 것은 역량 유지에 필수적입니다 (Duffy 외. 2008).

Ensuring that all physicians have the skills to seek and perform reliable and valid assessments of their own practice performance is essential to the maintenance of competence (Duffy et al. 2008).



미래의 평가 개념

Future concepts for assessment


최근까지 우리는 '시스템'을 주로 평가를 위한 맥락으로 간주했습니다. 그러나 이제 우리는 의사들이 마이크로 시스템 내에서 성공적으로 작업하기 위해 특정 지식, 기술 및 태도를 필요로한다는 것을 인식하기 시작했습니다. 이러한 마이크로시스템 역량의 예로 팀 구성원으로 효과적으로 일하는 것, 의사가 아닌 의료 서비스 제공자와 효과적인 전문 직업인 간 상호 작용 등이 있습니다. 시스템을 역량의 "맥락"으로 바라보는 것시스템 자체를 특정한 측면의 "역량"으로 바라보는 것 사이의 구분선은 점점 희미 해지고 있습니다. 다시 말해, 역량의 한 요소는, 의사와 시스템 사이의 효과적인 상호작용이며, 이를 통해 프로세스를 효과적으로 완료하거나, 임상 진료 프로세스를 개선하기 위한 시스템을 변화를 이룬다.

Until recently, we have viewed the ‘‘system’’ mainly as context for assessment. However, we are now beginning to recognize that physicians need specific knowledge, skills, and attitudes to work successfully within microsystems. Examples of such microsystem competencies include working effectively as a member of a team and effective interprofessional interactions with non-physician health care providers. The dividing line between systems as providing a ‘‘context’’ for competency and as a specific facet of ‘‘competency’’ is increasingly blurred, for competency is not only demonstrated within the specific context of a system but also pertains to engagement with the system itself. In other words, one element of competency is how effectively a trainee or physician interacts with the system, either to get a task or process done well, or to change the system in order to improve a clinical care process.


피훈련자는 자신의 일하고 선도하는 마이크로 시스템에 책임이있을 때 이러한 기술이 필요할 것입니다. CBME의 경우, 평가를위한 필수적인 철학적 질문은 마이크로 시스템에 대해서 어떤 '보정'이, 얼마나, 연수생의 평가에 포함되어야 하는지, 피훈련자와 마이크로 시스템과의 어떤 상호 작용을 역량으로 봐야 할 것이지 등은 반드시 고려해야 할 질문이다.

Trainees will need these skills when they become responsible for working and leading microsystems of their own. For CBME, an essential philosophical question for assessment will be what and how much ‘‘adjustment’’ for the microsystem should be part of the assessment of trainees, and what aspect of trainees’ interactions with their microsystems is itself a competency.


마지막으로, 평가 시스템의 판단 측면 인 평가는 통합적이고 종합적이어야합니다. CBME의 주요 비판 중 하나는 학습 및 평가를 일련의 '체크박스'으로 축소시키는 경향이 있다는 것입니다 (Leung 2002; Talbot 2004).

Finally, evaluation – the judgment aspect of the assessment system – must be integrative and synthetic. One of the major criticisms that has been made of CBME is that it has a propensity to reduce learning and assessment to a series of ‘‘checkboxes’’ (Leung 2002; Talbot 2004).


인간의 판단은 당분간은 평가 프로세스의 일부가 될 것입니다. CBME 시스템의 작업 기반 평가 측면에 대한 도전은 인간의 관찰 및 판단의 품질을 최대화하는 것입니다

Human judgment, will be part of the assessment process for the foreseeable future. The challenge for the work-based assess- ment aspects of the CBME system is to maximize the quality of human observation and judgment.



연구 의제

Research agenda



다른 긴급한 필요 영역은 교수진을 더 나은 평가자로 양성하는 방법을 결정하는 것입니다. 환자, 동료 및 기타 건강 관리 제공자와 같은 다른 사람의 평가도 중요하지만 시뮬레이션이 많이 제공된다는 사실에도 불구하고 교수진은 프로세스에서 제거 할 수 없으며 제거해서도 안됩니다.

The other urgent area of need is to determine how to train faculty to be better evaluators. Although assessments by others such as patients, peers, and other health care providers are also critical, and despite the fact that simulation has much to offer, faculty cannot and should not be removed from the process.



마지막으로 평가 프레임 워크는 전문 지식을 고려해야합니다. 역량 기반의 의학 교육 모델에서 평가 방법을 연구 할 때 CBME는 역량을 궁극적 인 국가로 추구하지 않고 오히려 전문성이 최종 목표임을 인식해야합니다.

Finally, our assessment frameworks need to account for expertise. As we study approaches to assessment within the competency-based model of medical education, we must remember that CBME does not seek competence as an ultimate state, but rather recognize that expertise is the end goal.







 2010;32(8):676-82. doi: 10.3109/0142159X.2010.500704.

The role of assessment in competency-based medical education.

Author information

1
American Board of Internal Medicine, USA. eholmboe@abim.org

Abstract

Competency-based medical education (CBME), by definition, necessitates a robust and multifaceted assessment system. Assessment and the judgments or evaluations that arise from it are important at the level of the trainee, the program, and the public. When designing an assessment system for CBME, medical education leaders must attend to the context of the multiple settings where clinical training occurs. CBME further requires assessment processes that are more continuous and frequent, criterion-based, developmental, work-based where possible, use assessment methods and tools that meet minimum requirements for quality, use both quantitative and qualitative measures and methods, and involve the wisdom of group process in making judgments about trainee progress. Like all changes in medical education, CBME is a work in progress. Given the importance of assessment and evaluation for CBME, the medical education community will need more collaborative research to address several major challenges in assessment, including "best practices" in the context of systems and institutional culture and how to best to train faculty to be better evaluators. Finally, we must remember that expertise, not competence, is the ultimate goal. CBME does not end with graduation from a training program, but should represent a career that includes ongoing assessment.

PMID:
 
20662580
 
DOI:
 
10.3109/0142159X.2010.500704
[Indexed for MEDLINE]


전문직 역량 평가: 방법에서 프로그램까지(Med Educ, 2005)

Assessing professional competence: from methods to programmes

Cees P M van der Vleuten & Lambert W T Schuwirth




도입

INTRODUCTION


몇 년 전에 우리는 평가 방법의 유용성을 정의하기위한 개념적 모델을 제안했습니다. 모델은 평가 도구가 평가 될 수있는 여러 기준을 곱함으로써 유용성을 얻었습니다 .1 물론 이 유용성 방정식은 단순히 개념 모델로 의도되었으며 결코 알고리즘이나 새로운 심리측정 index로 의도되지 않았습니다. 또한 투명성transparency, 의미성meaningfulness, 인지 복잡성cognitive complexity, 직접성directness 및 공정성fairness과 같은 다른 기준도 포함되지 않았습니다 .2-4 어떤 공식이 공식에 포함되었는지에 관계없이 모델이 전달하고자하는 메시지는 평가 방법을 선택하는 것은 필연적으로 타협을 수반하며, 그 타협의 유형은 각 평가 환경에 따라 다르다는 것이다.

Some years ago we proposed a conceptual model for defining the utility of an assessment method. The model derived utility by multiplying a number of criteria on which assessment instruments can be judged.1 Of course, this utility equation was merely intended as a conceptual model and by no means as an algorithm or new psychometric index. Neither were all possible criteria included in the model, such as transparency, meaningfulness, cognitive complexity, directness and fairness.2–4 Regardless of which cri- teria were included in the equation, the overriding message the model was intended to convey was that choosing an assessment method inevitably entails compromises and that the type of compromise varies for each specific assessment context.


공식의 두 번째 결과는 신뢰도와 타당성에 대한 방대한 문헌이 제시하는 것처럼 평가가 단지 측정 문제가 아니라 교육 설계, 구현 및 자원 측면을 포함하는 교육 설계 문제이기도 하다는 것입니다.

A second corollary of the  formula  is that assessment is not merely a measurement problem, as the vast literature on reliability and validity seems to suggest, but that it is also very much an instructional design problem and includes educational, implementation and resources aspects.



경험적, 이론적 발전

EMPIRICAL AND THEORETICAL DEVELOPMENTS


우리는 평가 도구가 목표 자체가 아니라고 강력히 믿는다는 점에서 개별적인 (새로운) 도구를 강조하거나 지지하거나 제안하지 않을 것입니다 .5 다양한 퀄리티 기준이 달성되는 정도는 특정 도구의 내재적이고 불변하는 특성이 아닙니다 .6,7

We will not highlight, advocate or propose any individual (new) instrument, because we strongly believe that assessment instruments are not goals in themselves.5 The degree to which the various quality criteria are attained is not an inherent, immutable characteristic of a particular instrument.6,7


신뢰도, 유효성를 비롯한 어떤 것도 평가 도구의 절대적, 내재적 특성과 같은 것은 없습니다.

There is no such thing as the reliability, the validity, or any other absolute, immanent characteristic of any assessment instrument.



신뢰도

Reliability


신뢰성은 평가에서 얻은 점수의 재현성을 나타냅니다. 일반적으로 0 (신뢰도 없음)에서 1 (완벽한 신뢰도) 범위의 계수로 표현됩니다. 검사의 목적에 따라 낮거나 높을 수도 있지만 (예 : 면허 시험의 경우 더 높아야 함) 종종 0.80을 최소 허용 값으로 간주합니다. 신뢰성은 여러 가지 오류 또는 편향 요인에 의해 부정적인 영향을받을 수 있으며, 신뢰성을 높이려면 unwanted variance의 출처를 고려하여 샘플링을 해야한다는 결론을 내릴 수 있습니다. 샘플링과 관련된 문제를 잘 이해하면 테스트 개발에서보다 많은 자유도를 얻을 수 있습니다.

Reliability refers to the reproducibility of the scores obtained from an assessment. It is generally expressed as a coefficient ranging from 0 (no reliability) to 1 (perfect reliability). Often 0.80 is regarded as the minimal acceptable value, although it may be lower or higher depending on the examina- tion’s purpose (for instance, it will have to be higher for a licensing examination). Reliability can be negatively affected by many sources of error or bias, and research has provided conclusive evidence that, if we want to increase reliability, we will have to ensure that our sampling takes account of all these unwanted sources of variance. A good understanding of the issues involved in sampling may offer us many more degrees of freedom in test development.


역량이 맥락이나 내용에 크게 의존하기 때문에 평가의 신뢰성에 영향을 미치는 주된 조건은 영역 또는 내용 특수성입니다. 이것은 우리가 테스트 대상의 내용을 가로 질러 큰 샘플을 사용하는 경우에만 신뢰할 수있는 점수를 얻을 수 있다는 것을 의미합니다 .8 지능형 테스트 디자인을 사용하면 여러 조건에서 효율적으로 샘플을 샘플링 할 수 있습니다 (예 : OSCE), 일반적으로 적절한 시험 시간을 투입하면 신뢰할 수있는 점수를 얻을 수 있습니다.

The predominant condition affecting the reliability of assessment is domain- or content-specificity, because competence is highly dependent on context or content. This means that we will only be able to achieve reliable scores if we use a large sample across the content of the subject to be tested.8 With intelligent test designs, which sample efficiently across conditions (such as using different examiners for each station in an OSCE), reliable scores will generally be obtained within a reasonable testing time.


지금까지 이것은 새로운 것이 아닙니다. 그러나 새로운 점은 객관성과 표준화에 대한 신뢰성이 무조건적인 것이 아니라는 점입니다. 객관성과 신뢰성이 종종 혼란 스럽다는 사실은 이론적으로는 얼마 전에 다루어졌지만, 경험적 증거는 현재 설득력있게 분명 해지고 평가에서 새로운 방향을 가리킬 수 있습니다. 요점을 설명하기 위해 OSCE를 살펴 보겠습니다.

So far, this is nothing new. What is new, however, is the recent insight that reliability is not conditional on objectivity and standardisation. The fact that objec- tivity and reliability are often confused was addressed theoretically some time ago,9 but the empirical evidence is becoming convincingly clear now and may point towards new directions in assessment. To illustrate our point, let us look at the OSCE.


OSCE의 주된 이점은 신뢰성의 토대가 되는 객관성과 표준화였다. 그러나 많은 조사 결과, OSCE의 신뢰성은 특히 임상 적 내용을 포함한 신중한 샘플링과 적절한 수의 스테이션에 달려 있다는 것을 보여준다는 것이 드러났습니다. 이는 일반적으로 몇 시간의 테스트 시간이 필요하다는 것을 의미합니다.

The main perceived advantage of the OSCE was objectiv- ity and standardisation, which were regarded as the main underpinnings of its reliability. However, an abundance of study evidence has since shown that the reliability of an OSCE is contingent on careful sampling, particularly across clinical content, and an appropriate number of stations, which generally means that several hours of testing time are nee- ded.10


이 발견은 OSCE만의 것이 아닙니다. 최근 몇 년 동안, 샘플링이 적절하다면, 평가 상황이 표준화되지 않았거나 평가가 주관적이더라도 신뢰도를 달성 할 수 있다는 많은 연구가있었습니다. 표 1은 상이한 정도의 표준화를 가진 여러 계측기에 대한 신뢰성 추정치를 제시함으로써 이를 보여줍니다.

This finding is not unique to the OSCE. In recent years many studies have demonstrated that reliability can also be achieved with less standardised assessment situations and more subjective evalua- tions, provided the sampling is appropriate. Table 1 illustrates this by presenting reliability estimates for several instruments with differing degrees of standardisation.



중요한 점은 모든 방법에 대해 실질적인 샘플링이 필요하다는 점이다. 그리고 구술 시험, 긴 사례 시험, 미니 임상 시험 평가 (mini- CEX)와 같이 덜 구조화되거나 표준화 된 방법이 더 구조화되고 객관적인 방법보다 더 신뢰도가 높을 수 있습니다.

The important point is to illustrate that all methods require substantial sampling and that methods which are less structured or standardised, such as the oral examination, the long case exam- ination, the mini-clinical evaluation exercise (mini- CEX) and the incognito standardised patient meth- od, can be entirely or almost as reliable as other more structured and objective measures. 


이러한 모든 신뢰성 연구에 따르면 샘플링은 신뢰할 수 있는 점수를 얻는 데 있어 필수적인 요소이며, 신뢰성은 구조화 또는 표준화 정도와는 직접적인 관련이 없음을 보여줍니다.

All these reliability studies show that sampling remains the pivotal factor in achieving reliable scores with any instrument and that there is no direct connection between reliability and the level of structuring or standardisation.


이 통찰력은 평가 수행에 광범위한 영향을 미칩니다. 기본적으로 측정 조건에 따라 표본 추출이 적절하다면, 어떠한 방법도 본질적으로 신뢰할 수 없는 것이 아니며, 모든 방법이 충분히 신뢰할 수 있다.

This insight has far-reaching consequences for the practice of assessment. Basically, the message is that no method is inherently unreliable and any method can be sufficiently reliable, provided sampling is appropriate across conditions of measurement.


우리가 그러한 도구를 현명하고 전문적으로 사용한다면, 우리는 어떤 평가 도구가 주관적이거나 완벽하게 표준화되지 않다는 이유로 추방 할 필요가 없습니다. 반대로 평가 도구 상자에 구조화되고 표준화 된 것들만 들어있다고 측정의 신뢰성이 자동으로 보장된다고 생각해서도 안됩니다.

there is no need for us to banish fromour assessment toolbox instruments that are rather more subjective or not perfectly standard- ised, provided that we use those instruments sensibly and expertly. Conversely, we should not be deluded into thinking that as long as we see to it that our assessment toolbox exclusively contains structured and standardised instruments, the reliability of our measurements will automatically be guaranteed.


타당도

Validity


타당도는 평가도구가 실제로 의도 한 바를 측정하는지 여부를 나타냅니다. 타당도와 관련한 평가 방법의 발전은 일반적으로 측정의 authenticity을 높여 임상 역량을 보다 직접적으로 평가하고자하는 욕구와 관련이 있다. 이것은 환자 관리 문제에 의한 임상적 추론의 평가와 함께 1960 년대에 시작되어 1970 년대 OSCE 도입과 함께 계속되었습니다. authenticity는 candidate에게 (종이, 컴퓨터, 실험실 세팅 등을 통해) 실제 세계에서의 도전 과제를 시뮬레이션하여 제시함으로써 달성될 수 있으며, 이러한 평가 방법은 발전과 개선을 거쳐왔다.

Validity refers to whether an instrument actually does measure what it is purported to. Newer developments concerning assessment methods in relation to validity have typically been associated with the desire to attain a more direct assessment of clinical competence by increasing the authenticity of the measurement. This started in the 1960s with the assessment of  clinical reasoning  by patient management problems and continued with the introduction of the OSCE in the 1970s. Authenticity was achieved by offering candi- dates simulated real world challenges, either on paper, in computerised forms or in a laboratory setting. Such assessment methods have passed through major developments and refinements of technique.12


그러나 이러한 분야의 급속한 진전 이외에도 미래에 우리 측정의 타당성에 큰 영향을 미칠 수있는 여러 가지 상호 연관된 발전이 있음을 알 수 있습니다.

However, on top of the rapid progress in those areas, we see a number of interrelated developments, which may have a marked impact on the validity of our measurements in the future.


첫째, 우리는 매일 매일의 실천 환경에서의 평가를 추구하는 authenticity 운동의 지속적인 진전을 목격 할 가능성이있다 .13 OSCE의 성공은 기본적으로 평가를 작업장으로부터 (Authentic한 과제 통한) 표준화되고 객관화 된 실험실 통제 환경으로 옮기는 것에 근거했다. 샘플링과 신뢰도의 관계에 대한 통찰력은, 우리가 다시 (덜 표준화되었음에도 신뢰성을 갖춘) 작업장의 현실 세계에서의 평가로 돌아올 수 있게 해주었다. 

Firstly, we are likely to witness the continued progress of the authenticity movement towards assessment in the setting of day-to-day practice.13 Whereas the success of the OSCE was basically predicated on moving assessment away from the workplace to a laboratory-controlled environment by providing authentic tasks in a standardised and objectified way, today, insights into the relationship between samp- ling and reliability appear to have put us in a position where we can move assessment back to the real world of the workplace as a result of the development of less standardised, but nevertheless reliable, methods of practice-based assessment.



두 번째 발달은 역량의 통합을 향한 움직임에 관한 것이다 .19-21 기본적으로,이 운동은 현대 교육 이론으로부터 통찰력을 얻는다.이 이론은 작업이 통합 될 때 학습이 촉진된다고 시사한다 .22 구성 요소 또는 역량의 하위 계급의 적재에만 국한되는 학습 프로그램은 다양한 작업 구성 요소가 통합 방식으로 실행되는 방식보다 유능한 전문가를 양성하는 데 덜 효과적이다. 다양한 작업 구성요소가 통합될 때 transfer가 촉진된다.

A second development concerns the movement towards the integration of competencies.19–21 Essen- tially, this movement follows insights from modern educational theory, which postulates that learning is facilitated when tasks are integrated.22 Instructional programmes that are restricted to the  stacking  of components or subskills of competencies are less effective in delivering competent professionals than methods in which different task components are presented and practised in an integrated fashion, which creates conditions that are conducive to transfer.


그러나 평가에서 우리는 더 작은 단위로 역량을 쪼개어 평가하는 경향을 지속하고 있습니다.

However, in assessment we tend to persist in our inclination to break down the competency that we wish to assess into smaller units,


평가에서의 환원주의는 평가방법에 의해서 기술을 과도하게 단순화시키는 것으로부터 나타났는데, 기본 아이디어는 각각의 기술에 대해 단일 (그리고 단 하나의) 도구를 개발하여 사용할 수 있다는 이다. 원자화는 trivialization을 유도하며, 타당성을 위협 할 수 있으므로 피해야합니다. Competency movement는 전문 지식의 (총체적 또는 암묵적) 본질을 존중하는 통합 된 접근 방식을 추구한다.

Reductionism in assess- ment has also emerged from oversimplified skills-by- method thinking,1 in which the fundamental idea was that for each skill a single (and only a single) instrument could be developed and used. Atomisation may lead to trivialisation and may threaten validity and, therefore, should be avoided. The competency movement is a plea for an integrated approach to competence, which respects the (holistic or tacit) nature of expertise.


수십 년 전과 비교할 때, 오늘날의 문항은 맥락적, 비네트기반 또는 문제 지향적이며 사실을 간단하게 리콜하기보다는 추론 기술을 필요로합니다. 이러한 맥락화는 중요한 퀄리티 또는 타당성 지표로 간주됩니다 .26 평가자가 authenticity를 존중한다면 어떤 평가 방법의 타당성도 크게 향상 될 수 있습니다.

Compared with a few decades ago, today’s items are contextual, vignette-based or problem-oriented and require reasoning skills rather than straightforward recall of facts. This contextualisation is considered an important quality or validity indicator.26 The validity of any method of assessment could be improved substantially if assessment designers would respect the characteristic of authenticity.


진정성은 단순하게 피라미드를 등반하는 것이 아니라, 피라미드의 모든 단계에서 실현되어야 하는 문제이며, 유사한 authentic한 정보가 피라미드 내의 다양한 출처에서 나올 수 있다. 따라서 다양한 소스로부터 정보를 삼각 측량하여 전반적인 판단을 내리기 위해 이러한 여러 가지 정보 소스를 사용하는 것이 좋습니다. 이는 훌륭한 평가 작업을 수행하기 위해 여러 가지 방법이 사용해야 한다는 주장과 같다.

We can also reverse the authenticity argument: when authenticity is not a matter of simply climbing the pyramid but something that should be realised at all levels of the pyramid, we can also say that similar authentic information may come from various sources within the pyramid. It is, therefore, wise to use these multiple sources of information from various methods to construct an overall judgement by triangulating information across these sources, a fact that supports the argu- ment that we need multiple methods in order to make a good job of assessment.


최종 추세는 역량 운동과 관련이 있다. 

A final trend is also related to the competency movement. The importance of general professional competencies ) which are not unique to the medical profession ) is acknowledged. there is currently a marked tendency to place more and more emphasis on such general competencies in education and, therefore, in assessment.


그러한 일반 역량general competencies을 평가하기 위한 정보 수집은 점차 정량적, 수치 데이터가 아닌 정성적, 서술적 정보를 중요시하게 될 것이다. 이러한 정성적인 정보는 단순한 미리 설정된 표준을 기준으로 판단 할 수 없습니다. 그렇기 때문에 평가를위한 적절한 사용을 보장하기 위해서는 전문적인 평가가 반드시 필요합니다.

Information gathering for the assessment of such general competencies will increasingly be based on qualitative, descriptive and narrative information rather than on, or in addition to, quantitative, numerical data. Such qualitative information cannot be judged against a simple, pre-set standard. That is why some form of professional evaluation will be indispensable to ensure its appropriate use for assessment purposes.


복잡한 역량의 평가를 향해 나아감에 따라, 우리는 익숙했던 것보다 더 많은 정보 소스에 의존해야 할 것입니다. 또한 의사 결정의 기초로서 전문적인 판단에 더 의존하게 될 것입니다. 해결해야 할 과제는 객관성을 핑계로 내용을 trivialize 하지 않고 가능한 한 엄격한 의사 결정을 내리는 것입니다. 

As we move further towards the assessment of complex competencies, we will have to rely more on other, and probably more qualitative, sources of information than we have been accustomed to and we will come to rely more on professional judgement as a basis for decision making about the quality and the implications of that information. The challenge will be to make this decision making as rigorous as possible without trivialising the content for objectivity  reasons. There is much to be done in this regard.31



학습에 대한 영향

Impact on learning


학습에 대한 평가의 영향은 또한 미국 교육 연구 협회 (American Educational Research Association)에 의한 정당성의 공식 정의에 포함 된 consequential validity라고 불려왔다. 이것은 두 가지의 다소 역설적 인 관찰을 가져온다.

The impact of assessment on learning has also been termed  consequential validity ,4 which is incorpor- ated in the formal definition of validity by the American Educational Research Association.32 This brings us to 2 somewhat paradoxical observa- tions.


첫 번째는 평가가 학습에 영향을 미친다는 개념이 점점 더 받아들여지고 있다는 것이다. 많은 출판물이 평가와 학습 간의 강력한 관계를 인정했습니다. 평가가 학습의 원동력이라는 개념에 대한 인식은 평가에서 우수 실행 원칙의 하나로서 점차 중요시되고있다.

The first observation is that the notion of the impact of assessment on learning is gaining more and more general acceptance. Many publications have acknow- ledged the powerful relationship between assessment and learning. Recognition of the concept that assessment is the driving force behind learning is increasingly regarded as one of the principles of good practice in assessment.33


두 번째 관찰은 평가와 학습의 관계에 대해 밝힌 문헌이 부족하다는 것입니다 .35불행히도이 분야에서 우리의 사고와 진보를 더욱 촉진 할 수있는 출판 된 정보는 찾기 어렵습니다.

The second observation is that there is a paucity of publications that shed light on the relationship between assessment and learning.35 From our daily experience in educational practice we are familiar with some of the crucial issues in this respect: 

    • how to achieve congruence between educational objectives and assessment; 

    • how to provide and increase feed- back from assessment; 

    • how to sustain formative feedback; 

    • how to combine and balance formative and summative assessment; 

    • how much assessment is enough; 

    • how to spread assessment over time, etc. 

Unfortunately, published information that can fur- ther our thinking and progress in this area is hard to come by.


이 희소성은 평가의 맥락에 대해 알지 못하고 학습에 대한 평가의 영향을 연구하는 것이 거의 불가능함을 설명하는 것일 수 있습니다. 예를 들어, 최근 논문은 OSCE 스테이션에서의 학생들의 수행능력이 과거의 주제에 대한 경험보다 학생들의 순간적 맥락 (그들이 있었던 순환)과 훨씬 더 강한 관계가 있음을 보여 주었다. 평가 방법의 특성은 각 방법에 내재되어 있는 것이 아니라, 평가가 이루어지는 방법 및 상황에 의존한다는 개념은 (유틸리티 방정식의 어떠한 특성보다도) 학습에 미치는 영향의 사례에 훨씬 더 잘 적용된다. 유사한 방법이라도 전반적인 평가 프로그램에서의 사용 및 위치에 따라 교육 효과가 크게 다를 수 있습니다.

An explanation of this scarcity may be that it is almost impossible to study the impact of assessment on learning without knowing about the context of the assessment. For example, a recent paper showed that students’ performance on an OSCE station had a much stronger relationship with the students’ momentary context (the rotation they were in) than with their past experience with the subject.36 The concept that a characteristic of an assessment method is not inherent in the method but depends on how and in what context assessment takes place is even more applicable in the case of its impact on learning than for any of the other characteristics in the utility equation. Similar methods may lead to widely differing educational effects, depending on their use and place in the overall assessment programme.



교육 설계로서 평가

ASSESSMENT AS INSTRUCTIONAL DESIGN


앞의 논의는 평가와 관련하여 초점이 바뀌는 것을 강력히 촉구하는 것입니다. 즉, 역량의 개별 부분에 대한 평가 방법에서 다른 모든 측면과 함께 불가분하게 짜여진 구성 요소로서의 평가로 옮겨가는 것입니다. 훈련 프로그램의 이러한 교수 설계 관점에서, 개념적 실용 모형은 통합 평가 프로그램의 수준에서 적용되어야한다. 그런 다음 평가는 심리 측정 문제를 단일 평가 방법으로 해결하여 전체 커리큘럼을 포함하는 교육 디자인 문제로 변경됩니다. 주어진 상황 (예 : 직원의 전문 지식 수준, 과거의 평가 경험, 학생 및 직원의 신념) 및 사용 가능한 리소스에서 수용 가능한 것을 염두에두고 도전은 모든 평가 기준을 충족하는 평가 프로그램을 설계하는 방법이됩니다.

It is our view that the preceding discussion constitutes a strong plea for a shift of focus regarding assessment, that is, a shift away from individual assessment methods for separate parts of competencies towards assessment as a component that is inextricably woven together with all the other aspects of a training programme. From this point of view, the instruc- tional design perspective, the conceptual utility model should be applied at the level of the integral assessment programme. Assessment then changes froma psychometric problemto be solved for a single assessment method to an educational design problem that encompasses the entire curriculum. Keeping in mind what is acceptable in a given context (i.e. level of expertise of staff, past experience in assessment, student and staff beliefs) and the available resources, the challenge then becomes how to design an assessment programme that fulfils all the assessment criteria.


문제는 구식 또는 현대식 평가 방법을 사용하는지 여부가 아니라, 주어진 상황에서 도구 상자에서 이 방법이나 도구를 선택해야하는 이유와 방법에 관한 것입니다.

The issue then is not whether one uses  old-fashioned  or  modern  methods of assessment, but much more why and how we should select this or that method fromour toolbox in a given situation.


평가에 대한 프로그램 방식의 교수 설계 접근법은 개별 코스 개발자 또는 교사의 자율성을 능가합니다. 중앙 계획과 조정이 필요하며 잘 작성된 마스터 플랜이 필요합니다. 근본적으로,이 개념은 현대 교육 과정 설계의 개념을 따른다. 신중한 조정과 계획없이 교과 과정 갱신이 성공하지 못할 것입니다 .37 평가 프로그램에 대해서도 마찬가지입니다. 커리큘럼 디자인에 대한 또 다른 닮은 점은 정기적 인 재평가와 재 설계가 필요하다는 것입니다. 학습에 대한 평가의 효과는 예측할 수 없으며 시간이 지나면 변할 수 있습니다.

A programmatic, instructional design approach to assessment surpasses the autonomy of the individual course developer or teacher. It requires central planning and co-ordination and needs a well written master plan. Essentially, this notion follows that of modern curriculum design. No curriculum renewal will be successful without careful orchestration and planning.37 The same holds for an assessment programme. Another likeness to curriculumdesign is the need for periodic re-evaluation and re-design. The effect of assessment on learning can be quite unpredictable and may change over time.


여러 척도를 사용하면 자동으로 신뢰성과 타당성이 증가한다고 말할 수는 없습니다. 완전히 다른 출처의 정보를 결합 할 때 우리는 사과에 오렌지에 첨가하는 것이 필연적으로 유효성 평가를 복잡하게 만드는 것처럼 보일 수 있습니다. 그러나 합격 또는 불합격 결정을 내리는 것은 다시 프로그램 수준에서 평가되어야하는 것입니다. 우리는 이것 역시 전문적인 판단이 필요하다고 생각합니다. 1 단계 평가에서 1 단계 평가 방법으로 전환해야합니다 .5 우수한 평가 프로그램은 신뢰할 수있는 표준을 사용하여 여러 차례에 걸쳐 해당 역량을 평가하기 위해 여러 역량 요소와 여러 정보원을 통합합니다. 얻은 정보는 최종 (판촉) 결정으로 통합되어야합니다.

We cannot say that the use of multiple measures will automatically increase reliability and validity. When we combine information from totally different sources, we may seem to be adding apples to oranges in a way that will inevitably complicate the evaluation of the validity. Yet making pass or fail decisions is something that – again – should be evaluated at the level of the programme. We think that this too will require professional judgement. We should move away from the 1-competence)1-method approach to assessment.5 A good assessment programme will incorporate several competency elements and multiple sources of information to evaluate those competencies on mul- tiple occasions using credible standards. The infor- mation obtained will have to be aggregated into a final (promotion) decision.



모든 출처가 같은 방향을 가리키면 정보가 일관되고 결정이 비교적 간단합니다. 정보가 서로 상충되면 의사 결정이 더욱 어려워지며 방어 가능한 판단을 내리기 위해서는 더 많은 정보를 얻거나 더 많은 의사 결정권자를 추가하거나 승진 결정을하거나 결정을 연기해야할 수 있다. 그러한 의사 결정 절차는 포화 상태에 도달 할 때까지 정보를 축적하고 결정이 신뢰할 수 있고 방어 가능해질 때까지 수집하는 질적 인 접근법과 훨씬 더 유사합니다.

When all sources point in the same direction, the information is consistent and the decision is relatively straightforward. With con- flicting information, decision making is more prob- lematic and a defensible judgement will require additional information, by obtaining more informa- tion, by adding more decision makers, by a condi- tional promotion decision or by postponing the decision. Such a decision-making procedure bears far greater resemblance to a qualitative approach that continues to accumulate information until saturation is reached and a decision becomes trustworthy and defensible.31



연구 개발의 함의

IMPLICATIONS FOR DEVELOPMENT AND RESEARCH



평가에 대한 프로그래밍 방식의 교수 설계 접근 방식에서는 간단한 심리측정 평가만으로는 충분하지 않습니다. 아마도 그러한 평가 프로그램에 대한보다 자세하고 적절한 설명으로 시작해야 할 것입니다.

In a programmatic, instructional design approach to assessment,  simple  psychometric evaluation will not suffice. We should probably start with more and proper descriptions of such assessment pro- grammes.


평가 연구가 개별 평가 방법에 지나치게 집중되어 있고 지나치게 심리측정의 문제만 다룬다는 의견이 있습니다. 우리는 사용법과 프로그램적 맥락에 따라 어떤 방법이라도 유용 할 수 있다는 견해를지지합니다. 본질적으로 좋지 않거나 좋은 평가 방법은 없습니다. 그들은 모두 친척입니다. 중요한 것은 평가 프로그램이 커리큘럼에 통합되어야 하며 이것이 우리의 관심과 노력의 주요 초점이어야한다는 것입니다. 결정적인 질문은 전반적으로 평가 프로그램의 유용성에 관한 것입니다.

It is our opinion that the assessment literature is overly oriented towards the individual assessment method and too preoccupied with exclusively psy- chometric issues. We advocate the perspective that any method can have utility, depending on its usage and the programmatic context. There are no inher- ently bad or good assessment methods. They are all relative. What really matters is that the assessment programme should be an integrated part of the curriculum and this should be the main focus of our attention and efforts. The crucial question concerns the utility of the assessment programme as a whole.






 2005 Mar;39(3):309-17.

Assessing professional competence: from methods to programmes.

Author information

1
Department of Educational Development and Research, University of Maastricht, Maastricht, The Netherlands. C.vanderVleuten@educ.unimaas.nl

Abstract

INTRODUCTION:

We use a utility model to illustrate that, firstly, selecting an assessment method involves context-dependent compromises, and secondly, that assessment is not a measurement problem but an instructional design problem, comprising educational, implementation and resource aspects. In the model, assessment characteristics are differently weighted depending on the purpose and context of the assessment.

EMPIRICAL AND THEORETICAL DEVELOPMENTS:

Of the characteristics in the model, we focus on reliability, validity and educational impact and argue that they are not inherent qualities of any instrument. Reliability depends not on structuring or standardisation but on sampling. Key issues concerning validity are authenticity and integration of competencies. Assessment in medical education addresses complex competencies and thus requires quantitative and qualitative information from different sources as well as professional judgement. Adequate sampling across judges, instruments and contexts can ensure both validity and reliability. Despite recognition that assessment drives learning, this relationship has been little researched, possibly because of its strong context dependence.

ASSESSMENT AS INSTRUCTIONAL DESIGN:

When assessment should stimulate learning and requires adequate sampling, in authentic contexts, of the performance of complex competencies that cannot be broken down into simple parts, we need to make a shift from individual methods to an integral programme, intertwined with the education programme. Therefore, we need an instructional design perspective.

IMPLICATIONS FOR DEVELOPMENT AND RESEARCH:

Programmatic instructional design hinges on a careful description and motivation of choices, whose effectiveness should be measured against the intended outcomes. We should not evaluate individual methods, but provide evidence of the utility of the assessment programme as a whole.

PMID:
 
15733167
 
DOI:
 
10.1111/j.1365-2929.2005.02094.x
[Indexed for MEDLINE]


왜 의학교육의 평가가 현대검사이론의 굳건한 토대를 필요로 하는가 (Adv in Health Sci Educ, 2017)

Why assessment in medical education needs a solid foundation in modern test theory

Stefan K. Schauber1 • Martin Hecht2 • Zineb M. Nouns3



도입

Introduction


Classics Test Theory (CTT), Generalizability Theory (G 이론) 및 Item Response Theory (IRT)에서 개발 된 심리 측정 모델은 의학 교육의 연구 및 평가 분야에서 널리 사용되었습니다. 현대의 시험 이론은 또한 PISA, Programme for International Student Assessment or the National Assessment of Educational Progress(Ray and Wu 2003; von Davier et al., 2006; Rutkowski et.)과 같은 대규모 교육 평가에서 측정의 방어 가능성을 확보하기위한 기초를 제공합니다 al., 2013).

Psychometric models—developed within Classical Test Theory (CTT), Generalizability Theory (G Theory), and Item Response Theory (IRT)—have been widely employed in the field of research and assessment in medical education. Modern test theory also provides the basis for securing the defensibility of measurements in large-scale educational assessments, such as the Programme for International Student Assessment or the National Assessment of Educational Progress (Ray and Wu 2003; von Davier et al. 2006; Rutkowski et al. 2013).


이러한 평가의 결과에 근거한 결정은 때로는 전체 사회 시스템에 영향을 미치는 광범위한 결과를 초래할 수 있습니다. 예를 들어, Programme for International Student Assessment(Grek 2009)에서 학생들의 열등한 성과로 인해 막대한 교육 개혁이 제정되었습니다. 의료 면허 시험에서 평가는 개인의 경력 (의사가 될 것인가 못 될 것인가)에 대한 결정의 기초 일뿐만 아니라, 전체 보건의료 시스템의 품질을 보장하는 데 필수적인 부분입니다 (누가 의사가 되고 누가 안 되는가) (Norcini et al. 2011).

Decisions based on the results of these assessments can have far-reaching consequences, sometimes affecting a whole social system. For instance, vast educational reforms have been enacted as a consequence of students’ inferior performances on the Programme for International Student Assessment (Grek 2009). In medical licensing examinations, assessments form not only the basis of decisions on an individual’s career (becoming a doctor or not), but also are an integral part of securing the quality of the whole health care system (who becomes a doctor and who does not) (Norcini et al. 2011).


예를 들어 Schuwirth and van der Vleuten (2006)은 "새로운 정신 측정 모델에 대한 탄원"을 주장하였으며, Hodges는 "정신적 후 심적 시대"에 대한 아이디어를 반복적으로지지했다 (Hodges 2013; Eva and Hodges 2012 ). 이 저자들이 제기 한 우려는 심리 측정 모델이 취하는 환원주의적 접근과 관련이 있습니다. 즉, 인간 행동의 풍부한 변화를 하나의 숫자로 집계하고 합산하는 행위에 대한 지적이다. 그러나, 이 정신 과학에 대한 비판적 입장은 의학 교육 분야에만 국한되지 않습니다. 비슷한 우려가 교육평가 분야에서도 제기되었다. 실제로 1970 년대 이래로 몇몇 저자들은 교육 환경에서 규범 참조 시험의 부적합성 (내용 적성 검사 (McClelland 1973)이나, Content-aptitude test의 무의미성 (Pophamand Husek 1969)을 주장했다.

For instance, Schuwirth and van der Vleuten (2006) articulated a ‘‘plea for new psychometric models’’, and Hodges repeatedly advo- cated for the idea of a ‘‘post-psychometric era’’ (Hodges 2013; Eva and Hodges 2012). The concerns raised by these authors are related to the reductionist approachthat psychometric models take: the act of aggregating, summing, and thus reducing a richvariety of human behavior to a single number. However, this critical stance towardspsychometrics is not limited to the field of medical education. Similar concerns have alsobeen raised in the field of educational assessment. Indeed, since the 1970s, several authorshave argued repeatedly against the meaninglessness of content-aptitude tests (McClelland1973), the inappropriateness of norm-referenced testing in educational settings (Pophamand Husek 1969)


Schuwirth and van der Vleuten (2011)은 학생들의 학습과 전문성 개발이 중요한 역할을 하는 '프로그램적 평가'의 개념을 개발했습니다. Hodges (2013)는 평가의 개념을 게스탈트(gestalt)으로 제시했다. "의미있는 전체는 단순한 부분의 합보다 더 중요하다."이 저자들은 분명히 psychometrics에 비판적이지만 그것 자체의 사용을 거부하지는 않는다. 다만 그것은 평가에서 마이너한 역할을 한다. 최근의 논문에서 van der Vleuten et al. (2014)는 고부담 의사결정은 합법적으로 전문적인 판단에 근거 할 수 있고, 그러한 결정의 신뢰성은 전문가위원회에 의해 보장되어야한다고 제안했다.

Schuwirth and van der Vleuten (2011) developed the concept of ‘programmatic assessment’, in which stu- dents’ learning and professional development plays a crucial role. Hodges (2013) put forward the idea of assessment as a gestalt: a meaningful whole that is ‘‘…more than its parts.’’ Although these authors are clearly critical of psychometrics, they do not reject its use per se; but it plays a minor role in their conception of assessment. In a recent publi- cation, van der Vleuten et al. (2014) suggested that high-stakes decisions could legiti- mately be based on professional judgment, and that the trustworthiness of such decisions should be ensured by expert committees.


현대 시험 이론의 관점에서, 평가는 평가의 목적을 정의하고, 시험 내용을 구체화하고 개발하고, 합격 및 실패 결정을 내리는 것에 이르는 모든 것을 포함하는 체계적인 접근입니다 (Wilson 2005). 분명히, 전체적으로 평가는 통계적 공식의 적용만으로 수행 될 수는 없지만, 실제 시험되는 시험이 전체 이야기의 일부분이 되는 엄격한 테스트 개발 과정에 의해 수행 될 수 있습니다. 사실 지금까지 의학 교육에 대한 토론에서는 general measurement process의 특정 부분, 즉 정보의 통계적 조합에만 초점을 맞추었습니다.

 Assessment, from the perspective of modern test theory, is a systematic approach that encompasses everything from defining the purpose of an assessment, to specifying and developing test content, to reaching conclusions such as passand fail decisions (Wilson 2005). Obviously, assessment as a whole cannot be carried outby the application of a statistical formula alone, but rather by the process of rigorous testdevelopment, in which the actual tests or exams administered are just part of the story.Indeed, discussions in medical education so far have only focused on a specific part of thegeneral measurement process, that is, on the statistical combination of information.


다양한 영역에서 인간의 판단에 관한 연구를 통해 사람들은 정보를 어떻게 평가하고 결합하여 의사 결정 또는 의사 결정을 내리는지 거의 인식하지 못한다는 것을 반복적으로 보여주었으며, 이는 즉, 의사 결정은 완전히 conscious하지 않아 잠재적으로 error-prone하다는 것을 의미한다 

  • Evans et al. (2003), "전문가가 이러한 판단의 기초가되는 과정에 대한 자기 통찰력이 부족하면 무의식적으로 편향 될 수 있습니다."(608 페이지) 

  • 전문가들은 매일 정확한 판단과 결정을 내립니다. 그러나 판단의 정확성은 실질적으로 상황의 구조와 판단의 대상 모두에 의존 할 수 있다고 지적했다 (Hammond et al., 1987). 

  • 예를 들어, 최근 연구에 따르면 전문가들은 이상적인 모습에 근접한 성과를 인식하는 데 오히려 정확하지만, low-level 수행자를 충분히 구별해낼 수는 없다 (Larson and Billeter 2016). 

  • 또한 전문가의 판단 정확도는 일반적으로 전문가의 암시적 규칙에 기반한 수학적 모델이 더 잘 수행한다 (Goldberg 1970, Karelaia and Hogarth 2008).

Research on human judgment in various domains has repeatedly shown that individuals are hardly aware of how they weigh and combine available information to forma judgment or decision—decision making is not fully conscious, and therefore it is potentially error-prone. 

  • As stated by Evans et al. (2003), ‘‘If experts lack self-insight into the processes underlying these judgments, they may be unconsciously biased.’’ (p. 608) 

  • Experts do make fairly accurate judgments and decisions every day; however, previous research has indicated that such accuracy may depend substantially on both the structure of the situation and the object of judgment (Hammond et al. 1987). 

  • For instance, a recent study found that experts may be rather accurate in recognizing close-to-ideal performances but are less able to sufficiently discriminate between low-level performers (Larson and Billeter 2016). 

  • In addition, the accuracy of an expert’s judgment is usually outperformed by mathematic models based on experts’ implicit rules (Goldberg 1970; Karelaia and Hogarth 2008).


사실, psychometrics를 생각하는 한 가지 방법은, 심리측정을 체계적으로 적용된 수학적 규칙의 집합, 또는 그 규칙의 적합성을 조사하는 방법으로 보는 것이다. 특히 양적 방법에 대한 한 가지 비판은 관측 된 성과에 숫자를 할당하는 과정인 이러한 '규칙'이 본질적으로 환원주의적이며 결과적으로 다양한 관찰을 aggregate하거나 summarize하는 것이 합리적이라고 가정한다는 점이다 (Hodges 2013). 이와 관련하여 역량 평가를 위한 정신 측정 모델 사용에 관한 논란에 특유한 한 가지 쟁점이있다. 일반적으로 '사례 특이성'이라고 불리는 발견이다. 일반적으로 사례 특이성이란 임상 사례, 과제 또는 문제 전반에 걸친 성과의 불안정성이다. 

Indeed, one way to conceive of psychometrics is as a set of systematically applied mathematical rules, and the corresponding methods to investigate the appropriateness of those rules. As noted above, one critique of quantitative methods in particular has been that these ‘rules’, the process of assigning numbers to observed performance, are reductionist in nature and that, consequently, this approach would assume that it is sensible to aggregate or summarize across observations (Hodges 2013). In this regard, there is one issue that is specific to the controversy on the use of psychometric models for the assessment of medical competence: a finding usually referred to as ‘case specificity’. Broadly speaking, case specificity is the finding of instability of performances across clinical cases, tasks, or problems. 


사례 특이성의 발견은 대개 두 가지 유형의 연구에서보고됩니다.

  • 첫째, Norman (2008)이 지적한 바와 같이, 한 개인의 다양한 퍼포먼스는 서로 연관성이 낮은 것으로 나타났다.

  • 둘째, 심리 측정 연구는 여러 평가 시나리오에서 "설명 할 수 없는 분산"의 양이 비교적 큼을 반복적으로 나타냈다. 사실, 총 변동의 60-70 %는 설명 할 수없는 상태로 남는다 (Brannick et al., 2011; Wrigley et al., Ricketts et al., Dory et al., Norman et al., Colliver et al. Jarjoura et al., 2004; De Champlain et al., 1999; Swanson et al., 1995; Richter Lagha et al., 2012). 

종합하면, 사례 특이성이란 어떤 사람에 대한 하나의 평가 내에서도 문항간 또는 사례간 퍼포먼스의 일관성이 낮다는 말과 같으며, 또한 여러 평가 간 일관성도 낮음을 말한다. 비슷한 결과가 다른 영역에서도 발견되었다 (Shavelson et al., 1993, 1999).

Findings of case specificity are usually reported in two types of studies. First, as noted by Norman (2008), results from correlational studies indicate that associations between performances are often low (see also Elstein 1978; Norman et al. 1985; Roberts and Norman 1990). Second, psychometric studies have repeatedly indicated that the amount of unexplained variance in various assessment scenarios is comparably large. Indeed, 60–70% of the total variance often remains unexplained (Brannick et al. 2011; Wrigley et al. 2012; Ricketts et al. 2010; Dory et al. 2010; Norman et al. 2006; Colliver et al. 1990; Jarjoura et al. 2004; De Champlain et al. 1999; Swanson et al. 1995; Richter Lagha et al. 2012). Taken together, the finding of case specificity is synonymous with a low degree of within-person consistency of performances across items or cases within and across assessments. Similar results have also been found in other domains (Shavelson et al. 1993, 1999).


실제로 사례 특이성의 발견은 심리 검사에서 중요한 역할을 할 수 있습니다. 사례 특이성은 의학교육에서 "단 하나의 진실"이라고 불려지는데 (Eva 2011의 John Norcini, 22 페이지), 사례 특이성과 관련된 변이성이 거의 모든 곳에서 그리고 많은 문맥에서 발견되기 때문이다 (Eva 2003). 이에 대해서 "... 관찰 된 분산의 작은 부분 만 설명 할 수있는 과학적 모델은 기껏해봐야 moderately strong model이다."(Schuwirth 2009, 299 페이지)라고 한 것은 흥미롭다. Schuwirth and van der Vleuten (2006)은 latent variable과 같은 심리 측정 이론의 핵심 개념이 의학에서의 역량평가에서는 의미가 없을 수도 있다고 주장했다. "의학에서의 역량을 latent construct로 보는 것은 틀렸다고 본다. 왜냐하면 그러한 모델에서 construct는 generic, stable, homogenous한 것으로 사용되기 때문이다". 분명히 사례 특이성의 발견은 stability라는 개념과 상당히 대조적 인 것으로 보인다. 종합하여, 사례 특이성의 발견이 의료 적 능력 평가에서 심리 측정 모델의 부적합에 대한 경험적 논증으로 간주 될 수 있는지의 문제를 야기한다.

Indeed, the finding of case specificity may play a crucial role in the reservations psy- chometrics is faced with. Case specificity has been called the ‘‘…one truth in medical education’’ (John Norcini in Eva 2011, p. 22), since the associated variability of perfor- mances is found almost everywhere and across many contexts (Eva 2003). Knowing this, the remark that ‘‘…a scientific model capable of explaining only such a small portion of the observed variance is at best a moderately strong model’’ (Schuwirth 2009, p. 299) is highly interesting. Schuwirth and van der Vleuten (2006) also argued that core concepts of psychometric theory, such as latent variables, might not be meaningful in the assessment of medical competence, stating ‘‘we […] think the assumption that they [i.e., the aspects of medical competence] can be treated as latent constructs is incorrect…’’ (p. 297), amongst other reasons, because ‘‘…[i]n this model, constructs are used as generic, stable and homogenous characteristics’’ (p. 296). Clearly, the finding of case specificity seems to represent quite the contrast to the notion of stability. Taken together, this raises the question of whether the finding of case specificity can be regarded as an empirical argu- ment for the inadequacy of psychometric models in the assessment of medical competence.


잠재 변수

Latent variables


우리는심지어 알지도 못하는 채로, 매일 잠재 변수를 다룹니다. 예를 들어 특정 학생이 시험에서 반복적으로 속임수를 쓰고 숙제를 도용했다고 의심되는 경우, 우리는 이 학생이 '속이는 사람'이라는 결론에 도달한다. 간단히 말해, 우리는 관찰 된 behavior (예 : 시험에 컨닝 시트를 가져오는 것)의 원인을 그 사람의 trait로 보는 경향이 있다. Trait란 사람의 성격에서 안정된 측면 또는 상황에 따라 어떤 특징적인 방식으로 행동하는 일반적인 성향이다 (예 : '사기꾼').

Presumably without even knowing, we deal with latent variables on a daily basis. For instance, if we observe a particular student cheating repeatedly in exams and suspect that he/she plagiarized a homework assignment, it is likely that we will come to the conclusion that this student is in fact a ‘cheating’ person. In short, we tend to attribute the observed behavior (e.g., the event of bringing a crib sheet to an exam) to a trait, that is, a stable facet of a person’s character or a general disposition to act in some characteristic way across situations (e.g., being a ‘cheater’).


이 특성은 보고, 느끼고, 맛보거나,들을 수 없습니다. 그것은 어느 정도 숨겨져 있거나 잠재된 것이다. 사람의 행동을 성격에 귀속시킴으로써 우리는 암묵적으로 둘 사이의 인과성을 가정한다.

However, we cannot see, feel, taste, or hear this trait; it is to some extent hidden or latent. By attributing a person’s behavior to their character, we implicitly assume a causal force,


잠재 변수의 가장 가치있는 특징은 종종 "제한된 수의 잠재 변수를 통하여 광범위한 행동을 설명하는 직관성"에서 볼 수 있습니다. "(Borsboomet al. 2003, 203 페이지). 심리측정 논문들은 성찰적 측정 모델 (Edwards and Bagozzi 2000; Borsboom et al., 2003; Bollen and Lennox 1991)과 같은 심리측정의 이론적 근거 (즉, 잠재 변수에 의한 관측)를 기술하기도 했다. 이론적으로, 관찰 된 행동은 잠재 변수의 영향의 지표로 생각된다. 이것은 배심 재판에서 법적인 절차가 정황 증거에 의존하는 것과 유사하다.

The most worthwhile feature of latent variables is often seen in ‘‘…the intuitive appeal of explaining a wide range of behaviors by invoking a limited number of latent variables.’’ (Borsboomet al. 2003, p. 203). The psychometric literature describes the model underlying such a rationale (i.e., observations caused by a latent variable) as a reflective measurement model (Edwards and Bagozzi 2000; Borsboom et al. 2003; Bollen and Lennox 1991). Theoretically, the observed behaviors (performances on items, ratings on check-lists, responses to questionnaires, etc.) are conceived of as indicators of the effect of the latent variable. Similar inferences may be made in jury trials when the legal proceedings rely on circumstantial evidence.


한 시점에서의 행동은 다른 잠재적 인 행동이나 반응의 예측 인자로 사용됩니다. 왜냐하면 그것들은 모두 같은 잠재 변수에 의해 유발되기 때문입니다. 이 암시적 인과 관계는 (부정 행위, 배신, 표절을 유발하는 부정직과 같은) 구조적 방정식 모델의 그래픽으로도 묘사됩니다. 여기서 화살표는 잠재 변수 (타원으로 표시)에서 명시 지표(사각형으로 표시) 에 연결된다. 1.

 Thebehavior at one point in time is used as a predictor of a behavior or response at anotherpoint, since they all are evoked by the same latent variable. This implicit causal attribution(e.g., dishonesty causing cheating, betrayal, plagiarizing) is also depicted in the graphicalnotation system of structural equation models, in which arrows point from a latent variable(depicted by ellipses) to manifest indicators (depicted by squares), as shown in Fig. 1.



잠재 변수 분석에서 이론적 모델을 정당화하는 한 가지 방법은 지정된 모델 (및 대안 모델)을 관측 된 데이터와 비교하는 것입니다. 모델과 데이터 간의 정렬을 탐색하는 데 사용되는 방법은 통계 모델링의 핵심 개념이며 일반적으로 모델 적합성 평가라고합니다. Sijtsma (2006)에 따르면, 심리 측정 모델은 관측 된 데이터의 수학적 응축으로 생각할 수있다. 잠재 변수 - 잠재 성질, 요인, 잠재력 클래스 - 는 데이터의 요약이며 그 이상은 아니다. 452 쪽) 모델은 항상 단순화 된 것이다. 따라서 공식화 과정에서 deviation이 발생됩니다. 사실, 데이터의 모든 세부 사항이나 세부 사항을 설명하는 모델은 다른 상황에서는 거의 일반화 될 수 없습니다. 그럼에도 불구하고 더 복잡한 모델은 관측에서보다 많은 특이성을 설명하기 때문에, 적어도 설명 할 수 없거나 모델화되지 않는 것보다는 동등하거나 우수합니다. 모델 적합성을 평가하는 접근법의 한 가지 의미는 동일한 데이터 세트에 대해서도 각 모델은 각기 다양한 수준으로 데이터를 설명 할 수 있다는 것입니다. 경쟁 모델의 상대적인 적합성을 조사하는 것은 평가 자료가 요약되는 방법을 정당화하기위한 한 가지 방법 일 수 있으며, 따라서 결과적으로 중요한 의사 결정이 이루어지는 방법을 정당화 할 수 있습니다.

One way to justify a theoretical model in a latent variable analysis is to compare the specified model (and alternative models) to the observed data. The method used to explore the alignment between a model and the data is a central concept in statistical modelling and is usually referred to as the evaluation of model fit. According to Sijtsma (2006), psy- chometric models can be conceived of as a mathematical condensation of the observed data: ‘‘latent variables—latent traits, factors, and latent classes—are summaries of the data and nothing more.’’(p. 452) A model is always a simplification; hence, deviations fromthat formalization are expected. Indeed, a model that would account for all details or specifics in the data will hardly be generalizable to other occasions or instances. Nevertheless, more complex models are at least equally good or better in explaining the data, as they account for more idiosyncrasies in the observations, which would otherwise remain unexplained or un-modelled. One implication of the approach to evaluate model fit is that, for a set of models applied to an identical dataset, each model may explain the data to varying degrees. Investigating the relative fit of rivaling models may be one approach to justify the way assessment data is summarized and consequently how corresponding high-stakes decisions are made.


모델 적합성을 평가하는 데 중요한 부분은 관찰 된 데이터를 설명하기 위해 이론적으로는 서로 다른 모델의 상대적 효율성을 비교하는 것입니다. 이러한 비교가 수행 될 때 궁극적으로 선택된 모델은 관측 된 정보의 가장 적절한 요약으로 간주 될 수 있습니다.

The crucial part in assessing model fit is to compare the relative efficiency of different, theoretically sound models to explain the observed data. When these comparisons are performed, the model ultimately chosen can be regarded as the most appropriate summary of the observed information.


IRT의 맥락에서, 이 두 가지 별개의 항목 속성을 설명하는 명백한 선택이 있으며, 학생의 능력에 대한 추론은 더 잘 맞는 IRT 모델에서 파생 된 능력 평가를 기반으로 할 수 있습니다. 이 시나리오에서는 두 개 이상의 모델을 지정하여 데이터에 적용 할 수 있습니다. 

  • 첫째, 일변수 모델. 변별도가 일정하다고 가정하면서 문항 난이도의 차이를 설명합니다. 

  • 둘째, 이변수 모델, 시험의 문항의 변별도와 난이도 변수를 모두 추정하는 모델입니다. 

그런 다음 두 모델의 설명력을 다양한 모델 적합 기준을 사용하여 비교할 수 있습니다.

In the context of IRT, there is an explicit choice to account for these two distinct itemproperties, and inferences on students’ ability might be based on the ability estimates derived fromthe better fitting IRT model. In this scenario, at least two models might be specified and applied to the data. First, a 1-parameter-logistic model, which accounts for differences in item difficulties while assuming item discriminations to be constant. Second, a 2-parameter-logistic model, which estimates both difficulty and discrimination parameters for the items in the exam. The explanatory power of both models can then be compared using various model fit criteria.


그러나 어떤 모델이 가장 적합한지를 결정하는 것은 통계적 기준의 기능 일뿐만 아니라 평가의 목적이기도합니다. 따라서보다 더 복잡한 모델 대신 단순하고 덜 적합한 모델이 선택 될 수 있습니다.

However, determining which model is most suitable is not only a function of statistical criteria, but also of the purpose of an assessment. Therefore, a simpler and possibly less well fitting model may be chosen over a more complex model.


요약하면, 잠재 변수 분석의 핵심은 관측치가 결합되어 잠재 변수를 형성한다는 것입니다. 이 방법의 장점은 관련이 없는 여러 관측을 설명하거나, 행동을 예측하거나, 행동 예측을 통해 수행능력을 예측하게 해줄 수 있다. 특정 모델의 적합성의 정도를 평가하기 위해서는 모델에 대한 데이터의 적합성을 검사해야합니다. 특정 모델의 선택은 통계적 비교 또는 적용 맥락 중 하나로서 전문적인 판단의 문제 일 수 있습니다. 그러나 잘 맞지 않는 모델을 선택하면 (특히 일상적인 평가와 같은 실용적인 용도로 사용하는 경우), 잘못된 추론의 이점, 단점 및 의미를 분석하고 평가할 수 있습니다. 잠재적 인 변수 모델 - 데이터 요약 -는 통계적 특성과 실제 결과에 따라 테스트 할 수 있습니다.

To summarize, a central concept in latent variable analyses is that observations are combined to form a latent variable. The advantage of this approach is that it gives the ability to explain otherwise unrelated observations, predict behavior, or, for that matter, performances. In order to evaluate the degree of suitability of a particular model the fit of the model to the data must be examined. The choice of a particular model can be as much a matter of professional judgment as one of statistical comparisons or the context of application. If, however, a less well fitting model is selected—especially when it is used for practical purposes such as routine assessments—the benefits, drawbacks, and implications of possibly incorrect inferences can be analyzed and evaluated. Latent variable models— summaries of the data—can be tested based on both their statistical properties and their practical consequences.



측정 정확도

Measurement precision


일반적으로 측정 정확도는 측정의 재현성 (예 : 시험 결과, 등급, 분류)을 평가하기위한 모든 노력, 즉 평가 결과가 동일 할 것이라는 예상치를 포함합니다. 즉, "비슷한 상황에서 반복한다면 비슷한 평가결과가 나올 것이다. "(Norcini et al., 2011). 심리측정의 관점에서, 그러한 추정은 시험 점수에 근거한 주장(예: Proficiency에 대한 추론)의 신뢰성을 확보하는 데 중요합니다. 시험 결과의 재현성을 결정하는 한 가지 접근법이 G 이론에서 개발되었다 (Brennan 2001). 간단히 말해서, "G 이론은 ... 측정 오류의 원인을 정확하게 지적하고,이를 풀고, 각각을 추정합니다. "(Webb 외 2006). 측정 오차와 측정 정확도는 밀접한 관련 개념입니다. 측정 오류의 원인을 조사하면 더 많은 복제 가능 평가를 구축하는 데 도움이 될 수 있습니다. 이와 관련하여 G 이론은 종종 CTT보다 더 유연하다고 여겨진다 (Crossley et al., 2002). 이것은 G 이론이 CTT의 단일 일반 오차항("관찰점수 = 진점수 - 오류" 공식)과 대조되는 다각적 인 측정 오차를 생각하기 때문이다. G 이론은 이 single error term을 더 '풀어내는 것unpack'(Zumbo 2006)을 목표로합니다.

Generally speaking, the topic of measurement precision encompasses all efforts that aimto estimate the reproducibility of measurements (e.g., exam results, ratings, classifications), that is, an estimate of the extent to which ‘‘…results of the assessment would be the same if repeated under similar circumstances.’’ (Norcini et al. 2011). From a psychometric per- spective, such an estimate is important in securing the trustworthiness of claims that are based on test scores (e.g., inferences of proficiency) (Kane 1996, 2013; Messick 1989). One approach to determine the reproducibility of test results has been developed in G Theory (Brennan 2001). Briefly, G Theory ‘‘…pinpoints the sources of measurement error, disentangles them, and estimates each one.’’ (Webb et al. 2006). Measurement error and measurement precision are closely related concepts, since examining the sources of measurement error may help to build more replicable assessments. In this regard, G Theory is often considered to be more flexible than CTT (Crossley et al. 2002). This, because G Theory conceives of measurement error as multi-faceted, which is in contrast to the single general error term in CTT ‘‘observed score = true score ? error’’ formulation. G Theory aims to ‘unpack’ (Zumbo 2006) this single error term further.


잔분산 (residual variance) ... (Cronbach and Shavelson 2004) 

Residual variance 

‘‘…represents what is commonly thought of as error of measurement, combining the variability of performance to be expected when an individual can sometimes exceed his norm by gaining insight into a question and sometimes fall short because of confusion, a lapse of attention, and so forth.’’ (Cronbach and Shavelson 2004) 


일반적인 시험에서 보통 조사 할 수없는 것은 학생과 문항 간의 상호 작용입니다. 이는 학생들이 같은 문항에 다시 응답했을 때 동일한 점수를 받을지 여부를 모른다는 것과 같다. 일반적인 시험에서 이 상호 작용은 나머지 구성 요소로부터 분리 될 수 없습니다. 따라서 학생-문항 상호 작용과 잔분산이 결합되어 세 번째 변동성 원천이된다. 요약하면, 전형적으로, 학생 간 차이 (학생 facet)는 관심의 변이의 원천이며 잔여 성분은 항상 측정 오류로 간주되어 설명되지 않는 데이터 변동성을 나타냅니다. 그러나 어떤 분산 구성 요소가 오차 분산을 나타내며 관심 대상 구성을 형성하는지는 이론적인 고려 사항입니다.

What usually cannot be investigated in a typical exam is the interaction between the student and the item, meaning we don’t know if students would receive the same score if they had to answer that same item again. In a typical exam, this interaction cannot be disentangled from the residual component; thus student-item-interaction and residual variance combined form a third source of variability. In summary, in typical applications, the between-student differences (the student facet) are the source of variation of interest, while the residual component is always regarded as measurement error and represents the unexplained variability in the data. However, which variance component represents error variance and which forms the construct of interest is a matter of theoretical consideration.


특정 facet이 측정 오류를 구성하는지 여부는 실질적인substantive 결정이며 적용의 맥락에 특이적이다.

Whether or not a specific facet constitutes measurement error is a substantive decision and is specific to the context of application, which can be illustrated by two examples.


이와 관련하여 잠재 변수 모델링과 유사하게 G 이론을 통해 연구자는 관찰이 동일한 클래스의 관찰인 것으로 간주되는 기대치를 공식화하고 평가할 수 있으며 해당 클래스 내의 관찰이 복제 할 수있는 정도를 추정 할 수 있습니다.

In this respect, and similar to latent variable modelling, G Theory allows the researcher to formulate and evaluate expectations on which observations are deemed to be observations fromthe same class and estimate the degree to which observations within that class are replicable.


G 이론과 잠정적 변수 모델링은 모두 systematic variation을 설명하는 것을 목표로하는 통계 기법, 즉 데이터에서 일종의 일관성과 복제 가능성을 찾는 것을 나타냅니다. 결과적으로, G 이론이 특별한 유형의 잠재 변수 모형으로 간주 될 수 있다는 것은 놀라운 일이 아니다 (Skrondal and Rabe-Hesketh 2007, Zumbo 2006, Marclides 1996). 의사가 당뇨병 환자를 보는 임상 만남을 생각해보십시오. 그러한 만남에서, 의사는 우선 일상 생활에서 당뇨병을 다루는 방법에 대한 정보를 제공 한 다음 올바른 약물을 처방하고 인슐린 방출 메커니즘에 대한 지식을 바탕으로 그렇게 할 수 있습니다. 여러 명의 의사를 이 세 영역 (환자 교육, 약물 및 기제)에 대하여 평가했을 때 다양한 실행 패턴을 나타낼 수 있습니다. 예를 들어 인슐린 방출에 대한 설 포닐 유레아의 영향을 떠올리는 것은 일부 의사들에게는 어려울 수있다.

Both G Theory and latent variable modelling represent statistical techniques that aim to explain systematic variation, that is, to find some sort of consistency and replicability in the data. Consequently, it may not be surprising that G Theory can be regarded as a special type of latent variable model (Skrondal and Rabe-Hesketh 2007; Zumbo 2006; Mar- coulides 1996). Consider a clinical encounter where a physician sees a patient with dia- betes. In such an encounter, the physician may first need to give information on how to handle diabetes in everyday life, and then prescribe the correct medication, drawing on knowledge of the mechanisms of insulin release to do so. An assessment that covers these three domains (patient education, medication, and mechanisms) administered to a group of physicians might indicate different patterns of performance; for example recalling the influence of sulfonylurea on insulin release may have become challenging for some physicians.



표 1은 이러한 다양한 패턴의 성능을 보여줍니다. 각 의사는 각기 다른 작업마다의 수행능력은 다르지만, 한 가지 작업에 내에서는 일관된다. 모든 관찰을 가로 지르는 inconsistency는 systematic할 수 있으며 능력의 여러 하위 도메인에 반영 될 수 있습니다. 이러한 시나리오에서, G 이론 모델의 변형은 실제로 그림 1과 같이 잠재 변수 프레임 워크를 사용하여 데이터에 적합 할 수 있습니다. 2 (Marcoulides 1996). 이러한 접근법 사이의 완벽한 번역은 불가능하지만, 이론적으로나 분석적으로는 상당한 오버랩이있다 (Webb 외. 2006).

Table 1 illustrates these different patterns of performance: different physicians perform differently on each task—but consistently within tasks. Inconsistency across all observations may then be systematic and reflected in several subdomains of competence. In such a scenario, a variant of a G Theory model could indeed be fit to the data using a latent variable framework, as shown in Fig. 2 (Marcoulides 1996). Complete translation between these approaches is not possible, but there is substantial theoretical and analytical overlap (Webb et al. 2006).





사례특이성과 심리측정에 대한 비판

  • The finding of case specificity and its relation to criticisms of psychometrics


특정 관측 세트에 대한 복제 가능성이나 안정성의 개념이 심리측정 개념에서 중요한 역할을하는 반면, 반복적으로 발견된 사례 특수성은 그 반대가 의학교육에서의 "유일한 진리"임을 시사한다 (John Norcini, Eva 2011, p. 22)

While the concept of replicability or stability across a specific set of observations plays a crucial role in the psychometric concepts discussed, the recurrent finding of case specificity suggests that the opposite is the ‘‘one truth’’ (John Norcini in Eva 2011, p. 22) in medical education, i.e.,


소개에서 언급했듯이,이 발견은 심리 측정 모델에 대한 비평에서 결정적인 역할을 할 수있다. 사례 특이성에 대한 광범위한 발견은 정신 측정 모델의 '부적합성'에 대한 경험적 증거로 간주 될 수 있으며,  "관찰 된 분산의 작은 부분만을 설명 할 수 있는 과학적 모델은 기껏해봐야 중간정도의 모델 "이라는 주장을 지지한다."(Schuwirth 2009, 299 페이지).

As noted in the intro- duction, this finding might play a crucial role in the criticisms levelled at psychometric models. The widespread finding of case specificity might be regarded as empirical evi- dence of ‘misfit’ of psychometric models and may therefore underpin the argument that ‘‘ …a scientific model capable of explaining only such a small portion of the observed variance is at best a moderately strong model.’’ (Schuwirth 2009, p. 299).


사례 특수성의 발견은 흥미로운 현상이지만, psychometrics와 잠재 변수 모델링은 다양한 고려 사항을 탐구하여 설명 할 수없는 많은 차이가있는 현상을 인정하는 다양한 접근법을 제공합니다. 

  • 첫째, 사례 특이성은 error-prone한 평가 절차의 결과가 아니라, 심리측정모델로 조사 될 수 있는 다수의 측정되지 않은 요인들 때문이다.

  • 둘째로, 다차원적 구인인 의학적 역량의 복잡한 구조를 가정함으로써 추가적인 variance가 설명 될 수있다. 적어도 performance-based assessment의 평가의 결과는보다 복잡한 분석 기법을 사용하여 가장 잘 모델링 될 수 있습니다 (Keller et al. 2010).

While the finding of case specificity remains an interesting phenomenon, psychometrics and latent variable modelling offer various approaches to acknowledge the phenomenon of comparably large amounts of unexplained variance by exploring various considerations. 

  • First, the phenomenon of case specificity might not be the result of error-prone assessment procedures but rather of a multitude of unmeasured factors that could be taken into account and investigated with psychometric models (Colliver et al. 1990; Kreiter and Bergus 2007; Crossley 2010). 

  • Second, additional variance may be explained by assuming a more complex structure of medical competence, which may be understood as a multi-dimen- sional construct (Wimmers and Fung 2008; Wimmers et al. 2007; Mattick et al. 2008). At the very least, results from performance-based assessments may be best modelled using more complex analysis techniques (Keller et al. 2010).


서론에서 언급 한 바와 같이, 사례 특이성은 특정 평가 맥락에서 흔히 전체 변이의 70%가 설명되지 않는다는 사실로부터 확인된다. 그러한 70%라는 수치가 자극적이라고 들릴 수도 있지만, 이론적으로 잔여 분산의 비율이 얼마나 작을 수 있는가? 다르게 말해서, 70 %가 정말로 큰 수치인가? 에 대한 질문을 한 적은 없다.

As noted in the introduction, case specificity is frequently assigned to the finding that up to 70% of the total variance in a particular assessment context remains unexplained. While such a share may sound irritating, a critical question that has rarely been addressed is: how small could the proportion of residual variance theoretically be? Put differently, is 70% really large?


일관성과 설명 된 변이의 기대치는 잔차의 기대치와 같은 이론 모델에 의존한다. CTT 또는 G 이론 모델과 같은 결정 론적 모델에서 전체 분산의 잔여 편차의 비율은 거의 0 % 일 수 있으며, 이상적으로는 도달 할 수 있습니다. 표 2는 관측치의 스코어가 완벽하게 안정적인 응답 패턴을 보여줍니다.

The expectance of consistency and explained variation are as dependent on the theo- retical model as the expectance of residual variation. In deterministic models, such as CTT or G Theory models, the proportion of residual variation in the total variance could be virtually 0%, and ideally this would be reached. Table 2 illustrates such a response pattern, where scores across observations are perfectly stable.




대조적으로, IRT 모델과 같은 확률론적 모델에서 잠재 변수와 관찰 된 결과 (예를 들어, 케이스를 정확하게 진단하는 것과 그렇지 않은 것) 사이의 관계는 성공 가능성의 관점에서 공식화된다. 그러한 확률 과정이 가정된다면, 데이터는 모델과 완벽하게 일치 할 수 있지만, 결정 론적 모델의 관점에서 잔차 분산의 양은 상당히 높을 것이다.

In contrast, in probabilistic models such as IRT models, the relation between a latent variable and the observed outcome (e.g., diagnosing a case correctly or not) is formulated in terms of chances for success. If such a probabilistic process is assumed, data can be in perfect agreement with the model, but the amount of residual variance, from the perspective of a deterministic model will be com- parably high.


G이론 기반 분석에서 평균적으로 전체 분산의 2.5 %가 사람에 기인하고 25 %는 항목에 해당하며 72.5%가 잔분산에 의한 것임을 보여준다. 이러한 분산 구성 요소의 패턴은 사례 특이성의 발견으로 해석 될 가능성이 높습니다. 그러나 확률 론적 모델의 관점에서, 70%의 잔분산이 큰 것은 아니지만 주어진 시나리오에서 다차원성의 효과나 측정하지 않은 요인의 영향 가능성을 배제하면 쉽게 예상 할 수 있습니다.

A G Theory-based analysis, conducted in the R language for statistical computing (R Core Team 2013; Bates et al. 2015), showed that on average, 2.5% of the total variance was attributable to persons, 25% to items, and 72.5% to residual variance. This pattern of variance components would likely be interpreted as the finding of case specificity. However, from the perspective of a probabilistic model, 70% residual variance is not large, but can be readily expected in the given scenario while ruling out the pos- sibility of an effect of multi-dimensionality or the influence of unmeasured factors.


상대적으로 큰 비율의 잔분산은 심리 측정 문제를 일으키지 않을 수도 있지만 오히려 본질적으로 능력과 성공 (또는 실패) 사이에 존재하는 확률론적 관계를 지적 할 수 있습니다. 이러한 관점은 일반적으로 판단 과정에 관한 오랜 전통의 연구와 일치하며, 진단 유추 과정의 최근 개념을 암시한다. Hertwig et al. (2013)은 

A relatively large share of residual variance may not pose a psychometric issue at all, but rather may point to an inherently stochastic relation between ability and success (or failure) on items, cases, or tasks. This perspective is generally in alignment with a long tradition of research on judgmental processes (Slovic and Lichtenstein 1971; Hammond et al. 1964; Cooksey 1996) and echoes a recent conception of the process of diagnostic inference. Hertwig et al. (2013) argued that 


" '... 인식과 인식이 확률적이며 불완전한 단서를 기반으로하면 정확도에 대한 한도가 있는 것은 자연스럽다. 불가피한 오류는 있을 수 있지만, 추론 시스템의 실패를 반영하는 것이 아니라 사용 가능한 신호로부터 완벽하게 예측할 수없는 확률적인 환경을 반영합니다. "(p. 534) 

‘‘…[b]ecause cognition and perception are probabilistic and based on imperfect cues, there is a natural limit to how accurate they can be. Inevitable though errors may be, they do not reflect a failure of the inferential system but a probabilistic environment that is not perfectly predictable from the available cues.’’ (p. 534) 


그러한 확률적 환경이 합법적으로 가정 될 수 있다면, IRT는 본질적으로 확률론적인 과정을 모델링하기 위한 이론적으로 적절한 적합성 일 수 있습니다. 진단적 추론의 확률 론적 성격의 명제 (Hertwig et al. 2013, p.534)는 우리가 실제적인substantive 관점에서 사례 특이성의 발견을 설명하는 데 너무 익숙해 졌을 수도 있음을 시사한다. 의료 능력 평가의 복잡성 때문에, 그 패턴들이 매우 단순하지만 확률적인 대응 과정에 의해 통제 될 수 있다는 가능성을 인식하는 것은 매우 어렵다.

If such a probabilistic environment can legitimately be assumed, methods developed within IRT may be a theoretically adequate fit to model such inherently stochastic processes. The proposition of the ‘‘probabilistic nature of diagnostic inference’’ (Hertwig et al. 2013, p. 534) suggests that we may have become so used to explaining the finding of case specificity from a substantive point of view, as a result of the complexities in assessing medical competence, that it is very hard to recognize the possibility that those patterns could also be governed by a very simple, but probabilistic, response process.


의학 역량 평가에서 심리측정의 역할

The role of psychometrics in the assessment of medical competence


위의 섹션에서 설명 된 고려 사항은 IRT 내에서 개발 된 확률 론적 모델이 이론적 및 경험적 의미에서 전통적이고 결정론적인 모델보다 의학 역량의 평가에 더 적합한 정신 측정 모델에 기여할 수 있음을 시사합니다. 그러나 IRT의 틀 안에서 만들어진 모델은 종종 소규모 시나리오 (예 : 200 자 이하)에서의 적용 가능성에 대한 우려에 직면합니다. 이 점을 안다면 작은 샘플 시나리오에서 이러한 심리 측정 방법의 적용 가능성에 대한 초기 조사를하는 것이 가치가있을 수 있습니다. 간단한 IRT 모델은 약 100 명의 학생 표본에서 legitimate하게 사용될 수 있습니다 (Jones 외. 2006). 또한 의학 교육의 특정 상황에 대한 시뮬레이션 연구 및 실제 검사 데이터의 2 차 분석은 의과 대학 일상적 응용에서의 probabilistic 측정 모델 사용에 대한 실질적인 권고에 도달하는 유망한 분석 전략 인 것으로 보인다.

The considerations delineated in the sections above suggest that probabilistic models, as developed within IRT, could contribute to a psychometric model that fits the assessment of medical competence better than traditional, deterministic models in both a theoretical and an empirical sense. However, models created within the framework of IRT often face concerns regarding their applicability, especially in small-scale scenarios (e.g., 200 stu- dents or less). Knowing this, it may be worthwhile to draw on earlier investigations on the applicability of such psychometric approaches in small-sample scenarios, which point out that simple IRT models may be legitimately used in sample of about 100 students (Jones et al. 2006). Furthermore, for the specific context of assessment in medical education, simulation studies, and secondary analyses of actual examination data seem to be promising analytic strategies to arrive at practical recommendations for the use of prob- abilistic measurement models in routine applications in medical schools.


우리는 또한 현대 시험 이론에서 개발 된 몇 가지 개념이 Schuwirth와 van der Vleuten (2011)에 의해 묘사 된 바와 같이 프로그램 평가의 틀 안에서 큰 이익을 줄 수 있다고 제안합니다. 우리는 프로그램 적 평가의 함의에 부합하는 세 가지 구체적인 개념을 간략하게 강조하고자한다. 

  • 첫째, 개별 학생에게 평가를 맞추는 아이디어는 심리 측정 적 의미에서 '정보'개념과 잘 부합된다 (Mellenbergh 1996). 이를 통해 신뢰할 수있는 피드백을 제공하거나 방어 가능한 결정을 내릴 수있는 사람의 능력에 대한 충분한 데이터를 언제 사용할 수 있는지 판단 할 수 있습니다. 

  • 둘째, 임상 시험을 위해 개발 된 통계 방법은 순차 표본 추출과 목적 표본 추출의 개념에 의존한다 (Bartroff et al., 2013); 필요하고 가장 유익한 것으로 간주되는 데이터를 얻고 샘플 링하는 아이디어는 프로그램 적 평가의 틀에서도 분명하게 드러납니다. 

  • 셋째, 베이지안 접근법은 퍼포먼스에 관한 사전 정보가 일반적으로 이용 가능하다는 것과, 다른 소스의 데이터를 체계적으로 결합하는 규칙을 제공한다는 아이디어를 이용한다. 사전 정보는 전문가의 판단에 기인하지만 체계적으로 적용되고 조사 될 수 있습니다. 

  • 또한 베이지안 접근법은 기존 추정 기법이 제한적이고 소 표본 시나리오에서 특히 유용 할 수있는 상황에서 흥미로운 대안이다. 이러한 접근법을주의 깊게 기술하는 것은이 논문의 범위를 벗어나지 만 Schuwirth와 van der Vleuten (2006)의 새로운 정신 측정 모델에 대한 호출과 "확률 론적 베이지안 접근법"을 탐구하는 다음 단계가 될 수있다. (300 쪽).

We furthermore propose that several concepts developed in modern test theory can be of great benefit within the framework of programmatic assessment as delineated by Schuwirth and van der Vleuten (2011). We want to briefly highlight three specific concepts that align with the implications of programmatic assessment. 

  • First, the idea of tailoring the assess- ment to the individual student aligns well with the concept ‘information’ in a psychometric sense (Mellenbergh 1996). This allows us to determine at which point enough data is available on a person’s ability to give reliable feedback or make defensible decisions. 

  • Second, statistical methods developed for clinical trials lean on the concept of sequential sampling and purposeful sampling (Bartroff et al. 2013); the idea of obtaining and sam- pling data where it is deemed necessary and most informative is also evident in the framework of programmatic assessment. 

  • Third, Bayesian approaches capitalize on the idea that prior information on performances is usually available and, again, offer a rule for combining data fromdifferent sources in a systematic manner. Prior information may stem from expert judgment but could then be applied and investigated systematically. 

  • Fur- thermore, Bayesian approaches are also an interesting alternative in situations where tra- ditional estimation techniques are limited and may be especially useful in small-sample scenarios. A careful delineation of those approaches is beyond the scope of this paper, but these concepts may constitute the next steps to following Schuwirth and van der Vleuten’s (2006) call for new psychometric models, and to exploring a ‘‘probabilistic or Bayesian approach’’ (p. 300).


Discussion



우리는 심리 측정 방법과 현대 시험 이론이 일반적으로 설명 된 것보다 훨씬 융통성이 있다는 것을 강조하고 싶습니다. 그러나 우리는 엄격한 CTT 접근법이 일반적으로 의학적 역량 평가를 위한 시나리오에는 적합하지 않을 것이라는 데 동의합니다. 중요한 것은 심리 측정 이론이 단일화 단계에 있기 때문에, 가능한 분석적 접근 방식도 폭넓게 늘어났다. 예를 들어, 일반화 된 선형 혼합 모델의 틀 하에서, 분산 이론 (G Theory)과 IRT와 같은 분산 요소의 추정을 상호 연결하는 방법은 이제 쉽게 이용 가능하고 적용 가능하게되었다 (Doran et al., 2007). 따라서 심리측정의 여러 전통들 사이의 뚜렷한 대조는 사라진 것처럼 보인다. 

We want to stress that psychometric methods and modern test theory are in general much more flexible than usually described. However, we agree that a strict CTT approach might be less suitable for scenarios that are typically of interest in the assessment of medical competence. Importantly, psychometric theories seem to be in a phase of unifi- cation, which comes with an increasing breadth of possible analytic approaches. For instance, under the framework of generalized linear mixed models, methods that inter- weave the estimation of variance components (as in G Theory) and IRT have now become easily available and applicable (Doran et al. 2007). Hence, the stark contrast between psychometric traditions seems to have vanished. 


그러한 확장 된 도구 상자에 비추어 볼 때 모델을 데이터에 맞추기 전에 다루어야 할 실질적인 질문은 측정 모델 자체의 개념 적 적합성과 관련이 있습니다. ''심리측정 기술과 모델은 큰 가능성을 가지고 있다. 단 그것이 응답 프로세스의 substantive theory에 대해서 유도될 때에만 그러하다" (Borsboom et al., 2004, p.1070). "(Borsboom et al., 2004).

In the light of such a broadened toolbox, the substantive question that needs to be addressed before fitting a model to the data and drawing inferences from it is related to the conceptual appropriateness of the measurement model itself: ‘‘Psychometric techniques and models have great potential for improving measurement practice […] but only if they are driven by a substantive theory of response processes.’’(Borsboom et al. 2004, p. 1070).


Conclusion









 2017 Mar 16. doi: 10.1007/s10459-017-9771-4. [Epub ahead of print]

Why assessment in medical education needs a solid foundation in modern test theory.

Author information

1
Centre for Educational Measurement at the University of Oslo (CEMO) and Centre for Health Sciences Education, University of Oslo, Oslo, Norway. stefan.schauber@cemo.uio.no.
2
Department of Psychology, Humboldt-Universität zu Berlin, Berlin, Germany.
3
Institute of Medical Education, Faculty of Medicine, University of Bern, Konsumstrasse 13, 3010, Bern, Switzerland.

Abstract

Despite the frequent use of state-of-the-art psychometric models in the field of medical education, there is a growing body of literature that questions their usefulness in the assessment of medical competence. Essentially, a number of authors raised doubt about the appropriateness of psychometric models as a guiding framework to secure and refine current approaches to the assessment of medical competence. In addition, an intriguing phenomenon known as case specificity is specific to the controversy on the use of psychometric models for the assessment of medical competence. Broadly speaking, case specificity is the finding of instability of performances across clinical cases, tasks, or problems. As stability of performances is, generally speaking, a central assumption in psychometric models, case specificity may limit their applicability. This has probably fueled critiques of the field of psychometrics with a substantial amount of potential empirical evidence. This article aimed to explain the fundamental ideas employed in psychometric theory, and how they might be problematic in the context of assessing medical competence. We further aimed to show why and how some critiques do not hold for the field of psychometrics as a whole, but rather only for specific psychometric approaches. Hence, we highlight approaches that, from our perspective, seem to offer promising possibilities when applied in the assessment of medical competence. In conclusion, we advocate for a more differentiated view on psychometric models and their usage.

KEYWORDS:

Assessment; Case specificity; Error; Latent variables; Measurement; Medical competence; Post-psychometric era

PMID:
 
28303398
 
DOI:
 
10.1007/s10459-017-9771-4


평가를 향한 공통의 접근법 (Med Teach, 2012)

Towards a systems approach to assessment

C. P. M. VAN DER VLEUTEN1 & ELAINE F. DANNEFER2

1Maastricht University, Maastricht, The Netherlands, 2Western Reserve University, USA




2009 년 말라가에서 열린 AMEE 컨퍼런스에서 Janet Grant 교수는 역량에 대한 평가를 '의학교육의 왕관 보석'이라고 명명했다. 실제로 평가는 우리 분야에서 매우 풍부한 역사를 가지고 있습니다. 1988 년부터 2010 년까지의 의학 교육 문헌에 대한 최근의 분석에서 평가는 평가에 전념 한 총 논문 수의 약 26 %를 차지하여 가장 인기있는 주제로 나타났습니다 (Rotgans 2011). 지난 몇 년 동안 우리는 네 가지 주요한 발전을 보았습니다.

In her plenary at the AMEE conference 2009 in Malaga, Professor Janet Grant labeled the assessment of competence field ‘‘the crown jewels’’ of medical education. Indeed, assessment has a very rich history in our field. In a recent analysis of the medical education literature from 1988 to 2010, assessment was found to be the most popular topic with approximately 26% of the total number of papers dedicated to assessment (Rotgans 2011). Over these years, we see four major developments.


우선 지금까지 많은 방법들이 제안되고 조사 되었다. 수십 년 만에 우리는 수많은 평가 도구로 Miller 's (1990) 피라미드를 '등반 할 수있었습니다. 아마도 피라미드의 처음 세 단계에서는 의학교육의 연속체 스펙트럼 전반에 걸쳐 표준화된 평가기술이 교육 프로그램의 평가를 위해 확립되었다고 할 수 있습니다. 우리는 현재 표준화되지 않은 방법을 개발하여, authentic setting(교육환경이든 진료환경이든)에서 수행능력을 평가하려는 과정에 있다.

One is the plethora of methods that have been proposed and investigated. Within a few decades, we have in essence been able to ‘climb’ Miller’s (1990) pyramid with numerous assessment instruments. One might say that in the arena of standardized assessment technology (first three layers of the pyramid), we could speak of an established technology which is heavily used in assessment practices in our training programs across the whole spectrumof the training continuum in medical education. Currently, we are in the midst of developing non-standardized methods, assessing performance in the authentic setting, either in the educational environment or in the professional workplace.


이러한 진정한 평가와 관련하여 때로는 영역-독립적 기술, 일반 기술, 전문성, 의사 소통 및 협업과 같은 부드러운 기술이라고하는 복잡한 대응이 두드러집니다. 이러한 기술은 최적의 전문 기능을 발휘하기 위해 점점 더 중요시되고 있습니다. 이러한 복잡한 역량은 표준화 된 평가 기술로는 거의 평가할 수 없습니다.

Associated with this authentic assessment is the prominence of complex compe- tencies, sometimes called domain-independent skills, generic skills, or soft skills, such as professionalism, communication, and collaboration. These skills are increasingly being con- sidered to be essential for optimal professional functioning. These complex competencies can hardly be assessed with standardized assessment technology.


두 번째 발전은 평가를 중심으로 잘 발달 된 방법론입니다. 항목 및 테스트 구성, 자극 및 응답 형식, 채점, 항목 및 테스트 분석, 표준 설정 및 유효성 검사 전략에서 '기술'을 많이 사용할 수 있습니다.

A second development is is the well-developed methodology around assessment. In areas of 

  • item and test construction, 

  • stimulus and response formats, 

  • scoring, 

  • item-and test analysis, 

  • standard setting, and 

  • validation strategies, 

...a lot of ‘technology’ is available.


세 번째 발전은 assessment of learning와는 대조적으로 assessment for learning에 대한 개념이다. 후자의 개념에서 중앙 인증, 의사 결정, 승진은 기본적으로 평가 된 사람이 특정 영역의 숙달 (최소) 숙달 여부를 확인하는 개념입니다. 학습을 위한 평가에서 평가의 학습 기능이 강조됩니다.

A third development is the notion of assessment for learning as opposed to assessment of learning. In the latter notion, central certification, decision making, and promotion are concepts, basically to ascertain if a person assessed has acquired (minimum) mastery of a certain domain. In assess- ment for learning, the learning function of assessment is emphasized.


마지막으로, 네 번째 발전은 개별 평가 방법을 뛰어 넘는 보다 시스템-지향적 인 접근 방식으로, programmatic assessment라고 합니다. 이것은 평가 프로그램이 일련의 평가 활동을 계획적으로 조정한다는 견해입니다.

Finally, the fourth development is the move beyond the individual assessment method toward a more system-oriented approach, also called programmatic assessment. This is the view that an assessment program is a deliberate arrangement of a set of assessment activities.


우리는 평가영역에서 시스템 접근법의 개발이 긴급하다고 생각합니다. Baartman et al. (2007)과 Dijkstra et al. (2010)를 제외하면, 시스템 접근법은 평가 프로그램을 설계 할 때 거의 찾아 볼 수 없으며, 구현 및 기능에 대해서도 거의 없습니다.

We think the assessment field requires urgent progression in the development of the systems approach. Except for the work of Baartman et al. (2007) and the initial work of Dijkstra et al. (2010), very little can be found on designing assessment programs and virtually nothing about their implementations and their functioning.


Dannefer와 동료들은 Cleveland Clinic Lerner College의 평가 프로그램에 대한 설명을 제공합니다. 첫 번째 논문 에서처럼 이론적 모델에 따라 매우 기능합니다. 그것은 모든 종류의 평가원으로부터받은 피드백 수집에 크게 의존합니다. 학생들은이 피드백을 사용하여 학습을지도하고 진도 결정에 사용 된 증거를 선택합니다.

Dannefer and coworkers provide a description of the assessment program of the Cleveland Clinic Lerner College of Medicine. It very much functions in conformity with the theoretical model as in the first paper. It relies heavily on the gathering of feedback from all kinds of assessment sources. Students use this feedback to direct their learning and select evidence used for progress decisions.


Altahawi와 그의 동료 학생들은 평가 프로그램을 어떻게 경험했는지보고합니다. 그들은  주로 Grade기반의 전통적인 평가 시스템에서 교육을 받은 학습자에게 익숙하지 않은 접근법에 대해 성찰적으로 설명합니다.

Altahawi and his fellow students report on how they experience the assessment program. They provide a reflective account of how unfamiliar the approach is to learners who have been mainly educated in a grade-based, traditional assessment system.


Rotgans JI. 2011. The themes, institutions, and people of medical education research 1988-2010: Content analysis of abstracts from six journals. Adv Health Sci Educ Theor Pract. 10.1007/ s10459-011-9328-x.



 2012;34(3):185-6. doi: 10.3109/0142159X.2012.652240.

Towards a systems approach to assessment.

Author information

1
Department of Educational Development and Research, Faculty of Health, Medicine and Life Sciences, Maastricht University, Maastricht, The Netherlands. c.vandervleuten@maastrichtuniversity.nl

PMID:
 
22364448
 
DOI:
 
10.3109/0142159X.2012.652240


+ Recent posts