프로페셔널리즘의 평가: 육하원칙(Med Teach, 2009)

Assessment of medical professionalism: Who, what, when, where, how, and . . .why?

RICHARD E. HAWKINS1, PETER J. KATSUFRAKIS2, MATTHEW C. HOLTMAN2 & BRIAN E. CLAUSER2

1American Board of Medical Specialties, USA, 2National Board of Medical Examiners, USA




도입

Introduction


프로페셔널리즘을 특징 짓는 데 사용 된 정의와 프레임 워크에는 개인차가 있지만 글로벌 개념과 전문성을 구성하는 특정 영역에 대한 합의도 상당하다 (AAMC 1998; ABIM Foundation2002, Arnold & Stern 2006, ACGME 2007, Goldie 2008; 좋은 의료 실습 안내서 - USA 2008).

Although there are individual differences in the definitions and frameworks used to characterize professionalism, there is also a fair amount of agreement regarding the global concept and specific domains comprising professionalism (AAMC 1998; ABIM Foundation2002; Arnold & Stern 2006; ACGME 2007; Goldie 2008; Guide to Good Medical Practice – USA 2008). 


그러나 교육과 실습의 연속체에 걸쳐 프로페셔널리즘 평가절차의 진화는 초기 단계에 있으며 이 목적을 위해 사용된 방법을 지원하기 위해 수행 된 심리 측정 연구의 품질에는 상당한 변화가있다 (Lynch et al., 2004; Veloski et. al., 2005). 프로페셔널리즘을 평가하는 방법에 관한 불확실성은 교육 프로그램의 질을 측정하고 의료 프로페셔널리즘을 가르치기 위해 고안된 개입법의 중요성을 고려할 때 심각한 문제를 제시합니다 (Arnold 2002; Stern 2006).

However, the evolution of procedures to assess professionalism across the continuum of education and practice is in its infancy and there is considerable variation in the quality of psychometric research performed in support of the methods deployed for this purpose (Lynch et al. 2004;Veloski et al. 2005). Uncertainty regarding how to assess professionalism presents a serious problem given the critical importance of assessment in measuring the quality of educational programs and interventions designed to teach medical professionalism (Arnold 2002; Stern 2006).


연구에 활용 된 한 가지 접근 방법은 '5 개의 W와 1 개의 H'또는 '6 개의 W'라고하는 일련의 질문에 답하는 것입니다 (왜? 누가? 어디에서? 어떻게?) (5 W 2008).

One approach that has been utilized in research, involves answering a series of questions, referred to as the ‘Five Ws and one H’ or the ‘Six Ws’ (Why? What? Who? Where? When? How?) (Five Ws 2008).


의과대학생 평가를 위한 조직 체계로서 'W'질문의 사용은 이전에 기술되었다 (Harden, 1979). 이 프로세스는 본질적으로 반복적입니다. 하나의 특정 질문에 대답하기 위해서는 종종 이전에 제기 된 질문에 대한 재검토와 세밀한 검토가 필요합니다.

the use of ‘W’ questions as an organizing framework for medical student assessment has been previously described (Harden 1979). This process is iterative in nature; answering one particular question often requires reconsideration and refinement of previously addressed questions.


교육 또는 평가 프로그램을 개발할 때주의의 주요 초점 인 두 가지 질문은 '무엇'과 '어떻게'이다. 무엇을 가르치고 평가하고 있는지, 그리고 어떻게 교육 또는 평가를 해야 하는가? 그러나 첫 번째 두 가지 질문(what and how)과 직관적으로 관련된 다른 네 가지 질문(who, where, when, why)에 응답하면 평가 프로그램에 대한보다 강력한 평가가 이루어질 수 있을 것이다.

In developing educational or assessment programs the two questions that are often the primary focus of attention are what and how; what is being taught or assessed and how should the teaching take place or the assessment be accomplished. However, responding to the other four questions, intuitively associated with the first two, will result in a more robust evaluation of the assessment program.





왜 프로페셔널리즘을 평가하는가?

Why assess medical professionalism?


평가 프로그램이 도입되어야하는 이유에 대한 대답은 주로 purpose of the intended assessment과 관련이 있다. 목적을 정의하는 것 외에도 "프로그램이 존재해야하는 이유"에 답하는 것은 타당성 논증을 위한 필수적인 토대를 제공합니다. 평가 결과가 의학 교육이나 실무의 맥락에서 해석되거나 사용되는 방법을 설명 할 수 없다면, intended inference의 타당성을 뒷받침 할 근거 기반 논증을 개발하는 것이 불가능할 것입니다. 이 주장은 test validity이론의 핵심이되었다 (Kane 2006).

Answering why the assessment program should be introduced relates primarily to the purpose of the intended assessment. In addition to defining the purpose, answering why the program should exist provides a necessary foundation for the validity argument for the assessment. If you are unable to explain how assessment results will be interpreted or used within the context of medical education or practice, it will be impossible to develop an evidence-based argument to support the validity of the intended inferences. This argument has become central to the theory of test validity (Kane 2006).


의학 교육의 맥락에서 평가는 일반적으로 두 가지 범주 중 하나로 분류됩니다. 형성평가는 주로 학습자가 개선 할 수 있도록 피드백을 제공하는 데 사용할 수 있습니다.

Assessment in the context of medical education generally falls into one of two broad categories. Assessment may be used primarily to provide feedback to learners to help them improve. Such formative assessment


총괄평가는 교과 과정 목표 달성에서 학습자의 진전이 적절한 지에 대한 의사 결정을 돕기위한 것입니다.

Summative assessment is intended to assist in decision-making regarding the adequacy of the learner’s progress in attaining curricular objectives.


평가의 목적은 평가가 어떻게 구성되는지를 결정합니다. 

  • 예를 들어, 심각한 결함이있는 사람을 식별하기위한 평가는 진급이나 인증을 거부해야 하며 기본 기술 평가에 중점을 둘 수 있습니다. 

  • 반대로 피드백을 제공하기 위해 고안된 평가는 보다 범위한 기술을 평가하거나보다 높은 수준의 기술에 중점을 두어야 할 수도 있습니다.

The purpose of the assessment will, in some ways, dictate how the assessment is constructed. 

  • For example, an assessment intended to identify individuals with serious deficiencies who should be denied advancement or certification may focus on evaluating basic skills. 

  • By contrast, an assessment designed to provide feedback may need to assess a wider range of skills or focus on higher level skills.


프로페셔널리즘 평가는 프로그램이나 기관 수준에서 수행 될 수도 있습니다. 평가 목표는 교육 프로그램의 성공 척도를 제공합니다. 현재 프로그램 품질을 결정할 때 학습 또는 성과 결과를 측정하는 것에 중점을 두고 있으며, 평가 데이터는 이러한 근거의 중요한 출처를 제공합니다 (Shumway & Harden 2003; Stern 2006; Hawkins & Holmboe 2008; Norcini 외 2008). 개별 학습자와 마찬가지로 평가는 형성 (프로그램 개선) 또는 총괄 (인정 관련) 목적 또는 둘 다로 간주 될 수 있습니다.

Assessment of professionalism may also be performed at the program or institutional level. Assessment targets then provide measures of success for educational programs. Consistent with current emphasis on measuring learning or performance outcomes in determining program quality, assessment data provide an important source of such evidence (Shumway & Harden 2003; Stern 2006; Hawkins & Holmboe 2008; Norcini et al. 2008). As with individual learners, assessment may be viewed as having formative (program improvement) or summative (accreditation related) purposes, or both,


프로페셔널리즘을 평가하기 위한 프로그램 실행의 최종적, 잠재적 동기는 평가가 학습에 직접적인 결과를 가져올 수 있다는 것입니다. 

A final potential motivation for implementing a program to assess professionalism is that assessment may have a direct consequence on learning. 

  • 평가, 커리큘럼 및 교육 목표 간의 중요한 상호 작용, 특히 학습에 대한 평가의 영향이 인정되면 교육 방법론을 선택하고 디자인함으로써 교육 지도자가 중요한 전문적 규범과 기대를 교육하게끔 강요합니다 (Ten Cate & De Haes 2000, Shumway & Harden 2003). 

  • The critical interaction between assessment, curriculum and educational objectives, in particular the recognized influence of assessment on learning, compels educational leaders to impart important professional norms and expectations through the selection and design of assessment methods (Ten Cate & De Haes 2000; Shumway & Harden 2003). 

  • 사실, 프로페셔널한 태도와 행동에 대한 균형 잡힌 평가가 없으면 학습자에게 그것의 중요성에 대한 오해를 유발할 수 있습니다. 프로페셔널리즘과 관련한 평가가 없을 경우, 학습자는 교육자가 더 철저히 평가되는 지식 또는 기술 영역에 비해서 프로페셔널리즘 영역에 덜 주의한다고 가정할 것이다.

  • Indeed, the absence of balanced assessment of professional attitudes and behaviours allows learners to develop misconceptions regarding their importance. Learners not assessed with regard to professionalism will logically assume that educators care less about this domain than more knowledge or skill domains, which are assessed thoroughly (Ten Cate & De Haes 2000; Stern 2006).




프로페셔널리즘의 어떤 측면이 평가되어야 하는가?

What aspect of medical professionalism is being assessed?


일단 평가의 목적이 정의되면, 평가 대상을 결정하는 것이 따라야합니다. 우리는 지식, 기술, 태도, 가치관, 도덕적 판단을 평가하는 데 관심이 있습니까? 아니면 외적 발현에 더 관심이 있습니까? 초점이 외형 적 발현이나 행동에 관한 것이라면 OSCE와 같은 통제 된 구조화 된 환경에서 특정 기술을 평가하는 데 관심이 있습니까? 아니면 보다 자연스러운 임상 현장에서 전문적인 행동을 평가하고 싶습니까?

Once the purpose of the assessment is defined, determining what is to be assessed should follow. Are we interested in assessing knowledge, skills, attitudes, values, moral judgement, or are we more interested in the outward manifestations? If the focus is on outward manifestations, or behaviours, are we interested in assessing specific skills in a controlled, structured environment such asin an OSCE, or do we wish to assess professional behaviours more naturalistically, e.g. in the context of clinical activities?



전통적인 KSA (지식, 기술 및 가능성) 분석 모델은 불충분할 수 있다(Raymond 2001). 이러한 맥락에서 잠재적 인 평가 범위를 넓히기 위해서는 태도에 관한 능력을 보완하거나 보충하는 것이 필요할 수 있습니다. 또한, KSA 모델을 다른 3 차원의 외형 적 표상으로 포함시키기 위해 KSA 모델을 더 확장하는 것이 필요하다.

The traditional KSA (knowledge, skills and abilities) analytic model may provide an insufficient frame-work (Raymond 2001). In this context, replacing, or supplementing, abilities with attitudes may be necessary to expand the range of the potential assessment. Additionally, it may be necessary to further expand the KSA model to include behaviours as an outward manifestation of the other three dimensions.


  • 지식 : 핵심 원칙에 대한 지식과 이해;

  • 스킬 : 관찰 된 환자와의 만남에서의 공감 적 반응의 시연;

  • 태도 : 환자의 자율성과 정보에 입각 한 의사 결정의 원칙을 수용

  • 행동 : 자기 평가 및 품질 향상에 참여


  • Knowledge: Knowledge and understanding of coreethical principles; 

  • Skills: Demonstration of empathic responses in observed patient encounters; 

  • Attitudes: Embracing principles of patient autonomyand informed decision-making; and,

  • Behaviours: Participation in self-assessment and quality-improvement. 


밀러의 피라미드 (그림 1)

Miller’s pyramid (Figure 1)



광범위한 교육 프로그램에서 프로페셔널리즘 평가를위한 포괄적 인 접근법을 개발하든, 또는 (문화적 민감성과 관련된 기술의 시연과 같은) 특정 속성에 초점을 맞추든, 평가 결과의 올바른 해석을 위해서는 다양한 수준 간의 관계와 상호 의존성을 이해하는 것이 필수적입니다.

Whether one is developing a comprehensive approach for assessing professionalism within a broad educational program,or focusing on a specific attribute (such as demonstration of skills related to cultural sensitivity), understanding the relation-ships and interdependencies between the various levels is essential to valid interpretation of assessment results



일반적으로 피라미드의 낮은 수준에서 적절한 수준의 성취는 높은 수준에서 적절한 수행을 위해 필요하지만 그 자체로는 다음 수준의 수행을 예측하기에 충분하지 않습니다.

In general, attainment of a reasonable level of achievement at the lower levels of the pyramid is necessary for adequate performance at the higher levels, but isn’t in itself sufficient to predict performance at the next level. 



(Arnold & Stern 2006) 왼쪽의 칼럼에 묘사 된 원칙 지향적 틀에서, 일부 전문가들은 명예/성실성을 휴머니즘보다는 책임성에 넣기를 선호하는 경향이있다.

the principles oriented framework (Arnold & Stern 2006) depicted in the left column, some experts might prefer to list honour/integrity under accountability, rather than humanism.





 원칙 기반 프레임워크(principle driven frameworks)는 평가 프로그램의 구축에 대해 광범위하게 생각할 때 매우 유용하지만, 전문적 행동의 측정 그 자체에 쉽게 적용되지 않습니다. 이타주의와 같은 핵심 원칙의 특이성이 결여되면, 평가자는 서로 다른 차원을 고려하고 평가에서 일관성없는 기준을 적용하게 될 것이다 (Ginsburg 외 2004). 이처럼 프레임워크 내에서 정의된 광범위한 구조와 도메인은 보다 구체적인 구조 또는 보다 우수하고 구체적이며 관찰 가능한 행동으로 정의되어야합니다. 특이성 (선명도)과 관찰 가능성은 전문적 행동의 신뢰성 있고 타당한 평가에 필수적 요소입니다.

While such principle driven frameworks are quite useful in thinking broadly about construction of an assessment program, they are not easily applied to the measurement of professional behaviours, per se. The lack of specificity of core principles (such as altruism) will lead raters to consider different dimensions and apply inconsistent standards in rating them (Ginsburg et al. 2004). The broader constructs and domains defined within these frameworks must be further defined as more specific constructs, or even better, specific and observable behaviours. Specificity (clarity) and observability are essential requisites to reliable and valid assessment of professional behaviours. 



전문적 행동의 평가에 대한 이상적인 접근법은 중요한 전문성 원리를 나타내는 실제 관찰 가능한 행동으로 시작하는 것입니다.

An ideal approach to assessment of professional beha-viours would be to start with the actual observable behavioursrepresenting important professionalism principles.





프로페셔널리즘의 여러 측면들은 어떻게 평가되어야 하는가?

How should the identified aspects of medical professionalism be assessed?



그러나 프로페셔널리즘과 전문적 행동을 평가할 때 몇 가지 고유 한 문제가 발생합니다. 

  • 무엇보다 다른 역량 영역보다 프로페셔널리즘에 대한 타당한 평가는 추상적 정의와 애매하고 잘 정의되지 않은 차원의 사용으로 인해 어려움을 겪고있다 (Ginsburg 외 2000, 2004). 

  • 일부 속성은 정직성과 같은 이분법 (허용 가능 / 불합격) 방식으로 나타납니다. 대인 관계 기술과 같은 것들은 gradient로 나타난다. 

  • 게다가 프로페셔널한 행동 (의학적 오류를 인정하는 것)을 관찰 할 수있는 기회는 제한적이며, 어떤 경우에는 스트레스나 갈등이 관찰을 위한 필수적인 맥락 일 수있다 (Ginsburg 외 2000, Arnold 2002).

However, there are some unique challenges encountered in assessing professionalism and professional behaviours. 

  • Perhaps more than other competence domains,valid assessment of professionalism is challenged by the use of abstract definitions and vague, ill-defined dimensions(Ginsburg et al. 2000, 2004). 

  • Some attributes are manifest in a more-or-less dichotomous(acceptable/not acceptable) manner, such as honesty; others exist along a gradient of performance, such as interpersonal skills. 

  • Furthermore, there are limited opportunities to observe some professional behaviours (admitting medical errors), and for others, stress or conflict may be an essential context for observation (Ginsburg et al. 2000; Arnold 2002). 


교수 또는 동료 평가자들은 공통적으로 '부정적인'평가를 제공하는 것을 망설이며, 이것은 평가가 형성적 목적인지 총괄적 목적인지에 관계없이 문제가된다 (Albanese 1999; Boon & Turner 2004)

The commonly-encountered reluctance of faculty or peer raters to provide ‘negative’ evaluations is problematic regardless of whether ratings are used for formative or summative purposes (Albanese 1999; Boon & Turner 2004)


등급의 인플레이션은 자질이 정직, 성실 및 동정심과 같이 전문적이고 개인적인 정체성과 밀접하게 연관되어 있고 평가 대상이 될 때 문제가 될 수 있습니다. 따라서 총괄적 결정이 기본 목표인 경우 일반적인 performance rating 이외의 방식이 궁극적으로 필요할 수 있습니다. Critical incident 방법은 (특히 일관된 모니터링으로 종단 적 평가 프로그램에 또는 평가자와 집단 토론을하는 방법에 포함 된 경우) 전문적인 행동의 성과 부족과 lapse를 식별 할 가능성이 더 높습니다.(Hemmer et al., 2000; Papadakis & Loeser 2006).

Inflation of ratings may be more of an issue when qualities are closely tied to one’s professional and personal identity, such as honesty, integrity and compassion,are the subjects of assessment. Therefore, if summative decisions are the primary goal, approaches other than the usual performance ratings may ultimately be necessary. Critical incident methods, particularly if embedded in longitudinal evaluation programs with consistent monitoring, or methods that involve group discussions with raters, are more likely to identify performance deficiencies and lapses in professional behaviour (Hemmer et al. 2000; Papadakis & Loeser 2006).


전문성을 평가하는 데있어 많은 어려움이 극복되어야 한다.

Many of the challenges in assessing professionalism can be overcome


첫째, 다차원 구조는 multi-modal 평가 접근법의 적용을 필요로한다. 평가 방법은 평가 대상 도메인과 compatible해야합니다 (Arnold 2002; Hawkins & Holmboe 2008). 전문성 평가에 대한 멀티 모달 접근에 기여할 수있는 요소의 예로는 SP 평가, 다중 소스 (360) 피드백, 구조화 된 인터뷰 및 객관식 항목, 짧은 답변 또는 에세이로 구성된 서면 평가가 있습니다. 평가 도구는 평가자가 평가하는 대상을 명확하게 이해할 수 있고, 평가 사항을 관찰 할 기회를 갖도록 설계되어야합니다. 행동의 맥락적 특성으로 인해 평가자는 다양한 전문적 행동이 나타나는 경우와 상황에 대한 폭 넓은 표본을 관찰 할 기회를 가져야한다 (Ginsburg 외 2000, Arnold 2002).

First, multi-dimensional constructs require the application of multi-modal assessment approaches; in selection of assessment methods it is imperative that they be compatible with the domain being assessed (Arnold 2002; Hawkins & Holmboe 2008). Examples of elements that might contribute to a multi-modal approach to professionalism assessment include 

  • SP assessment, 

  • multisource (360 ) feedback, 

  • structured interviews and written assessments comprising multiple choice items, 

  • short answers or essays. 

Assessment instruments should be designed to ensure that evaluators clearly understand what is being scored or rated and have opportunities to observe whatever they are asked to rate. Due to the contextual nature of professional behaviours, raters should have the opportunity to observe a broad sample of cases and situations in which various professional behaviours are manifest (Ginsburg et al. 2000; Arnold 2002).


둘째, 평가자 교육은 다양한 행동을 관찰하고 문서화하는 방법에 중점을 두어야하며, performance standards가 일관되게 적용되도록 보장해야합니다. 프로그램 지도자들과 참가자들이 이 과정에 전적으로 참여하는 것이 중요합니다. 평가자 훈련은 전문적 행동을 관찰하고 효과적으로 평가할 수 있는 능력을 향상 시키지만, 여러 단계의 프로세스에 'buy-in'를 얻는 것은 정확한 평가를 제공하려는 의지를 높이는데 중요하다.

Second, rater training should focus on how to observe and document various behaviours and should ensure that performance standards are consistently applied. It is important that program leaders and participants are fully engaged in the process. While rater training enhances the ability to observe and effectively rate professional behaviours, obtaining ‘buy-in’ to the process at multiple levels promotes rater willingness to provide accurate ratings.


셋째, 기관 리더들은 프로페셔널리즘의 다양한 측면을 측정하기 위해 선택된 방법이 의도 된 평가 목적에 대해 충분히 신뢰할만한 결과를 가져오고, 결과가 측정 된 프로페셔널리즘 영역과 관련하여 타당한 추론을하는 데 사용될 수 있도록해야합니다.

Third, institutional leaders need to ensure that the methods chosen to measure the various aspects of professionalism lead to sufficiently reliable results for the intended assessment purpose and that outcomes can be used to make valid inferences regarding the measured professionalism domains.


넷째, 평가의 질을 보증하기위한 노력은 평가 방법의 도입에서 끝나는 것이 아니다. 제도적 지도자는 사용자의 지속적인 안정성과 지속적인 수용을 보장하기 위해 평가 결과의 품질을 모니터링해야합니다.

fourth, efforts to ensure assessment quality do not conclude with the introduction of the assessment method; institutional leaders must monitor the quality of assessment outcomes to ensure ongoing stability and continued acceptance by users.




평가 방법의 설계 또는 선택

Design (or selection) of the assessment method


사용할 수있는 적절한 방법과 도구의 초기 선택은 주로 경험에 근거한 가정과 기대에 기초하지만 궁극적으로 합리적인 근거와 경험적 데이터로 뒷받침되어야합니다.

Initial selection of the appropriate methods and tools to be used is largely based on assumptions and expectations based on experience, but eventually will need to be supported with a sound rationale and empiric data.


방법의 특성을 요약하는 상세한 검토가 존재하며 사용자의 의도 된 목적에 기초한 방법의 초기 선택을 안내하는데 사용될 수있다 2002; Lynch (Arnold et al., 2004; Veloski et al. 2005). 불행하게도, 많은 방법과 도구는 적절한 사용을 support and inform 하는데 필요한 정신 분석 연구의 실질적인 기반이 부족합니다. 또한 기존 도구를 채택하고 개선하고 새로운 도구를 사용하는 것과 관련된 정보 데이터베이스에 기여하는 대신 새로운 방법을 개발하고 구현하는 경향은 도구 선택을 복잡하게하는 불확실성을 증가시킵니다 (Lynch et al. 2004).

Detailed reviews summarizing the qualities of such methods exist and can be used to guide initial selection of the method based upon the user’s intended purpose 2002; Lynch (Arnold et al. 2004; Veloski et al. 2005). Unfortunately, many methods and instruments lack a substantive base of psychometric research necessary to support and inform their appropriate use. Furthermore, the tendency to develop and implement new methods, rather than adapting and improving existing tools and contributing to the database of information regarding their use, adds to the uncertainty complicating instrument selection (Lynch et al. 2004).


지식과 태도는 교육 경험의 유효성을 나타내지만, 언제나 효과적인 기술이나 행동 또는 환자 치료 결과의 후속 시연을 예고하지는 않습니다. 전문성 영역에서의 성과는 개인적 특성과 사회적 맥락에 영향을받을 수있다.

Knowledge and attitudes, while indicative of the effectiveness of educational experiences, do not necessarily predict subsequent demonstration of effective skills or behaviours or patient care outcomes. the performance in the domain of professionalism may be influenced by personal characteristics and social context


포트폴리오는 실제로 의사의 수행 능력을 나타 내기 위해 광범위한 업무 샘플 및 평가 결과를 수집하여 평가에 'authenticity'을 부여하는 것으로 느껴진다 (Friedman Ben David et al., 2001). 포트폴리오는 실제로 정보를 수집 할 수있는 데이터 요소 만 반영 할 수 있지만 매우 흥미로운 정보의 풍부함을 약속합니다. 포트폴리오는 학습자의 행동 관찰을 기반으로 한 대표적인 데이터 샘플링을 통합하는 범위에서 특히 유용합니다.

Portfolios are felt to lend ‘authenticity’ to assessment by gathering together a broad sample of work and assessment outcomes to represent the physician’s performance in practice (Friedman Ben David et al. 2001). Portfolios promise a compelling richness of information, though in practice they can only reflect those data elements that are (available to be) collected. Portfolios will be especially useful to the extent that they incorporate a representative sampling of data based on behavioural observations of the learner.


직접 관찰은 실제로 의사의 전문 기술과 행동을 평가하는 직접적인 방법을 제공합니다. 구조적 또는 비 구조적 평가 상황에서 체크리스트, 글로벌 평가 양식, 서술 설명 또는 여러 가지 방법의 혼합을 포함하여 다양한 도구가 사용될 수 있습니다.

Direct observation provides a straightforward way to assess a physician’s professional skills and behaviours in practice. In either structured or unstructured assessment situations, a variety of instruments may be used, including checklists, global rating forms, narrative commentary or hybrids of several methods.


표준화 된 환자 기반 방법은 broader professionalism constructs뿐만 아니라 discrete construct (공감, 문화적 민감성, 임상 윤리적 상황 다루기) 평가에 적용되었다 (Singer et al., Colliver et al., 1998; Prislin et al., 2001 Robins et al., 2001; van Zanten et al., 2005). 이 방법은 고부담(high-stakes) 시험에 포함되었든 교육 프로그램에 통합 되었든 (개선 필요 영역과 같은) 전문 기술 및 행동에 관한 유용한 정보를 제공해줄 수 있다. SP 기반 평가의 신뢰도는 만남 횟수, SP 훈련, 평가 된 특정 영역 및 사용 된 기록 도구의 유형에 따라 다릅니다. 프로페셔널한 행동 등급과 데이터 수집 및 의사 전달 등급 간의 상관 관계는 다양합니다. faculty ratings 와 필기 시험 점수에서 낮은 상관 관계가 나타납니다 (Colliver 외 1998, Prislin 외 2001, van Zanten 외 2005). 흥미로운 점은 [discrete construct의 평가] 또는 [행동과 기술에 대한 보다 포괄적인 평가] 모두 피험자의 수행 능력이 case에 따라 무작위로 변동한다는 것입니다. "환자"의 특성 (사례 내용, 시력, 복잡성 또는 어려움)에 따라 성능이 달라질 수있다 (Prislin et al., 2001; van Zanten et al. 2005). 이러한 결과는 전문적인 행동이 일반적인 기술이나 특성이 아니라 환자의 만남의 내용이나 맥락에 달려 있다고 제안합니다.

Standardized patient-based methods have been applied to the assessment of discrete constructs (empathy, cultural sensitivity, dealing with clinical ethical situations) as well as broader professionalism constructs (Singer et al. 1993; Colliver et al. 1998; Prislin et al. 2001; Robins et al. 2001; van Zanten et al. 2005). Useful information, including identification of deficiencies, may be provided regarding professional skills and behaviours, whether imbedded in high-stakes examinations or integrated into educational programs. The reliability for SP-based assessments varies as a function of the number of encounters, the training of the SPs, the specific domain assessed and the type of recording tool used. Correlations between professional behaviours ratings and data gathering and communication ratings are variable; lower correlations are noted with faculty ratings and written examination scores (Colliver et al. 1998; Prislin et al. 2001; van Zanten et al. 2005). Interestingly, for both assessment of discrete constructs or more comprehensive assessment of behaviours and skills, examinee performance fluctuates randomly across cases; performance may also vary depending upon characteristics (case content, acuity, complexity or difficulty) of the ‘patient’ encountered (Prislin et al. 2001; van Zanten et al. 2005). These results suggest that professional behaviour is not a generic skill or trait, but may depend upon the content or context of the patient encounter.


P-MEX은 실제 환자 마주 칠 때 전문적인 행동을 평가하기위한 또 다른 직접 관찰 방법을 제공합니다 (Cruess et al., 2006). 또한 sign-out rounds 나 소그룹 세션과 같이 비 환자 관련 상황에서 학생 행동을 체계적으로 관찰하기 위해 사용되었습니다. P-MEX 장비는 ABIM Mini Clinical Evaluation Exercise 양식을 모델로하여 7 가지 고유 한 글로벌 평가 척도 항목을 대체하는 24 가지의 전문적인 행동 항목이 있습니다. Cruess와 동료들은 의학적 학생 행동을 평가하기 위한 적절한 일반화 가능성이 이 도구를 사용하여 10-12 회의 관찰을 통해 얻을 수 있다고 결론 내렸다. 또한 사용자는 P-MEX에 관해 긍정적 인 피드백을 제공하여 특정 적자 (예 : 학생의 한계 또는 적시성 인식)를 식별 할 수 있음을 나타내며 그 사용이 자기 반성을 촉진하고 전문성의 중요성에 대한 인식을 높였습니다. 그러나 'accepted inconvenience to meet patient needs'이나 'admitted errors/omissions'과 같이 일시적으로 발생하거나 일반적으로 관찰되지 않는 행동에 대해서는 "not observed"가 상대적으로 높은 비율로 나타났다 (Cruess et al. 2006).

The Professionalism Mini-Evaluation Exercise provides another direct observation method for assessing professional behaviours during an actual patient encounter (Cruess et al. 2006). It was also designed to be used for the structured observation of student behaviours in non-patient-related situations such as during sign-out rounds or small-group sessions. The P-MEX instrument is modelled on the ABIMMiniClinical Evaluation Exercise form, with 24 specific professional behaviour items replacing the 7 original global rating scale items. Cruess and colleagues determined that adequate generalizability for assessing medical student behaviours was obtainable with 10–12 observations using this instrument. In addition, users provided positive feedback regarding the P-MEX indicating that it allowed for identification of specific deficits (such as student awareness of limitations or timeliness) and that its use promoted self-reflection and increased awareness of the importance of professionalism. However, a relatively high percentage of not observed ratings were provided, particularly for behaviours that occurred infrequently and/or would not normally be observed, such as ‘accepted inconvenience to meet patient needs’ or ‘admitted errors/omissions’ (Cruess et al. 2006).


위에서 설명한 두 가지 방법 모두 실제 또는 실제 임상 환경에서의 직접 관찰을 기반으로하는 잠재적 인 이점이 있습니다. 직접 관찰은 실제로 평가 점수를 평가자의 성과와 연결시키는 일련의 증거를 크게 강화할 수 있지만, 직접 관찰은 관찰되지 않은 실행 환경에서 발생하는대로 행동에 대한 통찰력을 보장하지 않습니. 자신이 관찰당한다는 것을 인식하는 상황에서는, 개인의 전형적인 습관을 대표하지 않아서 성과에 영향을 줄 수있다 (Williams et al., 2003). 결과적으로, 구조화 된 관찰 방법은 측정 된 속성과 관련하여 학습자의 능력 (knows how나 shows)을 평가하는 것으로 제한 될 수 있습니다. 

Both methods described above have the potential advantage that they are based on direct observation in real or realistic clinical environments. Direct observation has the potential to greatly strengthen the chain of evidence that links the assessment scores to examinee performance in practice, however, direct observation does not guarantee insight into behaviour as it occurs in the unobserved practice setting. Awareness of observation may influence is performance such that it not representative of an individual’s typical practice behaviour (Williams et al. 2003). Consequently, structured observation methods may be limited to assessing learner capabilities (knows how or shows) relative to the attributes measured. 


중요한 연구 문제는 구조화 된 관찰이 실제로 성능을 예측하는 데이터를 제공하는 정도에 관한 것입니다. 구조화 된 관측 기술을 사용하는 직업 기술 및 행동의 평가에 대한 또 다른 제한은 책임 및 업무 윤리 / 습관과 같은 단일 환자 조우에서 포착되지 않는 중요한 특성을 다루지 않는다는 것이다 (Van Zanten 외 2005; Cruess et al 2006). 마지막으로, SP 기반 방법은 상당한 인프라 요구 사항으로 인해 많은 비용이 소요될 수 있습니다.

An important research question concerns the extent to which structured observation provides data that are predictive of performance in practice. Another limitation to the assessment of professional skills and behaviours using structured observation techniques is that they do not address important attributes that are not captured in single patient encounters, such as accountability and work ethic/habits (Van Zanten et al. 2005; Cruess et al. 2006). Lastly, SP-based methods may be costly with significant infrastructure requirements.



전문적인 행동 평가에서 유망한 한 가지 방법은 개별 연수생이나 실무자를 평가할 때 여러 명의 평가자 그룹을 동시에 지속적으로 사용하는 것입니다. 업계 및 비즈니스에서 인적 자원 및 품질 향상 목적으로 널리 사용되는 MSF (Multi-source Feedback)는 최근 의학 교육 및 실습 환경에 도입되었습니다 (Lockyer 2003). 360도 피드백이라고도 하는 MSF는 대인 관계 및 의사 소통 기술 및 시스템 기반 실무 (팀워크, 자원 활용) 역량에 대한 보충 평가 데이터를 제공 할 수 있습니다. MSF의 긍정적 인 특징 중 하나는 전문적인 행동의 맥락- 및 역할- 의존적 성격을 통합한다는 것입니다. 다양한 직업 배경, 자격 및 관점을 지닌 여러 평가자는 예상되는 실제 행동처럼 관찰자 및 학습자 역할 및 관계가 다양하게 나타나는 다양한 설정 및 상황에서 학습자 행동을 평가합니다. MSF의 가치는 여러 출처의 맥락적 관측을 비교함으로써 서로 다른 평가자 데이터의 단순 집계를 넘어 확장됩니다 (Lockyer & Clyman 2008).

One method that holds promise for the assessment of professional behaviours involves the simultaneous and continuous use of multiple rater groups in the assessment of individual trainees or practitioners. Widely used in industry and business for human resources and quality improvement purposes, Multi-source Feedback (MSF) has only recently been introduced into the medical education and practice environment (Lockyer 2003). MSF, also referred to as 360  Feedback, may also provide supplemental assessment data for the Interpersonal and Communication Skills and Systems-based practice (teamwork, resource utilization) competencies. One of the positive features of MSF is that it incorporates the contextual, role-dependent nature of professional behaviours. Multiple raters with different professional backgrounds, qualifications and perspectives assess learner behaviours in a range of settings and situations, in which observer and learner roles and relationships vary, as do expected and actual behaviours. The value of MSF extends beyond the simple aggregation of different rater data by allowing comparison of these multiple sources of contextual observations (Lockyer & Clyman 2008).


의료 환경에서 MSF 등급의 타당과 관련하여 여러 연구 논문이 발표되었습니다. 

    • 연구에 따르면 환자 등급은 환자 및 의사의 성별, 환자 나이 및 건강 상태, 의사 - 환자 관계의 길이 및 설문지 관리 형식 (Woolliscroft et al 1994; Lipner et al. 2002)에 의해 영향을받을 수 있습니다.

    • 의사의 동료 평가는 평가자를 선정하는 방법에 영향을받지 않지만 그 의사와의 친밀도는 등급 차이에 약간 기여할 수있다 (Ramsey et al., Hall et al., 1999; Lipner et al. et al., 2005).

    • 관용, 범위 제한 및 상위 항목 상호 상관 (item 간 상관 관계는 유사 도메인의 경우 더 높을 수 있지만)과 같은 글로벌 평가 척도에서 일반적으로 발견되는 문제는 다양한 평가자 그룹에 설명되어 있습니다. (Ramsey et al. 1993, 1996; Woolliscroft et. al., 1994; Lipner et al., 2002; Archer et al., 2005; Lockyer et al., 2006; Violato et al.

There are several research papers published that relate to the validity of MSF ratings in a medical setting. 

    • Studies show that patient ratings may be affected by patient and physician gender, patient age and health status, length of the physician– patient relationship and by the questionnaire administration format (Woolliscroft et al 1994; Lipner et al. 2002). 

    • Peer ratings of physicians are not influenced by the method for selecting raters, but the degree of familiarity with the physician may contribute a small amount to rating variance (Ramsey et al. 1993; Hall et al. 1999; Lipner et al. 2002; Archer et al. 2005). 

    • Problems typically found with global rating scales, such as leniency, range restriction and high item inter-correlations (although correlations between items may be higher for with like domains) have been described various rater groups (Ramsey et al. 1993, 1996; Woolliscroft et al. 1994; Lipner et al. 2002; Archer et al. 2005; Lockyer et al. 2006; Violato et al. 2006).


연구는 또한 피드백 제공자가 특정 영역에서 수험자의 성과를 직접적으로 알지 못하더라도 설문 조사 항목에 기꺼이 응답 할 수 있다고 제안합니다. 일반 인상을 기반으로 한 후광 효과 강점과 약점에 대한 상세한 피드백의 출처가 아니라 general statement of popularity가 되어버릴 수도 있다 (Mazor et al., 2008). 또한 조사 항목이 명백하게 관찰 가능한 행동으로 정의되는 경우에도, 응답자는 동일한 항목에 대해 상당히 다른 해석을 할 수 있습니다. 이러한 문제는 피험자에 대해 전반적으로 긍정적 인 시각을 갖고 있다면 평가자가 체계적으로 직접적인 증거가 없을 경우 추론 할 가능성이 더 높다는 사실에 의해 악화 될 수있다 (Mazor et al., 2007, 2008).

Research also suggests feedback providers may be willing to respond to survey items even if they have no direct knowledge of the examinee’s performance in the specific area. Halo effects based on general impressions may turn the output into a general statement of popularity rather than a source of detailed feedback on strengths and weaknesses (Mazor et al. 2008). Additionally, even when survey items are defined in terms of apparently observable behaviours, respondents may have significantly different interpretations of the same item. These problems may be exacerbated by the fact that evaluators may be systematically more likely to make inferences in the absence of direct evidence if they have an overall positive view of the examinee (Mazor et al. 2007, 2008).


평가 도구로서의 MSF의 장점 중 하나는 행동 변화를 자극하는 능력과 관련이 있습니다. 외부 평가자의 정보와 개인 자기 평가의 비교는 학습자가 결함을 식별하고 학습 및 개선 노력의 우선 순위를 정하는 데 도움이 될 수 있습니다 (Lockyer & Clyman 2008). 자기 평가의 정확성에 대한 우려가 있기에, 자기 평가와 외부 평가의 비교는 더욱 적절하다 (Eva & Regehr 2005; Davis et al., 2006). 이는 자신의 성과를 과다하게 평가하는 낮은 성과 자에게는 특히 중요 할 수있다 (Stern et al., 2005; Violato & Lockyer 2006). 학생과 거주자의 MSF 사용에 대한 연구에 따르면 피드백은 행동 변화의 시작 또는 contemplation을 자극하는 데 사용되지만 (Rees & Shepherd 2005, Brinkman et al. 2007), 그러나 끊임없이 조사받는다고 느끼면 불만을 불러 일으킬 수 있으며 불법적 행동을 시연 할 수도 있습니다 (Rees & Shepherd 2005). 유사하게, 의사는 MSF를 사용하여 환자 및 동료 및 사무실 시스템과 의사 소통하는 것과 같은 관행의 변화를 유도할 수 있다 (Violato et al. 1997, 2003; Hall et al. 1999; Lipner et al. 2002). 의사들이 MSF 신뢰성에 관한 갖는 인상에 영향을 미치는 몇 가지 요소가있다

    • 피드백의 특이성,

    • 평가자가 성과를 관찰하고 평가할 수있는 능력에 대한 인식

    • 다른 평가 데이터와의 일관성 (Sargeant 외. 2007).

One of the purported advantages of MSF as an assessment tool relates to its ability to stimulate behavioural change. Comparison of information from external raters to individual self-assessment may help learners identify deficiencies and prioritize learning and improvement efforts (Lockyer & Clyman 2008). A comparison between self and external assessment becomes even more relevant given concerns regarding the accuracy of self-assessment (Eva & Regehr 2005; Davis et al. 2006). This may be particularly important for low performers who are inclined to over-rate their own performance (Stern et al. 2005; Violato & Lockyer 2006). Research from the use of MSF in students and residents shows that feedback is used to stimulate contemplation or initiation of behavioural change (Rees & Shepherd 2005; Brinkman et al. 2007), but a sense of constant scrutiny may create resentment and result in demonstration of unauthentic behaviour (Rees & Shepherd 2005). Similarly, practicing physicians use MSF to guide change in their practices, such as in their communication with patients and colleagues and in office systems (Violato et al. 1997, 2003; Hall et al. 1999; Lipner et al. 2002). Several factors influence physician impressions regarding MSF credibility, including: 

    • specificity of feedback, 

    • perceived ability of raters to observe and assess performance and 

    • consistency with other assessment data (Sargeant et al. 2007).


의학 교육 환경에서 MSF 피드백을 시행하는 것에 대한 저항은 [평가자의 객관성]과 [능력에 대한 기밀성]과 불안에 관한 우려에서 기인합니다. MSF를 교육 또는 실습 환경으로 성공적으로 구현하려면 조직의 buy-in과 평가도구 설계에 대한 건전한 접근이 필수적입니다. 프로그램 리더는 평가 프로세스에 대한 지원을 전달하고 전문적인 행동에 대한 정확한 평가를 용이하게하는 환경에 기여해야합니다. 평가 과정에서 적절한 기밀성을 보장하는 것과 마찬가지로 평가 프로그램의 목적과 목적을 전달할 때 투명성과 명확성이 중요합니다 (Lockyer & Clyman 2008).

Resistance to implementing MSF feedback in medical education settings may originate from concerns regarding confidentiality and anxiety regarding rater objectivity and ability. Organizational buy-in and a sound approach to instrument design are essential to the successful implementation of MSF into an educational or practice setting. Program leaders should communicate support of the assessment process and contribute to an environment that facilitates accurate appraisal of professional behaviours. Transparency and clarity in communicating the purpose and objectives of the assessment program are important, as are assurances of appropriate confidentiality during the rating processes (Lockyer & Clyman 2008).




평가자와 피드백 제공자 훈련

Training raters and feedback providers


산업 및 사업 환경의 성과 평가에 관한 문헌은 성과 등급의 정확성을 향상시키는 데있어 rater training의 효과를 뒷받침합니다 (Woehr & Huffcutt 1994; Hauenstein 1998, Noonan & Sulsky 2001, Roch & O'Sullivan 2003, Lievens & Sanchez 2007). 실제로 rater training은 평가 양식 또는 척도를 개선하는 것보다 평가 정확도에 더 큰 영향을 줄 수 있습니다 (Woehr & Huffcutt 1994). 평가 도구 교육의 잠재적 이점에는 관련 특성을 평가하기위한 지식과 기술의 향상뿐 아니라 정확한 등급을 제공하려는 동기 증가가 포함됩니다 (McIntyre 외 1984). 평가자 교육은 성과 평정의 질을 개선하는 데 효과적 일뿐만 아니라, 그러한 교육은 fairness 인상을주고 평가 등급에 대한 이의가 있을 때 법적인 방어 수단이 된다. (Hauenstein 1998; Roch & O'Sullivan 2003). 물론 정확한 평가를 제공하려는 동기는 기관적 리더십에 의한 격려와 지원이 필요하며 평가에 대해 평가자가 책임을 느낄 때 더욱 강화됩니다 (Hauenstein 1998).

The literature on performance appraisal from industry and business settings supports the efficacy of rater training in improving the accuracy of performance ratings (Woehr & Huffcutt 1994; Hauenstein 1998; Noonan & Sulsky 2001; Roch & O’Sullivan 2003; Lievens & Sanchez 2007). In fact, rater training is likely to have a greater impact on rating accuracy than enhancements to the rating form or scale (Woehr & Huffcutt 1994). The potential benefits of rater training include increased knowledge and skills for rating the relevant attributes, as well as increased motivation to provide accurate ratings (McIntyre et al. 1984). Not only is rater training effective in improving the quality of performance ratings, such training provides an impression of fairness and a measure of legal defensibility should ratings subsequently be challenged (Hauenstein 1998; Roch & O’Sullivan 2003). Rater motivation to provide accurate ratings, of course, requires encouragement and support by institutional leadership and is further enhanced by holding raters accountable for their ratings (Hauenstein 1998).


교육 형식 및 내용은 평가자 교육의 효율성에 영향을 미칩니다. 실용성 평가와 피드백을 포함한 보다 interactive 형식은 leniency error를 줄이고 등급 정확도를 향상시키는 데있어 didactic 접근보다 효과적이다 (Smith 1986). 훈련 평가자에게 적용된 방법들 중, frame of reference training과 behaviour observation training은 각각 관찰 행동에 대한 평가 정확도와 회수율의 가장 중요한 향상과 관련이있다 (Hauenstein 1998; Roch & O'Sullivan 2003) . 

    • frame of reference training의 목표는 보다 정확하고 일관된 등급을 부여를 위해 성과에 대한 공통 개념화를 제공하는 것입니다. 교육 과정은 평가자가 평가할 성과 차원을 숙지하고 해당 차원과 관련된 행동 및 / 또는 성과 수준의 구체적인 예 (비 네트, 비디오)를 제공합니다. 실행 평가 및 피드백을 통해 평가자는 자신의 평가를 적용하도록 조정됩니다 (Hauenstein 1998; Lievens & Sanchez 2007).

The training format and content influence the effectiveness of rater training. More interactive formats, involving practice ratings and feedback, are more effective than didactic approaches in reducing leniency error and improving rating accuracy (Smith 1986). Among the methods that have been applied to training raters, frame of reference training and behaviour observation training are associated with the most significant improvements in rating accuracy and the accuracy of recall for observed behaviours, respectively (Hauenstein 1998; Roch & O’Sullivan 2003). 

    • The goal of frame of reference training is to provide raters with a common conceptualization of performance to enable more accurate and consistent ratings (Noonan  & Sulsky 2001). The training process involves familiarizing raters with the performance dimensions to be rated and provides specific examples (vignettes, videos) of behaviours and/or performance levels related to those dimensions. Through practice ratings and feedback, raters are calibrated to apply their ratings in a consistent manner using similar standards (Hauenstein 1998; Lievens & Sanchez 2007).


여러 연구에서  frame of reference training의 결과로 보다 정확한 performance 분류를 가져오지만, 실제로 추론에 기여하는 특정 행동을 회상하거나 인식하는 데에는 부정적인 영향을 줄 수 있음을 보여준다 (Sulsky & Day 1992; Roch & O'Sullivan 2003 ). 결론적으로 개선 요구를 더 잘 inform 하기위한 목적으로 특정 행동에 대한 피드백이 필요하다면, 그러한 행동의 회상을 강화하기위한 보충 교육이 필요할 수있. (Hauenstein Noonan & Sulsky 2001, Roch & O'Sullivan 2003, Lievens & Sanchez 2007). 

Although multiple studies have shown that frame of reference training results in more accurate categorization of performance, it may actually have a negative impact on recall or recognition of the specific behaviours that contribute to those inferences (Sulsky & Day 1992; Roch & O’Sullivan 2003). Consequently, if feedback on specific behaviours is desired to better inform improvement needs, supplemental training to enhance recall of such behaviours may be necessary 1998; (Hauenstein Noonan & Sulsky 2001; Roch & O’Sullivan 2003; Lievens & Sanchez 2007). 


Behaviour observation training은 관찰 및 회상의 정확성을 높이기 위해 고안되었습니다. 다음의 것들이 포함된다.

    • 일반적인 관찰 오류 (첫 인상, 후광 효과)에 관한 정보 제공,

    • 주의 깊게 관찰하거나 특정 행동을 지키기위한 지침, 메모 작성 또는 일기 사용법,

    • 실습 평가 비네트 (vignettes)를 연습하고 기억 훈련을 통합 할 수있다 (Hauenstein 1998; Noonan & Sulsky 2001; Roch & O'Sullivan 2003).


Behaviour observation training is designed to enhance the accuracy of observation and recall. It may involve a combination of interventions such as  

    • providing information regarding common observational errors (first impression, halo effect), 

    • guidance in how to observe carefully or watch for specific behaviours, instruction in note-taking or using diaries, 

    • practice rating vignettes and may incorporate memory exercises (Hauenstein 1998; Noonan & Sulsky 2001; Roch & O’Sullivan 2003).


Frame of reference training and behaviour observation training은 많은 평가 목적을위한 보완적인 방법으로 볼 수 있습니다. 그러나 평가의 주된 목적과 특성에 따라 한 가지 형태가 선택적으로 강조 (또는 강조 해제) 될 수 있습니다 (Sulsky & Day 1992). 

    • 행동 관찰 교육은 관측 프로세스의 품질과 속도에 제공되는 정보의 정확성 향상에 초점을두고 있습니다. 결과적으로, 이는 frequency 스케일에서 측정 된 discrete behavior 에 대한 피드백의 품질을 향상시키는 데 더 유용합니다. 

    • 참조 교육의 프레임은 판단 프로세스를 개선하는 데 중점을 둡니다. 따라서 continuum of acceptability (예 : poor - to - excellent scale)에 따라 실적을 정확하게 분류 할 수 있습니다. 따라서 더 많은 해석이 요구되거나 '주관적'평가가 제공 될 때 훈련의 필수 요소가 될 것이다 (Sulsky & Day 1992, Hauenstein 1998, Roch & O'Sullivan 2003).

Frame of reference training and behaviour observation training may be viewed as complementary methods for many assessment purposes. However, one form may be selectively emphasized (or de-emphasized) depending upon the primary purpose and nature of the assessment (Sulsky & Day 1992). 

    • Behaviour observation training focuses on the quality of the observational process and the accuracy of information provided to the ratee. Consequently, it will be more useful for enhancing the quality of feedback for discrete behaviours measured on a frequency scale. 

    • Frame of reference training focuses on improving the judgement process, thus facilitating accurate categorization of performance along a continuum of acceptability (e.g. a poor-to-excellent scale). Therefore, it will be an essential element of training when more interpretation is required or ‘subjective’ ratings provided (Sulsky & Day 1992; Hauenstein 1998; Roch & O’Sullivan 2003).


평가자가 훈련 받아야한다는 것이 직관적으로 보이지만 (Shumway & Harden 2003), 위에서 언급 한 교육 방법이 산업 및 사업 환경 에서처럼 의학 교육 및 실제 상황에서 효과적인지 여부는 불확실합니다. 교수진은 상이한 차원을 고려하고 직업적 구성의 특이한 등급에서 모순 된 기준을 적용함으로써 교육 평가자에게 잠재적 인 가치가 있다고 제안한다 (Ginsburg 외 2004). 불행하게도, 의학 교육에서 간단한 평가자 훈련 개입에 관한 연구는 낙담 한 결과를 낳았다 (Herbers et al., Kalet et al., Kroboth et al., 1992; Noel et al., 1992). 그러나 강렬한 쌍방향 워크샵 형식의 기준 학습 및 행동 관찰 교육의 틀에 고유 한 원리와 방법을 활용 한 최근의 연구는 더 유망한 결과를 낳았다 (Holmboe & Hawkins 2004). 불행히도 이러한 연구 결과는 다소 짧은 워크샵 접근법을 사용하는 후속 연구에서 확증되지 않았다 (Cook et al. 2008). 전문가 행동 평가의 질을 향상시키기위한 평가자 훈련의 효용성과 최적 구성 요소뿐만 아니라 그러한 평가 접근법에 적용 가능한 다른 역량을 결정하기 위해서는 훨씬 더 많은 연구가 필요하다 (Williams et al., 2003). Intense한 연수 훈련 활동을 수행하는 데 필요한 시간과 자원을 고려할 때, 연수 내용뿐만 아니라 연수 기간, 연수 방법 및 연수 효과의 내구성을 고려하는 연구가 필요하다 (Noonan & Sulsky 2001; Roch & O 'Sullivan 2003).

Although it seems intuitive that raters should be trained, (Shumway & Harden 2003), it is uncertain whether the above described training methods will be as effective in medical education and practice contexts as they have been in industry and business settings. That faculty consider different dimensions and apply inconsistent standards in idiosyncratic ratings of professional constructs suggest there is potential value in training raters (Ginsburg et al. 2004). Unfortunately, research on brief rater training interventions in medical education has produced discouraging results (Herbers et al. 1989; Kalet et al. 1992; Kroboth et al. 1992; Noel et al. 1992). However, more recent work utilizing the principles and methods intrinsic to frame of reference training and behaviour observation training in an intense, interactive workshop format yielded more promising results (Holmboe & Hawkins 2004). Unfortunately, these findings were not corroborated in a follow-up study using a somewhat shorter workshop approach (Cook et al. 2008). Much more research is needed to determine the efficacy and optimal components of rater training for improving the quality of professional behaviours ratings, as well as other competencies that are amenable to such assessment approaches (Williams et al. 2003). Given the time and resource requirements for conducting more intense rater training activities, investigation should consider not only the content of training, but also the duration of training sessions, training modalities employed and the durability of training effects (Noonan & Sulsky 2001; Roch & O’Sullivan 2003).


평가자 훈련 외에도 피드백 제공자를 identify하고 교육하면 학습 경험의 질이 향상 될 수 있습니다. 의약 및 산업 내에서 피드백의 적절한 요소에 관한 의견에 일관성이 있습니다. '피드백 제안 중재 이론Feedback suggest Intervention Theory'과 일치하는 컨센서스 견해는 구체적인 과제 수행에 초점을 맞추거나 학습자의 동기를 향상시키기 위해 고안된 것이 receiver의 자아 이미지를 성공 또는 실패로 목표로 삼는 피드백보다 더 효과적입니다 (Hauenstein 1998). 피드백은 다음의 경우에 더 도움이 될 것이다.

    • 적절한 대인 관계 분위기와 위치의 맥락에서 전달되며,

    • 관찰 된 특정 행동과 관련되고

    • 개선을위한 제안 및 상호 동의 한 목표와 관련될 때 (Hewson & Little 1998).

In addition to training raters, identifying and training feedback providers may enhance the quality of the learning experience. There is consistency in opinions regarding the appropriate elements of feedback within medicine and industry. Consensus views, compatible with ‘Feedback suggest Intervention Theory’, that feedback focusing on specific task performance or designed to improve learner motivation is more effective than feedback targeting the recipient’s self-image as a success or failure (Hauenstein 1998). Recipients are more likely to perceive feedback to be helpful if 

    • delivered in the context of an appropriate interpersonal climate and location, 

    • related to specific observed behaviours, and 

    • associated with suggestions for improvement and mutually agreed upon goals (Hewson & Little 1998).



피드백은 personal quality or self-image보다 특정 작업이나 행동을 타겟해야 하며, 이러한 권고는 의료 전문 분야의 전문가들이 최근에 제안한 견해를지지한다 (Ginsburg 외 2000, Stern 2006). 이러한 관점은 때때로 의사를 불완전한 존재로 의사를 보는 것이 현실적임을 시사하지만, 여전히 그들에게 개인적 및 전문적 가치를 부여하여 개선, 우수성 및 책임 성을 추구하도록 강요합니다. (특히 갈등이나 스트레스가있는 상황에서) 전문적인 판단의 실수와 전문적인 행동의 비정기적인 이탈이 발생할 수 있다는 것을 인정하면서, 평가자가 이를 확인할 수 있게 해준다면, 피드백 수용을 더 용이하게 할 수 있습니다이러한 접근 방식은 rating 정확도와 피드백 효능을 향상시킬 수있는 잠재력을 가지고 있습니다. 왜냐하면 이는 덜 바람직한 행동이나 특징을 unprofessional이라고 라벨링하는 것이 아니라, 오히려 개선이나 수정을위한 특정 행동이나 기술을 보여주기 때문이다.

Recommendations that feedback targets specific tasks or behaviours, rather than personal quality or self-image, endorse a perspective recently offered by experts in the area of medical professionalism (Ginsburg et al. 2000; Stern 2006). This viewpoint suggests that it is more realistic to view physicians as imperfect beings that are subject to occasional lapses, but instilled with personal and professional values that oblige them to seek improvement, excellence and accountability. Acknowledging that lapses in professional judgement and occasional deviation in professional behaviours are not unexpected, particularly in the presence of conflict or stress, permits raters to identify them, and may facilitate acceptance of feedback. Such an approach has the potential to enhance both rating accuracy and feedback efficacy as it avoids labelling less than desirable actions or attributes as unprofessional; rather it identifies specific behaviours or skills as areas for improvement or correction.


평가 정확도와 피드백 효과의 향상에 대한 기대는 현실적이어야하며 건전한 교육 및 평가 프로세스의 개별 요소에 불과하다는 이해를 동반해야합니다. 리더십 buy-in과 support, 평가 내용 및 목적, 평가자의 폭 넓은 참여, 평가 참여 및 평가 프로세스 모니터링을위한 메커니즘에 관한 명확한 의사 소통이있는 경우 전반적인 프로세스가 가장 효과적입니다 (Hauenstein 1998; Norcini 2003; Williams et al., 2003; Steinert et al., 2005; Norcini et al., 2008). 견고한 교수 개발 프로그램은보다 전문적인 교육 활동뿐만 아니라 전문성에 대한 교육 및 평가 측면에 긍정적 인 영향을 미칠 것이다 (Srinivasan et al., 2004; Steinert et al. 2005).

Expectations for improvement in rating accuracy and feedback effectiveness should be realistic and accompanied by an understanding that they are just individual elements of a sound educational and assessment process. The overall process will be most effective if there is leadership buy-in and support, clear communication regarding the content and purpose of assessment, broad involvement of raters, engagement of ratees and a mechanism for monitoring the assessment process once implemented (Hauenstein 1998; Norcini 2003; Williams et al. 2003; Steinert et al. 2005; Norcini et al. 2008). Robust faculty development programs, as well as more targeted educational activities, will have positive effects on both educational and assessment aspects of professionalism (Srinivasan et al. 2004; Steinert et al. 2005).






평가 결과의 타당도 확보

Ensuring the validity of assessment results


마이클 케인 (Michael Kane, 2006). Kane은 타당성 검사를 의도 된 점수 해석의 신뢰성을 뒷받침하는 증거 자료 수집 프로세스로 봅니다. 그는 '타당성 주장'을위한 구조화 된 틀을 제시했다. 이 논증의 네 가지 구성 요소는 시험 운영을 궁극적 인 의사 결정 또는 점수 해석과 연계시키는 일련의 증거를 제공하기 위해 고안되었습니다. 케인은 인수의 네 가지 구성 요소를 다음과 같이 언급합니다. (1) 채점, (2) 일반화, (3) 외삽 (4) 해석.

Michael Kane (2006). Kane views test validation as the process of collecting a body of evidence to support the credibility of the intended score interpretations. He has presented a structured framework for the ‘validity argument’. The four components of this argument are designed to provide a chain of evidence linking the test administration to the ultimate decisions or score interpretations. Kane refers to the four components of the argument as: (1) scoring, (2) generalization, (3) extrapolation and (4) interpretation.


채점 부분은 데이터 수집, 기록 및 채점 방법에 관한 증거가 필요합니다. 

    • 이 단계에 대한 증거는 자극 자료 및 데이터 수집 조건이 적절하고 점수 규칙이 올바르게 적용되었으며 기록이 정확하다는 것을 입증해야 한다. 

    • 표준화 된 시험, 특히 객관식 항목을 포함하는 시험이 논쟁의이 측면을 강화하기 위해 개발되었습니다. 이 경우 테스트 형식에 대한 컨텐츠 제약 조건과 테스트 관리를위한 표준화 조건이 일반적으로 명확하게 정의됩니다.

    • 응답 기록은 간단하며 채점 응답은 본질적으로 오류없이 완료 할 수 있습니다. 그러나 전문성 평가 평가에 대한 이러한 측면은 더 문제가 될 수있다. 예를 들어 다중 소스 피드백을 사용하는 평가의 경우, scoring argument는 먼저 피험자가 관찰되었다는 증거를 요구합니다.

      • 관찰은 적절한 설정과 지정된 시간 프레임에서 발생 했습니까?

      • 관찰자는 채점 시스템을 사용하는 방법을 이해하고 그 결과를 올바르게 기록 했습니까?

      • 관찰자는 관찰 된 행동을 평가하는데 적절하거나 합의 된 기준 및 / 또는 기준을 적용 하였는가?


The scoring part of the argument requires evidence regarding how the data were collected, recorded and scored. 

    • Evidence for this stage of the argument would demonstrate that the stimulus materials and the conditions of data collection were appropriate, the scoring rules were applied correctly, and the recording was accurate. 

    • Standardized tests, especially tests comprising multiple-choice items have been developed to strengthen this aspect of the argument. In this case, the content constraints on the test form and the conditions of standardization for test administration are typically clearly defined. 

    • Recording responses is simple and scoring responses can be accomplished essentially without error. By contrast, this aspect of the argument for assessments of professionalism may be more problematic. For example, in the case of an assessment using multi-source feedback, the scoring argument will first require evidence that the examinee was observed. 

      • Did the observations occur in appropriate settings and in the specified time frame? 

      • Did the observer understand how to use the scoring system and did he or she record the results correctly? 

      • Did the observer apply appropriate or agreed-upon criteria and/or standards in rating the observed behaviours?


타당성 논증의 두 번째 부분은 일반화 단계입니다. 논쟁의이 부분은 질문에 초점을 맞춥니다. 

    • 재시험을하면 시험 점수는 얼마나 비슷합니까?

    • 이 질문은 점수가 얼마나 신뢰할만한 (또는 일반화 가능) 것으로 재 작성 될 수 있습니까?

다시 말하지만, 논쟁의이 부분은 프로페셔널리즘 평가에서 복잡 할 수 있습니다. 

    • 피검자가 다른 관찰자, 다른 환자 또는 다른 날에 관찰 된 경우 점수가 크게 바뀔 것으로 예상되는 경우 궁극적 인 결정 및 점수 해석은 거의 신뢰할 수 없습니다.

    • 일반화 논증은 기록 된 결과가 관찰 조건에 걸쳐 안정적으로 유지된다는 증거 또는 관찰자, 환자, 경우 및 연습 설정 전반에 걸쳐 발생할 수있는 변동성에도 불구하고 안정된 결과를 산출하기에 충분한 수의 표본이 필요하다는 증거가 필요합니다.

The second part of the validity argument is the generalization stage. This part of the argument focuses on the question, 

    • how similar would an examinee’s scores be if he or she was retested? 

    • This question may be restated as, how reliable (or generalizable) is the score? 

Again, this part of the argument may be complicated for assessments of professionalism. 

    • Ultimate decisions and score interpretations will have little credibility if the scores would be expected to change dramatically if the examinee had been observed by a different observer, with a different patient, or on a different day. 

    • The generalization argument will require evidence that the recorded results remain stable across conditions of observation or that there are a sufficient number of samples to produce a stable result in spite of the variability that may occur across observers, patients, occasions and practice settings. 


Authentic assessment에서는 신뢰도가 그다지 중요하지 않다고 결론을 내릴 수도 있지만, 피평가자가 아니라 평가자와 환경에 대한 정보만 많이 알려주는 평가점수는 단순히 authentic한 맥락에서 얻어졌다고 해서 유용하다고 볼 수 없다. 타당도 논증에서 네 가지 링크는 필수적이며 평가가 형성적인지 요약인지에 따라 다릅니다. 숫자(점수)란 학습자의 학습 초점을 안내하기위한 것이므로 무의미한 숫자는 아무런 의미가 없다.

It may be tempting to conclude that reliability is less important with such authentic assessments, but a score that tells the user more about the evaluator or the setting than it does about the examinee does not become useful because the context in which it was produced was authentic. Each of the four links in the validity argument is essential and this holds true whether the assessment is formative or summative. Meaningless numbers do not take on meaning because they are intended to guide the learner’s focus of study.



세 번째 부분은 외삽입니다

    • 이것은 테스트에서 수집 된 데이터 또는 관찰세팅과 일반적으로 스코어 사용자가 관심을 갖는 실제행동에 대한 추론 사이의 연결에 대한 증거를 필요로합니다.

    • 이 부분을 강화하려는 노력 중 하나는 평가자가 고충실도 시뮬레이션 또는 실제 훈련 및 연습을 직접 관찰하여 자료를 수집했다는 것이다. 이것은 실제 관찰을 기반으로하기 때문에 전문성을 평가하는 데 일반적으로 사용되는 많은 방법에있어 강점입니다.

    • 그럼에도 불구하고이 부분은 당연한 것으로 받아 들여서는 안된다. 이전에 언급했듯이, 관찰자의 존재가 관찰되는 개인의 행동을 변화시키는 경우, 그러한 관찰에 기초한 추론은 제한적일 될 수있다.

The third part of the argument is extrapolation. 

    • This requires evidence of the link between the data collected in the test or observational setting and the inference about real-world behaviours that are typically of interest to the score user. 

    • It is in an effort to strengthen this part of the argument that assessors have been drawn to high-fidelity simulations and direct observations in training and practice settings. This is an area of strength for many of the commonly used approaches to assess professionalism because they are based on observation in practice. 

    • Nonetheless, this part of the argument should not be taken for granted; as noted previously, if the presence of an observer changes the behaviour of the individuals being observed, the inferences that can be made based on those observations may be correspondingly limited.


타당성 주장의 네 번째 부분은 해석 또는 의사 결정 단계입니다

    • 이것은 결과를 해석하기위한 이론적 토대가 건전하고 평가 개발에 사용 된 논리와 일치한다는 증거가 필요합니다.

    • classification에 사용되는 테스트의 경우 classification 결과가 방어 가능하다는 증거가 필요합니다. 최소한 이것은 방어 가능한 절차를 사용하여 컷오프 점수가 확립되었다는 증거가 필요합니다. 

    • 보다 바람직하게는, classification의 유용성에 대한 시연이 요구된다. 예를 들어, 어떤 시험이 강점과 약점에 대한 피드백을 제공하기 위해 사용되었다면, 대상 지역의 개선에 초점을 맞춘 피험자는 보다 일반적인 커리큘럼에 참여한 피험자보다 더 큰 이익을 얻을 수 있음을 증명하는 것이 바람직합니다.

The fourth part of the validity argument is the interpretation or decision stage. 

    • This requires evidence that any theoretical basis for interpreting the results is sound and consistent with logic used in development of the assessment. 

    • In the case of tests used for making classifications, it requires evidence that the resulting classifications are defensible. At a minimum, this would require evidence that the cut-score was established using a defensible procedure. 

    • More optimally, a demonstration of the utility of the classifications would be desired. For example, if a test is used to provide feedback on areas of strength and weakness, it would be desirable to demonstrate that an examinee that focused improvement in targeted areas would have greater gains than an examinee who participated in a more general curriculum.



Kane의 접근 방법의 핵심은 일관된 논증을 구성하는 것입니다. 이를 위해서는 가장 취약한 평가 절차의 측면에주의를 기울여야합니다. 타당성 주장에서 가장 약한 고리에주의를 기울이는 것은 평가 절차를 개발하는 모든 사람에게 전문적인 의무로 간주되어야합니다.

The central feature of Kane’s approach is the construction of a coherent argument. This requires focusing attention on those aspects of the assessment procedure that are most vulnerable. Paying attention to the weakest links in the validity argument should be viewed as a professional obligation for anyone developing an assessment procedure.



평가 프로그램에 대한 모니터링

Monitoring the assessment program


복잡한 평가 프로그램, 특히 직접 또는 간접 관찰 방법을 사용하여 전문적 행동을 평가하는 프로그램의 경우 평가 프로세스 및 결과가 유용한 정보를 제공하도록 초기 및 지속적인 모니터링이 필요합니다 (Williams 외 2005, Norcini 외 2008). 모니터링은 양적 및 질적 접근의 사용을 포함 할 수있다. 이러한 노력의 대부분은 타당도 주장을 구성하는 데 필요한 노력과 유사 할 것입니다.

Complex assessment programs, particularly those that involve assessment of professional behaviours using direct or indirect observation methods, will require initial and ongoing monitoring to ensure assessment processes and results are providing useful information (Williams et al. 2005; Norcini et al. 2008). Monitoring may involve the use of quantitative and/or qualitative approaches. Much of this effort will parallel the effort required to construct the validity argument.


정량적 방법은 다음의 것들이..

    • 신뢰성 또는 일반화 가능성의 결정,

    • 평가 결과와 다른 평가 자료 또는 연수생 정보 비교, 또는 평가 척도의 경우,

    • 평가자가 척도를 사용하는 방법과 결함이 식별되는지 여부를 묘사하기 위해 개별 항목이나 도구 요소 구조 분석

임상 환경에서 SP 또는 다양한 평가자를 사용하는 직접 관찰 접근법의 경우, 모니터링은 최소한, 다음이 포함되어야 한다.

    • 신뢰성 측정,

    • 광범위한 샘플링을 보장하기위한 사례 내용 및 배경 검토

    • 평가 결과의 분석.


Quantitative methods may include 

    • determination of reliability or generalizability, 

    • comparison of assessment outcomes with other assessment data or information about the trainee, or, in the case of rating scales, 

    • analysis of individual items or instrument factor structure to delineate how raters are using the scale and whether deficiencies are being identified. 

For direct observation approaches using SPs or various raters in clinical settings, monitoring should include, at a minimum, 

    • measures of reliability, 

    • review of case content and context to ensure broad sampling, and 

    • analysis of rating outcomes.



리틀 필드 (Littlefield)는 네 가지 내부 조치를 취한 수련 프로그램에서 글로벌 등급에 대한 품질 관리에 대한 한 가지 접근 방식을 설명했다.

    • 반환 된 평가 양식의 비율,

    • 결점을 알리는 평가 양식 비율,

    • 확인 된 결함에 대한 프로그램 행정 조치의 가능성

    • 낮은 등급에 대한 프로그램 적 반응의 일관성 (Littlefield et al., 2001).

Littlefield described one approach to quality control of global ratings in a residency program which employed four internal measures: 

    • percent of rating forms returned, 

    • percent of rating forms that communicated deficiencies, 

    • likelihood of program administrative action in response to identified deficiencies, and 

    • consistency in programmatic responses to low ratings (Littlefield et al. 2001). 


      • 아래 두 가지 척도는 평가에 따른 적절한 응답이 없을 때, 낮음 점수를 주려는 평가자의 동기가 감소 할 수 있음을 고려하면 매우 분명하다 (Littlefield et al., 2001). 

      • 처음 두 기준과 관련하여 직업 행동 평가에 대한 연구에 따르면, 평가자는 lower performing trainee에 대해서 평가를 완료하는 경우가 더 적을 뿐만 아니라, 평가 양식에서 더 많은 항목을 건너뛰는 경향이 있어서 타당성에 대한 우려를 제기한다 (Mazor 등, 2007) .

      • The importance of the latter two measures are clear when one considers that rater motivation to provide low ratings may decline in the absence of appropriate program responses (Littlefield et al. 2001).

      • With regard to the first two criteria, research on professional behaviours assessment has shown that raters have a propen-sity to complete fewer evaluations and omit more items per evaluation form for lower performing trainees, thus raising concerns about validity (Mazor et al. 2007). 


설문 조사, 포커스 그룹 및 개별 인터뷰와 같은보다 질적 인 접근법은 평가 프로세스 및 평가 결과의 진실성에 관한 평가자 및 연수생 인상에 대한 중요한 정보를 제공 할 수 있습니다 (Woodward 2002).

More qualitative approaches such as surveys, focus-group sand individual interviews may provide valuable information about rater and trainee impressions regarding the rating process and the veracity of assessment outcomes (Woodward 2002).





누가 평가되며 누가 평가하는가?

Who is being assessed and who is performing the assessment? 



다양한 프로페셔널한 행동의 시연에 대한 기대는 매우 맥락적이며 교육과 실습의 연속체에 따른 학습자의 역할과 위치에 따라 다르다 (Arnold 2002). 어떻게, 무엇을 평가해야 할 것인가는 평가 대상과 행동을 관찰하는 맥락에 달려 있습니다. 학부 수준에서 효과적인 방법은 대학원 또는 실습 수준에서 작동하지 않을 수 있습니다.

expectations for the demonstration of various professional behaviours are highly contextual and dependent upon both the learner’s role and location along the continuum of education and practice (Arnold 2002). What should be assessed, and how it should be measured, thus depend on who is being assessed and the context in which their behaviours are observed. Methods that are effective at the undergraduate level may not work at the postgraduate or practice level.


프로페셔널리즘은 locally 배우고 실습하며 환경에서받은 모델링, 단서 및 피드백에 크게 영향을받습니다 (Hafferty & Franks 1994; Coulehan & Williams 2001). 예를 들어, 프로답지 못한 행동을 관찰 한 학생은, 그러한 행동이 받아들여질 수 있다고 생각해서 자신의 전문적 행동에서도 그러한 문제를 보일 확률이 더 높을 수 있다(Reddy 외. 2007). 행동 장애가 의료 팀의 수락을 용이하게 하든, 학생들이 부정적인 임상 평가를 피하도록 허용하든, 그러한 문제행동들은 환경 적 압력과 지역 수용의 맥락에서 발생하며, 불쾌감과 윤리적 원칙이 침식된다는 인식을 수반 할 수 있습니다(Feudtneret al., 1994).

Professionalism is learned and practiced locally and is significantly affected by modelling, cues and feedback received from the environment (Hafferty & Franks 1994; Coulehan & Williams 2001). For example, students who observe unprofessional behaviour may be more likely to experience lapses in their own professional behaviour, while finding such lapses more acceptable (Reddy et al. 2007).Whether behavioural lapses are intended to facilitate accep-tance by the medical team or allow students to avoid negative clinical evaluations, they occur in the context of perceived environmental pressures and local acceptance, and may be accompanied by both feelings of discomfort and acknowledgement of erosion in ethical principles (Feudtneret al. 1994). 


프로페셔널리즘 행동에 대한 환경 적 영향을 감안할 때, 현지 프로페셔널리즘 문화에 대한 이해가 없이는 특정 개인의 평가에 대해 정확한 인상을 표현하는 것은 어렵습니다 (Arnold 2002). 의료 프로페셔널리즘을 평가하기위한 강력한 프로그램은 평가받는 개인과 평가를 제공하는 사람들 모두에게 문화적 영향을 고려하는 메커니즘을 incorporate해야합니다.

Given environmental influences on professional behaviour, it is difficult to formulate an accurate impression regarding a particular individual’s assessment absent understanding of the local professional culture (Arnold 2002). A robust program for assessing medical professionalism should incorporate a mechanism for considering cultural influences on both the individuals being assessed and those providing the assessment.


지역 환경에서 professional and unprofessional 태도, 가치 및 행동이 어떻게 모델링되거나 허용되는지에 관한 정보는 '숨겨진 커리큘럼'의 중요한 측면을 파악하는 데 도움이 될 수 있습니다 (Hafferty & Franks 1994). 또한 아마도 교육 및 실무 환경 내에서 영향력을 발휘하는 하위 문화를 나타낼 수 있습니다.

information regarding how professional and unprofessional attitudes, values and behaviours are modelled or tolerated in the local environment can help identify important aspects of the‘hidden curriculum’ (Hafferty & Franks 1994); and perhaps reveal influential subcultures within the training and practice environment. 


정량적 도구는 의료 환경에서 조직 문화와 문화적 변화를 측정하는 데 사용되어왔다 (Arnold et al., 1998; DeLisa et al., 2001; Scott et al., 2003).

Quantitative instruments have been used to measure organizational culture and cultural change in healthcare settings (Arnold et al. 1998; DeLisa et al. 2001; Scott et al. 2003). 


Haidet과 동료들은 환자 중심의 치료에 영향을 미치는 숨겨진 커리큘럼의 측면을 평가하기위한 설문 조사를 개발했습니다. 문헌 검토 및 엄격한 품목 개발 및 분석 작업을 포함하여 C3 도구는 환자 중심의 치료의 세 요소를 측정 할 때 신뢰성과 타당성에 대한 기대를 충족 시켰습니다. 

  • 역할 모델링, 

  • 학생 경험 및 

  • 환자 중심의 행동 지원 (Haidetet al., 2005).

Haidet and colleagues developed a survey to assess aspects of the hidden curriculum that influence patient-centred care.Informed by literature review and involving rigorous item development and analytical work, the C3 instrument met their expectations for reliability and validity in measuring three elements of patient-centred care: 

  • role modelling, 

  • student experiences and 

  • support for patient-centred action (Haidetet al. 2005). 


평가 대상자를 결정하는 것 외에도 평가를 제공 할 사람을 지정하는 것이 중요합니다. 이것은 기술 및 행동 평가에서 특히 중요합니다. 평가자가 효과적인 등급을 제공 할 수있는 능력은 평가자로서의 기술, 평가되는 행동을 관찰 할 수있는 기회 및 정확한 등급을 제공하고자하는 의지에 달려 있습니다. 관찰이 구조화되어 있든 구조화되지 않든 평가자는 위에서 설명한대로 관찰 및 평가에 대한 교육을 받아야합니다. 전문적 행동의 평가를 위해 평가자는 선택된 행동을 관찰하고 평가할 기회에 따라 선정되어야합니다.

In addition to determining who will be assessed it is important to delineate who will provide the assessment. This is particularly important in the assessment of skills and behaviours. Assessors’ ability to provide effective ratings will depend on their skill as raters, their opportunity to observe the behaviours being assessed and their willingness to provide accurate ratings. Whether observation is structured or unstructured assessors should receive training in obser-vation and rating as described above. For the assessment of professional behaviours, assessors should be selected based on their opportunity to observe and rate selected behaviours.


(훈련의 유무에 관계없이) 관찰하거나 평가할 수 없는 행동과 기술을 평가하는 임무를 쥐어서는 안됩니다. 예를 들어, 간호사는 팀웍, 동료 존중 및 특정 환자의 필요 또는 기관 정책에 대한 대응의 적시성과 관련된 기술 및 행동을 평가하는 데 적합합니다.

They should not be tasked with assessing behaviours and skills that they are unable to observe or assess (with or without training). For example, nurses are well suited to assess skills and behaviours related to teamwork, respect for co-workers and timeliness in responding to specific patient needs or institutional policies. 


rating을 제공하려는 Raters의 의지는 다양한 요인에 의해 영향을받을 수 있습니다.

  • 정보가 어떻게 사용될 것인지,

  • 평가자의 익명 성을 보호하기위한 시스템,

  • 다른 사람들을 평가하는 과거 경험

  • 그들이 제공 한 등급에 대해 받은 피드백

Raters’ willingness to provide ratings can be influenced by various factors, including 

  • how information will be used, 

  • systems in place to protect raters’ anonymity,

  • past experience with assessing others and 

  • feedback received about the ratings they provide


다중 소스 피드백이나 rating의 사용과 같은 방법의 이점 중 하나는 연수생과 의사에게 보내는 메시지, 즉 "팀웍 및 환자 관계와 관련된 전문적인 가치와 행동의 중요성"이다

One of the benefits of methods such as multi-source feedback, or even the more-limited use of nurse, peer or patient ratings, is the message it sends to trainees and practitioners.  the importance of professional values and behaviours related to teamwork and patient relationships.


프로페셔널한 행동이 본질적으로 맥락과 역할에 의존하는 것을 감안할 때, 다양한 시각과 다양한 위치와 상황에서 훈련생을 관찰하는 여러 명의 평가자로부터 정보를 수집하는 것이 중요합니다.

Given the contextual and role-dependent nature of professional behaviours, it is important to gather information from multiple different raters who provide unique perspectives and observe trainees in a wide variety of locations and situations.



평가는 어디서 이뤄져야 하는가?

Where should assessment be conducted?


기술이나 행동을 평가하기 위해 이러한 속성의 전체 범위를 이끌어 내려면 어느 정도의 authenticity가 요구됩니다. 위에서 논의한 바와 같이 실제 및 시뮬레이션 임상 환경에서 학습자의 수행능력은 자신이 관찰되고 있음에 대한 인식과 반비례하여 변화한다는 합리적인 가정하에 평가의 배경을 제공합니다.

For the assessment of skills or behaviours, some degree of authenticity is required to elicit the full range of these attributes. As discussed above, real and simulated clinical environments provide the context for assessment, with the reasonable assumption that authenticity of learner performance will vary inversely with their awareness of being observed. 



입원 환자 및 외래 환자 임상 환경 모두 전문적 행동을 평가하는 데 적합합니다. 그러나 검출률은 입원 환자에서 외래 환자 환경에 따라 크게 다를 수 있습니다. 3 학년 의대생을 대상으로 한 한 연구에서 강사는 어떤 유형의 평가가 사용되었는지에 관계없이 병동 로테이션 기간 동안 (외래 로테이션 기간 동안보다) 프로페셔널리즘이 결여 된 학생을 두 배로 확 인 할 수 있다고 나타났습니다 (Hemmer 외 2000). 프로페셔널리즘이 결핍된 것으로 인용되는 domains은 외래 진료와 병동 순환에서 유사했습니다.

Both inpatient and outpatient clinical environments are suitable for evaluating professional behaviours. Detection rates, however, may vary significantly from inpatient to ambulatory care environments. One study of third-year medical students demonstrated that instructors were twice as likely to identify students with deficiencies in professionalism during the ward rotation as during the ambulatory care rotation, regardless of which type of evaluation was used(Hemmer et al. 2000). The most commonly cited domains for professionalism deficiencies were similar in ambulatory care and ward rotations. 


학업 / 임상 환경이 아닌 외부에서 발생한 학습자 행동에 대한 정보를 impression에 사용해야 하는지, 더욱 중요하게는 프로페셔널리즘 관련 결정에 사용해야 하는지는 논쟁의 여지가있다. (Bonke 2006). 교실이나 임상 학습 컨텍스트를 벗어나서 발생하였더라도, 여전히 기관 내에서 혹은 포괄적인 학습환경에서 발생한 personal and professional 행동은 고려 대상으로 포함하는 것이 적절합니다. 사실 institutional physicianship’ 풍습과 요구사항을 잘 준수하지 않는 것은 이후 IRB에 의한 adverse action과 관련이있는 것으로 나타났습니다(Stern et al. 2005).

Whether information about learner behaviour outside the academic/clinical environment should be used to inform impressions, or more importantly, decisions regarding profes-sionalism, is controversial (Bonke 2006). It is appropriate to consider personal and professional behaviours that occur outside of the primary classroom or clinical learning context but that are still within the institution or broader academic environment in which the educational programs reside.Indeed, lack of compliance with ‘institutional physicianship’ mores and requirements (such as completing course critiques and obtaining immunizations) have been shown to correlate with subsequent adverse actions by an institutional review board (Stern et al. 2005). 



때때로, 생각할 수 있는 학문적 또는 임상 적 환경 밖에서 발생하는 프로페셔널리즘에 관한 정보는 교육자, 규제 기관 또는 기타 전문 기관의 관심 대상이 된다. 그러한 경우 의사 결정권자는 [전문적인 책임에 관한 문제]와 [개인의 프라이버시 권리와 관련된 문제]의 균형을 맞출 것을 요구받는다. 의사의 전문적 역할과 양립 할 수없는 심각한 행동(폭력 범죄, 마약 범죄)이 발생했다면, 의사에게 학업적 또는 행정적 조치 또는 규제 적 처벌이 필요하다고 주장하는 사람은 거의 없습니다.

Occasionally, information regarding professional beha-viours that occur outside the conceivable academic or clinical environment comes to the attention of educators, regulatory bodies or other professional authorities. The appropriate response in such cases requires decision makers to balance issues regarding professional responsibility and accountability with those related to individual privacy rights. Few would argue that egregious behaviour incompatible with the physi-cian’s professional role (violent crimes, drug offenses) would warrant academic or administrative actions or regulatory sanctions in the case of the practicing physician. 


그러나 교통 위반 혐의와 같은 사소한 사건의 경우, 많은 당국은 개인 정보 보호 권리가 전문가적 책무성에 관한 문제보다 중요하다는 데 동의합니다 (Bonke 2006). 교육과 실습의 많은면에서 그렇듯이 교육자와 감독 당국은, 그들의 결정이 예기치 않은 사건의 맥락에서 ad hoc으로 공식화되기보다는, 기존의 정책 및 절차에 의해 통보되는 경우에 보다 defensible한 입장에 서게 될 것입니다. 또한 비전문가 행동에 대한 대응으로 야기된 불리한 제도적 조치는 [제도적 시민권에 관한 학문적 기대에 기초한 경우보다 기관의 명시적으로 명시된 tenet에 근거 할 때] 일반적으로 더 방어 가능할 것입니다

However,for more minor incidents such as traffic fines, many authorities would agree that individual privacy rights trump issues of professional accountability (Bonke 2006). As is the case with many aspects of education and practice, educators and regulators will find themselves in a more defensible position if their decisions are informed by pre-existing policies and procedures rather than formulated ad hoc in the context of unexpected events. Additionally, adverse institutional actions taken in response to unprofessional behaviour will generally be more defensible when based upon explicitly articulated tenets of the institution’s than upon academic program expectations pertaining to institutional citizenship.





평가는 언제 이뤄져야 하는가?

When should assessment be conducted?


프로페셔널리즘 평가를위한 이상적인시기는 평가의 형성 적 또는 총체적 특성과 평가 대상인 특정 특성에 달려 있습니다.

The ideal timing for assessment of professionalism depends upon the formative or summative nature of assessment, as well as the specific attributes targeted for assessment.


형성 평가는 교육 프로그램에 통합되어야하며, 특정 교육 활동이나 개입의 적절성을 판단하기 위해, 학습 요구를 식별하고, 우선 순위를 매기거나, 학습 성과를 평가하기 위해 교육 활동과 시간적으로 연결되어야합니다. 형성 평가는 예정된 교육 활동에 앞서 수행 될 수도 있으며, 후속 중재를 안내하거나 후속 진전을 측정 할 수있는 기준으로 작용할 수도 있습니다.

Formative assessment should be integrated into the educational program and temporally linked to educational activities in order to identify and prioritize learning needs and/or evaluate learning outcomes to judge adequacy of specific educational activities or interventions. Formative assessment may even be conducted prior to scheduled educational activities, to guide subsequent interventions and/or to serve as a baseline against which subsequent progress can be measured.


총괄 평가는 일반적으로 다음 교육 수준이나 실무 수준으로 이동하기위한 학습자 준비 상태에 대한 판단을 돕기 위해 전환점 또는 의사 결정 시점에 전달됩니다.

Summative assessment is generally delivered at transition or decision points to assist in judgements about learner readiness to move to the next educational or practice level.


  • 지식 및 기술 영역의 숙련도는 시간이 지남에 따라 점차적으로 증가합니다학습 노력을 이끌어 내거나 총괄적 결정을 내리는 데있어 정기적인, 사전 결정된 간격으로 평가하면 교육 과정 목표 또는 성과 기준을 달성하는 데있어 진도를 측정하기에 충분합니다. 

  • 반면에, professional behaviours 은 학습자의 역할과 행동이 전시되고 관찰되는 맥락에 따라 달라지는 교육 및 연습 경험을 통해 지속적으로 나타납니다. 이상적으로, 일단 역량의 acceptable threshold가 문서화되면, 전문적인 행동의 평가는 장기적이고 연속적이어야하며, 환자 치료가 제공되는 상황에서 프로페셔널한 행동의 수용 가능성에 관해 학습자와 실무자에게 가끔씩 피드백을 제공해야합니다.

  • Proficiency in knowledge and skill domains accrues gradually over time; assessment at regular, pre-determined intervals is sufficient to gauge progress in achieving curricular objectives or performance standards, whether to guide learning efforts or inform summative judgements. 

  • On the other hand, professional behaviours are manifest continuously throughout the education and practice experience, varying as a function of the learner’s role and the context in which behaviours are exhibited and observed. Ideally, once an acceptable threshold of competence is documented, assessment of professional behaviours should be longitudinal and continuous, providing episodic feedback to learners and practitioners regarding the acceptability of their professional behaviours in the settings and situations in which patient care is provided.



총괄 평가 시스템은 모든 의료 교육 프로그램에 존재하며, 예측 가능한 시간에 평가가 이루어집니다. 프로페셔널리즘평가는 다른 평가와 편리하게 결합 될 수 있습니다. 그러나 프로페셔널리즘 평가가 의도하는 바가 학습자의 발전을 촉진하는 것이라면, 총괄 평가로만 평가를 수행하면 프로페셔널리즘 평가가 엄밀하게 말해서 'developmental'한 가치를 지니지 않는다는 인상을 줄 수 있습니다. 이러한 인식은 개발을 지원하는 데 필요한 정보의 품질과 유형을 손상시킬 수 있습니다.

Summative evaluation systems exist in virtually all medical education programs, with assessments occurring at predictable times. Professionalism assessments may be conveniently combined with other assessments. However, if the intended use of the professionalism assessment is to foster the learner’s development, conducting the assessment with summative assessments risks creating an impression that the purpose of the professionalism assessment is not strictly developmental. This perception may compromise the quality and type of information needed to support development.



의사로서 개발 과정에서 발생하는 예측 가능한 이정표는 

  • 의대 입학;

  • 첫 환자 접촉;

  • 학생 및 레지던트로서의 환자 간호 감독;

  • 레지던트, 동료 및 주치의로서의 반 자치적 또는 독립적 인 환자 치료;

  • 다른 학습자와 다른 사람들에 대한 책임과 감독.

Predictable milestones that arise in the course of development as a physician include 

  • entry into medical school; 

  • first patient contact; 

  • supervised patient care as a student and resident; 

  • semi-autonomous or independent patient care as a resident, fellow, and attending physician; 

  • responsibility for and supervision of other learners and others. 


각 단계마다 새로운 전문성 문제가 제기되고, 이전 개발 과제를 성공적으로 숙달했다고해서 프로페셔널한 행동이 지속적으로 보장되는 것은 아닙니다. 따라서 프로페셔널리즘 평가는 의학 교육의 연속을 통해 계속되어야하며 의사 발달과 관련된 특정 발달 과제를 반영해야합니다.

Each of the stages carries new professionalism challenges and successful mastery of previous developmental tasks does not guarantee continued professional behaviour. Thus, professionalism assessment should continue throughout the continuum of medical educa-tion, and reflect the particular developmental tasks associated with a physician’s development. 



Conclusion



평가 프로세스에 대해 생각하기위한 통합적이고 반복적 인 프레임 워크를 구성하는 일련의 질의에 평가 프로그램을 노출하는 프로세스는 해당 프로그램의 품질 및 방어 가능성을 지속적으로 향상시켜야합니다.


The process of exposing an assessment program to a series of interrogatives that comprise an integrated and iterative framework for thinking about the assessment process should lead to continued improvement in the quality and defensibility of that program.




Haidet P, Kelly A, Chou C, & the Communication, Curriculum and CultureStudy Group. 2005. Characterizing the patient-centeredness of hiddencurricula in medical schools: Development and validation of a newmeasure. Acad Med, 80(1), 44–50. 


NBME (2007) Assessment of professional behaviors project: List of behaviors. http://professionalbehaviors.nbme.org/2008ListofBehaviors.pdf


Veloski JJ, Fields SK, Boex JR, Blank LL. 2005. Measuring professionalism: A review of studies with instruments reported in the literature between 1982 and 2002. Acad Med 80(4):3–370.








 2009 Apr;31(4):348-61. doi: 10.1080/01421590902887404.

Assessment of medical professionalismwho, what, when, where, how, and ... why?

Author information

1
American Board of Medical Specialties, Evanston, IL 60201, USA. rhawkins@abms.org

Abstract

Medical professionalism is increasingly recognized as a core competence of medical trainees and practitioners. Although the general and specific domains of professionalism are thoroughly characterized, procedures for assessing them are not well-developed. This article outlines an approach to designing and implementing an assessment program for medical professionalism that begins and ends with asking and answering a series of critical questions about the purpose and nature of the program. The process of exposing an assessment program to a series of interrogatives that comprise an integrated and iterative framework for thinking about the assessment process should lead to continued improvement in the quality and defensibility of that program.

PMID:
 
19404894
 
DOI:
 
10.1080/01421590902887404


+ Recent posts