의학 전문직업성 평가: 평가도구와 측정특성의 체계적 보고(PLoS One, 2017)
Assessing medical professionalism: A systematic review of instruments and their measurement properties
Honghe Li1, Ning Ding1☯, Yuanyuan Zhang2☯, Yang Liu3, Deliang Wen1*
도입
Introduction
의료전문가의 사회에 대한 헌신이 의료전달체계 내에서 변화의 외적인 힘에 의해 도전을 받고 있는 가운데, 의료전문직업성은 고품질 환자진료를 제공하는 핵심요인 중 하나로 널리 주목을 받아 왔다[1–4]. 많은 연구에서 입증되었듯이, 전문직업성은 의사-환자 관계 개선, 환자 만족도, 의료 전문가의 경력 만족도, 그리고 심지어 건강관리 결과와도 밀접한 관련이 있기 때문에 의학의 실천에 중심적이다[4–7]. 의료 전문직업성의 핵심 요소들은 모든 의료 전문가들이 의료 서비스를 조직하고 제공할 것을 약속하고, 환자와 대중들 사이에서 신뢰를 구현하며, 각자의 분야에서 자기 감시와 개선을 하도록 요구한다[8–11]. 게다가 전문성에 대한 이해는 시간과 문화적 맥락에 따라 다르다[12]. 전문성이 복합적이고 다차원적인 구조임을 시사한다[9].
Facing medical professionals’ commitment to the society is being challenged by external forces of change within health care delivery systems, medical professionalism has received widespread attention as one of the core factors in providing high-quality patient care [1–4]. As demonstrated by many studies, professionalism is central to the practice of medicine because of its close associations with improvements in physician-patient relationships, patient satisfaction, health care professionals’ career satisfaction, and even healthcare outcomes [4–7]. The core components of medical professionalism require that all medical professionals commit to organize and deliver health care, to implement trust within patients and the public, and to self-monitor and improve in their respective fields [8–11]. Besides, understanding of professionalism varies across time and cultural contexts [12], suggesting that professionalism is a complex, multi-dimensional construct [9].
지난 30년 동안, 의료 전문직업성을 평가하기 위한 다양한 도구들이 개발되었고 많은 경험적 연구에 사용되었다[13–15].
Over the last three decades, various instruments to assess medical professionalism were developed and employed in many empirical researches [13–15].
측정도구 사용에 대한 지침을 제공하기 위한 노력의 일환으로, 발행된 여러 검토 기사에서 내용, 유형 및 구성에 대한 전문성을 평가하는 측정도구를 요약하고 비교하였다[9, 13, 15, 16, 18, 19]. 이러한 검토에 따르면 많은 측정도구들이 측정 특성에 대해 완전히 평가되지 않았으며, 이는 척도의 사용을 제한한다[9, 13, 18].
In an effort to provide guidance for instrument usage, several published review articles have summarized and compared instruments assessing professionalism with respect to their content, type, and construction [9, 13, 15, 16, 18, 19]. These reviews have indicated that many instruments have not been fully evaluated for their measurement properties, which would then limit their usage [9, 13, 18].
COSMIN(Consensus-based Standards for health status Measurement INstruction) 체크리스트는 연구의 방법론적 품질을 체계적으로 평가하기 위해 개발된 프레임워크로, 다양한 분야에서 경험적 연구의 품질을 평가하는 데 사용되어 왔다 [23–25]. 건강관리 결과를 측정하는 기구 외에도, COSMIN 체크리스트는 자가 효능감, 의사 신뢰도 및 근린 환경과 같은 다른 복잡한 건강 관련 문제의 금융상품의 품질을 평가하는 데도 사용되었다 [24, 26, 27].
The COnsensus-based Standards for the selection of health status Measurement INstruments (COSMIN) checklist is a widely accepted framework developed for systematically evaluating the methodological quality of studies [20–22] and has been used for assessing the quality of empirical studies in various fields [23–25]. Besides instruments measuring health care outcomes, the COSMIN checklist was also used to assess the quality of instruments of other complex health-related issues, such as self-efficacy, trust in physicians, and neighborhood environments [24, 26, 27].
연구 자료 및 방법
Materials and methods
검색 전략
Search strategy
1990년 1월 1일부터 2015년 12월 31일까지 전자 데이터베이스 PubMed, Web of Science, PsycINfo에 대한 무증상 검색은 측정 속성에 대한 보고서(S1 부록)로 의료 전문성을 평가하는 연구를 식별하기 위해 실시되었다.
A systematic search of the electronic databases PubMed, Web of Science, and PsycINFOfrom January 1, 1990 through to December 31, 2015, was conducted to identify studies assessing medical professionalism with reports on measurement properties (S1 Appendix).
본 연구에서는 전문직업성을 아놀드 외 에 의한 분류에 근거하여 완전한 구성물complete construct로 파악하였다. [29] 아놀드 등에서는 의료 전문성을 평가하는 도구를 세 가지 그룹으로 분류하였다.
역량 면으로서의 전문성을 평가하는 도구,
종합적인 구성 요소로서의 전문성을 평가하는 도구, 그리고
휴머니즘과 공감과 같은 전문성의 별도 요소 평가 도구 [29].
이 검토에는 전문성의 개별적인 요소만을 가지는 척도가 전문성을 전체적으로 평가하는 척도로 간주되지 않았기 때문에 종합적 구성으로서 또는 역량의 한 측면으로서 전문성의 척도가 포함되었다.
In this study, we identified professionalism to be a complete construct based on the classification of instruments by Arnold, et al. [29]. Arnold, et al., classified instruments assessing medical professionalism into three groups:
those assessing professionalism as a facet of competence;
those assessing professionalism as a comprehensive construct; and
those assessing separate elements of professionalism, such as humanism and empathy [29].
This review included measures of professionalism as a comprehensive construct or as a facet of competency, since any measure of only an individual element of professionalism was not considered as a measure assessing professionalism as a whole.
연구 선택
Study selection
자료 추출과 질 평가
Data extraction and quality assessments
포함된 연구의 방법론적 품질과 계측기의 측정 특성을 평가하기 전에 계측기의 짧은 이름, 작성자/년, 국가, 연구 설계, 대상 모집단, 표본 크기, 설정, 연령, 성비 등 포함된 연구의 서술적 변수를 추출했다.
Before assessing the methodological quality of the included studies and the measurement properties of an instrument, descriptive variables of the included studies were extracted, including: the short name of the instrument, author/year, country, study design, target population, sample size, setting(s), age, and sex ratio.
방법론적 퀄리티 평가
Evaluation of methodological quality of the included studies
포함된 연구의 방법론적 품질은 COSMIN 점검표에 기초하여 평가되었다[20]. COSMIN 체크리스트에는 고전적 테스트 이론(CTT) 기반 분석(내부 일관성, 신뢰성, 측정 오류, 내용 유효성, 구조적 유효성, 가설 테스트, 문화 간 유효성, 기준 유효성 및 응답성)을 위한 9개의 상자가 포함되어 있다. 이 box들은 계측기의 측정 속성에 대한 연구의 설계, 방법론 및 보고 품질의 다른 측면을 평가한다. 각 box에는 4점 척도로 측정된 5~18개 항목이 들어 있다. 문항응답이론(IRT) 모델의 경우 방법론적 품질을 평가하기 위한 상자가 1개뿐입니다. 항목 내 어떤 항목의 가장 낮은 점수는 각 상자의 전체 점수를 결정한다.
Methodological quality of the included studies was evaluated based on the COSMIN checklist [20]. The COSMIN checklist includes 9 boxes for classical test theory (CTT) based analyses (internal consistency, reliability, measurement error, content validity, structural validity, hypothesis testing, cross-cultural validity, criterion validity, and responsiveness) to rate different aspects of the design, methodological, and reporting quality of studies on instruments’ measurement properties. Each box contains 5 to 18 items measured on a 4-point scale (excellent, good, fair, or poor). For item response theory (IRT) models, there is only 1 box to rate its methodological quality. The lowest score for any item within the item determined the overall score for each box.
교차 문화 타당성은 번역되거나 문화적으로 조정된 측정도구에서 항목의 성능을 결정하고, 조정된 측정도구가 원래 버전의 계측기 항목의 성능을 적절히 반영하는지 여부를 결정하는 것을 목적으로 한다.
대응성은 측정될 구조물의 시간 경과에 따른 변화를 감지할 수 있는 계측기의 능력으로서 COSMIN에 의해 정의되었다.
9개의 측정 속성에 대한 전체 설명은 COSMIN 분류법[22]에서 얻을 수 있다. COSMIN 체크리스트와 4점 척도는 COSMIN 웹사이트[31]에서 확인할 수 있다.
Cross-cultural validity aimed to determine the performance of the items on a translated or culturally adapted instrument and whether or not the adapted instrument adequately reflects the performance of the items of the original version of the instrument.
Responsiveness was defined by COSMIN as the ability of an instrument to detect change over time in the construct to be measured.
A full description of the 9 measurement properties can be obtained from the COSMIN taxonomy [22]. The COSMIN checklist and the 4-point scale can be found on the COSMIN website [31].
도구의 측정적 특성 평가
Evaluation of measurement properties of the included instruments
측정 속성의 보고된 모든 측면의 추출은 COSMIN 점검표에 따라 수행되었다[20–22]. 식별된 측정의 측정 속성은 Terwee 외 연구진[32]이 개발한 측정 속성의 품질 기준[표 1에서 볼 수 있는 바와 같이]에 근거하여 평가하였으며, 이는 다양한 연구 분야에서 많은 체계적인 검토에 이용되어 왔다[33–35].
Extraction of all reported aspects of the measurement properties was performed according to the COSMINchecklist [20–22]. The measurement properties of the identified measures were evaluated based on the criteria for quality of measurement properties developed by Terwee et al [32] (as can be seen in Table 1), which have been used in many systematic reviews in different study fields [33–35].
자료 합성과 질 평가
Data synthesis and quality assessment
향후 사용을 위한 권장 계기를 결정하기 위해, Cochrane Back Review Group[36, 37]에서 제안한 최선의 증거 합성을 수행하였고, 도구의 속성 수준은 "강", "모더레이트", "제한", "충돌", "알 수 없음"으로 분류되었다(표 2). 가장 좋은 증거 합성은 고려를 위한 세 가지 측면을 결합했다:
1) 다양한 연구에서 언급된 측정 속성의 방법론적 품질,
2) 계측기의 측정 속성의 등급,
3) 각 계측기에 대한 연구 수.
In order to determine instruments for recommendation for future use, best-evidence synthesis as proposed by the Cochrane Back Review Group [36, 37] was performed, with levels of instrument properties categorized as “strong”, “moderate”, “limited”, “conflicting”, or “unknown” (Table 2). The best-evidence synthesis combined three aspects for consideration:
1) the methodological quality of the measurement property stated by various studies,
2) the rating of the measurement properties of instruments, and
3) the number of studies for each instrument.
More rating rules can be seen in Table 2.
결과
Results
문헌 검색 및 연구 선택
Literature search and study selection
선정 과정의 세부사항은 그림 1에서 확인할 수 있다.
The details of the selection process can be seen in Fig 1.
포함된 연구 및 측정도구에 대한 설명
Description of included studies and instruments
포함된 연구의 특성 요약(S2 부록)을 보면 80개 연구 중 78개가 2000년 이후 출판된 것으로 나타났다. 80% 이상의 연구가 북미와 유럽에서 수행되었다.
The summary of the characteristics of the included studies (S2 Appendix) show that 78 of the 80 studies were published after 2000. More than 80%of studies were conducted in North America and Europe,
전문성이 종합구축(n = 44)으로 인정되는지, 역량의 면(n = 30)으로 인정받는지에 따라 총 74개의 악기가 두 가지 광범위한 범주로 나뉘었다.
A total of 74 instruments were divided into two broad categories depending on whether professionalism was recognized
as a comprehensive construct (n = 44) or
as a facet of competence (n = 30).
포함된 74개 계측기의 분류는 표 3에서 확인할 수 있으며, 포함된 계측기의 자세한 내용은 S3 부록에서 확인할 수 있다.
The classification of the 74 included instruments’ classification can be seen in Table 3, and details of the included instruments can be found in the S3 Appendix.
미국내과학회(ABIM)의 이론적 프레임워크[3]에 근거하여 12개 악기를 개발하였고,
캐나다 왕립의학과외과의대학[40]에 근거한 7개 악기는 [40], 그리고
22개 악기는 모든 악기의 55.4%를 차지하는 대학원 의학교육인증위원회[41]에 근거하였다.
12 instruments were developed based on the theoretical framework of the American Board of Internal Medicine (ABIM) [3],
7 were based on the Royal College of Physicians and Surgeons of Canada (RCPSC) [40], and
22 were based on the Accreditation Council for Graduate Medical Education (ACGME) [41], accounting for 55.4%of all instruments.
포함된 연구의 방법론적 품질
Methodological quality of the included studies
내부 일관성 및 구조적 타당성은 가장 많이 보고된 측정 속성(각각 64개 연구와 54개 연구로 보고됨)인 반면,
측정 오류, 신뢰성, 기준 유효성 및 응답성은 충분히 보고되지 않았으며, 후속 연구 부족으로 인해 보고되었을 가능성이 가장 높다(표 4 참조).
Internal consistency and structural validity were the most frequently reported measurement properties (reported in 64 and 54 studies, respectively),
whereas measurement errors, reliability, criterion validity and responsiveness were not reported sufficiently, most likely due to the lack of follow-up studies (See Table 4).
표본 크기가 불충분하고 누락된 데이터를 관리하는 방법에 대한 세부 정보가 부족하여 28개 연구가 방법론적 품질에서 "공정" 또는 "불량"으로 평가되었다. 16개 연구에서 보고된 각 측정 속성은 "양호" 또는 "우수"로 평가되었다.
Inadequate sample sizes and lack of details in how missing data were managed resulted in 28 studies being rated as “fair” or “poor” in methodological quality. In 16 studies, each reported measurement property was rated as either “good” or “excellent”.
17개 연구에서는 내용 타당성이 보고되었으며, 그 중 적합성이나 포괄성이 충분히 평가되지 않았기 때문에 방법론적 품질에서 11개가 "공정" 또는 "불량"으로 평가되었다.
71개 연구 중 18개 연구에서는 가설 검정을 실시했지만, 4개 연구만 '선'으로 평가되었고, 나머지는 가설을 제시하거나 가설 기대치(효과 방향이나 크기)를 명확히 진술하지 못했다.
교차 문화의 유효성은 단지 5개의 계기에 대해 시험되었고, 이 속성에서 저조한 성과는 주로 다중 그룹 확인 인자 분석의 부족에 기인했다.
MSF 계수를 사용한 17개 연구 중 하나를 제외한 모든 연구는 내부 일관성 측면에서 저조한 성과를 보였는데, 이는 항목별 판매에 대한 크론바흐의 계수가 계산되지 않았기 때문이다.
17 studies reported content validity, of which 11 were rated “fair” or “poor” in methodological quality because relevance or comprehensiveness was not sufficiently evaluated.
18 of the 71 studies implemented hypothesis testing, but only 4 were rated as “good”, and the rest failed to propose hypotheses or to clearly state hypothesis expectations (the directions or magnitudes of the effects).
Cross-culture validity was tested for only five instruments, and poor performance in this property was mainly due to the lack of multiple-group confirmatory factor analysis.
All but one of the 17 studies using MSF instruments performed poorly with respect to internal consistency, because Cronbach’s coefficients for subscales were not calculated.
측정 품질 특성
Quality of measurement properties
계측기의 측정 특성의 품질은 Terwee의 기준 [32] (표 5)에 근거하여 평가하였다. 대부분의 계측기는 성능이 우수하였으며, 내부 일관성과 구조적 타당성에서 ("+") 긍정적인 평가를 받았다. 콘텐츠 유효성의 불확실한 결과는 주로 불충분한 정보 때문이었다. 다그룹 확정요인 분석의 부족으로, 문화간 타당성에 대한 대부분의 결과도 미확정 상태로 돌아왔다. 기준 유효성에 관하여, 두 연구에서 사용된 금 표준(즉 USMLE, 프로그램GPA)이 사실 유효한 금 표준이라는 증거는 불충분했다[97, 98]. 또한, Pearson 계기와 이러한 공인된 금 표준 간의 상관관계는 0.7 미만이므로 부정적인 결과를 나타낸다. 그 결과, criterion validity은 전반적인 측정 성능이 저조한 것으로 나타났다.
The quality of instruments’ measurement properties were assessed based on Terwee’s criteria [32] (Table 5). Most instruments performed well and were rated positively (“+”) in internal consistency and structural validity. Indeterminate results in content validity were mainly due to insufficient information. Due to the lack of multiple-group confirmatory factor analysis, most results for cross-cultural validity also returned indeterminate. As for criterion validity, there was insufficient evidence that the gold standards (i.e. USMLE, programGPA) used in two of the studies were in fact valid gold standards [97, 98]. Additionally, Pearson correlations between the instruments and these recognized gold standards were less than 0.7, signifying negative results. As a results, criterion validity displayed poor overall measurement performance.
최량증거합성
Best-evidence synthesis
최선의 증거 합성은 연구 방법론적 품질의 결과(표 4)와 계측기의 측정 속성 결과(표5)를 통합하여 표 2에 요약한 방법에 따라 수행되었다. 각 계측기의 측정 특성에 대한 성능은 표 6과 같다.
Best-evidence synthesis was performed according to the method summarized in Table 2, by integrating the results of study methodological qualities (Table 4) and the results of measurement properties of instruments (Table 5). The performances of each instrument’s measurement properties are shown in Table 6.
데이터 합성 결과에 따르면 측정 속성에서 3개의 계측기는 최소 2개의 강한 양성("++") 또는 3개의 중간 양성("+") 등급을 가졌고, 측정 속성에서 제한적이거나 음성이거나 "-", "-" 또는 "-" 등급이 없는 것으로 확인되었다.
이러한 두 가지 기구, 즉 간호학 분야의 자체 관리 등급 척도는 모두 간호학과 학생들을 위한 히사르의 기구[53]와 간호학 개업의 역할 및 역량 척도[80]이다.
세 번째로는 의대생들의 역량 측면에서의 의학적 전문성에 대한 역할 모델 평가인 PFCI(Preceived Computer Competency Competency Competency Competency Registory)이다[118].
According to the data synthesis results, 3 instruments had at least two strong positive (“+++”) or three moderate positive (“++”) ratings without any limited or negative (“-”, “-” or “-”) ratings in measurement properties and were thus identified as best-rated.
Two of these instruments, both self-administered rating scales in the nursing profession, were Hisar’s instrument for nursing students [53] and the Nurse Practitioners’ Roles and Competencies Scale (NPRCS) [80].
The third is the Perceived Faculty Competency Inventory (PFCI), a role model evaluation by medical students regarding medical professionalism as a facet of competency [118].
고찰
Discussion
2009년 이전과 2009년 이전에, 여러 기사에서 의료 전문성을 평가하는 데 사용되는 평가 도구 또는 기법을 체계적으로 검토하였다[9, 13, 15, 18]. 그러나 최근의 체계적 검토는 주로 특정 기기 유형(예: MSF)이나 특정 의료 분야에 초점을 맞춘다[30, 121].
Up and prior to 2009, several published articles systematically reviewed the assessment tools or techniques used to assess medical professionalism [9, 13, 15, 18]. However, recent systematic reviews mainly focus on a specific instrument type (eg. multisource feedback) or on a specific medical discipline [30, 121].
본 검토에서는 2008년부터 2015년까지 발표된 새로운 연구와 그에 상응하는 계측기를 포함하였으며, 연구 방법론적 품질과 보고된 계측기의 측정 특성을 분석하여 계측기의 선택과 사용을 용이하게 하기 위해 계측기의 특성을 요약하였다.
In this review, we included new studies and a corresponding instrument published from 2008 to 2015, analyzes the methodological quality of the studies and the measurement properties of the reported instruments, and summarizes the instruments’ characteristics in order to facilitate their selection and use.
직접 관찰(mini-CEX 및 P-MEX를 통한)과 수집된 견해(MSF 및 환자의 의견을 통한)는 전문성을 평가하는 데 중요한 도구로 입증되었다[9, 122]. 이러한 것들은 복수의 평가자와 다른 관점을 제공하며 평가, 신뢰성 및 객관성의 폭을 강화한다[9, 122].
그러나, 본 연구는 전문성을 평가하는 MSF 기기가 14개가 있었음에도 불구하고, 전문성을 종합 개념으로 평가하는 MSF 기기가 거의 없다는 것을 보여주었다. 또한 MSF를 사용한 18개 연구 중 17개 연구에서는 내부 일관성에 대한 "나쁜" 방법론 등급을 얻었거나 이 속성에 대해 보고하지 않았다.
Direct observations (through mini-CEX and P-MEX) and collated views (through MSF and patients’ opinions) have been demonstrated to be crucial instruments for assessing professionalism[9, 122]. These offer different perspectives from multiple assessors and would enhance the breadth of assessment, reliability, and objectivity [9, 122].
However, despite there being 14 MSF instruments assessing professionalism as a facet of competency, this study showed that there were few MSF instruments assessing professionalism as a comprehensive concept. Furthermore, 17 of the 18 studies using MSF obtained a “poor” methodology rating for internal consistency or did not report on this property.
따라서, 기존의 MSF 계측기의 방법론적 품질을 개선·향상하거나 전문성에 특화된 MSF 계측기를 더 많이 개발해야 한다는 요구가 있다. 밀러의 택사노미[123, 124, 125]는 평가 시스템 개발을 위한 템플릿으로서 의료 교육에서 평가의 상대적 위치와 사용법을 설명하기 위해 자주 사용되어 왔다. 전문성을 comprehensive construct으로 평가하는 기존 도구들도 시뮬레이션 기구가 없어 밀러의 피라미드 모델의 'show how' 수준을 보여주지 못한 반면, 역량의 한 측면a facet of competency으로서의 전문성 평가는 이 수준에서 더 나은 성능을 보였다.
Thus, there is a calling to refine and enhance the existing methodological quality of MSF instruments or to develop more MSF instruments specific to professionalism. Miller’s Taxonomy (knows, knows how, shows, and does) [123], as a template for the development of systems of evaluation [12, 124, 125], has often been used to illustrate the relative position and usage of assessment in medical education. The existing instruments assessing professionalism as a comprehensive construct also failed to demonstrate the “shows how” level of Miller’s pyramid model because of no simulation instruments, whereas assessment of professionalism as a facet of competency held better performance in this level.
그러나 이 연구에서는, 평가도구 중 의사결정을 위한 운용상 사용을 뒷받침할 수 있는 유효성 및 신뢰성에 대한 중요한 기준을 충족하는 도구는 거의 없었다. 이전의 여러 리뷰[9, 15, 18]에서는 의료전문성 평가의 새로운 방법을 개발하는 것보다 기존 측정도구의 측정 특성을 개선하는 것이 더 실용적일 수 있다는 의견을 제시하였다. 그러나 이번 연구에 포함된 도구 중 37개가 새롭게 개발되었으며, 기존 악기 대부분이 정교함이 결여되어 있었다.
However, in this study, very few of the involved instruments met the critical criteria for validity and reliability that would support their operational use for decision-making. Multiple previous reviews [9, 15, 18] have suggested that it may be more practical to improve the measurement properties of existing instruments rather than develop new measures of assessing medical professionalism. However, 37 of the instruments involved in this study were newly developed, and most of the existing instruments lacked refinement.
적절한 후속 조치가 부족하여 많은 연구에서 신뢰성과 측정 오류가 모두 무시되었다. 표 4, 5, 6에서 볼 수 있듯이, 측정 속성의 COSMIN 정의[22] 및 COSMIN 점검표 매뉴얼의 이 측정 속성 요구[127]에 근거한 어떤 연구도 측정 오류를 보고하지 않았다. 그것은 "측정할 구성의 진정한 변화에 기인하지 않는 환자 점수의 체계적이고 무작위적인 오류"로 정의되었으며, 시점 간의 분산을 고려해야 했다. 따라서 이 검토에서 포함된 연구 중 하나는 허용 가능한 측정 오류를 보고하였다.
Both reliability and measurement error were ignored in many studies due to the lack of adequate follow-up. As can be seen in Tables 4, 5 and 6, based on the COSMIN definitions of measurement properties [22] and COSMIN checklist manual’s requirement of this measurement property [127], no study reported measurement error. It was defined as “the systematic and random error of a patient’s score that is not attributed to true changes in the construct to be measured” and needed to take into account the variance between time points. Thus, in this review one of the included studies reported acceptable measurement error.
종단적 연구 부족과 그에 따른 개입이 대응성responsiveness 평가 부족의 주요 원인이다. 또한 기준 유효성criterion validity도 거의 보고되지 않았다. 전문성이 추상적인 개념이라는 게 가장 유력한 이유다. 전문직업성 평가에 합리적인 gold standard는 말할 것도 없고, 현재 전문성에 대한 보편적인 정의는 없다. 의사 신뢰[26], 팀워크[128], 커뮤니케이션 기술[129, 130], 사교 기술[131] 등 다른 많은 분야에서도 마찬가지다.
Lack of longitudinal studies and corresponding interventions are the primary reasons for the lack of evaluation of responsiveness. Additionally, criterion validity was also rarely reported. The most likely reason is that professionalism is an abstract concept. There is currently no universal definition of professionalism, not to mention a reasonable gold standard for its assessment. This is also the case in many other fields, such as trust in physicians [26], teamwork [128], communication skills [129, 130], and social skills [131].
최량증거 합성의 요약에서 보듯이 모든 측정 속성에 대해 측정 기구를 시험한 적은 없지만, 간호학과 학생들을 위한 히사르의 계측기 [53], NPRCS [80], PFCI [118] 등 세 가지 계측기는 방법론적 품질과 측정 속성 모두에서 더 나은 성능을 보였다. 앞의 두 개의 자기보고식 등급 척도는 밀러의 택사노미의 "knows" 수준과 "knows how" 수준에 속했다. 이것은 밀러의 피라미드 모델의 높은 인지 수준에 대한 의료 전문성을 평가하는 도구와 고품질 연구의 필요성을 강조한다. 더욱이 3가지 권장기구 중 2개는 간호사의 전문성을 평가한 반면 3번째 기구는 의대생을 대상으로 했다. 이것들은 의사와 같은 다른 의료 하위 분야의 전문성을 평가하는 기구의 개발 또는 개선을 위해 참조될 수 있다.
As seen in the summary of best-evidence synthesis, no measurement instrument had been tested for all measurement properties, but three instruments—Hisar’s instrument for nursing students [53], the NPRCS [80], and the PFCI [118]—had better performance in both methodological quality and measurement properties. The former two self-administered rating scales belonged to the “knows” and “knows how” levels of Miller’s Taxonomy. This highlights the need for high-quality studies and for instruments that assess medical professionalism on higher cognitive levels of Miller’s Pyramid Model. Moreover, two of three recommended instruments assessed professionalism in nurses, while the third instrument targeted medical students. These could be referenced for the development or improvement of instruments assessing professionalism in other medical subfields, such as physicians.
결론
Conclusion
측정도구는 도구 사용 및 대상 모집단이 다양했지만, 측정 속성의 성능 및 해당 연구의 방법론적 품질이 다양했다. 구체적으로는 적절한 후속 조치가 미흡하여 많은 연구에서 신뢰성과 측정 오류가 무시되었고, 종적 연구와 그에 상응하는 개입이 부족하여 응답성이 거의 보고되지 않았다. 보고된 척도의 속성에서, 내용타당도와 준거타당도는 부정적이거나 불확실한 등급이 더 많아 계측기의 사용과 평가결과의 유의성을 제한할 수 있었다.
The instruments were diverse in tools’ use and target population, but the performance of their measurement properties and the methodological quality of the corresponding studies were varied. Specifically, reliability and measurement error were ignored in many studies due to the lack of adequate follow-up, and responsiveness was rarely reported due to lack of longitudinal study and corresponding intervention. For the measurement properties that were reported, content validity and criterion validity had more negative or indeterminate ratings, which would limit the usage of the instruments and the significance of assessment results.
9. Wilkinson TJ, Wade WB, Knock LD. A blueprint to assess professionalism: results of a systematic review. Acad Med. 2009; 84: 551–558. https://doi.org/10.1097/ACM.0b013e31819fbaa2 PMID: 19704185
19. Goldie J. Assessment of professionalism: a consolidation of current thinking. Med Teach. 2013; 35: e952–956. https://doi.org/10.3109/0142159X.2012.714888 PMID: 22938675
Assessing medical professionalism: A systematic review of instruments and their measurement properties
- PMID: 28498838
- PMCID: PMC5428933
- DOI: 10.1371/journal.pone.0177321
Abstract
Background: Over the last three decades, various instruments were developed and employed to assess medical professionalism, but their measurement properties have yet to be fully evaluated. This study aimed to systematically evaluate these instruments' measurement properties and the methodological quality of their related studies within a universally acceptable standardized framework and then provide corresponding recommendations.
Methods: A systematic search of the electronic databases PubMed, Web of Science, and PsycINFO was conducted to collect studies published from 1990-2015. After screening titles, abstracts, and full texts for eligibility, the articles included in this study were classified according to their respective instrument's usage. A two-phase assessment was conducted: 1) methodological quality was assessed by following the COnsensus-based Standards for the selection of health status Measurement INstruments (COSMIN) checklist; and 2) the quality of measurement properties was assessed according to Terwee's criteria. Results were integrated using best-evidence synthesis to look for recommendable instruments.
Results: After screening 2,959 records, 74 instruments from 80 existing studies were included. The overall methodological quality of these studies was unsatisfactory, with reasons including but not limited to unknown missing data, inadequate sample sizes, and vague hypotheses. Content validity, cross-cultural validity, and criterion validity were either unreported or negative ratings in most studies. Based on best-evidence synthesis, three instruments were recommended: Hisar's instrument for nursing students, Nurse Practitioners' Roles and Competencies Scale, and Perceived Faculty Competency Inventory.
Conclusion: Although instruments measuring medical professionalism are diverse, only a limited number of studies were methodologically sound. Future studies should give priority to systematically improving the performance of existing instruments and to longitudinal studies.
'Articles (Medical Education) > 평가법 (Portfolio 등)' 카테고리의 다른 글
의학교육에서 오픈북평가: 지금이 적기다 (Med Teach, 2020) (0) | 2020.09.22 |
---|---|
CBME를 위한 평가 진주(J Grad Med Educ, 2017) (0) | 2020.09.22 |
맥락특이성 (When I say ...) (Med Educ, 2014) (0) | 2020.09.14 |
학생평가에 성찰적 글쓰기 사용시 고려사항: 신뢰도와 타당도(Med Educ, 2015) (0) | 2020.08.06 |
프로그램적평가의 이론적 고려사항(Med Teach, 2020) (0) | 2020.03.24 |