머신러닝: 의학교육의 다음 패러다임 시프트(Acad Med, 2021)
Machine Learning: The Next Paradigm Shift in Medical Education
Cornelius A. James, MD, Kevin M. Wheelock, MD, and James O. Woolliscroft, MD

 

머신러닝(ML)은 데이터 간의 관계를 선험적으로 정의할 필요 없이 학습하는 인공지능(AI)의 한 형태다. ML은 팝업 광고를 추진하고, 아마존에서 구매를 제안하며, 자동화된 주식 거래 자금을 운영하고, 날씨를 예측하고, 다른 많은 작업을 수행합니다. 놀랄 것도 없이, ML의 임상 응용은 집중적인 개발의 초점이다. 예를 들어, 최근 미국 방사선과 대학 데이터 과학 연구소는 의료 영상과 관련된 미국 식품의약국(FDA)이 승인한 ML 알고리즘 48개를 열거했다.  ML 임상 프로그램의 고도화를 나타내는 것으로, 2018년 FDA는 당뇨병 망막병증 검출을 위해 안저 카메라인 IDx-dr과 결합된 최초의 자율 ML 시스템을 승인했다. ML에 대한 임상 응용 프로그램은 이미지 분석 이상으로 확장되었습니다. ClinicalTrials.gov은 진단에서 원하는 건강한 행동 강화에 이르는 광범위한 응용 분야에서 ML을 사용한 1,000개 이상의 연구를 나열합니다. 최근 ML 알고리듬은 COVID-19 양성 환자의 생명 징후를 실시간으로 모니터링하여 악화를 예측하고 결과를 개선하기 위해 조기에 개입을 시작하는 데 사용되고 있다. ML이 의료에 점점 더 통합됨에 따라, 의학교육자는 [임상의가 (적용 가능성을 결정하기 위해 마케터의 말에 의존하기보다는) ML 제품의 정교한 "소비자"가 될 수 있도록 지식 갖추게끔 하는 것]이 무엇보다 중요하다.

Machine learning (ML) is a form of artificial intelligence (AI) that learns the relationships between data without the need to define them a priori. ML drives pop-up ads, suggests purchases on Amazon, runs automated stock trading funds, predicts the weather, and performs many other tasks. Not surprisingly, clinical applications of ML are a focus of intense development. For example, recently, the Data Science Institute of the American College of Radiology listed 48 U.S. Food and Drug Administration (FDA)-approved ML algorithms related to medical imaging. 1 Indicative of the increasing sophistication of ML clinical programs, in 2018, the FDA approved the first autonomous ML system coupled with a fundus camera, IDx-dr, for the detection of diabetic retinopathy. Clinical applications for ML have expanded beyond image analysis; ClinicalTrials.gov lists over 1,000 studies employing ML across a broad spectrum of applications ranging from diagnosis to enhancing desired healthy behaviors. 2 Recently, ML algorithms have been used to monitor the vital signs of COVID-19-positive patients in real time to predict deterioration and to initiate interventions earlier to improve outcomes. 3 As ML is increasingly integrated into health care, it is of paramount importance that medical educators equip clinicians with the knowledge to be sophisticated “consumers” of ML products rather than dependent on the word of marketers to determine applicability.

보급률과 중요성은 증가하고 있지만 ML에서 파생된 알고리듬은 임상 실습이나 의학 교육에서 표준과 거리가 멀다. 의학에서 ML을 사용하는 윤리에 대한 의문이 있다. ML에 대한 의존도가 높아짐에 따라 의사 기술이 침식될지 여부 및 ML이 의사-환자 관계에 부정적인 영향을 미치거나 일부 의사를 완전히 대체할 가능성이 있다. 책임 위험, 지급 메커니즘 및 격차의 영속성과 관련된 우려는 실제로 ML 알고리듬을 더 폭넓게 수용하고 사용하지 않는 데 기여했다. ML의 역할과 가치에 대한 임상의와 교육자들의 불확실성에는 종종 회의론이 뒤따른다. 이러한 회의론의 대부분은 [ML이 무엇이고 임상 의사 결정에서 ML이 보완적 역할을 해야 하는지에 대한] 이해 부족 때문이다. 정밀 검사는 환자에게 최적의 치료를 제공하기 위해 필요하며, 무비판적인 수용이나 무관심은 피해야 한다.
Although growing in prevalence and importance, ML-derived algorithms are far from standard in clinical practice or in medical education. There are questions about the ethics of using ML in medicine: whether physician skills will erode with more reliance on ML as well as the potential for ML to negatively affect the physician–patient relationship or replace some physicians completely. 4,5 Concerns related to liability risks, payment mechanisms, and perpetuation of disparities have also contributed to the lack of broader acceptance and use of ML algorithms in practice. Clinicians’ and educators’ uncertainty as to the role and value of ML is often followed by skepticism. Much of this skepticism is due to a lack of understanding of what ML is and the complementary role it should play in clinical decision making. Scrutiny is necessary to provide optimal care for patients; uncritical acceptance or apathy must be avoided.

데이터 중심 환자 관리
Data-Driven Patient Care

의료 분야에서 ML의 미래를 도표화하는 데 있어 [증거 기반 의학(EBM) 운동]에서 배워야 할 교훈이 있다. 1990년대에 맥마스터 대학의 임상 역학자들은 의학의 관행을 객관적이고 과학적인 사업으로 바꾸는 것을 포함하는 패러다임 전환을 요구했다. 그들은 연구 설계, 역학 및 생물 통계의 연구 주제를 임상 치료의 최전선에 가져오고 임상의가 의학 문헌을 비판적으로 평가할 수 있도록 하는 방법을 설명했다. 이 스킬 세트는 임상의가 발표된 연구를 소비자에게 알리고 훈련 중에 획득한 전문가 의견이나 구식 정보에만 의존하지 않도록 하기 위해 고안되었습니다. 이 급진적인 생각은 저항에 부딪혔다. "모든 것을 아는" 주치의의 의견이 최선의 관행이라는 위계가 엄격한 시기에 나왔기 때문이다. 한때 참신하고 추상적인 개념이었던 EBM은 이제 고품질의 환자 치료를 위해 필수적인 것으로 간주되며 의학 교육의 주요 요소이다. 우리는 ML이 임상 실습에서 추상화에서 광범위한 적용으로 이동함에 따라 유사한 경로를 따를 것으로 기대한다.
In charting the future of ML in health care, there are lessons to be learned from the evidence-based medicine (EBM) movement. In the 1990s, clinical epidemiologists at McMaster University called for a paradigm shift that would include changing the practice of medicine into an objective, scientific enterprise. 6 They described a method to bring research topics in study design, epidemiology, and biostatistics to the front line of clinical care and equip clinicians to critically assess medical literature. This skill set is designed to help clinicians be informed consumers of published research and avoid relying solely on expert opinion or outdated information acquired during training. This radical idea was met with resistance as it came at a time when hierarchy, and the opinion of the “all-knowing” attending physician, were considered best practice. EBM, once a novel and abstract concept, is now deemed essential for high-quality patient care and is a staple in medical education. We expect ML to follow a similar path as it moves from abstraction to widespread application in clinical practice.

EBM과 ML은 실질적인 유사점을 공유한다. 진단, 예후 및 치료 결정을 알리기 위해 일반적으로 사용되는 예측 도구인 [임상 예측 규칙(CPR)]을 떠올려보라. 예시적인 예로는 CHADS2(울혈성 심부전, 고혈압, 75세 이상, 당뇨병, 허혈성 뇌졸중 전) 점수가 있다. 심방세동이 있는 환자의 뇌졸중 위험을 예측하고 항응고 결정을 내리는 데 널리 사용되었다. 이 CPR의 개발에는 엄격한 증거 기반 단계적 프로세스가 수반되었습니다.
EBM and ML share practical similarities. Consider clinical prediction rules (CPRs), which are predictive tools commonly used to inform diagnostic, prognostic, and therapeutic decisions. An illustrative example is the CHADS2 (congestive heart failure, hypertension, age ≥ 75 years, diabetes mellitus, prior ischemic stroke) score. It was widely used to predict the risk of stroke in patients with atrial fibrillation and guide decisions about anticoagulation. Development of this CPR involved a rigorous, evidence-based, stepwise process 7:

  • 도출 : 예측력을 이용한 진단검사, 이력, 신체검사 인자 파악
  • 좁은 검증과 넓은 검증: 처음에는 규칙이 파생 환경과 유사한 환경과 모집단에 적용되지만, 결국에는 다양한 임상 환경과 모집단에 적용됩니다.
  • 영향 분석: 규칙을 의사가 사용하고 환자 결과를 개선하며 비용을 절감한다는 것을 입증합니다.
  • Derivation: identification of diagnostic tests, history, and physical examination factors with predictive power
  • Narrow and broad validation: initially, the rule is applied in a setting and population similar to those in derivation, but eventually it is applied in varying clinical settings and populations
  • Impact analysis: demonstration that the rule is used by physicians, improves patient outcomes, and/or decreases costs


시간이 흐르면서 전문가들은 CHADS2 점수가 다른 중요한 위험요인을 고려하지 않았다는 우려를 나타냈다. 이로 인해 CHA2DS2-VASC(울혈성 심부전, 고혈압, 75세 이상, 당뇨병, 이전 허혈성 뇌졸중, 혈관 질환, 65-74세 이상, 성별) 점수가 개발되어 뇌졸중 위험을 보다 정확하게 평가할 수 있게 되었다. 이 시퀀스는 ML 알고리즘을 개발하는 데 사용되는 교육, 조정 및 검증 프로세스와 유사합니다. 마찬가지로 ML 모델은 더 많은 정보나 데이터를 사용할 수 있게 되면 정기적으로 재평가되고 수정되어야 한다. 그렇지 않으면 시대에 뒤떨어지고 무효화되며 무용지물이 될 위험이 있다.
With time, experts expressed concerns that the CHADS2 score did not consider other important risk factors. This led to development of the CHA2DS2-VASc (congestive heart failure, hypertension, age ≥ 75 years, diabetes, prior ischemic stroke, vascular disease, age of 65–74 years, sex) score, which provides a more accurate assessment of stroke risk. This sequence is comparable to the training, tuning, and validation process used to develop ML algorithms. Similarly, ML models must be regularly reevaluated and revised as more information or data are made available, or else they risk becoming outdated, invalid, and useless.

EBM은 임상 의학이 실행되는 방식에 근본적인 변화를 촉진했다. 우리는 ML에서 파생된 알고리듬이 의료에도 극적인 변화를 주도할 것으로 기대한다. 게놈 및 생리학적 바이오마커 결정과 강력한 계산 프로그램의 결합은 개인에 맞는 치료인 [정밀 의료]의 시대를 열었다. 진단 및 치료 옵션 선택에 상당한 영향을 미친 종양학에서 가장 발전된 것으로 추정되지만, 이 접근법은 지속적으로 증가하는 질병 스펙트럼에 적용되고 있다. 진정으로 개인화된 정밀 의료의 잠재력이 점점 더 현실화되고 있다. 개인화, 예측, 예방 및 참여형, 또는 "P4 의학"으로 구상되는 새로운 모델에 통합되고 있다. 정밀 및 예측 의학 개발의 중심은 ML로, 수백 또는 수천 개의 변수와 대규모 데이터 세트를 기반으로 복잡한 관계를 식별하는 수학적 접근 방식이다. 정밀의학과 예측의학의 잠재력이 점차 실현되고 있는 가운데 ML은 이미 특정 애플리케이션에 대한 수백 또는 수천 개의 알고리듬을 개발하는 데 사용되었다. ML은 매우 개별화된 방식으로 의사 결정을 강화하고 다양한 임상 상황에서 보완적인 역할을 할 수 있는 잠재력을 가지고 있다.
EBM has facilitated fundamental changes in the way clinical medicine is practiced. We anticipate that ML-derived algorithms will also drive dramatic changes in health care. The coupling of genomic and physiologic biomarker determinations with powerful computational programs has ushered in the era of precision medicine, care tailored to the individual. While arguably most advanced in oncology, where it has had a significant impact on diagnosis and the choice of therapeutic options, this approach is being applied across an ever-growing spectrum of diseases. Increasingly, the potential of truly individualized, precision medicine is becoming a reality. It is being incorporated in a new model that is envisioned as personalized, predictive, preventive, and participatory, or “P4 medicine.” 8–10 Central to the development of precision and predictive medicine is ML, an array of mathematical approaches to identify complex relationships based on hundreds or thousands of variables and massive datasets. While the potential of precision and predictive medicine is gradually being realized, ML has already been used to develop hundreds or thousands of algorithms for specific applications. ML has the potential to augment decision making in a highly individualized way and play a complementary role in a variety of clinical situations.

[EBM을 효과적으로 실천]하려면, 환자를 돌볼 때 EBM을 어떻게 사용해야 하는지 이해해야 한다. 마찬가지로 임상 치료에서 [ML 알고리듬의 역할과 적용 가능성]에 대한 충분한 이해가 없는 경우 이는 환자 결과에 부정적인 영향을 미칠 수 있다. EBM에 대한 이전의 비판은 그것이 "요리책cookbook" 의료라는 것이었다. 다시 말해, 비평가들은 (EBM에 대하여) [임상 전문 지식이나 환자 환경을 평가절하하거나 심지어 무시]하게 될 [medicine에 대한 일률적인 접근법]에 대해 우려했다. 마찬가지로 ML 애플리케이션을 사용할 때 불균형을 영구화할 수 있는 사회적 편견과 같은 문제를 피하기 위해 ML의 적절한 사용에 대한 이해가 필요하다. ML 알고리즘의 무비판적 적용을 피하여 suboptimal한 환자 치료를 피해야 한다.
The effective practice of EBM requires an understanding of how it should be employed when caring for patients. Likewise, if there is not an adequate understanding of the role and applicability of ML algorithms in clinical care, this could negatively affect patient outcomes. A prior criticism of EBM was that it was “cookbook” medicine. In other words, critics were concerned about a one-size-fits-all approach to medicine that would devalue, or even ignore, clinical expertise or patient circumstances. Similarly, an understanding of the appropriate use of ML is required to avoid problems such as social bias, which could perpetuate disparities when using ML applications. 11 Uncritical application of ML algorithms should be avoided to avoid suboptimal patient care.

데이터 인식 의사를 위한 기술
Skills for the Data-Aware Physician

[치료적 개입을 개발]하거나 [임상 실험을 설계]하거나 [ML 모델을 구축]하는 의사는 거의 없다. 그러나 모든 의사는 자신의 환자와 관련된 문헌을 효과적으로 획득, 평가 및 적용할 수 있어야 한다. 여기에는 ML에서 파생된 알고리즘 연구가 포함된다. 환자 치료에 영향을 미칠 수 있는 모든 개입과 마찬가지로 ML 모델은 효과와 안전성의 증거를 보여주기 위해 경험적 연구 연구를 통해 평가되어야 한다. [EBM의 기본 원리]는 ML 유래 모델을 포함한 고전적인 임상 연구와 연구에도 적용할 수 있다.

  • 연구 결과가 타당한가? 
  • 결과가 환자에게 적용/일반화될 수 있습니까? 
  • 연구 설계(예: 무작위 대조 시험, 코호트 연구, 사례-대조군 연구)가 질문 유형(예: 진단, 예후, 치료)에 적합한가?

Few physicians will ever develop a therapeutic intervention, design a clinical trial, or build an ML model. However, all physicians should be able to effectively acquire, appraise, and apply literature that is relevant to their patients; this includes studies of ML-derived algorithms. As with any intervention that may affect patient care, ML models must be evaluated with empirical research studies to show evidence of efficacy and safety. Basic tenets of EBM are applicable to classic clinical studies and studies including ML-derived models.

  • Are the results of the study valid?
  • Are the results applicable/generalizable to my patient(s)?
  • Is the study design (e.g., randomized controlled trial, cohort study, case–control study) appropriate for the type of question asked (e.g., diagnosis, prognosis, therapy)?

ML을 사용한 연구는 다음과 같은 [추가 질문]과 함께 제공됩니다. 

  • 시험/훈련 데이터의 양이 적절한가? 
  • 데이터셋 간에 중복되는 부분이 있습니까? 
  • 모델이 외부 데이터 세트에서 추가로 검증되었습니까? 
  • 이 알고리즘은 어떤 gold standard와 비교되고 있는가? 

Studies using ML come with additional questions:

  • is the amount of testing/training data adequate?
  • Is there any overlap between those datasets?
  • Was the model further validated on an external dataset?
  • To what gold standard is the algorithm being compared? 

이것들은 ML에 대한 임상 응용 프로그램을 평가할 때 임상의가 준비해야 할 몇 가지 질문들 중 일부에 불과하다. 
These are but a few of the questions clinicians need to be prepared to ask when evaluating clinical applications for ML. 12

ML 알고리즘 설계 및 배치에서 발언권을 가지려면 [임상의]가 [데이터 과학자]와 효과적으로 소통해야 한다. 의학이 그렇듯, ML 분야는 초보자들이 이해하기 어려운 언어로 가득 차 있다. 예를 들어, 많은 숨겨진 레이어가 있는 인공 신경망을 포함하는 "딥 러닝"은 올바른 임상 환경에서 다른 ML 접근 방식에 비해 상당한 성능 이점을 제공할 수 있다. 언뜻 보기에는 [딥 러닝을 사용하는 알고리즘]이 [딥러닝이 없는 알고리즘]보다 항상 선호되는 것처럼 보일 수 있다. 그러나 이러한 성능 향상은 알고리즘을 진정한 "블랙박스"로 바꾸는 비용을 수반한다. 숨겨진 레이어가 많은 복잡한 신경망은 [주어진 입력 집합]이 모델의 [아웃풋에 어떻게 영향을 미치는지 완전히 이해하는 것]을 (불가능하지는 않더라도) 어렵게 만든다. 이해할 수 있는 것은, 특히 의사가 모델의 권고에 동의하지 않을 때, 일부 임상의와 환자가 모델의 작동 방식을 이해할 수 없을 때 모델을 신뢰하지 않을 수 있다는 것이다.
To have a voice in the design and deployment of ML algorithms clinicians will need to communicate effectively with data scientists. As with medicine, the field of ML is packed with language that is puzzling to the uninitiated. For instance, “deep learning,” which involves artificial neural networks with many hidden layers, can offer significant performance benefits over other ML approaches in the correct clinical setting. At first glance, it may seem that an algorithm using deep learning is always preferable to one without it. However, this performance improvement comes at the cost of turning the algorithm into a true “black box.” Complex neural networks with many hidden layers make it difficult, if not impossible, to fully understand how a given set of inputs influences the outputs of a model. 13 Understandably, some clinicians and patients may not trust a model when they are unable to comprehend how it works, especially when the physician disagrees with the recommendation of the model.

의사는 또한 [ML 모델을 유효하고 유용하게 만드는 것]이 무엇인지 이해해야 한다. 예를 들어 앞에서 언급한 IDx-dr 모델은 다음 표준을 충족했습니다.
Physicians must also appreciate what makes an ML model valid and useful. For example, the previously mentioned IDx-dr model met the following standards:

  • 풍부한 훈련 데이터: 임상 시험에서 평가하기 전에, IDx-dr 알고리즘은 당뇨병성 망막병변 병변의 100만 개 이상의 사진을 사용하여 훈련되고 검증되었습니다. 일반적으로 ML 알고리듬은 수천 개의 데이터 포인트에 대해 훈련되어야 신뢰할 수 있다.
  • 잘 정의된 인풋: 알고리즘에 대한 입력인 안저 이미지는 환자와 기관에 걸쳐 고도로 표준화된다. 알고리즘이 주관적인 데이터 소스에서 수집된 입력에 의존할 때 알고리즘의 유효성은 어려움을 겪을 수 있다.
  • 명확한 gold standard의 존재: 이 알고리듬은 표준화된 채점 시스템을 사용하여 전문가 그룹의 해석에 대해 테스트하여 널리 받아들여지는 임상 표준과 일치하는지 확인했다.
  • 단순 예측을 넘어서는 목적: 알고리즘의 결과, 당뇨병 망막증의 유무는 임상적으로 의미가 있다.
  • Abundance of training data: Before evaluation in a clinical trial, the IDx-dr algorithm was trained and validated using over 1 million photographs of diabetic retinopathy lesions. Generally, ML algorithms need to be trained on thousands of data points to be reliable.
  • Well-defined inputs: The input to the algorithm, fundus images, is highly standardized across patients and institutions. When algorithms rely on inputs gathered from a subjective data source, the validity of the algorithm may suffer.
  • Presence of a clear gold standard: The algorithm was tested against the interpretation of a group of experts using a standardized scoring system, to ensure it agreed with widely accepted clinical standards.
  • Purpose beyond prediction: The result of the algorithm, presence or absence of diabetic retinopathy, is clinically meaningful.


마지막으로, 의사는 알고리즘의 성능이 임상 의사 결정에 통합하는 방법에 영향을 미치도록 허용해야 한다. ML 모델의 성능을 개념적으로 이해하기 위해서는 학습자가 [통계적 기반]이 필요하다. ML 문헌에는 EBM에서 일반적으로 사용되는 통계 개념과 약간 다르지만 개념적으로 관련이 있는 몇 가지 통계 개념이 포함되어 있다. 예를 들어, 양의 예측 값은 수학적으로 ML 용어의 정밀도와 동일합니다. 마찬가지로, 민감도는 리콜과 동일합니다. ML 모델 성능은 정밀도 및 회수로부터 도출된 F1 통계량을 사용하여 평가되는 경우가 많다. 이는 민감도와 특수성에서 도출된 수신기 작동 특성 곡선 아래의 면적과 유사하다. 이러한 통계는 임상 의사 결정에 지대한 영향을 미칠 수 있는 고유한 방법으로 성과를 측정합니다.

Finally, physicians must allow the performance of an algorithm to influence how they integrate it into clinical decision making. To conceptually understand the performance of ML models, learners need a foundation in statistics. ML literature contains some statistical concepts that are slightly different from, but conceptually related to, those commonly used in EBM. For instance, positive predictive value is mathematically equivalent to precision in ML parlance. Similarly, sensitivity is equivalent to recall. ML model performance is often assessed using the F1 statistic, which is derived from precision and recall. This is analogous to the area under the receiver operating characteristic curve, which is derived from sensitivity and specificity. These statistics measure performance in unique ways that can have a profound impact on clinical decision making.

지금이 바로 그 때다
The Time Is Now

의료 분야의 ML은 빠른 속도로 발전하고 있으며, 의사가 있든 없든 그렇게 하는 것으로 보입니다. 수많은 스타트업이 환자의 건강 증진을 약속하며 ML 기반 제품을 개발했다. 이로 인해 사업화에 대한 우려와 개발자들이 이익을 얻으려 할 때 발생할 수 있는 잠재적인 윤리적 문제로 이어졌다. 민간 기업이 점점 더 많은 양의 환자 데이터를 수집함에 따라, 일부 환자와 의사들은 누가 이러한 데이터를 실제로 소유하고 있으며, 그들이 무엇에 사용되는지, 그리고 데이터베이스가 가해자에 의해 해킹되었을 때 누구의 잘못인지 의문을 제기해왔다. 정보 기술자는 환자 정보 보호에 있어 자신이 수행하는 핵심 역할에 대한 책임을 져야 한다. 제약업계와 마찬가지로 의료 분야에서도 ML과 관련된 이해관계자가 많다. 서로 다른 이해관계자의 가치가 항상 일치하지는 않기 때문에 어떤 형태의 거버넌스와 규제가 필요하다. 아마도 우리는 유해한 알고리즘이 실제로 사용하도록 승인되지 않도록 하기 위해 정부 감독 기관이 개발되는 것을 보기 시작할 것이다. 교육자, 정책 입안자 및 일선 임상의와 같은 의사는 의학에서 ML과 관련된 윤리적 우려에 대한 안전장치 역할을 할 수 있는 독특한 위치에 있다. 우리가 환자를 보호해야 할 책임을 다하려면 이 맨틀을 차지해야 한다.
ML in health care is moving forward at a rapid pace, and it appears to be doing so with or without physicians. Numerous startups have developed ML-driven products promising to improve the health of patients. This has led to concerns about commercialization and potential ethical issues that may follow as developers attempt to profit. As private companies collect ever-increasing amounts of patient data, some patients and physicians have questioned who actually owns these data and determines what they are used for, and who is at fault when databases are hacked by perpetrators. Information technologists must be held accountable for the key role that they play in the protection of patient information. Similar to the pharmaceutical industry, there are many stakeholders involved in ML in health care. The values of different stakeholders are not always aligned, which makes some form of governance and regulation necessary. Perhaps we will begin to see government oversight agencies developed to ensure that harmful algorithms are not approved for use in practice. Physicians as educators, policy makers, and frontline clinicians are uniquely positioned to serve as safeguards against the ethical concerns related to ML in medicine. We must take up this mantle if we are to fulfill our responsibility to protect our patients.

의료계는 개인 차원에서도, 시스템 차원에서도 강력한 증거 기반이 있는 경우조차 변화에 적응하거나 새로운 권고안을 실행에 옮기는 속도가 느리다. 의학 교육도 비슷하게 뒤처지는 경우도 너무 흔하다. 학습자들, 그리고 더 나쁜 것은, 환자들이 의심할 여지 없이 이것 때문에 고통받았다는 것입니다. 수많은 의사들이 증거를 효과적으로 획득하고, 해석하고, 적용할 수 없는 상태에서 계속 연습하고 있다. 병동과 클리닉에 입학하는 현재 학습자들은 EBM에 확고한 기반이 없을 수 있는 의사들로부터 교육을 받고 있다. EBM은 의학 교육에서 확고한 기반을 가지고 있기 때문에, 미래 세대의 의사들이 교수 역할을 맡게 됨에 따라 개선될 가능성이 있다. 우리는 이러한 기술의 채택이 더 널리 퍼지기 전에 ML을 의료 커리큘럼에 능동적으로 통합함으로써 의학에서 ML에 대한 동일한 운명을 피할 수 있다. 이를 통해 새로운 의사가 ML 알고리듬에 참여하고 비판적으로 평가할 수 있다. 이들은 수동적 수급자가 아닌 ML을 의료에 통합하는 과정에서 적극적인 참여자가 될 것이다.

The medical community, on an individual level and a systems level, is slow to adapt to change or put new recommendations into practice even when they are based on strong evidence. 14 Too frequently medical education similarly lags. Learners, and worse, patients have undoubtedly suffered because of this. Countless physicians continue to practice with an inability to effectively acquire, interpret, and apply evidence. Current learners entering the wards and clinics are receiving instruction from physicians who may not have a solid foundation in EBM. Because EBM has a firm footing in medical education, this is likely to improve as future generations of physicians assume teaching roles. We can avoid this same fate for ML in medicine by proactively integrating ML into medical curricula before adoption of these technologies becomes more widespread. This will enable newer physicians to be ready to engage with and critically evaluate ML algorithms. They will be active participants in the process of integrating ML into health care rather than passive recipients.

대학원 의학 교육 인증 위원회, 의학 교육 연락 위원회 및 미국 의학 전문 위원회와 같은 조직은 의사가 실제로 ML 알고리즘을 적절하게 사용할 수 있도록 하기 위한 역량 개발에 착수해야 한다. 미국 의학 대학 협회와 미국 의학 협회는 의학 교육자들에게 현재와 미래의 의사들에게 AI 교육 프로그램을 제공할 것을 요구했다. 이 요청에 응답하고 기존 커리큘럼을 다시 생각해 볼 책임은 우리에게 있습니다. 데이터 중심 환경에서 의사가 실습할 수 있도록 가장 잘 교육하고 훈련하는 방법에 대한 결정이 내려져야 합니다.
Organizations such as the Accreditation Council for Graduate Medical Education, Liaison Committee on Medical Education, and American Board of Medical Specialties must begin to develop competencies to ensure that physicians are capable of appropriately using ML algorithms in practice. The Association of American Medical Colleges and the American Medical Association have called on medical educators to provide AI educational programming to current and future physicians. The onus is on us to answer this call and reimagine existing curricula. Decisions about how to best educate and train physicians to practice in a data-driven environment must be made.

ML을 커리큘럼에 통합
Integration of ML Into Curricula

ML 모델 설계의 수학적 및 기술적 복잡성을 고려할 때 모든 의사가 ML 전문가가 되기를 기대하는 것은 비현실적이다. 대신 학습자가 ML 알고리듬의 결과를 이해하고 임상 의사 결정에 통합하는 데 도움이 되는 높은 수준의 원칙에 초점을 맞춰야 한다. 이를 위해 학습자는

  • ML 분야에서 사용되는 전문 용어를 숙지하고 이해해야 하며,
  • ML이 해결에 가장 유용한 임상 문제의 유형을 인식하고
  • 다양한 유형의 모델의 성능 절충trade-off을 식별할 수 있어야 한다.

Given the significant mathematical and technical complexity of designing ML models, it is unrealistic to expect all physicians to become ML experts. Instead, focus should be on high-level principles that help learners understand and incorporate the outputs of ML algorithms into clinical decision making. To do so, learners should

  • be conversant with and understand the jargon used in the ML field,
  • recognize the types of clinical problems ML is most useful for solving, and
  • be able to identify the performance trade-offs of different types of models.

이를 위해 ML 콘텐츠를 기존 커리큘럼과 교육 프로그램에 신중하게 통합할 것을 제안한다. EBM과 ML 사이의 고유한 중복과 유사성을 고려할 때, ML 콘텐츠는 EBM 커리큘럼에 잘 맞을 것이다. 예를 들어, 진단 및 궁극적으로 치료 결정을 돕기 위해 사용되는 모든 도구와 마찬가지로 ML 진단 알고리듬은 사전 연구에서 골드 표준과 비교되어야 하며, 이 연구는 비판적으로 평가되어야 한다. 또한 ASCVD 위험 점수와 같은 심폐소생술에 대해 배울 때 위험 예측에 도움이 되는 ML 알고리즘의 사용에 대해 배우는 것도 마찬가지로 유익할 것이다. 예를 들어, COVID-19 양성 테스트의 위험을 예측하는 것입니다. 

To that end, we propose thoughtful integration of ML content into existing curricula and educational programming. Given the inherent overlap and similarities between EBM and ML, ML content would fit nicely into EBM curricula. For example, as with any tool used to aid in diagnostic and, ultimately, treatment decisions, an ML diagnostic algorithm must be compared with a gold standard in a prospective study, and this study must be critically appraised. Also, when learning about CPRs such as the ASCVD risk score, it would be equally beneficial to learn about the use of ML algorithms that aid in predicting risk; for example, predicting the risk of a positive COVID-19 test. 15,16 

ML 콘텐츠는 "Doctoring" 및 임상 기술 과정과 수평적으로 통합되어야 한다. 이렇게 하면 내용을 임상적으로 유지하고 학습자가 중심이 되어 학습자가 ML에 수반될 수 있는 과대 광고를 무시하고, ML의 적절한 사용을 인식하도록 교육하고, 환자를 돌보는 툴킷의 도구로 볼 수 있다. 교실에서는 개념이 너무 자주 중요하게 여겨지지만 병동과 클리닉에서는 이러한 개념의 활용이 입증되지 않는다. 다시 말해, 숨겨진 커리큘럼이 자리를 잡고, 학습자들은 의학의 특정 측면을 평가절하한다. 왜냐하면 이것이 그들이 실제로 "진짜 의사들"이 하는 것을 보기 때문이다(의식적이든 무의식적이든). 옛 속담에 있듯이: 
"행동이 말보다 더 크게 말한다." 이것은 ML을 실제로 적용하고 효과적으로 가르칠 수 있도록 의사를 의도적으로 훈련시키는 것의 중요성을 분명히 한다. 이러한 수직적 통합은 환자 치료에서 ML의 가치와 중요성을 강화하고 실제로 ML 프로그램을 효과적으로 사용하는 데 필요한 기술의 추가 개발로 이어질 가능성이 높다. 수직적 통합은 의사 경력에 걸친 적절한 종단적 통합에서만 발생할 것이며, 이는 지속적인 의학 교육과 교수 개발 프로그램의 형태로 이루어져야 한다.

ML content should be horizontally integrated with “Doctoring” and clinical skills courses. This would keep the content clinically based and learner centered to train learners to ignore the hype that can accompany ML, recognize the appropriate use of ML, and view it as a tool in their toolkit to care for patients. Too often, concepts are deemed important in the classroom, but utilization of these concepts is not demonstrated on the wards and clinics. In other words, the hidden curriculum takes hold, and learners devalue certain aspects of medicine because this is what they see “real doctors” do (consciously or unconsciously) in practice. As the old adage states: “Actions speak louder than words.” This makes clear the importance of intentionally training physicians to be capable of applying ML in practice and effectively teaching it. Such vertical integration is likely to lead to reinforcement of the value and importance of ML in patient care and further development of skills necessary to effectively use ML programs in practice. Vertical integration will only occur with appropriate longitudinal integration across physicians’ careers, which should come in the form of continuing medical education and faculty development programs.

마무리 비고
Concluding Remarks

의료 분야에서 ML의 사용이 증가함에 따라 의사와 의료 교육자는 핵심 이해 관계자가 되어야 한다. 우리가 얼마나 깊이 우리의 판돈stake을 땅에 박을지는 두고 봐야 한다. 의사가 ML 알고리즘의 개발 및 구현에 적극적인 목소리를 낼 것인가? 우리는 의사가 ML을 실제로 적용하도록 가르치기 위해 누구에게 의지할 것인가? 우리는 의학에서 또 다른 패러다임 전환의 한가운데에 있다. 의료 교육자는 증거 기반, 데이터 지향 및 환자 중심의 의사 교육에 도움이 되는 교육 프로그램을 제공해야 합니다. 이 요청을 무시하는 것은 현재와 미래의 의사들, 그리고 더 중요한 것은 우리가 돌보는 환자에게 해로울 것이다.

Physicians and medical educators need to be key stakeholders as the use of ML in health care increases. How deeply we drive our stakes into the ground remains to be seen. Will physicians be an active voice in the development and implementation of ML algorithms? Who will we rely upon to teach physicians to apply ML in practice? We are in the midst of another paradigm shift in medicine. Medical educators must embrace the call to deliver educational programs conducive to training evidence-based, data-conscious, and patient-centered physicians. Ignoring this call will prove detrimental to current and future physicians, and more importantly the patients for whom we care.

 


 

Acad Med. 2021 Jul 1;96(7):954-957. doi: 10.1097/ACM.0000000000003943.

Machine Learning: The Next Paradigm Shift in Medical Education

Affiliations collapse

Affiliations

1C.A. James is assistant professor, Departments of Internal Medicine and Pediatrics, University of Michigan Medical School, Ann Arbor, Michigan.

2K.M. Wheelock is an internal medicine house officer, Yale School of Medicine, New Haven, Connecticut.

3J.O. Woolliscroft is professor, Departments of Internal Medicine and Learning Health Sciences, and Lyle C. Roll Professor of Medicine, University of Michigan Medical School, Ann Arbor, Michigan.

PMID: 33496428

DOI: 10.1097/ACM.0000000000003943

Abstract

Machine learning (ML) algorithms are powerful prediction tools with immense potential in the clinical setting. There are a number of existing clinical tools that use ML, and many more are in development. Physicians are important stakeholders in the health care system, but most are not equipped to make informed decisions regarding deployment and application of ML technologies in patient care. It is of paramount importance that ML concepts are integrated into medical curricula to position physicians to become informed consumers of the emerging tools employing ML. This paradigm shift is similar to the evidence-based medicine (EBM) movement of the 1990s. At that time, EBM was a novel concept; now, EBM is considered an essential component of medical curricula and critical to the provision of high-quality patient care. ML has the potential to have a similar, if not greater, impact on the practice of medicine. As this technology continues its inexorable march forward, educators must continue to evaluate medical curricula to ensure that physicians are trained to be informed stakeholders in the health care of tomorrow.

+ Recent posts